CN111698232A - 数据处理方法、装置、计算机设备以及存储介质 - Google Patents
数据处理方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN111698232A CN111698232A CN202010494095.2A CN202010494095A CN111698232A CN 111698232 A CN111698232 A CN 111698232A CN 202010494095 A CN202010494095 A CN 202010494095A CN 111698232 A CN111698232 A CN 111698232A
- Authority
- CN
- China
- Prior art keywords
- noise reduction
- target
- audio
- noise
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 168
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 230000009467 reduction Effects 0.000 claims abstract description 1138
- 230000006854 communication Effects 0.000 claims abstract description 252
- 238000004891 communication Methods 0.000 claims abstract description 250
- 230000000694 effects Effects 0.000 claims abstract description 99
- 238000001228 spectrum Methods 0.000 claims description 68
- 238000000034 method Methods 0.000 claims description 66
- 238000009432 framing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 68
- 230000006870 function Effects 0.000 description 43
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 13
- 238000005070 sampling Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 238000011946 reduction process Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 201000007201 aphasia Diseases 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供了一种数据处理方法、装置、计算机设备以及存储介质,本申请可以采用人工智能云服务进行数据处理,该方法包括:响应针对目标用户的语音通信请求,为目标用户开启语音通信业务,获取语音通信业务中的目标音频数据;采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息;根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;目标降噪模式属于至少两个降噪模式;在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息。采用本申请实施例,可以丰富语音通信业务中的页面展示内容。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及数据处理方法、装置、计算机设备以及存储介质。
背景技术
随着多媒体技术的不断发展和各种社交娱乐软件的涌现,越来越多的用户使用通讯应用来交流生活及工作,如会议应用由于可以实现多人远程视频/语音沟通,已经成为用户日常沟通中不可或缺的一部分。
现有会议应用的会议场景中,用户可以通过会议号或手机号码等进入会议,在会议应用中可以显示该会议的会话页面,并为该用户提供参会人员名单以及常用会议功能(如开启视频、开启语音、共享屏幕、邀请人员以及聊天等功能)。可见,该会议的会话页面所显示的信息缺乏变化,进而导致会话页面展示信息过于单一。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备以及存储介质,可以丰富语音通信业务中的页面展示内容。
本申请实施例一方面提供了一种数据处理方法,包括:
响应针对目标用户的语音通信请求,为目标用户开启语音通信业务,获取语音通信业务中的目标音频数据;
采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息;
根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;目标降噪模式属于至少两个降噪模式;
在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息。
其中,上述获取语音通信业务中的目标音频数据,包括:
采集语音通信业务中的初始音频数据,对初始音频数据进行分帧处理,得到至少两个音频片段;
对至少两个音频片段进行噪音检测,将至少两个音频片段中包含噪音数据的音频片段确定为目标音频数据。
其中,上述采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息,包括:
采用目标降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频;
采用原始降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第二降噪音频;原始降噪模式是指至少两个降噪模式中除目标降噪模式的其余降噪模式;
将第一降噪音频和第二降噪音频分别对应的信噪比确定为降噪效果信息。
其中,上述采用目标降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频,包括:
将目标音频数据输入第一降噪模型中,根据第一降噪模型获取目标对数功率谱;第一降噪模型用于表征噪音音频的对数功率谱与纯净音频的对数功率谱之间的映射关系;
根据目标对数功率谱和目标音频数据对应的相位信息,确定目标音频数据对应的第一降噪音频。
其中,上述采用目标降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频,包括:
根据第二降噪模型获取目标音频数据对应的第一降噪增益,根据第三降噪模型获取目标音频数据对应的第二降噪增益;第二降噪模型的降噪强度大于第第三降噪模型的降噪强度;第二降噪模型对目标音频数据的语音损伤程度,大于第三降噪模型对目标音频数据的语音损伤程度;
根据第一降噪增益和第二降噪增益,确定目标音频数据的合并降噪增益;
根据合并降噪增益对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频。
其中,上述采用原始降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第二降噪音频,包括:
对目标音频数据进行分解,得到语音序列数据和噪音序列数据,获取语音序列数据对应的第一权重值和噪音序列数据对应的第二权重值;第一权重值大于第二权重值;
根据第一权重值与语音序列数据之间的乘积,以及第二权重值与噪音序列数据之间的乘积,确定目标音频数据对应的第二降噪音频。
其中,上述根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长,包括:
当第一降噪音频的信噪比大于第二降噪音频的信噪比时,将第一降噪音频的时长确定为语音通信业务中的单位业务降噪时长;
获取目标用户对应的历史降噪时长,根据历史降噪时长和单位业务降噪时长,确定目标降噪模式中针对目标用户的音频降噪总时长。
其中,上述当第一降噪音频的信噪比大于第二降噪音频的信噪比时,将第一降噪音频的时长确定为语音通信业务中的单位业务降噪时长,包括:
当第一降噪音频的信噪比大于第二降噪音频的信噪比时,获取第一降噪音频对应的降噪量;
当降噪量达到数量阈值时,将达到数量阈值的第一降噪音频的时长,确定为语音通信业务中的单位业务降噪时长。
其中,上述获取目标用户对应的历史降噪时长,根据历史降噪时长和单位业务降噪时长,确定目标降噪模式中针对目标用户的音频降噪总时长,包括:
获取目标用户对应的用户标识,根据用户标识从用户数据库中获取与用户标识相关联的历史语音通信业务中的历史降噪时长;
将历史降噪时长和单位业务降噪时长之和,确定为目标降噪模式中针对目标用户的音频降噪总时长。
其中,该方法还包括:
获取目标用户对应的语音通信总时长,确定音频降噪总时长与语音通信总时长之间的时长比例;
当时长比例大于或等于第一比例阈值时,生成目标用户对应的通信环境警告信息,在会话页面中显示通信环境警告信息。
其中,该方法还包括:
获取目标用户对应的语音通信总时长,确定音频降噪总时长与语音通信总时长之间的时长比例;
当时长比例大于或等于第二比例阈值时,目标用户确定为异常人群,为异常人群对应的目标音频数据更新降噪模式;更新后的降噪模式的降噪效果优于目标降噪模式的降噪效果。
其中,该方法还包括:
响应针对目标降噪模式的切换触发操作,确定切换触发操作所触发的原始降噪模式,获取原始降噪模式对应的原始降噪总时长;原始降噪模式是指至少两个降噪模式中除目标降噪模式的其余降噪模式;
在会话页面中将关联提示信息切换显示为原始降噪模式和原始降噪总时长之间的降噪提示信息。
本申请实施例一方面提供了一种数据处理装置,其特征在于,包括:
获取模块,用于响应针对目标用户的语音通信请求,为目标用户开启语音通信业务,获取语音通信业务中的目标音频数据;
降噪模块,用于采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息;
统计模块,用于根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;目标降噪模式属于至少两个降噪模式;
显示模块,用于在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息。
其中,获取模块包括:
分帧单元,用于采集语音通信业务中的初始音频数据,对初始音频数据进行分帧处理,得到至少两个音频片段;
噪音检测单元,用于对至少两个音频片段进行噪音检测,将至少两个音频片段中包含噪音数据的音频片段确定为目标音频数据。
其中,降噪模块包括:
第一降噪处理单元,用于采用目标降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频;
第二降噪处理单元,用于采用原始降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第二降噪音频;原始降噪模式是指至少两个降噪模式中除目标降噪模式的其余降噪模式;
效果确定单元,用于将第一降噪音频和第二降噪音频分别对应的信噪比确定为降噪效果信息。
其中,第一降噪处理单元包括:
功率谱获取子单元,用于将目标音频数据输入第一降噪模型中,根据第一降噪模型获取目标对数功率谱;第一降噪模型用于表征噪音音频的对数功率谱与纯净音频的对数功率谱之间的映射关系;
第一确定子单元,用于根据目标对数功率谱和目标音频数据对应的相位信息,确定目标音频数据对应的第一降噪音频。
其中,第一降噪处理单元包括:
增益获取子单元,用于根据第二降噪模型获取目标音频数据对应的第一降噪增益,根据第三降噪模型获取目标音频数据对应的第二降噪增益;第二降噪模型的降噪强度大于第第三降噪模型的降噪强度;第二降噪模型对目标音频数据的语音损伤程度,大于第三降噪模型对目标音频数据的语音损伤程度;
增益合并子单元,用于根据第一降噪增益和第二降噪增益,确定目标音频数据的合并降噪增益;
第二确定子单元,用于根据合并降噪增益对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频。
其中,第二降噪处理单元包括:
分解子单元,用于对目标音频数据进行分解,得到语音序列数据和噪音序列数据,获取语音序列数据对应的第一权重值和噪音序列数据对应的第二权重值;第一权重值大于第二权重值;
乘积运算子单元,用于根据第一权重值与语音序列数据之间的乘积,以及第二权重值与噪音序列数据之间的乘积,确定目标音频数据对应的第二降噪音频。
其中,统计模块包括:
单位时长确定单元,用于当第一降噪音频的信噪比大于第二降噪音频的信噪比时,将第一降噪音频的时长确定为语音通信业务中的单位业务降噪时长;
总时长确定单元,用于获取目标用户对应的历史降噪时长,根据历史降噪时长和单位业务降噪时长,确定目标降噪模式中针对目标用户的音频降噪总时长。
其中,单位时长确定单元包括:
降噪量获取子单元,用于当第一降噪音频的信噪比大于第二降噪音频的信噪比时,获取第一降噪音频对应的降噪量;
降噪量比较子单元,用于当降噪量达到数量阈值时,将达到数量阈值的第一降噪音频的时长,确定为语音通信业务中的单位业务降噪时长。
其中,总时长确定单元包括:
历史时长获取子单元,用于获取目标用户对应的用户标识,根据用户标识从用户数据库中获取与用户标识相关联的历史语音通信业务中的历史降噪时长;
求和子单元,用于将历史降噪时长和单位业务降噪时长之和,确定为目标降噪模式中针对目标用户的音频降噪总时长。
其中,该装置还包括:
时长比例确定模块,用于获取目标用户对应的语音通信总时长,确定音频降噪总时长与语音通信总时长之间的时长比例;
警告模块,用于当时长比例大于或等于第一比例阈值时,生成目标用户对应的通信环境警告信息,在会话页面中显示通信环境警告信息。
其中,该装置还包括:
时长比例确定模块,用于获取目标用户对应的语音通信总时长,确定音频降噪总时长与语音通信总时长之间的时长比例;
降噪模式更新模块,用于当时长比例大于或等于第二比例阈值时,目标用户确定为异常人群,为异常人群对应的目标音频数据更新降噪模式;更新后的降噪模式的降噪效果优于目标降噪模式的降噪效果。
其中,该装置还包括:
响应操作模块,用于响应针对目标降噪模式的切换触发操作,确定切换触发操作所触发的原始降噪模式,获取原始降噪模式对应的原始降噪总时长;原始降噪模式是指至少两个降噪模式中除目标降噪模式的其余降噪模式;
切换模块,用于在会话页面中将关联提示信息切换显示为原始降噪模式和原始降噪总时长之间的降噪提示信息。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中一方面中方法的步骤。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中一方面中方法的步骤。
本申请实施例可以响应针对目标用户的语音通信请求,为所述目标用户开启语音通信业务,获取该语音通信业务中的目标音频数据,进而采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息,根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长,该目标降噪模式属于上述至少两个降噪模式,在语音通信业务的会话页面中显示该目标降噪模式与音频降噪总时长之间的关联提示信息。可见,在语音通信业务中可以采用至少两种降噪模式对包含噪音的音频数据进行降噪处理,根据每种降噪模式分别对应的降噪效果信息可以统计目标降噪模式的音频降噪总时长,即与目标用户相关联的语音通信业务中采用目标降噪模式进行降噪处理的音频累计总时长,在语音通信业务的会话页面中可以显示该目标降噪模式和音频累计总时长之间的提示信息,以提醒目标用户语音通信业务中的降噪处理结果,进而可以丰富语音通信业务中的页面展示内容。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种架构图;
图2是是本申请实施例提供的一种数据处理场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种音频数据的降噪处理示意图;
图5是本申请实施例提供的一种音频数据的降噪处理示意图;
图6是本申请实施例提供的一种统计语音通信业务中的音频降噪总时长的示意图;
图7是本申请实施例提供的一种通信环境警告信息的界面示意图;
图8是本申请实施例提供的一种显示降噪总时长信息的界面图;
图9是本申请实施例提供的一种音频数据处理方法的流程图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能云服务,一般也被称作为“AI即服务”(AI as a Service,AIaaS)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API(Application ProgramInterface)接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
本申请实施例提供的方案涉及人工智能云服务中的AI降噪服务,本申请实施例中可以通过API接口的方式接入AI降噪服务,通过AI降噪服务对语音通信业务中所采集的音频数据进行降噪处理,以提高语音通信业务中的通话质量。
请参见图1,图1是本申请实施例提供的一种系统架构图。如图1所示,该系统架构可以包括服务器10d和多个终端设备(如图1所示,具体包括终端设备10a、终端设备10b以及终端设备10c)。其中,每个终端设备均可以包括客户端,该客户端可以用于实现远程视频或语音通信功能(如远程视频会议、语音通话等),在客户端中进行视频或语音通信时,该客户端可以对视频或语音通信过程中的音频数据进行降噪处理,并在客户端中显示视频或语音通信中进行降噪处理的音频时长等信息,服务器10d可以为该客户端的后台服务器,该服务器10d可以与每个终端设备进行数据传输。
在视频或语音通信场景中,以终端设备10a和服务器10d为例,实现本申请所提出的数据处理方案,即音频数据的降噪处理过程以及降噪处理的音频时长显示过程。当终端设备10a检测到目标用户的视频或语音通信请求时,可以为该目标用户开启视频或语音通信业务,并采集该视频或语音通信业务中的音频数据。可以理解地,终端设备10a所获取到的音频数据可以包括该视频或语音通信业务中所有用户的语音数据和周围的噪音(如办公室内的空调声、风扇声、键盘声、鼠标点击声音、街道车辆声音等),当视频或语音通信业务中存在用户处于嘈杂的环境中时,该用户的语音会受到噪音的干扰,进而影响视频或语音通话。为了降低音频数据中所包含的噪音,给视频或语音通信业务中的用户提供一个良好的通信环境,终端设备10a可以对采集的音频数据进行降噪处理,并统计视频或语音通信业务中进行了降噪处理的音频时长(终端设备10a所采集的音频数据中可能包含噪音,也可能不包含噪音,不包含噪音的音频数据无需进行降噪处理),在视频或语音通信业务结束后,终端设备10a可以将降噪处理的音频时长上报给服务器10d,服务器10d可以将终端设备10a上报的音频时长累加到上述目标用户对应的降噪总时长中,该降噪总时长是指目标用户所参与的视频或语音通信业务中,进行降噪处理的音频累积总时长。终端设备10a可以向服务器10d请求该目标用户对应的降噪总时长,并生成与该降噪总时长相关联的提示信息,在视频或语音通信业务的会话页面中进行展示。
可以理解地,本申请提出的数据处理方案可以由终端设备独立执行,或者由服务器独立执行(此时的音频数据可以由外接设备采集,进而将采集的音频数据传输给服务器,由服务器进行降噪处理以及降噪时长的统计操作,提示信息可以在外接显示器上显示),或者由终端设备和服务器组成的系统完成,或者由计算机设备中的一个计算机程序(包括程序代码)执行,例如,该数据处理方案由一个应用软件执行,应用软件的客户端可以实时采集视频或语音通信业务中的音频数据,对包含噪音的音频数据进行降噪处理,统计降噪处理的音频时长,并在客户端中显示针对用户的降噪总时长等信息,应用软件的后台服务器可以存储该应用软件中每个用户的降噪总时长信息。为方便描述,本申请实施例均以终端设备为例,对数据处理方案的执行过程进行详细描述。
其中,终端设备10a、终端设备10b以及终端设备10c等均可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)等,每个终端设备均可以安装用于视频或语音通信的应用软件,如即时通讯应用、会议应用等。
请参见图2,图2是本申请实施例提供的一种数据处理场景示意图,以上述图1所对应实施例中的终端设备10a为例,对会议场景中的数据处理过程进行说明。如图2所示,当处于不同地域的多个用户需要进行交流时,可以在会议应用中创建会议(创建该会议的用户可以称为会议创建人),在会议创建成功后,会议创建人可以向其余用户发送邀请信息,以邀请其余用户加入该会议,其中,该邀请信息可以包括会议时间、会议链接以及会议号等信息,其余用户可以通过会议创建人所发送的邀请信息加入该会议。例如,用户小A在会议应用中创建了会议号为123456的会议后,可以邀请用户小B、用户小C、用户小D、用户小E以及用户小F加入会议。
当用户小B接收到用户小A发送的会议邀请信息后,可以通过会议邀请信息加入会议号为123456的会议。用户小B可以点击会议邀请信息中的会议链接,终端设备10a响应用户小B针对会议邀请信息中的会议链接的点击操作,将该用户小B加入会议。当然,用户小B还可以在会议应用中输入会议号123456请求加入会议,终端设备10a可以响应该用户小B的会议加入请求,将该用户小B加入会议。在用户小B加入会议后,可以在终端设备10a的终端屏幕中显示该会议的会话页面20a,在会话页面20a中可以显示该会议的会议号:123456,参与该会议的所有用户的用户信息(如用户小A、用户小B、用户小C、用户小D、用户小E以及用户小F的头像、昵称等信息),该会议中的功能选项等。其中,功能选项可以包括语音功能选项、视频功能选项、共享屏幕功能选项、邀请功能选项、聊天功能选项、表情功能选项、文档功能选项以及设置功能选项等。语音功能选项可以用于切换语音功能的开启状态和关闭状态,当语音功能处于开启状态时,终端设备10a可以采集用户小B讲话的声音以及周围环境中的声音,即在用户小B讲话时,该会议中的用户均可以收听到用户小B的声音;当语音功能处于关闭状态时,终端设备10a停止采集声音数据,即会议中除用户小B自己之外的用户均无法收听到用户小B的声音,如该会议中的用户小A、用户小B、用户小C、用户小D、用户小E以及用户小F均开启了语音功能。视频功能选项可以用于切换视频功能的开启状态和关闭状态,当视频功能处于开启状态时,终端设备10a可以通过摄像头采集用户小B的实时环境画面,此时的在会话页面20a中可以显示用户小B的实时环境图像(如包含用户小B人脸的图像),该会议中用户均可以看到用户小B所处的实时环境;当视频功能处于关闭状态时,终端设备10a无需采集用户小B的实时环境画面,即会议中的用户均无法看到用户小B的实时环境,此时的会话页面20a中显示用户小B在会议应用中预存的头像信息,如该会议中的用户小A、用户小B、用户小C、用户小D、用户小E以及用户小F均未开启视频功能。共享屏幕功能选项用于切换共享屏幕功能的开启状态和关闭状态,当共享屏幕功能处于开启状态时,终端设备10a可以实时采集终端屏幕画面,并将实时采集的终端屏幕画面传输给该会议中其余用户;共享屏幕功能处于关闭状态时,该会议中的其余用户无法看到终端设备10a的终端屏幕画面。邀请功能选项可以用于邀请用户加入该会议,聊天功能选项可以用于在该会议中开启聊天功能,用户小B还可以触发文档功能选项上传文档,所上传的文档可以共享给该会议中的其余用户,等等。
当会议中的用户小B在讲话时,终端设备10a可以实时采集用户小B的音频数据,该音频数据可以包含用户小B的语音数据和周围的环境声音数据(即噪音数据)。由于终端设备10a所采集的音频数据是连续的音频信号,终端设备10a可以根据预设时长(如2秒等)对采集到的音频数据的分帧处理,得到音频数据对应的音频片段集合20b,即音频片段集合20b中可以包括音频数据分帧处理后的多个音频片段,如音频片段1,音频片段2,音频片段3,…,音频片段n(n为正整数);终端设备10a可以对音频片段集合20b中的每个音频片段均进行噪音检测,筛选出包含噪音的音频片段,如音频片段3。可选的,终端设备10a在采集到音频数据后,可以直接对所采集的音频数据进行噪音检测,从音频数据中提取出包含噪音的音频片段,如音频片段3。
为了减少音频数据中噪音对语音数据的干扰,终端设备10a可以对包含噪音的音频片段进行降噪处理。如音频片段3中包含噪音时,终端设备10a可以采用人工智能(Artificial Intelligence,AI)降噪模式和信号处理降噪模式对音频片段3进行降噪处理,其中,信号处理降噪模式可以用于抑制偏平稳的噪音,如空调声,风扇声等噪音,AI降噪模式可以用于抑制复杂的噪音,如环境中的动物叫声、车辆的鸣笛声等。
可选的,当采用AI降噪模式进行降噪处理时,终端设备10a可以获取降噪模型20c,该降噪模型20c可以用于实现包含噪音的音频数据的对数功率谱与纯净音频数据(即不包含噪音的音频数据)的对数功率谱之间的映射;其中,对数功率谱是指对音频的功率谱进行对数处理后所得到的结果,对数功率谱可以使用分贝(db)作为度量单位,功率谱也可以称为功率谱密度,功率谱用于表示单位频带的音频信号功率,可以通过对音频进行自相关计算后再进行傅里叶变换,进而得到该音频对应的功率谱,功率谱可以使用瓦特/赫兹(W/Hz)作为度量单位。终端设备10a可以将音频片段3对应的对数功率谱输入降噪模型20c中,通过该降噪模型20c可以获取音频片段3降噪后的对数功率谱,获取音频片段3对应的相位信息(降噪模型20c对音频数据的相位信息不敏感,可以默认降噪后的对数功率谱与降噪前的对数功率谱的相位信息相同),根据相位信息与降噪模型20c所输出的降噪后的对数功率谱进行音频重建,得到重建后的音频,此处可以将重建后的音频称为音频片段3对应的降噪音频1,终端设备10a可以进一步获取降噪音频对应的信噪比1。
可选的,当采用信号处理降噪模式进行降噪处理时,终端设备10a可以采用快速傅里叶变换得到该音频片段3对应的频谱,根据频谱对音频片段3进行分解,得到语音序列20d和噪音序列20e;终端设备10a可以确定针对音频片段3对应的滤波参数(可以包括语音序列20d和噪音序列20e分别对应的权重,语音序列20d对应的权重大于噪音序列20e对应的权重,以达到抑制噪音的目的),根据滤波参数对音频片段3进行降噪处理,得到音频片段3对应的降噪音频2,终端设备10a可以进一步获取降噪音频2对应的信噪比2。
当信噪比1大于信噪比2时,表示AI降噪模式的降噪效果比信号处理降噪模式的降噪效果更好,最终在会议中输出的音频数据为使用AI降噪模式进行降噪处理后的降噪音频1,进而可以将音频片段3对应的时长作为AI降噪模式在当前会议中针对用户小B的降噪时长,在当前会议结束后,终端设备10a可以统计得到该会议中使用AI降噪模式的降噪时长为:b;当信噪比1小于信噪比2时,表示AI降噪模式的降噪效果比信号处理降噪模式的降噪效果要差,最终在会议中输出的音频数据为使用信号处理降噪模式进行降噪处理后的降噪音频2,此时音频片段3对应的时长不能统计入AI降噪模式对应的降噪时长中,当然,此时音频片段3对应的时长可以统计入信号处理降噪模式对应的降噪时长中。
终端设备10a可以获取与用户小B相关联的历史降噪时长:a,历史降噪时长是指用户小B在参加本次会议之前所参与的会议中,采用AI降噪模式进行降噪处理的累积时长,将历史降噪时长a与本次会议的降噪时长b相加,可以得到用户小B对应的降噪总时长为:c,终端设备10a可以将用户小B对应的降噪总时长c进行存储,如存储在会议应用的后台数据库中。用户小B每次加入会议时,终端设备10a均可以根据用户小B的用户信息(如用户账号)获取该用户小B对应的降噪总时长,当降噪总时长达到预先设置的阈值(该阈值可以为10小时、100小时、1000小时等)时,可以生成针对该用户小B的提示信息,并在会议的会话页面中显示该提示信息,如用户小B在加入会议号为7234567的会议时,终端设备10a检测到用户小B对应的降噪总时长c达到预设的阈值时,可以生成提示信息20g,该提示信息20g是指AI降噪模式与降噪总时长c之间的关联信息,该提示信息20g可以为:人工智能降噪,已经累计帮您消除了c小时的嘈杂噪声。可以理解地,当用户小B对应的降噪总时长没有达到阈值时,终端设备10a无需生成AI降噪模式与降噪总时长c之间的关联信息。
请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该数据处理方法可以包括以下步骤:
步骤S101,响应针对目标用户的语音通信请求,为目标用户开启语音通信业务,获取语音通信业务中的目标音频数据。
可选的,当目标用户需要与其余用户进行语音通信时,目标用户可以在终端设备的通信应用中发起语音通信请求(如上述图2所对应实例中的终端设备10a),终端设备可以响应该目标用户的语音通信请求,为该目标用户开启语音通信业务,当目标用户在语音通信业务中讲话时,终端设备可以实时采集该目标用户在语音通信业务中所说的话,此时目标用户说的话可以作为终端设备所采集的音频数据,终端设备可以从采集的音频数据中提取包含噪音的目标音频数据。其中,上述通信应用可以包括即时通讯应用、视频会议应用等具有语音通信功能的应用,语音通信业务可以是指即时通讯应用中的在线语音通话过程,或者是即时通讯应用中的在线视频通话过程,或者是即时通讯应用中的离线语音通话过程(如语音消息聊天),或者是视频会议应用中的纯语音会议,或者是视频会议应用中的在线视频会议等。当通信应用为即时通信应用时,目标用户可以通过触发好友或群组聊天页面中的语音通话功能发起语音通信请求,或者触发语音消息输入功能发起语音通信请求;当通信应用为视频会议应用时,目标用户可以通过点击会议链接或输入会议号发起语音通信请求,即申请加入会议(包括纯语音会议和在线视频会议)的请求。
终端设备可以实时采集语音通信业务中的初始音频数据,对所采集的出是音频数据进行分帧处理,得到至少两个音频片段(如上述图2所对应实施例中音频片段集合20b中所包含的音频片段),进而可以对至少两个音频片段进行噪音检测,将至少两个音频片段中包含噪音数据的音频片段确定为目标音频片段。其中,初始音频数据可以是指目标用户在讲话时终端设备所采集到的声音,当目标用户所处的环境比较嘈杂(如室内的电视播放声音、音乐播放声音等)时,终端设备在采集目标用户讲话的声音时,也会将目标用户周围环境中的噪音采集进去,那么此时的初始音频数据中除了目标用户讲话的声音之外,还可能包括噪音数据,例如,若目标用户是处于空调房中,则初始音频数据中可能包括空调机的运行声音或者电风扇的转动声等噪音;若目标用户处于商场中,则初始音频数据可以能包括商场播放的音乐以及店员的吆喝声等噪音;若目标用户处于街道上,则初始音频数据可能包括车辆的鸣笛声以及周围路人的说话声等噪音。初始音频数据可以理解为连续时间内的一段音频信号,终端设备可以对该初始音频数据进行分帧处理,得到至少两个音频片段,即将初始音频数据拆分为至少两个音频片段,每个音频片段可以具有相同的时长,或者每个音频片段可以具有相同数量的采样点。可以理解的是,初始音频数据的分帧处理过程中的参数信息可以预先设置,也可以根据初始音频数据的实际时长进行灵活设置。例如,分帧处理的参数信息预先设置为30毫秒,则终端设备可以将初始音频数据分为时长为30毫秒的多个音频片段,即拆分后的每个音频片段的时长均不能超过30毫秒;分帧处理的参数信息预先设置为100个采样点时,终端设备可以对初始音频数据进行数据采样,得到采样后的初始音频数据,进而可以依次将采样后的初始音频数据中的100个采样点作为一个音频片段。
终端设备在得到初始音频数据对应的至少两个音频片段后,可以对每个音频片段均进行噪音检测,筛选出包含噪音数据的音频片段,将至少两个音频片段中包含噪音数据的音频片段确定为目标音频数据。其中,人说话的声音是由人的声道所产生的,因此人的语音与周围环境的噪音具有较大的区别特征,终端设备可以根据语音与噪音之间的区别特征对每个音频片段进行噪音检测,得到目标音频数据。例如,终端设备将初始音频数据进行分帧处理后,得到5个音频片段,分别为音频片段1,音频片段2、音频片段3、音频片段4以及音频片段5,当终端设备检测到音频片段1、音频片段3以及音频片段4均包含噪音数据时,可以将音频片段1、音频片段3以及音频片段4均确定为目标音频数据。
步骤S102,采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息。
可选的,为了抑制语音通信业务中噪音对目标用户语音的干扰,终端设备可以对目标音频数据进行降噪处理,尽量保护语音通信业务中用户的语音纯净无杂音。因此,终端设备可以采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪后的音频,并基于降噪后的音频确定每个降噪模式分别对应的降噪效果信息,该降噪效果信息可以包括但不限于:信噪比,语音损失度;终端设备可以根据至少两个降噪模式分别对应的降噪效果信息,选出降噪效果最好的降噪模式所对应的降噪后的音频,在语音通信业务输出降噪后的音频,以使语音通信业务中的其余用户(该语音通信业务中除了目标用户之外的剩余用户)可以收听到上述降噪后的音频。其中,终端设备可以根据降噪过程中所采用的降噪算法来进行降噪模式的划分,如至少两个降噪模式可以包括人工智能(AI)降噪模式和传统降噪模式,AI降噪模式中所采用的降噪算法为AI算法,传统降噪模式中所采用的降噪算法为信号处理算法;或者,可以根据降噪强度来进行降噪模式的划分(采用的降噪算法不同,对音频数据的降噪强度也会有所区别),如至少两个降噪模式可以包括强降噪模式、较强降噪模式、较弱降噪模式以及弱降噪模式等。
可选的,下面以至少两个降噪模式包括AI降噪模式和传统降噪模式为例,对目标音频数据的降噪过程进行说明,此时的AI降噪模式可以称为目标降噪模式,传统降噪模式可以称为原始降噪模式。终端设备可以采用目标降噪模式对目标音频数据进行降噪处理,得到该目标音频数据对应的第一降噪音频;采用原始降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第二降噪音频,将第一降噪音频和第二降噪音频分别对应的信噪比确定为相应降噪模式的降噪效果信息。换言之,终端设备可以采用不同的降噪模式分别对包含噪音数据的目标音频数据进行降噪处理,得到每个降噪模式针对目标音频数据的降噪音频(即降噪后的音频,包括第一降噪音频和第二降噪音频),并通过计算降噪音频的信噪比,确定每个降噪模式分别对应的降噪效果信息。其中,信噪比可以表示为降噪音频中用户语音的平均功率与噪音平均功率之间的比值(降噪处理可能只消除了目标音频数据中的大部分噪音,降噪音频中可能会残留一些噪音),可以使用分贝(db)作为信噪比的度量单位,信噪比越大,表示降噪效果越好。可选的,终端设备可以通过计算降噪音频的语音损失度,确定每个降噪模式分别对应的降噪效果信息,语音损失度可以表示为降噪处理后的降噪音频中的语音数据的损失程度,即降噪处理过程可能会消除一些目标音频数据中的语音数据,语音损失度越小,表示降噪效果越好。可选的,可以将降噪音频对应的信噪比和语音损失度确定为相应降噪模式的降噪效果信息,当第一降噪音频的信噪比大于第二降噪音频的信噪比,且第一降噪音频的语音损失度小于第二降噪音频的语音损失度时,可以确定目标降噪模式的降噪效果要优于原始降噪模式的降噪效果。
进一步的,终端设备可以获取目标降噪模式中的第一降噪模型,将目标音频数据输入第一降噪模型中,根据第一降噪模型获取目标对数功率谱;该第一降噪模型用于表征噪音音频(即包含噪音的音频)的对数功率谱与纯净音频(即不包含噪音的音频)的对数功率谱之间的映射关系,可以根据目标对数功率谱和目标音频数据对应的相位信息,确定目标音频数据对应的第一降噪音频。其中,第一降噪模型可以是指用于对目标音频数据进行降噪处理的深度神经网络模型,该第一降噪模型是通过纯净音频和携带噪音的音频训练得到的。
其中,在第一降噪模型的训练过程中,终端设备可以获取纯净音频和携带噪音的音频,将纯净音频和携带噪音的音频均作为用于训练第一降噪模型的样本音频数据,其中,纯净音频是指仅包含语音的音频数据,如使用不同声音大小的语音,或者不同用户的语音等,携带噪音的音频可以包括语音和噪音,携带噪音的音频可以为终端设备在不同线下场景中所采集的音频,或者是在纯净音频上添加不同等级信噪比的多种噪音后所得到的音频,如信噪比等级可以包括20db、30db、15db、10db、25db等,噪声的种类可以包括空调或风扇运转的声音、汽车鸣笛声、鸟叫声、狗吠声、走路声等。
当携带噪音的音频为在纯净音频上添加噪音所生成时,终端设备可以将纯净音频作为样本音频数据中的正样本,将携带噪音的音频作为样本音频数据中的负样本,每个负样本均有对应的正样本,如在纯净音频1上添加信噪比等级为20db的汽车鸣笛声,生成负样本1,在纯净音频1上添加信噪比等级为10db的汽车鸣笛声,生成负样本2,在纯净音频1上添加信噪比等级为20db的空调运转声,生成负样本3,则负样本1、负样本2以及负样本3所对应的正样本均为纯净音频1。终端设备可以获取所有正样本和所有负样本分别对应的对数功率谱,使用负样本的对数功率谱作为第一降噪模型的输入数据,通过第一降噪模型可以获取负样本降噪后的输出对数功率谱,该负样本对应的正样本的对数功率谱可以作为该负样本的期望输出结果,即负样本降噪后的期望输出结果为添加噪音之前的纯净音频。终端设备可以将纯净音频的对数功率谱与输出对数功率谱之间的最小均方误差作为第一降噪模型的损失函数,最小均方误差越小,表示第一降噪模型对应的输出对数功率谱与纯净音频的对数功率谱越接近,即第一降噪模型的降噪效果越好,因此可以通过最小化损失函数对第一降噪模型的参数不断进行调整,当训练次数达到预设的最大值,或者损失函数达到收敛时,完成对第一降噪模型的训练过程,可以将此时的第一降噪模型的参数进行保存。
第一降噪模型完成训练后,终端设备可以直接使用训练完成的第一降噪模型对目标音频数据进行降噪处理。终端设备可以获取目标音频数据对应的初始对数功率谱,将初始对数功率谱输入第一降噪模型中,该第一降噪模型可以输出对初始对数功率谱进行降噪处理后的目标对数功率谱,获取目标音频数据对应的相位信息(音频可以理解为声波,即目标音频数据可以用波形图来表示,相位可以用于表征波形图中点的震动位置,降噪后的音频需要与降噪前的音频保持相同的相位信息),根据相位信息与目标对数功率谱进行音频重建,得到目标音频数据进行降噪处理后的第一降噪音频。
请一并参见图4,图4是本申请实施例提供的一种音频数据的降噪处理示意图。如图4所示,当终端设备获取到目标音频数据30a时,终端设备可以获取该目标音频数据30a对应的初始对数功率谱30b,该初始对数功率谱30b中的横坐标可以表示为频率(Hz),纵坐标可以表示为分贝;终端设备可以获取训练完成后的降噪模型30c(即上述第一降噪模型,可以用于对携带噪音的音频进行降噪处理),该降噪模型30c可以是指一个深度神经网络模型,该降噪模型30c可以包括输入层、多个隐藏层(如图4所示,具体包括隐藏层1、隐藏层2以及隐藏层3)以及输出层。终端设备可以将初始对数功率谱30b输入降噪模型30c中,即将初始对数功率谱30b中的值输入降噪模型30c中的输入层,其中,输入层的神经元个数与初始对数功率谱30b中所包含的数值数量相同,初始对数功率谱30b可以是对目标音频数据进行自相关计算后采用快速傅里叶变换所得到的,该初始对数功率谱30b可以理解为包含一系列数值的序列(也可以看成是一个数值向量),如初始对数功率谱30b包含257个数值时,表示初始对数功率谱30b是一个维度为257的向量,降噪模型30c的输入层可以包括257个神经元。通过降噪模型30c中的隐藏层可以提取初始对数功率谱30b中的音频特征(降噪模型30c中的多个隐藏层所包含的神经元个数是相同的,即每个隐藏层输出的向量的维度是相同的),通过输出层可以输出初始对数功率谱30b对应的目标对数功率谱30d;终端设备可以获取目标音频数据30a对应的相位信息,根据相位信息与目标对数功率谱30d进行音频重建,得到降噪音频30e,该降噪音频30e是指目标音频数据30a进行降噪处理后的音频。采用第一降噪模型对目标音频数据进行降噪处理,可以抑制目标音频数据中所包含的复杂噪声(如震动幅度较大的噪音,如车辆鸣笛声、商场吆喝声等),有利于提高目标音频数据的降噪效果。
可选的,终端设备可以获取目标降噪模式中的第二降噪模型和第三降噪模型,并根据第二降噪模型获取目标音频数据对应的第一降噪增益,根据第三降噪模型获取目标音频数据对应的第二降噪增益,终端设备可以根据第一降噪增益和第二降噪增益,确定目标音频数据的合并降噪增益,根据合并降噪增益对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频。其中,该第二降噪模型对目标音频数据的语音损伤程度大于第三降噪模型对目标音频数据的语音损伤程度,且第二降噪模型的降噪强度大于第三降噪模型的降噪强度;第二降噪模型也可以称为强降噪模型,第三降噪模型也可以称为语音保护模型,第二降噪模型和第三降噪模型均为预先训练好的可以用于获取目标音频数据的降噪增益的模型,即第二降噪模型和第三降噪模型都可以实现对目标音频数据的降噪处理过程。可以理解的是,降噪强度越大,表示对目标音频数据中噪音的抑制强度大,但同时也越容易对目标音频数据中用户语音数据造成损伤,如抑制了目标音频数据中的用户语音数据。第三降噪模型对目标音频数据的降噪强度要小于第二降噪模型对目标音频数据的降噪强度,但是第三降噪模型对目标音频数据中用户语音数据的损伤程度,要小于第二降噪模型对目标音频数据中用户语音数据的损伤程度,即第三降噪模型对目标音频数据中用户语音数据的保护程度要大于第二降噪模型对目标音频数据中用户语音数据的保护程度。
需要说明的是,第二降噪模型和第三降噪模型可以采用相同的样本音频数据进行训练,第二降噪模型和第三降噪模型对应的样本音频数据可以包括纯语音样本音频数据和纯噪音样本音频数据。其中,纯语音样本音频数据为仅包括用户语音,即用户说话的声音,该纯语音样本音频数据可以是不同用户说话的声音。纯噪音样本音频数据为仅包括噪音的音频数据,例如,纯噪音样本音频数据可以是车辆鸣笛的声音、炒菜的声音或者敲击键盘的声音等各种类型的噪音。纯语音样本音频数据和纯噪音样本音频数据可以输入到未训练的初始模型中,对初始模型进行训练,以得到上述第二降噪模型和第三降噪模型。
可选的,在第二降噪模型和第三降噪模型的训练过程中,可以将一个纯语音样本音频数据和一个纯噪音样本音频数据构成一个训练样本;终端设备可以对纯语音样本音频数据进行时域变换,得到纯语音样本音频数据的时域信号,再对该纯语音样本音频数据的时域信号进行频域变换,得到纯语音样本音频数据的频域信号;同样,可以对纯噪音样本音频数据进行时域变换,得到纯噪音样本音频数据的时域信号,再对该纯噪音样本音频数据的时域信号进行频域变换,得到纯噪音样本音频数据的频域信号。其中,属于一个训练样本的纯语音样本音频数据的频域信号和纯噪音样本音频数据的频域信号,其信号长度是相同的,如某训练样本中纯语音样本音频数据的频域信号包含3个频点对应的能量值,那么该训练样本中的纯噪音样本音频数据的频域信号也包含3个频点对应的能量值,纯语音样本音频数据的频域信号中的能量值和纯噪音样本音频数据的频域信号中的能量值,均与每个频点一一对应,其中,一个频点可以表示为频率采样点。可以计算纯语音样本音频数据的频域信号和纯噪音样本音频数据的频域信号中对应于同一频点的能量值之间的比值,得到训练样本的每个频点对应的实际的降噪增益。
在第二降噪模型和第三降噪模型训练完成后,第二降噪模型和第三降噪模型均具备了较好的降噪处理能力。终端设备可以将目标音频数据分别输入到第二降噪模型和第三降噪模型中,通过第二降噪模型输出第一降噪增益,通过第三降噪模型输出第二降噪增益。终端设备还可以对目标音频数据进行噪声估计,得到目标音频数据对应的语音估计概率(可以理解为目标音频数据中存在语音的概率),该语音估计概率包括目标音频数据的音频频率信号中每个能量值分贝对应的语音概率。其中,对目标音频数据进行噪声估计以得到目标音频数据的语音估计概率的方法,可以是采用mcra(最小值控制的递归平均)噪声估计的方法,也可以是采用语音相关性的噪声估计方法,还可以是采用噪音相关性的噪声估计方法,本申请实施例中不做具体限定。
终端设备可以将语音估计概率(语音估计概率为小于或等于1的实数)确定为第二降噪增益的加权系数,将数值1与语音估计概率之间的差值确定为第一降噪增益的加权系数,根据第一降噪增益、第二降噪增益以及两个降噪增益分贝对应的加权系数,得到目标音频数据对应的合并降噪增益,具体可以表示为:g=(1-p)*g1+p*g2,其中,g可以表示为合并降噪增益,p可以表示为语音估计概率,也可以表示为第二降噪增益g2的加权系数,g1可以表示为第一降噪增益,(1-p)可以表示为第一降噪增益g1对应的加权系数。终端设备可以将合并降噪增益与目标音频数据对应的音频频率信号相乘,得到目标音频数据对应的第一降噪音频。换言之,将合并降噪增益中所包含的每个频点所对应的降噪增益,分别与音频频率信号中属于相同频点的能量值相乘,得到每个频点分别对应的加权能量值,将包含加权能量值的音频频率信号从频率转换成时域,得到目标音频数据对应的第一降噪音频。
请一并参见图5,图5是本申请实施例提供的一种音频数据的降噪处理示意图。如图5所示,终端设备从初始音频数据中获取到目标音频数据40a后,可以对目标音频数据40a进行域变换,即将目标音频数据40a从时域变换到频域,得到目标音频数据40a的音频频域信号。该音频频域信号可以是指一个包含多个能量值的序列,该序列可以如图5中的音频频域信号40f所示。该序列中的一个能量值对应于一个频点,一个频点可以为一个频率采样点,能量值可以使用分贝(db)作为度量单位。
终端设备可以将目标音频数据40a的音频频域信号输入到强降噪模型40b(即上述第二降噪模型)中,得到目标音频数据40a对应的降噪增益1。终端设备还可以将目标音频数据40a的音频频域信号输入到语音保护降噪模型40c(即上述第三降噪模型)中,可以得到目标音频数据40a对应的降噪增益2。其中,强降噪模型40b和语音保护降噪模型40c均为采用纯语音样本音频数据和纯噪音样本音频数据训练好的,且具备对音频进行降噪处理能力的降噪模型。强降噪模型40b的降噪能力大于语音保护降噪模型40c,语音保护降噪模型40c对音频中的语音的损伤程度小于强降噪模型。换句话说,强降噪模型40b对音频中的噪声的抑制能力大于语音保护降噪模型40c,语音保护降噪模型40c对音频中的语音的保护能力大于强降噪模型。
终端设备可以通过对目标音频数据40a的音频频域信号进行噪声估计,得到目标音频数据40a的音频频域信号所对应的语音估计概率40d,该语音估计概率40d表明了目标音频数据40a为用户语音而非噪音的概率。终端设备在得到了目标音频数据40a对应的语音估计概率40d之后,可以根据该语音估计概率40d、强降噪模型40b得到的降噪增益1以及语音保护降噪模型40c得到的降噪增益2,计算出针对目标音频数据40a的最终降噪增益,该最终降噪增益也可以是指一个增益序列,如图5中的增益序列40e所示。
如图5所示,增益序列40e中可以包括5个频点分别对应的降噪增益,其中,频点1对应的降噪增益为:5,频点2对应的降噪增益为:7,频点3对应的降噪增益为:8,频点4对应的降噪增益为:10,频点5对应的降噪增益为:3。目标音频数据40a对应的音频频域信号40f中也包括上述5个频点分别对应的能量值,具体包括频点1对应的能量值为:1,频点2对应的能量值为:2,频点3对应的能量值为:3,频点4对应的能量值为:2,频点5对应的能量值为:1。
终端设备可以通过增益序列40e实现对目标音频数据40a的降噪处理过程:终端设备可以计算增益序列40e中以及音频频域信号40f中对应于相同频点的降噪增益以及能量值之间的乘积,通过该乘积得到加权频域信号40g。具体为:终端设备可以计算增益序列40e中对应于频点1的降噪增益5与音频频域信号40f中对应于频点1的能量值1之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号40g中对应于频点1的能量值为5。终端设备可以计算增益序列40e中对应于频点2的降噪增益7与音频频域信号40f中对应于频点2的能量值2之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号40g中对应于频点2的能量值14。终端设备可以计算增益序列40e中对应于频点3的降噪增益8与音频频域信号40f中对应于频点3的能量值3之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号40g中对应于频点3的能量值24。终端设备可以计算增益序列40e中对应于频点4的降噪增益10与音频频域信号40f中对应于频点4的能量值2之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号40g中对应于频点4的能量值20。终端设备可以计算增益序列40e中对应于频点5的降噪增益3与音频频域信号40f中对应于频点5的能量值1之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号40g中对应于频点5的能量值3。
在得到音频频域信号40f对应的加权频域信号40g之后,终端设备可以对该加权频域信号40g进行时域变换,即可得到目标音频数据40a的降噪音频40h。该降噪音频40h即为采用目标降噪模式对目标音频数据40a进行降噪之后,所得到的最终的音频。联合第二降噪模型和第三降噪模型对目标音频数据进行降噪处理,可以在最大程度保护目标音频数据中的用户语音的同时,最大程度抑制目标音频数据中的噪音,可以提高对目标音频数据的降噪质量。
可选的,终端设备采用原始降噪模式对目标音频数据进行降噪处理时,可以对目标音频数据进行分解,得到语音序列数据和噪音序列数据,获取语音序列数据对应的第一权重值和噪音序列数据对应的第二权重值,其中,第一权重值大于第二权重值;根据第一权重值与语音序列数据之间的乘积,以及第二权重值与噪音序列数据之间的乘积,确定目标音频数据对应的第二降噪音频。换言之,终端设备对目标音频数据的降噪处理过程可以看成是一种特殊的滤波处理过程,即消除掉目标音频数据中的噪音数据,也可以理解为增强目标音频数据中的语音数据,抑制目标音频数据中的噪音数据,因此终端设备可以对目标音频数据进行分解,从目标音频数据中提取出语音序列数据和噪音序列数据,并获取针对语音序列数据的第一权重值,以及针对噪音序列数据的第二权重值,通过第一权重值和第二权重值,可以对语音序列数据和噪音序列数据进行加权,已达到消除噪音数据的目的。可以理解的是,在采用原始降噪模式对目标音频数据进行降噪处理的过程中,语音序列数据对应的第一权重值大于噪音序列数据对应的第二权重值,在本申请实施例中可以使用小波方法、希尔伯特黄变换等信号处理方法来确定上述第一权重值和第二权重值,以此达到降噪的效果。
可选的,在原始降噪模式中,还可以使用采样降噪法、噪声门等方法对目标音频数据进行降噪处理。采样降噪法可以对噪音的波形样本进行取样,并对目标音频数据的波形和采样噪音样本进行分析,可以自动去除噪音,该采样降噪法可以用于消除持续稳定的背景噪音;噪声门方法可以预先设置一个电平的门限值,低于这个门限值的音频信号可以全部过滤掉,高于该门限值的音频信号可以全部通过,当目标音频数据中所包含的噪声种类单一,且所包含的噪音偏平稳时,采用噪声门方法对目标音频数据进行降噪,可以达到较好的降噪效果。采用原始降噪模式进行降噪处理,可以消除目标音频数据中持续稳定的噪音,且降噪处理过程较简单,有利于降低降噪处理的耗时,并降低终端设备的数据处理压力。
需要说明的是,目标降噪模式和原始降噪模式对目标音频数据的降噪处理过程是独立进行的,即终端设备可以同时采用目标降噪模式和原始降噪模式对目标音频数据进行降噪处理,分别得到目标降噪模式中目标音频数据对应的第一降噪音频,以及原始降噪模式中目标音频数据对应的第二降噪音频。当然,终端设备也可以先采用目标降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频之后,再采用原始降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第二降噪音频;或者先采用原始降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第二降噪音频之后,再采用目标降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频。
步骤S103,根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;目标降噪模式属于至少两个降噪模式。
可选的,终端设备在获取到第一降噪音频和第二降噪音频分别对应的降噪效果信息后,可以根据降噪效果信息确定降噪效果更好的降噪模式,并将目标音频数据的时长作为降噪效果更好的降噪模式在本次语音通信业务中的音频降噪时长,本次语音通信业务中的音频降噪时长也可以称为单位业务降噪时长,将该单位业务降噪时长累加到降噪效果更好的降噪模式对应的降噪总时长中。其中,目标降噪模式可以为采用AI算法进行降噪处理的降噪模式,至少两个降噪模型中除目标降噪模式之外的降噪模式均采用信号处理方法进行降噪处理,此处将采用信号处理方法进行降噪处理的降噪模式称为原始降噪模式,当目标降噪模式的降噪效果优于原始降噪模式的降噪效果时,可以将目标音频数据的时长确定为目标降噪模式在本次语音通信业务中的单位业务降噪时长,将单位业务降噪时长累加到目标降噪模式中目标用户对应的音频降噪总时长中。当然,当原始降噪模式的降噪效果由于目标降噪模式的降噪效果时,可以将目标音频数据的时长累加到原始降噪模式中目标用户对应的降噪总时长(可以称为原始降噪总时长)中。
可选的,当降噪效果信息为信噪比时,终端设备可以根据目标降噪模式中所得到的第一降噪音频的信噪比,以及原始降噪模式中所得到的第二降噪音频的信噪比,确定降噪效果更好的降噪模式。当第一降噪音频的信噪比大于第二降噪音频的信噪比时,可以将第一降噪音频的时长确定为本次语音通信业务中的单位业务降噪时长。其中,目标用户在语音通信业务中讲话时,终端设备是实时采集该目标用户的音频数据的,从采集的音频数据中获取到包含噪声的目标音频数据后,终端设备对目标音频数据的降噪处理过程是分片段进行的,在完成一个音频片段的降噪处理过程后,终端设备可以根据降噪效果信息将该音频片段的时长作为降噪效果更好的降噪模式中目标用户的降噪时长,当本次语音通信业务完成后,可以获得在本次语音通信业务中每个降噪模式分别对应的最终降噪时长,将目标降噪模式在本次语音通信业务中的降噪时长之和确定为单位业务降噪时长。需要说明的是,进行降噪处理后的第一降噪音频的时长与目标音频数据的时长相同,进行降噪处理后的第二降噪音频的时长与目标音频数据的时长相同,可以得知第一降噪音频的时长与第二降噪音频的时长相同。
举例来说,在本次语音通信业务中,所采集的语音数据中包含噪音数据的音频片段依次为:音频片段1、音频片段2、音频片段3、音频片段4以及音频片段5;终端设备分别采用目标降噪模式和原始降噪模式依次对音频片段1、音频片段2、音频片段3、音频片段4以及音频片段5进行降噪处理,当目标降噪模式对音频片段1的降噪效果优于原始降噪模式对音频片段1的降噪效果,则可以将音频片段1的时长确定为目标降噪模式对应的降噪时长;当目标降噪模式对音频片段2的降噪效果优于原始降噪模式对音频片段2的降噪效果,则可以将音频片段2的时长确定为目标降噪模式对应的降噪时长;当目标降噪模式对音频片段3的降噪效果比原始降噪模式对音频片段3的降噪效果要差,则可以将音频片段3的时长确定为原始降噪模式对应的降噪时长;当目标降噪模式对音频片段4的降噪效果比原始降噪模式对音频片段4的降噪效果要差,则可以将音频片段4的时长确定为原始降噪模式对应的降噪时长;当目标降噪模式对音频片段5的降噪效果优于原始降噪模式对音频片段5的降噪效果,则可以将音频片段5的时长确定为目标降噪模式对应的降噪时长。在本地语音通信业务结束后,终端设备可以将音频片段1、音频片段2以及音频片段5的时长之和确定为目标降噪模式在本次语音通信业务中的单位业务降噪时长。当然,还可以将音频片段4和音频片段5的时长之和确定为原始降噪模式在本次语音通信业务中的最终降噪时长。
可选的,目标降噪模式在本次语音通信业务中的单位业务降噪时长还可以考虑目标音频数据的降噪量,当第一降噪音频的信噪比大于第二降噪音频的信噪比时,终端设备可以获取第一降噪音频对应的降噪量,当降噪量达到数量阈值(该数量阈值可以预先设置,如数量阈值为20分贝)时,将达到数量阈值的第一降噪音频的时长,确定为语音通信业务中与目标降噪模式相关联的单位业务降噪时长。当第一降噪音频的降噪量小于数量阈值时,可以表示目标降噪模式中的降噪算法没有充分发挥降噪处理能力,即降噪处理后的第一降噪音频与目标音频数据的区别不大,或者表明目标用户所处的环境较安静,目标音频数据中所包含的噪音对用户语音数据的干扰较小,该目标音频数据可以不进行降噪处理。其中,降噪量可以用于表示降噪模式对音频进行降噪处理的程度,降噪量越大,表示目标降噪模式对目标音频数据的降噪程度越大,即降噪后的第一降噪音频与目标音频数据之间的区别越大;降噪量越小,表示目标降噪模式对目标音频数据的降噪程度越小,即降噪后的第一降噪音频与目标音频数据之间的区别越小。此时的单位业务降噪时长需要满足两个条件:一个条件为目标降噪模式的降噪效果优于原始降噪模式的降噪效果,即第一降噪音频的信噪比大于第二降噪音频的信噪比,另一个条件为第一降噪音频对应的降噪量达到数量阈值,当目标降噪模式同时满足上述两个条件时,可以将第一降噪音频的时长确定为目标降噪模式在本次语音通信业务中的单位业务降噪时长。
进一步地,在本次语音通信业务结束后,终端设备可以获取到目标降噪模式中目标用户对应的单位业务降噪时长,进而可以获取目标降噪模式中目标用户对应的历史降噪时长,根据历史降噪时长和单位业务降噪时长,确定目标降噪模式中针对目标用户的音频降噪总时长。换言之,终端设备可以获取目标用户对应的用户标识(如目标用户在语音通信业务中的登录账号、用户昵称、用户ID等信息),根据用户标识从用户数据库中获取与该用户标识相关联的历史语音通信业务中的历史降噪时长,将历史降噪时长与单位业务降噪时长之和,确定为目标降噪模式中针对目标用户的音频降噪总时长。其中,用户数据库可以是指终端设备的本地数据库,该本地数据库中可以记录目标用户所参与的所有历史语音通信业务、每次历史语音通信业务中目标降噪模式对应的单位降噪时长以及所有历史语音通信业务中目标用户累计的历史降噪时长,根据用户标识可以从本地数据库中直接获取该目标用户累计的历史降噪时长;或者,用户数据库可以是指服务器数据库,服务器数据库可以包括该语音通信业务所属应用中每个用户分别参与的所有历史语音通信业务、每次历史语音通信业务中目标降噪模式对应的单位降噪时长以及所有历史语音通信业务中对应用户累计的历史降噪时长,终端设备可以向服务器数据库发送数据查询请求,该数据查询请求可以携带目标用户的用户标识,根据用户标识可以从服务器数据库获取目标用户对应的历史降噪时长。需要说明的是,用户所参与的每次语音通信业务,终端设备均可以采集目标用户对应的音频数据,并对包含噪音的音频数据进行降噪处理,统计每次语音通信业务中目标降噪模式对应的降噪时长,例如,目标用户所参与的第1次语音通信业务中,终端设备为该目标用户降噪的时长可以表示为T(1),T(1)为第一次语音通信业务中的累计时长,目标用户所参与的第2次语音通信业务中,终端设备为该目标用户降噪的时长可以表示为T(2),依次类推,目标用户所参与的第i次语音通信业务中,终端设备为该目标用户降噪的时长可以表示为T(i),则目标用户对应的历史降噪时长为i次语音通信业务中累计的降噪时长,可以表示为:T(1)+T(2)+…+T(i);本次语音通信业务为目标用户参与的第i+1次语音通信业务,本次语音通信业务中的单位业务降噪时长可以表示为T(i+1),在本次语音通信业务结束后,目标降噪模式中目标用户对应的音频降噪总时长可以为:T(1)+T(2)+…+T(i)+T(i+1)。
可选的,降噪效果信息还可以为语音损失度,终端设备获取到目标降噪模式下的第一降噪音频和原始降噪模式下的第二降噪音频后,可以将第一降噪音频和第二降噪音频分别对应的语音损失度确定为降噪效果信息。当第一降噪音频的语音损失度小于第二降噪音频的语音损失度时,可以将第一降噪音频的时长确定为本次语音通信业务中目标降噪模式对应的单位业务降噪时长,将单位业务降噪时长和目标降噪模式中目标用户对应的历史降噪时长之和,确定为目标降噪模式中针对所述目标用户的音频降噪总时长。可选的,降噪效果信息可以包括信噪比和语音损失度,当第一降噪音频的语音损失度小于第二降噪音频的语音损失度,且第一降噪音频的信噪比大于第二降噪音频的信噪比时,可以将第一降噪音频的时长确定为本次语音通信业务中目标降噪模式对应的单位业务降噪时长,将单位业务降噪时长和目标降噪模式中目标用户对应的历史降噪时长之和,确定为目标降噪模式中针对所述目标用户的音频降噪总时长。
可选的,在本申请实施例中,终端设备不仅可以统计目标降噪模式在语音通信业务中针对目标用户的音频降噪总时长,也可以统计原始降噪模式在语音通信业务中针对目标用户的原始降噪总时长。
请一并参见图6,图6是本申请实施例提供的一种统计语音通信业务中的音频降噪总时长的示意图。如图6所示,终端设备50a为用户A对应的设备,终端设备50b为用户B对应的设备,用户A可以通过终端设备50a与用户B进行语音通信,用户B可以通过终端设备50b与用户A进行语音通话。其中,用户A和用户B可以是使用终端设备中的即时通讯应用中的语音通话功能进行语音通信,即终端设备50a和终端设备50b中均安装了相同的即时通讯应用。
如图6所示,用户A与用户B之间的语音通信为用户A在即时通讯应用中所参与的第i次语音通信(表示用户A在即时通讯应用中与不同的用户已经进行了i-1次语音通信),在用户A与用户B进行语音通信的过程中,终端设备50a可以采集用户A的音频数据,并将用户A的音频数据发送至用户B对应的终端设备50b,以使用户B可以通过终端设备50b收听用户A的音频数据;同理,终端设备50b可以采集用户B的音频数据,并将用户B的音频数据发送至用户A对应的终端设备50a,以使用户A可以通过终端设备50a收听用户B的音频数据。当用户A和用户B处于比较嘈杂的环境中时,终端设备50a所采集到的用户A的音频数据中除了用户A的语音之外,还包括周围环境中的噪音(如用户A处于街道上时,噪音可以包括车辆的鸣笛声、路人的说话声等);同理,终端设备50b所采集到的用户B的音频数据中除了用户B的语音之外,还包括周围环境中的噪音(如用户B处于室内时,噪音可以包括空调声。风扇转动的声音等)。
若直接将终端设备50a所采集到的音频数据50c(包含噪声)发送至用户B对应的终端设备50b,会导致用户B难以通过终端设备50b收听用户A的语音。因此,在终端设备50a在第i次语音通信中采集到用户A对应的音频数据50c后,可以同时采用目标降噪模式和原始降噪模式对音频数据50c进行降噪处理,通过目标降噪模式可以得到音频数据50c降噪处理后的降噪音频1,通过原始降噪模式可以得到音频数据50c降噪处理后的降噪音频2,;终端设备50a可以获取降噪音频1和降噪音频2分别对应的信噪比,当降噪音频1的信噪比大于降噪音频2的信噪比时,表示降噪音频1的降噪效果优于降噪音频2的降噪效果,即目标降噪模式的降噪效果优于原始降噪模式的降噪效果,进而终端设备50a获取到降噪音频1的时长为:d,并将时长d作为目标降噪模式在第i次语音通信中的降噪时长;当目标降噪模式在前i-1次语音通信中的累积降噪总时长为:e,则在第i次语音通信结束后可以将目标降噪模式的累积降噪总时长由e更新为e+d,原始降噪模式的累积降噪总时长仍然保持前i-1次语音通信中的累积降噪总时长f。当然,终端设备50a可以将降噪效果更好的降噪音频1发送至用户B的终端设备50b,以使用户B可以通过终端设备50b收听用户A的语音。可以理解的是,终端设备50b同样可以对采集到的用户B的音频数据进行如上述所执行的降噪处理过程,并统计用户B在目标降噪模式和原始降噪模式中的累积降噪总时长,这里不再进行赘述。
当用户A与用户C在即时通讯应用中进行第i+1次语音通信时,终端设备50a可以采集用户A在第i+1次语音通信中的音频数据50e(包含噪声),并采用目标降噪模式和原始降噪模式两种降噪模式对音频数据50e进行降噪处理,通过目标降噪模式可以得到音频数据50e降噪处理后的降噪音频3,通过原始降噪模式可以得到音频数据50e降噪处理后的降噪音频4;终端设备50a可以获取降噪音频3和降噪音频4分别对应的信噪比,当降噪音频3的信噪比小于降噪音频4的信噪比时,表示降噪音频4的降噪效果优于降噪音频3的降噪效果,即原始降噪模式的降噪效果优于目标降噪模式的降噪效果,进而终端设备50a获取到降噪音频4的时长为:g,并将时长g作为原始降噪模式在第i+1次语音通信中的降噪时长;当原始降噪模式在前i次语音通信中的累积降噪总时长为:f,则在第i+1次语音通信结束后可以将原始降噪模式的累积降噪总时长由f更新为f+g,目标降噪模式的累积降噪总时长仍然保持前i次语音通信中的累积降噪总时长e+d。当然,终端设备50a可以将降噪效果更好的降噪音频4发送至用户C的终端设备50d,以使用户C可以通过终端设备50d收听用户A的语音。
步骤S104,在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息。
可选的,终端设备可以预先设置各降噪模式对应的降噪时长阈值,当目标降噪模式中目标用户对应的音频降噪总时长达到降噪时长阈值时,可以在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息(如上述图2所对应实施例中的提示信息20g)。其中,降噪时长阈值可以分段设置的多个阈值,如降噪时长阈值可以为10小时,100小时,1000小时等数值,当音频降噪总时长达到10小时时,可以在会话页面中显示关联提示信息:人工智能降噪,已经累计帮您消除了10小时的嘈杂噪声;音频降噪总时长还在不断累加,当音频降噪总时长达到100小时时,可以在会话页面中显示关联提示信息:人工智能降噪,已经累计帮您消除了100小时的嘈杂噪声(此处默认目标降噪模式为使用AI算法进行降噪的模式),等等;关联提示信息可以直接显示在会话页面中的某区域,即关联提示信息的显示不会覆盖会话页面中原本的显示信息,关联提示信息也可以显示在独立于会话页面的一个弹窗中,即关联提示信息的显示可能会覆盖会话页面中原本处于该弹窗位置的显示信息。
可选的,终端设备还可以在目标用户开启语音通信业务时,获取目标降噪模式中目标用户对应的音频降噪总时长,在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息,此时的音频降噪总时长为不包括本次语音通信业务中的单位业务降噪时长(因为目标用户刚开启本次语音通信业务,还没开始进行降噪处理)。可以理解地,本申请实施例中可以对关联提示信息的弹出频率进行预先设置,如达到预先设置的降噪时长阈值,每次开语音通信业务等。
可选的,终端设备还可以获取目标用户对应的语音通信总时长,确定音频降噪总时长与语音通信总时长之间的时长比例,当时长比例大于或等于第一比例阈值时,生成目标用户对应的通信环境警告信息,在会话页面中显示通信环境警告信息。换言之,终端设备可以获取目标用户在通信应用中参与语音通信业务的语音通信总时长,进而获取音频降噪总时长与语音通信总时长之间的时长比例,当时长比例大于或等于第一比例阈值时,表示目标用户在语音通信业务中经常处于嘈杂的环境中,可以生成针对目标用户的通信环境警告信息,并在会话页面中显示该通信环境警告信息,该通信环境警告信息可以用于提醒目标用户在下次语音通信业务时更换通信环境。其中,第一比例阈值可以预先设置好,如第一比例阈值为60%,当时长比例大于或等于第一比例阈值时,表示目标用户在10个小时的语音通信过程中,平均超过6个小时的时间处于嘈杂的环境中。
请一并参见图7,图7是本申请实施例提供的一种通信环境警告信息的界面示意图。以语音会议为例,对通信环境警告信息的显示过程进行说明,如图7所示,当用户小A通过输入会议号7234567向会议应用发起会议加入请求(即语音通信请求)时,终端设备60a(该终端设备60a为用户小A所登录的设备)可以响应该用户小A的会议加入请求,将用户小A加入会议号为7234567的会议中,在用户小A加入该会议后,终端设备60a可以在终端屏幕中显示该会议的会话页面60b,在该会话页面60b中可以显示会议号7234567、参与该会议的所有用户的用户信息(如用户头像、昵称等信息)以及会议中的功能选项等,其中,功能选项可以包括语音功能选项、视频功能选项、共享屏幕功能选项、邀请功能选项、聊天功能选项、表情功能选项、文档功能选项以及设置功能选项等;终端设备还可以根据用户小A的用户标识(如用户ID、用户登录账号等),从会议应用的后台数据库中获取用户小A在该会议应用中的语音通信总时长为:100小时,以及目标降噪模式(此处的目标降噪模式可以为AI降噪模式)中用户小A对应的音频降噪总时长为:80小时;假设会议应用中预先设置的第一比例阈值为60%,则该用户小A对应的音频降噪总时长与语音通信总时长之间的时长比例大于第一比例阈值,表示用户小A经常处于嘈杂的环境中,可以生成针对用户小A的通信环境警告信息60c,并在会话页面60b中显示该通信环境警告信息60c,该通信环境警告信息60c可以为:您已经语音通信100小时,人工智能帮您降噪了80小时的嘈杂噪声,您经常处于一个嘈杂环境,请更新通信环境,以免影响语音通信体验。通过会话页面显示通信环境警告信息的方式通知用户长期所处的语音通信环境情况,有利于用户及时调整语音通信环境。
可选的,当时长比例大于或等于第二比例阈值时,目标用户确定为异常人群,为异常人群对应的目标音频数据更新降噪模式;更新后的降噪模式的降噪效果优于目标降噪模式的降噪效果。换言之,当目标用户对应的音频降噪总时长与语音通信总时长之间的时长比例大于第二比例阈值时,表示该目标用户的生活环境或者工作环境比较嘈杂,可以为该目标用户更新降噪模式,如目标用户对应的音频数据采用的目标降噪模式为较强降噪模式,当目标用户对应的音频降噪总时长与语音通信总时长之间的时长比例大于第二比例阈值时,可以将目标用户的较强降噪模式更新为强降噪模式,强降噪模式的降噪效果优于较强降噪模式的降噪效果。其中,第二比例阈值可以进行预先设置,如60%、70%等,第二比例阈值可以与第一比例阈值相同,也可以不相同。
可选的,在会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息时,关联提示信息可以显示在会话页面60b中的一个弹窗中,该弹窗中可以显示至少两个降噪模式,在会话页面中显示弹窗时,在弹窗中默认显示目标降噪模式与音频降噪总时长之间的关联提示信息;目标用户可以通过触发不同的降噪模式,在该弹窗中切换显示其余降噪模式与相应降噪总时长之间的降噪提示信息。当目标用户触发弹窗中的原始降噪模式时,终端设备可以响应针对目标降噪模式的切换触发操作,确定切换触发操作所触发的原始降噪模式,获取原始降噪模式对应的原始降噪总时长,其中,原始降噪模式是指至少两个降噪模式中除目标降噪模式的其余降噪模式,在会话页面中将关联提示信息切换显示为原始降噪模式和原始降噪总时长之间的降噪提示信息。换言之,目标用户触发原始降噪模式后,终端设备可以响应该目标用户的触发操作,在会话页面中显示原始降噪模式与原始降噪总时长之间的降噪提示信息。
请一并参见图8,图8是本申请实施例提供的一种显示降噪总时长信息的界面图。以语音会议为例,对不同降噪模式中的降噪总时长的显示过程进行说明,如图8所示,终端设备70a为用户小A登录的设备,会议应用中包括两个降噪模式,分别为人工智能降噪模式(即上述目标降噪模式)和传统降噪模式(即信号处理方法降噪模式,也称为原始降噪模式);当会议的会话页面70b中显示弹窗70c时,在弹窗70c中可以显示人工智能降噪模式中用户小A的音频降噪总时长对应的关联提示信息“人工智能降噪,已经累计帮您消除了c小时的嘈杂噪声!”。弹窗70c还可以显示上述两个降噪模式,当用户小A点击“传统降噪模式”时,终端设备70a可以响应用户小A针对“传统降噪模式”的点击操作,获取传统降噪模式中,用户小A对应的原始降噪总时长,生成原始降噪总时长与传统降噪模式之间的降噪提示信息“信号处理方法降噪,已经累计帮您消除了x小时的嘈杂噪声!”。通过在会话页面中显示不同降噪模式中的降噪总时长,可以展示会议应用中的降噪处理能力,可以丰富会话页面中的展示内容,且有利于增加用户粘度。
请一并参见图9,图9是本申请实施例提供的一种音频数据处理方法的流程图。如图9所示,该音频数据处理方法可以由会议应用执行,即该音频数据处理方法可以由会议应用对应的客户端和后台服务器共同执行,该该音频数据处理方法可以包括以下步骤S1-步骤S8.
步骤S1,用户在加入会议后,会议应用的客户端可以向后台服务器发送数据查询请求,该数据查询请求中可以携带该用户对应的用户信息,后台服务器在接收到客户端发送的数据查询请求后,可以根据用户信息从服务器数据中查询与该用户相关联的人工智能(AI)降噪所积累的时长(即音频降噪总时长)。其中,服务器数据中包括会议应用中每个用户分别所参与的会议,所参与会议的时间、时长、参与人员等,每次所参与会议中的降噪时长,以及每个用户进行AI降噪累积的时长等信息。
步骤S2,后台服务器在查询到该用户AI降噪所积累的时长后,可以将AI降噪所积累的时长下发给客户端。客户端在接收到后台服务器下发的AI降噪所积累的时长,并比较AI降噪所积累的时长是否达到阈值(此处的阈值即为上述降噪时长阈值),若AI降噪所积累的时长达到阈值,则执行步骤S3;若AI降噪所积累的时长未达到阈值,则直接执行步骤S4。
步骤S3,若AI降噪所积累的时长达到阈值,则客户端可以生成AI降噪所累积的时长的提示信息,并在会议的会话页面中弹窗显示上述AI降噪所累积的时长的提示信息(如上述关联提示信息),通知用户在会议应用中的降噪处理情况。客户端在执行完步骤S3后,可以继续执行步骤S4。
步骤S4,客户端可以采集该会议中参与用户的用户语音和周围噪声,客户端也可以通过每个用户分别对应的终端设备来采集用户语音和用户所处环境的周围噪声。
步骤S5,客户端可以采用AI降噪模式中的AI算法对采集到的音频数据(包括用户语音和周围噪音)进行降噪处理,得到AI降噪模式中音频数据对应的第一降噪音频;客户端可以采用传统降噪处理方法对采集到的音频数据,得到传统将模式中音频数据对应的第二降噪音频,通过第一降噪音频和第二降噪音频确定AI降噪和传统降噪分别对应的降噪效果,若AI降噪的效果优于传统降噪的效果,则可以继续获取第一降噪音频对应的降噪量,并判断降噪量是否大于20分贝,若降噪量大于或等于20分贝,则执行步骤S6,若AI降噪的效果比传统降噪的效果要差,或者降噪量小于20分贝,则对音频数据的降噪处理不计入AI降噪时长。降噪处理的具体过程可以参见上述图3所对应实施例中的步骤S102,这里不再赘述。
步骤S6,客户端可以将AI降噪处理过程中所降噪的音频时长添加至该会议的AI降噪时长中。客户端可以实时采集用户语音和周围噪声,并对实时采集的音频数据进行降噪处理,因此该会议中的AI降噪时长可以进行不断累积。
步骤S7,在会议结束,退出会议应用之前,客户端可以获取本次会议中AI降噪时长,并将AI降噪时长上报给后台服务器,后台服务器可以根据客户端上报的AI降噪时长,对服务器数据中该用户AI降噪所积累的总时长进行更新,以待后续使用。
本申请实施例可以响应针对目标用户的语音通信请求,为所述目标用户开启语音通信业务,获取该语音通信业务中的目标音频数据,进而采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息,根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长,该目标降噪模式属于上述至少两个降噪模式,在语音通信业务的会话页面中显示该目标降噪模式与音频降噪总时长之间的关联提示信息。可见,在语音通信业务中可以采用至少两种降噪模式对包含噪音的音频数据进行降噪处理,根据每种降噪模式分别对应的降噪效果信息可以统计目标降噪模式的音频降噪总时长,即与目标用户相关联的语音通信业务中采用目标降噪模式进行降噪处理的音频累计总时长,在语音通信业务的会话页面中可以显示该目标降噪模式和音频累计总时长之间的提示信息,以提醒目标用户语音通信业务中的降噪处理结果,进而可以丰富语音通信业务中的页面展示内容。
请参见图10,图10是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1可以包括:获取模块11,降噪模块12,统计模块13,显示模块14;
获取模块11,用于响应针对目标用户的语音通信请求,为目标用户开启语音通信业务,获取语音通信业务中的目标音频数据;
降噪模块12,用于采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息;
统计模块13,用于根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;目标降噪模式属于至少两个降噪模式;
显示模块14,用于在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息。
其中,获取模块11,降噪模块12,统计模块13,显示模块14的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
请一并参见图10,获取模块11可以包括:分帧单元111,噪音检测单元112;
分帧单元111,用于采集语音通信业务中的初始音频数据,对初始音频数据进行分帧处理,得到至少两个音频片段;
噪音检测单元112,用于对至少两个音频片段进行噪音检测,将至少两个音频片段中包含噪音数据的音频片段确定为目标音频数据。
其中,分帧单元111,噪音检测单元112的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图10,降噪模块12可以包括:第一降噪处理单元121,第二降噪处理单元122,效果确定单元123;
第一降噪处理单元121,用于采用目标降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频;
第二降噪处理单元122,用于采用原始降噪模式对目标音频数据进行降噪处理,得到目标音频数据对应的第二降噪音频;原始降噪模式是指至少两个降噪模式中除目标降噪模式的其余降噪模式;
效果确定单元123,用于将第一降噪音频和第二降噪音频分别对应的信噪比确定为降噪效果信息。
其中,第一降噪处理单元121,第二降噪处理单元122,效果确定单元123的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图10,第一降噪处理单元121可以包括:功率谱获取子单元1211,第一确定子单元1212,增益获取子单元1213,增益合并子单元1214,第二确定子单元1215;
功率谱获取子单元1211,用于将目标音频数据输入第一降噪模型中,根据第一降噪模型获取目标对数功率谱;第一降噪模型用于表征噪音音频的对数功率谱与纯净音频的对数功率谱之间的映射关系;
第一确定子单元1212,用于根据目标对数功率谱和目标音频数据对应的相位信息,确定目标音频数据对应的第一降噪音频。
增益获取子单元1213,用于根据第二降噪模型获取目标音频数据对应的第一降噪增益,根据第三降噪模型获取目标音频数据对应的第二降噪增益;第二降噪模型的降噪强度大于第第三降噪模型的降噪强度;第二降噪模型对目标音频数据的语音损伤程度,大于第三降噪模型对目标音频数据的语音损伤程度;
增益合并子单元1214,用于根据第一降噪增益和第二降噪增益,确定目标音频数据的合并降噪增益;
第二确定子单元1215,用于根据合并降噪增益对目标音频数据进行降噪处理,得到目标音频数据对应的第一降噪音频。
其中,功率谱获取子单元1211,第一确定子单元1212,增益获取子单元1213,增益合并子单元1214,第二确定子单元1215的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。其中,当功率谱获取子单元1211,第一确定子单元1212在执行相应的操作时,增益获取子单元1213,增益合并子单元1214,第二确定子单元1215均暂停执行操作;当增益获取子单元1213,增益合并子单元1214,第二确定子单元1215在执行相应的操作时,功率谱获取子单元1211,第一确定子单元1212均暂停执行操作。其中,第一确定子单元1212和第二确定子单元1215可以合并为同一个确定子单元。
请一并参见图10,第二降噪处理单元122可以包括:分解子单元1221,乘积运算子单元1222;
分解子单元1221,用于对目标音频数据进行分解,得到语音序列数据和噪音序列数据,获取语音序列数据对应的第一权重值和噪音序列数据对应的第二权重值;第一权重值大于第二权重值;
乘积运算子单元1222,用于根据第一权重值与语音序列数据之间的乘积,以及第二权重值与噪音序列数据之间的乘积,确定目标音频数据对应的第二降噪音频。
其中,分解子单元1221,乘积运算子单元1222的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图10,统计模块13可以包括:单位时长确定单元131,总时长确定单元132;
单位时长确定单元131,用于当第一降噪音频的信噪比大于第二降噪音频的信噪比时,将第一降噪音频的时长确定为语音通信业务中的单位业务降噪时长;
总时长确定单元132,用于获取目标用户对应的历史降噪时长,根据历史降噪时长和单位业务降噪时长,确定目标降噪模式中针对目标用户的音频降噪总时长。
其中,单位时长确定单元131,总时长确定单元132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
请一并参见图10,单位时长确定单元131可以包括:降噪量获取子单元1311,降噪量比较子单元1312;
降噪量获取子单元1311,用于当第一降噪音频的信噪比大于第二降噪音频的信噪比时,获取第一降噪音频对应的降噪量;
降噪量比较子单元1312,用于当降噪量达到数量阈值时,将达到数量阈值的第一降噪音频的时长,确定为语音通信业务中的单位业务降噪时长。
其中,降噪量获取子单元1311,降噪量比较子单元1312的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
请一并参见图10,总时长确定单元132可以包括:历史时长获取子单元1321,求和子单元1322;
历史时长获取子单元1321,用于获取目标用户对应的用户标识,根据用户标识从用户数据库中获取与用户标识相关联的历史语音通信业务中的历史降噪时长;
求和子单元1322,用于将历史降噪时长和单位业务降噪时长之和,确定为目标降噪模式中针对目标用户的音频降噪总时长。
其中,历史时长获取子单元1321,求和子单元1322的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
请一并参见图10,该数据处理装置1还可以包括:时长比例确定模块15,警告模块16,降噪模式更新模块17,响应操作模块18,切换模块19;
时长比例确定模块15,用于获取目标用户对应的语音通信总时长,确定音频降噪总时长与语音通信总时长之间的时长比例;
警告模块16,用于当时长比例大于或等于第一比例阈值时,生成目标用户对应的通信环境警告信息,在会话页面中显示通信环境警告信息。
降噪模式更新模块17,用于当时长比例大于或等于第二比例阈值时,目标用户确定为异常人群,为异常人群对应的目标音频数据更新降噪模式;更新后的降噪模式的降噪效果优于目标降噪模式的降噪效果。
响应操作模块18,用于响应针对目标降噪模式的切换触发操作,确定切换触发操作所触发的原始降噪模式,获取原始降噪模式对应的原始降噪总时长;原始降噪模式是指至少两个降噪模式中除目标降噪模式的其余降噪模式;
切换模块19,用于在会话页面中将关联提示信息切换显示为原始降噪模式和原始降噪总时长之间的降噪提示信息。
其中,时长比例确定模块15,警告模块16,降噪模式更新模块17,响应操作模块18,切换模块19的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例可以响应针对目标用户的语音通信请求,为所述目标用户开启语音通信业务,获取该语音通信业务中的目标音频数据,进而采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息,根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长,该目标降噪模式属于上述至少两个降噪模式,在语音通信业务的会话页面中显示该目标降噪模式与音频降噪总时长之间的关联提示信息。可见,在语音通信业务中可以采用至少两种降噪模式对包含噪音的音频数据进行降噪处理,根据每种降噪模式分别对应的降噪效果信息可以统计目标降噪模式的音频降噪总时长,即与目标用户相关联的语音通信业务中采用目标降噪模式进行降噪处理的音频累计总时长,在语音通信业务的会话页面中可以显示该目标降噪模式和音频累计总时长之间的提示信息,以提醒目标用户语音通信业务中的降噪处理结果,进而可以丰富语音通信业务中的页面展示内容。
请参见图11,图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选的,用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
响应针对目标用户的语音通信请求,为目标用户开启语音通信业务,获取语音通信业务中的目标音频数据;
采用至少两个降噪模式对目标音频数据分别进行降噪处理,得到至少两个降噪模式分别对应的降噪效果信息;
根据降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;目标降噪模式属于至少两个降噪模式;
在语音通信业务的会话页面中显示目标降噪模式与音频降噪总时长之间的关联提示信息。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对数据处理方法的描述,也可执行前文图10所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储存储器(Read-Only Memory,ROM)或随机存储存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (15)
1.一种数据处理方法,其特征在于,包括:
响应针对目标用户的语音通信请求,为所述目标用户开启语音通信业务,获取所述语音通信业务中的目标音频数据;
采用至少两个降噪模式对所述目标音频数据分别进行降噪处理,得到所述至少两个降噪模式分别对应的降噪效果信息;
根据所述降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;所述目标降噪模式属于所述至少两个降噪模式;
在所述语音通信业务的会话页面中显示所述目标降噪模式与所述音频降噪总时长之间的关联提示信息。
2.根据权利要求1所述的方法,其特征在于,所述获取所述语音通信业务中的目标音频数据,包括:
采集所述语音通信业务中的初始音频数据,对所述初始音频数据进行分帧处理,得到至少两个音频片段;
对所述至少两个音频片段进行噪音检测,将所述至少两个音频片段中包含噪音数据的音频片段确定为所述目标音频数据。
3.根据权利要1所述的方法,其特征在于,所述采用至少两个降噪模式对所述目标音频数据分别进行降噪处理,得到所述至少两个降噪模式分别对应的降噪效果信息,包括:
采用所述目标降噪模式对所述目标音频数据进行降噪处理,得到所述目标音频数据对应的第一降噪音频;
采用原始降噪模式对所述目标音频数据进行降噪处理,得到所述目标音频数据对应的第二降噪音频;所述原始降噪模式是指所述至少两个降噪模式中除所述目标降噪模式的其余降噪模式;
将所述第一降噪音频和所述第二降噪音频分别对应的信噪比确定为所述降噪效果信息。
4.根据权利要求3所述的方法,其特征在于,所述采用所述目标降噪模式对所述目标音频数据进行降噪处理,得到所述目标音频数据对应的第一降噪音频,包括:
将所述目标音频数据输入第一降噪模型中,根据所述第一降噪模型获取目标对数功率谱;所述第一降噪模型用于表征噪音音频的对数功率谱与纯净音频的对数功率谱之间的映射关系;
根据所述目标对数功率谱和所述目标音频数据对应的相位信息,确定所述目标音频数据对应的所述第一降噪音频。
5.根据权利要求3所述的方法,其特征在于,所述采用所述目标降噪模式对所述目标音频数据进行降噪处理,得到所述目标音频数据对应的第一降噪音频,包括:
根据所述第二降噪模型获取所述目标音频数据对应的第一降噪增益,根据第三降噪模型获取所述目标音频数据对应的第二降噪增益;所述第二降噪模型的降噪强度大于所述第第三降噪模型的降噪强度;所述第二降噪模型对所述目标音频数据的语音损伤程度,大于所述第三降噪模型对所述目标音频数据的语音损伤程度;
根据所述第一降噪增益和所述第二降噪增益,确定所述目标音频数据的合并降噪增益;
根据所述合并降噪增益对所述目标音频数据进行降噪处理,得到所述目标音频数据对应的所述第一降噪音频。
6.根据权利要求3所述的方法,其特征在于,所述采用原始降噪模式对所述目标音频数据进行降噪处理,得到所述目标音频数据对应的第二降噪音频,包括:
对所述目标音频数据进行分解,得到语音序列数据和噪音序列数据,获取所述语音序列数据对应的第一权重值和所述噪音序列数据对应的第二权重值;所述第一权重值大于所述第二权重值;
根据所述第一权重值与所述语音序列数据之间的乘积,以及所述第二权重值与所述噪音序列数据之间的乘积,确定所述目标音频数据对应的所述第二降噪音频。
7.根据权利要求3所述的方法,其特征在于,所述根据所述降噪效果信息统计与目标降噪模式相关联的音频降噪总时长,包括:
当所述第一降噪音频的信噪比大于所述第二降噪音频的信噪比时,将所述第一降噪音频的时长确定为所述语音通信业务中的单位业务降噪时长;
获取所述目标用户对应的历史降噪时长,根据所述历史降噪时长和所述单位业务降噪时长,确定所述目标降噪模式中针对所述目标用户的所述音频降噪总时长。
8.根据权利要求7所述的方法,其特征在于,所述当所述第一降噪音频的信噪比大于所述第二降噪音频的信噪比时,将所述第一降噪音频的时长确定为所述语音通信业务中的单位业务降噪时长,包括:
当所述第一降噪音频的信噪比大于所述第二降噪音频的信噪比时,获取所述第一降噪音频对应的降噪量;
当所述降噪量达到数量阈值时,将达到所述数量阈值的第一降噪音频的时长,确定为所述语音通信业务中的单位业务降噪时长。
9.根据权利要求7所述的方法,其特征在于,所述获取所述目标用户对应的历史降噪时长,根据所述历史降噪时长和所述单位业务降噪时长,确定所述目标降噪模式中针对所述目标用户的所述音频降噪总时长,包括:
获取所述目标用户对应的用户标识,根据所述用户标识从用户数据库中获取与所述用户标识相关联的历史语音通信业务中的历史降噪时长;
将所述历史降噪时长和所述单位业务降噪时长之和,确定为所述目标降噪模式中针对所述目标用户的所述音频降噪总时长。
10.根据权利要求1所述的方法,其特征在于,还包括:
获取所述目标用户对应的语音通信总时长,确定所述音频降噪总时长与所述语音通信总时长之间的时长比例;
当所述时长比例大于或等于第一比例阈值时,生成所述目标用户对应的通信环境警告信息,在所述会话页面中显示所述通信环境警告信息。
11.根据权利要求1所述的方法,其特征在于,还包括:
获取所述目标用户对应的语音通信总时长,确定所述音频降噪总时长与所述语音通信总时长之间的时长比例;
当所述时长比例大于或等于第二比例阈值时,所述目标用户确定为异常人群,为所述异常人群对应的目标音频数据更新降噪模式;更新后的降噪模式的降噪效果优于所述目标降噪模式的降噪效果。
12.根据权利要求1所述的方法,其特征在于,还包括:
响应针对所述目标降噪模式的切换触发操作,确定所述切换触发操作所触发的原始降噪模式,获取所述原始降噪模式对应的原始降噪总时长;所述原始降噪模式是指所述至少两个降噪模式中除所述目标降噪模式的其余降噪模式;
在所述会话页面中将所述关联提示信息切换显示为所述原始降噪模式和所述原始降噪总时长之间的降噪提示信息。
13.一种数据处理装置,其特征在于,包括:
获取模块,用于响应针对目标用户的语音通信请求,为所述目标用户开启语音通信业务,获取所述语音通信业务中的目标音频数据;
降噪模块,用于采用至少两个降噪模式对所述目标音频数据分别进行降噪处理,得到所述至少两个降噪模式分别对应的降噪效果信息;
统计模块,用于根据所述降噪效果信息统计与目标降噪模式相关联的音频降噪总时长;所述目标降噪模式属于所述至少两个降噪模式;
显示模块,用于在所述语音通信业务的会话页面中显示所述目标降噪模式与所述音频降噪总时长之间的关联提示信息。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494095.2A CN111698232B (zh) | 2020-06-03 | 2020-06-03 | 数据处理方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494095.2A CN111698232B (zh) | 2020-06-03 | 2020-06-03 | 数据处理方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111698232A true CN111698232A (zh) | 2020-09-22 |
CN111698232B CN111698232B (zh) | 2021-09-10 |
Family
ID=72479308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010494095.2A Active CN111698232B (zh) | 2020-06-03 | 2020-06-03 | 数据处理方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111698232B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860675A (zh) * | 2021-02-06 | 2021-05-28 | 高云 | 在线云服务环境下的大数据处理方法及云计算服务器 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177728A (zh) * | 2011-12-21 | 2013-06-26 | 中国移动通信集团广西有限公司 | 语音信号降噪处理方法及装置 |
CN104422804A (zh) * | 2013-08-21 | 2015-03-18 | 苏州普源精电科技有限公司 | 一种具有噪声抑制功能的混合示波器 |
US20150350395A1 (en) * | 2013-02-25 | 2015-12-03 | Spreadtrum Communications(Shanghai) Co., Ltd. | Detecting and switching between noise reduction modes in multi-microphone mobile devices |
CN204948306U (zh) * | 2015-08-17 | 2016-01-06 | 峰范(北京)科技有限公司 | 蓝牙耳机 |
CN108429963A (zh) * | 2018-05-08 | 2018-08-21 | 歌尔股份有限公司 | 一种耳机及降噪方法 |
US20190259381A1 (en) * | 2018-02-14 | 2019-08-22 | Cirrus Logic International Semiconductor Ltd. | Noise reduction system and method for audio device with multiple microphones |
CN110246502A (zh) * | 2019-06-26 | 2019-09-17 | 广东小天才科技有限公司 | 语音降噪方法、装置及终端设备 |
-
2020
- 2020-06-03 CN CN202010494095.2A patent/CN111698232B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177728A (zh) * | 2011-12-21 | 2013-06-26 | 中国移动通信集团广西有限公司 | 语音信号降噪处理方法及装置 |
US20150350395A1 (en) * | 2013-02-25 | 2015-12-03 | Spreadtrum Communications(Shanghai) Co., Ltd. | Detecting and switching between noise reduction modes in multi-microphone mobile devices |
CN104422804A (zh) * | 2013-08-21 | 2015-03-18 | 苏州普源精电科技有限公司 | 一种具有噪声抑制功能的混合示波器 |
CN204948306U (zh) * | 2015-08-17 | 2016-01-06 | 峰范(北京)科技有限公司 | 蓝牙耳机 |
US20190259381A1 (en) * | 2018-02-14 | 2019-08-22 | Cirrus Logic International Semiconductor Ltd. | Noise reduction system and method for audio device with multiple microphones |
CN108429963A (zh) * | 2018-05-08 | 2018-08-21 | 歌尔股份有限公司 | 一种耳机及降噪方法 |
CN110246502A (zh) * | 2019-06-26 | 2019-09-17 | 广东小天才科技有限公司 | 语音降噪方法、装置及终端设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860675A (zh) * | 2021-02-06 | 2021-05-28 | 高云 | 在线云服务环境下的大数据处理方法及云计算服务器 |
CN112860675B (zh) * | 2021-02-06 | 2021-10-26 | 深圳市网时云计算有限公司 | 在线云服务环境下的大数据处理方法及云计算服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN111698232B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110246515B (zh) | 回声的消除方法、装置、存储介质及电子装置 | |
WO2021196905A1 (zh) | 语音信号去混响处理方法、装置、计算机设备和存储介质 | |
CN113766073B (zh) | 会议系统中的啸叫检测 | |
WO2023040523A1 (zh) | 音频信号的处理方法、装置、电子设备及存储介质 | |
CN103827966A (zh) | 处理音频信号 | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
CN112185410B (zh) | 音频处理方法及装置 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN111710344A (zh) | 一种信号处理方法、装置、设备及计算机可读存储介质 | |
CN112185408A (zh) | 音频降噪方法、装置、电子设备以及存储介质 | |
CN117789744B (zh) | 基于模型融合的语音降噪方法、装置及存储介质 | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
CN115482830A (zh) | 语音增强方法及相关设备 | |
CN111698232B (zh) | 数据处理方法、装置、计算机设备以及存储介质 | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 | |
CN116612778B (zh) | 回声及噪声抑制方法、相关装置和介质 | |
CN117079661A (zh) | 一种声源处理方法及相关装置 | |
CN113571079A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN111667842A (zh) | 音频信号处理方法及装置 | |
CN114630069B (zh) | 音视频优化方法、音频终端及存储介质 | |
CN114023352B (zh) | 一种基于能量谱深度调制的语音增强方法及装置 | |
CN115620737A (zh) | 语音信号处理装置、方法、电子设备和扩音系统 | |
CN115083440A (zh) | 音频信号降噪方法、电子设备和存储介质 | |
CN113299308B (zh) | 一种语音增强方法、装置、电子设备及存储介质 | |
CN112750456A (zh) | 即时通信应用中的语音数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |