CN111627455A - 一种音频数据降噪方法、装置以及计算机可读存储介质 - Google Patents
一种音频数据降噪方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111627455A CN111627455A CN202010495430.0A CN202010495430A CN111627455A CN 111627455 A CN111627455 A CN 111627455A CN 202010495430 A CN202010495430 A CN 202010495430A CN 111627455 A CN111627455 A CN 111627455A
- Authority
- CN
- China
- Prior art keywords
- noise reduction
- audio data
- gain
- sample
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 863
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004891 communication Methods 0.000 claims abstract description 287
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 51
- 238000013459 approach Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 10
- 238000012549 training Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种音频数据降噪方法、装置以及计算机可读存储介质,该方法包括:获取通信音频数据;根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据。采用本申请,可提升针对通信音频数据的降噪效果。
Description
技术领域
本申请涉及音频数据处理的技术领域,尤其涉及一种音频数据降噪方法、装置以及计算机可读存储介质。
背景技术
现今社会中,用户与用户之间通常是通过网络进行通信,例如网络语音通信或者网络电话通信等。其中,用户A在通过网络与用户B进行通信时,用户A很有可能处在嘈杂的环境中,这就导致用户A所持有的终端所获取到的用户A的语音音频不仅包括用户A的声音,还包含噪音,例如,该噪音可以是车辆鸣笛的声音、电视的声音或者鞭炮的声音等。因此,若是直接将未处理的用户A的语音音频发送给用户B,会导致用户B很难听清用户A的声音,因此,需要对用户所录入的语音音频进行降噪处理。
现有技术中,在对语音音频进行降噪处理时,当语音音频中的噪音强于语音时,会对语音音频进行较大程度的降噪,进而可以尽量抑制语音音频中的噪音。但是,在对语音音频中的噪音进行较大程度的抑制时,通常也会附带地对语音音频中的语音进行较大程度的抑制,这就导致用户B同样很难根据已降噪的语音音频听清用户A的声音。由上可知,现有技术在对语音音频进行降噪时,对语音音频的降噪效果差。
发明内容
本申请提供了一种音频数据降噪方法、装置以及计算机可读存储介质,可提升针对通信音频数据的降噪效果。
本申请一方面提供了一种音频数据降噪方法,包括:
获取通信音频数据;
根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;
根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;
根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据。
其中,根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益,包括:
获取通信音频数据的音频时域信号,根据音频时域信号得到通信音频数据的音频频域信号;
将音频频域信号输入第一降噪模型,得到第一降噪增益,将音频频域信号输入第二降噪模型,得到第二降噪增益。
其中,根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益,包括:
对通信音频数据进行噪声估计操作,得到通信音频数据的语音估计概率;
根据语音估计概率、第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益。
其中,根据语音估计概率、第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益,包括:
生成语音估计概率对应的噪音加权系数;
根据噪音加权系数对第一降噪增益进行加权,得到噪音加权增益;
根据语音估计概率对第二降噪增益进行加权,得到语音加权增益;
根据噪音加权增益和语音加权增益,确定合并降噪增益。
其中,噪音加权系数包括至少两个频点分别对应的加权系数;第一降噪增益包括至少两个频点分别对应的降噪增益;第一降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的加权系数一一对应;
根据噪音加权系数对第一降噪增益进行加权,得到噪音加权增益,包括:
根据噪音加权系数中的至少两个频点分别对应的加权系数,分别对第一降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第一加权增益;
将每个频点分别对应的第一加权增益,确定为噪音加权增益。
其中,语音估计概率包括至少两个频点分别对应的语音概率;第二降噪增益包括至少两个频点分别对应的降噪增益;第二降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的语音概率一一对应;
根据语音估计概率对第二降噪增益进行加权,得到语音加权增益,包括:
根据语音估计概率中的至少两个频点分别对应的加权系数,分别对第二降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第二加权增益;
将每个频点分别对应的第二加权增益,确定为语音加权增益。
其中,合并降噪增益包括至少两个频点分别对应的降噪增益;通信音频数据的音频频域信号中包括至少两个频点分别对应的能量值;合并降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的能量值一一对应;
根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据,包括:
根据合并降噪增益中的至少两个频点分别对应的降噪增益,分别对通信音频数据中属于相同频点的能量值进行加权,得到每个频点分别对应的加权能量值;
根据每个频点分别对应的加权能量值,确定通信音频数据的加权音频频域信号;
对加权音频频域信号进行时域变换,得到通信音频数据的降噪音频数据。
其中,还包括:
获取纯语音样本音频数据和纯噪音样本音频数据;纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
根据样本语音能量值和样本噪音能量值,得到纯语音样本音频数据和纯噪音样本音频数据对应的样本实际降噪增益;
将样本实际降噪增益、纯语音样本音频数据和纯噪音样本音频数据同步输入第一初始降噪模型,基于第一初始降噪模型,预测得到纯语音样本音频数据和纯噪音样本音频数据对应的第一样本预测降噪增益;
基于样本实际降噪增益、第一样本预测降噪增益和第一代价函数,调整第一初始降噪模型的模型参数,得到第一降噪模型;第一代价函数用于使第一初始降噪模型所预测得到的第一样本预测降噪增益,趋近于样本实际降噪增益的平方项。
其中,还包括:
获取纯语音样本音频数据和纯噪音样本音频数据;纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
根据样本语音能量值和样本噪音能量值,得到纯语音样本音频数据和纯噪音样本音频数据对应的样本实际降噪增益;
将样本实际降噪增益、纯语音样本音频数据和纯噪音样本音频数据同步输入第二初始降噪模型,基于第二初始降噪模型预测得到纯语音样本音频数据和纯噪音样本音频数据对应的第二样本预测降噪增益;
基于样本实际降噪增益、第二样本预测降噪增益和第二代价函数,调整第二初始降噪模型的模型参数,得到第二降噪模型;第二代价函数用于使第二初始降噪模型所预测得到的第二样本预测降噪增益,趋近于样本实际降噪增益。
其中,还包括:
将通信音频数据的降噪音频数据同步至已连接的会话终端,以使会话终端输出降噪音频数据。
本申请一方面提供了一种音频数据降噪装置,包括:
音频获取模块,用于获取通信音频数据;
增益获取模块,用于根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;
增益合并模块,用于根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;
降噪模块,用于根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据。
其中,增益获取模块,包括:
频域信号获取单元,用于获取通信音频数据的音频时域信号,根据音频时域信号得到通信音频数据的音频频域信号;
增益获取单元,用于将音频频域信号输入第一降噪模型,得到第一降噪增益,将音频频域信号输入第二降噪模型,得到第二降噪增益。
其中,增益合并模块,包括:
噪声估计单元,用于对通信音频数据进行噪声估计操作,得到通信音频数据的语音估计概率;
增益合并单元,用于根据语音估计概率、第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益。
其中,增益合并单元,包括:
系数生成子单元,用于生成语音估计概率对应的噪音加权系数;
第一加权子单元,用于根据噪音加权系数对第一降噪增益进行加权,得到噪音加权增益;
第二加权子单元,用于根据语音估计概率对第二降噪增益进行加权,得到语音加权增益;
增益确定子单元,用于根据噪音加权增益和语音加权增益,确定合并降噪增益。
其中,噪音加权系数包括至少两个频点分别对应的加权系数;第一降噪增益包括至少两个频点分别对应的降噪增益;第一降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的加权系数一一对应;
第一加权子单元,包括:
第一频点加权子单元,用于根据噪音加权系数中的至少两个频点分别对应的加权系数,分别对第一降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第一加权增益;
第一频点增益确定子单元,用于将每个频点分别对应的第一加权增益,确定为噪音加权增益。
其中,语音估计概率包括至少两个频点分别对应的语音概率;第二降噪增益包括至少两个频点分别对应的降噪增益;第二降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的语音概率一一对应;
第二加权子单元,包括:
第二频点加权子单元,用于根据语音估计概率中的至少两个频点分别对应的加权系数,分别对第二降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第二加权增益;
第二频点增益确定子单元,用于将每个频点分别对应的第二加权增益,确定为语音加权增益。
其中,合并降噪增益包括至少两个频点分别对应的降噪增益;通信音频数据的音频频域信号中包括至少两个频点分别对应的能量值;合并降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的能量值一一对应;
降噪模块,包括:
能量值加权单元,用于根据合并降噪增益中的至少两个频点分别对应的降噪增益,分别对通信音频数据中属于相同频点的能量值进行加权,得到每个频点分别对应的加权能量值;
加权信号确定单元,用于根据每个频点分别对应的加权能量值,确定通信音频数据的加权音频频域信号;
域变换单元,用于对加权音频频域信号进行时域变换,得到通信音频数据的降噪音频数据。
其中,音频数据降噪装置,还包括:
第一样本获取模块,用于获取纯语音样本音频数据和纯噪音样本音频数据;纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
第一实际增益获取模块,用于根据样本语音能量值和样本噪音能量值,得到纯语音样本音频数据和纯噪音样本音频数据对应的样本实际降噪增益;
第一预测增益获取模块,用于将样本实际降噪增益、纯语音样本音频数据和纯噪音样本音频数据同步输入第一初始降噪模型,基于第一初始降噪模型,预测得到纯语音样本音频数据和纯噪音样本音频数据对应的第一样本预测降噪增益;
第一参数调整模块,用于基于样本实际降噪增益、第一样本预测降噪增益和第一代价函数,调整第一初始降噪模型的模型参数,得到第一降噪模型;第一代价函数用于使第一初始降噪模型所预测得到的第一样本预测降噪增益,趋近于样本实际降噪增益的平方项。
其中,音频数据降噪装置,还包括:
第二样本获取模块,用于获取纯语音样本音频数据和纯噪音样本音频数据;纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
第二实际增益获取模块,用于根据样本语音能量值和样本噪音能量值,得到纯语音样本音频数据和纯噪音样本音频数据对应的样本实际降噪增益;
第二预测增益获取模块,用于将样本实际降噪增益、纯语音样本音频数据和纯噪音样本音频数据同步输入第二初始降噪模型,基于第二初始降噪模型预测得到纯语音样本音频数据和纯噪音样本音频数据对应的第二样本预测降噪增益;
第二参数调整模块,用于基于样本实际降噪增益、第二样本预测降噪增益和第二代价函数,调整第二初始降噪模型的模型参数,得到第二降噪模型;第二代价函数用于使第二初始降噪模型所预测得到的第二样本预测降噪增益,趋近于样本实际降噪增益。
其中,音频数据降噪装置,还用于:
将通信音频数据的降噪音频数据同步至已连接的会话终端,以使会话终端输出降噪音频数据。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如本申请中一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面中的方法。
本申请获取通信音频数据;根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据。由此可见,本申请提出的方法,可以通过降噪强度比较大的第一降噪模型以及对语音保护能力比较好的第二降噪模型,一起得到针对通信音频数据的合并降噪增益,进而可以通过该合并降噪增益对通信音频数据进行降噪,使得可以在对通信音频数据中的噪音音频进行较大程度的降噪的前提下,也可以较小程度地损伤通信音频数据中的语音音频。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种系统架构示意图;
图2是本申请提供的一种音频降噪的场景示意图;
图3是本申请提供的一种音频数据降噪方法的流程示意图;
图4是本申请提供的一种模型训练的场景示意图;
图5是本申请提供的一种获取合并降噪增益的场景示意图;
图6是本申请提供的一种音频降噪的场景示意图;
图7是本申请提供的一种音频降噪应用的场景示意图;
图8是本申请提供的一种音频降噪方法的流程示意图;
图9是本申请提供的一种实验数据的表格示意图;
图10是本申请提供的一种音频数据降噪装置的结构示意图;
图11是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请中所涉及到的机器学习主要指,通过机器学习得到降噪模型,通过该降噪模型可以实现对通信音频数据的降噪。
请参见图1,是本申请提供的一种系统架构示意图。如图1所示,该系统架构示意图包括服务器100以及多个终端设备,多个终端设备具体包括终端设备200a、终端设备200b和终端设备200c。其中,终端设备200a、终端设备200b和终端设备200c均能通过网络与服务器100之间相互通信,终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)。此处以终端设备200a、终端设备200b与服务器100之间的通信为例进行本申请的说明。
请参见图2,是本申请提供的一种音频降噪的场景示意图。如图2所示,用户A所持有的终端设备可以是终端设备200a,用户B所持有的终端设备可以是终端设备200b。用户A可以使用终端设备200a与用户B进行语音通话,用户B可以使用终端设备200b与用户A进行语音通话。其中,用户A可以是使用终端设备200a中的即时通讯应用中的语音通话功能与用户B进行的语音通话,同理,用户B可以是使用终端设备200b中的即时通讯应用中的语音通话功能与用户A进行的语音通话。在用户A和用户B进行语音通话的过程中,终端设备200a可以获取到用户A录入的语音音频,该语音音频也就是用户A向用户B说话的音频。同理,终端设备200b也可以获取到用户B录入的语音音频,该语音音频为用户B向用户A说话的音频。
其中,在实际的语音通话的场景中,用户A和用户B很有可能处于嘈杂的环境中,因此,上述终端设备200a所获取到的用户A的语音音频中除了会包括用户A的语音之外,还会包括噪音。同样,上述终端设备200b所获取到的用户B的语音音频中除了会包括用户B的语音之外,也会包括噪音。假设用户A是在大街上,那么,终端设备200a所获取到的用户A的语音音频中的噪音可以是车辆的鸣笛声、路边门店播放的音乐声以及路人的说话声等。假设用户B是在商场中,那么终端设备200b所获取到的用户B的语音音频中的噪音可以是商场播放的音乐声、商场人流的说话声以及商家的吆喝声等。
若是直接将终端设备200a所获取到的用户A的语音音频发送给用户B所持有的终端设备200b,会导致用户B很难通过终端设备200b所获取到的用户A的语音音频听清用户A说的话。因此,在将终端设备200a所获取到的用户A的语音音频发送给用户B所持有的终端设备200b之前,需要对用户A的语音音频进行降噪,再将用户A的降噪后的语音音频发送给用户B所持有的终端设备200b,使得用户B可以通过终端设备200b所获取到的用户A的降噪后的语音音频,快速听清用户A说的话。同理,在将终端设备200b所获取到的用户B的语音音频发送给用户A所持有的终端设备200a之前,也会对用户B的语音音频进行降噪,再将用户B的降噪后的语音音频发送给用户A所持有的终端设备200a,使得用户A可以通过终端设备200a所获取到的用户B的降噪后的语音音频。
其中,对语音音频进行降噪,也就是需要抑制语音音频中的噪音,并且保护语音音频中的用户的语音。换句话说,对语音音频进行降噪,也就是减小语音音频中的噪音的声音,但是尽量不减小语音音频中的用户的语音。下面以对终端设备200a所获取到的用户A的语音音频进行降噪为例进行说明,可以理解的是,对终端设备200b所获取到的用户B的语音音频进行降噪的过程,与对用户A的语音音频进行降噪的过程相同。
其中,在对终端设备200a所获取到的用户A的语音音频进行降噪时,可以是终端设备200a将获取到的用户A原始的语音音频发送给服务器100,由服务器100来对用户A的语音音频进行降噪处理,进而服务器100可以将用户A的降噪后的语音音频发送给用户B所持有的终端设备200b。或者,也可以终端设备200a在获取到用户A的语音音频后,自行对用户A的语音音频进行降噪,降噪之后,将用户A的降噪后的语音音频发送给服务器100,再由服务器100将用户A的降噪后的语音音频转发给用户B所持有的终端设备200b。换句话说,对音频数据进行降噪的执行主体可以是终端设备,也可以是服务器,具体根据实际应用场景决定,对此不作限制。此处以服务器作为对语音音频进行降噪的执行主体为例进行说明,下面描述服务器100对用户A的语音音频进行降噪的过程:
如图2所示,假设终端设备200a获取到的用户A的语音音频为含噪通信音频102a。终端设备200a可以将所获取到的含噪通信音频102a发送给服务器100。服务器100获取到含噪通信音频102a之后,可以对含噪通信音频102a进行域变换,即将含噪通信音频102a变换到频域,得到含噪通信音频102a的音频频域信号。该音频频域信号为一个包含多个能量值(能量值的单位为:分贝,即dB)的序列,该序列在此处可以为图2中的音频频域信号107a。该序列中的一个能量值对应于一个频点,一个频点即为一个频率采样点。
接着,服务器100可以将含噪通信音频102a的音频频域信号输入到强降噪模型103a中,得到针对含噪通信音频102a的降噪增益。还可以将含噪通信音频102a的音频频域信号输入到语音保护降噪模型104a中,同样得到针对含噪通信音频102a的降噪增益。其中,强降噪模型103a和语音保护降噪模型均为预先训练好的、具备对音频进行降噪的能力的降噪模型。强降噪模型103a的降噪能力大于语音保护降噪模型,语音保护降噪模型对音频中的语音的损伤程度小于强降噪模型。换句话说,强降噪模型103a对音频中的噪声的抑制能力大于语音保护降噪模型104a,语音保护降噪模型104a对音频中的语音的保护能力大于强降噪模型。强降噪模型103a和语音保护降噪模型104a的训练过程可以参见下述步骤S104中所描述的过程。
服务器100还可以通过对含噪通信音频102a的音频频域信号进行噪声估计,得到针对含噪通信音频102a的音频频域信号的语音估计概率,该语音估计概率表明了含噪通信音频102a为用户的语音而非噪音的概率。服务器100在得到了针对含噪通信音频102a的语音估计概率之后,即可根据该语音估计概率105a、通过上述强降噪模型103a得到的针对含噪通信音频102a的降噪增益以及通过上述语音保护降噪模型104a得到的针对含噪通信音频102a的降噪增益,计算出针对含噪通信音频102a最终的降噪增益,该最终的降噪增益也为一个增益序列,此处,该最终的降噪增益可以是图2中的增益序列106a。其中,通过语音估计概率、强降噪模型103a所得到的降噪增益以及语音保护模型所得到的降噪增益,计算得到针对含噪通信音频102a最终的降噪增益的过程可以参见下述步骤S102和步骤S103所描述的过程。
如图2所示,增益序列106a中包括5个频点分别对应的降噪增益,包括频点1对应的降噪增益5、频点2对应的降噪增益7、频点3对应的降噪增益8、频点4对应的降噪增益10以及频点5对应的降噪增益3。含噪通信音频102a的音频频域信号107a中也包括上述5个频点分别对应的能量值,具体包括频点1对应的能量值1、频点2对应的能量值2、频点3对应的能量值3、频点4对应的能量值2以及频点5对应的能量值1。
服务器100可以通过增益序列106a实现对含噪通信音频102a的降噪:服务器100可以计算增益序列106a中以及音频频域信号107a中对应于相同频点的降噪增益以及能量值之间的乘积,通过该乘积得到加权频域信号108a。具体为:服务器100可以计算增益序列106a中对应于频点1的降噪增益5与音频频域信号107a中对应于频点1的能量值1之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号108a中对应于频点1的能量值5。服务器100可以计算增益序列106a中对应于频点2的降噪增益7与音频频域信号107a中对应于频点2的能量值2之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号108a中对应于频点2的能量值14。服务器100可以计算增益序列106a中对应于频点3的降噪增益8与音频频域信号107a中对应于频点3的能量值3之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号108a中对应于频点3的能量值24。服务器100可以计算增益序列106a中对应于频点4的降噪增益10与音频频域信号107a中对应于频点4的能量值2之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号108a中对应于频点4的能量值20。服务器100可以计算增益序列106a中对应于频点5的降噪增益3与音频频域信号107a中对应于频点5的能量值1之间乘积,得到加权后的能量值,该加权后的能量值即为加权频域信号108a中对应于频点5的能量值3。
在得到音频频域信号107a对应的加权频域信号108a之后,服务器100可以对该加权频域信号109a进行时域变换,即可得到含噪通信音频102a的降噪通信音频109a。该降噪通信音频109a即为对含噪通信音频102a进行降噪之后,所得到的最终的音频。服务器100可以将该降噪通信音频109a发送给用户B所持有的终端设备200b,终端设备200b可以播放该降噪通信音频109a,使得用户B可以听到用户A所说的话。
采用本申请所提供的方法,通过将降噪能力较强的模型(例如上述强降噪模型103a)以及对音频中的语音保护能力较强的模型(例如上述语音保护模型104a)进行结合,得到针对音频最终的降噪增益,并利用该最终的降噪增益来对音频进行降噪,使得最终降噪所得到的音频可以最大程度抑制音频中的噪音,并最大程度保护音频中的语音,实现了对音频进行趋近理想的降噪。
请参见图3,是本申请提供的一种音频数据降噪方法的流程示意图,如图3所示,该方法可以包括:
步骤S101,获取通信音频数据;
具体的,本实施例中的执行主体可以是终端设备,也可以是服务器。若执行主体为服务器,那么服务器获取到的通信音频数据可以是终端设备向其发送的。此处,以目标终端设备作为本实施例中的执行主体为例进行说明,该目标终端设备可以是任意一个终端设备。
目标终端设备获取通信音频数据的来源可以是:假设目标用户持有目标终端设备,目标用户可以使用目标终端设备与其他用户进行语音通话,其他用户也是通过自己所持有的终端设备来进行与目标用户的语音通话。在目标终端设备响应目标用户的用户操作与其他用户的终端设备进行语音通话时,目标终端设备可以获取到目标用户录入的语音通话音频。该语音通话音频即为目标终端设备获取到的目标用户向其他用户说的话,可以将该语音通话音频作为上述通信音频数据。
除此之外,目标终端设备还可以响应目标用户的用户操作,与其他用户进行在线语音会议,该在线语音会议可以是纯语音会议,也可以在线视频会议。在目标终端设备处于在线语音会议期间,目标终端设备可以获取到目标用户的语音会议音频。该语音会议音频即为在线语音期间,目标用户向会议中的其他用户说的话,该语音会议音频也可以作为上述通信音频数据。
其中,目标终端设备中安装有通讯类型软件,目标终端设备可以是通过所安装的通讯类型软件中的语音通话功能,来实现上述目标用户与其他用户之间的语音通话;或者,目标终端设备也可以是通过所安装的通讯类型软件中的在线语音会议的功能,来实现上述目标用户与其他用户之间的在线语音会议。
可以理解的是,上述仅为目标终端设备获取通信音频数据的几种举例的场景,通信音频数据可以是在语音通信相关场景中所获取到的包含用户语音的任意一个音频数据。
步骤S102,根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;
具体的,目标用户在使用目标终端设备与其他用户进行上述语音通话或者在线语音会议时,很有可能是处于嘈杂的环境中,因此,目标终端设备所获取到的通信音频数据中除了会包含目标用户的语音,也会包含噪音。举个例子,若目标用户是处于空调房中,则通信音频数据中的噪音可以是空调机的运行声音或者电风扇的转动声等;若目标用户是处于商场中,则通信音频数据中的噪音可以是商场播放的音乐的声音以及店员的吆喝声等;若目标用户是处于大街上,则通信音频数据中的噪音可以是车辆的鸣笛声以及路人的说话声等。因此,本实施例主要描述如何对通信音频数据进行降噪,而降噪所想要达到的效果就是尽量抑制通信音频数据中的噪音,而尽量保护通信音频数据中用户的语音。
上述第一降噪模型(可以是上述图2中的强降噪模型)以及第二降噪模型(可以是上述图2中的语音保护降噪模型),均为预先训练好的可以得到针对通信音频数据的降噪增益的模型,换句话说,第一降噪模型和第二降噪模型都可以实现对通信音频数据的降噪。其中,第一降噪模型针对通信音频数据的降噪强度要大于第二降噪模型针对通信音频数据的降噪强度。可以理解的是,降噪强度越大,虽然对通信音频数据中的噪音的抑制强度大,但也越容易对通信音频数据中用户的语音造成损伤,例如也过多地抑制了通信音频数据中用户的语音。虽然第二降噪模型针对通信音频数据的降噪强度要小于第一降噪模型,但是第二降噪模型对通信音频数据中用户的语音的损伤程度,要小于第一降噪模型对通信音频数据中用户的语音的损伤程度,换句话说,第二降噪模型对通信音频数据中用户的语音的保护程度要大于第一降噪模型。
下面描述第一降噪模型和第二降噪模型的训练过程:
可以预先获取到样本音频数据,该样本音频数据可以包括纯语音样本音频数据和纯噪音样本音频数据。其中,纯语音样本音频数据为仅包括用户说话的声音,该纯语音样本音频数据可以是各种各样的用户说话的声音,例如不同声音大小的用户说话的声音,或者不同音色的用户说话的声音。纯噪音样本音频数据为仅包括噪音的音频数据,例如,纯噪音样本音频数据可以是车辆鸣笛的声音、炒菜的声音或者敲击键盘的声音等各种类型的噪音。其中,纯语音样本音频数据和纯噪音样本音频数据是通过输入到初始模型中进行训练,以得到上述第一降噪模型和第二降噪模型的。
可以理解为,一个纯语音样本音频数据和一个纯噪音样本音频数据构成一个样本。其中,可以对纯语音样本音频数据进行时域变换,得到纯语音样本音频数据的时域信号,再对该纯语音样本音频数据的时域信号进行频域变换,得到纯语音样本音频数据的频域信号。同样,可以对纯噪音样本音频数据进行时域变换,得到纯噪音样本音频数据的时域信号,再对该纯噪音样本音频数据的时域信号进行频域变换,得到纯噪音样本音频数据的频域信号。
其中,属于一个样本的纯语音样本音频数据的频域信号和纯噪音样本音频数据的频域信号,其信号长度是相同的,例如属于一个样本的纯语音样本音频数据的频域信号包含3个频点对应的能量值,例如为(1,2,3),那么该样本中的纯噪音样本音频数据的频域信号也包含3个频点对应的能量值,例如(4,5,6),纯语音样本音频数据的频域信号中的能量值和纯噪音样本音频数据的频域信号中的能量值,均与每个频点一一对应。可以将纯语音样本样本音频数据的频域信号和纯噪音样本音频数据的频域信号称之为样本音频频域信号。可以将纯语音样本样本音频数据的频域信号中的能量值称之为样本语音能量值,可以将纯噪音样本音频数据的频域信号中的能量值称之为样本噪音能量值。其中,一个频点即为一个频率采样点,假设上述3个频点包括频点1、频点2和频点3,那么,上述纯语音样本音频数据的频域信号(1,2,3)中的能量值1和纯噪音样本音频数据的频域信号(4,5,6)中的能量值4都对对应于频点1;纯语音样本音频数据的频域信号(1,2,3)中的能量值2和纯噪音样本音频数据的频域信号(4,5,6)中的能量值5都对对应于频点2;纯语音样本音频数据的频域信号(1,2,3)中的能量值3和纯噪音样本音频数据的频域信号(4,5,6)中的能量值6都对对应于频点3。
可以计算纯语音样本音频数据的频域信号和纯噪音样本音频数据的频域信号中对应于同一频点的能量值之间的比值,得到样本的每个频点对应的实际的降噪增益。可以将样本的每个频点对应的实际的降噪增益称之为样本实际降噪增益。例如,可以得到上述纯语音样本音频数据的频域信号(1,2,3)中的能量值1和纯噪音样本音频数据的频域信号(4,5,6)中的能量值4之间的比值1/3,该比值1/3即为频点1对应的样本实际降噪增益;还可以得到纯语音样本音频数据的频域信号(1,2,3)中的能量值2和纯噪音样本音频数据的频域信号(4,5,6)中的能量值5之间的比值2/5,该比值2/5即为频点2对应的样本实际降噪增益;还可以得到纯语音样本音频数据的频域信号(1,2,3)中的能量值3和纯噪音样本音频数据的频域信号(4,5,6)中的能量值6之间的比值3/6,该比值3/6即为频点3对应的样本实际降噪增益。
此处描述第一降噪模型的训练过程:
一个样本可以包括一个纯语音样本音频数据和一个纯噪音样本音频数据,可以将多个样本以及每个样本对应的样本实际降噪增益(可以为一个增益序列,包括每个频点分别对应的样本实际降噪增益)输入到第一初始降噪模型中进行训练,其中,第一初始降噪模型的模型结构可以是DNN(深度神经网络)网络结构。可以将第一初始降噪模型的代价函数称之为第一代价函数,该第一代价函数如公式(1)所示:
可以看出,第一代价函数L1为MSE(均方误差)准则的平方项,n为频点,n的初始值为1,一共n个频点,为第一初始降噪模型预测出来的第n个频点对应的预测降噪增益,可以将第一初始降噪模型预测出来的每个频点对应的预测降噪增益称之为第一样本预测降噪增益。gn为第n个频点对应的样本实际降噪增益。E1n为纯语音样本音频数据的频点n对应的能量值,E2n为纯噪音样本音频数据的频点n对应的能量值。
第一初始降噪模型在训练时,是调整第一初始降噪模型的模型参数,使得第一代价函数达到最小值,即使得训练损失最小。通过第一代价函数来训练第一初始降噪模型,可以使得第一初始降噪模型所预测得到的第一样本预测降噪增益无线趋近于样本实际降噪增益的平方项。当对第一初始降噪模型训练至收敛时,收敛后的第一初始降噪模型即可作为上述第一降噪模型。
此处描述第二降噪模型的训练过程:
第二降噪模型可以使用与第一降噪模型相同的样本数据来训练,也可以使用不同的样本数据来训练。在训练第二初始降噪模型来得到第二降噪模型时,与训练第一初始降噪模型来得到第二降噪模型时,其最大的区别是第二初始降噪模型的代价函数不同于第一初始降噪模型的代价函数。第二初始降噪模型的网络结构也可以是DNN网络结构。同样,一个样本可以包括一个纯语音样本音频数据和一个纯噪音样本音频数据,可以将多个样本以及每个样本对应的样本实际降噪增益输入到第二初始降噪模型中进行训练。可以将第二初始降噪模型的代价函数称之为第二代价函数,该第二代价函数如公式(2)所示:
其中,表示MSE准则项,表示传统交叉熵代价函数(CrossEntropy Loss)。n表示频点。为第二初始降噪模型预测出来的第n个频点对应的预测降噪增益,可以将第二初始降噪模型预测出来的每个频点对应的预测降噪增益称之为第二样本预测降噪增益。gn为第n个频点对应的样本实际降噪增益。
第二初始降噪模型在训练时,是调整第二初始降噪模型的模型参数,使得第二代价函数达到最小值,即使得训练损失最小。通过第二代价函数来训练第二初始降噪模型,可以使得第二初始降噪模型所预测得到的第二样本预测降噪增益无线趋近于样本实际降噪增益。当对第一初始降噪模型训练至收敛时,收敛后的第一初始降噪模型即可作为上述第一降噪模型。
其中,可以理解为,上述MSE准则项主要作用是降噪(即抑制通信音频数据中的噪音),传统交叉熵代价函数L主要作用是保护通信音频数据中的语音。通过使用不同的代价函数来训练初始模型,可以限定初始模型训练的方向。而上述通过第一代价函数来训练第一初始降噪模型,就是要使得第一初始降噪模型的训练方向主要是着重于降噪,通过上述第二代价函数来训练第二初始降噪模型,就是要使得第二初始降噪模型的训练方向主要是在降噪的基础上着重于保护语音。
因此,通过上述过程,即可训练得到降噪能力较强的第一降噪模型和语音保护能力更强的第二降噪模型。
请参见图4,是本申请提供的一种模型训练的场景示意图。如图4所示,用于进行模型训练的样本数据100f中包括纯语音样本音频数据101f和纯噪音样本音频数据102f。纯语音样本音频数据101f为一个音频集合,该音频集合中包括纯语音样本音频数据103f(即{5,4,3,2,1})。纯语音样本音频数据103f中包括频点1对应的能量值5、频点2对应的能量值4、频点3对应的能量值3、频点4对应的能量值2和频点5对应的能量值1。纯噪音样本音频数据102f也为一个音频集合,该音频集合中包括纯噪音样本音频数据104f(即{1,2,3,4,5})。纯噪音样本音频数据104f中包括频点1对应的能量值1、频点2对应的能量值2、频点3对应的能量值3、频点4对应的能量值4和频点5对应的能量值5。纯语音样本音频数据103f和纯噪音样本音频数据104f属于同一个样本,因此通过上述纯语音样本音频数据103f和纯噪音样本音频数据104f得到的样本实际降噪增益就为样本实际降噪增益105f(即{5/1,4/2,3/3,2/4,1/5},也就是{5,2,1,0.5,0.2})。样本实际降噪增益105f中包括频点1对应的实际降噪增益5、频点2对应的实际降噪增益2、频点3对应的实际降噪增益1、频点4对应的实际降噪增益0.5以及频点5对应的实际降噪增益0.2。因此,可以通过此种方式得到样本数据100f中每个样本分别对应的样本实际降噪增益。
因此,可以将样本数据100f中的纯语音样本音频数据101f和纯噪音样本音频数据102f构成的每个样本以及每个样本对应的样本实际降噪增益输入到第一初始降噪模型108f中进行训练,其中属于同一个样本的纯语音样本音频数据和纯噪音样本音频数据是同步输入到第一初始降噪模型108f的。训练过程中第一初始降噪模型是通过第一代价函数106f进行训练,对第一初始降噪模型训练完成之后,即可得到第一降噪模型110f。
同样,可以将样本数据100f中的纯语音样本音频数据101f和纯噪音样本音频数据102f构成的每个样本以及每个样本对应的样本实际降噪增益输入到第二初始降噪模型109f中进行训练,其中属于同一个样本的纯语音样本音频数据和纯噪音样本音频数据是同步输入到第二初始降噪109f模型的。训练过程中第二初始降噪模型是通过第二代价函数107f进行训练,对第二初始降噪模型训练完成之后,即可得到第二降噪模型111f。
其中,对模型训练完成的标准可以是最终训练出的模型的误差在合理范围内(合理范围可以自行设定),也可以是训练的样本数据的数量达到一定值(该值可以自行设定)等。
接着,可以对上述通信音频数据进行时域变换,得到通信音频数据的时域信号,可以对通信音频数据的时域信号进行频域变换(例如加窗FFT(快速傅里叶变换)变换),得到通信音频数据的频域信号(可以称之为音频频域信号)。可以将通信音频数据的频域信号输入到上述所训练得到的第一降噪模型中,得到第一降噪增益。可以将通信音频数据的频域信号输入到上述所训练得到的第二降噪模型中,得到第二降噪增益。
其中,通信音频数据的音频频域信号中包括至少两个频点分别对应的能量值,例如通信音频数据的音频频域信号为(1,2,3),该音频频域信号(1,2,3)包括频点1对应的能量值1、频点2对应的能量值2以及频点3对应的能量值3。上述所得到的第一降噪增益中也包括该至少两个频点分别对应的降噪增益,第二降噪增益中也包括该至少两个频点分别对应的降噪增益。例如,通信音频数据的音频频域信号包括频点1对应的能量值1、频点2对应的能量值2以及频点3对应的能量值3,那么第一降噪增益中可以包括频点1对应的降噪增益、频点2对应的降噪增益以及频点3对应的降噪增益,同理,第一降噪增益中也可以包括频点1对应的降噪增益、频点2对应的降噪增益以及频点3对应的降噪增益。
可以理解为,第一降噪增益中的降噪增益与通信音频数据的音频频域信号中的能量值一一对应,第二降噪增益中的降噪增益也与通信音频数据的音频频域信号中的能量值一一对应,对应的方式即为对应于相同的频点。
步骤S103,根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;
具体的,目标终端设备可以对上述通信音频数据进行噪声估计,得到通信音频数据的语音估计概率(也可以称之为语音存在概率),该语音估计概率中包括通信音频数据的音频频域信号中的每个能量值分别对应的语音概率,该语音概率表明了对应的能量值处语音存在的概率。其中,对通信音频数据进行噪声估计以得到通信音频数据的语音估计概率的方法,可以是采用mcra(最小值控制的递归平均)噪声估计的方法,也可以是采用语音相关性的噪声估计方法,还可以是采用噪音相关性的噪声估计方法。
可以记上述语音估计概率为p,记上述第一降噪增益为gain1,记上述第二降噪增益为gain2,记合并降噪增益为gain。通过上述第一降噪增益、第二降噪增益和语音估计概率得到合并降噪增益的方式可以参见下述公式(3):
gain=(1-p)*gain1+p*gain2 (3)
其中,可以称1-p为语音估计概率对应的噪音加权系数,该噪音加权系数中也包括每个频点分别对应的加权系数。通过上述过程可以知道,是通过语音估计概率p对第二降噪增益gain2进行加权,是通过噪音加权系数1-p来对第一降噪增益进行加权。可以将上述通过语音估计概率对第二降噪增益进行加权后的结果p*gain2称之为语音加权增益,可以将上述通过噪音加权系数对第一降噪增益进行加权后的结果(1-p)*gain1称之为噪音加权增益。通过将噪音加权增益加上语音加权增益,即可得到合并降噪增益gain。
由于上述语音估计概率、第一降噪增益、第二降噪增益以及合并降噪增益均包括每个频点分别对应的值,因此,上述语音估计概率还可记为p(k,n),上述第一降噪增益还可记为gain1(k,n),上述第二降噪增益还可记为gain2(k,n),上述合并降噪增益还可记为gain(k,n)。其中,k表示频点,n表示帧数。由于在进行降噪时,会对通信音频数据进行分帧,例如每20ms为一帧等。因此,需要对通信音频数据的每一帧音频分别进行降噪。当n取第1帧时,k可以取每个频点,当n取第2帧时,k也可以取每个频点,当n去第3帧时,k也可以取每个频点,……。可以理解为本实施例中描述的是对通信音频数据的一帧音频进行降噪的过程,可以理解的是,对通信音频数据的每一帧音频进行降噪的过程均相同。当对通信音频数据的全部帧音频降噪完成时,表明对通信音频数据降噪完成。
因此,上述公式1还可以表示为下述公式(4)的形式:
gain(k,n)=[1-p(k,n)]*gain1(k,n)+p(k,n)*gain2(k,n) (4)
由上述公式(4)可知,在通过噪音加权系数对第一降噪增益进行加权时,是对噪音加权系数中和第一降噪增益中对应于相同频点的加权系数和降噪增益之间的加权(即相乘)。可以将通过噪音加权系数对第一降噪增益进行加权后,每个频点对应的加权后的降噪增益均称之为第一加权增益。噪音加权增益包括每个频点分别对应的第一加权增益。
在通过语音估计概率对第二降噪增益进行加权时,是对语音估计概率中和第二降噪增益中对应于相同频点的语音概率和降噪增益之间的加权(即相乘)。可以将通过语音估计概率对第二降噪增益进行加权后,每个频点对应的加权后的降噪增益均称之为第二加权增益。语音加权增益包括每个频点分别对应的第二加权增益。
其中,上述是以第一降噪模型以及第二降噪模型均为1个进行说明。可选的,第一降噪模型还可以有多个,第二降噪模型也可以有多个。训练多个第一降噪模型的代价函数可以均为上述第一代价函数,训练多个第二降噪模型的代价函数也可以均为上述第二代价函数。只是在训练得到不同的第一降噪模型时,可以采用不同的样本数据集来训练,或者使用不同网络结构的第一初始降噪模型,一个第一降噪模型分别对应于一个第一初始降噪模型。因此,训练出来的每个第一降噪模型其降噪强度均还是会大于第二降噪模型,但是不同第一降噪模型之间的降噪能力还是有区别。同理,在训练得到不同的第二降噪模型时,可以采用不同的样本数据集来训练,或者使用不同网络结构的第二初始降噪模型,一个第二降噪模型分别对应于一个第二初始降噪模型。因此,训练出来的每个第二降噪模型其对语音的保护能力均还是会大于第一降噪模型,但是不同第二降噪模型之间对语音的保护能力还是有区别。
可以使用上述噪音加权系数对每个第一降噪模型所得到的第一降噪增益进行加权,并对每个第一降噪模型对应的加权得到的噪音加权增益求和之后取平均值,将该平均值作为所有第一降噪模型对应的最终的噪音加权增益。同理,可以使用上述语音估计概率对每个第二降噪模型所得到的第二降噪增益进行加权,并对每个第二降噪模型对应的加权得到的语音加权增益求和之后取平均值,将该平均值作为所有第二降噪模型对应的最终的语音加权增益。进而将所有第一降噪模型对应的最终的噪音加权增益加上所有第二降噪模型对应的最终的语音加权增益,即可得到针对通信音频数据最终的合并降噪增益。举个例子,若存在第一降噪模型m1和第一降噪模型m2,存在第二降噪模型m3和第二降噪模型m4。第一降噪模型m1得到的第一降噪增益为(1,2),第一降噪模型m2得到的第一降噪增益为(3,4),第二降噪模型m3得到的第二降噪增益为(5,6),第二降噪模型m4得到的第二降噪增益为(7,8)。语音估计概率为(0.2,0.3),噪音加权系数为(0.8,0.7)。
那么,通过噪音加权系数为(0.8,0.7)对第一降噪增益为(1,2)进行加权可以得到噪音加权增益(0.8,1.4),通过噪音加权系数为(0.8,0.7)对第一降噪增益为(3,4)进行加权可以得到噪音加权增益(2.4,2.8)。那么,可以将((0.8+2.4)/2,(1.4+2.8)/2),即(1.6,2.1)作为最终的噪音加权增益。同理,通过语音估计概率为(0.2,0.3)对第二降噪增益为(5,6)进行加权可以得到语音加权增益(1.0,1.8),通过语音估计概率为(0.2,0.3)对第二降噪增益为(7,8)进行加权可以得到语音加权增益(1.4,2.4)。那么,可以将((1.0+1.4)/2,(1.8+2.4)/2),即(1.2,2.1)作为最终的语音加权增益。可以将上述最终的噪音加权增益(1.6,2.1)加上最终的语音加权增益(1.2,2.1),得到最终的合并降噪增益(1.6+1.2,2.1+2.1),即(2.8,4.2)。
请参见图5,是本申请提供的一种获取合并降噪增益的场景示意图。模型集合100d中包括第一降噪模型101d、第一降噪模型102d以及第一降噪模型103d等多个第一降噪模型。模型集合100d中的每个第一降噪模型均可以得到针对通信音频数据的第一降噪增益(包括第一降噪模型101d得到的第一降噪增益101e、第一降噪模型102d得到的第一降噪增益102e以及第一降噪模型103d得到的第一降噪增益103e)。可以使用噪音加权系数104e对每个第一降噪模型所得到的第一降噪增益进行加权,进而得到所有第一降噪模型对应的最终的噪音加权增益105e。
同理,模型集合104d中包括第二降噪模型105d、第二降噪模型106d以及第二降噪模型107d等多个第二降噪模型。模型集合100d中的每个第二降噪模型均可以得到针对通信音频数据的第二降噪增益(包括第二降噪模型105d得到的第二降噪增益106e、第二降噪模型106d得到的第二降噪增益107e以及第二降噪模型107d得到的第二降噪增益108e)。可以使用语音估计概率109e对每个第二降噪模型所得到的第二降噪增益进行加权,进而得到所有第二降噪模型对应的最终的语音加权增益110e。可以将上述噪音加权增益105e加上语音加权增益110e,即可得到针对通信音频数据最终的合并降噪增益111e。
步骤S104,根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据;
具体的,上述合并降噪增益中包括每个频点分别对应的降噪增益,通信音频数据的音频频域信号中也包括每个频点分别对应的能量值。可以通过合并降噪增益中的每个频点分别对应的降噪增益,对通信音频数据的音频频域信号中属于相同频点的能量值分别进行加权(即相乘),得到每个频点分别对应的加权后的能量值,可以将每个频点分别对应的加权后的能量值称之为加权能量值。
可以将每个频点分别对应的加权能量值合并,得到通信音频数据的加权音频频域信号,即该加权音频频域信号中包括每个频点分别对应的加权能量值。可以将该加权音频频域信号从频域变换到时域,即可得到通信音频数据最终的降噪音频数据。
目标终端设备可以将通信音频数据的降噪音频数据发送给已连接的会话终端,使得获取到该降噪音频数据的会话终端可以通过音频播放器播放该降噪音频数据。其中与目标终端设备已连接的会话终端可以指在上述步骤S101中与目标用户进行语音通话的用户所持有的终端设备,或者是与目标用户进行在线语音会议的用户所持有的终端设备。并且,目标终端设备在将通信音频数据的降噪音频数据发送给已连接的会话终端时,每对通信音频数据的一帧音频(例如20ms的一帧音频)降噪完成后,就可以将所完成的该帧音频对应的降噪音频数据发送给已连接的会话终端,而不需要等到整个通信音频数据降噪完成之后,再将整个通信音频数据对应的降噪音频数据发送给已连接的会话终端,这可以保证已连接的会话终端可以实时(极小延时)获取到目标用户所录入的通话音频数据的降噪音频数据。
在实际应用场景中,目标用户在与其他用户进行语音通信时,目标用户也可以通过目标终端设备获取到其他用户所录入的通信音频数据的降噪音频数据,并且,其他用户所录入的通信音频数据的降噪音频数据,也是通过其他用户所持有的终端设备对其他用户的通信音频数据进行降噪后得到(降噪的方式与上述相同)。
本申请中,由于对通信音频数据进行降噪处理的合并降噪增益,是通过降噪强度比较大的第一降噪模型以及对语音的保护能力较大的第二降噪模型综合得到,因此,通过最终所得到的合并降噪增益在对通信音频数据进行降噪处理时,可以实现既使得通信音频数据中的语音受到的损伤程度小,还使得对通信音频数据中的噪音进行有效降噪。因此,通过采用本申请所提供的方法,可以得到对通信音频数据很好的降噪效果。
请参见图6,是本申请提供的一种音频降噪的场景示意图。如图6所示,通信音频数据100b的音频频域信号为音频频域信号101b(即{1,2,3,4,5})。可以将音频频域信号101b输入到第一降噪模型102b中,得到第一降噪增益104b(即{5,4,3,2,1}),第一降噪增益104b(即{5,4,3,2,1})中包括频点1对应的降噪增益5、频点2对应的降噪增益4、频点3对应的降噪增益3、频点4对应的降噪增益2以及频点5对应的降噪增益1。可以将音频频域信号101b输入到第二降噪模型103b中,得到第二降噪增益105b(即{9,7,5,3,1}),第二降噪增益105b(即{9,7,5,3,1})中包括频点1对应的降噪增益9、频点2对应的降噪增益7、频点3对应的降噪增益5、频点4对应的降噪增益3以及频点5对应的降噪增益1。可以使用噪音加权系数106b(即{0.9,0.8,0.7,0.6,0.5})对第一降噪增益104b(即{5,4,3,2,1})进行加权(对应相同频点加权),得到噪音加权增益108b(即{4.5,3.2,2.1,1.2,0.5})。可以使用语音估计概率(即{0.1,0.2,0.3,0.4,0.5})对第二降噪增益105b(即{9,7,5,3,1})进行加权(对应相同频点加权),得到语音加权增益(即{0.9,1.4,1.5,1.2,0.5})。
可以将噪音加权增益108b(即{4.5,3.2,2.1,1.2,0.5})与语音加权增益(即{0.9,1.4,1.5,1.2,0.5})中对应于相同频点的降噪增益相加,得到合并降噪增益110b(即{5.4,4.6,3.6,2.4,1.0})。可以使用合并降噪增益110b(即{5.4,4.6,3.6,2.4,1.0})对通信音频信号的音频频域信号101b进行加权,得到加权音频频域信号111b(即{5.4,9.2,10.8,9.6,5}),进而对该加权音频频域信号111b(即{5.4,9.2,10.8,9.6,5})进行时域变换,即可得到通信音频数据100b的降噪音频数据112b。
请参见图7,是本申请提供的一种音频降噪应用的场景示意图。如图7所示,从会议页面101c可以得知用户“天天”发起了在线会议,并且用户“天天”、用户“乐乐”和用户“朵朵”都参与了此次在线会议。用户“天天”持有的终端设备为终端设备102c,用户“乐乐”持有的终端设备为终端设备103c,用户“朵朵”持有的终端设备为终端设备104c。终端设备102c可以在会议进行期间获取到用户“天天”录入的通信音频数据,终端设备102c可以将所获取到的用户“天天”的通信音频数据发送给服务器105c。同样,终端设备103c可以在会议进行期间获取到用户“乐乐”录入的通信音频数据,终端设备103c可以将所获取到的用户“乐乐”的通信音频数据发送给服务器105c。同样,终端设备104c可以在会议进行期间获取到用户“朵朵”录入的通信音频数据,终端设备104c可以将所获取到的用户“朵朵”的通信音频数据发送给服务器105c。
服务器105c可以对所获取到的用户“天天”的通信音频数据进行降噪,得到用户“天天”的通信音频数据的降噪音频数据,对所获取到的用户“乐乐”的通信音频数据进行降噪,得到用户“乐乐”的通信音频数据的降噪音频数据,对所获取到的用户“朵朵”的通信音频数据进行降噪,得到用户“朵朵”的通信音频数据的降噪音频数据。服务器105c可以将用户“乐乐”和用户“朵朵”的降噪音频数据发送给用户“天天”,将用户“天天”和用户“朵朵”的降噪音频数据发送给用户“乐乐”,将用户“乐乐”和用户“天天”的降噪音频数据发送给用户“朵朵”,以实现用户“天天”、用户“乐乐”和用户“朵朵”之间的会议通话。
请参见图8,是本申请提供的一种音频降噪方法的流程示意图。如图8所示,步骤①:首先采集信号,得到上述通信音频数据,接着对该通信音频数据进行加窗傅里叶变换,得到该通信音频数据的音频频域信号。步骤②:将该通信音频数据的音频频域信号输入到第一降噪模型中,得到上述第一降噪增益。步骤③:将该通信音频数据的音频频域信号输入到第二降噪模型中,得到第二降噪增益。步骤④:通过噪声估计模块对通信音频数据的音频频域信号进行噪声估计,得到通信音频数据的语音估计概率。步骤⑤:通过增益融合模块使用噪声估计模块得到的语音估计概率,对第一降噪模型得到的第一降噪增益和第二降噪模型得到的第二降噪增益进行增益融合,得到合并降噪增益。步骤⑥:通过合并降噪增益对通信音频数据的音频频域信号进行加权(即降噪处理),得到加权音频频域信号,再对该加权音频频域信号进行加窗傅里叶反变换,即可得到输出信号,该输出信号即为通信音频数据的降噪音频数据。
请参见图9,是本申请提供的一种实验数据的表格示意图。如图9所示,语音质量表征了降噪过程中对音频中的语音的保护情况,语音质量的得分越高,表明对音频中的语音的保护情况越好。降噪质量(也可以称之为背景噪声传输质量)表征了降噪过程中对音频中的噪声的降噪情况,降噪质量的得分越高,表明对音频中的噪声降噪越好。总体质量为语音质量和降噪质量的加权求和,表征了对音频的整体降噪效果,总体质量的得分越高,表明对音频的整体降噪效果越好。而在实际应用中,通常主要是希望总体质量的得分更高。
在图9中的表1,展示了对办公室噪声的降噪分数。其中,在对办公室噪声进行降噪时,单独使用第一降噪模型,所得到的降噪的总体质量的得分为4.2,单独使用第二降噪模型,所得到的降噪的总体质量的得分为4.24,结合使用第一降噪模型和第二降噪模型,所得到的降噪的总体质量的得分为4.31。因此,同时使用第一降噪模型和第二降噪模型,比单独使用第一降噪模型或者第二降噪模型,对办公室噪声的降噪的总体质量的得分都要高且降噪效果都要好。
在图9中的表2,展示了对餐馆噪音的降噪分数。其中,在对餐馆噪声进行降噪时,单独使用第一降噪模型,所得到的降噪的总体质量的得分为3.10,单独使用第二降噪模型,所得到的降噪的总体质量的得分为3.02,结合使用第一降噪模型和第二降噪模型,所得到的降噪的总体质量的得分为3.21。因此,同时使用第一降噪模型和第二降噪模型,比单独使用第一降噪模型或者第二降噪模型,对餐馆噪声的降噪的总体质量的得分都要高且降噪效果都要好。
由上述实验数据表明,采用本申请所提供的方法,可以提升针对噪声的降噪效果。
本申请获取通信音频数据;根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据。由此可见,本申请提出的方法,可以通过降噪强度比较大的第一降噪模型以及对语音保护能力比较好的第二降噪模型一起得到针对通信音频数据的合并降噪增益,进而可以通过该合并降噪增益对通信音频数据进行降噪,使得可以在对通信音频数据中的噪声音频进行较大程度的降噪的前提下,也可以较小程度地损伤通信音频数据中的语音音频。
请参见图10,是本申请提供的一种音频数据降噪装置的结构示意图。如图10所示,该音频数据降噪装置1可以包括:音频获取模块101、增益获取模块102、增益合并模块103和降噪模块104;
音频获取模块101,用于获取通信音频数据;
增益获取模块102,用于根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;
增益合并模块103,用于根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;
降噪模块104,用于根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据。
其中,音频获取模块101、增益获取模块102、增益合并模块103和降噪模块104的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S104,这里不再进行赘述。
其中,增益获取模块102,包括:频域信号获取单元1021和增益获取单元1022;
频域信号获取单元1021,用于获取通信音频数据的音频时域信号,根据音频时域信号得到通信音频数据的音频频域信号;
增益获取单元1022,用于将音频频域信号输入第一降噪模型,得到第一降噪增益,将音频频域信号输入第二降噪模型,得到第二降噪增益。
其中,频域信号获取单元1021和增益获取单元1022的具体功能实现方式请参见图3对应的实施例中的步骤S102,这里不再进行赘述。
其中,增益合并模块103,包括:噪声估计单元1031和增益合并单元1032;
噪声估计单元1031,用于对通信音频数据进行噪声估计操作,得到通信音频数据的语音估计概率;
增益合并单元1032,用于根据语音估计概率、第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益。
其中,噪声估计单元1031和增益合并单元1032的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
其中,增益合并单元1032,包括:系数生成子单元10321、第一加权子单元10322、第二加权子单元10323和增益确定子单元10324;
系数生成子单元10321,用于生成语音估计概率对应的噪音加权系数;
第一加权子单元10322,用于根据噪音加权系数对第一降噪增益进行加权,得到噪音加权增益;
第二加权子单元10323,用于根据语音估计概率对第二降噪增益进行加权,得到语音加权增益;
增益确定子单元10324,用于根据噪音加权增益和语音加权增益,确定合并降噪增益。
其中,系数生成子单元10321、第一加权子单元10322、第二加权子单元10323和增益确定子单元10324的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
其中,噪音加权系数包括至少两个频点分别对应的加权系数;第一降噪增益包括至少两个频点分别对应的降噪增益;第一降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的加权系数一一对应;
第一加权子单元10322,包括:第一频点加权子单元103221和第一频点增益确定子单元103222;
第一频点加权子单元103221,用于根据噪音加权系数中的至少两个频点分别对应的加权系数,分别对第一降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第一加权增益;
第一频点增益确定子单元103222,用于将每个频点分别对应的第一加权增益,确定为噪音加权增益。
其中,第一频点加权子单元103221和第一频点增益确定子单元103222的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
其中,语音估计概率包括至少两个频点分别对应的语音概率;第二降噪增益包括至少两个频点分别对应的降噪增益;第二降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的语音概率一一对应;
第二加权子单元10323,包括:第二频点加权子单元103231和第二频点增益确定子单元103232;
第二频点加权子单元103231,用于根据语音估计概率中的至少两个频点分别对应的加权系数,分别对第二降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第二加权增益;
第二频点增益确定子单元103232,用于将每个频点分别对应的第二加权增益,确定为语音加权增益。
其中,第二频点加权子单元103231和第二频点增益确定子单元103232的具体功能实现方式请参见图3对应的实施例中的步骤S103,这里不再进行赘述。
其中,合并降噪增益包括至少两个频点分别对应的降噪增益;通信音频数据的音频频域信号中包括至少两个频点分别对应的能量值;合并降噪增益所包含的至少两个频点分别对应的降噪增益与至少两个频点分别对应的能量值一一对应;
降噪模块104,包括:能量值加权单元1041、加权信号确定单元1042和域变换单元1043;
能量值加权单元1041,用于根据合并降噪增益中的至少两个频点分别对应的降噪增益,分别对通信音频数据中属于相同频点的能量值进行加权,得到每个频点分别对应的加权能量值;
加权信号确定单元1042,用于根据每个频点分别对应的加权能量值,确定通信音频数据的加权音频频域信号;
域变换单元1043,用于对加权音频频域信号进行时域变换,得到通信音频数据的降噪音频数据。
其中,能量值加权单元1041、加权信号确定单元1042和域变换单元1043的具体功能实现方式请参见图3对应的实施例中的步骤S104,这里不再进行赘述。
其中,音频数据降噪装置1,还包括:
第一样本获取模块105,用于获取纯语音样本音频数据和纯噪音样本音频数据;纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
第一实际增益获取模块106,用于根据样本语音能量值和样本噪音能量值,得到纯语音样本音频数据和纯噪音样本音频数据对应的样本实际降噪增益;
第一预测增益获取模块107,用于将样本实际降噪增益、纯语音样本音频数据和纯噪音样本音频数据同步输入第一初始降噪模型,基于第一初始降噪模型,预测得到纯语音样本音频数据和纯噪音样本音频数据对应的第一样本预测降噪增益;
第一参数调整模块108,用于基于样本实际降噪增益、第一样本预测降噪增益和第一代价函数,调整第一初始降噪模型的模型参数,得到第一降噪模型;第一代价函数用于使第一初始降噪模型所预测得到的第一样本预测降噪增益,趋近于样本实际降噪增益的平方项。
其中,能量值加权单元1041、加权信号确定单元1042和域变换单元1043的具体功能实现方式请参见图3对应的实施例中的步骤S101,这里不再进行赘述。
其中,音频数据降噪装置,还包括:第二样本获取模块109、第二实际增益获取模块110、第二预测增益获取模块111和第二参数调整模块112;
第二样本获取模块109,用于获取纯语音样本音频数据和纯噪音样本音频数据;纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
第二实际增益获取模块110,用于根据样本语音能量值和样本噪音能量值,得到纯语音样本音频数据和纯噪音样本音频数据对应的样本实际降噪增益;
第二预测增益获取模块111,用于将样本实际降噪增益、纯语音样本音频数据和纯噪音样本音频数据同步输入第二初始降噪模型,基于第二初始降噪模型预测得到纯语音样本音频数据和纯噪音样本音频数据对应的第二样本预测降噪增益;
第二参数调整模块112,用于基于样本实际降噪增益、第二样本预测降噪增益和第二代价函数,调整第二初始降噪模型的模型参数,得到第二降噪模型;第二代价函数用于使第二初始降噪模型所预测得到的第二样本预测降噪增益,趋近于样本实际降噪增益。
其中,第二样本获取模块109、第二实际增益获取模块110、第二预测增益获取模块111和第二参数调整模块112的具体功能实现方式请参见图3对应的实施例中的步骤S101,这里不再进行赘述。
其中,音频数据降噪装置1,还用于:
将通信音频数据的降噪音频数据同步至已连接的会话终端,以使会话终端输出降噪音频数据。
本申请获取通信音频数据;根据第一降噪模型获取针对通信音频数据的第一降噪增益,根据第二降噪模型获取针对通信音频数据的第二降噪增益;第一降噪模型的降噪强度大于第二降噪模型的降噪强度;第一降噪模型对通信音频数据的语音损伤程度,大于第二降噪模型对通信音频数据的语音损伤程度;根据第一降噪增益和第二降噪增益,确定针对通信音频数据的合并降噪增益;根据合并降噪增益对通信音频数据进行降噪处理,得到通信音频数据的降噪音频数据。由此可见,本申请提出的方法,可以通过降噪强度比较大的第一降噪模型以及对语音保护能力比较好的第二降噪模型一起得到针对通信音频数据的合并降噪增益,进而可以通过该合并降噪增益对通信音频数据进行降噪,使得可以在对通信音频数据中的噪声音频进行较大程度的降噪的前提下,也可以较小程度地损伤通信音频数据中的语音音频。
请参见图11,是本申请提供的一种计算机设备的结构示意图。如图11所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3中对应实施例中对音频数据降噪方法的描述。应当理解,本申请中所描述的计算机设备1000也可执行前文图10所对应实施例中对音频数据降噪装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的音频数据降噪装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3对应实施例中对音频数据降噪方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖范围。
Claims (15)
1.一种音频数据降噪方法,其特征在于,包括:
获取通信音频数据;
根据第一降噪模型获取针对所述通信音频数据的第一降噪增益,根据第二降噪模型获取针对所述通信音频数据的第二降噪增益;所述第一降噪模型的降噪强度大于所述第二降噪模型的降噪强度;所述第一降噪模型对所述通信音频数据的语音损伤程度,大于所述第二降噪模型对所述通信音频数据的语音损伤程度;
根据所述第一降噪增益和所述第二降噪增益,确定针对所述通信音频数据的合并降噪增益;
根据所述合并降噪增益对所述通信音频数据进行降噪处理,得到所述通信音频数据的降噪音频数据。
2.根据权利要求1所述的方法,其特征在于,所述根据第一降噪模型获取针对所述通信音频数据的第一降噪增益,根据第二降噪模型获取针对所述通信音频数据的第二降噪增益,包括:
获取所述通信音频数据的音频时域信号,根据所述音频时域信号得到所述通信音频数据的音频频域信号;
将所述音频频域信号输入所述第一降噪模型,得到所述第一降噪增益,将所述音频频域信号输入所述第二降噪模型,得到所述第二降噪增益。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一降噪增益和所述第二降噪增益,确定针对所述通信音频数据的合并降噪增益,包括:
对所述通信音频数据进行噪声估计操作,得到所述通信音频数据的语音估计概率;
根据所述语音估计概率、所述第一降噪增益和所述第二降噪增益,确定针对所述通信音频数据的所述合并降噪增益。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语音估计概率、所述第一降噪增益和所述第二降噪增益,确定针对所述通信音频数据的所述合并降噪增益,包括:
生成所述语音估计概率对应的噪音加权系数;
根据所述噪音加权系数对所述第一降噪增益进行加权,得到噪音加权增益;
根据所述语音估计概率对所述第二降噪增益进行加权,得到语音加权增益;
根据所述噪音加权增益和所述语音加权增益,确定所述合并降噪增益。
5.根据权利要求4所述的方法,其特征在于,所述噪音加权系数包括至少两个频点分别对应的加权系数;所述第一降噪增益包括所述至少两个频点分别对应的降噪增益;所述第一降噪增益所包含的所述至少两个频点分别对应的降噪增益与所述至少两个频点分别对应的加权系数一一对应;
所述根据所述噪音加权系数对所述第一降噪增益进行加权,得到噪音加权增益,包括:
根据所述噪音加权系数中的所述至少两个频点分别对应的加权系数,分别对所述第一降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第一加权增益;
将所述每个频点分别对应的第一加权增益,确定为所述噪音加权增益。
6.根据权利要求4所述的方法,其特征在于,所述语音估计概率包括至少两个频点分别对应的语音概率;所述第二降噪增益包括所述至少两个频点分别对应的降噪增益;所述第二降噪增益所包含的所述至少两个频点分别对应的降噪增益与所述至少两个频点分别对应的语音概率一一对应;
所述根据所述语音估计概率对所述第二降噪增益进行加权,得到语音加权增益,包括:
根据所述语音估计概率中的所述至少两个频点分别对应的加权系数,分别对所述第二降噪增益中属于相同频点的降噪增益进行加权,得到每个频点分别对应的第二加权增益;
将所述每个频点分别对应的第二加权增益,确定为所述语音加权增益。
7.根据权利要求1所述的方法,其特征在于,所述合并降噪增益包括至少两个频点分别对应的降噪增益;所述通信音频数据的音频频域信号中包括所述至少两个频点分别对应的能量值;所述合并降噪增益所包含的所述至少两个频点分别对应的降噪增益与所述至少两个频点分别对应的能量值一一对应;
所述根据所述合并降噪增益对所述通信音频数据进行降噪处理,得到所述通信音频数据的降噪音频数据,包括:
根据所述合并降噪增益中的所述至少两个频点分别对应的降噪增益,分别对所述通信音频数据中属于相同频点的能量值进行加权,得到每个频点分别对应的加权能量值;
根据所述每个频点分别对应的加权能量值,确定所述通信音频数据的加权音频频域信号;
对所述加权音频频域信号进行时域变换,得到所述通信音频数据的所述降噪音频数据。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取纯语音样本音频数据和纯噪音样本音频数据;所述纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;所述纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
根据所述样本语音能量值和所述样本噪音能量值,得到所述纯语音样本音频数据和所述纯噪音样本音频数据对应的样本实际降噪增益;
将所述样本实际降噪增益、所述纯语音样本音频数据和所述纯噪音样本音频数据同步输入所述第一初始降噪模型,基于所述第一初始降噪模型,预测得到所述纯语音样本音频数据和所述纯噪音样本音频数据对应的第一样本预测降噪增益;
基于所述样本实际降噪增益、所述第一样本预测降噪增益和第一代价函数,调整所述第一初始降噪模型的模型参数,得到所述第一降噪模型;所述第一代价函数用于使所述第一初始降噪模型所预测得到的所述第一样本预测降噪增益,趋近于所述样本实际降噪增益的平方项。
9.根据权利要求8所述的方法,其特征在于,还包括:
获取纯语音样本音频数据和纯噪音样本音频数据;所述纯语音样本音频数据的样本音频频域信号中包括样本语音能量值;所述纯噪音样本音频数据的样本音频频域信号中包括样本噪音能量值;
根据所述样本语音能量值和所述样本噪音能量值,得到所述纯语音样本音频数据和所述纯噪音样本音频数据对应的样本实际降噪增益;
将样本实际降噪增益、所述纯语音样本音频数据和所述纯噪音样本音频数据同步输入所述第二初始降噪模型,基于所述第二初始降噪模型预测得到所述纯语音样本音频数据和所述纯噪音样本音频数据对应的第二样本预测降噪增益;
基于所述样本实际降噪增益、所述第二样本预测降噪增益和第二代价函数,调整所述第二初始降噪模型的模型参数,得到所述第二降噪模型;所述第二代价函数用于使所述第二初始降噪模型所预测得到的所述第二样本预测降噪增益,趋近于所述样本实际降噪增益。
10.根据权利要求1所述的方法,其特征在于,还包括:
将所述通信音频数据的所述降噪音频数据同步至已连接的会话终端,以使所述会话终端输出所述降噪音频数据。
11.一种音频数据降噪装置,其特征在于,包括:
音频获取模块,用于获取通信音频数据;
增益获取模块,用于根据第一降噪模型获取针对所述通信音频数据的第一降噪增益,根据第二降噪模型获取针对所述通信音频数据的第二降噪增益;所述第一降噪模型的降噪强度大于所述第二降噪模型的降噪强度;所述第一降噪模型对所述通信音频数据的语音损伤程度,大于所述第二降噪模型对所述通信音频数据的语音损伤程度;
增益合并模块,用于根据所述第一降噪增益和所述第二降噪增益,确定针对所述通信音频数据的合并降噪增益;
降噪模块,用于根据所述合并降噪增益对所述通信音频数据进行降噪处理,得到所述通信音频数据的降噪音频数据。
12.根据权利要求11所述的装置,其特征在于,所述增益获取模块,包括:
频域信号获取单元,用于获取所述通信音频数据的音频时域信号,根据所述音频时域信号得到所述通信音频数据的音频频域信号;
增益获取单元,用于将所述音频频域信号输入所述第一降噪模型,得到所述第一降噪增益,将所述音频频域信号输入所述第二降噪模型,得到所述第二降噪增益。
13.根据权利要求11所述的装置,其特征在于,所述增益合并模块,包括:
噪声估计单元,用于对所述通信音频数据进行噪声估计操作,得到所述通信音频数据的语音估计概率;
增益合并单元,用于根据所述语音估计概率、所述第一降噪增益和所述第二降噪增益,确定针对所述通信音频数据的所述合并降噪增益。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-10中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行如权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495430.0A CN111627455A (zh) | 2020-06-03 | 2020-06-03 | 一种音频数据降噪方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495430.0A CN111627455A (zh) | 2020-06-03 | 2020-06-03 | 一种音频数据降噪方法、装置以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111627455A true CN111627455A (zh) | 2020-09-04 |
Family
ID=72273199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010495430.0A Pending CN111627455A (zh) | 2020-06-03 | 2020-06-03 | 一种音频数据降噪方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627455A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299938A (zh) * | 2022-03-07 | 2022-04-08 | 凯新创达(深圳)科技发展有限公司 | 一种基于深度学习的智能语音识别方法和系统 |
WO2022140927A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳市韶音科技有限公司 | 音频降噪的方法和系统 |
WO2023279366A1 (zh) * | 2021-07-09 | 2023-01-12 | Oppo广东移动通信有限公司 | 基于迁移学习的降噪方法、终端设备、网络设备及存储介质 |
CN115862657A (zh) * | 2023-02-22 | 2023-03-28 | 科大讯飞(苏州)科技有限公司 | 随噪增益方法和装置、车载系统、电子设备及存储介质 |
CN117789744A (zh) * | 2024-02-26 | 2024-03-29 | 青岛海尔科技有限公司 | 基于模型融合的语音降噪方法、装置及存储介质 |
-
2020
- 2020-06-03 CN CN202010495430.0A patent/CN111627455A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022140927A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳市韶音科技有限公司 | 音频降噪的方法和系统 |
WO2023279366A1 (zh) * | 2021-07-09 | 2023-01-12 | Oppo广东移动通信有限公司 | 基于迁移学习的降噪方法、终端设备、网络设备及存储介质 |
CN114299938A (zh) * | 2022-03-07 | 2022-04-08 | 凯新创达(深圳)科技发展有限公司 | 一种基于深度学习的智能语音识别方法和系统 |
CN114299938B (zh) * | 2022-03-07 | 2022-06-17 | 凯新创达(深圳)科技发展有限公司 | 一种基于深度学习的智能语音识别方法和系统 |
CN115862657A (zh) * | 2023-02-22 | 2023-03-28 | 科大讯飞(苏州)科技有限公司 | 随噪增益方法和装置、车载系统、电子设备及存储介质 |
CN117789744A (zh) * | 2024-02-26 | 2024-03-29 | 青岛海尔科技有限公司 | 基于模型融合的语音降噪方法、装置及存储介质 |
CN117789744B (zh) * | 2024-02-26 | 2024-05-24 | 青岛海尔科技有限公司 | 基于模型融合的语音降噪方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627455A (zh) | 一种音频数据降噪方法、装置以及计算机可读存储介质 | |
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
CN111756942B (zh) | 执行回声消除的通信设备和方法及计算机可读介质 | |
CN104157293B (zh) | 一种增强声环境中目标语音信号拾取的信号处理方法 | |
CN112017681B (zh) | 定向语音的增强方法及系统 | |
CN106663445A (zh) | 声音处理装置、声音处理方法及程序 | |
CN111031448B (zh) | 回声消除方法、装置、电子设备和存储介质 | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
WO2023098312A1 (zh) | 音频数据处理方法、装置、设备、存储介质和程序产品 | |
CN112201273B (zh) | 一种噪声功率谱密度计算方法、系统、设备及介质 | |
CN115482830B (zh) | 语音增强方法及相关设备 | |
US20240177726A1 (en) | Speech enhancement | |
US11727926B1 (en) | Systems and methods for noise reduction | |
CN114974280A (zh) | 音频降噪模型的训练方法、音频降噪的方法及装置 | |
Kothapally et al. | Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking | |
US20240096343A1 (en) | Voice quality enhancement method and related device | |
CN116030823A (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
Kumar et al. | Murmured speech recognition using hidden markov model | |
CN113506582A (zh) | 声音信号识别方法、装置及系统 | |
CN116612778A (zh) | 回声及噪声抑制方法、相关装置和介质 | |
CN113763978B (zh) | 语音信号处理方法、装置、电子设备以及存储介质 | |
CN117643075A (zh) | 用于言语增强的数据扩充 | |
JP2024508821A (ja) | ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム | |
CN114121032A (zh) | 语音信号增益补偿方法、电子设备和存储介质 | |
CN107346658A (zh) | 混响抑制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028599 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |