CN117597732A - 基于深度学习的语音增强的过度抑制减轻 - Google Patents
基于深度学习的语音增强的过度抑制减轻 Download PDFInfo
- Publication number
- CN117597732A CN117597732A CN202280047307.XA CN202280047307A CN117597732A CN 117597732 A CN117597732 A CN 117597732A CN 202280047307 A CN202280047307 A CN 202280047307A CN 117597732 A CN117597732 A CN 117597732A
- Authority
- CN
- China
- Prior art keywords
- mask
- speech
- audio data
- computer
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000116 mitigating effect Effects 0.000 title claims abstract description 12
- 238000013135 deep learning Methods 0.000 title description 3
- 230000006870 function Effects 0.000 claims abstract description 57
- 230000001629 suppression Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 88
- 238000003860 storage Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 32
- 230000004044 response Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 57
- 230000005236 sound signal Effects 0.000 abstract description 37
- 238000001514 detection method Methods 0.000 abstract description 15
- 238000004891 communication Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 8
- 230000001413 cellular effect Effects 0.000 description 7
- 238000013500 data storage Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
公开了一种用于减轻语音和其他非噪声信号的过度抑制的系统。在一些实施例中,系统被编程为使用非线性的不对称损失函数来训练用于语音检测或增强的第一机器学习模型,非线性的不对称损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚。第一机器学习模型被配置为接收音频信号并生成指示音频信号中存在的语音量的掩码。可以调整所述掩码以纠正由于语音过度抑制而导致的急剧话音衰减。所述系统还被编程为训练用于笑声或掌声检测的第二机器学习模型。所述系统进一步被编程为通过将调整后的掩码应用到除了音频信号中已被识别为对应于笑声或掌声的部分之外的新音频信号来提高新音频信号的质量。
Description
相关申请的交叉引用
本申请要求于2021年7月26日提交的美国临时申请号63/225,594、于2021年12月10日提交的美国临时申请号63/288,516和于2021年7月2日提交的国际申请号PCT/CN2021/104166的优先权权益,其中每一项申请特此通过引用以其全文并入本文。
技术领域
本申请涉及音频处理和机器学习。
背景技术
在本节中描述的方法是可以采用的方法,但不一定是先前已经设想到或采用过的方法。因此,除非另有指示,否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。
近年来,各种机器学习模型已被用于语音增强。与传统的信号处理方法(比如维纳滤波器或谱减法)相比,机器学习方法已表现出显著的改进,特别是对于非平稳噪声和低信噪比(SNR)的情况。
现有的用于语音检测和增强的机器学习方法经常出现语音过度抑制,这可能导致语音失真,或甚至不连续。例如,当发生语音过度抑制时,话音可能会急剧衰退而听起来不自然,这可能是一个问题,尤其是在存在非平稳噪声或处于低SNR的情况下。另外,过度抑制可能消除或减少清音(unvoiced sound)或高频摩擦音,它们与噪声具有相同的特性。过度抑制还可能消除或减少笑声或掌声事件,这些事件仍然构成非噪声信号,但同样与噪声共享特性。
在存储的音频内容或实时通信中,改进用于语音增强的传统机器学习方法(包括减轻语音过度抑制问题)将是有帮助的。
发明内容
公开了一种减轻语音过度抑制的计算机实施的方法。所述方法包括由处理器接收作为多个帧和多个频带上的联合时频表示的音频数据。所述方法包括在所述音频数据的特征上执行用于检测语音的数字模型,所述数字模型是使用带有非线性惩罚的损失函数训练的,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,并且所述数字模型被配置为产生估计掩码值的掩码,所述估计掩码值指示针对所述多个帧中的每一帧和所述多个频带中的每个频带中存在的语音量。所述方法进一步包括将关于所述掩码的信息传输到设备。
本说明书中描述的技术可以优于传统的音频处理技术。例如,所述方法通过降低噪声、保留和锐化语音(比如高频摩擦音和低电平填声停顿)同时保留其他非噪声信号(比如笑声或掌声)来提高音频质量。所提高的音频质量能让用户更好地感知音频并更好地享受音频。
附图说明
在附图中以举例而非限制的方式来图示本发明的(多个)示例实施例,并且其中相似的附图标记指代相似的元素,并且在附图中:
图1图示了其中可以实践各种实施例的示例联网计算机系统。
图2图示了根据所公开的实施例的音频管理计算机系统的示例部件。
图3图示了感知损失函数中的因变量(dependent variable)与自变量(independent variable)之间的关系。
图4图示了根据本文所描述的一些实施例的由音频管理计算机系统执行的示例过程。
图5是图示了其上可以实施本发明的实施例的计算机系统的框图。
具体实施方式
在以下说明中,出于解释的目的,阐述了许多具体细节以便提供对本发明的(多个)示例实施例的透彻理解。然而,明显的是,可以在没有这些具体细节的情况下实践(多个)示例实施例。在其他实例中,已知结构和设备以框图形式示出以便避免对该(多个)示例实施例的不必要模糊。
实施例根据以下概要在以下各小节中进行描述:
1.总体概述
2.示例计算环境
3.示例计算机部件
4.功能描述
4.1.用于语音增强的模型训练
4.1.1.特征提取
4.1.2.机器学习模型
4.1.3.感知损失函数
4.2.用于笑声和掌声检测的模型训练
4.3.用于语音增强的模型执行
4.4.时频掩蔽的后处理
5.示例过程
6.硬件实施方式
7.扩展和替代方案
**
1.总体概述
公开了一种用于减轻语音和其他非噪声信号的过度抑制的系统。在一些实施例中,系统被编程为使用非线性的不对称损失函数来训练用于语音检测或增强的第一机器学习模型,该损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚。第一机器学习模型被配置为接收音频信号并生成指示音频信号中存在的语音量的掩码。可以调整该掩码以纠正由于语音过度抑制而导致的急剧话音衰减。所述系统还被编程为训练用于笑声或掌声检测的第二机器学习模型。所述系统进一步被编程为通过将调整后的掩码应用到除了音频信号中已被识别为对应于笑声或掌声的部分之外的新音频信号来提高新音频信号的质量。
在一些实施例中,所述系统被编程为接收时域中的音频信号的训练数据集。音频信号包括语音和非语音(比如笑声、掌声、混响(reverberation)或噪声)的不同混合。所述系统被编程为从音频信号中提取第一特征,用于训练用于检测语音的第一机器学习模型。每个音频信号可以被转换为在多个频带和多个帧上具有能量值的联合时频(T-F)表示,并且可以根据能量值计算第一特征。所述系统被编程为使用非线性的不对称损失函数基于第一特征来进一步训练第一机器学习模型,比如人工神经网络(ANN),所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚。第一机器学习模型被配置为生成指示每一帧处每个频带中的语音量的掩码。与如果使用对称损失函数训练第一机器学习模型相比,所述掩码预计受语音过度抑制的影响较小。
在一些实施例中,所述系统被编程为从相同或单独的音频信号训练数据集中提取第二特征,以用于训练第二机器学习模型来识别可能被第一机器学习模型误认为是噪声的笑声或掌声。每个音频信号可以被转换到频域,并且可以使用信号处理方法直接从时域中的音频信号或从频域中的转换后的音频信号来计算第二特征。所述系统被编程为基于第二特征进一步训练第二机器学习模型,其通常是分类方法。
在一些实施例中,在给定新音频信号的情况下,所述系统被编程为使用第一机器学习模型来估计新音频信号中存在的语音量。所述系统还可以被编程为使用第二机器学习模型来确定新音频信号的任何部分是否对应于笑声或掌声。然后所述系统可以被编程为忽视(bypass)由第一机器学习模型针对新音频信号中被识别为对应于笑声或掌声的那些部分生成的掩码值。另外,所述系统可以被编程为确定掩码值是否指示尽管使用了不对称损失函数,但作为语音过度抑制的产物,仍存在任何急剧的话音衰减,并且视情况来调整掩码值。
所述系统产生了技术效益。所述系统解决了音频处理中语音过度抑制的技术问题。所述系统通过降低噪声、保留和锐化语音(比如高频摩擦音和低电平填声停顿)同时保留其他非噪声信号(比如笑声或掌声)来提高音频质量。提高的音频质量能让用户更好地感知音频并更好地享受音频。
2.示例计算环境
图1图示了其中可以实践各种实施例的示例联网计算机系统。图1以简化的示意性格式示出,用于说明清楚的示例,并且其他实施例可以包括更多、更少或不同的元素。
在一些实施例中,联网计算机系统包括音频管理服务器计算机102(“服务器”)、一个或多个传感器104或输入设备以及一个或多个输出设备110,它们通过直接物理连接或经由一个或多个网络118被通信地耦接。
在一些实施例中,服务器102广义地表示一个或多个计算机、虚拟计算实例和/或应用程序的实例,所述应用程序被编程或配置有数据结构和/或数据库记录,所述数据结构和/或数据库记录被布置成主办(host)或执行与减轻语音过度抑制相关的功能。服务器102可以包括服务器群、云计算平台、并行计算机或针对上述功能在数据处理、数据存储和网络通信方面具有足够计算能力的任何其他计算设施。
在一些实施例中,一个或多个传感器104中的每一个可以包括麦克风或将声音转换成电信号的其他数字记录设备。每个传感器被配置成将检测到的音频数据传输到服务器102。每个传感器可以包括处理器,或者可以集成到典型的客户端设备中,如台式计算机、膝上型计算机、平板计算机、智能手机或可穿戴设备。
在一些实施例中,一个或多个输出设备110中的每一个可以包括扬声器或将电信号转换回声音的另一种数字播放设备。每个输出设备被编程为播放从服务器102接收的音频数据。类似于传感器,输出设备可以包括处理器,或者可以集成到典型的客户端设备中,如台式计算机、膝上型计算机、平板计算机、智能手机或可穿戴设备。
一个或多个网络118可以由提供图1的各种元件之间的数据交换的任何介质或机制来实施。网络118的示例包括但不限于一个或多个蜂窝网络(通过蜂窝天线与到计算设备的数据连接通信地耦接)、近场通信(NFC)网络、局域网(LAN)、广域网(WAN)、因特网、地面或卫星链路等。
在一些实施例中,服务器102被编程为从一个或多个传感器104接收与给定环境中的声音相对应的输入音频数据。输入音频数据可以包括在时间上的多个帧。服务器102被编程为接下来处理通常与语音和噪声的混合相对应的输入音频数据,以估计输入音频数据的每一帧中存在多少语音(或检测语音量)。服务器进一步被编程为在估计存在多少语音时减轻潜在的语音过度抑制。服务器被编程为将最终检测结果发送到另一设备进行下游处理。服务器还可以被编程为基于最终检测结果估计来更新输入音频数据,以产生预计比输入音频数据包含更少噪声的清理后的输出音频数据,并将输出音频数据发送到一个或多个输出设备。
3.示例计算机部件
图2图示了根据所公开的实施例的音频管理计算机系统的示例部件。所述图仅被用于说明目的,并且服务器102可以包括更少或更多的功能部件或存储部件。每个功能部件可以被实施为软件部件、通用或专用硬件部件、固件部件或其任何组合。每个功能部件还可以与一个或多个存储部件(未示出)耦接。存储部件可以使用关系数据库、对象数据库、平面文件系统或Javascript对象表示法(JSON)存储中的任何一者来实施。存储部件可以本地连接或者使用编程调用、远程过程调用(RPC)设施或消息总线通过网络连接到功能部件。部件可以是或可以不是独立的。取决于实施方式特定的或其他考虑,部件可以是在功能上或物理上集中式的或分布式的。
在一些实施例中,服务器102包括机器学习模型训练指令202、机器学习模型执行指令206、执行后处理指令208和通信接口指令210。服务器102还包括数据库220。
在一些实施例中,机器学习模型训练指令202能够训练用于检测语音和其他非噪声信号的机器学习模型。机器学习模型可以包括各种神经网络或其他分类模型。训练可以包括从训练音频数据提取特征、将给定或提取的特征可选地与预期模型输出一起馈送到训练框架以训练机器学习模型,以及存储经训练的机器学习模型。第一机器学习模型的预期模型输出可以指示每个给定音频片段中存在的语音量。训练框架可以包括被设计为减轻语音过度抑制的目标函数。第二机器学习模型的预期模型输出可以指示每个给定的音频片段是否对应于笑声或掌声。
在一些实施例中,机器学习模型执行指令206能够执行机器学习模型以检测语音或其他非噪声信号。所述执行可以包括从新音频片段中提取特征、将提取的特征馈送到经训练的机器学习模型、以及通过执行训练的机器学习模型获得新输出。对于第一机器学习模型,新输出可以指示新音频片段中的语音量。对于第二机器学习模型,新输出可以指示新音频片段是否对应于笑声或掌声。
在一些实施例中,执行后处理指令208启用附加处理以确定是否或如何调整由第一机器学习模型生成的新输出,其可以呈指示新音频片段中存在的量的掩码的形式。附加处理可以包括忽视或关闭新音频片段中基于由第二机器学习模型生成的新输出而被认为对应于笑声或掌声的那些部分的掩码的掩码值。附加处理还可以包括更新与急剧话音衰减相对应的掩码值。
在一些实施例中,通信接口指令210使得能够通过计算机网络与其他系统或设备进行通信。通信可以包括从音频源或其他系统接收音频数据或经训练的机器学习模型。通信还可以包括将语音检测或增强的结果传输到其他处理设备或输出设备。
在一些实施例中,数据库220被编程或配置为管理相关数据的存储和访问,比如接收到的音频数据、数字模型、从接收到的音频数据提取的特征、或执行数字模型的结果。
4.功能描述
4.1.用于语音增强的模型训练
4.1.1.特征提取
在一些实施例中,服务器102接收时域中音频片段的训练数据集。每个音频片段包括多个帧上的波形,并且可以使用频谱变换(比如短期傅里叶变换(STFT)、移位修正离散傅里叶变换(MDFT)或复二次镜像滤波器(CQMF))转换成联合时频(T-F)表示。联合T-F表示覆盖多个帧和多个频率仓。
在一些实施例中,服务器102将T-F表示转换成例如56个感知激励型频带的带能量向量。每个感知激励型频带通常位于与人耳处理语音的方式相匹配的频域中,比如从120Hz到2,000Hz,因此在这些感知激励型频带中捕获数据意味着不会损失对于人耳而言的语音质量。更具体地,频谱变换的输出频率仓的平方幅度被分组为感知激励型频带,其中,每个频带的频率仓数在较高的频率下增加。分组策略在一些频谱能量跨相邻频带泄漏的情况下可以是“软”的,或者在跨频带没有泄漏的情况下可以是“硬”的。具体地,当噪声帧的仓能量由大小为p乘1的列向量x表示时(其中,p表示仓的数量),可以通过计算y=W*x来执行到带能量向量的转换,其中,y是表示该噪声帧的带能量的大小为q乘1的列向量,W是大小为q乘p的条化矩阵,并且q表示感知激励型频带的数量。
在一些实施例中,服务器102然后可以计算每个带能量的对数作为每一帧和每个频带的特征值。对于每个联合T-F表示,服务器102因此可以获得包括多个帧和多个频带的特征值的输入特征向量。
在一些实施例中,对于监督学习,服务器102针对每个联合T-F表示计算指示每一帧和每个频带中存在的语音量的预期掩码。掩码可以是语音能量与语音能量和噪声能量之和的比值的对数的形式。服务器102可以将预期掩码包括在训练数据集中。
4.1.2.机器学习模型
在一些实施例中,服务器102使用训练数据集来构建用于语音增强的机器学习模型。机器学习模型可以是ANN,比如在2021年7月14日提交的共同未决(co-pending)的美国专利申请63/221,629(LensNet)中或共同未决的美国专利申请63/260,203和63/260,201(CGRU)中公开的那些模型。LensNet是深度噪声抑制模型,而CGRU是深度去噪和去混响模型。机器学习模型被配置为针对联合T-F表示产生指示针对联合T-F表示的每一帧和每个频带存在的语音量的估计掩码。
LensNet是获取与原始带噪声波形相对应的带能量并产生语音值的神经网络模型,所述语音值指示每一帧每个频带中存在的语音量。这些语音值可以用于通过降低那些不太可能存在语音的频带中的频率幅度来抑制噪声。神经网络模型具有低延迟,并且可以用于实时噪声抑制。神经网络模型包括实施某种前瞻(lookahead)的特征提取块。特征提取块之后是编码器,所述编码器沿频率维度进行稳定的下采样,形成收缩路径。卷积沿着收缩路径执行,其中,膨胀因子(dilation factor)沿着时间维度逐渐增大。所述编码器之后是对应的解码器,所述解码器沿频率维度执行稳定的上采样,形成扩展路径。解码器从对应级别的编码器接收经缩放的输出特征图,使得在确定每一帧处的每个频带中存在多少语音时,从沿频率维度的不同感受域提取的特征都可以被考虑到。
CGRU包括卷积块和门控循环单元(GRU)。卷积块包含膨胀率递增(例如,1、2、4、8、12、20)的膨胀卷积层,随后是膨胀率递减(例如,12、8、4、2、1)的膨胀卷积层,最后是卷积层。当膨胀率递减时,添加或连接具有相同膨胀率的卷积层。GRU的输出还被连接到膨胀率递减的卷积层。具有不同膨胀率的卷积层的卷积块允许学习不同分辨率的频谱信号的特征,并且GRU允许对输出掩码进行稳定和平滑。
4.1.3.感知损失函数
在一些实施例中,服务器102使用本领域技术人员知晓的适当优化方法来训练机器学习模型。优化方法本质上通常是迭代的,可以使衡量当前估计与基本事实的误差的损失(或成本)函数最小化。对于ANN,优化方法可以是随机梯度下降,其中,使用误差反向传播算法来更新权重。
传统上,目标函数或损失函数(比如均方误差(MSE))并不能很好地反映人类的听觉感知。处理后的小MSE的语音片段并不一定具有较高的语音质量和可理解度。具体地,目标函数不对负检测错误(假阴性、语音过度抑制)和正检测错误(假阳性、语音抑制不足)加以区分,即使语音过度抑制可能比语音抑制不足产生更大的感知效果,并且在语音增强应用中通常与语音抑制不足区别对待。
与语音抑制不足相比,语音过度抑制对语音质量或可理解度的损害可能更大。当预测(估计)掩码值小于基本事实掩码值时,就会发生语音过度抑制,因为预测的语音比基本事实少,因此被抑制的语音比必要的多。
在一些实施例中,在优化方法中使用阻碍语音过度抑制的感知成本函数来训练机器学习模型。感知成本函数是非线性的,对语音过度抑制和语音抑制不足具有不对称的惩罚。具体地,成本函数对预测掩码值与基本事实掩码值之间的负差值指派更多的惩罚,对正差值指派较少的惩罚。CGRU和LensNet的实验评估表明,例如在减少对高频摩擦音和低电平填声停顿(比如“um”和“uh”)的过度抑制方面,感知损失函数比MSE表现更好。
在一些实施例中,感知损失函数Loss定义如下:
diff=ytarget p-ypredicted p (1)
Loss=mdiff-diff-1 (2),
其中,ytarget是针对帧和频带的目标(基本事实)掩码值,ypredicted是针对帧和频带的预测掩码值,m是可以控制不对称惩罚的形状的调整参数,并且p是幂律项或缩放指数。例如,m可以是2.6、2.65、2.7等,并且p可以是0.5、0.6、0.7等。由于ypredicted或ytarget小于一,因此针对p的这种不会过小的分数值(例如,大于0.5)往往会与ypredicted或ytarget的较大值相比更多地放大ypredicted的较小值。p的这种分数值往往进一步使ytarget p与ypredictedp之间的差大于ytarget与ypredicted之间的差。ypredicted的较小值可能是以噪声帧开始的结果,其对应于ytarget的较小值,并继续过度抑制,这会导致ypredicted甚至更小的值。当ytarget与ypredicted之间的差被适当放大到ytarget p与ypredicted p之间的差时(使用p的过小值可能会导致过度频繁的放大),这种语音过度抑制会受到更多的惩罚。因此,幂律项可能特别有助于改善噪声帧的困难情况下的语音过度抑制。这种对困难情况的固有关注也导致了使用更少参数的更小机器学习模型的可能性。对应于多个频带和多个帧的音频信号的总损失可以被计算为多个频带和多个帧上的损失值的总和或平均值。
图3图示了由等式(1)和(2)定义的感知损失函数中因变量与自变量之间的关系。Loss对应于y轴304,并且diff对应于x轴302。当diff等于0时,目标掩码值等于预测掩码值,其指示无语音抑制。在这种情况下,Loss具有最小值0。当diff是负值时,如点310处的情况,目标掩码值小于预测掩码值,其指示语音抑制不足。当diff是正值时,如点308处的情况,目标掩码值大于预测掩码值,其指示语音过度抑制。如图3所示,与当diff从0变为负值时Loss的下降相比,当diff从0变为正值时其增长更快。有了这个感知损失函数,基于梯度下降的优化方法被期望从正diff值快速下降,从而避免语音过度抑制。
在一些实施例中,感知损失函数Loss基于MSE,如下:
diff=ytarget p-ypredicted p (5)
w=mdiff-diff-1 (4)
Loss=w*diff2 (5),
带有MSE,正diff值和负diff值受到的惩罚相同,因此指示语音过度抑制的负diff值受到的惩罚不会大于指示语音抑制不足的正diff值受到的惩罚。对于由等式(5)定义的Loss,与远低于目标掩码值的预测掩码值相对应的显著语音抑制不足现在通过w(对应的大权重)并通过diff2(对应的大误差)被多次惩罚。
所提出的感知损失函数可以被用于被配置为执行时频掩蔽以进行语音检测或增强的任何机器学习模型。机器学习模型的具体目的可以是降噪、回声抑制、语音去混响、或噪声与混响联合管理。对于深度学习模型,这样的感知损失函数一般被用在模型训练阶段。对于其他机器学习模型,这样的感知损失函数可以被用在模型执行阶段。
4.2.用于笑声和掌声检测的模型训练
会议中经常出现掌声和笑声,它们提供了重要的情感暗示。然而,许多基于深度学习的语音增强系统都经受着这种非噪声信号的过度抑制。
在一些实施例中,服务器102使用机器学习技术来检测笑声和掌声。服务器102可以从特征向量的训练数据集或从中计算特征向量的音频信号的训练数据集开始。特征向量表示一些帧中不同量的笑声或掌声,其中,笑声或掌声通常是某些频带中的主要音频。服务器102可以使用信号处理方法来计算特征向量。有助于识别笑声或掌声的特征包括被应用于频域音频数据(其可以从初始时域转换得到)的梅尔频率倒谱系数(MFCC)或Delta梅尔频率倒谱系数。这些特征还包括被应用于时域音频数据的调幅频谱(AMS)、音高或节律。为音频信号的每个频带或每一帧计算的所有这些特征值可以被组合成特征向量。训练数据集还可以包括针对每个音频信号的分类标签,其指示音频信号是否对应于笑声或掌声。可替代地,每个音频信号可以类似地被转换为多个频带和多个帧上的联合时频表示,基于时间的特征可以用于所有频带,基于频率的特征可以用于所有帧,并且训练数据集可以包括每个频带和每一帧的分类标签。
在一些实施例中,服务器102可以基于训练数据集使用适当的训练算法来构建用于将音频信号分类为笑声或掌声或其他情况的机器学习模型。机器学习模型可以是自适应提升算法、支持向量机(SVM)、随机森林、高斯混合模型(GMM)、深度神经网络(DNN)或本领域技术人员已知的其他分类方法。
4.3.用于语音增强的模型执行
在一些实施例中,服务器102接收具有时域中的一个或多个帧的新音频信号。服务器102然后将在第4.1节中讨论的机器学习方法应用于新音频信号以生成预测掩码,所述预测掩码指示对应T-F表示中的每一帧和每个频带中存在的语音量。所述应用包括将新音频信号转换为最初覆盖多个帧和多个频率仓的联合T-F表示。
在一些实施例中,服务器102进一步基于预测掩码针对新音频信号生成改进的音频信号。该步骤也可以在后处理阶段调整预测掩码之后执行,如第4.4节中进一步讨论的。给定y的频带掩码(通过应用第4.1节中讨论的机器学习方法获得)作为大小为q乘1的列向量m_band,其中,y是表示原始噪声帧的频带能量的大小为q乘1的列向量,q表示感知激励型频带的数量,可以通过计算m_bin=W_transpose*m_band来执行到仓掩码的转换,其中,m_bin是大小为p乘1的列向量,p表示仓数,而大小为p乘q的W_transpose是大小为q乘p的条带化矩阵W的转置。
在一些实施例中,服务器102可以将联合T-F表示中的原始频率仓幅度乘以仓掩码值以产生掩蔽或减少噪声并获得估计的干净频谱。服务器102可以进一步使用本领域技术人员知晓的任何方法(如逆CQMF)将估计的干净频谱转换回作为增强波形(相对于噪声波形)的波形,所述波形可以经由输出设备传送。
4.4.时频掩蔽的后处理
在一些实施例中,服务器102在后处理阶段调整从用于语音检测或增强的机器学习模型输出的预测掩码,以进一步减少非噪声信号的过度抑制。
在一些实施例中,服务器102单独地将第4.2节中讨论的机器学习方法应用于新音频信号,以确定新音频信号整体上或在特定频带和帧处是否包含笑声或掌声。响应于肯定的确定,服务器102可以忽略该音频信号或特定频带和帧的预测掩码,或者将预测掩码设置为指示完整语音以避免抑制笑声或掌声。服务器102还可以对所得掩码执行平滑或附加处理,使得最终掩码可以产生听起来尽可能自然的音频。
如上所述,语音过度抑制可能导致语音失真,或甚至不连续。例如,当发生语音过度抑制时,话音可能会急剧衰退而听起来不自然,这可能是一个问题,尤其是在存在非平稳噪声或低SNR的情况下。在一些实施例中,服务器102可以使用掩码应用现有话音活动检测算法来识别其中话音衰退的话音衰减期,或者只是检查时域中的掩码以识别其中掩码值总体下降的话音衰减期。这样的话音衰减期通常对应于语音讲话喷发(talk-spurt)的结束部分处的语音到噪声的转变。服务器102然后可以专门针对该话音衰减期计算掩码衰减,以确定掩码是否会导致话音衰减期内语音量的任何不连续性或突然变化。例如,可以计算相邻帧之间的对数能量差,并且大于阈值(比如30dB或40dB)的差值可以被视为突然变化。响应于任何检测到的不连续性或突然变化,服务器102可以调整预测掩码,使得掩码衰减将与小房间的典型话音衰减率相匹配,比如200ms混响时间(声音衰减60dB所需的时间,有时被缩写为T60或RT60)。可以通过插值、平滑、递归平均或类似技术的组合来对掩码值执行调整。
5.示例过程
图4图示了根据本文所描述的一些实施例的由音频管理计算机系统执行的示例过程。图4以简化的示意性格式示出,用于说明清楚的示例,并且其他实施例可以包括以各种方式连接的更多、更少或不同的元素。图4各自旨在公开可以用于实施一个或多个计算机程序或其他软件元素的算法、规划或概要,这些计算机程序或其他软件元素在被执行时使本文描述的功能改进和技术进步得以执行。此外,本文的流程图以与本领域普通技术人员通常就形成他们计划使用其积累的技术或知识进行编写或实施的软件程序的基础的算法、规划或规范而相互交流所使用的相同的详细程度进行描述。
在步骤402中,服务器102被编程为接收作为多个帧和多个频带上的联合时频表示的音频数据。
在一些实施例中,服务器102被编程为接收时域输入波形。服务器102被编程为将输入波形变换为多个频率仓和多个帧上的原始音频数据。服务器102被编程为然后通过将多个频率仓分组为多个频带来将原始音频数据转换为音频数据。
在一些实施例中,联合时频表示对于每个时间帧和每个频带都具有能量值。服务器102还被编程为计算联合时频表示中的每个能量值的对数作为这些特征中的特征。
在步骤404中,服务器102被编程为在音频数据的特征上执行用于检测语音的数字模型。所述数字模型是使用带有非线性惩罚的损失函数训练的,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,并且所述数字模型被配置为产生具有估计掩码值的掩码,所述估计掩码值指示针对所述多个帧中的每一帧和所述多个频带中的每个频带存在的语音量。
在一些实施例中,数字模型是ANN,包括使用语音和非语音的不同混合的联合时频表示的训练数据集来训练的DNN。在一些实施例中,损失函数是mdiff-diff-1,其中,diff表示目标掩码值的幂与估计掩码值中的估计掩码值的幂之间的差,并且m表示调整参数。在其他实施例中,损失函数是w*diff2,其中,w=mdiff-diff-1,diff表示目标掩码值的幂与所述估计掩码值中的估计掩码值的幂之间的差,并且m表示调整参数。
在一些实施例中,服务器102被编程为计算掩码的掩码衰减,并确定掩码衰减是否对应于超过阈值的衰退量。响应于确定掩码衰减对应于超过阈值的衰退量,服务器102被编程为调整掩码以使得掩码衰减与预定话音衰减率匹配。预定话音衰减率可以是200ms混响时间。
在步骤406中,服务器102被编程为将关于掩码的信息传输到设备。
在一些实施例中,服务器102被编程为确定音频数据是否对应于笑声或掌声。具体地,服务器102被编程为计算音频数据在时域和频域中的推导特征,并且执行第二数字模型以基于推导特征将音频数据分类为笑声或掌声或其他情况。响应于确定音频数据对应于笑声或掌声,服务器102被编程为进一步传输警报以忽略掩码。
在一些实施例中,服务器102被编程为对估计掩码值执行逆条带化,以为多个频率仓中的每个频率仓和多个帧中的每一帧生成更新的掩码值。服务器102被编程为将更新的掩码值应用于原始音频数据以生成新输出数据。服务器102被编程为然后将新输出数据变换为增强的波形。
6.硬件实施方式
根据一个实施例,本文所描述的技术由至少一个计算设备实施。可以使用至少一个服务器计算机和/或利用网络(如分组数据网络)耦接的其他计算设备的组合来全部或部分地实施这些技术。计算设备可以是硬接线的,以用于执行这些技术,或者可以包括如被持久地编程为执行这些技术的至少一个专用集成电路(ASIC)或现场可编程门阵列(FPGA)等数字电子设备,或者可以包括被编程为根据固件、存储器、其他存储装置或组合中的程序指令执行这些技术的至少一个通用硬件处理器。这种计算设备也可以将定制的硬接线逻辑、ASIC或FPGA与定制编程相结合来实现这些所描述技术。计算设备可以是服务器计算机、工作站、个人计算机、便携式计算机系统、手持设备、移动计算设备、可穿戴设备、身体安装或可植入设备、智能手机、智能电器、网络互联设备、如机器人或无人驾驶地面或空中交通工具等自主或半自主设备、并入硬接线和/或程序逻辑以实施所描述的技术的任何其他电子设备、数据中心中的一个或多个虚拟计算机器或实例、和/或服务器计算机和/或个人计算机的网络。
可以从以下枚举的示例实施例(EEE)中理解所公开实施例的各个方面:
EEE 1.一种减轻语音过度抑制的计算机实施的方法,所述方法包括:由处理器接收作为多个帧和多个频带上的联合时频表示的音频数据;在所述音频数据的特征上执行用于检测语音的数字模型,所述数字模型是使用带有非线性惩罚的损失函数训练的,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,所述数字模型被配置为产生估计掩码值的掩码,所述估计掩码值指示针对所述多个帧中的每一帧和所述多个频带中的每个频带存在的语音量;以及将关于所述掩码的信息传输到设备。
EEE 2.如权利要求1所述的计算机实施的方法,所述损失函数是mdiff-diff-1,并且其中,diff表示具有幂律项的目标掩码值与具有幂律项的所述估计掩码值中的估计掩码值之间的差,并且m表示调整参数。
EEE 3.如权利要求l所述的计算机实施的方法,所述损失函数是w*diff2,并且其中,w=mdiff-diff-1,diff表示目标掩码值的幂与所述估计掩码值中的估计掩码值的幂之间的差,并且m表示调整参数。
EEE 4.如权利要求1至3中任一项所述的计算机实施的方法,所述联合时频表示对于每个时间帧和每个频带都具有能量值,所述方法进一步包括计算所述联合时频表示中的每个能量值的对数作为所述特征中的特征。
EEE 5.如权利要求1至4中任一项所述的计算机实施的方法,所述数字模型是使用语音和非语音的不同混合的联合时频表示的训练数据集来训练的人工神经网络。
EEE 6.如权利要求1至5中任一项所述的计算机实施的方法,进一步包括:确定所述音频数据是否对应于笑声或掌声;以及响应于确定所述音频数据对应于笑声或掌声,进一步传输警报以忽略所述掩码。
EEE 7.如权利要求1至6中任一项所述的计算机实施的方法,计算所述音频数据在时域和频域中的推导特征;以及执行第二数字模型,以基于所述推导特征将所述音频数据分类为笑声或掌声或其他情况。
EEE 8.如权利要求1至7中任一项所述的计算机实施的方法,进一步包括:计算所述掩码的掩码衰减;确定所述掩码衰减是否对应于超过阈值的衰退量;以及响应于确定所述掩码衰减对应于超过所述阈值的衰退量,调整所述掩码以使得所述掩码衰减与预定话音衰减率匹配。
EEE 9.如权利要求8所述的计算机实施的方法,所述预定话音衰减率为200ms混响时间。
EEE 10.如权利要求1至9中任一项所述的计算机实施的方法,进一步包括:接收时域输入波形;将所述输入波形变换为多个频率仓和所述多个帧上的原始音频数据;以及通过将所述多个频率仓分组为所述多个频带,将所述原始音频数据转换为所述音频数据。
EEE 11.如权利要求10所述的计算机实施的方法,进一步包括:对所述估计掩码值执行逆条带化,以为所述多个频率仓中的每个频率仓和所述多个帧中的每一帧生成更新的掩码值;将所述更新的掩码值应用于所述原始音频数据以生成新输出数据;以及将所述新输出数据变换为增强的波形。
EEE 12.一种用于减轻语音过度抑制的系统,所述系统包括:存储器;以及一个或多个处理器,所述一个或多个处理器与所述存储器耦接并且被配置成执行以下操作:由处理器接收作为多个帧和多个频带上的联合时频表示的音频数据;在所述音频数据的特征上执行用于检测语音的数字模型,所述数字模型是使用带有非线性惩罚的损失函数训练的,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,所述数字模型被配置为产生估计掩码值的掩码,所述估计掩码值指示针对所述多个帧中的每一帧和所述多个频带中的每个频带存在的语音量;以及将关于所述掩码的信息传输到设备。
EEE 13.一种存储计算机可执行指令的计算机可读非暂态存储介质,所述指令当被执行时实施减轻语音过度抑制的方法,所述方法包括:由处理器接收多个联合时频表示的训练数据集;使用具有非线性惩罚的损失函数创建用于从所述训练数据集中检测语音的数字模型,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,所述数字模型被配置为产生用于多个频带和多个帧上的音频数据中的掩码,所述掩码包括一个估计掩码值,所述估计掩码值指示在所述多个帧中的每一帧处所述多个频带中的每个频带中检测到的语音量;接收新音频数据;在所述新音频数据的特征上执行用于检测语音的数字模型以获得新掩码;以及将关于所述新掩码的信息传输到设备。
EEE 14.如权利要求13所述的计算机可读非暂态存储介质,所述损失函数是mdiff-diff-1,并且其中,diff表示目标掩码值的幂与所述估计掩码值中的估计掩码值的幂之间的差,并且m表示调整参数。
EEE 15.如权利要求13所述的计算机可读非暂态存储介质,所述损失函数是w*diff2,并且其中,w=mdiff-diff-1,diff表示目标掩码值的幂与所述估计掩码值中的估计掩码值的幂之间的差,并且m表示调整参数。
EEE 16.如权利要求13至15中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:确定所述音频数据是否对应于笑声或掌声;以及响应于确定所述音频数据对应于笑声或掌声,进一步传输警报以忽略所述掩码。
EEE 17.如权利要求13至16中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:计算所述音频数据在时域和频域中的推导特征;以及执行第二数字模型,以基于所述推导特征将所述音频数据分类为笑声或掌声或其他情况。
EEE 18.如权利要求13至17中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:计算所述掩码的掩码衰减;确定所述掩码衰减是否对应于超过阈值的衰退量;以及响应于确定所述掩码衰减对应于超过所述阈值的衰退量,调整所述掩码以使得所述掩码衰减与预定话音衰减率匹配。
EEE 19.如权利要求13-18中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:接收时域输入波形;将所述输入波形变换为多个频率仓和所述多个帧上的原始音频数据;以及通过将所述多个频率仓分组为所述多个频带,将所述原始音频数据转换为所述音频数据。
EEE 20.如权利要求19所述的计算机可读非暂态存储介质,所述方法进一步包括:对所述估计掩码值执行逆条带化,以为所述多个频率仓中的每个频率仓和所述多个帧中的每一帧生成更新的掩码值;将所述更新的掩码值应用于所述原始音频数据以生成新输出数据;以及将所述新输出数据变换为增强的波形。
图5是图示了可以用来实施实施例的示例计算机系统的框图。在图5的示例中,以与本公开所属领域的普通技术人员普遍使用的就计算机架构和计算机系统实施方式进行交流的相同详细程度将计算机系统500和用于在硬件、软件或硬件和软件的组合中实施所公开技术的指令示意性地表示为例如框和圆。
计算机系统500包括输入/输出(I/O)子系统502,其可以包括用于通过电子信号路径在计算机系统500的部件之间传送信息和/或指令的总线和/或其他(多个)通信机制。I/O子系统502可以包括I/O控制器、存储器控制器和至少一个I/O端口。电子信号路径在附图中示意性地表示为例如线、单向箭头或双向箭头。
至少一个硬件处理器504耦接到用于处理信息和指令的I/O子系统502。硬件处理器504可以包括例如通用微处理器或微控制器和/或如嵌入式系统或图形处理单元(GPU)或数字信号处理器或ARM处理器等专用微处理器。处理器504可以包括集成算术逻辑单元(ALU)或者可以耦接到分离的ALU。
计算机系统500包括存储器506的一个或多个单元,如主存储器,所述主存储器耦接到I/O子系统502从而以电子数字方式存储要由处理器504执行的数据和指令。存储器506可以包括易失性存储器(如各种形式的随机存取存储器(RAM))或其他动态存储设备。存储器506还可以用于存储在执行要由处理器504执行的指令期间的临时变量或其他中间信息。在被存储于处理器504可访问的非暂态计算机可读存储介质中时,这种指令可以使计算机系统500变成被定制用于执行在指令中指定的操作的专用机器。
计算机系统500进一步包括非易失性存储器(如只读存储器(ROM)508)或耦接到I/O子系统502以存储处理器504的信息和指令的其他静态存储设备。ROM 508可以包括如可擦除PROM(EPROM)或电可擦除PROM(EEPROM)等各种形式的可编程ROM(PROM)。持久存储单元510可以包括如闪速存储器或固态存储设备、磁盘或光盘(如CD-ROM或DVD-ROM)等各种形式的非易失性RAM(NVRAM),并且可以耦接到I/O子系统502以用于存储信息和指令。存储设备510是可以用于存储指令和数据的非暂态计算机可读介质的示例,这些指令和数据在由处理器504执行时使用于执行本文的技术的计算机实施的方法得以执行。
存储器506、ROM 508或存储设备510中的指令可以包括被组织为模块、方法、对象、功能、例程或调用的一组或多组指令。指令可以被组织为一个或多个计算机程序、操作系统服务或包括移动应用的应用程序。指令可以包括操作系统和/或系统软件;支持多媒体、编程或其他功能的一个或多个库;用于实施TCP/IP、HTTP或其他通信协议的数据协议指令或堆栈;用于解释和呈现使用HTML、XML、JPEG、MPEG或PNG编码的文件的文件处理指令;用于呈现或解释用于图形用户界面(GUI)、命令行界面或文本用户界面的命令的用户界面指令;如办公套件、因特网访问应用、设计和制造应用、图形应用、音频应用、软件工程应用、教育应用、游戏或其他应用等应用软件。这些指令可以实施web服务器、web应用服务器或web客户端。指令可以被组织为表示层、应用层和如使用结构化查询语言(SQL)或NoSQL的关系数据库系统、对象存储、图形数据库、平面文件系统或其他数据存储等数据存储层。
计算机系统500可以经由I/O子系统502耦接到至少一个输出设备512。在一个实施例中,输出设备512为数字计算机显示器。可以在各种实施例中使用的显示器的示例包括触摸屏显示器或发光二极管(LED)显示器或液晶显示器(LCD)或电子纸显示器。计算机系统500可以包括其他(多个)类型的输出设备512,作为显示设备的替代或补充。其他输出设备512的示例包括打印机、票据打印机、绘图仪、投影仪、声卡或视频卡、扬声器、蜂鸣器或压电设备或其他可听设备、灯或LED或LCD指示器、触觉设备、致动器或伺服器。
至少一个输入设备514耦接到I/O子系统502,用于将信号、数据、命令选择或手势传送到处理器504。输入设备514的示例包括触摸屏、麦克风、静态和视频数码相机、字母数字键和其他键、小键盘、键盘、图形输入板、图像扫描仪、操纵杆、时钟、开关、按钮、刻度盘、滑动装置和/或如力传感器、运动传感器、热传感器、加速度计、陀螺仪和惯性测量单元(IMU)传感器等各种类型的传感器和/或如无线(例如蜂窝或Wi-Fi)收发器、射频(RF)收发器或红外线(IR)收发器和全球定位系统(GPS)收发器等各种类型的收发器。
另一种类型的输入设备是控制设备516,其可以执行光标控制或其他自动控制功能,如在显示屏上的图形界面中导航,作为输入功能的替代或补充。控制设备516可以是触摸板、鼠标、轨迹球或光标方向键,以用于将方向信息和命令选择传送到处理器504并用于控制在显示器512上的光标移动。所述输入设备可以具有在两条轴线(第一轴线(例如,x轴)和第二轴线(例如,y轴))上的至少两个自由度,允许设备在某个平面中指定方位。另一种类型的输入设备是有线控制设备、无线控制设备或光学控制设备,如操纵杆、棒、控制台、方向盘、踏板、换挡机构或其他类型的控制设备。输入设备514可以包括多个不同输入设备的组合,如摄像机和深度传感器。
在另一实施例中,计算机系统500可以包括物联网(IoT)设备,其中,省略了输出设备512、输入设备514和控制设备516中的一个或多个。或者,在这样的实施例中,输入设备514可以包括一个或多个相机、运动检测器、温度计、麦克风、地震检测器、其他传感器或检测器、测量设备或编码器,并且输出设备512可以包括如单线LED或LCD显示器、一个或多个指示器、显示面板、仪表、阀门、螺线管、致动器或伺服器等专用显示器。
当计算机系统500是移动计算设备时,输入设备514可以包括耦接到GPS模块的全球定位系统(GPS)接收器,所述GPS模块能够对多个GPS卫星进行三角测量、确定并生成地理位置或位置数据,如计算机系统500的地球物理位置的纬度-经度值。输出设备512可以包括硬件、软件、固件和接口,用于单独或与其他应用特定数据组合而生成指向主机524或服务器530的位置报告分组、通知、脉冲或心跳信号、或指定计算机系统500的位置的其他重复数据传输。
计算机系统500可以使用定制的硬接线逻辑、至少一个ASIC或FPGA、固件和/或程序指令或逻辑来实施本文所描述的技术,所述定制的硬接线逻辑、至少一个ASIC或FPGA、固件和/或程序指令或逻辑当被加载并使用或执行时与计算机系统相结合使计算机系统作为专用机器而运行。根据一个实施例,响应于处理器504执行包含在主存储器506中的至少一个指令的至少一个序列,计算机系统500执行本文中的技术。这种指令可以从另一个存储介质(如存储设备510)读取到主存储器506中。包含在主存储器506中的指令序列的执行使处理器504执行本文描述的过程步骤。在替代性实施例中,可以使用硬接线电路来代替软件指令或者与软件指令相结合。
如本文所使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非暂态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,如存储设备510。易失性介质包括动态存储器,如存储器506。存储介质的常见形式包括例如硬盘、固态驱动器、闪存驱动器、磁数据存储介质、任何光数据存储介质或物理数据存储介质、存储芯片等。
存储介质不同于传输介质但可以与传输介质结合使用。传输介质参与存储介质之间的信息传递。例如,传输介质包括同轴电缆、铜线和光纤,包括包含I/O子系统的总线502的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的那些声波或光波。
各种形式的介质可以涉及将至少一个指令的至少一个序列载送到处理器504以供执行。例如,指令最初可以携带在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载至其动态存储器并且使用调制解调器通过如光纤或同轴电缆或电话线等通信链路来发送这些指令。计算机系统500本地的调制解调器或路由器可以接收通信链路上的数据并转换所述数据以供计算机系统500读取。例如,如射频天线或红外检测器等接收器可以接收在无线或光信号中携带的数据,并且适当的电路系统可以将数据提供给I/O子系统502,如将数据放在总线上。I/O子系统502将数据携带到存储器506,处理器504从所述存储器中取得并执行指令。存储器506接收的指令可以可选地在由处理器504执行之前或之后被存储在存储设备510上。
计算机系统500还包括耦接到总线502的通信接口518。通信接口518提供到(多个)网络链路520的双向数据通信耦接,所述(多个)网络链路直接或间接连接到如网络522或因特网上的公共云或私有云等至少一个通信网络。例如,通信接口518可以是以太网网络接口、综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器、或调制解调器,以向对应类型的通信线(例如,以太网电缆或任何种类的金属电缆或光纤线或电话线)提供数据通信连接。网络522广泛地表示局域网(LAN)、广域网(WAN)、校园网、因特网或其任何组合。通信接口518可以包括提供到兼容LAN的数据通信连接的LAN卡,或根据蜂窝无线电话无线网络标准有线发送或接收蜂窝数据的蜂窝无线电话接口,或根据卫星无线网络标准有线发送或接收数字数据的卫星无线电接口。在任何这种实施方式中,通信接口518通过信号路径发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
网络链路520通常使用例如卫星、蜂窝、Wi-Fi或蓝牙技术直接或通过至少一个网络向其他数据设备提供电数据通信、电磁数据通信或光数据通信。例如,网络链路520可以提供通过网络522到主机计算机524的连接。
此外,网络链路520可以提供通过网络522的连接或经由因特网服务提供商(ISP)526操作的因特网设备和/或计算机到其他计算设备的连接。ISP 526通过世界范围的分组数据通信网络(表示为因特网528)提供数据通信服务。服务器计算机530可以耦接到因特网528。服务器530广泛地表示任何计算机、数据中心、具有或不具有管理程序的虚拟机或虚拟计算实例、或执行如DOCKER或KUBERNETES等容器化程序系统的计算机。服务器530可以表示使用多于一个计算机或实例实施的并且通过传输web服务请求、具有呈HTTP有效载荷形式的参数的统一资源定位符(URL)字符串、应用编程接口(API)调用、应用服务调用、或其他服务调用来访问和使用的电子数字服务。计算机系统500和服务器530可以形成包括其他计算机、处理集群、服务器群或协作执行任务或执行应用或服务的其他计算机组织的分布式计算系统的元件。服务器530可以包括被组织为模块、方法、对象、功能、例程或调用的一组或多组指令。指令可以被组织为一个或多个计算机程序、操作系统服务或包括移动应用的应用程序。指令可以包括操作系统和/或系统软件;支持多媒体、编程或其他功能的一个或多个库;用于实施TCP/IP、HTTP或其他通信协议的数据协议指令或堆栈;用于解释或呈现使用HTML、XML、JPEG、MPEG或PNG编码的文件的文件格式处理指令;用于呈现或解释用于图形用户界面(GUI)、命令行界面或文本用户界面的命令的用户界面指令;如办公套件、因特网访问应用、设计和制造应用、图形应用、音频应用、软件工程应用、教育应用、游戏或其他应用等应用软件。服务器530可以包括托管表示层、应用层和如使用结构化查询语言(SQL)或NoSQL的关系数据库系统、对象存储、图形数据库、平面文件系统或其他数据存储等数据存储层的web应用服务器。
计算机系统500可以通过(多个)网络、网络链路520和通信接口518发送消息和接收数据和指令,包括程序代码。在因特网示例中,服务器530可以通过因特网528、ISP 526、本地网络522和通信接口518传输应用程序的请求代码。所接收的代码可以在被接收到时由处理器504执行,和/或被存储在存储设备510、或其他非易失性存储设备中以供稍后执行。
本节中描述的指令的执行可以实施呈被执行的、且由程序代码及其当前活动构成的计算机程序实例的形式的进程。根据操作系统(OS),进程可以由同时执行指令的多个执行线程组成。在这种上下文中,计算机程序是指令的被动集合,而进程可以是这些指令的实际执行。数个进程可以与相同程序相关联;例如,打开同一程序的数个实例通常意味着执行多于一个进程。可以实施多任务以允许多个进程共享处理器504。虽然每个处理器504或处理器的核心每次执行单个任务,但是计算机系统500可以被编程为实施多任务处理以允许每个处理器在被执行的任务之间切换而不必等待每个任务完成。在实施例中,可以在任务执行输入/输出操作时、当任务指示它可以被切换或者在硬件中断时执行切换。通过快速执行上下文切换以出现多个进程同时并发执行,可以实施分时以允许交互式用户应用的快速响应。在实施例中,为了安全性和可靠性,操作系统可以防止独立进程之间的直接通信,提供严格中介和受控的进程间通信功能。
7.扩展和替代方案
在前述说明书中,已经参考许多具体细节描述了本公开的实施例,这些细节可以根据实施方式而变化。因此,应当从说明性而非限制性意义上看待本说明书和附图。指明本公开范围以及本公开范围内申请人的发明意图的唯一且排他性指示是从本申请中以这套权利要求发布的具体形式发布的权利要求,包括任何后续修改。
Claims (20)
1.一种减轻语音过度抑制的计算机实施的方法,包括:
由处理器接收作为多个帧和多个频带上的联合时频表示的音频数据;
在所述音频数据的特征上执行用于检测语音的数字模型,
所述数字模型是使用带有非线性惩罚的损失函数训练的,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,
所述数字模型被配置为产生估计掩码值的掩码,所述估计掩码值指示针对所述多个帧中的每一帧和所述多个频带中的每个频带存在的语音量;以及
将关于所述掩码的信息传输到设备。
2.如权利要求1所述的计算机实施的方法,
所述损失函数是mdiff-diff-1,并且
其中,diff表示具有幂律项的目标掩码值与具有幂律项的所述估计掩码值中的估计掩码值之间的差,并且m表示调整参数。
3.如权利要求1所述的计算机实施的方法,
所述损失函数是w*diff2,并且
其中,w=mdiff-diff-1,diff表示目标掩码值的幂与所述估计掩码值中的估计掩码值的所述幂之间的差,并且m表示调整参数。
4.如权利要求1至3中任一项所述的计算机实施的方法,
所述联合时频表示对于每个时间帧和每个频带都具有能量值,
所述方法进一步包括计算所述联合时频表示中的每个能量值的对数作为所述特征中的特征。
5.如权利要求1至4中任一项所述的计算机实施的方法,所述数字模型是使用语音和非语音的不同混合的联合时频表示的训练数据集来训练的人工神经网络。
6.如权利要求1至5中任一项所述的计算机实施的方法,进一步包括:
确定所述音频数据是否对应于笑声或掌声;以及
响应于确定所述音频数据对应于笑声或掌声,进一步传输警报以忽略所述掩码。
7.如权利要求1至6中任一项所述的计算机实施的方法,
计算所述音频数据在时域和频域中的推导特征;以及
执行第二数字模型,以基于所述推导特征将所述音频数据分类为笑声或掌声或其他。
8.如权利要求1至7中任一项所述的计算机实施的方法,进一步包括:
计算所述掩码的掩码衰减;
确定所述掩码衰减是否对应于超过阈值的衰退量;以及
响应于确定所述掩码衰减对应于超过所述阈值的衰退量,调整所述掩码以使得所述掩码衰减与预定话音衰减率匹配。
9.如权利要求8所述的计算机实施的方法,所述预定话音衰减率为200ms混响时间。
10.如权利要求1至9中任一项所述的计算机实施的方法,进一步包括:
接收时域输入波形;
将所述输入波形变换为多个频率仓和所述多个帧上的原始音频数据;以及
通过将所述多个频率仓分组为所述多个频带,将所述原始音频数据转换为所述音频数据。
11.如权利要求10所述的计算机实施的方法,进一步包括:
对所述估计掩码值执行逆条带化,以为所述多个频率仓中的每个频率仓和所述多个帧中的每一帧生成更新的掩码值;
将所述更新的掩码值应用于所述原始音频数据以生成新输出数据;以及
将所述新输出数据变换为增强的波形。
12.一种用于减轻语音过度抑制的系统,包括:
存储器;以及
一个或多个处理器,所述一个或多个处理器被耦接到所述存储器并且被配置成执行以下操作:
由处理器接收作为多个帧和多个频带上的联合时频表示的音频数据;
在所述音频数据的特征上执行用于检测语音的数字模型,
所述数字模型是使用带有非线性惩罚的损失函数训练的,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,
所述数字模型被配置为产生估计掩码值的掩码,所述估计掩码值指示针对所述多个帧中的每一帧和所述多个频带中的每个频带存在的语音量;以及
将关于所述掩码的信息传输到设备。
13.一种存储计算机可执行指令的计算机可读非暂态存储介质,所述指令当被执行时实施减轻语音过度抑制的方法,所述方法包括:
由处理器接收多个联合时频表示的训练数据集;
使用具有非线性惩罚的损失函数创建用于从所述训练数据集中检测语音的数字模型,所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚,
所述数字模型被配置为产生用于多个频带和多个帧上的音频数据中的掩码,
所述掩码包括一个估计掩码值,所述估计掩码值指示在所述多个帧中的每一帧处所述多个频带中的每个频带中检测到的语音量;
接收新音频数据;
在所述新音频数据的特征上执行用于检测语音的数字模型以获得新掩码;以及
将关于所述新掩码的信息传输到设备。
14.如权利要求13所述的计算机可读非暂态存储介质,
所述损失函数是mdiff-diff-1,并且
其中,diff表示目标掩码值的幂与所述估计掩码值中的估计掩码值的所述幂之间的差,并且m表示调整参数。
15.如权利要求13所述的计算机可读非暂态存储介质,
所述损失函数是w*diff2,并且
其中,w=mdiff-diff-1,diff表示目标掩码值的幂与所述估计掩码值中的估计掩码值的所述幂之间的差,并且m表示调整参数。
16.如权利要求13至15中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:
确定所述音频数据是否对应于笑声或掌声;以及
响应于确定所述音频数据对应于笑声或掌声,进一步传输警报以忽略所述掩码。
17.如权利要求13至16中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:
计算所述音频数据在时域和频域中的推导特征;以及
执行第二数字模型,以基于所述推导特征将所述音频数据分类为笑声或掌声或其他。
18.如权利要求13至17中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:
计算所述掩码的掩码衰减;
确定所述掩码衰减是否对应于超过阈值的衰退量;以及
响应于确定所述掩码衰减对应于超过所述阈值的衰退量,调整所述掩码以使得所述掩码衰减与预定话音衰减率匹配。
19.如权利要求13至18中任一项所述的计算机可读非暂态存储介质,所述方法进一步包括:
接收时域中的输入波形;
将所述输入波形变换为多个频率仓和所述多个帧上的原始音频数据;以及
通过将所述多个频率仓分组为所述多个频带,将所述原始音频数据转换为所述音频数据。
20.如权利要求19所述的计算机可读非暂态存储介质,所述方法进一步包括:
对所述估计掩码值执行逆条带化,以为所述多个频率仓中的每个频率仓和所述多个帧中的每一帧生成更新的掩码值;
将所述更新的掩码值应用于所述原始音频数据以生成新输出数据;以及
将所述新输出数据变换为增强的波形。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021104166 | 2021-07-02 | ||
CNPCT/CN2021/104166 | 2021-07-02 | ||
US63/225,594 | 2021-07-26 | ||
US202163288516P | 2021-12-10 | 2021-12-10 | |
US63/288,516 | 2021-12-10 | ||
PCT/US2022/035251 WO2023278398A1 (en) | 2021-07-02 | 2022-06-28 | Over-suppression mitigation for deep learning based speech enhancement |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117597732A true CN117597732A (zh) | 2024-02-23 |
Family
ID=89913831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280047307.XA Pending CN117597732A (zh) | 2021-07-02 | 2022-06-28 | 基于深度学习的语音增强的过度抑制减轻 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117597732A (zh) |
-
2022
- 2022-06-28 CN CN202280047307.XA patent/CN117597732A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790935B2 (en) | Voice onset detection | |
CN110808063A (zh) | 一种语音处理方法、装置和用于处理语音的装置 | |
US20230368807A1 (en) | Deep-learning based speech enhancement | |
US20220172737A1 (en) | Speech signal processing method and speech separation method | |
US20240087587A1 (en) | Wearable system speech processing | |
US11917384B2 (en) | Method of waking a device using spoken voice commands | |
US11380326B2 (en) | Method and apparatus for performing speech recognition with wake on voice (WoV) | |
CN108604452A (zh) | 声音信号增强装置 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN116508099A (zh) | 基于深度学习的语音增强 | |
US20240046946A1 (en) | Speech denoising networks using speech and noise modeling | |
CN117597732A (zh) | 基于深度学习的语音增强的过度抑制减轻 | |
EP4364138A1 (en) | Over-suppression mitigation for deep learning based speech enhancement | |
CN116868265A (zh) | 用于动态声学环境中的数据增强和语音处理的系统和方法 | |
WO2024030338A1 (en) | Deep learning based mitigation of audio artifacts | |
WO2023018880A1 (en) | Reverb and noise robust voice activity detection based on modulation domain attention | |
CN114556472A (zh) | 深度源分离架构 | |
CN117916801A (zh) | 基于调制域注意力的混响和噪声鲁棒语音活动检测 | |
WO2023164392A1 (en) | Coded speech enhancement based on deep generative model | |
US20240170004A1 (en) | Context aware audio processing | |
US20230134400A1 (en) | Automatic adaptation of multi-modal system components | |
CN117012217A (zh) | 一种数据处理方法、装置、设备、存储介质及程序产品 | |
US20240170003A1 (en) | Audio Signal Enhancement with Recursive Restoration Employing Deterministic Degradation | |
US20230230580A1 (en) | Data augmentation system and method for multi-microphone systems | |
US20230230581A1 (en) | Data augmentation system and method for multi-microphone systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |