CN110364175B

CN110364175B - 语音增强方法及系统、通话设备

Info

Publication number: CN110364175B
Application number: CN201910769922.1A
Authority: CN
Inventors: 刘志; 周玉军
Original assignee: Voiceon Technology International Ltd
Current assignee: Voiceon Technology International Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2022-02-18
Anticipated expiration: 2039-08-20
Also published as: CN110364175A

Abstract

本发明公开了一种语音增强方法及系统、通话设备。其中，该方法包括：获取语音输入信号；对语音输入信号进行时频补偿；计算经过时频补偿的多个语音特征信息,并对语音输入信号进行分类得到语音分类结果；根据多个语音特征信息和语音分类结果，确定语音掩蔽值；基于语音掩蔽值，确定语音输出信号。本发明解决了相关技术中的语音增强方式采用固定掩蔽值，会余留很大的噪声或者对目标对象的声音有损伤，导致通话效果很差的技术问题。

Description

语音增强方法及系统、通话设备

技术领域

本发明涉及语音处理技术领域，具体而言，涉及一种语音增强方法及系统、通话设备。

背景技术

在相关技术中，使用麦克风时，往往会由于周围环境产生的噪声或者周围说话人的声音导致听不清对方通话声音，导致通话效果较差。针对这种情况，现有技术中采用了双麦克风声音增强方式，该种双麦克风声音增强方式，主要是利用各种特征信息(如双通道时间差)来实现增强通话对方的声音，当前在采集特征时，采用如图1所示的麦克风拓扑结构，图1是现有技术一种可选的使用麦克风增强语音的拓扑结构，图1中的头模型表示通话对方为用户，声源为通话对方的嘴。两个麦克风一上一下，靠近声源的麦克记为麦克0，离声源稍远的麦克记为麦克1。通过图1的所示内容可见，从延时的差别来看，声源到麦克1与麦克0的延时差为一个正值，而噪声源1与噪声源2到麦克0与麦克1的延时差为一个负值或是0值。从能量的差别来看，由于声音在空气中传播会有能量损失，一般来说，最终被麦克风接收声音的能量与声源到麦克风距离的平方正反比。即图1中麦克0中用户声音的能量远远大于麦克1中的声音的能量，而从噪声源0与噪声源1传到两路麦克的噪声能量相差不大。图1中两个噪声源的位置是两个具体的位置，事实上，对于大多数的噪声源，它们到两路麦克风的延时与能量差别都与声源存在类似的差异。但也存在盲区，如位于两路麦克风延长线上的噪声源3到两路麦克的延时差跟目标声源相当，但能量差别还是存在的。

对于如图1所示的声音增强方式，由于麦克风的差异以及麦克风安装位置导致的声学结构差异的影响，两个麦克风对于某固定点的噪声源，在不同时频单元上的增益不一致，不同的产品在计算能量差或者时间差时会有很大的差异，采取固定能量差值来生成语音掩蔽值时，会有很大的噪声残留或者对目标声音有很大的损伤。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音增强方法及系统、通话设备，以至少解决相关技术中的语音增强方式采用固定掩蔽值，会余留很大的噪声或者对目标对象的声音有损伤，导致通话效果很差的技术问题。

根据本发明实施例的一个方面，提供了一种语音增强方法，包括：获取语音输入信号；对所述语音输入信号进行时频补偿；计算经过时频补偿的多个语音特征信息,并对所述语音输入信号进行分类得到语音分类结果；根据所述多个语音特征信息和语音分类结果，确定语音掩蔽值；基于所述语音掩蔽值，确定语音输出信号。

通过该方式，可采用时频补偿自适应方式，解决由于两个麦克风特性的不同以及声学结构差异造成余留很大的噪声或者对目标对象的声音有损伤，导致通话效果很差的问题。对不同噪声环境下的噪声能够自适应生成掩蔽值，利用语音掩蔽值合成语音信号，减少语音信号的失真，使得用户能够听清通话语音。

可选地，对所述语音输入信号进行时频补偿的步骤，包括：分别获取所述语音输入信号中第一麦克风的时域信号零和第二麦克风的时域信号一；对所述时域信号零进行分帧处理得到频域信号零，和，对所述时域信号一进行分帧处理得到频域信号一，其中，所述频域信号零和所述频域信号一包含有多个时频单元，每个所述时频单元对应一帧频域信号的一个频带；确定与所述频域信号一中的每个时频单元对应的时频补偿参数一；基于所述时频补偿参数一对所述频域信号一中的各个所述时频单元进行时频补偿。

可选地，计算经过时频补偿的多个语音特征信息的步骤，包括：计算经过时频补偿的双通道时间差ITD和双通道能量差IID；将所述双通道时间差ITD和所述双通道能量差IID确定为所述语音输入信号的多个语音特征信息。

可选地，在计算经过时频补偿的多个语音特征信息之后，所述方法还包括：判断所述频域信号零的目标帧是否为噪声信号；在所述频域信号零的目标帧为噪声信号时，确定语音分类结果为噪声信号；或者，在所述频域信号零的目标帧不是噪声信号时，确定语音分类结果为语音信号。

可选地，在确定语音分类结果为噪声信号之后，所述方法还包括：基于所述频域信号零和所述频域信号一的信号差值更新所述时频补偿参数一。

可选地，根据所述多个语音特征信息和语音分类结果，确定语音掩蔽值的步骤，包括：根据所述多个语音特征信息和预设掩蔽门限值，得到第一掩蔽值；在得到所述频域信号零和所述频域信号一后，采用分频带谱减法得到第二掩蔽值；基于所述语音分类结果，确定第三掩蔽值；在确定所述语音分类结果为噪声信号时，则确定语音掩蔽值为第三掩蔽值；在确定所述语音分类结果为语音信号时，则比较所述第一掩蔽值和第二掩蔽值，并基于比较结果确定语音掩蔽值。

可选地，基于所述语音掩蔽值，确定语音输出信号的步骤，包括：对所述语音掩蔽值进行平滑处理；基于平滑处理后的所述语音掩蔽值和经过分帧处理后得到的所述频域信号零，重建语音信号；将重建后的语音信号确定为所述语音输出信号。

根据本发明实施例的另一方面，还提供了一种语音增强系统，包括：时频补偿单元，用于对语音输入信号进行时频补偿；特征处理单元，与所述时频补偿单元连接，用于计算经过时频补偿的多个语音特征信息；语音激活检测单元，与所述特征处理单元连接，用于检测语音输入信号的类型，得到语音分类结果，其中，所述语音分类结果包括：语音信号和噪声信号；掩蔽计算单元，用于根据所述多个语音特征信息和语音分类结果，确定语音掩蔽值；语音信号重建单元，用于基于所述语音掩蔽值，确定语音输出信号。

可选地，所述时频补偿单元包括：第一时频分解单元，用于获取所述语音输入信号中第二麦克风的时域信号一，并对所述时域信号一按照时长进行分帧处理得到频域信号一，其中，所述频域信号一包含有多个时频单元，每个所述时频单元对应一帧频域信号的一个频带；第二时频分解单元，用于获取所述语音输入信号中第一麦克风的时域信号零，并对所述时域信号零按照时长进行分帧处理得到频域信号零，其中，所述频域信号零包含有多个时频单元，每个所述时频单元对应一帧频域信号的一个频带。

可选地，所述时频补偿单元包括：第一确定模块，用于确定与所述频域信号一中的每个时频单元对应的时频补偿参数一；补偿模块，用于根据所述时频补偿参数一对所述频域信号一中的各个所述时频单元进行时频补偿。

根据本发明实施例的另一方面，还提供了一种通话设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音增强方法。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的语音增强方法。

在本发明实施例中，对语音输入信号进行时频补偿，计算经过时频补偿的多个语音特征信息,并对语音输入信号进行分类得到语音分类结果，根据多个语音特征信息和语音分类结果，确定语音掩蔽值，最后基于语音掩蔽值，确定语音输出信号。在该实施例中，可以实现时频自适应补偿，综合语音特征信息和语音分类，自适应生成掩蔽值，不同于现有技术中使用的固定掩蔽值，本发明实施例中的语音掩蔽值可对于不同类型、不同方向的噪声都能很快进入到稳定的抑制状态，能很好的保留目标说话人声音，抑制周边环境噪声，从而解决相关技术中的语音增强方式采用固定掩蔽值，会余留很大的噪声或者对目标对象的声音有损伤，导致通话效果很差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是现有技术一种可选的使用麦克风增强语音的拓扑结构；

图2是根据本发明实施例的一种可选的语音增强方法的流程图；

图3是根据本发明实施例的另一种可选的语音增强方式的示意图；

图4是根据本发明实施例的一种可选的语音增强系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于用户理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：

语音激活检测，Voice Activity Detection，简称VAD，又称静音抑制，从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作业。

双通道时间差，Interaural Time Differences，简称ITD，可简单理解为两耳间声音到达的时间差值。

双通道能量差，Interaural Intensity Differences，简称ITD，可简单理解为两耳间声音的强度差值。

语音增强，在语音信号被噪声干扰，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰。

本发明下述各实施例可采用采取时频补偿自适应算法，解决由于两个麦克风特性的不同以及声学结构差异造成增强效果不稳定或下降的问题，相对与现有技术中由于麦克风的差异以及麦克风安装位置导致的声学结构差异的影响，两个麦克风相对于固定点的噪声源，在不同时频单元上的增益是不一致的，这样采取固定数值(如计算出的固定IID值)来生成掩蔽值时，会有很大的噪声残留或者对目标声音有很大的损伤的问题；本发明实施例中可通过参数计算(如计算出IID、ITD等)，初步生成掩蔽值，然后综合VAD以及稳态噪声降噪的结果得到最后的掩蔽值，将平滑后的掩蔽值作用到麦克风的时频分解上得到重建后的声音信号，重建后的声音信号可对不同类型、不同方向的噪声都能进行稳定的噪声抑制，在声源变化、环境变化等各种条件下保持稳定增强的效果。下面通过各个实施例来详细说明本发明。

实施例一

根据本发明实施例，提供了一种语音增强方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种可选的语音增强方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取语音输入信号；

步骤S204，对语音输入信号进行时频补偿；

步骤S206，计算经过时频补偿的多个语音特征信息,并对语音输入信号进行分类得到语音分类结果；

步骤S208，根据多个语音特征信息和语音分类结果，确定语音掩蔽值；

步骤S210，基于语音掩蔽值，确定语音输出信号。

通过上述步骤，可以采用获取语音输入信号，对语音输入信号进行时频补偿，计算经过时频补偿的多个语音特征信息,并对语音输入信号进行分类得到语音分类结果，根据多个语音特征信息和语音分类结果，确定语音掩蔽值，最后基于语音掩蔽值，确定语音输出信号。在该实施例中，可以实现时频自适应补偿，综合语音特征信息和语音分类，自适应生成掩蔽值，不同于现有技术中使用的固定掩蔽值，本发明实施例中的语音掩蔽值可对于不同类型、不同方向的噪声都能很快进入到稳定的抑制状态，能很好的保留目标说话人声音，抑制周边环境噪声，从而解决相关技术中的语音增强方式采用固定掩蔽值，会余留很大的噪声或者对目标对象的声音有损伤，导致通话效果很差的技术问题。

本发明实施例，可应用各种语音通话产品中，该语音通话产品包括但不限于：移动终端(如手机、平板、IPAD)、固定电话、网络电话、公用电话、麦克风产品等。对于具体语音通话产品的型号和具体类型，不做具体限定，根据具体运用情况可做调整。

该语音增强方法可应用于至少两个麦克风阵列的通话设备，实现对双麦克风阵列语音增强。

本发明实施例中可根据声音激活检测的结果对通话对方声音(如图1中的参考麦克风1)的时频单元逐帧进行自适应补偿。同时各个时频单元的噪声掩蔽值可通过各个语音特征信息(如IID、ITD)和语音分类(即是否为噪声)、稳态噪声方式等确定出一个噪声掩蔽值，该噪声掩蔽值可合理抑制语音信号中的噪声，还原原始通话语音，从而在声源变化、环境变化等各种条件下保持稳定增强的效果。

下面分别对本发明实施例上述各步骤进行详细说明。

步骤S202，获取语音输入信号。

可通过麦克风接收语音输入信号，本发明实施例中的通话麦克风至少为两个，实现双麦克风声音增强，补偿至少两个麦克风声音频谱的差别。该语音输入信号中可包括通话对方的声音、通话对方周围人产生的噪声、通话对方周围各种环境噪声等。

步骤S204，对语音输入信号进行时频补偿。

在接收到语音输入信号后，可以对语音输入信号进行时频补偿，可选的，对语音输入信号进行时频补偿的步骤，包括：分别获取语音输入信号中第一麦克风的时域信号零和第二麦克风的时域信号一；对时域信号零进行分帧处理得到频域信号零，和，对时域信号一进行分帧处理得到频域信号一，其中，频域信号零和频域信号一包含有多个时频单元，每个时频单元对应一帧频域信号的一个频带；确定与频域信号一中的每个时频单元对应的时频补偿参数一；基于时频补偿参数一对频域信号一种的各个时频单元进行时频补偿。

可选的，第一麦克风包括：发出声音一侧的麦克风，如靠近通话用户的嘴这一侧的麦克风或者其它通话对象(如通话机器人)发出声音的一侧的麦克风；第二麦克风包括：接收周边环境噪声的麦克风，如靠近通话用户的耳朵一侧的麦克风或者其它通话对象(如通话机器)远离发音一侧的麦克风。如图1中所示，第一麦克风为图1中的麦克风0，第二麦克风为图1中的麦克风1。

另外，上述第一麦克风和第二麦克风可理解为通话麦克风，本发明实施例中对麦克风中包含的模块不做具体限定，还可以是其它通话模块，例如，对于耳机而言，第一麦克风可理解为耳机线路上的通话模块(如耳机线路上设置的一个通话孔或者通话按键)，第二麦克风可理解为接收环境声音模块(如耳机上设置的可放置在两耳中的麦克风模块)。当然，对于不同的语音产品，第一麦克风和第二麦克风可根据实际情况自行设置和调整，在此不再一一赘述。

而在获取语音输入信号中第一麦克风的时域信号零和第二麦克风的时域信号一时，以两个麦克风为例，可分别获取第一麦克风和第二麦克风的时域信号。在本发明实施例中，可对第一麦克风的时域信号零命名为x₀(t)；可对第二麦克风的时域信号一命名为x₁(t)。

本发明实施例中的时域信号可以理解为连续的时序信号，直接按照固定分帧可计算得到频谱信号。

在得到时域信号零和时域信号一后，对时域信号零进行分帧处理得到频域信号零，具体地，在对时域信号零按照固定时长进行分帧后，可通过快速傅氏变换FFT或者WOLA滤波器组等方式计算得到频域信号零；同样的，可按照固定时长对时域信号一进行分帧处理得到频域信号一，具体地，在对时域信号一按照固定时长进行分帧后，可通过快速傅氏变换FFT或者WOLA滤波器组等方式计算得到频域信号一。在本发明实施例中，可先对各帧中的每个频带(如第m帧第n帧)，频域信号一可简单记为h₀(m，n)，频域信号一可简单记为h₁(m，n)。

在本发明实施例中，每个频域信号可包含多个时频单元，频域信号中可能包含多帧语音信号，每帧语音信号可对应有多个频带的频率信号，每个时频单元对应一帧频域信号的一个频带。

本发明实施例中，在进行时频补偿时，针对第二麦克风的频域信号一h₁(m，n)中的时频单元，对每个频带确定时频补偿参数，该时频补偿参数可记为g₁(n)。补偿后得到新的时频单元，该新的时频单元可简单记为h′₁(m，n)，h′₁(m，n)＝h₁(m，n)*g₁(n)。通过该新的时频单元可以实现时频补偿。

在得到新的时频单元后，可以通过各个频带的语音特征信息(包括IID和ITD)和语音分类结果(可利用VAD判断该频带所属的语音帧是语音或者噪声)来对时频补偿参数进行更新。

步骤S206，计算经过时频补偿的多个语音特征信息，并对语音输入信号进行分类得到语音分类结果。

可先对各帧中的每个频带(如第m帧第n帧)的语音特征信息进行计算，在本发明实施例中，语音特征信息包括多个，本发明实施例中以双通道时间差ITD和双通道能量差IID进行示意性说明。可选的，计算经过时频补偿的多个语音特征信息的步骤，包括：计算经过时频补偿的双通道时间差ITD和双通道能量差IID；将双通道时间差ITD和双通道能量差IID确定为语音输入信号的多个语音特征信息。在本发明实施例中，可简单将双通道时间差ITD记为ITD(m，n)，将双通道能量差IID记为IID(m，n)。

在计算经过时频补偿的多个语音特征信息时，可对语音输入信号进行分类得到语音分类结果，可选的，对语音输入信号进行分类得到语音分类结果包括：判断频域信号零的目标帧是否为噪声信号；在频域信号零的目标帧为噪声信号时，确定语音分类结果为噪声信号；或者，在频域信号零的目标帧不是噪声信号时，确定语音分类结果为语音信号。

针对各帧的语音分类结果，对时频补偿参数进行更新。可选的，在确定语音分类结果为噪声信号之后，方法还包括：基于频域信号零和频域信号一的信号差值更新时频补偿参数一，例如，如果第m帧为噪声，进行时频补偿参数g₁(n)的更新，则新的时频补偿参数记为：g′₁(n)＝g₁(n)+Δ(n)，Δ(n)的值与(h₀(m，n)-h₁(m，n))正相关。

通过上述步骤可以完成对语音输入信号的时频补偿和时频补偿参数的更新，在完成时频补偿后，可以基于时频补偿、语音特征信息和语音分类结果，自适应生成语音掩蔽值。

可选的，根据多个语音特征信息和语音分类结果，确定语音掩蔽值的步骤，包括：根据多个语音特征信息和预设掩蔽门限值，得到第一掩蔽值；在得到频域信号零和频域信号一后，采用分频带谱减法得到第二掩蔽值；基于语音分类结果，确定第三掩蔽值；在确定语音分类结果为噪声信号时，则确定语音掩蔽值为第三掩蔽值；在确定语音分类结果为语音信号时，则比较第一掩蔽值和第二掩蔽值，并基于比较结果确定语音掩蔽值。

在生成掩蔽值，以第一麦克风进行示例说明，对第一麦克风的语音输入信号生成语音掩蔽值，本发明实施例根据不同情况，可生成三种掩蔽值。第一种，可以根据第m帧第n个频带的双通道能量差IID(m，n)和将双通道时间差ITD(m，n)，按照预设掩蔽门限值得到初始掩蔽值，该第一掩蔽值可记为G₁(m，n)。第二种，可利用稳态噪声降噪方式，采用分频带谱减法得到第二掩蔽值，该第二掩蔽值可记为G₂(m，n)；然后可利用VAD得到的语音分类结果取不同的掩蔽值，确定第三掩蔽值，该第三掩蔽值可记为G₃(m，n)。

在得到上述三种掩蔽值，可以基于综合判断结果，选取一个掩蔽值作为最优的掩蔽值，该最优掩蔽值可记为G(m，n)；在确定语音分类结果为噪声信号时，可直接确定语音掩蔽值G(m，n)为第三掩蔽值G₃(m，n)；在确定语音分类结果为语音信号时，需要比较第一掩蔽值G₁(m，n)和第二掩蔽值G₂(m，n)，并基于比较结果(可以是选取第一掩蔽值和第二掩蔽值中数值最小的数值作为G(m，n))确定语音掩蔽值。

通过上述实施方式，可以联合语音特征信号(IID、ITD)、语音分类结果(利用VAD得到)以及稳态噪声估计，判决各时频单元上的掩蔽值，得到最终的语音掩蔽值，从而解决了单独的语音特征稳定性不足的问题，提升增强系统的鲁棒性，在得到语音掩蔽值后，可以得到最后的语音输出信号。

步骤S210，基于语音掩蔽值，确定语音输出信号。

可选的，基于语音掩蔽值，确定语音输出信号的步骤，包括：对语音掩蔽值进行平滑处理；基于平滑处理后的语音掩蔽值和经过分帧处理后得到的频域信号零，重建语音信号；将重建后的语音信号确定为语音输出信号。

通过该方式，可采用时频补偿自适应方式(即根据声音激活检测VAD的结果(语音分类结果)对麦克风的时频单元逐帧进行自适应补偿)，同时综合判决各个时频单元的语音掩蔽值(即可根据各个时频单元的双通道能量差IID、双通道时间差ITD、语音分类结果、稳态噪声估计综合判断)，得到与语音输入信号适应的语音掩蔽值，对于麦克风灵敏度的不一致和安装位置导致的声学结构对频谱的影响有很强的适应性，同时对于不同类型、不同方向的噪声都能很快进入到稳定的抑制状态，解决单一特征判决的鲁棒性问题，在声源变化、环境变化等各种条件下保持稳定增强的效果，实际使用中能很好的保留目标说话人声音，抑制周边环境噪声，可解决由于两个麦克风特性的不同以及声学结构差异造成余留很大的噪声或者对目标对象的声音有损伤，导致通话效果很差的问题。

该通话设备包括但不限于：固定电话、网络电话、移动终端等。

图3是根据本发明实施例的另一种可选的语音增强方式的示意图，如图3所示，该语音增强方式采用：时频分解、时频补偿、IID和ITD计算、语音激活检测、稳态噪声估计、初步生成掩蔽值、最后生成掩蔽值、掩蔽值平滑、语音信号重建等来得到最终的语音输出信号。

可选的，上述时频分解可以理解为对麦克0(对应上述第一麦克风)和麦克1(对应上述第二麦克风)的时域信号按时长进行分帧。该时频分解包括两个模块：时频分解1和时频分解2，时频分解1可对麦克1的语音输入信号中的时域信号按照时长进行分帧处理，然后通过FFT或者WOLA滤波器组计算得到频域信号；时频分解2可对麦克0的语音输入信号中的时域信号按照时长进行分帧吹，然后通过FFT计算或者WOLA滤波器组得到频域信号。

上述图3所示的时频补偿，可以是指针对每个时频单元中的各帧语音信号中的各个频带确定时频补偿参数。

具体时频补偿方法包括：

11，麦克0的时域信号x₀(t)按时长分帧后通过快速傅氏变换FFT计算或者WOLA滤波器组得到频域信号。在第m帧第n个频带的频率信号为一个时频单元，记为h₀(m，n)。

12，麦克1的时域信号x₁(t)按时长分帧后通过FFT计算或者WOLA滤波器组得到频域信号h₁(m，n)。

13，麦克1的时频单元h₁(m，n)在第n个频带的时频补偿参数为g₁(n)，补偿后得到新的时频单元，h′₁(m，n)＝h₁(m，n)*g₁(n)。

14，计算第m帧第n个频带的IID(m，n)和ITD(m，n)。

15，进行语音激活检测(VAD)，判断第m帧是语音或者噪声。

16，如果第m帧为噪声，进行时频补偿参数g₁(n)的更新。新的时频补偿参数为：

g′₁(n)＝g₁(n)+Δ(n)，Δ(n)的值与(h₀(m，n)-h₁(m，n))正相关。

通过该种方式，可以采取时频补偿自适应算法，解决由于两个麦克风特性的不同以及声学结构差异造成增强效果不稳定或下降的问题，解决麦克风特性差异、声学结构差异以及不同方向的噪声源对系统产生的不稳定性和增强性能下降的问题。

上述语音激活检测VAD，可以是指对语音输入信号的各帧信号进行简单的语音和噪声判断，确定每帧语音输入信号是语音信号还是噪声信号。

在进行语音激活检测VAD后、可基于IID和ITD计算、语音激活检测VAD、稳态噪声降噪这三种结果，综合生成最后的掩蔽值。

具体生成掩蔽值的方法包括：

21，根据IID(m，n)和ITD(m，n)的值按掩蔽值门限得到第一掩蔽值G₁(m，n)；

22，稳态噪声降噪采用分频带谱减法，得到第二掩蔽值G₂(m，n)；

23，语音激活检测(VAD)在判断第m帧为语音和噪声时取不同的掩蔽值，记为第三掩蔽值G₃(m，n)；

24，最后的掩蔽值为G(m，n)，当VAD判断第m帧为噪声时，G(m，n)等于G₃(m，n)；

25，当VAD判断第m帧为语音时，G(m，n)等于G₁(m，n)和G₂(m，n)之间的较小值。

通过该种方式，可以联合IID、ITD、VAD以及稳态噪声估计，判决各时频单元上的掩蔽值，从而解决了单独的IID、ITD特征稳定性不足的问题，提升增强系统的鲁棒性。

通过上述语音增强方式，可以在检测到目标说话人静音时进行参数更新，通过IID、ITD等语音特征值的计算，初步生成掩蔽值，最后再综合语音激活检测VAD(或者语音分类)以及稳态噪声降噪的结果得到最后的掩蔽值。将平滑后的掩蔽值作用到第一麦克风的时频分解上得到重建后的声音信号，对于不同类型、不同方向的噪声都能很快进入到稳定的抑制状态，在声源变化、环境变化等各种条件下保持稳定增强的效果。

实施例二

下面对本发明实施例中的语音增强系统进行详细说明。

图4是根据本发明实施例的一种可选的语音增强系统的示意图，如图4所示，该语音增强系统可以包括：

时频补偿单元41，用于对语音输入信号进行时频补偿；

特征处理单元43，与时频补偿单元连接，用于计算经过时频补偿的多个语音特征信息；

语音激活检测单元45，与特征处理单元连接，用于检测语音输入信号的类型，得到语音分类结果，其中，语音分类结果包括：语音信号和噪声信号；

掩蔽计算单元47，用于根据多个语音特征信息和语音分类结果，确定语音掩蔽值；

语音信号重建单元49，用于基于语音掩蔽值，确定语音输出信号。

上述语音增强系统，可以通过时频补偿单元41对语音输入信号进行时频补偿，并利用特征处理单元43计算经过时频补偿的多个语音特征信息(如IID和ITD)，然后可利用语音激活检测单元45对每帧语音输入信号进行分类，确定每帧语音输入信号是语音信号还是噪声信号，然后利用掩蔽计算单元47综合多个语音特征信息、语音分类结果确定语音掩蔽值，最后可以利用语音信号重建单元49基于语音掩蔽值，确定语音输出信号。在该实施例中，可以实现时频自适应补偿，综合语音特征信息和语音分类，自适应生成掩蔽值，不同于现有技术中使用的固定掩蔽值，本发明实施例中的语音掩蔽值可对于不同类型、不同方向的噪声都能很快进入到稳定的抑制状态，能很好的保留目标说话人声音，抑制周边环境噪声，从而解决相关技术中的语音增强方式采用固定掩蔽值，会余留很大的噪声或者对目标对象的声音有损伤，导致通话效果很差的技术问题。

另一种可选的，时频补偿单元41包括：第一时频分解单元，用于获取语音输入信号中第二麦克风的时域信号一，并对时域信号一按照时长进行分帧处理得到频域信号一，其中，频域信号一包含有多个时频单元，每个时频单元对应一帧频域信号的一个频带；第二时频分解单元，用于获取语音输入信号中第一麦克风的时域信号零，并对时域信号零按照时长进行分帧处理得到频域信号零，其中，频域信号零包含有多个时频单元，每个时频单元对应一帧频域信号的一个频带。

在本发明实施例中，时频补偿单元包括：第一确定模块，用于确定与频域信号一中的每个时频单元对应的时频补偿参数一；补偿模块，用于根据时频补偿参数一对频域信号一中的各个时频单元进行时频补偿。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取语音输入信号；对语音输入信号进行时频补偿；计算经过时频补偿的多个语音特征信息,并对语音输入信号进行分类得到语音分类结果；根据多个语音特征信息和语音分类结果，确定语音掩蔽值；基于语音掩蔽值，确定语音输出信号。

可选的，上述处理器执行程序时，还可以实现以下步骤：分别获取语音输入信号中第一麦克风的时域信号零和第二麦克风的时域信号一；对时域信号零进行分帧处理得到频域信号零，和，对时域信号一进行分帧处理得到频域信号一，其中，频域信号零和频域信号一包含有多个时频单元，每个时频单元对应一帧频域信号的一个频带；确定与频域信号一中的每个时频单元对应的时频补偿参数一；基于时频补偿参数一对频域信号一中的各个时频单元进行时频补偿。

可选的，上述处理器执行程序时，还可以实现以下步骤：计算经过时频补偿的双通道时间差ITD和双通道能量差IID；将双通道时间差ITD和双通道能量差IID确定为语音输入信号的多个语音特征信息。

可选的，上述处理器执行程序时，还可以实现以下步骤：在计算经过时频补偿的多个语音特征信息之后，判断频域信号零的目标帧是否为噪声信号；在频域信号零的目标帧为噪声信号时，确定语音分类结果为噪声信号；或者，在频域信号零的目标帧不是噪声信号时，确定语音分类结果为语音信号。

可选的，上述处理器执行程序时，还可以实现以下步骤：在确定语音分类结果为噪声信号之后，基于频域信号零和频域信号一的信号差值更新时频补偿参数一。

可选的，上述处理器执行程序时，还可以实现以下步骤：根据多个语音特征信息和预设掩蔽门限值，得到第一掩蔽值；在得到频域信号零和频域信号一后，采用分频带谱减法得到第二掩蔽值；基于语音分类结果，确定第三掩蔽值；在确定语音分类结果为噪声信号时，则确定语音掩蔽值为第三掩蔽值；在确定语音分类结果为语音信号时，则比较第一掩蔽值和第二掩蔽值，并基于比较结果确定语音掩蔽值。

可选的，上述处理器执行程序时，还可以实现以下步骤：对语音掩蔽值进行平滑处理；基于平滑处理后的语音掩蔽值和经过分帧处理后得到的频域信号零，重建语音信号；将重建后的语音信号确定为语音输出信号。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取语音输入信号；对语音输入信号进行时频补偿；计算经过时频补偿的多个语音特征信息,并对语音输入信号进行分类得到语音分类结果；根据多个语音特征信息和语音分类结果，确定语音掩蔽值；基于语音掩蔽值，确定语音输出信号。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音增强方法，其特征在于，包括：

获取语音输入信号；

对所述语音输入信号进行时频补偿；

计算经过时频补偿的多个语音特征信息,并对所述语音输入信号进行分类得到语音分类结果；

根据所述多个语音特征信息和语音分类结果，确定语音掩蔽值；

根据所述多个语音特征信息和语音分类结果，确定语音掩蔽值的步骤，包括根据所述多个语音特征信息和预设掩蔽门限值，得到第一掩蔽值；在得到频域信号零和频域信号一后，采用分频带谱减法得到第二掩蔽值；基于所述语音分类结果，确定第三掩蔽值；在确定所述语音分类结果为噪声信号时，则确定语音掩蔽值为第三掩蔽值；在确定所述语音分类结果为语音信号时，则比较所述第一掩蔽值和第二掩蔽值，并基于比较结果确定语音掩蔽值；

基于所述语音掩蔽值，确定语音输出信号；

对所述语音输入信号进行时频补偿的步骤，包括：分别获取所述语音输入信号中第一麦克风的时域信号零和第二麦克风的时域信号一；对所述时域信号零进行分帧处理得到频域信号零，和，对所述时域信号一进行分帧处理得到频域信号一，其中，所述频域信号零和所述频域信号一包含有多个时频单元，每个所述时频单元对应一帧频域信号的一个频带；确定与所述频域信号一中的每个时频单元对应的时频补偿参数一；基于所述时频补偿参数一对所述频域信号一中的各个所述时频单元进行时频补偿。

2.根据权利要求1所述的方法，其特征在于，计算经过时频补偿的多个语音特征信息的步骤，包括：

计算经过时频补偿的双通道时间差ITD和双通道能量差IID；

将所述双通道时间差ITD和所述双通道能量差IID确定为所述语音输入信号的多个语音特征信息。

3.根据权利要求1所述的方法，其特征在于，在计算经过时频补偿的多个语音特征信息之后，所述方法还包括：

判断所述频域信号零的目标帧是否为噪声信号；

在所述频域信号零的目标帧为噪声信号时，确定语音分类结果为噪声信号；或者，

在所述频域信号零的目标帧不是噪声信号时，确定语音分类结果为语音信号。

4.根据权利要求3所述的方法，其特征在于，在确定语音分类结果为噪声信号之后，所述方法还包括：基于所述频域信号零和所述频域信号一的信号差值更新所述时频补偿参数一。

5.根据权利要求1所述的方法，其特征在于，基于所述语音掩蔽值，确定语音输出信号的步骤，包括：

对所述语音掩蔽值进行平滑处理；

基于平滑处理后的所述语音掩蔽值和经过分帧处理后得到的所述频域信号零，重建语音信号；

将重建后的语音信号确定为所述语音输出信号。

6.一种语音增强系统，其特征在于，包括：

时频补偿单元，用于对语音输入信号进行时频补偿；

特征处理单元，与所述时频补偿单元连接，用于计算经过时频补偿的多个语音特征信息；

语音激活检测单元，与所述特征处理单元连接，用于检测语音输入信号的类型，得到语音分类结果，其中，所述语音分类结果包括：语音信号和噪声信号；

掩蔽计算单元，用于根据所述多个语音特征信息和语音分类结果，确定语音掩蔽值，包括：根据所述多个语音特征信息和预设掩蔽门限值，得到第一掩蔽值；在得到频域信号零和频域信号一后，采用分频带谱减法得到第二掩蔽值；基于所述语音分类结果，确定第三掩蔽值；在确定所述语音分类结果为噪声信号时，则确定语音掩蔽值为第三掩蔽值；在确定所述语音分类结果为语音信号时，则比较所述第一掩蔽值和第二掩蔽值，并基于比较结果确定语音掩蔽值；

语音信号重建单元，用于基于所述语音掩蔽值，确定语音输出信号；

所述时频补偿单元包括：第一时频分解单元，用于获取所述语音输入信号中第二麦克风的时域信号一，并对所述时域信号一按照时长进行分帧处理得到频域信号一，其中，所述频域信号一包含有多个时频单元，每个所述时频单元对应一帧频域信号的一个频带；第二时频分解单元，用于获取所述语音输入信号中第一麦克风的时域信号零，并对所述时域信号零按照时长进行分帧处理得到频域信号零，其中，所述频域信号零包含有多个时频单元，每个所述时频单元对应一帧频域信号的一个频带；

所述时频补偿单元包括：第一确定模块，用于确定与所述频域信号一中的每个时频单元对应的时频补偿参数一；补偿模块，用于根据所述时频补偿参数一对所述频域信号一中的各个所述时频单元进行时频补偿。

7.一种通话设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至5中任意一项所述的语音增强方法。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的语音增强方法。