CN108899041A

CN108899041A - 语音信号加噪方法、装置及存储介质

Info

Publication number: CN108899041A
Application number: CN201810948033.7A
Authority: CN
Inventors: 李超; 朱唯鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2018-11-27
Anticipated expiration: 2038-08-20
Also published as: CN108899041B

Abstract

本发明实施例提出一种语音信号加噪方法、装置及计算机可读存储介质。其中语音信号加噪方法包括：读取语音信号和噪声信号；产生符合特定分布特性的信噪比；根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。本发明实施例改进了加噪控制参数，使加噪方式更加合理，从而使噪声抑制的效果更好，语音识别的性能大大提高。

Description

语音信号加噪方法、装置及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种语音信号加噪方法、装置及计算机可读存储介质。

背景技术

语音交互中很重要的一个应用场景就是高噪声情况下的语音识别。在安静情况下，语音识别的准确率已经可以达到97％以上。但是高噪声情况下，人类的听觉系统可以分辨出嘈杂环境中的感兴趣的声音，这个现象叫做“鸡尾酒会效应”。鸡尾酒会效应就是在嘈杂的鸡尾酒会上，还是能够听到感兴趣的目标说话人的声音。

“鸡尾酒会效应”在技术上通常被描述为盲源分离问题，也就是在没有参考信号的情况下，把感兴趣的“前景音”从嘈杂的“背景音”中分离出来。

盲源分离算法的应用场景通常在下面几个方面：

(1)可以将目标说话人的语音从一段多人同时说话的音频中提取出来。例如，客厅里电视正在播放新闻联播，用户想和茶几上智能音箱进行交互。音箱同时接收到了用户的语音请求和新闻联播中主持人的播报。也就是说，同一时刻，两个人在说话，这时需要将用户的语音提取出来。

(2)可以将语音从背景噪声中分离出来。例如，车载环境下的语音识别就属于这种场景。开车的时候，车载信息娱乐产品或者手机的麦克风会接收到各种噪声，如风噪、路噪，鸣笛等，盲源分离算法可以抑制这些环境噪声，只把语音增强取出，送到语音识别系统中。

上面举的例子都是比较理想的情况。盲源分离本身是个回归模型，如果模型性能不理想，就会出现badcase(坏案例)。典型的坏案例有：噪声没有消除干净，语音被损伤了。这个情况最为普遍，也就是在某些时频点，噪声被保留了下来；而在另一些时频点，语音却被消除了。

因此，盲源分离最核心的两个能力是：噪声抑制和不损伤语音。一个好的盲源分离系统，应该能够在尽量少地损伤语音的情况下，把背景噪声抑制到最强程度。

分析了盲源分离算法的上述坏案例可以发现，其中最核心的问题是如何加噪声。当前主要的加噪方式是随机出一个snr(Signal to Noise Ratio，信噪比)，按照信噪比计算语音和噪声的能量，然后按照一定的系数加噪。上述加噪的方式比较粗糙。这里有个假设，就是语音文件全部是语音，而噪声文件全部是噪声。待加噪的语音本身可能来自嘈杂的录音环境，它本身就是带噪声的。因此，如果整个语音文件样本不加区分地一起参与计算显然会产生偏差。

发明内容

本发明实施例提供一种语音信号加噪方法、装置及计算机可读存储介质，以至少解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种语音信号加噪方法，包括：读取语音信号和噪声信号；产生符合特定分布特性的信噪比；根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，根据语音信号的语音活动检测信息和所述信噪比计算加噪控制参数，包括采用以下公式计算加噪控制参数：

其中，a表示加噪控制参数；表示语音信号采样值中有声段y的方差；表示语音信号采样值中无声段v的方差；σ_n表示噪声信号采样值n的标准差；snr表示信噪比；sqrt表示取平方根。

结合第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，根据计算出的所述加噪控制参数和所述噪声信号对语音信号进行加噪处理，包括采用以下公式对语音信号进行加噪处理：

X＝s+a*n

其中，s表示待进行加噪处理的语音信号采样值；X表示加噪处理后的语音信号采样值；n表示噪声信号采样值。

结合第一方面、第一方面的第一种实现方式或第一方面的第二种实现方式，本发明实施例在第一方面的第三种实现方式中，所述特定分布包括高斯分布。

第二方面，本发明实施例提供了一种语音信号加噪装置，包括：信号读取单元，用于读取语音信号和噪声信号；信噪比产生单元，用于产生符合特定分布特性的信噪比；参数计算单元，用于根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；加噪处理单元，用于根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，所述参数计算单元还用于采用以下公式计算加噪控制参数：

结合第二方面的第一种实现方式，本发明实施例在第二方面的第二种实现方式中，所述加噪处理单元还用于采用以下公式对语音信号进行加噪处理：

X＝s+a*n

结合第二方面、第二方面的第一种实现方式或第二方面的第二种实现方式，本发明实施例在第二方面的第三种实现方式中，所述特定分布包括高斯分布。

在一个可能的设计中，语音信号加噪装置的结构中包括处理器和存储器，所述存储器用于存储支持语音信号加噪装置执行上述第一方面中语音信号加噪方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述语音信号加噪装置还可以包括通信接口，用于语音信号加噪装置与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种语音信号加噪装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一所述的方法。

上述技术方案具有如下优点或有益效果：改进了加噪控制参数，使加噪方式更加合理，从而使噪声抑制的效果更好，语音识别的性能大大提高。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明一实施例提供的语音信号加噪方法的系统流程图。

图2为本发明一实施例提供的语音信号加噪方法中的语音信号的语谱图。

图3为本发明一实施例提供的语音信号加噪方法中的语音信号的二值VAD标签的示意图。

图4为本发明另一实施例提供的语音信号加噪方法中的语音信号的有声段和无声段的示意图。

图5为本发明一实施例提供的语音信号加噪装置的结构框图。

图6为本发明又一实施例提供的语音信号加噪装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

在传统的加噪方法中，加噪声需要同时读取三个数据：语音信号、噪声信号和加噪控制参数。

将包括语音信号和噪声信号的声音信号进行模数转换，转换成的数字声音信号的数据类型可包括float型(浮点型)或int型(integer，整数类型)。其中，float型的取值范围在-1到1之间；16位量化的int型的取值范围在-32767到32767之间。

加噪控制参数可服从某种特定的信噪比的分布特性，将服从某种特定的分布特性的信噪比作为目标信噪比。有了目标信噪比以后，可根据目标信噪比计算加噪控制参数，加噪控制参数也就是将语音信号和噪声信号混合的系数。其中，信噪比即设备的输出信号的功率与同时输出的噪声功率的比值，常常用分贝数表示。设备的信噪比越高表明它产生的杂音越少。一般来说，信噪比越大，说明混在信号里的噪声越小，声音回放的音质量越高，否则相反。

假设加噪处理后的语音信号采样值为X，则采用以下公式对语音信号进行加噪处理：

X＝s+a*n

其中，s表示待进行加噪处理的语音信号采样值(speech)；n表示噪声信号采样值(noise)；a表示加噪控制参数，也就是noise的增益。

满足当前信噪比的加噪控制参数可根据以下公式计算得出：

其中，a表示加噪控制参数；σ_s表示语音信号采样值s的标准差；σ_n表示噪声信号采样值n的标准差；snr表示信噪比。

针对每一句话的语音信号可以随机产生一个信噪比，用来计算这句话的语音信号对应的加噪控制参数a，其中的信噪比可服从高斯分布的分布特性。

从上述公式中可以看到，公式中没有区分语音文件中的有声段和无声段。举个例子：可参见图2所示的语音信号的语谱图。语谱图是语音频谱图，一般是通过处理接收的时域信号得到频谱图。换而言之，语谱图是针对语音数据的频谱分析视图。语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色越深表示该点的语音能量越强，可以用语谱图来表现语音信号的特征。

图3是与图2相对应的语音信号的二值VAD(Voice Activity Detection,语音活动检测)标签图示。语音活动检测又称语音端点检测、语音边界检测或静音抑制。语音活动检测的目的是从声音信号流里识别和消除长时间的静音期，可以达到在不降低业务质量的情况下节省话路资源的作用。如图3所示，二值VAD标签的数据用纵坐标的取值为1和取值为0表示，图像的中间有语音的部分用1表示，图像的两侧没有语音的部分用0表示。

由于待加噪处理的语音信号本身可能来自嘈杂的录音环境，也就是说，它本身就是带噪声的。因此，如果用整个文件一起计算标准差σ，显然会拉低语音信号的功率，使计算结果产生偏差。

有鉴于此，本发明实施例提供了一种更精确的加噪声方法，使用语音活动检测信息来更加精确地进行加噪处理。

图1为本发明一实施例提供的语音信号加噪方法的系统流程图。如图1所示，本发明实施例的语音信号加噪方法包括：步骤S110，读取语音信号和噪声信号；步骤S120，产生符合特定分布特性的信噪比；步骤S130，根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；步骤S140，根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。

在一种可能的实施方式中，根据语音信号的语音活动检测信息和所述信噪比计算加噪控制参数，包括采用以下公式(1)计算加噪控制参数：

其中，a表示加噪控制参数；σ表示标准差；σ²表示语音信号采样值的方差，也就是语音信号的功率；n表示噪音文件；y表示语音文件中的语音片段；v表示语音文件中的噪声部分；表示语音信号采样值中有声段y的方差；表示语音信号采样值中无声段v的方差；σ_n表示噪声信号采样值n的标准差；snr表示信噪比；sqrt表示取平方根。

也就是说，可以表示有声段的功率，而可以表示无声段的功率。图4为本发明另一实施例提供的语音信号加噪方法中的语音信号的有声段和无声段的示意图。图4所示的矩形框区域分别对应于图2和图3所示的语音信号的有声段和无声段。

在公式(1)中，和的计算公式为：

其中，s表示语音信号的采样值，i表示采样的时间刻度，L表示语音信号总的时间长度。上述两个公式中的分母分别表示有声段和无声段语音信号中采样样本的计数值，也就是采样样本的总个数。

在一种可能的实施方式中，根据计算出的所述加噪控制参数和所述噪声信号对语音信号进行加噪处理，包括采用以下公式对语音信号进行加噪处理：

X＝s+a*n

在一种可能的实施方式中，所述特定分布包括高斯分布。高斯分布又名正态分布，也称常态分布，是连续随机变量概率分布的一种。自然界中大量现象均按正态形式分布，例如能力的高低等都属于正态分布。随机产生符合高斯分布特性的信噪比，会使计算的数据更加真实，接近实际情况。

上述技术方案在音频处理的应用场景中具有普遍推广性，可应用于各类智能音箱、智能电视、智能冰箱等商业产品中，还可应用于对话式人工智能系统中。

图5为本发明一实施例提供的语音信号加噪装置的结构框图。如图5所示，本发明实施例的语音信号加噪装置包括：信号读取单元100，用于读取语音信号和噪声信号；信噪比产生单元200，用于产生符合特定分布特性的信噪比；参数计算单元300，用于根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；加噪处理单元400，用于根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。

在一种可能的实施方式中，所述参数计算单元300还用于采用以下公式计算加噪控制参数：

在一种可能的实施方式中，所述加噪处理单元400还用于采用以下公式对语音信号进行加噪处理：

X＝s+a*n

在一种可能的实施方式中，所述特定分布包括高斯分布。

本发明实施例的语音信号加噪装置中各单元的功能可以参见上述方法的相关描述，在此不再赘述。

在一个可能的设计中，语音信号加噪装置的结构中包括处理器和存储器，所述存储器用于存储支持语音信号加噪装置执行上述语音信号加噪方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述语音信号加噪装置还可以包括通信接口，用于语音信号加噪装置与其他设备或通信网络通信。

图6为本发明又一实施例提供的语音信号加噪装置的结构框图。如图6所示，该装置包括：存储器101和处理器102，存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的语音信号加噪方法。所述存储器101和处理器102的数量可以为一个或多个。

该装置还包括：

通信接口103，用于与外界设备进行通信，进行数据交互传输。

存储器101可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器101、处理器102和通信接口103独立实现，则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器101、处理器102及通信接口103集成在一块芯片上，则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。

又一方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述语音信号加噪方法中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音信号加噪方法，其特征在于，包括：

读取语音信号和噪声信号；

产生符合特定分布特性的信噪比；

根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；

根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。

2.根据权利要求1所述的方法，其特征在于，根据语音信号的语音活动检测信息和所述信噪比计算加噪控制参数，包括采用以下公式计算加噪控制参数：

3.根据权利要求2所述的方法，其特征在于，根据计算出的所述加噪控制参数和所述噪声信号对语音信号进行加噪处理，包括采用以下公式对语音信号进行加噪处理：

X＝s+a*n

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述特定分布包括高斯分布。

5.一种语音信号加噪装置，其特征在于，包括：

信号读取单元，用于读取语音信号和噪声信号；

信噪比产生单元，用于产生符合特定分布特性的信噪比；

参数计算单元，用于根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数；

加噪处理单元，用于根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。

6.根据权利要求5所述的装置，其特征在于，所述参数计算单元还用于采用以下公式计算加噪控制参数：

7.根据权利要求6所述的装置，其特征在于，所述加噪处理单元还用于采用以下公式对语音信号进行加噪处理：

X＝s+a*n

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述特定分布包括高斯分布。

9.一种语音信号加噪装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。