CN107293305A

CN107293305A - 一种基于盲源分离算法改善录音质量的方法及其装置

Info

Publication number: CN107293305A
Application number: CN201710475477.9A
Authority: CN
Inventors: 陈琼
Original assignee: Huizhou TCL Mobile Communication Co Ltd
Current assignee: Huizhou TCL Mobile Communication Co Ltd
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2017-10-24

Abstract

本发明公开了一种基于盲源分离算法改善录音质量的方法及其装置，其方法包括：将若干个麦克风分别采集的外部语音信号进行模数转换，获得若干路数字语音信号；根据盲源分离算法对每路数字语音信号分离出背景噪声和基准音频信号，并过滤背景噪声；对每路基准音频信号进行混合后打包存储。由于盲源分离算法对麦克风的性能和结构设计的要求非常低，且不需要多个辅助麦克风来采集多个环境声音信号以满足算法的解析的要求，因此鲁棒性非常好。从而解决了现有录音方式对麦克风的位置布局要求较高、鲁棒性较差的问题。

Description

一种基于盲源分离算法改善录音质量的方法及其装置

技术领域

本发明涉及音频技术领域，特别涉及一种基于盲源分离算法改善录音质量的方法及其装置。

背景技术

随着手持设备的快速普及，用户对于手持设备的功能以及智能化的要求越来越高。怎样使手持设备更加智能化，功能更加专业化和多样化，更加高效的使用于日常生活中，已经成为当务之急所要解决的问题。基本上所有的手持设备都标配有录音的功能，但是录音的质量以及录音的方法都大同小异，质量无法得到保障，功能单调导致此功能相对于其他专用的录音设备来说完全成了鸡肋。

目前MEMS（微型机电系统）麦克风越来越多的使用于手持设备，鉴于其更高的电气性能，以及更高的音频性能，提升了录音质量。通过使用两个全指向性麦克风并对它们的位置进行设计的同时，利用音频协处理器对采集进入的环境噪音进行计算分析，消除不需要的环境噪音，即可进一步提升录音质量。

虽然该方法已开始普遍使用，但是当噪音音量和噪音变大的情况下，内置的两个EMC（电容性兼容性认证，此类麦克风在工作的时候不会对其他设备造成电磁干扰）麦克风或MEMS麦克风的信号质量也会随之下降。目前的解决方案大部分是通过beam forming 算法来实现，对设置的角度范围内的声音进行声音信号的增强，将不在该角度范围内的声音过滤掉。但由于噪音和回声是无方向性的，其也可能来自说话者的背景环境噪音，对beamforming算法来讲鲁棒性会差一些。并且，通常采用多麦克降噪，除了识音麦克以外的降噪麦克采集到的声音信号，也只能压制环境噪音而不能完全消除背景噪音。影响该算法性能的另外一个因素是麦克风的位置布局要求较高，麦克风开孔的方向和两个麦克风之间的距离都会严重影响性能，算法的鲁棒性差别很大。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种基于盲源分离算法改善录音质量的方法及其装置，以解决现有录音方式对麦克风的位置布局要求较高、鲁棒性较差的问题。

为了达到上述目的，本发明采取了以下技术方案：

一种基于盲源分离算法改善录音质量的方法，其包括：

A、将若干个麦克风分别采集的外部语音信号进行模数转换，获得若干路数字语音信号；

B、根据盲源分离算法对每路数字语音信号分离出背景噪声和基准音频信号，并过滤背景噪声；

C、对每路基准音频信号进行混合后打包存储。

所述的基于盲源分离算法改善录音质量的方法中，在所述步骤B中，以盲源分离算法中的基于峭度的渐进正交化不动点算法作为数字模型，该数字模型中存储了背景噪音的数据。

所述的基于盲源分离算法改善录音质量的方法中，所述步骤B具体包括：

B1、每路数字语音信号均与所述数字模型进行比对；

B2、将数字语音信号中与背景噪音的数据相同的数据识别为背景噪声，剩余的数据识别为基准音频信号；

B3、过滤背景噪声。

所述的基于盲源分离算法改善录音质量的方法中，所述数字语音信号为混合信号，由多段源信号组成；背景噪音的数据为参考信号；

在所述步骤B1中，所述比对是将每段源信号依次与参考信号进行对比。

所述的基于盲源分离算法改善录音质量的方法中，所述源信号是一个N维矢量形式，表示为：

，其中，T表示转置；

混合信号是一个M维矢量形式，表示为：

；

源信号与混合信号的关系为：；A表示n×m阶的混合矩阵，n、m、t为正整数。

所述的基于盲源分离算法改善录音质量的方法中，所述混合信号经过盲源分离算法处理后的基准音频信号为 y(t)，混合信号与基准音频信号的关系为y(t)=W^Tz(t)，W为分离矩阵，W=[w1，w2，w3，......，wn]。

所述的基于盲源分离算法改善录音质量的方法中，所述参考信号与分离信号一起构成互统计量，即为盲源分离算法的峭度，表达公式为：，V表示与分离矩阵W的值不同的分离矩阵；V=[v1，v2，v3，......，Vn]。

所述的基于盲源分离算法改善录音质量的方法中，所述渐进正交化不动点算法为:

将混合信号X（t）去均值，并单位化；

将分离矩阵W初始化，并单位化。

所述的基于盲源分离算法改善录音质量的方法中，所述步骤C具体包括：对每路基准音频信号先进行混音操作，再送入编码器中进行编码打包，最后送至文件系统中保存。

一种用于实现基于盲源分离算法改善录音质量的装置，其包括：

若干个麦克风，用于分别采集一路外部语音信号；

模数转换器，用于将各路外部语音信号进行模数转换，获得若干路数字语音信号；

音频数字信号处理器，用于根据盲源分离算法对每路数字语音信号分离出背景噪声和基准音频信号，并过滤背景噪声；

基带应用处理器，用于对每路基准音频信号进行混合后打包存储。

相较于现有技术，本发明提供的基于盲源分离算法改善录音质量的方法及其装置，将若干个麦克风分别采集的外部语音信号进行模数转换，获得若干路数字语音信号；根据盲源分离算法对每路数字语音信号分离出背景噪声和基准音频信号，并过滤背景噪声；对每路基准音频信号进行混合后打包存储。由于盲源分离算法对麦克风的性能和结构设计的要求非常低，且不需要多个辅助麦克风来采集多个环境声音信号以满足算法的解析的要求，因此鲁棒性非常好。从而解决了现有录音方式对麦克风的位置布局要求较高、鲁棒性较差的问题。

附图说明

图1为本发明提供的基于盲源分离算法改善录音质量的方法流程图。

图2为本发明提供的基于盲源分离算法改善录音质量的方法中盲源分离原理示意图。

图3为本发明提供的基于盲源分离算法改善录音质量的方法分离信号的对比图。

图4为本发明提供的用于实现基于盲源分离算法改善录音质量的装置的结构框图。

具体实施方式

本发明提供一种基于盲源分离算法改善录音质量的方法及其装置，适用于所有具有录音功能的终端设备。为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

基于目前的语音识别与降噪增强算法仅能识别和处理混有环境噪声的语音信号，而对于人声作为背景噪声的混叠语音信号则无法处理。本实施例采用的盲源分离算法（此处指多麦克风阵列的盲源分离算法）不受话音信号基音和谐波等声音特征的影响，在没有目标语音信号的先验信息条件下，利用麦克风阵列（即移动终端上设置的两个或两个以上的麦克风）来模仿人类的耳朵，将采集到的混叠话音信号进行分离，从而提取出所需的目标语音。

盲源分离算法起源于对“鸡尾酒会问题”（Cocktail-Party-Problem）的研究。即人耳可以在多人声嘈杂环境中专注于某个人的声音，从而提取出用户感兴趣的目标话音信息。然而，通过现代仪器很难模拟实现人耳的这一功能。如果没有任何假设条件和先验信息，仅由观测信号来确定源信号，从数学原理上讲是无法实现的。但是，在一个非常宽松的假设条件下，即假定源信号矢量的各个分量是彼此独立的，同时允许一定的模糊性存在（信号幅度的不确定性和信号分量顺序的不确定性），即可通过盲源分离算法模拟实现人耳的该功能。

请参阅图1，基于现有的盲源分离算法，本发明提供一种改善录音质量的方法，其包括：

S100、将若干个麦克风分别采集的外部语音信号进行模数转换，获得若干路数字语音信号；

S200、根据盲源分离算法对每路数字语音信号分离出背景噪声和基准音频信号，并过滤背景噪声；

S300、对每路基准音频信号进行混合后打包存储。

当用户启动终端设备的录音功能时，开始执行步骤S100。用户说话时，其声音频率与面部皮肤的振动频率一致，终端设备上的若干个麦克风（如声学麦克风）开始采集外部语音信号。所述外部语音信号包括人声以及噪音（回声，混响以及需要过滤的低频噪音）。若干个麦克风组成麦克风阵列，本实施例中麦克风为两个。每个麦克风单独采集一路外部语音信号，每一路外部语音信号均输入模数转换器进行模拟信号转数字信号的转换，从而获得对应路的数字语音信号。

在所述步骤S200中，采用盲源分离算法将每路数字语音信号中的背景噪声过滤，获得用户的基准音频信号。该盲源分离算法对麦克风的性能和结构设计的要求非常低，比如若干个麦克风之间的距离要求和开孔方向要求等。并且不需要多个辅助麦克风来采集多个环境声音信号以满足算法的解析的要求，因此鲁棒性非常好。不仅声音质量上比现阶段有更高的提升，给用户带来更加清晰而又自然的声音；并且与现在降噪后的声音对比，有着更加质的飞跃和提升。

本实施例中使用盲源分离算法中的基于峭度的渐进正交化不动点算法作为数字模型，该数字模型中存储了背景噪音的数据。在音频数字信号处理器中预先加载好该数字模型，每路数字语音信号均输入到音频数字信号处理器中，与数字模型进行比对，与背景噪音的数据相同则识别该数字语音信号为背景噪音，可滤除；数字语音信号中剩下的即是用户的基准音频信号。

现有的快速不动点算法是由Hyvärinen等人提出来的，该类算法有基于峭度最大、基于负熵最大、基于似然最大等形式。本实施例在快速不动点算法的基础上提供一种基于峭度最大的渐进正交化不动点算法来作为数字模型。峭度是衡量随机信号非高斯性的常用对比准则，通过不同类型的算法对其进行优化，找到非高斯性最大值点，即是源信号的提取或者分离。

基于每路数字语音信号都有时间域和空间域。数字语音信号在时间域和空间域组成的平面上表示为多个点（矢量点）。时间域（X轴）表示一个点的采样时间（对应录音采集的时间）。空间域（Y轴）表示某采样时间点对应的点的数据（最大的振幅）。这些数据涵盖的信息（信号的频率、强度）能得到声音的大致方向，位置，响度，背景，品质，远近，音调等大部分的混合特性。

盲源分离算法中将数字语音信号与数字模型进行比对，数字语音信号为混合信号，由多段源信号组成；对比过程具体是将每段源信号依次与参考信号（背景噪音的数据）进行对比（即将源信号送入对比函数中进行算法解析）；其比现有经典的机遇峭度的对比函数的收敛速度会更快，比基于参考信号的梯度算法更有效。

所述盲源分离算法如图2所示，源信号是n维的矢量形式，表示为：

。混合信号是m维的维矢量形式，表示为：，其受到噪声的影响。W是分离矩阵，W=[w1，w2，w3，......，wn]。A为混合矩阵，。y（t）是对源信号的估计。其中，n、m、t为正整数。

采用线性方程组来表示混合过程（不考虑噪声的影响）：

（1.1）

写成矩阵形式为：（1.2）

式1.2又可表示为：

（1.3）

则在线性瞬时混合情况下，盲源分离算法可表述为；在源信号S（t）未知，并且混合矩阵A也未知的情况下，仅根据所接收的混合信号X（t）对源信号S（t）或混合矩阵A进行估计。源信号的盲源分离算法也可以表述为：在源信号S（t）和混合矩阵A均未知的条件下，求一个n×m的混合矩阵W，使得W对混合信号X（t）的线性变换：

y(t)=WX(t) （1.4）

为对源信号S（t）的一个比较接近的估计。

将式（1.2）和式（1.4）合并可得：

y(t)=WX(t)

=WAS（t）

=CS（t）（1.5）

其中，C=WA为n×n阶的矩阵，称为混合-分离复合矩阵系统。只要使输出信号y(t)的各分量在统计上是相互独立的，就能做到信号的盲源分离。

本实施例中，y(t)为混合信号经过盲源分离算法处理后的分离信号（即基准音频信号），混合信号与分离信号的关系为y(t)=W^TX(t)。

参考信号与分离信号一起构成互统计量或者互累积量，即为本算法的峭度，表达公式为：。其中，z和V的关系跟等式 y(t)=W^Tz(t)类似，V与W的含义相同，表示不同值的分离矩阵；V=[v1，v2，v3，......，Vn]。只是参考信号不参与迭代运算中，其只随着每一次一维优化的完成而更新。

峭度在一定条件下采用4阶累计量来度量，其中的随机信号变量是实信号，对任意的联合平稳零均值的随机信号y(t)和z(t)，可用下面通用公式来表示：

，

则峭度表示为：

，

其中，E表示求期望，C{y}和C_z{y}表示不同的峭度，Cum表示所要设计的模块过程控制表示。

在源信号中假设a1，a2以及限制条件满足的情况下，峭度对比函数I(w，v)的极大值点是存在的，只需要混合矩阵A的逆矩阵的行向量的源信号满足：即可。

快速不动点算法过程为：

将混合信号X（t）去均值，并单位化。

将分离矩阵W初始化，并单位化；具体如下：

当i=1，2，…，N时，重复执行

令；

当k=0，1，…，k_max-1时，重复执行

令

；

单位化，

令；

重新单位化，

令，

；

y(t)=W^TX(t)，

y(t)=W^Tz(t)。

上述算法中对应的是为分离处的第i 个源信号进行的虚幻迭代的第k+1步。对应的就是参考信号，其随着不断更新。源信号是逐个分离出来的，为了避免不同的一维优化收敛到相同的极值点，所以对分离矩阵的各个列向量进行了施密特正交化处理。

通过步骤S200处理得到的基准音频信号即是用户需要的更加清晰的人声。分离得到的基准音频信号的数据是PCM格式，因此需对每路基准音频信号先进行混音操作，并送入到编码器中进行编码打包，最后送至文件系统中保存，以备后面播放使用。

请一并参阅图3，通过对比源信号（即外部语音信号）与分离出的信号（即基准音频信号）的波形图可以发现，源信号1和源信号2经过盲源分离算法过滤了噪音信号，得到的分离出的信号1和信号2就比较干净、此时仅含有用户需要的基准音频信号。源信号3和源信号4分离后，图中显示分离后的语音信号还有分离后的纯噪音信号，因此波形反而比较杂。对源信号分离前后的波形进行比对，发现除了信号顺序的不确定性外，两者波形信息非常接近，播放后的语音与源语音十分相似。以此表明分离成功，用扬声器播放出分离后的基准音频信号可轻松地获得外部语音信号中所携带的信息。而现有的beam forming(声波聚集)算法对带噪的混叠语音信号的分离效果不佳，有些分离结果接近于0，用扬声器播放出这些分离后的信号明显混有多个源信号，而且可懂度不高。

基于上述的基于盲源分离算法改善录音质量的方法，本发明还相应提供一种用于实现基于盲源分离算法改善录音质量的装置，请同时参阅图4，其包括若干个麦克风10、模数转换器20、音频数字信号处理器30和基带应用处理器40。所述若干个麦克风10分别采集一路外部语音信号。模数转换器20将各路外部语音信号进行模数转换，获得若干路数字语音信号。音频数字信号处理器30根据盲源分离算法对每路数字语音信号分离出背景噪声和基准音频信号，并过滤背景噪声。基带应用处理器40对每路基准音频信号进行混合后打包存储。

综上所述，本发明通过采集外部语音信号，根据盲源分离算法解析分离出背景噪声和基准音频信号，过滤背景噪声并对保留的基准音频信号。盲源分离算法对麦克风的性能和结构设计的要求非常低，且不需要多个辅助麦克风，使鲁棒性非常好；比现阶段采用的beam forming 技术得到的声音质量有更高的提升，从而给用户带来更加清晰而又自然的声音；同时，与现有降噪后的声音对比有着更加质的飞跃和提升。另外，对麦克风的结构设计基本无任何要求，则终端设备的外观也能更加漂亮。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于盲源分离算法改善录音质量的方法，其特征在于，包括：

C、对每路基准音频信号进行混合后打包存储。

2.根据权利要求1所述的基于盲源分离算法改善录音质量的方法，其特征在于，在所述步骤B中，以盲源分离算法中的基于峭度的渐进正交化不动点算法作为数字模型，该数字模型中存储了背景噪音的数据。

3.根据权利要求2所述的基于盲源分离算法改善录音质量的方法，其特征在于，所述步骤B具体包括：

B1、每路数字语音信号均与所述数字模型进行比对；

B3、过滤背景噪声。

4.根据权利要求3所述的基于盲源分离算法改善录音质量的方法，其特征在于，所述数字语音信号为混合信号，由多段源信号组成；背景噪音的数据为参考信号；

5.根据权利要求4所述的基于盲源分离算法改善录音质量的方法，其特征在于，所述源信号是一个n维矢量形式，表示为：

，其中，T表示转置；

混合信号是一个M维矢量形式，表示为：

；

6.根据权利要求5所述的基于盲源分离算法改善录音质量的方法，其特征在于，所述混合信号经过盲源分离算法处理后的基准音频信号为 y(t)，混合信号与基准音频信号的关系为y(t)=W^TX(t)；W为分离矩阵，W=[w1，w2，w3，......，wn]。

7.根据权利要求5所述的基于盲源分离算法改善录音质量的方法，其特征在于，所述参考信号与分离信号一起构成互统计量，即为盲源分离算法的峭度，表达公式为：，V表示与分离矩阵W的值不同的分离矩阵；V=[v1，v2，v3，......，Vn]。

8.根据权利要求4所述的基于盲源分离算法改善录音质量的方法，其特征在于，所述渐进正交化不动点算法为:

将混合信号X（t）去均值，并单位化；

将分离矩阵W初始化，并单位化。

9.根据权利要求1所述的基于盲源分离算法改善录音质量的方法，其特征在于，所述步骤C具体包括：对每路基准音频信号先进行混音操作，再送入编码器中进行编码打包，最后送至文件系统中保存。

10.一种用于实现基于盲源分离算法改善录音质量的装置，其特征在于，包括：

若干个麦克风，用于分别采集一路外部语音信号；