CN108109617A

CN108109617A - 一种远距离拾音方法

Info

Publication number: CN108109617A
Application number: CN201810017174.7A
Authority: CN
Inventors: 黃智; 梁炎伟
Original assignee: Shenzhen Bustling Noise Of A Market Fitow Science And Technology Co Ltd
Current assignee: Shenzhen Bustling Noise Of A Market Fitow Science And Technology Co Ltd
Priority date: 2018-01-08
Filing date: 2018-01-08
Publication date: 2018-06-01
Anticipated expiration: 2038-01-08
Also published as: CN108109617B

Abstract

本发明属于语音识别技术领域，公开了一种远距离拾音方法，包括以下步骤：由多个麦克风组成的麦克风阵列拾取环境声音，得到与麦克风个数对应的多路声音信号；各路的声音信号分别经过LMS自适应滤波处理，得到各路信号的到达时间差对声源进行定位，以及识别出各路信号的语音特征；将声源定位结果以及各路的语音特征进行ABF‑自适应波束形成处理，再把所有的信号叠加，提高输出语音信号的信噪比，将叠加后的信号作为目标源的声音输出。本发明能够实现准确拾取目标源的声音。

Description

一种远距离拾音方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种远距离拾音方法。

背景技术

语言是人类特有的功能，声音是人类常用的工具，是相互传递信息的最主要的手段。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。因此，语音信号是人们构成思想沟通和感情交流的最主要的途径。并且由于语音与人的智力活动密切相关，与社会文化进步紧密相连，所以它具有最大的信息容量和最高的智能水平。现在，人类已开始进入了信息化时代，用现代手段研究语音处理技术，使人们能更加有效地生产、传输、存储、获取和应用语音信息，这对于促进社会的发展具有十分重要的意义。

语音是人机交互的一个重要方式，而如何得到高质量的语音信号一直是一个值得深入研究的课题。麦克风是最常见的语音采集工具，但单个孤立的麦克风的使用要求说话人必须在物理上接近麦克风，以减少环境噪声的影响，这种使用方式限制了人的活动，十分不便。一般超过一米之外就可以认为是属于远距离拾音的范围，现有的远距离拾音常常出现拾音噪音多的问题，无法准确拾取目标源的声音。

发明内容

本发明实施例的目的在于提供一种远距离拾音方法，准确拾取目标源的声音。

本发明实施例是这样实现的：

一种远距离拾音方法，包括以下步骤：

101、由多个麦克风组成的麦克风阵列拾取环境声音，得到与麦克风个数对应的多路声音信号，每路声音信号包括回声信号、混响信号、目标源信号、噪声信号和干扰信号；

102、各路的声音信号分别经过LMS自适应滤波处理，将两个相邻麦克风信号作为目标信号和输入信号，用输入信号去逼近目标信号，通过LMS调整滤波器系数得到各路信号的到达时间差对声源进行定位，以及识别出各路信号的语音特征；

利用到达时间差确定目标声源的位置，具体包括：在一路信号中，对信号进行预加重、分帧、加窗处理，分帧长度为10--30ms，经过FFT处理，将各路信号进行合并，然后进行语音活动检测VAD，计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测，然后对声源进行定位；

识别出各路信号的语音特征，具体包括：在一路信号中，对信号进行预加重、分帧、加窗处理，分帧长度为10--30ms，经过FFT处理；

经过FFT处理后的信号经过声谱图分析，基音、音色分析，共振峰提取语音特征，经倒谱法、谱包络法进行运算，识别出该路信号中的第一动态特征；

经过FFT处理后的信号经过取绝对值或平方值处理，Mel滤波，然后取对数，进行DCT转换，识别出该路信号中的第二动态特征；

如果第一动态特征与第二动态特征一致，则将动态特征作为语音特征输出，如果不一致，则不输出语音特征，返回重新处理；

103、将声源定位结果以及各路的语音特征进行ABF-自适应波束形成处理，自动地迭代调节自身的滤波器参数，把不同相位的信号调整为相同的相位的信号后，再把所有的信号叠加，提高输出语音信号的信噪比，将叠加后的信号作为目标源的声音输出。

本发明的有益效果：

1、语音增强作用，解决噪声环境下的语音识别。因为麦克风阵列利用拾音波束成形，采用独特算法，有效抑制波束之外的噪声，同时融合语音信号的空时信息，从含噪声的语音信号中提取出纯净语音，有效地增强说话人语音。在实际应用的场合有家庭管家、机器人、网络音乐等语音识别场合。

2、声源定位功能，辅助多功能联运。阵列麦克风实现了多麦克风定向，能够准确计算目标说话人的角度和距离，实现对目标说话人的跟踪以及后续的语音定向拾取，精准度控制在一定的范围内，成为智能语音交互中捕捉说话人语音的重要方式。实际的应用场合有视频会议摄像头定位、安防摄像头定位、机器人定位等场合。

3、能够实现远场交互，打破远距离沟通障碍。麦克风阵列在前端充分利用其空域滤波特性，抑制拾音波束外的回声、混响等噪声，进行语音增强处理，辅之以语音识别引擎的二次处理，实现优质的远场识别交互功能。

4、打断纠错，主要是针对错误识别的解决方法。麦克风阵列融入了自适应、理解纠错、智能反馈等认知技术，重新提取大数据因素，并进行二次计算，实现智能纠正打断，能够适应更多的应用环境，具有进化调整功能，从而在人机交互的过程中，使机器更“听话”。

附图说明

图1是本发明远距离拾音的系统整体硬件框图；

图2是本发明远距离拾音信号处理示意图；

图3是本发明远距离拾音的语音特征识别以及提取方法流程图；

图4是本发明远距离拾音的声源定位方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

一种远距离拾音方法，包括以下步骤：

图1中，远距离拾音有多个不同的声源，回声信号、混响信号、目标源信号、噪声信号和干扰信号，分别向麦克风阵列输入回声、混响、目标信号、噪声和干扰信号，麦克风阵列包括MIC1、MIC2、MIC3至MICn，相邻麦克风之间的距离为d，麦克风阵列拾取信号后向麦克风阵列信号处理模块发送S1、S2、S3至Sn信号，经过算法及叠加后输出处理后的目标信号。

图2中，平面波X1(k)、X2(k)、X3(k)至Xn(k)信号输入麦克风阵列形成y1(k)、y2(k)、y3(k)至yn(k)信号，经AD转换，经FGPA数据信号处理，经过LMS自适应滤波后，识别出各路信号的语音特征1、语音特征2、语音特征3至语音特征n，同时进行TDOA算法处理，经ABF-自适应波束形成处理，然后进行叠加，经DA转换，输出目标信号。为了能更好解决语音信号实时处理的问题，本麦克风阵列的语音信号处理采用了FPGA技术设计方案，FPGA比DSP芯片处理的速度会更快、更高效。因为FPGA利用硬件并行处理的优势，打破了顺序执行的模式，在每个时钟周期内完成更多的处理任务，超越了数字信号处理器(DSP)的运算能力。FPGA(Field-Programmable Gate Array)，即现场可编程门阵列，它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。TDOA(Time Difference of Arrival到达时间差)定位是一种利用时间差进行定位的方法。

LMS自适应滤波：将两个麦克风信号作为目标信号和输入信号，用输入信号去逼近目标信号，通过调整滤波器系数得到TDOA。

误差计算：

LMS自适应滤波计算：

hm(n+1)＝hm+ue(n)x₂(n-m)

ABF-自适应波束形成：ABF-自适应波束形成方法用于语音增强，对麦克风的接收信号进行空域自适应滤波，补偿声源到每个麦克风的时间差，使得各路输出信号在某一个方向同相，使得该方向的入射信号得到最大的增益，使得主波束内有最大输出功率的方向，形成了空域滤波，使得阵列具有方向选择性。

Main输出：y_Auxi(n)＝(W_Adap)^mM^mx(n)

Auxi输出：y_Auxi(n)＝(W_Adap)^mM^mx(n)

相差输出：Y(n)＝y_Main(n)-y_Auxi(n)

系统SNR增益：

图3，作为语音特征提取的详细原理流程图，输入语音后，对信号进行预加重、分帧、加窗处理，经过FFT处理，经过FFT处理的信号经过声谱图分析，基音、音色分析，共振峰提取语音特征，经倒谱法、谱包络法进行运算，识别出第一动态特征，经过FFT处理的信号经过取绝对值或平方值处理，Mel滤波，然后取对数，进行DCT转换，识别出第二动态特征，如果第一动态特征与第二动态特征一致，则将动态特征作为语音特征输出，如果不一致，则不输出语音特征，返回重新处理。

其中，语音信号的预加重，目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率；语音信号的分帧，因语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变)，这样就可以把语音信号分为一些短段来进行处理；语音信号的加窗，语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的，目的是为更好提取有用的语音信号。

FFT处理：离散傅氏变换的快速算法。目的实现了高效率计算，快速处理语音信号。

通过语音声谱图分析，判断信号是否有与语音相关的信息。再通过语音特有特征，基音和音色确认信号是否带有语音信息。共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知利用了共振峰信息，提取语音特征参数。经倒谱法、谱包络法进行运算，来提取语音共振峰的特征参数，识别出语音的动态特征。

取绝对值或平方值，从能量角度来判断信号是否带有语音信息。Mel滤波分析就是基于人耳就像一个滤波器组一样，它只关注某些特定的频率分量，所以可以通过Mel滤波后得到Mel频谱。经取对数，做逆变换算，逆变换一般是通过DCT离散余弦变换来实，取DCT后的第2个到第13个系数作为MFCC系数，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

两个语音特征分析都带语音的信息，可以输出特征语音信号；有一路不满足语音特征、或者两路都不满足，都不输出特征语音。

图4，作为TDOA声源定位详细流程图，麦克风接收到的声音信号，经AD转换后，进行加窗分帧处理，然后进行FFT处理(快速傅立叶变换Fast Fourier Transformation)，然后进行语音活动检测VAD，计算权函数、加权、多帧平滑处理、互相关函数、插值处理、峰值检测，然后对声源进行定位。

语音活动检测VAD主要用于检测出一段人说话声中语音部分端点，结果用于语音识别；对语音信号进行计算权函数，然后加权，加权目的是提高语音信号的强度。多帧平滑处理，目的语音信号的过渡更加平滑，防止有突变信号出现，经互相关函数处理，得到各个声源的相位关系，再做插值处理，使相位的精度更高，再通峰值检测处理，最后判断出声音的方向。

图3和图4是并行处理的关系，各自处理完后，均有各自的系数输出。TDOA输出的系数和语音特征输出的系数同时输入到ABF(自适应波束成形)，作为ABF处理的参考和调整系数，最终实现了定向的语音输出。

通过麦克风阵列能够解决的实际问题主要包括：噪声抑制、回声抑制、去混响、单声源定位、多个声源定位、源分离、声源数目估计、鸡尾酒会效应等。

为提高语音质量，解脱人们手持、或佩戴麦克风的束缚，基于麦克风阵列的语音处理技术逐渐成为一个新的研究热点。麦克风阵列是利用多个麦克风排列成的一定形状的阵列，用阵列信号处理的方法，确定声源的位置、进而定向采音，提高信噪比，以获得高质量的语音信号，实现说话人方向的实时跟踪，相当于在一定范围内为每个人生成了一个虚拟的麦克风。

声音信号的采集与分析处理在工程中经常需要要解决的问题，如何实时采集声音信号并对其分析处理，找出声音信号的特征在科学研究中是一项非常有意义的工作。声音数据采集系统是指将特定的声音信号真实的记录，以供人们进行进一步分析的电子系统。语音信号的采集和传输在语音通信等领域有着广泛的应用，在很多场合下需要对声源进行声音信号的采集、传输和分析。其中为了达到实用的程度，麦克风阵列语音数据采集系统必须具备各通道间同步实时采集、信噪比高、扩展性好等特点。基于麦克风阵列的语音处理技术，在时域和频域的基础上增加了空域处理，可以有效的滤除空间噪声，利用时延估计来对声源做定位。

远距离拾音主要使用了麦克风阵列技术方案。麦克风阵列技术指的是主要由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用，分析出接收到语音信号音源的方向以及其变化。而这些分析都可以由极坐标图以波束形式来显示语音信号的强度与角度。

对于空间多样性所提供的丰富信息需要做一步处理，因此，麦克风阵列信号处理的主要目的：根据应用的不同，利用麦克风阵列输出信号中包含的空域、时域(也可能是频域)信息，估计某些参数或提取感兴趣的信号。

麦克风阵列在实际的应用中主要解决远距离语音识别的问题，以保证真实场景下的语音识别率。典型的应用有智能家居、电话会议、多方通信、免提人机声音交互、对话系统、计算机游戏、指挥和控制接口、听定系统、高品质录音、声学监视、听觉场景。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种远距离拾音方法，其特征在于，包括以下步骤：