CN108364642A

CN108364642A - 一种声源锁定方法

Info

Publication number: CN108364642A
Application number: CN201810153073.2A
Authority: CN
Inventors: 陈思应; 孙振奎; 陈跃华; 余杰; 何云鹏; 高君效
Original assignee: Chengdu Leader Technology Co Ltd
Current assignee: Chengdu Leader Technology Co Ltd; Chipintelli Technology Co Ltd
Priority date: 2018-02-22
Filing date: 2018-02-22
Publication date: 2018-08-03

Abstract

本发明涉及语音识别领域，特别是涉及到一种声源锁定方法，由声音采集模块采集外部语音数据并传输给语音识别模块进行识别，该方法采用DNN算法来确定出声源与设备的距离，使用该方法的设备能够屏蔽声源以外所发出的声音并可不用将客户的语音数据传输至云端，提高语音识别的准确性并避免泄露客户隐私。

Description

一种声源锁定方法

技术领域

本发明涉及智能语音识别技术领域，特别是涉及到一种能够利用DNN算法确定声源位置的声源锁定方法。

背景技术

语音识别是人机交互里很重要的模块，从PC时代到现在的移动互联时代，人机交互由鼠标键盘走向智能手机、Pad等的多点触摸，到了智能硬件时代，交互则更加多元，不仅有触摸，还有基于语音、视觉的交互，原本是以机器为中心的人机交互，逐渐走向以人为中心的自然交互，语音交互作为最有效的沟通控制方式，在家用方面，它可以帮助用户把家中的各种终端设备无缝连接起来，如智能语音微波炉，用户通过简单的语音命令即可控制微波炉进行不同的工作。

从商业化的角度来看，根据识别的距离可将语音识别分为近场和远场，目前业界所做的近场人对机器说话的识别准确率可达90%以上，但在远场景的识别就不尽人意，对于一些工作在特定区域内的电子设备要求其对特定区域内的噪音具有较好的抑制，且使用距离要求在2-5米内，这对近场语音识别技术而言很难做到。

现有技术的缺点在于：

一般的智能语音设备要求在近场使用，但是当声源与设备的距离在2-5米之内时，声源的语音识别准确率较低。

发明内容

为了解决上述远场景的语音识别问题，发明了一种能够确定声源与设备之间距离的声源锁定方法。

一种声源锁定方法，其包括以下步骤：

步骤一、语音采集模块采集外部语音数据并发送给语音识别模块；

步骤二所述语音识别模块将所述语音数据进行快速傅立叶变化后，得到频谱集，；

步骤三将所述频谱集划分成N个子带频谱；

步骤四用主频分离的方法将所述子带频谱进行频率成分的搜索并归类分组；

步骤五对同一所述语音数据在所述语音采集模块的左通道和右通道的相同频率的所述子带频谱做互相关运算得到互相关函数；

步骤六累加所述互相关函数获取延迟时间并计算出声源与设备之间的距离；

步骤七将所述频谱集输入所述语音识别模块的语音识别引擎；

步骤八所述语音识别引擎根据所述频谱集内的频谱特征采用DNN（深度神经网络）算法在本地终端对所述频谱集内的频谱进行识别；

步骤九所述语音识别模块将步骤八的识别结果发送给设备控制电路；

步骤十所述设备控制电路根据所述识别结果控制所述设备执行操作。

作为本发明的优选方案，所述语音识别模块由语音处理电路和声源锁定电路组成，所述语音处理电路分析并处理所述语音采集模块采集来的所述语音数据，所述声源锁定电路根据所述语音处理电路的处理结果锁定声源的位置。

作为本发明的优选方案，所述DNN算法包括有语音预处理、特征提取、形成发音字典及建立语音模型等四个过程，其中语音预处理过程包括对语音信号或语音数据的采样、反混叠滤波、语音增强和端点检测，特征提取过程的作用是从语音信号或语音数据的波形中提取一组能够描述语音信号或语音数据特征的参数，以便训练和识别，形成发音字典则是根据发音的音素，得到相应的文本集合即为发音字典，建立语音模型则是利用语法知识调整声学模型所识别出的不合逻辑的词语。

作为本发明的优选方案，所述互相关运算的运算式为，其中i为频带数，τ为延迟时间。

作为本发明的优选方案，所述语音采集模块包含有N个语音采集设备，所述N为大于等于2的正整数，N个所述语音采集设备根据客户需求进行排列，可以进行横排也可以进行竖排。

作为本发明的优选方案，所述语音采集设备之间的距离为b，C为声速，所述语音采集设备与所述声源之间的几何关系确定出声源的偏角θ，sinθ =ITD(θ )*C/d。

为了使音频数据容易被神经网络处理，需要把复杂的声波分解成一个个组成部分，为实现声波分解，需要利用到傅里叶变换，傅立叶变换将复杂的声波分解为简单的声波，然后将每一份频段所包含的能量加在一起，得到的结果便是从低音到高音的一个频谱，再将该频谱输入深度神经网络，对于每个小的音频切片，神经网络都将尝试找出当前正在说的声音所对应的声母或韵母，当通过神经网络跑完我们的整个音频剪辑之后，最终得到一份映射，其中标明了每个音频块和其最有可能对应的声母或韵母，然后将这些基于发音的预测与基于标注的文本数据库的可能性得分相结合，去掉最不可能的结果，留下最实际的结果。

语音识别技术中，最关键的是如何从语音信号波形中提取有用的特征信息，也就是如何有效地去除噪声，声源定位为音频去噪提供了一个非常好的途径，通过对声源的定位，可以锁定人说话的位置，将其他地方的声音视为噪声虑除，提高了识别信号的信噪比。

每个声源都有各自的主频，在频域内混合声源保持着各自主频不变，同一位置不能同时存在不同频率声音的频谱，这可叫做主频独占原则，主频独占原则是主频分离的理论基础，声音信号可以表示为以基音为基本单位的各次正弦率成分的叠加，即公式一：，两个混叠的语音的各次频率成分在频域上的分布因基频不同而不同，在频率轴上从小到大依次排列两基频的各次频率成分公式二f₁, f₂,...,nf₁,mf₂,... 表示，其中，f₁, f₂分别为两基频，假设f₁< f₂，相邻频率成分间距不是固定的，有的靠近些，有的离远些，如果相邻频率成分的间距大于频率间隔门限（T）时，相邻频率成分的窗函数谱主瓣交叠部分较少，两个频率成分可以分开拟合；反之，如果相邻频率成分的间距小于频率间隔门限（T），则两个频率成分的幅度计算须考虑相互作用的影响，必须拟合在一起，根据相邻频率成分间距将频率成分分组，分组方法如下：

A从第一个频带的第一个频率开始搜索；

B 假定所考虑的频率是 fr，相邻的下一个频率是f_r+1，假若| f_r -f_r+1| < T，则将f_r+1归入此频带，否则该频带停止搜索，由f_r+1 开始新的频带；

C 重复B）直到f_r＞f_s/2，其中f_s 为采样频率。

将公式二中的频率成分分成一系列的可独立的拟合组，假设第i 组由K 个频率成分f_i1, f_i2,...,f_ik组成，则取该组所属的频带为[a_i,b_i]，a_i=( f_i1-1+ f_i1)/2，bi=( f_ik+f_ik+1)/2，其中, f_i1-1是排在f_i1前的谐波， f_ik+1是排在f_ik后的频率。

与现有技术相比，本发明的有益效果：

1、由于采用了声源锁定电路锁定了声源的位置，这样就能够屏蔽声源以外所发出的声音，提高语音识别的准确性；

2、采用了该声源锁定方法就不用将客户的语音数据上传到云端进行识别，避免了泄露客户隐私的安全隐患。

附图说明

图1为本发明声源锁定方法的流程图；

图2为本发明语音识别模块的框图；

图3为本发明DNN算法框图；

图4为本发明声源锁定方法实施例中声源与微波炉距离计算原理图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述，但不应将此理解为本发明上述主体的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

如图1所示，一种声源锁定方法包含如下步骤：

步骤一语音采集模块采集外部语音数据并发送给语音识别模块，本实施例中语音采集模块为2个横排排列的麦克风；

步骤二麦克风将采集到的语音数据进行快速傅立叶变化后，得到频谱集；

步骤三将频谱集划分成N个子带频谱；

步骤九所述语音识别模块将步骤八的识别结果发送给设备控制电路，本实施例中的设备为微波炉，在其他实施例中，设备可以是空调、洗衣机、电饭煲等其它家用电器；

步骤十微波炉控制电路根据所述识别结果控制微波炉执行操作。

如图2所示，语音识别模块由语音处理电路和电源锁定电路组成，语音处理电路处理由麦克风传输来的所采集的语音数据，并将处理结果传输给电源锁定电路，电源锁定电路根据处理结果锁定声源的位置并同时屏蔽掉声源之外的噪声。

如图3所示，DNN算法包括语音预处理、特征提取、形成发音字典及建立语音模型等四个过程，其中语音预处理过程包括对语音信号或语音数据的采样、反混叠滤波、语音增强和端点检测，特征提取过程的作用是从语音信号或语音数据的波形中提取一组能够描述语音信号或语音数据特征的参数，以便训练和识别，形成发音字典则是根据发音的音素，得到相应的文本集合即为发音字典，建立语音模型则是利用语法知识调整声学模型所识别出的不合逻辑的词语。

如图4所示，两个麦克风之间的距离为b，C为声速，两个麦克风与所述声源之间的几何关系确定出声源的偏角θ，sinθ =ITD(θ )*C/d，根据θ角求出声源与微波炉的距离。

Claims

1.一种声源锁定方法，其包括以下步骤：

步骤一语音采集模块采集外部语音数据并发送给语音识别模块；

步骤二所述语音识别模块将所述语音数据进行快速傅立叶变化后得到频谱集；

步骤三将所述频谱集划分成N个子带频谱，N为大于1的正整数；

步骤七将所述频谱集输入所述语音识别模块中的语音识别引擎；

步骤九语音识别模块将步骤八的识别结果发送给设备控制电路；

2.根据权利要求1所述的一种声源锁定方法，其特征在于：所述语音识别模块由语音处理电路和声源锁定电路组成，所述语音分析电路处理所述语音采集模块采集来的所述语音数据，所述声源锁定电路根据所述语音分析电路的处理结果锁定声源的位置。

3.根据权利要求1所述的一种声源锁定方法，其特征在于：所述DNN算法包括语音预处理、特征提取、形成发音字典及建立语音模型四个过程。

4.根据权利要求1所述的一种声源锁定方法，其特征在于：所述互相关运算的运算式为，其中i为频带数，τ为延迟时间。

5.根据权利要求1所述的一种声源锁定方法，其特征在于：所述语音采集模块包含有N个语音采集设备，所述N为大于等于2的正整数。

6.根据权利要求5所述的一种声源锁定方法，其特征在于：所述语音采集设备之间的距离为b，C为声速，所述所述语音采集设备与所述声源之间的几何关系确定出声源的偏角θ，sinθ =ITD(θ )*C/d。