CN106548771A

CN106548771A - 用于语音识别系统消除突发噪音的方法

Info

Publication number: CN106548771A
Application number: CN201510603790.7A
Authority: CN
Inventors: 唐志展
Original assignee: SHANGHAI RICH INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI RICH INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-09-21
Filing date: 2015-09-21
Publication date: 2017-03-29

Abstract

本发明提供一种用于语音识别系统消除突发噪音的方法，包括以下步骤：步骤一、采集作业人员发出的指令声音及背景噪音；步骤二、声音信息进行波形分析；步骤三、对分析结果进行波形采样；步骤四、利用采样波形运算波形趋势，并得到预测波形；步骤五、采集新的实时声音信号；步骤六、对步骤五中采集到的声音信号进行波形分析；步骤七、将经过分析的波形与步骤四中得到的预测波形进行对比；步骤八：将对比的结果与预定阀值进行对比，若差异大于阀值，则认为是突发噪音，将其消除，然后进入步骤九；若差异小于阀值，则直接进入步骤九；步骤九：向语音识别系统输出这段声音。本发明能够消除突发噪音，提高了语音识别系统对于人声指令的识别效率。

Description

用于语音识别系统消除突发噪音的方法

技术领域

本发明涉及一种用于语音识别系统消除突发噪音的方法，属于声波处理技术领域。

背景技术

当前噪音降噪技术分为主动降噪和被动降噪技术。

首先介绍一下被动降噪的原理。

被动式降噪，就是通过加装隔音、吸音材料，阻断声波传递、吸收声波能量，实现人耳听觉系统只能接收到合法传递声音信息，这种降噪技术也可以称作物理技术降噪。被动式降噪耳麦通常是通过加装耳机的外罩，如海绵体或橡胶体等，以达到吸收声波和阻断声波传递的效果，让人耳可以听到纯净的音乐等耳机播报的声音。

这种被动降噪技术的缺陷是，对于采集声音的系统来说，是无法实行被动降噪的，也就是说，对于听众是人耳可以采用被动降噪，对于听众是一套电子系统，则无法采用被动降噪技术。另外，被动降噪技术对于外界高频噪音隔阻吸收效果较好，但对于低频噪音的阻隔效果就比较差。

由于被动降噪的这些不足，为了获得更好的听觉效果，主动降噪技术应运而生。

主动降噪技术包括两部分技术和工作。第一部分，识别噪音；第二部分，消除噪音。

第一部分：识别噪音。在识别噪音的技术上，当前通常的做法是通过其降噪系统进行“噪音采样”，采样的噪音一般是持续的、相对稳定的、规律性的、信号特征不明显的声音信息，这种噪音一般称作背景噪音，例如一个配送中心的叉车声、说话声、自动分拣机械声、喇叭声、手推车声、风扇声等等集合混合成的嗡嗡噪音。经过采样后，系统将后期采集的声音信号与样本进行比较，与样本相同的波形音频信息被识别为噪音。并采用“样本减法”的方式消除噪音。

第二部分：消除噪音。在消除噪音的技术上，当前通常的做法是采用“样本减法”的方式。“样本减法”的方式，就是将采集到的声音信息总和减去噪音信息，余下的就是我们需要的合法声音信息。具体做法是利用听筒采集外界的声波信息，然后将该信息传递给算法芯片，算法芯片运算后发出用以抵消噪声信息的电信号，该电信号通过一个声波发声器发出与噪音相对应的声音，即相位相反、振幅相同的声波，该声波与噪音声波相遇后发生湮灭，从而在人耳听觉器官的附近形成一道噪音防御屏障，人耳就听不到噪音了。

这种技术通常的做法是在系统上加装一块降噪电路芯片，并在系统上安装一块电池提供电源。因此主动降噪技术也可以称作有源消声降噪。一般降噪的范围是：100至1000HZ。降噪深度一般在12至18分贝。

这种技术的重要缺陷和严重不足：

第一，在噪音识别上。由于是采取“噪音采样”的方式，通过“噪音样本”比对识别噪音，而突发噪音是没有被采集到“噪音样本”中的，所以比对时也就不能识别“突发噪音”。举例来说，一个仓库有各种噪音进而混合成“背景噪音”，这个背景噪音是持续存在的，所以可以采集“样本”，并按照样本对后续采集到的声音进行过滤，这时，语音作业人员身边有一辆叉车路过，叉车为了安全进行了鸣笛，语音耳麦此时采集到作业人员说话的指令声、叉车的鸣笛声、背景噪音的声音，在进行“噪音样本”比对时，只过滤了背景噪音，叉车的鸣笛被视作是作业人员指令声音的一部分，进而造成语音识别系统识别错误。这种突发噪音是不能提前采集样本的，这一点在此不予论证。

第二，在消除噪音上。由于是采集“样本减法”的方式消除噪音，突发噪音不在样本之内，所以也就不可能消除突发噪音，而突发噪音对语音识别系统的危害更大。因为它信号特征明显、声强较大，所以特别容易被视作作业人员的指令声音进行识别，进而造成系统指令错误，影响正常作业推进。

针对上述现有降噪技术的不足，本发明克服了这些问题和缺陷，能够实现对突发噪音的识别与消除，尤其是向以电子语音识别系统为听众的对象，提供降噪后的音频信息，能够实现电子系统高效识别合法的人声命令，减少错误识别。

发明内容

本发明的目的在于提用于语音识别系统消除突发噪音的方法，以解决上述问题。本发明采用了如下技术方案：

一种用于语音识别系统消除突发噪音的方法，其特征在于，包括以下步骤：

步骤一、采集作业人员发出的指令声音及背景噪音；

步骤二、对步骤一中得到的声音信息进行波形分析；

步骤三、对步骤二的分析结果进行波形采样；

步骤四、利用步骤三中采样波形运算波形趋势，并得到预测波形；

步骤五、采集新的实时声音信号；

步骤六、对步骤四中采集到的声音信号进行波形分析；

步骤七、将步骤六中得到的波形与步骤五中得到的预测波形进行对比；

步骤八：将步骤七中对比的结果与预定阈值进行对比，若差异大于阈值，则认为是突发噪音，将突发噪音消除，然后进入步骤九；若差异小于阈值，则直接进入步骤九；

步骤九：向语音识别系统输出这段声音。

进一步，本发明的用于语音识别系统消除突发噪音的方法，其特征在于：步骤八中，将突发噪音消除的方法是：生成反相波形予以湮灭。

进一步，本发明的用于语音识别系统消除突发噪音的方法，其特征在于：步骤八中，在消除突发噪音后，将剩余的波形以预测波形进行修复，修复后再进入步骤九。

进一步，本发明的用于语音识别系统消除突发噪音的方法，其特征在于：在步骤九中，在向语音识别系统输出声音前，还包括判断声源是否已经结束的步骤，如结束，则向语音识别系统输出经降噪后的音频数据，如声源未结束则重复进行步骤三至步骤八。

进一步，本发明的用于语音识别系统消除突发噪音的方法，其特征在于：在步骤一和步骤二之间还包括如下步骤：

步骤a：近嘴端听筒捕捉噪音声源发出的背景噪音和主音源发出的指令声音，设背景噪音的声强为x1，设指令声音的声强为y1；

步骤b：近耳端听筒捕捉噪音声源发出的背景噪音和主音源发出的指令声音，背景噪音的声强设为x2，指令声音的声强设为y2，x1＝x2，y1:y2>1；

步骤c：计算近嘴端听筒与近耳端听筒捕获的声强总和的比值，即(x1+y1):(x2+y2)；

步骤d：提取分母的音频特征，即x2+y2的音频特征，并生成反相音频信号进行滤波；

步骤e：降噪模块对滤出的有效音频波形进行放大，完成噪音识别与噪音消除，并还原主音。

发明的有益效果

本发明克服了当前一般技术中不能识别和消除突发噪音的困难，从而大大提高语音识别系统对于人声指令的正确识别效率，保证在工业环境下，满足生产的实际需要。

附图说明

图1是双通道降噪语音识别耳麦的主视图；

图2是双通道降噪语音识别耳麦的内侧结构示意图；

图3是双通道降噪语音识别耳麦的内部结构示意图；

图4是用于语音识别系统消除突发噪音的方法的流程图。

具体实施方式

以下结合具体实施方式对本发明的技术方案做进一步的说明。

本发明的实施，首先需要设计制造一种双通道降噪语音识别耳麦，如图1、图2和图3所示，包括：近嘴端听筒组件10，近耳端听筒组件 21，运算芯片组件22，电池组件23。

近耳端听筒组件21，负责收集合法人声命令和非法人声命令或突发噪音及背景噪音。

近嘴端听筒组件10，负责收集合法人声命令和非法人声命令或突发噪音及背景噪音。

运算芯片组件22上具有一个背景噪音音频过滤电路，用于运算识别背景噪音，并发出与背景噪音相位相反、振幅相同的反相声波电信号，以湮灭噪音。

运算芯片组件22上还集成有一个突发噪音音频过滤电路，用于运算识别听筒收集到的非法人声和突发噪音，并发出与突发噪音相位相反、振幅相同的反相声波电信号，以湮灭噪音。

电池组件23，为两个音频运算电路提供电源。

有了上述结构的降噪耳麦，再按照如下流程进行突发噪音识别、消除突发噪音，并修复还原主音。如图4所示，用于语音识别系统消除突发噪音的方法的工作过程如下：

步骤S101：耳麦采集作业人员发出的指令声音和背景噪音。

步骤S102：算法电路对该声音信息进行波形分析。

步骤S103：算法电路对102分析的结果进行波形采样。

步骤S104：算法电路按照采样波形运算波形趋势，并得出预测波形。

步骤S105：算法电路继续采集新的实时声音信号,即接收下一段声音。

步骤S106：算法电路对步骤S105中实时采集到的声音信号进行波形分析。

步骤S107：算法电路将步骤S106中分析得到的波形与步骤S104中得到的预测波形进行对比，得到两者的差异。

步骤S108：算法电路按照一个阈值对步骤S107中对比分析的结果进行判断，若差异小于等于阈值，即被通过而进入步骤S110。

在本实施方式中，阈值设置为偏离预测模型10％，在其它的实施方式中，阈值可以根据现场噪音情况进行设定，并不限于10％。

若差异大于阈值，则生成反相的电子波形予以湮灭，然后进入步骤S109。

步骤S109，对滤波后的波形，以预测波形进行修复，然后进入步骤S110。

步骤S110：算法电路判断声源是否已经结束，若判断结果为结束，则进入步骤S111,即刻向语音识别系统输出经降噪后的音频数据。

若判断结果为未结束，则回到步骤S103，重复进行步骤S103到步骤S109的降噪过程，直至完成所有降噪运算工作。

本发明识别突发噪音的方法区别于常规加减算法的“噪音样本”识别噪音的方法。本发明的方法是通过麦克采集作业人员发出的指令声音及背景噪音，进而分析该声音信息的声强、音频、波幅、相位等特征，进而预测后续发声的声音波形特征。得到这个预测波形是一个数学建模和算法的过程，利用分析获得的声音特征数据，建立一个数学模型，该模型以这些数据为输入，以获得近似样本波形为输出。并以此预测波形，对比即时采集到的所有声音波形，对于出现不符合的波形均视作突发噪音予以过滤。阈值的设定是依据预测波形的特征值，包括声强、音频、相位、波幅的数值；阈值不是固定的，因此属于“动态识别”，区别于当前“样本识别”的“静态识别”，在“静态识别”中，设定一个固定阈值，用以对比所有采集到的声音，但是这个固定阈值不能适用识别作业人员声音的变化和环境中突发噪音，要么作业人员的指令声音被当做噪音清除，要么把突发噪音当成作业人员指令声音保留；而“动态识别”，是以捕获的当前声音总体特征(当前声音总体特征包括背景噪音、作业人员指令声音)进行建模，输出一个判断标准，即设定了阈值用以判断接下来的声音是否在阈值内，超出部分视为突发噪音予以过滤。因此这个阈值是随着每次捕获的声音而发生变化的，是动态的。具体而言，将声强、音频、相位、波幅的特征值，用一个综合值来体现，比如当前捕获的声音综合值为10DB，我们算法设定它的阈值可以是一个偏离度，比如20％，那么阈值就是12DB，当接下来获取的声音值超过12DB时，就被视作噪音予以过滤。阈值的偏离度需要根据作业人员发声及环境噪音来设置的，可以是10％，20％，或是其他合适的数值。

为了进一步提高语音识别系统采集音频的准确率，在步骤S101和步骤S102之间可以进行如下步骤：

步骤S201：近嘴端听筒捕捉噪音声源，发出的背景噪音,设背景噪音的声强为x1。

步骤S202：听嘴端听筒捕捉主音源，发出的指令声音，设指令声音的声强为y1；步骤S201和步骤S202的采集音频的动作同时进行。

步骤S203：近耳端听筒捕捉噪音声源发出的背景噪音，背景噪音的声强设为x2；

步骤S204：主音源发出的指令声音，指令声音的声强设为y2，则：x1＝x2，y1:y2>1；步骤S203和步骤S204的采集音频的动作也同时进行。

步骤S205：计算近嘴端听筒与近耳端听筒捕获的声强总和的比值，即(x1+y1):(x2+y2)；

步骤S206：提取分母的音频特征，即x2+y2的音频特征，并生成反相音频信号进行滤波；

步骤S207：降噪模块对滤出的有效音频波形进行放大，完成噪音识别与噪音消除，并还原主音。还原完成后，进行步骤S102，对还原好的主音进行波形采样，然后进行后续的突发噪音识别。

在进行突发噪音识别之前先消除背景噪音，有助于排除背景噪音中一些较强声波的干扰，提高消除突发噪音的效果。

本发明所提供的方法能够动态识别噪音，明显区别于“噪音样本”静态识别噪音的方法。这种动态波形预测噪音识别方法，尤其能够有效发现识别突发噪音。

消除噪音。如前所述，获得预测波形，对于出现不符合预测波形的均视作突发噪音予以过滤，过滤的方法是采取即时生成反相波形信号与突发噪音波形信号进行叠加，从而湮灭突发噪音。这种突发噪音是即时捕获的，消除噪音的波形也是即时生成的，每次捕获的突发噪音波形都不同，所以这种消除噪音的方法也是动态的，能够面对应付所有噪音，而不是当前普遍采用的“样本减法”的静态消除噪音的方法，静态消除噪音的“样本减法”，只能消除既定的一部分背景噪音。另外，由于是算法电路直接生成与噪音相反的电子波形，不需要向外发射音波，因此与有源噪音消除方法相比，没有延时，不会发生啸音现象。

Claims

1.一种用于语音识别系统消除突发噪音的方法，其特征在于，包括以下步骤：

步骤一、采集作业人员发出的指令声音及背景噪音；

步骤二、对步骤一中得到的声音信息进行波形分析；

步骤三、对步骤二的分析结果进行波形采样；

步骤五、采集新的实时声音信号；

步骤六、对步骤五中采集到的声音信号进行波形分析；

步骤七、将步骤六中经过分析的波形与步骤四中得到的所述预测波形进行对比；

步骤八：将步骤七中对比的结果与预定阀值进行对比，若差异大于阀值，则认为是突发噪音，将突发噪音消除，然后进入步骤九；若差异小于阀值，则直接进入步骤九；

步骤九：向语音识别系统输出这段声音。

2.如权利要求1所述的用于语音识别系统消除突发噪音的方法，其特征在于：步骤八中，将突发噪音消除的方法是：由算法电路生成与噪音反相的电子波形对噪音波形予以湮灭。

3.如权利要求1所述的用于语音识别系统消除突发噪音的方法，其特征在于：步骤八中，在消除突发噪音后，将剩余的波形以预测波形进行修复，修复后再进入步骤九。

4.如权利要求1所述的用于语音识别系统消除突发噪音的方法，其特征在于：

在所述步骤九中，在向语音识别系统输出声音前，还包括判断声源是否已经结束的步骤，如结束，则向语音识别系统输出经降噪后的音频数据，如声源未结束则重复进行步骤三至步骤八。

5.如权利要求1所述的用于语音识别系统消除突发噪音的方法，其特征在于,在步骤一和步骤二之间还包括如下步骤：