CN105261363A

CN105261363A - 一种语音识别的方法、装置及终端

Info

Publication number: CN105261363A
Application number: CN201510600314.XA
Authority: CN
Inventors: 骆磊
Original assignee: Shenzhen Cloudminds Technology Co Ltd
Current assignee: Shenzhen Cloudminds Technology Co Ltd
Priority date: 2015-09-18
Filing date: 2015-09-18
Publication date: 2016-01-20
Also published as: WO2017045512A1

Abstract

本发明提供了一种语音识别的方法、装置及终端，包括：接收音频输入信号；获取第一音频信号；获取第一增益/衰减系数；根据所述第一增益/衰减系数及所述第一音频信号确定第一干扰音频信号，所述第一干扰音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；从所述音频输入信号中滤除所述第一干扰音频信号得到第二音频信号，所述第二音频信号为本机音频输入装置接收到的待识别音频信号；对所述第二音频信号进行语音识别处理。采用本发明的技术方案，能够有效提高了在本机音频输出装置有音频输出时进行语音识别的语音识别率。

Description

一种语音识别的方法、装置及终端

技术领域

本发明涉及音频分析或处理技术领域，特别涉及一种语音识别的方法、装置及终端。

背景技术

语音交互是指人与机器进行语音交流，让机器听懂人说的话。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

目前的语音识别方案，在设备的扬声器有音频输出时(播放音乐或者输出声音)的情况下，语音交互的识别率就会大幅降低，尤其在音频的音量较大时，语音交互会出现没有识别反应或识别错误的情况。而现有的降噪技术，在设备扬声器有音频输出时的场景下是不生效的，存在语音识别率较低的问题，降噪效果有待进一步提升。

发明内容

本发明实施例提出了一种语音识别的方法、装置及终端，用以现有的语音识别技术在设备扬声器有音频输出时，存在的语音识别率较低的问题。

本发明实施例提供了一种语音识别的方法，应用于扬声器有音频输出时的语音识别，包括如下步骤：

一种语音识别的方法，其特征在于，包括如下步骤：

接收音频输入信号；

获取第一音频信号，所述第一音频信号为本机音频输出装置输出的音频信号；

获取第一增益/衰减系数，所述第一增益/衰减系数为所述第一音频信号在本机音频输入装置位置的各频点的增益或衰减；

根据所述第一增益/衰减系数及所述第一音频信号确定第一干扰音频信号，所述第一干扰音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

从所述音频输入信号中滤除所述第一干扰音频信号得到第二音频信号，所述第二音频信号为本机音频输入装置接收到的待识别音频信号；

对所述第二音频信号进行语音识别处理。

本发明实施例提供了一种语音识别的装置，应用于扬声器有音频输出时的语音识别设备，包括：

接收单元，用于接收音频输入信号；

获取单元，用于获取第一音频信号，所述第一音频信号为本机音频输出装置输出的音频信号；

获取单元进一步用于获取第一增益/衰减系数，所述第一增益/衰减系数为所述第一音频信号在本机音频输入装置位置的各频点的增益或衰减；

确定单元，用于根据所述第一增益/衰减系数及所述第一音频信号确定第一干扰音频信号，所述第一干扰音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

滤除单元，用于从所述音频输入信号中滤除所述第一干扰音频信号得到第二音频信号，所述第二音频信号为本机音频输入装置接收到的待识别音频信号；

识别处理单元，用于对所述第二音频信号进行语音识别处理。

本发明实施例提供了一种终端，包括：本机音频输入装置、本机音频输出装置及语音识别的装置，

所述本机音频输入装置，用于接收音频信号；

所述本机音频输出装置，用于输出音频信号；

所述语音识别的装置，用于根据所述本机音频输入装置接收到的音频信号及所述本机音频输出装置输出的音频信号，进行语音识别处理。

本发明有益效果如下：

本发明实施例提供的语音识别的方法、装置及终端，根据第一音频信号及第一增益/衰减系数确定第一干扰音频信号，进而从本机音频输入装置接收到的音频信号中滤除第一干扰音频信号，考虑到了本机音频输出装置与本机音频输入装置之间的音频传播路径及本机音频输出装置输出的音频信号经过该传播路径后的各频点的增益或损耗，可以准确得到第一干扰音频信号，有效提高了在本机音频输出装置有音频输出时进行语音识别的语音识别率。

附图说明

下面将参照附图描述本发明的具体实施例，

图1为本发明实施例中的语音识别的方法流程示意图；

图2为本发明实施例中的语音识别的装置结构示意图；

图3为本发明实施例中的终端结构示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图对本发明的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本发明的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明书中的实施例及实施例中的特征可以互相结合。

图1为本发明实施例中的语音识别的方法流程示意图，如图1所示，语音识别的方法可以包括如下步骤：

步骤101：接收音频输入信号；

步骤102：获取第一音频信号，第一音频信号为本机音频输出装置输出的音频信号；

步骤103：获取第一增益/衰减系数，第一增益/衰减系数为第一音频信号在本机音频输入装置位置的各频点的增益或衰减；

步骤104：根据第一增益/衰减系数及第一音频信号确定第一干扰音频信号，第一干扰音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

步骤105：从音频输入信号中滤除第一干扰音频信号得到第二音频信号，第二音频信号为本机音频输入装置接收到的待识别音频信号；

步骤106：对第二音频信号进行语音识别处理。

具体实施中，该语音识别的方法可以应用于移动终端、个人电脑、机器人等设备。其中，本机音频输入装置为本机接收音频信号的装置，例如，目前本机音频输入装置可以是麦克风，也不排除未来的可能会出现的其他形式的可以接收音频信号的装置或器件。本机音频输出装置为本机输出音频信号的装置，例如，目前本机音频输出装置可以是扬声器，也不排除未来的可能会出现的其他形式的可以输出音频信号的装置或器件。

语音识别的时候，本机音频输入装置在接收待识别音频信号的同时，还会接收本机所处环境的背景噪音以及由本机音频输出装置输出的被本机音频输入装置接收到的音频信号。其中，滤除背景噪音已有较成熟的解决方案，可以用多个麦克风，一个麦克风采集携带背景噪音的音频信号，另一个或多个麦克风采集背景噪音，上述两种麦克风所拾取的背景噪声音量是基本相同的，而记录的人声会有6dB左右的音量差，对这些实时采样的数字信号进行频谱分析，在和背景噪音信息库进行比对后，让讲话者的声音频谱通过，而对背景噪音的频谱进行抑制，根据信号消除原理叠加在原有通话信号上以达到较明显的消除背景噪音的效果，从带背景噪音的语音信号中提取尽可能纯净的原始语音。而对于本机音频输出装置输出的音频信号造成对语音识别的干扰，上述方案则无法解决。

第一音频信号，即：本机音频输出装置输出的音频信号，经过一段距离被本机音频输入装置接收，由于第一音频信号经过一段距离的传输后，会产生一定的损耗。为了能够更为准确的获知第一干扰音频信号，需要获取第一音频信号及第一增益/衰减系数，但在具体实施中，对上述二者的获取时序不作具体限定，可以先获取第一音频信号，也可以先获取第一增益/衰减系数。

本发明实施例提供的语音识别的方法可以根据本机音频输出装置输出的音频信号在本机音频输入装置位置的各频点的增益或衰减及本机音频输出装置输出的音频信号，确定本机音频输出装置输出的音频信号造成对语音识别的干扰信号，进而从音频输入信号中滤除本机音频输出装置输出的音频信号造成对语音识别的干扰信号，以得到待识别音频信号。

本发明实施例提供的语音识别的方法，根据第一音频信号及第一增益/衰减系数确定第一干扰音频信号，进而从本机音频输入装置接收到的音频信号中滤除第一干扰音频信号，考虑到了本机音频输出装置与本机音频输入装置之间的音频传播路径及本机音频输出装置输出的音频信号经过该传播路径后的各频点的增益或损耗，可以准确得到第一干扰音频信号，有效提高了在本机音频输出装置有音频输出时进行语音识别的语音识别率。

实施中，获取第一增益/衰减系数，可以具体包括：

通过读取预设的第一增益/衰减系数，获取第一增益/衰减系数；或者，

通过计算第一增益/衰减系数，获取第一增益/衰减系数。

具体实施中，可以在实施语音识别的方法的设备或装置上，预设第一增益/衰减系数，并存在设备或装置的存储模块上，具体如何存储，这里不作具体限定。在实施语音识别时，从存储模块上获取第一增益/衰减系数。

也可以通过实时计算的方式来获取第一增益/衰减系数。

实施中，可以在获取第一音频信号的前一时刻，获取第一增益/衰减系数。

具体实施中，因为实施语音识别的装置或设备的位置可能随时变化，进而音频信号的传输环境也随着发生变化，经传输后的损耗也可能不同，因此实时取声音会得到更好的语音识别效果，保证语音识别的准确率，可以在可以在获取第一音频信号的前一时刻，获取第一增益/衰减系数。即，可以根据当前时刻的第一音频信号及前一时刻的第一增益/衰减系数确定当前时刻的第一干扰音频信号。

实施中，计算第一增益/衰减系数，可以具体包括：

获取第一音频信号；

获取第三音频信号，第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

根据第一音频信号及第三音频信号的关系，计算第一增益/衰减系数。

具体实施中，第一音频信号是由实施语音识别的设备或装置播放的，可以通过增加接口等方式来获取。第三音频信号可以在仅有本机音频输出装置输出的音频信号的情况下，同时获取本机音频输入装置接收到的音频信号得到，该过程中的背景噪音可以通过现有技术中的多麦克风等方案来滤除。

在获取了第一音频信号和第三音频信号后，就可以将二者进行比较计算，以得到第一增益/衰减系数。

实施中，根据第一音频信号及第三音频信号的关系，计算第一增益/衰减系数，具体可以包括：

根据第一音频信号及第三音频信号的关系，计算第一增益系数，如下：

其中，G为第一增益系数，V₂(f_i，t)为获取的频点为f_i的第三音频信号，V₁(f_i，t)为获取的频点为f_i的第一音频信号；或者，

根据第一音频信号及第三音频信号的关系，计算第一衰减系数，如下：

其中，A为第一衰减系数。

具体实施中，增益，一般而言就是放大倍数，在电子学上，通常为一个系统的信号输出与信号输入的比率，以输出信号同输入信号比值的常用的对数表示。

计算各频点第一增益系数，采用的计算公式具体可以如下：

G = 10 l g (\frac{V_{2} (f_{i}, t)}{V_{1} (f_{i}, t)})

G为第一增益系数，V₂(f_i，t)为获取的频点为f_i的第三音频信号，V₁(f_i，t)为获取的频点为f_i的第一音频信号。

音频信号是指人耳可以听到的频率在20HZ～20KHz之间的声音。具体实施中，本领域技术人员可以根据实际需要来确定各频点的具体频率。例如，最简单的，可以将20HZ～20KHz的频率范围进行等分而确定相应的频点，也可以根据人耳的音频敏感特性等来确定频点。

确定了频点后，获取第一音频信号在各个频点的信号分量及相应频点上的第三音频信号的信号分量后，采用上述公式即可计算得出第一增益系数。

信号在传输介质中传播时，将会有一部分能量转化成热能或者被传输介质吸收，从而造成信号强度不断减弱，这种现象称为损耗或衰减。本机音频输出装置输出的音频信号在空气介质中传输后被本机音频输入装置接收后的音频信号相对于本机音频输出装置输出的音频信号会存在一定的损耗或衰减。

同上述第一增益系数的计算方式，计算各频点第一衰减系数，可以如下：

A = - 10 l g (\frac{V_{2} (f_{i}, t)}{V_{1} (f_{i}, t)}) .

通过上述计算，可以较为准确的获取本机音频输出装置输出的音频信号在本机音频输入装置位置的各频点的增益或损耗，进而为确定由本机音频输出装置输出的音频信号对语音识别时带来的干扰信号做好准备工作。

基于同一发明构思，本发明实施例中还提供了一种语音识别的装置，由于该装置解决问题的原理与一种语音识别的方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图2为本发明实施例中的语音识别的装置结构示意图，如图2所示，语音识别的装置可以包括：

接收单元201，用于接收音频输入信号；

获取单元202，用于获取第一音频信号，第一音频信号为本机音频输出装置输出的音频信号；

获取单元202进一步用于获取第一增益/衰减系数，第一增益/衰减系数为第一音频信号在本机音频输入装置位置的各频点的增益或衰减；

确定单元203，用于根据第一增益/衰减系数及第一音频信号确定第一干扰音频信号，第一干扰音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

滤除单元204，用于从音频输入信号中滤除第一干扰音频信号得到第二音频信号，第二音频信号为本机音频输入装置接收到的待识别音频信号；

识别处理单元205，用于对第二音频信号进行语音识别处理。

本发明实施例提供的语音识别的装置，可以

实施中，获取单元可以具体用于通过读取预设的第一增益/衰减系数，获取第一增益/衰减系数；或者，

通过计算第一增益/衰减系数，获取第一增益/衰减系数。

实施中，获取单元可以进一步用于在获取第一音频信号的前一时刻，获取第一增益/衰减系数。

实施中，获取单元可以进一步包括：

第一获取子单元，用于获取第一音频信号；

第二获取子单元，用于获取第三音频信号，第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

确定子单元，用于根据第一音频信号及第三音频信号的关系，计算第一增益/衰减系数。

实施中，确定子单元可以具体用于：

根据第一音频信号及第三音频信号的关系，计算各频点第一增益系数，如下：

其中，G为第一增益系数，V₂(f_i，t)为获取的频点为f_i的第三音频信号的信号分量，V₁(f_i，t)为获取的频点为f_i的第一音频信号的信号分量；或者，

根据第一音频信号及第三音频信号的关系，计算各频点第一衰减系数，如下：

其中，A为第一衰减系数。

基于同一发明构思，本发明实施例中还提供了一种终端。图3为本发明实施例中的终端结构示意图，如图3所示，终端可以包括：本机音频输入装置、本机音频输出装置及上述的语音识别的装置，

本机音频输入装置301，用于接收音频信号；

本机音频输出装置302，用于输出音频信号；

语音识别的装置303，用于根据本机音频输入装置接收到的音频信号及本机音频输出装置输出的音频信号，进行语音识别处理。

具体实施中，由于该终端包括了上述的语音识别的装置，可以在本机音频输出装置输出音频信号的情况下的语音识别时，根据本机音频输出装置输出的音频信号及本机音频输出装置输出的音频信号在本机音频输入装置位置的各频点的增益或衰减确定本机音频输入装置接收到的由本机音频输出装置输出的音频信号，进而从本机音频输入装置接收到的音频信号中滤除本机音频输出装置输出的音频导致的音频干扰信号，考虑到了本机音频输出装置与本机音频输入装置之间的音频传播路径及本机音频输出装置输出的音频信号经过该传播路径后的各频点的增益或损耗，可以准确得到本机音频输出装置输出的音频对本机音频输入装置的音频干扰信号，有效提高了在本机音频输出装置有音频输出时进行语音识别的语音识别率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别的方法，其特征在于，包括如下步骤：

接收音频输入信号；

对所述第二音频信号进行语音识别处理。

2.如权利要求1所述的方法，其特征在于，所述获取第一增益/衰减系数，具体包括：

通过读取预设的所述第一增益/衰减系数，获取所述第一增益/衰减系数；或者，

通过计算所述第一增益/衰减系数，获取所述第一增益/衰减系数。

3.如权利要求1所述的方法，其特征在于，在获取第一音频信号的前一时刻，获取所述第一增益/衰减系数。

4.如权利要求2所述的方法，其特征在于，所述计算所述第一增益/衰减系数，具体包括：

获取所述第一音频信号；

获取第三音频信号，所述第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

根据所述第一音频信号及所述第三音频信号的关系，计算所述第一增益/衰减系数。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一音频信号及所述第三音频信号的关系，计算各频点所述第一增益/衰减系数，具体包括：

根据所述第一音频信号及所述第三音频信号的关系，计算各频点所述第一增益系数，如下：

其中，G为所述第一增益系数，V₂(f_i，t)为获取的第三音频信号频点为f_i的信号分量，V₁(f_i，t)为获取的第一音频信号频点为f_i的信号分量；或者，

根据所述第一音频信号及所述第三音频信号的关系，计算各频点所述第一衰减系数，如下：

其中，A为所述第一衰减系数。

6.一种语音识别的装置，其特征在于，包括：

接收单元，用于接收音频输入信号；

7.如权利要求6所述的装置，其特征在于，所述获取单元具体用于通过读取预设的所述第一增益/衰减系数，获取所述第一增益/衰减系数；或者，

8.如权利要求6所述的装置，其特征在于，所述获取单元进一步用于在获取第一音频信号的前一时刻，获取所述第一增益/衰减系数。

9.如权利要求7所述的装置，其特征在于，所述获取单元，进一步包括：

第一获取子单元，用于获取所述第一音频信号；

第二获取子单元，用于获取第三音频信号，所述第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号；

确定子单元，用于根据所述第一音频信号及所述第三音频信号的关系，计算所述第一增益/衰减系数。

10.如权利要求9所述的装置，其特征在于，所述确定子单元具体用于：

其中，A为所述第一衰减系数。

11.一种终端，其特征在于，包括：本机音频输入装置、本机音频输出装置及权利要求6至10任一所述的语音识别的装置，

所述本机音频输入装置，用于接收音频信号；

所述本机音频输出装置，用于输出音频信号；