CN108182948B

CN108182948B - 可提高语音识别率的语音采集处理方法及装置

Info

Publication number: CN108182948B
Application number: CN201711160902.1A
Authority: CN
Inventors: 平颖洁
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2021-08-20
Anticipated expiration: 2037-11-20
Also published as: CN108182948A

Abstract

本发明是关于一种可提高语音识别率的语音采集处理方法及装置，其中，方法包括：通过多个语音采集装置采集当前语音信息；实时分析多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值；根据分析结果从多个语音采集装置中选择出强度值最高的目标语音采集装置；将目标语音采集装置采集的第一当前语音信息的第一强度值进行增强处理，将其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理。通过该技术方案，在用户移动过程中实时确定目标语音采集装置，对目标语音采集装置的强度值进行增强，对其他目标语音采集装置的强度值进行减弱，从而使得在对语音信息进行语音识别时，减少其他目标语音采集装置的噪声干扰，提高语音识别的准确率。

Description

可提高语音识别率的语音采集处理方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种可提高语音识别率的语音采集处理方法及装置。

背景技术

相关技术中，空间中放置分散在各处的多个麦克风。如果一个人在空间中来回走，那么这个人的语音会被这些麦克风采集到，不同距离的麦克风采集到的语音强弱不同，这个时候，系统要识别这个人的语音，有两种方式：一种为只识别一个麦克风的语音，缺点为这个麦克无法采集到全部有效的语音。另一种为识别每个麦克风的语音，缺点为干扰比较多，不能确定以哪个麦克风的结果为准。

发明内容

本发明实施例提供一种可提高语音识别率的语音采集处理方法及装置，用以实现动态确定语音采集装置，以在进行语音识别时提高语音识别的准确率。

根据本发明实施例的第一方面，提供一种可提高语音识别率的语音采集处理方法，包括：

通过多个语音采集装置采集当前语音信息；

实时分析所述多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值；

根据分析结果从所述多个语音采集装置中选择出强度值最高的目标语音采集装置；

将所述目标语音采集装置采集的第一当前语音信息的第一强度值进行增强处理，将所述多个语音采集装置中其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理。

在该实施例中，在通过多个语音采集装置采集语音的过程中，实时分析每个语音采集装置采集的当前语音信息的强度值，进而确定出强度值最高的目标语音采集装置，从而增强该目标语音采集装置采集的当前语音信息的强度值，而减弱其他语音采集装置采集的当前语音信息的强度值。由于是实时分析并确定目标语音采集装置，因此，目标语音采集装置的选择是动态的，这样，可以在用户移动的过程中不断变换目标语音采集装置，对目标语音采集装置的强度值进行增强，对其他目标语音采集装置的强度值进行减弱，从而使得在对语音信息进行语音识别时，减少其他目标语音采集装置的噪声干扰，提高语音识别的准确率。

在一个实施例中，所述实时分析所述多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值，包括：

实时计算每个语音采集装置所采集的当前语音信息的强度值与所述多个语音采集装置中其他所有语音采集装置所采集的当前语音信息的强度值总和之间的差距值。

在该实施例中，可以实时分析每个语音采集装置所采集的当前语音信息的强度值，计算每个语音采集装置所采集的当前语音信息的强度值与多个语音采集装置中其他所有语音采集装置所采集的当前语音信息的强度值总和之间的差距值。具体的算法可以是，计算每个语音采集装置所采集的当前语音信息的短时能量与其他所有语音采集装置所采集的当前语音信息的短时能量总和之间的差距值，进而根据该差距值确定目标语音采集装置。

在一个实施例中，所述根据分析结果从所述多个语音采集装置中选择出强度值最高的目标语音采集装置，包括：

从所述多个语音采集装置中选取出所述差距值大于零且所述差距值最大的语音采集装置；

将所述差距值大于零且所述差距值最大的语音采集装置确定为所述目标语音采集装置。

在该实施例中，差距值最大且差距值大于零，则说明该语音采集装置采集的当前语音信息的强度值最大，因此，确定其为目标语音采集装置，进而增强其强度值，从而使得在进行语音识别时，将该语音采集装置采集的当前语音信息作为主要识别依据。

在一个实施例中，所述将所述多个语音采集装置中其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理，包括：

计算所述其他语音采集装置中每个语音采集装置采集的第二当前语音信息对应的第二强度值与预设强度阈值之间的差值；

将所述差值确定为对应的语音采集装置采集的第二当前语音信息的新强度值。

在该实施例中，为避免除目标语音采集装置外的其他语音采集装置对语音识别造成干扰，可以减小其采集的当前语音信息的强度值，具体减弱算法可以是计算其他语音采集装置中每个语音采集装置采集的第二当前语音信息的第二强度值减去预设强度阈值，进而得到对应的新的强度值。

在一个实施例中，所述预设强度阈值包括以下任一项：

所述多个语音采集装置对应的当前语音信息的强度值的算数和均值，所述多个语音采集装置对应的当前语音信息的强度值的能量均值。

根据本发明实施例的第二方面，提供一种可提高语音识别率的语音采集处理装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

通过多个语音采集装置采集当前语音信息；

在一个实施例中，所述预设强度阈值包括以下任一项：

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种可提高语音识别率的语音采集处理方法的流程图。

图2是根据一示例性实施例示出的另一种可提高语音识别率的语音采集处理方法的流程图。

图3是根据一示例性实施例示出的一种可提高语音识别率的语音采集处理方法中步骤S104的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种可提高语音识别率的语音采集处理方法的流程图。该可提高语音识别率的语音采集处理方法可以应用于语音识别设备中或具有语音识别功能的终端设备等，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音识别功能的设备。如图1所示，该方法包括步骤S101-S104：

在步骤S101中，通过多个语音采集装置采集当前语音信息；

在步骤S102中，实时分析多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值；

在步骤S103中，根据分析结果从多个语音采集装置中选择出强度值最高的目标语音采集装置；

在步骤S104中，将目标语音采集装置采集的第一当前语音信息的第一强度值进行增强处理，将多个语音采集装置中其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理。

在该实施例中，在通过多个语音采集装置采集语音的过程中，实时分析每个语音采集装置采集的当前语音信息的强度值，进而确定出强度值最高的目标语音采集装置，从而增强该目标语音采集装置采集的当前语音信息的强度值，而减弱其他语音采集装置采集的当前语音信息的强度值。由于是实时分析并确定目标语音采集装置，因此，目标语音采集装置的选择是动态的，这样，可以在用户移动的过程中不断变换目标语音采集装置，对目标语音采集装置的强度值进行增强，对其他语音采集装置的强度值进行减弱，从而使得在对语音信息进行语音识别时，减少其他语音采集装置带来的噪声干扰，提高语音识别的准确率。

如图2所示，在一个实施例中，上述步骤S102包括步骤S201：

在步骤S201中，实时计算每个语音采集装置所采集的当前语音信息的强度值与多个语音采集装置中其他所有语音采集装置所采集的当前语音信息的强度值总和之间的差距值。

在一个实施例中，上述步骤S103包括步骤S202-S203：

在步骤S202中，从多个语音采集装置中选取出差距值大于零且差距值最大的语音采集装置；

在步骤S203中，将差距值大于零且差距值最大的语音采集装置确定为目标语音采集装置。

在该实施例中，差距值最大且差距值大于零，则说明该语音采集装置采集的当前语音信息的强度值最大，即可看作该语音采集装置采集的当前语音信息的短时能量最大，因此，确定其为目标语音采集装置，进而增强其强度值，从而使得在进行语音识别时，将该语音采集装置采集的当前语音信息作为主要识别依据。

例如，通过4个语音采集装置采集当前语音信息，其中，第一个语音采集装置采集的当前语音信息的短时能量为E₁，其他三个语音采集装置采集的当前语音信息的短时能量分别为E₂，E₃和E₄，其中，短时能量的计算公式为：

其中，x_n(m)表示第n帧语音信号，则计算第一语音采集装置与其他三个语音采集装置对应的短时能量总和的差距值，即E₁-(E₂+E₃+E₄)，其他三个语音采集装置的计算方法同上，最后将差距值最大且差距值大于零的语音采集装置确定为目标语音采集装置。

如图3所示，在一个实施例中，上述步骤S104包括步骤S301-S302：

在步骤S301中，计算其他语音采集装置中每个语音采集装置采集的第二当前语音信息对应的第二强度值与预设强度阈值之间的差值；

在步骤S302中，将差值确定为对应的语音采集装置采集的第二当前语音信息的新强度值。

另外，如果不采用其他语音采集装置采集的当前语音信息，还可以直接将其他语音采集装置采集的当前语音信息的强度值设置为0，从而使得每一时刻只通过一个目标语音采集装置采集用户的语音信息，避免语音识别时存在噪声干扰。

在一个实施例中，预设强度阈值包括以下任一项：

多个语音采集装置对应的当前语音信息的强度值的算数和均值，多个语音采集装置对应的当前语音信息的强度值的能量均值。

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

通过多个语音采集装置采集当前语音信息；

实时分析多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值；

根据分析结果从多个语音采集装置中选择出强度值最高的目标语音采集装置；

将目标语音采集装置采集的第一当前语音信息的第一强度值进行增强处理，将多个语音采集装置中其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理。

在一个实施例中，实时分析多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值，包括：

实时计算每个语音采集装置所采集的当前语音信息的强度值与多个语音采集装置中其他所有语音采集装置所采集的当前语音信息的强度值总和之间的差距值。

在一个实施例中，根据分析结果从多个语音采集装置中选择出强度值最高的目标语音采集装置，包括：

从多个语音采集装置中选取出差距值大于零且差距值最大的语音采集装置；

将差距值大于零且差距值最大的语音采集装置确定为目标语音采集装置。

在一个实施例中，将多个语音采集装置中其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理，包括：

计算其他语音采集装置中每个语音采集装置采集的第二当前语音信息对应的第二强度值与预设强度阈值之间的差值；

将差值确定为对应的语音采集装置采集的第二当前语音信息的新强度值。

在一个实施例中，预设强度阈值包括以下任一项：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种可提高语音识别率的语音采集处理方法，其特征在于，包括：

通过多个语音采集装置采集当前语音信息；

将所述目标语音采集装置采集的第一当前语音信息的第一强度值进行增强处理，将所述多个语音采集装置中其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理；

所述将所述多个语音采集装置中其他语音采集装置采集的第二当前语音信息的第二强度值进行减弱处理，包括：

将所述差值确定为对应的语音采集装置采集的第二当前语音信息的新强度值；

所述实时分析所述多个语音采集装置中每个语音采集装置所采集的当前语音信息的强度值，包括：

实时计算每个语音采集装置所采集的当前语音信息的强度值与所述多个语音采集装置中其他所有语音采集装置所采集的当前语音信息的强度值总和之间的差距值；

所述根据分析结果从所述多个语音采集装置中选择出强度值最高的目标语音采集装置，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设强度阈值包括以下任一项：

3.一种可提高语音识别率的语音采集处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

通过多个语音采集装置采集当前语音信息；

4.根据权利要求3所述的装置，其特征在于，所述预设强度阈值包括以下任一项：