CN107452372A

CN107452372A - 远场语音识别模型的训练方法和装置

Info

Publication number: CN107452372A
Application number: CN201710866260.0A
Authority: CN
Inventors: 孙建伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2017-12-08
Anticipated expiration: 2037-09-22
Also published as: CN107452372B

Abstract

本发明公开了一种远场语音识别模型的训练方法和装置，其中，远场语音识别模型的训练方法包括：获取近场语音数据集；从近场语音数据集中抽取预定数量的近场语音数据，并采用重录近场语音数据的方式获取远场音频；将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征；将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，近场语音数据集中的近场语音数据与获取远场语音数据时使用的近场语音数据不同；以及基于混叠后的语音特征数据训练远场语音识别模型。本发明实施例的远场语音识别模型的训练方法，能够有效地提升远场语音识别模型的泛化能力，提高语音识别准确率。

Description

远场语音识别模型的训练方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种远场语音识别模型的训练方法和装置。

背景技术

随着科技的不断进步，语音识别技术已成为进入智能化时代的一个标志性技术。通过语音识别技术，智能终端可以与人们进行智能的通话、问答等，大大地方便了用户。目前，近场语音识别技术已经基本成熟，远场语音识别的需求也在不断的增加。但是远场语音数据对场景以及周围录音环境都有诸多要求(混响、噪声)，且不易采集，因此很难训练出高效的识别模型，识别准确率低。

发明内容

本发明提供一种远场语音识别模型的训练方法和装置，以解决上述技术问题中的至少一个。

本发明实施例提供一种远场语音识别模型的训练方法，包括：获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频；将所述远场音频切分为多个远场语音片段，并提取所述远场语音片段中的远场语音特征；将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，所述近场语音数据集中的近场语音数据与获取所述远场语音数据时使用的近场语音数据不同；以及基于混叠后的语音特征数据训练远场语音识别模型。

本发明另一实施例提供一种远场语音识别模型的训练装置，包括：获取模块，用于获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；录音模块，用于从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频；提取模块，用于将所述远场音频切分为多个远场语音片段，并提取所述远场语音片段中的远场语音特征；处理模块，用于将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，所述近场语音数据集中的近场语音数据与获取所述远场语音数据时使用的近场语音数据不同；以及训练模块，用于基于混叠后的语音特征数据训练远场语音识别模型。

本发明还一实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述的远场语音识别模型的训练方法。

本发明又一实施例提供一种终端设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器用于执行本发明第一方面实施例所述的远场语音识别模型的训练方法。

本发明实施例提供的技术方案可以包括以下有益效果：

通过获取近场语音数据集，再从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频，然后将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征，再将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，以及基于混叠后的语音特征数据训练远场语音识别模型，能够有效地提升远场语音识别模型的泛化能力，提高语音识别准确率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的远场语音识别模型的训练方法的流程图；

图2是根据本发明一个实施例的远场语音识别模型的训练装置的结构框图；

图3是根据本发明另一个实施例的远场语音识别模型的训练装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的远场语音识别模型的训练方法和装置。

图1是根据本发明一个实施例的远场语音识别模型的训练方法的流程图。

如图1所示，该远场语音识别模型的训练方法包括：

S101，获取近场语音数据集。

目前，远场语音数据对场景等要求比较高，不易采集，数据规模较小，不能满足大规模的远场语音识别模型的训练要求。为此，本申请提出一种远场语音识别模型的训练方法，该方法利用播放设备和信号采集设备，通过对对现有的大规模近场语音数据进行重录，从而有效地获取大量的混有房间噪声和设备混响的远场语音数据，进而训练出识别率较高的远场语音识别模型。

在本发明的一个实施例中，可获取近场语音数据集。由于近场语音识别已经相对成熟，因此可直接获取由若干已标注的近场语音数据组成的近场语音数据集。

S102，从近场语音数据集中抽取预定数量的近场语音数据，并采用重录近场语音数据的方式获取远场音频。

在本发明的一个实施例中，可从近场语音数据集中抽取预定数量的近场语音数据，将预定数量的近场语音数据合并成一段能够连续播放的音频数据，再通过播放设备播放音频数据，同时通过信号采集设备录制音频数据，以生成远场音频。

在本发明的另一个实施例中，在通过信号采集设备录制音频数据，并生成远场音频之后，还可对远场音频进行校准对齐。具体地，可获取远场音频的起止点，并根据起止点对远场音频进行截取，然后将截取后的远场音频与播放的音频数据进行对齐，使得两者的起点保持一致。

其中，播放设备与信号采集设备之间的距离，可根据场景的不同进行相应的设置。例如卧室场景、会议室场景等，由于房间的大小不同，设置的距离也相应变化。

此外，还可根据场景的不同设置信号采集设备的数量，以提高录音效率。具体地，信号采集设备可为多个，多个信号采集设备与播放设备之间的距离为等差数列，如设有三个信号采集设备，分别距离播放设备1米、3米、5米进行设置，可同时得到1米远场语音数据、3米远场语音数据以及5米远场语音数据。

另外，播放设备播放音频数据时的音量与场景相关。例如在空间较小的房间内录音，降低播放设备的音量；在空间较大的房间内，则提高音量。如果信号采集设备未开启DRC(Dynamic Range Control，动态范围控制)，则提高播放设备的音量，如果信号采集设备开启DRC，则降低播放设备的音量。

S103，将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征。

其中，远场语音特征可包括fbank特征。

S104，将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠。

其中，该用于混叠的近场语音数据与重录得到远场语音数据时使用的近场语音数据不同。为得到泛化性较好的模型，近场语音特征与远场语音特征的混叠比例可以是3:1。

S105，基于混叠后的语音特征数据训练远场语音识别模型。

具体地，可将混叠后的语音特征数据作为输入，输入至初始的语音识别模型进行训练。其中，初始的语音识别模型可以是现有的近场语音识别模型。

训练之后的远场语音识别模型便可以用于识别远场语音，提高了识别的准确率。

下面以一个具体的例子进行描述。

目前，为了提高远场语音识别的准确性，在训练远场语音识别模型时，需要考虑到房间混响、环境噪声等因素所产生影响，因此需要加入足够数据量的远场语音数据进行训练，以提高远场语音识别模型的泛化能力及识别效果。

首先，是远场语音数据的采集。目前，主要利用信号采集设备采集用户说出的远场语音数据，然后通过人工标注的方式获得用于训练的远场语音数据。该方式浪费人力物力，人工成本和时间成本高。并且对于各种不同场景，均需要进行相应的语音数据采集和标注工作。而本申请中，则是利用已标注好的近场语音数据生成远场语音数据，不需要再进行人工标注，节约人工成本。

具体地，播放设备与数据采集设备之间的距离参数可按照实际场景需求进行调节。如，某个产品需要在3米处能够保证语音识别的准确性，则在语音重录过程中，播放设备跟信号采集设备之间的距离不能少于3米。

本实施例中，假设在一个长6米*宽5米的会议室中进行语音重录，在未明确规定有效识别距离的情况下，可在距离播放设备1米、3米、5米处各放置一个或多个数据采集设备(录音设备)进行信号采集，确保空间能够有效利用，设置更加灵活，具有针对性。

在设置好设备之后，可从现有的近场语音数据集中提取一部分近场语音数据，将这一部分近场语音数据合并成一段较长的连续播放的音频，如10小时。远场语音数据在重录时，先将信号采集设备进行启动，在确保所有的信号采集设备全部正常启动之后才启动播放设备。相对应的，在音频播放完毕后，信号采集设备所收录的音频结尾往往是不包含语音的环境和设备噪声，该噪音会影响音频切分的准确性。因此，需要对远场语音数据进行对齐校准，从而保证远场语音数据的准确性。具体地，可去掉录制的音频的开头与结尾处的静音或者噪声，以保持录制的音频与播放的音频在时间上的一致性。

此外，由于信号采集设备的硬件性能特征，设备的时钟频率可能会存在一定的时延，这会造成录制的音频中每小段语音位置与播放的音频对应的语音位置相对延后。因此，可以每隔500条数据进行一次对齐，以提高语音切分的准确性。当然，如果两者时间差距不大，则无需进行对齐操作。最终，通过人工验证数据是否完全对齐。

在获得远场语音数据之后，可对录制得到的音频进行重新切分，之后对其进行特征提取，最终获得训练远场语音识别模型所需的特征。具体地，可利用获取的远场语音数据的fabank特征，与匹配数量的多组近场语音数据的特征，混叠组成多组训练语料，然后利用多组训练语料，训练得到远场语音识别模型。由于每组训练语料中均包含远场语音数据的特征，从而提高了训练出的远场语音识别模型的识别准确性。例如：已有28000小时的近场语音数据集，可从中选取一部分进行重录，生成800小时的远场语音数据。再从28000小时的近场语音数据集中抽取2400小时的近场语音数据，与800小时的远场语音数据，将它们的特征进行混叠，即3：1的比例。将混叠后的特征数据进行数据清洗等操作后，输入至初始模型中进行训练。之后，再从28000小时的近场语音数据集中抽取另一部分的2400小时的近场语音数据，与之前的800小时的远场语音数据进行混叠，即将这部分提取的特征进行混叠，再进行第二轮训练，以此类推，可进行多轮训练，既保证训练后的远场语音识别模型能够充分学习到远场语音数据的特性，又能充分地利用近场语音数据，防止远场语音数据规模过小。

本发明实施例的远场语音识别模型的训练方法，通过获取近场语音数据集，再从近场语音数据集中抽取预定数量的近场语音数据，并采用重录近场语音数据的方式获取远场音频，然后将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征，再将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，以及基于混叠后的语音特征数据训练远场语音识别模型，能够有效地提升远场语音识别模型的泛化能力，提高语音识别准确率。

为了实现上述实施例，本发明还提出了一种远场语音识别模型的训练装置，图2是根据本发明一个实施例的远场语音识别模型的训练装置的结构框图，如图2所示，该装置包括获取模块210、录音模块220、处理模块230和训练模块240。

获取模块210，用于获取近场语音数据集，近场语音数据集由若干已标注的近场语音数据组成。

录音模块220，用于从近场语音数据集中抽取预定数量的近场语音数据，并采用重录近场语音数据的方式获取远场音频。

提取模块230，用于将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征。

处理模块240，用于将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，近场语音数据集中的近场语音数据与获取远场语音数据时使用的近场语音数据不同。

训练模块250，用于基于混叠后的语音特征数据训练远场语音识别模型。

此外，如图3所示，远场语音识别模型的训练装置还可包括：

校准模块260，用于在通过信号采集设备录制音频数据，以生成远场音频之后，对远场音频进行校准对齐。

需要说明的是，前述对远场语音识别模型的训练方法的解释说明，也适用于本发明实施例的远场语音识别模型的训练装置，本发明实施例中未公布的细节，在此不再赘述。

本发明实施例的远场语音识别模型的训练装置，通过获取近场语音数据集，再从近场语音数据集中抽取预定数量的近场语音数据，并采用重录近场语音数据的方式获取远场音频，然后将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征，再将远场语音特征与近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，以及基于混叠后的语音特征数据训练远场语音识别模型，能够有效地提升远场语音识别模型的泛化能力，提高语音识别准确率。

为了实现上述实施例，本发明还提出了一种终端设备。

终端设备包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器用于执行本发明第一方面实施例的远场语音识别模型的训练方法。

例如，计算机程序可被处理器执行以完成以下步骤的远场语音识别模型的训练方法：

S101’，获取近场语音数据集。

S102’，从近场语音数据集中抽取预定数量的近场语音数据，并采用重录近场语音数据的方式获取远场音频。

S103’，将远场音频切分为多个远场语音片段，并提取远场语音片段中的远场语音特征。

S104’，将远场语音特征与近场语音数据集中的近场语音数据以预设比例进行混叠。

S105’，基于混叠后的语音特征数据训练远场语音识别模型。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例的远场语音识别模型的训练方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种远场语音识别模型的训练方法，其特征在于，包括：

获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；

从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频；

将所述远场音频切分为多个远场语音片段，并提取所述远场语音片段中的远场语音特征；

将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，所述近场语音数据集中的近场语音数据与获取所述远场语音数据时使用的近场语音数据不同；以及

基于混叠后的语音特征数据训练远场语音识别模型。

2.如权利要求1所述的方法，其特征在于，采用重录所述近场语音数据的方式获取远场音频，包括：

将所述预定数量的近场语音数据合并成一段能够连续播放的音频数据；

通过播放设备播放所述音频数据，同时通过信号采集设备录制所述音频数据，以生成所述远场音频。

3.如权利要求2所述的方法，其特征在于，所述播放设备与所述信号采集设备之间的距离，根据场景的不同进行相应的设置。

4.如权利要求2所述的方法，其特征在于，所述信号采集设备为多个，多个所述信号采集设备与所述播放设备之间的距离为等差数列。

5.如权利要求2所述的方法，其特征在于，所述播放设备播放所述音频数据时的音量与场景相关。

6.如权利要求2所述的方法，其特征在于，在通过信号采集设备录制所述音频数据，以生成远场音频之后，还包括：

对所述远场音频进行校准对齐。

7.如权利要求6所述的方法，其特征在于，对所述远场音频进行校准对齐，包括：

获取所述远场音频的起止点，并根据所述起止点对所述远场音频进行截取；

将截取后的所述远场音频与播放的音频数据进行对齐。

8.一种远场语音识别模型的训练装置，其特征在于，包括：

获取模块，用于获取近场语音数据集，所述近场语音数据集由若干已标注的近场语音数据组成；

录音模块，用于从所述近场语音数据集中抽取预定数量的近场语音数据，并采用重录所述近场语音数据的方式获取远场音频；

提取模块，用于将所述远场音频切分为多个远场语音片段，并提取所述远场语音片段中的远场语音特征；

处理模块，用于将所述远场语音特征与所述近场语音数据集中的近场语音数据提取的近场语音特征以预设比例进行混叠，所述近场语音数据集中的近场语音数据与获取所述远场语音数据时使用的近场语音数据不同；以及

训练模块，用于基于混叠后的语音特征数据训练远场语音识别模型。

9.如权利要求8所述的装置，其特征在于，所述录音模块，用于：

10.如权利要求9所述的装置，其特征在于，所述播放设备与所述信号采集设备之间的距离，根据场景的不同进行相应的设置。

11.如权利要求9所述的装置，其特征在于，所述信号采集设备为多个，多个所述信号采集设备与所述播放设备之间的距离为等差数列。

12.如权利要求9所述的装置，其特征在于，所述播放设备播放所述音频数据时的音量与场景相关。

13.如权利要求9所述的装置，其特征在于，还包括：

校准模块，用于在通过信号采集设备录制所述音频数据，以生成远场音频之后，对所述远场音频进行校准对齐。

14.如权利要求13所述的装置，其特征在于，所述校准模块，用于：

将截取后的所述远场音频与播放的音频数据进行对齐。

15.一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-7任一项所述的远场语音识别模型的训练方法。

16.一种终端设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器用于执行如权利要求1-7任一项所述的远场语音识别模型的训练方法。