CN109308895B

CN109308895B - 声学模型训练方法、装置、设备及计算机可读介质

Info

Publication number: CN109308895B
Application number: CN201811473628.8A
Authority: CN
Inventors: 霍昱光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-12-27
Anticipated expiration: 2038-12-04
Also published as: CN109308895A

Abstract

本发明提出一种声学模型训练方法，包括：对输入的语音进行识别，得到语音数据对应的文本；当检测到对所述文本的修改操作时，获取修改数据；将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。本发明实施例利用客户端上实际收集到的同源数据并将其转换成有效的新训练数据，相对于原始的人工标注数据方式大幅节省时间和人力，同时大量增加数据积累。

Description

声学模型训练方法、装置、设备及计算机可读介质

技术领域

本发明涉及人工智能领域，尤其涉及一种声学模型训练方法及装置、设备和计算机可读介质。

背景技术

目前，随着语音识别技术的发展，越来越多产品采用了语音识别技术。例如，采用语音输入法等。而在具有语音识别功能的程序中，识别结果有时与用户实际想输入的内容不完全一致。

为了提高语音识别的准确率，一般采用声学模型对语音识别进行训练。首先通过从数据供应商直接购买或公司内部的标注团队对某一来源的数据进行标注获得训练数据，之后将处理好的训练数据加入到模型训练中，通过调整各种训练数据的比例和训练参数提升模型性能。

然而，由于声学模型训练一般数据获取方案需进行人工标注，语音数据需花费大量人力、财力、时间进行标注及重检。另外，无法保证采集到的音频数据与客户端数据同源，可能造成训练有偏。

发明内容

本发明实施例提供一种声学模型训练方法、装置、设备及计算机可读介质，以解决或缓解现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种声学模型训练方法，包括：

对输入的语音进行识别，得到语音数据对应的文本；

当检测到对所述文本的修改操作时，获取修改数据；

将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。

在一种实施方式中，所述当检测到对所述文本的修改操作时，获取修改数据，包括：

检测文本的修改内容，剔除修改数据中对标点符号的修改数据；

检测文本中文字的修改后文本字数，保留与修改前文本字数相同的修改数据。

在一种实施方式中，所述将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练包括：

从声学模型的原始数据输入层输入原始训练数据；

从声学模型的新数据输入层输入新的训练数据；

在声学模型的隐层中对原始训练数据和新的训练数据进行训练；

从声学模型的原始数据输出层输出原始训练数据的识别标签；

从声学模型的新数据输出层输出新训练数据的识别标签。

在一种实施方式中，所述新的训练数据和原始训练数据的数据量比例为：1:1～1:2之间。

第二方面，本发明实施例提供了一种声学模型训练装置，包括：

识别模块，用于对输入的语音进行识别，得到语音数据对应的文本；

修改检测模块，用于当检测到对所述文本的修改操作时，获取修改数据；

训练模块，用于将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。

在一种实施方式中，所述修改检测模块包括：

内容检测子模块，用于检测文本的修改内容，剔除修改数据中对标点符号的修改数据；

字数检测子模块，用于检测文本中文字的修改后文本字数，保留与修改前文本字数相同的修改数据。

在一种实施方式中，所述训练模块包括：

原始数据输入子模块，用于从声学模型的原始数据输入层输入原始训练数据；

新数据输入子模块，用于从声学模型的新数据输入层输入新的训练数据；

联合训练子模块，用于在声学模型的隐层中对原始训练数据和新的训练数据进行训练；

原始数据输出子模块，用于从声学模型的原始数据输出层输出原始训练数据的识别标签；

新数据输出子模块，用于从声学模型的新数据输出层输出新训练数据的识别标签。

第三方面，在一个可能的设计中，声学模型训练装置的结构中包括处理器和存储器，所述存储器用于存储支持声学模型训练装置执行上述第一方面中声学模型训练方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述声学模型训练装置还可以包括通信接口，用于声学模型训练装置与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读介质，用于存储声学模型训练装置所用的计算机软件指令，其包括用于执行上述第一方面的声学模型训练方法所涉及的程序。

上述的一个技术方案具有如下优点或有益效果：利用客户端上实际收集到的同源数据并将其转换成有效的新训练数据，相对于原始的人工标注数据方式大幅节省时间和人力，同时大量增加数据积累。

上述的另一个技术方案具有如下优点或有益效果：采用的训练数据筛选策略为有针对性的使用模型之前识别错误的样本，可以缩短训练时间，同时避免了对原本识别正确数据的过拟合造成的性能下降。

上述的另一个技术方案具有如下优点或有益效果：采用新的训练策略来平衡新旧训练之间的数据差异，避免训练有偏或过拟合。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明一实施例的声学模型训练方法的流程图；

图2为本发明一实施例的步骤S120的具体流程图；

图3为本发明一实施例的声学模块的结构示意图；

图4为本发明一实施例的步骤S130的具体流程图；

图5为本发明一实施例的声学模型训练方法的具体应用示意图；

图6为本发明一实施例的声学模型训练装置的连接框图；

图7为本发明一实施例的修改检测模块的连接框图；

图8为本发明一实施例的训练的连接框图；

图9为本发明另一实施例的声学模型训练设备框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。本发明实施例主要提供了一种通声学模型训练的方法及装置，下面分别通过以下实施例进行技术方案的展开描述。

本发明提供了一种声学模型训练方法和装置，以下详细介绍本发明实施例的声学模型训练方法和装置的具体处理流程和原理。

如图1所示，其为本发明实施例的声学模型训练方法的流程图。本发明实施例的声学模型训练方法可以包括以下步骤：

S110：对输入的语音进行识别，得到语音数据对应的文本。

在一种实施方式中，当用户采用语音输入法输入语音时，可以通过语音识别系统对用户输入的语音进行识别，然后再输出对应的文本。

S120：当检测到对所述文本的修改操作时，获取修改数据。

例如，对用户输入的语音进行识别后，输出“网上去哪吃饭”。由于识别的结果有误，此时用户对所述文本进行修改，例如修改为“晚上去哪吃饭”，并获取修改后的文本。

如图2所示，在一种实施方式中，所述步骤S120具体可以包括：

S121：检测文本的修改内容，剔除修改数据中对标点符号的修改数据。

比如初始识别的文字为“网上去哪里吃饭。”，假设用户修改后的文字为“晚上去哪里吃饭？”。其中，对修改前后的内容进行比对，可以获得修改的内容包括文字部分修改，即将“网上”修改为“晚上”，还有对标点符号的修改，即将“。”修改为“？”。其中，仅需要保留文字部分的修改内容。

S122：检测文本中文字的修改后文本字数，保留与修改前文本字数相同的修改数据。

比如初始识别的文字为“网上去哪里吃饭”，假设用户修改后的文字为“晚上去哪里吃饭，几点出发”。其中，对比修改前后的内容，修改的文字部分为将“网上”修改为“晚上”，另外还增加了“几点出发”。因此，根据前后对比的内容的字数不同，修改后的文字不作为新的训练数据。

S130：将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。

在获取新的训练数据后，需要和原始数据一起输入至声学模型中进行训练，以对声学模型进行更新。在一种实施方式中，所述新的训练数据和原始训练数据的数据量比例可以根据情况进行设定，例如可以设定在1:1～1:2之间。

为了不过度学习新加入的训练数据而导致训练模型产生偏差，对声学模型的结构进行调整优化，即在原始的结构上增加一个输入层和一个输出层。如图3所示，在一种实施方式中，所述声学模型可以包括：

原始数据输入层，用于接收原始的训练数据。

新数据输入层，用于接收新的训练数据。

隐层，用于对原始数据和新数据进行训练。

原始数据输出层，用于输出原始训练数据的识别标签。

新数据输出层，用于输出新的训练数据的识别标签。

在之后的微调训练中，当前模型之前使用过的训练数据仍从原始的输入层和输出层进出模型。获取的新训练数据从新增加的输入输出层进出模型。在进行微调训练是，通过对新旧数据进行隐层共享，在学习到新数据新特性的情况下不会训偏，同时避免了对旧数据的过拟合。

如图4所示，所述将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练包括：

S131：从声学模型的原始数据输入层输入原始训练数据。

例如可以将原始的语音数据和对应的文本标注输入至声学模型中进行训练。其中，输入的原始的训练数据的数据量可以是新的训练数据的1～2倍。

S132：从声学模型的新数据输入层输入新的训练数据。

例如将获取到的语音数据和用户修改后的文本作为新的训练数据输入至声学模型。

S133：在声学模型的隐层中对原始训练数据和新的训练数据进行训练。

S134：从声学模型的原始数据输出层输出原始训练数据的识别标签。

当完成训练后，由原始数据输出层输出原始数据的识别标签。即通过训练学习后，在原始的语音数据中提取出不同的声学特征，然后再映射到对应发音词典中。

S135：从声学模型的新数据输出层输出新训练数据的识别标签。

同理，在新的语音数据中提取出不同的声学特征，然后再映射对应发音词典中，以完成对声学模型的微调训练。

如图5所示，其为本发明实施例的声学模型训练方法的具体应用示意图。首先，先采用原始数据对在线模型进行训练。然后，当接收用户输入的音频数据后，对输入的音频数据进行识别，输出识别结果。

当用户对当前的识别结果进行修改时，形成负反馈样本，即修改数据。接着从所述负反馈样本中筛选，保留与修改前字数相同的文本，作为新的训练数据。

最后，将原始数据和新的数据一起加入当前在线模型进行微调训练，从而完成对当前在线模型不断的优化。

本发明实施例将客户端上实际收集到的同源数据转换成有效的新训练数据，相对于原始的人工标注数据方式，能够大幅节省时间和人力，同时大量增加数据积累。

进一步地，采用的训练数据筛选策略为：有针对性的使用模型之前识别错误的样本，可以缩短训练时间，同时避免了对原本识别正确数据的过拟合造成的性能下降。通过采用新的训练策略来平衡新旧训练之间的数据差异，避免训练有偏或过拟合。

如图6所示，本发明在另一种实施例中，还提供了一种声学模型训练装置，包括：

识别模块110，用于对输入的语音进行识别，得到语音数据对应的文本；

修改检测模块120，用于当检测到对所述文本的修改操作时，获取修改数据。

训练模块130，用于将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。在一种实施方式中，所述新的训练数据和原始训练数据的数据量比例为：1:1～1:2之间。

如图7所示，在一种实施方式中，所述修改检测模块120包括：

内容检测子模块121，用于检测文本的修改内容，剔除修改数据中对标点符号的修改数据。

字数检测子模块122，用于检测文本中文字的修改后文本字数，保留与修改前文本字数相同的修改数据。

如图8所示，在一种实施方式中，所述训练模块130包括：

原始数据输入子模块131，用于从声学模型的原始数据输入层输入原始训练数据。

新数据输入子模块132，用于从声学模型的新数据输入层输入新的训练数据。

联合训练子模块133，用于在声学模型的隐层中对原始训练数据和新的训练数据进行训练。

原始数据输出子模块134，用于从声学模型的原始数据输出层输出原始训练数据的识别标签。

新数据输出子模块135，用于从声学模型的新数据输出层输出新训练数据的识别标签。

本实施例的声学模型训练装置与上述实施例的声学模型训练方法的原理类似，故不再赘述。

在另一个实施例中，本发明还提供一种声学模型训练设备，如图9所示，该设备包括：存储器510和处理器520，存储器510内存储有可在处理器520上运行的计算机程序。所述处理器520执行所述计算机程序时实现上述实施例中的声学模型训练方法。所述存储器510和处理器520的数量可以为一个或多个。

该设备还包括：

通信接口530，用于与外界设备进行通信，进行数据交互传输。

存储器510可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器510、处理器520和通信接口530独立实现，则存储器510、处理器520和通信接口530可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器510、处理器520及通信接口530集成在一块芯片上，则存储器510、处理器520及通信接口530可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种声学模型训练方法，其特征在于，包括：

对输入的语音进行识别，得到语音数据对应的文本；

当检测到对所述文本的修改操作时，获取修改数据；

将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练；其中，

所述将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练包括：

从声学模型的原始数据输入层输入原始训练数据；

从声学模型的新数据输入层输入新的训练数据；

从声学模型的新数据输出层输出新训练数据的识别标签。

2.根据权利要求1所述的方法，其特征在于，所述当检测到对所述文本的修改操作时，获取修改数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述新的训练数据和原始训练数据的数据量比例为：1:1～1:2之间。

4.一种声学模型训练装置，其特征在于，包括：

训练模块，用于将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练；其中，

所述训练模块包括：

5.根据权利要求4所述的装置，其特征在于，所述修改检测模块包括：

6.根据权利要求4所述的装置，其特征在于，所述新的训练数据和原始训练数据的数据量比例为：1:1～1:2之间。

7.一种声学模型训练设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-3中任一所述的声学模型训练方法。

8.一种计算机可读介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的声学模型训练方法。