CN108597502A

CN108597502A - 基于对抗训练的领域语音识别训练方法

Info

Publication number: CN108597502A
Application number: CN201810397535.5A
Authority: CN
Inventors: 宋荣
Original assignee: Shanghai Enjoy Culture Communication Co Ltd
Current assignee: Shanghai Enjoy Culture Communication Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-09-28

Abstract

本发明涉及一种基于对抗训练的领域语音识别训练方法，为了提高计算机对语音的识别率而设计。本发明基于对抗训练的领域语音识别训练方法包括：输入一个音频文件作为训练输入；分别通过通用语音引擎和领域语音模型识别文本；领域识别模型，按照输入的初步文本确定语音最有可能对应的2个领域；按照匹配的领域，利用各自的领域模型进行文本转换；匹配两个领域语音模型输入文本和原始输入文本的近似度，选择高匹配结果；然后比对通用语音识别的结果和领域语音模型识别的结果.如果结果不匹配，把训练结果和对应语音导入领域特征库，开始下一次迭代训练整体模型的匹配程度达到目标后，完成领域语音识别模型的训练。

Description

基于对抗训练的领域语音识别训练方法

技术领域

本发明具体涉及一种基于对抗训练的领域语音识别训练方法。

背景技术

现有语音识别训练技术，针对特定领域的语音(专业名词，专业表述方式) 的识别，还是基于通用语音和表述来完成，对于同发音跨领域的识别判断困难，准确率低，没能建立特定领域的训练集，以及利用领域内的语义和语法进一步纠正和提升识别率。

发明内容

为解决上述技术问题，本发明的目的是提供一种利用基于特定领域建立的语音资料库和特定领域的知识语义完来提高计算机对语音的基于对抗训练的领域语音识别训练方法。

本发明基于对抗训练的领域语音识别训练方法，包括：

输入一个音频文件作为训练输入；

分别通过通用语音引擎和领域语音模型识别语音并转化为初步文本；

基于文本主题模型Topic Model，按照输入的初步文本确定语音最有可能对应的2个领域；

按照匹配的领域，利用各自的领域模型进行语音到文本的转换，得到语音输入的领域识别的文本版本；

分别计算两个领域语音模型输出的文本和原始音频文件的对应输入文本的近似度，选择高匹配结果；

文本近似度基于语料库的词向量(Word Embedding)分数的求和后泛化计算得出；利用文本近似度做为领域模型的损失函数，记为D_领域；

同时利用词向量语料库，计算通用模型产生的文本和原始音频文件对应文本的近似度，记为D_通用；

每次训练迭代，同时优化一次通用模型和领域模型，通用模型会根据原始语音输入产生不同的识别文本，同时领域模型会根据领域纠错后也产生新的文本，每次迭代，同时优化两个损失函数；

整体模型是通用模型和领域模型识别对抗的结果，多次迭代后，两个损失函数产生收敛性，从而得到最终结果，完成领域语音识别模型的训练。

借由上述方案，本发明基于对抗训练的领域语音识别训练方法至少具有以下优点：

本发明基于语音判读语音对应的特定领域，基于领域的训练模型，提高识别准确性.同时，通过设置对抗训练、特定领域的语音语义匹配，创造了提升面向领域的识别准确率和识别速度提升的手段。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1本发明基于对抗训练的领域语音识别训练方法框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

如图1所示，本实施例基于对抗训练的领域语音识别训练方法，包括：

输入一个音频文件作为训练输入；

分别计算两个领域语音模型输出的文本和原始音频文件的对应输入文本的近似度，选择高匹配结果。文本近似度基于语料库的词向量(Word Embedding) 分数的求和后泛化计算得出。利用文本近似度做为领域模型的损失函数，记为 D_领域；

同时利用和上一步相同的词向量语料库，计算通用模型产生的文本和原始音频文件对应文本的近似度，记为D_通用；

最后一步的训练目标为降低D_领域的结果，同时提升D_通用的结果。每次训练迭代，同时优化一次通用模型和领域模型。这个过程中，通用模型会根据原始语音输入产生不同的识别文本，同时领域模型会根据领域纠错后也产生新的文本。每次迭代，同时优化两个损失函数。

整体模型是通用模型和领域模型识别对抗的结果。多次迭代后，两个损失函数产生收敛性，从而得到最终结果，完成领域语音识别模型的训练。

整体模型里领域模型部分产生的训练系数和数据作为Soundnet。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于对抗训练的领域语音识别训练方法，其特征在于，包括：

输入一个音频文件作为训练输入；