CN111816171A

CN111816171A - 语音识别模型的训练方法、语音识别方法及装置

Info

Publication number: CN111816171A
Application number: CN202010891788.5A
Authority: CN
Inventors: 李成飞; 杨嵩; 徐高鹏
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-10-23
Anticipated expiration: 2040-08-31
Also published as: CN111816171B

Abstract

本申请提出一种语音识别模型的训练方法、语音识别方法及装置，其中，语音识别模型的训练方法包括：利用第一通用语料，训练得到语言模型模块；利用所述语言模型模块，得到初始的语音识别模型；利用语音识别标注语料，训练所述初始的语音识别模型，得到收敛的语音识别模型。本申请实施例可以使语音识别模型掌握充足的语言规律信息，提高语音识别的准确率。

Description

语音识别模型的训练方法、语音识别方法及装置

技术领域

本申请涉及语音识别领域，尤其涉及一种语音识别模型的训练方法、语音识别方法及装置。

背景技术

随着深度学习的快速发展，基于深度神经网络的端到端（End-to-End，E2E）模型在自动语音识别领域得到了广泛的关注和研究，成为语音识别领域新研究热点。端到端语音识别模型利用语音和文本成对的标注语料训练得到，所掌握的自然语言规律有限，因此，存在识别准确度低的问题。

发明内容

本申请实施例提供一种语音识别模型的训练方法、语音识别方法及装置，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种语音识别模型的训练方法，包括：

利用第一通用语料，训练得到语言模型模块；

利用所述语言模型模块，得到初始的语音识别模型，所述初始的语音识别模型包括声学模型模块、融合模块和所述语言模型模块；

利用语音识别标注语料，训练所述初始的语音识别模型，得到收敛的语音识别模型。

在一种实施方式中，所述语言模型模块用于对目标语音中的第一语音单元进行语言规律识别，得到所述第一语音单元的语言规律信息；

所述声学模型模块用于对所述目标语音中的第二语音单元进行声学特征提取，得到所述第二语音单元的声学特征；

所述融合模块用于将第一语音单元的语言规律信息与第二语音单元的声学特征融合，得到所述第二语音单元的识别结果；

其中，所述第一语音单元是在所述第二语音单元之前的语音单元。

在一种实施方式中，该方法还包括：

利用第二通用语料以及与目标场景对应的第一专用语料，得到融合语料；

利用所述融合语料，对所述语言模型模块进行微调训练。

在一种实施方式中，所述利用第二通用语料以及与目标场景对应的第一专用语料，得到融合语料，包括：

根据融合插值比例，对所述第二通用语料和所述第一专用语料进行融合，得到所述融合语料。

在一种实施方式中，还包括：

利用所述第二通用语料，训练得到通用语言模型；

利用所述第一专用语料，训练得到专用语言模型；

利用所述通用语言模型，测试与所述目标场景对应的第二专用语料的困惑度，得到第一测试结果；

利用所述专用语言模型，测试所述第二专用语料的困惑度，得到第二测试结果；

根据所述第一测试结果和所述第二测试结果，确定所述融合插值比例。

在一种实施方式中，所述利用所述第二通用语料，训练得到通用语言模型，包括：

根据文本匹配算法，在所述第二通用语料中选取与所述第二专用语料匹配的语料；

利用所述与所述第二专用语料匹配的语料，训练得到所述通用语言模型。

第二方面，本申请实施例提供了一种语音识别方法，包括：

语言规律识别步骤，将目标语音中的第一语音单元的识别结果输入语音识别模型的语言模型模块进行语言规律识别，得到所述第一语音单元的语言规律信息；

声学特征提取步骤，将所述目标语音中的第二语音单元输入所述语音识别模型的声学模型模块进行声学特征提取，得到所述第二语音单元的声学特征；

融合步骤，利用所述语音识别模型的融合模块，将所述第一语音单元的语言规律信息与第二语音单元的声学特征融合，得到所述第二语音单元的识别结果；

其中，所述第一语音单元是在第二语音单元之前的语音单元。

在一种实施方式中，所述目标语音中包括多个语音单元，该方法还包括：

将所述第二语音单元作为新的第一语音单元，将所述第二语音单元的下一个语音单元作为新的第二语音单元，重复执行所述语言规律识别步骤、声学特征提取步骤和融合步骤，直至将所述目标语音中包括的语音单元全部识别完为止。

在一种实施方式中，所述融合步骤包括：

将所述第二语音单元的声学特征和所述第一语音单元的语言规律信息输入至所述融合模块中的注意力层进行计算，得到所述第二语音单元的上下文向量；

利用所述融合模块中的归一化子模块，对所述第二语音单元的上下文向量和所述第一语音单元的语言规律信息进行归一化处理，得到所述第二语音单元的识别结果。

在一种实施方式中，所述语言规律识别步骤包括：

将所述第一语音单元的识别结果输入所述语言模型模块中的编码子模块进行编码，得到所述第一语音单元的编码信息；

将所述第一语音单元的编码信息和所述第一语音单元的位置信息输入所述语言模型模块中的语音模型进行语言规律识别，得到所述第一语音单元的语言规律信息。

在一种实施方式中，所述声学特征提取步骤包括：

将所述第二语音单元输入所述声学模型模块中的第一特征提取子模块进行滤波器组Fbank特征提取，得到所述第二语音单元的Fbank特征；

将所述第二语音单元的Fbank特征输入所述声学模型模块中的第二特征提取子模块进行深度特征提取，得到所述第二语音单元的深度声学特征。

在一种实施方式中，所述语音识别模型是基于本申请任意实施例提供的训练方法训练得到的。

第三方面，本申请实施例提供了一种语音识别模型的训练装置，包括：

第一训练单元，用于利用第一通用语料，训练得到语言模型模块；

初始化单元，用于利用所述语言模型模块，得到初始的语音识别模型，所述初始的语音识别模型包括声学模型模块、融合模块和所述语言模型模块；

第二训练单元，用于利用语音识别标注语料，训练所述初始的语音识别模型，得到收敛的语音识别模型。

在一种实施方式中，该装置还包括：

语料获取单元，用于利用第二通用语料以及与目标场景对应的第一专用语料，得到融合语料；

第三训练单元，用于利用所述融合语料，对所述语言模型模块进行微调训练。

在一种实施方式中，所述语料获取单元用于根据融合插值比例，对所述第二通用语料和所述第一专用语料进行融合，得到所述融合语料。

在一种实施方式中，该装置还包括：

第四训练单元，用于利用所述第二通用语料，训练得到通用语言模型；

第五训练单元，用于利用所述第一专用语料，训练得到专用语言模型；

第一测试单元，用于利用所述通用语言模型，测试与所述目标场景对应的第二专用语料的困惑度，得到第一测试结果；

第二测试单元，用于利用所述专用语言模型，测试所述第二专用语料的困惑度，得到第二测试结果；

比例确定单元，用于根据所述第一测试结果和所述第二测试结果，确定所述融合插值比例。

在一种实施方式中，所述第四训练单元包括：

文本匹配子单元，用于根据文本匹配算法，在所述第二通用语料中选取与所述第二专用语料匹配的语料；

模型训练子单元，用于利用所述与所述第二专用语料匹配的语料，训练得到所述通用语言模型。

第四方面，本申请实施例还提供了一种语音识别装置，包括：

语言规律识别单元，用于将目标语音中的第一语音单元的识别结果输入语音识别模型的语言模型模块进行语言规律识别，得到所述第一语音单元的语言规律信息；

声学特征提取单元，用于将所述目标语音中的第二语音单元输入所述语音识别模型的声学模型模块进行声学特征提取，得到所述第二语音单元的声学特征；

融合单元，用于利用所述语音识别模型的融合模块，将所述第一语音单元的语言规律信息与第二语音单元的声学特征融合，得到所述第二语音单元的识别结果；

在一种实施方式中，所述目标语音中包括多个语音单元，所述装置还包括：

执行单元，用于将所述第二语音单元作为新的第一语音单元，将所述第二语音单元的下一个语音单元作为新的第二语音单元，重复执行所述语言规律识别步骤、声学特征提取步骤和融合步骤，直至将所述目标语音中包括的语音单元全部识别完为止。

在一种实施方式中，所述融合单元包括：

上下文向量计算子单元，用于将所述第二语音单元的声学特征和所述第一语音单元的语言规律信息输入至所述融合模块中的注意力层进行计算，得到所述第二语音单元的上下文向量；

归一化子单元，用于利用所述融合模块中的归一化子模块，对所述第二语音单元的上下文向量和所述第一语音单元的语言规律信息进行归一化处理，得到所述第二语音单元的识别结果。

在一种实施方式中，所述语言规律识别单元包括：

编码子单元，用于将所述第一语音单元的识别结果输入所述语言模型模块中的编码子模块进行编码，得到所述第一语音单元的编码信息；

识别子单元，用于将所述第一语音单元的编码信息和所述第一语音单元的位置信息输入所述语言模型模块中的语音模型进行语言规律识别，得到所述第一语音单元的语言规律信息。

在一种实施方式中，所述声学特征提取子单元包括：

第一提取子单元，用于将所述第二语音单元输入所述声学模型模块中的第一特征提取子模块进行滤波器组Fbank特征提取，得到所述第二语音单元的Fbank特征；

第二提取子单元，用于将所述第二语音单元的Fbank特征输入所述声学模型模块中的第二特征提取子模块进行深度特征提取，得到所述第二语音单元的深度声学特征。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括：存储器和处理器。其中，该该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：

本申请的技术方案，可以先利用通用语料对语言模型模块进行单独训练，得到初始的语音识别模型，再利用语音识别标注语料训练得到收敛的语音识别模型。由于通用语料易于获取，数据量很大，因此，可以使语音识别模型掌握充足的语言规律信息，提高语音识别的准确率。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请的一个实施例提供的语音识别模型的训练方法的示意图；

图2为本申请的一个实施例中语音识别模型的结构示意图；

图3为本申请的另一个实施例提供的语音识别模型的训练方法的示意图；

图4为本申请的一个实施例中得到融合语料的示意图；

图5为本申请的一个实施例提供的语音识别方法的示意图；

图6为本申请的另一个实施例提供的语音识别方法的示意图；

图7为本申请的另一个实施例中语音识别模型的结构示意图；

图8为本申请的一个实施例提供的语音识别模型的训练装置的示意图；

图9为本申请的另一个实施例提供的语音识别模型的训练装置的示意图；

图10为本申请的一个实施例提供的语音识别装置的示意图；

图11为本申请的另一个实施例提供的语音识别装置的示意图；

图12为用来实现本申请实施例的方法的电子设备的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本申请一实施例的语音识别模型的训练方法的示意图。如图1所示，该方法可以包括：

步骤S11，利用第一通用语料，训练得到语言模型模块；

步骤S12，利用语言模型模块，得到初始的语音识别模型，初始的语音识别模型包括声学模型模块、融合模块和语言模型模块；

步骤S13，利用语音识别标注语料，训练初始的语音识别模型，得到收敛的语音识别模型。

本申请实施例中，语料可以包括例如多个短语、句子、段落等。第一通用语料可以包括未标注语音和文本的对应关系的文本语料。例如第一通用语料包括各种日常对话语料、文献语料、广告语料等。第一通用语料可以包括未针对特定场景进行筛选的语料，也可以包括针对特定场景进行筛选的语料。语音识别标注语料可以包括标注好文本和语音的对应关系的语料。例如语音识别标注语料包括文本语料和语音语料。

示例性地，可以预先确定好语音识别模型的框架结构，该模型框架结构下设置了包括语言模型模块、声学模型模块和融合模块等多个模块。然后，利用通用语料和通用的训练语言模型的方式训练语言模型模块的参数，得到收敛的语言模型模块。基于收敛的语言模型模块和预先设置的模型框架结构，得到初始的语音识别模型，该模型包括收敛的语言模型模块。再利用语音识别标注语料，训练整个初始的语音识别模型的参数，得到收敛的语音识别模型。

本申请实施例中，语音识别模型可以包括语言模型模块、声学模型模块和融合模块。利用语言模型模块可以获得语音中的语言规律信息，利用声学模型模块可以获得语音中的声学特征，利用融合模块可以对语言规律信息和声学特征进行融合，三者配合完成对语音的识别。通过声学信息、语言学信息的融合可以更精准地识别语音。

语音识别模型可以用于对目标语音进行识别，得到目标语音中各个语音单元的识别结果。这里，语音单元可以包括目标语音中的音素、字、词根或单词等最小识别单元。作为示例，如果目标语音是中文语音，则语音单元可以是汉字。如果目标语音是英文语音，则语音单元可以是词根。

在一种可选的实施方式中，语言模型模块用于对目标语音中的第一语音单元进行语言规律识别，得到所述第一语音单元的语言规律信息。

声学模型模块用于对所述目标语音中的第二语音单元进行声学特征提取，得到所述第二语音单元的声学特征。

融合模块用于将第一语音单元的语言规律信息与第二语音单元的声学特征融合，得到所述第二语音单元的识别结果。

示例性地，目标语音可以包括N个语音单元，N为大于或等于2的整数。如果第二语音单元是第i个语音单元，其中2≤i≤N，则第一语音单元可以是第(i-1)个语音单元。

语音识别模型依次识别目标语音中各个语音单元，如图2所示，在识别出第(i-1)个语音单元后，将第(i-1)个语音单元的识别结果输入至语言模型模块进行语言规律识别，语言模型模块输出第(i-1)个语音单元的语言规律信息。将第i个语音单元输入至声学模型模块进行特征识别，声学模型模块输出第i个语音单元的声学特征例如深度特征。将第(i-1)个语音单元的语言规律信息和与第i个语音单元的声学特征分别输入融合模块进行融合处理，融合模块输出第i个语音单元的识别结果。

可选地，对于目标语音中第1个语音单元，可以获取语音起始位置对应的语言规律信息，例如将起始符<BOS（Begin of Sentence）>输入至语言模型模块，得到语音起始位置对应的语言规律信息。并利用声学模型模块对第1个语音单元进行声学特征提取，然后，利用融合模块将语音起始位置对应的语言规律信息和第1个语音单元的声学特征融合，得到第1个语音单元的识别结果。然后，将第1个语音单元的识别结果和第2个语音单元分别输入到语言模型模块和声学模型模块，以得到第2个字的识别结果。依次类推，得到第3个字、第4个字等的识别结果，最终识别出目标语音中所有字。

根据上述实施方式，语音识别模型先利用第一语音单元的识别结果获得语言规律信息，再利用语言规律信息和第二语音单元的声学特征，得到第二语音单元的识别结果。相比于直接利用第一语音单元的识别结果和第二语音单元的声学特征，得到第二语音单元的识别结果，该实施方式可以将语言模型模块独立出来，有利于使用除标注语料外的大量通用语料训练语言模型模块，使语音识别模型能够从大量语料中获取充足的语言规律信息，提高语音识别的准确率。

在一种示例性的实施方式中，语音识别模型的训练方法还可以包括：

利用所述融合语料，对所述语言模型模块进行微调（fine tune）训练。

示例性地，第二通用语料可以包括未针对目标场景进行筛选的语料，例如日常用语语料、文献语料等。第一专用语料可以包括针对目标场景进行筛选的语料，例如针对语文课堂场景筛选的语文课堂对话语料。

参见图3，利用融合语料对语言模型模块进行微调训练，可以在利用第一通用语料训练语言模型模块，利用语音识别标注语料训练语音识别模型之后执行。

一般来说，微调训练是在已训练好的模型上，利用目标场景的专用数据，对模型进行再训练，以使模型在目标场景下具有更优的表现。上述实施方式中，执行微调训练利用的是第二通用语料以及第一专用语料融合得到的融合语料。由于融合语料中融合了第一专用语料，因此，可以提升语音识别模型在目标场景下的识别效果；并且，由于融合语料利用了易于搜集的第二通用语料与第一专用语料进行融合，因此，微调过程不需要费时费力地搜集大量的专用语料，可以降低语料搜集成本。

示例性地，目标场景与目标语音具有对应关系。例如，目标语音是语文课堂中的对话语音，则目标场景可以是语文课堂场景。根据上述实施方式，可以针对不同的场景，实现语音识别模型的自适应。例如，利用上述步骤S11-S13训练好语音识别模型和其中的语言模型子模块后，可以利用语文课堂场景对应的融合语料进行微调，提升语音识别模型对语文课堂语音的识别效果；也可以利用数学课堂场景的融合语料进行微调，提升语音识别模型对数学课堂语音的识别效果。

示例性地，可以根据融合插值比例，对所述第二通用语料和所述第一专用语料进行融合，得到所述融合语料。例如，融合插值比例为5:1，则从第二通用语料和第一专用语料中分别提取语料，其中，从第二通用语料中提取的语料数量与从第一专用语料中提取的语料数量的比例为5:1，提取的语料作为融合语料。或者，可以先对第二通用语料进行筛选，从筛选出的语料和第一专用语料中，按照融合插值比例提取相应数量的语料作为融合语料。

在一种示例性的实施方式中，语音识别模型的训练方法还可以包括以下确定融合插值比例的步骤：

利用所述第二通用语料，训练得到通用语言模型；

利用所述第一专用语料，训练得到专用语言模型；

例如，如图4所示，利用第二通用语料，可以训练得到通用的4元语言模型（4-GramLanguage Model）。利用第一专用语料，可以训练得到目标场景专用的4元语言模型。然后，用通用的4元语言模型和专用的4元语言模型，对第二专用语料的困惑度分别进行测试。根据测试结果确定融合插值比例，再基于该比例得到融合语料。

困惑度可以用于评价某个句子是否是自然语言的概率。本实施方式中，利用语言模型测试得到的专用语料的困惑度，评估语言模型对专用语料的适应性。通过与专用语言模型进行比较，可以准确评估通用语言模型对专用语料的适应性。由于通用语言模型可以基于第二通用语料训练得到，因此，通过评估通用语言模型，可以评估第二通用语料与目标场景的专用语料的匹配度，以确定融合插值比例。

示例性地，根据第一测试结果和第二测试结果，可以采用EM（ExpectationMaximizatiom，最大期望）算法计算融合插值比例。

示例性地，如图4所示，可以先对第二通用语料进行处理，再训练得到通用语言模型。具体而言，上述步骤：利用所述第二通用语料，训练得到通用语言模型，可以包括：

例如，如图4所示，采用Simhash算法对第二通用语料和第二专用语料进行匹配处理，选取出粗粒度相关语料，再利用粗粒度相关语料作为训练数据，训练得到通用语言模型。Simhash算法是一种快速的文本匹配算法，能够在第二通用语料中选出与第二专用语料在文本长度等特征上比较相似的语料。

参考图4，在计算融合插值比例后，对所述第二通用语料和所述第一专用语料进行融合，得到融合语料，可以是对粗粒度相关语料和第一专用语料进行融合。根据该实施方式，在所述第二通用语料中选取与所述第二专用语料匹配的语料，作为与第一专用语料融合的语料，可以提高融合语料与目标场景的匹配度，从而提高语音识别模型在目标场景中的识别效果。

示例性地，上述第一专用语料和第二专用语料可以完全相同、完全不同或者有交集。如果第一专用语料和第二专用语料完全不同，则对第二通用语料和第一专用语料的比较测试会更准确。

本申请实施例提供的语音识别模型的训练方法，先利用通用语料对语言模型模块进行单独训练，得到初始的语音识别模型，再利用语音识别标注语料训练得到收敛的语音识别模型。由于通用语料易于获取，数据量很大，因此，可以使语音识别模型掌握充足的语言规律信息，提高语音识别的准确率。进一步地，可以利用目标场景对应的融合语料微调语言模型模块，提高语音识别模型在目标场景下的识别效果。通过对通用语料和专用语料进行融合，可以在提高识别效果的同时，降低语料搜集成本。

图5示出了本申请一示例性实施例提供的语音识别方法的示意图，如图5所示，该方法可以包括：

语言规律识别步骤S51，将目标语音中的第一语音单元的识别结果输入语音识别模型的语言模型模块进行语言规律识别，得到第一语音单元的语言规律信息；

声学特征提取步骤S52，将目标语音中的第二语音单元输入语音识别模型的声学模型模块进行声学特征提取，得到第二语音单元的声学特征；

融合步骤S53，利用语音识别模型的融合模块，将第一语音单元的语言规律信息与第二语音单元的声学特征融合，得到第二语音单元的识别结果；

上述语音识别模型包括语言模型模块、声学模型模块和融合模块。由于语音识别模型中将语言模型模块独立出来，有利于使用除标注语料外的大量通用语料训练语言模型模块，使语音识别模型从大量语料中获取充足的语言规律信息，提高语音识别的准确率。

作为一种示例性的实施方式，目标语音中包括多个语音单元，参考图6，语音识别方法还可以包括：

步骤S54，将所述第二语音单元作为新的第一语音单元，将所述第二语音单元的下一个语音单元作为新的第二语音单元；重复执行所述语言规律识别步骤、声学特征提取步骤和融合步骤，直至将所述目标语音中包括的语音单元全部识别完为止。

举例而言，可以先利用目标语音中第1个语音单元的声学特征和语音起始位置的语言规律信息，获得第1个语音单元的识别结果。然后，以目标语音中第1个语音单元作为第一语音单元，第2个语音单元作为第二语音单元，执行上述语言规律识别步骤、声学特征提取步骤和融合步骤，得到第2个语音单元的识别结果。然后，将第2个语音单元作为新的第一语音单元，第3个语音单元作为新的第二语音单元，再次执行上述语言规律识别步骤、声学特征提取步骤和融合步骤，得到第3个语音单元的识别结果。依次类推，可以将目标语音中包括的语音单元全部识别完。

可选地，所述语言规律识别步骤包括：

将所述第一语音单元的编码信息和所述第一语音单元的位置信息输入所述语言模型模块中的语言模型进行语言规律识别，得到所述第一语音单元的语言规律信息。

示例性地，语言模型可以包括Transformer（转换）模型。

作为示例，参考图7所示的语音识别模型的结构示意图，该语音识别模型是端到端模型，采用Seq2Seq（Sequence to Sequence，序列到序列）和attention（注意力）机制的网络结构。语音识别模型包括语言模型模块、声学模型模块和融合模块。其中，语言模型模块包括编码子模块和Transformer模型。

举例而言，第一语音单元的识别结果y_i-1可以是一个字，第一语音单元的位置信息为表征第一语音单元是目标语音中的第几个字的编码向量。可以在迭代更新第一语音单元时，自动更新第一语音单元的位置信息。编码子模块将y_i-1编码为一个向量，例如one-hot向量。然后，将y_i-1的编码向量和位置信息的编码向量进行相加操作后输入到Transformer模型，或者将y_i-1的编码向量和位置信息的编码向量分别输入到Transformer模型。Transformer模型输出第一语音单元的语言规律信息t_i-1。在一些实施方式中，语言规律信息可以采用向量表示。

可选地，声学特征提取步骤包括：

将所述第二语音单元输入所述声学模型模块中的第一特征提取子模块进行Fbank（Filter Bank，滤波器组）特征提取，得到所述第二语音单元的Fbank特征；

作为示例，如图7所示，声学模型模块包括第一特征提取子模块和第二特征提取子模块，分别用于提取Fbank特征和深度声学特征。第二语音单元为音频信号x_i，先提取其Fbank特征，以Fbank特征表征音频信号，再进行深度声学特征提取。示例性地，进行深度声学特征提取的第二特征提取子模块可以采用CNN（Convolutional Neural Networks，卷积神经网络）、RNN（Recurrent Neural Network，循环神经网络）等网络结构。在一个可选的实施方式中，可以采用CNN和Transformer模型串联的结构，其中，第二特征提取子模块的Transformer模型和语言模型模块中Transformer模型可以具有相同的结构。

实际应用时，Transformer模型可以包括多个网络层例如6个网络层。每个网络层包括两个子层（Sub-Layer），分别是多头自注意力机制（Multi-head Self-attentionMechanism）子层和全连接前馈网络（Fully Connected Feed-forward Network）子层。其中每个子层都可以添加残差连接（Residual Connection）和归一化（Normalisation）处理。Transformer模型的输出

可以表示为：

，公式1

其中，z表示Transformer模型的输入信息，例如x_i的Fbank特征。

表示子层对输入信息的处理，

表示归一化处理。

其中，多头自注意机制子层的输出

可以表示为：

，公式2

其中，

均表示Fbank特征，实际计算时可用矩阵表示。

表示拼接操作。

表示多头自注意机制子层的参数。

表示第i个头（

）的计算结果，计算公式如下：

，公式3

其中，W1、W2和W3表示各头中针对

的参数。

表示自注意力机制的计算方式，其输出

可以表示为：

，公式4

其中，q、k和v表示自注意力机制的输入，

代表模型的维度，

为自注意力机制的参数，

表示q与k的乘积的T次方。

为归一化计算方式。

在一种示例性的实施方式中，融合步骤包括：

将所述第二语音单元的声学特征和所述第一语音单元的语言规律信息输入至所述融合模块中的注意力层（Attention Layer）进行计算，得到所述第二语音单元的上下文向量；

作为示例，如图7所示，融合模块包括注意力层和归一化子模块，注意力层接收来自语言模型模块输出的语言规律信息t_i-1和声学模型模块输出的深度声学特征，利用t_i-1和深度声学特征计算出第二语音单元x_i的上下文向量C_i。然后，可以对t_i-1和C_i分别采用一个维度调整层，将其维度调整一致后进行拼接操作，再输入归一化子模块。归一化子模块可以利用Softmax等归一化函数计算得到第二语音单元x_i的识别结果。

实际应用时，融合模块的注意力层输出的上下文向量C_i可以表示为：

C_i = attention(h, t_i-1)，公式5

其中，h是声学模型模块输出的深度声学特征，t_i-1是语言模型模块输出的语言规律信息。

融合模块输出第二语音单元的识别结果时，还可以输出识别结果的概率P(y_i|x_i,y<i)：

P(y_i|x_i,y<i) = softmax(Concat(C_i,t_i-1))，公式6

其中，Concat表示拼接操作，softmax为归一化计算方式。

可选地，对于目标语音中第1个语音单元，也可以采用图7所示的模型结构获取识别结果，例如将起始符<BOS>输入至语言模型模块中的编码子模块，经语言模型模块处理后得到起始符对应的语言规律信息。并利用声学模型模块对第1个语音单元进行声学特征提取，然后，利用融合模块将语音起始位置对应的语言规律信息和第1个语音单元的声学特征融合，得到第1个语音单元的识别结果。

本申请实施例提供的语音识别方法，可以基于本申请任意实施例提供的训练方法训练得到。语音识别方法的一些步骤，可以参考上述训练方法中的对应描述进行设置。

可见，由于本申请实施例提供的语音识别方法所利用的语音识别模型中，语言模型模块为独立模块，因此，可以使用通用语料对语言模型模块进行单独训练，使语音识别模型掌握充足的语言规律信息，提高语音识别的准确率。也可以采用融合语料微调语言模型模块，提高语音识别模型在目标场景下的识别效果。还可以通过对通用语料和专用语料进行融合，可以在提高识别效果的同时，降低语料搜集成本。

图8示出根据本申请一实施例的语音识别模型的训练装置的结构框图。如图8所示，该装置可以包括：

第一训练单元810，用于利用第一通用语料，训练得到语言模型模块；

初始化单元820，用于利用语言模型模块，得到初始的语音识别模型，所述初始的语音识别模型包括声学模型模块、融合模块和所述语言模型模块；

第二训练单元830，用于利用语音识别标注语料，训练初始的语音识别模型，得到收敛的语音识别模型。

在一种实施方式中，语言模型模块用于对目标语音中的第一语音单元进行语言规律识别，得到第一语音单元的语言规律信息；

声学模型模块用于对目标语音中的第二语音单元进行声学特征提取，得到第二语音单元的声学特征；

融合模块用于将第一语音单元的语言规律信息与第二语音单元的声学特征融合，得到第二语音单元的识别结果；

其中，第一语音单元是在第二语音单元之前的语音单元。

在一种实施方式中，如图9所示，该装置还包括：

语料获取单元840，用于利用第二通用语料以及与目标场景对应的第一专用语料，得到融合语料；

第三训练单元850，用于利用融合语料，对语言模型模块进行微调训练。

在一种实施方式中，语料获取单元840用于根据融合插值比例，对第二通用语料和第一专用语料进行融合，得到融合语料。

在一种实施方式中，如图9所示，该装置还包括：

第四训练单元910，用于利用第二通用语料，训练得到通用语言模型；

第五训练单元920，用于利用第一专用语料，训练得到专用语言模型；

第一测试单元930，用于利用通用语言模型，测试与目标场景对应的第二专用语料的困惑度，得到第一测试结果；

第二测试单元940，用于利用专用语言模型，测试第二专用语料的困惑度，得到第二测试结果；

比例确定单元950，用于根据第一测试结果和第二测试结果，确定融合插值比例。

在一种实施方式中，如图9所示，第四训练单元910包括：

文本匹配子单元911，用于根据文本匹配算法，在第二通用语料中选取与第二专用语料匹配的语料；

模型训练子单元912，用于利用与第二专用语料匹配的语料，训练得到通用语言模型。

图10示出根据本申请一实施例的语音识别装置的结构框图。如图10所示，该装置可以包括：

语言规律识别单元1010，用于将目标语音中的第一语音单元的识别结果输入语音识别模型的语言模型模块进行语言规律识别，得到第一语音单元的语言规律信息；

声学特征提取单元1020，用于将目标语音中的第二语音单元输入语音识别模型的声学模型模块进行声学特征提取，得到第二语音单元的声学特征；

融合单元1030，用于利用语音识别模型的融合模块，将第一语音单元的语言规律信息与第二语音单元的声学特征融合，得到第二语音单元的识别结果；

其中，第一语音单元是在第二语音单元之前的语音单元。

在一种实施方式中，目标语音中包括多个语音单元，如图11所示，装置还包括：

执行单元1040，用于将第二语音单元作为新的第一语音单元，将第二语音单元的下一个语音单元作为新的第二语音单元，重复执行语言规律识别步骤、声学特征提取步骤和融合步骤，直至将目标语音中包括的语音单元全部识别完为止。

在一种实施方式中，如图11所示，融合单元1030包括：

上下文向量计算子单元1031，用于将第二语音单元的声学特征和第一语音单元的语言规律信息输入至融合模块中的注意力层进行计算，得到第二语音单元的上下文向量；

归一化子单元1032，用于利用融合模块中的归一化子模块，对第二语音单元的上下文向量和第一语音单元的语言规律信息进行归一化处理，得到第二语音单元的识别结果。

在一种实施方式中，如图11所示，语言规律识别单元1010包括：

编码子单元1011，用于将第一语音单元的识别结果输入语言模型模块中的编码子模块进行编码，得到第一语音单元的编码信息；

识别子单元1012，用于将第一语音单元的编码信息和第一语音单元的位置信息输入语言模型模块中的语音模型进行语言规律识别，得到第一语音单元的语言规律信息。

在一种实施方式中，如图11所示，声学特征提取子单元1020包括：

第一提取子单元1021，用于将第二语音单元输入声学模型模块中的第一特征提取子模块进行滤波器组Fbank特征提取，得到第二语音单元的Fbank特征；

第二提取子单元1022，用于将第二语音单元的Fbank特征输入声学模型模块中的第二特征提取子模块进行深度特征提取，得到第二语音单元的深度声学特征。

在一种实施方式中，语音识别模型是基于本申请任意实施例提供的训练方法训练得到的。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图12示出根据本申请一实施例的电子设备的结构框图。如图12所示，该电子设备包括：存储器1210和处理器1220，存储器1210内存储有可在处理器1220上运行的计算机程序。处理器1220执行该计算机程序时实现上述实施例中的语音识别模型的训练方法或语音识别方法。存储器1210和处理器1220的数量可以为一个或多个。

该电子设备还包括：

通信接口1230，用于与外界设备进行通信，进行数据交互传输。

如果存储器1210、处理器1220和通信接口1230独立实现，则存储器1210、处理器1220和通信接口1230可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1210、处理器1220及通信接口1230集成在一块芯片上，则存储器1210、处理器1220及通信接口1230可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data dateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

示意图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在示意图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别模型的训练方法，其特征在于，包括：

利用第一通用语料，训练得到语言模型模块；

2.根据权利要求1所述的方法，其特征在于，所述语言模型模块用于对目标语音中的第一语音单元进行语言规律识别，得到所述第一语音单元的语言规律信息；

3.根据权利要求1或2所述的方法，其特征在于，还包括：

利用所述融合语料，对所述语言模型模块进行微调训练。

4.根据权利要求3所述的方法，其特征在于，所述利用第二通用语料以及与目标场景对应的第一专用语料，得到融合语料，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

利用所述第二通用语料，训练得到通用语言模型；

利用所述第一专用语料，训练得到专用语言模型；

6.根据权利要求5所述的方法，其特征在于，所述利用所述第二通用语料，训练得到通用语言模型，包括：

7.一种语音识别方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述目标语音中包括多个语音单元，所述方法还包括：

9.根据权利要求7所述的方法，其特征在于，所述融合步骤，包括：

10.根据权利要求7所述的方法，其特征在于，所述语言规律识别步骤，包括：

11.根据权利要求7所述的方法，其特征在于，所述声学特征提取步骤，包括：

12.根据权利要求7至11中任一项所述的方法，其特征在于，所述语音识别模型是基于权利要求1至6中任一项所述的方法训练得到的。

13.一种语音识别模型的训练装置，其特征在于，包括：

14.根据权利要求13所述的装置，其特征在于，所述语言模型模块用于对目标语音中的第一语音单元进行语言规律识别，得到所述第一语音单元的语言规律信息；

15.根据权利要求13或14所述的装置，其特征在于，还包括：

16.根据权利要求15所述的装置，其特征在于，所述语料获取单元用于根据融合插值比例，对所述第二通用语料和所述第一专用语料进行融合，得到所述融合语料。

17.根据权利要求16所述的装置，其特征在于，还包括：

18.根据权利要求17所述的装置，其特征在于，所述第四训练单元包括：

19.一种语音识别装置，其特征在于，包括：

20.根据权利要求19所述的装置，其特征在于，所述目标语音中包括多个语音单元，所述装置还包括：

21.根据权利要求19所述的装置，其特征在于，所述融合单元包括：

22.根据权利要求19所述的装置，其特征在于，所述语言规律识别单元包括：

23.根据权利要求19所述的装置，其特征在于，所述声学特征提取子单元包括：

24.根据权利要求19至23中任一项所述的装置，其特征在于，所述语音识别模型是基于权利要求1至6中任一项所述的方法训练得到的。

25.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至12中任一项所述的方法。

26.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-12中任一项所述的方法。