CN112185361A

CN112185361A - 一种语音识别模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN112185361A
Application number: CN202011053173.1A
Authority: CN
Inventors: 张晓明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-05

Abstract

本发明提供了一种语音识别模型训练方法装置、电子设备及存储介质，方法包括：基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理；在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典；基于所述第二发音词典，生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列；确定训练样本集合；确定所述语音神经网络的模型参数，由此，可以通过云技术将广域网或局域网内将硬件、软件及网络等系列资源统一起来，能够自动化的形成相应的发音序列，形成训练样本集合对语音识别模型进行训练，减少由于错误的发音或者遗漏发音信息，影响语音识别模型训练的准确性。

Description

一种语音识别模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及机器学习技术，尤其涉及一种语音识别模型训练方法、装置、电子设备及存储介质。

背景技术

随着机器学习技术的发展，机器学习可以通过相应的语音识别模型机制实现，并且可以结合云技术实现，云技术是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。但是，在使用神经网络模型对应的模型对语音数据进行处理的过程中，对于数字类语音信息场景的指令识别中，由于用户语句的发音多种多样较为复杂，交互成功率较低，影响用户的使用体验。因此，在特定目标类型场景下对用户意图识别精度要求更高，智能设备需要懂得如何准确地响应用户的语音指令语句。

发明内容

有鉴于此，本发明实施例提供一种语音识别模型训练方法、装置、电子设备及存储介质，能够利用待识别音频信息对应的标注文本信息，自动化的形成相应的发音序列，并基于待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，形成训练样本集合对语音识别模型进行训练，减少由于错误的发音或者遗漏发音信息，影响语音识别模型训练的准确性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种语音识别模型训练方法，所述方法包括：

获取待识别音频信息对应的标注文本信息，并基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理；

遍历经过预处理的标注文本信息，确定相应目标类型的文本信息；

基于所述目标类型的文本信息，在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典；

基于所述第二发音词典，生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列；

根据所述待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，确定训练样本集合；

通过所述训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数；

通过所述训练样本集合对所述语音识别模型中的语言神经网络进行训练，以确定所述语音神经网络的模型参数，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。

本发明实施例还提供了一种语音识别模型的训练装置，所述训练装置包括：

信息传输模块，用于获取待识别音频信息对应的标注文本信息；

信息处理模块，用于基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理；

所述信息处理模块，用于遍历经过预处理的标注文本信息，确定相应目标类型的文本信息；

所述信息处理模块，用于基于所述目标类型的文本信息，在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典；

所述信息处理模块，用于基于所述第二发音词典，生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列；

所述信息处理模块，用于根据所述待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，确定训练样本集合；

训练模块，用于通过所述训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数；

所述训练模块，用于通过所述训练样本集合对所述语音识别模型中的语言神经网络进行训练，以确定所述语音神经网络的模型参数，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。

上述方案中，

所述信息处理模块，用于对所述待识别音频信息对应的标注文本信息进行遍历，将格式为中文繁体的标注文本信息转换为中文简体的标注文本信息；

所述信息处理模块，用于删除所述标注文本信息中多余空格和所有标点信息；

所述信息处理模块，用于当所述文本的目标类型为数字类型时，保留所述标注文本信息中的数字类型文本信息，以及与所述数字类型标注文本信息相连接的国际单位制缩写信息；

通过分词处理进程，利用触发的分词库单词词典对所述标注文本信息进行分词处理，形成不同的词语级特征向量。

上述方案中，

所述信息处理模块，用于基于所述目标类型的文本信息，确定与所述目标类型的文本信息相匹配的发音规则；

所述信息处理模块，用于基于所述发音规则，生成与所述目标类型的文本信息对应的所有目标类型的文本信息的发音；

所述信息处理模块，用于将所述目标类型的文本信息对应的所有目标类型的文本信息的发音添加至所述第一发音词典中，形成第二发音词典。

上述方案中，

所述信息处理模块，用于当所述文本的目标类型为数字类型时，通过数字类型的正则匹配，确定所述标注文本信息中的数字类型标注文本信息；

所述信息处理模块，用于基于所述数字类型的正则表达式，确定所述数字类型标注文本信息所归属的子类型；

所述信息处理模块，用于根据所述数字类型标注文本信息所归属的子类型，确定与所述目标类型的文本信息相匹配的发音规则，其中所述发音规则包括所述数字类型标注文本信息所有相匹配的发音组合。

上述方案中，

所述信息处理模块，用于确定所述标注文本信息相匹配的发音序列中，不同标注文本信息的所有发音；

所述信息处理模块，用于基于所述待识别音频信息对应的标注文本信息，以及不同标注文本信息的所有发音，形成相应的训练样本对，其中，一个训练样本对包括一个标注文本信息和一个标注文本信息的发音。

上述方案中，

所述训练模块，用于确定与所述语音识别模型的使用环境相匹配的动态噪声阈值；

所述训练模块，用于根据所述动态噪声阈值对所述训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合，或者

所述训练模块，用于确定与所述语音识别模型相对应的固定噪声阈值；

所述训练模块，用于根据所述固定噪声阈值对所述训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合；

所述训练模块，用于通过所述第二训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数。

上述方案中，所述装置还包括：

显示模块，用于显示用户界面，所述用户界面中包括以不同类型用户的第一人称视角，对即时客户端中的语音识别处理环境进行观察的人称视角画面，所述用户界面中还包括任务处理组件和信息展示组件；

显示模块，用于通过所述用户界面，利用所述信息展示组件展示所述待识别音频信息对应的标注文本信息，以及在第一发音词典中锁添加的所述目标类型的文本信息对应的发音；

显示模块，用于通过所述用户界面，利用所述任务处理组件调整所述第二发音词典，并基于所述第二发音词典，通过所述任务处理组件生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列，以实现通过所述信息展示组件展示所述语音识别模型对使用环境中的不同语音信息进行处理的结果。

本发明实施例具有以下有益效果：

本发明实施例通过获取待识别音频信息对应的标注文本信息，并基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理；遍历经过预处理的标注文本信息，确定相应目标类型的文本信息；基于所述目标类型的文本信息，在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典；基于所述第二发音词典，生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列；根据所述待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，确定训练样本集合；通过所述训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数；通过所述训练样本集合对所述语音识别模型中的语言神经网络进行训练，以确定所述语音神经网络的模型参数，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。由此，能够利用待识别音频信息对应的标注文本信息，自动化的形成相应的发音序列，并基于待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，形成训练样本集合对语音识别模型进行训练，减少由于错误的发音或者遗漏发音信息，影响语音识别模型训练的准确性，同时能够使得语音识别模型的泛化能力更强，提升语音识别模型的训练精度并节省模型的训练时间，有利于语音识别模型在各类型智能设备中的大规模部署。

附图说明

图1是本发明实施例提供的一种语音识别模型训练方法的使用环境示意图；

图2为本发明实施例提供的语音识别模型的训练装置的组成结构示意图；

图3为本发明实施例中相关技术处理过程示意图；

图4为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图；

图5为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图；

图6为本发明实施例中语音识别模型一个可选的结构示意图；

图7为本发明实施例提供的语音识别模型训练方法的使用场景示意图；

图8为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)人工神经网络：简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

2)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

3)分词库：又称切词库，指一种特定的分词方法，不同的分词库各自对应的单词字典，并可以根据各自对应的单词字典对相应的文本信息进行分词处理。

4)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

5)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

6)语音识别(SR Speech Recognition)：也被称为自动语音识别(ASR AutomaticSpeech Recognition)、计算机语音识别(CSR Computer Speech Recognition)或者语音转文本识别(STT Speech To Text)，其目标是使用计算机自动将人类的语音内容转换为相应的文字。

7)隐马尔科夫模型(HMM Hidden Markov Model)是一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分；HMM的转移概率表示HMM的状态之间发生转换的概率；而每一个状态在可能输出的符号上都有一概率分布，即HMM的输出概率。其中，马尔可夫过程是一个不具备记忆特质的随机过程。该随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。

8)分词：使用中文分词工具切分中文文本，得到细粒度词的集合。停用词：对于文本的语义没有贡献或者贡献可以不计的字或词。

9)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。

10)客户端，终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，例如执行报表制作的功能或者进行报表展示的功能。

11)组件(Component)，是小程序的视图的功能模块，也称为前端组件，页面中的按钮、标题、表格、侧边栏、内容和页脚等，组件包括模块化的代码以便于在小程序的不同的页面中重复使用。

12)小程序(Mini Program)，是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML，Hyper Text Markup Language)页面中实现服务的程序，由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。

13)终端，包括但不限于：普通终端、专用终端，其中所述普通终端与发送通道保持长连接和/或短连接，所述专用终端与所述发送通道保持长连接。

下面对本申请所提供的语音识别模型训练方法的使用环境进行说明，参考图1，图1为本发明实施例提供的语音识别模型训练方法的使用场景示意图，参考图1，终端(包括终端10-1和终端10-2)上设置有语义理解软件的客户端，用户通过所设置的语义理解软件客户端可以输入相应的待语义理解语句，聊天客户端也可以接收相应的语义理解结果，并将所接收的语义理解结果向用户进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，本发明所提供的语音识别模型训练方法可以作为云服务的形式服务可类型的客户(封装于车载终端或者封装于不同的移动电子设备中)，本申请不做具体限制，其中，作为云服务提供给企业客户，帮助其根据不同的设备使用环境对语音识别模型进行训练。

作为一个示例，服务器200用于布设所述语音识别模型并对所述语音识别模型进行训练，并将经过训练的语音识别模型部署在相应的终端中，并通过终端(终端10-1和/或终端10-2)利用所部署的语音识别模型对携带数字信息的语音指令使用环境中的语音信息进行处理。

其中，本申请实施例所提供的语音识别模型训练方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

下面对本发明实施例的语音识别模型的训练装置的结构做详细说明，语音识别模型的训练装置可以各种形式来实施，如带有语音识别模型训练功能的专用终端，也可以为设置有语音识别模型训练功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的语音识别模型的训练装置的组成结构示意图，可以理解，图2仅仅示出了语音识别模型的训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的语音识别模型的训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。语音识别模型的训练装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的语音识别模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的语音识别模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的语音识别模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的语音识别模型的训练装置采用软硬件结合实施的示例，本发明实施例所提供的语音识别模型的训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的语音识别模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的语音识别模型的训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的语音识别模型训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持语音识别模型的训练装置的操作。这些数据的示例包括：用于在语音识别模型的训练装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从语音识别模型训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的语音识别模型的训练装置可以采用软件方式实现，图2示出了存储在存储器202中的语音识别模型的训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括语音识别模型的训练装置，语音识别模型的训练装置中包括以下的软件模块：信息传输模块2081，信息处理模块2082和训练模块2083。当语音识别模型的训练装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的语音识别模型训练方法，下面介绍本发明实施例中语音识别模型的训练装置中各个软件模块的功能，其中，

信息传输模块2081，用于获取待识别音频信息对应的标注文本信息；

信息处理模块2082，用于基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理；

所述信息处理模块2082，用于遍历经过预处理的标注文本信息，确定相应目标类型的文本信息；

所述信息处理模块2082，用于基于所述目标类型的文本信息，在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典；

所述信息处理模块2082，用于基于所述第二发音词典，生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列；

所述信息处理模块2082，用于根据所述待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，确定训练样本集合；

训练模块2083，用于通过所述训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数；

所述训练模块2083，用于通过所述训练样本集合对所述语音识别模型中的语言神经网络进行训练，以确定所述语音神经网络的模型参数，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语音识别模型训练方法的各种可选实现方式中所提供的方法。

结合图2示出的语音识别模型的训练装置说明本发明实施例提供的语音识别模型的训练方法，在介绍本发明实施例提供的语音识别模型的训练方法之前，首先介绍相关技术中实现语音指令识别的过程，图3为本发明实施例中相关技术处理过程示意图，具体来说，语音识别模型(其中，一个语音识别模型包括一个声学神经网络和一个语言神经网络联合组成)的训练中，当收集训练样本时，所获取的作为训练样本的语料都是符合正常的书写规则的阿拉伯数字的形式。举例来说，训练语料中有一条音频中说的内容是，“2001年发生了一件令人难忘的事情”。当训练识别声学神经网络时，需要对应到发音序列(声韵母序列)上，但是上述句子的开头，到底读的是“二零零一年”还是“两千零一年”存在发音歧义。其中，表1示出了常见的训练样本语料中的一句信息的多种发音。

数字串	发音1	发音2	发音3
				2001年	二零零一年	两千零一年
110	幺幺零	一一零	一百一十
				4：15	四点十五分	四点一刻	四比十五
6-1	六减一	六杠一
				3g	三G	三克

表1

相关技术的处理方式参考图3，包括以下步骤：

步骤301：获取音频信息对应的标注文本。

步骤302：对标注文本进行归一化处理。

步骤303：将标注文本中的句子分解为词语。

步骤304：将每个经过分词的训练标注，转换对应的发音序列，并对语音识别模型进行训练。上述处理过程中，为了消除文本转换为发音序列中存在的歧义，可以通过两种方式实现。第一种方法是依赖人工去听音频语料，通过人工处理把文本全部使用汉字书进行转换。但是这种方法要耗费大量人力(当前业界模型训练一般都用到数万小时的音频)。第二种方法，则是将每个文本，按照相应的转换规则，转换为一个最可能的读音。比如表1中，按照大部分人的读音习惯，转换成“二零零一年”。但是按照这类办法，通常会有一定的概率产生错误，比如音频中实际读的是“两千零一年”，但是被误转换成了“二零零一年”。导致智能设备在使用语音识别模型语音数字识别准确率低的一个重要原因。

为解决这一相关技术中的缺陷，参见图4，图4为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行语音识别模型训练装置的各种电子设备执行，例如可以是如带有样本生成功能的专用终端、带有语音识别模型训练功能的服务器或者服务器集群。下面针对图4示出的步骤进行说明。

步骤401：语音识别模型训练装置获取待识别音频信息对应的标注文本信息，并基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理。

在本发明的一些实施例中，基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理，可以通过以下方式实现：

对所述待识别音频信息对应的标注文本信息进行遍历，将格式为中文繁体的标注文本信息转换为中文简体的标注文本信息；删除所述标注文本信息中多余空格和所有标点信息；当所述文本的目标类型为数字类型时，保留所述标注文本信息中的数字类型文本信息，以及与所述数字类型标注文本信息相连接的国际单位制缩写信息；通过分词处理进程，利用触发的分词库单词词典对所述标注文本信息进行分词处理，形成不同的词语级特征向量。其中，其中，训练语料由大量音频(一般长度数秒)以及每个音频对应的说话内容(标注文件)构成。其中，实际使用的模型一般需要数万小时时长的训练语料。具体来说，声学神经网络的作用是输入一个待识别的音频，预测音频的发音序列，普通话识别里一般采用声韵母的序列。所以在模型训练阶段，音频对应的标注文件，也要转换成发音序列。这样模型能够学习每个发音的特征。相关技术的归一化处理中，归一化的一般包括如下过程：

1)将繁体转简体，去除多余空格和标点符号。2)将文本中的英文词汇统一转成小写，表示单位的缩写转成对应的汉字，比如kg->千克，cm->厘米等。3)将阿拉伯数字全部转换成汉字形式，比如“这件事发生在2001年”，经过归一化后就变成了“这件事发生在二零零一年”。再如，“德国队以8:1的比分大胜巴西队”，归一化后变成了“德国队以八比一的比分大胜巴西队”。但是由于错误标注或者遗漏标注，使得训练样本丢失，因此步骤301的归一化的处理过程中，不将阿拉伯数字转为汉字，仅做与数字无关的转换，例如繁体转简体等，保留句子中的阿拉伯数字的原始形式，同时，与数字连接的国际单位制缩写，比如g，kg，cm等，也不做转换，保留原始状态。对于中文文本，相应的需要对中文文本进行分词，因为在汉语里面词语才能包含完整的信息。相应的可以使用中文分词工具Jieba对中文文本进行分词。其中，“这件事发生在二零零一年”，分词之后变成了“这件/事/发生/在/二/零/零/一/年”。其中，所谓分词，即有动词含义也有名词含义；每个分词就是一个单词或者词组，即有确定意义的最小语义单元；对于所接收的不同的用户或者不同的文本处理模型的使用环境，其需要划分其中包含的最小语义单位也是不同的，需要及时地做出调整，这一过程叫做分词，即分词可以指上述划分最小语义单位的过程；另一方面，划分后获得的最小语义单位，也常常被称为分词，即分词这个操作执行后获得的单词；有时为了将两个意思相互区别，将后一个意思所指称的最小语义单位称为分词对象(Term)；本申请中即使用分词对象这个称呼；分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言，由于作为最小语义单位的词往往是由不同数量的字组成的，词之间不存在空白隔断等拼音文字中天然的区分标志，因此，对于汉语而言，准确进行分词以获得合理的分词对象是一个重要的步骤。

步骤402：语音识别模型训练装置遍历经过预处理的标注文本信息，确定相应目标类型的文本信息。

步骤403：语音识别模型训练装置基于所述目标类型的文本信息，在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典。

在本发明的一些实施例中，基于所述目标类型的文本信息，在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典，可以通过以下方式实现：

基于所述目标类型的文本信息，确定与所述目标类型的文本信息相匹配的发音规则；基于所述发音规则，生成与所述目标类型的文本信息对应的所有目标类型的文本信息的发音；将所述目标类型的文本信息对应的所有目标类型的文本信息的发音添加至所述第一发音词典中，形成第二发音词典。其中，当所述文本的目标类型为数字类型时，通过数字类型的正则匹配，确定所述标注文本信息中的数字类型标注文本信息；基于所述数字类型的正则表达式，确定所述数字类型标注文本信息所归属的子类型；根据所述数字类型标注文本信息所归属的子类型，确定与所述目标类型的文本信息相匹配的发音规则，其中所述发音规则包括所述数字类型标注文本信息所有相匹配的发音组合。

步骤404：语音识别模型训练装置基于所述第二发音词典，生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列。

继续结合前序实施例，具体来说，因为步骤402中未对阿拉伯数字转汉字的过程进行处理，所以句子分词后，变成“这件/事/发生/在/2001/年”。为了将生成句子对应的发音序列，本发明将训练数据中的所有阿拉伯数字串，通过程序自动添加到了发音词典中，并根据预设的规则，为每个数字串，生成了所有可能的发音。其中，预设的规则及生成的过程如下：

(1)判断文本中是否存在数字，判断可以通过正则匹配的方式。

(2)如不存在数字，则跳过后面流程。

(3)如果存在数字，判断属于哪一种类型(可通过正则表达式判断)，其中一些可选的类型参考表2：

表2

(4)对每一种类型的数字，根据下表3中的每一种可能读法组合，为每个数字生成所有可能的发音序列。

表3

(5)将上一步每个数字所有可能的发音序列，加入到发音词典中。比如，针对表1中存在歧义的数字串，会在发音词典中，增加如下一些行：

2001 er4 l ing2 l ing2 y i1；2001 l iang3 q ian1 l ing2 y i1；110 y i1b ai3 y i1 sh i2 110 y ao1 y ao1 l ing2；110 y i1 y i1 l ing2；4:15 s i4 d ian3sh i2 w u3；4:15 s i4 d ian3 y i1 k e2；4:15 s i4 b i3 sh i2 w u3；6-1 l iu4 jian3 y i1；6-1 liu4 g ang4 y i1；3g s an1 j i1；3g s an1 k e4。

步骤405：语音识别模型训练装置根据所述待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，确定训练样本集合。

在本发明的一些实施例中，根据所述待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，确定训练样本集合，可以通过以下方式实现：

确定所述标注文本信息相匹配的发音序列中，不同标注文本信息的所有发音；基于所述待识别音频信息对应的标注文本信息，以及不同标注文本信息的所有发音，形成相应的训练样本对，其中，一个训练样本对包括一个标注文本信息和一个标注文本信息的发音。其中，查询发音词典实现的过程如下：这件zh e4 j ian4；事sh i4；发生f a1 sh eng1；在z ai4；二er4；零l ing2；一y i1；年n ian2；其中韵母后的数字表示声调。另外，发音词典中，还可以包括一些多音词，比如朝阳(ch ao2 y ang2或者zh ao1 y ang2)。由此，标注文本转换成了一个或者多个发音序列(如果标注文本中包含了多音词或者字)。

步骤406：语音识别模型训练装置通过所述训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数。

其中，本申请所涉及的声学神经网络，包括但不限于：TDNN-LSTM，CLDNN，RNN-T,CTC等，其作用是用来预测输入音频的发音序列。语言神经网络的作用是决定相同或者相似的发音序列下，最有可能的文字序列。

步骤407：语音识别模型训练装置通过所述训练样本集合对所述语音识别模型中的语言神经网络进行训练。

由此，可以确定所述语音神经网络的模型参数，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。

继续参考图5，图5为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行语音识别模型训练装置的各种电子设备执行，例如可以是如带有语音识别模型训练功能的专用终端、带有语音识别模型训练功能的服务器或者服务器集群。下面针对图5示出的步骤进行说明。

步骤501：语音识别模型训练装置判断是否使用动态噪声阈值，如果是执行步骤502，否则，执行步骤504。

步骤502：语音识别模型训练装置确定与所述语音识别模型的使用环境相匹配的动态噪声阈值。

步骤503：语音识别模型训练装置根据所述动态噪声阈值对所述训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

步骤504：语音识别模型训练装置确定与所述语音识别模型相对应的固定噪声阈值；

步骤505：语音识别模型训练装置根据所述固定噪声阈值对所述训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合；

步骤506：语音识别模型训练装置通过所述第二训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数。

其中，由于语音识别模型的使用环境不同(电子设备的使用环境不同)，与所述语音识别模型的使用环境相匹配的动态噪声阈值也不相同，例如，移动终端的数字类文本使用环境中，与所述语音识别模型的使用环境相匹配的动态噪声阈值需要小于智能音箱和车载智能系统环境中的动态噪声阈值。当语音识别模型固化于相应的硬件机构中，例如车载终端，使用环境为车载智能系统的数字类文本信息的口语指令时，由于噪声较为单一，通过固定语音识别模型相对应的固定噪声阈值，能够有效提神语音识别模型的训练速度，减少用户的等待时间，使得语音识别模型更加适应车载使用环境。

在本发明的一些实施例中，所部署的语音识别模型实现根据语音指令执行不同类型的小程序可以是在不同编程语言的软件代码环境中所编写的，代码对象可以是不同类型的代码实体。例如，在C语言的软件代码中，一个代码对象可以是一个函数。在JAVA语言的软件代码中，一个代码对象可以是一个类，IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中，一个代码对象可以是一个类或一个函数以执行来自于不同终端的搜索词。其中，通过微信进程中小程序利用所部署的语音识别模型可以触发执行相应的指令，小程序(Mini Program)，是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML，Hyper Text Markup Language)页面中实现服务的程序，由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现歌曲播放，电影查找，明星搜索等各种数字类文本信息处理与服务的小程序。

另外，在本发明的一些实施例中还可以通过部署于云端的语音识别模型对终端所接收的语音指令的执行，其中，本发明实施例可结合云技术或区块链网络技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

参考图6，图6为本发明实施例中语音识别模型一个可选的结构示意图，其中，第一层62为一个一个语音帧数据，第二层64为DNN模型，第三层66为HMM模型。其中，S表示HMM模型中的HMM状态；a表示HMM模型中的转移概率，a_k-1sk表示从s_k-1状态变为s_k-2状态的转移概率；h表示DNN模型中的神经元；W表示DNN模型中的权值，M表示DNN模型的层数。h代表的是一个函数，如果是第一层，则h的输入是一帧数据或几帧数据对应的各自权值；如果是第二层至最后一层，则h的输入是上一层的输出和每一个输出所对应的权值。每一个DNN的输出对应的是一个HMM模型状态的输出概率。每一个DNN的输出对应的是一个语音帧，通过图6所示的处理过程能够实现形成与语音特征向量相匹配的语音语义识别结果。

在本发明的一些实施例中，所述信息处理装置可以根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值，优选的，所述信息处理装置可以基于上述方法提取所述训练音频语料中每帧音频数据对应的训练Filter bank特征，并将所述训练Filterbank特征与对应的后验概率特征作为训练样本对，则所述训练音频语料可以存在多个训练样本对，基于所述多个训练样本对，并采用最大似然准则的后向传递算法计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值。所述信息处理装置将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型，以封装在相应的软件模块中，或者，固化在相应的硬件设备中，便于用户在无模型训练的情况下直接使用。

下面以车载使用环境中的车载系统唤醒过程为例，对本申请所提供的语音识别模型训练方法进行说明，图7为本发明实施例提供的语音识别模型训练方法的使用场景示意图，本发明所提供的语音识别模型训练方法可以作为云服务的形式服务各个类型的客户(例如：封装于车载终端或者封装于不同的移动电子设备中)，其中，本发明所提供的语音识别模型训练方法可以作为云服务的形式服务可类型的客户(封装于车载终端或者封装于不同的移动电子设备中)，其中，显示用户界面，所述用户界面中包括以不同类型用户的第一人称视角，对即时客户端中的语音识别处理环境进行观察的人称视角画面，所述用户界面中还包括任务处理组件和信息展示组件；通过所述用户界面，利用所述信息展示组件展示所述待识别音频信息对应的标注文本信息，以及在第一发音词典中锁添加的所述目标类型的文本信息对应的发音；通过所述用户界面，利用所述任务处理组件调整所述第二发音词典，并基于所述第二发音词典，通过所述任务处理组件生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列，以实现通过所述信息展示组件展示所述语音识别模型对使用环境中的不同语音信息进行处理的结果，由此，实现训练过程的可视化。具体使用场景中的语音识别模型的承载终端或者电子设备本申请不做具体限制，其中，作为云服务提供给企业客户，帮助其根据不同的设备使用环境对语音识别模型进行训练。

例如，用户可以通过语音指令利用唤醒词，触发车载系统执行音乐播放功能或者唤醒车载微信中的地图小程序使用。

具体来说，参考图8，图8为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图，具体包括：

步骤801：获取音频信息对应的标注文本。

步骤802：对标注文本进行归一化与分词处理。

步骤803：遍历步骤802经过分词处理后的标注文本，收集所有的数字串，并在发音词典中添加数字串的所有可能发音。

步骤804：过查询步骤803所增加的数字串的发音词典，为每一条标注文本，生成对应的发音序列。

步骤805：通过不同的训练样本训练声学神经网络和语言神经网络。

其中，本申请所涉及的声学神经网络，包括但不限于：TDNN-LSTM，CLDNN，RNN-T,CTC等，其作用是用来预测输入音频的发音序列。语言神经网络的作用是决定相同或者相似的发音序列下，最有可能的文字序列。本申请不对模型的结构做具体限定。

步骤806：通过经过训练的声学神经网络和语言神经网络，处理输入的包含数字信息的语音指令。

有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于文本的目标类型对所述待识别音频信息对应的标注文本信息进行预处理，包括：

对所述待识别音频信息对应的标注文本信息进行遍历，将格式为中文繁体的标注文本信息转换为中文简体的标注文本信息；

删除所述标注文本信息中多余空格和所有标点信息；

当所述文本的目标类型为数字类型时，保留所述标注文本信息中的数字类型文本信息，以及与所述数字类型标注文本信息相连接的国际单位制缩写信息；

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标类型的文本信息，在第一发音词典中添加所述目标类型的文本信息对应的发音，形成第二发音词典，包括：

基于所述目标类型的文本信息，确定与所述目标类型的文本信息相匹配的发音规则；

基于所述发音规则，生成与所述目标类型的文本信息对应的所有目标类型的文本信息的发音；

将所述目标类型的文本信息对应的所有目标类型的文本信息的发音添加至所述第一发音词典中，形成第二发音词典。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标类型的文本信息，确定与所述目标类型的文本信息相匹配的发音规则，包括：

当所述文本的目标类型为数字类型时，通过数字类型的正则匹配，确定所述标注文本信息中的数字类型标注文本信息；

基于所述数字类型的正则表达式，确定所述数字类型标注文本信息所归属的子类型；

根据所述数字类型标注文本信息所归属的子类型，确定与所述目标类型的文本信息相匹配的发音规则，其中所述发音规则包括所述数字类型标注文本信息所有相匹配的发音组合。

5.根据权利要求1所述的方法，其特征在于，所述根据所述待识别音频信息对应的标注文本信息，以及与所述标注文本信息相匹配的发音序列，确定训练样本集合，包括：

确定所述标注文本信息相匹配的发音序列中，不同标注文本信息的所有发音；

基于所述待识别音频信息对应的标注文本信息，以及不同标注文本信息的所有发音，形成相应的训练样本对，其中，一个训练样本对包括一个标注文本信息和一个标注文本信息的发音。

6.根据权利要求1所述的方法，其特征在于，所述通过所述训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数，包括：

确定与所述语音识别模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合，或者

确定与所述语音识别模型相对应的固定噪声阈值；

根据所述固定噪声阈值对所述训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合；

通过所述第二训练样本集合对所述语音识别模型中的声学神经网络进行训练，以确定所述声学神经网络的模型参数。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

显示用户界面，所述用户界面中包括以不同类型用户的第一人称视角，对即时客户端中的语音识别处理环境进行观察的人称视角画面，所述用户界面中还包括任务处理组件和信息展示组件；

通过所述用户界面，利用所述信息展示组件展示所述待识别音频信息对应的标注文本信息，以及在第一发音词典中锁添加的所述目标类型的文本信息对应的发音；

通过所述用户界面，利用所述任务处理组件调整所述第二发音词典，并基于所述第二发音词典，通过所述任务处理组件生成与所述待识别音频信息对应的标注文本信息相匹配的发音序列，以实现通过所述信息展示组件展示所述语音识别模型对使用环境中的不同语音信息进行处理的结果。

8.一种语音识别模型的训练装置，其特征在于，所述训练装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至7任一项所述的语音识别模型的训练方法。

10.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至7任一项所述的语音识别模型的训练方法。