CN113393841A

CN113393841A - 语音识别模型的训练方法、装置、设备及存储介质

Info

Publication number: CN113393841A
Application number: CN202011108842.0A
Authority: CN
Inventors: 李晓辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-09-14
Anticipated expiration: 2040-10-16
Also published as: CN113393841B

Abstract

本申请公开了一种语音识别模型的训练方法、装置、设备及存储介质，涉及机器学习领域。该方法包括：调用语音识别模型对原始语音进行语音至文本的转换，得到识别文本的文本可信度；若文本可信度小于可信度阈值，将原始语音存储至待处理样本集合中；调用语音识别模型对标注后的语音进行语音至文本的转换得到语音的音素数据，标注后的语音携带参考音素数据；基于音素数据与参考音素数据之间的音素识别损失进行模型训练，得到优化后的语音识别模型。该方法有针对性的筛选出文本可信度较低的语音数据，来训练语音识别模型在新知识领域的语音识别能力，无需采用大量该领域的语音数据来训练，进而无需在语音数据的人工标注上耗费大量人力成本。

Description

语音识别模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及机器学习领域，特别涉及一种语音识别模型的训练方法、装置、设备及存储介质。

背景技术

语音识别是将语音转换为文字的一种技术手段，近年来，它逐渐被应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

示例性的，以语音识别应用于翻译软件中为例，终端将采集到的语音输入翻译软件中，调用翻译软件中的语音识别模型对上述语音进行识别，将语音翻译为指定语言类型的文字内容。其中，上述语音识别模型是经由预先收集的海量语音、语言数据库进行离线训练得到的。

通常，新知识领域的语音识别模型的离线训练更新，采用大量该知识领域的语音数据，没有针对性，对所有语音数据均要进行人工标注，所需耗费的人力成本多。

发明内容

本申请实施例提供了一种语音识别模型的训练方法、装置、设备及存储介质，可以有针对性的筛选出文本可信度低于可信度阈值的语音数据，来训练语音识别模型对新知识领域的语音识别能力，使得模型训练无需采用大量该知识领域的语音数据，进而无需在语音数据的人工标注上耗费大量的人力成本；其次，采用模型建模能力不强的上述语音数据对语音识别模型进行训练，还能使得语音识别模型的泛化变强。所述技术方案如下：

根据本申请的一方面，提供了一种语音识别模型的训练方法，该方法包括：

调用语音识别模型对输入的原始语音进行语音至文本的转换，得到语音识别结果，语音识别结果包括原始语音对应的识别文本的文本可信度，文本可信度用于表示识别文完整表达原始语音所包含内容的可信程度；

响应于文本可信度小于可信度阈值，将原始语音存储至待处理样本集合中；

调用语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，音素数据用于表征单词的发音；标注后的语音是对待处理样本集合中的原始语音进行音素标注后得到的语音，标注后的语音携带参考音素数据；

基于音素数据与参考音素数据之间的音素识别损失，对语音识别模型进行模型训练，最终得到优化后的语音识别模型。

根据本申请的另一方面，提供了一种语音识别模型的训练装置，该装置包括：

语音识别模块，用于调用语音识别模型对输入的原始语音进行语音至文本的转换，得到语音识别结果，语音识别结果包括原始语音对应的识别文本的文本可信度，文本可信度用于表示识别文完整表达原始语音所包含内容的可信程度；

样本采集模块，用于响应于文本可信度小于可信度阈值，将原始语音存储至待处理样本集合中；

模型训练模块，用于调用语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，音素数据用于表征单词的发音；标注后的语音是对待处理样本集合中的原始语音进行音素标注后得到的语音，标注后的语音携带参考音素数据；

模型训练模块，用于基于音素数据与参考音素数据之间的音素识别损失，对语音识别模型进行模型训练，最终得到优化后的语音识别模型。

根据本申请的另一方面，提供了一种计算机设备，上述计算机设备包括处理器和存储器，上述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由上述处理器加载并执行以实现如上述方面所述的语音识别模型的训练方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述方面所述的语音识别模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上方面所述的语音识别模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

在采用语音识别模型进行语音至文本的转换过程中，采集原始语音对应的识别文本的文本可信度低于可信度阈值的原始语音，对采集到的上述原始语音进行音素标注后得到标注后的语音，运用标注后的语音对上述语音识别模型进行强化训练，也即有针对性的筛选出文本可信度低于可信度阈值的语音数据，来训练语音识别模型对新知识领域的语音识别能力，使得模型训练无需采用大量该知识领域的语音数据，进而无需在语音数据的人工标注上耗费大量的人力成本；其次，采用建模能力不强的上述语音，对上述语音识别模型进行有针对性的主动学习，能够强化模型的泛化能力，提高语音识别模型在不同知识领域上进行语音至文本的转换的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的语音识别模型的训练方法的流程图；

图2是本申请一个示例性实施例提供的语音识别模型的训练过程的流程示意图；

图3是本申请一个示例性实施例提供的识别文本的置信度的计算过程的流程示意图；

图4是本申请另一个示例性实施例提供的语音识别模型的训练方法的流程图；

图5是本申请一个示例性实施例提供的语音识别模型训练的样本数据的采集过程的流程示意图；

图6是本申请一个示例性实施例提供的语音识别模型的训练装置的结构框图；

图7是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及的名词进行介绍。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)、语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。其中，ASR是指将语音信号转换成对应的文本内容。在ASR的实现中涉及以下名词：

特征提取(Feature Extraction，FE)是指从原始语音的信号中提取出具有稳定性、区分性的特征表示向量；也即从原始语音中提取出包括语音信号的特征向量；

声学模型(Acoustic Model，AM)用于建模不同语音内容对应的概率分布的模型；也即是对原始语音分帧，之后对每一帧音频进行音素标注的模型；

词典(Lexicon)也即发音词典，用于将字或者词与音素对应，简单来说，中文就是汉子和拼音的对应，英文就是单词与音标的对应；

语言模型(Language Model，LM)用于建模语言在文本层面的概率连接关系的模型；也即建立单个字或者词之间概率连接关系的模型；

解码器(Decoder)是使用FE提取的特征，基于AM、词典和LM进行搜索，找到原始语音对应的识别文本的模块；比如，解码器通过AM得到原始语音的音素数据，从词典中查找音素数据对应的单词或者词语，再通过LM建立上述单词或者词语之间概率连接关系，得到最终的识别文本(Recognition Text)，识别文本即是输入的原始语音信号对应的识别结果文本；

置信度(Confidence)用于表征识别文本本身的确定性；较高的置信度表示ASR系统对于识别出的文本有较高的确定性，也即确定识别出的文本正确，反之则表示对识别出的文本不太确定，也即不确定识别出的文本是否正确；

标注后的语音的数据集是指原始语音及其对应的文本组成的数据集合，用于对AM进行离线训练；

强制对齐(Force Alignment)是指将语音信号对齐到其识别文本对应的模型序列上的操作；示例性的，将语音信号与识别文本中单词或者短语在时间上进行对齐；

网格图(Lattice)是指解码器基于特征向量经过图搜索后的多条路径行程的图；也即语音至文本转换的n条路径行程的图，n为正整数；

词图(Word Graph)是指将解码器输出的Lattice，转换成词语、词语在原始语音中的开始时间与结束时间、以及词语所在路径被选择概率表征的弧形成的图。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的ASR等技术，具体通过如下实施例进行说明。

提供有计算机系统支持语音识别模型的应用与训练，计算机系统中包括终端、服务器与数据库；对于语音识别模型的应用，终端中设置有语音识别模型，终端采集原始语音，将上述原始语音传输至语音识别模型中，由上述语音识别模型对上述原始语音进行语音至文本的转换，得到上述原始语音的识别文本；终端还计算上述原始语音的识别文本的文本可信度，若上述文本可信度大于或者等于可信度阈值，则不对原始语音进行其他处理，若上述文本可信度小于可信度阈值，则将上述原始语音发送至服务器，由服务器将上述原始语音存储至数据库的待处理样本集合中；

或者，服务器中设置有语音识别模型，终端采集原始语音，向服务器发送携带有原始语音的语音识别请求；服务器在接收到语音识别请求之后调用语音识别模型对上述原始语音进行语音至文本的转换，得到上述原始语音的识别文本；服务器还计算原始语音的识别文本的文本可信度，若上述文本可信度大于或者等于可信度阈值，则不对原始语音进行其他处理，若上述文本可信度小于可信度阈值，则将上述原始语音存储至数据库的待处理样本集合。

在上述对语音识别模型的应用过程中，不断收集文本可信度小于可信度阈值的原始语音作为样本数据，以对上述语音识别模型不断进行强化训练。在收集到样本数据之后，还需要对待处理样本集合中的原始语音进行人工标注，为原始语音标注参考音素数据得到标注后的语音。

对于语音识别模型的训练，服务器采用标注后的语音对语音识别模型进行离线训练，示例性的，服务器从数据库中获取标注后的语音，调用语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，该音素数据用于表征单词的发音；基于音素数据与参考音素数据之间的音素识别损失，对语音识别模型进行模型训练，最终得到优化后的语音识别模型。

终端或者服务器在语音识别模型优化完成后，将原本的语音识别模型更新为优化后的语音识别模型，在接下来的应用过程中，终端或者服务器采用上述优化后的语音识别模型进行语音至文本的转换。

示例性的，对上述语音识别模型的应用场景进行举例说明：

上述语音识别模型可以应用于不涉及多轮交互和多种语义说法的场景中，比如，对于简单指令交互的智能家居和电视盒子，可以识别“播放**台”、“打开散热器”等简单的语音控制指令、以及语音唤醒功能。

上述语音识别模型还可以应用于输入场景中，如输入法、会议等实时字幕上屏的场景中；与麦克风阵列和语义结合的人机交互场景中，如具备更自然交互形态的智能音箱，示例性的，用户说“搜索到达目的地的最短路径”，语音识别模型能够识别这段语音，并基于该段语音的识别文本返回相应的文字结果。上述两类场景中应用/软件会对说话人的语音进行自动录制，并将其连续上传至服务器，由语音识别模型对语音进行文本识别，说话人在说完话的同时能够实时地看到返回的文字。

上述语音识别模型还可以应用于已经录制完毕的音视频字幕配置的场景中；实时性要求不高的客服语音质检和用户生成内容(User Generated Content，UGC)语音内容审查等场景中。上述两类场景中终端调用软件接口或者硬件平台预先录制好的规定格式的音频，将音频上传至服务器中，由服务器调用语音识别模型对音频进行语音至文本的转换。上述语音识别模型的应用场景不限于上述举例。

示例性的，上述计算机系统中终端可以包括智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机中、笔记本电脑的至少一种。

上述计算机系统中服务器可以包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。本领域技术人员可以知晓，上述计算机系统中终端的数量可以更多或更少。比如，上述计算机系统中终端可以仅为一个，或者为几十个或几百个，或者更多数量，本申请实施例对计算机系统中终端的数量和设备类型不加以限定。

图1示出了本申请一个示例性实施例提供的语音识别模型的训练方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。该方法包括：

步骤101，调用语音识别模型对输入的原始语音进行语音至文本的转换，得到语音识别结果，语音识别结果包括原始语音对应的识别文本的文本可信度。

计算机设备在语音识别模型的应用过程中采集模型训练的样本数据，示例性的，计算机设备调用语音识别模型对输入的原始语音进行语音至文本的转换，得到原始语音对应的识别文本，并计算上述识别文本的文本可信度，最终得到的语音识别结果包括上述识别文本的文本可信度。

上述文本可信度用于表示识别文完整表达原始语音所包含内容的可信程度，可选地，上述识别文本的文本可信度包括以下至少一项：

原始语音对应的识别文本的置信度；

原始语音与识别文本之间的词语对齐的对齐率，对齐率用于表示原始语音与识别文本之间的词语对齐程度。

示例性的，语音识别模型在识别出原始语音对应的识别文本后，还计算原始语音对应的识别文本的置信度；或者，将原始语音与识别文本进行强制对齐得到强制对齐结果，基于上述强制对齐结果计算原始语音与识别文本之间的词语对齐的对齐率。

示例性的，上述原始语音可以是通过应用或者软件上传至计算机设备中的，也可以是由计算机设备上设置的声音采集设备对语音采集得到的，比如，计算机设备上设置有麦克风阵列，计算机设备通过麦克风阵列采集用户说的话得到原始语音。

步骤102，响应于文本可信度小于可信度阈值，将原始语音存储至待处理样本集合中。

计算机设备中设置有可信度阈值，计算机设备判断上述识别文本的文本可信度是否小于可信度阈值，若上述文本可信度小于可信度阈值则将原始语音存储至待处理样本集合中。

示例性的，若计算机设备为终端，终端响应于识别文本的文本可信度小于可信度阈值，将原始语音上传至服务器，由服务器存储至数据库中的待处理样本集合中；若计算机设备为服务器，服务器响应于识别文本的文本可信度小于可信度阈值，将原始语音存储至数据库中的待处理样本集合中。

上述待处理样本集合中包括语音识别模型的应用过程中采集到的原始语音，上述待处理样本集合中的原始语音作为样本数据以用于对语音识别模型的模型强化训练。

步骤103，调用语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，标注后的语音携带参考音素数据。

上述待处理集合中的原始语音是未标注过的语音数据，在对语音识别模型进行训练之前，需要采用人工标注的方式，对待处理样本集合中的原始语音进行音素标注，得到标注后的语音，也即标注后的语音是对待处理集合中的原始语音进行音素标注后得到的语音，标注后的语音携带有参考音素数据；之后将标注后的语音存储至数据库中的样本集中。

计算机设备从数据库中的样本集中获取k个标注后的语音对语音识别模型进行训练。示例性的，对于每一轮模型训练，计算机设备从数据库中的样本集中获取一个标注后的语音，调用语音识别模型对上述标注后的语音进行语音至文本的转换，得到语音的音素数据，上述音素数据用于表征单词的发音。

步骤104，基于音素数据与参考音素数据之间的音素识别损失，对语音识别模型进行模型训练，最终得到优化后的语音识别模型。

上述音素数据是语音识别模型对标注后的语音进行语音识别后得出的原始语音对应的句子发音数据，参考音素数据是人工标注的正确的原始语音对应的句子发音数据；计算机设备计算上述音素数据与参考音素数据之间的音素识别损失，基于上述音素识别损失对语音识别模型进行传播训练，调整语音识别模型中的模型参数，最终得到优化后的语音识别模型。

可选地，训练过程中的语音识别模型中还包括损失函数，上述语音识别模型将上述音素数据与参考音素数据输入损失函数中，计算出音素识别损失，之后根据音素识别损失对语音识别模型进行反向传播训练。示例性的，上述损失函数可以是均方误差损失函数、平均绝对值误差损失函数、平滑平均绝对误差(Huber Loss)损失函数、Log-Cosh损失函数、分位数损失函数中的任一项。

综上所述，本实施例提供的语音识别模型的训练方法，在采用语音识别模型进行语音至文本的转换过程中，采集原始语音对应的识别文本的文本可信度低于可信度阈值的原始语音，对采集到的上述原始语音进行音素标注后得到标注后的语音，运用标注后的语音对上述语音识别模型进行强化训练，也即有针对性的筛选出文本可信度低于可信度阈值的语音数据，来训练语音识别模型对新知识领域的语音识别能力，使得模型训练无需采用大量该知识领域的语音数据，进而无需在语音数据的人工标注上耗费大量的人力成本；其次，采用建模能力不强的上述语音，对上述语音识别模型进行有针对性的主动学习，能够强化模型的泛化能力，提高语音识别模型在不同知识领域上进行语音至文本的转换的准确性。

示例性的，如图2，示出了本申请一个示例性实施例提供的语音识别模型的训练过程的结构框图，包括了样本数据采集至模型训练的整个过程，其中，上述语音识别模型包括特征提取单元201、声学模型202、词典203、语言模型204、解码器205、以及计算单元206；

特征提取单元201的输入端为原始语音的输入端，特征提取单元201的输出端与声学模型202的输入端相连；声学模型202的输出端与解码器205的输入端相连；词典203的输入端与解码器205的输出端相连，词典203的输出端与解码器205的输入端相连；语言模型204的输入端与解码器205的输出端相连，语言模型204的输出端与解码器205的输入端相连；解码器205的输出端还与计算单元206相连。其中，计算单元206用于计算原始语音对应的识别文本的文本可信度。

本实施例中模型训练实质上是对语音识别模型中的声学模型202的训练。以识别文本的文本可信度为原始语音对应的识别文本的置信度为例，对样本数据采集至模型训练的整个过程进行说明。

在语音识别模型的应用过程中，计算机设备在获得原始语音之后，调用特征提取单元201对原始语音进行特征提取，得到目标特征向量；调用解码器205调度声学模型202、语言模型204、以及词典203基于目标特征向量进行文本识别，输出原始语音对应的网格图，该网格图是指原始语音从语音至文本转换的n条路径行程的图，n为正整数；调用计算单元206将网格图转换为词图，基于词图计算识别文本的置信度，词图是指采用词语、该词语在原始语音中的开始时间与结束时间、以及该词语所在路径被选择概率表征的弧形成的图。

示例性的，语音识别模型在通过特征提取单元201获得目标特征向量之后，将目标特征向量输入声学模型202中，由声学模型202基于目标特征向量进行音素标注，得到原始语音的目标音素数据；将上述目标音素数据输入解码器205中，解码器205基于上述目标音素数据在词典203中查找与目标音素数据匹配的字、词、短语，并调用语言模型204基于上述字、词、短语构建语言在文本层面的概率连接关系，得到网格图；解码器205基于上述网格图输出原始语音对应的识别文本；解码器205还将上述网格图输入计算单元206中，由计算单元206基于网格图计算识别文本的置信度。

示例性的，参考图3，对识别文本的置信度的计算进行说明。解码器205采用如下公式计算出识别文本的文字序列的最优解W*：

其中，argmax函数是对函数求参数(集合)函数；X表示原始语音的语音信号；W表示文字序列；P(W|X)是指给定语音信号后文字序列的概率；P(X|W)表示给定文字后语音信号的概率；P(W)表示一个文字序列本身的概率，也即该文本序列是一句或者一段话的概率；P(X)表示一个语音信号本身的概率，P(X)不含W，也即是常数，因此，在P(X)在计算过程中可以省略。

解码器205在采用上述方式计算得到网格图之后，将网格图输入到计算单元206中，由计算单元206将网格图转换为词图20，词图20中的一条弧a表示为

则由至少两个弧组成的一条完整路径C表示为

其中，w表示词语，s表示词语在原始语音中的开始时间，e表示词语在原始语音中结束时间，L为大于1且小于i的正整数；计算单元206计算路径C在词图WG 20上的后验概率P(C|WG)，公式如下：

其中，P(ar)表示第r个弧ar的概率，r为小于L的正整数；计算单元206基于词图20计算弧arc在词图WG上的后验概率P(a|WG)，公式如下：

其中，C∈WG表示C属于WG，

表示a包含C；最终计算单元206基于P(a|WG)计算得到识别文本的置信度confidence，公式如下：

其中，P(ar|WG)表示第r个弧ar在词图上的后验概率。

示例性的，上述语音识别模型输出的是包括原始语音、识别文本、以及置信度的三元数据，并基于上述三元数据筛选模型训练的样本数据，即计算机设备判断置信度是否小于置信度阈值，计算机设备中的置信度阈值是预先设置的，如图2所示，若置信度小于置信度阈值，计算机设备对三元数据中的原始语音进行采集，进一步对采集得到的原始语音进行人工标注，得到标注后的语音，最后采用标注后的语音的数据集对声学模型202进行训练。

示例性的，在对声学模型202训练的过程中，计算机设备从标注后的语音数据集中依次获取标注后的语音对声学模型进行训练，在获取一个标注后的语音之后，调用特征提取单元201从标注后的语音中进行特征提取，得到样本特征向量；再调用声学模型基于样本特征向量进行音素识别，得到语音的音素数据；进一步地，基于上述音素数据与参考音素数据之间的音素识别损失对声学模型进行模型训练，经过至少两轮模型训练的参数调整，最终得到优化后的语音识别模型。

在筛选模型训练的样本数据的过程中，需要保证原始语音对应的识别文本的文本可信度低于可信度阈值的同时，还需要保证原始语音并非是噪声，因此，图1中的步骤102可以包括步骤1021至步骤1023，如图4所示，步骤如下：

步骤1021，响应于文本可信度小于可信度阈值，基于识别文本确定原始语音是或者不是噪声。

计算机设备在计算出识别文本的文本可信度之后，判断上述文本可信度是否小于可信度阈值，若上述文本可信度小于可信度阈值，则获取原始语音的识别文本，基于上述语音识别文本确定原始语音是或者不是噪声。

示例性的，计算机设备在计算出识别文本的置信度之后，判断上述置信度是否小于置信度阈值，若上述置信度小于置信度阈值，则获取原始语音的识别文本，基于上述语音识别文本确定原始语音是或者不是噪声；

或者，计算机设备在计算出原始语音与识别文本之间的词语对齐的对齐率之后，判断判断上述对齐率是否小于对齐率阈值，若上述对齐率小于对齐率阈值，则获取原始语音的识别文本，基于上述语音识别文本确定原始语音是或者不是噪声。

可选地，对于原始语音是否为噪声的判断，计算机设备获取原始语音对应的识别文本，判断上述识别文本是否是具有语义的完整句子，响应于识别文本是具有语音的完整句子，确定原始语音不是噪声，则执行步骤1022；响应于识别文本不是具有语义的完整句子，确定原始语音是噪声，则执行步骤1023。

步骤1022，响应于原始语音不是噪声，将原始语音存储至待处理样本集合中。

计算机设备在确定原始语音不是噪声之后，将原始语音确定为对语音识别模型中的声学模型进行模型训练的样本数据，进一步地，将原始语音存储至数据库中的待处理样本集合中。

还存在识别文本的文本可信度大于或者等于可信度阈值的情况，或者，识别文本的文本可信度小于可信度阈值、且原始语音是噪声的情况，则采用如图4中步骤1023的处理方式：

步骤1023，响应于文本可信度大于或者等于可信度阈值，或者，文本可信度小于可信度阈值且原始语音是噪声，丢弃原始语音。

计算机设备在确定识别文本的文本可信度大于或者等于可信度阈值之后，确定原始语音无法作为对语音识别模型中的声学模型进行模型训练的样本数据，将原始语音丢弃；或者，计算机设备确定识别文本的文本可信度小于可信度阈值且原始语音是噪声，确定原始语音无法作为对语音识别模型中的声学模型进行模型训练的样本数据，将原始语音丢弃。

示例性的，以识别文本的文本可信度为识别文本的置信度为例对样本数据的筛选进行说明，如图5，步骤如下：

步骤31，判断识别文本的置信度是否小于置信度阈值。

计算机设备判断识别文本的置信度是否小于置信度阈值，若置信度小于置信度阈值，执行步骤32；若置信度大于或者等于置信度阈值，执行步骤33。

步骤32，判断识别文本对应的原始语音是否为噪声。

计算机设备基于识别文本判断识别文本对应的原始语音是否为噪声，若识别文本是具有语义的完整句子，则原始语义不是噪声，执行步骤34；若识别文本不是具有语义的完整句子，则原始语音是噪声，执行步骤33。

步骤33，丢弃原始语音。

计算机设备确定原始语音无法作为模型训练的样本数据，不对原始语音作为模型训练的样本数据进行存储。

步骤34，将原始语音确定为模型训练的样本数据。

计算机设备将原始语音确定为模型训练的样本数据，并将原始语音存储至数据库中。需要说明的是，确定出作为样本数据的原始语音后，还需要对原始语音进行标注，以得到用于模型训练的标注后的语音。

综上所述，本实施例提供的语音识别模型的训练方法，通过识别文本的文本可信度与识别内容的辅助进行模型训练的样本数据的筛选，从而筛选出具有代表性的样本数据，使得样本数据能够训练出的泛化能力强且识别准确的语音识别模型。

还需要说明的是，语音识别模型的强化训练可以是周期性的实行的，还可以选择在语音识别模型的识别准确率降低至一定程度的时机上进行。示例性的，以计算机设备选择时机进行语音识别模型的强化训练为例进行说明，计算机设备获取对m个原始语音进行语音至文本转换后得到的m个识别文本对应的m个文本可信度；响应于低于可信度阈值的文本可信度的个数占m个文本可信度的比例大于比例阈值，开始执行所述调用所述语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据的步骤，m为大于1的正整数。

也就是说，计算机设备在对m个原始语音进行语音识别的过程中，采集模型训练的样本数据的同时，还统计语音识别模型在对m个原始语音进行识别的时间段内的识别准确率，若识别准确率低于设置的比例阈值，则采用采集的样本数据对语音识别模型中的声学模型进行强化训练。

上述不断对语音识别模型进行强化训练的方式，能够使得语音识别模型不断强化自身的泛化能力，提高自身对不同知识领域的语音识别的准确率。

图6是本申请一个示例性实施例提供的语音识别模型的训练装置的结构框图，该装置可以通过软件、硬件、或者二者结合的形式成为服务器/终端的部分或者全部，该装置包括：

语音识别模块301，用于调用语音识别模型对输入的原始语音进行语音至文本的转换，得到语音识别结果，语音识别结果包括原始语音对应的识别文本的文本可信度，文本可信度用于表示识别文完整表达原始语音所包含内容的可信程度；

样本采集模块302，用于响应于文本可信度小于可信度阈值，将原始语音存储至待处理样本集合中；

模型训练模块303，用于调用语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，音素数据用于表征单词的发音；标注后的语音是对待处理样本集合中的原始语音进行音素标注后得到的语音，标注后的语音携带参考音素数据；

模型训练模块303，用于基于音素数据与参考音素数据之间的音素识别损失，对语音识别模型进行模型训练，最终得到优化后的语音识别模型。

在一些实施例中，语音识别结果包括原始语音的识别文本；样本采集模块302，包括：

第一识别子模块3021，用于响应于文本可信度小于可信度阈值，基于识别文本确定原始语音是或者不是噪声；

采集子模块3022，用于响应于原始语音不是噪声，将原始语音存储至待处理样本集合中。

在一些实施例中，第一识别子模块3021，用于响应于识别文本是具有语义的完整句子，确定原始语音不是噪声；响应于识别文本不是具有语义的完整句子，确定原始语音是噪声。

在一些实施例中，文本可信度包括以下至少一项：

原始语音对应的识别文本的置信度；

在一些实施例中，语音识别模型包括特征提取单元和声学模型；模型训练模块303，包括：

第一提取子模块3031，用于调用特征提取单元从标注后的语音中进行特征提取，得到样本特征向量；

第二识别子模块3032，用于调用声学模型基于样本特征向量进行音素识别，得到语音的音素数据。

在一些实施例中，文本可信度是原始语音对应的识别文本的置信度；语音识别模型包括特征提取单元、声学模型、语言模型、词典、解码器和计算单元；语音识别模块301，包括：

第二提取子模块3011，用于调用特征提取单元对原始语音进行特征提取，得到目标特征向量；

第三识别子模块3012，用于调用解码器调度声学模型、语言模型、以及词典基于目标特征向量进行文本识别，输出原始语音对应的网格图，网格图是指语音至文本转换的n条路径行程的图，n为正整数；

计算子模块3013，用于调用计算单元将网格图转换为词图，基于词图计算识别文本的置信度，词图是指采用词语、词语在原始语音中的开始时间与结束时间、以及词语所在路径被选择概率表征的弧形成的图。

在一些实施例中，模型训练模块303，用于获取对m个原始语音进行语音至文本转换后得到的m个识别文本对应的m个文本可信度；响应于低于可信度阈值的文本可信度的个数占m个文本可信度的比例大于比例阈值，开始执行调用语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据的步骤，m为大于1的正整数。

综上所述，本实施例提供的语音识别模型的训练装置，在采用语音识别模型进行语音至文本的转换过程中，采集原始语音对应的识别文本的文本可信度低于可信度阈值的原始语音，对采集到的上述原始语音进行音素标注后得到标注后的语音，运用标注后的语音对上述语音识别模型进行强化训练，也即有针对性的筛选出文本可信度低于可信度阈值的语音数据，来训练语音识别模型对新知识领域的语音识别能力，使得模型训练无需采用大量该知识领域的语音数据，进而无需在语音数据的人工标注上耗费大量的人力成本；其次，采用建模能力不强的上述语音，对上述语音识别模型进行有针对性的主动学习，能够强化模型的泛化能力，提高语音识别模型在不同知识领域上进行语音至文本的转换的准确性。

图7示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以作为上述计算机系统中的服务器。

服务器400包括中央处理单元(CPU，Central Processing Unit)401、包括随机存取存储器(RAM，Random Access Memory)402和只读存储器(ROM，Read Only Memory)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，InputOutput System)406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。

根据本申请的各种实施例，服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的语音识别模型的训练方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的语音识别模型的训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的语音识别模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

调用语音识别模型对输入的原始语音进行语音至文本的转换，得到语音识别结果，所述语音识别结果包括所述原始语音对应的识别文本的文本可信度，所述文本可信度用于表示所述识别文完整表达所述原始语音所包含内容的可信程度；

响应于所述文本可信度小于可信度阈值，将所述原始语音存储至待处理样本集合中；

调用所述语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，所述音素数据用于表征单词的发音；所述标注后的语音是对所述待处理样本集合中的所述原始语音进行音素标注后得到的语音，所述标注后的语音携带参考音素数据；

基于所述音素数据与所述参考音素数据之间的音素识别损失，对所述语音识别模型进行模型训练，最终得到优化后的语音识别模型。

2.根据权利要求1所述的方法，其特征在于，所述语音识别结果包括所述原始语音的所述识别文本；

所述响应于所述文本可信度小于可信度阈值，将所述原始语音存储至待处理样本集合中，包括：

响应于所述文本可信度小于所述可信度阈值，基于所述识别文本确定所述原始语音是或者不是噪声；

响应于所述原始语音不是所述噪声，将所述原始语音存储至所述待处理样本集合中。

3.根据权利要求2所述的方法，其特征在于，所述基于所述识别文本确定所述原始语音是或者不是噪声，包括：

响应于所述识别文本是具有语义的完整句子，确定所述原始语音不是所述噪声；

响应于所述识别文本不是具有语义的完整句子，确定所述原始语音是所述噪声。

4.根据权利要求1至3任一所述的方法，其特征在于，所述文本可信度包括以下至少一项：

所述原始语音对应的所述识别文本的置信度；

所述原始语音与所述识别文本之间的词语对齐的对齐率，所述对齐率用于表示所述原始语音与所述识别文本之间的词语对齐程度。

5.根据权利要求1至3任一所述的方法，其特征在于，所述语音识别模型包括特征提取单元和声学模型；

所述调用所述语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，包括：

调用所述特征提取单元从所述标注后的语音中进行特征提取，得到样本特征向量；

调用所述声学模型基于所述样本特征向量进行音素识别，得到语音的所述音素数据。

6.根据权利要求1至3任一所述的方法，其特征在于，所述文本可信度是所述原始语音对应的所述识别文本的置信度；所述语音识别模型包括特征提取单元、声学模型、语言模型、词典、解码器和计算单元；

所述调用语音识别模型对输入的原始语音进行语音至文本的转换，得到语音识别结果，包括：

调用所述特征提取单元对所述原始语音进行特征提取，得到目标特征向量；

调用所述解码器调度所述声学模型、所述语言模型、以及所述词典基于所述目标特征向量进行文本识别，输出所述原始语音对应的网格图，所述网格图是指语音至文本转换的n条路径行程的图，n为正整数；

调用所述计算单元将所述网格图转换为词图，基于所述词图计算所述识别文本的所述置信度，所述词图是指采用词语、所述词语在所述原始语音中的开始时间与结束时间、以及所述词语所在路径被选择概率表征的弧形成的图。

7.根据权利要求1至3任一所述的方法，其特征在于，所述调用所述语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，包括：

获取对m个原始语音进行语音至文本转换后得到的m个识别文本对应的m个文本可信度；

响应于低于所述可信度阈值的文本可信度的个数占所述m个文本可信度的比例大于比例阈值，开始执行所述调用所述语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据的步骤，m为大于1的正整数。

8.一种语音识别模型的训练装置，其特征在于，所述装置包括：

语音识别模块，用于调用语音识别模型对输入的原始语音进行语音至文本的转换，得到语音识别结果，所述语音识别结果包括所述原始语音对应的识别文本的文本可信度，所述文本可信度用于表示所述识别文完整表达所述原始语音所包含内容的可信程度；

样本采集模块，用于响应于所述文本可信度小于可信度阈值，将所述原始语音存储至待处理样本集合中；

模型训练模块，用于调用所述语音识别模型对标注后的语音进行语音至文本的转换，得到语音的音素数据，所述音素数据用于表征单词的发音；所述标注后的语音是对所述待处理样本集合中的所述原始语音进行音素标注后得到的语音，所述标注后的语音携带参考音素数据；

所述模型训练模块，用于基于所述音素数据与所述参考音素数据之间的音素识别损失，对所述语音识别模型进行模型训练，最终得到优化后的语音识别模型。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的语音识别模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的语音识别模型的训练方法。