CN112331229B

CN112331229B - 语音检测方法、装置、介质和计算设备

Info

Publication number: CN112331229B
Application number: CN202011146246.1A
Authority: CN
Inventors: 马慧超; 段亦涛; 孙艳庆
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2024-03-12
Anticipated expiration: 2040-10-23
Also published as: CN112331229A

Abstract

本发明的实施方式提供了一种语音检测方法、装置、介质和计算设备。该方法包括：获取参考文本对应的待检测语音；基于所述参考文本所对应的目标识别网络对所述待检测语音进行处理，确定所述待检测语音包含的至少一个音素对应的标签；若所述至少一个音素对应的标签中存在连读标签，则确定所述待检测语音中存在连读；其中，所述连读标签为多种连读标签中至少之一；所述多种连读标签中不同的连读标签对应不同的连读规则。

Description

语音检测方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及音频信息处理领域，更具体地，本发明的实施方式涉及一种语音检测方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

相关技术中，语音检测可以被用于进行语音测评，语音测评被广泛用于语音的连读检测处理中。其中，所述语音的连读检测指的是对用户输入的语音是否在某两个单词之间发生连读的检测。然而，相关技术的连读检测中，无法对多种连读规则进行检测，因此无法满足更多的语言的连读检测的需求。

发明内容

本发明期望提供一种语音检测方法、装置、介质和计算设备，以至少解决上述技术问题。

在本发明实施方式的第一方面中，提供了一种语音检测方法，包括：

获取参考文本对应的待检测语音；

基于所述参考文本所对应的目标识别网络对所述待检测语音进行处理，确定所述待检测语音包含的至少一个音素对应的标签；

若所述至少一个音素对应的标签中存在连读标签，则确定所述待检测语音中存在连读；其中，所述连读标签为多种连读标签中至少之一；所述多种连读标签中不同的连读标签对应不同的连读规则。

在本发明的一个实施例中，所述方法还包括：

基于所述参考文本中每一个单词所对应的子识别网络，构建目标识别网络；其中，所述参考文本中的至少部分单词所对应的子识别网络包含单词的结束音素所对应多种连读标签的多条支路；所述目标识别网络中包含至少一条路径，所述至少一条路径的部分路径中包含至少部分单词的结束音素对应的连读标签的支路。

在本发明的一个实施例中，所述基于参考文本中每一个单词所对应的子识别网络，构建目标识别网络，包括：

基于所述参考文本包含的多个单词的先后顺序，依次将所述参考文本中相邻两个单词中的第一个单词对应的子识别网络中结束音素对应的至少一条支路的节点与第二个单词对应的子识别网络起始音素对应的至少一条支路的节点相连，得到所述目标识别网络。

在本发明的一个实施例中，所述方法还包括：

对所述目标识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的所述目标识别网络；

其中，所述第一预设条件包括：相邻两个单词中第一个单词的结束音素的支路的连读标签所对应的连读规则，与所述相邻两个单词的所述第一个单词的结束音素与第二个单词的起始音素之间的连读规则不匹配。

在本发明的一个实施例中，所述基于所述参考文本所对应的目标识别网络对所述待检测语音进行处理，确定所述待检测语音包含的至少一个音素及其对应的标签，包括：

基于所述目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径；

基于所述目标路径确定所述待检测语音包含的至少一个音素及其对应的标签。

在本发明的一个实施例中，所述基于所述目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径，包括：

基于声学模型对所述待检测语音进行处理，得到所述待检测语音所对应的音素序列以及所述音素序列中每一个音素所对应的概率值；

基于所述音素序列中每一个音素所对应的概率值、以及所述目标识别网络进行对齐处理，得到所述待检测语音所对应的目标路径。

在本发明的一个实施例中，所述方法还包括：

获取预设模型，获取训练语音及其对应的训练文本；

基于所述预设模型、所述训练语音以及所述训练文本所对应的识别网络，执行N次迭代操作得到声学模型；其中，N为大于等于2的整数。

在本发明的一个实施例中，所述方法还包括：

对所述训练文本所对应的所述识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的识别网络。

在本发明的一个实施例中，所述N次迭代操作中的第i次迭代操作，包括：

基于第i-1次调整后的预设模型，对所述训练语音进行处理，得到所述训练语音所对应的音素序列以及所述音素序列中每一个音素所对应的概率值；其中，i为大于等于1且小于等于N的整数；

基于所述音素序列中每一个音素所对应的概率值以及所述剪枝后的所述识别网络，得到所述训练语音的匹配路径；其中，所述匹配路径中包含训练语音所对应的至少一个音素及其对应的标签；

基于所述训练语音的匹配路径确定误差函数，若所述误差函数满足第二预设条件，则将所述第i-1次调整后的预设模型作为所述声学模型；否则，基于所述误差函数对所述第i-1次调整后的预设模型再次进行调整，得到第i次调整后的预设模型，以执行第i+1次迭代操作。

在本发明实施方式的第二方面中，提供了一种语音检测装置，包括：

信息获取模块，用于获取参考文本对应的待检测语音；

语音检测模块，用于基于所述参考文本所对应的目标识别网络对所述待检测语音进行处理，确定所述待检测语音包含的至少一个音素对应的标签；若所述至少一个音素对应的标签中存在连读标签，则确定所述待检测语音中存在连读；其中，所述连读标签为多种连读标签中至少之一；所述多种连读标签中不同的连读标签对应不同的连读规则。

在本发明的一个实施例中，所述装置还包括：

识别网络构建模块，用于基于参考文本中每一个单词所对应的子识别网络，构建目标识别网络；其中，所述参考文本中的至少部分单词所对应的子识别网络包含单词的结束音素所对应多种连读标签的多条支路；所述目标识别网络中包含至少一条路径，所述至少一条路径的部分路径中包含至少部分单词的结束音素对应的连读标签的支路。

在本发明的一个实施例中，所述识别网络构建模块，用于基于所述参考文本包含的多个单词的先后顺序，依次将所述参考文本中相邻两个单词中的第一个单词对应的子识别网络中结束音素对应的至少一条支路的节点与第二个单词对应的子识别网络起始音素对应的至少一条支路的节点相连，得到所述目标识别网络。

在本发明的一个实施例中，所述识别网络构建模块，用于对所述目标识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的所述目标识别网络；

在本发明的一个实施例中，所述语音检测模块，用于基于所述目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径，基于所述目标路径确定所述待检测语音包含的至少一个音素及其对应的标签。

在本发明的一个实施例中，所述语音检测模块，用于基于声学模型对所述待检测语音进行处理，得到所述待检测语音所对应的音素序列以及所述音素序列中每一个音素所对应的概率值；基于所述音素序列中每一个音素所对应的概率值、以及所述目标识别网络进行对齐处理，得到所述待检测语音所对应的目标路径。

在本发明的一个实施例中，所述装置还包括：

训练模块，用于获取预设模型，获取训练语音及其对应的训练文本；基于所述预设模型、所述训练语音以及所述训练文本所对应的识别网络，执行N次迭代操作得到声学模型。

在本发明的一个实施例中，所述训练模块，用于对所述训练文本所对应的所述识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的识别网络。

在本发明的一个实施例中，所述训练模块，用于在执行所述N次迭代操作中的第i次迭代操作中，执行以下处理：

在本发明实施方式的第三方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行实现上述方法的步骤。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

根据本发明实施方式，在获取待检测语音后，基于目标识别网络对待检测语音进行识别，若识别得到待检测语音的音素及其对应的标签中存在多种连读标签中至少一个，则可以确定待检测语音中存在连读。如此，可以实现对待检测语音进行多种连读规则的检测，解决了无法进行多种连读规则的检测的问题，适用于存在多种连读规则的语种或语言的检测，扩大了语音连读检测的适用范围。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明一实施方式的语音检测方法实现示意图一；

图2示意性地示出了根据本发明一实施方式的单词的子识别网络组成示意图一；

图3示意性地示出了根据本发明一实施方式的单词的子识别网络组成示意图二；

图4示意性地示出了根据本发明一实施方式的目标识别网络组成示意图；

图5示意性地示出了根据本发明一实施方式的剪枝后的目标识别网络组成示意图；

图6示意性地示出了根据本发明一实施方式的语音检测方法实现示意图二；

图7示意性地示出了根据本发明一实施方式的介质结构示意图；

图8示意性地示出了根据本发明一实施方式的语音检测装置的组成结构示意图；

图9示意性地示出了根据本发明一实施方式的计算设备结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种语音检测方法、装置、介质和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的连读检测中，要么不存在连读的检测，要么仅针对一种连读规则进行检测，无法对多种连读规则进行检测，因此无法满足更多的语言的连读检测的需求。

有鉴于此，本发明提供一种语音检测方法、装置、介质和计算设备，在获取待检测语音后，基于目标识别网络对待检测语音进行识别，若识别得到待检测语音的音素及其对应的标签中存在多种连读标签中至少一个，则可以确定待检测语音中存在连读。如此，可以实现对待检测语音进行多种连读规则的检测，解决了无法进行多种连读规则的检测的问题，适用于存在多种连读规则的语种或语言的检测，扩大了语音连读检测的适用范围。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本发明示例性实施方式的语音检测方法，包括：

S101：获取参考文本对应的待检测语音；

S102：基于所述参考文本所对应的目标识别网络对所述待检测语音进行处理，确定所述待检测语音包含的至少一个音素对应的标签；

S103：若所述至少一个音素对应的标签中存在连读标签，则确定所述待检测语音中存在连读；其中，所述连读标签为多种连读标签中至少之一；所述多种连读标签中不同的连读标签对应不同的连读规则。

本实施例可以应用于电子设备，比如，可以是个人电脑(PC)、平板电脑、手机等等。

在S101之前可以包括：获取所述参考文本。所述参考文本的获取方式可以是用户预先从多个文本中选择一个作为参考文本；又或者，可以是电子设备从多个文本中随机选择一个作为参考文本。

或者，还可以是执行S101的同时，获取参考文本对应的待检测语音的同时，获取所述参考文本。

比如，当用户需要进行连读检测的时候，可以从多个文本中选取本次所要朗读的文本，将本次所要朗读的文本作为上述参考文本。又比如，当用户需要进行连读检测的时候，由电子设备随机从多个文本中选择一个文本供用户朗读，该选择的一个文本即为上述参考文本。当然，参考文本的获取还可能存在其他方式，本实施例不对其进行穷举。

所述参考文本中包含有多个单词。其中，所述多个单词可以是多个英文单词；当然，所述多个单词还可以包括其他语种，只要是语法中存在连读规则的语种均可以在本实施例的保护范围内，只是本实施例不进行穷举。

在S101中，所述获取参考文本对应的待检测语音；

其中，所述参考文本对应的待检测语音，可以将需要进行连读检测的语音作为待检测语音。待检测语音对应的语言根据实际应用场景可以不同，例如可以是中文或者英文。优选的，在本实施例中该待检测语音为英文。

另外，所述参考文本对应的待检测语音可以是实时获取的，也可以是预先存储的。

比如，可以用户在使用实时检测软件或应用的时候，可以通过音频采集装置(比如麦克风)实时获取用户输入的参考文本对应的语音数据，作为参考文本对应的待检测语音。也可以预先将参考文本对应的待检测语音存储到数据库中(这里可以是保存参考文本及其对应的待检测语音)，当需要进行连读检测时，再从数据库中获取所述参考文本对应的待检测语音，比如，可以从数据库中获取所述参考文件，以及所述参考文本所对应的待检测语音。当然，还可以是其他设备中进行了语音采集并保存之后，从其他设备中获取到其采集的语音，将获取到的语音作为所述参考文本对应的待检测语音，或者，还可以存在其他的获取方式，本实施例中不做穷举。

还需要指出的是，所述参考文本对应的待检测语音还可以是对实时采集、或从数据库获取、或从其他设备获取的初始的语音数据进行预处理后得到的语音。其中，预处理可以包括有对初始的语音数据进行去噪处理，去除静音的片段等等。

另外，所述待检测语音可以是用户基于参考文本所包含的多个单词发出的语音。也就是说，待检测语音与参考文本中包含的多个单词的语种是相同的，比如参考文本中包含的多个单词为英文，那么待检测语音为英语。

本实施例提供的方案还包括基于所述参考文本构建目标识别网络。具体来说，可以包括：

基于所述参考文本中每一个单词所对应的子识别网络，构建目标识别网络；

其中，所述参考文本中的至少部分单词所对应的子识别网络包含单词的结束音素所对应多种连读标签的多条支路；所述目标识别网络中包含至少一条路径，所述至少一条路径的部分路径中包含至少部分单词的结束音素对应的连读标签的支路。

需要指出的是，构建目标识别网络的处理，可以在S102之前、在获取到参考文本之后执行，不对其具体执行时机进行限定。

前述实施例已经说明，所述参考文本中包含多个单词；在基于参考文本构建目标识别网络的时候，基于所述参考文本包含的所述多个单词中每一个单词所对应的子识别网络构建目标识别网络。

这里，单词所对应的子识别网络，也就是发音词典，用于表示单词到具体音素序列的映射。可以将上述发音词典称为L图，或字典加权有限状态机转写器，Lexicon WFST(Weighted Finite State Transducer)。其中，加权有限状态机转写器(Weighted FiniteState Transducer,WFST)是由多个节点和连接节点之间的支路(或称为边)组成的网络。

在电子设备中可以预先保存一个或多个预配置的单词的子识别网络，其中，一个或多个预配置的单词中包含本实施例中所述参考文本中的多个单词。

所述预配置的单词(或参考文本中的单词)的子识别网络中包括有：至少一个节点，相邻两个节点之间的支路，其中每一条支路对应单词中的一个音素及其对应的标签。其中，不同支路对应的音素和/或标签可以不同。

其中，所述每一条支路上的音素所对应的标签为以下标签中之一：多种连读标签之一、起始音素标签、中间音素标签、结束音素标签。

一种示例中，起始音素标签可以表示为“_B”；中间音素标签可以为“_I”；结束音素标签，可以表示为“_E”。当然，还可以包括更多类型的标签，这里不做穷举。

其中，多种连读标签与单词中的结束音素对应，也就是说，当某一条支路上的音素为结束音素的时候，该支路可以有：结束音素标签、或者多种连读标签之一。

进一步来说，单词中的结束音素所对应多种连读标签中不同的连读标签对应不同的连读规则。以英语举例来说，可以包括以下四类连读规则：

辅音+元音的连读规则；即连续的两个单词，其中前面的单词称为单词1，后面的单词称为单词2，单词1的结束音素为辅音，单词2的开始音素为元音的连读规则，需要理解的是，辅音+元音的连读规则可以包括一个或多个。

辅音+辅音的连读规则；即连续的两个单词，其中前面的单词称为单词1，后面的单词称为单词2，单词1的结束音素为辅音，单词2的开始音素也为辅音的连读规则，同样的，辅音+辅音的连读规则可以包括一个或多个，比如，可以是前一个辅音的单词的结束音素不发音。

元音+元音的连读规则；即连续的两个单词，其中前面的单词称为单词1，后面的单词称为单词2，单词1的最后音素为元音，单词2的开始音素为元音的连读规则；元音+元音的连读规则可以包括一个或多个，比如，可以是单词1与单词2之间增加一个音素。

特殊组合连读规则；举例来说，可以包括T+Y＝CH的连读规则，也就是单词1的结束音素为T，单词2的开始音素为Y，则其连读规则对应的发音为单词1的结束音素不发音、并且单词2的开始音素变为发“CH”的音。需要指出的是，特殊组合连读规则可以不仅包含上述一种，还可以包括更多种连读规则，只是本实施例不对其进行穷举。

相应的，可以针对每一种连读规则都设置对应的连读标签。举例来说，连读规则1对应的连读标签为“_H”、连读规则2对应的连读标签为“_T”、连读规则3对应的连读标签为“_D”、以及连读规则4对应的连读标签为“_L”；其中，所述连读规则1可以为前述特殊组合连读规则中之一，所述连读规则2可以为前述元音+元音的连读规则中之一，所述连读规则3可以为前述辅音+辅音的连读规则中之一，所述连读规则4可以为前述辅音+元音的连读规则中之一。当然还可以存在更多的连读规则及其对应的连读标签，这里不做穷举。

在一个示例中，参见图2，以一个单词“what”的子识别网络为例，在图2中该单词的结束音素对应一个连读规则的连读标签，具体的：

在图2所示的子识别网络中，每条支路上可以设置有三部分的内容：音素_标签:单词/权重，本实施例中把权重用xxx表示。这里，只在单词的第一个音素即起始音素的“单词”处输出单词的全拼(比如可以输出“what”)，其他支路中“单词”的位置都设置为空，用eps表示。由于本实施例重点关心的是“音素_标签”这个内容，因此，在后续说明中以每条支路的“音素_标签”做重点说明。

图2中，英文单词“what”的节点6之后包含有多条对应于结束音素的支路，下两个支路(也就是图2中节点6至节点2、以及节点6至节点4的支路)是无连读标签的支路，节点6至节点1(节点1为下一个以元音开头的单词的开始节点)的支路出现了_L标签，该标签为连读标签。

需要说明的是，下一个单词的开始节点可以有多个，根据下一个单词的不同对应的开始节点可以不同。如图2所示节点2和节点1，其中节点1用于下一个单词为以元音开始的单词的情况中，从节点1指向节点5的支路可以是下一个以元音开头(也就是起始音素为元音)的单词的支路；节点2则为以辅音作为起始音素的单词的开始节点，比如，图2所示，节点6至节点2的支路中，节点2可以认为是下一个以辅音作为起始音素的开始节点。

上述图2虽然以某一个具体的单词为例进行的说明，实际上无论是哪个英文单词(或其他语言或语种的单词)，均可以构成与图2类似的子识别网络，只是其中的音素会存在不同，本实施例中不对各个英文单词进行穷举。

在又一个示例中，参见图3，以一个单词的子识别网络中，结束音素对应了多个连读规则的连读标签的支路为例进行说明，在图3中包含连读标签_H,_T,_D，_L分别用于对应不同的连读规则，同样以单词为“what”为例，具体的：

图3中，英文单词“what”的节点7之后包含有多条对应于结束音素的支路，节点7至节点2、以及节点7至节点8的支路是结束音素标签的支路，这两条支路为无连读的支路，不对其进行赘述；图3中包含有多条支路分别对应不同的连读标签及不同的连读规则，分别是：节点7至节点1的支路设置了连读标签_L，对应的连读规则为连读规则4；节点7至节点5对应了连读标签_H，对应的连读规则为连读规则1；节点7至节点4对应了连读标签_T，对应的连读规则为连读规则2；节点7至节点3的支路对应的连读标签为_D，该连读标签对应连读规则3。

关于图3中的其他支路的解释与图2类似，这里不做赘述。需要理解的是，图3虽然采用某一个具体的单词为例进行的说明，实际上无论是哪个英文单词(或无论是其他语言或语种的单词)，均可以构成与图3类似的子识别网络，只是其中的音素会存在不同，还有可能结束音素能够对应的连读规则或多或少，本实施例中不对各个英文单词进行穷举。

可以看出，本申请可以对单词的子识别网络中结束音素所对应的支路增加多种连读标签以分别对应多种连读规则，使得基于单词的子识别网络构建的目标识别网络可以识别出更多种类的连读。

基于以上说明，可以得知在电子设备中可以预先保存一个或多个预配置的单词的子识别网络，这些预配置的单词中至少存在部分单词的结束音素可以对应多条支路，多条支路对应了多种连读标签。

进而，在得到参考文本之后，可以从上述预配置的单词的子识别网络中查找参考文本中包含的每一个单词的子识别网络；再根据参考文本中单词的先后顺序进行子识别网络的合并得到目标识别网络。具体地，所述基于参考文本中每一个单词所对应的子识别网络，构建目标识别网络，包括：

基于前述实施例已经说明，在一个单词的子识别网络包含有对应于结束音素的一条或多条支路，相应的，每一条支路可以具备两个节点，分别称为支路的开始节点以及支路的终止节点。在构建目标识别网络的时候，相邻两个单词中的第一个单词的结束音素的每一条支路的终止节点，都可以跟相邻两个单词中的第二个单词的起始音素的每一条支路的开始节点相连。

比如，参见图4举例进行说明：根据单词1以及单词2的子识别网络构建目标识别网络的处理中，单词1的结束音素对应两条支路，分别为图中的节点2至节点3的支路，以及节点2至节点5的支路。单词1的节点2对应的两条支路的终止节点分别为节点3和节点5，节点3与单词2的两个开始节点(节点6和节点7)相连，并且节点5也与单词2的两个开始节点相连，形成单词1+单词2的目标识别网络。

需要理解的是，图4中单词1仅存在两个结束音素对应的支路，实际处理中，单词1可以存在结束音素对应更多支路的情况，不同的支路对应不同标签(其中至少可以包括多条对应多个连读标签的支路)，不论单词1存在几个结束音素所对应的支路，每一条支路的终止节点均与单词2的全部开始节点相连。

再进一步地，在基于每一个单词的子识别网络构建目标识别网络的处理中，除了位于参考文本的开头位置的单词之外的其他单词的起始音素可以对应至少两条支路，相应的，可以对应有至少两个开始节点。以其他单词的起始音素对应两条支路为例，其中一条支路为无连读的支路，另一条支路为与前一个单词之间存在连读的支路。比如，参见图4，其中，第二个单词为“are”，起始音素存在两条支路，两条支路上的音素、标签可以是相同的，但是对应了不同的开始节点，其中节点6为无连读支路对应的开始节点，节点7为与前一个单词之间存在连读的支路所对应的开始节点。

进一步地，在构建了目标识别网络之后，可以包括以下两种处理方式：

方式1、

执行S102的处理，具体可以包括：基于所述目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径；

也就是说，直接采用目标识别网络对待检测语音进行对其处理，以得到待检测语音所对应的目标路径，进而根据所述目标路径确定待检测语音的音素序列及其标签，也就是得到所述至少一个音素及其对应的标签。

再进一步地，所述基于所述目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径，包括：

具体来说，声学模型是用于进行声学识别的人工智能模型，可以预先进行机器学习训练得到。声学模型可以输出音素对应的概率值(或分数)。声学模型可以是HMM(HiddenMarkov Model，隐马尔可夫模型)。

音素可以是根据语音的自然属性划分出来的最小语音单位，依据发音动作分析，一个单词的发音可以由一个或者多个音素组成。例如，对于英文，音素可以与国际音标中的发音单元具有对应关系。声学模型可以是以音素为单元进行建模以及训练的。

基于声学模型可以得到待检测语音中包含的至少一个音素以及每一个音素的概率值。其中，音素的概率值表示待检测语音的输出为该音素的可能程度(或似然程度)，概率值越大，则表示可能性越大。

得到所述待检测语音所对应的目标路径的过程可以是语音解码的过程，可以将其理解成是在目标识别网络中寻找最优的目标路径的过程。对于待检测语音，在搜索目标识别网络时，从第一个单词的开始节点到最后一个单词的一个或多个终止节点的所有路径中的任意一条路径都有可能是所述待检测语音所对应的目标路径。也就是说，语音解码的过程(或根据目标识别网络确定所述待检测语音所对应的目标路径的过程)是从所有路径找到最有可能产生该段待检测语音的路径。这里，所述目标识别网络是与参考文本对应的，所述目标识别网络包括节点和连接节点之间的支路，其构建方式前述实施例已经说明，这里不做重复说明。

再具体来说，通过声学模型可以得到待检测语音的至少一个音素(也就是音素序列)以及音素的概率值；将其跟目标识别网络进行对齐，也就是在一个音素所在支路的终止节点处可以根据下一个音素的概率值确定下一个音素所匹配的支路，直至最终得到全部匹配的支路及其对应的节点，基于全部匹配的支路及其对应的节点，确定该待检测语音所对应的目标路径。

结合图4举例来说，在中间音素“A”所在支路的终止节点2存在两条支路；若基于声学模型得到下一个音素的为“T”概率值较大，则匹配到节点2至节点3的支路，相应的，该音素的标签为_E，用于表示该音素没有进行连读；若基于声学模型得到下一个音素的不发音的概率值较大，则匹配到节点2至节点5的支路，相应的，该音素的标签为_L，用于表示该音素进行了连读，并且，基于该标签(连读标签_L)还可以进一步确定该连读规则是什么，比如预先设置连读标签_L对应了连读规则4，则可以确定这里发生了连读，并且对应了连读规则4。

方式2、与方式1不同之处在于，方式2首先针对目标识别网络将其中不符合连读规则的支路进行剪枝，得到剪枝后的目标识别网络；然后再执行S102。在执行S102中采用的为剪枝后的目标识别网络进行对齐处理以得到待检测语音所对应的目标路径。

关于对目标识别网络进行剪枝的处理，可以包括：

也就是说，由于每一个单词的子识别网络的构建是不考虑其前后单词的情况的，这样就可能在基于参考文本中每一个单词的子识别网络构建目标识别网络的时候，导致最终建立的目标识别网络中存在不合乎连读规则的支路，本方式中，预先对这部分支路进行剪枝。如此处理，可以使得最终用于确定待检测语音的目标路径的目标识别网络更加合理，保证最终识别到的目标路径更加准确。

具体来说，参考文本中相邻两个单词中可以存在多个连读标签，其中有一部分可能与两个单词的发音不符合，比如，第一个单词的结束音素为辅音，下一个单词的开始音素为辅音，其对应的应该为辅+辅的连读规则，但是第一个单词的结束音素多条支路中有一条支路对应的为辅+元的连读标签，那么这条支路就是需要剪枝的支路。

所述第一预设条件还可以包括：相邻两个单词中第一个单词的结束音素对应的终止节点、与第二个单词的起始音素对应的开始节点之间的支路与所述第一个单词的结束音素的标签不匹配。比如，第一个单词的结束音素的标签为结束音素标签(也就是无连读标签)，但是该支路的终止节点与第二个单词的起始音素的连读的支路的开始节点相连，那么这条支路就是需要剪枝的支路。

以图4为例进行说明，第一个单词为“what”第二个单词为“are”，第一个单词的结束音素“T”在对应的标签为“_E”的时候表征为结束音素标签，也就是无连读标签，对应的终止节点为节点3；若该节点3与第二个单词的起始音素的正常开始节点连接，即节点3至节点6进行连接，则为正常的连接支路，该支路可以保留；但是，如果节点3与节点7连接，该节点7为起始音素用于连读的支路的开始节点，则这条支路为满足上述第一预设条件的支路，需要对齐进行剪枝。基于以上剪枝的处理，可以得到最终如图5所示的目标识别网络，相对于图4，可以看出图5中对部分支路进行了剪枝，具体的是剪枝掉了图4中节点3至节点7的支路、节点4至节点7的支路、以及节点5至节点6的支路。

结合图3来说，很可能相邻两个单词中的第一个单词的子识别网络中的结束音素的支路的标签为_L，该支路对应的终止节点为节点1，相邻两个单词中的第二个单词的起始音素却是从3、4或者5中的一个开始节点起始的，这样造成的结果是第一个单词的结束音素是辅音+第二个单词的第一个音素也是辅音，但是对齐结果却出现了辅音+元音_L的标签，这样的支路就是错误的，此错误带来的结果就是识别率的大幅下降，甚至对于原本的规则辅音+元音都会造成很大的负面影响，这样的连读检测完全不可用。因此，本实施例针对这种情况进一步提出了对目标识别网络进行剪枝的操作，对于符合第一预设条件的支路进行删除，从而只保留符合规则(比如连读规则)的支路，这样能在结果中减少很多的不符合规则的标签出现情况，进而能够提升识别率。剪枝的处理可能会直接影响目标识别网络的可使用性。并且，相对于没有连读规则或仅有一个连读规则的处理，本实施例提供的剪枝的处理更加适用于对单词的子识别网络加入多种连读规则的场景。

本方式中，基于上述剪枝后的目标识别网络执行S102的处理，与方式1类似，只是将方式1的目标识别网络替换为本方式中的剪枝后的目标识别网络，具体的处理过程不再进行重复说明。

完成以上处理之后，可以得到目标路径；也就是获取到待检测语音在目标识别网络中经过的节点，基于节点确定至少一条支路最终组成目标路径。

该目标路径中包含有至少一个音素以及其对应的标签，然后可以执行S103，若所述至少一个音素对应的标签中存在连读标签，则确定所述待检测语音中存在连读；其中，所述连读标签为多种连读标签中至少之一；所述多种连读标签中不同的连读标签对应不同的连读规则

也就是说，判断目标路径中包含的至少一个音素对应的标签是否存在一个或多个连读标签，若存在，则可以确定待检测语音中存在连读，并且，可以基于连读标签的位置，进一步确定所述待检测语音发生连读的位置。如此即完成了对待检测语音的连接检测。

或者，若目标路径中包含的至少一个音素对应的标签不存在连读标签，则可以确定待检测语音中不存在连读。

结合图4或图5为例，假设参考文本是“what are”，针对待检测语音得到的目标路径中经过的节点依次是0 1 2 5 7 8 9，则对齐后的音素序列及其标签依次为：W_B A_I T_L A_B R_E；通过音素序列可以检测到_L标签，从而可以确定待检测语音中存在连读，并且可以确定连读发生的位置。

进一步地，在完成S103之后，还可以生成检测结果提示信息，通过该检测结果提示信息指示待检测语音是否存在连读，若存在连读进一步指示出连读的具体位置，如此便于用户查看。

结合图6对本实施例提供的上述方案进行说明，将参考文本(比如可以是text文本)、以及用户语音(也就是待检测语音，可以是wav格式的信息)作为输入，基于参考文本所对应的目标识别网络对用户语音进行识别，得到所述用户语音包含的至少一个音素对应的标签，基于至少一个音素对应的标签是否存在连读标签，最终输出用户语音存在连读或不存在连读的检测结果。

最后，针对上述声学模型的训练的过程，进一步说明如下：

获取预设模型，获取训练语音及其对应的训练文本；

这里，训练语音可以是从数据库中获取的；训练语音以及训练文本需要为成对出现的，也就是训练语音必然存在对应的训练文本。

还需要指出的是，在采用某一个训练文本及其对应的训练语音进行处理之前，可以预先生成训练文本所对一个的识别网络，并且，还可以对所述训练文本所对应的所述识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的识别网络。这里，剪枝的处理与上述实施例中对目标识别网络进行剪枝的处理是相同的，因此不做赘述。在训练模型的阶段对识别网络进行剪枝的目的是为了使得训练得到的声学模型更加准确。

上述N次迭代处理中每次迭代处理的过程可以是相同的，将N次迭代处理中任意一次迭代处理称为第i次迭代处理(其中，i为大于等于1且小于等于N的整数)进行详细说明，所述N次迭代操作中的第i次迭代操作，包括：

基于第i-1次调整后的预设模型，对所述训练语音进行处理，得到所述训练语音所对应的音素序列以及所述音素序列中每一个音素所对应的概率值；

这里，若i＝1，则第i-1次调整后的预设模型可以为初始预设模型。

若i大于1，则每次迭代处理都可以将上一次迭代处理调整后的模型作为上一次迭代处理的调整后的预设模型进行本次迭代处理。

在第i次迭代处理中，基于第i-1次调整后的预设模型，对所述训练语音进行处理，得到所述训练语音所对应的音素序列以及所述音素序列中每一个音素所对应的概率值，以及基于所述音素序列中每一个音素所对应的概率值以及所述剪枝后的所述识别网络，得到所述训练语音的匹配路径的处理的相关描述与前述基于声学模型以及目标识别网络对待检测语音进行识别的处理类似，不做重复说明。

需要重点说明的是，确定声学模型完成训练的方式，可以是：通过声学模型是否达到收敛条件进行判断。这里，收敛条件可以包括至少一种，一种示例中，可以是前述误差函数是否满足第二预设条件；所述第二预设条件可以是误差函数小于或等于预设门限值，这里预设门限值可以根据实际情况进行设置。当然，收敛条件可以还包括迭代次数是否达到次数门限值，比如，可以是10次，如果迭代次数未达到次数门限值，也可以再次执行下一次迭代训练。其他的模型收敛条件也可以适用于本实施例的声学模型的训练中，只是这里不做穷举。

这样，通过对训练文本的识别网络进行剪枝，进而基于剪枝后的识别网络以及训练语音对预设模型进行训练最终得到声学模型，可以使得本实施例基于多种连读规则的识别网络对声学模型进行训练，使得训练后的声学模型能够更准确的确定语音中各个音素的概率，进而能够结合文本所对应的识别网络准确的得到多种连读规则的匹配，提升多种连读规则的检测的准确性。

可见，通过采用上述方案，在获取待检测语音后，基于目标识别网络对待检测语音进行识别，若识别得到待检测语音的音素及其对应的标签中存在多种连读标签中至少一个，则可以确定待检测语音中存在连读。如此，可以实现对待检测语音进行多种连读规则的检测，解决了现有技术中无法进行多种连读规则的检测的问题，从而适用于存在多种连读规则的语种的检测，使得语音连读检测能够适用于更多的场景。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的语音检测方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：

获取参考文本对应的待检测语音；

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图7所示，描述了根据本发明的实施方式的介质70，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本发明不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图8对本发明示例性实施方式的装置进行说明。

本发明实施例提供一种语音检测装置，如图8所示，包括：

信息获取模块81，用于获取参考文本对应的待检测语音；

语音检测模块82，用于基于所述参考文本所对应的目标识别网络对所述待检测语音进行处理，确定所述待检测语音包含的至少一个音素对应的标签；若所述至少一个音素对应的标签中存在连读标签，则确定所述待检测语音中存在连读；其中，所述连读标签为多种连读标签中至少之一；所述多种连读标签中不同的连读标签对应不同的连读规则。

所述装置还包括：

识别网络构建模块83，用于基于参考文本中每一个单词所对应的子识别网络，构建目标识别网络；其中，所述参考文本中的至少部分单词所对应的子识别网络包含单词的结束音素所对应多种连读标签的多条支路；所述目标识别网络中包含至少一条路径，所述至少一条路径的部分路径中包含至少部分单词的结束音素对应的连读标签的支路。

所述识别网络构建模块83，用于基于所述参考文本包含的多个单词的先后顺序，依次将所述参考文本中相邻两个单词中的第一个单词对应的子识别网络中结束音素对应的至少一条支路的节点与第二个单词对应的子识别网络起始音素对应的至少一条支路的节点相连，得到所述目标识别网络。

所述识别网络构建模块83，用于对所述目标识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的所述目标识别网络；

所述语音检测模块82，用于基于所述目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径，基于所述目标路径确定所述待检测语音包含的至少一个音素及其对应的标签。

所述语音检测模块82，用于基于声学模型对所述待检测语音进行处理，得到所述待检测语音所对应的音素序列以及所述音素序列中每一个音素所对应的概率值；基于所述音素序列中每一个音素所对应的概率值、以及所述目标识别网络进行对齐处理，得到所述待检测语音所对应的目标路径。

所述装置还包括：

训练模块84，用于获取预设模型，获取训练语音及其对应的训练文本；基于所述预设模型、所述训练语音以及所述训练文本所对应的识别网络，执行N次迭代操作得到声学模型。

所述训练模块84，用于对所述训练文本所对应的所述识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的识别网络。

所述训练模块84，用于在执行所述N次迭代操作中的第i次迭代操作中，执行以下处理：

本实施例中语音检测装置中各个模块的具体处理前述实施例中语音检测方法中的处理相同，这里不再赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图9对本发明示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的语音检测方法中的步骤。

下面参照图9来描述根据本发明的这种实施方式的计算设备90。图9显示的计算设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于：上述至少一个处理单元901、上述至少一个存储单元902，连接不同系统组件(包括处理单元901和存储单元902)的总线903。

总线903包括数据总线、控制总线和地址总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)9023。

存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了语音检测装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音检测方法，包括：

获取参考文本对应的待检测语音；

基于所述参考文本所对应的目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径；基于所述目标路径确定所述待检测语音包含的至少一个音素及其对应的标签；

2.根据权利要求1所述的方法，其中，所述方法还包括：

3.根据权利要求2所述的方法，其中，所述基于所述参考文本中每一个单词所对应的子识别网络，构建目标识别网络，包括：

4.根据权利要求3所述的方法，其中，所述方法还包括：

5.根据权利要求1所述的方法，其中，所述基于所述目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径，包括：

6.根据权利要求5所述的方法，其中，所述方法还包括：

获取预设模型，获取训练语音及其对应的训练文本；

7.根据权利要求6所述的方法，其中，所述方法还包括：

8.根据权利要求7所述的方法，其中，所述N次迭代操作中的第i次迭代操作，包括：

9.一种语音检测装置，包括：

信息获取模块，用于获取参考文本对应的待检测语音；

语音检测模块，用于基于所述参考文本对应的目标识别网络对所述待检测语音进行对齐处理，得到所述待检测语音所对应的目标路径，基于所述目标路径确定所述待检测语音包含的至少一个音素及其对应的标签；若所述至少一个音素对应的标签中存在连读标签，则确定所述待检测语音中存在连读；其中，所述连读标签为多种连读标签中至少之一；所述多种连读标签中不同的连读标签对应不同的连读规则。

10.根据权利要求9所述的装置，其中，所述装置还包括：

11.根据权利要求10所述的装置，其中，所述识别网络构建模块，用于基于所述参考文本包含的多个单词的先后顺序，依次将所述参考文本中相邻两个单词中的第一个单词对应的子识别网络中结束音素对应的至少一条支路的节点与第二个单词对应的子识别网络起始音素对应的至少一条支路的节点相连，得到所述目标识别网络。

12.根据权利要求11所述的装置，其中，所述识别网络构建模块，用于对所述目标识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的所述目标识别网络；

13.根据权利要求9所述的装置，其中，所述语音检测模块，用于基于声学模型对所述待检测语音进行处理，得到所述待检测语音所对应的音素序列以及所述音素序列中每一个音素所对应的概率值；基于所述音素序列中每一个音素所对应的概率值、以及所述目标识别网络进行对齐处理，得到所述待检测语音所对应的目标路径。

14.根据权利要求13所述的装置，其中，所述装置还包括：

15.根据权利要求14所述的装置，其中，所述训练模块，用于对所述训练文本所对应的所述识别网络中符合第一预设条件的支路进行剪枝，得到剪枝后的识别网络。

16.根据权利要求15所述的装置，其中，所述训练模块，用于在执行所述N次迭代操作中的第i次迭代操作中，执行以下处理：

17.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。

18.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。