CN108538292B

CN108538292B - 一种语音识别方法、装置、设备及可读存储介质

Info

Publication number: CN108538292B
Application number: CN201810385652.XA
Authority: CN
Inventors: 吴思远; 潘嘉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2020-12-22
Anticipated expiration: 2038-04-26
Also published as: CN108538292A

Abstract

本申请公开了一种语音识别方法、装置、设备及可读存储介质，本申请预先以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据训练得到文本合理性判定模型，在识别过程获取语音数据对应的第一识别结果，并在确定第一识别结果中包含指定类型符号对应的目标文字时，将目标文字替换为对应的目标符号，得到第二识别结果，分别将第一识别结果和第二识别结果输入文本合理性判定模型，得到输出的第一识别结果和第二识别结果各自的文本合理性判定得分，进而可以将第一识别结果和第二识别结果中，文本合理性判定得分高的一个作为最终识别结果输出，更加符合用户真实意图，语音识别准确度也更高。

Description

一种语音识别方法、装置、设备及可读存储介质

技术领域

本申请涉及语音识别技术领域，更具体地说，涉及一种语音识别方法、装置、设备及可读存储介质。

背景技术

随着人工智能的持续火热，语音识别技术也得到了广泛的普及。从简单的语音输入法，再到会议的实时转写系统，乃至最终的智能机器人，都是建立在语音识别的基础上。语音识别是通过机器学习的方法让机器能够自动的将语音转换成相应的文字。语音本身能够天然的表达人类的不同情感，比如愤怒、哀伤、高兴等情绪，而文字只是一堆抽象的代码，无法从中表达人类的情感，所以符号应运而生。符号的种类有多种，常见的如标点符号：“。”、“，”、“！”等；再比如某些特殊符号：

等。这些符号均存在对应的文字表达，如“！”对应的文字表达是“感叹号”，

对应的文字表达是“笑脸”。

由于语音识别的服务对象包括各种各样的用户群体，用户可能会将符号通过语音形式说出，进而在进行语音识别时，现有技术是先将语音数据转换为文字形式的识别结果。进一步按照预置替换规则，将识别结果中符号对应的文字表达替换为具体符号。如识别结果为：“我一会过来感叹号”(双引号中的内容为识别结果)，现有技术将其中“感叹号”替换为“！”，最终替换后的识别结果为：“我一会过来！”。

本案发明人通过对现有技术的研究发现，其在某些场景下得到的最终识别结果不符合用户真正意图，如：用户在文本修改场景下说：“这个地方的逗号应该去掉”。此时，按照现有技术的方式，会直接将“逗号”替换为“，”，最终得到的识别结果为：“这个地方的，应该去掉”。显然，该识别结果不符合用户真正意图。

有鉴于此，现有技术亟需一种语音识别过程符号准确转换的方案，以提高语音识别的准确性。

发明内容

有鉴于此，本申请提供了一种语音识别方法、装置、设备及可读存储介质，用于实现在语音识别过程对符号的准确转换，提高识别准确度。

为了实现上述目的，现提出的方案如下：

一种语音识别方法，包括：

获取语音数据对应的第一识别结果；

在确定所述第一识别结果中包含指定类型符号对应的目标文字时，将所述第一识别结果中所述目标文字替换为对应的目标符号，得到第二识别结果；

分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分；

所述文本合理性判定模型为，以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到；

根据所述第一识别结果和所述第二识别结果的文本合理性判定得分，选取文本合理性高的一个作为最终识别结果输出。

优选地，所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分，包括：

分别将所述第一识别结果和所述第二识别结果输入预训练的语言合理性判定模型，得到所述语言合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的语言合理性判定得分；

所述语言合理性判定模型为，以标注有语言合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到。

获取由所述第一识别结果中，所述目标文字及其前后词组组成的第一三元组；以及，获取由所述第二识别结果中，所述目标符号及其前后词组组成的第二三元组；

分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型，得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分；

所述语义合理性判定模型为，以训练文本数据中标识词及其前后词组组成的三元组为训练样本，以所述三元组的语义合理性标注结果为样本标签训练得到，所述标识词为符号或符号对应的文字；

将所述第一三元组的语义合理性判定得分作为所述第一识别结果的文本合理性判定得分；将所述第二三元组的语义合理性判定得分作为所述第二识别结果的文本合理性判定得分。

优选地，所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分，还包括：

根据所述第一识别结果的语言合理性判定得分及所述第一三元组的语义合理性判定得分，确定所述第一识别结果的文本合理性判定得分；

根据所述第二识别结果的语言合理性判定得分及所述第二三元组的语义合理性判定得分，确定所述第二识别结果的文本合理性判定得分。

优选地，所述分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型，得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分，包括：

通过语义合理性判定模型的输入层，分别输入所述第一三元组和所述第二三元组；

通过语义合理性判定模型的特征提取层，分别确定所述第一三元组和第二三元组的词向量特征；

通过语义合理性判定模型的输出层，依据词向量特征分别确定所述第一三元组和所述第二三元组各自的语义合理性判定得分。

优选地，所述获取语音数据对应的第一识别结果，包括：

获取语音数据的声学特征；

基于所述声学特征，确定所述语音数据对应的第一识别结果，所述第一识别结果在所述语音数据中存在停顿时能显性的进行停顿标记；

在所述根据所述第一识别结果和所述第二识别结果的文本合理性判定得分，选取文本合理性高的一个作为最终识别结果输出之前，该方法还包括：

根据所述第一识别结果是否包含停顿标记，对所述第一识别结果和/或第二识别结果的文本合理性判定得分进行调整，当第一识别结果包含停顿标记时，第一识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更低，第二识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更高。

优选地，所述基于所述声学特征，确定所述语音数据对应的第一识别结果，包括：

调用预先构建的解码网络，所述解码网络包括携带有词间停顿标记的词组合；

根据所述声学特征及所述解码网络，确定述语音数据对应的第一识别结果。

一种语音识别装置，包括：

第一识别结果获取单元，用于获取语音数据对应的第一识别结果；

第二识别结果获取单元，用于在确定所述第一识别结果中包含指定类型符号对应的目标文字时，将所述第一识别结果中所述目标文字替换为对应的目标符号，得到第二识别结果；

得分确定单元，用于分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分；

最终结果确定单元，用于根据所述第一识别结果和所述第二识别结果的文本合理性判定得分，选取文本合理性高的一个作为最终识别结果输出。

优选地，所述得分确定单元包括：

语言合理性判定得分确定单元，用于分别将所述第一识别结果和所述第二识别结果输入预训练的语言合理性判定模型，得到所述语言合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的语言合理性判定得分；

优选地，所述得分确定单元包括：

三元组获取单元，用于获取由所述第一识别结果中，所述目标文字及其前后词组组成的第一三元组；以及，获取由所述第二识别结果中，所述目标符号及其前后词组组成的第二三元组；

语义合理性判定得分确定单元，用于分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型，得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分；

第一文本合理性判定得分确定单元，用于将所述第一三元组的语义合理性判定得分作为所述第一识别结果的文本合理性判定得分；

第二文本合理性判定得分确定单元，用于将所述第二三元组的语义合理性判定得分作为所述第二识别结果的文本合理性判定得分。

优选地，所述得分确定单元还包括：

三元组获取单元，获取由所述第一识别结果中，所述目标文字及其前后词组组成的第一三元组；以及，获取由所述第二识别结果中，所述目标符号及其前后词组组成的第二三元组；

语义合理性判定得分确定单元，分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型，得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分；

第三文本合理性判定得分确定单元，用于根据所述第一识别结果的语言合理性判定得分及所述第一三元组的语义合理性判定得分，确定所述第一识别结果的文本合理性判定得分；

第四文本合理性判定得分确定单元，用于根据所述第二识别结果的语言合理性判定得分及所述第二三元组的语义合理性判定得分，确定所述第二识别结果的文本合理性判定得分。

优选地，所述第一识别结果获取单元，包括：

声学特征获取单元，用于获取语音数据的声学特征；

第一识别结果确定单元，用于基于所述声学特征，确定所述语音数据对应的第一识别结果，所述第一识别结果在所述语音数据中存在停顿时能显性的进行停顿标记；

该装置还包括：

文本合理性判定得分调整单元，用于根据所述第一识别结果是否包含停顿标记，对所述第一识别结果和/或第二识别结果的文本合理性判定得分进行调整，当第一识别结果包含停顿标记时，第一识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更低，第二识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更高。

一种语音识别设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上语音识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上语音识别方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音识别方法，预先以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据训练得到文本合理性判定模型，在识别过程获取语音数据对应的第一识别结果，并在确定第一识别结果中包含指定类型符号对应的目标文字时，将目标文字替换为对应的目标符号，得到第二识别结果，分别将第一识别结果和第二识别结果输入文本合理性判定模型，得到输出的第一识别结果和第二识别结果各自的文本合理性判定得分，进而可以将第一识别结果和第二识别结果中，文本合理性判定得分高的一个作为最终识别结果输出。由于本申请预先利用训练文本数据训练得到文本合理性判定模型，该模型习得了合理及不合理的训练文本数据的特征，进而能够准确给出第一识别结果和第二识别结果的文本合理性判定得分，据此选取得分高的一个作为最终结果，其更加符合用户真实意图，语音识别准确度也更高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种语音识别方法流程图；

图2示例了一种语音合理性判定模型的结构示意图；

图3示例了一种语义合理性判定模型的结构示意图；

图4为本申请实施例公开的另一种语音识别方法流程图；

图5为本申请实施例公开的一种语音识别装置结构示意图；

图6为本申请实施例公开的一种语音识别设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种语音识别方案，能够准确判断语音数据对应的识别结果中，文字形式的符号是否需要转换为具体符号，从而给出最终的识别结果，提高语音识别的准确度。

本申请语音识别方案的一种可选的应用场景下，可以基于电子设备实现。该电子设备可以携带麦克风，用于收集用户的语音数据。当然，电子设备还可以通过数据接收接口接收外部导入的语音数据，并进一步基于语音数据来确定最终的识别结果。

电子设备可以是手机、个人电脑、智能音箱、服务器等。

接下来，结合附图1对本申请的语音识别方法进行介绍，如图1所示，该方法可以包括：

步骤S100、获取语音数据对应的第一识别结果。

具体地，可以对语音数据提取声学特征，进而根据提取的声学特征来确定语音数据对应的第一识别结果。第一识别结果由文字序列组成。可以理解的是，若用户语音数据包含符号的文字表达，则第一识别结果仅是将语音数据转换为文字表达形式，并不会将文字形式的符号转换为具体符号。

声学特征可以是语音数据的频谱特征，如梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)特征或感知线性预测系数(Perceptual LinearPredictive，PLP)特征等。具体提取时，可以先对语音数据进行分帧处理，随后对分帧后的语音数据进行预加重，最后依次提取每帧语音数据的频谱特征。

可选的，为了提高声学特征的区分性，可以对提取的频谱特征进行变换，示例如，针对每帧语音数据，将以该帧语音数据为框中心，预设框长内的各帧语音数据的频谱特征作为神经网络的输入，通过神经网络对输入的各频谱特征进行变换，最后将神经网络输出的变换后频谱特征，作为框中心对应帧语音数据的频谱特征。

步骤S110、在确定所述第一识别结果中包含指定类型符号对应的目标文字时，将所述第一识别结果中所述目标文字替换为对应的目标符号，得到第二识别结果。

具体地，本申请可以预先统计可能存在文字转换成符号需要的指定类型的符号，如标点符号、特殊符号等。基于此，在上一步骤中得到第一识别结果后，如果确定第一识别结果中包含指定类型符号对应的目标文字，则可以将第一识别结果中目标文字替换为对应的目标符号，得到第二识别结果。需要说明的是，本步骤中会保留原版的第一识别结果，第一识别结果和第二识别结果会在后续步骤中继续使用。

一种示例下，指定类型符号包括各种标点符号。第一识别结果为“我好想去海南啊感叹号”。按照本申请方案可以确定，第一识别结果中“感叹号”对应符号“！”，为此对第一识别结果中“感叹号”进行符号转换，转换后得到第二识别结果为“我好想去海南啊！”。至此第一识别结果和第二识别结果分别如下：

第一识别结果为“我好想去海南啊感叹号”

第二识别结果为“我好想去海南啊！”

步骤S120、分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分。

其中，所述文本合理性判定模型为，以标注有文本合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到。

具体地，本申请可以预先收集包含符号和/或符号对应的文字的文本数据，作为训练文本数据。并且，可以由人工对训练文本数据的文本合理性进行标注。文本合理性即为文本数据的表达是否合理，即是否符号语言学规范，这里的文本数据包括文字及符号，本实施例中可以将符号当做常用词。

可以理解的是，为了保证文本合理性判定模型的鲁棒性，训练文本数据中正例样本和负例样本的比例应该相差不大。一般性的，正例样本比较容易收集，而负例样本比较难收集。本申请可以将收集的正例样本中的文字形式的符号转换为具体符号，并检查转换后的样本是否符合文本合理性，如果不符合，则可以将其作为负例样本。示例如，正例样本包括“这个逗号应该去掉”，对其转换后的结果为“这个，应该去掉”，显然这个结果不符合文本合理性，因此可以将其作为负例样本。

模型训练过程可以采用误差反向传播BP来实现。通过使用训练文本数据训练得到文本合理性判定模型，该模型能够对输入的文本预测其文本合理性判定得分，该文本合理性判定得分可以是文本表达合理的概率，当然还可以是文本表达不合理的概率。

基于本申请预先训练好的文本合理性判定模型，分别预测第一识别结果的文本合理性得分，以及预测第二识别结果的文本合理性得分。

基于文本合理性得分，可以确定第一识别结果和第二识别结果中哪一个的文本合理性更高。

步骤S130、根据所述第一识别结果和所述第二识别结果的文本合理性判定得分，选取文本合理性高的一个作为最终识别结果输出。

可以理解的是，若文本合理性判定得分为文本表达合理的概率，则文本合理性判定得分越高，则表示文本表达越合理。相反，若，文本合理性判定得分为文本表达不合理的概率，则文本合理性判定得分越低，则表示文本表达越合理。

本步骤中，根据第一识别结果和第二识别结果的文本合理性判定得分，选取文本合理性更高的一个作为最终结果输出。

本申请实施例利用预先训练的文本合理性判定模型，给出第一识别结果和第二识别结果的文本合理性判定得分，并基于此选取文本合理性更高的一个作为最终结果输出。其中，由于预先利用训练文本数据训练得到文本合理性判定模型，该模型习得了合理及不合理的训练文本数据的特征，进而能够准确给出第一识别结果和第二识别结果的文本合理性判定得分，据此选取得分高的一个作为最终结果，其更加符合用户真实意图，语音识别准确度也更高。

本申请实施例中，提供了文本合理性判定模型的几种可选结构。其中，文本合理性判定模型可以包括语言合理性判定模型。语言合理性判定模型为了从语言组合是否合理的角度，来确定输入内容的文本合理性。

语言合理性判定模型可以是，预先以标注有语言合理性判定标签的包含符号和/或符号对应的文字的训练文本数据预训练得到。

基于此，前述步骤S120确定第一识别结果和第二识别结果的文本合理性判定得分的过程，具体可以包括：

分别将所述第一识别结果和所述第二识别结果输入预训练的语言合理性判定模型，得到所述语言合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的语言合理性判定得分。

第一识别结果的语言合理性判定得分作为第一识别结果的文本合理性判定得分。同理，第二识别结果的语言合理性判定得分作为第二识别结果的文本合理性判定得分。

参见图2，其示例了语言合理性判定模型的一种可选模型结构。其中，w₀-w_n为输入文本包含的0-n个词。

本实施例中，语言合理性判定模型的形式可以是递归神经网络RNN，或者可以是长短记忆型递归神经网络LSTM，等。

举例说明如下：

第一识别结果为“我今天吃的好饱呀感叹号”；

第二识别结果为“我今天吃的好饱呀！”。

分别将第一识别结果和第二识别结果输入语言合理性判定模型。模型输出第一识别结果的语言合理性判定得分为0.1，第二识别结果的语言合理性判定得分为0.9。其中，语言合理性判定得分表示识别结果表达合理的概率。

显然，第二识别结果的得分高于第一识别结果的得分，表示第二识别结果的表达更合理，因此可以将第二识别结果作为最终的识别结果输出。

再举例如下：

第一识别结果为“这个逗号用错了”；

第二识别结果为“这个，用错了”。

分别将第一识别结果和第二识别结果输入语言合理性判定模型。模型输出第一识别结果的语言合理性判定得分为0.8，第二识别结果的语言合理性判定得分为0.1。其中，语言合理性判定得分表示识别结果表达合理的概率。

显然，第一识别结果的得分高于第二识别结果的得分，表示第一识别结果的表达更合理，因此可以将第一识别结果作为最终的识别结果输出。

进一步地，文本合理性判定模型可以包括语义合理性判定模型，语义合理性判定模型为了结合句子上下文，从语义角度来确定输入内容的文本合理性。

语言合理性判定模型可以是，预先以训练文本数据中标识词及其前后词组组成的三元组为训练样本，以所述三元组的语义合理性标注结果为样本标签训练得到，其中所述标识词为符号或符号对应的文字。

本申请前述实施例中已经介绍了训练文本数据，训练文本数据包括符号或符号对应的文字，为了便于表达，将符号或符号对应的文字定义为标识词。本申请可以将训练文本数据中标识词及其前后词组组成三元组，作为训练样本。三元组所在的训练文本数据的表达合理性，作为三元组对应训练样本的合理性标注结果。

本实施例基于三元组及其合理性标注结果，训练语言合理性判定模型。由于语言合理性判定模型训练时考虑了标识词与其前后词组的关系，因此合理性判定结果更加准确。

S1、获取由所述第一识别结果中，所述目标文字及其前后词组组成的第一三元组；以及，获取由所述第二识别结果中，所述目标符号及其前后词组组成的第二三元组。

其中，第一识别结果中的目标文字为指定类型符号对应的文字。第二识别结果中的目标符号为目标文字对应的符号。本步骤中在第一识别结果中获取目标文字及其前后词组组成的第一三元组。在第二识别结果中获取目标符号及其前后词组组成的第二三元组。

S2、分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型，得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分。

可选的，语义合理性判定模型可以是长短时记忆型递归神经网络LSTM，该模型可以包括输入层、特征提取层、输出层，基于此，模型预测过程可以包括：

1)通过语义合理性判定模型的输入层，分别输入所述第一三元组和所述第二三元组。

2)通过语义合理性判定模型的特征提取层，分别确定所述第一三元组和第二三元组的词向量特征。

3)通过语义合理性判定模型的输出层，依据词向量特征分别确定所述第一三元组和所述第二三元组各自的语义合理性判定得分。

参见图3，其示例了语义合理性判定模型的一种可选模型结构。输入层包括三元组，三元组包括：标识词、位于标识词之前的词组w₀、w₁、w₂…以及，位于标识词之后的词组…w_m-1、w_m、w_m+1。

模型的特征提取层分别确定三元组中各词组的词向量h1-h3。通过输出层输出三元组的语义合理性判定得分。

S3、将所述第一三元组的语义合理性判定得分作为所述第一识别结果的文本合理性判定得分；将所述第二三元组的语义合理性判定得分作为所述第二识别结果的文本合理性判定得分。

其中，第一三元组的语义合理性判定得分作为第一识别结果的文本合理性判定得分。同理，第二三元组的语义合理性判定得分作为第二识别结果的文本合理性判定得分。

举例说明如下：

第一识别结果为“这个逗号应该去掉”；

第二识别结果为“这个，应该去掉”。

通过第一识别结果获取第一三元组：<“这个”、“逗号”、“应该去掉”>。通过第二识别结果获取第二三元组：<“这个”、“，”、“应该去掉”>。

分别将第一三元组和第二三元组输入语义合理性判定模型。模型输出第一三元组的语义合理性判定得分为0.9，第二三元组的语义合理性判定得分为0.1。其中，语义合理性判定得分表示识别结果表达合理的概率。

本申请上述实施例中，示例了文本合理性判定模型可包含的两种结构，即分别包括：语言合理性判定模型、语义合理性判定模型。本申请中文本合理性判定模型可以仅包括两种模型中的任意一种，也可以同时包含两种模型。在此基础上，本申请实施例可以：

根据所述第一识别结果的语言合理性判定得分及所述第一三元组的语义合理性判定得分，确定所述第一识别结果的文本合理性判定得分。

具体地，以第一识别结果的文本合理性判定得分的确定过程为例，综合考虑其语言合理性判定得分及语义合理性判定得分，确定文本合理性判定得分。可选的，可以将语言合理性判定得分及语义合理性判定得分进行加权相加，结果作为文本合理性判定得分。示例如语言合理性判定得分Q1的权重为0.4，语义合理性判定得分Q2的权重为0.6，则文本合理性判定得分Q3＝Q1*0.4+Q2*0.6。

当然，除此之外还可以采用其它结合方式，来确定文本合理性判定得分。

同理，针对第二识别结果的文本合理性判定得分。

在本申请的另一个实施例中，提供了另一种语音识别方法，参见图4所示，该方法可以包括：

步骤S200、获取语音数据的声学特征。

步骤S210、基于所述声学特征，确定所述语音数据对应的第一识别结果，所述第一识别结果在所述语音数据中存在停顿时能显性的进行停顿标记。

具体地，用户在说话时，可能在某些词语之间存在发声的停顿，若语音数据中存在停顿，则本实施例中能够基于声学特征，检测出该停顿位置，并在第一识别结果中显性的标记处该停顿。具体地，可以使用一个毫无意义的辅助标识来标记停顿，如以“#”来标记停顿。

当然，如果语音数据中不存在停顿，则第一识别结果中不会存在停顿标记。

需要说明的是，用户一般在说一句连贯的话时，基本是没有停顿的，但是如果跟上想要表达的符号时，会无意识的停顿一下。基于此，本申请通过在第一识别结果中进行停顿标记，便于后续更准确的从第一识别结果和第二识别结果中，确定最终识别结果。

示例如：用户在说出“我好想去海南啊感叹号”时，在“啊”和“感叹号”直接存在短暂停顿，则本申请输出的第一识别结果为“我好想去海南啊#感叹号”。再比如，用户在正常说出“我觉得这个逗号不是很合理”时，期间不会存在停顿，因此输出的第一识别结果也不会存在停顿标记。

步骤S220、在确定所述第一识别结果中包含指定类型符号对应的目标文字时，将所述第一识别结果中所述目标文字替换为对应的目标符号，得到第二识别结果。

步骤S230、分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分。

需要说明的是，假设第一识别结果中包含停顿标记，由于该停顿标记是一个毫无意义的标识，可以将停顿标识从第一识别结果和第二识别结果中删除后再输入模型。

步骤S240、根据所述第一识别结果是否包含停顿标记，对所述第一识别结果和/或第二识别结果的文本合理性判定得分进行调整。

可选的，该调整可以仅针对第一识别结果，或仅针对第二识别结果，或者二者均针对。

当第一识别结果包含停顿标记时，若调整第一识别结果，则第一识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更低。若调整第二识别结果，则第二识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更高。

当然，如果第一识别结果不包含停顿标记，则无论第一识别结果还是第二识别结果，可以使得调整后文本合理性判定得分可以与调整前保持不变。

可以理解的是，如果第一识别结果包含停顿标记，则表示用户在发声时存在停顿，根据前述说明可知，需要将第一识别结果中文字形式的符号转换为具体符号，即第二识别结果作为最终结果的概率应该提高。

进一步可选的，本申请所判断的第一识别结果是否包含停顿标记，可以是判断第一识别结果中目标文字前后是否包含停顿标记。

步骤S250、根据所述第一识别结果和所述第二识别结果的文本合理性判定得分，选取文本合理性高的一个作为最终识别结果输出。

其中，本步骤中第一识别结果和第二识别结果的文本合理性判定得分，为经过步骤S240调整后的文本合理性判定得分。

本实施例提供的语音识别方法，相比于前述各个实施例，增加了识别语音数据中的停顿，并在确定语音数据中存在停顿时在第一识别结果中进行停顿标记的特征，进一步基于第一识别结果是否包含停顿标记，对第一识别结果和/或第二识别结果的文本合理性判定得分进行调整，以保证当第一识别结果包含停顿标记时，第一识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更低。第二识别结果的调整后文本合理性判定得分相比于调整前表示的文本合理性更高。最终依据调整后文本合理性判定得分，选取文本合理性更高的一个作为最终结果输出。本实施例中考虑了用户说话的习惯，结合用户说出文字形式的符号且需要将其转换为具体符号时，会存在停顿，对第一和第二识别结果的文本合理性判定得分进行了调整，使得最终确定的识别结果更加准确。

可选的，上述步骤S210，基于所述声学特征，确定所述语音数据对应的第一识别结果的过程，具体可以包括：

1)调用预先构建的解码网络，所述解码网络包括携带有词间停顿标记的词组合。

其中，解码网络可以理解为一个解码空间。解码空间中包含了所有可能的词汇组合。由于停顿本身没有明确的词来表示，因此普通的解码空间知识单纯的各种词组合，不存在显性标记的词间停顿。而本实施例中，可以通过一个毫无意义的标示来标记词间停顿。基于本实施例提供的解码网络，根据声学特征确定语音数据对应的第一识别结果时，如果语音数据中存在停顿，则第一识别结果中会存在词间停顿处显性的进行停顿标记。

2)根据所述声学特征及所述解码网络，确定述语音数据对应的第一识别结果。

下面对本申请实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

参见图5，图5为本申请实施例公开的一种语音识别装置结构示意图。如图5所示，该装置可以包括：

第一识别结果获取单元11，用于获取语音数据对应的第一识别结果；

第二识别结果获取单元12，用于在确定所述第一识别结果中包含指定类型符号对应的目标文字时，将所述第一识别结果中所述目标文字替换为对应的目标符号，得到第二识别结果；

得分确定单元13，用于分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分；

最终结果确定单元14，用于根据所述第一识别结果和所述第二识别结果的文本合理性判定得分，选取文本合理性高的一个作为最终识别结果输出。

本申请实施例提供了文本合理性判定模型的几种可选结构，文本合理性判定模型可以包括：语言合理性判定模型。基于此，得分确定单元的第一种可选结构下，可以包括：

进一步地，文本合理性判定模型可以包括：语义合理性判定模型。基于此，得分确定单元的第二种可选结构下，可以包括：

当然可以理解的是，如果文本合理性判定模型同时包括语言合理性判定模型和语义合理性判定模型，则在上述示例的得分确定单元的第一种可选结构的基础上，本实施例示例了得分确定单元的第三种可选结构，相比于第一种可选结构，得分确定单元进一步可以包括：

进一步可选的，上述第一识别结果获取单元可以包括：

声学特征获取单元，用于获取语音数据的声学特征；

第一识别结果确定单元，用于基于所述声学特征，确定所述语音数据对应的第一识别结果，所述第一识别结果在所述语音数据中存在停顿时能显性的进行停顿标记。在此基础上，本申请的语音识别装置还可以包括：

其中可选的，所述第一识别结果确定单元可以包括：

解码网络调用单元，用于调用预先构建的解码网络，所述解码网络包括携带有词间停顿标记的词组合；

解码网络使用单元，用于根据所述声学特征及所述解码网络，确定述语音数据对应的第一识别结果。

本申请实施例提供的语音识别装置可应用于语音识别设备，如手机、个人电脑、智能音箱、服务器等。可选的，图6示出了语音识别设备的硬件结构框图，参照图6，语音识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取语音数据对应的第一识别结果；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取语音数据对应的第一识别结果；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以相互组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取语音数据对应的第一识别结果；

分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分；其中，所述文本合理性用于表示文本数据的表达是否符合语言学规范；

2.根据权利要求1所述的方法，其特征在于，所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分，包括：

3.根据权利要求1所述的方法，其特征在于，所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分，包括：

4.根据权利要求2所述的方法，其特征在于，所述分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分，还包括：

5.根据权利要求3或4所述的方法，其特征在于，所述分别将所述第一三元组和所述第二三元组输入预训练的语义合理性判定模型，得到所述语义合理性判定模型输出的所述第一三元组和所述第二三元组各自的语义合理性判定得分，包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述获取语音数据对应的第一识别结果，包括：

获取语音数据的声学特征；

7.根据权利要求6所述的方法，其特征在于，所述基于所述声学特征，确定所述语音数据对应的第一识别结果，包括：

8.一种语音识别装置，其特征在于，包括：

得分确定单元，用于分别将所述第一识别结果和所述第二识别结果输入预训练的文本合理性判定模型，得到所述文本合理性判定模型输出的所述第一识别结果和所述第二识别结果各自的文本合理性判定得分；其中，所述文本合理性用于表示文本数据的表达是否符合语言学规范；

9.一种语音识别设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-7中任一项所述的语音识别方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的语音识别方法的各个步骤。