CN112735395B

CN112735395B - 语音识别方法及电子设备、存储装置

Info

Publication number: CN112735395B
Application number: CN202011565816.0A
Authority: CN
Inventors: 华磊; 刘权; 陈志刚
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-05-31
Anticipated expiration: 2040-12-25
Also published as: CN112735395A

Abstract

本申请公开了一种语音识别方法及电子设备、存储装置，该方法包括：获取到用户输入的第一语音数据，对第一语音数据按第一方式进行语义识别；响应于获取到用户在输入第一语音数据间隔第一时间后输入的第二语音数据，判断第二语音数据与第一语音数据是否存在语义关联；响应于第二语音数据与第一语音数据存在语义关联，对第二语音数据按第二方式进行语义识别。上述方案，能够提高语音数据进行语义识别的准确度。

Description

语音识别方法及电子设备、存储装置

技术领域

本申请涉及语音数据处理技术领域，特别是涉及一种语音识别方法及电子设备、存储装置。

背景技术

随着智能设备的不断发展，语音数据交互系统的应用也愈发广泛，语音数据交互系统可对用户输入的语音进行识别，根据语音识别结果进行语义识别并将语义识别结果反馈给用户，提高了生活的便捷性。

然而，语音数据交互系统首先需要对用户输入的语音数据进行语音识别，而一旦语音识别的结果不准确，则进行语义识别时便无法获取到与用户真正意图匹配的结果。有鉴于此，如何提高语音数据进行语义识别的准确度成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法及电子设备、存储装置，能够提高语音数据进行语义识别的准确度。

为解决上述技术问题，本申请第一方面提供一种语音识别方法，包括：获取到用户输入的第一语音数据，对所述第一语音数据按第一方式进行语义识别；响应于获取到用户在输入所述第一语音数据间隔第一时间后输入的第二语音数据，判断所述第二语音数据与所述第一语音数据是否存在语义关联；响应于所述第二语音数据与所述第一语音数据存在语义关联，对所述第二语音数据按第二方式进行语义识别。

为解决上述技术问题，本申请第二方面提供一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述第一方面中的语音识别方法。

为解决上述技术问题，本申请第三方面提供一种存储装置，所述存储装置存储有能够被处理器运行的程序指令，所述程序指令用于实现上述第一方面中的语音识别方法。

上述方案，在获取到用户输入的第一语音数据后对第一语音数据按第一方式进行语义识别，并且在间隔第一时间后获取到第二语音数据时，判断第二语音数据与第一语音数据是否存在语义关联，当存在语义关联时，按第二方式对第二语音数据进行语义识别。其中，若用户在间隔第一时间输入的第二语音数据与之前输入的第一语音数据存在语义关联，则说明第一语音数据的识别结果很可能不是用户期望的结果，因此利用区别于第一方式的第二方式对第二语音数据进行进一步地语义识别，进而对第二语音数据进行进一步地识别，以提高语音数据进行语义识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请语音识别方法一实施例的流程示意图；

图2是本申请语音识别方法另一实施例的流程示意图；

图3是本申请语音数据交互系统一实施例的原理示意图；

图4是本申请电子设备一实施例的框架示意图；

图5是本申请存储装置一实施例的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取到用户输入的第一语音数据，对第一语音数据按第一方式进行语义识别。

获取用户输入的第一语音数据的设备包括但不限于包含语音数据交互系统的智能设备，比如玩具、智能家居和移动终端。

在一个实施场景中，用户对语音数据交互系统输入语音数据，语音数据交互系统获取到第一语音数据，进而语音数据交互系统对第一语音数据进行语义识别。

具体地，获取到用户输入的第一语音数据后，将用户输入的第一语音数据送入语音识别模型，利用语音识别模型对第一语音数据进行解析，以获得第一语音数据对应的第一文本。其中，语音识别模型是基于大量的语音数据经过训练后得到的，语音识别模型对于输入的语音数据进行识别并产生多个中间结果，语音识别模型对多个中间结果进行评分以获得中间结果对应的第一评分，第一评分越高的中间结果的置信度越高，进而，语音识别模型将第一评分最高的中间结果作为第一语音数据对应的第一文本。

进一步地，在获得第一语音数据对应的第一文本之后，将第一文本输入语义识别模型，利用语义识别模型对第一文本进行解析，以提取第一文本中的词向量并分析其中包含的语义，输出语义识别结果。其中，语义识别模型是基于大量文本数据经过训练后得到的，语义识别模型对第一文本进行识别，若获取到对应的语义识别结果，则提示用户是否为当前的语义识别结果，以使用户进行确认，若未获取到对应的语义识别结果，则提示用户本次识别失败，请用户重新输入。

步骤S12：响应于获取到用户在输入第一语音数据间隔第一时间后输入的第二语音数据，判断第二语音数据与第一语音数据是否存在语义关联。

第一时间设有限值，该限值由语音数据交互系统预先设置，上述第一时间的限值可为5秒、10秒或15秒，当在第一时间的限值内接收到第二语音数据均属于在第一时间后接收到第二语音数据。

在一个实施场景中，当用户在第一时间后接收到第二语音数据，则对第二语音数据进行与第一语音数据的语义关联的识别。

在一个具体实施场景中，当用户在第一时间后接收到第二语音数据，获取第一语音数据和第二语音数据的MFCC(Mel-Frequency Cepstral Coefficients)特征，以衡量第一语音数据和第二语音数据在频谱层面的相似度，若第一语音数据和第二语音数据的MFCC特征重合度达到预设数值，则判定第二语音数据与第一语音数据存在语义关联。

在另一个具体实施场景中，当用户在第一时间后接收到第二语音数据，获取第一语音数据和第二语音数据对应的文本的拼音，以衡量第一语音数据和第二语音数据在音节方面的相似度，若第一语音数据和第二语音数据的拼音参数的重合度达到预设数值，则判定第二语音数据与第一语音数据存在语义关联。

步骤S13：响应于第二语音数据与第一语音数据存在语义关联，对第二语音数据按第二方式进行语义识别。

当用户在短时间内连续输入了存在语义关联的语音数据时，说明第一语音数据的识别结果很可能不是用户期望的识别结果，第一语音数据的语义识别结果与用户的真实语义不匹配，因此对新接收到的第二语音数据按第二方式进行语义识别。

在一个具体实施场景中，利用语音识别模型对第二语音数据进行解析，以获得第二语音数据对应的多个第二文本以及第二文本对应的第二评分，从第二语音数据对应的多个第二文本中获取第二评分前三的第二文本作为语音识别结果，将三个第二文本分别输入语义识别模型，利用语义识别模型对第二文本进行解析，以输出三个第二文本对应的语义识别结果，并依次提示用户是否为用户期望的语义识别结果以使用户进行确认。

在另一个具体实施场景中，利用语音识别模型对第二语音数据进行解析，以获得第二语音数据对应的多个第二文本以及第二文本对应的第二评分，从第二语音数据对应的多个第二文本中获取第二评分前五的第二文本作为语音识别结果，将第二文本中当前第二评分最高的第二文本输入语义识别模型，利用语义识别模型对第二文本进行解析，以获得语义识别结果并提示用户是否为用户期望的语义识别结果以使用户进行确认，若用户确认则结束流程，若用户未确认，则舍弃未被用户确认的第二文本，并将剩余第二文本中当前第二评分最高的第二文本输入语义识别模型，以使用户进行多次确认，进而经过多次语义识别以提高语义识别结果与用户真正意图的匹配度。

请参阅图2，图2是本申请语音识别方法另一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：获取到用户输入的第一语音数据，对第一语音数据按第一方式进行语义识别。

请参阅图3，图3是本申请语音数据交互系统一实施例的原理示意图，当语音数据交互系统接收到第一语音数据，对第一语音数据进行语音识别，输出第一语音数据对应的第一文本，进而对第一文本进行语义识别。

具体地，可以利用语音识别模型识别第一语音数据，以获得多个第一文本及其对应的第一评分，利用语义识别模型对第一评分最高的第一文本进行语义识别。

在一个实施场景中，当接收到用户输入的第一语音数据，将第一语音数据输入语音识别模型进行识别，以获得多个第一文本，每个第一文本还包括对应的第一评分，该第一评分用于标识第一文本的置信度，按照第一评分的高低选择前第一数值个第一文本输出，作为语音识别结果，其中，第一数值与语音数据交互系统的处理能力相关，且第一数值通常小于5。

进一步地，在所有输出的第一文本中，利用语义识别模型对第一评分最高的第一文本进行语义识别，若没有获得语义识别结果，则反馈未获得第一评分最高的第一文本的有效语义识别结果，若获得语义识别结果，则将其反馈给用户确认，若用户确认语义识别结果不准确，则反馈未获得第一评分最高的第一文本的有效语义识别结果。

可以理解的是，第一评分最高的第一文本的置信度最高，在大部分应用场景中，对第一评分最高的第一文本进行语义识别，进而获得与用户真实意图匹配的语义识别结果的概率也最大，获取第一评分最高的第一文本并对其进行语义识别可有效减少分析语音数据的时间，提高分析效率。

进一步地，响应于未获得第一评分最高的第一文本的有效语义识别结果，获取其他第一文本对应的第一评分与数值最大的第一评分之间的评分差值。判断评分差值是否小于预设阈值，若小于，则利用语义识别模型对评分差值小于预设阈值的第一文本进行语义识别，否则，丢弃第一文本。

在一个实施场景中，当语义识别模型未输出语义识别结果或者输出的结果被用户否认时，则获取语音识别模型输出的其他第一文本对应的第一评分，确定数值最大的第一评分与其他第一文本对应的第一评分的差值，如果差值小于预设阈值，比如：1、3、5，则说明其他第一文本的置信度与评分最高的第一文本的差距很小，语音识别模型输出的其他第一文本的置信度也较高。因此，将评分差值小于阈值的其他第一文本也输入语义识别模型，利用语义识别模型对其他第一文本进行语义识别，进而获得与用户真正意图匹配的有效语义识别结果的概率也将大大提高。

在一个具体实施场景中，请结合参阅图3，当获取到用户输入的第一语音数据，语音识别模型对第一语音数据进行识别，输出评分前三的第一文本，对评分最高的第一文本“睡意小英雄”进行语义识别，在未获得结果后，获取评分最高的第一文本的评分S1，评分第二的第一文本“睡衣小英雄”的评分S2，计算S1减去S2的绝对值，判断该数值是否小于预设阈值d，若小于，则对第一文本“睡衣小英雄”进行语义识别，以输出语义识别结果“您需要的是动画片睡衣小英雄嘛”，并反馈给用户确认，获取评分第三的第一文本“随意小英雄”的评分S3，计算S1减去S3的绝对值，判断该数值是否小于预设阈值d，若小于，则对第一文本“随意小英雄”进行语义识别，否则，丢弃第一文本“随意小英雄”。

步骤S22：响应于获取到用户在输入第一语音数据间隔第一时间后输入的第二语音数据，获取第一语音数据和第二语音数据的语义关联特征参数。

上述语义关联特征参数包括语义特征、频谱特征、拼音特征和字符特征。其中，语义特征用于标识第一语音数据进行语义识别时是否获得有效语义识别结果，频谱特征用于标识第二语音数据和第一语音数据在频谱层面的相似度，拼音特征用于标识第二语音数据和第一语音数据在音节层面的相似度，字符特征用于标识第二语音数据和第一语音数据在文本层面的相似度。

具体地，可以包括：基于第一语音数据按第一方式进行语义识别的识别结果生成语义特征，基于第二语音数据相对第一语音数据的区别生成频谱特征、拼音特征和字符特征。

在一个实施场景中，当第一语音数据的语义识别结果为无结果时，而用户在第一时间后输入了第二语音数据，则很可能是用户为了获得与自己真实意图匹配的结果再次输入了语音数据，那么，第二语音数据很可能是跟第一语音数据相关联乃至相同的。基于第一语音数据按第一方式进行语义识别是否输出了有效语义识别结果，为语义特征设置对应的数值。故此，语义特征使第一语音数据的语义识别结果形成量化的数据，并准确反馈了第一语音数据进行语义识别时是否获得了有效语义识别结果。

进一步地，基于第一语音数据和第二语音数据的频谱图，获取第一语音数据和第二语音数据的频谱重合度，进而生成频谱特征。基于第一语音数据和第二语音数据的拼音，获取第一语音数据和第二语音数据的拼音重合度，进而生成拼音特征。基于第一语音数据和第二语音数据对应的评分最高的文本，获取第一语音数据和第二语音数据的字符重合度，进而生成字符特征。

在一个实施场景中，获取并比较第一语音数据和第二语音数据的频谱图，以获得第一语音数据和第二语音数据的频谱重合度，将频谱重合度的比值赋值给频谱特征，获取并比较第一语音数据和第二语音数据的拼音，以获得第一语音数据和第二语音数据的拼音重合度，将拼音重合度的比值赋值给拼音特征，通过语音识别模型输出的评分最高的文本，获取并比较第一语音数据和第二语音数据的文本，以获得第一语音数据和第二语音数据的字符重合度，将字符重合度的比值赋值给字符特征。通过比较第一语音数据和第二语音数据多个层面的特征参数的重合度，以提高判断第二语音数据是否与第一语音数据存在语义关联的准确率。

在一个具体实施场景中，请结合参阅图3，获取并比较第一语音数据和第二语音数据的MFCC特征，以确定第二语音数据相对第一语音数据的频谱特征，获取第一语音数据和第二语音数据的拼音，则两次语音输入的拼音均为“shui，y i，x iao，y ing，x iong”，那么将拼音特征赋值为1，获取第一语音数据和第二语音数据经过语音识别后的评分最高的文本，分别是“睡意小英雄”和“随意小英雄”，其中，都包括关键词“小英雄”并且字符重合度为80％，那么将字符特征赋值为0.8。

步骤S23：将语义关联特征参数送入二分类模型，以使二分类模型输出第二语音数据与第一语音数据是否存在语义关联的判断结果。

二分类模型是基于不同语义关联度的语音数据训练后得到的，二分类模型用于判断第一语音数据和第二语音数据是否存在语义关联，其输出结果只有存在语义关联和不存在语义关联两种。通过二分类模型，对输入的语义关联特征参数进行快速地判断以输出判断结果，进而提高判断第二语音数据与第一语音数据是否存在语义关联的效率和准确率。

在一个实施场景中，二分类模型经过预先训练，二分类模型设有语义特征、频谱特征、拼音特征和字符特征分别对应的权重值。二分类模型输出第二语音数据与第一语音数据是否存在语义关联的判断结果的步骤，可以包括：基于语义特征、频谱特征、拼音特征、字符特征及其对应的权重值，获取第二语音数据相对第一语音数据的语义关联度，基于语义关联度输出第二语音数据与第一语音数据是否存在语义关联的判断结果。

具体地，将不同语义关联度的语音数据进行关联度标注，将标注后的语音数据输入二分类模型进行训练，对二分类模型的参数进行迭代优化，以获得理想的二分类模型。将语义特征记为F1、频谱特征记为F2、拼音特征记为F3、字符特征记为F4，二分类模型为每种特征是有对应的权重值，其中，F1的权重值为a，F2的权重值为b，F3的权重值为c，F4的权重值为d，并且a<d<b<c，语义关联度F＝a*F1+b*F2+c*F3+d*F4，判断语义关联度是否大于预设的关联度阈值，若大于则输出判断结果为第二语音数据和第一语音数据存在语义关联，若小于或等于则输出判断结果为第二语音数据和第一语音数据不存在语义关联。

在另一个实施场景中，将语义特征记为F1、频谱特征记为F2、拼音特征记为F3、字符特征记为F4，语义关联度记为F，其中，语义关联度为一个四维向量，F＝[F1,F2,F3,F4]，在训练二分类模型的阶段，利用多个四维向量对二分类模型进行训练，进而在获取到所有语义关联特征参数后，将语义关联度对应的四维向量输入二分类模型，以使二分类模型输出判断结果。

可以理解的是，通过上述方式，综合考虑了第二语音数据与第一语音数据在多个层面上是否存在语义关联的可能，使判断依据更加全面，进而提高了判断的准确率。

步骤S24：响应于第二语音数据与第一语音数据存在语义关联，对第二语音数据按第二方式进行语义识别。

具体地，可以包括：利用语音识别模型识别第二语音数据，以获得多个第二文本及其对应的第二评分，利用语义识别模型按第二评分从高到低的顺序对第二文本进行语义识别。

在一个实施场景中，将第二语音数据输入语音识别模型进行识别，以获得多个第二文本，每个第二文本还包括对应的第二评分，该第二评分用于标识第二文本的置信度，按照第二评分的高低选择前第二数值的第二文本输出，其中，语音数据交互系统设有第二数值的默认值，比如3或5。将第二数值个第二文本按第二评分从高到低的顺序分别送入语义识别模型，进而将未获得有效语义识别结果的第二文本丢弃，将有效语义识别结果分别反馈给用户，以使用户进行确定。

在一个具体实施场景中，请结合参阅图3，当第二语音数据与第一语音数据存在语义关联时，获取第二语音数据经语音识别模型输出的评分前三的第二文本，上述评分前三的第二文本按评分由高到低依次是“随意小英雄”、“睡意小英雄”和“睡衣小英雄”，进而分别对三个第二文本进行语义识别，而评分前二的第二文本“随意小英雄”和“睡意小英雄”未获得有效语义识别结果，评分第三的第二文本“睡衣小英雄”获取到语义识别结果“您需要的是动画片睡衣小英雄嘛”，将上述语义识别结果反馈给用户确认。在该实施场景中，不局限于对评分最高的第二文本进行语义识别，也无需其他第二文本的评分与评分最高的第二文本的评分差值满足小于预设阈值的条件，直接对多个第二文本进行语义识别，以满足用户在短时间内输入存在语义关联的语音数据后，尽快获取到与自己真正意图匹配的有效语义识别结果的诉求。

上述方案，区别于前述实施例，当第一语音数据评分最高的第一文本未获得有效语义识别结果时，判断其他第一文本的评分与评分最高的第一文本的评分差值，当评分差值小于预设阈值时对其他符合条件的第一文本进行语义识别，以提高第一语音数据进行语义识别的准确率，并且通过多个层面的特征参数来判断第二语音数据是否与第一语音数据存在语义关联，提高判断的精度，并在第二语音数据与第一语音数据存在语义关联时，对第二语音数据的多个第二文本直接进行语义识别，进而获得多个可能的语义识别结果，提高获取到与用户真实意图匹配的有效语义识别结果的概率。

请参阅图4，图4是本申请电子设备一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42，存储器41中存储有程序指令，处理器42用于执行程序指令以实现上述任一语音识别方法实施例中的步骤。

具体而言，处理器42用于控制其自身以及存储器41以实现上述任一语音识别方法实施例中的步骤。处理器42还可以称为CPU(Central Processing Unit，中央处理单元)。处理器42可能是一种集成电路芯片，具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器42可以由多个集成电路芯片共同实现。

本实施例中，处理器42用于获取到用户输入的第一语音数据，对第一语音数据按第一方式进行语义识别；处理器42用于响应于获取到用户在输入第一语音数据间隔第一时间后输入的第二语音数据，判断第二语音数据与第一语音数据是否存在语义关联；处理器42用于响应于第二语音数据与第一语音数据存在语义关联，对第二语音数据按第二方式进行语义识别。

在一些实施例中，处理器42用于获取第一语音数据和第二语音数据的语义关联特征参数；将语义关联特征参数送入二分类模型，以使二分类模型输出第二语音数据与第一语音数据是否存在语义关联的判断结果；其中，二分类模型是基于不同语义关联度的语音数据训练后得到的。

区别于前述实施例，通过二分类模型对语义关联特征参数进行判断以准确且快速地获得第二语音数据与第一语音数据是否存在语义关联的判断结果。

在一些实施例中，语义关联特征参数包括语义特征、频谱特征、拼音特征和字符特征；处理器42基于第一语音数据按第一方式进行语义识别的识别结果生成语义特征，处理器42基于第二语音数据相对第一语音数据的区别生成频谱特征、拼音特征和字符特征。

区别于前述实施例，基于第一语音数据按第一方式进行语义识别的识别结果，以及第二语音数据相对第一语音数据的区别获取多个方面的语义关联特征参数，进而利用语义关联特征参数对第二语音数据与第一语音数据是否存在语义关联进行判断，以提高判断的准确率。

在一些实施例中，处理器42基于第一语音数据和第二语音数据的频谱图，获取第一语音数据和第二语音数据的频谱重合度，进而生成频谱特征；处理器42基于第一语音数据和第二语音数据的拼音，获取第一语音数据和第二语音数据的拼音重合度，进而生成拼音特征；处理器42基于第一语音数据和第二语音数据对应的评分最高的文本，获取第一语音数据和第二语音数据的字符重合度，进而生成字符特征。

区别于前述实施例，基于第一语音数据和第二语音数据的频谱图、拼音和文本，通过上述层面的多种参数的重合度来分别获取频谱特征、拼音特征和字符特征，使频谱特征、拼音特征和字符特征的数值量化，并且综合考虑了第二语音数据与第一语音数据在多个层面上是否存在语义关联的可能，使判断依据更加全面，进而提高了判断的准确率。

在一些实施例中，二分类模型经过预先训练，二分类模型设有语义特征、频谱特征、拼音特征和字符特征分别对应的权重值；处理器42基于语义特征、频谱特征、拼音特征、字符特征及其对应的权重值，获取第二语音数据相对第一语音数据的语义关联度；处理器42基于语义关联度输出第二语音数据与第一语音数据是否存在语义关联的判断结果。

区别于前述实施例，二分类模型根据各个层面的特征以及对应的权重值获取语义关联度，基于语义关联度来判断第二语音数据是否与第一语音数据存在语义关联，将判断的标准量化后使得判断更加标准化。

在一些实施例中，处理器42用于利用语音识别模型识别第二语音数据，以获得多个第二文本及其对应的第二评分；处理器42用于利用语义识别模型按第二评分从高到低的顺序对第二文本进行语义识别。

区别于前述实施例，对多个第二文本均进行语义识别，不局限于对评分最高的文本，以提高获取到有效语义识别结果的概率。

在一些实施例中，处理器42用于利用语音识别模型识别第一语音数据，以获得多个第一文本及其对应的第一评分；处理器42用于利用语义识别模型对第一评分最高的第一文本进行语义识别。

区别于前述实施例，对于大部分的应用场景，对于评分最高的第一文本进行语义识别，可提高语义识别的速度，并且获得有效语义识别结果的概率也较高，减轻了语音数据交互系统的负担。

在一些实施例中，处理器42用于响应于未获得第一评分最高的第一文本的有效语义识别结果，获取其他第一文本对应的第一评分与数值最大的第一评分之间的评分差值；处理器42用于判断评分差值是否小于预设阈值；若小于，则利用语义识别模型对评分差值小于预设阈值的第一文本进行语义识别；否则，丢弃第一文本。

区别于前述实施例，当评分最高的第一文本未获得有效语义识别结果，且其他第一文本的评分与评分最高的第一文本的评分差值小于预设阈值，则说明其他第一文本的置信度也较高，进而对其他第一文本进行语义识别能够提高获得第一语音数据的有效语义识别结果的概率。

请参阅图5，图5是本申请存储装置一实施例的框架示意图。存储装置50存储有能够被处理器运行的程序指令500，程序指令500用于实现上述任一语音识别方法实施例中的步骤。

上述方案，能够提高语音数据进行语义识别的准确度。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取到用户输入的第一语音数据，对所述第一语音数据按第一方式进行语义识别；

响应于获取到用户在输入所述第一语音数据间隔第一时间后输入的第二语音数据，判断所述第二语音数据与所述第一语音数据是否存在语义关联；其中，利用语义关联特征参数对所述第二语音数据与所述第一语音数据是否存在语义关联进行判断，所述语义关联特征参数包括语义特征、频谱特征、拼音特征和字符特征，所述语义特征是基于所述第一语音数据按所述第一方式进行语义识别的识别结果生成的，所述频谱特征、所述拼音特征和所述字符特征是基于所述第二语音数据相对所述第一语音数据的区别生成的；

响应于所述第二语音数据与所述第一语音数据存在语义关联，对所述第二语音数据按第二方式进行语义识别；其中，所述第二方式区别于所述第一方式，所述第二方式包括多个语义识别结果。

2.根据权利要求1所述的方法，其特征在于，所述判断所述第二语音数据与所述第一语音数据是否存在语义关联的步骤，包括：

获取所述第一语音数据和所述第二语音数据的语义关联特征参数；

将所述语义关联特征参数送入二分类模型，以使所述二分类模型输出所述第二语音数据与所述第一语音数据是否存在语义关联的判断结果；

其中，所述二分类模型是基于不同语义关联度的语音数据训练后得到的。

3.根据权利要求2所述的方法，其特征在于，所述获取所述第一语音数据和所述第二语音数据的语义关联特征参数的步骤，包括：

基于所述第一语音数据按所述第一方式进行语义识别的识别结果生成所述语义特征，基于所述第二语音数据相对所述第一语音数据的区别生成所述频谱特征、所述拼音特征和所述字符特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第二语音数据相对所述第一语音数据的区别生成所述频谱特征、所述拼音特征和所述字符特征的步骤，包括：

基于所述第一语音数据和所述第二语音数据的频谱图，获取所述第一语音数据和所述第二语音数据的频谱重合度，进而生成所述频谱特征；以及，

基于所述第一语音数据和所述第二语音数据的拼音，获取所述第一语音数据和所述第二语音数据的拼音重合度，进而生成所述拼音特征；以及，

基于所述第一语音数据和所述第二语音数据对应的评分最高的文本，获取所述第一语音数据和所述第二语音数据的字符重合度，进而生成所述字符特征。

5.根据权利要求3所述的方法，其特征在于，

所述二分类模型经过预先训练，所述二分类模型设有所述语义特征、所述频谱特征、所述拼音特征和所述字符特征分别对应的权重值；

所述二分类模型输出所述第二语音数据与所述第一语音数据是否存在语义关联的判断结果的步骤，包括：

基于所述语义特征、所述频谱特征、所述拼音特征、所述字符特征及其对应的所述权重值，获取所述第二语音数据相对所述第一语音数据的语义关联度；

基于所述语义关联度输出所述第二语音数据与所述第一语音数据是否存在语义关联的判断结果。

6.根据权利要求1所述的方法，其特征在于，所述对所述第二语音数据按第二方式进行语义识别的步骤，包括：

利用语音识别模型识别所述第二语音数据，以获得多个第二文本及其对应的第二评分；

利用语义识别模型按所述第二评分从高到低的顺序对所述第二文本进行语义识别。

7.根据权利要求1所述的方法，其特征在于，所述对所述第一语音数据按第一方式进行语义识别的步骤，包括：

利用语音识别模型识别所述第一语音数据，以获得多个第一文本及其对应的第一评分；

利用语义识别模型对第一评分最高的所述第一文本进行语义识别。

8.根据权利要求7所述的方法，其特征在于，所述利用语义识别模型对第一评分最高的所述第一文本进行语义识别的步骤之后，还包括：

响应于未获得第一评分最高的所述第一文本的有效语义识别结果，获取其他所述第一文本对应的第一评分与数值最大的第一评分之间的评分差值；

判断所述评分差值是否小于预设阈值；

若小于，则利用所述语义识别模型对评分差值小于预设阈值的第一文本进行语义识别；否则，丢弃所述第一文本。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的语音识别方法。

10.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的语音识别方法。