CN112700768B

CN112700768B - 语音识别方法以及电子设备、存储装置

Info

Publication number: CN112700768B
Application number: CN202011487548.5A
Authority: CN
Inventors: 刘强; 陈志刚; 梅林海
Original assignee: Jilin Kexun Information Technology Co ltd; iFlytek Co Ltd
Current assignee: Jilin Kexun Information Technology Co ltd; iFlytek Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2024-04-26
Anticipated expiration: 2040-12-16
Also published as: CN112700768A

Abstract

本申请公开了一种语音识别方法以及电子设备、存储装置，其中，语音识别方法包括：识别用户的语音指令，得到一个第一候选文本和至少一个第二候选文本；其中，第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系；响应于第一候选文本的第一语义理解结果不满足预设结果条件，更新第二候选文本的识别置信度；基于识别置信度，获取第二候选文本的第二语义理解结果，并利用第二语义理解结果，得到语音指令的识别结果。上述方案，能够提高语音识别的准确性和鲁棒性。

Description

语音识别方法以及电子设备、存储装置

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音识别方法以及电子设备、存储装置。

背景技术

语音交互作为一种新的信息传播方式，正在逐渐应用于智能家居(如，电视、空调等)、语音助手等方方面面。在此其中，语音识别技术作为语音交互过程中的重要一环，对用户交互体验有着极其重要的意义。有鉴于此，如何提高语音识别的准确性和鲁棒性成为极具研究价值的课题。

发明内容

本申请主要解决的技术问题文本是提供一种语音识别方法以及电子设备、存储装置，能够提高语音识别的准确性和鲁棒性。

为了解决上述问题文本，本申请第一方面提供了一种语音识别方法，包括：识别用户的语音指令，得到一个第一候选文本和至少一个第二候选文本；其中，第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系；响应于第一候选文本的第一语义理解结果不满足预设结果条件，更新第二候选文本的识别置信度；基于识别置信度，获取第二候选文本的第二语义理解结果，并利用第二语义理解结果，得到语音指令的识别结果。

为了解决上述问题文本，本申请第二方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音识别方法。

为了解决上述问题文本，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音识别方法。

上述方案，通过识别用户的语音指令，得到一个第一候选文本和至少一个第二候选文本，且第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系，从而响应于第一候选文本的第一语义理解结果不满足预设结果条件，更新第二候选文本的识别置信度，并基于识别置信度，获取第二候选文本的第二语义理解结果，并利用第二语义理解结果，得到语音指令的识别结果。即能够在得到第一候选文本和至少一个第二候选文本的基础上，进一步校验第一候选文本的第一语义理解结果是否满足预设结果条件，故能够有利于提高语音识别的准确性，进一步地，在第一候选文本的第一语义理解结果不满足预设结果条件的情况下，通过更新第二候选文本的识别置信度，能够有利于提高第二候选文本的识别置信度的准确性，从而基于识别置信度，获取第二候选文本的第二语义理解结果，并利用第二语义理解结果，得到语音指令的识别结果，进而能够有利于提高语音识别的鲁棒性。因此，能够提高语音识别的准确性和鲁棒性。

附图说明

图1是本申请语音识别方法一实施例的流程示意图；

图2是图1中步骤S12一实施例的流程示意图；

图3是更识别置信度一实施例的状态示意图；

图4是图1中步骤S12另一实施例的流程示意图；

图5是更新识别置信度另一实施例的状态示意图；

图6是图1中步骤S13一实施例的流程示意图；

图7是本申请电子设备一实施例的框架示意图；

图8是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：识别用户的语音指令，得到一个第一候选文本和至少一个第二候选文本。

本公开实施例中，第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系。具体地，预设关系可以为预设大小关系，例如，第一候选文本的识别置信度可以大于或等于任一第二候选文本的识别置信度。此外，识别置信度表示语音识别的可信程度，识别置信度越大，表示可信程度越高，反之识别置信度越小，表示可信程度越低。

在一个实施场景中，为了提高语音识别的效率，可以利用语音识别模型对用户的语音指令进行识别，得到一个第一候选文本和至少一个第二候选文本。具体地，语音识别模型可以包括但不限于：诸如deepspeech2、DFCNN等CTC(Connectionist TemporalClassification)框架的模型、诸如LAS(Listen Attend and Spell)、CLAS(ContextualListen,Attend and Spell)等基于注意力机制的seq2seq框架的模型，在此不做限定。此外，语音识别模型还可以为基于高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov Model)的模型，即GMM-HMM模型。

在另一个实施场景中，至少一个第二候选文本可以为一个第二候选文本、两个第二候选文本、三个第二候选文本等等，在此不做限定。

需要说明的是，本公开实施例以及下述其他语音识别方法实施例具体可以用于智能电视等智能家居的遥控器，或者，也可以应用于手机、平板电脑等电子设备的语音助理，在此不做限定。

在一个实施场景中，为了降低发生语音输入截断等情况的概率，可以先获取与用户匹配的延时时长，并基于延时时长采集语音数据，从而得到语音指令。具体地，语音时长可以与用户的年龄特征相匹配，例如，儿童与老人的延时时长可以设置地稍大一些，如可以设置为2.5秒、3秒等，而青年人和中年人的延时时长可以设置地稍小一些，如可以设置为1秒、1.5秒等等，在此不做限定。上述方式，通过获取与用户匹配的延时时长，并基于延时时长采集语音数据得到语音指令，能够有利于降低发生语音输入截断等情况的概率，从而能够有利于提高后续语音识别的准确性。

在一个具体的实施场景中，具体可以响应于接收到用户输入的开始采集指令，开始采集语音数据，从而利用语音数据进行时长预测，得到与用户匹配的延时时长。以智能电视的遥控器为例，开始采集指令可以是由用户通过遥控器上的语音输入按钮来触发的，如在用户按住遥控器上的语音输入按钮之后，可以开始采集语音数据；或者，以手机的语音助手为例，开始采集指令可以由用户通过手机显示屏上的语音助手图标来触发，如在用户按住语音助手图标之后，可以开始采集语音数据。其他情况可以以此类推，在此不再一一举例。

此外，为了提高延时时长的准确性，可以预先训练一个时长预测网络，从而可以将采集到的语音数据送入时长预测网络进行预测，得到与用户匹配的延时时长。具体地，时长预测网络可以包括特征提取子网络，用于提取语音数据的语音特征，语音特征具体可以包括但不限于：声纹特征(如，儿童声纹、老人声纹、中年声纹等)、方言特征(如，闽南语、上海话、四川话等)、环境特征(如，周围环境的嘈杂度等)。此外，为了提高延时时长的准确性，还可以获取用户的嘴型大小特征，具体可以通过摄像头获取得到，以智能电视的遥控器为例，遥控器上可以集成有摄像头，从而可以通过摄像头拍摄到用户的嘴部图像，进而可以通过对嘴部图像进行特征提取，得到用户的嘴型大小特征。此外，为了进一步提高延时时长的准确性，还可以获取用户的距地高度特征，具体可以通过气压传感器、红外传感器等传感器获取得到，仍以智能电视的遥控器为例，遥控器上可以集成有气压传感器、红外传感器等传感器，从而可以通过上述传感器获取遥控器的距地高度特征。在此基础上，可以利用声纹特征、方言特征、环境特征等语音相关特征，以及嘴型大小特征、距地高度特征等其他模态特征共同预测得到延时时长，即可以利用上述多模态特征进行延时时长预测，从而能够有利于提高延时时长的准确性。

此外，上述时长预测网络具体可以包含于前述语音识别模型，即上述时长预测网络可以是语音识别模型的一部分，在此不做限定。时长预测网络具体可以视为一个多分类网络，如分类为0秒，1秒，1.5秒，2秒，2.5秒，3秒等6种类型，则最终可以预测得到上述6种延时时长的概率值，并将最大的概率值所对应的延时时长，作为与用户匹配的延时时长。

需要说明的是，上述时长预测网络可以是利用多组训练样本训练得到的，为了提高时长预测网络的准确性，儿童对应的训练样本、老人对应的训练样本、青年人对应的训练样本可以为相同数量，如，150个儿童对应的训练样本、150个老人对应的训练样本、150个青年人对应的训练样本。此外，训练样本包括不同用户的样本语音数据，且样本语音数据标注有实际延时时长。具体地，可以将样本语音数据送入时长预测网络，得到样本语音数据的预测延时时长，从而可以利用实际延时时长与预测延时时长之前的差异，调整时长预测网络的网络参数。例如，实际延时时长为2秒，时长预测网络具体可以视为一个多分类网络，如分类为0秒，1秒，1.5秒，2秒，2.5秒，3秒等6种类型，则上述2秒的实际延时时长可以以one-hot编码为[0 0 0 1 0 0]，而对于上述6种延时时长预测得到的概率值可以以表示为[0.1 0.70.05 0.05 0.05 0.05]，故此可以利用交叉熵损失函数对实际延时时长的one-hot编码和预测延时时长的概率值进行计算，得到时长预测网络的损失值，并利用计算得到的损失值，调整时长预测网络的网络参数。

在另一个具体的实施场景中，在得到与用户匹配的延时时长之后，可以响应于接收到用户输入的结束采集指令，继续采集延时时长的语音数据之后停止采集，并将执行开始采集至执行停止采集之间所采集的语音数据，作为语音指令。以智能电视的遥控器为例，结束采集指令可以是由用户通过遥控器上的语音输入按钮来触发的，如在用户松开遥控器上的语音输入按钮之后，可以结束采集语音数据；或者，以手机的语音助手为例，结束采集指令可以由用户通过手机显示屏上的语音助手图标来触发，即在用户松开语音助手图标之后，可以结束采集语音数据。其他情况可以以此类推，在此不再一一举例。

在又一个具体的实施场景中，仍以智能电视的遥控器为例，在用户按住遥控器上的语音输入按钮之后，可以开始采集语音数据，并利用语音数据进行时长预测，得到与该用户匹配的延时时长，并在用户松开遥控器上的语音输入按钮之后，可以继续采集延时时长的语音数据后再停止采集，从而可以在用户按住语音输入按钮至停止采集之间所采集的语音数据，作为用户的语音指令。其他情况可以以此类推，在此不再一一举例。

上述方式，通过响应于接收到用户输入的开始采集指令，开始采集语音数据，并利用语音数据进行时长预测，得到与用户匹配的延时时长，从而在接收到用户输入的结束采集指令之后，继续采集延时时长的语音数据之后停止采集，进而将执行开始采集至执行停止采集之间所采集的语音数据，作为语音指令，能够有利于降低发生语音输入截断等情况的概率，从而能够有利于提高后续语音识别的准确性。

步骤S12：响应于第一候选文本的第一语义理解结果不满足预设结果条件，更新第二候选文本的识别置信度。

在一个实施场景中，第一语义理解结果具体可以包括对第一候选文本的意图理解结果。具体地，为了提高语义理解的效率，可以预先训练一个语义理解网络，该语义理解网络具体可以包括但不限于：DBN(Deep Belief Network，深度置信网络)、SVM(SupportVector Machine，支持向量机)等传统机器学习网络，或者，LSTM(Long Short-TermMemory，长短期记忆网络)等基于深度学习的网络，在此不做限定。例如，以第一候选文本“我要看动画片小猪佩奇”为例，其第一语义理解结果为：看一个名字叫做“小猪佩奇”的动画片(即视频)，即上述第一候选文本所表示的意图为“看名字叫《小猪佩奇》的动画片”；或者，以第一候选文本“我要听小猪佩奇的主题曲”为例，其第一语义理解结果为：听“小猪佩奇”的主题曲(即音频)，即上述第一候选文本所表示的意图为“听《小猪佩奇》的主题曲”。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，预设结果条件可以包括以下至少一者：语义理解结果不为空，语义理解结果与使用场景相关。

在一个具体的实施场景中，预设结果条件可以包括：语义理解结果不为空。例如，以第一候选文本“我要看动画片小猪佩奇”为例，其意图理解结果为：看一个名字叫做“小猪佩奇”的动画片(即视频)，其第一语义理解结果不为空，故可以认为第一候选文本“我要看动画片小猪佩奇”的第一语义理解结果满足预设结果条件；或者，以第一候选文本“我要看”为例，其第一语义理解结果为空，即无法获悉上述第一候选文本的意图，故可以认为第一候选文本“我要看”的第一语义理解结果不满足预设结果条件。其他情况可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，预设结果条件可以包括：语义理解结果与使用场景相关。例如，以智能电视的遥控器为例，对于第一候选文本“我要看北京人在纽约”，其语义理解结果为：看一个名字叫做“北京人在纽约”的视频，其第一语义理解结果与使用场景(即看电视)相关，故可以认为第一候选文本“我要看动画片小猪佩奇”的第一语义理解结果满足预设结果条件；或者，仍以智能电视的遥控器为例，对于第一候选文本“我要去北京纽约”，其语义理解结果为：去北京/纽约，即其第一语义理解结果与使用场景(看电视)不相关，故可以认为第一候选文本“我要去北京纽约”的第一语义理解结果不满足预设结果条件。其他情况可以以此类推，在此不再一一举例。

需要说明的是，在第一候选文本的第一语义理解结果满足预设结果条件的情况下，可以直接将第一候选文本作为语音指令的识别结果。

在一个实施场景中，可以对第二候选文本的识别置信度进行归一化，以更新第二候选文本的识别置信度。例如，用户的语音指令共计有3个第二候选文本，其识别置信度分别为：0.8、0.7、0.65，在此基础上，可以利用softmax对上述识别置信度进行归一化处理，以更新第二候选文本的识别置信度。

在另一个实施场景中，为了提高后续获取识别结果的效率，可以利用预设指令库对第二候选文本进行文本匹配，得到第二候选文本的匹配分值，并利用第二候选文本的匹配分值更新对应第二候选文本的识别置信度，且预设指令库包括预先收集的多个指令文本。具体过程可以参阅下述公开实施例中相关描述，在此暂不赘述。上述方式，通过利用预设指令库对第二候选文本进行文本匹配，得到第二候选文本的匹配分值，从而利用第二候选文本的匹配分值更新对应第二候选文本的识别置信度，能够有利于使得识别置信度既能够反映第二候选文本的语音识别可信程度，又能够反映第二候选文本与预设指令库的匹配程度，故此识别置信度能够反映第二候选文本具有满足预设结果条件的语义理解结果的可能性，进而能够有利于提高后续获取识别结果的效率。

在一个具体的实施场景中，可以将第二候选文本的匹配分值加上对应第二候选文本的识别置信度，以对该第二候选文本的识别置信度进行更新。仍以前述3个第二候选文本为例，其匹配分值分别为0.8、0.7、0.6，则通过将匹配分值加上识别置信度，可以将上述3个第二候选文本的识别置信度更新为：1.6、1.4、1.25。其他情况可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，预设指令库中所包含的多个指令文本具体可以为预先收集的高频指令文本，例如，可以包括但不限于：“我要看中央一套”、“我要看新闻联播”、“现在最热门的电视剧有哪些”等等，在此不做限定。

在又一个实施场景中，也可以对第二候选文本进行实体类别预测，得到第二候选文本中候选实体的实体类别及实体类别的预测置信度，并将第二候选文本的识别置信度更新为对应第二候选文本的预测置信度。具体地，仍以智能电视使用场景为例，上述实体类别具体可以包括但不限于：视频、音频、文本、漫画等等，在此不做限定。例如，对于第二候选文本“我要看动画片小猪佩奇”，识别到的候选实体为“小猪佩奇”，其实体类别为“视频”的预测置信度为0.95，从而可以直接将该预测置信度0.95作为第二候选文本“我要看动画片小猪佩奇”新的识别置信度。其他情况可以以此类推，在此不再一一举例。具体过程可以参阅下述公开实施例中相关描述，在此暂不赘述。上述方式，通过对第二候选文本进行实体类别预测，得到第二候选文本中候选实体的实体类别及实体类别的预测置信度，并将第二候选文本的识别置信度更新为对应第二候选文本的预测置信度，故此识别置信度能够反映第二候选文本具有满足预设结果条件的语义理解结果的可能性，进而能够有利于提高后续获取识别结果的效率。

在一个具体的实施场景中，为了提高实体分类的效率，可以预先训练一个实体分类网络，从而可以将第二候选文本送入实体分类网络，进而可以利用实体分类网络对第二候选文本进行实体分类，得到第二候选文本中候选实体的实体类别及其预测置信度。此外，实体分类网络也可以集成于前述语音识别模型中，即实体分类网络可以为语音识别模型的一部分。

在又一个实施场景中，可以同时执行上述利用预设指令库对第二候选文本进行文本匹配，得到第二候选文本的匹配分值，并利用第二候选文本的匹配分值更新对应第二候选文本的识别置信度的步骤，以及上述对第二候选文本进行实体类别预测，得到第二候选文本中候选实体的实体类别及实体类别的预测置信度，并将第二候选文本的识别置信度更新为对应第二候选文本的预测置信度的步骤，最终可以利用两种方式分别更新得到的识别置信度，得到第二候选文本最终的识别置信度。例如，可以对两种方式分别更新得到的识别置信度取平均值，作为最终的识别置信度。

步骤S13：基于识别置信度，获取第二候选文本的第二语义理解结果，并利用第二语义理解结果，得到语音指令的识别结果。

在一个实施场景中，可以按照识别置信度由大到小的顺序，逐个获取第二候选文本的第二语义理解结果，并在第二语义理解结果满足预设结果条件的情况下，利用第二候选文本得到语音指令的识别结果。例如，语音指令的识别结果可以包括语音指令的最终识别文本，则可以直接将该第二候选文本作为语音指令的最终识别文本。

在一个具体的实施场景中，仍以语音指令对应有3个第二候选文本为例，为了便于描述，可以将这3个第二候选文本可以分别记为：第二候选文本1、第二候选文本2、第二候选文本3，且上述三个第二候选文本按照识别置信度由大到小排序为：第二候选文本2、第二候选文本1、第二候选文本3，则可以先获取第二候选文本2的第二语义理解结果，并在第二候选文本2的第二语义理解结果满足预设结果条件的情况下，直接将第二候选文本2作为语音指令的最终识别文本；或者，在第二候选文本2的第二语义理解结果不满足预设结果条件的情况下，检测第二候选文本1的第二语义理解结果是否满足预设结果条件，以此类推，在此不再赘述。

在另一个实施场景中，可以先获取各个第二候选文本的第二语义理解结果，再按照识别置信度由大到小的顺序，检测第二语义理解结果是否满足预设结果条件，最终可以利用最先检测到满足预设结果条件的第二候选文本，得到语音指令的识别结果。例如，语音指令的识别结果可以包括语音指令的最终识别文本，则可以直接将最先检测到满足预设结果条件的第二候选文本作为语音指令的最终识别文本。

在一个具体的实施场景中，仍以语音指令对应有3个第二候选文本为例，为了便于描述，可以将这3个第二候选文本可以分别记为：第二候选文本1、第二候选文本2、第二候选文本3，且上述三个第二候选文本按照识别置信度由大到小排序为：第二候选文本2、第二候选文本1、第二候选文本3。在此基础上，可以先获取第二候选文本1、第二候选文本2和第二候选文本3的第二语义理解结果，再按照识别置信度由大到小排序，先检测第二候选文本2的第二语义理解结果是否满足预设结果条件，若满足则可以直接将第二候选文本2作为语音指令的最终识别文本，若不满足则可以继续检测第二候选文本1的第二语义理解结果是否满足预设结果条件，以此类推，在此不再赘述。

此外，上述第二语义理解结果具体可以包括对第二候选文本的意图理解结果。具体地，为了提高语义理解的效率，可以预先训练一个语义理解网络，从而可以将第二候选文本送入语义理解网络，得到第二候选文本的第二语义理解结果。具体可以参阅前述相关描述，在此不再赘述。

请参阅图2，图2是图1中步骤S12一实施例的流程示意图。具体可以包括如下步骤：

步骤S21：对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值。

在一个实施场景中，至少一种候选类别具体可以根据实际应用场景进行设置。以智能电视使用场景为例，至少一种候选类别可以包括但不限于：动画片、电视剧、音乐、小说、漫画等等，在此不做限定。其他场景可以以此类推，在此不再一一举例。

在一个实施场景中，如前所述，为了提高预测准确性，还可以提取语音指令的声纹特征(如，儿童声纹、老人声纹、青年人声纹等等)，并利用声学特征对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值，从而能够在实体类别预测过程中，考虑不同用户对同一候选实体的不同倾向，进而能够有利于提高实体类别预测的准确性。仍以智能电视使用场景为例，对于第二候选文本“我想看小猪佩奇”，在提取到的声纹特征为儿童声纹的情况下，可以得到至少一种候选类别的预测概率值分别为：“动画片”的预测概率值0.8、“音乐”的预测概率值0.05、“小说”的预测概率值0.05、“漫画”的预测概率值0.1，即“动画片”的预测概率值较高，其他使用场景可以以此类推，在此不再一一举例。

在一个具体的实施场景中，为了进一步提高预测准确性，还可以统计用户对至少一种候选类别的请求量，从而可以利用前述声纹特征和请求量，对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值，从而能够在实体类别预测过程中，同时考虑不同用户对同一候选实体的不同倾向，以及用户在历史使用过程中，对不同候选类别的倾向程度，进而能够有利于提高实体类别预测的准确性。仍以智能电视使用场景为例，用户对至少一种候选类别的请求量具体可以包括：用户对动画片、电视剧、音乐、小说、漫画等的点击量，例如，用户对动画片的点击量为100次、用户对电视剧的点击量为10次，用户对音乐的点击量为10次、用户对小说的点击量为0，用户对漫画的点击量为30次。其他使用场景可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，为了进一步提高预测准确性，还可以统计用户对至少一种候选类别的请求时长，从而可以利用前述声纹特征和请求量、请求时长，对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值。仍以智能电视使用场景为例，请求时长具体可以包括：动画片、电视剧、音乐、小说、漫画等播放时长，为了便于后续预测，可以在统计得到播放时时长之后，对播放时长进行归一化，从而得到用户对至少一种候选类别的请求时长。其他使用场景可以以此类推，在此不再一一举例。

在又一个具体的实施场景中，为了进一步提高预测准确性，还可以统计至少一种候选类别的热度值，从而可以利用前述声纹特征、请求量、请求时长和热度值，对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值。仍以智能电视使用场景为例，热度值具体可以包括：动画片、电视剧、音乐、小说、漫画等的热门程度值。其他使用场景可以以此类推，在此不再一一举例。

在又一个具体的实施场景中，为了进一步提高预测准确性，还可以预先获取用户年龄，例如在用户初次进行语音交互时，可以提示用户输入年龄，在此基础上，可以利用前述声纹特征、请求量、请求时长、热度值和用户年龄，对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值。

在一个实施场景中，实体类别预测可以利用实体分类网络执行，具体可以参阅前述公开实施例中相关描述，在此不再赘述。此外，实体分类网络可以是利用多组历史数据训练得到的，且历史数据是在用户利用历史语音指令进行交互过程中采集的，即历史数据是在之前某段时间内用户利用历史语音指令进行交互过程中采集的，故此能够有利于在使用过程中，利用历史数据不断迭代优化实体分类网络，从而能够有利于在使用过程中不断提升实体分类网络的准确性，提高实体分类网络对用户的适用性。

在一个具体的实施场景中，历史数据可以对应标注有其实体的实际类别。仍以智能电视使用场景为例，可以在用户交互过程中，采集历史识别文本，并通过用户在动画片、电视剧、音乐、小说、漫画中最终点击的选项，得到历史识别文本中实体的实际类别，如历史识别文本“我要看小猪佩奇”，用户最终点击“动画片”选项，则可以确定该历史识别文本中实体的实际类别为“动画片”，以此类推，可以在用户交互过程中，采集得到多组历史数据。

在另一个具体的实施场景中，历史数据还可以包括在用户交互过程中，对用户的历史语音指令提取到的声纹特征(如，儿童声纹、老人声纹、青年人声纹等)。

在又一个具体的实施场景中，如前所述，历史数据可以对应标注有其实体的实际类别，在此基础上，可以将历史数据送入实体分类网络，预测得到历史数据中实体属于至少一种候选类别的预测概率值，并基于交叉熵损失函数处理上述至少一种候选类别的预测概率值以及实际类别，得到实体分类网络的损失值，最终可以利用该损失值，调整实体分类网络的网络参数。

步骤S22：将最大预测概率值对应的候选类别作为候选实体的实体类别，并将最大预测概率值作为实体类别的预测置信度。

本公开实施例中，可以将最大预测概率值对应的候选类别作为候选实体的实体类别，并将最大预测概率值作为实体类别的预测置信度。仍以智能电视使用场景为例，至少一种候选类别的预测概率值分别为：“动画片”的预测概率值0.8、“音乐”的预测概率值0.05、“小说”的预测概率值0.05、“漫画”的预测概率值0.1，则可以将预测概率值0.8对应的候选类别“动画片”作为第二候选文本“我想看小猪佩奇”中候选实体“小猪佩奇”的实体类别，并将预测概率值0.8作为实体类别“小猪佩奇”的预测置信度。其他场景可以以此类推，在此不再一一举例。

步骤S23：将第二候选文本的识别置信度更新为对应第二候选文本的预测置信度。

在得到第二候选文本中候选实体的实体类别以及实体识别的预测置信度之后，可以直接将该预测置信度作为该第二候选文本的识别置信度。仍以智能电视使用场景为例，对于第二候选文本“我想看小猪佩奇”，可以将其识别置信度更新为上述预测置信度0.8，即第二候选文本“我想看小猪佩奇”更新后的识别置信度为0.8。其他场景可以以此类推，在此不再一一举例。

请结合参阅图3，图3是更识别置信度一实施例的状态示意图。如图3所示，第二候选文本送入实体分类网络之后，即可得到候选实体属于“视频、“音频”等多种候选类别的预测概率值，在此基础上，可以对预测概率值进行排序，并将最大预测概率值对应的候选类别作为候选实体的实体类别，并将最大预测概率值作为实体类别的预测置信度，从而将第二候选文本的识别置信度更新为对应第二候选文本的预测置信度。

区别于前述实施例，通过对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值，从而将最大预测概率值对应的候选类别作为候选实体的实体类别，并将最大预测概率值作为实体类别的预测置信度，故此更新后的识别置信度能够反映第二候选文本具有满足预设结果条件的语义理解结果的可能性，进而能够有利于提高后续获取识别结果的效率。

请参阅图4，图4是图1中步骤S12另一实施例的流程示意图。具体可以包括如下步骤：

步骤S41：利用预设指令库对第二候选文本进行文本匹配，得到与对应第二候选文本满足预设匹配条件的指令文本的第一数量。

在一个实施场景中，如前述公开实施例所述，预设指令库中可以包含多个指令文本。此外，多个指令文本可以为预先收集的高频指令文本。具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

在一个实施场景中，为了提高上述第一数量的参考价值，预设匹配条件具体可以包括：匹配程度值大于预设阈值。

在一个具体的实施场景中，预设阈值可以根据实际应用需要进行设置，例如，在匹配较为严格的情况下，预设阈值可以设置地稍大一些，如可以设置为0.85、0.9等等；或者在匹配较为宽松的情况下，预设阈值可以设置地稍小一些，如可以设置为0.7、0.75等等，在此不做限定。

在另一个具体的实施场景中，可以通过TF-IDF(term frequency–inversedocument frequency)等来计算第二候选文本与预设指令库中各个指令文本之间的匹配程度值，具体计算方式在此不再赘述。

在一个实施场景中，为了进一步提高语音识别的准确性，还可以在利用预设指令库对第二候选文本进行文本匹配之前，利用第一候选文本的识别置信度，得到参考置信度，并筛选识别置信度不小于参考置信度的第二候选文本。也就是说，可以直接滤除识别置信度小于参考置信度的第二候选文本。上述方式，能够有利于滤除识别置信度较小的第二候选文本，从而能够有利于排除识别置信度较小的第二候选文本对于后续语音识别的干扰，进而能够有利于提高语音识别的准确性。

在一个具体的实施场景中，参考置信度具体可以通过第一候选文本的识别置信度乘以一个预设系数得到。预设系数可以根据实际应用需要进行设置，例如，在筛选较为宽松的情况下，预设系数可以设置地稍小一些，如可以设置为0.7、0.75，或者，在筛选较为严格的情况下，预设系数可以设置地稍大一些，如可以设置为0.85、0.9，在此不做限定。为了便于描述，可以将第一候选文本的识别置信度记为score，预设系数可以记为a，则可以筛选识别置信度在[a*score，score]范围内的第二候选文本。其他情况可以以此类推，在此不再一一举例。

步骤S42：将第二候选文本对应的第一数量进行归一化处理，得到对应第二候选文本的匹配分值。

为了便于描述，第i个第二候选文本可以记为n_i，对于第二候选文本n_i而言，可以将搜索到的满足预设匹配条件的指令文本的第一数量记为m_i，则在共有K个第二候选文本参与搜索的情况下，第i个第二候选文本n_i的匹配分值可以表示为：

步骤S43：利用第二候选文本的匹配分值更新对应第二候选文本的识别置信度。

在一个实施场景中，如前所述公开实施例所述，可以直接将第二候选文本的匹配分值加上对应第二候选文本的识别置信度，作为新的识别置信度。仍以第i个第二候选文本n_i为例，为了便于描述，可以将第i个第二候选文本n_i的识别置信度记为则第i个第二候选文本n_i新的识别置信度可以记为/>

在另一个实施场景中，为了提高更新后的识别置信度的准确性，可以分别利用第一权值、第二权值对第二候选文本的识别置信度、第二候选文本的匹配分值进行加权，以更新第二候选文本的识别置信度。以第i个第二候选文本n_i为例，为了便于描述，可以将第i个第二候选文本n_i的识别置信度记为将第i个第二候选文本n_i的匹配分值记为/>则第i个第二候选文本n_i更新后的识别置信度可以表示为：

上述公式(2)中，w₁表示第一权值、w₂表示第二权值。具体地，第一权值w₁、第二权值w₂是利用多组训练样本训练得到的，训练样本包括多个候选样本文本以及每一候选样本文本的样本置信度，且训练样本标注有多个候选样本文本的实际排序。

在一个具体的实施场景中，为了便于描述，对于其中一组训练样本，可以包括L个候选样本文本，第j个候选样本文本可以记为o_j，则对于每组训练样本可以执行下述步骤：利用预设指令库对候选样本进行文本匹配，得到与对应候选样本文本满足预设匹配条件的指令文本的第二数量，并将候选样本文本对应的第二数量进行归一化，得到对应候选文本的样本匹配分值，在此基础上，可以分别利用多组候选权值对候选样本文本的样本置信度、候选样本文本的样本匹配分值进行加权，得到各组候选权值对每组训练样本的预测排序，且每组候选权值包括一对第一候选权值和第二候选权值。例如，可以预先设置多组候选权值：w₁＝0.9，w₂＝0.1；w₁＝0.8，w₂＝0.2；w₁＝0.7，w₂＝0.3；w₁＝0.6，w₂＝0.4；w₁＝0.5，w₂＝0.5；w₁＝0.4，w₂＝0.6；w₁＝0.3，w₂＝0.7；w₁＝0.2，w₂＝0.8；w₁＝0.1，w₂＝0.9，在此不做限定。在此基础上，对于候选权值w₁＝0.9，w₂＝0.1而言，通过利用上述公式(1)、公式(2)以及相关描述，可以得到其中一组训练样本中L个候选样本文本的预测排序(如，按照加权结果由大到小的顺序进行排序)，以此类推，对于其他各组训练样本，也可以按照类似的步骤得到对应组训练样本的预测排序。在此基础上，可以基于多组训练样本的实际排序，以及各组候选权值分别对多组训练样本的预测排序，统计各组候选权值对多组训练样本的预测正确率。需要说明的是，在预测排序和实际排序完全一致的情况下，可以认为预测正确，则对于上述9组候选权值而言，可以统计出每组候选权值对多组训练样本预测排序正确的个数，并将该预测排序正确的个数除以训练样本的总个数，即可得到每组候选权值对多组训练样本的预测正确率。例如，可以统计出上述各组候选权值对多组训练样本的预测正确：第1组候选权值w₁＝0.9，w₂＝0.1对多组训练样本的预测正确率0.9；第2组候选权值w₁＝0.8，w₂＝0.2多组训练样本的预测正确率0.7；第3组候选权值w₁＝0.7，w₂＝0.3对多组训练样本的预测正确率0.75；第4组候选权值w₁＝0.6，w₂＝0.4对多组训练样本的预测正确率0.8；第5组候选权值w₁＝0.5，w₂＝0.5对多组训练样本的预测正确率0.65；第6组候选权值w₁＝0.4，w₂＝0.6对多组训练样本的预测正确率0.7；第7组候选权值w₁＝0.3，w₂＝0.7对多组训练样本的预测正确0.85；第8组候选权值w₁＝0.2，w₂＝0.8对多组训练样本的预测正确率0.75；第9组候选权值w₁＝0.1，w₂＝0.9对多组训练样本的预测正确率0.55。故此可以选取预测正确率满足预设筛选条件的一组候选权值，并将选取的一组候选权值所包含的第一候选权值和第二候选权值，分别作为第一权值和第二权值。例如，预设筛选条件可以包括预测正确率最高，则可以选取预测正确率最高的一组候选权值(即w₁＝0.9，w₂＝0.1)，并将w₁＝0.9作为第一权值，将w₂＝0.1作为第二权值。其他情况可以以此类推，在此不再一一举例。上述方式，能够有利于提高第一权值和第二权值的准确性，从而能够有利于提高更新后的识别置信度的准确性。

请参阅图5，图5是更新识别置信度另一实施例的状态示意图。如图5所示，对于至少一个第二候选文本，首先可以利用第一候选文本的识别置信度进行筛选，在此基础上，可以利用预设指令库对第二候选文本进行文本匹配，得到第二候选文本的匹配分值，最后利用匹配分值更新第二候选文本的识别置信度，具体可以参阅前述相关描述，在此不再赘述。

区别于前述实施例，通过利用预设指令库对第二候选文本进行文本匹配，得到与对应第二候选文本满足预设匹配条件的指令文本的第一数量，从而将第二候选文本对应的第一数量进行归一化处理，得到对应第二候选文本的匹配分值，故匹配分值能够准确反映第二候选文本与预设指令库的匹配程度，进一步利用第二候选文本的匹配分值更新对应第二候选文本的识别置信度，能够有利于使得识别置信度既能够反映第二候选文本的语音识别可信程度，又能够反映第二候选文本与预设指令库的匹配程度，故此识别置信度能够反映第二候选文本具有满足预设结果条件的语义理解结果的可能性，进而能够有利于提高后续获取识别结果的效率。

请参阅图6，图6是图1中步骤S13一实施例的流程示意图。本公开实施例中，语音指令的识别结果具体可以包括语音指令的最终识别文本，在此基础上本公开实施例具体可以包括如下步骤：

步骤S61：按照识别置信度由大到小的顺序，选择一个第二候选文本。

具体地，识别置信度的具体获取方式可以参阅前述公开实施例中相关步骤，在此不再赘述。

步骤S62：获取第二候选文本的第二语义理解结果。

具体地，第二语义理解结果的具体获取方式可以参阅前述公开实施例中相关步骤，在此不再赘述。

步骤S63：判断第二语义理解结果是否满足预设结果条件，若是，则执行步骤S64，否则执行步骤S65。

在第二语义理解结果满足预设结果条件的情况下，可以执行下述步骤S64，否则可以执行下述步骤S65。此外，预设结果条件的具体设置方式可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S64：将第二候选文本作为最终识别文本。

在第二语义理解结果满足预设结果条件的情况下，可以直接将第二候选文本作为最终识别文本。例如，以第二候选文本“我要看动画片小猪佩奇”为例，识别到的而第二语义理解结果包括：看一个名字叫做《小猪佩奇》的动画片，在此基础上，可以直接将第二候选文本“我要看动画片小猪佩奇”作为最终识别文本。

步骤S65：对第二候选文本中的候选实体进行校正，得到第三候选文本。

具体地，可以获取预设实体库中各个预设实体与候选实体之间的相似分值，并将候选实体替换为最高相似分值的预设实体，得到第三候选文本。预设实体库中可以包含至少一个预设实体，具体可以在实际使用场景中，收集用户使用过的实体或经常使用的实体，得到预设实体库，在此不做限定。上述方式，通过获取预设实体库中各个预设实体与候选实体之间的相似分值，从而将候选实体替换为最高相似分值的预设实体，得到第三候选文本，能够有利于在第二候选文本的第二语义理解结果不满足预设结果条件的情况下，进一步对第二候选文本进行纠错，有利于提高语音识别的鲁棒性。

在一个实施场景中，相似分值具体可以通过如下至少一种方式得到：Dice系数、Jaccard距离、overlap(重叠度)、编辑距离、LCS(Longest Commons Sequence，最长公共子串)、前后缀匹配率等等，在此不做限定。Dice系数可以通过两个字符串中相同字符个数的2倍除以两个字符串总字符个数得到；而Jaccard距离可以通过两个集合的交集除以两个集合的并集得到；overlap(重叠度)可以将两个字符串重叠字符个数除以较长字符串字符总个数得到；编辑距离是指其中一个字符串转换为另一字符串所需的最少单字符编辑操作(如，插入操作、删除操作、替换操作等)次数；而LCS表示两个字符串中最长的公共子串；前后缀匹配率表示两个字符串前缀和/或后缀的匹配程度。具体在此不再赘述。

在另一个实施场景中，相似分值还可以进一步参考其他维度信息。仍以智能电视使用场景为例，其他维度信息具体可以包括但不限于：播放量、评分等等。

在一个具体的实施场景中，仍以智能电视使用场景为例，“我要看小猪佩七”经实体校正，发现候选实体“小猪佩七”与预设实体库中预设实体“小猪佩奇”的相似分值最高，故可以将“小猪佩七”替换为“小猪佩奇”，得到第三候选文本“我要看小猪佩奇”。其他情况可以以此类推，在此不再一一举例。

步骤S66：判断第三候选文本的第三语义理解结果是否满足预设结果条件，若是，则执行步骤S67，否则执行步骤S68。

第三语义理解结果的具体获取方式可以参阅前述公开实施例中关于第一语义理解结果或者第二语义理解结果的相关描述，在此不再赘述。在第三候选文本的第三语义理解结果满足预设结果条件的情况下，可以执行下述步骤S67，而在第三候选文本的第三语义理解结果不满足预设结果条件的情况下，可以执行下述步骤S68。

步骤S67：将第三候选文本作为最终识别文本。

在第三候选文本的第三语义理解结果满足预设结果条件的情况下，可以将第三候选文本作为最终识别文本。

步骤S68：重新执行步骤S61以及后续步骤。

在第三候选文本的第三语义理解结果仍然不满足预设结果条件的情况下，可以重新执行上述步骤S61以及后续步骤，即按照识别置信度由大到小的顺序，选择下一个第二候选文本，继续判断其第二语义理解结果是否满足预设结果条件以及后续步骤。

区别于前述实施例，在第二语义理解结果不满足预设结果条件的情况下，通过对第二候选文本中的候选实体进行校正，得到第三候选文本，从而在第三候选文本的第三语义理解结果满足预设结果条件的情况下，将第三候选文本作为最终识别文本，能够有利于提高语音交互的成功率及鲁棒性。

请参阅图7，图7是本申请电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72，存储器71中存储有程序指令，处理器72用于执行程序指令以实现上述任一语音识别方法实施例中的步骤。具体地，电子设备70可以包括但不限于：手机、平板电脑、遥控器等等，在此不做限定。

具体而言，处理器72用于控制其自身以及存储器71以实现上述任一语音识别方法实施例的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。

本公开实施例中，处理器72用于识别用户的语音指令，得到一个第一候选文本和至少一个第二候选文本；其中，第二候选文本的识别置信度与第一候选文本的识别置信度符合预设关系；处理器72用于响应于第一候选文本的第一语义理解结果不满足预设结果条件，更新第二候选文本的识别置信度；处理器72用于基于识别置信度，获取第二候选文本的第二语义理解结果，并利用第二语义理解结果，得到语音指令的识别结果。

在一些公开实施例中，处理器72用于利用预设指令库对第二候选文本进行文本匹配，得到第二候选文本的匹配分值，并利用第二候选文本的匹配分值更新对应第二候选文本的识别置信度；其中，预设指令库包括预先收集的多个指令文本；和/或，处理器72用于对第二候选文本进行实体类别预测，得到第二候选文本中候选实体的实体类别及实体类别的预测置信度，并将第二候选文本的识别置信度更新为对应第二候选文本的预测置信度。

区别于前述实施例，通过利用预设指令库对第二候选文本进行文本匹配，得到第二候选文本的匹配分值，从而利用第二候选文本的匹配分值更新对应第二候选文本的识别置信度，能够有利于使得识别置信度既能够反映第二候选文本的语音识别可信程度，又能够反映第二候选文本与预设指令库的匹配程度，故此识别置信度能够反映第二候选文本具有满足预设结果条件的语义理解结果的可能性，进而能够有利于提高后续获取识别结果的效率。此外，通过对第二候选文本进行实体类别预测，得到第二候选文本中候选实体的实体类别及实体类别的预测置信度，并将第二候选文本的识别置信度更新为对应第二候选文本的预测置信度，故此识别置信度能够反映第二候选文本具有满足预设结果条件的语义理解结果的可能性，进而能够有利于提高后续获取识别结果的效率。

在一些公开实施例中，实体类别预测是利用实体分类网络执行的，实体分类网络是利用多组历史数据训练得到的，历史数据是在用户利用历史语音指令进行交互过程中采集的。

区别于前述实施例，利用实体分类网络执行实体类别预测，能够提高实体分类的效率，而实体分类网络可以是利用多组历史数据训练得到的，且历史数据是在用户利用历史语音指令进行交互过程中采集的，即历史数据是在之前某段时间内用户利用历史语音指令进行交互过程中采集的，故此能够有利于在使用过程中，利用历史数据不断迭代优化实体分类网络，从而能够有利于在使用过程中不断提升实体分类网络的准确性，提高实体分类网络对用户的适用性。

在一些公开实施例中，处理器72用于对第二候选文本进行实体类别预测，得到候选实体属于至少一种候选类别的预测概率值；处理器72用于将最大预测概率值对应的候选类别作为候选实体的实体类别，并将最大预测概率值作为实体类别的预测置信度。

在一些公开实施例中，处理器72用于利用预设指令库对第二候选文本进行文本匹配，得到与对应第二候选文本满足预设匹配条件的指令文本的第一数量；处理器72用于将第二候选文本对应的第一数量进行归一化处理，得到对应第二候选文本的匹配分值。

在一些公开实施例中，处理器72用于利用第一候选文本的识别置信度，得到参考置信度；处理器72用于筛选识别置信度不小于参考置信度的第二候选文本。

区别于前述实施例，能够有利于滤除识别置信度较小的第二候选文本，从而能够有利于排除识别置信度较小的第二候选文本对于后续语音识别的干扰，进而能够有利于提高语音识别的准确性。

在一些公开实施例中，处理器72用于分别利用第一权值、第二权值对第二候选文本的识别置信度、第二候选文本的匹配分值进行加权，以更新第二候选文本的识别置信度；其中，第一权值和第二权值是利用多组第一训练样本训练得到的，第一训练样本包括多个候选样本文本以及每一候选样本文本的样本置信度，且第一训练样本标注有多个候选样本文本的实际排序。

区别于前述实施例，分别利用第一权值、第二权值对第二候选文本的识别置信度、第二候选文本的匹配分值进行加权，以更新第二候选文本的识别置信度，且第一权值和第二权值是利用多组第一训练样本训练得到的，第一训练样本包括多个候选样本文本以及每一候选样本文本的样本置信度，且第一训练样本标注有多个候选样本文本的实际排序，能够有利于提高更新后的识别置信度的准确性。

在一些公开实施例中，处理器72用于分别利用预设指令库对候选样本文本进行文本匹配，得到与对应候选样本文本满足预设匹配条件的指令文本的第二数量；处理器72用于将候选样本文本对应的第二数量进行归一化，得到对应候选样本文本的样本匹配分值；处理器72用于分别利用多组候选权值对候选样本文本的样本置信度、候选样本文本的样本匹配分值进加权，得到各组候选权值对每组第一训练样本的预测排序；其中，每组候选权值包括一对第一候选权值和第二候选权值；处理器72用于基于多组第一训练样本的实际排序，以及各组候选权值分别对多组第一训练样本的预测排序，统计各组候选权值对多组第一训练样本的预测正确率；处理器72用于选取预测正确率满足预设筛选条件的一组候选权值，并将选取的一组候选权值所包含的第一候选权值和第二候选权值，分别作为第一权值和第二权值。

区别于前述实施例，能够有利于提高第一权值和第二权值的准确性，从而能够有利于提高更新后的识别置信度的准确性。

在一些公开实施例中，处理器72用于获取与用户匹配的延时时长，并基于延时时长采集语音数据，得到语音指令。

区别于前述实施例，通过获取与用户匹配的延时时长，并基于延时时长采集语音数据得到语音指令，能够有利于降低发生语音输入截断等情况的概率，从而能够有利于提高后续语音识别的准确性。

在一些公开实施例中，处理器72用于响应于接收到用户输入的开始采集指令，开始采集语音数据；处理器72用于利用语音数据进行时长预测，得到与用户匹配的延时时长；处理器72用于响应于接收到用户输入的结束采集指令，继续采集延时时长的语音数据之后停止采集；处理器72用于将执行开始采集至执行停止采集之间所采集的语音数据，作为语音指令。

区别于前述实施例，通过响应于接收到用户输入的开始采集指令，开始采集语音数据，并利用语音数据进行时长预测，得到与用户匹配的延时时长，从而在接收到用户输入的结束采集指令之后，继续采集延时时长的语音数据之后停止采集，进而将执行开始采集至执行停止采集之间所采集的语音数据，作为语音指令，能够有利于降低发生语音输入截断等情况的概率，从而能够有利于提高后续语音识别的准确性。

在一些公开实施例中，时长预测是利用时长预测网络执行的，时长预测网络是利用多组第二训练样本训练得到的，第二训练样本包括不同用户的样本语音数据，且样本语音数据标注有实际延时时长。

区别于前述实施例，利用时长预测网络执行时长预测，且时长预测网络是利用多组第二训练样本训练得到的，第二训练样本包括不同用户的样本语音数据，且样本语音数据标注有实际延时时长，能够有利于提高时长预测的效率和准确性。

在一些公开实施例中，识别结果包括语音指令的最终识别文本，处理器72用于在第二语义理解结果满足预设结果条件的情况下，将第二候选文本作为最终识别文本，处理器72用于在第二语义理解结果不满足预设结果条件的情况下，对第二候选文本中的候选实体进行校正，得到第三候选文本，并在第三候选文本的第三语义理解结果满足预设结果条件的情况下，将第三候选文本作为最终识别文本。

在一些公开实施例中，处理器72用于获取预设实体库中各个预设实体与候选实体之间的相似分值；处理器72用于将候选实体替换为最高相似分值的预设实体，得到第三候选文本。

区别于前述实施例，，通过获取预设实体库中各个预设实体与候选实体之间的相似分值，从而将候选实体替换为最高相似分值的预设实体，得到第三候选文本，能够有利于在第二候选文本的第二语义理解结果不满足预设结果条件的情况下，进一步对第二候选文本进行纠错，有利于提高语音识别的鲁棒性。

请参阅图8，图8是本申请存储装置80一实施例的框架示意图。存储装置80存储有能够被处理器运行的程序指令801，程序指令801用于实现上述任一语音识别方法实施例中的步骤。

上述方案，能够提高语音识别的准确性和鲁棒性。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，包括：

识别用户的语音指令，得到一个第一候选文本和至少一个第二候选文本；其中，所述第二候选文本的识别置信度与所述第一候选文本的识别置信度符合预设关系；

响应于所述第一候选文本的第一语义理解结果不满足预设结果条件，更新所述第二候选文本的识别置信度；

基于所述识别置信度，获取所述第二候选文本的第二语义理解结果，并利用所述第二语义理解结果，得到所述语音指令的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述更新所述第二候选文本的识别置信度，包括：

利用预设指令库对所述第二候选文本进行文本匹配，得到所述第二候选文本的匹配分值，并利用所述第二候选文本的匹配分值更新对应所述第二候选文本的识别置信度；其中，所述预设指令库包括预先收集的多个指令文本；和/或

对所述第二候选文本进行实体类别预测，得到所述第二候选文本中候选实体的实体类别及所述实体类别的预测置信度，并将所述第二候选文本的识别置信度更新为对应所述第二候选文本的预测置信度。

3.根据权利要求2所述的方法，其特征在于，所述实体类别预测是利用实体分类网络执行的，所述实体分类网络是利用多组历史数据训练得到的，所述历史数据是在所述用户利用历史语音指令进行交互过程中采集的。

4.根据权利要求2所述的方法，其特征在于，所述对所述第二候选文本进行实体类别预测，得到所述第二候选文本中候选实体的实体类别及所述实体类别的预测置信度，包括：

对所述第二候选文本进行实体类别预测，得到所述候选实体属于至少一种候选类别的预测概率值；

将最大所述预测概率值对应的候选类别作为所述候选实体的实体类别，并将最大所述预测概率值作为所述实体类别的预测置信度。

5.根据权利要求2所述的方法，其特征在于，所述利用预设指令库对所述第二候选文本进行文本匹配，得到所述第二候选文本的匹配分值，包括：

利用所述预设指令库对所述第二候选文本进行文本匹配，得到与对应所述第二候选文本满足预设匹配条件的指令文本的第一数量；

将所述第二候选文本对应的第一数量进行归一化处理，得到对应所述第二候选文本的匹配分值；其中，所述匹配分值表征所述第一数量进行归一化处理后的数值。

6.根据权利要求5所述的方法，其特征在于，在所述利用所述预设指令库对所述第二候选文本进行文本匹配之前，所述方法还包括：

利用所述第一候选文本的识别置信度，得到参考置信度；

筛选所述识别置信度不小于所述参考置信度的第二候选文本。

7.根据权利要求2所述的方法，其特征在于，所述利用所述第二候选文本的匹配分值更新对应所述第二候选文本的识别置信度，包括：

分别利用第一权值、第二权值对所述第二候选文本的识别置信度、所述第二候选文本的匹配分值进行加权，以更新所述第二候选文本的识别置信度；

其中，所述第一权值和所述第二权值是利用多组第一训练样本训练得到的，所述第一训练样本包括多个候选样本文本以及每一所述候选样本文本的样本置信度，且所述第一训练样本标注有所述多个候选样本文本的实际排序。

8.根据权利要求7所述的方法，其特征在于，所述第一权值和所述第二权值的训练步骤包括：

分别利用所述预设指令库对所述候选样本文本进行文本匹配，得到与对应所述候选样本文本满足预设匹配条件的指令文本的第二数量；

将所述候选样本文本对应的第二数量进行归一化，得到对应所述候选样本文本的样本匹配分值；

分别利用多组候选权值对所述候选样本文本的样本置信度、所述候选样本文本的样本匹配分值进加权，得到各组所述候选权值对每组所述第一训练样本的预测排序；其中，每组所述候选权值包括一对第一候选权值和第二候选权值；

基于所述多组第一训练样本的实际排序，以及各组所述候选权值分别对所述多组第一训练样本的预测排序，统计各组所述候选权值对所述多组第一训练样本的预测正确率；

选取所述预测正确率满足预设筛选条件的一组所述候选权值，并将选取的一组所述候选权值所包含的第一候选权值和第二候选权值，分别作为所述第一权值和所述第二权值。

9.根据权利要求1所述的方法，其特征在于，在所述识别用户的语音指令之前，所述方法还包括：

获取与所述用户匹配的延时时长，并基于所述延时时长采集语音数据，得到所述语音指令。

10.根据权利要求1所述的方法，其特征在于，所述获取与所述用户匹配的延时时长，包括：

响应于接收到所述用户输入的开始采集指令，开始采集语音数据；

利用所述语音数据进行时长预测，得到与所述用户匹配的延时时长；

所述基于所述延时时长采集语音数据，得到所述语音指令，包括：

响应于接收到所述用户输入的结束采集指令，继续采集所述延时时长的语音数据之后停止采集；

将执行所述开始采集至执行所述停止采集之间所采集的语音数据，作为所述语音指令。

11.根据权利要求10所述的方法，其特征在于，所述时长预测是利用时长预测网络执行的，所述时长预测网络是利用多组第二训练样本训练得到的，所述第二训练样本包括不同用户的样本语音数据，且所述样本语音数据标注有实际延时时长。

12.根据权利要求1所述的方法，其特征在于，所述识别结果包括所述语音指令的最终识别文本；所述利用所述第二语义理解结果，得到所述语音指令的识别结果，包括：

在所述第二语义理解结果满足所述预设结果条件的情况下，将所述第二候选文本作为所述最终识别文本；和/或

在所述第二语义理解结果不满足所述预设结果条件的情况下，对所述第二候选文本中的候选实体进行校正，得到第三候选文本，并在所述第三候选文本的第三语义理解结果满足所述预设结果条件的情况下，将所述第三候选文本作为所述最终识别文本。

13.根据权利要求12所述的方法，其特征在于，所述对所述第二候选文本中的候选实体进行校正，得到第三候选文本，包括：

获取预设实体库中各个预设实体与所述候选实体之间的相似分值；

将所述候选实体替换为最高所述相似分值的预设实体，得到所述第三候选文本。

14.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至13任一项所述的语音识别方法。

15.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至13任一项所述的语音识别方法。