CN112382279B

CN112382279B - 语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN112382279B
Application number: CN202011333455.7A
Authority: CN
Inventors: 吴震; 周茂仁; 王知践; 崔亚峰; 吴玉芳; 瞿琴; 刘兵; 革家象
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-09-14
Anticipated expiration: 2040-11-24
Also published as: CN112382279A; JP2022024110A; JP7309818B2; US20220068267A1

Abstract

本申请公开了语音识别方法、装置、电子设备和存储介质，涉及人工智能技术领域中的深度学习技术领域和语音技术领域，其中，方法包括：响应于获取到的目标语音信息，获取与目标语音信息对应的应用的状态信息和上下文信息；根据状态信息和上下文信息，计算目标语音信息的语义完整度；确定与语义完整度对应的监测时长，并在监测时长内监测语音信息；若在监测时长内没有监测到语音信息，则根据目标语音信息进行语音识别。由此，根据多维度参数确定获取到的语音信息的语义完整度，根据语义完整度灵活调整检测语音信息的时长，避免截断语音信息，提高了语音识别的精确度。

Description

语音识别方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域中的深度学习技术领域和语音技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的发展，智能音箱、智能机器人等智能家居产品也得到发展，用户基于语音信息的输入即可控制有关产品的工作，比如，用户向智能音箱语音输入“打开音乐”，则智能音箱执行打开音乐应用的操作等。

相关技术中，为了获取完整的语音信息，对语音信息进行尾点检测，即检测获取到语音信息的暂停时长，也可以理解为静音时长，当暂停时长达到固定值后，则认为获取到了完整的语音信息，显然这种确定语音信息完整与否的方式限制性较高，可能导致语音信息的获取不完整，语音识别的精度不高。

发明内容

本申请提提供了一种用于根据多维度参数确定获取到的语音信息的语义完整度，根据语义完整度灵活调整检测语音信息的时长，避免截断语音信息，提高了语音识别的精确度的语音识别方法、装置、电子设备和存储介质。

根据第一方面，提供了一种语音识别方法，包括：响应于获取到的目标语音信息，获取与所述目标语音信息对应的应用的状态信息和上下文信息；根据所述状态信息和上下文信息，计算所述目标语音信息的语义完整度；确定与所述语义完整度对应的监测时长，并在所述监测时长内监测语音信息；若在所述监测时长内没有监测到语音信息，则根据所述目标语音信息进行语音识别。

根据第二方面，提供了一种语音识别装置，包括：获取模块，用于响应于获取到的目标语音信息，获取与所述目标语音信息对应的应用的状态信息和上下文信息；计算模块，用于根据所述状态信息和上下文信息，计算所述目标语音信息的语义完整度；监测模块，用于确定与所述语义完整度对应的监测时长，并在所述监测时长内监测语音信息；语音识别模块，用于在所述监测时长内没有监测到语音信息时，根据所述目标语音信息进行语音识别。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的语音识别方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质所述计算机指令用于使所述计算机执行上述第一方面所述的语音识别方法。

本申请提供的实施例，至少具有如下有益技术效果：

响应于获取到的目标语音信息，获取与目标语音信息对应的应用的状态信息和上下文信息，根据状态信息和上下文信息，计算目标语音信息的语义完整度，进而，确定与语义完整度对应的监测时长，并在监测时长内监测语音信息，最后，若在监测时长内没有监测到语音信息，则根据目标语音信息进行语音识别。由此，根据多维度参数确定获取到的语音信息的语义完整度，根据语义完整度灵活调整检测语音信息的时长，避免截断语音信息，提高了语音识别的精确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的语音识别方法的流程示意图；

图2是根据本申请第二实施例的语音识别场景示意图；

图3是根据本申请第三实施例的语音识别场景示意图；

图4是根据本申请第四实施例的语音识别场景示意图；

图5是根据本申请第五实施例的语音识别场景示意图；

图6是根据本申请第六实施例的语音识别方法的流程示意图；

图7是根据本申请第七实施例的语音识别方法的流程示意图；

图8是根据本申请第八实施例的语音识别场景示意图；

图9是根据本申请第九实施例的语音识别方法的流程示意图；

图10是根据本申请第十实施例的语音识别装置的结构框图；

图11是根据本申请第十一实施例的语音识别装置的结构框图；

图12是根据本申请第十二实施例的语音识别装置的结构框图；

图13是用来实现本申请实施例的语音识别的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对背景技术中提到的，现有的语音识别场景中，根据静音时长是否超过固定值，来检测语音信息的尾点，导致语音信息可能获取不完整的技术问题，本申请提出了一种根据语音信息的完整度灵活确定静音时长的技术方案。

下面结合具体的实施例说明本申请实施例的语音识别方法、装置、电子设备和存储介质，其中，本申请实施例的语音识别方法的应用主体，可以是任意具有语音识别功能的电子设备，该电子设备包括但不限于智能音箱、智能手机、智能机器人等。

图1是根据本申请一个实施例的语音识别方法的流程图，如图1所示，该方法包括：

步骤101，响应于获取到的目标语音信息，获取与目标语音信息对应的应用的状态信息和上下文信息。

在本实施例中，当检测到目标语音信息后，为了判断该目标语音信息，获取与目标语音对应的应用状态信息和上下文信息。

在本实施例中，应用状态信息包括但不限于当前运行的应用的状态信息，比如，对于智能音箱来说，应用状态信息包括音乐播放应用当前的状态信息（暂停、播放等）；上下文信息包括但不限于上一轮或多轮对有关智能设备发送的语音信息，智能设备上一次或者上多轮对语音信息的响应信息，以及基于时间确定的语音信息和响应信息的对应关系等，比如，对于智能音箱来说，上下文信息为上一个语音信息“播放吧”和上一次对语音信息的响应信息“您是否要播放这首歌”等。

在实际执行过程中，在检测到语音信息后，若是检测到该语音信息的静音时长达到一定值，则认为获取到目标语音信息，该一定值可以是时长较小的一个经验值，以保证获取的目标语音信息是用户暂时停止输入语音信息的位置对应的。

步骤102，根据状态信息和上下文信息，计算目标语音信息的语义完整度。

不难理解的是，无论是状态信息还是上下文信息，都决定了语音是否完整，比如，当目标语音信息是“播放”时，若状态信息是音乐暂停状态，则显然该目标语音信息是完整的语义表达，又比如，当上下文信息是“这首歌太难听了吧，我要换一个啊”，则目标语音信息“播放”显示是不完整的语义表达。

因此，在本实施例中，结合状态信息和上下文信息这种多维度的信息，计算目标语音信息的语义完整度。

步骤103，确定与语义完整度对应的监测时长，并在监测时长内监测语音信息。

其中，监测时长可以理解为继续监测语音信息的等待时长，也可以理解为等待用户输入后续语音信息的静音时长。参照图2，若是获取到目标语音信息“关机”，则为了避免获取到的目标语音信息不完整，继续等待300ms，这里的300ms可以理解为监测时长。

在本实施例中，语义完整度越高，则表示目标语音信息已经接近表达完毕，此时为了提高响应速度，显然监测时长必然较短，甚至为0；反之，语义完整度越低，则表示目标语音信息没有表达完毕，此时为了保证获取到的语音信息的完整性，显然监测时长必然较长，因此，确定与语义完整度对应的监测时长，并在监测时长内监测语音信息。

需要说明的是，在不同的应用场景中，确定与所述语义完整度对应的监测时长的方式不同，示例说明如下：

示例一：

在本示例中，预先设置语义完整度与监测时长的对应关系，从而，查询预设的对应关系，获取与语义完整度对应的监测时长。

示例二：

在本示例中，预先设置监测时长基准值对应的基准语义完整度，该监测时长基准值可以理解为预先设置的默认监测时长，计算当前目标语音信息与的语音完整度与基准语义完整度的语义差值，根据该差值确定监测时长调整值，其中，语义差值与监测时长调整值成反比关系，计算监测时长调整值与监测时长基准值的相加和，将该相加和作为监测时长。

步骤104，若在监测时长内没有监测到语音信息，则根据目标语音信息进行语音识别。

在本实施例中，若是在监测时长内没有监测到语音信息，则表明用户已经输入完毕，从而，根据目标语音信息进行语音识别。比如，将目标语音信息转换为文本信息，提取文本信息中的关键字，对关键字与预设的控制指令匹配，根据匹配成功的控制指令进行控制处理。

在本申请的一个实施例中，若是在监测时长内监测到语音信息，则继续将检测到的语音信息和目标语音信息作为新的目标语音信息，获取与新的目标语音信息对应的应用的状态信息和上下文信息，以继续判断新的语音信息的语义完整度等，实现流式判断。

由此，在本申请的实施例中，可以适配于目标语音信息的语义完整度，确定对应的监测时长，兼顾了语音识别效率和目标语音信息的获取完整度。举例而言，如图3所示，当目标语音信息为“我想听”时，若是直接在系统默认的300ms后认为获取完成，则基于“我想听”可能无法识别出对应的控制指令，而根据本申请实施例的语音识别方法，如图4所示，则根据目标语音信息的完整度，在300ms后继续静音1.6S，监测到语音信息“稻香”，则显然会获取完整语音信息，为用户执行播放“稻香”音乐的操作。

当然，在获取到目标语音信息“播放”后的监测时长内，若是监测到“稻香”以后，根据状态信息和上下文继续判断其“播放稻香”的语义完整度，若是完整度不高，则如图5所示，继续确定“稻香”后的监测时长，以实现流式判断。

综上，本申请实施例的语音识别方法，响应于获取到的目标语音信息，获取与目标语音信息对应的应用的状态信息和上下文信息，根据状态信息和上下文信息，计算目标语音信息的语义完整度，进而，确定与语义完整度对应的监测时长，并在监测时长内监测语音信息，最后，若在监测时长内没有监测到语音信息，则根据目标语音信息进行语音识别。由此，根据多维度参数确定获取到的语音信息的语义完整度，根据语义完整度灵活调整检测语音信息的时长，避免截断语音信息，提高了语音识别的精确度。

基于上述实施例，在不同的应用场景中，根据状态信息和上下文信息，计算目标语音信息的语义完整度的方式不同，示例说明如下：

示例一：

在本示例中，如图6所示，根据状态信息和上下文信息，计算目标语音信息的语义完整度，包括：

步骤601，确定与状态信息对应的至少一个候选状态信息，其中，每个候选状态信息是状态信息的下一个候选动作的状态信息。

容易理解的是，每个状态信息根据应用的运行逻辑，其对应的下一个候选动作的状态信息也是可以确定的，比如，当应用的状态信息为关闭时，则下一个可执行的候选动作的状态信息必然是开机，又比如，当应用的状态为“播放音乐”，则下一个可执行的候选动作的状态信息为“暂停”、“重播”、“声音调大”、“快进”等。

因此，在本实施例中，根据状态信息对应的应用的执行逻辑，确定与状态信息对应的至少一个候选状态信息，其中，每个候选状态信息是状态信息的下一个候选动作的状态信息。其中，执行逻辑可以是预先标定好的，该执行逻辑可以包括动作与动作之间的状态信息所对应的节点顺序等。

步骤602，获取每个候选状态信息可执行的至少一个第一控制指令信息，并计算目标语音信息与每个第一控制指令信息的第一语义相似度。

在本实施例中，获取每个候选状态信息可执行的至少一个第一控制指令，该第一控制指令可以通过查询预设的对应关系获取，该预设的对应关系中包含候选状态信息和第一控制指令对应关系。举例而言，当候选状态信息为“播放音乐”，则对应的第一控制指令可以包括“播放音乐”、当状态信息为“暂停”，则对应的第一控制指令可包括“暂停”、“停止”、“安静一会”等。

进一步的，计算目标语音信息与每个第一控制指令的第一语义相似度，以确定目标语音信息是否属于第一控制指令中的一种。

步骤603，确定与上下文信息对应的至少一个第二控制指令信息，并计算目标语音信息与每个第二控制指令信息的第二语义相似度。

其中，上述第二控制指令信息与上下文信息对应，当上下问信息中包含智能音箱反馈的回应消息“您要播放音乐么”，则对应的第二控制制造令为“播放”、“不”等。

在一些可能的示例中，可以预先根据大量样本数据训练学习得到深度学习模型，该深度学习模型的输入为上下文信息，输出为第二控制指令，从而，可以根据该深度学习模型得到对应的第二控制指令信息。

当然，若是仅仅根据第一语义相似度确定目标语音信息的语义完整度，显然是不可靠的，因此，在本实施例中，还确定与上下文信息对应的至少一个第二控制指令信息，并计算目标语音信息与每个第二控制指令信息的第二语义相似度。

步骤604，根据第一语义相似度和第二语义相似度计算目标语音信息的语义完整度。

在本实施例中，根据第一语义相似度和第二语义相似度计算目标语音信息的语义完整度。

在一些可能的示例中，获取第一语义相似度大于第一阈值的目标第一控制指令信息，获取第二语义相似度大于第二阈值的目标第二控制指令信息，计算目标第一控制指令信息与目标第二控制指令信息的语义相似度，以获取语义完整度，即直接将目标第一控制指令信息与目标第二控制指令信息的语义相似度，作为目标语音信息的语义完整度。

在本示例中，若没有获取到第一控制指令信息，且获取到第二控制信息，则计算第一阈值与第一语义相似度的第一差值，计算第一差值和第一阈值的第一比值，获取第二语义相似度与第一比值的第一乘积值，以获取语义完整度，即在本示例中，通过第一语义相似度的与第一阈值的差距，削弱第二语义相似度，以避免属于候选状态信息中的第一控制指令，但是并不符上下文信息的误判。

在本示例中，若没有获取到第二控制指令信息，且获取到第三控制信息，则计算第二阈值与第二语义相似度的第二差值，计算第二差值和第二阈值的第二比值，获取第一语义相似度与第二比值的第二乘积值，以获取语义完整度。即在本示例中，通过第二语义相似度的与第二阈值的差距，削弱第一语义相似度，以避免符合上下文信息，但是不属于候选状态信息中的第一控制指令的误判。

在本示例中，若没有获取到第二控制指令信息，也没有获取到第三控制信息，则计算第一语义相似度与第二语义相似度的第三差值，计算第三差值的绝对值，以获取语义完整度。此时第三差值通常是一个较低的值，表示此时目标语音信息的语义并不完整。

在本示例中，第一语义相似度和第二语义相似度均较高，则表明目标语义信息越有可能是完整语义表达，但是当第一语义相似度很高，但是第二语义相似度不高，或者，第二语义相似度很高，但是第一语义相似度不高，则表明语义表达可能不完整。因此，结合第一语义相似度和第二语义相似度共同确定语义完整度，保证了确定的可靠性。

示例二：

在本示例中，如图7所示，根据状态信息和上下文信息，计算目标语音信息的语义完整度，包括：

步骤701，获取状态信息的第一特征值。

步骤702，获取上下文信息的第二特征值。

步骤703，获取目标语音信息的第三特征值。

步骤704，将第一特征值、第二特征值和第三特征值输入预设深度学习模型，以得到语义完整度。

其中，预设深度学习模型预先学习得到第一特征值、第二特征值和第三特征值，与语义完整度的对应关系。

该预设深度学习模型包括但不限于DNN模型、LSTM模型等，在一些可能的示例中，在将第一特征值、第二特征值和第三特征值输入预设深度学习模型之前，还可以对第一特征值、第二特征值和第三特征值输入预设深度学习模型进行归一化处理，将归一化的值输入到预设深度学习模型。

当然在一些可能的示例中，还可以提取目标语音信息的本身语义完整度，本身语义完整度可以根据分析词性等得到，如图8所示，将本身语义完整度和第一特征值、第二特征值和第三特征值共同输入到对应的深度学习模型。

在本申请的一个实施例中，考虑当用户属于语速比较慢的儿童，或者是本身就有语言表达障碍的人群，或者属于对智能设备不熟悉的新用户，可能本身表达信息就比较慢。如用户是新注册用户，且为儿童，根据历史行为分析用户对设备使用不熟练，且历史行为存在较多犹豫表达，设备又没有处于被反问是否要播放或者暂停的状态，此时检测到用户中间结果说”播放”，极高概率是一个不完整表达，此时需要延长静音时间，继续等待用户说完。

因此，在本实施例中，还可以结合用户画像信息来确定语义完整度，其中，用户画像信息包括用户的年龄、用户的身份、用户注册时长等。

在本示例中，如图9所示，确定与语义完整度对应的监测时长之前，还包括：

步骤901，提取目标语音信息的声纹特征信息。

其中，提取声纹特征信息的操作可以根据现有技术实现，在此不再赘述。其中，声纹特征信息可以包括音色、音频等。

步骤902，根据声纹特征信息确定用户画像信息。

在本实施例中，预先存储用户画像信息和声纹特征信息的对应关系，根据该对应关系确定声纹特征信息对应的用户画像信息。

步骤903，判断用户画像信息是否属于预设用户画像信息。

在本实施例中，判断用户画像信息是否属于预设用户画像信息，其中，预设用户画像信息是语义表达会出现犹豫或者语速比较慢的用户等。

步骤904，若属于预设用户画像信息中的目标预设用户画像信息，则确定与目标预设用户画像信息对应的调整时长。

在本实施例中，若是属于预设用户画像信息中的目标预设用户画像信息，则确定与目标预设用户画像信息对应的调整时长。

其中，可以通过预先训练深度学习模型，或者是对应关系的方式，确定与目标预设用户画像信息对应的调整时长。

步骤905，计算监测时长与调整时长的相加和，并根据相加和更新监测时长。

在本实施例中，计算监测时长与调整时长的相加和，并根据相加和更新监测时长，其中，监测时长可以为正值也可以为负值。

在本申请的一个实施例中，若是根据目标语音信息本身的语义检测到其是一个完整的语义表达，则可能不会继续根据状态信息和上下文信息，计算目标语音信息的语义完整度，而是直接截断监测过程。

因此，在本申请的一个实施例中，在根据状态信息和上下文信息，计算目标语音信息的语义完整度之前，还包括，判断目标语音信息是否属于预设的与状态信息和上下文信息对应的完整语义信息，若是，则直接将目标语义信息作为待识别的语音信息。

综上，本申请实施例的语音识别方法，根据场景的不同，灵活采用不同的方式根据状态信息和上下文信息，计算目标语音信息的语义完整度，有助于提高语音识别的准确度。

根据本申请的实施例，本申请还提供了一种语音识别装置。图10是根据本申请一个实施例的语音识别装置的结构示意图，如图10所示，该语音识别装置包括：获取模块1010、计算模块1020、监测模块1030和语音识别模块1040，其中，

获取模块1010，用于响应于获取到的目标语音信息，获取与所述目标语音信息对应的应用的状态信息和上下文信息；

计算模块1020，用于根据所述状态信息和上下文信息，计算所述目标语音信息的语义完整度；

监测模块1030，用于确定与所述语义完整度对应的监测时长，并在所述监测时长内监测语音信息；

语音识别模块1040，用于在所述监测时长内没有监测到语音信息时，根据所述目标语音信息进行语音识别。

在本申请的一个实施例中，监测模块1030，具体用于：

查询预设的对应关系，获取与所述语义完整度对应的监测时长。

需要说明的是，前述对语音识别方法的解释说明，也适用于本申请实施例的语音识别装置，其实现原理类似，在此不再赘述。

综上，本申请实施例的语音识别装置，响应于获取到的目标语音信息，获取与目标语音信息对应的应用的状态信息和上下文信息，根据状态信息和上下文信息，计算目标语音信息的语义完整度，进而，确定与语义完整度对应的监测时长，并在监测时长内监测语音信息，最后，若在监测时长内没有监测到语音信息，则根据目标语音信息进行语音识别。由此，根据多维度参数确定获取到的语音信息的语义完整度，根据语义完整度灵活调整检测语音信息的时长，避免截断语音信息，提高了语音识别的精确度。

在本申请的一个实施例中，如图11所示，语音识别装置包括：获取模块1110、计算模块1120、监测模块1130和语音识别模块1140，其中，获取模块1110、计算模块1120、监测模块1130和语音识别模块1140与图10中的获取模块1010、计算模块1020、监测模块1030和语音识别模块1040相同，在此不再赘述，计算模块1120包括：确定单元1121、第一计算单元1122、第二计算单元1123、第三计算单元1124，其中，

确定单元1121，用于确定与状态信息对应的至少一个候选状态信息，其中，每个候选状态信息是状态信息的下一个候选动作的状态信息；

第一计算单元1122，用于获取每个候选状态信息可执行的至少一个第一控制指令信息，并计算目标语音信息与每个第一控制指令信息的第一语义相似度；

第二计算单元1123，用于确定与上下文信息对应的至少一个第二控制指令信息，并计算目标语音信息与每个第二控制指令信息的第二语义相似度；

第三计算单元1124，用于根据第一语义相似度和第二语义相似度计算目标语音信息的语义完整度。

在本实施例中，第三计算单元1124，具体用于：

获取所述第一语义相似度大于第一阈值的目标第一控制指令信息；

获取所述第二语义相似度大于第二阈值的目标第二控制指令信息；

计算所述目标第一控制指令信息与所述目标第二控制指令信息的语义相似度，以获取所述语义完整度。

在本实施例中，第三计算单元1124，具体用于：

若没有获取到所述第一控制指令信息，且获取到所述第二控制信息，则计算所述第一阈值与所述第一语义相似度的第一差值；

计算所述第一差值和所述第一阈值的第一比值；

获取所述第二语义相似度与所述第一比值的第一乘积值，以获取所述语义完整度。

在本实施例中，第三计算单元1124，具体用于：

若没有获取到所述第二控制指令信息，且获取到所述第三控制信息，则计算所述第二阈值与所述第二语义相似度的第二差值；

计算所述第二差值和所述第二阈值的第二比值；

获取所述第一语义相似度与所述第二比值的第二乘积值，以获取所述语义完整度。

在本实施例中，第三计算单元1124，具体用于：

若没有获取到所述第二控制指令信息，也没有获取到所述第三控制信息，则计算所述第一语义相似度与所述第二语义相似度的第三差值；

计算所述第三差值的绝对值，以获取所述语义完整度。

在本申请的一个实施例中，计算模块1120，具体用于：

获取所述状态信息的第一特征值；

获取所述上下文信息的第二特征值；

获取所述目标语音信息的第三特征值；

将所述第一特征值、所述第二特征值和所述第三特征值输入预设深度学习模型，以得到所述语义完整度，

其中，所述预设深度学习模型预先学习得到所述第一特征值、所述第二特征值和所述第三特征值，与所述语义完整度的对应关系。

在本申请的一个实施例中，如图12所示，语音识别装置包括：获取模块1210、计算模块1220、监测模块1230、语音识别模块1240、提取模块1250、第一确定模块1260、判断模块1270、第二确定模块1280和更新模块1290，其中，获取模块1210、计算模块1220、监测模块1230和语音识别模块1240与图10中的获取模块1010、计算模块1020、监测模块1030和语音识别模块1040相同，在此不再赘述，其中，

提取模块1250，用于提取所述目标语音信息的声纹特征信息；

第一确定模块1260，用于根据所述声纹特征信息确定用户画像信息；

判断模块1270，用于判断所述用户画像信息是否属于预设用户画像信息；

第二确定模块1280，用于若属于所述预设用户画像信息中的目标预设用户画像信息，则确定与所述目标预设用户画像信息对应的调整时长；

更新模块1290，用于计算所述监测时长与所述调整时长的相加和，并根据所述相加和更新所述监测时长。

综上，本申请实施例的语音识别装置，根据场景的不同，灵活采用不同的方式根据状态信息和上下文信息，计算目标语音信息的语义完整度，有助于提高语音识别的准确度。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图13所示，是根据本申请实施例的语音识别的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器1301、存储器1302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图13中以一个处理器1301为例。

存储器1302即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别的方法。

存储器1302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别的方法对应的程序指令/模块。处理器1301通过运行存储在存储器1302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别的方法。

存储器1302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别的电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1302可选包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至语音识别的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音识别的方法的电子设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置1303可接收输入的数字或字符信息，以及产生与语音识别的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1304可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、互联网和区块链网络。

[01]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称"VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是，结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音识别方法，包括：

响应于获取到的目标语音信息，获取与所述目标语音信息对应的应用的状态信息和上下文信息；所述状态信息包括当前运行的应用的状态信息，所述上下文信息包括上一轮或多轮对智能设备发送的语音信息，智能设备上一次或者多轮对语音信息的响应信息，以及基于时间确定的语音信息和响应信息的对应关系；

根据所述状态信息和上下文信息，计算所述目标语音信息的语义完整度；

确定与所述语义完整度对应的监测时长，并在所述监测时长内监测语音信息；

若在所述监测时长内没有监测到语音信息，则根据所述目标语音信息进行语音识别；

若在所述监测时长内监测到语音信息，则将监测到的语音信息和目标语音信息作为新的目标语音信息。

2.如权利要求1所述的方法，其中，所述根据所述状态信息和上下文信息，计算所述目标语音信息的语义完整度，包括：

确定与所述状态信息对应的至少一个候选状态信息，其中，每个所述候选状态信息是所述状态信息的下一个候选动作的状态信息；

获取每个所述候选状态信息可执行的至少一个第一控制指令信息，并计算所述目标语音信息与每个所述第一控制指令信息的第一语义相似度；

确定与所述上下文信息对应的至少一个第二控制指令信息，并计算所述目标语音信息与每个所述第二控制指令信息的第二语义相似度；

根据所述第一语义相似度和所述第二语义相似度计算所述目标语音信息的语义完整度。

3.如权利要求2所述的方法，其中，所述根据所述第一语义相似度和所述第二语义相似度计算所述目标语音信息的语义完整度，包括：

4.如权利要求3所述的方法，还包括：

若没有获取到所述第一控制指令信息，且获取到第二控制信息，则计算所述第一阈值与所述第一语义相似度的第一差值；

计算所述第一差值和所述第一阈值的第一比值；

5.如权利要求3所述的方法，还包括：

若没有获取到所述第二控制指令信息，且获取到第三控制信息，则计算所述第二阈值与所述第二语义相似度的第二差值；

计算所述第二差值和所述第二阈值的第二比值；

6.如权利要求3所述的方法，还包括：

若没有获取到所述第二控制指令信息，也没有获取到第三控制信息，则计算所述第一语义相似度与所述第二语义相似度的第三差值；

计算所述第三差值的绝对值，以获取所述语义完整度。

7.如权利要求1所述的方法，其中，所述根据所述状态信息和上下文信息，计算所述目标语音信息的语义完整度，包括：

获取所述状态信息的第一特征值；

获取所述上下文信息的第二特征值；

获取所述目标语音信息的第三特征值；

8.如权利要求1所述的方法，在所述确定与所述语义完整度对应的监测时长之前，还包括：

提取所述目标语音信息的声纹特征信息；

根据所述声纹特征信息确定用户画像信息；

判断所述用户画像信息是否属于预设用户画像信息；

若属于所述预设用户画像信息中的目标预设用户画像信息，则确定与所述目标预设用户画像信息对应的调整时长；

计算所述监测时长与所述调整时长的相加和，并根据所述相加和更新所述监测时长。

9.如权利要求1所述的方法，其中，所述确定与所述语义完整度对应的监测时长，包括：

10.一种语音识别装置，包括：

获取模块，用于响应于获取到的目标语音信息，获取与所述目标语音信息对应的应用的状态信息和上下文信息；所述状态信息包括当前运行的应用的状态信息，所述上下文信息包括上一轮或多轮对智能设备发送的语音信息，智能设备上一次或者多轮对语音信息的响应信息，以及基于时间确定的语音信息和响应信息的对应关系；

计算模块，用于根据所述状态信息和上下文信息，计算所述目标语音信息的语义完整度；

监测模块，用于确定与所述语义完整度对应的监测时长，并在所述监测时长内监测语音信息；

语音识别模块，用于若在所述监测时长内没有监测到语音信息时，根据所述目标语音信息进行语音识别；若在所述监测时长内监测到语音信息，则将监测到的语音信息和目标语音信息作为新的目标语音信息。

11.如权利要求10所述的装置，其中，所述计算模块，包括：

确定单元，用于确定与所述状态信息对应的至少一个候选状态信息，其中，每个所述候选状态信息是所述状态信息的下一个候选动作的状态信息；

第一计算单元，用于获取每个所述候选状态信息可执行的至少一个第一控制指令信息，并计算所述目标语音信息与每个所述第一控制指令信息的第一语义相似度；

第二计算单元，用于确定与所述上下文信息对应的至少一个第二控制指令信息，并计算所述目标语音信息与每个所述第二控制指令信息的第二语义相似度；

第三计算单元，用于根据所述第一语义相似度和所述第二语义相似度计算所述目标语音信息的语义完整度。

12.如权利要求11所述的装置，其中，所述第三计算单元，具体用于：

13.如权利要求11所述的装置，其中，所述第三计算单元，还用于：

若没有获取到所述第一控制指令信息，且获取到所述第二控制信息，则计算第一阈值与所述第一语义相似度的第一差值；

计算所述第一差值和所述第一阈值的第一比值；

14.如权利要求11所述的装置，其中，所述第三计算单元，还用于：

在没有获取到所述第二控制指令信息，且获取到第三控制信息时，计算第二阈值与所述第二语义相似度的第二差值；

计算所述第二差值和所述第二阈值的第二比值；

15.如权利要求11所述的装置，其中，所述第三计算单元，还用于：

计算所述第三差值的绝对值，以获取所述语义完整度。

16.如权利要求10所述的装置，其中，所述计算模块，具体用于：

获取所述状态信息的第一特征值；

获取所述上下文信息的第二特征值；

获取所述目标语音信息的第三特征值；

17.如权利要求10所述的装置，还包括：

提取模块，用于提取所述目标语音信息的声纹特征信息；

第一确定模块，用于根据所述声纹特征信息确定用户画像信息；

判断模块，用于判断所述用户画像信息是否属于预设用户画像信息；

第二确定模块，用于若属于所述预设用户画像信息中的目标预设用户画像信息，则确定与所述目标预设用户画像信息对应的调整时长；

更新模块，用于计算所述监测时长与所述调整时长的相加和，并根据所述相加和更新所述监测时长。

18.如权利要求10所述的装置，所述监测模块，具体用于：

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的语音识别方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的语音识别方法。