CN110534109B

CN110534109B - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN110534109B
Application number: CN201910912948.7A
Authority: CN
Inventors: 袁小薇; 刘杰; 刘云峰; 吴悦; 汶林丁
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-12-14
Anticipated expiration: 2039-09-25
Also published as: CN110534109A

Abstract

本申请实施例公开了一种语音识别方法、装置、电子设备及存储介质。该方法包括：在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音；在无法持续检测到有效语音时，获取本次无法持续检测到有效语音的持续时间；判断持续时间是否超过预设检测时间；若持续时间超过预设检测时间，获取用户图像；判断用户图像中是否存在预设动作；若用户图像中不存在预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。本申请实施例通过在超时无有效语音时，通过判断是否存在预设动作，可准确结束采集，避免在用户结束本次语音输入时提前结束采集，改善用户的交互体验，并且有利于提高语音识别的准确性。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及人机交互技术领域，更具体地，涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

语音采集是语音识别系统的基本功能和必要步骤之一，语音数据采集的处理时间在很大程度上决定语音识别系统的响应时间。在用户说完语音内容之后尽早结束语音数据采集，并进入到语音识别阶段，将会明显提升语音识别系统的响应速度。但是，目前语音识别对语音采集的效果不佳。

发明内容

鉴于上述问题，本申请实施例提供一种语音识别方法、装置、电子设备及存储介质，可以准确结束采集，改善交互体验。

第一方面，本申请实施例提供了一种语音识别方法，该语音识别方法可包括：在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音；在无法持续检测到有效语音时，获取本次无法持续检测到有效语音的持续时间；判断所述持续时间是否超过预设检测时间；若所述持续时间超过预设检测时间，获取用户图像；判断所述用户图像中是否存在预设动作；若所述用户图像中不存在预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

可选地，所述判断本次持续时间是否超过预设检测时间之后，所述方法还包括：若所述持续时间未超过预设检测时间，则判断本次语音采集时间是否超过预设采集时间；若所述本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果；判断所述预先识别结果是否正确；根据判断结果，获得本次识别结果。

可选地，所述判断所述预先识别结果是否正确，包括:对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；或者基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

可选地，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；若存在，则基于所述指令获取所述预先识别结果的目标关键词；确定所述目标关键词在所述预先识别结果中的目标位置；基于所述目标位置，获取所述目标关键词的上下文信息；对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

可选地，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果预测识别结果。

可选地，所述根据判断结果，获得本次识别结果，包括：若判断正确，则结束本次语音采集，将正确的识别结果作为本次识别结果；若判断错误，则继续本次语音采集，并返回执行在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音以及后续操作。

可选地，所述在语音采集过程中，检测有效语音之前，所述方法还包括：获取用户输入的触发指令，启动语音采集；基于所述触发指令，确定目标声源；将所述目标声源的语音信号作为本次语音采集的有效语音。

可选地，所述触发指令为语音触发指令，所述在语音采集过程中，检测有效语音之前，所述方法还包括：获取用户输入的触发指令，启动语音采集；基于所述触发指令，确定目标声源及所述目标声源的声源方向；对所述声源方向的语音信号进行语音增强，获得增强过的语音信号；从增强过的语音信号中确定所述目标声源的语音信号；将所述目标声源的语音信号作为本次语音采集的有效语音。

第二方面，本申请实施例提供了一种语音识别装置，该语音识别装置可包括：语音检测模块，用于在语音采集过程中，检测有效语音；时间获取模块，用于在无法检测到有效语音时，获取本次无法检测到有效语音的持续时间；时间判断模块，用于判断所述持续时间是否超过预设检测时间；图像获取模块，用于若所述持续时间超过预设检测时间，获取用户图像；动作判断模块，用于判断所述用户图像中是否存在预设动作；语音识别模块，用于若所述用户图像中不存在预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

可选地，所述语音识别装置还包括：采集判断模块、预先识别模块、识别判断模块以及结果获取模块，其中：采集判断模块，用于若所述持续时间未超过预设检测时间，则判断本次语音采集时间是否超过预设采集时间；预先识别模块，用于若所述本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果；识别判断模块，用于判断所述预先识别结果是否正确；结果获取模块，用于根据判断结果，获得本次识别结果。

可选地，所述识别判断模块包括：预先显示单元、预先确认单元、预测识别单元、预测显示单元以及预测确认单元，其中：预先显示单元，用于对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；预先确认单元，用于根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；预测识别单元，用于基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；预测显示单元，用于对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；预测确认单元，用于根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

可选地，所述预测识别单元包括：指令匹配子单元、目标获取子单元、位置确定子单元、信息获取子单元、预测识别子单元以及预测网络子单元，其中：指令匹配子单元，用于基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；目标获取子单元，用于若存在，则基于所述指令获取所述预先识别结果的目标关键词；位置确定子单元，用于确定所述目标关键词在所述预先识别结果中的目标位置；信息获取子单元，用于基于所述目标位置，获取所述目标关键词的上下文信息；预测识别子单元，用于对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

可选地，所述预测识别单元还包括：预测网络子单元，用于将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果获得所述预先识别结果对应的预测识别结果。

可选地，所述结果获取模块包括：判断正确单元以及判断错误单元，其中：判断正确单元，用于若判断正确，则结束本次语音采集，将正确的识别结果作为本次识别结果；判断错误单元，用于若判断错误，则继续本次语音采集，并返回执行在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音以及后续操作。

可选地，所述语音识别装置还包括：第一采集触发模块、第一声源确定模块、第一语音确定模块、第二采集触发模块、第二声源确定模块、目标声源增强模块、目标信号获取模块以及第二语音确定模块，其中：第一采集触发模块，用于获取用户输入的触发指令，启动语音采集；第一声源确定模块，用于基于所述触发指令，确定目标声源；第一语音确定模块，用于将所述目标声源的语音信号作为本次语音采集的有效语音。

可选地，所述触发指令为语音触发指令，所述语音识别装置还包括：第二采集触发模块，用于获取用户输入的触发指令，启动语音采集，其中，触发指令为语音触发指令；第二声源确定模块，用于基于所述触发指令，确定目标声源及所述目标声源的声源方向；目标声源增强模块，用于对所述声源方向的语音信号进行语音增强，获得增强过的语音信号；目标信号获取模块，用于从增强过的语音信号中确定所述目标声源的语音信号；第二语音确定模块，用于将所述目标声源的语音信号作为本次语音采集的有效语音。

第三方面，本申请实施例提供了一种电子设备，该电子设备可包括：存储器；一个或多个处理器，与存储器连接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如上述第一方面所述的方法。

在本申请实施例中，通过在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音，然后在无法持续检测到有效语音时，获取本次无法持续检测到有效语音的持续时间，并判断持续时间是否超过预设检测时间，若持续时间超过预设检测时间，获取用户图像；判断用户图像中是否存在预设动作；若用户图像中不存在预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。由此，本申请实施例通过检测有效语音，并在超时无法检测到有效语音时，判断是否存在预设动作，并在不存在预设动作时才结束本次语音采集，从而可准确结束采集，避免因用户思考等而提前结束采集，降低甚至消除用户输入过程的局促感，同时因为准确的结束采集还可提高语音识别的准确性，改善交互体验。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请一个实施例提供的语音识别方法的方法流程图；

图3示出了本申请另一个实施例提供的语音识别方法的方法流程图；

图4示出了本申请实施例提供的一种判断预先识别结果是否准确的方法流程图；

图5示出了本申请实施例提供的另一种判断预先识别结果是否准确的方法流程图；

图6示出了本申请另一个实施例提供的步骤S20931至步骤S20935的方法流程图；

图7示出了本申请实施例提供的一种确定有效语音的方法流程图；

图8示出了本申请实施例提供的另一种确定有效语音的方法流程图；

图9示出了本申请一个实施例提供的语音识别装置的模块框图；

图10示出了本申请实施例用于执行根据本申请实施例的语音识别方法的电子设备的模块框图；

图11示出了本申请实施例用于执行根据本申请实施例的语音识别方法的计算机可读存储介质的模块框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处描述的具体实施例仅用于解释本申请，并不用于限定本申请。

近年来，随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用，人工智能的发展也进入了一个崭新的阶段。而智能语音技术作为人工智能产业链上的关键一环，AI(Artificial Intelligence，人工智能)应用最成熟的技术之一，在营销客服、智能家居、智能车载、智能穿戴等领域都有着迅猛发展。例如，在智能家居领域，已涌现出越来越多成熟的技术，可使得用户通过语音控制家居设备。

目前，在语音技术领域存在的难题不仅在于语音识别，还在于前期的语音采集，不合理的语音采集也将影响语音识别的准确性，给用户带来较差的体验。其中，发明人发现目前在语音采集时，现有技术往往是以一个固定的时间段是否有语音输入作为结束语音采集的判断条件，但如果这个时间段设置过短，那么容易出现用户话没说完就结束采集的情况。例如，在语音输入过程中，用户可能因为中途需要思考、组织语言或其他原因导致语音信号产生较长时间的中断，但实际上用户仍未说出完整的语音，仍旧过早结束采集，给用户带来不好的体验，也因为无法获取完整的语音，将对后续语音识别的准确性产生影响。

基于上述分析，发明人发现目前语音采集无法准确结束采集，导致过早地结束采集，用户体验不佳。为此，发明人研究了目前语音采集和识别的困难点，更是综合考虑实际场景的使用需求，提出了本申请实施例的语音识别方法、装置、电子设备及存储介质。

为便于更好的理解本申请实施例提供的语音识别方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的语音识别方法可以应用于如图1所示的交互系统100。交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能音箱、智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音等。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，终端设备可基于客户端应用程序的虚拟机器人与用户进行多态交互，用于向用户提供客户服务。具体地，客户端应用程序可以对用户输入的语音进行采集，对采集到的语音进行语音识别，并基于虚拟机器人对该用户输入的语音作出应答。并且，虚拟机器人作出的应答包括语音输出和行为输出，其中，行为输出为输出基于语音输出驱动的行为，并且行为与语音对齐。行为包括与所输出语音对齐的表情、姿态等。从而让用户可以在人机交互界面上直观看到具有虚拟形象的虚拟机器人在“说话”，使用户与虚拟机器人之间能够进行“面对面”的沟通交流。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形象建立的形似真人的机器人，也可以是基于动漫形象的机器人，例如动物形态或卡通人物形态的机器人，在此不作限定。

在另一些实施方式中，终端设备也可仅通过语音与用户进行交互。即根据用户输入通过语音作出应答。

进一步地，在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时交互系统100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的语音识别方法、装置、电子设备及存储介质进行详细说明。

请参阅图2，本申请一个实施例提供了一种语音识别方法，可应用于上述终端设备。具体地，该方法包括步骤S101至步骤S105：

步骤S101：在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音。

其中，有效语音可以是语音信号的能量值超过预设能量值的语音信号，即在某一时刻无法检测到超过预设能量值的语音信号时，判定该时刻无法检测到有效语音。

进一步地，若无法检测到有效语音的持续时间长于预设时间，则确定无法持续检测到有效语音，其中预设时间较短一般可设置为0.2s、0.4s等。由于用户在说一句话时，字与字之间的时间间隔较短(一般小于预设时间)，因此通过判断是否能够持续检测到有效语音，可判断用户是否说完一句话。即若无法持续检测到有效语音，则可判定用户已说完一句话。需要说明的是，本实施例中一句话可指在文本上由标点符号相隔得到的最短句，如“小一，帮我看下今天的天气。”中，包括两句话。

进一步地，在一些实施方式中，有效语音还可以是指定用户的语音信号，例如根据用户的声纹确定的语音信号，将与该声纹匹配的语音信号作为有效语音。具体地可见后述实施例的描述，在此不再赘述。

步骤S102：在无法持续检测到有效语音时，获取本次无法持续检测到有效语音的持续时间。

在无法持续检测到有效语音时，获取本次无法持续检测到有效语音的持续时间。该持续时间从无法持续检测到有效语音的起始时刻开始累计，通过获取无法检测到有效语音的持续时间长于预设时间的第一时刻，将该第一时刻减预设时间可得到第二时刻，将该第二时刻作为无法持续检测到有效语音的持续时间的起始时刻，即持续时间从该第二时刻开始累计。

步骤S103：判断持续时间是否超过预设检测时间。

其中，持续时间为本次无法持续检测到有效语音的持续时间，判断持续时间是否超过预设检测时间。预设检测时间可以系统预设，也可用户自定义，具体地，预设检测时间可设置为0.5s、1s、1.3s、2s等，在此不作限定，可具体根据用户实际使用情况进行设定。可以理解的是，预设检测时间设置地越短，响应时间越快，预设检测时间设置地越长，响应时间越慢。

作为一种实施方式，预设检测时间长于预设时间，预设时间用于判断用户是否处于一句话中字与字之间的间隔。即判断用户是否说完一句话，而预设检测时间用于判断用户说完一句话之后是否还有下一句话，从而通过判断持续时间是否超过预设检测时间，来作为是否结束本次语音采集的第一重判断。

步骤S104：若持续时间超过预设检测时间，获取用户图像。

若持续时间超过预设检测时间，则获取用户图像。具体地，在持续时间超过预设检测时间时，启动图像采集装置，获取用户图像。由于用户在不说话时，可能是在思考、组织语言等，而不是要结束本次语音输入，所以通过判断持续时间是否超过预设检测时间，获取用户图像，可在用户超时不说话时，通过图像识别辅助判断是否结束本次语音采集，提高语音采集准确度，避免草草结束语音采集，而截断了用户的完整语音输入，则难以获取一个轮次下用户所需输入的完整的语音命令，也就无法对用户输入的语音信号作出准确的响应。

步骤S105：判断用户图像中是否存在预设动作。

获取用户图像后，对用户图像进行动作识别，判断用户图像中是否存在预设动作。具体地，用户图像可以是一组图像序列，即可对一组图像序列进行动作识别，判断是否存在一个图像存在预设动作。其中，预设动作可以包括用户摸下巴、手放置于头上等，在此不作限定。

在一种实施方式中，预设动作可由用户自定义，即在使用前预先存储至少一个预设动作，预设动作用于表征用户当前还未结束本次语音输入，例如可能在思考。

进一步地，在一些实施方式中，预设动作还可通过用户习惯学习，存储用户在话与话之间停顿时的多个图像，该话与话之间的停顿时间不超过预设检测时间。基于该多个图像，提取动作特征作为预设动作，从而可学习用户常用的思考动作，并无需用户自行设置，即可在检测到该思考动作时，判定用户图像中存在预设动作，降低预设动作的设置复杂度，降低使用成本，并且无需用户刻意动作，只需按照自身习惯，即可在思考时指示终端设备暂不结束采集，从而避免过早结束采集，实现准确的语音采集。

步骤S106：若用户图像中不存在预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

若用户图像中不存在预设动作，则结束本次语音采集，获取本次采集的语音信号，对该语音信号进行识别，得到本次识别结果。具体地，结束本次语音采集后，将本次采集的语音信号输入至语音识别模型，可得到对该语音信号识别后的本次识别结果，从而及时结束语音采集，并进行语音识别。

进一步地，在一些实施方式中，得到本次识别结果后，可从本次识别结果中提取控制指令，以根据控制指令执行对应的操作，例如，本次识别结果为“今天天气好好啊，帮我开个窗帘吧”，从中可提取出对应“打开窗帘”的控制指令，并向预先设置的智能窗帘发送该控制指令，以控制智能窗帘打开。

在另一些实施方式中，得到本次识别结果后，还可针对本次识别结果进行回复。具体地，作为一种方式，可预先设置和存储一个问答模型，通过将本次识别结果输入问答模型，可得到本次识别结果对应的答复信息，其中问答模型可以是网上下载的模型，也可以是基于用户数据自行训练的，在此不做限定。作为另一种方式，还可构建一个问答数据库，基于本次识别结果在问答数据库中进行匹配，从而得到本次识别结果对应的答复信息。例如，本次识别结果为“今天出门遇到了好久没见的高中同学，可我差点没认出来”，进而获取本次识别结果对应的答复信息，如“哎哟，那这是变帅了，还是变油腻了呀”，并基于语音合成得到该答复信息对应的答复语音，从而可输出该答复语音以对用户进行回答，实现人机交互。

进一步地，在一些实施方式中，终端设备包括显示屏，显示有一个虚拟机器人，基于该虚拟机器人与用户进行交互，获取答复信息，并合成该答复信息对应的答复语音后，可基于该答复语音生成驱动该虚拟机器人的行为参数，以驱动该虚拟机器人将该答复语音“说”出来，实现更自然的人机交互。其中行为参数包括表情，还可包括姿态，通过行为参数，可驱动虚拟机器人的表情或姿态与答复语音对应，如虚拟机器人的嘴型和输出的语音匹配，使虚拟机器人可说话自然，提供更自然的交互体验。

本实施例提供的语音识别方法，通过检测有效语音，并在超时无法检测到有效语音时，判断是否存在预设动作，并在不存在预设动作时才结束本次语音采集，从而可准确结束采集，避免因用户思考等而提前结束采集，降低甚至消除用户输入过程的局促感，同时因为准确的结束采集还可提高语音识别的准确性，并且预设动作可按用户个人思考习惯或说话习惯来自定义，使得用户无需刻意动作，而只需保持原来的个人习惯，就可让设备识别出并等待用户而不因用户思考而过早结束采集，为用户带来更轻松自然的交互体验。

请参阅图3，本申请一个实施例提供了一种语音识别方法，可应用于上述终端设备。具体地，该方法包括步骤S201至步骤S210：

步骤S201：在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音。

步骤S202：在无法持续检测到有效语音时，获取本次无法持续检测到有效语音的持续时间。

步骤S203：判断持续时间是否超过预设检测时间。

于本实施例中，步骤S201至步骤S203的具体描述可参考前述实施例中的步骤S101至步骤S103，在此不再赘述。

于本实施例中，判断持续时间是否超过预设检测时间后，还可以包括：

若持续时间超过预设检测时间，可执行步骤S204；

若持续时间未超过预设检测时间，可执行步骤S207及后续步骤。

步骤S204：获取用户图像。

步骤S205：判断用户图像中是否存在预设动作。

于本实施例中，步骤S204至步骤S205的具体描述可参考前述实施例中的步骤S104至步骤S105，在此不再赘述。

于本实施例中，判断用户图像中是否存在预设动作后，还可以包括：

若用户图像中不存在预设动作，可执行步骤S206；

作为一种实施方式，若用户图像中存在预设动作，可执行步骤S207及后续步骤；

作为另一种实施方式，若用户图像中存在预设动作，可继续采集语音信号直至无法检测到有效语音且用户图像不存在预设动作时，以接收完整的用户输入的语音。

步骤S206：结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

步骤S207：判断本次语音采集时间是否超过预设采集时间。

需要说明的是，每结束一次语音采集，则将本次语音采集时间置零，以在检测到有效语音时，开始累计下次语音采集的时间。因此本次语音采集时间从本次检测到有效语音的时刻开始累计，并在累计过程中与预设采集时间进行比较，即判断本次语音采集时间是否超过预设采集时间。

作为一种实施方式，若持续时间未超过预设检测时间，可判断本次语音采集时间是否超过预设采集时间。从而在超时无法持续检测到有效语音时，通过判断是否存在预设动作，来判断是否结束采集，避免过早结束采集的同时，又通过设置预设采集时间，监控语音采集时间，以避免语音采集时间过长，造成过多不必要的功耗和计算资源的消耗。

其中，预先采集时间可以是系统预设的，也可以是用户自定义的。具体地，预设采集时间用于监控本次语音采集时间是否过长。例如预设采集时间设置为3s、5s、10s等，在此不作限定。可以理解的是，预设采集时间越长，监控的细粒度越低，预设采集时间越长，监控的细粒度越高。

在一些实施方式中，预设采集时间可以大于或等于预设检测时间，可在超时无法持续检测到有效语音时，通过判断是否存在预设动作，来判断是否结束采集来避免过早结束采集的同时，避免语音采集时间过长，提高采集效率。

在另一些可能的实施方式中，预设采集时间还可以小于预设检测时间，具体地，在启动语音采集后即开启时间窗口，累计本次语音采集时间，并在本次语音采集时间达到预设采集时间时，可触发中断信号，以无论程序执行到哪个步骤，均跳转到执行步骤S207及后续操作。例如，在一些场景下，用户所要输入的语音仅有1s，而预设检测时间为1s，此时预设采集时间可设置为0.5s，已在用户输入结束后(1s后)，已超过预设采集时间(0.5s)，此时则可开始对1s内采集到的语音信号进行预先识别，而无需再耗费1s的时间获取无法持续检测到有效语音的持续时间及是否存在预设动作的判断，从而加快响应，提高语音采集效率，具体如何预先识别可见后述步骤。

作为另一种实施方式，在判断用户图像中是否存在预设动作后，若用户图像中存在预设动作，也可判断本次语音采集时间是否超过预设采集时间，从而在通过预设动作识别判断用户是否仍未结束输入，以避免打断用户、过早结束采集的同时，又通过将本次语音采集时间与预设采集时间进行比较，监控语音采集时间，以避免语音采集时间过长，造成过多不必要的功耗和计算资源的消耗。步骤S208：若本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果。

从本次检测到有效语音的时刻开始，即可开启一个时间窗口对本次语音采集时间进行累计，并在本次语音采集时间超过预设采集时间时，对当前以采集的语音信号进行预先识别，以得到预先识别结果。从而在采集时间过长时，先对已采集的语音进行识别，以便提前判断是否已准确接收并理解用户输入的语音。

具体地，在一种实施方式中，若本次语音采集时间超过预设采集时间，将从本次检测到有效语音的时刻开始、直到判定本次语音采集时间超过预设采集时间的时刻为止采集得到的语音信号，作为当前已采集的语音信号，并对该语音信号进行识别，同时此时仍在采集持续输入的语音信号，从而实现在采集时间过长时的预先识别。

步骤S209：判断预先识别结果是否正确。

作为一种实施方式，得到预先识别结果后，可基于语言模型判断预先识别结果的语句合理性，进而判断预先识别结果是否正确。并进一步地，在一些实施方式中，还可基于语言模型对预先识别结果进行修正，以将修正后的预先识别结果作为新的预先识别结果，进行后续操作，进一步提高识别准确率。其中，语言模型可以采用N-Gram模型，也可以采用其他语言模型，在此不作限定。

作为另一种实施方式，可直接先显示预先识别结果，以向用户确认。具体地，本实施例提供了一种判断预先识别结果是否准确的方法，如图4所示，该方法包括：步骤S2091至步骤S2092。

步骤S2091：对预先识别结果进行显示，以使用户确认预先识别结果是否正确。

得到预先识别结果后，生成显示页面，对预先识别结果进行显示，以使用户确认预先识别结果是否确认。由于此时仍在语音采集过程中，故通过在显示界面显示预先识别结果，可在不打断用户继续输入语音信号的同时，使用户确认是否识别正确，一方面保证语音采集的流畅性，以便提高语音采集效率，另一方面也提高了用户交互体验。

步骤S2092：根据获取到的用户针对预先识别结果的确认指令，判断预先识别结果是否正确。

其中，确认指令包括确认正确指令和确认错误指令，确认正确指令对应预先识别结果正确，确认错误指令对应预先识别结果错误。

在一些实施方式中，用户可通过确认操作触发确认指令，使终端设备获取用户针对预先识别结果的确认指令。其中，确认操作可包括触控确认操作、图像确认操作、语音确认操作等，在此不作限定。

其中，触控确认操作可以是基于设置有触摸屏等触控区域的终端设备，在显示页面中可显示有两个控件，分别对应确认正确指令和确认错误指令，通过触压控件可触发对应的确认指令；触控确认操作也可以是通过分别检测两个触摸按键是否被触发，来获取确认指令，其中，一个触摸按键对应一个确认指令；触控确认操作还可以是通过滑动触控开触发确认指令，例如左滑对应确认正确指令，右滑对应确认错误指令，使得用户在无需触碰任何具体位置，只需在触摸屏幕上任意位置执行左滑或右滑即可，简化用户操作，提高确认便利性。

其中，图像确认操作可以是基于采集的图像判断是否存在预设动作、来触发确认指令，其中预设动作可以是点头、ok手势等，不作限定。从而无需用户触碰终端设备即可触发确认指令，提高操作便利性。

其中，语音确认操作可包括检测预设确认词，来获取确认指令。预设确认词可以包括对应确认正确指令的“嗯”、“没错”、“对啦”、“可以”等，还包括对应确认错误指令的“错啦”、“不对”、“再来”等，在此不做限定。从而通过检测预设确认词，可获取预设确认词对应的确认指令，由于无需图像采集，也无需触碰设备，语音确认操作使得用户可不必作出动作即可触发确认指令，大大提高操作便利性，优化交互体验。

进一步地，在一些实施方式中，还可设置预设确认时间，以在用户未作确认操作触发确认指令时，自动生成确认指令以用于判断预先识别结果是否正确，提高系统可用性。

具体地，在一种实施方式中，若超过预设确认时间，未接收到确认指令，可生成确认正确指令。由此，使得用户在确认识别正确时，无需任何操作可使得终端设备在超过预设确认时间时，自动进行后续操作，从而简化用户交互操作。

在另一种实施方式中，若超过预设确认时间，未接收到确认指令，可生成确认错误指令，以在用户不操作时，仍继续采集语音信号。从而在用户确认识别错误时，无需作任何操作，简化用户操作。并且在用户确认识别正确时，还可通过确认操作，直接触发确认指令，加快响应。如此在简化用户操作、不打扰用户继续输入语音的基础上，还可加快响应，大大提高交互体验，和交互流畅性。

在另一些实施方式中，也可仅设置预设确认时间，不设置确认操作，进一步简化用户操作，同时由于无需存储大量确认操作，及进行确认操作识别，还可降低存储压力和减少计算资源的消耗，优化处理效率，进一步提高系统可用性。

另外，作为又一种实施方式，判断预先识别结果是否正确，可基于预先识别结果获得预测识别结果，以预测用户所想表达的内容，并通过显示可向用户确认是否预测正确，以在预测正确时结束采集。从而不仅确保了对用户输入的正确理解，而且在用户思路不够明确表达不够简洁清晰时可通过预测帮助用户，一方面大大优化了人机交互体验，另一方面也在保证准确结束采集和识别的基础上，降低了语音采集时间，进一步提高系统可用性。具体地，本实施例提供了另一种判断预先识别结果是否准确的方法，如图5所示，该方法包括：步骤S2093至步骤S2095。

步骤S2093：基于预先识别结果，获取预先识别结果对应的预测识别结果。

在一些实施方式中，可基于预先识别结果，通过与预设指令进行匹配，得到预测识别结果。具体地，如图6所示，步骤S2093可包括：步骤S20931至步骤S20935。

步骤S20931：基于预先识别结果，在预设指令库中查找是否存在与预先识别结果匹配的指令。

其中，预设指令库包括至少一个指令，指令基于不同的场景有所不同，在此不做限定。例如家居场景下，指令可包括“打开窗帘”、“打开电视”、“关灯”、“打开音乐”等，再如银行场景下，指令可包括“办理信用卡”、“银行开户”等。

基于预先识别结果，在预设指令库中查找是否存在与预先识别结果匹配的指令。例如，预先识别结果为“今天天气真好，咱们开个窗帘吧”，则基于该预先识别结果，可在预设指令库中，查找到与之匹配的指令“打开窗帘”。

再如，预先识别结果为“你好，我想办张信用卡，请问办理信用卡是不是要房产证？我没有房产证”，可在预设指令库中，查找到与之匹配的指令“办理信用卡”。

步骤S20932：若存在，则基于指令获取预先识别结果的目标关键词。

若在预设指令库中可查找到与预先识别结果匹配的指令，可基于该指令获取预先识别结果的目标关键词。例如，存在与预先识别结果匹配指令为“办理信用卡”，则可基于指令“办理信用卡”确定一个或多个目标关键词，如“办理信用卡”、“办理”和“信用卡”中的至少一个。

在一些实施方式中，还可进一步通过匹配度来给多个目标关键词排序，以优先基于匹配度最高的目标关键词进行后续操作。由此不仅可提高预测效率，还可保证较高的预测准确度。例如，基于指令“办理信用卡”可确定出三个目标关键词，分别为“办理信用卡”、“办理”、“信用卡”，三者分别结合指令“办理信用卡”计算匹配度，并根据匹配度排序后，由高至低依次为“办理信用卡”、“信用卡”、“办理”，进而可优先基于匹配度最高的“办理信用卡”进行后续操作。

步骤S20933：确定目标关键词在预先识别结果中的目标位置。

基于目标关键词和预先识别结果，确定目标关键词在预先识别结果中的目标位置。

步骤S20934：基于目标位置，获取目标关键词的上下文信息。

步骤S20935：对上下文信息进行识别，以得到预先识别结果对应的预测识别结果。

基于目标位置，获取目标关键词的上下文信息，并对上下文信息进行识别，以得到预先识别结果对应的预测识别结果。从而在本次采集时间超过预设采集时间，即采集超时时，不仅预先识别，还在预先识别的基础上作预测，提高语音采集效率，也有利于提高用户体验，使得用户不必事无巨细说明，也可准确接收用户所需表达的信息。

例如，预先识别结果为“你好，我想办张信用卡，请问办理信用卡是不是要房产证？我没有房产证”，在预设指令库中查找到与预先识别结果匹配的指令“办理信用卡”，并确定目标关键词包括“办理信用卡”，基于目标关键词确定其在预先识别结果中的目标位置后，获取目标关键词“办理信用卡”的上下文信息。识别上下文信息包括“想办张信用卡”、“是不是要房产证”、“没有房产证”，可得到预先识别结果对应的预测识别结果，具体如“没有房产证办理信用卡，还可用什么资料替代”。由此，在用户未结束语音输入时，可预先识别已采集的语音信号，并在预先识别的基础上预测用户所需表达的完整内容，一方面避免语音采集时间过长，提高语音采集效率，一方面也可帮助用户整理思路，帮用户多想一步甚至几步，提高用户体验。

另外，在另一些实施方式中，也可通过一个预先训练好的预测神经网络模型，以根据预先识别结果获得所述预先识别结果对应的预测识别结果。由于该预测神经网络模型可学习用户习惯或通过网络上大量数据集进行训练，因而可提高基于预先识别结果进行预测的细粒度和准确性，进一步提高语音采集和识别效率，提高系统可用性。具体地，将预先识别结果输入预测神经网络模型，得到预先识别结果对应的预测识别结果。其中，预测神经网络模型被预先训练，用于根据预先识别结果获得预先识别结果对应的预测识别结果。

在一些实施方式中，预测神经网络模型可以基于循环神经网络(RecurrentNeural Networks，RNN)构建得到，进一步地，还可以基于长短时记忆(Long Short TermMemory，LSTM)网络、门控循环单元(Gated Recurrent Unit，GRU)构建得到。循环神经网络可很好地处理时间序列的数据，因而基于循环神经网络构建的预测神经网络模型，可基于过去的信息预测未来的信息。

进一步地，预测神经网络模型可通过下述方式训练得到：获取待训练样本集，待训练样本集包括多个样本整句，以及将每个样本整句进行拆分后得到的至少一个样本分句，将样本整句与样本分句对应存储得到待训练样本集。具体地，以一个样本整句为例进行说明，例如，一个样本整句“我想办张信用卡，请问办理信用卡是不是要房产证？我没有房产证，怎么办信用卡？是不是还可以用其他什么资料作替代呀”，可拆分得到多个样本分句如“没有房产证，怎么办信用卡”、“办理信用卡是不是要房产证”、“怎么办信用卡？是不是还可以用其他什么资料替代呀”等，将每个样本分句与该样本整句对应存储。进一步地，还可基于关键词“办理信用卡”、“房产证”，增加多个“房产证”以外办理信用卡所需的资料，如“身份证”等，以丰富待训练样本集。

进一步地，将样本分句作为预测神经网络模型的输入，将样本分句对应的样本整句作为预测神经网络模型的期望输出，基于机器学习算法训练预测神经网络模型，得到预先训练号的预测神经网络模型，用于基于预先识别结果得到预测识别结果。其中，机器学习算法可采用自适应时刻估计方法(Adaptive Moment Estimation，ADAM)，还可以采用其他方法，在此不作限定。

步骤S2094：对预测识别结果进行显示，以使用户确认预测识别结果是否正确。

得到预测识别结果后，可在屏幕上显示该预测识别结果，以使用户确认预测识别结果是否正确。由于用户此时可能仍在输入语音信号，因而通过显示来进行确认，可在不打断用户继续输入语音信号的同时，使用户确认是否识别正确，一方面保证语音采集的流畅性，以便提高语音采集效率，另一方面也提高了用户交互体验。

步骤S2095：根据获取到的用户针对预测识别结果的确认指令，判断预先识别结果是否正确。

本实施例中，步骤S2095与步骤S2092大致相同，不同之处在于步骤S2095中是对预测识别结果进行显示后，获取用户针对预测识别结果的确认指令，而步骤S2092是对预先识别结果进行显示后，获取用户针对预先识别结果的确认指令，故步骤S2095的具体描述可参考步骤S2092，在此不再赘述。

其中，在一些实施方式中，若预测识别结果正确，可判断预先识别结果正确，若预测识别结果错误，也可判断预先识别结果错误。

于本实施例中，判断预先识别结果是否正确后，还可以包括：

若判断正确，可执行步骤S210；

若判断错误，可继续本次语音采集，并返回执行步骤S201，即执行在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音及后续操作。

步骤S210：结束本次语音采集，将正确的识别结果作为本次识别结果。

若判断正确，可结束本次语音采集，将正确的识别结果作为本次识别结果。具体地，作为一种实施方式，若确认指令是对预先识别结果进行显示后获取的，将预先识别结果作为正确的识别结果，即将预先识别结果作为本次识别结果。

作为另一种实施方式，若确认指令是对预先识别结果进行显示后获取的，将预测识别结果作为正确的识别结果，即将预测识别结果作为本次识别结果。

需要说明的是，本实施例中未详细描述的部分，可参考前述实施例，在此不再赘述。

本实施例提供的语音识别方法，通过有效语音的检测以及在超时无法检测到有效语音时，通过预设动作匹配来判断是否结束采集，可实现准确结束采集，避免因用户思考等而提前结束采集，降低甚至消除用户输入过程的局促感，同时因为准确的结束采集还可提高语音识别的准确性，改善交互体验。并且，还通过判断本次语音采集时间是否超过预设采集时间，以在采集时间过长时预先识别用户语音，并向用户确认是否正确，从而不仅可避免采集时间过长，减少交互时间，而且通过确认还可提高交互效率，实现更准确的交互，减少交互来回次数，带来更智能的交互。

另外，在一些实施例中，在步骤S201之前，还可通过用户输入的触发指令确定目标声源，并将目标声源的语音信号作为本次语音采集的有效语音，从而可防止他人截断或降低其他噪声的干扰，提高语音采集质量，进而提高语音识别准确度。具体地，如图7所示，图7示出了本申请实施例提供的一种确定有效语音的方法流程图，该方法包括：步骤S301至步骤S303。

步骤S301：获取用户输入的触发指令，启动语音采集。

其中，触发指令可基于多种触发方式获取，基于触发方式的不同，触发指令可包括语音触发指令、按键触发指令、触摸触发指令等。具体地，若为语音触发指令，终端设备可通过检测语音唤醒词或其他语音输入，以获取触发指令；若为按键触发指令，终端设备可通过检测是否采集到按键按下信号，以获取触发指令；若为触摸触发指令，终端设备可通过检测指定区域是否采集到触摸信号，以获取触发指令，等等。上述仅为多种触发方式仅为示例性描述，不对本实施例构成限定，本实施例还可获取其他形式的触发指令。

进一步地，获取用户输入的触发指令，启动语音采集，开始采集语音信号。例如，在一种实施方式中，终端设备可预设语音唤醒词“你好小一”，在检测到用户输入的“你好小一”时，获取触发指令，启动语音采集程序，开始采集语音信号。

步骤S302：基于触发指令，确定目标声源。

根据不同的触发指令，可通过不同方式确定目标声源。触发指令可以是语音触发指令、也可以是其他可以对应预存声纹的指令。

具体地，终端设备预先存储有至少一个预设声纹。作为一种实施方式，触发指令为语音触发指令，基于触发指令，可提取该触发指令的声纹特征，并与至少一个预设声纹进行匹配，根据匹配的预设声纹，确定触发指令对应的目标声源。

作为另一种实施方式，触发指令为按键触发指令、触摸触发指令等，预设声纹与用户ID对应存储，通过触压用户ID对应的控件，可确定触发指令对应的预设声纹，从而确定目标声源，

步骤S303：将目标声源的语音信号作为本次语音采集的有效语音。

将将目标声源的语音信号作为本次语音采集的有效语音，从而在后续语音采集过程中采集与目标声源对应的预设声纹匹配的语音信号，以防止他人或其他声音信号截断用户的语音输入。

另外，作为一种实施方式，触发指令为语音触发指令，在步骤S201之前，还可通过对触发指令对应的声源方向的语音信号进行语音增强，降低他人或其他噪声的干扰，提高语音采集质量，进而提高语音识别的准确度。具体地，如图8所示，图8示出了本申请实施例提供的另一种确定有效语音的方法流程图，该方法包括步骤S401至步骤S405。

步骤S401：获取用户输入的触发指令，启动语音采集。

其中，触发指令为语音触发指令，即触发指令含语音信号。

步骤S402：基于触发指令，确定目标声源及目标声源的声源方向。

基于触发指令，确定目标声源的具体描述可见步骤S302，在此不再赘述。另根据触发指令，还可确定目标声源的声源方向，具体地，终端设备设置有麦克风阵列，可对声源进行定位，从而基于触发指令，可确定目标声源的声源方向。

其中，对声源进行定位的具体步骤可包括：依据麦克风阵列中的至少两个麦克风所接收信号的信号时间差，获取声源所在位置，以确定声源方向。该方法可采用波束形成技术实现。

步骤S403：对声源方向的语音信号进行语音增强，获得增强过的语音信号。

对其他声源方向的语音信号进行噪声抑制，以对声源方向的语音信号进行语音增强，获得增强过的语音信号。由于该声源方向的语音信号包含目标声源的语音信号，因此可实现对目标声源的语音信号的语音增强，抑制其他声源方向的噪声干扰。

步骤S404：从增强过的语音信号中确定目标声源的语音信号。

增强过的语音信号还可能混杂他人或其他噪声，基于目标声源对应的预设声纹，通过获取与该预设声纹匹配的语音信号，则可从增强过的语音信号中确定目标声源的语音信号，实现语音分离。

步骤S405：将目标声源的语音信号作为本次语音采集的有效语音。

由此，本实施例提供的语音识别方法，在前述实施例的基础上，通过语音采集前的触发指令可确定一个目标声源作为本次语音采集的有效语音的声源，从而可防止被他人截断，导致语音采集不准确，另外，触发指令还可以是语音触发指令，并根据语音触发指令确定目标声源及其声源方向，通过对该声源方向的语音信号进行语音增强，来增强目标声源的声源方向的语音信号，以降低其他方向的他人或环境的噪声干扰，进一步提高语音采集质量，以提高语音识别准确度。

应该理解的是，虽然图2至图8的流程示意图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图9，图9示出了本申请一个实施例提供的一种语音识别装置的模块框图。下面将针对图9所示的模块框图进行阐述，所述语音识别装置900包括：语音检测模块910、时间获取模块920、时间判断模块930、图像获取模块940、动作判断模块950以及语音识别模块960，其中：

语音检测模块910，用于在语音采集过程中，检测有效语音；

时间获取模块920，用于在无法检测到有效语音时，获取本次无法检测到有效语音的持续时间；

时间判断模块930，用于判断所述持续时间是否超过预设检测时间；

图像获取模块940，用于若所述持续时间超过预设检测时间，获取用户图像；

动作判断模块950，用于判断所述用户图像中是否存在预设动作；

语音识别模块960，用于若所述用户图像中不存在预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果。

进一步地，所述语音识别装置900还包括：采集判断模块、预先识别模块、识别判断模块以及结果获取模块，其中：

采集判断模块，用于若所述持续时间未超过预设检测时间，则判断本次语音采集时间是否超过预设采集时间；

预先识别模块，用于若所述本次语音采集时间超过预设采集时间，对当前已采集的语音信号进行预先识别，以得到预先识别结果；

识别判断模块，用于判断所述预先识别结果是否正确；

结果获取模块，用于根据判断结果，获得本次识别结果。

进一步地，所述识别判断模块包括：预先显示单元、预先确认单元、预测识别单元、预测显示单元以及预测确认单元，其中：

预先显示单元，用于对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；

预先确认单元，用于根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；

预测识别单元，用于基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；

预测显示单元，用于对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；

预测确认单元，用于根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

进一步地，所述预测识别单元包括：指令匹配子单元、目标获取子单元、位置确定子单元、信息获取子单元、预测识别子单元以及预测网络子单元，其中：

指令匹配子单元，用于基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；

目标获取子单元，用于若存在，则基于所述指令获取所述预先识别结果的目标关键词；

位置确定子单元，用于确定所述目标关键词在所述预先识别结果中的目标位置；

信息获取子单元，用于基于所述目标位置，获取所述目标关键词的上下文信息；

预测识别子单元，用于对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

预测网络子单元，用于将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果获得所述预先识别结果对应的预测识别结果。

进一步地，所述结果获取模块包括：判断正确单元以及判断错误单元，其中：

判断正确单元，用于若判断正确，则结束本次语音采集，将正确的识别结果作为本次识别结果；

判断错误单元，用于若判断错误，则继续本次语音采集，并返回执行在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音以及后续操作。

进一步地，所述语音识别装置900还包括：第一采集触发模块、第一声源确定模块、第一语音确定模块、第二采集触发模块、第二声源确定模块、目标声源增强模块、目标信号获取模块以及第二语音确定模块，其中：

第一采集触发模块，用于获取用户输入的触发指令，启动语音采集；

第一声源确定模块，用于基于所述触发指令，确定目标声源；

第一语音确定模块，用于将所述目标声源的语音信号作为本次语音采集的有效语音。

第二采集触发模块，用于获取用户输入的触发指令，启动语音采集，其中，触发指令为语音触发指令；

第二声源确定模块，用于基于所述触发指令，确定目标声源及所述目标声源的声源方向；

目标声源增强模块，用于对所述声源方向的语音信号进行语音增强，获得增强过的语音信号；

目标信号获取模块，用于从增强过的语音信号中确定所述目标声源的语音信号；

第二语音确定模块，用于将所述目标声源的语音信号作为本次语音采集的有效语音。

本申请实施例提供的语音识别装置用于实现前述方法实施例中相应的语音识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的语音识别装置能够实现图2至图8的方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图10，其示出了本申请实施例提供的一种电子设备的结构框图。本申请中的电子设备1000可以包括一个或多个如下部件：处理器1010、存储器1020以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1020中并被配置为由一个或多个处理器1010执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。本实施例中，电子设备可以是智能音箱、手机、平板、电脑、可穿戴式设备等能够运行应用程序的电子设备，还可以是服务器，具体实施方式可参见上述方法实施例所描述的方法。

处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集，以及调用存储在存储器1020内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器1010可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1010可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块通信芯片进行实现。

存储器1020可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

进一步地，电子设备1000还可以包括显示屏，所述显示屏可以为液晶显示屏(Liquid Crystal Display，LCD)，可以为有机发光二极管(Organic Light-EmittingDiode，OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图10中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图11，其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1100中存储有程序代码1110，所述程序代码1110可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是智能网关，手机，计算机，服务器，空调器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请各实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音；

在无法持续检测到有效语音时，获取本次无法持续检测到有效语音的持续时间；

判断所述持续时间是否超过预设检测时间；

若所述持续时间超过所述预设检测时间，则获取用户图像；

判断所述用户图像中是否存在预设动作；

若所述用户图像中不存在所述预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果；

若所述持续时间未超过所述预设检测时间，则判断本次语音采集时间是否超过预设采集时间；其中，所述判断本次语音采集时间是否超过预设采集时间的具体方式为，从本次检测到有效语音的时刻开始累计所述本次语音采集时间，在累计过程中比较所述本次语音采集时间和所述预设采集时间；

若所述本次语音采集时间超过所述预设采集时间，则对当前已采集的语音信号进行预先识别，以得到预先识别结果；

判断所述预先识别结果是否正确；

若判断正确，则结束本次语音采集，将所述预先识别结果作为本次识别结果。

2.根据权利要求1所述的方法，其特征在于，所述判断所述预先识别结果是否正确，包括:

对所述预先识别结果进行显示，以使所述用户确认所述预先识别结果是否正确；

根据获取到的所述用户针对所述预先识别结果的确认指令，判断所述预先识别结果是否正确；或者

基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果；

对所述预测识别结果进行显示，以使所述用户确认所述预测识别结果是否正确；

根据获取到的所述用户针对所述预测识别结果的确认指令，判断所述预先识别结果是否正确。

3.根据权利要求2所述的方法，其特征在于，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:

基于所述预先识别结果，在预设指令库中查找是否存在与所述预先识别结果匹配的指令；

若存在，则基于所述指令获取所述预先识别结果的目标关键词；

确定所述目标关键词在所述预先识别结果中的目标位置；

基于所述目标位置，获取所述目标关键词的上下文信息；

对所述上下文信息进行识别，以得到所述预先识别结果对应的预测识别结果。

4.根据权利要求2所述的方法，其特征在于，所述基于所述预先识别结果，获取所述预先识别结果对应的预测识别结果，包括:

将所述预先识别结果输入预测神经网络模型，得到所述预先识别结果对应的预测识别结果，所述预测神经网络模型被预先训练，用于根据预先识别结果获得所述预先识别结果对应的预测识别结果。

5.根据权利要求1或2所述的方法，其特征在于，在判断所述预先识别结果是否正确之后，所述方法还包括：

若判断错误，则继续本次语音采集，并返回执行在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音以及后续操作。

6.根据权利要求1所述的方法，其特征在于，所述在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音之前，所述方法还包括：

获取用户输入的触发指令，启动语音采集；

基于所述触发指令，确定目标声源；

将所述目标声源的语音信号作为本次语音采集的有效语音。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述在语音采集过程中，检测到有效语音时，确定是否能够持续检测到有效语音之前，所述方法还包括：

获取用户输入的语音触发指令，启动语音采集；

基于所述触发指令，确定目标声源及所述目标声源的声源方向；

对所述声源方向的语音信号进行语音增强，获得增强过的语音信号；

从增强过的语音信号中确定所述目标声源的语音信号；

将所述目标声源的语音信号作为本次语音采集的有效语音。

8.一种语音识别装置，其特征在于，所述装置包括：

语音检测模块，用于在语音采集过程中，检测有效语音；

时间获取模块，用于在无法检测到有效语音时，获取本次无法检测到有效语音的持续时间；

时间判断模块，用于判断所述持续时间是否超过预设检测时间；

图像获取模块，用于若所述持续时间超过所述预设检测时间，则获取用户图像；

动作判断模块，用于判断所述用户图像中是否存在预设动作；

语音识别模块，用于若所述用户图像中不存在所述预设动作，则结束本次语音采集，并对本次采集的语音信号进行识别，以得到本次识别结果；

采集判断模块，用于若所述持续时间未超过所述预设检测时间，则判断本次语音采集时间是否超过预设采集时间；其中，所述判断本次语音采集时间是否超过预设采集时间的具体方式为，从本次检测到有效语音的时刻开始累计所述本次语音采集时间，在累计过程中比较所述本次语音采集时间和所述预设采集时间；

预先识别模块，用于若所述本次语音采集时间超过所述预设采集时间，则对当前已采集的语音信号进行预先识别，以得到预先识别结果；

识别判断模块，用于判断所述预先识别结果是否正确；

结果获取模块，用于若判断正确，则结束本次语音采集，将所述预先识别结果作为本次识别结果。

9.一种电子设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个应用程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码被处理器执行时实现如权利要求1至7中任一项所述的方法。