CN110689889B

CN110689889B - 人机交互方法、装置、电子设备及存储介质

Info

Publication number: CN110689889B
Application number: CN201910964281.5A
Authority: CN
Inventors: 陈泷翔; 刘云峰; 吴悦
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2021-08-17
Anticipated expiration: 2039-10-11
Also published as: CN110689889A

Abstract

本申请实施例公开了一种人机交互方法、装置、电子设备及存储介质。该方法包括：持续采集输入的语音信号；对已采集的语音信号进行声纹识别，以获得与已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个待响应用户的待响应语音信号；由至少一个待响应用户中，确定目标用户，目标用户的用户姿态符合预设姿态且目标用户的人脸方向满足预设正视条件；根据每个待响应语音信号所需占用的资源和资源的占用状态，响应目标用户的待响应语音信号。本申请实施例通过声纹确定待响应用户，再通过识别姿态和人脸确定需响应的目标用户，并根据资源占用情况响应目标用户的语音信号，不仅可准确确定需响应的用户并响应其语音信号，还可提高资源利用率。

Description

人机交互方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及人机交互技术领域，更具体地，涉及一种人机交互方法、装置、电子设备及存储介质。

背景技术

随着5G的推广与发展，物联网的应用将越来越贴近当今人们的生活。交互机器人作为物联网的一个重要指令传输入口，如何准确地对人类指令进行识别与反馈非常关键。现有的交互机器人系统主要依托于单模态的文本、语音、图像，例如文本对话机器人、智能音箱、智能电话机器人、智能摄像头等，这类交互系统指令接口较为单一。亦存在综合多种信息输入的多模态交互系统，如智能安防机器人、智能服务机器人等。但现有的交互机器人系统，难以准确地开展人机交互。

发明内容

鉴于上述问题，本申请实施例提供一种人机交互方法、装置、电子设备及存储介质，可以准确开展人机交互，降低误触发带来的功耗，并且解决多用户交互问题，优化机器人资源的利用率。

第一方面，本申请实施例提供了一种人机交互方法，该人机交互方法可包括：持续采集输入的语音信号；对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个所述待响应用户的待响应语音信号；由所述至少一个待响应用户中，确定目标用户，所述目标用户的用户姿态符合预设姿态且所述目标用户的人脸方向满足预设正视条件；根据每个所述待响应语音信号所需占用的资源和所述资源的占用状态，响应所述目标用户的待响应语音信号。

可选地，所述由所述至少一个待响应用户中，确定目标用户，所述目标用户的用户姿态符合预设姿态且正视，包括：获取用户图像序列，并在所述图像序列中，确定至少一个正视人脸图像，所述正视人脸图像中的用户的人脸方向满足预设正视条件；判断在所述至少一个待响应用户中，是否存在与所述至少一个正视人脸图像匹配的待响应用户；若存在与所述至少一个正视人脸图像匹配的待响应用户，则判断在每个所述匹配的待响应用户中是否存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态；若存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态，则将符合预设姿态的待响应用户作为目标用户。

可选地，所述对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个所述待响应用户的待响应语音信号，包括：对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号对应的至少一个声纹特征和每个声纹特征对应的待响应语音信号；基于所述至少一个声纹特征，在预设用户库中进行匹配，所述预设用户库中存储有至少一个预设用户和至少一个预设声纹特征，所述预设用户和所述预设声纹特征一一对应；获取与所述至少一个预设声纹特征匹配的至少一个待响应声纹特征、以及与每个所述待响应声纹特征对应的待响应用户。

可选地，预设用户库中存储有至少一个预设用户、至少一个预设声纹特征以及至少一个预设人脸特征，每个所述预设用户对应一个所述预设声纹特征和一个所述预设人脸特征，所述判断在所述至少一个待响应用户中，是否存在与所述至少一个正视人脸图像匹配的待响应用户，包括：对所述已采集的语音信号进行语音识别，以获得至少一个语音识别结果，每个所述语音识别结果对应不同待响应用户的声纹特征；对每个所述正视人脸进行唇语识别，以获得至少一个唇语识别结果；判断是否存在与所述至少一个唇语识别结果匹配的语音识别结果；若存在，则判定存在与所述正视人脸图像匹配的待响应用户；若不存在，则判定不存在与所述正视人脸图像匹配的待响应用户。

可选地，所述根据每个所述待响应语音信号所需占用的资源和所述资源的占用状态，响应所述目标用户的待响应语音信号，包括：获取至少一个所述目标用户的姿态识别特征和每个所述姿态识别特征的被识别时间；根据每个所述姿态识别特征的被识别时间，将每个所述姿态识别特征对应的目标用户的待响应语音信号按被识别时间由前往后存入待响应队列，其中，所述被识别时间最早的姿态识别特征对应的待响应语音信号位于所述待响应队列的首位；根据每个待响应语音信号所需占用的资源和每个所述资源的占用状态，按所述待响应队列的顺序依次响应所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

可选地，所述占用状态包括忙碌状态和空闲状态，所述根据每个待响应语音信号所需占用的资源和每个所述资源的占用状态，按所述待响应队列的顺序依次响应所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除，包括：判断是否存在占用状态为空闲状态的资源；若存在占用状态为空闲状态的资源，按所述待响应队列的顺序依次响应需占用所述资源的所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

可选地，所述方法还包括：监测是否接收到目标用户的终止交互指令；若存在，则将所述目标用户的待响应语音信号从所述待响应队列中删除。

可选地，所述方法还包括：监测是否接收到暂停交互指令；若存在暂停交互指令，则确定所述暂停交互指令对应的目标用户；将所述待响应队列中存储的所述目标用户的待响应语音信号置为暂停响应状态，所述暂停响应状态用于指示暂停响应所述待响应语音信号。

可选地，所述方法还包括：在目标用户的待响应语音信号处于暂停响应状态时，监测是否接收到所述目标用户对应的继续交互指令；若存在所述目标用户对应的继续交互指令，则将所述暂停响应状态切换为正常响应状态，以使所述目标用户的待响应语音信号继续被响应。

第二方面，本申请实施例提供了一种人机交互装置，该人机交互装置可包括：语音采集模块，用于持续采集输入的语音信号；声纹识别模块，用于对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个所述待响应用户的待响应语音信号；目标确定模块，用于由所述至少一个待响应用户中，确定目标用户，所述目标用户的用户姿态符合预设姿态且所述目标用户的人脸方向满足预设正视条件；语音响应模块，用于根据每个所述待响应语音信号所需占用的资源和所述资源的占用状态，响应所述目标用户的待响应语音信号。

可选地，所述目标确定模块包括：图像获取单元，用于获取用户图像序列，并在所述图像序列中，确定至少一个正视人脸图像，所述正视人脸图像中的用户的人脸方向满足预设正视条件；用户确定单元，用于判断在所述至少一个待响应用户中，是否存在与所述至少一个正视人脸图像匹配的待响应用户；姿态判断单元，用于若存在与所述至少一个正视人脸图像匹配的待响应用户，则判断在每个所述匹配的待响应用户中是否存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态；目标确定单元，用于若存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态，则将符合预设姿态的待响应用户作为目标用户。

可选地，所述声纹识别模块包括：声纹识别单元，用于对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号对应的至少一个声纹特征和每个声纹特征对应的语音信号；声纹匹配单元，用于基于所述至少一个声纹特征，在预设用户库中进行匹配，所述预设用户库中存储有至少一个预设用户和至少一个预设声纹特征，所述预设用户和所述预设声纹特征一一对应；声纹获取单元，用于获取与所述至少一个预设声纹特征匹配的至少一个待响应声纹特征、以及与每个所述待响应声纹特征对应的待响应用户；信号确定单元，用于根据每个所述待响应用户对应的待响应声纹特征，确定每个所述待响应用户的待响应语音信号。

可选地，预设用户库中存储有至少一个预设用户、至少一个预设声纹特征以及至少一个预设人脸特征，每个所述预设用户对应一个所述预设声纹特征和一个所述预设人脸特征，所述用户确定单元包括：语音识别子单元，用于对所述已采集的语音信号进行语音识别，以获得至少一个语音识别结果，每个所述语音识别结果对应不同待响应用户的声纹特征；唇语识别子单元，用于对每个所述正视人脸进行唇语识别，以获得至少一个唇语识别结果；结果匹配子单元，用于判断是否存在与所述至少一个唇语识别结果匹配的语音识别结果；第一判定子单元，用于若存在，则判定存在与所述正视人脸图像匹配的待响应用户；第二判定子单元，用于若不存在，则判定不存在与所述正视人脸图像匹配的待响应用户。

可选地，所述语音响应模块包括：姿态识别单元、队列构建单元以及语音响应单元，其中：姿态识别单元，用于获取至少一个所述目标用户的姿态识别特征和每个所述姿态识别特征的被识别时间；队列构建单元，用于根据每个所述姿态识别特征的被识别时间，将每个所述姿态识别特征对应的目标用户的待响应语音信号按被识别时间由前往后存入待响应队列，其中，所述被识别时间最早的姿态识别特征对应的待响应语音信号位于所述待响应队列的首位；语音响应单元，用于根据每个待响应语音信号所需占用的资源和每个所述资源的占用状态，按所述待响应队列的顺序依次响应所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

可选地，所述占用状态包括忙碌状态和空闲状态，所述语音响应单元包括：资源判断子单元，用于判断是否存在占用状态为空闲状态的资源；语音响应子单元，用于若存在占用状态为空闲状态的资源，按所述待响应队列的顺序依次响应需占用所述资源的所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

可选地，所述人机交互装置还包括：终止监测模块，用于监测是否接收到目标用户的终止交互指令。终止交互模块，用于若存在，则将所述目标用户的待响应语音信号从所述待响应队列中删除。

可选地，所述人机交互装置还包括：暂停监测模块，用于监测是否接收到暂停交互指令。暂停确定模块，用于若存在暂停交互指令，则确定所述暂停交互指令对应的目标用户。暂停交互模块，用于将所述待响应队列中存储的所述目标用户的待响应语音信号置为暂停响应状态，所述暂停响应状态用于指示暂停响应所述待响应语音信号。

可选地，所述人机交互装置还包括：继续监测模块，用于在目标用户的待响应语音信号处于暂停响应状态时，监测是否接收到所述目标用户对应的继续交互指令。继续交互模块，用于若存在所述目标用户对应的继续交互指令，则将所述暂停响应状态切换为正常响应状态，以使所述目标用户的待响应语音信号继续被响应。

第三方面，本申请实施例提供了一种电子设备，该电子设备可包括：存储器；一个或多个处理器，与存储器连接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如上述第一方面所述的方法。

在本申请实施例中，通过持续采集输入的语音信号，然后对已采集的语音信号进行声纹识别，以获得与已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个待响应用户的待响应语音信号，接着由至少一个待响应用户中，确定目标用户，其中，目标用户的用户姿态符合预设姿态且目标用户的人脸方向满足预设正视条件，最后根据每个待响应语音信号所需占用的资源和资源的占用状态，响应目标用户的待响应语音信号。由此，本申请实施例通过声纹识别确定待响应用户，接着通过对姿态、人脸方向的识别，确定需响应的目标用户，然后根据资源占用情况对目标用户的语音信号进行响应，不仅可准确确定需响应的用户并响应该用户的语音信号，还可解决多用户交互问题，大大提高资源利用率。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1示出了本申请实施例提供的人机交互方法的应用环境示意图；

图2示出了本申请一个实施例提供的人机交互方法的方法流程图；

图3示出了本申请另一个实施例提供的人机交互方法的方法流程图；

图4示出了本申请实施例提供的一种确定待响应用户和待响应语音信号的方法流程图；

图5示出了本实施例提供的基于唇语识别和语音识别筛选待响应用户的方法流程图；

图6示出了本实施例提供的一种按待响应队列响应待响应语音信号的方法流程图；

图7示出了本申请实施例提供的一种终止交互的方法流程图；

图8示出了本申请实施例提供的一种暂停交互的方法流程图；

图9示出了本申请实施例提供的一种暂停后继续交互的方法流程图；

图10示出了本申请一个实施例提供的人机交互装置的模块框图；

图11示出了本申请实施例用于执行根据本申请实施例的人机交互方法的电子设备的模块框图；

图12示出了本申请实施例用于执行根据本申请实施例的人机交互方法的计算机可读存储介质的模块框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处描述的具体实施例仅用于解释本申请，并不用于限定本申请。

随着5G的推广与发展，物联网的应用将越来越贴近当今人们的生活。交互机器人作为物联网的一个重要指令传输入口，如何准确地对人类指令进行识别与反馈是非常关键的。现有的交互机器人系统主要依托于单模态的文本、语音、图像，例如文本对话机器人、智能音箱、智能电话机器人、智能摄像头等，这类交互系统指令接口较为单一。亦存在综合多种信息输入的多模态交互系统，如智能安防机器人、智能服务机器人等。上述系统在进行多轮交互时，一般采用指令间隔是否超出时间阈值来判断交互是否继续，或者以完成某类指令任务作为交互的结束。

但上述系统仍无法准确地对人机交互的对话前阶段进行有效的判断，以至于无法正确开展人机交互的对话阶段。例如，现有的交互系统在用户在面向机器人时就会唤醒各类接口，此时用户可能并不需要进行交互。尽管有语音的输入，但是现有系统对各种语音信号都会无差别地进行识别和响应，导致当前用户正在进行的交互被截断，且现有系统在用户需要交互时，需要用户频繁说出唤醒词，加大了开始交互的难度。

基于上述分析，发明人发现目前人机交互不仅难以实现无需频繁唤醒的多轮交互，无法准确开启交互，而且存在交互容易被截断等导致语音识别不准确、交互无法有效进行等问题。为此，发明人研究了目前语音采集和识别的困难点，更是综合考虑实际场景的使用需求，提出了本申请实施例的人机交互方法、装置、电子设备及存储介质。

为便于更好的理解本申请实施例提供的人机交互方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的人机交互方法可以应用于如图1所示的交互系统100。交互系统100包括终端设备111以及服务器112，服务器112与终端设备111通信连接。其中，服务器112可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备111可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能音箱、智能手机、平板电脑、膝上型便携计算机、个人数字助理、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备111上具有的语音模块输入语音等。

其中，终端设备111上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器112进行通信。具体的，服务器112上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器112注册一个用户帐号，并基于该用户帐号与服务器112进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器112，使得服务器112可以接收该信息并进行处理及存储，服务器112还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备111。

在一些实施方式中，终端设备可基于客户端应用程序的虚拟机器人与用户进行多态交互，用于向用户提供客户服务。具体地，客户端应用程序可以对用户输入的语音进行采集，对采集到的语音进行语音识别，并基于虚拟机器人对该用户输入的语音作出应答。并且，虚拟机器人作出的应答包括语音输出和行为输出，其中，行为输出为输出基于语音输出驱动的行为，并且行为与语音对齐。行为包括与所输出语音对齐的表情、姿态等。从而让用户可以在人机交互界面上直观看到具有虚拟形象的虚拟机器人在“说话”，使用户与虚拟机器人之间能够进行“面对面”的沟通交流。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形象建立的形似真人的机器人，也可以是基于动漫形象的机器人，例如动物形态或卡通人物形态的机器人，在此不作限定。

在另一些实施方式中，终端设备也可仅通过语音与用户进行交互。即根据用户输入通过语音作出应答。

进一步地，在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备111上，使得终端设备111无需依赖与服务器112建立通信即可实现与用户的交互，此时交互系统100可以只包括终端设备111。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的人机交互方法、装置、电子设备及存储介质进行详细说明。

请参阅图2，本申请一个实施例提供了一种人机交互方法，可应用于上述终端设备。具体地，该方法包括步骤S101至步骤S104：

步骤S101：持续采集输入的语音信号。

终端设备设置有语音采集装置，如麦克风，通过语音采集装置采集输入的语音信号。通过持续采集输入的语音信号，可解决目前人机交互时用户需要频繁与终端设备进行交互的问题，提高交互效率，并满足用户多轮交互的需求。

在一种实施方式中，终端设备设置有多轮交互模式，并通过开启多轮交互模式，终端设备可持续采集输入的语音信号。其中，多轮交互模式是一种可持续获取用户语音并且做出应答的持续对话模式，由于目前人机交互往往需要频繁使用唤醒词来唤醒终端设备，给用户带来不便，而多轮交互模式在开启状态时，终端设备可无需唤醒词唤醒，持续采集输入的语音信号。另外，在未开启或关闭多轮交互模式时，终端设备可由指定唤醒操作唤醒，并在一轮交互后处于低功耗运行状态，不持续采集语音信号，从而在无需多轮交互时降低设备功耗。

在另一些实施方式中，终端设备无需模式设定，在开启状态下即可持续采集输入的语音信号，本实施例对此不做限定。

步骤S102：对已采集的语音信号进行声纹识别，以获得与已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个待响应用户的待响应语音信号。

其中，已采集的语音信号中可能包括多个不同的声纹特征，每个声纹特征对应一个待响应用户，该声纹特征对应的语音信号也对应该待响应用户，从而根据声纹识别得到的声纹特征可确定至少一个待响应用户和每个待响应用户的待响应语音信号。其中，待响应语音信号为候选的、终端设备需响应的语音信号。例如，终端设备采集的一段音频内包含多个用户的语音信号，通过对已采集的语音信号进行声纹识别，可区分不同用户的语音信号，每个语音信号对应一个声纹特征。

在一种实施方式中，可基于选练好的深度神经网络模型对已采集的语音信号进行声纹识别。具体地，采用训练好的深度神经网络提取已采集的语音信号的j-vector，j-vector从上一隐藏层提取得到，基于j-vector可对较短时间内的一段音频(例如音频时长可为1s-2s)进行声纹识别，从而可提高声纹识别效率，缩短整体响应时间。

进一步地，在一些实施方式中，在对已采集的语音信号进行声纹识别后，还可对每个待响应用户的待响应语音信号进行语音识别，得到每个待响应语音信号对应的语音识别结果，并进行存储。

作为一种实施方式，对已采集的语音信号进行声纹识别，可从已采集的语音信号中获得任意声纹特征对应的待响应语音信号，且根据每个声纹特征确定与声纹特征对应的待响应用户。由此，待响应用户可以是任意用户，降低了交互门槛，使得每个用户都可与终端设备进行交互。

作为另一种实施方式，对已采集的语音信号进行声纹识别，还可通过将识别出的声纹特征与预先存储的声纹特征进行匹配，并将匹配的声纹特征对应的用户确定为待响应用户，将匹配的声纹特征对应的语音信号确定为待响应用户的待响应语音信号，从而避免被未预先存储的用户的语音信号打断。

具体地，预先存储有至少一个预设声纹特征，对已采集的语音信号进行声纹识别，获得至少一个声纹特征，并将获得的至少一个声纹特征与至少一个预设声纹特征进行匹配，判断是否存在至少一个匹配的声纹特征，若存在，则根据至少一个匹配的声纹特征确定至少一个待响应用户以及每个待响应用户的待响应语音信号。由此，提高了交互门槛，仅将与预设的声纹特征匹配的用户确定为待响应用户，使得其他未预先存储声纹的用户无法随意交互，从而减少被其他用户打断的概率，解决因对语音信号无差别识别和响应所导致的交互容易被截断的问题。

步骤S103：由至少一个待响应用户中，确定目标用户。

对已采集的语音信号进行声纹识别后，终端设备可控制开启图像采集装置获取至少一个用户图像，每个用户图像显示有至少一个待响应用户的图像，并对获取到的用户图像进行姿态识别和人脸方向的识别。具体地，检测用户图像中的用户姿态是否符合预设姿态，用户图像中的人脸方向是否满足预设正视条件。需要说明的是，用户图像为包含用户的图像。

在一些实施方式中，终端设备可对待响应语音信号进行声源定位，获取待响应语音信号的声源方向，并控制图像采集装置采集该声源方向的用户图像，由此不仅可提高用户图像的采集效率，还可提高采集准确率。

在一些实施方式中，预先存储有至少一个预设姿态图像，通过将用户图像中的用户姿态与至少一个预设姿态图像进行匹配，若匹配成功，则可判定匹配的用户姿态符合预设姿态。

在一些实施方式中，当待响应用户的人脸角度在指定角度范围内时，可判定该待响应用户的人脸方向符合预设正视条件。其中，人脸角度可以为图像采集时人脸所在的平面与终端设备的前面板所在的平面之间的夹角，该夹角可用于表征人脸方向，若夹角为0°，可认为两个平面平行，人脸方向完全朝向终端设备。通过获取人脸角度，可实现对人脸方向的识别。其中，指定角度范围可自定义，例如可以为人脸角度的绝对值不超过30°，则在人脸角度的绝对值不超过30°时，可判定用户的人脸方向符合预设正视条件。

在本实施例中，可以通过多种方式判断用户的人脸方向是否符合预设正视条件，本实施例对此不作限定。

其中，作为一种实施方式，可预先存储至少一个预设正视图像，每个预设正视图像可对应不同的人脸角度，通过将图像采集装置采集的用户图像与至少一个预设正视图像进行匹配，若匹配成功，则可判定与预设正视图像匹配的待响应用户的人脸方向符合预设正视条件。

作为另一种实施方式，还可预先训练一个预设网络模型，通过将用户图像输入预设网络模型，可得到用户图像对应的人脸角度或人脸方向是否满足预设正视条件的结果。

作为又一种实施方式，还可基于头部姿态分类器，根据用户图像判断用户的人脸方向是否满足预设正视条件，具体地，以用户图像作为头部姿态分类器的输入，获取头部姿态分类器的输出的结果，根据该结果可确定用户图像中用户的人脸方向是否满足预设正视条件。

进一步地，由至少一个待响应用户中，将用户图像中的用户姿态符合预设姿态且人脸方向满足预设正视条件的待响应用户确定为目标用户，即，目标用户的用户姿态符合预设姿态且目标用户的人脸方向满足预设正视条件。其中，为方便描述，若用户的人脸方向满足预设正视条件，可视为用户正视终端设备。

由于用户看向终端设备的时候，也不一定是要与终端设备进行交互，例如，用户Z在与终端设备进行交互时，用户Z身边的其他用户在观察用户Z和终端设备的交互过程中，终端设备往往会检测到其他用户的正视人脸，甚至获取到其他用户的语音信号，此时，终端设备与用户Z的交互很容易被截断。因此，本实施例在确定目标用户的条件不仅包括对人脸方向是否满足预设正视条件的检测，还包括对用户姿态是否符合预设姿态的检测，最终通过基于姿态识别和人脸识别的双重检测，从待响应用户中确定目标用户，可准确地确定用户的交互意图，以准确开展交互。并且本实施例提供的方法无需用户注视终端设备，在用户不方便注视时，仍可通过姿态和人脸方向识别实现对交互需求的准确判断，降低误触发概率，及其带来的不必要的功耗。

由于已采集的语音信号中并非每个声纹特征对应的语音信号都是用于与终端设备进行交互的，因此通过姿态识别和人脸识别由至少一个待响应用户中，确定出需交互的待响应用户，可在持续采集输入的语音信号的情况下大大降低误触发概率，提高开展交互的准确性。

在一些实施方式中，可同时对用户图像进行姿态识别和人脸识别，也可先姿态识别再人脸识别，还可先人脸识别再姿态识别。

作为一种实施方式，可先通过姿态识别从待响应用户中确定需交互的待响应用户，再通过人脸识别从需交互的待响应用户中确定目标用户。具体地，获取用户图像，通过姿态识别判断是否存在预设姿态，若存在，则将预设姿态对应的用户确定为需交互的待响应用户，再通过人脸识别判断需交互的待响应用户的人脸方向是否满足预设正视条件，并在需交互的待响应用户中，将满足预设正视条件的用户确定为目标用户。由此，可提高目标用户的确定效率，进而提高交互效率。

作为另一种实施方式，还可先通过人脸识别从待响应用户中确定候选用户，再通过姿态识别确定需交互的候选用户作为目标用户。具体地，获取用户图像，通过人脸识别判断是否存在人脸的人脸方向满足预设正视条件，若存在，将人脸方向满足预设正视条件的人脸对应的用户确定为候选用户，再通过姿态识别判断候选用户的姿态是否符合预设姿态，并在候选用户中，将符合预设姿态的用户确定为目标用户。由此，可提高目标用户的确定效率，进而提高交互效率。

步骤S104：根据每个待响应语音信号所需占用的资源和资源的占用状态，响应目标用户的待响应语音信号。

其中，资源为响应待响应语音信号所需占用的资源，即终端设备的交互接口，包括摄像头、麦克风、指示灯、扬声器等多种装置，具体地，摄像头、麦克风可作为输入装置，指示灯、扬声器可作为输出装置。例如，在与用户进行问答交互时，即根据目标用户的待响应语音信号进行语音应答时，扬声器的资源被该待响应语音信号所占用，此时其他需占用扬声器的资源的待响应语音信号需等待被响应。

其中，资源的占用状态包括被占用状态和未被占用状态。通过监测资源的占用状态，在有资源处于未被占用状态、即有空闲资源时，响应需占用该空闲资源的目标用户的待响应语音信号。从而大大提高资源利用率，灵活响应至少一个用户输入的语音信号，

在一种实施方式中，在一个资源处于未被占用状态时即该资源空闲时，对需占用该资源的待响应语音信号进行响应。具体地，例如依次获得的待响应语音信号包括对应用户A的信号a、对应用户B的信号b、对应用户C的信号c。其中，信号a对应“放音乐M1”，信号b对应“放音乐M2”，信号c对应“帮我拍个照片”，其中，信号a和信号b需占用扬声器，信号c需占用摄像头，而若当前扬声器、摄像头均处于未被占用状态，则可响应用户A的信号a，以控制扬声器播放音乐M1，并响应用户C的信号c，以控制摄像头拍摄照片，此时由于响应信号a而使扬声器处于被占用状态，因此同样需要占用扬声器的信号b与信号b暂无法被响应，在下一次扬声器空闲时再响应信号b。由此，可异步解决多用户的交互问题，实现资源利用最大化。

本实施例提供的人机交互方法，通过在持续采集语音信号并进行响应的过程中，实现免唤醒词唤醒，交互流畅自然，并通过声纹识别、姿态、人脸方向的识别，逐步确定目标用户，在免唤醒词唤醒的交互基础上，还可准确确定需响应的用户并响应该用户的语音信号，降低误触发概率及其带来的不必要的功耗，并进一步地，在准确确定目标用户后，根据资源占用情况对目标用户的语音信号进行响应，使得资源利用率大大提高，可解决多用户的交互问题。

请参阅图3，本申请一个实施例提供了一种人机交互方法，可应用于上述终端设备。具体地，该方法包括步骤S201至步骤S209：

步骤S201：持续采集输入的语音信号。

于本实施例中，步骤S201的具体描述可参考前述实施例中的步骤S101，在此不再赘述。

步骤S202：对已采集的语音信号进行声纹识别，以获得与已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个待响应用户的待响应语音信号。

作为一种实施方式，已采集的语音信号包括未预先存储的声纹特征，未预先存储的声纹特征对应的用户也可作为待响应用户。

作为另一种实施方式，仅将预先存储的声纹特征对应的用户作为待响应用户，即若已采集的语音信号包括未预先存储的声纹特征，则不存储该未预先存储的声纹特征所对应的语音信号，降低因对噪声信号的识别带来的功耗，也避免被其他未预先存储的用户打断交互，以准确开展和进行人机交互，其中噪声信号包括除预先存储的声纹特征对应的语音信号之外的声音信号。具体地，终端设备预先存储有预设用户库，预设用户库中包括至少一个声纹特征，声纹特征和预设用户对应存储于预设用户库中，具体地，请参阅图4，图4示出了本申请实施例提供的一种确定待响应用户和待响应语音信号的方法流程图，该方法包括步骤S2021至步骤S2024：

步骤S2021：对已采集的语音信号进行声纹识别，以获得与已采集的语音信号对应的至少一个声纹特征和每个声纹特征对应的语音信号。

其中，步骤S2021的具体描述可参见步骤S102，在此不再赘述。

在本实施例中，终端设备对已采集的语音信号进行声纹识别，可从已采集的语音信号中分离出至少一个声纹特征，以及每个声纹特征对应的语音信号。

步骤S2022：基于至少一个声纹特征，在预设用户库中进行匹配。

其中，预设用户库中存储有至少一个预设用户和至少一个预设声纹特征，预设用户和预设声纹特征一一对应。终端设备基于至少一个声纹特征，在预设用户库中进行匹配，查找是否存在与至少一个声纹特征匹配的预设声纹特征。

步骤S2023：获取与至少一个预设声纹特征匹配的至少一个待响应声纹特征、以及与每个待响应声纹特征对应的待响应用户。

若在预设用户库中存在与至少一个声纹特征匹配的预设声纹特征，获取每个匹配的待响应声纹特征，并基于预设用户库，确定每个匹配的待响应声纹特征对应的预设用户，作为每个待响应声纹特征对应的待响应用户。由此基于预设用户库，可根据已采集的语音信号中的声纹特征，确定待响应用户，使得待响应用户仅为预设用户库中的预设用户，以使终端设备过滤其他用户的语音信号，不对其他用户的语音信号作响应，降低了预设用户的语音吸纳后被截断的概率，提高人机交互的稳定性。

步骤S2024：根据每个待响应用户对应的待响应声纹特征，确定每个待响应用户的待响应语音信号。

终端设备根据每个待响应用户对应的待响应声纹特征，将每个待响应声纹特征对应的语音信号确定为每个待响应声纹特征对应的待响应用户的待响应语音信号。也就是说，终端设备基于待响应声纹特征，可确定与待响应声纹特征对应的待响应用户和待响应语音，从而确定每个待响应用户的待响应语音信号。

步骤S203：获取用户图像序列，并在图像序列中，确定至少一个正视人脸图像。

其中，正视人脸图像中的用户的人脸方向满足预设正视条件。获取用户图像序列，用户图像序列包括至少一个用户图像。用户图像序列可通过多种方式获取，本实施例对此不作限定。

具体地，作为一种方式，可以基于时间序列获取用户图像序列，例如，可以获取时刻A到时刻B中的3帧用户图像作为用户图像序列。

作为另一种方式，也可以基于不同角度获取用户图像序列，例如，图像采集装置可配置有多个摄像头，可同时采集多个角度的用户图像。

作为又一种方式，还可以基于时间序列且不同角度获取用户图像序列，例如图像采集装置配置有可旋转的摄像头，根据待响应语音信号的声源方向可旋转摄像头获取至少一个声源方向的用户图像，其中，可基于每个声源方向分别获取一个用户图像，也可针对每个待响应语音信号分别获取一个用户图像。

在一些实施方式中，可根据每个待响应语音信号的声源方向获取用户图像。具体地，若待响应语音信号存在多个，对每个待响应语音信号进行声源定位，获取每个待响应语音信号的声源方向，且各对应一个声纹特征，此时可获取每个声纹特征对应的待响应语音信号的声源方向，并控制图像采集装置采集每个声源方向的用户图像，并与该声源方向的待响应语音信号对应存储。由此，针对每个待响应语音信号，均有与其对应的声纹特征和用户图像。由此可提高获取的用户图像的图像质量。

在一些实施方式中，终端设备获取用户图像序列，并在图像序列中，确定至少一个正视人脸图像。可基于与预设正视图像是否匹配进行确定，也可通过将用户图像序列依次输入预设网络模型进行确定，还可基于头部姿态分类器进行确定，在此不作限定。

在一种实施方式中，输入不同头部姿态的人脸图像样本，从人脸图像样本中提取人脸的特征点。具体可采用多种方式例如主动表观模型(Active AppearanceModel，AAM)、局部二值化模式(Local Binary Patterns，LBP)，Gabor特征，几何特征等。建立头部姿态模型，头部姿态模型的学习方法有模板匹配法和监督学习法，模板匹配法就是将需要测试的图像与已有的模板进行匹配，根据匹配结果得到头部姿态；监督学习法就是对样本库进行学习得到模型的方法，常用的分类器有：支持向量机，贝叶斯分类器，多类线性判别分析、神经网络、偏最小二乘等，将分类器作用于头部姿态样本库，经过不断地训练并调整参数，得到一个准确率与实时性较好的头部姿态模型。

通过上述步骤可得到头部姿态分类器。将人脸图像作为预置头部姿态分类器的输入，头部姿态分类器针对此次输入，输出分类结果，若分类结果为“正视”，则说明人脸图像为正视人脸图像；若分类结果为其他结果(例如“低头”、“仰头”、“左旋转”、“右旋转”)，则说明人脸图像不为正视人脸图像。由此，基于用户图像序列，用户图像序列包括至少一个用户图像，可通过头部姿态分类器在图像序列中，确定至少一个正视人脸图像。

步骤S204：判断在至少一个待响应用户中，是否存在与至少一个正视人脸图像匹配的待响应用户。

于本实施例中，判断在至少一个待响应用户中，是否存在与至少一个正视人脸图像匹配的待响应用户之后，可包括：若存在与至少一个正视人脸图像匹配的待响应用户，可执行步骤S205。在一些实施方式中，若不存在与至少一个正视人脸图像匹配的待响应用户，此时可认为没有需响应的待响应用户以及需响应的语音信号，则可不执行后续操作。

作为一种实施方式，终端设备可通过人脸识别判断在至少一个待响应用户中，是否存在与正视人脸图像匹配的待响应用户。具体地，终端设备预先存储有预设用户库，预设用户库中包括至少一个声纹特征、至少一个人脸特征，声纹特征、人脸特征和预设用户对应存储于预设用户库中。根据声纹特征可确定与声纹特征对应的预设用户和人脸特征。其中，待响应用户为预设用户库中的预设用户。由此，在至少一个待响应用户中，终端设备基于预设用户库可确定每个待响应用户的人脸特征，并与至少一个正视人脸图像进行匹配，查找是否存在与至少一个正视人脸图像匹配的待响应用户的人脸特征，若存在匹配的人脸特征，可判定在至少一个待响应用户中，存在与至少一个正视人脸图像匹配的待响应用户。由于已根据声纹特征从预设用户库中确定待响应用户，进一步通过人脸识别确定是否存在正视人脸图像与待响应用户的人脸特征匹配，从而通过声纹和人脸两个特征在至少一个待响应用户中，确定是否存在与至少一个正视人脸图像匹配的待响应用户。由此，可在通过声纹特征确定至少一个待响应用户的基础上，通过人脸特征匹配将声纹特征对应的待响应语音信号与待响应用户在用户图像中的正视人脸图像建立关联，使得终端设备可确定待响应语音信号或待响应用户对应的正视人脸图像。

作为另一种实施方式，通过唇语识别和语音识别判断是否存在与正视人脸图像匹配的待响应用户，可以简化对同段音频中包含多用户的语音信号进行语音分离和匹配的过程，提高对待响应语音信号的筛选效率，进一步加速确定需响应的目标用户，提高交互效率。具体地，请参阅图5，图5示出了本实施例提供的基于唇语识别和语音识别筛选待响应用户的方法流程图，该方法包括步骤S2041至步骤S2045：

步骤S2041：对已采集的语音信号进行语音识别，以获得至少一个语音识别结果，每个语音识别结果对应不同待响应用户的声纹特征。

终端设备对已采集的语音信号进行语音识别，基于声纹识别得到的声纹特征，可分别对每个待响应用户的语音信号进行语音识别，以获得至少一个语音识别结果。

步骤S2042：对每个正视人脸图像进行唇语识别，以获得至少一个唇语识别结果。

在一些实施方式中，终端设备可在持续采集输入的语音信号的过程中，可控制图像采集装置采集用户图像并存储至指定存储空间，并在对每个正视人脸图像进行唇语识别时，终端设备可以从指定存储空间中调取存储的历史用户图像，在历史用户图像中，确定每个正视人脸图像对应的历史子用户图像，并对每个正视人脸图像对应的历史子用户图像进行唇语识别，以获得至少一个唇语识别结果。由于终端设备开始对每个正视人脸图像进行唇语识别的时间可能晚于该正视人脸图像对应的语音信号输入的时间，因此通过在采集语音信号的同时存储用户图像，可在需要唇语识别时，调取正视人脸图像对应的历史用户图像，并进行唇语识别。

并进一步地，在一些实施方式中，确定每个正视人脸图像后，可将不包含正视人脸图像的其他用户图像删除，以及时清理存储空间以便下次存储。并且作为一种方式，终端设备还可根据预设时间间隔删除在预设时间间隔以前存储的用户图像，以定期清理存储空间，提高系统运行效率。例如，每隔10分钟，可删除10分钟前存储的用户图像。

对每个正视人脸图像中的唇部图像进行特征提取，具体地，可以采用LPCC(LinearPrediction Cepstrum Coefficient，线性预测倒谱系数)、MFCC(Mel Frequency CepstrumCoefficient，梅尔频率倒谱系数)、HMM(HiddenMarkov Model，隐马尔可夫模型)和DTW(Dynamic TimeWarping，动态时间规整)等算法对语音信号进行特征提取。相应的，可以采用可变模板、ASM(Active Shape Model，主动形状模型)、AAM、PCA(PrincipalComponentAnalysis，主成分分析)、DCT(Discrete Cosine Transform，离散余弦变换)和Snakes等算法对包含唇部的图像信号进行特征提取，得到唇语特征信号。

对唇语特征信号与预设唇语信号进行匹配分析生成唇语识别结果，其中，预设唇语信号可以是预先训练的唇语识别模型中的预设唇语信号，即事先建立预先训练的唇语识别模型。由于预设唇语信号是来自于预先训练的唇语识别模型中的，其有与之对应的文字信号，那么将唇语特征信号与预设唇语信号进行匹配分析生成唇语识别结果，该唇语识别结果中便可以包含有与该唇语特征信号对应的文字信号，由于唇语特征信号和预设唇语信号中均是由口型轮廓形成的，因此，可以按照图像中每一帧的口型轮廓和上一帧的口型轮廓确定一个口型轮廓输出的方式，将唇语特征信号和预测唇语信号进行划分，之后可以按照顺序依次进行对比分析，进而得到识别结果。

步骤S2043：判断是否存在与至少一个唇语识别结果匹配的语音识别结果。

终端设备判断是否存在与至少一个唇语识别结果匹配的语音识别结果的方式，具体地，将每个声纹特征对应的语音识别结果和唇语识别结果进行相似度比较，获取每个声纹特征对应的语音识别结果和唇语识别结果的相似度，当存在一个声纹特征对应的相似度大于等于相似度阈值时，可判定存在与至少一个唇语识别结果匹配的语音识别结果；否则，可判定不存在与至少一个唇语识别结果匹配的语音识别结果。

终端设备对一个声纹特征对应的语音识别结果和唇语识别结果进行相似度比较的方式包括：将声纹特征对应的语音识别结果和唇语识别结果进行相似度比较，当两者的相似度大于等于相似度阈值时，可判定唇语识别结果与语音识别结果匹配；当两者的相似度小于相似度阈值时，可判定唇语识别结果于语音识别结果不匹配。

于本实施例中，判断是否存在与至少一个唇语识别结果匹配的语音识别结果之后，还包括：

若存在，可执行步骤S2044；

若不存在，可执行步骤S2045。

步骤S2044：判定存在与正视人脸图像匹配的待响应用户。

若存在与至少一个唇语识别结果匹配的语音识别结果，判定存在与正视人脸图像匹配的待响应用户。即根据正视人脸图像得到的唇语识别结果，与待响应语音信号的语音识别结果可以匹配，此时，可认为终端设备采集到了该正视人脸图像对应的用户所输入的待响应语音信号，即可认为该正视人脸图像对应的用户说了与待响应语音信号对应的话。

由此，可在通过声纹特征确定至少一个待响应语音信号的基础上，通过对用户图像进行唇语识别和对待响应语音信号的语音识别，并将各自获得的识别结果进行相似度匹配，以根据匹配的唇语识别结果和语音识别结果，将语音识别结果对应的待响应语音信号与在用户图像中唇语识别结果对应的正视人脸图像建立关联，使得终端设备可确定待响应语音信号对应的正视人脸图像。

步骤S2045：判定不存在与正视人脸图像匹配的待响应用户。

若不存在与至少一个唇语识别结果匹配的语音识别结果，判定不存在与正视人脸图像匹配的待响应用户。

步骤S205：若存在与至少一个正视人脸图像匹配的待响应用户，则判断在每个匹配的待响应用户中是否存在至少一个匹配的待响应用户的用户姿态符合预设姿态。

若存在与至少一个正视人脸图像匹配的待响应用户，可通过姿态识别判断在每个匹配的待响应用户中是否存在至少一个匹配的待响应用户的用户姿态符合预设姿态。其中，预设姿态可自定义，可以是点头、确认手势等姿态，在此不作限定。具体地，预设姿态用于表征用户的交互意图，即若用户作出预设姿态，则终端设备可判定用户有交互的意图，由此，终端设备通过判断在每个匹配的待响应用户中是否存在至少一个匹配的待响应用户的用户姿态符合预设姿态，可准确识别用户的交互意图。

步骤S206：若存在至少一个匹配的待响应用户的用户姿态符合预设姿态，则将符合预设姿态的待响应用户作为目标用户。

其中，目标用户为终端设备需响应的用户，即终端设备可获取目标用户的待响应语音信号进行响应。通过前述步骤终端设备逐步从至少一个待响应用户中确定目标用户。具体地，通过获取用户图像序列，并对用户图像序列进行人脸方向的识别，确定出正视终端设备的正视人脸图像，并将正视人脸图像与至少一个待响应用户进行匹配，将待响应语音信号与正视人脸图像进行关联，确定出待响应用户的正视人脸图像，并进一步通过识别待响应用户的正视人脸图像，并进行预设姿态匹配，确定出正视终端设备的目标用户。从而，使得最终确定的目标用户不仅正视终端设备，而且作出预设姿态，可大大提高了对用户交互意图的判断准确率，以准确开展交互。

步骤S207：获取至少一个目标用户的姿态识别特征和每个姿态识别特征的被识别时间。

终端设备获取至少一个目标用户的姿态识别特征和每个姿态识别特征的被识别时间。每个姿态识别特征为符合预设姿态的姿态识别特征，每个姿态识别特征的被识别时间为终端设备获取到该姿态识别特征的时间。由此终端设备可获取每个目标用户作出预设姿态的时间，以响应目标用户的待响应语音信号。

步骤S208：根据每个姿态识别特征的被识别时间，将每个姿态识别特征对应的目标用户的待响应语音信号按被识别时间由前往后存入待响应队列。

其中，被识别时间最早的姿态识别特征对应的待响应语音信号位于待响应队列的首位。其中，待响应队列用于存储等待被响应的待响应语音信号，并且处于待响应队列首位的待响应语音信号具有最高优先级，并优先级从队列首位至队列末位依次递减。由此，终端设备可根据用户作出预设姿态的时间，确定对目标用户的待响应语音信号进行响应的顺序。

在一些实施例中，对用户未设置用户优先级，终端设备仅根据每个姿态识别特征的被识别时间存储目标用户的待响应语音信号，即同一用户的多个待响应语音信号在待响应队列中可不相邻存储。例如，以UiOj表示第i个用户的第j条指令，待响应队列可以为U1O1-U2O1-U1O2(添加短线“-”仅为清晰表述，并不对待响应队列中实际字符串的排布构成限定，下同)。

在另一些实施例中，根据每个姿态识别特征的被识别时间，将每个姿态识别特征对应的目标用户的待响应语音信号按被识别时间由前往后存入待响应队列的具体实施方式可以包括：预先设置有至少一个子队列，每个子队列对应存储一目标用户的至少一个待响应语音信号，即子队列与目标用户一一对应。终端设备持续采集输入的语音信号时，可能采集到同一个目标用户的多个待响应语音信号，每个待响应语音信号对应一个指令，用于控制终端设备执行指定操作。每个目标用户的待响应语音信号按被识别时间由前往后存入该目标用户对应的子队列中。位于子队列的首位的待响应语音信号在该子队列中具有最高优先级，并优先级从队列首位至队列末位依次递减。

进一步地，每个目标用户对应不同的用户优先级，用户优先级高的目标用户的子队列与用户优先级低的子队列相比，具有更高的优先级。例如目标用户U1的用户优先级高于用户U2的用户优先级，则用户U1的子队列中存储的待响应语音信号比用户U2的子队列中存储的待响应语音信号具有更高的优先级。由此基于目标用户的用户优先级和每个目标用户的子队列，可将各目标用户的子队列按目标用户的用户优先级合并成一个待响应队列。例如，以UiOj表示第i个用户的第j条指令，待响应队列为U1O1-U1O2…-U2O1-U2O2…UnO1-UnO2…UnOn。若此时U1O1，U2O1，U2O2都需要占用扬声器，那么在U1O1执行完成前，U2O1和U2O2都因资源冲突不予执行，当U1O1执行完毕后，此时用户U1没有其他指令继续请求扬声器，那么按照规则，可执行U2O1，依此类推。由此，不仅可以异步解决多用户的交互问题，实现资源利用最大化，而且由于设置了用户优先级，使得终端设备在对一个用户的待响应语音信号进行响应的过程中，不能够被其他用户打断，还提高了交互的稳定性，使得人机交互可准确开展。

步骤S209：根据每个待响应语音信号所需占用的资源和每个资源的占用状态，按待响应队列的顺序依次响应目标用户的待响应语音信号，并将已响应的待响应语音信号从待响应队列中删除。

作为一种实施方式，按照待响应队列的顺序，结合资源占用状态，在一个资源空闲时可以按待响应队列依次对需要用到该空闲资源的待响应语音信号进行响应。具体地，本实施例提供了一种按待响应队列响应待响应语音信号的方法，如图6所示，该方法包括：步骤S2091至步骤S2092。

步骤S2091：判断是否存在占用状态为空闲状态的资源。

其中，占用状态包括忙碌状态和空闲状态。资源处于忙碌状态可表征该资源正在响应指令并工作中，资源处于空闲状态可表征该资源当前未响应指令，可被请求用于响应。

在一种实施方式中，每个资源可对应有一个占用状态标识，占用状态标识包括忙碌状态对应的忙碌标识以及空闲状态对应的空闲标识，由此通过获取资源的占用状态标识可确定资源的占用状态。终端设备通过监听各资源的占用状态标识，在监听到占用状态标识切换为空闲标识时，判定存在占用状态为空闲状态的资源。

步骤S2092：若存在占用状态为空闲状态的资源，按待响应队列的顺序依次响应需占用资源的目标用户的待响应语音信号，并将已响应的待响应语音信号从待响应队列中删除。

在一种实施方式中，若存在占用状态为空闲状态的资源，终端设备按待响应队列的顺序依次响应需占用资源的目标用户的待响应语音信号，并将已响应的待响应语音信号从待响应队列中删除。例如，以UiOj表示第i个用户的第j条待响应语音信号，待响应队列为U1O1-U1O2…-U2O1-U2O2…UnO1-UnO2…UnOn。其中，U1O1，U2O1，U2O2都需要占用扬声器，而U102需要占用摄像头。此时，终端设备仅监听到扬声器的占用状态为空闲状态，终端设备可依次响应U1O1，U2O1，U2O2，并在响应完U1O1后，将U1O1从待响应队列中删除，继续响应U2O1，同理，在响应完U201后，将U202从待响应队列中删除，依次类推，不再赘述。

需要说明的是，本实施例中未详细描述的部分，可参考前述实施例，在此不再赘述。

下面以一个具体的例子对上述方法进行示意性说明：

在一种具体的实施方式中，例如，在家庭场景下，预先存储由于预设用户库，预设用户库中包括4个预设用户及4个预设用户的声纹特征和人脸特征，4个预设用户分别为爷爷、爸爸、妈妈、孩子，终端设备持续采集输入的语音信号，并通过声纹识别，获得4个声纹特征对应的4个待响应用户和每个待响应用户的待响应语音信号，其中，4个待响应用户分别为爷爷、爸爸、妈妈、孩子，4个待响应语音信号包括爷爷“我今天难得打领带，真想拍个照片”、爸爸的“音乐M1挺不错的”、妈妈的“我更喜欢音乐M2”、孩子“有没有啥故事听”，终端设备获取用户图像序列，共40帧用户图像，从40帧用户图像中确定正视人脸图像，仅爷爷、奶奶、妈妈、孩子正视终端设备，可排除爸爸，进一步地，将正视终端设备的爷爷、奶奶、妈妈、孩子的正视人脸图像与4个待响应用户(爷爷、爸爸、妈妈、孩子)在预设用户库中对应的人脸特征进行匹配，此时可排除非待响应用户的奶奶，得到正视终端设备的待响应用户爷爷、妈妈、孩子，进一步地，对爷爷、妈妈、孩子对应的用户图像进行姿态识别，仅检测到爷爷、妈妈、孩子相继作出点头动作符合预设姿态，则确定爷爷、妈妈、孩子为目标用户。

进一步地，根据爷爷、妈妈、孩子的点头动作的被识别时间，爷爷早于妈妈，妈妈早于孩子，可将爷爷的“我今天难得打领带，真想拍个照片”、妈妈的“我更喜欢音乐M2”、孩子的“有没有啥故事听”由前往后存入待响应队列，由于爷爷的语音需要占用摄像头，妈妈和孩子的语音需要占用扬声器，且摄像头和扬声器均空闲，此时可控制摄像头给爷爷拍照，并同时控制扬声器播放音乐M2，并在音乐M2播放后播放故事。

本实施例提供的人机交互方法，在前述实施例的基础上，通过获取用户图像序列，并对用户图像序列进行人脸方向的识别，确定出正视终端设备的正视人脸图像，并将正视人脸图像与至少一个待响应用户进行匹配，将待响应语音信号与正视人脸图像进行关联，确定出待响应用户的正视人脸图像，并进一步通过识别待响应用户的正视人脸图像，并进行预设姿态匹配，确定出正视终端设备的目标用户。从而逐步从至少一个待响应用户中确定目标用户，使得最终确定的目标用户不仅正视终端设备，而且作出预设姿态，可大大提高了对用户交互意图的判断准确率，以准确开展交互。并通过队列记录的形式，异步解决多用户交互的问题。

另外，由于待响应队列中可存储多条待响应语音信号，在一个用户的待响应语音信号未被响应时，可能存在终止响应的需求，例如用户离开时，但此时若仍响应该用户的待响应语音信号，不仅无法让该用户接收到交互结果，也浪费了不必要的设备功耗。为此，在前述实施例的基础上，本申请实施例还提供了一种终止交互的方法，具体地，如图7所示，图7示出了本申请实施例提供的一种终止交互的方法流程图，该方法包括：步骤S301至步骤S302。

步骤S301：监测是否接收到目标用户的终止交互指令。

其中，终止交互指令用于指示终端设备终止响应该目标用户的待响应语音信号。具体地，终止交互指令可以是语音，也可以是由终止交互动作或手势触发的，在此不作限定。其中，语音可包括但不限于“结束”、“再见”等，终止交互动作或手势可以包括用户离开、摇头、摆手等。例如，终端设备监测到与目标用户的声纹特征匹配的“再见”的语音信号时，可与预设语音信号进行匹配，若匹配则触发终止交互指令，终端设备接收到目标用户的终止交互指令。

步骤S302：若存在，则将目标用户的待响应语音信号从待响应队列中删除。

若存在，终端设备将目标用户的待响应语音信号从待响应队列中删除，使得之前存储的目标用户的待响应语音信号不会被响应。由此，通过监测终止交互指令，可以明确且灵活地终止交互，避免在目标用户无需继续交互时仍继续响应所带来的资源浪费和设备功耗，并使得在目标用户终止交互后，其他目标用户可被更快的响应，从而提高交互效率，并提高系统的可用性。

另外，由于待响应队列中可存储多条待响应语音信号，在一个用户的待响应语音信号未被响应时，可能存在暂停响应的需求，例如用户暂时离开，但回来时仍需继续交互，但此时若仍响应该用户的待响应语音信号，不仅无法让该用户接收到交互结果，也浪费了不必要的设备功耗，而若直接删除掉该用户的所有待响应语音信号，将导致用户之前输入但却未被响应的待响应语音信号无法继续被响应，使得用户需再重新输入，如此繁琐且不智能，用户体验不佳。为此，在前述实施例的基础上，本申请实施例还提供了一种暂停交互的方法，具体地，如图8所示，图8示出了本申请实施例提供的一种暂停交互的方法流程图，该方法包括步骤S401至步骤S403。

步骤S401：监测是否接收到暂停交互指令。

其中，暂停交互指令用于指示终端设备暂时不继续响应该目标用户的待响应语音信号。具体地，暂停交互指令可以是语音，也可以是由暂停交互动作或手势触发的，在此不作限定。其中，语音可包括但不限于“暂停”、“等我一下”等，暂停交互手势可以为但不限于为“手掌朝前，五指并拢”等。例如，终端设备监测到“手掌朝前，五指并拢”的暂停交互手势时，即接收到目标用户的暂停交互指令。

步骤S402：若存在暂停交互指令，则确定暂停交互指令对应的目标用户。

若存在暂停交互指令，终端设备确定暂停交互指令对应的目标用户。具体地，在一种实施方式中，终端设备监测到暂停交互手势时，可获取暂停交互手势的用户的用户图像，终端设备接受的暂停交互指令携带有用户图像，识别该用户图像可确定对应的待响应用户。

在另一种实施方式中，暂停交互指令是语音指令，终端设备根据暂停交互指令，可对暂停交互指令的语音信号进行声纹识别，从而获取声纹特征以确定暂停交互指令对应的目标用户。

步骤S403：将待响应队列中存储的目标用户的待响应语音信号置为暂停响应状态。

其中，暂停响应状态用于指示暂停响应待响应语音信号。具体地，每个待响应语音信号对应设置有一个状态位，该状态位对应待响应语音信号的响应状态，响应状态包括正常响应状态、暂停响应状态。终端设备在对待响应语音信号进行响应时，可获取该待响应语音信号的状态位，并根据状态位判断当前是否响应该待响应语音信号。

终端设备在接收到目标用户的暂停交互指令后，可将待响应队列中存储的目标用户的待响应语音信号置为暂停响应状态，使得该目标用户的待响应语音信号暂时不被响应，直到终端设备接收到与该目标用户对应的用于继续交互的指令。由此，可通过监测暂停交互指令，灵活暂停交互，大大提高交互灵活性，满足用户需求的同时，更进一步提高系统的可用性。

进一步地，在目标用户的待响应语音信号处于暂停响应状态时，还可继续响应，具体地，如图9所示，图9示出了本申请实施例提供的一种暂停后继续交互的方法流程图，该方法包括步骤S501至步骤S502：

步骤S501：在目标用户的待响应语音信号处于暂停响应状态时，监测是否接收到目标用户对应的继续交互指令。

其中，继续交互指令与暂停交互指令对应，在目标用户的待响应语音信号处于暂停响应状态时，终端设备监测是否接收到目标用户对应的继续交互指令，以更改目标用户的待响应语音信号的响应状态。

其中，继续交互指令可以是由目标用户触发确认的语音或动作、手势等，例如，语音可以包括“继续”、“我回来了”、“下一个问题”、“还有一件事”等。例如，在目标用户的待响应语音信号处于暂停响应状态时，终端设备监测到目标用户的语音信号“继续”时，即接收到目标用户的继续交互指令。

步骤S502：若存在目标用户对应的继续交互指令，则将暂停响应状态切换为正常响应状态，以使目标用户的待响应语音信号继续被响应。

若存在目标用户对应的继续交互指令，终端设备将目标用户的待响应语音信号的响应状态从暂停响应状态切换为正常响应状态，以使目标用户的待响应语音信号继续被响应。由此，通过在目标用户的待响应语音信号处于暂停响应状态时，监测继续交互指令，可灵活地继续交互，使得终端设备继续响应该目标用户的待响应语音信号，大大提高交互灵活性，满足用户需求的同时，更进一步提高系统的可用性。

在一种实施方式中，终端设备将目标用户的待响应语音信号从暂停响应状态切换为正常响应状态后，可将目标用户的待响应语音信号插入到待响应队列的队尾。以在切换响应状态前，待响应队列中其他目标用户的待响应语音信号仍可先被响应。

在另一种实施方式中，终端设备将目标用户的待响应语音信号从暂停响应状态切换为正常响应状态后，可维持目标用户的待响应语音信号在待响应队列的顺序，使得目标用户触发继续交互指令后，可及时被响应。

由此，本实施例提供的人机交互方法，在前述实施例的基础上，通过对终止交互指令、暂停交互指令、继续交互指令的监测，可随时终止、暂停、继续响应待响应队列中的待响应语音信号，大大提高人机交互的灵活性，一方面可避免造成不必要的功耗，另一方面也无需用户反复输入相同的语音信号，给用户造成不便，如此可大大提高人机交互体验。

应该理解的是，虽然图2至图9的流程示意图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图9中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图10，图10示出了本申请一个实施例提供的一种人机交互装置的模块框图。下面将针对图10所示的模块框图进行阐述，所述人机交互装置1000包括：语音采集模块1010、声纹识别模块1020、目标确定模块1030以及语音响应模块1040，其中：

语音采集模块1010，用于持续采集输入的语音信号；

声纹识别模块1020，用于对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个所述待响应用户的待响应语音信号；

目标确定模块1030，用于由所述至少一个待响应用户中，确定目标用户，所述目标用户的用户姿态符合预设姿态且所述目标用户的人脸方向满足预设正视条件；

语音响应模块1040，用于根据每个所述待响应语音信号所需占用的资源和所述资源的占用状态，响应所述目标用户的待响应语音信号。

进一步地，所述目标确定模块1030包括：图像获取单元、用户确定单元、姿态判断单元以及目标确定单元，其中：

图像获取单元，用于获取用户图像序列，并在所述图像序列中，确定至少一个正视人脸图像，所述正视人脸图像中的用户的人脸方向满足预设正视条件；

用户确定单元，用于判断在所述至少一个待响应用户中，是否存在与所述至少一个正视人脸图像匹配的待响应用户；

姿态判断单元，用于若存在与所述至少一个正视人脸图像匹配的待响应用户，则判断在每个所述匹配的待响应用户中是否存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态；

目标确定单元，用于若存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态，则将符合预设姿态的待响应用户作为目标用户。

进一步地，所述声纹识别模块1020包括：声纹识别单元、声纹匹配单元、声纹获取单元以及信号确定单元，其中：

声纹识别单元，用于对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号对应的至少一个声纹特征和每个声纹特征对应的语音信号；

声纹匹配单元，用于基于所述至少一个声纹特征，在预设用户库中进行匹配，所述预设用户库中存储有至少一个预设用户和至少一个预设声纹特征，所述预设用户和所述预设声纹特征一一对应；

声纹获取单元，用于获取与所述至少一个预设声纹特征匹配的至少一个待响应声纹特征、以及与每个所述待响应声纹特征对应的待响应用户；

信号确定单元，用于根据每个所述待响应用户对应的待响应声纹特征，确定每个所述待响应用户的待响应语音信号。

进一步地，预设用户库中存储有至少一个预设用户、至少一个预设声纹特征以及至少一个预设人脸特征，每个所述预设用户对应一个所述预设声纹特征和一个所述预设人脸特征，所述用户确定单元包括：

语音识别子单元，用于对所述已采集的语音信号进行语音识别，以获得至少一个语音识别结果，每个所述语音识别结果对应不同待响应用户的声纹特征；

唇语识别子单元，用于对每个所述正视人脸进行唇语识别，以获得至少一个唇语识别结果；

结果匹配子单元，用于判断是否存在与所述至少一个唇语识别结果匹配的语音识别结果；

第一判定子单元，用于若存在，则判定存在与所述正视人脸图像匹配的待响应用户；

第二判定子单元，用于若不存在，则判定不存在与所述正视人脸图像匹配的待响应用户。

进一步地，所述语音响应模块1040包括：姿态识别单元、队列构建单元以及语音响应单元，其中：

姿态识别单元，用于获取至少一个所述目标用户的姿态识别特征和每个所述姿态识别特征的被识别时间；

队列构建单元，用于根据每个所述姿态识别特征的被识别时间，将每个所述姿态识别特征对应的目标用户的待响应语音信号按被识别时间由前往后存入待响应队列，其中，所述被识别时间最早的姿态识别特征对应的待响应语音信号位于所述待响应队列的首位；

语音响应单元，用于根据每个待响应语音信号所需占用的资源和每个所述资源的占用状态，按所述待响应队列的顺序依次响应所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

进一步地，所述占用状态包括忙碌状态和空闲状态，所述语音响应单元包括：资源判断子单元以及语音响应子单元，其中：

资源判断子单元，用于判断是否存在占用状态为空闲状态的资源；

语音响应子单元，用于若存在占用状态为空闲状态的资源，按所述待响应队列的顺序依次响应需占用所述资源的所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

进一步地，所述人机交互装置1000还包括：终止监测模块、终止交互模块、暂停监测模块、暂停确定模块、暂停交互模块、继续监测模块以及继续交互模块，其中：

终止监测模块，用于监测是否接收到目标用户的终止交互指令。

终止交互模块，用于若存在，则将所述目标用户的待响应语音信号从所述待响应队列中删除。

暂停监测模块，用于监测是否接收到暂停交互指令。

暂停确定模块，用于若存在暂停交互指令，则确定所述暂停交互指令对应的目标用户。

暂停交互模块，用于将所述待响应队列中存储的所述目标用户的待响应语音信号置为暂停响应状态，所述暂停响应状态用于指示暂停响应所述待响应语音信号。

继续监测模块，用于在目标用户的待响应语音信号处于暂停响应状态时，监测是否接收到所述目标用户对应的继续交互指令。

继续交互模块，用于若存在所述目标用户对应的继续交互指令，则将所述暂停响应状态切换为正常响应状态，以使所述目标用户的待响应语音信号继续被响应。

本申请实施例提供的人机交互装置用于实现前述方法实施例中相应的人机交互方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的人机交互装置能够实现图2至图9的方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图11，其示出了本申请实施例提供的一种电子设备的结构框图。本申请中的电子设备1100可以包括一个或多个如下部件：处理器1110、存储器1120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1120中并被配置为由一个或多个处理器1110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。本实施例中，电子设备可以是智能音箱、手机、平板、电脑、个人数字助理、可穿戴式设备等能够运行应用程序的电子设备，还可以是服务器，具体实施方式可参见上述方法实施例所描述的方法。

处理器1110可以包括一个或者多个处理核。处理器1110利用各种接口和线路连接整个电子设备1100内的各个部分，通过运行或执行存储在存储器1120内的指令、程序、代码集或指令集，以及调用存储在存储器1120内的数据，执行电子设备1100的各种功能和处理数据。可选地，处理器1110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1110可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1110中，单独通过一块通信芯片进行实现。

存储器1120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1120可用于存储指令、程序、代码、代码集或指令集。存储器1120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

进一步地，电子设备1100还可以包括显示屏，所述显示屏可以为液晶显示屏(Liquid Crystal Display，LCD)，可以为有机发光二极管(Organic Light-EmittingDiode，OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图11中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图12，其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1200中存储有程序代码1210，所述程序代码1210可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1200可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1200包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1200具有执行上述方法中的任何方法步骤的程序代码1210的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1210可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是智能网关，手机，计算机，服务器，空调器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请各实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护范围之内。

Claims

1.一种人机交互方法，其特征在于，所述方法包括：

持续采集输入的语音信号；

对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个所述待响应用户的待响应语音信号；

获取用户图像序列，并在所述图像序列中，确定至少一个正视人脸图像，所述正视人脸图像中的用户的人脸方向满足预设正视条件；

对所述已采集的语音信号进行语音识别，以获得至少一个语音识别结果，每个所述语音识别结果对应不同待响应用户的声纹特征；

对每个所述正视人脸进行唇语识别，以获得至少一个唇语识别结果；

若存在与所述至少一个唇语识别结果匹配的语音识别结果，则判定存在与所述至少一个正视人脸图像匹配的待响应用户；

判断在所述匹配的待响应用户中是否存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态；

若存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态，则将符合预设姿态的待响应用户作为目标用户，所述目标用户的用户姿态符合预设姿态且所述目标用户的人脸方向满足预设正视条件；

根据每个所述待响应语音信号所需占用的资源和所述资源的占用状态，响应所述目标用户的待响应语音信号。

2.根据权利要求1所述的方法，其特征在于，所述对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个所述待响应用户的待响应语音信号，包括：

对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号对应的至少一个声纹特征和每个声纹特征对应的语音信号；

基于所述至少一个声纹特征，在预设用户库中进行匹配，所述预设用户库中存储有至少一个预设用户和至少一个预设声纹特征，所述预设用户和所述预设声纹特征一一对应；

获取与所述至少一个预设声纹特征匹配的至少一个待响应声纹特征、以及与每个所述待响应声纹特征对应的待响应用户；

根据每个所述待响应用户对应的待响应声纹特征，确定每个所述待响应用户的待响应语音信号。

3.根据权利要求1或2所述的方法，其特征在于，预设用户库中存储有至少一个预设用户、至少一个预设声纹特征以及至少一个预设人脸特征，每个所述预设用户对应一个所述预设声纹特征和一个所述预设人脸特征。

4.根据权利要求1所述的方法，其特征在于，所述根据每个所述待响应语音信号所需占用的资源和所述资源的占用状态，响应所述目标用户的待响应语音信号，包括：

获取至少一个所述目标用户的姿态识别特征和每个所述姿态识别特征的被识别时间；

根据每个所述姿态识别特征的被识别时间，将每个所述姿态识别特征对应的目标用户的待响应语音信号按被识别时间由前往后存入待响应队列，其中，所述被识别时间最早的姿态识别特征对应的待响应语音信号位于所述待响应队列的首位；

根据每个待响应语音信号所需占用的资源和每个所述资源的占用状态，按所述待响应队列的顺序依次响应所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

5.根据权利要求4所述的方法，其特征在于，所述占用状态包括忙碌状态和空闲状态，所述根据每个待响应语音信号所需占用的资源和每个所述资源的占用状态，按所述待响应队列的顺序依次响应所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除，包括：

判断是否存在占用状态为空闲状态的资源；

若存在占用状态为空闲状态的资源，按所述待响应队列的顺序依次响应需占用所述资源的所述目标用户的待响应语音信号，并将已响应的待响应语音信号从所述待响应队列中删除。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

监测是否接收到目标用户的终止交互指令；

若存在，则将所述目标用户的待响应语音信号从所述待响应队列中删除。

7.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

监测是否接收到暂停交互指令；

若存在暂停交互指令，则确定所述暂停交互指令对应的目标用户；

将所述待响应队列中存储的所述目标用户的待响应语音信号置为暂停响应状态，所述暂停响应状态用于指示暂停响应所述待响应语音信号。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在目标用户的待响应语音信号处于暂停响应状态时，监测是否接收到所述目标用户对应的继续交互指令；

若存在所述目标用户对应的继续交互指令，则将所述暂停响应状态切换为正常响应状态，以使所述目标用户的待响应语音信号继续被响应。

9.一种人机交互装置，其特征在于，所述装置包括：

语音采集模块，用于持续采集输入的语音信号；

声纹识别模块，用于对已采集的语音信号进行声纹识别，以获得与所述已采集的语音信号的声纹特征对应的至少一个待响应用户以及每个所述待响应用户的待响应语音信号；

图像获取模块，用于获取用户图像序列，并在所述图像序列中，确定至少一个正视人脸图像，所述正视人脸图像中的用户的人脸方向满足预设正视条件；

语音识别模块，用于对所述已采集的语音信号进行语音识别，以获得至少一个语音识别结果，每个所述语音识别结果对应不同待响应用户的声纹特征；

唇语识别模块，用于对每个所述正视人脸进行唇语识别，以获得至少一个唇语识别结果；

结果匹配模块，用于若存在与所述至少一个唇语识别结果匹配的语音识别结果，则判定存在与所述至少一个正视人脸图像匹配的待响应用户；

姿态判断模块，用于判断在所述匹配的待响应用户中是否存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态；

目标确定模块，用于若存在至少一个所述匹配的待响应用户的用户姿态符合预设姿态，则将符合预设姿态的待响应用户作为目标用户，所述目标用户的用户姿态符合预设姿态且所述目标用户的人脸方向满足预设正视条件；

语音响应模块，用于根据每个所述待响应语音信号所需占用的资源和所述资源的占用状态，响应所述目标用户的待响应语音信号。

10.一种电子设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码被处理器执行时实现如权利要求1至8中任一项所述的方法。