CN112581981A

CN112581981A - 人机交互方法、装置、计算机设备和存储介质

Info

Publication number: CN112581981A
Application number: CN202011218027.XA
Authority: CN
Inventors: 徐仁新; 郭启行; 王福到
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-03-30
Anticipated expiration: 2040-11-04
Also published as: CN112581981B

Abstract

本申请公开了人机交互方法、装置、计算机设备和存储介质，涉及云计算、计算机视觉、语音技术领域。具体实现方案为：获取客户端采集的用户图像，以及用户语音，对用户图像进行人脸识别，以根据识别出的人脸区域在用户图像中的相对位置，确定第一位置信息，对用户语音进行声源位置识别，以确定第二位置信息，根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值，在用户语音属于人机交互语音的声学概率小于声学概率阈值的情况下，拒绝客户端响应用户语音执行人机交互，本申请根据人脸区域在用户图像中的相对位置、声源位置，以及确定的声学概率阈值共同来确定人机交互的情况，提高了人机交互的准确性和可靠性。

Description

人机交互方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及云计算、计算机视觉、语音技术领域，尤其涉及人机交互方法、装置、计算机设备和存储介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，而数字人是人工智能时代的产物，其作为虚拟人能够与人进行沟通，帮助人们答疑解惑，介绍业务等，可广泛应用于各服务行业。数字人通过采集音频信号，进行语音识别、语义服务以及语音合成，以实现沟通的目的。而在实际应用中，环境往往比较复杂，如银行、机场等场合，环境噪音比较大，人群密集，各种干扰语音也较多，这给数字人的正常识别带来很大挑战，导致人机交互的可靠性和准确性降低，因此，如何提高人机交互的可靠性和准确性，是亟待解决的技术问题。

发明内容

本申请提供了一种用于提高人机交互的准确率和可靠性的人机交互方法、装置、计算机设备和存储介质。

根据本申请的一方面，提供了一种人机交互方法，包括：

获取客户端采集的用户图像，以及用户语音；

对所述用户图像进行人脸识别，以根据识别出的人脸区域在所述用户图像中的相对位置，确定第一位置信息；

对所述用户语音进行声源位置识别，以确定第二位置信息；

根据所述第一位置信息和所述第二位置信息的匹配性，确定适用的声学概率阈值；

在所述用户语音属于人机交互语音的声学概率小于所述声学概率阈值的情况下，拒绝所述客户端响应所述用户语音执行人机交互。

根据本申请的另一方面，提供了一种人机交互装置，包括：

获取模块，用于获取客户端采集的用户图像，以及用户语音；

第一确定模块，用于对所述用户图像进行人脸识别，以根据识别出的人脸区域在所述用户图像中的相对位置，确定第一位置信息；

第二确定模块，用于对所述用户语音进行声源位置识别，以确定第二位置信息；

第三确定模块，用于根据所述第一位置信息和所述第二位置信息的匹配性，确定适用的声学概率阈值；

拒绝模块，用于在所述用户语音属于人机交互语音的声学概率小于所述声学概率阈值的情况下，拒绝所述客户端响应所述用户语音执行人机交互。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的人机交互方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的人机交互方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种人机交互方法的流程示意图；

图2为本申请实施例提供的另一种人机交互方法的流程示意图；

图3为本申请实施例提供的一种人机交互装置的结构示意图；

图4是根据本申请实施例的人机交互方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的人机交互方法、装置、计算机设备和存储介质。

图1为本申请实施例所提供的一种人机交互方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤101，获取客户端采集的用户图像，以及用户语音。

本申请实施例的执行主体为服务器，其中，人机交互装置配置在服务器中，该服务器可以是本地的服务器，也可以是云端的服务器，其中，服务器可以是单个的服务器也可以是服务器集群。

其中，客户端，是指由服务器提供服务的应用程序、网页，或终端设备，例如数字人、机器人等。比如，本申请的服务器为人机交互的应用程序的服务器，则客户端是所有安装在用户的终端设备中的该人机交互的应用程序，本申请实施例对此不做限定。

本申请实施例中，云端服务器获取客户端通过驱动摄像装置采集的用户图像，以及驱动拾音装置采集到的用户语音。

步骤102，对用户图像进行人脸识别，以根据识别出的人脸区域在用户图像中的相对位置，确定第一位置信息。

本申请实施例中，服务器对从客户端获取到的用户图像进行人脸识别，识别出人脸区域在用户图像中的相对位置，根据该相对位置，确定第一位置信息。其中，第一位置信息包含采集到的人脸和客户端的相对位置信息，也就是说第一位置信息用于指示人脸位置相对于客户端的相对位置。

步骤103，对用户语音进行声源位置识别，以确定第二位置信息。

本申请实施例中，服务器对从客户端获取到的用户语音信息，进行解析和识别，确定声源位置，得到用于指示声源相对于客户端的相对位置的第二位置信息。

步骤104，根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值。

其中，声学概率阈值为通过对获取的用户语音进行识别，以用于区分当前用户语音为用户和客户端交互的语音，或者是环境噪音、背景聊天等语音，并根据识别的结果确定出为用户与客户端进行人机交互的声音的声学概率。

本实施例中，通过比较第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值，也就是说第一位置信息和第二位置信息的匹配程度不同，确定使用的声学概率阈值也不同，通过设置不同的声学概率阈值，以识别当前客户端采集到的用户语音是否为人机交互的语音，实现了对各种干扰噪音的识别和区分，提供了人机交互语音识别的准确性，具体可通过以下两种可能的实现方式实现。

在本申请实施例的一种可能的实现方式中，在第一位置信息与第二位置信息不匹配的情况下，确定声学概率阈值为第一取值；在第一位置信息与第二位置信息匹配的情况下，确定声学概率阈值为第二取值，其中，第一取值大于第二取值，通过将第一位置信息和第二位置信息确定为匹配和不匹配，以确定对应的声学概率阈值，满足了对人机交互语音和噪音的识别，同时简化了识别的过程，提高了效率。

在本申请实施例的另一种可能的实现方式中，将第一位置信息与第二位置信息的匹配程度，划分为不同的程度等级，根据程度等级，确定对应的声学概率阈值，其中，声学概率阈值和匹配程度的等级成反比。

步骤105，在用户语音属于人机交互语音的声学概率小于声学概率阈值的情况下，拒绝客户端响应用户语音执行人机交互。

本申请实施例中，服务器对用户语音的识别结果进行评分，确定用户语音属于人机交互语音的声学概率，作为一种可能的实现方式，可通过训练得到的识别模型，得到用户语音属于人机交互语音的声学概率。若用户语音属于人机交互语音的声学概率小于确定的声学概率阈值，也就是说识别当前用户语音属于人机交互语音的声学概率较小，服务器会认为当前获取到的客户端采集到的用户语音不为人机交互的语音，可能为噪声语音，因此，向客户端发送拒绝指令，拒绝客户端响应用户语音执行人机交互，以实现沟通的目的，实现了准确区分是否为人机交互，提高了人机交互的可靠性。

本申请实施例的人机交互方法，获取客户端采集的用户图像，以及用户语音，对用户图像进行人脸识别，以根据识别出的人脸区域在用户图像中的相对位置，确定第一位置信息，对用户语音进行声源位置识别，以确定第二位置信息，根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值，在用户语音属于人机交互语音的声学概率小于声学概率阈值的情况下，拒绝客户端响应用户语音执行人机交互，本申请根据人脸区域在用户图像中的相对位置、声源位置，以及确定的声学概率阈值共同来确定人机交互的情况，提高了人机交互的准确性和可靠性。

基于上述实施例，本实施例提供了另一种人机交互方法，图2为本申请实施例提供的另一种人机交互方法的流程示意图，如图2所示，该方法包含以下步骤：

步骤201，获取客户端采集的用户图像，以及用户语音。

步骤202，对用户图像进行人脸识别，以根据识别出的人脸区域在用户图像中的相对位置，确定第一位置信息。

步骤203，对用户语音进行声源位置识别，以确定第二位置信息。

具体地，可参照前述实施例中的步骤101-步骤103，原理相同，此处不再赘述。

步骤204，在第一位置信息与第二位置信息不匹配的情况下，确定声学概率阈值为第一取值。

其中，第一取值大于第二取值。

本实施例中，若确定根据采集到的图像确定的人相对于客户端的第一位置信息，与根据采集到的声音识别得到的第二位置信息不匹配，也就是说两个位置信息的偏差较大，则当前图像中的人和声源所处的位置相差较远，则确定对应的声学概率阈值为较大的第一取值，从而，以提高后续该场景下，人机交互识别的准确性。

步骤205，判断用户语音属于人机交互语音的声学概率是否小于第一取值，若是，执行步骤206，若否，执行步骤207。

步骤206，拒绝客户端响应用户语音执行人机交互。

步骤207，指示客户端响应用户语音执行人机交互。

具体地，若判断用户语音属于人机交互语音的声学概率小于声学概率的第一取值，则说明用户语音属于人机交互语音的可能性较小，则拒绝客户端响应用户语音执行人机交互。若判断用户语音属于人机交互语音的声学概率大于声学概率的第一取值，则说明用户语音属于人机交互语音的可能性较大，则响应用户语音执行人机交互，提高了人机交互响应的的可靠性。

步骤208，在第一位置信息与第二位置信息匹配的情况下，确定声学概率阈值为第二取值。

本实施例中，若根据采集到的图像确定的人相对于客户端的第一位置信息，与根据采集到的声音识别得到的第二位置信息匹配，也就是说两个位置信息的偏差较小，则当前图像中的人和声源所处的位置相差较近，在预设范围内，则确定对应的声学概率阈值为较小的第二取值，即第一取值大于第二取值，从而，以提高后续该场景下，人机交互识别的准确性。

步骤209，获取人脸区域的人脸识别置信度。

本实施例中，在服务器对用户图像进行人脸识别后，获取图像中人脸识别的置信度，也就是说图像中包含人脸的概率，在一种场景下，若识别得到的图像中包含的人脸置信度为多个时，则取置信度最大的值作为人脸区域的人脸识别置信度。

步骤210，识别声学概率所属的第一区间范围，确定第一区间范围适用的人脸识别的第一置信度阈值。

本实施例中，设置了对应声学概率对应的区间范围，为了提高识别的可靠性，设置区间范围包括第一区间范围和第二区间范围，其中，第一区间范围的上限为第二区间范围的下限，第一区间范围适用的置信度阈值大于第二区间范围适用的置信度阈值。

例如，第一区间范围为[Hl，Hm]，则第二区间范围则为[Hm，Hh]。第一区间范围适用的置信度阈值为Ph，第二区间范围适用的置信度阈值为Pl，其中，Ph大于Pl。

具体地，确定用户语音属于人机交互语音的声学概率，识别该声学概率所属的区间范围，若为第一区间范围，确定第一区间范围适用的人脸识别的第一置信度阈值。

需要说明的是，若声学概率不属于所确定的声学概率的第一区间范围，例如，声学概率小于Hl，则说明当前采集到的语音并非是进行人机交互的语音，而是干扰噪音，例如，背景聊天、环境噪音等，则直接拒绝客户端执行人机交互，提高了人机交互的可靠性。

步骤211，在人脸识别置信度大于或等于第一置信度阈值的情况下，响应用户语音执行人机交互。

本实施例中，在确定第一位置信息与第二位置信息匹配的情况下，若人脸识别置信度大于或等于第一置信度阈值，则说明当前获取到的图像中识别出人脸的概率较大，同时人脸和声源位置的偏差也在预设范围内，则可以响应用户语音执行人机交互，提高了人机交互识别的准确性。

步骤212，在人脸识别置信度小于第一置信度阈值的情况下，拒绝客户端响应用户语音执行人机交互。

本实施例中，在确定第一位置信息与第二位置信息匹配的情况下，即人脸位置和声源位置的偏差在预设范围内，进一步，若人脸识别置信度小于第一置信度阈值，则说明当前获取到的图像中识别出人脸的概率较小，则拒绝客户端响应用户语音执行人机交互，以在非人机交互的场景下，拒绝客户端响应用户语音执行人机交互，提高了人机交互识别的准确性。

步骤213，识别声学概率所属的第二区间范围，确定第二区间范围适用的人脸识别的第二置信度阈值。

本实施例中，在确定第一位置信息和第二位置信息匹配的情况下，为了提高人机交互识别的准确性，进一步，根据人脸识别的置信度进行判断，本实施例中为了进一步提高不同场景下，人脸识别置信度阈值的可靠性，识别声学概率所属的区间范围，确定为第二区间范围，则确定第二区间范围适用的人脸识别的第二置信度阈值，提高了人脸识别的置信度阈值的准确性。

步骤214，在人脸识别置信度大于或等于第二置信度阈值的情况下，响应用户语音执行人机交互。

步骤215，在人脸识别置信度小于第二置信度阈值的情况下，拒绝客户端响应用户语音执行人机交互。

本实施例中，通过将获取到的人脸识别置信度，与人脸识别的置信度阈值，第二置信度阈值比较，实现了基于第一位置信息、第二位置信息，以及人脸识别置信度和对应的第二置信度阈值的多个条件，来确定识别响应客户端执行人机交互，提高了人机交互执行的可靠性和准确性。

需要说明的是，在第一位置信息与第二位置信息匹配的情况下，若声学概率不属于所确定的声学概率的第二区间范围，例如，声学概率大于Hh，则说明当前采集到的语音是进行人机交互的语音，而不是干扰噪音，则直接响应客户端执行人机交互，不再通过人脸识别置信度进行确认，提高了人机交互的效率。

本申请实施例提供的人机交互方法中，根据第一位置信息与第二位置信息的匹配性，确定声学概率阈值的不同取值，提高了声学概率阈值的可靠性，并在确定第一位置信息和第二位置信息匹配的情况下，根据声学概率所属的区间范围，确定适用的置信度阈值，进而，根据人脸识别置信度和置信度阈值比较，以确定是否进行人机交互，实现了基于第一位置信息、第二位置信息，以及人脸识别置信度和对应的第二置信度阈值的多个条件，来确定识别响应客户端执行人机交互，提高了人机交互执行的可靠性和准确性。

基于上述实施例，本实施例提供了另一种人机交互方法，步骤104、步骤204和步骤208之前，该方法还包含以下步骤：

确定第一位置信息和第二位置信息均处于设定位置范围内。

本实施例中，在根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值之前，可先确定第一位置信息和第二位置信息是否均处于设定位置范围内，若均处于设定位置范围内，则说明第一位置信息和第二位置信息偏差较小，若任一个不处于设定位置范围内，则说明第一位置信息和第二位置信息偏差较大，当偏差较大时，则直接拒绝客户端响应用户语音执行人机交互，若偏差较小，则再根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值，进行进一步识别，以提高人机交互的可靠性和准确性。

基于上述实施例，本实施例提供了另一种人机交互方法，步骤104、步骤204和步骤208之前，方法还包含以下步骤：

根据用户语音的语义特征进行领域分类；

确定用户语音属于目标领域的概率大于领域概率阈值。

本实施例中，服务器根据获取到的用户语音，对用户语音进行语义识别，识别得到用户语音的语义特征，并根据语义特征进行领域分类，其中，领域分类包含金融领域分类，医疗领域分类、或音乐领域分类等。进而，在针对目标领域进行人机交互的场景下，可确定用户语音属于目标领域的概率大于领域概率阈值，也就是说确定了用户语音属于目标领域，从而实现了针对目标领域进行人机交互，满足了特定领域或不同领域的定向交互的需求。同时，实现了基于第一位置信息、第二位置信息，以及人脸识别置信度和对应的第二置信度阈值、以及用户语音所属的技术领域的多个条件的融合，来确定识别响应客户端执行人机交互，提高了人机交互执行的可靠性和准确性。

为了实现上述实施例，本申请还提供了一种人机交互装置。

图3为本申请实施例提供的一种人机交互装置的结构示意图。

如图3所示，包括：获取模块31、第一确定模块块32、第二确定模块33、第三确定模块34和拒绝模块35。

获取模块31，用于获取客户端采集的用户图像，以及用户语音。

第一确定模块32，用于对用户图像进行人脸识别，以根据识别出的人脸区域在用户图像中的相对位置，确定第一位置信息。

第二确定模块33，用于对用户语音进行声源位置识别，以确定第二位置信息。

第三确定模块34，用于根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值。

拒绝模块35，用于在用户语音属于人机交互语音的声学概率小于声学概率阈值的情况下，拒绝客户端响应用户语音执行人机交互。

进一步，在本申请实施例的一种可能的实现方式中，第三确定模块34，具体用于：

在第一位置信息与第二位置信息不匹配的情况下，确定声学概率阈值为第一取值；在第一位置信息与第二位置信息匹配的情况下，确定声学概率阈值为第二取值；其中，第一取值大于第二取值。

在本申请实施例的一种可能的实现方式中，该装置，还包括：

获取模块31，还用于获取人脸区域的人脸识别置信度。

第四确定模块，用于在所述第一位置信息与所述第二位置信息匹配，且所述用户语音的所述声学概率大于或等于所述声学概率阈值的情况下，根据所述声学概率所属的区间范围，确定适用的置信度阈值。

响应模块，用于在所述人脸识别置信度大于或等于所述置信度阈值的情况下，响应所述用户语音执行人机交互。

拒绝模块，用于在所述人脸识别置信度小于所述置信度阈值的情况下，拒绝所述客户端响应所述用户语音执行人机交互。

在本申请实施例的一种可能的实现方式中，其中，所述区间范围包括第一区间范围和第二区间范围；其中，所述第一区间范围的上限为所述第二区间范围的下限；所述第一区间范围适用的置信度阈值大于所述第二区间范围适用的置信度阈值。

交互模块，用于在第一位置信息与第二位置信息不匹配，且用户语音的声学概率大于或等于声学概率阈值的情况下，指示客户端响应用户语音执行人机交互。

第五确定模块，用于确定第一位置信息和第二位置信息均处于设定位置范围内。

第六确定模块，用于根据用户语音的语义特征进行领域分类；确定用户语音属于目标领域的概率大于领域概率阈值。

需要说明的是，前述对人机交互方法实施例的解释说明，也适用于本实施例的人机交互装置，原理相同，此处不再赘述。

本申请实施例的人机交互装置，获取客户端采集的用户图像，以及用户语音，对用户图像进行人脸识别，以根据识别出的人脸区域在用户图像中的相对位置，确定第一位置信息，对用户语音进行声源位置识别，以确定第二位置信息，根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值，在用户语音属于人机交互语音的声学概率小于声学概率阈值的情况下，拒绝客户端响应用户语音执行人机交互，本申请根据人脸区域在用户图像中的相对位置、声源位置，以及确定的声学概率阈值共同来确定人机交互的情况，提高了人机交互的准确性和可靠性。

为了实现上述实施例，本实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述方法实施例所述的人机交互方法。

为了实现上述实施例，本实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述方法实施例所述的人机交互方法。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例的人机交互方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的人机交互方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的人机交互方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的人机交互方法对应的程序指令/模块(例如，附图3所示的获取模块31、第一确定模块块32、第二确定模块33、第三确定模块34和拒绝模块35)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的人机交互方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据人机交互方法的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至人机交互方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

人机交互方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与人机交互方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，获取客户端采集的用户图像，以及用户语音，对用户图像进行人脸识别，以根据识别出的人脸区域在用户图像中的相对位置，确定第一位置信息，对用户语音进行声源位置识别，以确定第二位置信息，根据第一位置信息和第二位置信息的匹配性，确定适用的声学概率阈值，在用户语音属于人机交互语音的声学概率小于声学概率阈值的情况下，拒绝客户端响应用户语音执行人机交互，本申请根据人脸区域在用户图像中的相对位置、声源位置，以及确定的声学概率阈值共同来确定人机交互的情况，提高了人机交互的准确性和可靠性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种人机交互方法，包括：

获取客户端采集的用户图像，以及用户语音；

对所述用户语音进行声源位置识别，以确定第二位置信息；

2.根据权利要求1所述的人机交互方法，其中，所述根据所述第一位置信息和所述第二位置信息的匹配性，确定适用的声学概率阈值，包括：

在所述第一位置信息与所述第二位置信息不匹配的情况下，确定所述声学概率阈值为第一取值；

在所述第一位置信息与所述第二位置信息匹配的情况下，确定所述声学概率阈值为第二取值；

其中，所述第一取值大于所述第二取值。

3.根据权利要求1所述的人机交互方法，其中，所述对所述用户图像进行人脸识别之后，还包括：

获取所述人脸区域的人脸识别置信度；

若所述第一位置信息与所述第二位置信息匹配，根据所述声学概率所属的区间范围，确定适用的置信度阈值；

在所述人脸识别置信度大于或等于所述置信度阈值的情况下，响应所述用户语音执行人机交互；

在所述人脸识别置信度小于所述置信度阈值的情况下，拒绝所述客户端响应所述用户语音执行人机交互。

4.根据权利要求3所述的人机交互方法，其中，所述区间范围包括第一区间范围和第二区间范围；其中，所述第一区间范围的上限为所述第二区间范围的下限；所述第一区间范围适用的置信度阈值大于所述第二区间范围适用的置信度阈值。

5.根据权利要求1-4任一项所述的人机交互方法，其中，所述根据所述第一位置信息和所述第二位置信息的匹配性，确定适用的声学概率阈值之后，还包括：

在所述第一位置信息与所述第二位置信息不匹配，且所述用户语音的所述声学概率大于或等于所述声学概率阈值的情况下，指示所述客户端响应所述用户语音执行人机交互。

6.根据权利要求1-4任一项所述的人机交互方法，其中，所述根据所述第一位置信息和所述第二位置信息的匹配性，确定适用的声学概率阈值之前，还包括：

确定所述第一位置信息和所述第二位置信息均处于设定位置范围内。

7.根据权利要求1-4任一项所述的人机交互方法，其中，所述根据所述第一位置信息和所述第二位置信息的匹配性，确定适用的声学概率阈值之前，还包括：

根据所述用户语音的语义特征进行领域分类；

确定所述用户语音属于目标领域的概率大于领域概率阈值。

8.一种人机交互装置，包括：

9.根据权利要求8所述的人机交互装置，其中，所述第三确定模块，具体用于：

其中，所述第一取值大于所述第二取值。

10.根据权利要求8所述的人机交互装置，其中，所述装置，还包括：

所述获取模块，还用于获取所述人脸区域的人脸识别置信度；

第四确定模块，用于在所述第一位置信息与所述第二位置信息匹配，且所述用户语音的所述声学概率大于或等于所述声学概率阈值的情况下，根据所述声学概率所属的区间范围，确定适用的置信度阈值；

响应模块，用于在所述人脸识别置信度大于或等于所述置信度阈值的情况下，响应所述用户语音执行人机交互；

所述拒绝模块，用于在所述人脸识别置信度小于所述置信度阈值的情况下，拒绝所述客户端响应所述用户语音执行人机交互。

11.根据权利要求10所述的人机交互装置，其中，所述区间范围包括第一区间范围和第二区间范围；其中，所述第一区间范围的上限为所述第二区间范围的下限；所述第一区间范围适用的置信度阈值大于所述第二区间范围适用的置信度阈值。

12.根据权利要求8-11任一项所述的人机交互装置，其中，所述装置，还包括：

交互模块，用于在所述第一位置信息与所述第二位置信息不匹配，且所述用户语音的所述声学概率大于或等于所述声学概率阈值的情况下，指示所述客户端响应所述用户语音执行人机交互。

13.根据权利要求8-11任一项所述的人机交互装置，其中，所述装置，还包括：

第五确定模块，用于确定所述第一位置信息和所述第二位置信息均处于设定位置范围内。

14.根据权利要求8-11任一项所述的人机交互装置，其中，所述装置，还包括：

第六确定模块，用于根据所述用户语音的语义特征进行领域分类；确定所述用户语音属于目标领域的概率大于领域概率阈值。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的人机交互方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的人机交互方法。