CN111309153B

CN111309153B - 人机交互的控制方法和装置、电子设备和存储介质

Info

Publication number: CN111309153B
Application number: CN202010220649.XA
Authority: CN
Inventors: 吴准; 邬诗雨; 李士岩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2024-04-09
Anticipated expiration: 2040-03-25
Also published as: CN111309153A

Abstract

本申请实施例公开了人机交互的控制方法和装置、电子设备和存储介质，涉及人机交互技术领域。具体实现方案为：获取用户通过人机交互界面输入的交互信息，根据交互信息，确定在人机交互界面上显示的数字人与用户的互动动作，控制数字人通过人机交互界面，输出互动动作，通过确定交互信息对应的互动动作，以便在人机交互界面上显示数字人输出的互动动作，可避免相关技术中，数字人被动的根据用户设定的需求，反复执行相同的动作，或者数字人被动的跟随用户的动作，导致交互单一刻板的问题，且由于可控制数字人输出与用户进行交互的交互动作，因此可以使人机交互更加具有灵活性和多样性，从而可以增强互动的效果，进而提高用户的交互体验。

Description

人机交互的控制方法和装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及人机交互技术领域，具体涉及一种人机交互的控制方法和装置、电子设备和存储介质。

背景技术

随着人工智能技术的发展，人机交互的相关技术也有了新的突破，且交互方式主要可以从两个方面进行体现，一个方面为语音交互，另一个方面为动作交互。

在现有技术中，动作交互主要可以从两方面进行体现，一方面为轮回执行预设的系列动作，如轮回的介绍某些商品；另一方面为动作跟随，例如，用户执行某个动作，数字人执行与用户相同的动作。

然而发明人在实现本申请的过程中，发现至少存在如下问题：数字人被动的执行动作，缺乏交互的灵活性。

发明内容

提供了一种用于提高交互的灵活性的人机交互的控制方法和装置、电子设备和存储介质。

根据第一方面，提供了一种人机交互的控制方法，所述方法包括：

获取用户通过人机交互界面输入的交互信息；

根据所述交互信息，确定在所述人机交互界面上显示的数字人与所述用户的互动动作；

控制所述数字人通过所述人机交互界面，输出所述互动动作。

在本申请实施例中，通过确定交互信息对应的互动动作，以便在人机交互界面上显示数字人输出的互动动作，可以避免在相关技术中，数字人被动的根据用户设定的需求，反复执行相同的动作，或者数字人被动的跟随用户的动作，导致交互单一刻板的问题，且由于可控制数字人输出与用户进行交互的交互动作，因此可以使得人机交互更加具有灵活性和多样性，从而可以增强互动的效果，进而提高用户的交互体验。

根据第二方面，本申请实施例提供了一种人机交互的控制装置，所述装置包括：

获取模块，用于获取用户通过人机交互界面输入的交互信息；

确定模块，用于根据所述交互信息，确定在所述人机交互界面上显示的数字人与所述用户的互动动作；

输出模块，用于控制所述数字人通过所述人机交互界面，输出所述互动动作。

根据第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上实施例所述的方法。

根据第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上实施例所述的方法。

根据本申请的通过确定交互信息对应的互动动作，以便在人机交互界面上显示数字人输出的互动动作技术，解决了在相关技术中，数字人被动的根据用户设定的需求，反复执行相同的动作，或者数字人被动的跟随用户的动作，导致交互单一刻板的问题，且由于可控制数字人输出与用户进行交互的交互动作，因此可以使得人机交互更加具有灵活性和多样性，从而可以增强互动的效果，进而提高用户的交互体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请第一实施例的应用场景示意图；

图2为本申请第二实施例的应用场景示意图；

图3为本申请第三实施例的应用场景示意图；

图4为本申请一个实施例的人机交互的控制方法的流程示意图；

图5为本申请另一实施例的人机交互的控制方法的流程示意图；

图6为本申请一个实施例的界面示意图；

图7为本申请另一实施例的界面示意图；

图8为本申请另一实施例的界面示意图；

图9为本申请又一实施例的人机交互的控制方法的流程示意图；

图10为本申请另一实施例的界面示意图；

图11为本申请又一实施例的界面示意图；

图12为本申请一个实施例的人机交互的控制装置的示意图；

图13为本申请另一个实施例的人机交互的控制装置的示意图；

图14为本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请实施例的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请实施例的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一些实施例中，本申请实施例的人机交互的控制方法可以应用于如图1所示的应用场景。

在如图1所示的应用场景中，人机交互的控制装置可以为包括人机交互界面的显示屏，可通过人机交互界面对数字人进行显示，且该显示屏可以应用于商场、银行和医院等场所，且人机交互的控制装置的高度可基于用户的身高进行设定。

且在图1所示的应用场景中，显示屏可采用发光二极管LED(light emittingdiode，LED)显示屏。

当然，在另一些实施例中，显示屏也可采用有机发光二极管OLED显示屏，具体可参阅图2。

在另一些实施例中，本申请实施例的人机交互的控制方法还可以应用于如图3所示的应用场景。

在如图3所示的应用场景中，人机交互的控制装置可以为包括人机交互界面的显示屏，可通过人机交互界面对数字人进行显示，且该显示屏尤其适用于柜台办理业务时场景，如商场的会员办理柜台和银行的业务办理柜台等场景，且人机交互的控制装置在柜台中的高度可基于用户站立时的高度进行设定，也可以基于柜台前的座椅的高度进行设定。

在相关技术中，人机交互主要可以从两方面进行体现，一方面为数字人轮回执行预设的系列动作，如轮回的介绍某些商品；另一方面为数字人动作跟随，例如，用户执行某个动作，数字人执行与用户相同的动作。

由于相关技术中数字人被动的根据用户设定的需求或者跟随用户的动作，导致缺乏交互的灵活性。

为了解决上述问题，本申请的发明人在经过创造性的劳动之后，得到了本申请的发明构思：基于用户输入的交互信息，控制数字人通过人机交互界面输出用于，与用户输入的交互信息进行互动的互动动作。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

根据本申请实施例的一个方面，本申请实施例提供了一种人机交互的控制方法。

请参阅图4，图4为本申请实施例的人机交互的控制方法的流程示意图。

如图4所示，该方法包括：

S101：获取用户通过人机交互界面输入的交互信息。

其中，本申请实施例的执行主体可以为人机交互的控制装置，且人机交互的控制装置具体可以服务器、计算机和处理器等。

例如，当本申请实施例的方法应用于如图1、图2和图3所示的应用场景中，本申请实施例的执行主体可以为设置于显示屏中的处理器；或者，可以为与显示屏通信连接的计算机和服务器。

其中，交互信息用于表征用于与数字人进行交互的信息，可以为用户基于交互需求或意愿主动输入的；也可以为用户基于显示屏的指引输入的。其中，显示屏的指引包括音频信息的指引，还可以包括通过显示屏的人机交互界面上的文字信息的指引。

值得说明地是，本申请实施例对用户输入交互信息的方式不做限定。例如，用户可以在人机交互界面上输入交互信息，也可以在与人机交互界面一定距离的范围内输入交互信息。

S102：根据交互信息，确定在人机交互界面上显示的数字人与用户的互动动作。

也就是说，若处理器获取到交互信息，可以根据交互信息确定数字人的互动动作，该互动动作可在人机交互界面上进行显示，且该互动动作为用于与用户进行互动的动作。

在本申请实施例中，通过交互信息确定用于与用户进行互动的动作，可以提高数字人与用户进行互动的灵活性和活跃性，从而提高用户的交互体验。

S103：控制数字人通过人机交互界面，输出互动动作。

在该步骤中，在确定出数字人的互动动作之后，可以控制数字人在人机交互界面上输出互动动作，由于输出的互动动作为与用户进行互动的动作，而非简单地动作跟随，因此，可以提高互动的活跃性，从而增强用户的交互体验。

基于上述分析可知，本申请实施例提供了一种人机交互的控制方法，该方法包括：获取用户通过人机交互界面输入的交互信息，根据交互信息，确定在人机交互界面上显示的数字人与用户的互动动作，控制数字人通过人机交互界面，输出互动动作，通过确定交互信息对应的互动动作，以便在人机交互界面上显示数字人输出的互动动作，可以避免在相关技术中，数字人被动的根据用户设定的需求，反复执行相同的动作，或者数字人被动的跟随用户的动作，导致交互单一刻板的问题，且由于可控制数字人输出与用户进行交互的交互动作，因此可以使得人机交互更加具有灵活性和多样性，从而可以增强互动的效果，进而提高用户的交互体验。

为使读者更加深刻地理解本申请实施例的方案及效果，现结合图5对人机交互的过程进行更为详细地阐述。其中，图5为本申请另一实施例的人机交互的控制方法的流程示意图。

如图5所示，该方法包括：

S201：通过人机交互界面输出引导信息，引导信息用于引导用户输入交互信息。

在本申请实施例中，为了提高人机交互时，数字人在交互时的主动性，可以通过人机交互界面输出引导用户输入交互信息的引导信息，以便引起用户的关注，从而提高交互的可能性，进而增强用户的交互体验。

例如，在人机交互界面上输出“我们击掌吧”，相关的界面示意图可参阅图6。

值得说明的是，引导信息还可以用于，引导用户输入的交互信息的具体内容，即引导信息可以为用户提供交互信息的示范。

例如，基于上述示例，可在人机交互界面上输出“我们击掌吧”的同时，还可以在人机交互界面上输出“我们击掌吧”对应的动作。即，可以通过动作引导的方式引导用户输入相应的动作。

S202：在人机交互界面上显示感应区域，感应区域用于接收触摸手势，或者，用于感应动作手势。

其中，可对用于接收触摸手势，或者，用于感应动作手势的感应区域进行显示，以便引导用户在感应区域内输入触摸手势，或者输入动作手势，从而提高用户的关注，提高交互的可能性，增强用户的交互体验。

具体地，基于上述示例，可将“我们击掌吧”在感应区域内进行显示。

S203：对感应区域的温度进行监测。

具体地，可以在感应区域内设置温度传感器，以便通过温度传感器对感应区域的温度进行监测。

S204：判断感应区域的温度与温度阈值之间的大小，如果感应区域的温度大于温度阈值，则执行S205；若感应区域的温度小于或等于温度阈值，则执行S203。

值得说明地是，一般情况下，人机交互界面的温度为其所处环境的温度，因此人的温度相对会高于人机交互界面的温度，所以，若感应区域接收到触摸手势时，感应区域的温度会变高，也就是说，当感应区域的温度达到某高度时，可能为有用户输入触摸手势，则执行S205；同理，若感应区域感应到动作手势，感应区域的温度会变高，则执行S205。

也就是说，当感应区域的温度大于温度阈值时，则说明感应区域接收到触摸手势，或者感应区域感应到动作手势，则可执行S205。

S205：获取用户通过人机交互界面输入的用户手势(即交互信息)，其中，用户手势为用户在人机交互界面输入的触摸手势；或者，用户手势为用户在距人机交互界面设定距离内的动作手势。

其中，关于S205的部分描述参见S201，此处不再赘述。

且结合S201的描述可知，交互信息至少可以从两个方面进行体现，一个方面：交互信息为用户在人机交互界面上输入的触摸手势，如，用户通过手指在人机交互界面上画的圆圈等；另一个方面：交互信息为用户在与人机交互界面存在一定的距离时，做出的某个动作手势，如，用户在距离人机交互界面0.5的范围内，画圆圈的动作。

由于交互信息不仅可以为用户在人机交互界面上输入的触摸手势，还可以为用户在与人机交互界面存在一定的距离时，做出的某个动作手势，因此，可以使得交互信息的形式和内容更丰富，为用户带来更多的交互选择，从而提高用户的交互体验。

其中，设定距离可以基于需求、经验和试验确定。

基于上述示例，若在人机交互界面上输出的为“我们击掌吧”，则交互信息很可能为用户在人机交互界面上输入的击掌的手势，其中，该击掌的手势可以为，用户将击掌动作手直接贴在人机交互界面上(即触摸手势)，也可以为，用户的击掌的动作与人机交互界面存在一定的距离(即动作手势)。

其中，图7示范性地展示了用户将击掌动作的手直接贴在人机交互界面上的界面示意图。

S206：根据用户手势，确定在人机交互界面上显示的数字人与用户的肢体动作(即互动动作)，其中，肢体动作为数字人在人机交互界面上显示的，与用户手势对应的肢体上的动作。

其中，关于S206的部分描述可参见S102，此处不再赘述。

在本申请实施例中，若用户手势为用户在人机交互界面输入的触摸手势，则互动动作为与触摸手势对应的肢体动作；若用户手势为用户在距人机交互界面设定距离内的动作手势，则互动动作为与动作手势对应的肢体动作。

基于上述示例，若用户手势为用户在交互界面上输入的击掌的触摸动作，则肢体动作为与用户的击掌动作对应的击掌动作。

S207：控制数字人通过人机交互界面，输出肢体动作。

基于上述示例，则可控制数字人通过人机交互界面，输出与用户的击掌动作对应的击掌动作。

其中，图8示范性地展示了感应区域内，用户与数字人完成击掌动作时的界面示意图。

在一些实施例中，还可以在输出肢体动作时，输出与肢体动作相匹配的面部表情和/或交互语音。

具体地，可以通过预先设置肢体动作与面部表情和/或交互语音之间的映射关系，当确定出肢体动作之后，可以基于肢体动作从映射关系中确定相应的面部表情和/或交互语音。

基于上述示例，当确定出肢体动作为击掌动作时，则在人机交互界面上输出数字人的击掌动作时，还可输出与击掌动作相匹配的面部表情(如调皮的微笑)，还可输出交互语音(如“耶”)。

当然，也可仅输出面部表情和交互语音中的一种。

通过输出与肢体动作相匹配的面部表情和/或交互语音，可以增强数字人的真实性，从而提高交互的有效性，进而提高用户的交互体验。

为使读者更加深刻地理解本申请实施例的方案及效果，现结合图9对人机交互的过程进行更为详细地阐述。其中，图9为本申请又一实施例的人机交互的控制方法的流程示意图。

如图9所示，该方法包括：

S301：通过人机交互界面上输出引导信息，引导信息用于引导用户输入交互信息。

其中，关于S301的描述可参见S201，此处不再赘述。

为体现交互的多样性，在本申请实施例中，我们以“我们合影吧”作为引导信息进行详细阐述。

S302：在人机交互界面上显示用户影像采集区域。

具体地，可以在用户影像采集区域显示引导信息“我们合影吧”。

S303：获取用户通过用户影像采集区域输入的用户影像。

基于上述示例，若在用户影像采集区域显示“我们合影吧”，用户可走至与用户影像采集区域对应的位置，当用户位于用户影像采集区域对应的位置时，可以在用户影像采集区域内显示用户的影像，且在用户影像采集区域显示的用户影像的为用户的正面，即用户可在用户影像采集区域看到自己的正面画像，可参阅图10。

S304：根据通过用户影像采集区域输入的用户影像，确定在人机交互界面上显示的数字人与用户影像所显示的用户姿态相匹配的肢体动作。

其中，该步骤可具体包括：根据用户影像，确定用户姿态，根据用户姿态，确定与用户姿态相匹配的肢体动作。

其中，用户姿态用于表征用户的肢体位姿的相关信息，如用户的肢体动作。

在一些实施例中，可预先设置用户姿态与肢体动作的映射关系，当确定出用户姿态时，可从映射关系中确定与用户姿态对应的肢体动作。

基于上述示例，用户在引导信息“我们合影吧”的引导下，通过用户影像采集区域输入了半边爱心动作，则确定出的肢体动作为半边爱心动作，且肢体动作对应的半边爱心动作与用户输入的半边爱心动作，组成一个完整的爱心动作。

S305：控制数字人通过人机交互界面，输出与用户姿态对应的肢体动作。

基于上述示例，当确定肢体动作为半边爱心动作时，则控制数字人通过人机交互界面，输出半边爱心动作。

当然，在一些实施例中，还可以在输出肢体动作时，输出与肢体动作相匹配的面部表情和/或交互语音。具体可参见上述示例的描述，此处不再赘述。

S306：在人机交互界面上显示用户影像和数字人的肢体动作的合成影像。

通过在人机交互界面上显示合成影像，以便用户基于需求适应性调整用户姿态，使得合成影像满足用户需求，从而提高人机交互的可调性和灵活性，进而提高用户的交互体验。

基于上述示例，用户可以在用户影像采集区域看到自己的正向画像的同时，还可以在用户影像采集区域看到自己和数字人和合成影像，在合成影像中，用户姿态为在用户影像采集区域输入的半边爱心动作，数字人的肢体动作为与用户输入的半边爱心动作对应的另外半边爱心动作，即在合成影像中，为用户和数字人共同完成的爱心动作，具体可参见图11。

值得说明地是，图11为合成影像的一种表现形式，且用户可通过图11所示的合成影像对用户姿态进行适应性地调整。

根据本公开实施例的另一个方面，本公开实施例还提供了一种人机交互的控制装置，用于执行上述实施例所述的人机交互的控制方法，如执行如图4、图5和图9所示的实施例。

请参阅图12，图12为本申请实施例的人机交互的控制装置的示意图。

如图12所示，该装置包括：

获取模块11，用于获取用户通过人机交互界面输入的交互信息；

确定模块12，用于根据所述交互信息，确定在所述人机交互界面上显示的数字人与所述用户的互动动作；

输出模块13，用于控制所述数字人通过所述人机交互界面，输出所述互动动作。

在一些实施例中，所述交互信息为用户在所述人机交互界面输入的触摸手势；或者，用户在距所述人机交互界面设定距离内的动作手势。

在一些实施例中，所述输出模块13还用于，在所述人机交互界面上显示感应区域，所述感应区域用于接收所述触摸手势，或者，用于感应所述动作手势。

结合图13所示，在一些实施例中，所述装置还包括：

监测模块14，用于监测所述感应区域的温度。

在一些实施例中，所述互动动作为所述数字人在所述人机交互界面上显示的，与所述用户手势对应的肢体动作。

在一些实施例中，所述交互信息用于表示用户的击掌动作；所述肢体动作为：所述数字人在所述人机交互界面上显示的、与所述用户的击掌动作对应的击掌动作。

在一些实施例中，所述交互信息为通过所述人机交互界面上输入的用户影像。

在一些实施例中，所述输出模块13还用于，在所述人机交互界面上显示用户影像采集区域。

在一些实施例中，所述互动动作为：在所述人机交互界面上显示的、与所述用户影像所显示的用户姿态相匹配的肢体动作。

在一些实施例中，所述输出模块13还用于，在所述人机交互界面上显示所述用户影像和所述数字人的肢体动作的合成影像。

在一些实施例中，所述输出模块13还用于，通过所述人机交互界面输出引导信息，所述引导信息用于引导所述用户输入所述交互信息。

在一些实施例中，所述输出模块13还用于，控制所述数字人在所述人机交互界面上，输出与所述互动动作相匹配的面部表情和/或交互语音。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

请参阅图14，图14为本申请实施例的电子设备的框图。

其中，电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图14所示，该电子设备包括：一个或多个处理器101、存储器102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图14中以一个处理器101为例。

存储器102即为本申请实施例所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请实施例所提供的人机交互的控制方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请实施例所提供的人机交互的控制方法。

存储器102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的程序指令/模块。处理器101通过运行存储在存储器102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的人机交互的控制方法。

存储器102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器102可选包括相对于处理器101远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、区块链服务网络(Block-chain-based Service Network，BSN)、移动通信网及其组合。

电子设备还可以包括：输入装置103和输出装置104。处理器101、存储器102、输入装置103和输出装置104可以通过总线或者其他方式连接，图14中以通过总线连接为例。

输入装置103可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置104可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、区块链服务网络(Block-chain-based Service Network，BSN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种人机交互的控制方法，其特征在于，所述方法包括：

通过人机交互界面输出引导信息，所述引导信息用于引导用户输入交互信息；所述交互信息为用户在距所述人机交互界面设定距离内的动作手势，或者为通过所述人机交互界面上输入的用户影像；

获取用户通过人机交互界面输入的交互信息；

控制所述数字人通过所述人机交互界面，输出所述互动动作；

所述获取用户通过人机交互界面输入的交互信息之前，还包括：

在所述人机交互界面上显示感应区域；

监测所述感应区域的温度，若所述感应区域的温度大于预设的温度阈值，则确定所述用户从所述感应区域输入用户手势，所述用户手势为用户在距人机交互界面设定距离内的动作手势；

若所述交互信息为通过所述人机交互界面上输入的用户影像，则所述互动动作为：在所述人机交互界面上显示的、与所述用户影像所显示的用户姿态相匹配的肢体动作；

所述方法还包括：在所述人机交互界面上显示所述用户影像和所述数字人的肢体动作的合成影像。

2.根据权利要求1所述的方法，其特征在于，

所述感应区域用于感应所述动作手势。

3.根据权利要求1所述的方法，若所述交互信息为用户在距所述人机交互界面设定距离内的动作手势，则所述互动动作为所述数字人在所述人机交互界面上显示的，与所述用户手势对应的肢体动作。

4.根据权利要求3所述的方法，其特征在于，所述交互信息用于表示用户的击掌动作；所述肢体动作为：所述数字人在所述人机交互界面上显示的、与所述用户的击掌动作对应的击掌动作。

5.根据权利要求1所述的方法，其特征在于，所述获取用户通过人机交互界面输入的交互信息之前，还包括：

在所述人机交互界面上显示用户影像采集区域。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法包括：

控制所述数字人在所述人机交互界面上，输出与所述互动动作相匹配的面部表情和/或交互语音。

7.一种人机交互的控制装置，其特征在于，所述装置包括：

获取模块，用于获取用户通过人机交互界面输入的交互信息；所述交互信息为用户在距所述人机交互界面设定距离内的动作手势，或者为通过所述人机交互界面上输入的用户影像；

输出模块，用于控制所述数字人通过所述人机交互界面，输出所述互动动作；

所述输出模块还用于，在所述人机交互界面上显示感应区域；

所述装置还包括：

监测模块，用于监测所述感应区域的温度，若所述感应区域的温度大于预设的温度阈值，则确定所述用户从所述感应区域输入用户手势，所述用户手势为用户在距人机交互界面设定距离内的动作手势；

所述输出模块还用于，通过所述人机交互界面输出引导信息，所述引导信息用于引导所述用户输入所述交互信息；

若所述交互信息为通过所述人机交互界面上输入的用户影像，所述互动动作为：在所述人机交互界面上显示的、与所述用户影像所显示的用户姿态相匹配的肢体动作；

所述输出模块还用于：在所述人机交互界面上显示所述用户影像和所述数字人的肢体动作的合成影像。

8.根据权利要求7所述的装置，其特征在于，所述感应区域用于感应所述动作手势。

9.根据权利要求7所述的装置，其特征在于，所述互动动作为所述数字人在所述人机交互界面上显示的，与所述用户手势对应的肢体动作。

10.根据权利要求9所述的装置，其特征在于，所述交互信息用于表示用户的击掌动作；所述肢体动作为：所述数字人在所述人机交互界面上显示的、与所述用户的击掌动作对应的击掌动作。

11.根据权利要求7所述的装置，其特征在于，所述输出模块还用于，在所述人机交互界面上显示用户影像采集区域。

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述输出模块还用于，控制所述数字人在所述人机交互界面上，输出与所述互动动作相匹配的面部表情和/或交互语音。

13. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。