CN115904083A

CN115904083A - 多模态交互方法、装置、存储介质及电子设备

Info

Publication number: CN115904083A
Application number: CN202211679565.8A
Authority: CN
Inventors: 谭奇力; 任展
Original assignee: Cloudminds Beijing Technologies Co Ltd
Current assignee: Cloudminds Beijing Technologies Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-04

Abstract

本公开涉及一种多模态交互方法、装置、存储介质及电子设备，可结合交互场景中的场景信息和属性信息进行交互，且交互内容更加个性化。该方法包括：接收机器人在当前交互场景中异步上传的多个场景信息和属性信息；将各场景信息和属性信息进行集成，得到对应当前交互场景的消息元，将消息元异步实时发送给多模态服务器，并接收多模态服务器对消息元进行整合后反馈的信息元；根据调用需求确定目标远程调用方式，通过目标远程调用方式远程调用自然语言处理服务，以得到自然语言处理服务根据信息元输出的对应当前交互场景的应答结果；将应答结果发送给机器人，以使机器人根据应答结果与交互对象进行交互。

Description

多模态交互方法、装置、存储介质及电子设备

技术领域

本公开涉及人机交互技术领域，具体地，涉及一种多模态交互方法、装置、存储介质及电子设备。

背景技术

现有的交互过程中，用户与机器人的交互方式较为单一，如PC式的键盘输入和点触式交互、语音识别的语音交互等，通过文字或语音进行交互等一类信息进行交互，无法保证机器人在交互过程中的交互内容的准确性。

发明内容

本公开的目的是提供一种多模态交互方法、装置、存储介质及电子设备，结合交互场景中的场景信息和属性信息进行交互，且交互内容更加个性化。

为了实现上述目的，第一方面，本公开提供一种多模态交互方法，所述方法包括：

接收机器人在当前交互场景中异步上传的多个场景信息和属性态信息，所述场景信息包括所述机器人从所述交互场景中获取的音频流、视频流、人脸信息以及声纹信息的一者或多者，所述属性信息包括交互对象的着装信息以及基本信息；

将各所述场景信息和所述属性信息进行集成，得到对应当前交互场景的消息元，将所述消息元异步实时发送给多模态服务器，并接收所述多模态服务器对所述消息元进行整合后反馈的信息元；

根据调用需求确定目标远程调用方式，通过所述目标远程调用方式远程调用自然语言处理服务，以得到所述自然语言处理服务根据所述信息元输出的对应所述当前交互场景的应答结果；

将所述应答结果发送给所述机器人，以使所述机器人根据所述应答结果与交互对象进行交互。

可选地，所述方法还包括：

针对各所述场景信息，调用音频处理线程从所述音频流中得到所述当前交互场景中的语音信息；

调用人脸识别系统从所述人脸信息中获取所述交互对象的面部状态信息；

调用声纹识别系统从所述声纹信息中获取所述交互对象的语音交互内容；

调用训练好的深度学习模型从所述视频流中获取所述交互对象的肢体语言信息。

可选地，所述机器人包括虚拟机器人，所述虚拟机器人设置在网页端，所述方法还包括：

接收网页端发送的登录信息，根据所述登录信息与所述虚拟机器人全双工通信连接。

可选地，所述登录信息包括登录请求以及登录参数，所述登录参数包括虚拟机器人ID和账户号；

所述根据所述登录信息与所述虚拟机器人全双工通信连接，包括：

根据所述登陆请求验证所述虚拟机器人ID；

在验证通过的情况下，允许所述网页端登录，实现与所述虚拟机器人的全双工通信，并将所述虚拟机器人上传的场景信息和属性信息与所述账户号关联存储。

可选地，所述方法还包括：

每隔预设时间间隔向所述网页端发送心跳帧；

根据所述心跳帧确定所述虚拟机器人是否掉线；

在所述虚拟机器人掉线的情况下，重新与所述虚拟机器人建立连接。

可选地，所述机器人还包括实体机器人，所述实体机器人与下游服务器通过第一外设grpc接口通信连接，所述方法还包括：

通过第二外设grpc接口与所述下游服务器建立通信连接。

可选地，所述调用需求包括：后台工作人员调用、虚拟机器人调用以及实体机器人调用，所述根据调用需求确定目标远程调用方式，包括：

所述调用需求为后台工作人员调用的情况下，将RECEPTION_SKILL作为目标调用方式；

所述调用需求为根据虚拟机器人调用的情况下，将SERVICE_APP作为目标调用方式；

所述调用需求为根据实体机器人调用的情况下，将NLU_SKILL__ROBOT_SKILL或ROBOT_SKILL作为目标调用方式。

第二方面，本公开提供了一种多模块交互装置，所述装置包括：

接收模块，被配置成用于接收机器人在当前交互场景中异步上传的多个场景信息和属性信息，所述场景信息包括所述机器人从所述交互场景中获取的音频流、视频流、人脸信息以及声纹信息的一者或多者，所述属性信息包括交互对象的着装信息以及基本信息；

集成交互模块，被配置成用于将各所述场景信息和所述属性信息进行集成，得到对应当前交互场景的消息元，将所述消息元异步实时发送给多模态服务器，并接收所述多模态服务器对所述消息元进行整合后反馈的信息元；

调用模块，被配置成用于根据调度需求确定目标远程调用方式，通过所述目标远程调用方式远程调用自然语言处理服务，以得到所述自然语言处理服务根据所述信息元输出对应所述当前交互场景的应答结果；

控制模块，被配置成用于将所述应答结果发送给所述机器人，以使所述机器人根据所述应答结果与交互对象进行交互。

第三方面，本公开提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

第四方面，本公开提供了一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面所述方法的步骤。

通过上述技术方案，本公开结合机器人上传的场景信息以及属性信息，远程调用自然语言处理服务，得到对应当前交互场景的应答结果并将该应答结果发送给机器人，以使机器人根据应答结果进行交互，提高了机器人在交互过程中答复的准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开示例性实施例示出的一种多模态交互方法的流程图；

图2是根据本公开示例性实施例示出的一种多模态交互方法的交互示意图；

图3是根据本公开示例性实施例示出的一种多模态交互装置的框图；

图4是根据本公开示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

正如背景技术所言，机器人与用户只能通过文字或语音等一类信息进行交互，无法保证机器人在交互过程中的交互内容的准确性，导致用户未得到需要的内容。

有鉴于此，本公开提供一种多模态交互方法、装置、存储介质及电子设备，结合机器人在当前场景下上传的场景信息以及属性信息，远程调用自然语言处理服务，得到对应当前交互场景的应答结果，并发送给机器人，以使机器人根据该应答结果进行交互，提高了机器人在交互过程中答复结果的准确性。

图1是根据本公开示例性实施例示出的一种多模态交互方法的流程图，以该方法应用于与实体机器人和/或虚拟机器人进行交互场景中的控制器侧为例，该方法包括：

在步骤S101中，接受机器人在当前交互场景中异步上传的多个场景信息和属性信息，场景信息包括机器人从交互场景中获取的音频流、视频流、人脸信息以及声纹信息的一者或多者，属性信息包括交互对象的着装信息以及基本信息。

具体的，场景信息和属性信息构成对应当前交互场景的多模态信息。

其中，可根据预设的着装判断逻辑获取交互对象的着装信息，该着装信息可以包括交互对象的穿衣风格类别、上衣类型、裤子类型、鞋子类型、长短发、是否戴眼镜、是否戴帽子、是否带口罩、是否带行李、是否背背包、是否拿手提包、是否背挎包、是否戴项链、是否在打电话以及是否在抽烟等等信息。

其中，可根据交互对象的指纹信息获取交互对象的基本信息，该基本信息可以包括交互对象的名字、性别、年龄等信息。

具体的，机器人异步上传的场景信息存在如下情况，该场景信息包括音频流、视频流、人脸信息以及声纹信息中的一类，该类信息有一条或多条；该场景信息包括音频流、视频流、人脸信息以及声纹信息中的多类，每类信息包括一条或多条；该场景信息同时包括音频流、视频流、人脸信息以及声纹信息，每类信息包括一条或多条。

举例说明，机器人异步上传的场景信息仅包括音频流的情况下，该音频流为机器人与交互对象在当前交互场景中的多条音频流。如，交互对象询问机器人“今天xx的天气怎么样”，在交互过程中，机器人实时接收“今天xx的天气怎么样”对应的音频流，因为交互对象在交互过程中的询问内容不是同一时刻的，因此机器人依次接收“今”、“天”、“x”、“x”、“的”、“天”、“气”、“怎”、“么”、“样”对应的10条音频流并异步上传。

同理，在机器人异步上传的场景信息包括音频流和视频流的情况下，该音频流为机器人与交互对象在当前交互场景中的多条音频流，该视频流为交互对象在当前交互场景中的多条视频流，如，交互对象询问机器人“今天xx的天气怎么样”，机器人的外置摄像头同时获取交互对象与机器人交互过程中的多条视频流，各视频信息分别对应交互对象的肢体动作变化，如交互对象从站立到坐下的肢体动作变化，机器人将接收到的“今天xx的天气怎么样”对应的10条音频流，以及与各音频流同一时刻中交互对象从站立到坐下的肢体动作变化进行异步上传。

同理，在机器人异步上传的场景信息包括音频流、视频流、人脸信息以及声纹信息的情况下，机器人将接收到的多条音频流、多条视频流、多条人脸信息以及多条声纹信息进行异步上传。

在步骤S102中，将各场景信息和属性信息进行集成，得到对应当前交互场景的消息元，将消息元异步实时发送给多模态服务器，并接收多模态服务器对该消息元进行整合后反馈的信息元。

具体的，根据机器人异步上传的各场景信息和属性信息的时间轴，将各场景信息和属性信息集成为对应当前交互场景的消息元。

在步骤S103中，根据调用需求确定目标远程调用方式，通过目标远程调用方式远程调用自然语言处理服务，以得到自然语言处理服务根据信息元输出的对应当前交互场景的应答结果。

具体的，不同调用对象的调度需求完全不同，因此需根据不同调用对象的调度需求确定目标远程调用方式，通过目标远程调用方式远程调用自然语言处理服务(NaturalLanguage Processing，NLP)，以得到NLP根据信息元制定的对应当前交互场景的个性化应答结果。

在步骤S104中，将应答结果发送给机器人，以使机器人根据应答结果与交互对象进行交互。

具体的，将NLP根据信息元制定的个性化应答结果发送给机器人，使得机器人根据该个性化应答结果与交互对象进行交互，提高了机器人应答内容的可靠性。

本公开将机器人在当前交互场景中异步上传的多个场景信息和属性信息集成，得到对应当前交互场景的消息元，将该消息元异步实时发送给多模态服务器，并接收多模态服务器对该消息元进行整合后反馈的信息元，得到机器人在当前交互场景中的全方位感知结果的整合结果，实现交互过程中的信息多元化；通过目标远程调用方式远程调用NLP，以得到NLP根据信息元输出的对应当前交互场景的应答结果，生成机器人在当前交互场景中的全方位感知结果对应的应答结果，提高了应答结果的准确性；将该应答结果发送给机器人，使得机器人根据该应答结果与交互对象进行交互，使得机器人根据其在当前交互场景中的全方位感知结果对应的应答结果与交互对象进行交互，优化了机器人在交互过程的交互内容，提高了用户体现。

为了使本领域技术人员更加理解本公开提供的多模态交互方法，下面对上述方法的相关步骤进行举例说明。

在一可行的实施例中，该方法还包括：

针对各场景信息，调用音频处理线程从音频流中得到当前交互场景中的语音信息；

调用人脸识别系统从人脸信息中获取交互对象的面部状态信息；

调用声纹识别系统从声纹信息中获取交互对象的语音交互内容；

调用训练好的深度学习模型从视频流中获取交互对象的肢体语言信息。

具体的，调用音频处理线程对音频流进行自动语音识别(Automatic SpeechRecognition，ASR)得到当前交互场景中的语音信息。

具体的，人脸识别系统(Open Source Computer Vision Library，OpenCV)调用内容管理系统(Content Management System，CMS)的人脸识别接口，获取交互对象的面部状态信息。

具体的，深度学习模型包括神经网络模型，该深度学习模型为现有模型，可根据输入的视频流输出对应该视频流的肢体语言信息，具体原理本公开对此不在赘述。

在一可行的实施例中，该机器人包括虚拟机器人，该虚拟机器人可以设置在网页端，该方法还包括：

接收网页端发送的登录信息，根据该登录信息与该虚拟机器人全双工通信连接。

具体的，通过定义好的WSS接口(Windows SharePoint Services，WSS)与网页端进行数据传输，其中，对WSS接口的定义方法可以通过加密方式实现，加密方式可以包括线性散列算法(签名算法)，如MD5消息摘要算法(Message Digest Algorithm MD5)、安全散列算法1(Secure Hash Algorithm1，SHA1)；对称性加密算法，如高级加密标准(AdvancedEncryption Standard，AES)，数据加密标准(Data Encryption Standard，DES)；非对称性加密算法(Rivest-Shamir-Adleman，RSA)。

在一可行的实施例中，该登录信息包括登录请求以及登录参数，该登录参数包括虚拟机器人ID和账户号；

根据登录信息与该虚拟机器人全双工通信连接，包括：

根据登录请求验证虚拟机器人ID；

在验证通过的情况下，允许网页端登录，实现与虚拟机器人的全双工通信，并将该虚拟机器人上传的场景信息和属性信息与该账户关联存储。

具体的，根据登录请求验证虚拟机器人ID可以包括：遍历数据库中的机器人ID存储表，确定该存储表上是否存储有该虚拟机器人ID，在存储表上存储又虚拟机器人ID的情况下，判定验证通过。

具体的，账户号包括用户号或租户号，每一个虚拟机器人均对应一个账户号。

本公开将该虚拟机器人上传的场景信息和属性信息与该虚拟机器人对应的账户号关联存储，在同时处理多个虚拟机器人上传的场景信息和属性信息时，可根据各虚拟机器人对应的账户号来区分不同虚拟机器人上传的场景信息和属性信息，从而保证了多个虚拟机器人分别与不同交互对象进行交互时，各虚拟机器人与交互对象交互过程中的交互内容的准确性。

在一可行的实施例中，该方法还包括：

每隔预设时间间隔先网页端发送心跳帧；

根据该心跳帧确定虚拟机器人是否掉线；

在该虚拟机器人掉线的情况下，重新与虚拟机器人建立连接。

具体的，预设时间间隔可以根据虚拟机器人的实际交互过程中的交互时长进行预设，也可以根据交互对象的交互时间需求进行预设，本公开对此不作具体限定。

具体的，通过网络诊断工具(Packet Internet Groper，Ping)每隔预设时间间隔向网页端发送心跳帧，从而维持与虚拟机器人的长连接状态。

本公开通过Ping保持与虚拟机器人的长连接状态，可避免因断开与虚拟机器人的连接导致的，虚拟机器人与交互对象交互失败，虚拟机器人无法对交互对象的交互实时响应。

在一可行的实施例中，该机器人包括实体机器人，该实体机器人与下游服务器通过第一外设grpc接口通信连接，该方法还包括：

通过第二外设grpc接口与该下游服务器建立通信连接。

具体的，实体机器人、下游服务器以及控制器上均外设有grpc接口，实体机器人与下游服务器通过第一外设grpc接口通信，下游服务器与控制器通过第二外设grpc接口通信。

具体的，下游服务器可以包括Vadskil，Hari-rcu-sdk、Visionskill等等。

具体的，控制器侧利用流式grpc通信技术与实体机器人侧建立长连接通信，其中，流式grpc通信技术包括两种方式，方式一：机器人侧请求一次，控制器侧流式应答；方式二：机器人侧流式请求，服务器测流式应答。

举例说明，控制器侧与多个下游服务间进行grpc通信，下各游服务器和机器人间grpc通信传递数据，实体机器人将当前交互场景中的多个场景信息和属性信息通过grpc通信异步上传给下游服务器，下游服务器将实体机器人异步上传的多个场景信息和属性信息通过grpc通信。

具体的，控制器侧根据speech.proto生成go语言文件。

具体的，实体机器人侧通过C++技术根据speech.proto文件生成C++代码。

在一可行的实施例中，该调度需求包括：后台工作人员调用、虚拟机器人调用以及实体机器人调用，根据调用需求确定目标远程调用方式，包括：

调度需求为后台工作人员调用的情况下，将RECEPTION_SKILL作为目标调用方式；

调用需求为根据虚拟机器人调用的情况下，将SERVICE_APP作为目标调用方式；

调用需求为根据实体机器人调用的情况下，将NLU_SKILL__ROBOT_SKILL或ROBOT_SKILL作为目标调用方式。

具体的，RECEPTION_SKILL，SERVICE_APP，ROBOT_SKILL以及NLU_SKILL__ROBOT_SKILL均为现有的远程调用方式，本公开在此不作具体阐述。

本公开与网页端上的虚拟机器人建立Websocket长连接，与实体机器人建立流式grpc长连接，还可将实体机器人的在交互过程中可能获取的场景信息以及属性信息作为虚拟机器人的输入，从而同过虚拟机器人模拟实体机器人的交互过程，以便于对交互过程中涉及的程序进行调试，以及对交互过程进行演示，节省了交互成本。且本公开中将机器人在当前交互场景中的场景信息以及属性信息进行整合，实现对机器人当前交互场景能够获取的所有信息的整合，使得NLP根据整合内容反馈的应答结果更加准确，根据该应答结果与交互对象进行交互的机器人更加智能，其交互内容更加满足交互对象的需求。

举例说明，以该方法应用于参见图2，机器人10与交互对象进行交互，机器人在当前交互场景中异步上传获取的多个场景信息和属性信息至控制器20；控制器20将各场景信息和属性信息进行集成，得到对应当前交互场景的消息元，将该消息元异步实时发送给多模态服务器30；多模态服务器30对该消息元进行整合得到信息元，并将该信息元反馈给控制器20；控制器20根据调度需求确定目标远程调用方式，并通过目标远程调用方式调用自然语言处理服务40；自然语言处理服务40根据信息元输出对应当前交互场景的应答结果，并反馈给控制器20；控制器20将该应答结果发送给机器人10；机器人10根据该应答结果与交互对象进行交互。

基于同样的发明构思，本公开还提供一种多模态交互装置，如图3所示，该多模态交互装置300包括接收模块301，集成交互模块302，调用模块303以及控制模块304。

其中，接收模块301被配置成用于接收机器人在当前交互场景中异步上传的多个场景信息和属性信息，场景信息包括机器人从交互场景中获取的音频流、视频流、人脸信息以及声纹信息的一者或多者，属性信息包括交互对象的着装信息以及基本信息。

集成交互模块302被配置成用于将各场景信息和属性信息进行集成，得到对应当前交互场景的消息元，将消息元异步实时发送给多模态服务器，并接收多模态服务器对消息元进行整合后反馈的信息元。

调用模块303被配置成用于根据调度需求确定目标远程调用方式，通过目标远程调用方式远程调用自然语言处理服务，以得到自然语言处理服务根据信息元输出对应当前交互场景的应答结果。

控制模块304被配置成用于将应答结果发送给机器人，以使机器人根据应答结果与交互对象进行交互。

进一步的，该多模态交互装置300还包括处理模块，该处理模块被配置成用于针对各所述场景信息，调用音频处理线程从音频流中得到当前交互场景中的语音信息；

进一步的，多模态交互装置300还包括通信模块，该机器人包括虚拟机器人，该虚拟机器人设置在网页端，该通信模块被配置成用于接收网页端发送的登录信息，根据登录信息与虚拟机器人全双工通信连接。

进一步的，该通信模块被配置成用于根据登陆请求验证虚拟机器人ID；

在验证通过的情况下，允许网页端登录，实现与虚拟机器人的全双工通信，并将虚拟机器人上传的场景信息和属性信息与账户号关联存储，登录信息包括登录请求以及登录参数，该登录参数包括虚拟机器人ID和账户号。

进一步的，该通信模块还被配置成用于每隔预设时间间隔向网页端发送心跳帧；

根据心跳帧确定虚拟机器人是否掉线；

在虚拟机器人掉线的情况下，重新与虚拟机器人建立连接。

进一步的，该机器人包括实体机器人，该实体机器人与下游服务器通过第一外设grpc接口通信连接，通信模块还被配置成用于通过第二外设grpc接口与该下游服务器建立通信连接。

进一步的，调用模块303被配置成用于调用需求为后台工作人员调用的情况下，将RECEPTION_SKILL作为目标调用方式；

调用需求为根据实体机器人调用的情况下，将NLU_SKILL__ROBOT_SKILL或ROBOT_SKILL作为目标调用方式，调用需求包括：后台工作人员调用、虚拟机器人调用以及实体机器人调用。

此外值得说明的是，为描述的方便和简洁，说明书中所描述的实施例均属于优选实施例，其所涉及的部分并不一定是本发明所必须的，例如，第一接收模块和集成交互模块，在具体实施时可以是相互独立的装置也可以是同一个装置，本公开对此不作限定。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同样的发明构思，本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行存储器中的计算机程序，以实现权利上述多模态交互方法的步骤。

图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示，该电子设备400可以包括：处理器401，存储器402。该电子设备400还可以包括多媒体组件403，输入/输出(I/O)接口404，以及通信组件405中的一者或多者。

其中，处理器401用于控制该电子设备400的整体操作，以完成上述的多模态交互方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作，这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如机器人在当前交互场景中获取的音频流、视频流、人脸信息以及声纹信息，以及交互对象的着装信息以及基本信息等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(StaticRandom Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件405可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的多模态交互方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的多模态交互方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器402，上述程序指令可由电子设备400的处理器401执行以完成上述的多模态交互方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的多模态交互方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种多模态交互方法，其特征在于，所述方法包括：

接收机器人在当前交互场景中异步上传的多个场景信息和属性信息，所述场景信息包括所述机器人从所述交互场景中获取的音频流、视频流、人脸信息以及声纹信息的一者或多者，所述属性信息包括交互对象的着装信息以及基本信息；

2.根据权利要求1所述的多模态交互方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的多模态交互方法，其特征在于，所述机器人包括虚拟机器人，所述虚拟机器人设置在网页端，所述方法还包括：

4.根据权利要求3所述的多模态交互方法，其特征在于，所述登录信息包括登录请求以及登录参数，所述登录参数包括虚拟机器人ID和账户号；

根据所述登陆请求验证所述虚拟机器人ID；

5.根据权利要求4所述的多模态交互方法，其特征在于，所述方法还包括：

每隔预设时间间隔向所述网页端发送心跳帧；

根据所述心跳帧确定所述虚拟机器人是否掉线；

6.根据权利要求1所述的多模态交互方法，其特征在于，所述机器人还包括实体机器人，所述实体机器人与下游服务器通过第一外设grpc接口通信连接，所述方法还包括：

通过第二外设grpc接口与所述下游服务器建立通信连接。

7.根据权利要求1-6任一项所述的多模态交互方法，其特征在于，所述调用需求包括：后台工作人员调用、虚拟机器人调用以及实体机器人调用，所述根据调用需求确定目标远程调用方式，包括：

8.一种多模态交互装置，其特征在于，所述装置包括：

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。