CN113658254B

CN113658254B - 一种处理多模态数据的方法及装置、机器人

Info

Publication number: CN113658254B
Application number: CN202110854143.9A
Authority: CN
Inventors: 张永杰; 邓其春; 丁磊; 陈放
Original assignee: Smart Dynamics Co ltd
Current assignee: Smart Dynamics Co ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2022-08-02
Anticipated expiration: 2041-07-28
Also published as: CN113658254A

Abstract

一种处理多模态数据的方法，获取深度图像，根据所述深度图像获取各个用户的空间位置信息；获取音频数据，从所述音频数据中提取出不同用户的声纹特征信息，根据所述声纹特征信息对说话人进行定位，获取相应用户的声场定位信息；将所述空间位置信息与所述声场定位信息进行关联，将不同用户的声纹特征信息与相应用户进行关联。还提供了一种处理多模态数据的装置及机器人。本实施例的方法通过多模态数据的融合，综合决策，提升感知和交互效果，可以为线上模型决策提供更多的信息，从而提高了决策总体结果的准确率。

Description

一种处理多模态数据的方法及装置、机器人

技术领域

本发明涉及数字处理领域，特别是涉及一种处理多模态数据的方法及装置、机器人。

背景技术

随着计算机技术，传感技术，人工智能技术的发展，机器人得到了迅速发展，机器人开始走进了人类日常生活。基于机器人与人行为交互的自主性、友好性等重要特征，机器人的感知与交互系统设计受到了越来越多的关注。机器人与人的实时交互依赖机器人对人的实时感知，目前市面上的交互类机器人，如智能音箱等，主要通过孤立的文字、语音和图像等信息分别对用户进行感知，无法将人的多种交互数据进行有效融合、分析，缺乏对用户表达信息的理解深度，无法真正做到人类的“察言观色”。尤其是在多人同时交互的复杂场景下，更是无法有效分割不同人的交互上下文信息，实现同时感知多用户，并基于不同用户的上下文信息进行智能、并发交互。

发明内容

本发明要解决的技术问题是提供一种处理多模态数据的方法及装置、机器人，以实现基于不同用户的上下文信息进行智能、并发交互。

为了解决上述技术问题，本发明提供了一种处理多模态数据的方法，包括：

获取深度图像，根据所述深度图像获取各个用户的空间位置信息；

获取音频数据，从所述音频数据中提取出不同用户的声纹特征信息，根据所述声纹特征信息对说话人进行定位，获取相应用户的声场定位信息；

将所述空间位置信息与所述声场定位信息进行关联，将不同用户的声纹特征信息与相应用户进行关联。

可选地，所述获取深度图像的同时，实时获取二维视频数据，从所述二维视频数据中提取各个用户的情绪特征；从所述深度图像中提取各个用户的三维肢体关键点特征；

分别将各个用户的所述情绪特征和所述三维肢体关键点特征进行融合处理，获得各个用户的行为特征，根据所述行为特征感知用户的行为交互意图。

可选地，所述获取音频数据后还包括：

从所述音频数据中获取语音识别文本数据，基于深度学习算法根据不同用户交互的所述语音识别文本数据，获得各个用户的语义特征；

对所述行为特征和所述语义特征进行融合处理，根据整合处理结果感知用户的意图。

可选地，所述实时获取二维视频数据的过程中包括：对检测到的用户进行跟踪，获取各个用户的轨迹信息；

当根据所述轨迹信息判定满足靠近趋势时，触发播放预定语料。

可选地，对指定范围内的一个或多个用户的所述行为特征、所述语义特征、用户属性和所述轨迹信息进行融合；

根据融合后生成的特征触发相应的语料进行播放。

一种处理多模态数据的装置，包括：

第一获取模块，用于获取深度图像，根据所述深度图像获取各个用户的空间位置信息；

第二获取模块，用于获取音频数据，从所述音频数据中提取出不同用户的声纹特征信息，根据所述声纹特征信息对说话人进行定位，获取相应用户的声场定位信息；

处理模块，用于将所述空间位置信息与所述声场定位信息进行关联，将不同用户的声纹特征信息与相应用户进行关联。

可选地，本实施例的还包括第三获取模块，

所述第一获取模块还用于，从所述深度图像中提取各个用户的三维肢体关键点特征；

所述第三获取模块用于，实时获取二维视频数据，从所述二维视频数据中提取各个用户的情绪特征；

所述处理模块还用于，分别将各个用户的情绪特征和三维肢体关键点特征进行融合处理，获得各个用户的行为特征；根据所述行为特征感知用户的行为交互意图。

可选地，所述第二获取模块还用于，从所述音频数据中获取语音识别文本数据，基于深度学习算法根据不同用户交互的语音识别文本数据获得各个用户的语义特征；

所述第三获取模块还用于，在实时获取二维视频数据的过程中，对检测到的用户进行跟踪，获取各个用户的轨迹信息；

所述处理模块还用于，对指定范围内的一个或多个用户的所述行为特征、所述语义特征、用户属性和所述轨迹信息进行融合；根据融合后生成的特征触发相应的语料进行播放。

本发明实施例还提供一种机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种处理多模态数据的方法。

本发明实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述一种处理多模态数据的方法。

综上所述，本发明提供一种处理多模态数据的方法及装置、机器人，通过多模态数据的融合，综合决策，提升感知和交互效果，可以为线上模型决策提供更多的信息，从而提高了决策总体结果的准确率。

附图说明

图1为本发明实施例一的一种处理多模态数据的方法的流程图；

图2为本发明实施例一的获取各个用户的空间位置信息的方法的流程图；

图3为本发明实施例一的获取相应用户的声场定位信息的方法的流程图；

图4为本发明实施例二的一种处理多模态数据的方法的流程图；

图5为本发明实施例二的获取用户的轨迹信息的方法的流程图；

图6为本发明实施例二的感知用户的行为交互意图的方法的流程图；

图7为本发明实施例二的感知用户的对话意图的方法的流程图；

图8为本发明一实施例的一种处理多模态数据的装置的示意图；

图9为本发明另一实施例的一种处理多模态数据的装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

为了更好地理解本发明，下面结合附图和具体实施例对本发明作进一步地描述。

实施例一

如图1所示，本实施例的一种处理多模态数据的方法可以包括以下步骤：

步骤S11、获取深度图像，根据所述深度图像获取各个用户的空间位置信息；

如图2所示，根据所述深度图像获取各个用户的空间位置信息的方法可以包括以下步骤：

步骤S111、机器人的深度摄像头输出深度图像；

本实施例中，机器人的深度摄像头采集到的深度图像是3D数据。

步骤S112、机器人接收到深度图像后，基于深度图像对人体深度图像进行分割；

本实施例中，基于深度数据的空间连续性原理，可以使用depth continuitylabeling(深度连续性标记)算法对深度图像进行人体分割。

步骤S113、机器人获取人体上半身深度图像，并获取上半身深度图像上的凸包点；

步骤S114、机器人结合二维坐标选择纵坐标最高的凸包点作为用户的空间位置点(x，y)，并通过三维坐标转换获取用户的空间位置坐标(x’，y’，z)，进而得到用户的空间位置信息。

本发明实施例基于深度图像实现用户空间位置精准定位，通过将用户抽象为像素点，通过像素点在图像上的三维坐标位置具体化，实现了用户三维空间的具体表达。

步骤S12、获取音频数据，从所述音频数据中提取出不同用户的声纹特征信息，根据所述声纹特征信息对说话人进行定位，获取相应用户的声场定位信息；

如图3所示，获取相应用户的声场定位信息的方法可以包括以下步骤：

步骤S121、机器人麦克风阵列实时输入音频数据。

步骤S122、机器人从所述音频数据中提取不同用户的声纹特征信息。

步骤S123、机器人根据不同用户的声纹特征信息对说话人进行定位。

基于声纹识别技术的麦克风阵列说话人实时定位技术，将实时声纹技术与麦克风阵列说话人定位技术相结合，当机器人交互场景中存在多人时，综合声纹识别结果，并按照判定策略定位当前实际说话人。

例如，本实施例中，可以基于声场定位声源的方向和距离，得到说话人的空间位置；同时基于深度图像确定不同人的空间位置信息，根据空间距离最近原则，定位到实时说话人，同时得到当前实时说话人的声纹特征。

步骤S124、机器人过滤背景噪音；

采用话音检测技术过滤与说话人声纹特征差异较大的背景音，抗环境噪音能力强，说话人定位精度高。

步骤S125、机器人基于说话人的声音定位声源的方向和距离信息，获得声场定位信息。

本步骤获取声源的空间定位信息，便于与用户的空间位置信息进行关联。

步骤S126、将步骤S125中的声场定位信息与步骤S11中用户的空间位置信息相关联，获得说话人的空间位置信息；

步骤S127、从所述音频数据中获取用户语音交互信息。

该步骤中的用户语音交互信息是从用户音频数据通过语音识别得到的文本数据。

步骤S13、将所述空间位置信息与所述声场定位信息进行关联，将不同用户的声纹特征信息与相应用户进行关联。

本发明实施例基于说话人的声音定位声源的方向和距离信息，并通过与实时深度图像定位得到的用户的空间位置信息进行关联，从而实现声纹信息、声音数据与用户之间的关联，从数据源本身进行多模态数据融合，有效解决了分割不同人的交互上下文信息的问题。

实施例二

如图4所示，本实施例的一种处理多模态数据的方法，包括：

S41、基于二维视频数据对定义场景内的用户进行检测，并跟踪用户，获取用户的轨迹信息。

如图5所示，本实施例的跟踪用户，获取用户的轨迹信息的方法可以包括如下步骤：

步骤S411、机器人摄像头实时输出二维视频数据；

本实施例中，步骤S411中的摄像头是RGB摄像头，采集2D数据。

步骤S412、机器人获取到二维视频数据后，对所述二维视频数据进行检测，如检测到用户，对用户进行人体检测，直接得到对应用户的检测框。

步骤S413、机器人从检测框选定的二维图像中提取用户特征；

本实施例中，可以基于二维图像，采用卷积神经网络(如VGG(Visual GeometryGroup，视觉几何群网络)、ResNet等)对用户进行外貌特征提取，提取用户的外貌相关特征，如情绪、着装喜好、体态等。

步骤S414、机器人利用跟踪算法对目标用户进行跟踪；

本实施例中采用DeepSORT跟踪算法对目标用户进行跟踪，DeepSORT是SORT(Simple Online And Realtime Tracking，简单的在线和实时跟踪)的升级版，是多目标跟踪算法，利用运动模型和外观信息进行数据关联，运行速率主要由检测算法所决定。检测算法对每一帧进行目标检测(一般应用在行人检测)，后续通过带权值的匈牙利匹配算法对之前的运动轨迹和当前检测对象进行匹配，形成物体的运动轨迹。

除了DeepSORT目标跟踪算法外，当然还可以采用TLD(Tracking LearningDetection，跟踪学习检测)、CT(Compressive Tracking，压缩跟踪)等传统的跟踪算法。

步骤S415、机器人获取目标用户的轨迹信息。

本实施例中，分析总结了近年来目标跟踪相关的发展过程，对基于DeepSort目标跟踪算法进行了详细的效果和性能分析，通过实验验证了DeepSort目标跟踪算法的可行性，能够实时、准确地对目标用户进行跟踪。通过DeepSort目标跟踪算法能够实现并行对多个用户同时进行跟踪，并实时进行各用户的特征提取。

S42、基于深度图像对场景中的每一个用户进行三维空间定位，感知用户的空间位置信息；

售彩机器人主动获客系统使用yolov4(You only look once v4)行人检测算法、deepsort行人跟踪算法，对用户配置ROI(Region OfInterest，感兴趣区域)区域内的人进行多目标实时跟踪，比如机器人仅跟踪正前方半径两米内区域，从而忽略与机器人较远的不相关区域。统计每个人的运动轨迹，并对轨迹进行分析，当判定轨迹满足靠近机器人趋势时，触发播放预定语料，例如自动触发机器人进行自我介绍，并介绍售卖彩种、彩种玩法、购买兑奖流程能等功能，提升顾客股买意愿和兴趣。

S43、基于声纹分析技术提取场景中不同用户的声纹特征信息，并结合声场定位信息与空间位置信息，将声纹特征与特定空间位置的用户进行特定用户关联。

本发明实施例基于说话人的声音定位声源的方向和距离信息，并通过与实时图像定位得到的用户的空间位置信息进行关联，从而实现声纹信息、声音数据与用户之间的关联，从数据源本身进行多模态数据融合，可以分割不同人的交互上下文信息。

S44、基于二维视频数据与深度数据，使用深度学习技术分析用户的行为特征，感知用户的行为交互意图；

如图6所示，本实施例的使用深度学习技术分析用户的行为特征，感知用户的行为交互意图的方法可以包括如下步骤：

步骤S441、机器人摄像头输出二维视频数据；

步骤S442、接收到二维视频数据后，提取二维视频数据中所有用户的情绪特征；

本实施例中，可以通过HOG(Histogram of Oriented Gradient，方向梯度直方图)3D描述器对时空兴趣点进行描述，进而提取RGB图像中的情绪特征。

当然，还可以采用其它方法来提取用户的情绪特征，例如采用3D CNN、C3D等基于视频帧序列的卷积神经网络。

步骤S443、机器人深度摄像头输出深度图像；

步骤S444、机器人从深度图像中提取用户三维肢体关键点特征；

本实施例中，利用深度图像3D点云信息，根据人体行为构成的点云曲面法向量，构建4D法向量直方图算子，提取用户三维肢体关键点特征。

本实施例中，可以基于CPM(Convolutional Pose Machine，卷积摆位机)模型检测人体骨骼关键点，如：1/右肩，2/右肘，3/右腕，4/左肩，5/左肘，6/左腕，7/右髋，8/右膝，9/右踝，10/左髋，11/左膝，12/左踝，13/头顶，14/脖子。

步骤S445、对步骤S442提取的用户表情特征和步骤S444提取的用户三维肢体关键点特征进行融合，获得用户的行为特征；

本实施例中，可以利用典型相关分析(Canonical Correlation Analysis，简称CCA)将用户表情特征和用户三维肢体关键点特征两种特征进行降维及融合处理。

在另一实施例中，可以采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法及基于深度学习理论算法等特征融合算法进行融合处理。

步骤S446、感知用户行为交互意图。

本实施例中，通过神经网络模型对步骤S445融合处理后的新特征进行测试分类，感知用户的行为交互意图。

本发明实施例将同一行为模式下两种特征进行融合的行为识别方法，是基于RGB图像和深度图像特征融合，能充分利用RGB图像丰富的纹理特征和深度图像的空间位置信息，提升用户行为交互意图识别的准确率。

S45、基于语音识别文本数据，使用深度学习技术分析用户的语义特征，感知用户的对话意图；

如图7所示，本实施例的使用深度学习技术分析用户的语义特征，感知用户的对话意图的方法可以包括如下步骤：

步骤S451、机器人从获取到的音频数据中过滤说话人所处的背景音；

步骤S452、获取语音识别文本数据；

步骤S453、基于上下文的语音识别文本数据获得意图分类模型；

基于有监督的深度学习算法，利用不同用户的交互上下文语料进行模型训练，以获得意图分类模型。本实施例中，可以基于BERT(Bidirectional Encoder Representationfrom Transformers，基于转换器的双向编码表征)模型进行意图分类。

步骤S454、基于所获得的意图分类模型，对当前用户实时语音交互进行预估获得预估后的语义特征。

本实施例中，将用户语音识别得到的上下文文本输入上述意图分类模型，输出意图识别结果，作为用户语义特征的量化表示。

S46、基于以上针对不同空间位置用户提取到的行为特征、语义特征，并结合用户属性特征、跟踪信息，进行多模态数据融合并建模，多维度感知用户并实时交互。

该步骤中的行为特征是步骤S444中的用户三维肢体关键点特征与步骤S442中用户的情绪特征的融合处理后形成的特征。

本实施例中，用户属性特征是基于人脸识别实时得到的用户性别、年龄等基本属性。

本实施例中，通过集成学习(ensemble learning)将不同模态数据分别输入训练好的分类器输出打分(决策)进行融合。

本实施例中，可以通过用户情绪、喜好、动作、属性等信息感知其感兴趣程度及购买欲望；同时通过语音话术、屏幕互动与用户实时交互。

针对目前机器人行业仅通过图像数据、深度数据或者语音数据等单一形式对用户感知，从而造成感知不全面、交互不智能等问题，本发明实施例提出了一种处理多模态数据的方法，在复杂多人交互场景下，实现对每一个用户的上述多种模态数据进行融合，综合决策，提升感知和交互效果。

本发明实施例基于场景不同用户的多模态信息融合的交互过程模拟了人与人之间的交互方式，使交互无门槛、更自然、更切合用户意图，更懂人。这一交互方式打破了传统的基于单一信息的交互方式，符合“机器人”类产品的形态特点和用户期待，定义了下一代智能机器人和人的专属交互模式。

本发明实施例还提供一种处理多模态数据的装置，如图8所示，本实施例的一种处理多模态数据的装置，包括：

本实施例的一种处理多模态数据的装置，基于说话人的声音定位声源的方向和距离信息，并通过与实时深度图像定位得到的用户的空间位置信息进行关联，从而实现声纹信息、声音数据与用户之间的关联，从数据源本身进行多模态数据融合，有效解决了分割不同人的交互上下文信息的问题。

在一优选实施例中，如图9所示，所述一种处理多模态数据的装置还可以包括第三获取模块，

在另一优选实施例中，所述第二获取模块还可以用于，从所述音频数据中获取语音识别文本数据，基于深度学习算法根据不同用户交互的语音识别文本数据获得各个用户的语义特征；

所述第三获取模块还可以用于，在实时获取二维视频数据的过程中，对检测到的用户进行跟踪，获取各个用户的轨迹信息；

所述处理模块还可以用于，对指定范围内的一个或多个用户的所述行为特征、所述语义特征、用户属性和所述轨迹信息进行融合；根据融合后生成的特征触发相应的语料进行播放。

本发明实施例提出的一种处理多模态数据的装置，在复杂多人交互场景下，实现对每一个用户的上述多种模态数据进行融合，综合决策，提升感知和交互效果。

本发明实施例还提供一种机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的一种处理多模态数据的方法。

本发明实施例提供的一种机器人能够在复杂多人交互场景下对用户图像和语音等多模态数据进行融合，突破了现有机器人系统无法同时感知多用户交互的弊端，并对用户多模态数据进行有效融合，可以更好地理解不同用户的上下文交互信息，并且机器人在云端的支持下利用多模态数据识别用户实时情感，及时切换与不同用户之间的交互，提升服务体验。

针对传统彩票自助售卖终端在交互与获客方面存在的问题，本发明实施例的售彩机器人主动获客系统基于运动感知和智能交互技术，可以主动搜寻并靠近有服务需求的顾客，通过机智幽默的主动对话带给顾客参与兴趣，让顾客产生探索、发现的乐趣，而后便能大大提升顾客的互动量。本实施例的机器人能够有效地提高了售彩机器人的曝光率，最大限度地实现获客目标，从而为商家带去值得期待的价值回报。

本发明实施例还提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种处理多模态数据的方法。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例，当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种处理多模态数据的方法，包括：

获取深度图像，根据所述深度图像获取各个用户的空间位置信息；包括：通过深度摄像头输出深度图像，所述深度图像指3D数据；基于深度图像对人体深度图像进行分割；获取人体上半身深度图像，并获取上半身深度图像上的凸包点；结合二维坐标选择纵坐标最高的凸包点作为用户的空间位置点，并通过三维坐标转换获取用户的空间位置坐标，进而得到用户的空间位置信息；

将所述空间位置信息与所述声场定位信息进行关联，将不同用户的声纹特征信息与相应用户进行关联；

所述获取深度图像的同时，实时获取二维视频数据，从所述二维视频数据中提取各个用户的情绪特征；从所述深度图像中提取各个用户的三维肢体关键点特征；

分别将各个用户的所述情绪特征和所述三维肢体关键点特征进行融合处理，获得各个用户的行为特征，根据所述行为特征感知用户的行为交互意图；

2.如权利要求1所述的方法，其特征在于：

所述实时获取二维视频数据的过程中包括：对检测到的用户进行跟踪，获取各个用户的轨迹信息；

3.如权利要求2所述的方法，其特征在于：

对指定范围内的一个或多个用户的所述行为特征、所述语义特征、用户属性和所述轨迹信息进行融合；

根据融合后生成的特征触发相应的语料进行播放。

4.一种处理多模态数据的装置，包括：

第一获取模块，用于获取深度图像，根据所述深度图像获取各个用户的空间位置信息；包括：通过深度摄像头输出深度图像，所述深度图像指3D数据；基于深度图像对人体深度图像进行分割；获取人体上半身深度图像，并获取上半身深度图像上的凸包点；结合二维坐标选择纵坐标最高的凸包点作为用户的空间位置点，并通过三维坐标转换获取用户的空间位置坐标，进而得到用户的空间位置信息；

处理模块，用于将所述空间位置信息与所述声场定位信息进行关联，将不同用户的声纹特征信息与相应用户进行关联；

第三获取模块用于，实时获取二维视频数据，从所述二维视频数据中提取各个用户的情绪特征；

所述处理模块还用于，分别将各个用户的情绪特征和三维肢体关键点特征进行融合处理，获得各个用户的行为特征；根据所述行为特征感知用户的行为交互意图；

所述第二获取模块还用于，从所述音频数据中获取语音识别文本数据，基于深度学习算法根据不同用户交互的语音识别文本数据获得各个用户的语义特征；

所述处理模块还用于，对所述行为特征和所述语义特征进行融合处理，根据整合处理结果感知用户的意图。

5.如权利要求4所述的装置，其特征在于：

6.一种机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3任一项所述的一种处理多模态数据的方法。

7.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-3中任一所述的方法。