CN116070173A

CN116070173A - 一种跨模态任务指令理解的指读方法及系统

Info

Publication number: CN116070173A
Application number: CN202310237418.3A
Authority: CN
Inventors: 周智慧; 朱开元; 朱世强; 程超; 顾建军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-05
Anticipated expiration: 2043-03-07
Also published as: CN116070173B

Abstract

本发明公开了一种跨模态任务指令理解的指读方法及系统，包括：对采集的音频数据进行语音识别得到文本数据；基于文本数据进行第一层任务分类得到第一层任务标签；在第一层任务标签为问题回答时，依据捕获图像确定指尖位置及指向信息；基于捕获图像进行目标检测得到候选视觉实体，基于指尖位置及指向信息从候选视觉实体中筛选目标视觉实体；依据目标视觉实体进行第二层任务分类确定第二层任务标签；依据第二层任务标签进行第二层任务规划并执行二层任务，该方法和系统通过将视觉确认与实体确认作为补充，以捕获缺失的代词指代对象信息，实现指代消解，帮助完成对跨模态指令的任务理解。

Description

一种跨模态任务指令理解的指读方法及系统

技术领域

本发明属于通信及指读技术领域，具体涉及一种跨模态任务指令理解的指读方法及系统。

背景技术

家庭服务机器人正承担起日常陪伴、教育、娱乐、家务等多种服务工作，受到了人们的极大欢迎。目前，家庭服务机器人已经出现了多种品类，如扫地机器人，智能音箱，陪伴机器人，教育机器人等。其中，对人类指令的正确理解是服务机器人执行任务的基础条件。

指读机器人作为家庭服务机器人的一种，能够进行指读功能。在指读机器人中，常见的非接触式人机交互指令主要有语音、视觉、文本等模态，在机器人与人的交互过程中，机器人通过对指令的信息分析，完成对人类意图的理解，再为人类提供服务。

在单一语音指令的任务中，通常进行语音识别、语义文本理解，以进行语音指令的意图识别，如本田的Asimo仿人机器人、Anki的Vector轮式机器人、索尼的Aibo机器狗，其均采用了对预定义的语音指令进行识别与语义分析的方法。在单一视觉指令的任务中，通过对2D、3D两类视觉信息的识别与理解，如Robomaster S1机器人，其采用了对预定义的手势进行识别与语义理解的方法。另外，为进一步深度融合文本与视觉的语义信息，基于较为明确的文本指令，相关研究者还开展了针对视觉描述(Video Captioning)的跨模态研究工作，如基于图像内文本的图像识别、人类动作识别、基于文本的视频检索、基于自然语言的视频定位、视觉图像问答。

在指令明确的情形下，基于单一模态指令理解可取得较好的效果。但在实际应用中，经常遇到跨模态任务指令。例如在指读任务中，在发出 “这是什么”或“读给我听” 语音指令时，同时会将手指指向课本对象。此时，传统的单一模态的语音或视觉存在指令信息不全面、语音指令中存在代词的指代对象缺失问题。

虽然自然语言处理领域存在多种指代消解方法，如Rule-based、Mention pair、Mention Ranking等，但如果仅靠单一模态的自然语言理解或视觉识别结果，会导致机器人无法正确理解与执行任务。

发明内容

鉴于上述，本发明目的是提供一种跨模态任务指令理解的指读方法及系统，通过将视觉确认与实体确认作为补充，以捕获缺失的代词指代对象信息，实现指代消解，帮助完成对跨模态指令的任务理解。

为实现上述发明目的，实施例提供的一种跨模态任务指令理解的指读方法，包括：

对采集的音频数据进行语音识别得到文本数据；

基于文本数据进行第一层任务分类得到第一层任务标签；

在第一层任务标签为问题回答时，依据捕获图像确定指尖位置及指向信息；

基于捕获图像进行目标检测得到候选视觉实体，基于指尖位置及指向信息从候选视觉实体中筛选目标视觉实体；

依据目标视觉实体进行第二层任务分类确定第二层任务标签；

依据第二层任务标签进行第二层任务规划并执行二层任务。

在一个实施例中，所述依据捕获图像确定指尖位置及指向信息，包括：

首先，将捕获图像作为手指关键点检测模型的输入，基于手指关键点检测模型检测手指各关节关键点的坐标和手腕关键点的坐标；

然后然后，截取包含手指各关节关键点的矩形图像，将矩形图像依次进行，颜色空间转换、高斯模糊、二值化以及外轮廓提取后，检测凸包点；

最后，计算各凸包点坐标与手腕关键点的坐标的距离，筛选出距离最大的凸包点的坐标为指尖位置坐标，以手腕关键点为原点，将原点到指尖位置的向量为指向信息。

在一个实施例中，所述方法还包括：依据音频数据计算声源定位结果，具体过程为：以机器人正前方向为0度，顺时针转为正方向，测算此时音频数据对应的声源方位角度为作为声源定位结果。

在一个实施例中，所述根据捕获图像确定指尖位置及指向信息，还包括：

将捕获图像作为手指关键点检测模型的输入，基于手指关键点检测模型检测不到手指各关节关键点时，根据声源定位结果下发运动控制命令，并依据运动控制命令将机器人的摄像头转向声源方向，然后再重新捕获图像，利用手指关键点检测模型对新捕获图像进行手指各关节关键点和手腕关键点的检测，依据检测的各关节关键点和手腕关键点确定指尖位置及指向信息。

在一个实施例中，所述根据声源定位结果下发运动控制命令，包括：

依据声源定位结果和当前摄像头所在的位置计算摄像头对齐声源方向的旋转角度，下发的运动控制命令中包含旋转角度。

在一个实施例中，所述基于捕获图像进行目标检测得到候选视觉实体，包括：

将捕获图像作为目标检测模型的输入，基于目标检测模型进行实体检测，得到至少一组实体矩形边界框及其实体标签，作为候选视觉实体；

在一个实施例中，所述基于指尖位置及指向信息从候选视觉实体中筛选最终视觉实体，包括：

首先，设定指向信息与实体方位夹角的阈值范围，依据阈值范围对候选视觉实体进行筛选，得到满足阈值范围的候选视觉实体；

然后，针对满足阈值范围的候选视觉实体，再按照视觉实体的矩形边界框中心到指尖位置的距离进行筛选，获取距离最近的视觉实体为目标视觉实体。

在一个实施例中，所述依据目标视觉实体进行第二层任务分类确定第二层任务标签，包括：

设立实体标签与第二层任务标签的映射表，根据该映射表确实确定目标视觉实体对应的第二层任务标签。

为实现上述发明目的，实施例还提供了一种跨模态任务指令理解的指读系统，包括语音指令识别模块、第一层任务分类模块、视觉指定确认模块、视觉实体确认模块、第二层任务分类模块、任务执行模块，

所述语音指令识别模块用于对采集的音频数据进行语音识别得到文本数据；

所述第一层任务分类模块用于基于文本数据进行第一层任务分类得到第一层任务标签；

所述视觉指定确认模块用于在第一层任务标签为问题回答时，依据捕获图像确定指尖位置及指向信息；

所述视觉实体确认模块用于基于捕获图像进行目标检测得到候选视觉实体，基于指尖位置及指向信息从候选视觉实体中筛选目标视觉实体；

所述第二层任务分类模块用于依据目标视觉实体进行第二层任务分类确定第二层任务标签；

所述任务执行模块用于依据第二层任务标签进行第二层任务规划并执行二级任务。

为实现上述发明目的，实施例还提供了一种机器人，包括麦克风阵列、扬声器、摄像头，以及驱动摄像头转动的机构，还包括上述跨模态任务指令理解的指读系统，应用所述指读系统实现上述跨模态任务指令理解的指读方法。

与现有技术相比，本发明具有的有益效果至少包括：

在感知视觉信息和语音信息这多模态信息的基础上，进行多模态信息的融合，可完成对语音指令的代词指代对象（即视觉实体）的确定，实现指代消解，并进一步完成任务理解与任务执行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的跨模态任务指令理解的指读方法的流程图；

图2为本发明实施例提供的跨模态任务指令理解的指读系统的结构示意图；

图3为本发明实施例中摄像头的初始位置；

图4为本发明实施例中摄像头旋转后的位置；

图5为本发明实施例经阈值筛选后的文本实体及其边界框；

图6为本发明实施例提供的机器人。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

针对机器人单一模态语音指令常出现的代词指代对象的确实问题，本发明实施例提供了一种跨模态任务指令理解的指读方法和系统。

如图1所示，实施例提供的跨模态任务指令理解的指读方法，包括以下步骤：

S110，对采集的音频数据进行语音识别得到文本数据，同时进行声源定位。

采用麦克风阵列获取机器人周围环境的声音，得到音频数据；此实施例通过Ubuntu系统ALSA(高级Linux声音架构)接口读取麦克风阵列的音频数据。

将音频数据输入语音识别服务，进行语音识别得到文本数据。此实施例使用科大讯飞开发平台提供的流式语音听写服务，机器人通过网络上传音频流至科大讯飞开发平台，返回语音听写服务识别的文本数据。语音识别服务可以调用其他商平台的接口，如百度、华为、腾讯等平台，也可以在本地的计算平台中部署离线语音识别SDK或模型达到本地调用的目的，如科大讯飞的离线语音听写服务，百度PaddleSpeech的语音识别模型等。

实施例中，依据音频数据进行声源定位，得到声源定位结果，具体包括：以机器人正前方向为0度，顺时针转为正方向，测算此时音频数据对应的声源方位角度作为声源定位结果。

S120，基于文本数据进行第一层任务分类得到第一层任务标签。

将将文本数据作为任务分类模型的输入，运行任务分类模型推理，获得第一层任务标签。此实施例中的任务分类模型为经过轻量化网络设计、模型训练、剪枝、蒸馏、量化等过程得到的Bert分类模型。任务分类也可以使用其他方法，如朴素贝叶斯分类器、Logistic回归、K近邻（KNN）分类器、支持向量机（SVM）、决策树和随机森林等。如图2所示，该任务分类模型将文本数据转化为“闲聊”、“问题回答”、“播放内容”、“机器人运动”等第一层任务标签。

S130，在第一层任务标签为问题回答时，依据捕获图像确定指尖位置及指向信息。

机器人的摄像头实时捕获图像，当第一层任务标签为问题回答时，依据捕获图像确定指尖位置及指向信息，包括：

首先，将当前捕获图像作为手指关键点检测模型的输入，基于手指关键点检测模型检测手指各关节关键点的坐标和手腕关键点的坐标。其中，手指关键点检测模型为Mediapipe开源库的手指关键点检测模型，也可以使用OpenPose、HRNet、MSPN、RSN、FPN等模型。检测手指各关节关键点的坐标和手腕关键点的坐标的过程也可替换为开放平台的指尖检测服务。

然后，判断至少有一根手指是伸展时，将矩形图像依次进行，颜色空间转换、高斯模糊、二值化以及外轮廓提取后，检测凸包点。

最后，计算手指上各凸包点坐标与手腕关键点的坐标的距离，筛选出距离最大的凸包点的坐标为指尖位置坐标，以手腕关键点为原点，将原点到指尖位置的向量为指向信息。

当基于手指关键点检测模型检测不到手指各关节关键点时，即如图3所示，对摄像头起始方位的捕获图像进行指尖识别，无法得到指尖位置和指向信息时，根据声源定位结果下发运动控制命令，具体包括：依据声源定位结果和当前摄像头所在的位置计算摄像头对齐声源方向的旋转角度，当前摄像头方位角度为时，计算摄像头所需转动角度，其中，为定位的声源方位角。

根据旋转角度生成并下发包含旋转角度的运动控制命令，并依据运动控制命令将机器人的摄像头转向声源方向，如图4所示，根据声源定位结果，将摄像头旋转至图4所示的位置。然后再重新捕获图像，利用手指关键点检测模型对新捕获图像进行手指各关节关键点和手腕关键点的检测，然后依据检测的各关节关键点和手腕关键点按照上述方法确定指尖位置及指向信息。

在一个实施例中，当摄像头转向声源方向时，可以通过视觉目标检测的方法，对最终的方位进行微调，具体包括：当摄像头完成转向运行时，将摄像头捕获的图像作为输入，运行目标检测模型，若输入的图像检测出标签为人体的视觉实体，筛选矩形边界框宽度最大的视觉实体，若该实体矩形边界框几何中心的横坐标为。则摄像头需要调整的角度为：

其中，为摄像头横向分辨率，为摄像头横向最大视场角，预设摄像头需要微调的阈值当，若，则摄像头还需转动,否则，摄像头的方向不需要再微调。此实施例中，为3840，为78度，为10度。

S140，基于捕获图像进行目标检测得到候选视觉实体，基于指尖位置及指向信息从候选视觉实体中筛选目标视觉实体。

实施例中，将捕获图像作为目标检测模型的输入，运行目标检测模型推理以进行实体检测，得到至少一组实体矩形边界框及其实体标签，作为候选视觉实体。

其中，目标检测模型可以采用两种模型，一种是基于轻量化网络YOLOv5s的物体检测与识别模型，此物体检测与识别模型可检测80种实体并赋予实体标签和矩形边界框，物体检测与识别模型也可以使用R-CNN、Fast R-CNN、Faster R-CNN、SSD、RetinaNet等模型。另一种模型为paddleOCRv2的中英文文字检测模型，通过paddle-lite框架进行量化转换以加快在终端的推理速度，该中英文文字检测模型可检测文字及所在的矩形边界框，中英文文字检测模型也可以使用EAST、CRAFT、FPN-LSTM、TextBoxes、PSENet等模型。中英文文字检测模型推理所得的矩形边界框的实体标签为“书本文字”。此外，还可以部署其他种的目标检测模型，如人脸检测与识别、人体行为识别、表情识别等模型。

实施例中，在获得候选视觉实体之后，还基于指尖位置及指向信息从候选视觉实体中筛选目标视觉实体，包括：

首先，以指尖位置为原点，计算该原点到各候选视觉实体的实体矩形边界框中心的实体方向向量，下标i代表检测得到的第i个实体；

然后，设定指向信息与实体方位夹角的阈值范围，依据阈值范围对候选视觉实体进行筛选，得到满足阈值范围的候选视觉实体，用公式表示为：

其中，为指向信息和实体方向向量的夹角。

如图5所示，经过阈值范围筛选的文本边界框为候选视觉实体。在此基础上，还要进行目标视觉实体的筛选，包括：

针对满足阈值范围的候选视觉实体，再按照视觉实体的矩形边界框中心到指尖位置的距离进行筛选，获取距离最近的视觉实体为目标视觉实体。具体实现时，按照实体矩形边界框中心坐标到指尖位置的距离对候选视觉实体由近到远排序，获得离指尖最近的候选视觉实体为目标实体。如图5所示，离指尖最近的目标实体的标签为“书本文字”，则目标实体标签为“书本文字”。

S150，依据目标视觉实体进行第二层任务分类确定第二层任务标签。

实施例中，设立了实体标签与第二层任务标签的映射表，根据此映射表得到距离指尖最近的实体所对应的任务标签为第二层任务标签。如图2所示，实体标签与第二层任务标签的映射表的定义如下：

若实体标签为“书本文字”，则第二层任务标签为“文本阅读”；若实体标签为轻量化网络YOLOv5s推理得到的实体标签，则第二层任务标签为“目标识别与回答”。根据映射表及当前得到的目标实体，可得第二层级任务标签为“文本阅读”。

S160，依据第二层任务标签进行第二层任务规划并执行二层任务。

实施例中，第二层级任务标签为“文本阅读”。根据图2所示，执行任务的步骤为OCR识别和文字转语音，具体步骤如下：

将文本边界框截取输入图像，依次输入至文字识别模型进行推理，得到文本文字。本实施例采用基于paddleOCRv2的中英文文字识别模型、通过paddle-lite框架进行量化转换的模型，可在终端实现快速推理。文字识别模型也可以使用Tesseract OCR、chineseocr_lite、EasyOCR等开源模型。

S140的中英文文字检测模型和S160的中英文文字识别模型也可以替换成调用百度、阿里、有道等云平台的在线文字识别服务，可直接输出文字矩形边界框及识别内容。其余方法与此实施例类似，不作累述。

本实施例可根据输入的指令文本信息，对输出的语音内容进行筛选：若语音识别得到的文本数据为“请读这行话”，则根据视觉实体边界框的中心坐标到指尖坐标的距离将对标签为“书本文字”的视觉实体由近到远排序，筛选离指尖坐标最近的视觉实体，并返回识别的文本文字。若语音识别文本数据为“请读这句话”，则将视觉实体边界框的中心坐标到指尖坐标的距离对标签为“书本文字”的视觉实体由近到远拼接文本内容，通过标点符号断句，筛选最后一个完整的句子。

本实施例调用科大讯飞开放平台的文字转语音服务，将推理得到的文本文字转化为语音数据，通过扬声器播放语音，实现文本的阅读功能。文字转语音服务也采用其他云平台的服务，如阿里云，也可以部署科大讯飞离线语音合成SDK，或Glow-TTS、Tacotron2、Transformer TTS、FastSpeech、Deep Voice 3等文字转语音模型。

若当前摄像头捕获的图像中，离指尖最近的边界框所属的实体标签为YOLOv5s模型推理可得的实体，如图2所示，根据实体标签与第二层任务标签的映射表可得，第二层任务标签为“目标识别与回答”，执行任务的步骤如下：

将目标实体标签与回答语句结合，如目标实体标签是“苹果”，则回答语句为“这是苹果。”调用文字转语音服务，将回答语句转化为语音数据，通过扬声器播放语音。

基于同样的发明构思，实施例还提供了一种跨模态任务指令理解的指读系统，包括语音指令识别模块、第一层任务分类模块、视觉指定确认模块、视觉实体确认模块、第二层任务分类模块、任务执行模块，

其中，语音指令识别模块用于对采集的音频数据进行语音识别得到文本数据，同时进行声源定位；第一层任务分类模块用于基于文本数据进行第一层任务分类得到第一层任务标签；视觉指定确认模块用于在第一层任务标签为问题回答时，依据捕获图像确定指尖位置及指向信息；视觉实体确认模块用于基于捕获图像进行目标检测得到候选视觉实体，基于指尖位置及指向信息从候选视觉实体中筛选目标视觉实体；第二层任务分类模块用于依据目标视觉实体进行第二层任务分类确定第二层任务标签；任务执行模块用于依据第二层任务标签进行第二层任务规划并执行二级任务。

需要说明的是，上述实施例提供的跨模态任务指令理解的指读装置在进行跨模态任务指令理解的指读时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的跨模态任务指令理解的指读装置与跨模态任务指令理解的指读方法实施例属于同一构思，其具体实现过程详见跨模态任务指令理解的指读方法实施例，这里不再赘述。

在上述指读方法和系统中，除去机器人运动和调用远程服务，第一层任务分类、目标视觉实体确认、第二层任务分类的总耗时为1600ms。通过该方法和系统，机器人高效地解决了针对代词指代对象缺失带来的单一语音模态任务指令理解难问题，较好地完成了语音指读指令的跨模态理解和执行。

实施例还提供了一种机器人，如图6所示，包括麦克风阵列、扬声器、摄像头，以及驱动摄像头转动的机构，还包括上述跨模态任务指令理解的指读系统，应用所述指读系统实现上述跨模态任务指令理解的指读方法。

该机器人的硬件组成包括：计算平台为TB96-AI开发板（瑞芯微RK3399PRO芯片，内存：4GB CPU, 2GB NPU，NPU最大算力：3.0TOPs），通过该计算平台和内存实现上述指读方法，此实施例的单目摄像头为HBVCAM的IMX258摄像头模组，最大无畸变视场角为78度，最大分辨率为3840x2160。此实施例的麦克风阵列采用木瓜电子的PXVF3000-KIT 4路圆形麦克风阵列，其DSP芯片支持语音活动检测（VAD）和声源定位。机器人的伺服电机可控制单目摄像头俯仰方向和偏航方向运动。此实施例读取麦克风阵列DSP的接口，获取实时声源定位。声源定位也可以通过GCC、SRP-PHAT、MUSIC、TOPS、FRIDA等算法在本地平台计算得到。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种跨模态任务指令理解的指读方法，其特征在于，包括：

对采集的音频数据进行语音识别得到文本数据；

基于文本数据进行第一层任务分类得到第一层任务标签；

依据第二层任务标签进行第二层任务规划并执行二层任务。

2.根据权利要求1所述的跨模态任务指令理解的指读方法，其特征在于，所述依据捕获图像确定指尖位置及指向信息，包括：

然后，截取包含手指各关节关键点的矩形图像，将矩形图像依次进行，颜色空间转换、高斯模糊、二值化以及外轮廓提取后，检测凸包点；

3.根据权利要求1所述的跨模态任务指令理解的指读方法，其特征在于，还包括：依据音频数据计算声源定位结果，具体过程为：以机器人正前方向为0度，顺时针转为正方向，测算此时音频数据对应的声源方位角度作为声源定位结果。

4.根据权利要求3所述的跨模态任务指令理解的指读方法，其特征在于，根据捕获图像确定指尖位置及指向信息，还包括：

5.根据权利要求4所述的跨模态任务指令理解的指读方法，其特征在于，所述根据声源定位结果下发运动控制命令，包括：

6.根据权利要求1所述的跨模态任务指令理解的指读方法，其特征在于，所述基于捕获图像进行目标检测得到候选视觉实体，包括：

将捕获图像作为目标检测模型的输入，基于目标检测模型进行实体检测，得到至少一组实体矩形边界框及其实体标签，作为候选视觉实体。

7.根据权利要求1所述的跨模态任务指令理解的指读方法，其特征在于，所述基于指尖位置及指向信息从候选视觉实体中筛选最终视觉实体，包括：

8.根据权利要求1所述的跨模态任务指令理解的指读方法，其特征在于，所述依据目标视觉实体进行第二层任务分类确定第二层任务标签，包括：

设立实体标签与第二层任务标签的映射表，根据该映射表确定目标视觉实体对应的第二层任务标签。

9.一种跨模态任务指令理解的指读系统，其特征在于，包括语音指令识别模块、第一层任务分类模块、视觉指定确认模块、视觉实体确认模块、第二层任务分类模块、任务执行模块，

10.一种机器人，包括麦克风阵列、扬声器、摄像头，以及驱动摄像头转动的机构，其特征在于，还包括权利要求9所述的跨模态任务指令理解的指读系统，应用所述指读系统实现权利要求1-8任一项所述的跨模态任务指令理解的指读方法。