CN114816077A

CN114816077A - 一种多模态融合的智能手套系统

Info

Publication number: CN114816077A
Application number: CN202210754057.5A
Authority: CN
Inventors: 冯志全; 王鸿岳
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-07-29

Abstract

本发明公开了一种多模态融合的智能手套系统，涉及人工智能技术领域，包括输入层、识别层、融合层和交互层，所述输入层包括视觉通道、传感器通道和语音通道，所述的识别层分别采用基于YOLOv5的视觉通道意图概率获取算法、基于欧氏距离传感器通道意图概率获取算法和基于余弦相似度匹配的语音通道意图概率获取算法来分别获取视觉通道、传感器通道和语音通道的实验意图，所述的融合层采用多模态融合算法来融合用户多通道意图信息。本发明能够更好识别用户意图并进行交互，利用智能手套手腕处的视觉通道对场景信息进行了无遮挡的实时感知，改进了传统TMFA算法串行处理模态信息的不足的问题。

Description

一种多模态融合的智能手套系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能手套，具体是指一种多模态融合的智能手套系统。

背景技术

本发明基于认知行为理论对用户实验操作进行指导和纠正，该理论指的是通过改变思维和行为的方法来改变不良认知。理想状况下，用户的思考与行动应是紧密结合的。但是在现实条件下，用户认知的形成过程会受到其自动化思考的影响，即用户的某些行为会不通过大脑的思考而执行一些错误的操作。因此，认知行为理论的出现可以帮助用户在理性层面纠正其不假思索的行为。

在智能手套系统整体框架一般包括输入层、识别层、融合层和交互层，在输入层中，智能手套可以获取用户语音、视觉、传感器等多模态信息，并将数据传入识别层；在识别层中，智能手套系统将输入层的数据转化为意图概率集合；在融合层，智能手套系统利用信息量权数法对来自各个通道的意图信息并行融合，从而获取到用户当前真正的实验意图；当获取到用户实验意图后，系统就可以在交互层建立多种用户与智能手套系统的交互功能。

在智能手套的整体框架中，识别层和融合层发挥着重要的作用。在智能实验的背景下，传统多模态融合算法虽然使用了多个通道的信息，但是只能实现一个通道的信息输入与一个实验步骤的单独对应。为了解决这个问题，本发明在识别层分别建立了语音、视觉和传感器通道的意图概率模型，它们用于实时更新其对应通道的意图概率，这些意图概率模型通过对用户行为的分析，将每个通道下用户行为的抽象意图转换成可以计算的意图概率集合，并且在融合层提出一种新的算法，该算法可根据识别层获取的意图概率集合来动态更新每个意图对应的权值，最终对用户行为的意图进行并行融合。

发明内容

本发明针对现有技术的不足，提供了一种能够更好识别用户意图并进行交互的多模态融合的智能手套系统。

本发明是通过如下技术方案实现的，提供一种多模态融合的智能手套系统，包括输入层、识别层、融合层和交互层，所述输入层包括视觉通道、传感器通道和语音通道，其特征在于，所述的识别层分别采用基于YOLOv5的视觉通道意图概率获取算法、基于欧氏距离传感器通道意图概率获取算法和基于余弦相似度匹配的语音通道意图概率获取算法来分别获取视觉通道、传感器通道和语音通道的实验意图，所述的融合层采用多模态融合算法来融合用户多通道意图信息。

在视觉通道下，智能手套上的单目摄像头可以对整个实验场景进行感知，为了获取用户在视觉通道下的实验意图，本优选方案利用YOLOv5中的实验物品的Bounding Box面积变化增量来推断用户的实验意图概率，众所周知，Bounding Box是目标检测中一个重要概念，其常见的输出坐标是边界框的左上角坐标、右下角坐标，即

，用户每次进行实验操作时，其所操作的目标物体

将会进行动态更新，所述的基于YOLOv5的视觉通道意图概率获取算法包括以下步骤：

输入：智能手套的单目摄像头在当前场景下捕获的物体集合

，获取坐标函数

，计算识别物体包围盒的面积函数

；

输出：视觉通道下实验意图集合

；

（1）智能手套进行场景识别，获取当前场景下存在的实验物体集合

（2）利用YOLOv5获取智能手套在第

帧下物体集合

中所有实验物体的包围盒的输出坐标

，

（3）当智能手套移动时，YOLOv5获取第

帧下物体集合

中所有实验物体的包围盒的输出坐标

，

（4）计算第t帧下物体

的面积,

（5）计算两帧之间物体集合

中物体

的面积增量,

（6）通过计算物体集合

中物体

的面积增量与当前场景下所有物体的面积增量的和之比，就可以获得用户在当前实验过程中想要操作的实验物品：

（7）在视觉通道下，不同的实验物品对应有不同的实验意图，将步骤6中求得的概率映射到相应的实验意图中，获得视觉通道下实验步骤概率集合

：

在传感器通道下，不同的实验操作对应有不同的实验意图，在实验操作过程中，用户产生的传感器数据会进行动态更新，由于用户操作产生的传感器数据复杂，所以本发明设置一个七维向量

建立起弯曲度传感器、压力传感器和姿态传感器三者之间的映射关系，在本优选方案中，所述的基于欧氏距离传感器通道意图概率获取算法包括以下步骤：

输入：指尖压力阈值

，弯曲度值

，压力值向量组

，弯曲度值向量组

，姿态传感器产生的旋转角度

和移动速度

，动作库

，向量化函数

，映射函数

，距离计算函数

；

输出：传感器通道下实验意图概率集合

；

（1）对于压力传感器，我们对每一根手指的压力值信息进行向量化，当手指

的压力值大于我们设定好的阈值

的时候，将五维向量的元素全部置1，反之则全部置0，

（2）对于弯曲度传感器，我们对每一根手指的弯曲度值信息进行向量化，首先将五维向量

的弯曲度维度划分为[

,

)，[

,

)，[

,3

)，[

,

)，[9

180

)，当获得手指

的弯曲度值

时，即可将

放置在向量

相应的维度下，

（4）建立

和

的映射关系，

（5）建立

、

、

和

的映射关系，

（6）利用多维空间下欧氏距离公式求得

向量与动作库

中动作向量

的距离，

（7）计算用户进行动作库

中动作

的概率，

（8）在传感器通道下，不同的动作对应有不同的实验意图，将步骤7中求得的概率映射到相应的实验意图中，获得传感器通道下实验步骤概率集合

：

余弦相似度指的是利用两个向量的夹角余弦值判断两个向量的相似程度，余弦值取值为[-1,1]，越接近1，两向量的夹角越小，则越相似，在语音通道下，本发明固定用户的语音输入语句，并设计了基于余弦相似度匹配的语音通道意图概率获取算法（Voicechannel intention probability acquisition algorithm based on cosinesimilarity，以下简称VCIPAA），所述的基于余弦相似度匹配的语音通道意图概率获取算法包括以下步骤：

输入：用户输入的语音

，系统语音库

，分词函数

，并集函数

，编号函数

，编码函数

，匹配函数

；

输出：语音通道下实验意图集合

；

（1）对

中的语音

进行分词操作得到词语集合

，

（2）对

进行并集操作，得到系统语音字典库

，

（3）对

从0到n进行编号，

（4）根据

中的编号顺序对

进行词语向量化操作，最终得到

的n维的独热编码向量

。

（5）当用户输入语音

之后，将

与系统语音库

进行匹配，得到

的独热编码

：

（6）利用下式计算

与

的余弦相似度，

（7）利用下式对余弦值进行归一化操作，得到语音通道下的意图概率集合

，

在虚实融合实验的背景下，多模态融合指的在系统真正确认用户意图之前对所有输入信息的整体融合，而传统的多模态融合算法（Traditional multimodal fusionalgorithm，以下简称TMFA）是利用一种通道的输入信息对应一种实验意图的规则来完成实验，其本质是串行融合了模态信息的多样性，而不是在意图层上对所有模态意图的并行融合，而本发明独创性的提出了基于智能手套系统的多模态融合算法（Multimodal fusionalgorithm based on smart glove system，以下简称MFA），该算法实现了在意图层上并行融合用户多通道意图信息的功能，所述的多模态融合算法包括以下步骤：

输入：视觉通道下的意图概率集合

，传感器通道下的意图概率集合

，语音通道下的意图概率集合

，均值计算函数

，方差计算函数

，归一化函数

输出：用户当前的意图

（1）将意图概率集

、

、

传入智能手套系统中。

（2）计算意图概率集的概率均值，

（3）计算意图概率集的概率方差，

（4）利用下式求取各个通道的变异系数

，

（5）对变异系数进行归一化处理，得到每个通道的权值，

（6）计算三个通道实时意图的联合概率，获得联合概率最大的意图，即为最终意图

，如下式所示；

算法有效性是指当输入值满足条件时，此算法要保证正常工作且输出相应的结果，即不论将断点设置在语音通道、视觉通道还是传感器通道都会输出相应的意图。在真实实验过程中，用户不一定会同时输入三个通道的信息，比如用户在操作时可能没有进行语音的输入，则该算法会会实时的弹性的更新视觉通道和传感器通道的变异系数来进行最终意图概率的计算。

当用户利用智能手套手腕部的摄像头感知实验场景信息时，多模态融合算法使用YOLOv5对场景中的实验物体进行识别，该算法将识别物体boundingbox的面积变化值输入进VSIPAA算法中，获取了视觉通道下的实验意图的概率集合

。当用户使用智能手套操作真实或者虚拟实验物品时，MFA算法调用SRIPAA算法对实时获取的传感器数据建立映射关系，并利用高维空间下的欧式距离公式计算传感器通道下的实验意图概率集合

。当用户输入语音数据时，MFA算法调用VCIPAA算法对输入语音数据的独热编码与系统语音库中语句的独热编码进行余弦相似度匹配，最后输出语音通道下的意图概率集合

。

在实验过程中，MFA算法会实时更新每个通道的意图概率集合的值，并根据概率值变化来更新每个通道对应的权值，即变异系数。最终，MFA算法根据归一化后的变异系数对三个通道的概率集合进行意图层融合，即可得到用户的最终意图。

MFA算法在理论上有效的解决了本发明提出的两个关键问题：（1）MFA算法与应用在室内交互输入装置的TMFA算法相比，该算法利用智能手套手腕处的视觉通道对场景信息进行了无遮挡的实时感知；（2）MFA算法可以在意图层上并行融合用户的多模态意图，改进了TMFA算法串行处理模态信息的不足。

附图说明

图1为本发明中用户操作木炭还原氧化铁实验示意图。

图2为本发明中多模态融合的智能手套系统的总体框架结构示意图，图中，（a）是用户佩戴智能手套倾倒蒸馏水溶液的示意图；（b）是用户拿起热毛巾进行气密性检验的示意图；（c）是用户取出铁粉后药粒跟随药匙尖端移动的示意图；（d）是用户点燃酒精喷灯后的实验现象示意图。

具体实施方式

为能清楚说明本发明方案的技术特点，下面结合附图，并通过具体实施方式，对本方案进一步阐述。

如图1中所示，提供一种多模态融合的智能手套系统，包括输入层、识别层、融合层和交互层，所述输入层包括视觉通道、传感器通道和语音通道，所述的识别层分别采用基于YOLOv5的视觉通道意图概率获取算法、基于欧氏距离传感器通道意图概率获取算法和基于余弦相似度匹配的语音通道意图概率获取算法来分别获取视觉通道、传感器通道和语音通道的实验意图，所述的融合层采用多模态融合算法来融合用户多通道意图信息。

在本实施例中，所述的基于YOLOv5的视觉通道意图概率获取算法包括以下步骤：

输入：智能手套的单目摄像头在当前场景下捕获的物体集合

，获取坐标函数

，计算识别物体包围盒的面积函数

；

输出：视觉通道下实验意图集合

；

（2）利用YOLOv5获取智能手套在第

帧下物体集合

中所有实验物体的包围盒的输出坐标

，

（3）当智能手套移动时，YOLOv5获取第

帧下物体集合

中所有实验物体的包围盒的输出坐标

，

（4）计算第t帧下物体

的面积,

（5）计算两帧之间物体集合

中物体

的面积增量,

（6）通过计算物体集合

中物体

的面积增量与当前场景下所有物体的面积增量的和之比，就可以获得用户在当前实验过程中想要操作的实验物品。

。

所述的基于欧氏距离传感器通道意图概率获取算法包括以下步骤：

输入：指尖压力阈值

，弯曲度值

，压力值向量组

，弯曲度值向量组

，姿态传感器产生的旋转角度

和移动速度

，动作库

，向量化函数

，映射函数

，距离计算函数

；

输出：传感器通道下实验意图概率集合

；

的压力值大于我们设定好的阈值

的时候，将五维向量的元素全部置1，反之则全部置0，

的弯曲度维度划分为[

,

)，[

,

)，[

,3

)，[

,

)，[9

180

)，当获得手指

的弯曲度值

时，即可将

放置在向量

相应的维度下，

（4）建立

和

的映射关系，

（5）建立

、

、

和

的映射关系，

（6）利用多维空间下欧氏距离公式求得

向量与动作库

中动作向量

的距离，

（7）计算用户进行动作库

中动作

的概率，

。

所述的基于余弦相似度匹配的语音通道意图概率获取算法包括以下步骤：

输入：用户输入的语音

，系统语音库

，分词函数

，并集函数

，编号函数

，编码函数

，匹配函数

；

输出：语音通道下实验意图集合

；

（1）对

中的语音

进行分词操作得到词语集合

，

（2）对

进行并集操作，得到系统语音字典库

，

（3）对

从0到n进行编号，

（4）根据

中的编号顺序对

进行词语向量化操作，最终得到

的n维的独热编码向量

。

（5）当用户输入语音

之后，将

与系统语音库

进行匹配，得到

的独热编码

：

（6）利用下式计算

与

的余弦相似度，

，

所述的多模态融合算法包括以下步骤：

输入：视觉通道下的意图概率集合

，传感器通道下的意图概率集合

，语音通道下的意图概率集合

，均值计算函数

，方差计算函数

，归一化函数

输出：用户当前的意图

（1）将意图概率集

、

、

传入智能手套系统中；

（2）计算意图概率集的概率均值，

（3）计算意图概率集的概率方差，

（4）利用下式求取各个通道的变异系数

，

（5）对变异系数进行归一化处理，得到每个通道的权值，

，如下式所示；

。

实施案例和仿真结果

本发明利用了多模态融合的智能手套进行木炭还原氧化铁实验。

在本实验当中，第二步是倾倒蒸馏水，佩戴智能手套的用户的拿着盛有液体的真实烧杯向虚拟烧杯做倾倒动作，并输入语音“倾倒蒸馏水”。此时，系统通过多模态融合算法推断出用户当前的行为意图为“倾倒蒸馏水溶液”。如图2中的（a）所示，MR实验系统通过实验场景动画实时反馈用户当前的行为，并语音输出对用户操作的提醒。接下来，当智能手套检测到用户拿起热毛巾，并对虚拟烧杯做出捂住杯壁的动作时，即使不用语音输入“气密性检验”，系统仍可以利用多模态融合算法推断出用户当前的行为是“气密性检验”，如图2中的（b）所示，该实验利用信息增强技术在虚拟烧杯中显示产生的气泡，证明装置气密性良好。随着操作的进行，当智能手套检测到用户拿起药匙向盛有铁粉的小细口瓶做取药动作，并输入语音“取出铁粉”时，智能手套系统获取用户当前的操作行为是“取出铁粉”，如图2中的（c）所示，实验系统中虚拟的铁粉药粒跟随药匙尖端移动。在最后一步，当用户将铁粉和木炭粉装入试管后，用户佩戴智能手套操作虚拟的酒精喷灯，与此同时输入语音“点燃酒精喷灯”，系统就会获取到用户当前的行为是“点燃酒精喷灯”，如图2中的（d）所示，MR实验系统中酒精喷灯燃烧起虚拟火焰，并且澄清石灰水变浑浊。

最后，还应说明，上述举例和说明也并不仅限于上述实施例，本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述；以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制，参照优选的实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨，也应属于本发明的权利要求保护范围。

Claims

1.一种多模态融合的智能手套系统，包括输入层、识别层、融合层和交互层，所述输入层包括视觉通道、传感器通道和语音通道，其特征在于，所述的识别层分别采用基于YOLOv5的视觉通道意图概率获取算法、基于欧氏距离传感器通道意图概率获取算法和基于余弦相似度匹配的语音通道意图概率获取算法来分别获取视觉通道、传感器通道和语音通道的实验意图，所述的融合层采用多模态融合算法来融合用户多通道意图信息。

2.根据权利要求1所述的一种多模态融合的智能手套系统，其特征在于，所述的基于YOLOv5的视觉通道意图概率获取算法包括以下步骤：

输入：智能手套的单目摄像头在当前场景下捕获的物体集合