CN113887332A

CN113887332A - 一种基于多模态融合的肌肤作业安全监测方法

Info

Publication number: CN113887332A
Application number: CN202111066685.6A
Authority: CN
Inventors: 翟敬梅; 彭德祥
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-01-04
Anticipated expiration: 2041-09-13
Also published as: CN113887332B

Abstract

本发明公开了一种基于多模态融合的肌肤作业安全监测方法，该方法包括：获取人脸图像、语音信息以及肌肤操作仪器输出的力数据；构建识别人脸表情的卷积神经网络，将人脸图像输入卷积神经网络的分类器中进行识别，获得第一基本信度赋值函数；对语音信息进行语音识别，获得文本语义，基于情感词典对文本语义进行识别，获得第二基本信度赋值函数；基于控制图对力数据进行状态识别，获得第三基本信度赋值函数；对获得的三个基本信度赋值函数进行融合，获得输出结果。本发明对作业对象的多模态信息进行监测，避免在操作过程中人体受到伤害，同时判别肌肤作业时人体舒适度，为个性化作业操作提供有价值的信息。本发明可广泛应用于安全监测领域。

Description

一种基于多模态融合的肌肤作业安全监测方法

技术领域

本发明涉及安全监测领域，尤其涉及一种基于多模态融合的肌肤作业安全监测方法。

背景技术

在中国，随着人口老龄化、社会竞争压力变大，医疗康复机构、美容按摩院等行业得到发展，由于人工成本高、作业人员水平参差不齐、培训成本高等问题，在进行人体肌肤作业时，不可避免地存在各种异常发生，例如：按压力过大、移动速度或加速度过大等等，容易造成皮肤疼痛、人体损伤、威胁人体身心健康甚至危害人身安全。

由于人体肌肤有复杂的生物力学特性，还具有触觉感受器，当肌肤作业装置末端以一定姿态施加一定的作用力按一定速度在肌肤表面运动时，皮肤受到这种机械刺激会引起用户不同程度的触觉感受，除了要考虑安全性外，还需考虑用户生理和心理感知的舒适程度。因此为了保证人体安全与提升人体舒服度，需要对人体肌肤交互作业过程进行监测。由于基因、性别、年龄、胖瘦等个性化差异导致肌肤的力学特性和对外界刺激的触觉感知存在差异，在监测过程中仅对单模态信息(如触觉)进行监测不足以监测到个性化差异，因此需要对多模态信息进行监测。

不同于对机器故障的监测，涉及到人体的安全监测要求更高，更为复杂。现有的美容仪器较少配置用于安全监测的传感器，主要依靠人工操作，存有一定隐患；面向患者的医疗康复机器人一般采用力传感器、脑电信号传感器等获取输入信号，使用握手辅助肢体作业；人体按摩机器人一般使用视觉传感器获取信息，利用力传感器辅助以监测按摩作业。在与人协作、以人为作业对象的机器人任务中，针对触觉、视觉、听觉等多模态异常监测，有学者使用了隐马尔科夫模型、变分自编码器网络、随机森林模型等方法，但其构建模型过程过于复杂，且针对各模态准确性不够高。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于多模态融合的肌肤作业安全监测方法，针对人体肌肤作业过程，在确保操作安全的同时，通过调整作业参数提高肌肤作业的准确性和人体舒适度。

本发明所采用的技术方案是：

一种基于多模态融合的肌肤作业安全监测方法，包括以下步骤：

获取人脸图像、语音信息以及肌肤操作仪器输出的力数据；

构建识别人脸表情的卷积神经网络，将所述人脸图像进行数据增强后输入所述卷积神经网络的分类器中进行识别，获得第一基本信度赋值函数；

对所述语音信息进行语音识别，获得文本语义，基于情感词典对所述文本语义进行识别，获得第二基本信度赋值函数；

基于控制图对所述力数据进行状态识别，获得第三基本信度赋值函数；

对所述第一基本信度赋值函数、所述第二基本信度赋值函数和所述第三基本信度赋值函数进行融合，获得输出结果；

其中，将视觉、语音以及力觉这三个模态的识别结果分为n个等级，针对每个模态识别后，获得n个等级的对应的置信度，将所述置信度作为基本信度赋值函数。

进一步，获取所述人脸图像后，对所述人脸图像进行以下处理：

利用harr特征分类器检测人脸图像中的人脸区域，截取所述人脸区域，并对截取后的人脸区域进行大小调整、灰度化处理以及缩放处理。

进一步，获取所述力数据后，对所述力数据进行以下处理：

利用滑动窗口对所述力数据进行降噪处理，以避免噪声干扰造成误判。

进一步，所述对所述语音信息进行语音识别，获得文本语义，包括：

将所述语音信息转换为wav文件，根据wav文件进行语音识别，获得文本语义；

若获得的文本语义为空，则不对语音模态进行后续识别。

进一步，所述卷积神经网络为人脸表情识别模型，所述人脸表情识别模型采用CK人脸表情识别库进行训练，获得模型的训练权重。

进一步，所述基于情感词典对所述文本语义进行识别，包括：

针对所述文本语义，根据停用词表去除停用词；

基于sentence-bert模型对所述文本语义与情感词典进行句子嵌入计算，采用余弦相似度进行相似度计算，获取与所述文本语义最匹配的句子，选取所述最匹配的句子对应的状态作为识别结果。

进一步，所述n个等级包括舒适、稍不适、不适以及伤害这四个等级；

所述基于控制图对所述力数据进行状态识别，包括：

将舒适阈值设为DL，伤害阈值设为UL，且DL＜UL；

从力数据中获取连续的m个采样点，若m个采样点中存有一个采样点的数值大于UL，则判定为伤害；若m个采样点的数值都小于DL，则判定为舒适；若m个采样点的数值均大于DL，且小于UL，则判定为不适；若m个采样点中，部分采样的数值小于DL，另一部分采样点的数值大于DL，则判定为稍不适。

进一步，在每个模态识别后，为了分配规则中避免一票否决，引入不确定度δ；

视觉模态中卷积神经网络获得各状态的概率加上不确定度δ作为视觉模态的基本信度赋值函数；语音模态与力觉模态识别状态后的基本信度赋值函数表根据预设的规则匹配选取。

进一步，所述对所述第一基本信度赋值函数、所述第二基本信度赋值函数和所述第三基本信度赋值函数进行融合，包括：

采样DSmT理论中的PCR2组合规则，对所述第一基本信度赋值函数、所述第二基本信度赋值函数和所述第三基本信度赋值函数进行融合。

所述肌肤作业安全监测方法，还包括改进DSmT的步骤：

针对基于PCR2原则的融合方法，设计标准离差法的自适应加权方法，计算不适与伤害状态的的均方差，利用均方差对融合后的概率赋值进行加权处理，以给予危险状态更大的权重。

本发明的有益效果是：本发明综合考虑了人体个性化差异、人体感受度、操作安全性等进行多模态安全监测，视觉模态利用卷积神经网络分类器进行识别，语音模态利用情感词典进行识别，力觉模态利用控制图进行识别；各模态识别结果按人体舒适度分类，构建基本信度赋值函数；进行多模态融合，实现肌肤作业的多模态安全监测。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1本发明实施例中基于多模态融合的肌肤作业安全监测方法的作业流程图；

图2本发明实施例中基于多模态融合的肌肤作业安全监测方法的装置结构图；

图3本发明实施例中卷积神经网络结构图；

图4本发明实施例中情感词典匹配流程示意图；

图5本发明实施例中控制图检测模型策略示意图。

图2中的附图标记：1-人体肌肤，2-摄像头，3-麦克风，4-力传感器，5-机器人，6-PC主机，7-控制柜。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

多模态信息通过对所有相关的和可利用的信息源协同组合能获得一致的、全面的信息感知，在对人机交互过程监测时能克服单个维度的局限性。人脸表情作为人情感的主要载体，语言是人交流、传递情感的重要途径，两者都能反映人体舒适度以及应急状态时的信息。在肌肤作业过程中，力觉信息是反映舒适度与安全程度的重要参数。因此，为了监测肌肤作业过程中的人体安全，同时判别肌肤作业时人体舒适度，为个性化作业操作提供有价值的信息，本发明针对肌肤作业过程的声音、视觉、力觉模态，提出一种基于改进DSmT理论的多模态安全监测方法。

本实例为基于多模态融合的肌肤作业机器人安全监测方法用于按摩机器人对人体肩颈处按摩时的安全监测，图1所示为一种基于多模态融合的肌肤作业安全监测方法的作业流程图，图2所示为一种基于多模态融合的肌肤作业安全监测方法的装置结构图。分别利用相机、麦克风、力传感器获取作业对象的表情、语音、作业力并进行预处理，分别基于卷积神经网络、情感词典、控制图对视觉模态、语音模态、力觉模态进行识别；各模态输出结果按人体舒适度划分，并构建基本信度赋值函数；基于改进DSmT对多模态信息进行融合，获得监测结果，包括以下步骤：

步骤一：在合适位置放置带麦克风的摄像头，其位置以能捕捉人脸为宜，按摩机器人柔性末端上配置力传感器，读取末端力大小发送到工控机。各装置之间建立连接，由计算机发送指令：

1)建立PC端与相机之间的连接：

在PC主机端的python平台基于opencv接口调用相机录制权限，录制图像；在PC主机端的python平台基于语音录制接口函数调用麦克风权限，录制语音。

2)建立PC端与机器人控制柜之间的TCP/IP连接：

在PC主机端的python平台使用socket通讯函数建立PC端与机器人控制柜之间的TCP/IP 连接，实时读取机器人末端力传感器数据。

3)发送运动控制指令：

在PC主机端的python平台使用socket通讯来向机器人控制柜发送位置坐标或运动模式等运动控制指令，从而实现远程PC端控制机器人向指定位置以指定方式运动。

步骤二：获取各模态信息后，进行预处理：

1)对于视觉模态，获取人脸表情图像后基于opencv中的harr分类器对其进行人脸识别，获取人脸所在区域边框参数，对人脸区域进行提取获得人脸图像，然后进行大小调整并灰度化，裁剪后的图像被调整为固定大小48×48像素，方便后续进行识别。

2)对于语音模态，麦克风每隔2s录制音频，PC端利用接口函数转换存储为wav文件，利用web端语音识别接口上传wav文件，返回语义文本进行识别并接收。

3)对于力觉模态，计算机利用socket直接读取按摩力数据后，利用滑动窗口，取每5 个点的平均值进行去噪，减少因噪声等问题造成的力检测不精确问题。

步骤三：对各模态信息进行识别：

1)对于视觉模态，预先基于tensorflow框架建立卷积神经网络模型，所使用的CNN人脸表情识别模型如图3所示，较为精简，兼顾识别精度和模型大小。该CNN模型由两个卷积层和池块组成，然后是两个完全连接的层，该结构使用ReLU作为每个卷积层的激活函数，将Dropout用于全连通层后，以防止过拟合。其训练采用的主要数据集为CK数据集，为提升其泛化性，加入了作业环境下采集的图片，根据监测状态分类的四个等级分为四类，对分类后的图像进行数据增强后进行训练得到预训练参数。在PC端python平台下的卷积神经网络加载预训练参数后，将预处理后的图像进行旋转、镜像等数据增强操作后，发送至该卷积神经网络分类器即可进行各状态的概率预测。

2)对于语音模态，针对特定场所的文本情感分析，事先收集按摩作业时不同状态下的语音，构建情感词典。

对于作业对象的输入语义后，由于冗余信息较多，先根据停用词表去除停用词。然后根据情感词典进行检索匹配，获得的语义需要与情感词典进行文本相似度检索，采取sentence- bert(SBERT)模型进行文本相似度检索，该网络使用连体和三重网络结构来导出语义上有意义的句子嵌入，而后采用余弦相似度进行相似度计算，计算公式为：

其中，

表示输入语义D_in、词典D_diC的句子嵌入的特征项权重。

语义的整体检索过程如图4所示，去除输入语义的停用词后，利用SBERT模型计算情感词典库的句子嵌入和输入语义的句子嵌入，然后计算输入语义句子嵌入和情感词典库语料的句子嵌入的余弦相似度，选择相似度最高的语料作为目标语句，若相似度未超过一定阈值表示语料库中没有近似语料，说明语音为空或与肌肤作业无关，此时分为舒适状态，若相似度超过阈值则根据该句子在语料库中的分类状态输出输入语义的分类状态。

3)对于力觉模态，控制图法利用控制界限判断控制过程是否处于稳定状态，能区分正常和异常波动：

根据实际作业定义按摩的舒适区间，将舒适区上界分别设为DL。根据协作机器人标准 ISO/TS 15066:2016，根据最大压力大小的80％取伤害阈值为UL。控制图检测模型策略如图5 所示：只要有数据点落在UL上方则认定为伤害；如连续7个点落在UL和DL中间则认定为不适；如7个数据点一部分落在DL上方，一部分落在DL之下则认定为稍不适；连续7个点落在DL之下则认定为舒适。。

步骤四：对各模态信息进行识别，各模态监测状态的结果按人体舒适度分为四个等级：舒适、稍不适、不适、伤害，分别设为A₁、A₂、A₃、A₄，设视觉模态、语音模态、力觉模态分别为M₁、M₂、M₃，为了在自定义的分配规则中避免一票否决，因此引入不确定度δ，即表示A₁∪A₂∪A₃∪A₄，其基本信度赋值函数为 {m_i(A₁),m_i(A₂),m_i(A₃),m_i(A₄),m_i(δ)}。对于检测结果，每个模态信息处理后得到各个等级对应的置信度，将置信度作为基本信度赋值函数：

1)对于视觉模态，通过卷积神经网络可以获得各个状态的分数，设为S₁、S₂、S₃、S₄、S_all为各状态分数之和，监测视觉模态的基本信度赋值函数如表1所示。

表1视觉模态基本信度赋值函数示意表

2)在语音模态中，利用情感词典匹配输出状态后，基本信度赋值函数如表2所示。

3)在力觉模态中，利用控制图识别状态后，基本信度赋值函数如表2所示。

表2语音/力觉模态基本信度赋值函数示意表

步骤五：基于改进DSmT算法进行多模态融合，实现肌肤作业的多模态安全监测：

DSmT理论框架下出现PCR1至PCR5五种分配法则。PCR2精度优于PCR1和PCR4,且PCR2运算较为简单，本发明选用其中的PCR2法则。对于

当多个证据源进行融合时，其组合规则为：

其中

e_12...s是涉及冲突的所有非空集合之和，多数情况e_12...s＝s，但是在某些冲突情况下可以减少。

为了系统能更敏锐地判定危险情况，利用均方差对融合后的概率赋值进行加权处理可给予不适、危险状态更大的权重。

对于A₃、A₄两种情况，其权值公式为：

其中

m_i(A₃)、m_i(A₄)乘以该权值，而后将基本信度赋值函数 {m_i(A₁),m_i(A₂),m_i(A₃),m_i(A₄),m_i(δ)}归一化，令其各状态概率和等于1，即作为最后融合结果。

融合后选取结果中概率最大的状态作为输出状态，若输出状态为无感觉，且在机器人按摩期间，则根据力位反馈进行补偿；若输出状态为不适，则暂时按摩作业；若输出状态为伤害，则停止按摩作业，让机器人末端朝远离人体的方向移动。

为了验证基于多模态融合的肌肤作业安全监测方法的有效性，采用本发明所提的上述作业步骤对机器人肩颈按摩过程进行监测，并与DS证据理论、原DSmT的PCR2法则融合结果进行对比。取一段监测结果，监测所得不适状态与伤害状态的输出结果如表3与表4所示, 各样本中本发明融合算法获得的不适状态与伤害状态置信度比DS理论与原DSmT理论融合算法得到的置信度高，且t1、t2、t3样本中仅有本发明算法融合后得到不适、伤害的监测结果，由此可以证明本发明融合算法更容易监测到危险状态。

表3部分监测样本各模态基本信度赋值函数表

表4部分监测样本各算法融合后基本信度赋值函数表

综上所述，本实施例的方法与现有多模态安全监测方法相比，本实施例方法综合考虑了人体个性化差异、人体感受度、操作安全性等进行多模态安全监测。分别利用相机、麦克风、力传感器获取作业对象的表情图像、语音、作业力并进行预处理；视觉模态利用卷积神经网络分类器进行识别，语音模态利用情感词典进行识别，力觉模态利用控制图进行识别；各模态识别结果按人体舒适度分类，构建基本信度赋值函数；基于改进DSmT算法进行多模态融合，实现肌肤作业的多模态安全监测。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于多模态融合的肌肤作业安全监测方法，其特征在于，包括以下步骤：

获取人脸图像、语音信息以及肌肤操作仪器输出的力数据；

2.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，获取所述人脸图像后，对所述人脸图像进行以下处理：

3.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，获取所述力数据后，对所述力数据进行以下处理：

4.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，所述对所述语音信息进行语音识别，获得文本语义，包括：

若获得的文本语义为空，则不对语音模态进行后续识别。

5.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，所述卷积神经网络为人脸表情识别模型，所述人脸表情识别模型采用CK人脸表情识别库进行训练，获得模型的训练权重。

6.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，所述基于情感词典对所述文本语义进行识别，包括：

针对所述文本语义，根据停用词表去除停用词；

7.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，所述n个等级包括舒适、稍不适、不适以及伤害这四个等级；

所述基于控制图对所述力数据进行状态识别，包括：

将舒适阈值设为DL，伤害阈值设为UL，且DL＜UL；

8.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，在每个模态识别后，为了分配规则中避免一票否决，引入不确定度δ；

9.根据权利要求1所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，所述对所述第一基本信度赋值函数、所述第二基本信度赋值函数和所述第三基本信度赋值函数进行融合，包括：

10.根据权利要求9所述的一种基于多模态融合的肌肤作业安全监测方法，其特征在于，所述n个等级包括舒适、稍不适、不适以及伤害这四个等级；

所述肌肤作业安全监测方法，还包括改进DSmT的步骤：