CN112099630A

CN112099630A - 一种多模态意图逆向主动融合的人机交互方法

Info

Publication number: CN112099630A
Application number: CN202010958262.4A
Authority: CN
Inventors: 冯志全; 郎需婕; 郭庆北; 徐涛; 杨晓晖; 范雪; 田京兰
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-18
Anticipated expiration: 2040-09-11
Also published as: CN112099630B

Abstract

本发明公开一种多模态意图逆向主动融合的人机交互方法，包括：获取环境数据、用户的手势数据以及用户的语音数据；对所述环境数据进行场景感知获取环境信息，对所述手势数据进行手势信息提取获取手势意图，对所述语音数据进行语音信息提取获取语音意图；进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图；对所述融合意图进行信任度评价获取目标融合意图；按所述目标融合意图进行交互反馈。本发明融合意图结合环境时刻、手势数据、语音数据多模态提取而获得，使得意图识别更加准确；能够避免老年人因健忘而重复某一意图；通过主动问询的方式确认发生概率较低的融合意图是否用户本意，获取反映用户本意的目标融合意图。

Description

一种多模态意图逆向主动融合的人机交互方法

技术领域

本发明涉及人机交互技术领域，尤其涉及一种多模态意图逆向主动融合的人机交互方法。

背景技术

据调查，我国有27.1％的老年人是过独居生活或是与老伴一起生活的，这个数字还在随着时间而不断增长，老年陪护工作者在未来社会中会出现供不应求的现象。因此，让机器人代替年轻人照顾老人，让机器人成为新时代的 “保姆”，成了社会的迫切需求。现在的很少有机器人系统是针对老年人的特点设计的，对于老年人的表达模糊、健忘等特性往往使得机器人陪护无法很好的理解老年人的意图。

由于老一辈人的人文化水平有限或随着年龄增长表达能力下降等原因，老年人无论是语言、手势还是体式姿态的表达可能不清晰或存在歧义，通过单模态数据去理解老年人意图不能准确的获知老年人意图。在与老人得社交过程中，不难发现，只要我们反复提问老人表达的不清楚的数据，或是对于老人表达的意图进行反复确认，他们大概率是可以并且能意识到自己表达的错误之处，并进一步解释清楚自己想表达的内容。而且，老年人往往在特定环境特定时间中会有特定的行为动作，因此识别环境数据对于老年人的陪护工作是十分重要的。在现阶段的研究中，鲜有机器人综合考虑时间和地点数据来作为意图可行性评价的参数，导致意图识别准确率低。

发明内容

本发明提供的多模态意图逆向主动融合的人机交互方法，旨在解决现有技术中在与老年人进行人机交互过程中，由于老年人的歧义表达导致对老年人的真实意图的识别的准确率低的问题。

为实现上述目的，本发明提供一种多模态意图逆向主动融合的人机交互方法，包括：

获取环境数据、用户的手势数据以及用户的语音数据；

对所述环境数据进行场景感知获取环境信息，对所述手势数据进行手势信息提取获取手势意图，对所述语音数据进行语音信息提取获取语音意图；进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图；

对所述融合意图进行信任度评价获取目标融合意图；

按所述目标融合意图进行交互反馈。

优选地，对所述环境数据进行场景感知获取环境信息包括：

构建环境信息库，所述环境信息库包括地点以及各个地点中存放的物品；

通过深度摄像设备获取视频形式的所述环境数据；

对所述环境数据进行关键帧提取；

通过YOLOv3目标检测对关键帧进行物品检测分析；

根据所述物品匹配所述环境信息库，获取所述环境信息。

优选地，通过YOLOv3目标检测对所述关键帧图像中的物品进行识别并进行语义提取，选取语义信息正确率为50％以上的语义组成每帧的语义集合，根据所述语义集合和所述环境信息库计算匹配度，将所述环境信息库匹中配度最高的元素提取出来作为所述环境信息。

优选地，多模态意图提取包括：构建意图库，所述意图库包括所有的意图；统计学习所述意图库中的任一意图在不同的所述地点发生的概率，构建意图地点概率集；统计学习所述意图中的任一意图在不同时刻发生的概率，构建意图时刻概率集。

优选地，多模态意图提取融合意图包括：

对所述语音数据进行语音信息提取获取语音意图，构建包含提取的所述语音意图的语音意图集，对所述语音意图集中的所述语音意图按意图地点概率和意图时刻概率的乘积顺序排序，按概率值提取最可能发生语音意图构建的第一意图集；

对所述手势数据进行手势信息提取获取手势意图，构建包含任一所述手势意图的手势意图集，对所述手势意图集中的所述手势意图按意图地点概率和意图时刻概率的乘积顺序排序，按概率值提取最可能发生手势意图构建的第二意图集；

对第一意图集和第二意图集取交集获取第三意图集；

分析第三意图集中的意图获取所述融合意图。

优选地，分析第三意图集中的意图获取所述融合意图包括：

获取所述第三意图集中的任一意图上次发生时刻，并计算上次发生时刻与当前时刻的时间差，根据意图可能发生的时间间隔分析所述时间差来获取所述融合意图。

优选地，对所述融合意图进行信任度评价获取目标融合意图包括：

获取融合意图的融合信任度，将所述融合信任度与融合信任度阈值比较，

将融合信任度大于等于所述融合信任度阈值的融合意图作为目标融合意图；

如果融合意图融合信任度低于所述融合信任度阈值，且融合意图的地点概率小于等于设定的第一概率阈值，则融合意图不是目标融合意图，提示用户无法执行意图；

如果融合意图融合信任度低于所述融合信任度阈值，融合意图中的意图地点概率大于设定的第一概率阈值，且则融合意图的意图时刻概率小于等于第二概率阈值，则提示用户是否执行当前融合意图，如果用户确认执行，则将该融合意图当做目标融合意图，如果用户未确认认执行则提示重新输入语音数据和手势数据；

如果融合意图融合信任度低于所述融合信任度阈值，融合意图中的意图地点概率大于设定的第一概率阈值，且则融合意图的意图时刻概率大于第二概率阈值，计算获取单模态信任度并与单模态信任度阈值对比，如果单模态信任度小于单模态信任度阈值则融合意图不是目标融合意图，主动从用户获取增强数据；如果单模态信任度大于等于单模态信任度阈值，则将融合意图作为目标融合意图。

优选地，对所述融合意图进行评价获取融合意图的融合信任度包括：

对语音意图集和手势意图集进行概率归一化，根据归一化的概率求信息熵，公式如下：

根据信息熵计算所述融合信任度，公式如下：

p_e＝[(2-H_A1)×α₁+(2-H_A2)×α₂]×p(y_n)；

其中，H_A1表示语音意图集的信息熵，H_A2表示手势意图集的信息熵，α₁表示语音意图集的识别率，α₂表示手势意图集的识别率，p(y_n)表示意图y_n的意图地点概率与意图时刻概率集的乘积，p′(y_n)是p(y_n)对应的归一化值。

优选地，所述语音信任度计算公式为：(2-H_A1)×α₁，所述语音信任度计算公式为：(2-H_A2)×α₂。

本申请提出的一种多模态意图逆向主动融合的人机交互方法具体有以下有益效果：

(1)本发明提供的一种多模态意图逆向主动融合的人机交互方法能够通过场景识别获取当前所处的环境信息，统计在不同环境中意图发生的概率，统计不同时刻意图发生的概率，通过不同环境中意图发生的概率与不同时刻意图发生的概率结合，确定某环境某时刻意图发生的综合概率；根据所述手势数据确定的手势意图和语音数据确定的语音意图中综合概率大的取交集取得融合意图；融合意图结合环境时刻、手势数据、语音数据多模态提取而获得，避免单模态识别时表达歧义导致识别错误的情况，从而意图识别更加准确；

(2)且对融合意图上一次发生的时间进行分析，能够避免老年人因健忘而重复某一意图，如：很多老年人都患有疾病，需要每天吃药，而大多数老年人都有记忆力衰退现象，比如吃药事件在一小时之前做过了，但由于健忘而在一小时后重复做同样的事，导致吃药重复引发危险；而避免重复吃药的意图能避免吃多药对老年人造成的危害。

(3)融合意图进行信任度评价而获得目标融合意图，通过问询的方式确认发生概率较低的融合意图是否用户本意，通过问询的方式获取概率极低的融合意图的增强数据，重新确定融合意图，确保了获取的目标融合意图更能反映用户本意，避免表达错误而导致执行错误的交互反馈。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例中多模态意图逆向主动融合的人机交互方法的架构示意图；

图2是本发明实施例中多模态意图逆向主动融合的人机交互方法的流程图；

图3是本发明实施例中获取环境信息的架构示意图；

图4是本发明实施例中获取环境信息的流程图；

图5是本发明实施例中对所述手势数据进行手势信息提取获取手势意图的流程图；

图6是本发明实施例中对所述语音数据进行语音信息提取获取语音意图的流程图；

图7是本发明实施例中多模态意图提取融合意图的流程图；

图8是本发明实施例中对所述融合意图进行信任度评价获取目标融合意图的流程图；

图9是本发明是实例中对融合信任度和单模态信任度进行评价获取目标融合意图的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

结合参阅图1和图2所示，本发明提供一种多模态意图逆向主动融合的人机交互方法，包括：

S100，获取环境数据、用户的手势数据以及用户的语音数据；具体的，通过RGB-D深度摄像头获取视频格式的环境数据和用户的手势数据，通过麦克风获取音频格式的语音数据。在采集环境数据时，所述RGB-D深度摄像头水平转动360°进行环境数据采集，记录采集环境数据的时刻。

S200，对所述环境数据进行场景感知获取环境信息，具体的，参阅图3 和图4所示，对所述环境数据进行场景感知获取环境信息包括：

S201，构建环境信息库D，所述环境信息库包括地点以及各个地点中存放的物品；统计老年人活动环境，具体的以居家环境为例说明，统计厨房、卫生间、主卧、次卧、客厅……地点L，统计各个地点中放置的物品从而建立环境信息库。

S202，对视频格式的所述环境数据进行关键帧提取；具体的，取环境数据的起始帧作为关键帧然后以起始帧为起点RGB-D深度摄像头每转动45° 取一个关键帧，从而获取对应8个方位的关键帧。

S203，通过YOLOv3目标检测对每个关键帧进行物品检测分析；具体的，通过YOLOv3目标检测对这8个关键帧中的物品进行识别并进行语义提取，选取语义识别正确率为50％以上的语义组成的语义集合G。

S204，根据所述物品匹配所述环境信息库D，获取所述环境信息；具体的，计算所述语义集合G和所述环境信息库D中任一地点的匹配度m，公式如下：

其中GI D_Li表示匹配任一地点的物品成功的语义集合中元素的集合，

环境信息＝L[max(m)]，当获取环境信息不唯一时，重新选取另外的环境数据的关键帧再通过YOLOv3目标检测。

S300，对所述手势数据进行手势信息提取获取手势意图；具体的参阅图5 所示包括：

S301，创建手势库E，所述手势库包括与手势意图对应的手势。

S302，对视频格式的所述手势数据进行关键帧提取；具体的，按等时间间隔获取手势数据的关键帧。

S303，对手势数据的关键帧进行统一格式处理，并输入到神经网络进行手势识别获取手势结果。

S304，根据所述手势结果匹配所述手势库E，获取相应的所述手势意图。

S400，对所述语音数据进行语音信息提取获取语音意图；具体的参阅图6 所示包括：

S401，对语音数据进行识别获取与行为意图对应的意图语音信息。

S402，通过所述意图语音信息确定语音意图。

S500，进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图；

其中，参阅图7所示多模态意图提取融合意图包括：

S501，构建意图库I＝{y1,y2,…}，所述意图库包括所有的意图y1， y2，……；

S502，统计学习所述意图库中的任一意图在不同的所述地点发生的概率，构建意图地点概率集；所述意图地点概率集中的元素可表示为：

卧室,n＝1,2,…

g表示意图yn在地点Li发生的概率。

S503，统计学习所述意图中的任一意图在不同时刻发生的概率，构建意图时刻概率集；所述意图时刻概率集中的元素

可表示为：

其中h代表时刻t与意图yn发生的概率关系。

S504，结合意图的地点概率和时间概率，选取最可能发生的意图构建的第一意图集和第二意图集；具体的构建包含提取的所述语音意图的语音意图集I_A1，对所述语音意图集I_A1中的所述语音意图按意图地点概率和意图时刻概率的乘积P(yn)顺序排序，按P(yn)值的高低提取最可能发生语音意图构建的第一意图集I′_A1；具体的，取P(yn)值最高的三个意图来组成所述第一意图集I′_A1；

构建包含提取的所述手势意图的手势意图集I_A2，对所述手势意图集I_A2中的所述手势意图按意图地点概率和意图时刻概率的乘积P(yn)顺序排序，按概率值提取最可能发生手势意图构建的第二意图集I′_A2；具体的，取P(yn) 值最高的三个意图来组成所述第二意图集I′_A2；

其中，

S505，对第一意图集和第二意图集取交集获取第三意图集I_A1A2′；

公式为I_A1A2′＝_A1′∩I_A2′。

S506，分析第三意图集中的意图获取所述融合意图。获取所述第三意图集中的任一意图上次发生时刻，并计算上次发生时刻与当前时刻的时间差，根据意图可能发生的时间间隔分析所述时间差来获取所述融合意图。

具体的，然后，我们再计算第三意图集I_A1A2′中所有意图上次发生的时刻与现在时刻的时间差，根据不同意图发生的时间差设定

(时间间隔)获取出I_A1A2′中的融合意图，融合意图p_s的公式如下：

其中t_now为现在时刻，

为yn意图上次发生时刻，

为意图时间差设定。

具体实施过程中，如果出现第三意图集I_A1A2′为空集合的情况进行以下步骤处理：

如果第一意图集I′_A1为空而导致第三意图集I_A1A2′为空，通过发声装置向用户发送重新获取语音数据的语音消息或者通过显示屏向用户发送重新获取语音数据的文字提示；

如果第二意图集I′_A2为空而导致第三意图集I_A1A2′为空，通过发声装置向用户发送重新获取手势数据的语音消息或者通过显示屏向用户发送重新获取手势数据的文字提示；

如果第一意图集I′_A1，如果第二意图集I′_A2均不为空，通过发声装置向用户发送重新获取语音数据和手势数据的语音消息或者通过显示屏向用户发送重新获取语音数据和手势数据的文字提示。

S600，对所述融合意图进行信任度评价获取目标融合意图；

具体的参阅图8所示包括：

S601，获取融合意图的融合信任度，具体的，对所述融合意图进行评价获取融合意图的融合信任度包括：

对语音意图集I_A1和手势意图集I_A2进行概率归一化，根据归一化的概率求信息熵，公式如下：

根据所述融合意图的信息熵计算所述融合意图的所述融合信任度，公式

如下：p_e＝[(2-H_A1)×α₁+(2-H_A2)×α₂]×p(y_n)；

语音数据识别时环境嘈杂度是影响语音意图识别的重要因素，通过试验确定不同环境的α₁；手势数据识别时，有的手势具有近似的手势，在识别时容易识别错误，因此对不同的手势数据识别成功率不同，通过试验确定不同手势数据识别的α₂。

S602，获取融合意图的单模态信任度，具体的，所述单模态信任度包括手势信任度和语音信任度，所述语音信任度计算公式为：(2-H_A1)×α₁，所述语音信任度计算公式为：(2-H_A2)×α₂。

S603，对融合信任度和单模态信任度进行评价获取目标融合意图；具体的，获取融合意图的融合信任度，将所述融合信任度与融合信任度阈值比较，

其中，所述增强数据包括语音增强数据和手势增强数据；单模态信任度阈值包括语音信任度阈值和手势信任度阈值；在获取增强数据时包括：

如果融合意图中语音意图的语音信任度低于所述语音信任度阈值，通过逆向主动询问用户获取增强语音数据；

如果融合意图中手势意图的手势信任度低于所述手势信任度阈值，通过逆向主动询问用户获取增强手势数据。

具体实施过程中，一种可行的所述融合信任度阈值取值为0.3；一种可行的第一概率阈值为50％；一种可行的第二概率阈值为50％；一种可行的语音信任度阈值为0.21；一种可行的手势信任度阈值为0.21。

S700，按所述目标融合意图进行交互反馈。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多模态意图逆向主动融合的人机交互方法，其特征在于，包括：

获取环境数据、用户的手势数据以及用户的语音数据；

对所述融合意图进行信任度评价获取目标融合意图；

按所述目标融合意图进行交互反馈。

2.根据权利要求1所述的多模态意图逆向主动融合的人机交互方法，其特征在于，对所述环境数据进行场景感知获取环境信息包括：

通过深度摄像设备获取视频形式的所述环境数据；

对所述环境数据进行关键帧提取；

通过YOLOv3目标检测对关键帧进行物品检测分析；

根据所述物品匹配所述环境信息库，获取所述环境信息。

3.根据权利要求2所述的多模态意图逆向主动融合的人机交互方法，其特征在于，通过YOLOv3目标检测对所述关键帧图像中的物品进行识别并进行语义提取，选取语义信息正确率为50％以上的语义组成每帧的语义集合，根据所述语义集合和所述环境信息库计算匹配度，将所述环境信息库匹中配度最高的元素提取出来作为所述环境信息。

4.根据权利要求2所述的多模态意图逆向主动融合的人机交互方法，其特征在于，多模态意图提取包括：构建意图库，所述意图库包括所有的意图；统计学习所述意图库中的任一意图在不同的所述地点发生的概率，构建意图地点概率集；统计学习所述意图中的任一意图在不同时刻发生的概率，构建意图时刻概率集。

5.根据权利要求4所述的多模态意图逆向主动融合的人机交互方法，其特征在于，多模态意图提取融合意图包括：

对第一意图集和第二意图集取交集获取第三意图集；

分析第三意图集中的意图获取所述融合意图。

6.根据权利要求5所述的多模态意图逆向主动融合的人机交互方法，其特征在于，分析第三意图集中的意图获取所述融合意图包括：

7.根据权利要求1所述的多模态意图逆向主动融合的人机交互方法，其特征在于，对所述融合意图进行信任度评价获取目标融合意图包括：

8.根据权利要求7所述的多模态意图逆向主动融合的人机交互方法，其特征在于，所述单模态信任度包括手势信任度和语音信任度；所述增强数据包括语音增强数据和手势增强数据；单模态信任度阈值包括语音信任度阈值和手势信任度阈值；

9.根据权利要求8所述的多模态意图逆向主动融合的人机交互方法，其特征在于，对所述融合意图进行评价获取融合意图的融合信任度包括：

根据信息熵计算所述融合信任度p_e，公式如下：

10.根据权利要求9所述的多模态意图逆向主动融合的人机交互方法，其特征在于，所述语音信任度计算公式为：(2-H_A1)×α₁，所述语音信任度计算公式为：(2-H_A2)×α₂。