CN112099630A - 一种多模态意图逆向主动融合的人机交互方法 - Google Patents

一种多模态意图逆向主动融合的人机交互方法 Download PDF

Info

Publication number
CN112099630A
CN112099630A CN202010958262.4A CN202010958262A CN112099630A CN 112099630 A CN112099630 A CN 112099630A CN 202010958262 A CN202010958262 A CN 202010958262A CN 112099630 A CN112099630 A CN 112099630A
Authority
CN
China
Prior art keywords
intention
fusion
gesture
voice
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010958262.4A
Other languages
English (en)
Other versions
CN112099630B (zh
Inventor
冯志全
郎需婕
郭庆北
徐涛
杨晓晖
范雪
田京兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202010958262.4A priority Critical patent/CN112099630B/zh
Publication of CN112099630A publication Critical patent/CN112099630A/zh
Application granted granted Critical
Publication of CN112099630B publication Critical patent/CN112099630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开一种多模态意图逆向主动融合的人机交互方法,包括:获取环境数据、用户的手势数据以及用户的语音数据;对所述环境数据进行场景感知获取环境信息,对所述手势数据进行手势信息提取获取手势意图,对所述语音数据进行语音信息提取获取语音意图;进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图;对所述融合意图进行信任度评价获取目标融合意图;按所述目标融合意图进行交互反馈。本发明融合意图结合环境时刻、手势数据、语音数据多模态提取而获得,使得意图识别更加准确;能够避免老年人因健忘而重复某一意图;通过主动问询的方式确认发生概率较低的融合意图是否用户本意,获取反映用户本意的目标融合意图。

Description

一种多模态意图逆向主动融合的人机交互方法
技术领域
本发明涉及人机交互技术领域,尤其涉及一种多模态意图逆向主动融合 的人机交互方法。
背景技术
据调查,我国有27.1%的老年人是过独居生活或是与老伴一起生活的,这 个数字还在随着时间而不断增长,老年陪护工作者在未来社会中会出现供不 应求的现象。因此,让机器人代替年轻人照顾老人,让机器人成为新时代的 “保姆”,成了社会的迫切需求。现在的很少有机器人系统是针对老年人的 特点设计的,对于老年人的表达模糊、健忘等特性往往使得机器人陪护无法 很好的理解老年人的意图。
由于老一辈人的人文化水平有限或随着年龄增长表达能力下降等原因, 老年人无论是语言、手势还是体式姿态的表达可能不清晰或存在歧义,通过 单模态数据去理解老年人意图不能准确的获知老年人意图。在与老人得社交 过程中,不难发现,只要我们反复提问老人表达的不清楚的数据,或是对于 老人表达的意图进行反复确认,他们大概率是可以并且能意识到自己表达的 错误之处,并进一步解释清楚自己想表达的内容。而且,老年人往往在特定 环境特定时间中会有特定的行为动作,因此识别环境数据对于老年人的陪护 工作是十分重要的。在现阶段的研究中,鲜有机器人综合考虑时间和地点数 据来作为意图可行性评价的参数,导致意图识别准确率低。
发明内容
本发明提供的多模态意图逆向主动融合的人机交互方法,旨在解决现有 技术中在与老年人进行人机交互过程中,由于老年人的歧义表达导致对老年 人的真实意图的识别的准确率低的问题。
为实现上述目的,本发明提供一种多模态意图逆向主动融合的人机交互 方法,包括:
获取环境数据、用户的手势数据以及用户的语音数据;
对所述环境数据进行场景感知获取环境信息,对所述手势数据进行手势 信息提取获取手势意图,对所述语音数据进行语音信息提取获取语音意图; 进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图;
对所述融合意图进行信任度评价获取目标融合意图;
按所述目标融合意图进行交互反馈。
优选地,对所述环境数据进行场景感知获取环境信息包括:
构建环境信息库,所述环境信息库包括地点以及各个地点中存放的物品;
通过深度摄像设备获取视频形式的所述环境数据;
对所述环境数据进行关键帧提取;
通过YOLOv3目标检测对关键帧进行物品检测分析;
根据所述物品匹配所述环境信息库,获取所述环境信息。
优选地,通过YOLOv3目标检测对所述关键帧图像中的物品进行识别并 进行语义提取,选取语义信息正确率为50%以上的语义组成每帧的语义集合, 根据所述语义集合和所述环境信息库计算匹配度,将所述环境信息库匹中配 度最高的元素提取出来作为所述环境信息。
优选地,多模态意图提取包括:构建意图库,所述意图库包括所有的意 图;统计学习所述意图库中的任一意图在不同的所述地点发生的概率,构建 意图地点概率集;统计学习所述意图中的任一意图在不同时刻发生的概率, 构建意图时刻概率集。
优选地,多模态意图提取融合意图包括:
对所述语音数据进行语音信息提取获取语音意图,构建包含提取的所述 语音意图的语音意图集,对所述语音意图集中的所述语音意图按意图地点概 率和意图时刻概率的乘积顺序排序,按概率值提取最可能发生语音意图构建 的第一意图集;
对所述手势数据进行手势信息提取获取手势意图,构建包含任一所述手 势意图的手势意图集,对所述手势意图集中的所述手势意图按意图地点概率 和意图时刻概率的乘积顺序排序,按概率值提取最可能发生手势意图构建的 第二意图集;
对第一意图集和第二意图集取交集获取第三意图集;
分析第三意图集中的意图获取所述融合意图。
优选地,分析第三意图集中的意图获取所述融合意图包括:
获取所述第三意图集中的任一意图上次发生时刻,并计算上次发生时刻 与当前时刻的时间差,根据意图可能发生的时间间隔分析所述时间差来获取 所述融合意图。
优选地,对所述融合意图进行信任度评价获取目标融合意图包括:
获取融合意图的融合信任度,将所述融合信任度与融合信任度阈值比较,
将融合信任度大于等于所述融合信任度阈值的融合意图作为目标融合意 图;
如果融合意图融合信任度低于所述融合信任度阈值,且融合意图的地点 概率小于等于设定的第一概率阈值,则融合意图不是目标融合意图,提示用 户无法执行意图;
如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图 地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率小于等于 第二概率阈值,则提示用户是否执行当前融合意图,如果用户确认执行,则 将该融合意图当做目标融合意图,如果用户未确认认执行则提示重新输入语 音数据和手势数据;
如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图 地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率大于第二 概率阈值,计算获取单模态信任度并与单模态信任度阈值对比,如果单模态 信任度小于单模态信任度阈值则融合意图不是目标融合意图,主动从用户获 取增强数据;如果单模态信任度大于等于单模态信任度阈值,则将融合意图 作为目标融合意图。
优选地,对所述融合意图进行评价获取融合意图的融合信任度包括:
对语音意图集和手势意图集进行概率归一化,根据归一化的概率求信息 熵,公式如下:
Figure BDA0002677694390000031
根据信息熵计算所述融合信任度,公式如下:
pe=[(2-HA1)×α1+(2-HA2)×α2]×p(yn);
其中,HA1表示语音意图集的信息熵,HA2表示手势意图集的信息熵,α1表 示语音意图集的识别率,α2表示手势意图集的识别率,p(yn)表示意图yn的意 图地点概率与意图时刻概率集的乘积,p′(yn)是p(yn)对应的归一化值。
优选地,所述语音信任度计算公式为:(2-HA1)×α1,所述语音信任度计算 公式为:(2-HA2)×α2
本申请提出的一种多模态意图逆向主动融合的人机交互方法具体有以下 有益效果:
(1)本发明提供的一种多模态意图逆向主动融合的人机交互方法能够通 过场景识别获取当前所处的环境信息,统计在不同环境中意图发生的概率, 统计不同时刻意图发生的概率,通过不同环境中意图发生的概率与不同时刻 意图发生的概率结合,确定某环境某时刻意图发生的综合概率;根据所述手 势数据确定的手势意图和语音数据确定的语音意图中综合概率大的取交集取 得融合意图;融合意图结合环境时刻、手势数据、语音数据多模态提取而获 得,避免单模态识别时表达歧义导致识别错误的情况,从而意图识别更加准 确;
(2)且对融合意图上一次发生的时间进行分析,能够避免老年人因健忘 而重复某一意图,如:很多老年人都患有疾病,需要每天吃药,而大多数老 年人都有记忆力衰退现象,比如吃药事件在一小时之前做过了,但由于健忘 而在一小时后重复做同样的事,导致吃药重复引发危险;而避免重复吃药的 意图能避免吃多药对老年人造成的危害。
(3)融合意图进行信任度评价而获得目标融合意图,通过问询的方式确 认发生概率较低的融合意图是否用户本意,通过问询的方式获取概率极低的 融合意图的增强数据,重新确定融合意图,确保了获取的目标融合意图更能 反映用户本意,避免表达错误而导致执行错误的交互反馈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的 附图。
图1是本发明实施例中多模态意图逆向主动融合的人机交互方法的架构 示意图;
图2是本发明实施例中多模态意图逆向主动融合的人机交互方法的流程 图;
图3是本发明实施例中获取环境信息的架构示意图;
图4是本发明实施例中获取环境信息的流程图;
图5是本发明实施例中对所述手势数据进行手势信息提取获取手势意图 的流程图;
图6是本发明实施例中对所述语音数据进行语音信息提取获取语音意图 的流程图;
图7是本发明实施例中多模态意图提取融合意图的流程图;
图8是本发明实施例中对所述融合意图进行信任度评价获取目标融合意 图的流程图;
图9是本发明是实例中对融合信任度和单模态信任度进行评价获取目标 融合意图的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
结合参阅图1和图2所示,本发明提供一种多模态意图逆向主动融合的 人机交互方法,包括:
S100,获取环境数据、用户的手势数据以及用户的语音数据;具体的, 通过RGB-D深度摄像头获取视频格式的环境数据和用户的手势数据,通过麦 克风获取音频格式的语音数据。在采集环境数据时,所述RGB-D深度摄像头 水平转动360°进行环境数据采集,记录采集环境数据的时刻。
S200,对所述环境数据进行场景感知获取环境信息,具体的,参阅图3 和图4所示,对所述环境数据进行场景感知获取环境信息包括:
S201,构建环境信息库D,所述环境信息库包括地点以及各个地点中存 放的物品;统计老年人活动环境,具体的以居家环境为例说明,统计厨房、 卫生间、主卧、次卧、客厅……地点L,统计各个地点中放置的物品从而建立 环境信息库。
S202,对视频格式的所述环境数据进行关键帧提取;具体的,取环境数 据的起始帧作为关键帧然后以起始帧为起点RGB-D深度摄像头每转动45° 取一个关键帧,从而获取对应8个方位的关键帧。
S203,通过YOLOv3目标检测对每个关键帧进行物品检测分析;具体的, 通过YOLOv3目标检测对这8个关键帧中的物品进行识别并进行语义提取, 选取语义识别正确率为50%以上的语义组成的语义集合G。
S204,根据所述物品匹配所述环境信息库D,获取所述环境信息;具体 的,计算所述语义集合G和所述环境信息库D中任一地点的匹配度m,公式 如下:
Figure BDA0002677694390000061
其中GI DLi表示匹配任一地点的物品成功的语义集合 中元素的集合,
环境信息=L[max(m)],当获取环境信息不唯一时,重新选取另外的环 境数据的关键帧再通过YOLOv3目标检测。
S300,对所述手势数据进行手势信息提取获取手势意图;具体的参阅图5 所示包括:
S301,创建手势库E,所述手势库包括与手势意图对应的手势。
S302,对视频格式的所述手势数据进行关键帧提取;具体的,按等时间 间隔获取手势数据的关键帧。
S303,对手势数据的关键帧进行统一格式处理,并输入到神经网络进行 手势识别获取手势结果。
S304,根据所述手势结果匹配所述手势库E,获取相应的所述手势意图。
S400,对所述语音数据进行语音信息提取获取语音意图;具体的参阅图6 所示包括:
S401,对语音数据进行识别获取与行为意图对应的意图语音信息。
S402,通过所述意图语音信息确定语音意图。
S500,进行对环境信息、手势意图以及语音意图进行多模态意图提取获 取融合意图;
其中,参阅图7所示多模态意图提取融合意图包括:
S501,构建意图库I={y1,y2,…},所述意图库包括所有的意图y1, y2,……;
S502,统计学习所述意图库中的任一意图在不同的所述地点发生的概率, 构建意图地点概率集;所述意图地点概率集中的元素可表示为:
Figure BDA0002677694390000072
卧室,n=1,2,…
g表示意图yn在地点Li发生的概率。
S503,统计学习所述意图中的任一意图在不同时刻发生的概率,构建意 图时刻概率集;所述意图时刻概率集中的元素
Figure BDA0002677694390000073
可表示为:
Figure RE-GDA0002703386550000074
其中h代表时刻t与意图yn发生的概率关系。
S504,结合意图的地点概率和时间概率,选取最可能发生的意图构建的 第一意图集和第二意图集;具体的构建包含提取的所述语音意图的语音意图 集IA1,对所述语音意图集IA1中的所述语音意图按意图地点概率和意图时刻 概率的乘积P(yn)顺序排序,按P(yn)值的高低提取最可能发生语音意图 构建的第一意图集I′A1;具体的,取P(yn)值最高的三个意图来组成所述第 一意图集I′A1
构建包含提取的所述手势意图的手势意图集IA2,对所述手势意图集IA2中的所述手势意图按意图地点概率和意图时刻概率的乘积P(yn)顺序排序, 按概率值提取最可能发生手势意图构建的第二意图集I′A2;具体的,取P(yn) 值最高的三个意图来组成所述第二意图集I′A2
其中,
Figure BDA0002677694390000075
S505,对第一意图集和第二意图集取交集获取第三意图集IA1A2′;
公式为IA1A2′=A1′∩IA2′。
S506,分析第三意图集中的意图获取所述融合意图。获取所述第三意图 集中的任一意图上次发生时刻,并计算上次发生时刻与当前时刻的时间差, 根据意图可能发生的时间间隔分析所述时间差来获取所述融合意图。
具体的,然后,我们再计算第三意图集IA1A2′中所有意图上次发生的时 刻与现在时刻的时间差,根据不同意图发生的时间差设定
Figure BDA0002677694390000079
(时间间隔)获 取出IA1A2′中的融合意图,融合意图ps的公式如下:
Figure BDA0002677694390000076
其中tnow为现在时刻,
Figure BDA0002677694390000077
为yn意图上次发生时刻,
Figure BDA0002677694390000078
为意图时间差设定。
具体实施过程中,如果出现第三意图集IA1A2′为空集合的情况进行以下 步骤处理:
如果第一意图集I′A1为空而导致第三意图集IA1A2′为空,通过发声装置向 用户发送重新获取语音数据的语音消息或者通过显示屏向用户发送重新获取 语音数据的文字提示;
如果第二意图集I′A2为空而导致第三意图集IA1A2′为空,通过发声装置向 用户发送重新获取手势数据的语音消息或者通过显示屏向用户发送重新获取 手势数据的文字提示;
如果第一意图集I′A1,如果第二意图集I′A2均不为空,通过发声装置向用户 发送重新获取语音数据和手势数据的语音消息或者通过显示屏向用户发送重 新获取语音数据和手势数据的文字提示。
S600,对所述融合意图进行信任度评价获取目标融合意图;
具体的参阅图8所示包括:
S601,获取融合意图的融合信任度,具体的,对所述融合意图进行评价 获取融合意图的融合信任度包括:
对语音意图集IA1和手势意图集IA2进行概率归一化,根据归一化的概率 求信息熵,公式如下:
Figure BDA0002677694390000081
根据所述融合意图的信息熵计算所述融合意图的所述融合信任度,公式
如下:pe=[(2-HA1)×α1+(2-HA2)×α2]×p(yn);
其中,HA1表示语音意图集的信息熵,HA2表示手势意图集的信息熵,α1表 示语音意图集的识别率,α2表示手势意图集的识别率,p(yn)表示意图yn的意 图地点概率与意图时刻概率集的乘积,p′(yn)是p(yn)对应的归一化值。
语音数据识别时环境嘈杂度是影响语音意图识别的重要因素,通过试验 确定不同环境的α1;手势数据识别时,有的手势具有近似的手势,在识别时 容易识别错误,因此对不同的手势数据识别成功率不同,通过试验确定不同 手势数据识别的α2
S602,获取融合意图的单模态信任度,具体的,所述单模态信任度包括 手势信任度和语音信任度,所述语音信任度计算公式为:(2-HA1)×α1,所述语 音信任度计算公式为:(2-HA2)×α2
S603,对融合信任度和单模态信任度进行评价获取目标融合意图;具体 的,获取融合意图的融合信任度,将所述融合信任度与融合信任度阈值比较,
将融合信任度大于等于所述融合信任度阈值的融合意图作为目标融合意 图;
如果融合意图融合信任度低于所述融合信任度阈值,且融合意图的地点 概率小于等于设定的第一概率阈值,则融合意图不是目标融合意图,提示用 户无法执行意图;
如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图 地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率小于等于 第二概率阈值,则提示用户是否执行当前融合意图,如果用户确认执行,则 将该融合意图当做目标融合意图,如果用户未确认认执行则提示重新输入语 音数据和手势数据;
如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图 地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率大于第二 概率阈值,计算获取单模态信任度并与单模态信任度阈值对比,如果单模态 信任度小于单模态信任度阈值则融合意图不是目标融合意图,主动从用户获 取增强数据;如果单模态信任度大于等于单模态信任度阈值,则将融合意图 作为目标融合意图。
其中,所述增强数据包括语音增强数据和手势增强数据;单模态信任度 阈值包括语音信任度阈值和手势信任度阈值;在获取增强数据时包括:
如果融合意图中语音意图的语音信任度低于所述语音信任度阈值,通过 逆向主动询问用户获取增强语音数据;
如果融合意图中手势意图的手势信任度低于所述手势信任度阈值,通过 逆向主动询问用户获取增强手势数据。
具体实施过程中,一种可行的所述融合信任度阈值取值为0.3;一种可行 的第一概率阈值为50%;一种可行的第二概率阈值为50%;一种可行的语音 信任度阈值为0.21;一种可行的手势信任度阈值为0.21。
S700,按所述目标融合意图进行交互反馈。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构 造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件 或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。 本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机 来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是 通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示 任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了 基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权 利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本 发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要 求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种多模态意图逆向主动融合的人机交互方法,其特征在于,包括:
获取环境数据、用户的手势数据以及用户的语音数据;
对所述环境数据进行场景感知获取环境信息,对所述手势数据进行手势信息提取获取手势意图,对所述语音数据进行语音信息提取获取语音意图;进行对环境信息、手势意图以及语音意图进行多模态意图提取获取融合意图;
对所述融合意图进行信任度评价获取目标融合意图;
按所述目标融合意图进行交互反馈。
2.根据权利要求1所述的多模态意图逆向主动融合的人机交互方法,其特征在于,对所述环境数据进行场景感知获取环境信息包括:
构建环境信息库,所述环境信息库包括地点以及各个地点中存放的物品;
通过深度摄像设备获取视频形式的所述环境数据;
对所述环境数据进行关键帧提取;
通过YOLOv3目标检测对关键帧进行物品检测分析;
根据所述物品匹配所述环境信息库,获取所述环境信息。
3.根据权利要求2所述的多模态意图逆向主动融合的人机交互方法,其特征在于,通过YOLOv3目标检测对所述关键帧图像中的物品进行识别并进行语义提取,选取语义信息正确率为50%以上的语义组成每帧的语义集合,根据所述语义集合和所述环境信息库计算匹配度,将所述环境信息库匹中配度最高的元素提取出来作为所述环境信息。
4.根据权利要求2所述的多模态意图逆向主动融合的人机交互方法,其特征在于,多模态意图提取包括:构建意图库,所述意图库包括所有的意图;统计学习所述意图库中的任一意图在不同的所述地点发生的概率,构建意图地点概率集;统计学习所述意图中的任一意图在不同时刻发生的概率,构建意图时刻概率集。
5.根据权利要求4所述的多模态意图逆向主动融合的人机交互方法,其特征在于,多模态意图提取融合意图包括:
对所述语音数据进行语音信息提取获取语音意图,构建包含提取的所述语音意图的语音意图集,对所述语音意图集中的所述语音意图按意图地点概率和意图时刻概率的乘积顺序排序,按概率值提取最可能发生语音意图构建的第一意图集;
对所述手势数据进行手势信息提取获取手势意图,构建包含任一所述手势意图的手势意图集,对所述手势意图集中的所述手势意图按意图地点概率和意图时刻概率的乘积顺序排序,按概率值提取最可能发生手势意图构建的第二意图集;
对第一意图集和第二意图集取交集获取第三意图集;
分析第三意图集中的意图获取所述融合意图。
6.根据权利要求5所述的多模态意图逆向主动融合的人机交互方法,其特征在于,分析第三意图集中的意图获取所述融合意图包括:
获取所述第三意图集中的任一意图上次发生时刻,并计算上次发生时刻与当前时刻的时间差,根据意图可能发生的时间间隔分析所述时间差来获取所述融合意图。
7.根据权利要求1所述的多模态意图逆向主动融合的人机交互方法,其特征在于,对所述融合意图进行信任度评价获取目标融合意图包括:
获取融合意图的融合信任度,将所述融合信任度与融合信任度阈值比较,
将融合信任度大于等于所述融合信任度阈值的融合意图作为目标融合意图;
如果融合意图融合信任度低于所述融合信任度阈值,且融合意图的地点概率小于等于设定的第一概率阈值,则融合意图不是目标融合意图,提示用户无法执行意图;
如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率小于等于第二概率阈值,则提示用户是否执行当前融合意图,如果用户确认执行,则将该融合意图当做目标融合意图,如果用户未确认认执行则提示重新输入语音数据和手势数据;
如果融合意图融合信任度低于所述融合信任度阈值,融合意图中的意图地点概率大于设定的第一概率阈值,且则融合意图的意图时刻概率大于第二概率阈值,计算获取单模态信任度并与单模态信任度阈值对比,如果单模态信任度小于单模态信任度阈值则融合意图不是目标融合意图,主动从用户获取增强数据;如果单模态信任度大于等于单模态信任度阈值,则将融合意图作为目标融合意图。
8.根据权利要求7所述的多模态意图逆向主动融合的人机交互方法,其特征在于,所述单模态信任度包括手势信任度和语音信任度;所述增强数据包括语音增强数据和手势增强数据;单模态信任度阈值包括语音信任度阈值和手势信任度阈值;
如果融合意图中语音意图的语音信任度低于所述语音信任度阈值,通过逆向主动询问用户获取增强语音数据;
如果融合意图中手势意图的手势信任度低于所述手势信任度阈值,通过逆向主动询问用户获取增强手势数据。
9.根据权利要求8所述的多模态意图逆向主动融合的人机交互方法,其特征在于,对所述融合意图进行评价获取融合意图的融合信任度包括:
对语音意图集和手势意图集进行概率归一化,根据归一化的概率求信息熵,公式如下:
Figure FDA0002677694380000031
根据信息熵计算所述融合信任度pe,公式如下:
Figure FDA0002677694380000032
其中,HA1表示语音意图集的信息熵,HA2表示手势意图集的信息熵,α1表示语音意图集的识别率,α2表示手势意图集的识别率,p(yn)表示意图yn的意图地点概率与意图时刻概率集的乘积,p′(yn)是p(yn)对应的归一化值。
10.根据权利要求9所述的多模态意图逆向主动融合的人机交互方法,其特征在于,所述语音信任度计算公式为:(2-HA1)×α1,所述语音信任度计算公式为:(2-HA2)×α2
CN202010958262.4A 2020-09-11 2020-09-11 一种多模态意图逆向主动融合的人机交互方法 Active CN112099630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010958262.4A CN112099630B (zh) 2020-09-11 2020-09-11 一种多模态意图逆向主动融合的人机交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010958262.4A CN112099630B (zh) 2020-09-11 2020-09-11 一种多模态意图逆向主动融合的人机交互方法

Publications (2)

Publication Number Publication Date
CN112099630A true CN112099630A (zh) 2020-12-18
CN112099630B CN112099630B (zh) 2024-04-05

Family

ID=73752091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010958262.4A Active CN112099630B (zh) 2020-09-11 2020-09-11 一种多模态意图逆向主动融合的人机交互方法

Country Status (1)

Country Link
CN (1) CN112099630B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284404A (zh) * 2021-04-26 2021-08-20 广州九舞数字科技有限公司 一种基于用户动作的电子沙盘展示方法及装置
CN113591659A (zh) * 2021-07-23 2021-11-02 重庆长安汽车股份有限公司 一种基于多模态输入的手势操控意图识别方法及系统
CN114093028A (zh) * 2021-11-19 2022-02-25 济南大学 一种基于意图分析的人机协同方法、系统及机器人
CN114093025A (zh) * 2021-10-29 2022-02-25 济南大学 一种多模态意图逆向主动融合的人机协同方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090084212A (ko) * 2008-01-31 2009-08-05 포항공과대학교 산학협력단 멀티모달 대화 인터페이스를 이용하는 홈 네트워크 제어시스템 및 그 방법
US20160379107A1 (en) * 2015-06-24 2016-12-29 Baidu Online Network Technology (Beijing) Co., Ltd. Human-computer interactive method based on artificial intelligence and terminal device
CN106489114A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN106537293A (zh) * 2016-06-29 2017-03-22 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN106845624A (zh) * 2016-12-16 2017-06-13 北京光年无限科技有限公司 与智能机器人的应用程序有关的多模态交互方法及系统
CN106997236A (zh) * 2016-01-25 2017-08-01 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
WO2018000207A1 (zh) * 2016-06-28 2018-01-04 深圳狗尾草智能科技有限公司 基于单意图的技能包并行执行管理方法、系统及机器人
CN107967457A (zh) * 2017-11-27 2018-04-27 全球能源互联网研究院有限公司 一种适应视觉特征变化的地点识别与相对定位方法及系统
CN109623835A (zh) * 2018-12-05 2019-04-16 济南大学 基于多模态信息融合的轮椅机械手系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090084212A (ko) * 2008-01-31 2009-08-05 포항공과대학교 산학협력단 멀티모달 대화 인터페이스를 이용하는 홈 네트워크 제어시스템 및 그 방법
US20160379107A1 (en) * 2015-06-24 2016-12-29 Baidu Online Network Technology (Beijing) Co., Ltd. Human-computer interactive method based on artificial intelligence and terminal device
CN106997236A (zh) * 2016-01-25 2017-08-01 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
US20180329512A1 (en) * 2016-01-25 2018-11-15 Hiscene Information Technology Co., Ltd Multimodal input-based interaction method and device
WO2018000207A1 (zh) * 2016-06-28 2018-01-04 深圳狗尾草智能科技有限公司 基于单意图的技能包并行执行管理方法、系统及机器人
CN106489114A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN106537293A (zh) * 2016-06-29 2017-03-22 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN106845624A (zh) * 2016-12-16 2017-06-13 北京光年无限科技有限公司 与智能机器人的应用程序有关的多模态交互方法及系统
CN107967457A (zh) * 2017-11-27 2018-04-27 全球能源互联网研究院有限公司 一种适应视觉特征变化的地点识别与相对定位方法及系统
CN109623835A (zh) * 2018-12-05 2019-04-16 济南大学 基于多模态信息融合的轮椅机械手系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284404A (zh) * 2021-04-26 2021-08-20 广州九舞数字科技有限公司 一种基于用户动作的电子沙盘展示方法及装置
CN113591659A (zh) * 2021-07-23 2021-11-02 重庆长安汽车股份有限公司 一种基于多模态输入的手势操控意图识别方法及系统
CN113591659B (zh) * 2021-07-23 2023-05-30 重庆长安汽车股份有限公司 一种基于多模态输入的手势操控意图识别方法及系统
CN114093025A (zh) * 2021-10-29 2022-02-25 济南大学 一种多模态意图逆向主动融合的人机协同方法和系统
CN114093028A (zh) * 2021-11-19 2022-02-25 济南大学 一种基于意图分析的人机协同方法、系统及机器人

Also Published As

Publication number Publication date
CN112099630B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN112099630A (zh) 一种多模态意图逆向主动融合的人机交互方法
CN110741433B (zh) 使用多个计算设备的对讲式通信
US20210165630A1 (en) Response endpoint selection
Kachouie et al. Socially assistive robots in elderly care: a mixed-method systematic literature review
CN109478106B (zh) 利用环境上下文以用于增强的通信吞吐量
CN108351893A (zh) 非常规虚拟助理交互
US20160224591A1 (en) Method and Device for Searching for Image
KR20170099917A (ko) 모호한 표현의 판별을 통한 사용자 경험 개선 기법
US11392213B2 (en) Selective detection of visual cues for automated assistants
Strazdas et al. Robot system assistant (rosa): Towards intuitive multi-modal and multi-device human-robot interaction
Dudzik et al. Context in human emotion perception for automatic affect detection: A survey of audiovisual databases
Htun et al. Image processing technique and hidden Markov model for an elderly care monitoring system
CN112528004A (zh) 语音交互方法、装置、电子设备、介质和计算机程序产品
CN114127694A (zh) 用于会话系统的错误恢复
Menicatti et al. Modelling the influence of cultural information on vision-based human home activity recognition
CN110969045A (zh) 一种行为检测方法、装置、电子设备和存储介质
EP3677392B1 (en) Robot and method of controlling the same
WO2023040516A1 (zh) 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN115909505A (zh) 手语识别设备的控制方法、装置、存储介质及电子设备
WO2018136311A1 (en) Communication routing based on physical status
Rodriguez et al. Personal guides: heterogeneous robots sharing personal tours in multi-floor environments
CN112418159A (zh) 基于注意力掩码的就餐人员监控方法、装置和电子设备
US11894941B1 (en) Real-time tone feedback in video conferencing
CN117238532B (zh) 智能随访方法及装置
Hollosi et al. Acoustic applications and technologies for ambient assisted living scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant