CN112308116B - 一种助老陪护机器人的自调优多通道融合方法和系统 - Google Patents

一种助老陪护机器人的自调优多通道融合方法和系统 Download PDF

Info

Publication number
CN112308116B
CN112308116B CN202011045564.9A CN202011045564A CN112308116B CN 112308116 B CN112308116 B CN 112308116B CN 202011045564 A CN202011045564 A CN 202011045564A CN 112308116 B CN112308116 B CN 112308116B
Authority
CN
China
Prior art keywords
information
fusion
gesture
auditory
operator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011045564.9A
Other languages
English (en)
Other versions
CN112308116A (zh
Inventor
冯志全
侯娅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202011045564.9A priority Critical patent/CN112308116B/zh
Publication of CN112308116A publication Critical patent/CN112308116A/zh
Application granted granted Critical
Publication of CN112308116B publication Critical patent/CN112308116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明提出了一种助老陪护机器人的自调优多通道融合方法和系统,该方法包括以下步骤:获取用户的语音信息、对象信息和手势信息,并进行离散化处理得到听觉集合、视觉集合和手势集合;基于神经网络的自学习功能,将听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,对融合信息进行量化,并输出初始融合算子;对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止。基于该方法,还提出了融合系统。本发明使用神经网络的自学习思想以更灵活适应不同的信息表达方式找到最佳的组合模式,提高了助老陪护机器人信息融合的灵活性和鲁棒性。

Description

一种助老陪护机器人的自调优多通道融合方法和系统
技术领域
本发明属于老年人陪护技术领域,特别涉及一种助老陪护机器人的自调优多通道融合方法和系统。
背景技术
中国已经成为养老问题大国,老龄人口、高龄人口、失能人口呈现同步增长趋势,到2030年超60岁的老龄人口将增长到3.29亿.据估计,到2030年中国对老年陪护人员的需求将增加超1000万.同时养老问题也是一个全球性问题,在很多发达国家同样存在,如美国超65岁的老年人将达到20%[1].家庭保姆和护理机构从业人员的缺乏增加了养老工作的困难[2].一位护工对应一位老年人的监护模式在当前社会背景下显然是不可行的.老年人由于年龄增大导致记忆力衰退、身体灵活性下降、易敏感易孤独.自理能力的下降提高了外部监护的要求.日常生活的照料、心里辅助以及身体健康监护成为关注老年人必不可少的需求[3].养老问题激增与劳动力短缺的矛盾促生了机器人行业在养老服务方面的探索.目前的服务型机器人用途主要是家用和娱乐,如清扫机器人、玩具机器人、教学机器人.这些机器人模式单一,功能固定,交互过程受限,不能满足养老服务的要求.因此,人机交互的算法设计显得尤为重要。
人机交互到现在已经迈入了自然人机交互阶段.单一模态交互方式在人工智能技术尤其是深度学习技术的快速发展推动下得到了提高,如语音识别、人脸识别、手势识别、情感理解、体态分析、手写笔、眼动等.但在新阶段新、新背景、新需求下,这些单模态的交互方式暴露出了很多缺点,如获取信息不完整、不能准确理解用户意图,需要频繁询问用户来完成交互,导致用户有不好的交互体验。多模态交互(multi-modal human-computerinteraction,MMHCI)是一种更贴合自然的人机交互方式而MMHCI的研究难点主要是如何有效统筹利用多个模态之间的信息,有的学者使用深度神经网络探索人机交互中信息表达的规律性,这当然是一种不错的方法.利用它可以分类很多的数据类型和数据类别.而且,对于使用者而言几乎透明,一个优秀的网络模型可以很好地解决一类问题.但是在人机交互中,它的优势被限制了,与图片和音频的数据特点不同,一次完整有效的人机交互需要多个步骤和较长的时间.样本数据的难获取,让它失去了通过大样本反复训练神经网络的特点.再者,交互信息数据的长度不确定,这增加了网络处理的难度.我们不能限制操作者表达的时长,这应该由他本人自主决定。另一种是基于统计的融合.如Bayes决策模型,根据不完全信息反演出部分观测条件下的最优决策,这种方法的优点在于计算过程显式可见,推理过程严格,有很强的可靠性.但同样的,交互场景的复杂多变限制了它统计的全面性。总结而言,目前多模态融合算法在人机交互过程中表达的灵活性与数据的全面性问题上没有得到很好的解决.为了解决这个关键问题。
发明内容
为了解决上述技术问题,本发明提出了一种助老陪护机器人的自调优多通道融合方法和系统,本发明使用神经网络的自学习思想以更灵活适应不同的信息表达方式找到最佳的组合模式,提高了助老陪护机器人信息融合的灵活性和鲁棒性。
为实现上述目的,本发明采用以下技术方案:
一种助老陪护机器人的自调优多通道融合方法,包括以下步骤:
获取用户的语音信息、对象信息和手势信息,并将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合;
基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,对融合信息进行量化,输出初始融合算子;
对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子。
进一步的,所述获取用户的语音信息、对象信息和手势信息的方法为:
通过语音采集设备获取语音信息;通过第一图像采集设备获取交互环境的对象信息;通过第二图像采集设备获取用户手部深度图像信息。
进一步的,所述将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合具体包括:
将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合;所述文本集合包括听觉集合L{l1,l2,…,lm};视觉集合V{v1,v2,v3,…,vl}和手势集合G{g1};
采用Sets(Prex)=Postx统一不同维度的听觉集合、视觉集合和手势集合信息;其中Prex为第一代模态信息;Postx为经Sets(x)函数映射后得到的第二代模态信息。
进一步的,所述机器人指令知识库为机器人可识别的指令集合;所述指令集合表示为Y{y1,y2,y3,…,yn}。
进一步的,所述基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,对融合信息进行量化,输出初始融合算子包括:
采用公式
Figure BDA0002707067770000031
将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合;其中U为交集、并集和补集三种集合运算;w1为视觉集合的权重、w2为听觉集合的权重、w3为手势集合的权重;P1为有效信息率;
Figure BDA0002707067770000032
F为融合算子;在第一多通道融合时w1=w2=w3=1;F1为初始融合算子;
通过有效信息率和单模态有效信息贡献率对融合信息进行量化;所述单模态有效信息贡献率
Figure BDA0002707067770000033
进一步的,所述对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子具体包括:
当输出融合算子变化,且P1值升高时,增大P2值;
当输出融合算子变化,且P1值下降时,减少P2值;
当融合算子不变时,迭代终止。
进一步的,本发明还提出了一种助老陪护机器人的自调优多通道融合系统,包括获取处理模块、融合模块和迭代模块;
所述获取处理模块用于获取用户的语音信息、对象信息和手势信息,并将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合;
所述融合模块用于基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,对融合信息进行量化,输出初始融合算子;
所述迭代模块用于对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子。
进一步的,所述获取处理模块的处理过程为:
通过语音采集设备获取语音信息;通过第一图像采集设备获取交互环境的对象信息;通过第二图像采集设备获取用户手部深度图像信息;
将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合;所述文本集合包括听觉集合L{l1,l2,…,lm};视觉集合V{v1,v2,v3,…,vl}和手势集合G{g1};采用Sets(Prex)=Postx统一不同维度的听觉集合、视觉集合和手势集合信息;其中Prex为第一代模态信息;Postx为经Sets(x)函数映射后得到的第二代模态信息。
进一步的,所述融合模块的过程为:
采用公式
Figure BDA0002707067770000041
将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合;其中U为交集、并集和补集三种集合运算;w1为视觉集合的权重、w2为听觉集合的权重、w3为手势集合的权重;P1为有效信息率;
Figure BDA0002707067770000051
F为融合算子;在第一多通道融合时w1=w2=w3=1;F1为初始融合算子;
通过有效信息率和单模态有效信息贡献率对融合信息进行量化;所述单模态有效信息贡献率
Figure BDA0002707067770000052
进一步的,所述迭代模块的过程为:
当输出融合算子变化,且P1值升高时,增大P2值;
当输出融合算子变化,且P1值下降时,减少P2值;
当融合算子不变时,迭代终止。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种助老陪护机器人的自调优多通道融合方法和系统,该方法包括以下步骤:获取用户的语音信息、对象信息和手势信息,并将语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合;基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,对融合信息进行量化,输出初始融合算子;对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子。基于一种助老陪护机器人的自调优多通道融合方法,本发明还提出了一种助老陪护机器人的自调优多通道融合系统。本发明基于老年人陪护为背景进行智能机器人在多模态下的意图理解研究,多模态信息先集合化为离散状态再进行融合,神经网络对单个模态的识别处理让获得了很好的单模态识别准确率.同时,对神经网络的结构迁移应用获得了人机交互效率和灵活度的双重的优势。本发明使用神经网络的自学习思想以更灵活适应不同的信息表达方式找到最佳的组合模式,提高了助老陪护机器人信息融合的灵活性和鲁棒性。
附图说明
如图1为本发明实施例1一种多模态融合数据流示意图;
如图2为本发明实施例1一种助老陪护机器人的自调优多通道融合方法框图;
如图3为本发明实施例1一种助老陪护机器人的自调优多通道融合方法的迭代示意图;
如图4为本发明实施例2一种助老陪护机器人的自调优多通道融合系统示意图;
如图5给出了实施例1和实施例2中自我调优的过程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种助老陪护机器人的自调优多通道融合方法,本发明包含场景语音、对象、手势三个模态,其中语音使用独立单麦克风输入用户语音信息,对象采用普通摄像头输入交互环境信息,手势使用Kinect摄像头输入用户手部深度图像信息.在单一模态上首先进行了预处理的识别,最终融合的是离散化的集合信息。如图1给出了本发明实施例1一种多模态融合数据流示意图。其中最底层为原始数据层,依次往上是特征层、模型层和决策层,展示了该算法是在决策层的融合。第二层特征曾是在神经网络内的特征矩阵,到第三层模型层完成了分类.本文的融合在第四层决策层,最终通过融合算法得到意图结果。
如图2为本发明实施例1一种助老陪护机器人的自调优多通道融合方法框图。
首先获取用户的语音信息、对象信息和手势信息,并将语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合;通过语音采集设备获取语音信息;通过普通摄像头输入获取交互环境的对象信息;通过Kinect摄像头输入获取用户手部深度图像信息。
将语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合;文本集合包括听觉集合L{l1,l2,…,lm};视觉集合V{v1,v2,v3,…,vl}和手势集合G{g1};采用Sets(Prex)=Postx统一不同维度的听觉集合、视觉集合和手势集合信息;其中Prex为第一代模态信息;Postx为经Sets(x)函数映射后得到的第二代模态信息。
现有的人机交互领域内衡量一次交互的好坏一般以完成某次交互后的评价为准.这种评价方法具有滞后性,对与本次的交互没有意义,只能修正下一次交互.为了达到通过融合算法优化交互的目的就必须要规定一个新的评价标准,预判此种融合算子下的优劣自我调整。依据机器人可以识别的指令库,定义有效信息率。指令集合表示为Y{y1,y2,y3,…,yn}。
融合机内部进行一次融合的时刻t的融合优劣的有效信息率P1,其中
Figure BDA0002707067770000071
融合机内部进行一次融合的时刻t的单模态有效信息贡献率P2,其中
Figure BDA0002707067770000072
进行信息量化是本发明迁移学习神经网络的关键,深度神经网络的重要部分就是预定义类别标签,这个标签可以判断正误以及在反向计算时调整权重.迁移到本发明算法的两个指标,P1值最大确定了目标,P2的集合贡献度即网络层间的权重,本发明将通过多模态融合机使用这两个指标得到优化后的融合算子。本发明融合算子F的正负效果,并通过三种集合间的操作运算符实现集合元素对结果的正、负影响。
本发明中,集合交(∩):两个集合元素相同的元素。
集合加(+):两个集合内的元素不加判别的罗列起来,且不论是否重复。
集合减(-):两个集合删掉前一个集合中与后一个集合相同的元素。
这样就把集合的运算过程转化成了三种直接定义的最小基本运算单元.无论哪一种都不可再拆分,算法可直接调用,避免了融合算法的歧义。
本发明中基于神经网络的自学习功能,将听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,并对融合信息进行量化,输出初始融合算子,具体的步骤包括:
采用公式
Figure BDA0002707067770000081
将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合;其中U为交集、并集和补集三种集合运算;w1为视觉集合的权重、w2为听觉集合的权重、w3为手势集合的权重;P1为有效信息率;
Figure BDA0002707067770000082
F为融合算子。
在第一多通道融合时w1=w2=w3=1;F1为初始融合算子。
通过有效信息率和单模态有效信息贡献率对融合信息进行量化;单模态有效信息贡献率
Figure BDA0002707067770000083
对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子。
首先,初始F,初始操作符∩、初始权重,采用公式
Figure BDA0002707067770000091
做一次融合。
使P2值最大的融合算子做一次迭代,If P1上升then正方向增大权重;If P1下降then负方向降低权重;If F重复或出现空集,then停止融合,此时F为最优解,如果F不同,则继续进行迭代。
实施例2
基于本发明提出的一种助老陪护机器人的自调优多通道融合方法,本发明实施例2还提出了一种助老陪护机器人的自调优多通道融合系统。如图4给出了本发明实施例2一种助老陪护机器人的自调优多通道融合系统示意图,包括获取处理模块、融合模块和迭代模块。
获取处理模块用于获取用户的语音信息、对象信息和手势信息,并将语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合。
融合模块用于基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,对融合信息进行量化,输出初始融合算子。
迭代模块用于对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子。
获取处理模块的处理过程为:通过语音采集设备获取语音信息;通过第一图像采集设备获取交互环境的对象信息;通过第二图像采集设备获取用户手部深度图像信息。将语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合;所述文本集合包括听觉集合L{l1,l2,…,lm};视觉集合V{v1,v2,v3,…,vl}和手势集合G{g1};采用Sets(Prex)=Postx统一不同维度的听觉集合、视觉集合和手势集合信息;其中Prex为第一代模态信息;Postx为经Sets(x)函数映射后得到的第二代模态信息。
融合模块的过程为:采用公式
Figure BDA0002707067770000092
将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合;其中U为交集、并集和补集三种集合运算;w1为视觉集合的权重、w2为听觉集合的权重、w3为手势集合的权重;P1为有效信息率;
Figure BDA0002707067770000101
F为融合算子;在第一多通道融合时w1=w2=w3=1;F1为初始融合算子。
通过有效信息率和单模态有效信息贡献率对融合信息进行量化;单模态有效信息贡献率
Figure BDA0002707067770000102
迭代模块的过程为:当输出融合算子变化,且P1值升高时,增大P2值;当输出融合算子变化,且P1值下降时,减少P2值;当融合算子不变时,迭代终止。
为了说明本发明实施例的实现过程,给出示例,一种表达是“你现在快一点做”,另一种表达是“打开灯”.显然,第一个表达对于意图理解无重点无意义,第二个是一个十分明确的指令。如图5给出了本发明自我调优的过程示意图。F1是初始的融合算子,经过三次调整,最终得到F4为最佳的多模态融合算子。网络的稳定即某一时刻t网络的状态不再改变.本文的多模态融合机达到稳定即完成融合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种助老陪护机器人的自调优多通道融合方法,其特征在于,包括以下步骤:
获取用户的语音信息、对象信息和手势信息,并将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合;
基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,并对融合信息进行量化,输出初始融合算子;所述机器人指令知识库为机器人可识别的指令集合;所述指令集合表示为Y{y1,y2,y3,…,yn};
所述基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,并对融合信息进行量化,输出初始融合算子包括:采用公式将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合;其中U为交集、并集和补集三种集合运算;w1为视觉集合的权重、w2为听觉集合的权重、w3为手势集合的权重;P1为有效信息率;F为融合算子;在第一多通道融合时w1=w2=w3=1;F1为初始融合算子;通过有效信息率和单模态有效信息贡献率对融合信息进行量化;所述单模态有效信息贡献率
对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子;具体包括:当输出融合算子变化,且P1值升高时,增大P2值;当输出融合算子变化,且P1值下降时,减少P2值;当融合算子不变时,迭代终止。
2.根据权利要求1所述的一种助老陪护机器人的自调优多通道融合方法,其特征在于,所述获取用户的语音信息、对象信息和手势信息的方法为:
通过语音采集设备获取语音信息;通过第一图像采集设备获取交互环境的对象信息;通过第二图像采集设备获取用户手部深度图像信息。
3.根据权利要求1所述的一种助老陪护机器人的自调优多通道融合方法,其特征在于,所述将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合具体包括:
将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合;文本集合包括听觉集合L{l1,l2,…,lm};视觉集合V{v1,v2,v3,…,vl}和手势集合G{g1};
采用Sets(Prex)=Postx统一不同维度的听觉集合、视觉集合和手势集合信息;其中Prex为第一代模态信息;Postx为经Sets(x)函数映射后得到的第二代模态信息。
4.一种助老陪护机器人的自调优多通道融合系统,其特征在于,包括获取处理模块、融合模块和迭代模块;
所述获取处理模块用于获取用户的语音信息、对象信息和手势信息,并将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合;
所述融合模块用于基于神经网络的自学习功能,将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合,对融合信息进行量化,输出初始融合算子;所述机器人指令知识库为机器人可识别的指令集合;所述指令集合表示为Y{y1,y2,y3,…,yn};
融合模块的过程为:采用公式将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合;其中U为交集、并集和补集三种集合运算;w1为视觉集合的权重、w2为听觉集合的权重、w3为手势集合的权重;P1为有效信息率;F为融合算子;在第一多通道融合时w1=w2=w3=1;F1为初始融合算子;通过有效信息率和单模态有效信息贡献率对融合信息进行量化;所述单模态有效信息贡献率
所述迭代模块用于对多通道融合进行迭代,在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入,当融合算子不变时迭代终止输出最终融合算子;迭代模块的过程为:当输出融合算子变化,且P1值升高时,增大P2值;当输出融合算子变化,且P1值下降时,减少P2值;当融合算子不变时,迭代终止。
5.根据权利要求4所述的一种助老陪护机器人的自调优多通道融合系统,其特征在于,所述获取处理模块的处理过程为:
通过语音采集设备获取语音信息;通过第一图像采集设备获取交互环境的对象信息;通过第二图像采集设备获取用户手部深度图像信息;
将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合;文本集合包括听觉集合L{l1,l2,…,lm};视觉集合V{v1,v2,v3,…,vl}和手势集合G{g1};采用Sets(Prex)=Postx统一不同维度的听觉集合、视觉集合和手势集合信息;其中Prex为第一代模态信息;Postx为经Sets(x)函数映射后得到的第二代模态信息。
CN202011045564.9A 2020-09-28 2020-09-28 一种助老陪护机器人的自调优多通道融合方法和系统 Active CN112308116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011045564.9A CN112308116B (zh) 2020-09-28 2020-09-28 一种助老陪护机器人的自调优多通道融合方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011045564.9A CN112308116B (zh) 2020-09-28 2020-09-28 一种助老陪护机器人的自调优多通道融合方法和系统

Publications (2)

Publication Number Publication Date
CN112308116A CN112308116A (zh) 2021-02-02
CN112308116B true CN112308116B (zh) 2023-04-07

Family

ID=74489325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011045564.9A Active CN112308116B (zh) 2020-09-28 2020-09-28 一种助老陪护机器人的自调优多通道融合方法和系统

Country Status (1)

Country Link
CN (1) CN112308116B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256307A (zh) * 2018-01-12 2018-07-06 重庆邮电大学 一种智能商务旅居房车的混合增强智能认知方法
CN108399427A (zh) * 2018-02-09 2018-08-14 华南理工大学 基于多模态信息融合的自然交互方法
CN109997179A (zh) * 2016-12-30 2019-07-09 同济大学 一种非等距时空划分的道路交通异常检测方法
CN110286764A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态融合实验系统及其使用方法
CN110362210A (zh) * 2019-07-24 2019-10-22 济南大学 虚拟装配中融合眼动跟踪和手势识别的人机交互方法和装置
CN111177346A (zh) * 2019-12-19 2020-05-19 爱驰汽车有限公司 人机交互方法、装置、电子设备、存储介质
CN111242155A (zh) * 2019-10-08 2020-06-05 台州学院 一种基于多模深度学习的双模态情感识别方法
CN111461176A (zh) * 2020-03-09 2020-07-28 华南理工大学 基于归一化互信息的多模态融合方法、装置、介质及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109997179A (zh) * 2016-12-30 2019-07-09 同济大学 一种非等距时空划分的道路交通异常检测方法
CN108256307A (zh) * 2018-01-12 2018-07-06 重庆邮电大学 一种智能商务旅居房车的混合增强智能认知方法
CN108399427A (zh) * 2018-02-09 2018-08-14 华南理工大学 基于多模态信息融合的自然交互方法
CN110286764A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态融合实验系统及其使用方法
CN110362210A (zh) * 2019-07-24 2019-10-22 济南大学 虚拟装配中融合眼动跟踪和手势识别的人机交互方法和装置
CN111242155A (zh) * 2019-10-08 2020-06-05 台州学院 一种基于多模深度学习的双模态情感识别方法
CN111177346A (zh) * 2019-12-19 2020-05-19 爱驰汽车有限公司 人机交互方法、装置、电子设备、存储介质
CN111461176A (zh) * 2020-03-09 2020-07-28 华南理工大学 基于归一化互信息的多模态融合方法、装置、介质及设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
"Decision making of mobile robot based on multimodal fusion";Ya Hou 等;《ICCDE2020》;20200106;全文 *
"Knowledge-based multimodal intention active perception algorithm research";Jie Yuan 等;《ICCDE2020》;20200131;全文 *
"Multimodal data fusion algorithm applied to robots";Xin Zhang 等;《CISAI》;20191027;全文 *
"Multimodal interaction design and application in augmented reality for chemical experiment";Mengting Xiao 等;《Virtual reality intelligent hardware》;20200620;全文 *
"Real-time multimodal emotion recognition system based on elderly accompanying robot";Shaosong Dou;《Journal of physics:conference series》;20191027;全文 *
"The man-machine finger-guessing game based on cooperation mechanism";Xiaoyan Zhou 等;《Transactions on computation》;20171025;全文 *
"基于数据手套和kinect的手势识别算法研究";郭小沛;《中国优秀硕士学位论文全文数据库信息科技》;20200115;全文 *
"基于柔性传动的助力全身外骨骼机器人系统研究";陈春杰;《中国优秀硕博士学位论文全文数据库信息科技辑》;20180215;全文 *

Also Published As

Publication number Publication date
CN112308116A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
US11681875B2 (en) Method for image text recognition, apparatus, device and storage medium
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN106682397B (zh) 一种基于知识的电子病历质控方法
WO2021139247A1 (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
WO2021151271A1 (zh) 基于命名实体的文本问答的方法、装置、设备及存储介质
WO2021243903A1 (zh) 自然语言至结构化查询语言的转换方法及系统
CN110931137B (zh) 机器辅助对话系统、方法及装置
CN109524121A (zh) 医疗文件处理方法与装置
CN110750540A (zh) 构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、介质
CN109919077A (zh) 姿态识别方法、装置、介质和计算设备
CN112420151A (zh) 一种超声报告后结构化解析方法、系统、设备和介质
WO2022227203A1 (zh) 基于对话表征的分诊方法、装置、设备及存储介质
KR20210148813A (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN112786144B (zh) 知识图谱的方法、医嘱质控的方法、装置、设备和介质
CN113220835A (zh) 文本信息处理方法、装置、电子设备以及存储介质
CN117095802B (zh) 陪护人员的智能管理系统及其方法
CN113707339A (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN112099632A (zh) 一种面向助老陪护的人-机器人协同交互方法
CN112599213A (zh) 一种分类编码确定方法、装置、设备及存储介质
CN112308116B (zh) 一种助老陪护机器人的自调优多通道融合方法和系统
CN114359656A (zh) 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116313058A (zh) 面瘫智能评估方法、系统、设备及存储介质
Alhussayni et al. Automated COVID-19 dialogue system using a new deep learning network
CN111191035B (zh) 一种识别肺癌临床数据库文本实体的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant