CN112308116B

CN112308116B - 一种助老陪护机器人的自调优多通道融合方法和系统

Info

Publication number: CN112308116B
Application number: CN202011045564.9A
Authority: CN
Inventors: 冯志全; 侯娅
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-04-07
Anticipated expiration: 2040-09-28
Also published as: CN112308116A

Abstract

本发明提出了一种助老陪护机器人的自调优多通道融合方法和系统，该方法包括以下步骤：获取用户的语音信息、对象信息和手势信息，并进行离散化处理得到听觉集合、视觉集合和手势集合；基于神经网络的自学习功能，将听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，对融合信息进行量化，并输出初始融合算子；对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止。基于该方法，还提出了融合系统。本发明使用神经网络的自学习思想以更灵活适应不同的信息表达方式找到最佳的组合模式，提高了助老陪护机器人信息融合的灵活性和鲁棒性。

Description

一种助老陪护机器人的自调优多通道融合方法和系统

技术领域

本发明属于老年人陪护技术领域，特别涉及一种助老陪护机器人的自调优多通道融合方法和系统。

背景技术

中国已经成为养老问题大国，老龄人口、高龄人口、失能人口呈现同步增长趋势，到2030年超60岁的老龄人口将增长到3.29亿.据估计，到2030年中国对老年陪护人员的需求将增加超1000万.同时养老问题也是一个全球性问题，在很多发达国家同样存在，如美国超65岁的老年人将达到20％[1].家庭保姆和护理机构从业人员的缺乏增加了养老工作的困难[2].一位护工对应一位老年人的监护模式在当前社会背景下显然是不可行的.老年人由于年龄增大导致记忆力衰退、身体灵活性下降、易敏感易孤独.自理能力的下降提高了外部监护的要求.日常生活的照料、心里辅助以及身体健康监护成为关注老年人必不可少的需求[3].养老问题激增与劳动力短缺的矛盾促生了机器人行业在养老服务方面的探索.目前的服务型机器人用途主要是家用和娱乐，如清扫机器人、玩具机器人、教学机器人.这些机器人模式单一，功能固定，交互过程受限，不能满足养老服务的要求.因此，人机交互的算法设计显得尤为重要。

人机交互到现在已经迈入了自然人机交互阶段.单一模态交互方式在人工智能技术尤其是深度学习技术的快速发展推动下得到了提高，如语音识别、人脸识别、手势识别、情感理解、体态分析、手写笔、眼动等.但在新阶段新、新背景、新需求下，这些单模态的交互方式暴露出了很多缺点，如获取信息不完整、不能准确理解用户意图，需要频繁询问用户来完成交互，导致用户有不好的交互体验。多模态交互(multi-modal human-computerinteraction，MMHCI)是一种更贴合自然的人机交互方式而MMHCI的研究难点主要是如何有效统筹利用多个模态之间的信息，有的学者使用深度神经网络探索人机交互中信息表达的规律性，这当然是一种不错的方法.利用它可以分类很多的数据类型和数据类别.而且，对于使用者而言几乎透明，一个优秀的网络模型可以很好地解决一类问题.但是在人机交互中，它的优势被限制了，与图片和音频的数据特点不同，一次完整有效的人机交互需要多个步骤和较长的时间.样本数据的难获取，让它失去了通过大样本反复训练神经网络的特点.再者，交互信息数据的长度不确定，这增加了网络处理的难度.我们不能限制操作者表达的时长，这应该由他本人自主决定。另一种是基于统计的融合.如Bayes决策模型，根据不完全信息反演出部分观测条件下的最优决策，这种方法的优点在于计算过程显式可见，推理过程严格，有很强的可靠性.但同样的，交互场景的复杂多变限制了它统计的全面性。总结而言，目前多模态融合算法在人机交互过程中表达的灵活性与数据的全面性问题上没有得到很好的解决.为了解决这个关键问题。

发明内容

为了解决上述技术问题，本发明提出了一种助老陪护机器人的自调优多通道融合方法和系统，本发明使用神经网络的自学习思想以更灵活适应不同的信息表达方式找到最佳的组合模式，提高了助老陪护机器人信息融合的灵活性和鲁棒性。

为实现上述目的，本发明采用以下技术方案：

一种助老陪护机器人的自调优多通道融合方法，包括以下步骤：

获取用户的语音信息、对象信息和手势信息，并将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合；

基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，对融合信息进行量化，输出初始融合算子；

对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止输出最终融合算子。

进一步的，所述获取用户的语音信息、对象信息和手势信息的方法为：

通过语音采集设备获取语音信息；通过第一图像采集设备获取交互环境的对象信息；通过第二图像采集设备获取用户手部深度图像信息。

进一步的，所述将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合具体包括：

将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合；所述文本集合包括听觉集合L{l1，l2，…，lm}；视觉集合V{v1，v2，v3，…，vl}和手势集合G{g1}；

采用Sets(Pre_x)＝Post_x统一不同维度的听觉集合、视觉集合和手势集合信息；其中Pre_x为第一代模态信息；Post_x为经Sets(x)函数映射后得到的第二代模态信息。

进一步的，所述机器人指令知识库为机器人可识别的指令集合；所述指令集合表示为Y{y1，y2，y3，…，yn}。

进一步的，所述基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，对融合信息进行量化，输出初始融合算子包括：

采用公式

将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合；其中U为交集、并集和补集三种集合运算；w₁为视觉集合的权重、w₂为听觉集合的权重、w₃为手势集合的权重；P₁为有效信息率；

F为融合算子；在第一多通道融合时w₁＝w₂＝w₃＝1；F₁为初始融合算子；

通过有效信息率和单模态有效信息贡献率对融合信息进行量化；所述单模态有效信息贡献率

进一步的，所述对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止输出最终融合算子具体包括：

当输出融合算子变化，且P1值升高时，增大P2值；

当输出融合算子变化，且P1值下降时，减少P2值；

当融合算子不变时，迭代终止。

进一步的，本发明还提出了一种助老陪护机器人的自调优多通道融合系统，包括获取处理模块、融合模块和迭代模块；

所述获取处理模块用于获取用户的语音信息、对象信息和手势信息，并将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合；

所述融合模块用于基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，对融合信息进行量化，输出初始融合算子；

所述迭代模块用于对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止输出最终融合算子。

进一步的，所述获取处理模块的处理过程为：

通过语音采集设备获取语音信息；通过第一图像采集设备获取交互环境的对象信息；通过第二图像采集设备获取用户手部深度图像信息；

将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合；所述文本集合包括听觉集合L{l1，l2，…，lm}；视觉集合V{v1，v2，v3，…，vl}和手势集合G{g1}；采用Sets(Pre_x)＝Post_x统一不同维度的听觉集合、视觉集合和手势集合信息；其中Pre_x为第一代模态信息；Post_x为经Sets(x)函数映射后得到的第二代模态信息。

进一步的，所述融合模块的过程为：

采用公式

进一步的，所述迭代模块的过程为：

当输出融合算子变化，且P1值升高时，增大P2值；

当输出融合算子变化，且P1值下降时，减少P2值；

当融合算子不变时，迭代终止。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提出了一种助老陪护机器人的自调优多通道融合方法和系统，该方法包括以下步骤：获取用户的语音信息、对象信息和手势信息，并将语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合；基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，对融合信息进行量化，输出初始融合算子；对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止输出最终融合算子。基于一种助老陪护机器人的自调优多通道融合方法，本发明还提出了一种助老陪护机器人的自调优多通道融合系统。本发明基于老年人陪护为背景进行智能机器人在多模态下的意图理解研究，多模态信息先集合化为离散状态再进行融合，神经网络对单个模态的识别处理让获得了很好的单模态识别准确率.同时，对神经网络的结构迁移应用获得了人机交互效率和灵活度的双重的优势。本发明使用神经网络的自学习思想以更灵活适应不同的信息表达方式找到最佳的组合模式，提高了助老陪护机器人信息融合的灵活性和鲁棒性。

附图说明

如图1为本发明实施例1一种多模态融合数据流示意图；

如图2为本发明实施例1一种助老陪护机器人的自调优多通道融合方法框图；

如图3为本发明实施例1一种助老陪护机器人的自调优多通道融合方法的迭代示意图；

如图4为本发明实施例2一种助老陪护机器人的自调优多通道融合系统示意图；

如图5给出了实施例1和实施例2中自我调优的过程示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例1

本发明实施例1提出了一种助老陪护机器人的自调优多通道融合方法，本发明包含场景语音、对象、手势三个模态，其中语音使用独立单麦克风输入用户语音信息，对象采用普通摄像头输入交互环境信息，手势使用Kinect摄像头输入用户手部深度图像信息.在单一模态上首先进行了预处理的识别，最终融合的是离散化的集合信息。如图1给出了本发明实施例1一种多模态融合数据流示意图。其中最底层为原始数据层，依次往上是特征层、模型层和决策层，展示了该算法是在决策层的融合。第二层特征曾是在神经网络内的特征矩阵，到第三层模型层完成了分类.本文的融合在第四层决策层，最终通过融合算法得到意图结果。

如图2为本发明实施例1一种助老陪护机器人的自调优多通道融合方法框图。

首先获取用户的语音信息、对象信息和手势信息，并将语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合；通过语音采集设备获取语音信息；通过普通摄像头输入获取交互环境的对象信息；通过Kinect摄像头输入获取用户手部深度图像信息。

将语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合；文本集合包括听觉集合L{l1，l2，…，lm}；视觉集合V{v1，v2，v3，…，vl}和手势集合G{g1}；采用Sets(Pre_x)＝Post_x统一不同维度的听觉集合、视觉集合和手势集合信息；其中Pre_x为第一代模态信息；Post_x为经Sets(x)函数映射后得到的第二代模态信息。

现有的人机交互领域内衡量一次交互的好坏一般以完成某次交互后的评价为准.这种评价方法具有滞后性，对与本次的交互没有意义，只能修正下一次交互.为了达到通过融合算法优化交互的目的就必须要规定一个新的评价标准，预判此种融合算子下的优劣自我调整。依据机器人可以识别的指令库，定义有效信息率。指令集合表示为Y{y1，y2，y3，…，yn}。

融合机内部进行一次融合的时刻t的融合优劣的有效信息率P₁，其中

融合机内部进行一次融合的时刻t的单模态有效信息贡献率P2，其中

进行信息量化是本发明迁移学习神经网络的关键，深度神经网络的重要部分就是预定义类别标签，这个标签可以判断正误以及在反向计算时调整权重.迁移到本发明算法的两个指标，P₁值最大确定了目标，P₂的集合贡献度即网络层间的权重，本发明将通过多模态融合机使用这两个指标得到优化后的融合算子。本发明融合算子F的正负效果，并通过三种集合间的操作运算符实现集合元素对结果的正、负影响。

本发明中，集合交(∩)：两个集合元素相同的元素。

集合加(+)：两个集合内的元素不加判别的罗列起来，且不论是否重复。

集合减(-)：两个集合删掉前一个集合中与后一个集合相同的元素。

这样就把集合的运算过程转化成了三种直接定义的最小基本运算单元.无论哪一种都不可再拆分，算法可直接调用，避免了融合算法的歧义。

本发明中基于神经网络的自学习功能，将听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，并对融合信息进行量化，输出初始融合算子，具体的步骤包括：

采用公式

F为融合算子。

在第一多通道融合时w₁＝w₂＝w₃＝1；F₁为初始融合算子。

通过有效信息率和单模态有效信息贡献率对融合信息进行量化；单模态有效信息贡献率

首先，初始F，初始操作符∩、初始权重，采用公式

做一次融合。

使P2值最大的融合算子做一次迭代，If P1上升then正方向增大权重；If P1下降then负方向降低权重；If F重复或出现空集，then停止融合，此时F为最优解，如果F不同，则继续进行迭代。

实施例2

基于本发明提出的一种助老陪护机器人的自调优多通道融合方法，本发明实施例2还提出了一种助老陪护机器人的自调优多通道融合系统。如图4给出了本发明实施例2一种助老陪护机器人的自调优多通道融合系统示意图，包括获取处理模块、融合模块和迭代模块。

获取处理模块用于获取用户的语音信息、对象信息和手势信息，并将语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合。

融合模块用于基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，对融合信息进行量化，输出初始融合算子。

迭代模块用于对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止输出最终融合算子。

获取处理模块的处理过程为：通过语音采集设备获取语音信息；通过第一图像采集设备获取交互环境的对象信息；通过第二图像采集设备获取用户手部深度图像信息。将语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合；所述文本集合包括听觉集合L{l1，l2，…，lm}；视觉集合V{v1，v2，v3，…，vl}和手势集合G{g1}；采用Sets(Pre_x)＝Post_x统一不同维度的听觉集合、视觉集合和手势集合信息；其中Pre_x为第一代模态信息；Post_x为经Sets(x)函数映射后得到的第二代模态信息。

融合模块的过程为：采用公式

F为融合算子；在第一多通道融合时w₁＝w₂＝w₃＝1；F₁为初始融合算子。

迭代模块的过程为：当输出融合算子变化，且P₁值升高时，增大P₂值；当输出融合算子变化，且P₁值下降时，减少P₂值；当融合算子不变时，迭代终止。

为了说明本发明实施例的实现过程，给出示例，一种表达是“你现在快一点做”，另一种表达是“打开灯”.显然，第一个表达对于意图理解无重点无意义，第二个是一个十分明确的指令。如图5给出了本发明自我调优的过程示意图。F1是初始的融合算子，经过三次调整，最终得到F4为最佳的多模态融合算子。网络的稳定即某一时刻t网络的状态不再改变.本文的多模态融合机达到稳定即完成融合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种助老陪护机器人的自调优多通道融合方法，其特征在于，包括以下步骤：

基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，并对融合信息进行量化，输出初始融合算子；所述机器人指令知识库为机器人可识别的指令集合；所述指令集合表示为Y{y₁，y₂，y₃，…，y_n}；

所述基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，并对融合信息进行量化，输出初始融合算子包括：采用公式将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合；其中U为交集、并集和补集三种集合运算；w₁为视觉集合的权重、w₂为听觉集合的权重、w₃为手势集合的权重；P₁为有效信息率；F为融合算子；在第一多通道融合时w₁＝w₂＝w₃＝1；F₁为初始融合算子；通过有效信息率和单模态有效信息贡献率对融合信息进行量化；所述单模态有效信息贡献率

对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止输出最终融合算子；具体包括：当输出融合算子变化，且P₁值升高时，增大P₂值；当输出融合算子变化，且P₁值下降时，减少P₂值；当融合算子不变时，迭代终止。

2.根据权利要求1所述的一种助老陪护机器人的自调优多通道融合方法，其特征在于，所述获取用户的语音信息、对象信息和手势信息的方法为：

3.根据权利要求1所述的一种助老陪护机器人的自调优多通道融合方法，其特征在于，所述将所述语音信息、对象信息和手势信息进行离散化处理得到听觉集合、视觉集合和手势集合具体包括：

将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合；文本集合包括听觉集合L{l1，l2，…，lm}；视觉集合V{v1，v2，v3，…，vl}和手势集合G{g1}；

4.一种助老陪护机器人的自调优多通道融合系统，其特征在于，包括获取处理模块、融合模块和迭代模块；

所述融合模块用于基于神经网络的自学习功能，将所述听觉集合、视觉集合和手势集合根据机器人指令知识库进行一次多通道融合，对融合信息进行量化，输出初始融合算子；所述机器人指令知识库为机器人可识别的指令集合；所述指令集合表示为Y{y₁，y₂，y₃，…，y_n}；

融合模块的过程为：采用公式将听觉集合、视觉集合和手势集合根据机器人指令知识库进行多通道融合；其中U为交集、并集和补集三种集合运算；w₁为视觉集合的权重、w₂为听觉集合的权重、w₃为手势集合的权重；P₁为有效信息率；F为融合算子；在第一多通道融合时w₁＝w₂＝w₃＝1；F₁为初始融合算子；通过有效信息率和单模态有效信息贡献率对融合信息进行量化；所述单模态有效信息贡献率

所述迭代模块用于对多通道融合进行迭代，在每次迭代时判断输出融合算子的变化、并调整输出的融合信息作为下次迭代的输入，当融合算子不变时迭代终止输出最终融合算子；迭代模块的过程为：当输出融合算子变化，且P₁值升高时，增大P₂值；当输出融合算子变化，且P₁值下降时，减少P₂值；当融合算子不变时，迭代终止。

5.根据权利要求4所述的一种助老陪护机器人的自调优多通道融合系统，其特征在于，所述获取处理模块的处理过程为：

将所述语音信息、对象信息和手势信息通过分类器分别转化为相应的文集集合；文本集合包括听觉集合L{l1，l2，…，lm}；视觉集合V{v1，v2，v3，…，vl}和手势集合G{g1}；采用Sets(Pre_x)＝Post_x统一不同维度的听觉集合、视觉集合和手势集合信息；其中Pre_x为第一代模态信息；Post_x为经Sets(x)函数映射后得到的第二代模态信息。