CN109658928B

CN109658928B - 一种家庭服务机器人云端多模态对话方法、装置及系统

Info

Publication number: CN109658928B
Application number: CN201811486867.7A
Authority: CN
Inventors: 周风余; 王淑倩; 尹磊; 刘进; 万方; 郭仁和; 沈冬冬
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-06-23
Anticipated expiration: 2038-12-06
Also published as: CN109658928A

Abstract

本发明公开了一种家庭服务机器人云端多模态对话方法、装置及系统，该方法包括：实时接收用户语音信息和场景图像信息；将用户语音信息转化为文字信息，进行分词和命名实体识别处理，确定对话类型；将场景图像信息进行预处理；筛选预处理图像信息和处理后的文字信息，加入增量知识库，在对话服务负载率小于阈值时进行模型增量训练，更新对话服务模型；对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知，获取场景感知信息、用户感知信息和情感感知信息；根据不同的对话类型，将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息，通过对话服务模型，生成用户和机器人交互的对话信息。

Description

一种家庭服务机器人云端多模态对话方法、装置及系统

技术领域

本公开属于家庭服务机器人语音对话的技术领域，涉及一种家庭服务机器人云端多模态对话方法、装置及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，人口老龄化等问题日益凸显，社会的迫切需求及人工智能和机器人技术的快速发展，极大促进了服务机器人的发展。语音对话技术为家庭服务机器人提供了最人性化的交互方式。然而，目前的人机语音交互中，机器人对场景信息和交互对象信息无感知，经常答非所问，无法生成让用户满意的回答，非常不人性化。传统家庭服务机器人存在以下不足：

(1)传统的家庭服务机器人对话系统单一的使用用户的语音交互信息，对机器人场景信息无感知，存在由于缺乏场景信息造成的对话策略偏差问题，生成的对话无法对应用户交互内容，人机交互体验差。

(2)传统的家庭服务机器人对话系统对于不同的用户相同的语音输入信息，生成类似的回答，无法生成根据不同用户情感、兴趣等信息生成个性化回答。

(3)传统的基于云端的家庭服务人对话系统对于海量的用户数据，对于模型更新训练方式造成了大量时间和计算能力的浪费，资源利用率低。

以上不足导致了家庭服务机器人对话系统中用户人机交互体验差、云端资源利用率等问题，阻碍了家庭服务机器人的应用和推广。

发明内容

针对现有技术中存在的不足，本公开的一个或多个实施例提供了一种家庭服务机器人云端多模态对话方法、装置及系统，基于云平台的优势，充分挖掘多模态数据的信息特征，构建多模态信息的共融的交互系统，为家庭服务机器人交互系统提供了更加智能的语音交互平台，改善人机体验和提高云端资源利用率。

根据本公开的一个或多个实施例的一个方面，提供一种家庭服务机器人云端多模态对话方法。

一种家庭服务机器人云端多模态对话方法，该方法包括：

实时接收用户语音信息和场景图像信息；

调用语音识别服务将用户语音信息转化为文字信息，对文字信息进行分词和命名实体识别处理，确定对话类型；

将场景图像信息进行预处理，得到预处理图像信息；

根据预处理图像信息和处理后的文字信息进行筛选，加入增量知识库，在对话服务负载率小于阈值时进行模型增量训练，动态更新根据知识库训练的对话服务模型；

对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知，获取场景感知信息、用户感知信息和情感感知信息；

根据不同的对话类型，将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息，通过对话服务模型，生成用户和机器人交互的对话信息。

进一步地，在该方法中，所述场景感知为通过场景感知器进行场景描述、场景分类、目标检测和行为识别得到场景感知信息，所述用户感知为通过用户感知器进行行为画像和兴趣画像得到用户感知信息，所述情感感知为通过情感感知器进行文字情感识别、人脸表情识别和声波情感识别得到情感感知信息。

进一步地，在该方法中，所述对话类型包括闲聊型对话和任务型对话；

在任务型对话中，将文字信息分词后的词语转化为分布式词向量与场景感知信息进行余弦距离匹配，根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息，用于生成对话信息；将文字信息分词后的词语转化为分布式词向量与用户感知信息进行余弦距离匹配，根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息，用于生成对话信息；

在闲聊型对话中，将预处理后的场景图像信息、用户语音信息和/或处理后的文字信息通过情感感知器获取情感感知信息，并将情感感知信息分类，根据不同情感感知信息类型，生成其对应的不同的对话信息。

进一步地，该方法还包括主动生成对话，具体步骤包括：

实时接收场景图像信息；

将场景图像信息进行预处理，对预处理后的场景图像信息分别通过场景感知器进行行为识别和通过情感感知器进行人脸表情识别，结合用户感知器中的行为画像，监测用户情绪或行为；

当情绪异常或行为异常时，根据异常情绪类别和异常行为类别，主动生成相对应的对话信息。

进一步地，该方法还包括：将一次对话产生的用户语音信息、场景图像信息和生成的对话信息保存为历史交互信息，根据历时交互信息通过用户感知器进行行为画像和兴趣画像，并加入时间轴信息，得到基于时序的动态历史用户感知信息，在生成用户和机器人交互的对话信息时，调用该历史用户感知信息。

进一步地，在该方法中，筛选预处理图像信息加入增量知识库的具体步骤包括：

对预处理图像信息依次进行清晰度、对比度和亮度计算，删除清晰度、对比度和亮度小于其对应预设阈值的图像；

将保留的图像和知识库中的图像进行图像结构相似度计算，删除大于预设相似度阈值的图像；

将保留的图像进行目标检测，对检测结果中的置信度小于置信度阈值的目标进行图像标注，加入增量知识库。

进一步地，在该方法中，筛选处理后的文字信息加入增量知识库的具体步骤包括：

判断文字信息的长度，删除长度小于预设长度阈值的文字信息；

采用统计语言模型计算文字信息的概率，将概率大于预设概率阈值的文字信息加入增量知识库；

对于概率小于预设阈值的文字信息，对分词处理后的文字信息进行词性标注，并将标注为名词的词语转化为分布式词向量，计算其与用户兴趣相关词语的余弦相似度夹角，将夹角大于预设余弦相似度夹角阈值的文字信息加入增量知识库，用于用户兴趣画像。

进一步地，在该方法中，通过增量训练网络进行所述模型增量训练，所述增量训练网络包括更新数据层、特征提取层、特征层和输出层；

所述更新数据层用于筛选数据得到用于模型改善的训练数据；

所述特征提取层用于对输入该层的数据依次进行映射、变换，成为特征层的强化节点；

所述特征层由输入映射特征节点和强化节点拼接而成。

进一步地，该方法还包括，当对话服务模型精度小于精度阈值时，通过增加强化节点和特征映射矩阵改善模型结构和/或增加训练数据量。

根据本公开的一个或多个实施例的另一个方面，还提供一种计算机可读存储介质。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种家庭服务机器人云端多模态对话方法。

根据本公开的一个或多个实施例的另一个方面，还提供一种终端设备。

一种终端设备，采用互联网终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种家庭服务机器人云端多模态对话方法。

根据本公开的一个或多个实施例的另一个方面，还提供一种家庭服务机器人云端多模态对话系统。

一种家庭服务机器人云端多模态对话系统，基于所述的一种家庭服务机器人云端多模态对话方法，包括：

数据采集池、计算层、云机交互网关层、服务池、数据池和对话生成服务；

所述数据采集池包括机器人，采集用户语音信息和场景图像信息；

所述计算层搭建于GPU和CPU物理集群上，用于为服务池提供的各项服务提供计算结果；

所述云机交互网关层用于服务池和数据采集池的交互，负责服务认证、服务请求解析和负载均衡；

所述服务池包括服务解析器、配置器和各项云端服务，服务解析器对接收的服务请求进行解析，配置器用于确定服务数量，并根据服务数量对服务请求分配资源，调用服务池云端服务进行业务处理；

所述数据池包括知识库和增量知识库；

所述对话生成服务采用家庭服务机器人云端多模态对话方法生成对话信息，通过所述云机交互网关层反馈至机器人，进行人机交互对话。

进一步地，在该系统中，所述云机交互网关层包括服务认证层、解析器和网关层；

所述服务认证层控制机器人请求服务的合法性，机器人按照规定的统一JSON文件格式发送服务请求之后，所述解析器对服务请求进行数据、协议文本和服务需求的提取和解析，所述网关层通过调度算法根据云端服务器的负载情况将服务请求进行分配任务。

进一步地，在该系统中，通过在云端部署模型，将各种云端服务注到服务池，为机器人提供各项云端服务，各个云端服务功能模块通过封装，形成通用的云端服务接口，机器人和云端服务通过云端服务接口进行数据传输和通信。

本公开的有益效果：

(1)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统，针对家庭服务机器人复杂多样性的工作环境，基于云平台的优势，充分挖掘多模态数据的信息特征，构建多模态信息的共融的交互系统。研究基于声场、语音语言情感、用户表情和视觉环境等多维信息构建场景信息的语义表示，采用信息融合的方法进行对话决策场景自适应，实现场景感知的智能化语音交互。

(2)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统，针对海量的语音交互日志和场景图像信息的冗余问题，建立有效数据的反馈机制和数据提取方法，实现云端场景和语音模型数据库的更新。

(3)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统，构建基于动态数据的存储模型，结合云端行为知识库，采用深度网络分析长时序的用户行为，构建语音交互的用户画像和场景用户画像的混合用户画像。

(4)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统，采用增量学习的方法，在云端构建基于宽度网络增量式训练的云服务模型，完成模型的增量式动态更新，提高云端资源的利用率，实现系统的智能进化。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是根据一个或多个实施例的家庭服务机器人基于云端的多模态对话系统架构图；

图2是根据一个或多个实施例的家庭服务机器人基于云端的多模态对话系统图像数据筛选流程图；

图3是根据一个或多个实施例的家庭服务机器人基于云端的模型增量训练架构图。

具体实施方式：

下面将结合本公开的一个或多个实施例中的附图，对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本公开的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合，下面结合附图与实施例对本公开作进一步说明。

随着云技术的不断发展，将云计算和机器人学相结合，利用云平台强大的计算、存储和丰富的数据资源，构建用户画像，融入用户情感和场景等多维信息，采用信息融合的方式进行对话决策场景自适应，实现场景和上下文感知的人性化语音交互。对云端模型进行基于宽度学习的增量训练，使交互系统越用越智能。

本发明基于云平台的优势，充分挖掘多模态数据的信息特征，建立用户画像，研究多模态信息共融的个性化语音交互技术。针对海量的语音交互日志和场景信息的冗余问题，建立有效的反馈机制和有效数据提出的方法，实现云端场景和语言模型数据库的更新。在云端构建增量式的云服务模型，完成模型的增量式动态更新。本发明为家庭服务机器人交互系统提供了更加智能的语音交互平台，改善人机体验和提高云端资源利用率。

本发明是一种基于云端的家庭服务机器人多模态对话系统，如图1所示，基于云端的对话系统主要分为六个模块：数据采集池、计算层、云机交互网关层、服务池、数据池和对话生成服务。

数据采集池主要由机器人本体构成，机器人本体包含但不仅包含麦克风阵列和摄像头。机器人本体是用户和云端资源进行交互的媒介，其中的麦克风阵列可以进行声源定位和环境噪声处理，采集环境中和机器人对话的用户语音信号。机器人本体的摄像头实时采集场景图像信息。

计算层搭建在计算能力强的GPU和CPU物理集群上，负责进行快速、并行的数据计算，为服务池提供的各项服务提供计算结果。

云机交互网关层是云端服务池和机器人进行交互的媒介，主要负责服务认证、服务请求解析和负载均衡。服务认证层控制机器人请求服务的合法性。机器人按照规定的统一JSON文件格式发送服务请求之后，解析器对服务请求进行数据、协议文本和服务需求的提取和解析。网关层通过调度算法根据云端服务器的负载情况将服务请求进行分配任务，保证服务器集群的整体性能最优，提高资源利用率，保证系统高效性。

服务池主要由服务解析器、配置器和各项云服务组成。服务请求经过服务接入层的解析之后，配置器的服务调度层确定是进行单个服务选择还是多个服务的组合，配置器的节点层负责对服务请求分配资源，并调用服务池服务进行业务处理。通过在云端部署模型，将各种云端基础服务注到服务池，为机器人提供各项微服务，各个功能模块通过封装，形成通用的接口，机器人和云端进行数据传输和通信，实现各个服务模块特定的功能。服务可以单独调用或者以组合的形式进行调用，服务之间可以相互调用，具体方式由服务配置器确定。云服务类型主要包括图像、语音、自然语言理解、数据库以及导航等相关服务。

数据池主要包含各种数据知识库资源，数据库资源分为知识库和增量知识库。知识库主要是用于服务池各个模型训练的资源。对于数据采集池采集到海量的数据资源，通过资源过滤池，筛选有用的语音和图像信息，作为增量知识库。当云端系统处于低负载或低并发等资源利用率比较低的状态时，对于由于数据量不足引起的模型精度较低的服务模型进行增量模型训练，动态更新模型，使系统不断进化。

对话生成服务，服务池接收的机器人实时采集的语音和图像数据，进行场景感知、情感感知和用户感知，将语音识别之后文字信息和多模态信息进行融合，生成对话信息。为机器人和用户交互提供对话交流服务，通过云基交互网关层，将生成的文字信息传递给机器人本体，通过机器人本体将文字转化为语音播放，完成一次人机语音交互。

下面对系统进行具体的描述。

在用户和机器人交互时，机器人本体的麦克风阵列采集用户语音信息，摄像头信息实时采集环境信息，通过云机交互网关层，将语音和图像信息上传到云端服务池。

上传到云端的声波和图像信息不仅用于对话生成，同时也用于数据库和增量知识库的构建。

首先在对话生成阶段。

(1)调用云端语音识别服务，将输入的语音信息转化为文字，记为Input。

(2)将得到的语音识别之后的信息Input进行分词和命名实体识别，进入场景分发模块，确定是开放域闲聊的话题还是任务型对话。

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

(3)对输入的图像进行归一化等处理。

(4)将用户和机器人交互时拍摄的图像上传到云端并输入场景感知器。

①目标检测模块，得到图像中存在的物体种类和位置信息，记为(T_i,D_i),其中T_i表示检测到物体的类型，D_i表示检测到物体在图像中的位置信息。

②场景分类模块，通过分析图像中存在各物品的特点，得到机器人所在场景是客厅、卧室、厨房、书房、餐厅、卫生间的概率，将最大概率对应的场景类型记为S。

③场景描述模块，将场景图像输入端到端网络中，得到对整个图片的文字描述信息，将文字描述记为W。

④行为识别模块，将在目标检测模块中检测到人的图片输入行为识别模块，根据人的行为特征，得到场景中人的行为类别接电话、握手、拥抱、亲吻、坐下、起立、站立、吃饭、睡觉等日常行为的概率，并将概率值最大的行为类别记为A。同时通过对用户长期行为识别建立时序分析模型，可以建立用户场景行为画像。

(5)在系统的初始阶段，由于知识库中用户交互记录较少，用户信息主要从用户注册机器人客户端获取，比如性别、年龄等信息，用户感知信息较少。随着用户和机器人的持续交互，通过对云端知识库进行基于时序的数据主题挖掘和建立用户行为模型，使用户画像更加立体和丰富。

(6)对于任务型对话，将分词之后的词语转化成分布式词向量和场景感知器中得到的目标监测T_i、场景分类S、场景描述W进行余弦距离匹配，根据相关性结果对场景感知信息进行筛选，筛选出大于0.5的场景信息。将筛选出来的相关性比较高的场景信息加入对话生成中。将分词之后的词语转化后的分布式词向量和兴趣、爱好等主题词语类进行余弦距离匹配，若匹配程度大于0.5，那么将用户感知器得到的用户画像转化为嵌入分布式向量加入对话生成中。

(7)对于开放域闲聊对话，为了使人机交互时生成的答复更加富有情感，根据用户不同的情感状态生成不同情感类型答复，同时将机器人上传到云端的信息输入情感感知器。

①将采集的语音声波信号输入声波情感识别模块，对声波信号进行采样、量化和编码之后，采用时间序列提取声波序列特征，使用卷积神经网络提取深层特征，分析用户声波信号，得到用户情感类型为生气、悲伤、高兴、害怕、厌恶、无聊的概率的最大值和对应类型，记为P_s、T_s。

②将语音识别转化后的文字经过分词，输入到文字情感识别模块，通过分析用户文字语义信息，得到用户情感类型为生气、悲伤、高兴、害怕、厌恶、无聊的概率的最大值和对应类型，记为P_t、T_t。

③对实时上传到云端的图像进行人脸目标检测，若检测到人脸，则继续将图片上传到人脸表情识别模块，通过分析用户人脸表情图像信息，得到用户情感类型为生气、悲伤、高兴、害怕、厌恶、无聊的概率的最大值和对应类型，记为P_f、T_f。

(8)在情感感知器中，比较文字情感识别、情感表情识别、声波情感识别的类型，若出现两个相同类型的结果，则将此类型设置为情感感知器输出的多模态情感类型，若三个类型都不相同，则比较概率值P_s、P_t、P_f的大小，将概率值最大对应的情感类型作为情感感知器的输出情感类型。

(9)对于开放域闲聊对话，使用基于情感的对话生成模型。针对不同的情感感知器的类型，输出不同的回答。例如一个人比较悲伤，那么生成的对话内容就比较愉悦，开朗；如果一个人比较害怕，那么生成的对话内容就要带有安慰性质等。

(10)特别的，云端服务池的对话生成服务具有主动生成对话模式。当情感感知器中的人脸表情识别模块和场景感知器中的行为识别模块，结合系统建立的用户行为画像，监测出用户处于情绪低落或行为异常时，进入主动生成对话模式，使对话系统更加人性化，改善人机交互体验。

(11)通过云机交互网关层，将生成的文字信息传递给机器人本体，通过机器人本体将文字转化为语音播放，完成一次人机语音交互。

完成一次语音交互之后，记录用户和机器人交互的日志信息。将其和采集的图像信息一起上传到云端的数据池中，对于云端采集的海量的文字和图像信息，要通过资源过滤器，进入数据池的增量数据库中。通过对用户历史交互信息进行主题挖掘，建立用户兴趣、语言风格等方面的用户画像。通过对用户历史行为分析，建立基于时序的用户行为画像。加入时间轴信息，建立动态用户画像。为云端服务池针对不同的用户提供个性化服务提供可能。

数据池中的知识库包含服务池中各功能模型的训练数据。服务池中部分功能模块由于数据集较少或者网络结构未能满足功能需求，利用云平台人机日常交互中采集的共享海量信息资源，经过筛选，构建增量知识库。

为了实现上述功能，本发明还提供了一种从机器人本体上传到云端的海量数据中筛选出可用于服务池各模型训练的方法。

1.对于图像信息。方法如图2所示。

(1)对来自服务机器人拍摄的图像进行灰度化和归一化预处理，得到预处理图像；

(2)对预处理后的图像依次进行清晰度、对比度、亮度的计算，分别记为D、C、B。

①清晰度：

②对比度：

其中，δ(i,j)＝|i-j|，是相邻像素间的灰度差；P_δ(i,j)是相邻像素间灰度差为δ的像素分布概率。

③亮度：将图像转换到HSL空间，然后对图像求均值，得到亮度B。

(3)根据实际需求设定清晰度、对比度和亮度的阈值，如果不满足，则直接删除图像。

(4)对于满足要求的图像和数据库中的图像进行图像结构相似度计算，记为S*，若值大于阈值0.7，则删除图像。

计算公式为:S^*(X,Y)＝L(X,Y)*C(X,Y)*S(X,Y)

其中，

u_X、u_y表示图像X和Y的均值，σ_X、σ_Y表示标准差，σ_X ²、σ_Y ²表示方差，σ_Xσ_Y表示图像的协方差。设定C₁＝(K₁*L)²，C₂＝(K₂*L)²，

K₁＝0.01,K₂＝0.03，L＝255。

(5)对于满足要求的图像使用云端的图像服务池中目标检测云服务接口进行目标监测，若检测结果中存在置信度小于0.5的目标，则对其进行图像标注，最后将其加入图像模型更新训练数据库。

2.对于用户和机器人一次语音交互文字信息，记为(Input_i,Response_i)。

(1)判断Input_i的长度，若长度小于等于2，则不将该次交互信息保存到数据池中。

(2)将句子进行中文分词，形成一些词语的序列。

(3)使用统计语言模型中的n-gram模型，n取3，计算Input_i的概率，设定阈值k，若句子概率大于k，则将此次交互信息存入数据池中。否则进行步骤(4)。

(4)对分词之后的句子进行词性标注，将标注为名词的词语转化为分布式词向量，计算其和兴趣、性格等类词语的余弦相似度夹角，若其大于0.5，则将其保存到数据池中，用于用户兴趣画像的刻画。

通过云机交互网关层，可以对服务池运行状态进行监控。在云端服务池处于低负载率的时候，利用基于宽度学习的增量训练方法，在原有模型的基础上，进行模型的动态更新，改善模型表现能力。

为了实现以上目的，本发明提供一种基于云端的利用宽度网络的增量模型训练方法。

如图3所示，增量训练系统整体分为更新数据层、特征提取层、特征层和输出层四层。

模型更新数据层是云端对机器人日常使用过程中采集的各种信息经过筛选，满足条件的用于模型改善的训练数据。

模型提取层是对输入的数据X进行映射，使用函数

将输入数据映射为特征Z_i，对Z_i进行

变换，成为特征层的强化节点H_j。对于i≠j、k≠r，φ_iφ_j、ξ_kξ_r可以是不同的函数。映射函数可以是核函数、非线性转换等。对于不同的数据类型，可以选取不同的映射函数，比如文字信息使用TF-IDF，RNN等映射函数，图像信息使用CNN等映射函数。

特征层节点主要由n个输入映射特征节点和m个强化节点拼接而成。对于每个特征映射，对应k个节点。

输出层需要满足，

令A＝[Zⁿ|H^m]，即求出在

条件下的解，其中σ₁＝σ₂＝u＝v＝2。通过矩阵分析和转换，可以求得W^m＝A⁺Y。其中

当模型精度未能达到要求的时候，可以通过改善模型结构和增加训练数据量来提高模型精度。改善模型结构可以通过增加强化节点和特征映射节点来实现。如图三所示，具体操作如下：

(1)增加强化节点

对新增加的强化节点的参数

进行随机初始化，计算H_m+1，更新原来的

为

计算

其中，

更新权重：

(2)增加特征映射节点

对

进行初始化，计算Z_n+1,然后计算

更新原来

为

计算

其中B^T和(1)相同，

更新权重：

(3)增加新的数据

新的数据为X_a，此时

其中

更新

那么

其中

其中B^T和(1)相同。最后更新权值矩阵

得到更新的权值矩阵，对服务池对应的服务模型进行更新，提供更优的云端服务模型。

一种家庭服务机器人云端多模态对话方法，该方法包括：

实时接收用户语音信息和场景图像信息；

将场景图像信息进行预处理，得到预处理图像信息；

进一步地，该方法还包括主动生成对话，具体步骤包括：

实时接收场景图像信息；

所述特征层由输入映射特征节点和强化节点拼接而成。

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

本公开的有益效果：

(2)本发明所述的一种家庭服务机器人云端多模态对话方法、装置及系统，针对家庭服务机器人复杂多样性的工作环境，基于云平台的优势，充分挖掘多模态数据的信息特征，构建多模态信息的共融的交互系统。研究基于声场、语音语言情感、用户表情和视觉环境等多维信息构建场景信息的语义表示，采用信息融合的方法进行对话决策场景自适应，实现场景感知的智能化语音交互。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种家庭服务机器人云端多模态对话方法，其特征在于，该方法包括：

实时接收用户语音信息和场景图像信息；

将场景图像信息进行预处理，得到预处理图像信息；

根据不同的对话类型，将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息，通过对话服务模型，生成用户和机器人交互的对话信息；

筛选预处理图像信息加入增量知识库的具体步骤包括：

将保留的图像进行目标检测，对检测结果中的置信度小于置信度阈值的目标进行图像标注，加入增量知识库；

筛选处理后的文字信息加入增量知识库的具体步骤包括：

对于概率小于预设阈值的文字信息，对分词处理后的文字信息进行词性标注，并将标注为名词的词语转化为分布式词向量，计算其与用户兴趣相关词语的余弦相似度夹角，将夹角大于预设余弦相似度夹角阈值的文字信息加入增量知识库，用于用户兴趣画像；

通过增量训练网络进行所述模型增量训练，所述增量训练网络包括更新数据层、特征提取层、特征层和输出层；

所述特征层由输入映射特征节点和强化节点拼接而成；

当对话服务模型精度小于精度阈值时，通过增加强化节点和特征映射矩阵改善模型结构和/或增加训练数据量。

2.如权利要求1所述的一种家庭服务机器人云端多模态对话方法，其特征在于，在该方法中，所述场景感知为通过场景感知器进行场景描述、场景分类、目标检测和行为识别得到场景感知信息，所述用户感知为通过用户感知器进行行为画像和兴趣画像得到用户感知信息，所述情感感知为通过情感感知器进行文字情感识别、人脸表情识别和声波情感识别得到情感感知信息。

3.如权利要求1所述的一种家庭服务机器人云端多模态对话方法，其特征在于，在该方法中，所述对话类型包括闲聊型对话和任务型对话；

4.如权利要求1所述的一种家庭服务机器人云端多模态对话方法，其特征在于，该方法还包括主动生成对话，具体步骤包括：

实时接收场景图像信息；

5.如权利要求1所述的一种家庭服务机器人云端多模态对话方法，其特征在于，该方法还包括：将一次对话产生的用户语音信息、场景图像信息和生成的对话信息保存为历史交互信息，根据历史交互信息通过用户感知器进行行为画像和兴趣画像，并加入时间轴信息，得到基于时序的动态历史用户感知信息，在生成用户和机器人交互的对话信息时，调用该历史用户感知信息。

6.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-5中任一项所述的一种家庭服务机器人云端多模态对话方法。

7.一种终端设备，采用互联网终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-5中任一项所述的一种家庭服务机器人云端多模态对话方法。

8.一种家庭服务机器人云端多模态对话系统，其特征在于，基于如权利要求1-5中任一项所述的一种家庭服务机器人云端多模态对话方法，包括：

所述数据池包括知识库和增量知识库；

9.如权利要求8所述的一种家庭服务机器人云端多模态对话系统，其特征在于，在该系统中，所述云机交互网关层包括服务认证层、解析器和网关层；

所述服务认证层控制机器人请求服务的合法性，机器人按照规定的统一JSON文件格式发送服务请求之后，所述解析器对服务请求进行数据、协议文本和服务需求的提取和解析，所述网关层通过调度算法根据云端服务器的负载情况将服务请求进行分配任务；

在该系统中，通过在云端部署模型，将各种云端服务注到服务池，为机器人提供各项云端服务，各个云端服务功能模块通过封装，形成通用的云端服务接口，机器人和云端服务通过云端服务接口进行数据传输和通信。