CN109408624B

CN109408624B - 一种视觉聊天机器人会话生成方法

Info

Publication number: CN109408624B
Application number: CN201811314681.3A
Authority: CN
Inventors: 江爱文
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2020-11-27
Anticipated expiration: 2038-11-06
Also published as: CN109408624A

Abstract

本发明公开了一种视觉聊天机器人会话生成方法，所述方法包括以下步骤：步骤S1，抽取阅读对象内容的层次化全局上下文信息；步骤S2，获取会话历史信息，并结合所述阅读对象内容的全局上下文信息，生成连续的多轮视觉会话。本发明的视觉聊天机器人在阅读过程中，既能模仿教师，生成引导性提问，引导孩子进行思考和观察绘本内容，实现有效阅读，也能积极回应孩子们所提的关于绘本内容的问题，从而能够就绘本图画内容与孩子们进行良好的互动对话。

Description

一种视觉聊天机器人会话生成方法

技术领域

本发明涉及计算机视觉与自然语言处理交叉技术领域，特别是涉及一种视觉聊天机器人会话生成方法。

背景技术

聊天机器人是当今非常热门的人工智能研发与产品方向。基于聊天机器人系统的应用层出不穷，代表性的如苹果Siri、微软Cortana与小冰。然而无论是面向开放领域还是限定领域，当前主流聊天机器人利用的数据资源和事实依据均以单一的自然语言模态为主。如果聊天机器人具备视觉计算能力，那么聊天机器人不仅能够完成自然语言对话，而且对话内容还能够围绕相关视觉图像内容展开，并以之为话题与用户进行多轮连续交互。我们将这类机器人称为“视觉聊天机器人”，相应的对话生成技术称为“视觉对话生成技术”。

在幼儿教育领域，教育部发布的《3-6岁儿童学习与发展指南》中明确提出“幼儿期是语言发展，特别是口语发展的重要时期。幼儿的语言能力是在交流和运用的过程中发展起来的。为幼儿创设自由、宽松的语言交往环境，让幼儿想说、敢说、喜欢说并能得到积极回应。”在幼儿教育内容中，绘本教育是一项非常重要的内容。绘本是一类以绘画为主，并附有少量文字的书籍。绘本能激发儿童阅读的兴趣，全面帮助孩子构建精神世界，培养多元智能，是国际公认“最适合幼儿阅读的图书”。因此，幼儿绘本阅读广泛受到家长和幼儿园的关注和重视。

2017年前后，在我国幼教领域的产品市场上开始出现了关于幼儿绘本阅读机器人的创新项目和科技产品，代表性的产品如物灵科技的Luka绘本阅读机器人以及北京恒胜东阳科技有限公司的悦阅绘本阅读机器人等。这些智能化创新项目对于培养孩子阅读兴趣、增添学习积极性起到了积极作用，并且改变了传统的教育模式，让孩子在科学、有趣的环境下自然、轻松的学习。

我们注意到，目前这些创新科技产品共同存在的痛点是，“重阅读，轻互动”。孩子们只能被动的聆听和跟读固定的绘本内容，不能与机器人就阅读的内容进行语言交互，从而很容易陷入绘本教育的误区之一，即无指导型。这种教育的误区认为绘本仅是“读给孩子听的书”，只需纯粹以朗读者的身份，读完故事就结束。阅读过程中，不启发、不质疑、不点拨也不指导，因此，容易造成使绘本阅读的意义缺失、教育效率低下的问题。在国内外视觉对话机器人研究领域，目前还尚未有公开发表的、以绘本为研究对象的工作。

发明内容

为克服上述现有技术的不足，本发明提出一种视觉聊天机器人会话生成方法，主要应用于阅读机器人的会话生成。该方法注重引导式阅读与语言互动，可以视为当前绘本阅读机器人的智能辅助语言学习技术的升级，能够利用信息技术为幼儿创造说话的机会并体验语言交往的乐趣。

本发明需要解决的技术问题有两个：(1)理解绘本内容并生成引导式的对话过程，主要采用“机器人提问，幼儿回答”的方式；(2)生成的对话语言要符合幼儿年龄特点，易于幼儿理解对话内容。

本发明提出的一种视觉聊天机器人会话生成方法包括以下步骤：

步骤S1，抽取阅读对象内容的层次化全局上下文信息；

步骤S2，获取会话历史信息，并结合所述阅读对象内容的全局上下文信息，生成连续的多轮视觉会话。

可选地，所述步骤S1包括以下步骤：

步骤S11，输入所述阅读对象的全部内容；

步骤S12，采用层次化双向循环神经网络对所述阅读对象的全部内容进行信息抽取，得到所述阅读对象内容的层次化全局上下文信息。

可选地，所述层次化双向循环神经网络为双层双向循环神经网络。

可选地，所述步骤S12包括以下步骤：

步骤S121，使用所述双层双向循环神经网络中的第一层双向循环神经网络提取所述阅读对象第i页的文字内容特征表示hⁱ；

步骤S122，提取所述阅读对象第i页的全局视觉内容特征

步骤S123，将所述阅读对象第i页的文字内容特征表示hⁱ和全局视觉内容特征

进行串联合并，将得到的合并特征

在第i时刻输入至所述双层双向循环神经网络中的第二层双向循环神经网络，得到所述阅读对象第i页的全局上下文信息。

可选地，所述步骤S121包括以下步骤：

步骤S1211，提取阅读对象的第i页文字语句所包含的T个词向量

其中，i＝1…K，K为整本绘本的总页数；

步骤S1212，将所述词向量依次输入到所述第一层双向循环神经网络中,得到序列输出

步骤S1213，对于所述序列输出进行融合处理，得到所述阅读对象当前页面的文字内容特征表示hⁱ。

可选地，所述步骤S122中，利用预训练的阅读对象视觉特征抽取网络来提取所述阅读对象第i页的全局视觉内容特征

。

可选地，所述步骤S2包括以下步骤：

步骤S21，获取截至当前时刻的会话历史信息，并对于所述会话历史信息进行编码，得到所述会话历史信息的特征表示；

步骤S22，将所述会话历史信息的特征表示与当前阅读页的全局上下文信息进行融合，得到融合信息；

步骤S23，根据所述融合信息生成当前轮次的问题问句并输出。

可选地，所述步骤S21中，使用双层循环神经网络对于所述会话历史信息进行编码。

可选地，所述步骤S23中，使用循环神经网络门限循环单元GRU_Q与单词采样器来生成问题问句。

可选地，所述步骤S2还包括：

步骤S24，将会话效果反馈至所述步骤S23的问题问句生成中。

在本发明技术方案中，阅读对象视觉特征抽取网络以阅读对象中的图画作为输入，通过对图画内容进行分析和识别，输出预定义的视觉特征。阅读对象文字信息抽取部分以当前阅读对象文字内容作为输入，输出与当前阅读对象内容相关的文本特征。

在视觉对话生成过程中，综合当前阅读页的全局上下文信息、视觉特征、文字内容特征，生成引导式问题，引导幼儿观察视觉特征对应的图画内容并回答相关问题。获得幼儿回答后，再对回答的内容进行反馈，进一步生成新的会话内容。机器人采用强化学习的方式生成对话，让幼儿在对话互动的过程中得到预设的绘本教学效果。另外，历史会话的使用还让会话系统能够较大程度地保持会话语言风格的连贯性和自然性。

与现有技术相比，本发明所产生的有益效果是，聊天机器人在阅读过程中，既能模仿教师，生成引导性提问，引导孩子进行思考和观察绘本内容，实现有效阅读，也能积极回应孩子们所提的关于绘本内容的问题，从而能够就绘本图画内容与孩子们进行良好的互动对话。互动式的语言学习环境，可以作为幼儿教育中家庭教育环节的有效辅助手段，很显然，本发明对幼儿语言发展、幼儿心理陪伴都将起到积极的作用。

附图说明

图1是根据本发明一实施例的视觉聊天机器人会话生成方法的实现方案示意图；

图2是根据本发明一实施例的视觉聊天机器人会话生成方法的流程图；

图3是根据本发明一实施例的双层双向循环神经网络的结构示意图；

图4是根据本发明一实施例的会话结果反馈中的信息关联示意图；

图5是根据本发明一实施例的阅读对象图像内容特征抽取网络训练示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出一种视觉聊天机器人会话生成方法，主要应用于阅读机器人的会话生成。发明人发现，绘本内容中的图画与文字是相辅相成、互相依存的关系，在机器人与幼儿进行绘本阅读互动时，实现两种模态数据的综合理解，是进行连续合理的视觉对话的基础和前提。

图1是根据本发明一实施例的视觉聊天机器人会话生成方法的实现方案示意图，图2是根据本发明一实施例的视觉聊天机器人会话生成方法的流程图，在本发明实施例中，统一采用词向量方式(word2vec)对单词进行表示，并且使用预训练的GoogleNews-vectors-negative300.bin作为word2vec模型，得到的词向量的维度是300维，如图1和图2所示，所述方法包括以下步骤：

步骤S1，抽取阅读对象内容的层次化全局上下文信息；

其中，所述阅读对象不仅可以包括绘本，还可以包括其他配有图画内容的书籍或阅读书物，为了便于描述，以下以绘本为例对于本发明实施例进行详细的说明，但本领域技术人员应当理解，此处不应当将阅读对象限定为绘本，其还可以为其他阅读对象。

考虑到聊天机器人必须要理解绘本内容(涵盖绘本书中所有的图像和绘本文字)，并将这些内容内化成关于绘本主题的上下文信息，才有可能在中间环节针对绘本的具体内容展开有效的引导性对话，因此，为了使聊天机器人更好地理解绘本内容，在该步骤中，首先对于阅读对象内容的层次化全局上下文信息进行抽取。

具体地，所述步骤S1包括以下步骤：

步骤S11，批量输入所述阅读对象的全部内容；

在本发明一实施例中，所述层次化双向循环神经网络为双层双向循环神经网络，图3即为根据本发明一实施例的双层双向循环神经网络的结构示意图。

进一步地，所述步骤S12包括以下步骤：

所述步骤S121包括以下步骤：

步骤S1211，提取绘本书等阅读对象的第i页文字语句所包含的T个词向量

其中，i＝1…K，K为整本绘本的总页数；

在本发明一实施例中，所述第一层双向循环神经网络比如可以为双向门限循环单元Bi-GRU。

在本发明一实施例中，所述融合处理可取为平均综合，即所述阅读对象当前页面的文字内容特征表示hⁱ可表示为：

在本发明一实施例中，所述第一层双向循环神经网络的隐含单元个数设置为512，因此，其输出的文字内容特征表示

步骤S122，提取所述阅读对象第i页的全局视觉内容特征

在本发明一实施例中，利用预训练的阅读对象视觉特征抽取网络来提取所述阅读对象第i页的全局视觉内容特征

其中，

两种模态数据的特征进行串联合并，将得到的合并特征

其中，所述第二层双向循环神经网络主要用于抽取绘本内容的全局上下文信息。在本发明一实施例中，所述第二层双向循环神经网络的隐含单元个数设置为1024，那么对应第i时刻第二层双向循环神经网络的输出为

其包含了阅读对象第i页的全局上下文信息。

幼儿教师在日常的教学过程中，为了能够引导幼儿观察绘本内容，经常会有目的地提出一系列问题，让幼儿积极思考并乐意用语言表达自己的看法和理解，从而有效培养幼儿的阅读习惯和提高幼儿的口语表达能力。

为了能够实现有效的教育互动，利用本发明技术的阅读机器人也应该能够自动有效地生成有利于阅读推进的引导性问题，供幼儿回答。这也是本发明最为核心的技术部分。

如图1所示，在连续的多轮视觉会话生成过程中，可利用的信息有：①截至当前时刻的会话历史信息{u₀,u₁,...,u_m-1}，即截至当前时刻发生的所有轮次的问答对序列，其中，u_l＝(q_l,a_l)表示第l个轮次的问答对，q_l表示第l个轮次的问答对中的问题语句，a_l表示对应的回答语句，m表示截至当前时刻的会话轮次数量，所述会话历史信息在初始时刻为空集Φ；②当前阅读页，即第i页的文字和图像特征表示

③当前阅读页，即第i页的全局上下文信息Hⁱ。

所述视觉对话的生成可包含四个部分：历史会话信息编码、信息融合、问题生成和会话反馈，具体地，所述步骤S2包括以下步骤：

在本发明一实施例中，使用双层循环神经网络对于所述会话历史信息进行编码，其中，所述双层循环神经网络采用双层门限循环单元(GRU)，第一层GRU用于对于所述会话历史信息中的每轮次的问答对进行编码，输出相应问答对的特征表示，作为第二层GRU相应时刻的输入，如果所述会话历史信息中包括m轮次的问答对，则所述第一层GRU的特征表示输出也有m个；第二层GRU用于对于由所述会话历史信息中每轮次问答对特征表示组成的问答对特征表示序列进行编码，所述双层循环神经网络的输出就是最后一个时刻，即第m-1时刻的第二层GRU的输出，也即目前会话历史信息的整体特征表示。具体的数学形式化表示如下式所示：

d_l＝GRU₁(<q_l,a_l>)

g_l＝GRU₂(g_l-1,d_l)

其中，d_l表示第l轮次的问答对经过第一层GRU₁得到的特征表示；g_l表示前l轮次问答对特征表示序列依次输入到第二层GRU₂后输出的特征表示。在本实施例中，

该步骤的目的是对于会话历史信息、当前阅读页的上下文信息等“背景”信息进行融合，为当前轮次的问题生成提供上下文综合信息。在本实施例中，采用特征向量串联的方式对这些“背景”信息进行简单融合，即得到的融合信息z_i,c可表示为：

其中，

表示向量串联，g_m-1表示当前会话历史信息的特征表示，所述融合信息z_i,c用于产生第i页阅读页第c轮次的问答对。

在本发明一实施例中，使用循环神经网络门限循环单元GRU_Q与单词采样器来生成问题问句。

其中，在问题问句生成的每一时刻，GRU_Q的输入是融合信息z_i,c与GRU_Q当前轮次上一时刻生成的问题问句的单词特征s_j-1，输出是当前轮次当前时刻的问题问句的单词特征s_j，接着单词采样器对于单词特征进行采样，得到当前时刻的问题问句单词，其中：s_j＝GRU_Q(z_i,c,s_j-1),j＝{1,...,T_q}，T_q表示预设的生成的问题q的最大语句长度。其中，对于同一阅读页的同一轮次，生成所述单词特征所使用的融合信息z_i,c是相同的。

在本发明一实施例中，所述循环神经网络门限循环单元GRU_Q的第一个时刻的输入可以为一个指定的初始变量，比如是0。

在本发明一实施例中，当前轮次的问题问句生成过程可以在单词采样器采集到生成问题终止符号“？”时结束，或者当达到预设的问题最大长度T_q时结束，最终即可生成当前轮次(第m轮)的问题问句q_m。

在生成问题问句q_m后，可将其添加至当前阅读页所属的问题池中，提供给幼儿等阅读者，由其进行回答。

进一步地，还可将收集到的阅读者对于当前问题的答案a_m，与对应的问题问句q_m一起作为当前时刻的问答对，添加至所述历史会话信息中，为下一轮问答对的生成提供连续的上下文信息。

机器人生成问题，幼儿回答，记为一个回合。随着会话的持续进行，经过若干轮次会话后，连续会话的效果如何是阅读机器人需要关注的问题。因此，在本发明一实施例中，还引入会话反馈步骤以提高后续会话生成的质量，同时还能够对于会话效果进行评估，进而实现对于人机互动过程的跟踪以及教育目标的量化。

在本发明一实施例中，所述步骤S2还包括以下步骤：

步骤S24，将会话效果反馈至所述步骤S23的问题问句生成中。

为了简化评估任务的复杂性和降低评估难度，可以将整个阅读对象的会话过程按阅读页划分成若干会话片段，其中，每个会话片段与对应的阅读页的内容是高度相关的。在问题序列连续生成的过程中，在阅读页的对应会话片段区间，对问答效果逐轮次进行评估，并将评估结果反馈至会话生成步骤，以引导新轮次会话问题的生成。

在本发明一实施例中，将某一页截至当前轮次得到的连续会话问答内容与当前阅读页的内容特征信息

关联融合后得到的特征表示，作为下一轮次问题生成时GRU_Q的初始状态，从而实现会话生成反馈机制。

在本发明一实施例中，采用HashedNet对于所述会话问答内容与当前阅读页的内容特征信息

进行关联融合，如图4所示，首先，利用循环神经网络LSTM对于当前阅读页截至当前轮次得到的会话问答内容，即会话片段进行编码，之后再经过全连接层变换，得到的输出作为HashedNet的一个输入，将当前阅读页的内容特征信息经过全连接层变换映射后生成HashedNet的真实权值，并通过哈希随机分布到HashedNet变换矩阵的对应位置，作为矩阵权值。所述HashedNet的输出即是融合后得到的特征表示。

由上文可知，视觉聊天机器人的会话生成是一个相对比较复杂的过程。为了取得稳定的性能，过程中所使用的网络需要独立完成前期预训练，以获取较好的初始参数设置。

即在本发明一实施例中，所述方法还包括步骤S0：

步骤S0,预训练得到阅读对象图像内容特征抽取网络。

卡通图像是现实真实图像的简化和抽象。在进行艺术创作卡通图像时，画家往往着重表现的是事物最具特点的部分，而弱化或拟人化处理其他部分。人类能够通过现实世界的大量学习，对某类事物的特点产生充分的认识，从而形成丰富的经验和知识。当碰到少见或未见过的卡通形象时，即使学习的样本少，也能快速适应并识别关键视觉特征，举一反三地正确认识目标事物，这个过程体现了迁移学习的能力。

在本发明一实施例中，在该预训练阶段中，本发明采用神经网络的领域对抗训练完成阅读对象图像内容特征抽取网络的预学习，如图5所示，卡通图像和真实图像一起进行训练，将主流的VGGNet-19网络作为所有类型的图像的特征抽取公共网络。而迁移训练的过程，就是调整该网络的参数，使之适应卡通图像类型，并保持较强的特征抽取能力的过程。迁移学习完成后，该训练完成的特征抽取公共网络即作为卡通图像的视觉特征抽取网络。

在图5所示的迁移学习训练结构示意图中，所述特征抽取公共网络的输出分别输入到类别分类器和领域判别器。该训练的目标是：特征抽取公共网络输出的特征应当具备较强的类别分辨能力，同时能够迷惑领域判别器，使之无法区分特征来源是通过抽取真实图像还是卡通图像得到。其中，所述特征抽取公共网络VGGNet-19的初始参数可采用在ImageNet公开数据集上训练得到的模型参数。当采用卡通图像和真实图像混合数据集进行联合训练时，训练伊始，由于卡通图像和真实图像的特征分布区别较大，领域判别器很容易区分，但混合训练集的总体类别分类性能却并不高。但随着训练的不断优化，两个领域的数据特征慢慢转换到同一特征分布空间，领域判别器最终无法分辨输入数据的领域来源。源数据(真实图像)所学习得到的知识便迁移并适应了目标数据(卡通图像)。这样，针对卡通图像，特征抽取公共网络也能抽取鉴别力强的视觉属性特征。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。