CN113868451A

CN113868451A - 基于上下文级联感知的社交网络跨模态对话方法及装置

Info

Publication number: CN113868451A
Application number: CN202111024480.1A
Authority: CN
Inventors: 聂为之; 李杰思; 徐宁; 刘安安; 张勇东
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-31
Anticipated expiration: 2041-09-02
Also published as: CN113868451B

Abstract

本发明公开了一种基于上下文级联感知的社交网络跨模态对话方法及装置，方法包括：利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示；基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新；将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布；选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出。装置包括：处理器和存储器。本发明提高了视觉问答的准确度。

Description

基于上下文级联感知的社交网络跨模态对话方法及装置

技术领域

本发明涉及社交网络领域，尤其涉及一种基于上下文级联感知的社交网络跨模态对话方法及装置。

背景技术

视觉对话系统作为一种智能人机交互的重要方式，受到了越来越多的关注。在视觉对话系统中，用户可以向聊天机器人发送图片，并基于图片内容与聊天机器人展开多轮“提问-回答”的对话，起到信息交流和问题解答的作用。视觉对话系统在传统对话系统的基础之上，引入了丰富的图像信息，从而能够更广泛地应用到社交网络等包含多元信息的复杂场景中。

然而，在现有的视觉对话系统中还存在着以下问题：大多数视觉对话系统中往往只关注了图片内容的整体或部分显著区域信息，忽略了对图像不同内容之间的上下文语义关联，从而不能在多轮对话中结构化地理解并关注到多个图像内容的关系。

事实上，用户在多轮视觉问答中会更倾向于根据图像内容的上下文信息进行提问，因此在视觉对话系统中对图像内容进行结构化表征和理解是值得研究的。

发明内容

本发明提供了一种基于上下文级联感知的社交网络跨模态对话方法及装置，本发明对图像内容进行结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，提高视觉问答的准确度，提高了关于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性，详见下文描述：

第一方面，一种基于上下文级联感知的社交网络跨模态对话方法，所述方法包括以下步骤：

利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示；

基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新；

将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布；

选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出。

在一种实施方式中，所述利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示具体为：

构建一方向性敏感的图卷积网络，以节点连续向量表示

作为输入，对各节点进行上下文编码，实现各节点特征的聚合与更新；

所述图卷积网络针对两种边方向分别使用不同的融合矩阵对节点o_i及其邻域的局部信息进行合并，生成语义上下文感知的新的节点特征表示。

在一种实施方式中，所述基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新具体为：

线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量，通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合；

依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新，得到包含注意力的图像语义上下文感知的视觉特征表示。

优选地，所述将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布具体为：

使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算，经 softmax函数获取初步的各候选答案的输出概率分布。

其中，所述选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出具体为：

依据初步的输出概率分布，从原始答案集中选取出概率值较大的候选答案项组成新的候选集，将新候选集中每一个答案序列与当前问询相结合，在辅助信息图像描述语句、历史对话信息的共同作用下，对图像语义上下文感知的视觉特征进行新的注意力计算；

对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和，获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示；

将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类，获取最终的输出概率分布。

第二方面，一种基于上下文级联感知的社交网络跨模态对话装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统，对视觉内容进行结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，提高视觉问答的准确率；

2、本发明提高了基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。

附图说明

图1为一种基于上下文级联感知的社交网络跨模态对话方法的流程图；

图2为一种基于上下文级联感知的社交网络跨模态对话方法的框架图；

图3为一种基于上下文级联感知的社交网络跨模态对话装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题，本发明实施例开发了既能视觉问题回答又能视觉问题产生的对话系统，通过构建视觉内容的结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，更好地实现准确且多样化的问题回答及新问题预测，提高基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。

实施例1

一种基于上下文级联感知的社交网络跨模态对话方法，参见图1和图2，该方法包括以下步骤：

步骤101：检测图像中的视觉实体与视觉关系，构建图像对应的视觉结构化表征；

步骤102：利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示；

步骤103：基于长短时记忆网络，编码问询信息与已知辅助信息(图像描述语句、历史对话信息)为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新；

步骤104：将所得文本特征、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布；

步骤105：选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对其进行再排序，获取最终概率值最大的目标答案的语句输出。

综上所述，本发明实施例通过上述步骤101-步骤105实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统，对视觉内容进行结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，提高视觉问答的准确率。

实施例2

下面结合具体的计算公式、图1和图2，实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：已知视觉图像，利用目标检测器提取图像中的实体信息，利用关系分类器提取实体之间的复杂关系语义信息；将实体作为节点，关系作为连接成对实体节点的有向边，构建视觉结构化表征图

其中ν和ε分别是节点和边的集合。

具体地，给定图像I，使用FasterR-CNN^[1]检测图像I中的视觉实体，并将提取的视觉实体特征输入到MOTIFS^[2]关系分类器中以进行实体之间的关系分类。在获取一系列视觉实体o以及关系r后，定义o_i为第i个视觉实体，r_ij为视觉实体o_i与o_j之间的关系，其中o_i和r_ij分别对应独热编码的标签

和

表示。

为了构造结构化表征图

将所有视觉实体视为节点，如果两个实体节点o_i与o_j之间存在关系r_ij，即存在关系三元组＜o_i,r_ij,o_j＞，则建立从o_i到o_j的有向边，最终生成图像相应的视觉结构化表征

202：在获取图像的视觉结构化表征

之后，为了有效地学习

中的高阶信息，使用深度图卷积网络(GCN)对其中的各节点特征进行聚合与更新，生成一组新的语义上下文感知的特征向量表示χ＝{x₁,x₂,…,x_|ν|}。其中，|ν|代表视觉结构化表征

中的节点总数目。

具体地，已知各节点的独热编码标签

本发明实施例首先使用一个嵌入层将

转换为连续向量表示如下：

其中，W_o为单词嵌入矩阵，

即为转换后的各节点的连续向量表示。

进一步地，本发明实施例提出了一种方向性敏感的图卷积网络，以节点连续向量表示

作为输入，可以在充分考虑连接节点之间每个边的方向的情况下，对各节点进行上下文编码，实现各节点特征的聚合与更新。

由于在视觉结构化表征图

中，一个节点o_i可以充当关系三元组中的“头实体”或“尾实体”，因此存在两种类型的连接边方向ε(o_i,o_j)：o_i→o_j或o_j→o_i。考虑到不同边方向的消息传递不同，本发明实施例的图卷积网络针对两种边方向分别使用不同的融合矩阵对节点o_i及其邻域的局部信息进行合并，生成语义上下文感知的新的节点特征表示x_i：

其中，N(o_i)代表o_i的邻域节点集合，|N(o_i)|代表o_i的邻域节点的总数目；W₀、

为融合矩阵，且

随边方向ε(o_i,o_j)可变；

分别为节点o_i和o_j的连续向量表示；σ为神经网络中常用的ReLU(修正线性单元)激活函数。

203：图像、问题和相应的答案是视觉对话的三个重要组成部分，本发明旨在通过集成图像、问询信息与已知辅助信息(图像描述语句、历史对话信息)来从多个候选项中搜索最匹配的答案。

具体地，定义输入的文本信息集(C,H_t,Q_t,O_t)；

其中，C为图像描述语句；

H_t＝{(Q_k,A_k),k∈{1,…,t-1}}为t时刻先前的历史问题-答案对；Q_t为t时刻的问询信息，特别地，在进行问题的回答预测时Q_t为一个问题序列，

为相应的多个候选回答项；而在新的问题预测时Q_t为一个问答对的级联，此时

即为相应的多个候选后续问题项，其中N_O(实验数据集中为100)为候选项的总数。

首先，利用长短时记忆网络^[3](LSTM)分别编码图像描述语句C、历史对话信息H_t和问询信息Q_t为相应的文本特征表示，其中对C、Q_t的编码过程如下：

V_C＝LSTM(E_C) (3)

式中，E_C、

为LSTM的输入，分别是C、Q_t的单词嵌入向量；V_C、

为LSTM 的输出，分别是C、Q_t的句子级特征向量表示。

对于历史信息H_t，使用两个独立的LSTM来分别处理其问题序列Q_k和回答序列A_k，编码H_t如下：

式中，

和

分别为Q_k和A_k的单词嵌入向量；f_H为用于结合Q_k和A_k特征表示的一个全连接层；

即为最终历史问答对信息H_t的特征向量表示。

进一步地，线性级联V_C、

和

为统一向量

通过矩阵分解双线性池化方法MFB^[4]实现V_U与图卷积网络编码的视觉特征χ＝{x₁,x₂,…,x_|ν|}的跨模态融合：

式中，U、W为可学习的参数矩阵；T、

分别表示矩阵的转置和点乘操作。依据融合表示Z，使用软注意力机制对χ中的所有节点特征进行注意力加权更新，得到包含注意力的图像语义上下文感知的视觉特征表示

式中，ω_α为可学习参数矩阵；α为生成的归一化注意力分布，其第i个元素α_i即为相应节点特征x_i的注意力权重；|ν|为图像结构化表征

中的节点总数。

204：将候选答案集

作为早期输入，同样利用LSTM编码获取O_t中每一个答案序列o_i的特征向量表示

式中，

为序列o_i的单词嵌入向量。

使用多层感知机(MLP)构建的神经网络分类器将

与包含问询及辅助信息的文本特征V_U、注意力加权后的图像视觉特征

进行联合特征融合和相关性计算，经softmax函数获取初步的各候选答案

的输出概率分布：

式中，[；]表示向量的拼接即级联操作；softmax为归一化指数函数；

为

的输出概率分布，p_i即为第i个候选项o_i的输出概率值。

205：依据初步预测的输出概率分布

从原始候选答案集

中选取出正确概率较大即与当前问询信息及图像最相关的前top-n(实验设置n为30)个候选项，组成新的候选集

将

中的每一个答案序列

i∈{1,…,n}与当前问询Q_t相结合，在辅助信息图像描述语句C、历史对话信息H_t的共同作用下，对图像语义上下文感知的视觉特征χ＝{x₁,x₂,…,x_|ν|}进行新的注意力计算：

式中，

为结合了

与Q_t信息的句子级特征向量；V_C、

分别为C、H_t先前所得的特征向量表示；MFB是跟步骤三中(公式6)相同的多模态双线性池化操作；

为可学习参数矩阵，

即为

引导的归一化注意力分布。对χ中所有节点特征进行注意力加权求和，获取针对

对的注意力细化之后的新视觉特征表示

式中，

为

中的第j个元素，即相应节点特征x_j的注意力权重；|ν|为视觉结构化表征

中的节点总数。将

V_C、

以及

级联作为MLP的输入进行二次分类，获取最终n个候选项

的输出概率分布如下：

式中，

为

中的第i个元素，即相应候选项

的输出概率值。依据最终的概率分布

完成t时刻问题回答预测或新问题预测时的目标答案的推理选择如下：

式中，i^*为输出概率值最大的目标答案的索引，则t时刻问题回答预测或新问题预测时的目标答案的语句输出即为

实施例3

一种基于上下文级联感知的社交网络跨模态对话装置，参见图3，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤：

在一种实施方式中，利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示具体为：

构建一方向性敏感的图卷积网络，以节点连续向量表示

图卷积网络针对两种边方向分别使用不同的融合矩阵对节点o_i及其邻域的局部信息进行合并，生成语义上下文感知的新的节点特征表示。

在一种实施方式中，基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新具体为：

优选地，将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布具体为：

使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算，经softmax函数获取初步的各候选答案的输出概率分布。

其中，选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出具体为：

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

参考文献：

[1]Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time objectdetection with region proposal networks[C]//Advances in neural informationprocessing systems.2015:91-99.

[2]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graphparsing with global context[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2018:5831-5840.

[3]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8): 1735-1780.

[4]Yu Z,Yu J,Fan J,et al.Multi-modal factorized bilinear pooling withco-attention learning for visual question answering[C]//Proceedings of theIEEE International Conference on Computer Vision.2017:1839-1848.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于上下文级联感知的社交网络跨模态对话方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法，其特征在于，所述利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示具体为：

构建一方向性敏感的图卷积网络，以节点连续向量表示

3.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法，其特征在于，所述基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新具体为：

4.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法，其特征在于，所述将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布具体为：

5.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法，其特征在于，所述选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出具体为：

6.一种基于上下文级联感知的社交网络跨模态对话装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。