CN113868451A - 基于上下文级联感知的社交网络跨模态对话方法及装置 - Google Patents

基于上下文级联感知的社交网络跨模态对话方法及装置 Download PDF

Info

Publication number
CN113868451A
CN113868451A CN202111024480.1A CN202111024480A CN113868451A CN 113868451 A CN113868451 A CN 113868451A CN 202111024480 A CN202111024480 A CN 202111024480A CN 113868451 A CN113868451 A CN 113868451A
Authority
CN
China
Prior art keywords
visual
context
feature
answer
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111024480.1A
Other languages
English (en)
Other versions
CN113868451B (zh
Inventor
聂为之
李杰思
徐宁
刘安安
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111024480.1A priority Critical patent/CN113868451B/zh
Publication of CN113868451A publication Critical patent/CN113868451A/zh
Application granted granted Critical
Publication of CN113868451B publication Critical patent/CN113868451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于上下文级联感知的社交网络跨模态对话方法及装置,方法包括:利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。装置包括:处理器和存储器。本发明提高了视觉问答的准确度。

Description

基于上下文级联感知的社交网络跨模态对话方法及装置
技术领域
本发明涉及社交网络领域,尤其涉及一种基于上下文级联感知的社交网络跨模态对话方法及装置。
背景技术
视觉对话系统作为一种智能人机交互的重要方式,受到了越来越多的关注。在视觉对话系统中,用户可以向聊天机器人发送图片,并基于图片内容与聊天机器人展开多轮“提问-回答”的对话,起到信息交流和问题解答的作用。视觉对话系统在传统对话系统的基础之上,引入了丰富的图像信息,从而能够更广泛地应用到社交网络等包含多元信息的复杂场景中。
然而,在现有的视觉对话系统中还存在着以下问题:大多数视觉对话系统中往往只关注了图片内容的整体或部分显著区域信息,忽略了对图像不同内容之间的上下文语义关联,从而不能在多轮对话中结构化地理解并关注到多个图像内容的关系。
事实上,用户在多轮视觉问答中会更倾向于根据图像内容的上下文信息进行提问,因此在视觉对话系统中对图像内容进行结构化表征和理解是值得研究的。
发明内容
本发明提供了一种基于上下文级联感知的社交网络跨模态对话方法及装置,本发明对图像内容进行结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,提高视觉问答的准确度,提高了关于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性,详见下文描述:
第一方面,一种基于上下文级联感知的社交网络跨模态对话方法,所述方法包括以下步骤:
利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。
在一种实施方式中,所述利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示具体为:
构建一方向性敏感的图卷积网络,以节点连续向量表示
Figure BDA0003242894410000021
作为输入,对各节点进行上下文编码,实现各节点特征的聚合与更新;
所述图卷积网络针对两种边方向分别使用不同的融合矩阵对节点oi及其邻域的局部信息进行合并,生成语义上下文感知的新的节点特征表示。
在一种实施方式中,所述基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新具体为:
线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量,通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合;
依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新,得到包含注意力的图像语义上下文感知的视觉特征表示。
优选地,所述将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布具体为:
使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算,经 softmax函数获取初步的各候选答案的输出概率分布。
其中,所述选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出具体为:
依据初步的输出概率分布,从原始答案集中选取出概率值较大的候选答案项组成新的候选集,将新候选集中每一个答案序列与当前问询相结合,在辅助信息图像描述语句、历史对话信息的共同作用下,对图像语义上下文感知的视觉特征进行新的注意力计算;
对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和,获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示;
将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类,获取最终的输出概率分布。
第二方面,一种基于上下文级联感知的社交网络跨模态对话装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统,对视觉内容进行结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,提高视觉问答的准确率;
2、本发明提高了基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。
附图说明
图1为一种基于上下文级联感知的社交网络跨模态对话方法的流程图;
图2为一种基于上下文级联感知的社交网络跨模态对话方法的框架图;
图3为一种基于上下文级联感知的社交网络跨模态对话装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了解决背景技术中存在的问题,本发明实施例开发了既能视觉问题回答又能视觉问题产生的对话系统,通过构建视觉内容的结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,更好地实现准确且多样化的问题回答及新问题预测,提高基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。
实施例1
一种基于上下文级联感知的社交网络跨模态对话方法,参见图1和图2,该方法包括以下步骤:
步骤101:检测图像中的视觉实体与视觉关系,构建图像对应的视觉结构化表征;
步骤102:利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
步骤103:基于长短时记忆网络,编码问询信息与已知辅助信息(图像描述语句、历史对话信息)为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
步骤104:将所得文本特征、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
步骤105:选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对其进行再排序,获取最终概率值最大的目标答案的语句输出。
综上所述,本发明实施例通过上述步骤101-步骤105实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统,对视觉内容进行结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,提高视觉问答的准确率。
实施例2
下面结合具体的计算公式、图1和图2,实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:已知视觉图像,利用目标检测器提取图像中的实体信息,利用关系分类器提取实体之间的复杂关系语义信息;将实体作为节点,关系作为连接成对实体节点的有向边,构建视觉结构化表征图
Figure BDA0003242894410000041
其中ν和ε分别是节点和边的集合。
具体地,给定图像I,使用FasterR-CNN[1]检测图像I中的视觉实体,并将提取的视觉实体特征输入到MOTIFS[2]关系分类器中以进行实体之间的关系分类。在获取一系列视觉实体o以及关系r后,定义oi为第i个视觉实体,rij为视觉实体oi与oj之间的关系,其中oi和rij分别对应独热编码的标签
Figure BDA0003242894410000042
Figure BDA0003242894410000043
表示。
为了构造结构化表征图
Figure BDA0003242894410000045
将所有视觉实体视为节点,如果两个实体节点oi与oj之间存在关系rij,即存在关系三元组<oi,rij,oj>,则建立从oi到oj的有向边,最终生成图像相应的视觉结构化表征
Figure BDA0003242894410000044
202:在获取图像的视觉结构化表征
Figure BDA0003242894410000051
之后,为了有效地学习
Figure BDA0003242894410000052
中的高阶信息,使用深度图卷积网络(GCN)对其中的各节点特征进行聚合与更新,生成一组新的语义上下文感知的特征向量表示χ={x1,x2,…,x|ν|}。其中,|ν|代表视觉结构化表征
Figure BDA0003242894410000053
中的节点总数目。
具体地,已知各节点的独热编码标签
Figure BDA0003242894410000054
本发明实施例首先使用一个嵌入层将
Figure BDA0003242894410000055
转换为连续向量表示如下:
Figure BDA0003242894410000056
其中,Wo为单词嵌入矩阵,
Figure BDA0003242894410000057
即为转换后的各节点的连续向量表示。
进一步地,本发明实施例提出了一种方向性敏感的图卷积网络,以节点连续向量表示
Figure BDA0003242894410000058
作为输入,可以在充分考虑连接节点之间每个边的方向的情况下,对各节点进行上下文编码,实现各节点特征的聚合与更新。
由于在视觉结构化表征图
Figure BDA0003242894410000059
中,一个节点oi可以充当关系三元组中的“头实体”或“尾实体”,因此存在两种类型的连接边方向ε(oi,oj):oi→oj或oj→oi。考虑到不同边方向的消息传递不同,本发明实施例的图卷积网络针对两种边方向分别使用不同的融合矩阵对节点oi及其邻域的局部信息进行合并,生成语义上下文感知的新的节点特征表示xi
Figure BDA00032428944100000510
其中,N(oi)代表oi的邻域节点集合,|N(oi)|代表oi的邻域节点的总数目;W0
Figure BDA00032428944100000511
为融合矩阵,且
Figure BDA00032428944100000512
随边方向ε(oi,oj)可变;
Figure BDA00032428944100000513
分别为节点oi和oj的连续向量表示;σ为神经网络中常用的ReLU(修正线性单元)激活函数。
203:图像、问题和相应的答案是视觉对话的三个重要组成部分,本发明旨在通过集成图像、问询信息与已知辅助信息(图像描述语句、历史对话信息)来从多个候选项中搜索最匹配的答案。
具体地,定义输入的文本信息集(C,Ht,Qt,Ot);
其中,C为图像描述语句;
Ht={(Qk,Ak),k∈{1,…,t-1}}为t时刻先前的历史问题-答案对;Qt为t时刻的问询信息,特别地,在进行问题的回答预测时Qt为一个问题序列,
Figure BDA00032428944100000514
为相应的多个候选回答项;而在新的问题预测时Qt为一个问答对的级联,此时
Figure BDA00032428944100000515
即为相应的多个候选后续问题项,其中NO(实验数据集中为100)为候选项的总数。
首先,利用长短时记忆网络[3](LSTM)分别编码图像描述语句C、历史对话信息Ht和问询信息Qt为相应的文本特征表示,其中对C、Qt的编码过程如下:
VC=LSTM(EC) (3)
Figure BDA0003242894410000061
式中,EC
Figure BDA0003242894410000062
为LSTM的输入,分别是C、Qt的单词嵌入向量;VC
Figure BDA0003242894410000063
为LSTM 的输出,分别是C、Qt的句子级特征向量表示。
对于历史信息Ht,使用两个独立的LSTM来分别处理其问题序列Qk和回答序列Ak,编码Ht如下:
Figure BDA0003242894410000064
式中,
Figure BDA0003242894410000065
Figure BDA0003242894410000066
分别为Qk和Ak的单词嵌入向量;fH为用于结合Qk和Ak特征表示的一个全连接层;
Figure BDA0003242894410000067
即为最终历史问答对信息Ht的特征向量表示。
进一步地,线性级联VC
Figure BDA0003242894410000068
Figure BDA0003242894410000069
为统一向量
Figure BDA00032428944100000610
通过矩阵分解双线性池化方法MFB[4]实现VU与图卷积网络编码的视觉特征χ={x1,x2,…,x|ν|}的跨模态融合:
Figure BDA00032428944100000611
式中,U、W为可学习的参数矩阵;T、
Figure BDA00032428944100000612
分别表示矩阵的转置和点乘操作。依据融合表示Z,使用软注意力机制对χ中的所有节点特征进行注意力加权更新,得到包含注意力的图像语义上下文感知的视觉特征表示
Figure BDA00032428944100000613
Figure BDA00032428944100000614
Figure BDA00032428944100000615
式中,ωα为可学习参数矩阵;α为生成的归一化注意力分布,其第i个元素αi即为相应节点特征xi的注意力权重;|ν|为图像结构化表征
Figure BDA00032428944100000616
中的节点总数。
204:将候选答案集
Figure BDA00032428944100000617
作为早期输入,同样利用LSTM编码获取Ot中每一个答案序列oi的特征向量表示
Figure BDA00032428944100000618
Figure BDA00032428944100000619
式中,
Figure BDA00032428944100000620
为序列oi的单词嵌入向量。
使用多层感知机(MLP)构建的神经网络分类器将
Figure BDA0003242894410000071
与包含问询及辅助信息的文本特征VU、注意力加权后的图像视觉特征
Figure BDA0003242894410000072
进行联合特征融合和相关性计算,经softmax函数获取初步的各候选答案
Figure BDA0003242894410000073
的输出概率分布:
Figure BDA0003242894410000074
Figure BDA0003242894410000075
式中,[;]表示向量的拼接即级联操作;softmax为归一化指数函数;
Figure BDA0003242894410000076
Figure BDA0003242894410000077
的输出概率分布,pi即为第i个候选项oi的输出概率值。
205:依据初步预测的输出概率分布
Figure BDA0003242894410000078
从原始候选答案集
Figure BDA0003242894410000079
中选取出正确概率较大即与当前问询信息及图像最相关的前top-n(实验设置n为30)个候选项,组成新的候选集
Figure BDA00032428944100000710
Figure BDA00032428944100000711
中的每一个答案序列
Figure BDA00032428944100000712
i∈{1,…,n}与当前问询Qt相结合,在辅助信息图像描述语句C、历史对话信息Ht的共同作用下,对图像语义上下文感知的视觉特征χ={x1,x2,…,x|ν|}进行新的注意力计算:
Figure BDA00032428944100000713
Figure BDA00032428944100000714
式中,
Figure BDA00032428944100000715
为结合了
Figure BDA00032428944100000716
与Qt信息的句子级特征向量;VC
Figure BDA00032428944100000717
分别为C、Ht先前所得的特征向量表示;MFB是跟步骤三中(公式6)相同的多模态双线性池化操作;
Figure BDA00032428944100000718
为可学习参数矩阵,
Figure BDA00032428944100000719
即为
Figure BDA00032428944100000720
引导的归一化注意力分布。对χ中所有节点特征进行注意力加权求和,获取针对
Figure BDA00032428944100000721
对的注意力细化之后的新视觉特征表示
Figure BDA00032428944100000722
Figure BDA00032428944100000723
式中,
Figure BDA00032428944100000724
Figure BDA00032428944100000725
中的第j个元素,即相应节点特征xj的注意力权重;|ν|为视觉结构化表征
Figure BDA00032428944100000726
中的节点总数。将
Figure BDA00032428944100000727
VC
Figure BDA00032428944100000728
以及
Figure BDA00032428944100000729
级联作为MLP的输入进行二次分类,获取最终n个候选项
Figure BDA00032428944100000730
的输出概率分布如下:
Figure BDA00032428944100000731
Figure BDA00032428944100000732
式中,
Figure BDA00032428944100000733
Figure BDA00032428944100000734
中的第i个元素,即相应候选项
Figure BDA00032428944100000735
的输出概率值。依据最终的概率分布
Figure BDA00032428944100000736
完成t时刻问题回答预测或新问题预测时的目标答案的推理选择如下:
Figure BDA0003242894410000081
式中,i*为输出概率值最大的目标答案的索引,则t时刻问题回答预测或新问题预测时的目标答案的语句输出即为
Figure BDA0003242894410000082
实施例3
一种基于上下文级联感知的社交网络跨模态对话装置,参见图3,该装置包括:处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤:
利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。
在一种实施方式中,利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示具体为:
构建一方向性敏感的图卷积网络,以节点连续向量表示
Figure BDA0003242894410000083
作为输入,对各节点进行上下文编码,实现各节点特征的聚合与更新;
图卷积网络针对两种边方向分别使用不同的融合矩阵对节点oi及其邻域的局部信息进行合并,生成语义上下文感知的新的节点特征表示。
在一种实施方式中,基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新具体为:
线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量,通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合;
依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新,得到包含注意力的图像语义上下文感知的视觉特征表示。
优选地,将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布具体为:
使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算,经softmax函数获取初步的各候选答案的输出概率分布。
其中,选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出具体为:
依据初步的输出概率分布,从原始答案集中选取出概率值较大的候选答案项组成新的候选集,将新候选集中每一个答案序列与当前问询相结合,在辅助信息图像描述语句、历史对话信息的共同作用下,对图像语义上下文感知的视觉特征进行新的注意力计算;
对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和,获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示;
将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类,获取最终的输出概率分布。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献:
[1]Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time objectdetection with region proposal networks[C]//Advances in neural informationprocessing systems.2015:91-99.
[2]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graphparsing with global context[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2018:5831-5840.
[3]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8): 1735-1780.
[4]Yu Z,Yu J,Fan J,et al.Multi-modal factorized bilinear pooling withco-attention learning for visual question answering[C]//Proceedings of theIEEE International Conference on Computer Vision.2017:1839-1848.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述方法包括以下步骤:
利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。
2.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示具体为:
构建一方向性敏感的图卷积网络,以节点连续向量表示
Figure FDA0003242894400000011
作为输入,对各节点进行上下文编码,实现各节点特征的聚合与更新;
所述图卷积网络针对两种边方向分别使用不同的融合矩阵对节点oi及其邻域的局部信息进行合并,生成语义上下文感知的新的节点特征表示。
3.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新具体为:
线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量,通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合;
依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新,得到包含注意力的图像语义上下文感知的视觉特征表示。
4.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布具体为:
使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算,经softmax函数获取初步的各候选答案的输出概率分布。
5.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出具体为:
依据初步的输出概率分布,从原始答案集中选取出概率值较大的候选答案项组成新的候选集,将新候选集中每一个答案序列与当前问询相结合,在辅助信息图像描述语句、历史对话信息的共同作用下,对图像语义上下文感知的视觉特征进行新的注意力计算;
对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和,获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示;
将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类,获取最终的输出概率分布。
6.一种基于上下文级联感知的社交网络跨模态对话装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。
CN202111024480.1A 2021-09-02 2021-09-02 基于上下文级联感知的社交网络跨模态对话方法及装置 Active CN113868451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111024480.1A CN113868451B (zh) 2021-09-02 2021-09-02 基于上下文级联感知的社交网络跨模态对话方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111024480.1A CN113868451B (zh) 2021-09-02 2021-09-02 基于上下文级联感知的社交网络跨模态对话方法及装置

Publications (2)

Publication Number Publication Date
CN113868451A true CN113868451A (zh) 2021-12-31
CN113868451B CN113868451B (zh) 2024-06-11

Family

ID=78989113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111024480.1A Active CN113868451B (zh) 2021-09-02 2021-09-02 基于上下文级联感知的社交网络跨模态对话方法及装置

Country Status (1)

Country Link
CN (1) CN113868451B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842368A (zh) * 2022-05-07 2022-08-02 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN115730059A (zh) * 2022-12-08 2023-03-03 安徽建筑大学 视觉问答方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN111460121A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 视觉语义对话方法及系统
CN112163608A (zh) * 2020-09-21 2021-01-01 天津大学 一种基于多粒度语义融合的视觉关系检测方法
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
KR20210056071A (ko) * 2019-11-08 2021-05-18 경기대학교 산학협력단 심층 영상 이해를 이용한 영상 기반 대화 시스템
CN113177112A (zh) * 2021-04-25 2021-07-27 天津大学 基于kr积融合多模态信息的神经网络视觉对话模型及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
KR20210056071A (ko) * 2019-11-08 2021-05-18 경기대학교 산학협력단 심층 영상 이해를 이용한 영상 기반 대화 시스템
CN111460121A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 视觉语义对话方法及系统
CN112163608A (zh) * 2020-09-21 2021-01-01 天津大学 一种基于多粒度语义融合的视觉关系检测方法
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
CN113177112A (zh) * 2021-04-25 2021-07-27 天津大学 基于kr积融合多模态信息的神经网络视觉对话模型及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;: "深度细粒度图像识别研究综述", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2019 (2019-11-28) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842368A (zh) * 2022-05-07 2022-08-02 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN114842368B (zh) * 2022-05-07 2023-10-03 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN115730059A (zh) * 2022-12-08 2023-03-03 安徽建筑大学 视觉问答方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113868451B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
US20220180202A1 (en) Text processing model training method, and text processing method and apparatus
CN111897940B (zh) 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN112069302A (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
WO2021238333A1 (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
CN111930894B (zh) 长文本匹配方法及装置、存储介质、电子设备
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
CN111444399B (zh) 回复内容的生成方法、装置、设备及可读存储介质
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN113868451B (zh) 基于上下文级联感知的社交网络跨模态对话方法及装置
CN118246537B (zh) 基于大模型的问答方法、装置、设备及存储介质
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113240115A (zh) 一种生成人脸变化图像模型的训练方法及相关装置
CN114547244A (zh) 用于确定信息的方法和装置
CN114330704A (zh) 语句生成模型更新方法、装置、计算机设备和存储介质
CN115422388B (zh) 一种视觉对话方法及系统
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
CN116521832A (zh) 对话交互方法、装置及系统、电子设备和存储介质
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN114970494A (zh) 一种评论生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant