CN113868451A - 基于上下文级联感知的社交网络跨模态对话方法及装置 - Google Patents
基于上下文级联感知的社交网络跨模态对话方法及装置 Download PDFInfo
- Publication number
- CN113868451A CN113868451A CN202111024480.1A CN202111024480A CN113868451A CN 113868451 A CN113868451 A CN 113868451A CN 202111024480 A CN202111024480 A CN 202111024480A CN 113868451 A CN113868451 A CN 113868451A
- Authority
- CN
- China
- Prior art keywords
- visual
- context
- feature
- answer
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000008447 perception Effects 0.000 title claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 107
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims abstract description 14
- 230000004931 aggregating effect Effects 0.000 claims abstract description 9
- 230000007787 long-term memory Effects 0.000 claims abstract description 8
- 230000002195 synergetic effect Effects 0.000 claims abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于上下文级联感知的社交网络跨模态对话方法及装置,方法包括:利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。装置包括:处理器和存储器。本发明提高了视觉问答的准确度。
Description
技术领域
本发明涉及社交网络领域,尤其涉及一种基于上下文级联感知的社交网络跨模态对话方法及装置。
背景技术
视觉对话系统作为一种智能人机交互的重要方式,受到了越来越多的关注。在视觉对话系统中,用户可以向聊天机器人发送图片,并基于图片内容与聊天机器人展开多轮“提问-回答”的对话,起到信息交流和问题解答的作用。视觉对话系统在传统对话系统的基础之上,引入了丰富的图像信息,从而能够更广泛地应用到社交网络等包含多元信息的复杂场景中。
然而,在现有的视觉对话系统中还存在着以下问题:大多数视觉对话系统中往往只关注了图片内容的整体或部分显著区域信息,忽略了对图像不同内容之间的上下文语义关联,从而不能在多轮对话中结构化地理解并关注到多个图像内容的关系。
事实上,用户在多轮视觉问答中会更倾向于根据图像内容的上下文信息进行提问,因此在视觉对话系统中对图像内容进行结构化表征和理解是值得研究的。
发明内容
本发明提供了一种基于上下文级联感知的社交网络跨模态对话方法及装置,本发明对图像内容进行结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,提高视觉问答的准确度,提高了关于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性,详见下文描述:
第一方面,一种基于上下文级联感知的社交网络跨模态对话方法,所述方法包括以下步骤:
利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。
在一种实施方式中,所述利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示具体为:
所述图卷积网络针对两种边方向分别使用不同的融合矩阵对节点oi及其邻域的局部信息进行合并,生成语义上下文感知的新的节点特征表示。
在一种实施方式中,所述基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新具体为:
线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量,通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合;
依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新,得到包含注意力的图像语义上下文感知的视觉特征表示。
优选地,所述将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布具体为:
使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算,经 softmax函数获取初步的各候选答案的输出概率分布。
其中,所述选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出具体为:
依据初步的输出概率分布,从原始答案集中选取出概率值较大的候选答案项组成新的候选集,将新候选集中每一个答案序列与当前问询相结合,在辅助信息图像描述语句、历史对话信息的共同作用下,对图像语义上下文感知的视觉特征进行新的注意力计算;
对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和,获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示;
将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类,获取最终的输出概率分布。
第二方面,一种基于上下文级联感知的社交网络跨模态对话装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统,对视觉内容进行结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,提高视觉问答的准确率;
2、本发明提高了基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。
附图说明
图1为一种基于上下文级联感知的社交网络跨模态对话方法的流程图;
图2为一种基于上下文级联感知的社交网络跨模态对话方法的框架图;
图3为一种基于上下文级联感知的社交网络跨模态对话装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了解决背景技术中存在的问题,本发明实施例开发了既能视觉问题回答又能视觉问题产生的对话系统,通过构建视觉内容的结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,更好地实现准确且多样化的问题回答及新问题预测,提高基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。
实施例1
一种基于上下文级联感知的社交网络跨模态对话方法,参见图1和图2,该方法包括以下步骤:
步骤101:检测图像中的视觉实体与视觉关系,构建图像对应的视觉结构化表征;
步骤102:利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
步骤103:基于长短时记忆网络,编码问询信息与已知辅助信息(图像描述语句、历史对话信息)为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
步骤104:将所得文本特征、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
步骤105:选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对其进行再排序,获取最终概率值最大的目标答案的语句输出。
综上所述,本发明实施例通过上述步骤101-步骤105实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统,对视觉内容进行结构化表征,将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程,提高视觉问答的准确率。
实施例2
下面结合具体的计算公式、图1和图2,实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:已知视觉图像,利用目标检测器提取图像中的实体信息,利用关系分类器提取实体之间的复杂关系语义信息;将实体作为节点,关系作为连接成对实体节点的有向边,构建视觉结构化表征图其中ν和ε分别是节点和边的集合。
具体地,给定图像I,使用FasterR-CNN[1]检测图像I中的视觉实体,并将提取的视觉实体特征输入到MOTIFS[2]关系分类器中以进行实体之间的关系分类。在获取一系列视觉实体o以及关系r后,定义oi为第i个视觉实体,rij为视觉实体oi与oj之间的关系,其中oi和rij分别对应独热编码的标签和表示。
202:在获取图像的视觉结构化表征之后,为了有效地学习中的高阶信息,使用深度图卷积网络(GCN)对其中的各节点特征进行聚合与更新,生成一组新的语义上下文感知的特征向量表示χ={x1,x2,…,x|ν|}。其中,|ν|代表视觉结构化表征中的节点总数目。
由于在视觉结构化表征图中,一个节点oi可以充当关系三元组中的“头实体”或“尾实体”,因此存在两种类型的连接边方向ε(oi,oj):oi→oj或oj→oi。考虑到不同边方向的消息传递不同,本发明实施例的图卷积网络针对两种边方向分别使用不同的融合矩阵对节点oi及其邻域的局部信息进行合并,生成语义上下文感知的新的节点特征表示xi:
其中,N(oi)代表oi的邻域节点集合,|N(oi)|代表oi的邻域节点的总数目;W0、为融合矩阵,且随边方向ε(oi,oj)可变;分别为节点oi和oj的连续向量表示;σ为神经网络中常用的ReLU(修正线性单元)激活函数。
203:图像、问题和相应的答案是视觉对话的三个重要组成部分,本发明旨在通过集成图像、问询信息与已知辅助信息(图像描述语句、历史对话信息)来从多个候选项中搜索最匹配的答案。
具体地,定义输入的文本信息集(C,Ht,Qt,Ot);
其中,C为图像描述语句;
Ht={(Qk,Ak),k∈{1,…,t-1}}为t时刻先前的历史问题-答案对;Qt为t时刻的问询信息,特别地,在进行问题的回答预测时Qt为一个问题序列,为相应的多个候选回答项;而在新的问题预测时Qt为一个问答对的级联,此时即为相应的多个候选后续问题项,其中NO(实验数据集中为100)为候选项的总数。
首先,利用长短时记忆网络[3](LSTM)分别编码图像描述语句C、历史对话信息Ht和问询信息Qt为相应的文本特征表示,其中对C、Qt的编码过程如下:
VC=LSTM(EC) (3)
对于历史信息Ht,使用两个独立的LSTM来分别处理其问题序列Qk和回答序列Ak,编码Ht如下:
式中,为结合了与Qt信息的句子级特征向量;VC、分别为C、Ht先前所得的特征向量表示;MFB是跟步骤三中(公式6)相同的多模态双线性池化操作;为可学习参数矩阵,即为引导的归一化注意力分布。对χ中所有节点特征进行注意力加权求和,获取针对对的注意力细化之后的新视觉特征表示
实施例3
一种基于上下文级联感知的社交网络跨模态对话装置,参见图3,该装置包括:处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤:
利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。
在一种实施方式中,利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示具体为:
图卷积网络针对两种边方向分别使用不同的融合矩阵对节点oi及其邻域的局部信息进行合并,生成语义上下文感知的新的节点特征表示。
在一种实施方式中,基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新具体为:
线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量,通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合;
依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新,得到包含注意力的图像语义上下文感知的视觉特征表示。
优选地,将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布具体为:
使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算,经softmax函数获取初步的各候选答案的输出概率分布。
其中,选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出具体为:
依据初步的输出概率分布,从原始答案集中选取出概率值较大的候选答案项组成新的候选集,将新候选集中每一个答案序列与当前问询相结合,在辅助信息图像描述语句、历史对话信息的共同作用下,对图像语义上下文感知的视觉特征进行新的注意力计算;
对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和,获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示;
将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类,获取最终的输出概率分布。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献:
[1]Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time objectdetection with region proposal networks[C]//Advances in neural informationprocessing systems.2015:91-99.
[2]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graphparsing with global context[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2018:5831-5840.
[3]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8): 1735-1780.
[4]Yu Z,Yu J,Fan J,et al.Multi-modal factorized bilinear pooling withco-attention learning for visual question answering[C]//Proceedings of theIEEE International Conference on Computer Vision.2017:1839-1848.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述方法包括以下步骤:
利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新,获取上下文感知的视觉特征表示;
基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新;
将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布;
选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出。
3.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述基于长短时记忆网络,编码问询信息与已知辅助信息为相应的文本特征表示,用于引导上下文感知的视觉特征的注意力加权更新具体为:
线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量,通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合;
依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新,得到包含注意力的图像语义上下文感知的视觉特征表示。
4.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算,获取初步的各候选答案的输出概率分布具体为:
使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算,经softmax函数获取初步的各候选答案的输出概率分布。
5.根据权利要求1所述的一种基于上下文级联感知的社交网络跨模态对话方法,其特征在于,所述选取正确概率高的答案,在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序,获取最终概率值最大的目标答案的语句输出具体为:
依据初步的输出概率分布,从原始答案集中选取出概率值较大的候选答案项组成新的候选集,将新候选集中每一个答案序列与当前问询相结合,在辅助信息图像描述语句、历史对话信息的共同作用下,对图像语义上下文感知的视觉特征进行新的注意力计算;
对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和,获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示;
将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类,获取最终的输出概率分布。
6.一种基于上下文级联感知的社交网络跨模态对话装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111024480.1A CN113868451B (zh) | 2021-09-02 | 2021-09-02 | 基于上下文级联感知的社交网络跨模态对话方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111024480.1A CN113868451B (zh) | 2021-09-02 | 2021-09-02 | 基于上下文级联感知的社交网络跨模态对话方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113868451A true CN113868451A (zh) | 2021-12-31 |
CN113868451B CN113868451B (zh) | 2024-06-11 |
Family
ID=78989113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111024480.1A Active CN113868451B (zh) | 2021-09-02 | 2021-09-02 | 基于上下文级联感知的社交网络跨模态对话方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868451B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN115730059A (zh) * | 2022-12-08 | 2023-03-03 | 安徽建筑大学 | 视觉问答方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
CN110647612A (zh) * | 2019-09-18 | 2020-01-03 | 合肥工业大学 | 一种基于双视觉注意力网络的视觉对话生成方法 |
CN111460121A (zh) * | 2020-03-31 | 2020-07-28 | 苏州思必驰信息科技有限公司 | 视觉语义对话方法及系统 |
CN112163608A (zh) * | 2020-09-21 | 2021-01-01 | 天津大学 | 一种基于多粒度语义融合的视觉关系检测方法 |
CN112256904A (zh) * | 2020-09-21 | 2021-01-22 | 天津大学 | 一种基于视觉描述语句的图像检索方法 |
KR20210056071A (ko) * | 2019-11-08 | 2021-05-18 | 경기대학교 산학협력단 | 심층 영상 이해를 이용한 영상 기반 대화 시스템 |
CN113177112A (zh) * | 2021-04-25 | 2021-07-27 | 天津大学 | 基于kr积融合多模态信息的神经网络视觉对话模型及方法 |
-
2021
- 2021-09-02 CN CN202111024480.1A patent/CN113868451B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
CN110647612A (zh) * | 2019-09-18 | 2020-01-03 | 合肥工业大学 | 一种基于双视觉注意力网络的视觉对话生成方法 |
KR20210056071A (ko) * | 2019-11-08 | 2021-05-18 | 경기대학교 산학협력단 | 심층 영상 이해를 이용한 영상 기반 대화 시스템 |
CN111460121A (zh) * | 2020-03-31 | 2020-07-28 | 苏州思必驰信息科技有限公司 | 视觉语义对话方法及系统 |
CN112163608A (zh) * | 2020-09-21 | 2021-01-01 | 天津大学 | 一种基于多粒度语义融合的视觉关系检测方法 |
CN112256904A (zh) * | 2020-09-21 | 2021-01-22 | 天津大学 | 一种基于视觉描述语句的图像检索方法 |
CN113177112A (zh) * | 2021-04-25 | 2021-07-27 | 天津大学 | 基于kr积融合多模态信息的神经网络视觉对话模型及方法 |
Non-Patent Citations (1)
Title |
---|
邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;: "深度细粒度图像识别研究综述", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2019 (2019-11-28) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN114842368B (zh) * | 2022-05-07 | 2023-10-03 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN115730059A (zh) * | 2022-12-08 | 2023-03-03 | 安徽建筑大学 | 视觉问答方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113868451B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
CN111897940B (zh) | 视觉对话方法、视觉对话模型的训练方法、装置及设备 | |
CN112069302A (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN113762322A (zh) | 基于多模态表示的视频分类方法、装置和设备及存储介质 | |
WO2021238333A1 (zh) | 一种文本处理网络、神经网络训练的方法以及相关设备 | |
CN111930894B (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN111444399B (zh) | 回复内容的生成方法、装置、设备及可读存储介质 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113868451B (zh) | 基于上下文级联感知的社交网络跨模态对话方法及装置 | |
CN118246537B (zh) | 基于大模型的问答方法、装置、设备及存储介质 | |
US20240037335A1 (en) | Methods, systems, and media for bi-modal generation of natural languages and neural architectures | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN113240115A (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
CN114547244A (zh) | 用于确定信息的方法和装置 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 | |
CN116521832A (zh) | 对话交互方法、装置及系统、电子设备和存储介质 | |
CN114417891B (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN114970494A (zh) | 一种评论生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |