CN113553418A - 一种基于多模态学习的视觉对话生成方法及装置 - Google Patents
一种基于多模态学习的视觉对话生成方法及装置 Download PDFInfo
- Publication number
- CN113553418A CN113553418A CN202110848206.XA CN202110848206A CN113553418A CN 113553418 A CN113553418 A CN 113553418A CN 202110848206 A CN202110848206 A CN 202110848206A CN 113553418 A CN113553418 A CN 113553418A
- Authority
- CN
- China
- Prior art keywords
- information
- visual
- text
- modal
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000004927 fusion Effects 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000009469 supplementation Effects 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 46
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012916 structural analysis Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 8
- 239000010410 layer Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000000576 supplementary effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000384 rearing effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多模态学习的视觉对话生成方法及装置,方法包括:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。装置包括:处理器和存储器。本发明采用多模态信息交互,对文本和视觉信息发掘细粒度关系信息。
Description
技术领域
本发明涉及多模态细粒度信息语义理解,以及视觉对话生成领域,尤其涉及一种基于多模态学习的视觉对话生成方法及装置。
背景技术
随着视觉理解和自然语言处理领域的蓬勃发展,使得视觉与语言层面进行交互的多模态视觉对话生成受到了广泛关注。智能体用自然语言依据图像和以往的对话记录来回答人类提出的一系列问题。在这个过程中,智能体需要充分理解对话中细粒度语义信息并将其与视觉内容进行对齐,融合已知的多模态信息生成最终的推理答案。如何从文本与视觉信息中挖掘到与问题相关的语义信息一直是研究的重点。为了推动研究进程,VISDIALV1.0数据集被提出[1],这也是该领域被广泛认可的数据集。
在现有的方法中,研究者们将目光投向如何用文本语义信息来引导视觉语义信息,这是因为问题中可能存在代词,若代词指代关系未知,那就无法准确定位到图像中的目标区域,故需要上下文来进行指代关系的确定。已有的框架像DAN[2]、RAA-Net[3]都是先用问题引导并提取相关历史对话信息,将其进行融合后对图像相关区域进行定位,由提取出的文本与视觉共同推导答案,整个流程中多模态信息交互是非常重要的。但是上述框架提取出的历史对话信息是整个问答对,其中像是语法结构等冗余内容可能不会推动答案生成甚至损害推理结果;并且图像定位区域可能存在大量噪声,若直接提取细粒度视觉特征,噪声也会对推理产生负面影响,多模态信息中的目标关系不明晰。除此之外,对原始模态相关信息的提取仍存在许多能够提升和改进的策略。
尽管已经有人在视觉对话生成领域取得一系列进展[4,5,6,7],但是仍然没有引入细粒度的结构化表征信息的框架,忽略了目标关系信息对于推理的作用。主流的方法仍是对原始信息进行特征提取与融合的操作,冗余信息和噪声无法被有效剔除。基于此研究现状,目前面临的挑战主要有以下三个方面:
1、如何从原始多模态信息中抽取出无冗余去噪的目标关系结构化表征形式;
2、如何使得原始信息与多模态结构化表征进行深度语义互补;
3、如何更加有效地选取出与当前问题密切相关的对话历史信息和图像区域信息。
发明内容
本发明提供了一种基于多模态学习的视觉对话生成方法及装置,本发明从视觉和文本上挖掘精简的语义信息,并由“主体-关系-客体”三元组构建成的图进行目标关系结构化表征;在文本信息处理阶段,将初始的视觉描述信息融合到历史对话的各个回合中进行全局化语义补充,从而精细化当前问题对于各个回合的关注度;在视觉信息处理阶段,将处理的文本信息融入到每个视觉区域中进行语义对齐,整个过程中多模态信息交互,智能体对文本和视觉信息进一步发掘细粒度关系信息,详见下文描述:
第一方面,一种基于多模态学习的视觉对话生成方法,所述方法包括以下步骤:
1)利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。
其中,在步骤1)之前,所述方法还包括:
解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再进行向量嵌入。
进一步地,所述解析文本信息语法结构具体为:
根据文本信息语法结构及性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
在一种实施方式中,所述视觉信息目标关系具体为:由目标检测、关系识别、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
其中,所述将多模态问题相关信息进行融合包括:文本核心信息融合和视觉核心信息融合,
文本核心信息融合,将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和,并利用神经网络更新;
视觉核心信息融合,定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全;选择双层视觉自注意力机制进行各视觉向量的挑选,将各个向量进行加权求和之后得到视觉融合信息。
进一步地,所述方法还包括:
通过视觉文本信息联合嵌入融合文本与视觉信息,同时引入细粒度的关系结构化表征进行语义补充和优化。
第二方面,一种基于多模态学习的视觉对话生成装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明将文本信息中隐藏的关系信息进行了深度挖掘,并以三元组构成图的形式进行结构化表征以取代原始文本信息的整体嵌入表征,遏制其中冗余的语义信息,保留最精简的目标关系信息,这是被现有的方法所忽略的部分;本发明关注自然语言本身的性质,使得文本语义得到完整提取和保留,有效提升当前问题的答案生成精度;
2、本发明将视觉信息中的显著性目标进行检测,并将目标间的关系进行精确推导。现有方法仅仅是单纯将图片进行全局或局部特征提取,并未考虑到视觉信息中存在大量的细粒度的目标关系,而这些关系信息极有可能有助于推理;本发明关注视觉目标的关系检测,去除图片中对答案推理产生语义偏置的冗余信息,精细化推理过程;
3、本发明设计了一种语义补充自注意力机制,在每种模态信息处理的过程中,利用其中最关键的信息首先对其他信息进行全局上下文信息语义补充,再使得问题信息通过自注意力机制进行相关信息的引导和提取,现有方法忽视了关键信息的补全作用,仅仅将相关信息进行选取而忽略其语义并不完整的缺陷,无法最大化信息本身对于推理的作用;本发明设计全新的语义补充架构,充分利用关键模态信息的补全作用,保证提取出的文本特征和视觉特征本身存在完整且饱满的语义信息,深入理解多模态信息中的内容,使得生成答案更加契合问题。
附图说明
图1为基于多模态关系结构化表征和语义互补的视觉对话生成方法的流程图;
图2为文本信息与视觉信息生成三元组关系结构化表征的示意图;
图3为基于多模态关系结构化表征和语义互补的视觉对话生成方法的总框架;
图4为一种基于多模态学习的视觉对话生成装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于多模态学习的视觉对话生成方法,参见图1,该方法包括以下步骤:
101:对文本信息使用LSTM(长短期记忆人工神经网络)进行文本向量嵌入,对视觉信息用Faster-RCNN(快速区域图卷积特征提取器)进行区域特征提取,获得文本与视觉特征;
102:解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再用ELMo向量进行嵌入;
现有方法并未注意到文本中隐藏的大量关系信息值得被发掘,也并未注意视觉信息中显著性目标之间存在的隐式关系。本方法基于这两点出发,针对不同模态的不同特性进行关系的结构化表征,优化模态间的语义对齐。
103:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
本发明实施例在问题信息引导的过程中,有效利用了关键信息对于回合或者区域的补充作用,使得提取出的问题相关信息更加完备,有助于答案推理。
104:用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
105:将步骤103中得到的精简历史信息、精简视觉信息、步骤104中得到的多模态问题相关信息进行特征融合;
106:最终将特征融合信息送入解码器中推理得到与当前问题相关的答案。
综上所述,本发明实施多模态关系结构化表征和语义互补的视觉对话生成方法,优化了数据预处理流程,并设计了全新的网络架构,提高了推理答案的精确度;本发明利用文本与视觉的关系结构化表征对原本信息流进行语义增强,提高了视觉对话对于当前问题的推理能力。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:对文本信息使用LSTM进行文本向量嵌入,对视觉信息用Faster-RCNN进行区域特征提取,获得文本与视觉特征;
对于文本信息,将每个历史回合的问答对进行整合,以回合为单位送入LSTM进行向量嵌入,每个回合的文本信息被编码成一个向量,历史对话信息可表示为H={QA1,QA2,QA3,…,QAm},当前问题也进行上述操作得到问题信息向量Q,QAm表示第m个问答对;对于视觉信息,使用Faster-RCNN进行目标检测,得到n组区域特征V={v1,v2,v3,…,vn},vn表示第n个视觉区域。
202:解析文本信息语法结构,识别视觉信息目标关系,获得文本与视觉的三元组结构化表征,再用ELMo向量进行嵌入;
根据文本信息语法结构及其性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入四阶段完成;视觉结构化表征由目标检测、关系识别、ELMo词向量表征嵌入三阶段完成,得到“主体-关系-客体”形式的多个关系三元组,去掉了冗余信息和区域噪声,更精确推导最终答案。
关系结构化表征即:首先利用正则表达式将每个回合的问答对转换成陈述句,方便后续处理,例如:“问:李华养了宠物吗?答:是的,最近我看到她养了一只狗。”可以转化为“李华养了一只宠物狗”;再进行共指消解,目的是将代词替换成语义相同的名词,此时已经得到语义完整的各回合语句,例如:“李华养了一只宠物狗。它非常讨人喜欢”转换为“李华养了一只宠物狗。李华的宠物狗非常讨人喜欢”;然后利用文本语义结构化解析模块进行语义结构化解析,得到多组关系三元组,例如:“李华养了一只带斑点的宠物狗,宠物狗对李华很顺从”,可以转换为“李华-养-宠物狗,宠物狗-带-斑点,宠物狗-顺从-李华”;最终将三元组的各元素用ELMo词向量进行256维的嵌入,例如:“李华”可以转化为一个长度为256的向量,最终完成文本信息结构化表征。
由于图像中存在许多显著性目标,使用目标检测框架先将图像中的主要目标进行检测并识别,再从各个目标本身的固有属性进一步推断出它们之间存在的关系,同样以语义对齐的文字三元组形式进行表示,这是一个降噪去冗余的过程,例如:图2中主要目标是人与天空等对象,将其用检测框标出,通过神经网络来两两推断他们之间的关系,表示为“男人-跳-半空中”的形式。最终用ELMo词向量进行长度256的嵌入,完成视觉信息结构化表征。
203:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,再提取与文本信息相关的视觉区域信息,将多模态问题相关信息进行融合,作为答案推理的重要元素;
为了有效处理步骤201中预处理得到的多模态特征,本发明实施例设计了一种双阶段多模态关键信息融合模块,包含:文本核心信息融合阶段和视觉核心信息融合阶段。在文本核心信息融合阶段,因为图像描述C中包含图像中显著的大部分总结性信息,故以其作为关键信息,与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和得到HC,利用神经网络更新得到
其中,WH表示处理原历史对话信息HC的全连接层的参数,sigmoid表示激活函数。同样地,问题向量Q也进行类似的处理:
在视觉信息融合阶段,由于问题信息中可能存在代词,而且缺少上下文信息,所以不能直接用问题信息进行视觉区域的筛选,此时可以定义第一阶段的文本融合信息作为关键信息来融合各个视觉区域向量进行上下文语义补全。视觉特征本身就蕴含大量信息,并且还结合了文本特征,若仅依靠单层自注意力机制可能无法挖掘深层微妙语义,故选择双层视觉自注意力机制进行各视觉向量的精细化挑选,在将各个向量进行加权求和之后得到视觉融合信息
为了进一步融合文本与视觉信息,进行视觉文本信息联合嵌入:
其中,是当前问题、相关历史对话回合、相关视觉区域的多模态融合信息,有一定推理答案的能力,relu是激活函数,WQHV1和WQHV2为全连接层参数。但是由于它是粗粒度的,为了进一步精细化推理过程,本发明实施例引入细粒度的关系结构化表征进一步补充和优化。
204:用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
考虑到生成多模态结构化表征的过程中可能存在着的信息损失,本发明实施例将步骤203中得到的文本融合信息和视觉融合信息对其进行语义补全。先后融合视觉和文本信息,再用问题信息对两模态结构化表征中的多个三元组进行加权求和,得到对话三元组融合信息和视觉三元组融合信息
205:将精简历史信息、精简视觉信息、多模态问题相关信息进行特征融合;
最终将三股数据流中的信息进行整合,得到最终的多模态答案推理信息R:
其中,多模态答案推理信息R能更加精确地进行答案推理,至此完成编码部分。
206:最终将特征融合信息与问题信息进行再融合,送入解码器中推理得到答案。
本发明实施例通过问题信息的全局化引导,确保能从多模态信息中提取出有利于答案推理的信息,更能满足实际场景的需求,得到更加契合问题与图像内容的答案。本发明实施例提出的一种基于多模态学习的视觉对话生成方法具有超过当前主流方法的良好性能,能够充分理解多模态语义信息从而对视觉对话生成较强的答案推理能力。
基于同一发明构思,本发明实施例还提供了一种基于多模态学习的视觉对话生成装置,参见图4,该装置包括:处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤:
1)利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。
其中,在步骤1)之前,还包括:
解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再进行向量嵌入。
进一步地,解析文本信息语法结构具体为:
根据文本信息语法结构及性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
在一种实施方式中,视觉信息目标关系具体为:
由目标检测、关系识别、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
其中,将多模态问题相关信息进行融合包括:文本核心信息融合和视觉核心信息融合,
文本核心信息融合,将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和,并利用神经网络更新;
视觉核心信息融合,定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全;选择双层视觉自注意力机制进行各视觉向量的挑选,将各个向量进行加权求和之后得到视觉融合信息。
进一步地,该装置还包括:
通过视觉文本信息联合嵌入融合文本与视觉信息,同时引入细粒度的关系结构化表征进行语义补充和优化。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献:
[1]Das A,Kottur S,Gupta K,et al.Visual Dialog[C],2017IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR).IEEE.2017.
[2]Kang G C,J Lim,Zhang B T.Dual Attention Networks for VisualReference Resolution in Visual Dialog[C].2019.
[3]Guo D,Wang H,Wang S,et al.Textual-Visual Reference-Aware AttentionNetwork for Visual Dialog[J].IEEE Transactions on Image Processing,2020,PP(99):1-1.
[4]Guo D,Wang H,Zhang H,et al.Iterative Context-Aware Graph Inferencefor Visual Dialog[C]2020 IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).IEEE,2020.
[5]Zheng Z,Wang W,Qi S,et al.Reasoning Visual Dialogs with Structuraland Partial Observations[C]2019IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2019.
[6]Jiasen Lu,Anitha Kannan,Jianwei Yang,et al.Best of Both Worlds:Transferring Knowledge from Discriminative Learning to a Generative VisualDialog Model.NIPS 2017:314-324
[7]Wu Q,Wang P,Shen C,et al.Are You Talking to Me?Reasoned VisualDialog Generation through Adversarial Learning[J].CVPR 2018.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多模态学习的视觉对话生成方法,其特征在于,所述方法包括以下步骤:
1)利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。
2.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,在步骤1)之前,所述方法还包括:
解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再进行向量嵌入。
3.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述解析文本信息语法结构具体为:
根据文本信息语法结构及性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
4.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述视觉信息目标关系具体为:
由目标检测、关系识别、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
5.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述将多模态问题相关信息进行融合包括:文本核心信息融合和视觉核心信息融合,
文本核心信息融合,将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和,并利用神经网络更新;
视觉核心信息融合,定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全;选择双层视觉自注意力机制进行各视觉向量的挑选,将各个向量进行加权求和之后得到视觉融合信息。
6.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述方法还包括:
通过视觉文本信息联合嵌入融合文本与视觉信息,同时引入细粒度的关系结构化表征进行语义补充和优化。
7.一种基于多模态学习的视觉对话生成装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110848206.XA CN113553418B (zh) | 2021-07-27 | 2021-07-27 | 一种基于多模态学习的视觉对话生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110848206.XA CN113553418B (zh) | 2021-07-27 | 2021-07-27 | 一种基于多模态学习的视觉对话生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553418A true CN113553418A (zh) | 2021-10-26 |
CN113553418B CN113553418B (zh) | 2023-06-02 |
Family
ID=78104528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110848206.XA Active CN113553418B (zh) | 2021-07-27 | 2021-07-27 | 一种基于多模态学习的视觉对话生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553418B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
CN115438170A (zh) * | 2022-11-09 | 2022-12-06 | 北京红棉小冰科技有限公司 | 一种对话模型生成、应用方法、系统、设备及存储介质 |
CN115545004A (zh) * | 2022-09-27 | 2022-12-30 | 北京有竹居网络技术有限公司 | 导航方法、装置和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100278420A1 (en) * | 2009-04-02 | 2010-11-04 | Siemens Corporation | Predicate Logic based Image Grammars for Complex Visual Pattern Recognition |
BR112018073693A2 (pt) * | 2016-05-18 | 2019-02-26 | Apple Inc | dispositivos, métodos, e interfaces gráficas de usuário para mensagens |
CN110598573A (zh) * | 2019-08-21 | 2019-12-20 | 中山大学 | 一种基于多域异质图引导的视觉问题常识推理模型及方法 |
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
CN110647612A (zh) * | 2019-09-18 | 2020-01-03 | 合肥工业大学 | 一种基于双视觉注意力网络的视觉对话生成方法 |
CN111460121A (zh) * | 2020-03-31 | 2020-07-28 | 苏州思必驰信息科技有限公司 | 视觉语义对话方法及系统 |
US20210150118A1 (en) * | 2019-11-15 | 2021-05-20 | Salesforce.Com, Inc. | Bi-Directional Spatial-Temporal Reasoning for Video-Grounded Dialogues |
-
2021
- 2021-07-27 CN CN202110848206.XA patent/CN113553418B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100278420A1 (en) * | 2009-04-02 | 2010-11-04 | Siemens Corporation | Predicate Logic based Image Grammars for Complex Visual Pattern Recognition |
BR112018073693A2 (pt) * | 2016-05-18 | 2019-02-26 | Apple Inc | dispositivos, métodos, e interfaces gráficas de usuário para mensagens |
CN110598573A (zh) * | 2019-08-21 | 2019-12-20 | 中山大学 | 一种基于多域异质图引导的视觉问题常识推理模型及方法 |
CN110609891A (zh) * | 2019-09-18 | 2019-12-24 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
CN110647612A (zh) * | 2019-09-18 | 2020-01-03 | 合肥工业大学 | 一种基于双视觉注意力网络的视觉对话生成方法 |
US20210150118A1 (en) * | 2019-11-15 | 2021-05-20 | Salesforce.Com, Inc. | Bi-Directional Spatial-Temporal Reasoning for Video-Grounded Dialogues |
CN111460121A (zh) * | 2020-03-31 | 2020-07-28 | 苏州思必驰信息科技有限公司 | 视觉语义对话方法及系统 |
Non-Patent Citations (2)
Title |
---|
AN-AN LIU: "Adaptively Clustering-Driven Learning for Visual Relationship Detection", IEEE TRANSACTIONS ON MULTIMEDIA * |
AN-AN LIU: "Semantic and Context Information Fusion Network for View-Based 3D Model Classification and Retrieval", IEEE ACCESS * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
CN115545004A (zh) * | 2022-09-27 | 2022-12-30 | 北京有竹居网络技术有限公司 | 导航方法、装置和电子设备 |
CN115438170A (zh) * | 2022-11-09 | 2022-12-06 | 北京红棉小冰科技有限公司 | 一种对话模型生成、应用方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113553418B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112000818B (zh) | 一种面向文本和图像的跨媒体检索方法及电子装置 | |
CN113553418B (zh) | 一种基于多模态学习的视觉对话生成方法及装置 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111581361A (zh) | 一种意图识别方法及装置 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
Islam et al. | Exploring video captioning techniques: A comprehensive survey on deep learning methods | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
Li et al. | Intention understanding in human–robot interaction based on visual-NLP semantics | |
Deb et al. | Variational stacked local attention networks for diverse video captioning | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话系统 | |
CN115909374B (zh) | 一种信息识别方法、装置、设备及存储介质、程序产品 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN115017356A (zh) | 图像文本对的判断方法和装置 | |
Phuc et al. | Video captioning in Vietnamese using deep learning | |
CN117746441B (zh) | 一种视觉语言理解方法、装置、设备及可读存储介质 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 | |
CN115081459B (zh) | 口语文本生成方法、装置、设备及存储介质 | |
CN116702094B (zh) | 一种群体应用偏好特征表示方法 | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |