CN113435399A - 一种基于多层次排序学习的多轮视觉对话方法 - Google Patents

一种基于多层次排序学习的多轮视觉对话方法 Download PDF

Info

Publication number
CN113435399A
CN113435399A CN202110793167.8A CN202110793167A CN113435399A CN 113435399 A CN113435399 A CN 113435399A CN 202110793167 A CN202110793167 A CN 202110793167A CN 113435399 A CN113435399 A CN 113435399A
Authority
CN
China
Prior art keywords
representing
visual
text
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110793167.8A
Other languages
English (en)
Other versions
CN113435399B (zh
Inventor
高联丽
陈堂明
李向鹏
宋井宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110793167.8A priority Critical patent/CN113435399B/zh
Publication of CN113435399A publication Critical patent/CN113435399A/zh
Application granted granted Critical
Publication of CN113435399B publication Critical patent/CN113435399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多层次排序学习的多轮视觉对话方法,提出了上下文控制门机制,自适应地赋予对话历史信息权重以回答当前的问题,避免了盲目使用对话历史信息造成的冗余信息。同时本发明设计了多层次排序学习模块,将所有选项划分为3个层次,提升了与正确答案语义相近但是没有被标注为正确答案的选项的排名,从而提升了模型的泛化能力。

Description

一种基于多层次排序学习的多轮视觉对话方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于多层次排序学习的多轮视觉对话方法的设计。
背景技术
随着视觉和语言交互领域的快速发展,多轮视觉对话方法在近些年得到了广泛的关注和巨大的进步。作为传统视觉问答方法的一个分支,多轮视觉对话方法是围绕着给定的图片进行多轮对话,它的重心在于分析当前问题和对话历史信息之间的关系,并用于支持问题回答,在现实中具有广泛的应用,例如视障人士的视觉助理,协助分析人员的大数据分析助手,搜寻和救援助手等。相比较于传统的视觉问答,多轮视觉对话不仅要考虑到当前的问题和视觉信息,还需要考虑到之前的对话历史信息,通过这三种信息的结合与分析推理,最后进行回答问题。因此,完成这个任务需要多个技术领域支撑,例如对于视觉信息分析的目标检测,对于问题和对话历史信息推理的共同指代推理,以及文本信息和视觉信息融合的多模态推理等。正因为方法涉及技术领域较多,方法复杂性高,它目前是多媒体智能方面一个亟待解决的问题。
目前对于多轮视觉问答方法的研究主要集中在解决当前问题和对话历史信息之间的共同指代。因为该任务是多轮对话的形式,当前的问题可能会出现代词“他”,因此需要通过之前的对话信息来判断这个代词“他”代表什么意思,从而得到一个语义更加清楚的问题,进而结合给定的图片进行回答问题。然而,并不是所有的问题都需要结合之前的对话信息来得到一个语义更加清楚的问题。首先,一些问题本身就是语义清楚的,其次,在直接结合图片的前提下,一些存在代词的问题也可以直接回答,例如问题中存在代词“他”,但是图片中只有一个男孩。在这两种情况下,结合之前的对话信息会带来冗余的信息,并且可能会导致最后回答错误。除此之外,因为多轮视觉问答方法的回答形式是对给定的100个选项进行排序,排序越靠前,越被认为是正确答案。在对数据标注时,这100个选项中只有一个被标注为正确答案,但是,除了这个被标注为正确答案的选项外,可能还存在着其他语义与正确答案相近的选项,例如,正确答案为“是的”,选项中可能存在“当然,是的”。之前的方法只考虑如何提升正确答案在最终的排序列表中的排名,但是忽略了其他没有标注为正确答案但是语义与正确答案相同的选项的排名,这样导致模型的泛化能力不够好。
发明内容
本发明的目的是为了解决现有多轮视觉对话方法存在的上述问题,提出了一种基于多层次排序学习的多轮视觉对话方法。
本发明的技术方案为:一种基于多层次排序学习的多轮视觉对话方法,包括以下步骤:
S1、利用预训练的快速区域物体检测器提取图像中的视觉特征。
S2、利用双向长短期记忆网络作为问题的文本编码器,得到问题文本特征。
S3、利用双向长短期记忆网络作为对话历史的文本编码器,得到对话历史文本特征。
S4、利用直接回答模块融合图像中的视觉特征和问题文本特征,得到第一融合特征。
S5、利用对话历史解析回答模块融合图像中的视觉特征、问题文本特征和对话历史文本特征,得到第二融合特征。
S6、将第一融合特征和第二融合特征输入至上下文控制门中,通过上下文控制门自适应地选择两种特征的权重,并对两种特征进行加权融合,得到第三融合特征。
S7、利用双向长短期记忆网络作为选项的文本编码器,得到选项文本特征。
S8、将第三融合特征和选项文本特征输入至解码器中,得到所有选项的概率得分。
S9、通过多层次排序学习模块将所有选项划分为3个层次。
S10、根据所有选项的概率得分和所有选项划分得到的3个层次,计算得到多层次排序学习损失函数。
S11、根据所有选项的概率得分计算得到交叉熵损失函数。
S12、根据多层次排序学习损失函数和交叉熵损失函数计算得到最终损失函数。
S13、通过最终损失函数对多轮视觉对话网络进行更新,实现多轮视觉对话。
进一步地,步骤S4中利用直接回答模块融合图像中的视觉特征和问题文本特征的公式为:
Figure BDA0003161786960000021
αqv=softmax(sqv)
Figure BDA0003161786960000022
ed=[q,vd]
其中q表示问题文本特征,V表示图像中的视觉特征,Wqv表示可学习参数,sqv表示问题文本特征和视觉特征的非线性映射结果,
Figure BDA0003161786960000023
表示直接回答模块中问题文本特征的非线性映射函数,
Figure BDA0003161786960000024
表示直接回答模块中视觉特征的非线性映射函数,
Figure BDA0003161786960000026
表示哈达玛积,softmax(·)表示softmax函数,αqv表示直接回答模块中需要关注的视觉信息,
Figure BDA0003161786960000025
表示直接回答模块中第i个需要关注的视觉信息,vd表示直接回答模块中需要关注的视觉信息的加权求和结果,nv表示视觉特征V中的目标个数,vi表示第i个目标的特征,[·]表示特征拼接操作,ed表示第一融合特征。
进一步地,步骤S5中利用对话历史解析回答模块融合图像中的视觉特征、问题文本特征和对话历史文本特征的公式为:
Figure BDA0003161786960000031
αqh=softmax(sqh)
Figure BDA0003161786960000032
qc=q+hc
Figure BDA0003161786960000033
αhv=softmax(shv)
Figure BDA0003161786960000034
ec=[qc,vc]
其中q表示问题文本特征,H表示对话历史文本特征,V表示图像中的视觉特征,Wqh和Whv均为可学习参数,
Figure BDA0003161786960000035
表示对话历史解析回答模块中问题文本特征的非线性映射函数,
Figure BDA0003161786960000036
表示对话历史解析回答模块中对话历史文本特征的非线性映射函数,sqh表示问题文本特征和对话历史文本特征的非线性映射结果,softmax(·)表示softmax函数,αqh表示需要关注的文本信息,
Figure BDA0003161786960000037
表示第i个需要关注的文本信息,hc表示需要关注的文本信息的加权求和结果,t表示对话的轮数,hi表示第i轮对话的特征,qc表示更新后的问题文本特征,shv表示更新后的问题文本特征和视觉特征的非线性映射结果,αhv表示对话历史解析回答模块中需要关注的视觉信息,
Figure BDA0003161786960000038
表示对话历史解析回答模块中第i个需要关注的视觉信息,vc表示对话历史解析回答模块中需要关注的视觉信息的加权求和结果,[·]表示特征拼接操作,ec表示第二融合特征。
进一步地,步骤S6中的上下文控制门包括过滤门和判断门。
过滤门的公式为:
Figure BDA0003161786960000039
Figure BDA0003161786960000041
其中gv表示过滤后的第一融合特征,gh表示过滤后的第二融合特征,σ(·)表示sigmoid函数,ed表示第一融合特征,ec表示第二融合特征,Ws表示可训练参数。
判断门的公式为:
λ=σ(Wd ed)
f=λgv+(1-λ)gh
其中Wd表示可训练参数,λ表示gv的权重参数,f表示第三融合特征。
进一步地,步骤S9中的3个层次包括和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。
进一步地,步骤S10中的多层次排序学习损失函数LMRL为:
LMRL=max{0,δ-f(f,c)+f(f,[s,r])}+max{0,δ-f(f,s)+f(f,r)}
其中δ表示超参数,f(.)表示余弦相似度,f表示第三融合特征,c、s和r分别表示和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。
进一步地,步骤S11中的交叉熵损失函数LCE为:
LCE=-∑yi logpi
其中yi表示正确答案在第i个选项中的下标,pi表示第i个选项的概率分布。
进一步地,步骤S12中的最终损失函数L为:
L=LCE+β*LMRL
其中LCE表示交叉熵损失函数,LMRL表示多层次排序学习损失函数,β表示LMRL的权重。
本发明的有益效果是:
(1)本发明提出了上下文控制门机制,自适应地赋予对话历史信息权重以回答当前的问题,避免了盲目使用对话历史信息造成的冗余信息。
(2)本发明设计了多层次排序学习模块,将所有选项划分为3个层次,提升了与正确答案语义相近但是没有被标注为正确答案的选项的排名,从而提升了模型的泛化能力。
附图说明
图1所示为本发明实施例提供的一种基于多层次排序学习的多轮视觉对话方法流程图。
图2所示为本发明实施例提供的基于多层次排序学习的多轮视觉对话网络结构框图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于多层次排序学习的多轮视觉对话方法,如图1和图2共同所示,包括以下步骤S1~S13:
S1、利用预训练的快速区域物体检测器(Faster-RCNN)提取图像中的视觉特征。
S2、利用双向长短期记忆网络(BiLSTM)作为问题的文本编码器,得到问题文本特征。
S3、利用双向长短期记忆网络作为对话历史的文本编码器,得到对话历史文本特征。
S4、利用直接回答模块融合图像中的视觉特征和问题文本特征,得到第一融合特征。
本发明实施例中,在直接回答模块首先将图像中的视觉特征和问题文本特征进行非线性映射,再通过问题文本特征对视觉特征使用注意力机制得到需要关注的视觉信息,并对需要关注的视觉信息进行加权求和,最后将问题文本特征与加权后的视觉特征进行拼接。具体公式如下:
Figure BDA0003161786960000051
αqv=softmax(sqv)
Figure BDA0003161786960000052
ed=[q,vd]
其中q表示问题文本特征,V表示图像中的视觉特征,Wqv表示可学习参数,sqv表示问题文本特征和视觉特征的非线性映射结果,
Figure BDA0003161786960000053
表示直接回答模块中问题文本特征的非线性映射函数,
Figure BDA0003161786960000054
表示直接回答模块中视觉特征的非线性映射函数,°表示哈达玛积,softmax(·)表示softmax函数,αqv表示直接回答模块中需要关注的视觉信息,
Figure BDA0003161786960000055
表示直接回答模块中第i个需要关注的视觉信息,vd表示直接回答模块中需要关注的视觉信息的加权求和结果,nv表示视觉特征V中的目标个数,vi表示第i个目标的特征,[·]表示特征拼接操作,ed表示第一融合特征。
S5、利用对话历史解析回答模块融合图像中的视觉特征、问题文本特征和对话历史文本特征,得到第二融合特征。
本发明实施例中,在对话历史解析回答模块中首先将这问题文本特征和对话历史文本特征进行非线性映射,再通过问题文本特征对对话历史文本特征使用注意力机制得到需要关注的文本信息,并对需要关注的文本信息进行加权求和,并更新问题文本特征;最后,将更新后的问题文本特征与视觉特征采用与步骤S4相同的操作。具体公式如下:
Figure BDA0003161786960000061
αqh=softmax(sqh)
Figure BDA0003161786960000062
qc=q+hc
Figure BDA0003161786960000063
αhv=softmax(shv)
Figure BDA0003161786960000064
ec=[qc,vc]
其中q表示问题文本特征,H表示对话历史文本特征,V表示图像中的视觉特征,Wqh和Whv均为可学习参数,
Figure BDA0003161786960000065
表示对话历史解析回答模块中问题文本特征的非线性映射函数,
Figure BDA0003161786960000066
表示对话历史解析回答模块中对话历史文本特征的非线性映射函数,sqh表示问题文本特征和对话历史文本特征的非线性映射结果,softmax(·)表示softmax函数,αqh表示需要关注的文本信息,
Figure BDA0003161786960000067
表示第i个需要关注的文本信息,hc表示需要关注的文本信息的加权求和结果,t表示对话的轮数,hi表示第i轮对话的特征,qc表示更新后的问题文本特征,shv表示更新后的问题文本特征和视觉特征的非线性映射结果,αhv表示对话历史解析回答模块中需要关注的视觉信息,
Figure BDA0003161786960000068
表示对话历史解析回答模块中第i个需要关注的视觉信息,vc表示对话历史解析回答模块中需要关注的视觉信息的加权求和结果,[·]表示特征拼接操作,ec表示第二融合特征。
S6、将第一融合特征和第二融合特征输入至上下文控制门中,通过上下文控制门自适应地选择两种特征的权重,并对两种特征进行加权融合,得到第三融合特征。
本发明实施例中,上下文控制门包括过滤门和判断门。
其中,过滤门主要分析上下文信息,对信息中的每个信号分配合适的权重,具体来说,将给定的信息输入进入一个sigmoid函数,从而产生一个遗忘向量,这个向量代表着给定的信息中每个信号的权重,通过将该遗忘向量与给定信息进行对应位置点乘,得到过滤后的信息,具体公式如下:
Figure BDA0003161786960000069
Figure BDA0003161786960000071
其中gv表示过滤后的第一融合特征,gh表示过滤后的第二融合特征,σ(·)表示sigmoid函数,ed表示第一融合特征,ec表示第二融合特征,Ws表示可训练参数。
判断门将第一融合特征ed作为输入,自适应地判断只依靠当前给定的信息有多大概率能够回答问题。具体而言,将ed输入进一个sigmoid函数,进而产生一个范围在0到1之间的标量值,这个标量值代表着过滤后的第一融合特征gv的权重,与之相对应的权重则是过滤后的第二融合特征gh的权重,具体公式如下:
λ=σ(Wd ed)
f=λgv+(1-λ)gh
其中Wd表示可训练参数,λ表示gv的权重参数,f表示第三融合特征。
S7、利用双向长短期记忆网络作为选项的文本编码器,得到选项文本特征。
S8、将第三融合特征和选项文本特征输入至解码器中,得到所有选项的概率得分。
S9、通过多层次排序学习模块将所有选项划分为3个层次。
本发明实施例中,划分的3个层次包括和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。
S10、根据所有选项的概率得分和所有选项划分得到的3个层次,计算得到多层次排序学习损失函数。
本发明实施例中,多层次排序学习损失函数用来提升其他没有被标注为正确答案但是语义上与正确答案相似答案的排名。具体来说,在模型训练阶段,先将100个选项输入进双向转换器表征编码器BERT,得到这100个选项的表征;使用余弦相似度计算其中的正确答案与100个选项(其中包含正确答案)之间的相似度,并且按照相似度从高到低排序;把根据相似度排序好的选项分成三部分,排序最靠前的K个选项看成是和正确答案语义最相近的选项c,接下来的排序靠前的M个选项看成是和正确答案语义次相近的选项s,剩下的100-K-M个选项看成是最不相近的选项r;根据选项划分,设计一个多层次排序学习损失函数LMRL来提升其他语义相似答案的排名,公式如下:
LMRL=max(0,δ-f(f,c)+f(f,[s,r])}+max{0,δ-f(f,s)+f(f,r)}
其中δ表示超参数,f(.)表示余弦相似度,f表示第三融合特征,c、s和r分别表示和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。
S11、根据所有选项的概率得分计算得到交叉熵损失函数。
本发明实施例中,交叉熵损失函数LCE用来保证正确答案的排序结果,其具体公式如下:
LcE=-∑yi logpi
其中yi表示正确答案在第i个选项中的下标,pi表示第i个选项的概率分布。本发明实施例中,根据标签,其中只有正确答案的yi为1,其他选项则为0;同时在交叉熵损失函数公式中,只有正确答案会有损失结果logpi,其他选项的损失结果为0,所以交叉熵损失函数只会惩罚正确答案,从而让正确答案的概率得分变高。
S12、根据多层次排序学习损失函数和交叉熵损失函数计算得到最终损失函数。
本发明实施例中,最终损失函数L的公式如下:
L=LCE+P*LMRL
其中LCE表示交叉熵损失函数,LMRL表示多层次排序学习损失函数,β表示LMRL的权重。
S13、通过最终损失函数对多轮视觉对话网络进行更新,实现多轮视觉对话。
本发明实施例中,多轮视觉对话网络如图2所示,包括多模态特征提取模块、模态交互和上下文控制门模块以及损失函数模块,通过损失函数模块得到的最终损失函数L对多模态特征提取模块以及模态交互和上下文控制门模块中的参数进行更新,通过更新得到的多轮视觉对话网络即可实现多轮视觉对话。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种基于多层次排序学习的多轮视觉对话方法,其特征在于,包括以下步骤:
S1、利用预训练的快速区域物体检测器提取图像中的视觉特征;
S2、利用双向长短期记忆网络作为问题的文本编码器,得到问题文本特征;
S3、利用双向长短期记忆网络作为对话历史的文本编码器,得到对话历史文本特征;
S4、利用直接回答模块融合图像中的视觉特征和问题文本特征,得到第一融合特征;
S5、利用对话历史解析回答模块融合图像中的视觉特征、问题文本特征和对话历史文本特征,得到第二融合特征;
S6、将第一融合特征和第二融合特征输入至上下文控制门中,通过上下文控制门自适应地选择两种特征的权重,并对两种特征进行加权融合,得到第三融合特征;
S7、利用双向长短期记忆网络作为选项的文本编码器,得到选项文本特征;
S8、将第三融合特征和选项文本特征输入至解码器中,得到所有选项的概率得分;
S9、通过多层次排序学习模块将所有选项划分为3个层次;
S10、根据所有选项的概率得分和所有选项划分得到的3个层次,计算得到多层次排序学习损失函数;
S11、根据所有选项的概率得分计算得到交叉熵损失函数;
S12、根据多层次排序学习损失函数和交叉熵损失函数计算得到最终损失函数;
S13、通过最终损失函数对多轮视觉对话网络进行更新,实现多轮视觉对话。
2.根据权利要求1所述的多轮视觉对话方法,其特征在于,所述步骤S4中利用直接回答模块融合图像中的视觉特征和问题文本特征的公式为:
Figure FDA0003161786950000011
αqv=softmax(sqv)
Figure FDA0003161786950000012
ed=[q,vd]
其中q表示问题文本特征,V表示图像中的视觉特征,Wqv表示可学习参数,sqv表示问题文本特征和视觉特征的非线性映射结果,
Figure FDA0003161786950000013
表示直接回答模块中问题文本特征的非线性映射函数,
Figure FDA0003161786950000014
表示直接回答模块中视觉特征的非线性映射函数,
Figure FDA0003161786950000016
表示哈达玛积,softmax(·)表示softmax函数,αqv表示直接回答模块中需要关注的视觉信息,
Figure FDA0003161786950000015
表示直接回答模块中第i个需要关注的视觉信息,vd表示直接回答模块中需要关注的视觉信息的加权求和结果,nv表示视觉特征V中的目标个数,vi表示第i个目标的特征,[·]表示特征拼接操作,ed表示第一融合特征。
3.根据权利要求1所述的多轮视觉对话方法,其特征在于,所述步骤S5中利用对话历史解析回答模块融合图像中的视觉特征、问题文本特征和对话历史文本特征的公式为:
Figure FDA0003161786950000021
αqh=softmax(sqh)
Figure FDA0003161786950000022
qc=q+hc
Figure FDA0003161786950000023
αhv=softmax(shv)
Figure FDA0003161786950000024
ec=[qc,vc]
其中q表示问题文本特征,H表示对话历史文本特征,V表示图像中的视觉特征,Wqh和Whv均为可学习参数,
Figure FDA0003161786950000025
表示对话历史解析回答模块中问题文本特征的非线性映射函数,
Figure FDA0003161786950000026
表示对话历史解析回答模块中对话历史文本特征的非线性映射函数,sqh表示问题文本特征和对话历史文本特征的非线性映射结果,softmax(·)表示softmax函数,αqh表示需要关注的文本信息,
Figure FDA0003161786950000027
表示第i个需要关注的文本信息,hc表示需要关注的文本信息的加权求和结果,t表示对话的轮数,hi表示第i轮对话的特征,qc表示更新后的问题文本特征,shv表示更新后的问题文本特征和视觉特征的非线性映射结果,αhv表示对话历史解析回答模块中需要关注的视觉信息,
Figure FDA0003161786950000028
表示对话历史解析回答模块中第i个需要关注的视觉信息,vc表示对话历史解析回答模块中需要关注的视觉信息的加权求和结果,[·]表示特征拼接操作,ec表示第二融合特征。
4.根据权利要求1所述的多轮视觉对话方法,其特征在于,所述步骤S6中的上下文控制门包括过滤门和判断门;
所述过滤门的公式为:
Figure FDA0003161786950000029
Figure FDA0003161786950000031
其中gv表示过滤后的第一融合特征,gh表示过滤后的第二融合特征,σ(·)表示sigmoid函数,ed表示第一融合特征,ec表示第二融合特征,Ws表示可训练参数;
所述判断门的公式为:
λ=σ(Wded)
f=λgv+(1-λ)gh
其中Wd表示可训练参数,λ表示gv的权重参数,f表示第三融合特征。
5.根据权利要求1所述的多轮视觉对话方法,其特征在于,所述步骤S9中的3个层次包括和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。
6.根据权利要求5所述的多轮视觉对话方法,其特征在于,所述步骤S10中的多层次排序学习损失函数LMRL为:
LMRL=max{0,δ-f(f,c)+f(f,[s,r])}+max{0,δ-f(f,s)+f(f,r)}
其中δ表示超参数,f(.)表示余弦相似度,f表示第三融合特征,c、s和r分别表示和正确答案语义最相近的选项、和正确答案语义次相近的选项以及和正确答案语义最不相近的选项。
7.根据权利要求1所述的多轮视觉对话方法,其特征在于,所述步骤S11中的交叉熵损失函数LCE为:
LCE=-∑yilogpi
其中yi表示正确答案在第i个选项中的下标,pi表示第i个选项的概率分布。
8.根据权利要求1所述的多轮视觉对话方法,其特征在于,所述步骤S12中的最终损失函数L为:
L=LCE+β*LMRL
其中LCE表示交叉熵损失函数,LMRL表示多层次排序学习损失函数,β表示LMRL的权重。
CN202110793167.8A 2021-07-14 2021-07-14 一种基于多层次排序学习的多轮视觉对话方法 Active CN113435399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110793167.8A CN113435399B (zh) 2021-07-14 2021-07-14 一种基于多层次排序学习的多轮视觉对话方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110793167.8A CN113435399B (zh) 2021-07-14 2021-07-14 一种基于多层次排序学习的多轮视觉对话方法

Publications (2)

Publication Number Publication Date
CN113435399A true CN113435399A (zh) 2021-09-24
CN113435399B CN113435399B (zh) 2022-04-15

Family

ID=77760255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110793167.8A Active CN113435399B (zh) 2021-07-14 2021-07-14 一种基于多层次排序学习的多轮视觉对话方法

Country Status (1)

Country Link
CN (1) CN113435399B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330130A (zh) * 2017-08-29 2017-11-07 北京易掌云峰科技有限公司 一种向人工客服推荐回复内容的对话机器人的实现方法
CN110598573A (zh) * 2019-08-21 2019-12-20 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN111460121A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 视觉语义对话方法及系统
CN111897940A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN111967272A (zh) * 2020-06-23 2020-11-20 合肥工业大学 基于语义对齐的视觉对话生成系统
US20210117681A1 (en) * 2019-10-18 2021-04-22 Facebook, Inc. Multimodal Dialog State Tracking and Action Prediction for Assistant Systems

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330130A (zh) * 2017-08-29 2017-11-07 北京易掌云峰科技有限公司 一种向人工客服推荐回复内容的对话机器人的实现方法
CN110598573A (zh) * 2019-08-21 2019-12-20 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
US20210117681A1 (en) * 2019-10-18 2021-04-22 Facebook, Inc. Multimodal Dialog State Tracking and Action Prediction for Assistant Systems
CN111460121A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 视觉语义对话方法及系统
CN111967272A (zh) * 2020-06-23 2020-11-20 合肥工业大学 基于语义对齐的视觉对话生成系统
CN111897940A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ABHISHEK DAS等: "Visual Dialog", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
LEI ZHAO等: "SKANet: Structured Knowledge-Aware Network for Visual Dialog", 《2021 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
WENBIN GUO等: "Design and Implementation of a New Serverless Conversational Survey System", 《2021 IEEE INTERNATIONAL CONFERENCE ON DATA SCIENCE AND COMPUTER APPLICATION (ICDSCA)》 *
杨天昊: "融合对话历史的视觉对话技术研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Also Published As

Publication number Publication date
CN113435399B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110413746B (zh) 对用户问题进行意图识别的方法及装置
CN113836298B (zh) 基于视觉增强的文本分类方法和系统
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN110825849A (zh) 文本信息情感分析方法、装置、介质及电子设备
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN112434142B (zh) 一种标记训练样本的方法、服务器、计算设备及存储介质
CN114331123A (zh) 一种融合认知迁移的教学评价情感分析方法
CN110991195A (zh) 机器翻译模型训练方法、装置及存储介质
Khennouche et al. Revolutionizing generative pre-traineds: Insights and challenges in deploying ChatGPT and generative chatbots for FAQs
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN114511860A (zh) 一种差异描述语句生成方法、装置、设备及介质
CN114818703A (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
Ramík et al. Autonomous knowledge acquisition based on artificial curiosity: Application to mobile robots in an indoor environment
CN115270807A (zh) 网络用户的情感倾向判定方法、装置、设备及存储介质
CN115048485A (zh) 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质
El-Rashidy et al. Attention-based contextual local and global features for urgent posts classification in MOOCs discussion forums
CN113435399B (zh) 一种基于多层次排序学习的多轮视觉对话方法
Huang et al. Knowledge distilled pre-training model for vision-language-navigation
CN110390050B (zh) 一种基于深度语义理解的软件开发问答信息自动获取方法
CN115617975B (zh) 针对少样本多轮对话的意图识别方法及装置
CN116151226A (zh) 一种基于机器学习的聋哑人手语纠错方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant