CN115410212B - 多模态模型的训练方法、装置、计算机设备及存储介质 - Google Patents

多模态模型的训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115410212B
CN115410212B CN202211364032.0A CN202211364032A CN115410212B CN 115410212 B CN115410212 B CN 115410212B CN 202211364032 A CN202211364032 A CN 202211364032A CN 115410212 B CN115410212 B CN 115410212B
Authority
CN
China
Prior art keywords
feature vector
text
picture
vector
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211364032.0A
Other languages
English (en)
Other versions
CN115410212A (zh
Inventor
舒畅
肖京
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202211364032.0A priority Critical patent/CN115410212B/zh
Publication of CN115410212A publication Critical patent/CN115410212A/zh
Application granted granted Critical
Publication of CN115410212B publication Critical patent/CN115410212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及计算机技术领域,可用于金融、医疗等领域的图文摘要生成,特别是涉及到一种多模态模型的训练方法、装置、设备及介质,所述方法包括如下步骤:获取第一特征向量;获取第二特征向量;将第一特征向量和第二特征向量输入待训练多模态模型,待训练多模态模型包括编码层和解码层;通过编码层获取对应的第一编码特征向量和第二编码特征向量;通过解码层解码第一编码特征向量和第二编码特征向量并生成图文摘要;通过预设的损失函数对待训练多模态模型进行训练,直至待训练多模态模型中的参数收敛,得到多模态模型。本申请通过训练多模态模型,使得多模态模型具备生成图文结合的图文摘要性能,进而得到图文摘要。

Description

多模态模型的训练方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及到一种多模态模型的训练方法、装置、计算机设备及存储介质。
背景技术
文本摘要是指通过各种技术,对文本或者是文本集合,抽取、总结或是精炼其中的要点信息,用以概括和展示原始文本(集合)的主要内容或大意。作为文本生成任务的主要方向之一,从本质上而言,这是一种信息压缩技术。
在医疗、金融领域中文献中的摘要,常通过传统的摘要生成技术生成文献摘要。传统的摘要生成技术一般是单模态摘要,即纯文本摘要。为获取多模型摘要,常使用两个不同的编码器对文本和图像分别进行编码,然后将各自的特征进行拼接并输入解码器中解码,进而生成图文摘要。由于生成图文结合的摘要是使用不同的编码器分别对文本和图片进行处理,使得生成的图文摘要匹配度不高。因此,优化图文摘要的生成技术,获取高匹配度的图文摘要是目前需要解决的问题。
发明内容
本申请的主要目的为提供一种多模态模型的训练方法、装置、计算机设备及存储介质,旨在优化图文摘要的生成技术,进而得到高匹配度的图文摘要。
为了实现上述发明目的,本申请提出一种多模态模型的训练方法,所述方法包括:
获取第一特征向量,所述第一特征向量为图片特征向量;
获取第二特征向量,所述第二特征向量为文本特征向量;
将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;
通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;
将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
进一步地,所述获取第一特征向量,所述第一特征向量为图片特征向量,包括:
读取图片训练集中的图片;
切分所述图片,获取多张子图片;
对每一张所述子图片进行位置编码,得到图片位置编码向量;
将多张所述子图片输入全连接神经网络,获取图片子特征向量;
依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
进一步地,所述获取第二特征向量,所述第二特征向量为文本特征向量,包括:
读取文本训练集中的文本信息;
拆分所述文本信息,得到多个文字分词;
对每一个所述文字分词进行位置编码,得到文字位置编码向量;
将多个所述文字分词输入全连接神经网络,获取文本子特征向量;
依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
进一步地,所述通过所述编码层获取对应的第一编码特征向量和第二编码特征向量,包括:
在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;
基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;
基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
进一步地,所述损失函数为
Figure 233438DEST_PATH_IMAGE001
;其中,
Figure 928862DEST_PATH_IMAGE002
表示图片损失函数;
Figure 436067DEST_PATH_IMAGE003
表示文本损失函数。
进一步地,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,包括:
通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;
通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;
将所述第一损失值和所述第二损失值相加,得到损失值;
判断所述损失值是否小于预设损失阈值;
若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
进一步地,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型之后,还包括:
获取待处理文本及待处理图片;
将所述待处理文本和所述待处理图片输入所述多模态模型;
基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
本申请还提供一种多模态模型的训练装置,所述装置包括:
第一获取模块,用于获取第一特征向量,所述第一特征向量为图片特征向量;
第二获取模块,用于获取第二特征向量,所述第二特征向量为文本特征向量;
输入模块,用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;
编码模块,用于通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;
解码模块,用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
训练模型,用于通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的多模态模型的训练方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的多模态模型的训练方法的步骤。
本申请例提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
附图说明
图1为本申请多模态模型的训练方法的一实施例流程示意图;
图2为本申请多模态模型的训练方法的另一实施例流程示意图;
图3为本申请多模态模型的训练方法的另一实施例流程示意图;
图4为本申请多模态模型的训练方法的另一实施例流程示意图;
图5为本申请多模态模型的训练方法的另一实施例流程示意图;
图6为本申请多模态模型的训练方法的另一实施例流程示意图;
图7为本申请多模态模型的训练装置的一实施例结构示意图;
图8为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种多模态模型的训练方法,包括步骤S10-S60,对于所述测试用例增强方法的各个步骤的详细阐述如下。
S10、获取第一特征向量,所述第一特征向量为图片特征向量。
本实施例用于金融、医疗等领域的图文摘要生成。读取图片训练集中的图片,所述图片训练集为预先构建,所述图片为与将要生成图文结合的摘要文本相关联的图片,将所述图片进行切分,得到获取多张子图片,对每一张所述子图片进行位置编码,得到图片位置编码向量;同时,将多张所述子图片输入全连接神经网络,以获取图片子特征向量;将所述图片位置编码向量和所述图片子特征向量相加,得到图片特征向量即第一特征向量。获取图片特征向量为后续获取第一编码特征向量提供有效依据。
S20、获取第二特征向量,所述第二特征向量为文本特征向量。
本实施例中,读取文本训练集中的文本信息,所述文本训练集为预先构建,所述文本信息为与将要生成图文结合的摘要文本相关联的文本;将所述文本信息进行拆分,得到多个文字分词,对每一个所述文字分词进行位置编码,得到文字位置编码向量;同时,将多个所述文字分词输入全连接神经网络,以获取文本子特征向量;将所述文字位置编码向量和所述文本子特征向量相加,得到文本特征向量即第二特征向量。获取第二特征向量为后续获取第二编码特征向量提供有效依据。
S30、将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层。
本实施例中,待训练多模态模型为transformer模型,所述transformer模型主要分为两个部分,分别是编码层和解码层,编码层负责把自然语言序列映射至隐藏层(含有自然语言序列的数学表达),解码层把隐藏层中映射的自然语言序列进行解码。在获取第一特征向量和第二特征向量之后,将所述第一特征向量和所述第二特征向量输入待训练多模态模型,使得所述第一特征向量和所述第二特征向量训练编码层的编码性能,和训练解码层的解码性能,进而得到具备生成图文结合摘要文本的多模态模型。
S40、通过所述编码层获取对应的第一编码特征向量和第二编码特征向量。
本实施例中,在将所述第一特征向量和所述第二特征向量输入待训练多模态模型之后,通过所述编码层获取对应的第一编码特征向量和第二编码特征向量。具体的,在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。所述第一编码特征向量和所述第二编码特征向量的生成为后续生成图文摘要提供有效依据。
S50、将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要。
本实施例中,通过所述编码层获取对应的第一编码特征向量和第二编码特征向量之后,将所述第一编码特征向量和所述第二编码特征向量输出至解码层,通过所述解码层分别对所述一编码特征向量和所述第二编码特征向量进行解码,得到对应的第一解码信息和第二解码信息,将所述第一解码信息和所述第二解码信息进行结合,得到图文结合的图文摘要。
S60、通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
本实施例中,通过解码层解码一编码特征向量和第二编码特征向量并生成图文摘 要之后,通过预设的损失函数对所述待训练多模态模型进行训练,所述损失函数为
Figure 976769DEST_PATH_IMAGE001
;其中,
Figure 761186DEST_PATH_IMAGE002
表示图片损失函数;
Figure 361931DEST_PATH_IMAGE003
表示文本损失函数;通过所述图 片损失函数计算所述图文摘要中的预测图片与实际选定的标注图片之间的第一损失值;通 过所述文本损失函数计算所述图文摘要中的预测文本与实际选定的标注文本之间的第二 损失值;将所述第一损失值和所述第二损失值相加,得到损失值;判断所述损失值是否小于 预设损失阈值;若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成 训练,得到多模态模型,实现对图文摘要技术的优化。
本实施例提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
参照图2,在一个实施例中,所述获取第一特征向量,所述第一特征向量为图片特征向量,包括以下步骤S11-S15:
S11、读取图片训练集中的图片;
S12、切分所述图片,得到多张子图片;
S13、对每一张所述子图片进行位置编码,得到图片位置编码向量;
S14、将多张所述子图片输入全连接神经网络,获取图片子特征向量;
S15、依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
本实施例中,预先通过摄像头采集多张图片,或是爬取公开网站上的多张图片,所述图片为医疗领域和/或金融领域文献中与文献内容相关的图片,根据获取的多张图片构建图片训练数据集并保存至后台。当进行模型训练时,直接读取所述图片训练集中的图片,并将所述图片进行切分,使得每一张图片均被切分为多张小块图片,即得到多张子图片,优选的,将每一张图片切分为9张小块图片,将切分之后的图片按照图片原始形态进行序号标记,得到带有序号信息的多张子图片,将具有序号标记的多张子图片进行位置编码,其中,所述位置编码使用sin函数和cos函数进行编码,即
Figure 356432DEST_PATH_IMAGE004
Figure 700826DEST_PATH_IMAGE005
其中,pos表示子图片的序号,从0开始计算;i表示位置编码特征向量中的维度序号,比如i=0时,2i=0是偶数位置,使用sin函数,2i+1=1是奇数位置,使用cos函数,所以位置编码向量中的第0个位置是sin函数计算后的值,第1个位置是cos函数计算后的值;dmodel表示位置编码向量维度,比如512维,则使用这个位置编码能够分别对这512维的数字赋值。通过sin函数和cos函数计算之后,可确定多张子图片的位置编码,依据所述位置编码生成图片位置编码向量;同时,将所述多张子图片输入全连接神经网络,获取图片子特征向量;将所述图片位置编码向量和所述子特征向量相加,即可得到图片特征向量。获取图片特征向量为后续获取第一编码特征向量提供有效依据。
参照图3,在一个实施例中,所述获取第二特征向量,所述第二特征向量为文本特征向量,包括以下步骤S21-S25:
S21、读取文本训练集中的文本信息;
S22、拆分所述文本信息,得到多个文字分词;
S23、对每一个所述文字分词进行位置编码,得到文字位置编码向量;
S24、将多个所述文字分词输入全连接神经网络,获取文本子特征向量;
S25、依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
本实施例中,读取预先构建的文本训练集中的文本信息,所述文本训练集包括多个文本信息,所述文本信息为医疗领域和/或金融领域的文献内容,将所述文本信息进行拆分,以获取多个文字分词,所述文字分词包括关键词组、常见词组、单个字等形式,并对所述文字分词进行序号标记,所述序号标记为按照原始文本中的顺序依次进行序号标记;将所述文字分词进行位置编码,其中,所述位置编码使用sin函数和cos函数进行编码,即
Figure DEST_PATH_IMAGE006
Figure 103863DEST_PATH_IMAGE007
其中,pos表示文字分词的序号,从0开始计算;i表示位置编码特征向量中的维度序号,比如i=0时,2i=0是偶数位置,使用sin函数,2i+1=1是奇数位置,使用cos函数,所以位置编码向量中的第0个位置是sin函数计算后的值,第1个位置是cos函数计算后的值;dmodel是位置编码向量维度,基于sin函数和cos函数计算之后,确定多个文字分词的位置编码,依据所述位置编码生成文字位置编码向量;同时,将多个所述文字分词输入全连接神经网络,获取文本子特征向量,将所述文字位置编码向量和所述文本子特征向量相加,得到文本特征向量。获取文本特征向量为后续生成第二编码特征向量提供有效依据。
参照图4,在一个实施例中,所述通过所述编码层获取对应的第一编码特征向量和第二编码特征向量,包括以下步骤S41-S43:
S41、在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;
S42、基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;
S43、基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
本实施例中,将第一特征向量和第二特征向量输入待训练多模态模型,在所述待训练多模态模型的编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据,所述第一分析数据包括与所述第一特征向量具有关联性和依赖性的隐藏数据;所述第二分析数据包括与所述第二特征向量具有关联性和依赖性的隐藏数据;将所述第一特征向量和所述第一分析数据进行结合,得到第一编码特征向量;将所述第二特征向量和所述第二分析数据进行结合,得到第二编码特征向量。通过编码层获取对应的第一编码特征向量和第二编码特征向量,为后续生成图片摘要提供有效依据。
在一个实施例中,所述损失函数为
Figure DEST_PATH_IMAGE008
;其中,
Figure 141089DEST_PATH_IMAGE002
表示图片损失函数;
Figure 498252DEST_PATH_IMAGE003
表示文本损失函数。
本实施例中,损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y 的不一致程度,它是一个非负实值函数,损失函数越小,模型的鲁棒性就越好。损失函数为 预先构建,所述损失函数为为
Figure 646337DEST_PATH_IMAGE008
;其中,
Figure 264400DEST_PATH_IMAGE002
表示图片损失函数;
Figure 410211DEST_PATH_IMAGE003
表示文本损失函数;所述图片损失函数为
Figure 989091DEST_PATH_IMAGE009
其中M表示人工批注的图片,yi表示模型计算值;
Figure DEST_PATH_IMAGE010
表示伪标签值;所述伪标签值通 过计算获取,具体的,计算每个样本中人工标注的文本摘要与样本里每张图片的相似度,选 择相似度最高的那张图片作为文本摘要和图片对应的伪标签。计算相似度的方法使用 cosine,得分最高的图片作为伪标签,伪标签值为1,其余图片为0。所述文本损失函数为
Figure 940866DEST_PATH_IMAGE011
,其中,所述y表示人工标注的文本摘要,yj表示 文本摘要中的一个词,D表示输入样本的整篇文章文本,I表示样本中的所有图片。预先构建 损失函数,为后续依据所述损失函数进行模型训练提供有效依据。
参照图5,在一个实施例中,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,包括以下步骤S61-S65:
S61、通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;
S62、通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;
S63、将所述第一损失值和所述第二损失值相加,得到损失值;
S64、判断所述损失值是否小于预设损失阈值;
S65、若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
本实施例中,通过所述图片损失函数计算预测图片与标注图片之间的第一损失值,所述预测图片为经过解码层解码生成的图片,所述批注图片为预先选定的图片,将所述第一损失值与预设的第一阈值进行比较,若所述第一损失值大于所述第一阈值,则对待训练多模态模型进行参数调整,使得所述待训练多模态模型的解码层可解码出所述第一损失值小于所述第一阈值的预测图片;若所述第一损失值小于所述第一阈值,则将所述第一损失值对应的训练参数记为第一参数;通过所述文本损失函数计算预测文本与标注文本之间的第二损失值,所述预测文本为经过解码层解码生成的文本,所述标注文本为预先选定的文本,将所述第二损失值与预设的第二阈值进行比较,若所述第二损失值大于所述第二阈值,则对待训练多模态模型进行参数调整,使得所述待训练多模态模型的解码层可解码出所述第二损失值小于所述第二阈值的预测文本;若所述第二损失值小于所述第二阈值,则将所述第二损失值对应的训练参数记为第二参数;将所述第一损失值和所述第二损失值相加,得到损失值,将所述损失值与预设阈值进行比较,若所述损失值小于所述预设阈值,则判定待训练多模态模型完成训练,其输出的图文结合摘要符合预设要求,将所述第一参数和所述第二参数设置为所述待训练多模态模型的固定参数,得到多模态模型;若所述损失值大于所述预设阈值,则判定所述待训练多模态模型仍需进行训练,直至损失值小于所述预设阈值。通过预设的损失函数对待训练多模态模型进行训练,得到多模态模型,实现了图文摘要技术的优化。
参照图6,在一个实施例中,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型之后,还包括以下步骤S651-S653:
S651、获取待处理文本及待处理图片;
S652、将所述待处理文本和所述待处理图片输入所述多模态模型;
S653、基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
本实施例中,获取待处理文本及待处理图片,将所述待处理文本和所述待处理图片输入多模态模型中,在所述多模态模型的编码层中分别将所述待处理文本和所述待处理图片进行编码,得到对应的第一编码特征向量和第二编码特征向量,在解码层分别对所述第一编码特征向量和所述第二编码特征向量进行解码,得到对应的预测图片和预测文本,将所述预测图片和所述预测文本进行结合,得到图文结合的摘要文本,所述图文结合的摘要文本的生成有利于用户在解读医疗领域、金融领域的文献内容时,直观解读所述文献内容,实现对所述文献内容的全面把握。
参照图7,本申请提供一种多模态模型的训练装置,所述装置包括:
第一获取模块10,用于获取第一特征向量,所述第一特征向量为图片特征向量;
第二获取模块20,用于获取第二特征向量,所述第二特征向量为文本特征向量;
输入模块30,用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;
编码模块40,用于通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;
解码模块50,用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
训练模型60,用于通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
如上所述,可以理解地,本申请中提出的所述的多模态模型的训练装置的各组成部分可以实现如上所述的多模态模型的训练方法任一项的功能。
在一个实施例中,所述第一获取模块10还用于执行:
读取图片训练集中的图片;
切分所述图片,获取多张子图片;
对每一张所述子图片进行位置编码,得到图片位置编码向量;
将多张所述子图片输入全连接神经网络,获取图片子特征向量;
依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
在一个实施例中,所述第二获取模块20还用于执行:
读取文本训练集中的文本信息;
拆分所述文本信息,得到多个文字分词;
对每一个所述文字分词进行位置编码,得到文字位置编码向量;
将多个所述文字分词输入全连接神经网络,获取文本子特征向量;
依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
在一个实施例中,所述编码模块40还用于执行:
在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;
基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;
基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
在一个实施例中,所述训练模型60还用于执行:
损失函数为
Figure 679015DEST_PATH_IMAGE008
;其中,
Figure 429016DEST_PATH_IMAGE002
表示图片损失函数;
Figure 619825DEST_PATH_IMAGE003
表示文本损失函数。
在一个实施例中,所述训练模型60还用于执行:
通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;
通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;
将所述第一损失值和所述第二损失值相加,得到损失值;
判断所述损失值是否小于预设损失阈值;
若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
在一个实施例中,所述训练模型60还用于执行:
获取待处理文本及待处理图片;
将所述待处理文本和所述待处理图片输入所述多模态模型;
基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
参照图8本申请实施例中还提供一种计算机设备,该计算机设备的内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示装置用于显示交互页面。该计算机设备的输入装置用于接收用户的输入。该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放原始数据。该计算机程序被处理器执行时以实现一种多模态模型的训练方法。
上述处理器执行上述的多模态模型的训练方法,包括:获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。所述计算机提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种多模态模型的训练方法,包括步骤:获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。所述计算机可读存储介质提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种多模态模型的训练方法,其特征在于,所述方法包括:
获取第一特征向量,所述第一特征向量为图片特征向量,所述图片特征向量包括图片位置编码向量和图片子特征向量,其中,所述图片位置编码向量使用sin函数和cos函数进行位置编码得到;
获取第二特征向量,所述第二特征向量为文本特征向量,所述文本特征向量包括文字位置编码向量和文本子特征向量,其中,所述文字位置编码向量使用sin函数和cos函数进行位置编码得到;
将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;
通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;
将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
2.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述获取第一特征向量,所述第一特征向量为图片特征向量,包括:
读取图片训练集中的图片;
切分所述图片,获取多张子图片;
对每一张所述子图片使用sin函数和cos函数进行位置编码,得到图片位置编码向量;
将多张所述子图片输入全连接神经网络,获取图片子特征向量;
依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
3.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述获取第二特征向量,所述第二特征向量为文本特征向量,包括:
读取文本训练集中的文本信息;
拆分所述文本信息,得到多个文字分词;
对每一个所述文字分词使用sin函数和cos函数进行位置编码,得到文字位置编码向量;
将多个所述文字分词输入全连接神经网络,获取文本子特征向量;
依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
4.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述通过所述编码层获取对应的第一编码特征向量和第二编码特征向量,包括:
在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;
基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;
基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
5.根据权利要求1所述的多模态模型的训练方法,其特征在于,所述损失函数为
Figure 526241DEST_PATH_IMAGE001
;其中,
Figure 787590DEST_PATH_IMAGE002
表示图片损失函数;
Figure 36168DEST_PATH_IMAGE003
表示文本损失函数。
6.根据权利要求5所述的多模态模型的训练方法,其特征在于,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,包括:
通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;
通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;
将所述第一损失值和所述第二损失值相加,得到损失值;
判断所述损失值是否小于预设损失阈值;
若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
7.根据权利要求6所述的多模态模型的训练方法,其特征在于,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型之后,还包括:
获取待处理文本及待处理图片;
将所述待处理文本和所述待处理图片输入所述多模态模型;
基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
8.一种多模态模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一特征向量,所述第一特征向量为图片特征向量,所述图片特征向量包括图片位置编码向量和图片子特征向量,其中,所述图片位置编码向量使用sin函数和cos函数进行位置编码得到;
第二获取模块,用于获取第二特征向量,所述第二特征向量为文本特征向量,所述文本特征向量包括文字位置编码向量和文本子特征向量,其中,所述文字位置编码向量使用sin函数和cos函数进行位置编码得到;
输入模块,用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;
编码模块,用于通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;
解码模块,用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
训练模型,用于通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的多模态模型的训练方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的多模态模型的训练方法的步骤。
CN202211364032.0A 2022-11-02 2022-11-02 多模态模型的训练方法、装置、计算机设备及存储介质 Active CN115410212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211364032.0A CN115410212B (zh) 2022-11-02 2022-11-02 多模态模型的训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211364032.0A CN115410212B (zh) 2022-11-02 2022-11-02 多模态模型的训练方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115410212A CN115410212A (zh) 2022-11-29
CN115410212B true CN115410212B (zh) 2023-02-07

Family

ID=84169205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211364032.0A Active CN115410212B (zh) 2022-11-02 2022-11-02 多模态模型的训练方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115410212B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094367B (zh) * 2023-10-19 2024-03-29 腾讯科技(深圳)有限公司 内容生成方法、模型训练方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法
CN113849648A (zh) * 2021-09-28 2021-12-28 平安科技(深圳)有限公司 分类模型训练方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598779B (zh) * 2017-11-30 2022-04-08 腾讯科技(深圳)有限公司 摘要描述生成方法、装置、计算机设备和存储介质
CN110147532B (zh) * 2019-01-24 2023-08-25 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN111324769B (zh) * 2020-01-20 2024-07-16 腾讯科技(北京)有限公司 视频信息处理模型的训练方法、视频信息处理方法及装置
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN114328898A (zh) * 2021-12-28 2022-04-12 广州华多网络科技有限公司 文本摘要生成方法及其装置、设备、介质、产品
CN114519395B (zh) * 2022-02-22 2024-05-14 平安科技(深圳)有限公司 模型的训练方法和装置、文本摘要生成方法和装置、设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法
CN113849648A (zh) * 2021-09-28 2021-12-28 平安科技(深圳)有限公司 分类模型训练方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115410212A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
WO2021082953A1 (zh) 机器阅读理解方法、设备、存储介质及装置
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
CN112417139B (zh) 一种基于预训练语言模型的摘要生成方法
CN109522557B (zh) 文本关系抽取模型的训练方法、装置及可读存储介质
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
US10754851B2 (en) Question answering for data visualizations
Rouhou et al. Transformer-based approach for joint handwriting and named entity recognition in historical document
CN111160343A (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN109344830B (zh) 语句输出、模型训练方法、装置、计算机设备及存储介质
CN110852110B (zh) 目标语句提取方法、问题生成方法以及信息处理设备
CN109740158B (zh) 一种文本语义解析方法及装置
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN113177435B (zh) 试卷分析方法、装置、存储介质及电子设备
CN114254071B (zh) 从非结构化文档中查询语义数据
CN115410212B (zh) 多模态模型的训练方法、装置、计算机设备及存储介质
WO2021000412A1 (zh) 文本匹配度检测方法、装置、计算机设备和可读存储介质
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
CN117520590B (zh) 海洋跨模态图文检索方法、系统、设备及存储介质
CN115130613A (zh) 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN111523312A (zh) 一种基于释义消歧的查词显示方法、装置和计算设备
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
US20230125977A1 (en) Apparatus and method for processing natural language
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant