CN114896429B - 一种图文互检方法、系统、设备及计算机可读存储介质 - Google Patents

一种图文互检方法、系统、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114896429B
CN114896429B CN202210812205.4A CN202210812205A CN114896429B CN 114896429 B CN114896429 B CN 114896429B CN 202210812205 A CN202210812205 A CN 202210812205A CN 114896429 B CN114896429 B CN 114896429B
Authority
CN
China
Prior art keywords
target
information
text
determining
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210812205.4A
Other languages
English (en)
Other versions
CN114896429A (zh
Inventor
李仁刚
王立
范宝余
郭振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210812205.4A priority Critical patent/CN114896429B/zh
Publication of CN114896429A publication Critical patent/CN114896429A/zh
Priority to PCT/CN2022/134091 priority patent/WO2024011814A1/zh
Application granted granted Critical
Publication of CN114896429B publication Critical patent/CN114896429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图文互检方法、系统、设备及计算机可读存储介质,获取待检索的一组目标文本及一组目标图像,目标文本包括表征目标信息的各类子信息;确定目标文本对应的目标文本输入信息;基于图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果;其中,文本处理模型基于自监督学习搭建,自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习;基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果;基于目标文本处理结果及目标图像处理结果,确定目标文本在目标图像中的图像检索结果和/或确定目标图像在目标文本中的文本检索结果;能够保证图文互检的准确性。

Description

一种图文互检方法、系统、设备及计算机可读存储介质
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种图文互检方法、系统、设备及计算机可读存储介质。
背景技术
近年来,经济全球化进程不断推进,科学技术得到空前的发展,尤其是计算机信息技术的广泛推广和应用,使数字化处理取得长足进步。
在信息时代,影像数据兼具多媒体数据优势的同时也跟相应领域的相关内容紧密关联,实现影像图文互检有利于提高数据的快速传播和交流,提高数据处理的效率和质量,不难理解,图文互检的准确性越好的话,相应数据处理的效率和质量越好。
综上所述,如何提高图文互检的准确性是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种图文互检方法,其能在一定程度上解决如何提高图文互检的准确性的技术问题。本申请还提供了一种图文互检系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种图文互检方法,包括:
获取待检索的一组目标文本及一组目标图像,所述目标文本包括表征目标信息的各类子信息;
确定所述目标文本对应的目标文本输入信息;
基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理,得到目标文本处理结果;其中,所述文本处理模型基于自监督学习搭建,所述自监督学习用于基于各类所述子信息间的关联信息对所述目标文本进行监督学习;
基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理,得到目标图像处理结果;
基于所述目标文本处理结果及所述目标图像处理结果,确定所述目标文本在所述目标图像中的图像检索结果,和/或确定所述目标图像在所述目标文本中的文本检索结果。
优选的,所述确定所述目标文本对应的目标文本输入信息,包括:
确定所述目标文本中的各类所述子信息;
确定各个所述子信息对应的位置信息;
确定各个所述子信息对应的第一类型信息;
对于每个所述子信息,将所述子信息及对应的所述位置信息、所述第一类型信息转换为对应的初始向量信息,并将所有的所述初始向量信息的和值作为所述子信息的第一向量信息;
基于所述第一向量信息确定所述目标文本输入信息。
优选的,所述基于所述第一向量信息确定所述目标文本输入信息,包括:
确定所述目标文本的第二类型信息;
将所述第二类型信息转换为对应的第二向量信息;
将所述第二向量信息和所述第一向量信息作为所述目标文本输入信息。
优选的,所述自监督学习的对应权重值的确定过程包括:
对于所述文本处理模型中的任意两个所述子信息,均在其中的一个所述子信息中确定出目标样本,在其中的另一个所述子信息中确定出与所述目标样本成对的第一类样本、及与所述目标样本未成对的第二类样本,确定所述目标样本与所述第一类样本间的第一距离值,确定所述目标样本与所述第二类样本间的第二距离值;
基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;
基于所述损失值确定所述自监督学习的所述权重值。
优选的,所述基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值,包括:
通过所述自监督学习的损失函数,基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;
其中,所述自监督学习的损失函数包括:
Figure 18569DEST_PATH_IMAGE001
其中,
Figure 577727DEST_PATH_IMAGE002
表示所述自监督学习中第
Figure 140336DEST_PATH_IMAGE003
个所述子信息相对于第
Figure 595589DEST_PATH_IMAGE004
个所述子信息的损失函数值,
Figure 26570DEST_PATH_IMAGE005
Figure 123839DEST_PATH_IMAGE006
Figure 222245DEST_PATH_IMAGE007
Figure 113978DEST_PATH_IMAGE008
表示所述子信息的总数量;
Figure 235517DEST_PATH_IMAGE009
表示所述自监督学习的批次;
Figure 637942DEST_PATH_IMAGE010
表示成对的样本的数量;
Figure 325275DEST_PATH_IMAGE011
表示距离值;
Figure 653489DEST_PATH_IMAGE012
表示在第
Figure 996745DEST_PATH_IMAGE013
个所述子信息中被选中的第
Figure 701396DEST_PATH_IMAGE014
个所述目标样本;
Figure 508815DEST_PATH_IMAGE015
表示在第
Figure 742350DEST_PATH_IMAGE016
个所述子信息中选中的与
Figure 369641DEST_PATH_IMAGE017
成对的所述第一类样本;
Figure 438834DEST_PATH_IMAGE018
表示在第
Figure 835181DEST_PATH_IMAGE019
个所述子信息中选中的与
Figure 505196DEST_PATH_IMAGE020
未成对的样本;
Figure 823045DEST_PATH_IMAGE021
表示预设的超参数;
Figure 603920DEST_PATH_IMAGE022
表示求最小值;其中,所有的所述损失函数值的和值为所述自监督学习的损失值。
优选的,所述文本处理模型包括基于transformer模型及所述自监督学习搭建的神经网络模型。
优选的,所述文本处理模型包括输入层;与所述输入层连接的多头注意力机制层;与所述输入层及所述多头注意力机制层连接的第一标准化层;与所述标准化层连接的正向传输层;与所述正向传输层及所述第一标准化层连接的第二标准化层;与所述第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层;与所述第二标准化层连接的与所述子信息一一对应的目标全连接层;与所述第二标准化层连接的第四全连接层;与所述第二标准化层连接的第五全连接层;与所述第一全连接层、所有的所述目标全连接层连接的拼接层;与所述拼接层连接的第三全连接层。
优选的,所述图像处理模型基于注意力机制搭建。
优选的,所述图像处理模型包括目标数量个图像处理分支、及与所述图像处理分支连接的第四全连接层;所述图像处理分支包括输入层,与所述输入层连接的骨干网络,与所述骨干网络连接的第五全连接层,与所述第五全连接层连接的注意力机制层,与所述注意力机制层连接的第一归一化层,与所述第一归一化层连接的乘法器,与所述乘法器及所述第五全连接层连接的加法器,与所述加法器连接的Linear层,与所述Linear层连接的BiLSTM层;
其中,各个所述图像处理分支中的所述第一归一化层为同一个;且各个所述图像处理分支中的所述BiLSTM层间互相连通。
优选的,所述注意力机制层包括:与所述第五全连接层连接的第六全连接层,与所述第六全连接层连接的第二激励层,与所述第二激励层连接的第七全连接层,与所述第七全连接层连接的第二归一化层,且所述第二归一化层与所述第一归一化层相连接。
优选的,所述图文互检神经网络模型中的损失函数包括:
Figure 917089DEST_PATH_IMAGE023
其中,
Figure 758006DEST_PATH_IMAGE024
表示批次
Figure 563151DEST_PATH_IMAGE025
中文本与图像间相对的损失函数值;
Figure 649181DEST_PATH_IMAGE026
表示成对的样本的数量;
Figure 20120DEST_PATH_IMAGE027
表示预设的超参数;
Figure 297517DEST_PATH_IMAGE028
表示在所述目标图像的所述目标图像处理结果中选中的第
Figure 121117DEST_PATH_IMAGE029
个样本;
Figure 509373DEST_PATH_IMAGE030
表示在所述目标文本对应的所述目标文本处理结果中选中的与
Figure 734818DEST_PATH_IMAGE031
成对的样本;
Figure 917537DEST_PATH_IMAGE032
表示求最小值;
Figure 697275DEST_PATH_IMAGE033
表示在所述目标文本特征处理结果中选中的与
Figure 889221DEST_PATH_IMAGE034
未成对的样本。
优选的,所述骨干网络包括ResNet网络。
一种图文互检系统,包括:
第一获取模块,用于获取待检索的一组目标文本及一组目标图像,所述目标文本包括表征目标信息的各类子信息;
第一确定模块,用于确定所述目标文本对应的目标文本输入信息;
第一处理模块,用于基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理,得到目标文本处理结果;其中,所述文本处理模型基于自监督学习搭建,所述自监督学习用于基于各类所述子信息间的关联信息对所述目标文本进行监督学习;
第二处理模块,用于基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理,得到目标图像处理结果;
第二确定模块,用于基于所述目标文本处理结果及所述目标图像处理结果,确定所述目标文本在所述目标图像中的图像检索结果,和/或确定所述目标图像在所述目标文本中的文本检索结果。
一种图文互检设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述图文互检方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述图文互检方法的步骤。
本申请提供的一种图文互检方法,获取待检索的一组目标文本及一组目标图像,目标文本包括表征目标信息的各类子信息;确定目标文本对应的目标文本输入信息;基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果;其中,文本处理模型基于自监督学习搭建,自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习;基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果;基于目标文本处理结果及目标图像处理结果,确定目标文本在目标图像中的图像检索结果,和/或确定目标图像在目标文本中的文本检索结果。本申请中,在获取待检索的目标文本及目标图像之后,基于文本处理模型对目标文本输入信息进行处理,因为文本处理模型基于自监督学习搭建,且自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习,所以本申请相当于借助子信息间的关联信息来得到目标文本处理结果,因为子信息间的关联信息能够反映目标文本中各类信息间的相关性,所以文本处理模型能够保证目标文本的处理准确性,进而保证图文互检的准确性。本申请提供的一种图文互检系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种图文互检方法的第一流程图;
图2为本申请实施例提供的一种图文互检方法的第二流程图;
图3为本申请中图文互检神经网络模型的结构示意图;
图4为注意力机制层的结构示意图;
图5为本申请对图像及文本特征的遍历示意图;
图6为本申请实施例提供的一种图文互检系统的结构示意图;
图7为本申请实施例提供的一种图文互检设备的结构示意图;
图8为本申请实施例提供的一种图文互检设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种图文互检方法的第一流程图。
本申请实施例提供的一种图文互检方法,可以包括以下步骤:
步骤S101:获取待检索的一组目标文本及一组目标图像,目标文本包括表征目标信息的各类子信息。
实际应用中,可以先获取待检索的一组目标文本及一组目标图像,以便后续在一组目标图像中确定与目标文本对应的图像。
需要说明的是,获取的一组目标文本及一组目标图像的数量及目标文本、目标图像的类型等均可以根据实际需要确定,比如目标文本及目标图像可以为医学文本及医学图像,可以为服务器维修文本及服务器维修图像,也可以为饭菜制作文本及制作图像等,本申请在此不做具体限定。还需说明的是,本申请中的目标文本中包括目标信息的各类子信息,且子信息用于在某一层面反映目标信息的相应信息,以目标信息的类型为饭菜制作教程为例,目标文本中包含的子信息可以为食材类型、制作流程、注意事项等,本申请在此不做具体限定。
步骤S102:确定目标文本对应的目标文本输入信息。
实际应用中,在获取待检索的一组目标文本及一组目标图像之后,便可以确定目标文本对应的目标文本输入信息,以便后续借助目标文本输入信息来进行图文互检。
步骤S103:基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果;其中,文本处理模型基于自监督学习搭建,自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习。
实际应用中,在确定目标文本对应的目标文本输入信息之后,便可以基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果;其本申请中,文本处理模型基于自监督学习搭建,自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习,也即本申请中,相当于基于目标文本中子信息间的关联信息来对目标文本进行处理,得到对应的目标文本处理结果。
需要说明的是,图文互检神经网络模型的结构可以根据实际需要确定,本申请在此不做具体限定。此外,神经网络的训练过程分为两个阶段,第一个阶段是数据由低层次向高层次传播的阶段,即前向传播阶段;另外一个阶段是,当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段,即反向传播阶段。所以图文互检神经网络的训练过程可以为:将所有网络层权值进行初始化,一般采用随机初始化;输入图像和文本数据经过图神经网络、卷积层、下采样层、全连接层等各层的前向传播得到输出值;求出网络的输出值,求取网络的输出值的损失函数值;将误差反向传回网络中,依次求得网络各层:图神经网络层,全连接层,卷积层等各层的反向传播误差;网络各层根据各层的反向传播误差对网络中的所有权重系数进行调整,即进行权重的更新;重新随机选取新的batch(批次)的图像文本数据,然后进入到第二步,获得网络前向传播得到输出值;无限往复迭代,当求出网络的输出值与目标值(标签)之间的误差小于某个阈值,或者迭代次数超过某个阈值时,结束训练;保存训练好的所有层的网络参数。
步骤S104:基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果。
实际应用中,在基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果之后,便可以基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果,以便后续基于目标文本处理结果及目标图像处理结果确定相应的图文互检结果。
步骤S105:基于目标文本处理结果及目标图像处理结果,确定目标文本在目标图像中的图像检索结果,和/或确定目标图像在目标文本中的文本检索结果。
实际应用中,在基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果之后,便可以基于目标文本处理结果及目标图像处理结果确定相应的图文互检结果,具体的,可以确定目标文本在目标图像中的图像检索结果,和/或确定目标图像在目标文本中的文本检索结果等,本申请在此不做具体限定。
需要说明的是,图文互检神经网络模型对文本和图像的处理过程可以根据实际需要确定,本申请在此不做具体限定。比如图文互检神经网络模型可以对文本或图像进行特征提取,并将提取的特征存入待检索数据集中;接收用户给定的任意文本数据或图像数据作为query(查询)数据;提取query数据的文本数据或图像数据的特征;将query数据的特征与待检索数据集中所有样本特征进行距离匹配,即求向量距离,比如求取欧式距离,例如若query数据是文本数据就去取待检索数据集中 所有的图特征进行求距离,同理query数据是图像数据,则与待检索数据集中 所有的文本特征求欧式距离,距离最小的样本即为推荐样本,进行输出等。
本申请提供的一种图文互检方法,获取待检索的一组目标文本及一组目标图像,目标文本包括表征目标信息的各类子信息;确定目标文本对应的目标文本输入信息;基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果;其中,文本处理模型基于自监督学习搭建,自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习;基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果;基于目标文本处理结果及目标图像处理结果,确定目标文本在目标图像中的图像检索结果,和/或确定目标图像在目标文本中的文本检索结果。本申请中,在获取待检索的目标文本及目标图像之后,基于文本处理模型对目标文本输入信息进行处理,因为文本处理模型基于自监督学习搭建,且自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习,所以本申请相当于借助子信息间的关联信息来得到目标文本处理结果,因为子信息间的关联信息能够反映目标文本中各类信息间的相关性,所以文本处理模型能够保证目标文本的处理准确性,进而保证图文互检的准确性。
请参阅图2,图2为本申请实施例提供的一种图文互检方法的第二流程图。
本申请实施例提供的一种图文互检方法,可以包括以下步骤:
步骤S201:获取待检索的一组目标文本及一组目标图像,目标文本包括表征目标信息的各类子信息。
步骤S202:确定目标文本中的各类子信息。
实际应用中,在确定目标文本对应的目标文本输入信息的过程中,为了使得目标文本输入信息更好的反映目标文本中的信息特征,可以确定目标文本中的各类子信息,以借助子信息对目标文本中的信息进行信息分类,后续再基于目标文本中的子信息来确定相应的目标文本输入信息。
需要说明的是,子信息的类型及数量等可以根据实际需要确定,本申请在此不做具体限定。
步骤S203:确定各个子信息对应的位置信息。
步骤S204:确定各个子信息对应的第一类型信息。
步骤S205:对于每个子信息,将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息,并将所有的初始向量信息的和值作为子信息的第一向量信息。
步骤S206:基于第一向量信息确定目标文本输入信息。
实际应用中,在确定目标文本中的各类子信息之后,便可以确定各个子信息对应的位置信息,比如将子信息在目标文本中的位置作为其对应的位置信息等,或者将子信息在目标文本中的出现先后顺序作为其对应的位置信息等;确定各个子信息对应的第一类型信息,以借助第一类型信息表征子信息的类型;对于每个子信息,将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息,并将所有的初始向量信息的和值作为子信息的第一向量信息,比如基于word2vec工具将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息,再将所有的初始向量信息的和值作为子信息的第一向量信息等;最后基于第一向量信息确定目标文本输入信息。
具体应用场景中,在基于第一向量信息确定目标文本输入信息的过程中,可以确定目标文本的第二类型信息,以借助第二类型信息表征目标文本的类型;将第二类型信息转换为对应的第二向量信息;将第二向量信息和第一向量信息作为目标文本输入信息。
具体应用场景中,自监督学习的对应权重值的确定过程可以包括:对于文本处理模型中的任意两个子信息,均在其中的一个子信息中确定出目标样本,在其中的另一个子信息中确定出与目标样本成对的第一类样本、及与目标样本未成对的第二类样本,确定目标样本与第一类样本间的第一距离值,确定目标样本与第二类样本间的第二距离值;基于所有的第一距离值和第二距离值确定自监督学习的损失值;基于所损失值确定自监督学习的权重值。
具体应用场景中,在基于所有的第一距离值和第二距离值确定自监督学习的损失值的过程中,可以通过自监督学习的损失函数,基于所有的第一距离值和第二距离值确定自监督学习的损失值;
其中,自监督学习的损失函数可以包括:
Figure 467708DEST_PATH_IMAGE035
其中,
Figure 290171DEST_PATH_IMAGE036
表示自监督学习中第
Figure 88362DEST_PATH_IMAGE003
个子信息相对于第
Figure 84000DEST_PATH_IMAGE037
个子信息的损失函数值,
Figure 18458DEST_PATH_IMAGE038
Figure 11822DEST_PATH_IMAGE039
Figure 562889DEST_PATH_IMAGE007
Figure 831059DEST_PATH_IMAGE008
表示子信息的总数量;
Figure 88865DEST_PATH_IMAGE040
表示自监督学习的批次;
Figure 49868DEST_PATH_IMAGE041
表示成对的样本的数量;
Figure 822652DEST_PATH_IMAGE042
表示距离值;
Figure 97775DEST_PATH_IMAGE043
表示在第
Figure 773870DEST_PATH_IMAGE013
个子信息中被选中的第
Figure 905774DEST_PATH_IMAGE014
个目标样本;
Figure 165854DEST_PATH_IMAGE044
表示在第
Figure 775827DEST_PATH_IMAGE045
个子信息中选中的与
Figure 8225DEST_PATH_IMAGE046
成对的第一类样本;
Figure 311030DEST_PATH_IMAGE018
表示在第
Figure 58406DEST_PATH_IMAGE047
个子信息中选中的与
Figure 675333DEST_PATH_IMAGE048
未成对的样本;
Figure 824554DEST_PATH_IMAGE049
表示预设的超参数;
Figure 298261DEST_PATH_IMAGE050
表示求最小值;其中,所有的损失函数值的和值为自监督学习的损失值。为便于理解,假设子信息的数量为3,则
Figure 470616DEST_PATH_IMAGE051
Figure 920927DEST_PATH_IMAGE052
,自监督学习的损失函数值便包括
Figure 190234DEST_PATH_IMAGE053
Figure 569263DEST_PATH_IMAGE054
Figure 228914DEST_PATH_IMAGE055
Figure 249960DEST_PATH_IMAGE056
Figure 108195DEST_PATH_IMAGE057
Figure 126966DEST_PATH_IMAGE058
,具体应用场景中,在应用损失函数值进行自监督学习训练时,可以将所有的损失函数值的和值作为自监督学习的最终函数损失值来进行训练等,本申请在此不做具体限定。需要说明的是,因为自监督学习是指用于机器学习的标注(ground truth)源于数据本身,而非来自人工标注,而在本申请中,各类子信息的特征间互为标签,比如第一文本特征的编码与第二文本特征编码互为标签,相互进行学习,没有人工参与,所以称之为自监督学习。
具体应用场景中,文本处理模型可以包括基于transformer模型及自监督学习搭建的神经网络模型。
具体应用场景中,请参阅图3,文本处理模型可以包括输入层;与输入层连接的多头注意力机制层(Masked Multihead Attention);与输入层及多头注意力机制层连接的第一标准化层(Add+Normalization);与标准化层连接的正向传输层(Feed Forward);与正向传输层及第一标准化层连接的第二标准化层;与第二标准化层顺次连接的第一全连接层(FC)、第一激励层(ReLU)、第二全连接层、自监督分类输出层;与第二标准化层连接的第三全连接层;与第二标准化层连接的第四全连接层;与第二标准化层连接的与子信息一一对应的目标全连接层;与第一全连接层及所有的目标全连接层连接的拼接层;与拼接层连接的第三全连接层。需要说明的是,图3中第一文本信息、第二文本信息及第三文本信息也即目标文本中的相应子信息,此外,第三全连接层输出的便是文本处理模型对目标文本的处理结果。
具体应用场景中,可以在transformer的CLS对应的输出位置,其中,CLS也即目标文本的第二类信息,提取其输出特征,用来进行主动学习分类;比如在训练开始前,以目标文本为诊断数据为例,可以读取所有第一文本信息的数据,生成诊断结果列表。对于诊断结果列表,进行同类合并操作,即相同诊断结果的数据合并成为1个数据,并统计合并的数量。再提取transformer的CLS对应的输出特征,该特征首先经过一个全连接层FC,随后通过ReLU进行非线性映射,最后再通过一个全连接层FC,该特征命名为cla, cla会进行诊断结果分类损失的计算。计算方法如下:
提取医学文本的CLS的特征;
将cla特征与其对应的label求用于多目标分类的BCELoss,其公式如下:
Figure 336231DEST_PATH_IMAGE059
其中,
Figure 629809DEST_PATH_IMAGE060
表示transformer对应的损失函数值;
Figure 545812DEST_PATH_IMAGE061
表示
Figure 532223DEST_PATH_IMAGE062
Figure 730248DEST_PATH_IMAGE063
的维度;
Figure 30779DEST_PATH_IMAGE064
Figure 598027DEST_PATH_IMAGE065
表示运算函数;
Figure 20918DEST_PATH_IMAGE066
表示
Figure 939195DEST_PATH_IMAGE067
中第
Figure 777838DEST_PATH_IMAGE068
个位置的元素,
Figure 730751DEST_PATH_IMAGE069
表示
Figure 58964DEST_PATH_IMAGE070
中第
Figure 402221DEST_PATH_IMAGE071
个位置的元素。
步骤S207:基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果;其中,文本处理模型基于自监督学习搭建,自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习。
步骤S208:基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果。
步骤S209:基于目标文本处理结果及目标图像处理结果,确定目标文本在目标图像中的图像检索结果,和/或确定目标图像在目标文本中的文本检索结果。
实际应用中,请参阅图3,图文互检神经网络模型可以包括基于注意力机制搭建的图像处理模型,图像处理模型用于对目标图像进行处理。
具体应用场景中,图像处理模型可以包括目标数量个图像处理分支、及与图像处理分支连接的第四全连接层;图像处理分支包括输入层,与输入层连接的骨干网络(backbore),与骨干网络连接的第五全连接层,与第五全连接层连接的注意力机制层,与注意力机制层连接的第一归一化层,与第一归一化层连接的乘法器,与乘法器及第五全连接层连接的加法器,与加法器连接的Linear层,与Linear层连接的BiLSTM层;其中,各个图像处理分支中的第一归一化层为同一个;且各个图像处理分支中的BiLSTM层间互相连通。需要说明的是,骨干网络的类型可以根据实际需要确定,比如骨干网络可以为ResNet骨干网络等。此外,图文互检神经网络模型中,文本处理模型与图像处理模型间可以通过输出层、损失层等进行连接,比如在图3中,文本处理模型与图像处理模型间通过GeneralizedPairwise Hinge-loss层连接等,本申请在此不做具体限定。
在图像处理模型中,将图像特征输入到BiLSTM网络,获取整体图像组的总体特征。公式如下:
Figure 106872DEST_PATH_IMAGE072
Figure 914291DEST_PATH_IMAGE073
如上所述,图像也包含逆序和顺序两种,都隐含着时序语义信息,用如上公式对其进行编码。其中,BiLSTM代表BiLSTM网络的每一个单元,
Figure 616667DEST_PATH_IMAGE074
表示顺序,
Figure 742493DEST_PATH_IMAGE075
表示逆序;
Figure 719676DEST_PATH_IMAGE076
代表第
Figure 647181DEST_PATH_IMAGE077
个BiLSTM单元的输出;
Figure 51618DEST_PATH_IMAGE078
代表图像输入特征,
Figure 431783DEST_PATH_IMAGE079
代表第
Figure 212657DEST_PATH_IMAGE080
张图像,
Figure 729089DEST_PATH_IMAGE081
代表本申请的骨干网络;取BiLSTM单元的特征编码输出平均值做为整个医学图的特的输出。如下所示:
Figure 570006DEST_PATH_IMAGE082
其中,
Figure 375151DEST_PATH_IMAGE083
代表图像组特征的输出,用来进行下一步的检索。
具体应用场景中,请参阅图4,本申请中的注意力机制层包括:与第五全连接层连接的第六全连接层,与第六全连接层连接的第二激励层,与第二激励层连接的第七全连接层,与第七全连接层连接的第二归一化层,且第二归一化层与第一归一化层相连接。
在本申请中,图像特征经过骨干网络backbone后获得嵌入式特征,嵌入式特征经过一个全连接层以后获得每张图像的最终的嵌入特征e。最终的嵌入特征e会通过经过attention结构,计算每个特征的权重,该权重是一个数,经过sigmoid层进行归一化。所有图的特征的权重会统一进入softmax层,来判别哪一个图是重要的。最终,经过softmax层后的图的特征权重会与对应的每张图像的最终的嵌入特征e相乘。同时,引入了残差网络的思想,对于每个医学图而言,其注意力结构的输出如下公式所示:
Figure 461181DEST_PATH_IMAGE084
最后,
Figure 97699DEST_PATH_IMAGE085
的图像特征会通过Liner的全连接层FC,得到最终的图特征
Figure 312780DEST_PATH_IMAGE086
具体应用场景中,图文互检神经网络模型中表征图文互检准确性的损失函数可以包括:
Figure 136379DEST_PATH_IMAGE087
其中,
Figure 790215DEST_PATH_IMAGE088
表示批次
Figure 15660DEST_PATH_IMAGE089
中文本与图像间相对的损失函数值;
Figure 401641DEST_PATH_IMAGE090
表示成对的样本的数量;
Figure 978116DEST_PATH_IMAGE091
表示预设的超参数;
Figure 904484DEST_PATH_IMAGE092
表示在目标图像的目标图像处理结果中选中的第
Figure 984435DEST_PATH_IMAGE093
个样本;
Figure 367750DEST_PATH_IMAGE094
表示在目标文本对应的目标文本处理结果中选中的与
Figure 165942DEST_PATH_IMAGE095
成对的样本;
Figure 833683DEST_PATH_IMAGE096
表示求最小值;
Figure 33721DEST_PATH_IMAGE097
表示在目标文本特征处理结果中选中的与
Figure 89401DEST_PATH_IMAGE098
未成对的样本。
需要说明的是,如图5所示,本申请中的数据是成对出现的。一个文本特征的编码对应一个图像组特征编码,即一个图对应一个文本。在loss函数设计中,对于这种成对的数据,可以遍历每一个图像组特征编码和文本特征编码求取损失函数的平均值,如上公式所示。共遍历
Figure 109310DEST_PATH_IMAGE099
次,
Figure 643059DEST_PATH_IMAGE100
代表在本batch(批次)中,共有
Figure 697603DEST_PATH_IMAGE101
个成对的样本。首先对图像组特征
Figure 596289DEST_PATH_IMAGE102
进行遍历(共
Figure 369073DEST_PATH_IMAGE103
个),遍历选中的那个就称为
Figure 207978DEST_PATH_IMAGE104
Figure 117028DEST_PATH_IMAGE105
代表anchor(锚点样本)。与锚点样本成对的文本特征编码记为
Figure 452195DEST_PATH_IMAGE106
Figure 446696DEST_PATH_IMAGE107
代表positive。同理,在本batch中与
Figure 322248DEST_PATH_IMAGE108
不配对的其余所有样本记为
Figure 616963DEST_PATH_IMAGE109
Figure 654189DEST_PATH_IMAGE110
是超参数,在训练时固定,可以设置为0.4等。同理,对于文本特征也做相同的遍历操作,
Figure 604827DEST_PATH_IMAGE111
代表遍历中被选中的那个样本,与其对应的正图像组特征样本记为
Figure 18491DEST_PATH_IMAGE112
,不对应的记为
Figure 167713DEST_PATH_IMAGE113
。用以上loss函数在训练中,进行梯度反传,对级联transformer,BiLSTM,ResNet网络参数进行更新。此外,图文互检神经网络模型的总损失函数可以为所有损失函数的和值等,本申请在此不做具体限定。
请参阅图6,图6为本申请实施例提供的一种图文互检系统的结构示意图。
本申请实施例提供的一种图文互检系统,可以包括:
第一获取模块,用于获取待检索的一组目标文本及一组目标图像,目标文本包括表征目标信息的各类子信息;
第一确定模块,用于确定目标文本对应的目标文本输入信息;
第一处理模块,用于基于预先训练的图文互检神经网络模型中的文本处理模型对目标文本输入信息进行处理,得到目标文本处理结果;其中,文本处理模型基于自监督学习搭建,自监督学习用于基于各类子信息间的关联信息对目标文本进行监督学习;
第二处理模块,用于基于图文互检神经网络模型中的图像处理模型对目标图像进行处理,得到目标图像处理结果;
第二确定模块,用于基于目标文本处理结果及目标图像处理结果,确定目标文本在目标图像中的图像检索结果,和/或确定目标图像在目标文本中的文本检索结果。
本申请实施例提供的一种图文互检系统,第一确定模块可以包括:
第一确定单元,用于确定目标文本中的各类子信息;
第二确定单元,用于确定各个子信息对应的位置信息;
第三确定单元,用于确定各个子信息对应的第一类型信息;
第一转换单元,用于对于每个子信息,将子信息及对应的位置信息、第一类型信息转换为对应的初始向量信息,并将所有的初始向量信息的和值作为子信息的第一向量信息;
第四确定单元,用于基于第一向量信息确定目标文本输入信息。
本申请实施例提供的一种图文互检系统,第四确定单元可以具体用于:确定目标文本的第二类型信息;将第二类型信息转换为对应的第二向量信息;将第二向量信息和第一向量信息作为目标文本输入信息。
本申请实施例提供的一种图文互检系统,自监督学习的对应权重值的确定过程包括:对于文本处理模型中的任意两个子信息,均在其中的一个子信息中确定出目标样本,在其中的另一个子信息中确定出与目标样本成对的第一类样本、及与目标样本未成对的第二类样本,确定目标样本与第一类样本间的第一距离值,确定目标样本与第二类样本间的第二距离值;基于所有的第一距离值和第二距离值确定自监督学习的损失值;基于损失值确定自监督学习的权重值。
本申请实施例提供的一种图文互检系统,基于所有的第一距离值和第二距离值确定自监督学习的损失值,包括:
通过自监督学习的损失函数,基于所有的第一距离值和第二距离值确定自监督学习的损失值;
其中,自监督学习的损失函数包括:
Figure 874375DEST_PATH_IMAGE114
其中,
Figure 46731DEST_PATH_IMAGE115
表示自监督学习中第
Figure 264086DEST_PATH_IMAGE116
个子信息相对于第
Figure 267814DEST_PATH_IMAGE117
个子信息的损失函数值,
Figure 912422DEST_PATH_IMAGE118
Figure 368811DEST_PATH_IMAGE119
Figure 124277DEST_PATH_IMAGE120
Figure 982512DEST_PATH_IMAGE121
表示子信息的总数量;
Figure 1283DEST_PATH_IMAGE122
表示自监督学习的批次;
Figure 679389DEST_PATH_IMAGE123
表示成对的样本的数量;
Figure 5591DEST_PATH_IMAGE124
表示距离值;
Figure 718332DEST_PATH_IMAGE125
表示在第
Figure 908005DEST_PATH_IMAGE126
个子信息中被选中的第
Figure 604565DEST_PATH_IMAGE127
个目标样本;
Figure 701834DEST_PATH_IMAGE128
表示在第
Figure 472344DEST_PATH_IMAGE129
个子信息中选中的与
Figure 629656DEST_PATH_IMAGE130
成对的第一类样本;
Figure 282354DEST_PATH_IMAGE131
表示在第
Figure 448893DEST_PATH_IMAGE132
个子信息中选中的与
Figure 339489DEST_PATH_IMAGE133
未成对的样本;
Figure 667702DEST_PATH_IMAGE134
表示预设的超参数;
Figure 571811DEST_PATH_IMAGE135
表示求最小值;其中,所有的损失函数值的和值为自监督学习的损失值。
本申请实施例提供的一种图文互检系统,文本处理模型包括基于transformer模型及自监督学习搭建的神经网络模型。
本申请实施例提供的一种图文互检系统,文本处理模型包括输入层;与输入层连接的多头注意力机制层;与输入层及多头注意力机制层连接的第一标准化层;与标准化层连接的正向传输层;与正向传输层及第一标准化层连接的第二标准化层;与第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层;与第二标准化层连接的与子信息一一对应的目标全连接层;与第二标准化层连接的第四全连接层;与第二标准化层连接的第五全连接层;与第一全连接层、所有的目标全连接层连接的拼接层;与拼接层连接的第三全连接层。
本申请实施例提供的一种图文互检系统,图像处理模型基于注意力机制搭建。
本申请实施例提供的一种图文互检系统,图像处理模型包括目标数量个图像处理分支、及与图像处理分支连接的第四全连接层;图像处理分支包括输入层,与输入层连接的骨干网络,与骨干网络连接的第五全连接层,与第五全连接层连接的注意力机制层,与注意力机制层连接的第一归一化层,与第一归一化层连接的乘法器,与乘法器及第五全连接层连接的加法器,与加法器连接的Linear层,与Linear层连接的BiLSTM层;
其中,各个图像处理分支中的第一归一化层为同一个;且各个图像处理分支中的BiLSTM层间互相连通。
本申请实施例提供的一种图文互检系统,注意力机制层包括:与第五全连接层连接的第六全连接层,与第六全连接层连接的第二激励层,与第二激励层连接的第七全连接层,与第七全连接层连接的第二归一化层,且第二归一化层与第一归一化层相连接。
本申请实施例提供的一种图文互检系统,图文互检神经网络模型中的损失函数包括:
Figure 10882DEST_PATH_IMAGE137
其中,
Figure 755984DEST_PATH_IMAGE138
表示批次
Figure 520678DEST_PATH_IMAGE089
中文本与图像间相对的损失函数值;
Figure 147969DEST_PATH_IMAGE090
表示成对的样本的数量;
Figure 593993DEST_PATH_IMAGE139
表示预设的超参数;
Figure 255919DEST_PATH_IMAGE092
表示在目标图像的目标图像处理结果中选中的第
Figure 925935DEST_PATH_IMAGE093
个样本;
Figure 40521DEST_PATH_IMAGE140
表示在目标文本对应的目标文本处理结果中选中的与
Figure 86975DEST_PATH_IMAGE141
成对的样本;
Figure 806669DEST_PATH_IMAGE142
表示求最小值;
Figure 414630DEST_PATH_IMAGE143
表示在目标文本特征处理结果中选中的与
Figure 750933DEST_PATH_IMAGE144
未成对的样本。
本申请实施例提供的一种图文互检系统,骨干网络包括ResNet网络。
本申请还提供了一种图文互检设备及计算机可读存储介质,其均具有本申请实施例提供的一种图文互检方法具有的对应效果。请参阅图7,图7为本申请实施例提供的一种图文互检设备的结构示意图。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:
获取待检索的一组目标文本及一组目标图像,所述目标文本包括表征目标信息的各类子信息;
确定所述目标文本对应的目标文本输入信息;
基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理,得到目标文本处理结果;其中,所述文本处理模型基于自监督学习搭建,所述自监督学习用于基于各类所述子信息间的关联信息对所述目标文本进行监督学习;
基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理,得到目标图像处理结果;
基于所述目标文本处理结果及所述目标图像处理结果,确定所述目标文本在所述目标图像中的图像检索结果,和/或确定所述目标图像在所述目标文本中的文本检索结果。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:确定所述目标文本中的各类所述子信息;确定各个所述子信息对应的位置信息;确定各个所述子信息对应的第一类型信息;对于每个所述子信息,将所述子信息及对应的所述位置信息、所述第一类型信息转换为对应的初始向量信息,并将所有的所述初始向量信息的和值作为所述子信息的第一向量信息;基于所述第一向量信息确定所述目标文本输入信息。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:确定所述目标文本的第二类型信息;将所述第二类型信息转换为对应的第二向量信息;将所述第二向量信息和所述第一向量信息作为所述目标文本输入信息。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述自监督学习的对应权重值的确定过程包括:对于所述文本处理模型中的任意两个所述子信息,均在其中的一个所述子信息中确定出目标样本,在其中的另一个所述子信息中确定出与所述目标样本成对的第一类样本、及与所述目标样本未成对的第二类样本,确定所述目标样本与所述第一类样本间的第一距离值,确定所述目标样本与所述第二类样本间的第二距离值;基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;基于所述损失值确定所述自监督学习的所述权重值。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过所述自监督学习的损失函数,基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;
其中,所述自监督学习的损失函数包括:
Figure 538761DEST_PATH_IMAGE145
其中,
Figure 175279DEST_PATH_IMAGE146
表示所述自监督学习中第
Figure 187097DEST_PATH_IMAGE116
个所述子信息相对于第
Figure 479538DEST_PATH_IMAGE147
个所述子信息的损失函数值,
Figure 602215DEST_PATH_IMAGE148
Figure 358818DEST_PATH_IMAGE149
Figure 541538DEST_PATH_IMAGE120
Figure 852434DEST_PATH_IMAGE121
表示所述子信息的总数量;
Figure 982064DEST_PATH_IMAGE122
表示所述自监督学习的批次;
Figure 849567DEST_PATH_IMAGE123
表示成对的样本的数量;
Figure 203188DEST_PATH_IMAGE124
表示距离值;
Figure 266959DEST_PATH_IMAGE125
表示在第
Figure 200280DEST_PATH_IMAGE126
个所述子信息中被选中的第
Figure 400317DEST_PATH_IMAGE127
个所述目标样本;
Figure 190418DEST_PATH_IMAGE150
表示在第
Figure 679169DEST_PATH_IMAGE129
个所述子信息中选中的与
Figure 212918DEST_PATH_IMAGE130
成对的所述第一类样本;
Figure 533041DEST_PATH_IMAGE151
表示在第
Figure 228464DEST_PATH_IMAGE132
个所述子信息中选中的与
Figure 502713DEST_PATH_IMAGE133
未成对的样本;
Figure 574574DEST_PATH_IMAGE152
表示预设的超参数;
Figure 686887DEST_PATH_IMAGE153
表示求最小值;其中,所有的所述损失函数值的和值为所述自监督学习的损失值。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述文本处理模型包括基于transformer模型及所述自监督学习搭建的神经网络模型。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述文本处理模型包括输入层;与所述输入层连接的多头注意力机制层;与所述输入层及所述多头注意力机制层连接的第一标准化层;与所述标准化层连接的正向传输层;与所述正向传输层及所述第一标准化层连接的第二标准化层;与所述第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层;与所述第二标准化层连接的与所述子信息一一对应的目标全连接层;与所述第二标准化层连接的第四全连接层;与所述第二标准化层连接的第五全连接层;与所述第一全连接层、所有的所述目标全连接层连接的拼接层;与所述拼接层连接的第三全连接层。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述图像处理模型基于注意力机制搭建。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述图像处理模型包括目标数量个图像处理分支、及与所述图像处理分支连接的第四全连接层;所述图像处理分支包括输入层,与所述输入层连接的骨干网络,与所述骨干网络连接的第五全连接层,与所述第五全连接层连接的注意力机制层,与所述注意力机制层连接的第一归一化层,与所述第一归一化层连接的乘法器,与所述乘法器及所述第五全连接层连接的加法器,与所述加法器连接的Linear层,与所述Linear层连接的BiLSTM层;其中,各个所述图像处理分支中的所述第一归一化层为同一个;且各个所述图像处理分支中的所述BiLSTM层间互相连通。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述注意力机制层包括:与所述第五全连接层连接的第六全连接层,与所述第六全连接层连接的第二激励层,与所述第二激励层连接的第七全连接层,与所述第七全连接层连接的第二归一化层,且所述第二归一化层与所述第一归一化层相连接。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述图文互检神经网络模型中的损失函数包括:
Figure 818791DEST_PATH_IMAGE154
其中,
Figure 813292DEST_PATH_IMAGE155
表示批次
Figure 954423DEST_PATH_IMAGE089
中文本与图像间相对的损失函数值;
Figure 717980DEST_PATH_IMAGE090
表示成对的样本的数量;
Figure 643954DEST_PATH_IMAGE156
表示预设的超参数;
Figure 125751DEST_PATH_IMAGE092
表示在所述目标图像的所述目标图像处理结果中选中的第
Figure 742677DEST_PATH_IMAGE093
个样本;
Figure 891899DEST_PATH_IMAGE157
表示在所述目标文本对应的所述目标文本处理结果中选中的与
Figure 365605DEST_PATH_IMAGE158
成对的样本;
Figure 537961DEST_PATH_IMAGE159
表示求最小值;
Figure 755316DEST_PATH_IMAGE160
表示在所述目标文本特征处理结果中选中的与
Figure 759044DEST_PATH_IMAGE161
未成对的样本。
本申请实施例提供的一种图文互检设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:所述骨干网络包括ResNet网络。
请参阅图8,本申请实施例提供的另一种图文互检设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现图文互检设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接:无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
获取待检索的一组目标文本及一组目标图像,所述目标文本包括表征目标信息的各类子信息;
确定所述目标文本对应的目标文本输入信息;
基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理,得到目标文本处理结果;其中,所述文本处理模型基于自监督学习搭建,所述自监督学习用于基于各类所述子信息间的关联信息对所述目标文本进行监督学习;
基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理,得到目标图像处理结果;
基于所述目标文本处理结果及所述目标图像处理结果,确定所述目标文本在所述目标图像中的图像检索结果,和/或确定所述目标图像在所述目标文本中的文本检索结果。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:确定所述目标文本中的各类所述子信息;确定各个所述子信息对应的位置信息;确定各个所述子信息对应的第一类型信息;对于每个所述子信息,将所述子信息及对应的所述位置信息、所述第一类型信息转换为对应的初始向量信息,并将所有的所述初始向量信息的和值作为所述子信息的第一向量信息;基于所述第一向量信息确定所述目标文本输入信息。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:确定所述目标文本的第二类型信息;将所述第二类型信息转换为对应的第二向量信息;将所述第二向量信息和所述第一向量信息作为所述目标文本输入信息。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述自监督学习的对应权重值的确定过程包括:对于所述文本处理模型中的任意两个所述子信息,均在其中的一个所述子信息中确定出目标样本,在其中的另一个所述子信息中确定出与所述目标样本成对的第一类样本、及与所述目标样本未成对的第二类样本,确定所述目标样本与所述第一类样本间的第一距离值,确定所述目标样本与所述第二类样本间的第二距离值;基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;基于所述损失值确定所述自监督学习的所述权重值。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过所述自监督学习的损失函数,基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;
其中,所述自监督学习的损失函数包括:
Figure 905116DEST_PATH_IMAGE162
其中,
Figure 361506DEST_PATH_IMAGE163
表示所述自监督学习中第
Figure 320234DEST_PATH_IMAGE116
个所述子信息相对于第
Figure 444048DEST_PATH_IMAGE164
个所述子信息的损失函数值,
Figure 728399DEST_PATH_IMAGE165
Figure 937663DEST_PATH_IMAGE166
Figure 496821DEST_PATH_IMAGE167
Figure 209562DEST_PATH_IMAGE121
表示所述子信息的总数量;
Figure 195972DEST_PATH_IMAGE168
表示所述自监督学习的批次;
Figure 564637DEST_PATH_IMAGE123
表示成对的样本的数量;
Figure 160441DEST_PATH_IMAGE124
表示距离值;
Figure 258847DEST_PATH_IMAGE169
表示在第
Figure 416159DEST_PATH_IMAGE126
个所述子信息中被选中的第
Figure 68857DEST_PATH_IMAGE127
个所述目标样本;
Figure 173079DEST_PATH_IMAGE128
表示在第
Figure 860413DEST_PATH_IMAGE170
个所述子信息中选中的与
Figure 454205DEST_PATH_IMAGE171
成对的所述第一类样本;
Figure 594199DEST_PATH_IMAGE172
表示在第
Figure 33271DEST_PATH_IMAGE173
个所述子信息中选中的与
Figure 778373DEST_PATH_IMAGE174
未成对的样本;
Figure 778952DEST_PATH_IMAGE152
表示预设的超参数;
Figure 406243DEST_PATH_IMAGE175
表示求最小值;其中,所有的所述损失函数值的和值为所述自监督学习的损失值。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述文本处理模型包括基于transformer模型及所述自监督学习搭建的神经网络模型。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述文本处理模型包括输入层;与所述输入层连接的多头注意力机制层;与所述输入层及所述多头注意力机制层连接的第一标准化层;与所述标准化层连接的正向传输层;与所述正向传输层及所述第一标准化层连接的第二标准化层;与所述第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层;与所述第二标准化层连接的与所述子信息一一对应的目标全连接层;与所述第二标准化层连接的第四全连接层;与所述第二标准化层连接的第五全连接层;与所述第一全连接层、所有的所述目标全连接层连接的拼接层;与所述拼接层连接的第三全连接层。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述图像处理模型基于注意力机制搭建。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述图像处理模型包括目标数量个图像处理分支、及与所述图像处理分支连接的第四全连接层;所述图像处理分支包括输入层,与所述输入层连接的骨干网络,与所述骨干网络连接的第五全连接层,与所述第五全连接层连接的注意力机制层,与所述注意力机制层连接的第一归一化层,与所述第一归一化层连接的乘法器,与所述乘法器及所述第五全连接层连接的加法器,与所述加法器连接的Linear层,与所述Linear层连接的BiLSTM层;其中,各个所述图像处理分支中的所述第一归一化层为同一个;且各个所述图像处理分支中的所述BiLSTM层间互相连通。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述注意力机制层包括:与所述第五全连接层连接的第六全连接层,与所述第六全连接层连接的第二激励层,与所述第二激励层连接的第七全连接层,与所述第七全连接层连接的第二归一化层,且所述第二归一化层与所述第一归一化层相连接。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述图文互检神经网络模型中的损失函数包括:
Figure 914584DEST_PATH_IMAGE176
其中,
Figure 514193DEST_PATH_IMAGE088
表示批次
Figure 980946DEST_PATH_IMAGE089
中文本与图像间相对的损失函数值;
Figure 298795DEST_PATH_IMAGE090
表示成对的样本的数量;
Figure 345249DEST_PATH_IMAGE156
表示预设的超参数;
Figure 861681DEST_PATH_IMAGE177
表示在所述目标图像的所述目标图像处理结果中选中的第
Figure 702598DEST_PATH_IMAGE093
个样本;
Figure 507743DEST_PATH_IMAGE178
表示在所述目标文本对应的所述目标文本处理结果中选中的与
Figure 590843DEST_PATH_IMAGE158
成对的样本;
Figure 227361DEST_PATH_IMAGE179
表示求最小值;
Figure 239179DEST_PATH_IMAGE180
表示在所述目标文本特征处理结果中选中的与
Figure 531620DEST_PATH_IMAGE161
未成对的样本。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:所述骨干网络包括ResNet网络。
本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的图文互检系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的图文互检方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种图文互检方法,其特征在于,包括:
获取待检索的一组目标文本及一组目标图像,所述目标文本包括表征目标信息的各类子信息;
确定所述目标文本对应的目标文本输入信息;
基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理,得到目标文本处理结果;其中,所述文本处理模型基于自监督学习搭建,所述自监督学习用于基于各类所述子信息间的关联与否为所述目标文本建立标签;
基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理,得到目标图像处理结果;
基于所述目标文本处理结果及所述目标图像处理结果,确定所述目标文本在所述目标图像中的图像检索结果,和/或确定所述目标图像在所述目标文本中的文本检索结果;
其中,所述确定所述目标文本对应的目标文本输入信息,包括:确定所述目标文本中的各类所述子信息;确定各个所述子信息对应的位置信息;确定各个所述子信息对应的第一类型信息;对于每个所述子信息,将所述子信息及对应的所述位置信息、所述第一类型信息转换为对应的初始向量信息,并将所有的所述初始向量信息的和值作为所述子信息的第一向量信息;基于所述第一向量信息确定所述目标文本输入信息;
其中,所述基于所述第一向量信息确定所述目标文本输入信息,包括:确定所述目标文本的第二类型信息;将所述第二类型信息转换为对应的第二向量信息;将所述第二向量信息和所述第一向量信息作为所述目标文本输入信息;
其中,所述自监督学习的对应权重值的确定过程包括:对于所述文本处理模型中的任意两个所述子信息,均在其中的一个所述子信息中确定出目标样本,在其中的另一个所述子信息中确定出与所述目标样本成对的第一类样本、及与所述目标样本未成对的第二类样本,确定所述目标样本与所述第一类样本间的第一距离值,确定所述目标样本与所述第二类样本间的第二距离值;基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;基于所述损失值确定所述自监督学习的所述权重值;
其中,所述基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值,包括:
通过所述自监督学习的损失函数,基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;
其中,所述自监督学习的损失函数包括:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
表示所述自监督学习中第
Figure DEST_PATH_IMAGE006
个所述子信息相对于第
Figure DEST_PATH_IMAGE008
个所述子信息的损失函数值,
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
表示所述子信息的总数量;
Figure DEST_PATH_IMAGE018
表示所述自监督学习的批次;
Figure DEST_PATH_IMAGE020
表示成对的样本的数量;
Figure DEST_PATH_IMAGE022
表示距离值;
Figure DEST_PATH_IMAGE024
表示在第
Figure DEST_PATH_IMAGE026
个所述子信息中被选中的第
Figure DEST_PATH_IMAGE028
个所述目标样本;
Figure DEST_PATH_IMAGE030
表示在第
Figure DEST_PATH_IMAGE032
个所述子信息中选中的与
Figure DEST_PATH_IMAGE034
成对的所述第一类样本;
Figure DEST_PATH_IMAGE036
表示在第
Figure DEST_PATH_IMAGE038
个所述子信息中选中的与
Figure DEST_PATH_IMAGE040
未成对的样本;
Figure DEST_PATH_IMAGE042
表示预设的超参数;
Figure DEST_PATH_IMAGE044
表示求最小值;其中,所有的所述损失函数值的和值为所述自监督学习的损失值。
2.根据权利要求1所述的方法,其特征在于,所述文本处理模型包括基于transformer模型及所述自监督学习搭建的神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述文本处理模型包括输入层;与所述输入层连接的多头注意力机制层;与所述输入层及所述多头注意力机制层连接的第一标准化层;与所述第一标准化层连接的正向传输层;与所述正向传输层及所述第一标准化层连接的第二标准化层;与所述第二标准化层顺次连接的第一全连接层、第一激励层、第二全连接层、自监督分类输出层;与所述第二标准化层连接的与所述子信息一一对应的目标全连接层;与所述第一全连接层、所有的所述目标全连接层连接的拼接层;与所述拼接层连接的第三全连接层。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述图像处理模型基于注意力机制搭建。
5.根据权利要求4所述的方法,其特征在于,所述图像处理模型包括目标数量个图像处理分支、及与所述图像处理分支连接的第四全连接层;所述图像处理分支包括输入层,与所述输入层连接的骨干网络,与所述骨干网络连接的第五全连接层,与所述第五全连接层连接的注意力机制层,与所述注意力机制层连接的第一归一化层,与所述第一归一化层连接的乘法器,与所述乘法器及所述第五全连接层连接的加法器,与所述加法器连接的Linear层,与所述Linear层连接的BiLSTM层;
其中,各个所述图像处理分支中的所述第一归一化层为同一个;且各个所述图像处理分支中的所述BiLSTM层间互相连通。
6.根据权利要求5所述的方法,其特征在于,所述注意力机制层包括:与所述第五全连接层连接的第六全连接层,与所述第六全连接层连接的第二激励层,与所述第二激励层连接的第七全连接层,与所述第七全连接层连接的第二归一化层,且所述第二归一化层与所述第一归一化层相连接。
7.根据权利要求6所述的方法,其特征在于,所述图文互检神经网络模型中的损失函数包括:
Figure DEST_PATH_IMAGE046
其中,
Figure DEST_PATH_IMAGE048
表示批次
Figure DEST_PATH_IMAGE050
中文本与图像间相对的损失函数值;
Figure DEST_PATH_IMAGE052
表示成对的样本的数量;
Figure DEST_PATH_IMAGE054
表示预设的超参数;
Figure DEST_PATH_IMAGE056
表示在所述目标图像的所述目标图像处理结果中选中的第
Figure DEST_PATH_IMAGE058
个样本;
Figure DEST_PATH_IMAGE060
表示在所述目标文本对应的所述目标文本处理结果中选中的与
Figure 809608DEST_PATH_IMAGE056
成对的样本;
Figure DEST_PATH_IMAGE062
表示求最小值;
Figure DEST_PATH_IMAGE064
表示在所述目标文本特征处理结果中选中的与
Figure 694387DEST_PATH_IMAGE056
未成对的样本。
8.根据权利要求5所述的方法,其特征在于,所述骨干网络包括ResNet网络。
9.一种图文互检系统,其特征在于,包括:
第一获取模块,用于获取待检索的一组目标文本及一组目标图像,所述目标文本包括表征目标信息的各类子信息;
第一确定模块,用于确定所述目标文本对应的目标文本输入信息;
第一处理模块,用于基于预先训练的图文互检神经网络模型中的文本处理模型对所述目标文本输入信息进行处理,得到目标文本处理结果;其中,所述文本处理模型基于自监督学习搭建,所述自监督学习用于基于各类所述子信息间的关联与否为所述目标文本建立标签;
第二处理模块,用于基于所述图文互检神经网络模型中的图像处理模型对所述目标图像进行处理,得到目标图像处理结果;
第二确定模块,用于基于所述目标文本处理结果及所述目标图像处理结果,确定所述目标文本在所述目标图像中的图像检索结果,和/或确定所述目标图像在所述目标文本中的文本检索结果;
其中,所述第一确定模块包括:
第一确定单元,用于确定所述目标文本中的各类所述子信息;
第二确定单元,用于确定各个所述子信息对应的位置信息;
第三确定单元,用于确定各个所述子信息对应的第一类型信息;
第一转换单元,用于对于每个所述子信息,将所述子信息及对应的所述位置信息、所述第一类型信息转换为对应的初始向量信息,并将所有的所述初始向量信息的和值作为所述子信息的第一向量信息;
第四确定单元,用于基于所述第一向量信息确定所述目标文本输入信息;
其中,所述第四确定单元用于:确定所述目标文本的第二类型信息;将所述第二类型信息转换为对应的第二向量信息;将所述第二向量信息和所述第一向量信息作为所述目标文本输入信息;
其中,所述自监督学习的对应权重值的确定过程包括:对于所述文本处理模型中的任意两个所述子信息,均在其中的一个所述子信息中确定出目标样本,在其中的另一个所述子信息中确定出与所述目标样本成对的第一类样本、及与所述目标样本未成对的第二类样本,确定所述目标样本与所述第一类样本间的第一距离值,确定所述目标样本与所述第二类样本间的第二距离值;基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;基于所述损失值确定所述自监督学习的所述权重值;
其中,所述基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值,包括:
通过所述自监督学习的损失函数,基于所有的所述第一距离值和所述第二距离值确定所述自监督学习的损失值;
其中,所述自监督学习的损失函数包括:
Figure DEST_PATH_IMAGE065
其中,
Figure 430262DEST_PATH_IMAGE004
表示所述自监督学习中第
Figure 894742DEST_PATH_IMAGE006
个所述子信息相对于第
Figure 157096DEST_PATH_IMAGE008
个所述子信息的损失函数值,
Figure 353722DEST_PATH_IMAGE010
Figure 701526DEST_PATH_IMAGE012
Figure 704118DEST_PATH_IMAGE014
Figure 430765DEST_PATH_IMAGE016
表示所述子信息的总数量;
Figure 126189DEST_PATH_IMAGE018
表示所述自监督学习的批次;
Figure 961289DEST_PATH_IMAGE020
表示成对的样本的数量;
Figure 439675DEST_PATH_IMAGE022
表示距离值;
Figure 348725DEST_PATH_IMAGE024
表示在第
Figure 297875DEST_PATH_IMAGE026
个所述子信息中被选中的第
Figure 230059DEST_PATH_IMAGE028
个所述目标样本;
Figure 574453DEST_PATH_IMAGE030
表示在第
Figure 665905DEST_PATH_IMAGE032
个所述子信息中选中的与
Figure 640815DEST_PATH_IMAGE034
成对的所述第一类样本;
Figure 653770DEST_PATH_IMAGE036
表示在第
Figure 129751DEST_PATH_IMAGE038
个所述子信息中选中的与
Figure 747814DEST_PATH_IMAGE040
未成对的样本;
Figure 893624DEST_PATH_IMAGE042
表示预设的超参数;
Figure 925034DEST_PATH_IMAGE044
表示求最小值;其中,所有的所述损失函数值的和值为所述自监督学习的损失值。
10.一种图文互检设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述图文互检方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述图文互检方法的步骤。
CN202210812205.4A 2022-07-12 2022-07-12 一种图文互检方法、系统、设备及计算机可读存储介质 Active CN114896429B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210812205.4A CN114896429B (zh) 2022-07-12 2022-07-12 一种图文互检方法、系统、设备及计算机可读存储介质
PCT/CN2022/134091 WO2024011814A1 (zh) 2022-07-12 2022-11-24 一种图文互检方法、系统、设备及非易失性可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210812205.4A CN114896429B (zh) 2022-07-12 2022-07-12 一种图文互检方法、系统、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114896429A CN114896429A (zh) 2022-08-12
CN114896429B true CN114896429B (zh) 2022-12-27

Family

ID=82729397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210812205.4A Active CN114896429B (zh) 2022-07-12 2022-07-12 一种图文互检方法、系统、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN114896429B (zh)
WO (1) WO2024011814A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896429B (zh) * 2022-07-12 2022-12-27 苏州浪潮智能科技有限公司 一种图文互检方法、系统、设备及计算机可读存储介质
CN115618043B (zh) * 2022-11-08 2023-04-07 苏州浪潮智能科技有限公司 文本操作图互检方法及模型训练方法、装置、设备、介质
CN115438169A (zh) * 2022-11-08 2022-12-06 苏州浪潮智能科技有限公司 一种文本与视频的互检方法、装置、设备及存储介质
CN115455171B (zh) * 2022-11-08 2023-05-23 苏州浪潮智能科技有限公司 文本视频的互检索以及模型训练方法、装置、设备及介质
CN115438215B (zh) * 2022-11-08 2023-04-18 苏州浪潮智能科技有限公司 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN115438225B (zh) * 2022-11-08 2023-03-24 苏州浪潮智能科技有限公司 视频文本互检方法及其模型训练方法、装置、设备、介质
CN115730878B (zh) * 2022-12-15 2024-01-12 广东省电子口岸管理有限公司 基于数据识别的货物进出口查验管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590867A (zh) * 2021-08-05 2021-11-02 西安电子科技大学 基于分层度量学习的跨模态信息检索方法
CN113657450A (zh) * 2021-07-16 2021-11-16 中国人民解放军陆军炮兵防空兵学院 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN114239805A (zh) * 2021-12-15 2022-03-25 成都卫士通信息产业股份有限公司 跨模态检索神经网络及训练方法、装置、电子设备、介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN113064959B (zh) * 2020-01-02 2022-09-23 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质
CN112488131B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于自监督对抗的图片文本跨模态检索方法
CN112905822B (zh) * 2021-02-02 2022-07-01 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN114896429B (zh) * 2022-07-12 2022-12-27 苏州浪潮智能科技有限公司 一种图文互检方法、系统、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657450A (zh) * 2021-07-16 2021-11-16 中国人民解放军陆军炮兵防空兵学院 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN113590867A (zh) * 2021-08-05 2021-11-02 西安电子科技大学 基于分层度量学习的跨模态信息检索方法
CN114239805A (zh) * 2021-12-15 2022-03-25 成都卫士通信息产业股份有限公司 跨模态检索神经网络及训练方法、装置、电子设备、介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Dense-Scale Feature Learning in Person Re-Identification;Li Wang等;《ACCV》;20201231;第1-17页 *

Also Published As

Publication number Publication date
CN114896429A (zh) 2022-08-12
WO2024011814A1 (zh) 2024-01-18

Similar Documents

Publication Publication Date Title
CN114896429B (zh) 一种图文互检方法、系统、设备及计算机可读存储介质
JP2020523699A (ja) 関心点コピーの生成
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN116402063B (zh) 多模态讽刺识别方法、装置、设备以及存储介质
CN114782694B (zh) 无监督异常检测方法、系统、设备及存储介质
CN111950728B (zh) 图像特征提取模型的构建方法、图像检索方法及存储介质
CN111783457B (zh) 一种基于多模态图卷积网络的语义视觉定位方法及装置
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN113487629B (zh) 一种基于结构化场景和文本描述的图像属性编辑方法
CN115438215B (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN110929772A (zh) 模型训练方法、样本生成方法、装置、电子设备及存储介质
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN116049459A (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN115618045A (zh) 一种视觉问答方法、装置及存储介质
CN115658955B (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN111105013A (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
CN115438225B (zh) 视频文本互检方法及其模型训练方法、装置、设备、介质
CN113095314A (zh) 一种公式识别方法、装置、存储介质及设备
CN113987196A (zh) 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN115438169A (zh) 一种文本与视频的互检方法、装置、设备及存储介质
CN114972944A (zh) 视觉问答模型的训练方法及装置、问答方法、介质、设备
CN114359592A (zh) 模型训练及图像处理方法、装置、设备、存储介质
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN116340635A (zh) 物品推荐方法、模型训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant