CN115270754A

CN115270754A - 跨模态匹配方法及相关装置、电子设备、存储介质

Info

Publication number: CN115270754A
Application number: CN202211138842.4A
Authority: CN
Inventors: 刘浩宇; 李直旭; 陈志刚; 郑新; 何莹
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-11-01
Anticipated expiration: 2042-09-19
Also published as: CN115270754B

Abstract

本申请公开了一种跨模态匹配方法及相关装置、电子设备、存储介质，其中，跨模态匹配方法包括：获取待匹配文本和待匹配图像；获取任一对待匹配文本和待匹配图像之间的匹配分值；基于任一对待匹配文本和待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对；其中，匹配分值基于跨模态匹配模型对待匹配文本和待匹配图像匹配分析得到，跨模态匹配模型基于样本数据训练得到，样本数据包括样本图像、与样本图像匹配的样本正例文本和与样本图像不匹配的样本负例文本，且样本负例文本基于知识图谱对样本正例文本进行改造得到。上述方案，能够提升跨模态匹配的匹配精度。

Description

跨模态匹配方法及相关装置、电子设备、存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种跨模态匹配方法及相关装置、电子设备、存储介质。

背景技术

跨模态匹配是以一种模态的数据去匹配另一种模态的数据，以匹配出模态不同但含义相同的数据对。以图文匹配为例，可以以图像去匹配文本，或以文本去匹配图像，以匹配出含义相同的图文对。

随着深度学习技术的不断发展，为提高跨模态匹配效率和精度，目前通常采用深度学习的网络模型（如，自下而上的注意力机制等）实现跨模态匹配。然而，现有网络模型的模型性能仍有待提高，导致跨模态匹配的匹配精度欠佳。有鉴于此，如何提升跨模态匹配的匹配精度，成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种跨模态匹配方法及相关装置、电子设备、存储介质，能够提升跨模态匹配的匹配精度。

为了解决上述技术问题，本申请第一方面提供了一种跨模态匹配方法，包括：获取待匹配文本和待匹配图像；获取任一对待匹配文本和待匹配图像之间的匹配分值；基于任一对待匹配文本和待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对；其中，匹配分值基于跨模态匹配模型对待匹配文本和待匹配图像匹配分析得到，跨模态匹配模型基于样本数据训练得到，样本数据包括样本图像、与样本图像匹配的样本正例文本和与样本图像不匹配的样本负例文本，且样本负例文本基于知识图谱对样本正例文本进行改造得到。

为了解决上述技术问题，本申请第二方面提供了一种跨模态匹配装置，包括：获取模块、度量模块和匹配模块，获取模块用于获取待匹配文本和待匹配图像；度量模块用于获取任一对待匹配文本和待匹配图像之间的匹配分值；匹配模块用于基于任一对待匹配文本和待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对；其中，匹配分值基于跨模态匹配模型对待匹配文本和待匹配图像匹配分析得到，跨模态匹配模型基于样本数据训练得到，样本数据包括样本图像、与样本图像匹配的样本正例文本和与样本图像不匹配的样本负例文本，且样本负例文本基于知识图谱对样本正例文本进行改造得到。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面的跨模态匹配方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面的跨模态匹配方法。

上述方案，获取待匹配文本和待匹配图像，并获取任一对待匹配文本和待匹配图像之间的匹配分值，从而基于任一对待匹配文本和待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对，且匹配分值基于跨模态匹配模型对待匹配文本和待匹配图像匹配分析得到，跨模态匹配模型基于样本数据训练得到，样本数据包括样本图像、与样本图像匹配的样本正例文本和与样本图像不匹配的样本负例文本，且样本负例文本基于知识图谱对样本正例文本进行改造得到，一方面由于在跨模态匹配模型的训练过程中不仅参考与样本图像匹配的样本正例文本，还参考与样本图像不匹配的样本负例文本，故跨模态匹配模型不仅能够学习到匹配图文对的特征信息，还能够学习到不匹配图文对的特征信息，从而迫使跨模态匹配模型学习到更多有用信息，有助于增进跨模态匹配模型的训练效果，另一方面区别于从同一批样本数据中抽取其他样本图像的样本正例文本作为当前样本图像的样本负例文本，具有局限于样本数据的技术缺陷，通过基于知识图谱对样本正例文本进行改造得到样本负例文本，能够使样本负例文本的构造不受样本数据本身的局限，有助于进一步使得样本负例文本难以分辨，从而能够迫使跨模态匹配模型经训练后能够进一步提升对于匹配对图文对、不匹配图文对的辨别能力。故此，能够提升跨模态匹配的匹配精度。

附图说明

图1是本申请跨模态匹配方法一实施例的流程示意图；

图2是本申请跨模态匹配方法一实施例的过程示意图；

图3是构造样本负例文本一实施例的过程示意图；

图4是本申请跨模态匹配装置一实施例的框架示意图；

图5是本申请电子设备一实施例的框架示意图；

图6是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中片段“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请跨模态匹配方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取待匹配文本和待匹配图像。

本公开实施例中，对跨模态匹配中待匹配文本和待匹配图像各自的数量不做限定。例如，待匹配文本可以仅有一个，而待匹配图像可以有多个，或者，待匹配文本可以有多个，而待匹配图像可以仅有一个，或者，待匹配文本可以有多个，待匹配图像也可以有多个，在此不做限定。

在一个实施场景中，跨模态匹配可以是以文配图，即基于已知的一个待匹配文本，从若干待匹配图像中，确定与待匹配文本相匹配的待匹配图像。示例性地，待匹配文本为“阳光灿烂”，若干待匹配图像包括：一张下雨的图像、一张乌云密布的图像、一张阳光明媚的图像，通过本公开实施例，可以确定最后一张待匹配图像与待匹配文本相匹配。其他情况可以以此类推，在此不再一一举例。

在另一个实施场景中，跨模态匹配也可以是以图配文，即基于已知的一个待匹配图像，从若干待匹配文本中，确定与待匹配图像相匹配的待匹配文本。示例性地，待匹配图像为一张阳光明媚的图像，若干待匹配文本包括：“暴雨连天”、“乌云密布”、“阳光灿烂”，通过本公开实施例，可以确定最后一个待匹配文本与待匹配图像相匹配。其他情况可以以此类推，在此不再一一举例。

在又一个实施场景中，跨模态匹配还可以是图文互配，即基于已知的若干待匹配图像和若干待匹配文本，确定出若干对相互匹配的待匹配图像和待匹配文本。示例性地，若干待匹配图像包括：一张下雨的图像、一张乌云密布的图像、一张阳光明媚的图像，若干待匹配文本包括：“暴雨连天”、“乌云密布”、“阳光灿烂”，通过本公开实施例，可以确定乌云密布的图像与文本“乌云密布”相匹配，并确定下雨的图像与文本“暴雨连天”相匹配，以及确定阳光明媚的图像与文本“阳光灿烂”相匹配，即共可以确定三对相互匹配的待匹配图像和待匹配文本。其他情况可以以此类推，在此不再一一举例。

步骤S12：获取任一对待匹配文本和待匹配图像之间的匹配分值。

本公开实施例中，对于任意两对待匹配文本和待匹配图像而言，至图像和文本至少存在一者不同。也就是说，对于任意两对待匹配文本和待匹配图像而言，要么待匹配图像不同，要么待匹配文本不同，要么待匹配图像和待匹配文本都不同。

在一个实施场景中，以跨模态匹配是以文配图为例，已知的一个待匹配文本可以分别与各个待匹配图像构成一对。示例性地，待匹配文本为“阳光灿烂”可以分别和下雨的图像、乌云密布的图像、阳光明媚的图像构成一对。其他情况可以以此类推，在此不再一一举例。

在另一个实施场景中，以跨模态匹配是以图配文为例，已知的一个待匹配图像可以分别与各个待匹配文本构成一对。示例性地，阳光明媚的图像可以分别和文本“暴雨连天”、“乌云密布”、“阳光灿烂”构成一对。其他情况可以以此类推，在此不再一一举例。

在又一个实施场景中，以跨模态匹配是图文互配为例，对于每一个待匹配文本来说，可以分别与各个待匹配图像构成一对。示例性地，下雨的图像可以分别和文本“暴雨连天”、“乌云密布”、“阳光灿烂”构成一对，乌云密布的图像可以分别和文本“暴雨连天”、“乌云密布”、“阳光灿烂”构成一对，阳光明媚的图像可以分别和文本“暴雨连天”、“乌云密布”、“阳光灿烂”构成一对。其他情况可以以此类推，在此不再一一举例。

本公开实施例中，匹配分值基于跨模态匹配模型对待匹配文本和待匹配图像匹配分析得到。具体地，可以将获取到的待匹配文本和待匹配图像输入到跨模态匹配模型，从而得到任一对待匹配文本和待匹配图像之间的匹配分值。需要说明的是，匹配分值表征待匹配文本和待匹配图像之间的匹配程度，匹配分值越高，表示待匹配文本和待匹配图像之间的匹配程度越高，反之，匹配分值越低，表示待匹配文本和待匹配图像之间的匹配程度越低。示例性地，匹配分值可以以0至1范围内的数值来表示。当然，匹配分值也可以以其他数值范围（如，0至10、0至100等）内的数值来表示，在此不做限定。

在一个实施场景中，如前所述，为了提升跨模态匹配的粒度，从而提升跨模态匹配的精度，可以基于待匹配图像中各目标区域的区域位置，提取得到各目标区域的图像特征，并提取待匹配文本中各短语的短语特征。在此基础上，对于每对待匹配文本和待匹配图像来说，可以基于待匹配文本中各短语的短语特征和待匹配图像中各目标区域的图像特征进行匹配，得到本对待匹配文本和待匹配图像之间的匹配分值。需要说明的是，如无特别说明，本公开实施例中所述的“短语特征”、“图像特征”等特征，均可以以向量形式予以表示。上述方式，通过基于待匹配图像中各目标区域的区域位置，提取得到各目标区域的图像特征，并提取待匹配文本中各短语的短语特征，从而对于每对待匹配文本和待匹配图像，基于待匹配文本中各短语的短语特征和待匹配图像中各目标区域的图像特征进行匹配，得到本对待匹配文本和待匹配图像之间的匹配分值，一方面在待匹配图像的图像特征中引入目标区域的区域位置，能够提升对目标区域的特征表达精度，另一方面通过基于各目标区域的图像特征和各短语的短语特征进行匹配分析，能够在更为细粒度层面对待匹配图像和待匹配文本进行匹配。故此，有助于进一步提升跨模态匹配的匹配精度。

在一个具体的实施场景中，可以基于待匹配图像中目标区域的图像数据进行特征提取，得到第一特征，并基于待匹配图像中目标区域的区域位置进行特征映射，得到第二特征。在此基础上，可以基于目标区域对应的第一特征和第二特征进行融合，得到目标区域的图像特征。示例性地，跨模态匹配模型可以包括目标检测网络，用于对待匹配图像进行目标检测，得到待匹配图像中的目标区域，目标检测网络可以包括但不限于：Bottom-UpAttention的目标检测网络、YOLO、Faster RCNN等，在此不做限定；此外，跨模态匹配模型还可以包括特征提取网络，用于对目标区域的图像数据进行特征提取，得到目标区域的第一特征，特征提取网络可以包括但不限于：ResNet-101、VGG等，在此不做限定；此外，跨模态匹配模型还可以包括特征映射网络，用于对目标区域的区域位置进行特征映射，得到目标区域的第二特征，特征映射网络可以包括但不限于：卷积层、全连接层等，在此不做限定。需要说明的是，目标区域的区域位置可以基于目标区域上预设点位（如，目标区域的左上角点、目标区域的左下角点等）的图像坐标和目标区域的区域尺寸表示，如目标区域的区域位置可以表示为（x，y，W，H），其中，（x，y）目标区域上预设点位的图像坐标，W表示目标区域的宽度，H表示目标区域的高度。此外，可以将目标区域的第一特征和第二特征进行拼接，作为目标区域的图像特征。为了便于描述，目标区域的第一特征可以表示为K维的特征向量，目标区域的第二特征可以表示为M维特征向量，则对于某个目标区域而言，可以将其第一特征和第二特征进行拼接，得到一个K+M维的特征向量，作为该目标区域的图像特征。上述方式，基于待匹配图像中目标区域的图像数据进行特征提取，得到第一特征，并基于待匹配图像中目标区域的区域位置进行特征映射，得到第二特征，在此基础上，再基于目标区域对应的第一特征和第二特征进行融合，得到目标区域的图像特征，能够使得图像特征中不仅包含目标区域与图像相关的特征信息，还包含与位置相关的特征信息，有助于提升图像特征的准确性。

在一个具体的实施场景中，可以对待匹配文本中各个单词进行编码，得到各个单词的单词特征，与此同时，可以识别待匹配文本中的短语，在此基础上，对于每个短语而言，可以将该短语中各个单词的单词特征融合（如，相加），得到该短语的短语特征。示例性地，跨模态匹配模型可以包括文本编码网络，用于对待匹配文本中各个单词进行编码，得到各个单词的单词特征，文本编码网络可以包括但限于：双向门控循环单元、双向长短期记忆网络等，在此不做限定；此外，可以采用诸如Stanford Core NLP等工具识别待匹配文本中的短语。为了便于描述，短语的短语特征可以表示为N维的特征向量。

在一个具体的实施场景中，在得到待匹配图像中各个目标区域的图像特征和待匹配文本中各个短语的短语特征之后，对于各个短语，可以获取该短语的短语特征之间的特征相似度，并将最高特征相似度，作为该短语对应的目标相似度。在此基础上，可以将各个短语的目标相似度进行融合（如，取平均），得到待匹配图像和待匹配文本之间的匹配分值。请结合参阅图2，图2是本申请跨模态匹配方法一实施例的过程示意图，以待匹配文本是“身穿粉色外套的女孩推着一辆坐有男孩的蓝色婴儿车”且待匹配图像是图2左上角所示图像为例，待匹配图像中检测到三个目标区域，即蓝色婴儿车的目标区域、女孩的目标区域、男孩的目标区域，通过上述方式，可以分别提取到这三个目标区域的图像特征，与此同时，待匹配文本包含短语“身穿粉色外套的女孩”、“男孩”、“蓝色婴儿车”，通过上述方式，可以分别提取到这三个短语的短语特征。在此基础上，对于短语“身穿粉色外套的女孩”而言，可以获取其短语特征分别与上述三个目标区域的图像特征之间的特征相似度，并取最高特征相似度，作为短语“身穿粉色外套的女孩”对应的目标相似度，类似地，对于短语“男孩”而言，可以获取其短语特征分别与上述三个目标区域的图像特征之间的特征相似度，并取最高特征相似度，作为短语“男孩”对应的目标相似度，类似地，对于短语“蓝色婴儿车”而言，可以获取其短语特征分别与上述三个目标区域的图像特征之间的特征相似度，并取最高特征相似度，作为短语“蓝色婴儿车”对应的目标相似度，最终将上述三个目标相似度取均值，得到待匹配文本“身穿粉色外套的女孩推着一辆坐有男孩的蓝色婴儿车”与图2左上角所示图像之间的匹配分值。其他情况可以以此类推，在此不再一一举例。

需要说明的是，上述特征相似度可以采用余弦相似度等方式进行度量，具体度量过程，可以参阅余弦相似度的技术细节，在此不再赘述。此外，为了在度量过程中，尽可能地减少度量次数，可以在度量之前先初始化各个短语与各个目标区域之间的对应关系，在此基础上，可以度量具有对应关系的短语与目标区域之间的特征相似度。示例性地，请继续结合参阅图2，初始化之后，可以确定短语“男孩”与图2所示第一个目标区域具有对应关系，短语“身穿粉色外套的女孩”与图2所示第二个目标区域具有对应关系，短语“蓝色婴儿车”与图2所示第三个目标区域具有对应关系。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，在对跨模态匹配的精度要求相对宽松，且对跨模态匹配的效率要求较高的情况下，也可以区别于前述方式，采用较粗粒度的匹配方式。具体来说，可以获取待匹配图像的图像特征，并获取待匹配文本的文本特征，从而对于每对待匹配文本和待匹配图像来说，可以基于待匹配文本的文本特征和待匹配图像的图像特征进行匹配，得到本对待匹配文本和待匹配图像之间的匹配分值。示例性地，跨模态匹配模型可以包括图像特征提取网络和文本特征编码网络，图像特征提取网络用于提取待匹配图像的图像特征，文本特征编码网络用于对待匹配文本进行编码，得到待匹配文本的文本特征，图像特征提取网络可以包括但不限于卷积神经网络等，在此不做限定，文本特征编码网络可以包括但不限于长短期记忆网络等，在此不做限定。此外，可以基于待匹配文本的文本特征与待匹配图像的图像特征之间的特征相似度（如余弦相似度等），得到待匹配图像与待匹配文本之间的匹配分值。

本公开实施例中，跨模态匹配模型可以基于样本数据训练得到，样本数据可以包括样本图像、与样本图像匹配的样本正例文本和与样本图像不匹配的样本负例文本，且样本负例文本可以基于知识图谱对样本正例文本进行改造得到。请继续结合参阅图2，以样本图像是图2左上角所示图像为例，样本正例文本可以为“身穿粉色外套的女孩推着一辆坐有男孩的蓝色婴儿车”，样本负例文本可以包括但不限于：“身穿粉色外套的女孩推着一辆坐有男孩的蓝色手推车”、“身穿黄色外套的女孩推着一辆坐有男孩的蓝色手推车”、“身穿粉色外套的阿姨推着一辆坐有男孩的蓝色手推车”等，在此不做限定。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，样本图像对应有至少一个样本负例文本，样本正例文本包含至少一个第一实体，各样本负例文本分别由各第一实体替换为第二实体得到，且第二实体基于第一实体从知识图谱搜索得到，第一实体与第二实体类别相同且含义不同。以前述样本正例文本为例，其包含第一实体：“粉色”、“外套”、“女孩”、“男孩”、“蓝色”、“婴儿车”，上述第一实体分别替换为从知识图谱搜索到的与其类别相同但含义不同的第二实体，可以得到样本负例文本，如第一实体“粉色”替换为第二实体“黄色”，可以得到样本负例文本“身穿黄色外套的女孩推着一辆坐有男孩的蓝色手推车”，如第一实体“女孩”替换为第二实体“阿姨”，可以得到样本负例文本“身穿粉色外套的阿姨推着一辆坐有男孩的蓝色手推车”，其他情况可以以此类推，在此不再一一举例。上述方式，样本图像对应有至少一个样本负例文本，样本正例文本包含至少一个第一实体，各样本负例文本分别由各第一实体替换为第二实体得到，且第二实体基于第一实体从知识图谱搜索得到，第一实体与第二实体类别相同且含义不同，故一方面能够有助于提升样本负例文本的数量，一方面也有助于提升样本负例文本的难分辨度，故有助于提升跨模态匹配模型的训练效果。

在一个实施场景中，可以识别样本正例文本中实体，作为第一实体。在此基础上，对于各个第一实体而言，可以响应于基于第一实体从知识图谱链接到若干候选实体，选择候选实体作为第二实体，并将样本正例文本中第一实体替换为第二实体，得到样本负例文本。需要说明的是，可以基于HanLP等命名实体识别工具识别样本正例文本中实体，具体识别过程，可以参阅HanLP等命名实体识别工具的技术细节，在此不再赘述。上述方式，识别样本正例文本中实体，作为第一实体，对于各个第一实体，响应于基于第一实体从知识图谱链接到若干候选实体，选择候选实体作为第二实体，并将样本正例文本中第一实体替换为第二实体，得到样本负例文本，一方面能够有助于提升样本负例文本的数量，一方面也有助于提升样本负例文本的难分辨度，故有助于提升跨模态匹配模型的训练效果。

在一个实施场景中，在得到第一实体之后，可以通过实体链接来匹配知识图谱中候选实体。候选实体的具体获取过程，可以参阅实体链接的技术细节，在此不再赘述。在从知识图谱链接得到若干候选实体之后，可以选择与第一实体类别相同的候选实体，作为第三实体，并获取第一实体分别与各个第三实体之间的特征相似度，并按照特征相似度由高到低的顺序对各个第三实体进行排序，在此基础上，可以选择位于前预设序位（如，第一位）的第三实体，作为第二实体。需要说明的是，可以通过TransE等知识抽取模型对第一实体、第三实体进行知识抽取，得到第一实体的特征表示和第三实体的特征表示，在此基础上，可以计算第一实体的特征表示和第三实体的特征表示之间的特征相似度（如，余弦相似度等）。请结合参阅图3，图3是构造样本负例文本一实施例的过程示意图。如图3所示，对于样本正例文本“身穿粉色外套的女孩推着一辆坐有男孩的蓝色婴儿车”中第一实体“婴儿车”来说，通过实体链接，可以得到候选实体：手推车、轮椅、三轮车等，并选择其中与第一实体类别的相同的，作为第三实体，进一步获取第一实体“婴儿车”分别与各个第三实体之间的特征相似度，并最终选择最高特征相似度对应的第三实体（如，手推车），作为第二实体。在此基础上，通过将样本正例文本中第一实体“婴儿车”替换为第二实体“手推车”，可以得到样本负例文本“身穿粉色外套的女孩推着一辆坐有男孩的蓝色手推车”。其他情况可以以此类推，在此不再一一举例。上述方式，选择与第一实体类别相同的候选实体，作为第三实体，获取第一实体分别与各个第三实体之间的特征相似度，并按照特征相似度由高到低的顺序对各个第三实体进行排序，在此基础上，选择位于前预设序位的第三实体，作为第二实体，故有助于针对第一实体获取尽可能难分辨的第二实体，来替换第一实体，从而有助于提升样本负例文本的难分辨度，进而提升样本负例文本的质量。

在一个实施场景中，响应于基于第一实体未从知识图谱链接到候选实体，可以确定无法基于第一实体构造样本负例文本，在此情况下，在构造样本负例文本的过程中，可以跳过该第一实体，并对下一第一实体继续执行上述步骤，以构造样本负例文本。上述方式，响应于基于第一实体未从知识图谱链接到候选实体，确定无法基于第一实体构造样本负例文本，有助于在无法针对第一实体筛选出尽可能难分辨的第二实体的情况下，跳过该第一实体，从而有助于进一步提升样本负例文本的难分辨度，进而提升样本负例文本的质量。

在一个实施场景中，在构造样本负例文本之后，即可获取完整的样本数据。在此基础上，即可基于样本数据训练跨模态匹配模型，具体来说，可以获取样本图像与样本正例文本之间的正例匹配分值，并获取样本图像分别与各样本负例文本之间的负例匹配分值。基于此，可以基于正例匹配分值和负例匹配分值，得到模型损失，且模型损失与正例匹配分值负相关，且模型损失与负例匹配分值正相关，从而可以基于模型损失，调整跨模态匹配模型的网络参数。需要说明的是，参数调整的具体过程，可以参阅诸如梯度下降等优化方式的技术细节，在此不再赘述。上述方式，获取样本图像与样本正例文本之间的正例匹配分值，并获取样本图像分别与各样本负例文本之间的负例匹配分值，并基于正例匹配分值和负例匹配分值，得到模型损失，且模型损失与正例匹配分值负相关，且模型损失与负例匹配分值正相关，在此基础上，基于模型损失，调整跨模态匹配模型的网络参数。故此，在模型训练过程中，通过最小化模型损失，能够迫使跨模态匹配模型尽可能地学习匹配图文对的特征信息，以及不匹配图文对的特征信息，使得匹配图文对之间的正例匹配分值尽可能地大，而不匹配图文对之间的负例匹配分值尽可能地小，从而使得跨模态匹配模型能够准确区分匹配图文对和不匹配图文对，进而提升跨模态匹配模型的模型性能。

在一个具体的实施场景中，请继续结合参阅图2，如前所述，跨模态匹配模型可以包括目标检测网络、特征提取网络、特征映射网络和文本编码网络，基于目标检测网络可以检测到样本图像中各个样本目标区域，基于特征提取网络可以分别对各个样本目标区域的图像数据进行特征提取，得到各个样本目标区域的第一样本特征，基于特征映射网络可以分别对各个样本目标区域的区域位置进行特征映射，得到各个样本目标区域的第二样本特征，对于各个样本目标区域，可以将其第一样本特征和第二样本特征进行融合（如，拼接），得到样本目标区域的样本图像特征。与此同时，可以识别样本正例文本中的样本短语，并基于文本编码网络对样本正例文本进行编码，得到样本正例文本中各个样本单词的样本单词特征，并对于各个样本短语，可以将其所含的各个样本单词的样本单词特征进行融合（如，取平均），得到样本短语的样本短语特征；类似地，对于样本负例文本而言，可以识别样本负例文本中的样本短语，并基于文本编码网络对样本负例文本进行编码，得到样本负例文本中各个样本单词的样本单词特征，并对于各个样本短语，可以将其所含的各个样本单词的样本单词特征进行融合（如，取平均），得到样本短语的样本短语特征。在此基础上，可以基于样本图像中各个样本目标区域的样本图像特征和样本正例文本中各个样本短语的样本短语特征进行匹配，得到样本图像与样本正例文本之间的正例匹配分值，类似地，可以基于样本图像中各个样本目标区域的样本图像特征和样本负例文本中各个样本短语的样本短语特征进行匹配，得到样本图像与样本负例文本之间的负例匹配分值。具体过程可以参阅前述关于“基于待匹配文本中各短语的短语特征和待匹配图像中各目标区域的图像特征进行匹配，得到本对待匹配文本和待匹配图像之间的匹配分值”的相关描述，在此不再赘述。

在一个具体的实施场景中，模型损失的具体度量方式，可以参阅对比损失（contrastive loss）的技术细节，在此不再赘述。此外，在训练完毕之后，还可以基于Recall@K（K=1、5、10），验证跨模态匹配模型的模型效果。具体过程可以参阅召回率的技术细节，在此不再赘述。

在一个具体的实施场景中，在跨模态匹配模型训练完毕之后，即可将待匹配图像和待匹配文本输入跨模态匹配模型，得到任一对待匹配图像和待匹配文本之间的匹配分值，具体可以参阅前述相关描述，在此不再赘述。

步骤S13：基于任一对待匹配文本和待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对。

在一个实施场景中，以跨模态匹配是以文配图为例，如前所述，已知的一个待匹配文本可以和各个待匹配图像分别构成一对，则在得到已知的一个待匹配文本分别与若干待匹配图像之间的匹配分值之后，可以将匹配分值按照从高到低的顺序排序，并选择位于前预设序位（如，第一位）的匹配分值所对应的一对，作为匹配图文对。示例性地，可以将待匹配文本为“阳光灿烂”和阳光明媚的待匹配图像，作为匹配图文对。其他情况可以以此类推，在此不再一一举例。

在另一个实施场景中，以跨模态匹配是以图配文为例，如前所述，已知的一个待匹配图像可以和各个待匹配文本分别构成一对，则在得到已知的一个待匹配图像分别与若干待匹配文本之间的匹配分值之后，可以将匹配分值按照从高到低的顺序排序，并选择位于前预设序位（如，第一位）的匹配分值所对应的一对，作为匹配图文对。示例性地，可以将阳光明媚的待匹配图像和待匹配文本为“阳光灿烂”，作为匹配图文对。其他情况可以以此类推，在此不再一一举例。

在又一个实施场景中，以跨模态匹配是图文互配为例，任一待匹配图像和任一待匹配文本可以构成一对，则在得到任一对待匹配图像和待匹配文本之间的匹配分值之后，对于每个待匹配文本所构成的图文对，可以按照匹配分值从高到低的顺序排序，并选择位于前预设序位（如，第一位）的匹配分值对应的一对，作为匹配图文对，或者，对于每个待匹配图像所构成的图文对，可以按照匹配分值从高到低的顺序排序，并选择位于前预设序位（如，第一位）的匹配分值对应的一对，作为匹配图文对。示例性地，可以将待匹配文本“暴雨连天”和下雨的待匹配图像，作为匹配图文对，并将待匹配文本“乌云密布”和乌云密布的待匹配图像，作为匹配图文对，以及将待匹配文本“阳光灿烂”和阳光明媚的待匹配图像，作为匹配图文对。其他情况可以以此类推，在此不再一一举例。

请参阅图4，图4是本申请跨模态匹配装置40一实施例的框架示意图。跨模态匹配装置40包括：获取模块41、度量模块42和匹配模块43，获取模块41用于获取待匹配文本和待匹配图像；度量模块42用于获取任一对待匹配文本和待匹配图像之间的匹配分值；匹配模块43用于基于任一对待匹配文本和待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对；其中，匹配分值基于跨模态匹配模型对待匹配文本和待匹配图像匹配分析得到，跨模态匹配模型基于样本数据训练得到，样本数据包括样本图像、与样本图像匹配的样本正例文本和与样本图像不匹配的样本负例文本，且样本负例文本基于知识图谱对样本正例文本进行改造得到。

上述方案，一方面由于在跨模态匹配模型的训练过程中不仅参考与样本图像匹配的样本正例文本，还参考与样本图像不匹配的样本负例文本，故跨模态匹配模型不仅能够学习到匹配图文对的特征信息，还能够学习到不匹配图文对的特征信息，从而迫使跨模态匹配模型学习到更多有用信息，有助于增进跨模态匹配模型的训练效果，另一方面区别于从同一批样本数据中抽取其他样本图像的样本正例文本作为当前样本图像的样本负例文本，具有局限于样本数据的技术缺陷，通过基于知识图谱对样本正例文本进行改造得到样本负例文本，能够使样本负例文本的构造不受样本数据本身的局限，有助于进一步使得样本负例文本难以分辨，从而能够迫使跨模态匹配模型经训练后能够进一步提升对于匹配对图文对、不匹配图文对的辨别能力。故此，能够提升跨模态匹配的匹配精度。

在一些公开实施例中，样本图像对应有至少一个样本负例文本，样本正例文本包含至少一个第一实体，各样本负例文本分别由各第一实体替换为第二实体得到，且第二实体基于第一实体从知识图谱搜索得到，第一实体与第二实体类别相同且含义不同。

在一些公开实施例中，跨模态匹配装置40还包括识别模块，用于识别样本正例文本中实体，作为第一实体；跨模态匹配装置40还包括选择模块，用于对于各个第一实体，响应于基于第一实体从知识图谱链接到若干候选实体，选择候选实体作为第二实体；跨模态匹配装置40还包括替换模块，用于将样本正例文本中第一实体替换为第二实体，得到样本负例文本。

在一些公开实施例中，选择模块包括第一选择子模块，用于选择与第一实体类别相同的候选实体，作为第三实体；选择模块包括排序子模块，用于获取第一实体分别与各个第三实体之间的特征相似度，并按照特征相似度由高到低的顺序对各个第三实体进行排序；选择模块包括第二选择子模块，用于选择位于前预设序位的第三实体，作为第二实体。

在一些公开实施例中，跨模态匹配装置40还包括跳过模块，用于响应于基于第一实体未从知识图谱链接到候选实体，确定无法基于第一实体构造样本负例文本。

在一些公开实施例中，度量模块42包括第一提取子模块，用于基于待匹配图像中各目标区域的区域位置，提取得到各目标区域的图像特征；度量模块42包括第二提取子模块，用于提取待匹配文本中各短语的短语特征；度量模块42包括分值度量子模块，用于对于每对待匹配文本和待匹配图像，基于待匹配文本中各短语的短语特征和待匹配图像中各目标区域的图像特征进行匹配，得到本对待匹配文本和待匹配图像之间的匹配分值。

在一些公开实施例中，第一提取子模块包括图像特征提取单元，用于基于待匹配图像中目标区域的图像数据进行特征提取，得到第一特征；第一提取子模块包括位置特征映射单元，用于基于待匹配图像中目标区域的区域位置进行特征映射，得到第二特征；第一提取子模块包括特征融合单元，用于基于目标区域对应的第一特征和第二特征进行融合，得到目标区域的图像特征。

在一些公开实施例中，分值度量子模块包括相似度量单元，用于对于各个短语，获取短语的短语特征分别与各个目标区域的图像特征之间的特征相似度，并将最高特征相似度，作为短语对应的目标相似度；分值度量子模块包括相似度融合单元，用于基于各个短语的目标相似度进行融合，得到匹配分值。

在一些公开实施例中，跨模态匹配装置40还包括正例匹配分值度量模块，用于获取样本图像与样本正例文本之间的正例匹配分值，跨模态匹配装置40还包括负例匹配分值度量模块，用于获取样本图像分别与各样本负例文本之间的负例匹配分值；跨模态匹配装置40还包括模型损失度量模块，用于基于正例匹配分值和负例匹配分值，得到模型损失；其中，模型损失与正例匹配分值负相关，且模型损失与负例匹配分值正相关；跨模态匹配装置40还包括网络参数调整模块，用于基于模型损失，调整跨模态匹配模型的网络参数。

请参阅图5，图5是本申请电子设备50一实施例的框架示意图。电子设备50包括相互耦接的存储器51和处理器52，存储器51中存储有程序指令，处理器52用于执行程序指令以实现上述任一跨模态匹配方法实施例中的步骤。具体地，电子设备50可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器52用于控制其自身以及存储器51以实现上述任一跨模态匹配方法实施例中的步骤。处理器52还可以称为CPU（Central Processing Unit，中央处理单元）。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器（Digital Signal Processor, DSP）、专用集成电路（ApplicationSpecific Integrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable GateArray, FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。

请参阅图6，图6是本申请计算机可读存储介质60一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令61，程序指令61用于实现上述任一跨模态匹配方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims

1.一种跨模态匹配方法，其特征在于，包括：

获取待匹配文本和待匹配图像；

获取任一对所述待匹配文本和所述待匹配图像之间的匹配分值；

基于任一对所述待匹配文本和所述待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对；

其中，所述匹配分值基于跨模态匹配模型对所述待匹配文本和所述待匹配图像匹配分析得到，所述跨模态匹配模型基于样本数据训练得到，所述样本数据包括样本图像、与所述样本图像匹配的样本正例文本和与所述样本图像不匹配的样本负例文本，且所述样本负例文本基于知识图谱对所述样本正例文本进行改造得到。

2.根据权利要求1所述的方法，其特征在于，所述样本图像对应有至少一个所述样本负例文本，所述样本正例文本包含至少一个第一实体，各所述样本负例文本分别由各所述第一实体替换为第二实体得到，且所述第二实体基于所述第一实体从所述知识图谱搜索得到，所述第一实体与所述第二实体类别相同且含义不同。

3.根据权利要求1或2所述的方法，其特征在于，所述样本负例文本的构造步骤包括：

识别所述样本正例文本中实体，作为第一实体；

对于各个所述第一实体，响应于基于所述第一实体从所述知识图谱链接到若干候选实体，选择所述候选实体作为第二实体，并将所述样本正例文本中所述第一实体替换为所述第二实体，得到所述样本负例文本。

4.根据权利要求3所述的方法，其特征在于，所述选择所述候选实体作为第二实体，包括：

选择与所述第一实体类别相同的候选实体，作为第三实体；

获取所述第一实体分别与各个所述第三实体之间的特征相似度，并按照所述特征相似度由高到低的顺序对各个所述第三实体进行排序；

选择位于前预设序位的第三实体，作为所述第二实体。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

响应于基于所述第一实体未从所述知识图谱链接到所述候选实体，确定无法基于所述第一实体构造所述样本负例文本。

6.根据权利要求1所述的方法，其特征在于，所述获取任一对所述待匹配文本和所述待匹配图像之间的匹配分值，包括：

基于所述待匹配图像中各目标区域的区域位置，提取得到各所述目标区域的图像特征，并提取所述待匹配文本中各短语的短语特征；

对于每对所述待匹配文本和所述待匹配图像，基于所述待匹配文本中各所述短语的短语特征和所述待匹配图像中各所述目标区域的图像特征进行匹配，得到本对所述待匹配文本和所述待匹配图像之间的匹配分值。

7.根据权利要求6所述的方法，其特征在于，所述基于所述待匹配图像中各目标区域的区域位置，提取得到各所述目标区域的图像特征，包括：

基于所述待匹配图像中所述目标区域的图像数据进行特征提取，得到第一特征，并基于所述待匹配图像中所述目标区域的区域位置进行特征映射，得到第二特征；

基于所述目标区域对应的第一特征和第二特征进行融合，得到所述目标区域的图像特征。

8.根据权利要求6所述的方法，其特征在于，所述基于所述待匹配文本中各所述短语的短语特征和所述待匹配图像中各所述目标区域的图像特征进行匹配，得到本对所述待匹配文本和所述待匹配图像之间的匹配分值，包括：

对于各个所述短语，获取所述短语的短语特征分别与各个所述目标区域的图像特征之间的特征相似度，并将最高所述特征相似度，作为所述短语对应的目标相似度；

基于各个所述短语的目标相似度进行融合，得到所述匹配分值。

9.根据权利要求1所述的方法，其特征在于，所述跨模态匹配模型的训练步骤包括：

获取所述样本图像与所述样本正例文本之间的正例匹配分值，并获取所述样本图像分别与各所述样本负例文本之间的负例匹配分值；

基于所述正例匹配分值和所述负例匹配分值，得到模型损失；其中，所述模型损失与所述正例匹配分值负相关，且所述模型损失与所述负例匹配分值正相关；

基于所述模型损失，调整所述跨模态匹配模型的网络参数。

10.一种跨模态匹配装置，其特征在于，包括：

获取模块，用于获取待匹配文本和待匹配图像；

度量模块，用于获取任一对所述待匹配文本和所述待匹配图像之间的匹配分值；

匹配模块，用于基于任一对所述待匹配文本和所述待匹配图像之间的匹配分值，确定相互匹配的待匹配文本和待匹配图像，作为匹配图文对；

11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的跨模态匹配方法。

12.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的跨模态匹配方法。