CN113157959A

CN113157959A - 基于多模态主题补充的跨模态检索方法、装置及系统

Info

Publication number: CN113157959A
Application number: CN202011504383.8A
Authority: CN
Inventors: 宁学成; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-07-23
Anticipated expiration: 2040-12-17
Also published as: CN113157959B

Abstract

本发明提供了基于多模态主题补充的跨模态检索方法、装置及系统，该方法：获得第一图像特征和第一图像主题矩阵；获得第一文本特征和第一文本主题矩阵；基于所述第一图像特征和所述第一文本主题矩阵，生成融合了文本主题的第二图像特征；基于所述第一文本特征和所述第一图像主题矩阵，生成融合了图像主题的第二文本特征；将第二图像特征和第二文本特征映射公共子空间，衡量不同模态特征之间的相似性距离，并采用对比损失函数对图像文本对进行约束，距离最近的图像文本对作为检索结果。本发明通过图像主题和文本主题之间的相互补充，生成融合不同模态主题的多模态特征向量，从而提高跨模态检索的效果，解决了海量数据中的跨模态检索问题。

Description

基于多模态主题补充的跨模态检索方法、装置及系统

技术领域

本发明书一个或多个实施例涉及数据处理技术领域，尤其涉及基于多模态主题补充的跨模态检索方法、装置及系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

如今，随着信息化社会的不断推进，各种类型数据在互联网上广泛存在，如文本、图像、声音和地理位置数据等等。同一语义内容往往通过不同类型数据来进行表达，因此跨媒体检索成为一种需求。比如，根据文本去检索与文本所包含语义相关的图像，或者根据图像去检索与图像有关的文本新闻报道。

现有的检索方法大多针对单一类型媒体数据，如文本检索文本或图像检索图像。最近，也出现了若干跨模态方法，如一些方法将不同模态的数据简单映射到同一个多模态公共子空间中，采用距离函数来度量多模态数据之间的相关性，再根据距离生成排序表来显示检索结果。

但上述技术存在以下问题：

现有的跨模态检索方法，映射到公共子空间中的多模态特征往往包含许多冗余信息，语义相同的多模态特征无法很好地关联在一起；

没有考虑到多模态主题信息对文本和图像特征的引导作用，生成的多模态向量容易受到局部信息的影响，偏离了文本和图像本身的主题。

有鉴于此，亟需一种基于多模态主题的跨模态检索方法，可以在多模态特征处理的过程中，引入外部知识来进行主题补充，从而实现更好的检索效果。

发明内容

本说明书一个或多个实施例描述了一种本发明实现一种基于多模态主题补充的跨模态检索方法、装置及系统，其通过图像主题和文本主题之间的相互补充，生成融合不同模态主题的多模态特征向量，从而提高跨模态检索的效果。

本说明书一个或多个实施例提供的技术方案如下：

第一方面，本发明提供了一种基于多模态主题补充的跨模态检索方法，所述方法包括：

获得第一图像特征和第一图像主题矩阵；

获得第一文本特征和第一文本主题矩阵；

基于所述第一图像特征和所述第一文本主题矩阵，生成融合了文本主题的第二图像特征；

基于所述第一文本特征和所述第一图像主题矩阵，生成融合了图像主题的第二文本特征；

将第二图像特征和第二文本特征映射公共子空间，衡量不同模态特征之间的相似性距离，并采用对比损失函数对图像文本对进行约束，距离最近的图像文本对作为检索结果。

优选地，所述获得第一图像特征和第一图像主题矩阵，具体为：

从图像样本中提取第三图像特征，并初始化一个第三图像主题矩阵；

将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入，获得第一图像特征和第一图像主题矩阵。

优选地，所述获得第一文本特征和第一文本主题矩阵，具体为：

将文本样本中提取第三文本特征，并初始化一个第三文本主题矩阵；

将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入，获得第一文本特性和第一文本主题矩阵。

优选地，所述基于所述第一图像特征和所述第一文本主题矩阵，生成融合了文本主题的第二图像特征；基于所述第一文本特征和所述第一图像主题矩阵，生成融合了图像主题的第二文本特征；具体为：

将所述第二图像特征和所述第二文本主题矩阵，作为图像Transformer输入，生成融合了文本主题的第三图像特征；

将所述第二文本特征和所述第而图像主题矩阵，作为文本Transformer输入，生成融合了图像主题的第三文本特征。

优选地，对比损失函数的定义如下：

其中，c代表第三文本特征，v代表第三图像特征，d(c,v)代表成对匹配的图像文本对之间的距离，

和

代表不匹配的图像文本对之间的距离，α是一个常数，+代表困难样本采样方式。

第二方面，本发明提供了一种基于多模态主题补充的跨模态检索装置，所述装置包括图像主题生成模块、文本主题生成模块、多模态主题补充模块和相似度量模块；其中

所述图像主题生成模块，用于获得第一图像特征和第一图像主题矩阵；

所述文本主题生成模块，用于获得第一文本特征和第一文本主题矩阵；

所述多模态主题补充模块，用于基于所述第一图像特征和所述第一文本主题矩阵，生成融合了文本主题的第二图像特征；以及

所述相似度量模块，用于将第二图像特征和第二文本特征映射公共子空间，衡量不同模态特征之间的相似性距离，并采用对比损失函数对图像文本对进行约束，距离最近的图像文本对作为检索结果。

优选地，所述图像主题生成模块包括第一提取单元和第一生成单元；其中

所述第一提取单元，用于从图像样本中提取第三图像特征，并初始化一个第三图像主题矩阵；

所述第一生成单元，用于将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入，获得第一图像特征和第一图像主题矩阵。

优选地，所述文本主题生成模块包括第二提取单元和第二生成单元；其中

所述第二提取单元，用于将文本样本中提取第三文本特征，并初始化一个第三文本主题矩阵；

所述第二生成单元，用于将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入，输入，获得第一文本特性和第一文本主题矩阵。

优选地，所述相似度量模块具体用于将所述第二图像特征和所述第二文本主题矩阵，作为图像Transformer输入，生成融合了文本主题的第三图像特征；以及

第三方面，本发明提供了一种基于多模态主题补充的跨模态检索系统，包括至少一个处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序时实现如第一方面中一个或多个所述的基于多模态主题补充的跨模态检索方法。

第三方面，本发明提供了一种芯片，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如第一方面中一个或多个所述的方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如第三方面所述的系统执行，以实现如第一方面中一个或多个所述的方法。

本发明实施例提供的方法通过跨模态主题信息的引导和补充，使得生成的图像和文本特征具有主题相关性，使得内容相关、主题统一的图像文本对之间的距离尽可能得小，而内容无关、主题不同的图像文本对之间的距离尽可能得大，从而显著提升跨模态检索的效果。

附图说明

图1为本发明实施例提供的基于多模态主题补充的跨模态检索方法流程示意图之一；

图2为获得第一图像特征和第一图像主题矩阵的流程示意图；

图3为获得第一文本特征和第一文本主题矩阵的流程示意图；

图4为本发明实施例提供的基于多模态主题补充的跨模态检索方法流程示意图之二；

图5为本发明实施例提供的基于多模态主题补充的跨模态检索装置结构示意图；

图6为本发明实施例提供的图像主题生成模块的结构示意图；

图7为本发明实施例提供的文本主题生成模块的结构示意图；

图8为本发明实施例提供的基于多模态主题补充的跨模态检索系统结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

另外，文中的“第一”、“第二”和“第三”等，仅为了区分，并不代表先后顺序。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出一个实施例的基于多模态主题补充的跨模态检索方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图1所示，所述方法包括以下步骤：

步骤10，获得第一图像特征和第一图像主题矩阵。

如图2所示，具体的，该步骤包括如下步骤：

步骤101，从图像样本中提取第三图像特征，并初始化一个第三图像主题矩阵。

具体的，针对图像样本，卷积神经网络会使用多个卷积层的运算，最后得到图像在各个不同尺度的抽象表示，从而得到图像的特征向量，即从图像样本中提取第三图像特征。

第三主题矩阵是随机初始化一个和上述图像特征维度一致的主题矩阵，在通过后续的Transformer来更新保存图像特征中的关键信息。

步骤102，将所述第三图像特征和第三图像主题矩阵作为图像Transformer 输入，获得第一图像特征和第一图像主题矩阵。

该步骤，主要是融合主题信息生成更好的图像向量，使得多模态空间中匹配的图像文本向量之间的距离更近，不匹配的距离得更远。

具体的，按如下公式获得第一图像特征：

其中，Q为图像/文本特征，K为图像/文本主题矩阵，Q和K的向量维度是一样的，V＝K；T代表矩阵转置运算，d_k为K矩阵的列数；Attention为 Multi-head Self Attention，同Transformer。此处的Q为第三图像特征，K为第三图像主题矩阵。

第一图像特征和第三图像特征的区别与联系是：经过Transformer后，第三图像特征一方面从原始图像向量中提取了关键信息，存储到主题矩阵中，另一方面又利用了主题矩阵的存储的关键信息，来更新图像特征，得到第一图像特征。

步骤20，获得第一文本特征和第一文本主题矩阵。

如图3所示，具体的，该步骤包括如下步骤：

步骤201，将文本样本中提取第三文本特征，并初始化一个第三文本主题矩阵。

具体的，采用词向量模型(如CBOW)将文本初始化为单词向量，再利用循环神经网络简单提取文本特征，即从文本样本中提取第三文本特征。

文本指的是自然语言描述的原始的句子，比如咱平时说的话。我们会通过词向量模型把文本中的单词一个个拆开，一个单词对应一个单词向量。

第三文本主题矩阵和第三图像主题矩阵一样，都是随机生成的和特征向量维度一致的向量。

步骤202，将所述第三文本特征和所述第三文本主题矩阵作为文本 Transformer输入，获得第一文本特性和第一文本主题矩阵。

该步骤，主要是融合主题信息生成更好的文本向量，使得多模态空间中匹配的图像文本向量之间的距离更近，不匹配的距离得更远。

具体的，按如下公式获得第一文本特征：

其中，Q为图像/文本特征，K为图像/文本主题矩阵，Q和K的向量维度是一样的，V＝K；T代表矩阵转置运算，d_k为K矩阵的列数；Attention为 Multi-head Self Attention，同Transformer。此处的Q为第三文本特征，K为第三文本主题矩阵。

同上述的图像，更新后的文本既融合了文本自身的关键信息，又融合了图像那边的关键信息；这样生成的匹配的图像和文本向量之间的距离会更近，不匹配的会更远。

步骤30，基于所述第一图像特征和所述第一文本主题矩阵，生成融合了文本主题的第二图像特征。

具体的，模型中文本特征和图像特征依次要通过两个transformer，第一次就是各自更新主题矩阵中的信息，第二次是文本主题引导图像。

具体的，按如下公式进行融合：

其中，Q为图像/文本特征，K为图像/文本主题矩阵，Q和K的向量维度是一样的，V＝K；T代表矩阵转置运算，d_k为K矩阵的列数；Attention为 Multi-head Self Attention，同Transformer。此处的Q为第一图像特征，K为第一文本主题矩阵。

步骤40，基于所述第一文本特征和所述第一图像主题矩阵，生成融合了图像主题的第二文本特征。

具体的，模型中文本特征和图像特征依次要通过两个transformer，第一次就是各自更新主题矩阵中的信息，第二次是图像主题引导文本。

具体的，按如下公式进行融合：

其中，Q为图像/文本特征，K为图像/文本主题矩阵，Q和K的向量维度是一样的，V＝K；T代表矩阵转置运算，d_k为K矩阵的列数；Attention为 Multi-head Self Attention，同Transformer。此处的Q为第一文本特征，K为第一图像主题矩阵。

步骤50，将第二图像特征和第二文本特征映射公共子空间，衡量不同模态特征之间的相似性距离，并采用对比损失函数对图像文本对进行约束，距离最近的图像文本对作为检索结果。

具体的，将文本特征和图像特征分别映射到公共子空间中，采用距离度量函数来衡量不同模态特征之间的相似性距离，并采用对比损失函数对图像文本对进行约束，通过训练这种约束关系使得成对匹配的图像文本对之间的距离尽可能小，而不匹配的图像文本对之间的距离尽可能大。最后做检索时，输入一个文本或图像会计算与所有图像文本之间得距离，再做一个排序，距离最近的就是我们检索的结果。

对比损失函数的定义如下：

其中，c代表文本特征，v代表图像特征，d(c，v)代表成对匹配的图像文本对之间的距离，

和

其中，距离度量函数具体为：d(c，v)＝c·v。

需要说明的是，该方法的实施可以不按上述描述的步骤顺序进行，可根据实际操作进行顺序的调整，比如可以先执行步骤20，后执行步骤10。也可以先执行步骤40，后执行步骤30。

本发明提供的方法，可以很好的解决现有技术中存在的问题，这是因为：

如图4所示，本发明通过图像Transformer和文本Transformer的叠加，能够还好地消除图像和文本冗余，更好地提取图像和文本特征。

而且通过跨模态主题信息的引导和补充，使得生成的图像和文本特征具有主题相关性，使得内容相关、主题统一的图像文本对之间的距离尽可能得小，而内容无关、主题不同的图像文本对之间的距离尽可能得大，从而显著提升跨模态检索的效果。

与上述实施例方法对应的，本发明还提供了基于多模态主题补充的跨模态检索装置，如图5所示，该装置包括：图像主题生成模块51、文本主题生成模块52、多模态主题补充模块53和相似度量模块54；其中

所述图像主题生成模块51，用于获得第一图像特征和第一图像主题矩阵。

具体的，如图6所示，图像主题生成模块51包括第一提取单元511和第一生成单元512；其中

所述第一提取单元511，用于从图像样本中提取第三图像特征，并初始化一个第三图像主题矩阵；

所述第一生成单元512，用于将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入，获得第一图像特征和第一图像主题矩阵。

所述文本主题生成模块52，用于获得第一文本特征和第一文本主题矩阵.

具体的，如图7所示，所述文本主题生成模块52包括第二提取单元521 和第二生成单元522；其中

所述第二提取单元521，用于将文本样本中提取第三文本特征，并初始化一个第三文本主题矩阵；

所述第二生成单元522，用于将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入，输入，获得第一文本特性和第一文本主题矩阵。

所述多模态主题补充模块53，用于基于所述第一图像特征和所述第一文本主题矩阵，生成融合了文本主题的第二图像特征；以及

所述相似度量模块54，用于将第二图像特征和第二文本特征映射公共子空间，衡量不同模态特征之间的相似性距离，并采用对比损失函数对图像文本对进行约束，距离最近的图像文本对作为检索结果。

通过训练这种约束关系使得不匹配的图像文本对之间的距离尽可能得大，匹配的图像文本对之间的距离尽可能得小。

最后做检索时，输入一个文本或图像会计算与所有图像文本之间得距离，再做一个排序，距离最近的就是我们检索的结果。

本发明实施例提供的基于多模态主题补充的跨模态检索装置中各部件所执行的功能均已在上述方法中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本发明实施例、还提供了基于多模态主题补充的跨模态检索系统，具体如图8所示，该系统包括至少一个处理器81和存储器82；

存储器81，用于存储计算机程序；

处理器82，用于执行该计算机程序程序时实现如上述实施例所介绍的基于多模态主题补充的跨模态检索方法中的任一方法步骤。

与上述实施例相对应的，本发明实施例还提供了一种芯片，该芯片与上述系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如上述实施例所介绍的基于多模态主题补充的跨模态检索方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包括一个或多个程序，其中，一个或多个程序指令用于被基于多模态主题补充的跨模态检索系统执行如上介绍的基于多模态主题补充的跨模态检索方法。

本发明提供的基于多模态主题补充的跨模态检索方案，其在多模态特征处理的过程中引入外部知识来进行主题补充，通过图像主题和文本主题之间的相互补充，生成融合不同模态主题的多模态特征向量，从而提高跨模态检索的效果，解决了海量数据中的跨模态检索问题。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器 (RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程 ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多模态主题补充的跨模态检索方法，其特征在于，所述方法包括：

获得第一图像特征和第一图像主题矩阵；

获得第一文本特征和第一文本主题矩阵；

2.根据权利要求1所述的方法，其特征在于，所述获得第一图像特征和第一图像主题矩阵，具体为：

3.根据权利要求1所述的方法，其特征在于，所述获得第一文本特征和第一文本主题矩阵，具体为：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像特征和所述第一文本主题矩阵，生成融合了文本主题的第二图像特征；基于所述第一文本特征和所述第一图像主题矩阵，生成融合了图像主题的第二文本特征；具体为：

5.根据权利要求1所述的方法，其特征在于，对比损失函数的定义如下：

和

6.基于多模态主题补充的跨模态检索装置，其特征在于，所述装置包括图像主题生成模块、文本主题生成模块、多模态主题补充模块和相似度量模块；其中

7.根据权利要求6所述的装置，其特征在于，所述图像主题生成模块包括第一提取单元和第一生成单元；其中

8.根据权利要求6所述的装置，其特征在于，所述文本主题生成模块包括第二提取单元和第二生成单元；其中

速搜第二生成单元，用于将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入，输入，获得第一文本特性和第一文本主题矩阵。

9.根据权利要求6所述的装置，其特征在于，所述相似度量模块具体用于将所述第二图像特征和所述第二文本主题矩阵，作为图像Transformer输入，生成融合了文本主题的第三图像特征；以及

10.基于多模态主题补充的跨模态检索系统，其特征在于，包括至少一个处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序时实现如权利要求1至5中一个或多个所述的基于多模态主题补充的跨模态检索方法。

11.一种芯片，其特征在于，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如权利要求1至5中一个或多个所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如权利要求10所述的系统执行，以实现如权利要求1至5中一个或多个所述的方法。