CN110688515A

CN110688515A - 文本图像语义转换方法、装置、计算设备、及存储介质

Info

Publication number: CN110688515A
Application number: CN201910913309.2A
Authority: CN
Inventors: 陈庶
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-14

Abstract

本申请公开了一种文本图像语义转换方法、装置、计算设备、及存储介质。所述方法提取图像语义信息及文本语义信息，将图像语义信息及文本语义信息的特征嵌入相同特征空间，根据特征空间中距离的远近关系找到文本和图像间的相似关联对，通过相似关系实现文本和图像的语义替换。所述装置包括语义信息提取模块、共享嵌入模块以及嵌入空间转换转换模块。所述计算设备包括存储器、处理器和计算机程序，处理器执行所述计算机程序时实现本发明所述的方法。所述存储介质内存储有计算机程序，计算机程序在由处理器执行时实现本发明所述的方法。本发明能够提高图像检索的准确性和效率，适用于智能图像检索。

Description

文本图像语义转换方法、装置、计算设备、及存储介质

技术领域

本申请涉及智能图像检索领域，特别是涉及文本图像语义转换方法、装置、计算设备、及存储介质。

背景技术

文本和图像中存在的语义信息是自然语言处理和计算机视觉领域的研究基础，文本分类、文本信息检索、图像分类、图像检索等技术都需要依靠文本或图像本身的语义信息进行判断。以图像检索为例，检索模型的步骤一般包括：特征提取、特征编码和聚合、数据库索引。特征提取的常用方法有基于SIFT的特征提取方法，基于CNN(Convolutional NeuralNetworks，卷积神经网络)模型的特征提取方法，预训练的CNN(Convolutional NeuralNetworks，卷积神经网络)模型方法，混合CNN(Convolutional Neural Networks，卷积神经网络)模型方法；特征编码和聚合的常用方法有词袋模型(BoW)，空间上下文嵌入与量化；数据库索引的常用方法有倒排索引、基于哈希的索引等，由于特征是索引技术的基础并且特征提取的好坏很大程度上决定了算法的最终准确率，因此很多学者致力于在特征提取方面改进现有方法。但如果图像索引任务是具有约束条件的智能化索引，需要根据约束条件进一步筛选数据库中的图像信息，例如智能图像检索系统需要根据用户的附加需求提供相似图像，如果有足够多的标记数据可以训练出这样的智能图像检索模型，但在实际情况中由于领域的多样性，并非所有领域都有足够多标记图像，在这种情况下想要直接检索出相似的图像几乎是不可能的，降低了图像检索的有效性和准确性。为了解决这种情况，一些学者提出采用基于生成对抗网络的图像生成模型，对图像数据库中的图像进行高级语义修改或者图像合成，该方法可以主动地根据约束条件进行图像修改以满足用户的需求，但当图像过大或者是在3D领域的图像检索任务时，渲染场景的速度过慢，降低了图像检索的效率。还有一些学者提出采用域适应的方法，减少域间差距的影响，通过微调源域数据训练的模型以应用到目标域中，该方法应用的前提条件是源域和目标域属于同一种领域的数据集，例如全部为文本数据集或者全部为图像数据集，并且要求两域间存在较高的相似性，因此这种类型的方法同样存在一定的限制。

综上所述，目前在智能图像检索领域，由于图像数据集的领域限制，并没有存在一种较好的模型可以实现具有附加条件的图像检索任务，当前的智能图像检索模型存在准确率不高、效率低下的问题。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种文本图像语义转换方法，包括：

提取图像语义信息，提取文本语义信息；

定义源域和目标域的嵌入函数分别为f^s和f^t，定义其中，D_s为源域数据集，D_t为目标域数据集；

利用距离度量函数计算

与

在嵌入空间中的距离，其中，e_i∈D_s，e_j∈D_t，

如果距离相近，则标记为相似，否则，标记为不相似；

定义转换函数

其中，代表转换后的(e，t)，t为转换参数，concat( )是串联操作，NN()是两层前馈网络，对于每个转换对(q，t，r)，学习目标是使得

接近于

并同时在嵌入空间中远离其他特征；

利用转换函数

将目标域的图像数据根据源域的替换列表转换成满足源域替换列表的图像。

可选地，对于图像数据，f(x)为ResNet-50模型；对于文本数据信息，f(x)指LSTM模型。

可选地，所述的距离度量函数为：

其中，函数f_CE的计算过程如下所示：

其中，CE(scores，label)是softmax交叉熵函数，p_i＝s[a_i ^Tb₁，a_i ^Tb₂，...，a_i ^Tb_N]。

根据本申请的另一个方面，提供了一种文本图像语义转换装置，包括：

语义信息提取模块，其配置成提取图像语义信息，以及提取文本语义信息；

共享嵌入模块，其配置成定义源域和目标域的嵌入函数分别为f^s和f^t，定义

其中，D_s为源域数据集，D_t为目标域数据集；

利用距离度量函数计算

与

在嵌入空间中的距离，其中，e_i∈D_s，e_j∈Dt，

如果距离相近，则标记为相似，否则，标记为不相似；和

嵌入空间转换转换模块，其配置成定义转换函数

其中，

代表转换后的(e，t)，t为转换参数，concat( )是串联操作，NN()是两层前馈网络，对于每个转换对(q，t，r)，学习目标是使得

接近于并同时在嵌入空间中远离其他特征；

利用转换函数

可选地，所述的距离度量函数为：

其中，函数f_CE的计算过程如下所示：

根据本申请的另一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述文本图像语义转换方法。

根据本申请的另一个方面，提供了一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述文本图像语义转换方法。

根据本申请的另一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述文本图像语义转换方法。

本申请的文本图像语义转换方法、装置、计算设备、存储介质、及计算机程序产品，由于将文本和图像的语义信息映射到相同特征嵌入空间，根据嵌入空间中距离的远近找到相似替换对，实现文本和图像的语义替换，因此能够帮助智能图像检索系统找到满足约束条件的相似图像，提高图像检索的准确性和效率。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的文本图像语义转换方法的示意性流程；

图2是根据本申请实施例的文本图像语义转换装置的示意性结构框图；

图3是根据本申请实施例的一种计算设备的示意性结构框图；

图4是根据本申请实施例的一种存储介质的示意性结构框图。

具体实施方式

文本图像语义转换需要采用源域和目标域两个数据集。本实施例中，源域数据集为手动创建的文本替换列表，以此来表示具有变化的检索约束条件，替换列表例如“从街道到公园”，“从狗到男孩”等等；目标域数据集采用COCO数据集，该数据集有80K张图像，每个图像中带有5个图像说明文本。本实施例的目的是通过源域的替换列表和目标域的COCO数据集来实现文本和图像的共同嵌入和转换以及对目标域中图像的替换。

首先对本实施例涉及到的一些参数进行定义：源域数据集定义为D_s，目标域数据集定义为D_t，源域和目标域中的数据具有相似底层语义信息，相应的关系为：

其中如果i＝j那么标签设置为相似。更具体的，源域的转换对定义为：其中，m是指源域数据集中数据的数量，

是转换前的特征，

是转换后的特征，t_i是转换参数。对于目标域来说，

本实施的例所述方法的目标是在已知

的情况下，检索正确的

图1是根据本申请一个实施例的一种文本图像语义转换方法的流程图，所述方法包括：

S1、提取图像语义信息，提取文本语义信息：

对于图像数据，采用预训练的ResNet-50模型来提取图像语义信息，对于文本数据，采用LSTM(Long Short Term Memory Network，长短时记忆网络)模型来提取文本语义特征。

S2、定义源域和目标域的嵌入函数分别为f^s和f^t，定义

其中，x是原始的文本信息或者图像信息，D_s为源域数据集，D_t为目标域数据集；具体操作时，可以根据f(x)的具体形式推断出f^s和f^t的具体形式；函数的学习目标是为了判断标记特征及

标记特征是否相似，其中e_i∈D_S，e_j∈D_t，标记特征及即为原始数据经过嵌入函数(模型)提取到的语义信息；如果两者在嵌入空间中距离相近，则标记为相似，否则为不相似；

判断

是否相似采用距离度量函数，L代表

间的距离，，

其中，函数f_CE的计算过程如下：

其中CE(scores，label)是softmax交叉熵函数，p_i＝s[a_i ^Tb₁，a_i ^Tb₂，...，a_i ^Tb_N]。

S3、定义转换函数

其中，

代表转换后的(e，t)，所述的“转换”是指从源域或目标域转换到嵌入空间中，

与嵌入函数中

的定义一致，t为转换参数，concat( )是串联操作，NN( )是两层前馈网络，对于每个转换对(q，t，r)，学习目标是使得接近于并同时在嵌入空间中远离其他特征；

利用转换函数

本实施例将文本和图像的语义信息映射到相同特征嵌入空间，根据嵌入空间中距离的远近找到相似替换对，实现文本和图像的语义替换，并通过实验证明了其有效性，能够帮助智能图像检索系统找到满足约束条件的相似图像，提高图像检索的准确性和效率。

其中

如果i＝j那么标签设置为相似。更具体的，源域的转换对定义为：

其中，m是指源域数据集中数据的数量，

是转换前的特征，

是转换后的特征，t_i是转换参数。对于目标域来说，

本实施的例所述方法的目标是在已知

的情况下，检索正确的

图2是根据本申请一个实施例的一种文本图像语义转换装置的结构示意图图，所述装置包括：

语义信息提取模块：对于图像数据，采用预训练的ResNet-50模型来提取图像语义信息，对于文本数据，采用LSTM(Long Short Term Memory Network，长短时记忆网络)模型来提取文本语义特征。

共享嵌入模块：定义源域和目标域的嵌入函数分别为f^s和f^t，定义

其中，x是原始的文本信息或者图像信息，D_s为源域数据集，D_t为目标域数据集；具体操作时，可以根据f(x)的具体形式推断出f^s和f^t的具体形式；函数的学习目标是为了判断标记特征及标记特征是否相似，其中e_i∈D_s，e_j∈D_t，标记特征及即为原始数据经过嵌入函数(模型)提取到的语义信息；如果两者在嵌入空间中距离相近，则标记为相似，否则为不相似；

判断

是否相似采用距离度量函数，L代表

间的距离，，其中，函数f_CE的计算过程如下：

嵌入空间转换转换模块：定义转换函数

其中，

与嵌入函数中

的定义一致，t为转换参数，concat( )是串联操作，NN()是两层前馈网络，对于每个转换对(q，t，r)，学习目标是使得

接近于

并同时在嵌入空间中远离其他特征；

利用转换函数

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种存储介质。参照图4，该存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。