CN116501910B

CN116501910B - 一种基于中间模态的场景文本检索方法及系统

Info

Publication number: CN116501910B
Application number: CN202310753670.XA
Authority: CN
Inventors: 许扬汶; 韩冬; 刘天鹏; 朱一飞; 陈伟; 顾阜城
Original assignee: Nanjing Big Data Group Co ltd
Current assignee: Nanjing Big Data Group Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-22
Anticipated expiration: 2043-06-26
Also published as: CN116501910A

Abstract

本发明公开了一种基于中间模态的场景文本检索方法及系统，用户在场景文本检索模型中输入查询文本，检索结果为包含该查询文本的所有图像，且该图像中标记该查询文本的位置，该方法将查询文本输入图像生成分支模型，经过渲染生成标准文本图像，提取所述标准文本图像的序列特征；将图像输入场景检测分支模型，检测所述图像中的文本实例，提取所述文本实例的序列特征；通过字符修正度量损失函数和字符序列预测损失函数约束和增强相似度计算，相似度最高对应的若干图像即为查询文本的检索结果；本发明将文本转换为标准文本图像作为介于文本和图像的中间模态来缩小和场景文本图像之间的模态异构差距，减轻相似度学习的复杂度，快速获得准确的检索结果。

Description

一种基于中间模态的场景文本检索方法及系统

技术领域

本发明涉及一种场景文本检索方法及系统，尤其是基于中间模态的场景文本检索方法及系统。

背景技术

场景文本检索旨在帮助用户查询到包含自己目标文本的图像，根据用户提供的查询文本即可通过系统找到包含该文本的图像并返回文本在该图像上的位置。场景文本检索是一个崭新的问题，现有的方法聚焦于通用的场景文本阅读方法和专用方法。场景文本阅读方法需要定位和识别图像中的所有文本实例，因为需要全部识别，所以速度很慢，而且受限于定位系统，文本实例存在漏检的情况。专用方法则是直接计算图像特征和文本特征的相似度，由于“异构鸿沟”的存在，这种相似度的度量难以学习且不够准确。

多模态学习是当前备受关注的研究方向，其中如何将不同模态的特征映射到公共空间是一个更加基础的问题。当不同模态的特征能够映射到一个公共空间上，则可以直接度量这两个特征的相似度，度量学习就是通过直接学习特征相似度来将特征映射到公共空间的技术，但是在场景文本检索中，场景图像中的文本和查询文本本质上都表达文本的信息，而我们难以对文本单词划分类别，且该方法速度慢，难以进行实时的检索，因此基于类别的相似度学习方法不适用于场景文本检索。

发明内容

发明目的：本发明的目的是提供一种检索速度快、准确度高的基于中间模态的场景文本检索方法；本发明的第二目的是提供一种检索速度快、准确度高的基于中间模态的场景文本检索系统。

技术方案：本发明所述的基于中间模态的场景文本检索方法，用户在场景文本检索模型中输入查询文本，检索结果为包含该查询文本的所有图像，且该图像中标记该查询文本的位置，包括如下步骤：

(1)对图像数据集和文本数据集进行预处理；

(2)将查询文本输入图像生成分支模型，经过渲染生成标准文本图像，提取所述标准文本图像的序列特征，得到GTB特征；将图像输入场景检测分支模型，检测所述图像中的文本实例，提取所述文本实例的序列特征，得到STB特征；

(3)通过字符修正度量损失函数约束STB特征和GTB特征的相似度计算，利用字符序列预测损失函数增强STB特征和GTB特征的序列信息；计算所述STB特征和GTB特征的相似度，相似度最高对应的若干图像即为查询文本的检索结果；

所述字符修正度量损失函数的公式为：

其中，F_i ^S为第i个STB特征，F_j ^G为第j个GTB特征，l_i ^S为第i个STB特征对应的文本真值，l_j ^G为第j个GTB特征对应的文本真值；i＝1,2，…N，j＝1,2，…N；tanh表示正弦激活函数，||·||表示欧拉乘方距离函数；CM(x,y)为正则化的字符修正度量计算，其计算过程为：计算一个文本x转换为文本y所需的最少修正操作次数，修正操作包括添加、删除、替换一个字符，并将结果进行正则化；

所述字符序列预测损失函数的公式为：

其中，W_P和b_p为可训练的权重和偏置值，o_i ^S和o_j ^G分别是l_i ^S和l_j ^G的单热向量形式；F_k ^S为第k个STB特征，F_n ^G为第n个GTB特征，k＝1,2，…N，n＝1,2，…N。

进一步地，步骤(2)所述将图像输入场景检测分支模型，检测所述图像中的文本实例，提取所述文本实例的序列特征，得到STB特征包括：

将图像输入场景检测分支模型，经过前向连接卷积网络和金字塔网络检测文本实例，所述文本实例经过全连接层得到文本实例框，根据所述文本实例框从所述文本实例中提取实例特征，然后经过卷积模块和双向长短期记忆网络模块提取所述实例特征的序列特征。

进一步地，所述将图像输入场景检测分支模型，经过前向连接卷积网络和金字塔网络检测文本实例，所述文本实例经过全连接层得到文本实例框包括：

利用文本实例检测损失函数进行监督，所述文本实例检测损失函数为：

其中，x_i、y_i、w_i和h_i分别表示文本实例框bb_i对应的中心点的横坐标、纵坐标和文本实例框的宽、高；lx_i、ly_i、lw_i和lh_i分别为x_i、y_i、w_i和h_i对应的真值，i＝1,2，…N。

进一步地，步骤(2)所述将查询文本输入图像生成分支模型，经过渲染生成标准文本图像，提取所述标准文本图像的序列特征，得到GTB特征包括：

将查询文本输入图像生成分支网络，将查询文本渲染成标准文本图像，然后经过卷积模块和双向长短期记忆网络模块提取出所述标准文本图像的序列特征。

进一步地，步骤(3)所述STB特征和GTB特征的相似度计算方法为：

进一步地，步骤(1)中对图像数据集进行预处理包括：对图像尺寸调整、图像比例缩放、图像裁剪和图像像素标准化，将像素值转换到[0,1]范围内；步骤(1)中对文本数据集进行预处理包括：对文本进行单热向量化处理。

本发明所述的基于中间模态的场景文本检索系统，用于当用户在场景文本检索模型中输入查询文本，检索结果为包含该查询文本的所有图像，且该图像中标记该查询文本的位置；包括：

预处理模块，用于对图像数据集和文本数据集进行预处理；

特征提取模块，用于将查询文本输入图像生成分支模型，经过渲染生成标准文本图像，提取所述标准文本图像的序列特征，得到GTB特征；将图像输入场景检测分支模型，检测所述图像中的文本实例，提取所述文本实例的序列特征，得到STB特征；

检索结果输出模块，用于通过字符修正度量损失函数约束STB特征和GTB特征的相似度计算，利用字符序列预测损失函数增强STB特征和GTB特征的序列信息；计算所述STB特征和GTB特征的相似度，相似度最高对应的若干图像即为查询文本的检索结果；

所述字符修正度量损失函数的公式为：

所述字符序列预测损失函数的公式为：

本发明所述的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于中间模态的场景文本检索方法。

本发明所述的计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于中间模态的场景文本检索方法。

有益效果：与现有技术相比，本发明的优点在于：(1)将文本转换为标准文本图像作为介于文本和图像的中间模态来缩小和场景文本图像之间的模态异构差距，减轻相似度学习的复杂度；(2)利用字符序列预测损失函数指导模型训练，字符修正度量分数可以准确衡量不同文本的差距，通过该分数指导特征的相似度分数，可以更加准确地引导模型的特征生成，更容易学习特征公共空间；(3)利用字符序列预测损失函数进一步指导特征的生成，通过提取特征信息来预测对应的字符序列，可以更好的丰富特征的序列信息，进一步缩小图像和文本特征的距离，促进模型相似度的学习和训练。

附图说明

图1为本发明的场景文本检索方法流程图。

图2为本发明实施例的场景文本检索模型架构图。

图3为本发明实施例中的实验结果图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1和图2所示，所述基于中间模态的场景文本检索方法，包括如下步骤：

(1)对图像和文本数据集进行预处理

数据集包括场景图像和查询文本。场景图像中可以不包含或者包含多个文本实例，查询文本是短语或者单词。每张图像都需要经过1或4种数据增强操作和张量化，文本需要进行单热向量处理。

本实施例中一张图像为例说明对图像数据集进行预处理的方法，该图像的大小为1224×1078，先对图像的最长边进行缩放，图像的最长边为1224，将其缩放为960到2240中的任意一个32倍数的长度，假设为1120，则图像被缩放为1120×1078；之后对图像进行随机的旋转，旋转角度为从逆时针15°到顺时针15°随机的一个角度，假设图像逆时针旋转了10°；然后将图像的高按照随机比例缩放，随机比例从0.8到1.2随机取一个值，假设取到了1.0，即原图像的高保持1078不变；最后在保留至少一个文本的前提下将图像裁剪成640×640的大小。此时算上通道数，图片的大小为640×640×3。根据增强后的图像，先将图像的通道转换到第一维，转换后的图像大小为3×640×640；接着将图片中所有的像素值除以255，转换到0到1的范围内，完成图像的标准化和张量化处理。

本实施例中，输入的查询文本是“申虹”和“国际大厦”。查询文本中出现的一共有7个字符，而汉字的字符数量很多，这里无法全部列举，因此这里假设字符库一共有10个，分别是“我”、“含”、“虹”、“国”、“大”、“其”、“际”、“申”和“厦”，那么所有字符对应的单热向量一共有10位。各查询文本的字符对应的单热向量中对应字符位置的值为1，其余为0，比如“申”对应的单热向量为0000000010，因为“申”处于字符库的第9位。按照上述规则，完成文本的单热向量化。

(2)预处理后的数据集经过含有图像生成分支(STB分支)和场景检测分支(GTB分支)的场景文本检索模型生成图像和中间模态的特征向量，即STB特征和GTB特征，并生成该模型的初始参数。共同更新所述STB分支和GTB分支模型的参数。

(2.1)将图像数据集中的每张图像输入STB分支模型中。STB分支模型包括文本实例检测模块和序列转换模块，其中文本实例检测模块负责检测出图像中的所有文本实例并提取初步的特征，序列转换模块进一步提取出序列特征。以图像I为例，图像I首先经过若干前向连接卷积块和金字塔块得到初步的特征E：

E₁＝Pn₃(Res₅(Res₄(Res₃(Res₂(Res₁(I))))))

E₂＝E₁+Pn₂(Res₄(Res₃(Res₂(Res₁(I)))))

E₃＝E₂+Pn₁(Res_a(Res₂(Res₁(I))))

E＝E₁+E₂+E₃

其中Res_c表示前向连接卷积网络的第c个模块，由5个卷积网络模块组成，Pn_u表示金字塔网络的第u个模块，由3个卷积网络模块组成。特征E的尺寸大小为256×4×15，分别是通道、高、宽。特征E之后经过由全连接层构成的检测头得到文本实例框bb_i，i＝1，2，...N，并根据实例框bb_i从特征E中提取出对应实例的特征R_i；这里假设一共检测的实例框数为2。之后将所有实例的特征送入序列转换模块得到STB特征：

其中Conv_Sv表示序列转换模块中的第v个卷积模块，BiLSTM_S为双向长短期记忆网络模块；F_i ^S为第i个STB特征，尺寸大小为128×15，分别是通道和长度。

相较于普通的卷积网络，使用前向连接卷积网络可以充分利用连接的优势，将前一个模块的特征和当前特征进行结合，保留更加丰富的特征信息。和金字塔网络的结合则可以综合考虑不同尺寸特征图的信息，能够让检测网络识别到各种尺度大小的文本字体。但是这样得到的模型蕴含的文本序列信息仍然较少，通过序列转换模块可以加强特征的序列信息，更加充分地表示出文本信息，从而减少相似度计算的复杂度。

(2.2)将原始的查询文本Q送入GTB分支模型中。GTB模型由图像渲染模块、文本卷积网络和序列转换模块构成。图像渲染模块将文本Q转换成对应的标准文本图像，该标准文本图像为中间模态的特征，大小为3×32×128。标准文本图像经过文本卷积网络和序列转换模块得到蕴含文本序列信息的GTB特征：

其中Conv_Ga表示序列转换模块中的第a个卷积模块，BiLSTM_G为双向长短期记忆网络模块；Ren为将查询文本渲染成标准文本图像的渲染模块，Tc为文本卷积网络，由3个卷积网络模块组成；F_j ^G为第j个GTB特征，尺寸大小为128×15，分别是通道和长度。这种标准文本图像的背景是纯色背景，文本是纯黑色，字形结构没有冗余的形变，更能够表示出字符本身的结构属性。

(2.3)计算STB特征和GTB特征的相似度为：

利用字符修正度量损失函数直接约束STB特征和GTB特征的相似度计算，强制对齐相似度分数和字符修正度量分数。字符修正度量损失函数的计算如下：

其中N为数据的个数，F_i ^S为第i个STB特征，F_j ^G为第j个GTB特征，l_i ^S为第i个STB特征对应的文本真值，l_j ^G为第j个GTB特征对应的文本真值；i＝1,2，…N，j＝1,2，…N；在本实施例中，真值为“申虹”和“国际大厦”文本。tanh表示正弦激活函数，||·||表示欧拉乘方距离函数；CM(x,y)为正则化的字符修正度量计算，其计算过程为：计算一个文本x转换为文本y所需的最少修正操作次数，修正操作包括添加、删除、替换一个字符，并将结果进行正则化，比如计算“申虹”和“申博”的字符修正度量分数，可以只通过一次替换操作，即“虹”替换为“博”，完成文本转换，正则化后分数结果为1/2＝0.5，分数越小相似度越高。

通常的度量学习采用自监督的方式，通过让类别相同的特征相似度增大和类别不同的特征相似度减小的方式来自发地学习特征空间。但是由于单纯的文本蕴含很少的类别信息，这种方法的效果很差。本发明则是使用文本间的字符修正度量分数作为直接监督。提供一个直接的分数上的引导可以确定模型的收敛方向，进一步加快特征相似度的学习过程。同时使用max函数选择模型特征相似度分数和度量分数差异最大的进行收敛，可以进一步加快收敛的速度，减轻相似度学习的复杂度。

(2.4)将STB特征和GTB特征送入字符序列预测损失函数以增强生成特征的序列信息，真值的单热向量形式作为监督。字符序列预测损失函数L_pre为：

W_P和b_p为可训练的权重和偏置值，o_i ^S和o_j ^G分别是l_i ^S和l_j ^G的单热向量形式；F_k ^S为第k个STB特征，F_n ^G为第n个GTB特征，k＝1,2，…N，n＝1,2，…N。

不同于传统的交叉熵损失函数对值的分布进行监督，本发明直接计算真值和预测值的差值，在保证监督效果的前提下，还可以减轻模型的拟合难度，同时加入log函数对取值进行缩放，并在分母位置进一步引入所有特征预测差值之和来标准化，以防止梯度过大或者过小。

(2.5)将STB模型中的检测头输出的文本实例框bb_i通过文本实例检测损失函数进行监督，如下：

其中x_i、y_i、w_i和h_i分别表示文本实例框bb_i对应的中心点的横坐标、纵坐标和文本实例框的宽、高；lx_i、ly_i、lw_i和lh_i分别为x_i、y_i、w_i和h_i对应的真值，i＝1,2，…N。本发明使用简单的平方差损失监督实例框，减轻训练难度，在保证模型顺利学习的情况下加快模型的收敛速度。

(2.6)总损失函数L为字符修正度量损失函数、字符序列预测损失函数和文本检测损失函数之和：

(2.7)STB分支模型和GTB分支模型以总损失函数L为目标，分为预训练和微调两个阶段。在预训练阶段，图像的增广只包括缩放和张量化，将图像的大小缩放到640×640的尺寸。模型的学习率为0.01，在合成数据集上一共训练60000轮。合成数据集是在图像上人工粘贴不同数量和大小的文本。在微调阶段，图像进行完全的增广，模型的学习率为0.001，在真实的场景文本数据集上训练50000轮。

(3)根据STB特征和GTB特征计算相似度，相似度最高的实例及其所在的图像即为检索的结果。

将查询文本送入已经训练完成的场景文本检索模型，分别得到对应的STB特征和GTB特征，并使用前述相似度函数进行相似度计算。本实施例中查询文本为“申虹”和“国际大厦”。检索到一张图像包含“申虹”和“国际大厦”文本，在图像中对应的位置提取并计算STB特征，并分别和GTB特征计算相似度。例如，文本“申虹”和图像“申虹”的相似度分数是0.99，和图像“国际大厦”的相似度分数是0.1，因此文本“申虹”和图像“申虹”的匹配程度更高。类似地，文本“国际大厦”和图像“国际大厦”的相似度分数是0.91，和图像“申虹”的相似度分数是0.08，因此文本“国际大厦”和图像“国际大厦”的匹配程度更高。

(4)用户输入想要查询的文本，按照推理预测的过程，即可检索到包含相似度最高文本实例的图像。本实施例中，用户输入查询文本“申虹”和“国际大厦”，根据上述的计算结果，检索的结果就是包含这两个文本的图像，并框出图像中的“申虹”和“国际大厦”。

通过实验验证本发明的方法，实验使用常用的检索数据集SVT和STR来验证。本发明采用的评估指标是全类平均正确率(mAP)，结合了检索的精准度(Precision)和召回率(Recall)，可以综合评价检索的性能。

实验的对比方法为IRTC、RTNN、TSAA、YOLO-STR和ABCNet，这些都是经典的可用于场景文本检索的方法。所有方法和本方法在mAP评估指标下的结果如图3所示，从图3中可以看到，本发明的方法的性能明显高于上述对比方法，这充分表明了本方法的优秀性能，验证了模型和损失函数的有效性。

预处理模块，用于对图像数据集和文本数据集进行预处理；

所述字符修正度量损失函数的公式为：

所述字符序列预测损失函数的公式为：

所述计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。

处理器用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

Claims

1.一种基于中间模态的场景文本检索方法，其特征在于，用户在场景文本检索模型中输入查询文本，检索结果为包含该查询文本的所有图像，且该图像中标记该查询文本的位置，包括如下步骤：

(1)对图像数据集和文本数据集进行预处理；

所述字符修正度量损失函数的公式为：

其中，为第i个STB特征，F_j ^G为第j个GTB特征，/>为第i个STB特征对应的文本真值，l_j ^G为第j个GTB特征对应的文本真值；i＝1,2，…N，j＝1,2，…N；tanh表示正弦激活函数，||·||表示欧拉乘方距离函数；CM(x,y)为正则化的字符修正度量计算，其计算过程为：计算一个文本x转换为文本y所需的最少修正操作次数，修正操作包括添加、删除、替换一个字符，并将结果进行正则化；

所述字符序列预测损失函数的公式为：

其中，W_P和b_p为可训练的权重和偏置值，和o_j ^G分别是/>和l_j ^G的单热向量形式；/>为第k个STB特征，F_n ^G为第n个GTB特征，k＝1,2，…N，n＝1,2，…N。

2.根据权利要求1所述的基于中间模态的场景文本检索方法，其特征在于，步骤(2)所述将图像输入场景检测分支模型，检测所述图像中的文本实例，提取所述文本实例的序列特征，得到STB特征包括：

3.根据权利要求2所述的基于中间模态的场景文本检索方法，其特征在于，所述将图像输入场景检测分支模型，经过前向连接卷积网络和金字塔网络检测文本实例，所述文本实例经过全连接层得到文本实例框包括：

4.根据权利要求1所述的基于中间模态的场景文本检索方法，其特征在于，步骤(2)所述将查询文本输入图像生成分支模型，经过渲染生成标准文本图像，提取所述标准文本图像的序列特征，得到GTB特征包括：

5.根据权利要求1所述的基于中间模态的场景文本检索方法，其特征在于，步骤(3)所述STB特征和GTB特征的相似度计算方法为：

其中，为第i个STB特征，F_j ^G为第j个GTB特征，tanh表示正弦激活函数，||·||表示欧拉乘方距离函数。

6.根据权利要求1所述的基于中间模态的场景文本检索方法，其特征在于，步骤(1)中对图像数据集进行预处理包括：对图像尺寸调整、图像比例缩放、图像裁剪和图像像素标准化，将像素值转换到[0,1]范围内。

7.根据权利要求1所述的基于中间模态的场景文本检索方法，其特征在于，步骤(1)中对文本数据集进行预处理包括：对文本进行单热向量化处理。

8.一种基于中间模态的场景文本检索系统，其特征在于，用于当用户在场景文本检索模型中输入查询文本，检索结果为包含该查询文本的所有图像，且该图像中标记该查询文本的位置；包括：

预处理模块，用于对图像数据集和文本数据集进行预处理；

所述字符修正度量损失函数的公式为：

所述字符序列预测损失函数的公式为：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于中间模态的场景文本检索方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1-7任一项所述的基于中间模态的场景文本检索方法。