CN113065557A

CN113065557A - 一种基于文字提取的图像匹配方法

Info

Publication number: CN113065557A
Application number: CN202110412528.XA
Authority: CN
Inventors: 韩淑芹; 李琴
Original assignee: Weifang Engineering Vocational College
Current assignee: Weifang Engineering Vocational College
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-07-02

Abstract

本发明请求保护一种基于文字提取的图像匹配方法，生成模板图片，作为匹配的样本图片；得到稳定的局部区域，至少包括关键点和相关信息，包括尺度和角度信息；完成数据加载、模型搭建、模型训练和选择、模型评价，经过算子的描述就得到局部特征不变量；建立已有的标注好的数据集和无标注数据集的关系，对无标签数据进行多角度描述，增加标签多样性。无需对图像中的文字进行倾斜矫正、尺度缩放、位置平移等处理，减少了很多人工处理等工作，标签平滑损失更好的加快了目标域模型的收敛，并且提高了重识别模型的准确率，训练好的重识别模型对现实中的各种场景都有更好的泛化能力。

Description

一种基于文字提取的图像匹配方法

技术领域

本申请属于图像处理领域，具体的，涉及一种基于文字提取的图像匹配方法。

背景技术

基于内容的图像检索技术飞速发展，根据图像、图像的内容语义以及上下文联系进行查找，以图像语义特征为线索从图像数据库中检索出具有相似特性的其它图像。其中图像的特征提取也是各式各样，发展众多。以 2004 年 David Lowe完善的 SIFT 为代表，局部特征不变量成为特征提取的热点，主要在于其对仿射变化，复杂背景，噪声等的鲁棒性是以前传统特征提取算法所不能比拟的。这就给文字识别技术提供了启示，其一为系统框架，不仅仅依靠 OCR 系统，而是利用图像匹配进行文字识别，更形象得说应该是对文字进行匹配。其二是文字的特征提取，也不再是利用统计或者结构特征，而是运用局部特征不变量进行替代，提取文字特征。

虽然在智能交通领域中广泛使用车牌作为车身的唯一标识，但是在实际监控环境下，由于摄像头拍摄角度、车牌遮挡、图片分辨率、套牌车等原因使得车牌识别难以发挥实质性的作用。所以，除了使用车牌信息，车身外观的文字特征也作为了车身匹配的重要依据。但是由于车身本身固有的属性限制，如属于同一款车型的车身外观极为相似，无法准确地从同一类车身中定位某一辆车。此外，由于姿态、光照等因素，相同车身的外观特征在不同摄像头下的差异也较大，这无疑增加了车身重识别任务的难度。因此，如何训练有效的适应性强的车身重识别模型是一项重要的挑战。

发明内容

为解决当前交通环境下车牌和车身文字的识别问题，本发明请求保护一种基于文字提取的图像匹配方法，其特征在于，包括：

生成模板图片，作为匹配的样本图片；

得到一些稳定的局部区域，至少包括关键点和相关信息，包括尺度和角度信息；

完成数据加载、模型搭建、模型训练和选择、模型评价，经过算子的描述就得到局部特征不变量，即特征向量；

采用训练主题模型得到文本的主题模型向量表示，把模板文字图像提取的特征向量通过一定的方法建立索引，后面数据的查询具有层次性，优化存储的结构，便于查询；

输入待查询的文字图像的特征向量和已经建立好的模板特征索引库来得到符合相似衡量；

建立已有的标注好的数据集和无标注数据集的关系，对无标签数据进行多角度描述，增加标签多样性。

本发明不同层次上的特征融合(全局特征和局部特征)方法使得特征表达更加全面，并有利于模型提取高层次上的文本语义信息，并将该特征提取模型与基于机器学习的传统多标签文本分类方法进行集成，可以获得更好的分类效果；采用局部特征不变量作为文字的表述，这样不同于 OCR 系统，无需对文字进行前期增强处理；无需对图像中的文字进行倾斜矫正、尺度缩放、位置平移等处理，减少了很多人工处理等工作，标签平滑损失更好的加快了目标域模型的收敛，并且提高了重识别模型的准确率，训练好的重识别模型对现实中的各种场景都有更好的泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所涉及的一种基于文字提取的图像匹配方法的工作流程图。

具体实施方式

下面将结合本发明的附图及具体实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照附图1，本发明请求保护一种基于文字提取的图像匹配方法，其特征在于，包括：

生成模板图片，作为匹配的样本图片；

进一步地，模板产生的图像都是灰度图像，格式采用256 级灰度的jpg 图片，添加了噪声和背景或者是对文字本身进行变换，包括伸缩，旋转，投影变化；所述模板图像和测试图像的生成采用同一个数据结构；

所述模板由 java 来实现，包含了一个主要的数据结构，即图像的信息Info；

所述Info用于描述图片的信息，其属性定义至少包含了字体，拉伸，旋转，背景，前景，前景灰度值，噪声主要信息。

进一步地，所述得到一些稳定的局部区域，至少包括关键点和相关信息，包括尺度和角度信息，还包括：

通过在尺度空间找极值点来确定稳定的关键点，接着精确定位极值点的位置，然后通过去除低对比度的点和强边缘效应的点来筛选关键点，最后为关键点指定方向参数保证旋转不变，至此图像的关键点检测完毕，每个关键点有三个信息：位置、所在尺度、方向；

在描述子阶段，取以关键点为中心邻域，然后计算邻域窗口内每个点 8 个方向的梯度方向直方图，最后绘制每个梯度方向的累加值，形成128 维的向量，至此，图像的关键点就通过 SIFT 方法描述出来。

进一步地，所述完成数据加载、模型搭建、模型训练和选择、模型评价，经过算子的描述就得到局部特征不变量，即特征向量，还包括：

输入己标注文本，包括文本内容和文本标签，采用训练主题模型得到文本的主题模型向量表示；

将原始数据集进行划分，分为训练集、验证集和测试集，统计训练数据集中每个标签出现的频率，并根据标签出现的频率从高到低创建标签表；

创建文档数据的单词表，将每个样本中文本和标签转换为相应的编码序列，搭建基于编码解码器与深度主题特征提取的多标签文本分类模型；

通过词向量映射矩阵得到每个单词的编码向量，利用编码器网络LSTM提取文本的向量表示，并将其拼接到主题模型向量中，再通过解码器LSTM和Attention机制获得文本的最终表示，使用Softmax函数获取每个标签的概率，通过交叉熵损失函数，构造模型损失；

用Adam优化器更新神经网络的参数，在每一轮完整训练后，对验证集进行测试，记录评价指标结果，并保存目前最优的模型参数，重复直到评价指标不再上升为止；

加载最优模型，并对测试集进行完整测试，输出模型。

进一步地，所述采用训练主题模型得到文本的主题模型向量表示，把模板文字图像提取的特征向量通过一定的方法建立索引，后面数据的查询具有层次性，优化存储的结构，便于查询，还包括：

系统初始设定参数 LSH 参数，选择哈希函数，利用高斯分布来实现哈希函数；

把模板文字图像的特征向量作为输入，使用初始参数进行检索，并且判断检索的成功率，如果检索成功率达到一定要求，则对性能进行分析，性能分析主要包括两部分，内存占用分析和检索速度分析，如果达到要求，则结束整个参数学习过程，同时索引也建立完毕，如果没有达到要求，则调整参数；

索引的数据结构采用哈希表作为存储结构，特征向量经过函数映射后的散列值进行再次映射，最终存储在内存中的是二次散列后的散列值与关键点指针；

把测试文字图像的特征向量和已经生成好的模板索引库作为输入，进行索引检索。从哈希表中选取相应的关键点链表，然后进行线性查找，将距离小于检索半径 r 的关键点作为候选关键点返回。

这个索引生成过程，把模板文字图像的特征向量作为输入，系统使用初始参数进行检索，并且判断检索的成功率，如果系统检索成功率达到一定要求，则对系统的性能进行分析，性能分析主要包括两部分，内存占用分析和检索速度分析，如果达到要求，则结束整个参数学习过程，同时索引也建立完毕，如果没有达到要求，则调整参数。参数调整遵守以下准则：

1）r 表示检索半径，r 越大，检索精度越高，检索速度越慢。r 的值不宜设置得过大，

否则随着点数的增多，检索时间会急剧上升。

2）k 表示一个哈希函数族内哈希函数的个数，k 越大则精度越高，速度越慢。

3）L 表示哈希函数族的个数，L 越大则查询时间越长，但是精度也越高。

4）w 哈希函数的分母值，w 越大则哈希值区分的粒度就越小，比较节省内存空间，但是会影响检索的精度。

按照这些准则进行学习过程，索引的数据结构采用哈希表作为存储结构，系统选取的 k 参数是偶数，共生成 mk 个哈希函数，其中 m 为独立哈希函数 Tuple 的个

数。即特征向量经过函数映射后的散列值进行再次映射，最终存储在内存中的是二次散

列后的散列值与关键点指针，以达到节省内存的目的。此哈希表采用链接法来解决散列

冲突的问题。

最后，索引检索过程，索引检索与索引建立的过程相似。把测试文字图像的特征向量和已经生成好的模板；索引库作为输入，进行索引检索。从哈希表中选取相应的关键点链表，然后进行线性查找，将距离小于检索半径 r 的关键点作为候选关键点返回。索引检索过程可以看成是关键点与关键点匹配的一个点匹配过程。

进一步地，所述建立已有的标注好的数据集和无标注数据集的关系，对无标签数据进行多角度描述，增加标签多样性还包括：

训练基于生成对抗网络的数据自适应模块，将有标签的图像转化到无标签的目标域，从而平滑域偏差并充分利用现有源域的图片；

将生成的图像作为“伪目标样本”，并与选定的未标记样本组合作为输入进行特征学习，从而逐渐适应目标域；

在训练模型时，使用损失平衡未标记样本和不同聚类中心的置信度，从而提高训练的车身重识别模型的可靠性。最后，采用动态采样策略选择目标域中的可靠的样本，

并且将具有准确标签的“伪目标样本”和从未标记域中选择的具有伪标签的样本做为下一次迭代的训练集；

在标记的源域上训练初始模型，然后将该初始模型应用于未标记的数据r上，以此预测数据的伪标签V；

在模型更新步骤中，集合r和标签被视为新的训练集，并且用于重新训练模型。

由两组生成器和判别器对(G，

)和(F，

)组成，它们将样本从源(目标)域映射到目标(源)域并生成与目标(源)域中的风格相似的样本。除了传统的对抗损失和循环一致性损失外，还使用内容损失来保留源域中的标签信息。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于文字提取的图像匹配方法，其特征在于，包括：

生成模板图片，作为匹配的样本图片；

得到稳定的局部区域，至少包括关键点和相关信息，包括尺度和角度信息；

2.如权利要求1所述的一种基于文字提取的图像匹配方法，其特征在于，所述生成模板图片，作为匹配的样本图片，包括：

模板产生的图像都是灰度图像，格式采用256 级灰度的jpg 图片，添加了噪声和背景或者是对文字本身进行变换，包括伸缩，旋转，投影变化；所述模板图像和测试图像的生成采用同一个数据结构；

3.如权利要求1所述的一种基于文字提取的图像匹配方法，其特征在于，包括：

所述得到稳定的局部区域，至少包括关键点和相关信息，包括尺度和角度信息，还包括：

4.如权利要求1所述的一种基于文字提取的图像匹配方法，其特征在于，完成数据加载、模型搭建、模型训练和选择、模型评价，经过算子的描述就得到局部特征不变量，即特征向量，还包括：

加载最优模型，并对测试集进行完整测试，输出模型。

5.如权利要求1所述的一种基于文字提取的图像匹配方法，其特征在于，包括：

所述采用训练主题模型得到文本的主题模型向量表示，把模板文字图像提取的特征向量通过一定的方法建立索引，后面数据的查询具有层次性，优化存储的结构，便于查询，还包括：

把测试文字图像的特征向量和已经生成好的模板索引库作为输入，进行索引检索。

6.从哈希表中选取相应的关键点链表，然后进行线性查找，将距离小于检索半径 r 的关键点作为候选关键点返回。

7.如权利要求1所述的一种基于文字提取的图像匹配方法，其特征在于，包括：

所述建立已有的标注好的数据集和无标注数据集的关系，对无标签数据进行多角度描述，增加标签多样性还包括：

在训练模型时，使用损失平衡未标记样本和不同聚类中心的置信度，从而提高训练的车身重识别模型的可靠性。

8.最后，采用动态采样策略选择目标域中的可靠的样本，