CN111950548B

CN111950548B - 一种引入字库文字图像进行深度模板匹配的汉字识别方法

Info

Publication number: CN111950548B
Application number: CN202010793534.XA
Authority: CN
Inventors: 张重生; 史先进; 王斌; 陶月锋; 门艺; 王慧慧; 牛钦; 曹爽; 纵瑞星; 姜维
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2023-07-28
Anticipated expiration: 2040-08-10
Also published as: CN111950548A

Abstract

本发明公开了一种引入字库文字图像进行深度模板匹配的汉字识别方法，包括以下步骤：A：对汉字矢量字库中每个文字，得到字库文字图像及对应的文字内容；B：对汉字矢量字库中每个文字，获取该文字对应的真实字符图像集合；C：设置训练模型及参数；D：随机挑选K组文字内容相同或不同的字库文字图像和真实字符图像的组合，利用双通道孪生神经网络对模型进行训练并得到更新后的文字识别模型；E：创建键值对数据结构并读取拟预测真实字符图像；F：利用更新后的文字识别模型，将拟预测真实字符图像与汉字矢量字库中的所有字库文字图像比对并输出结果。本发明极大地降低了汉字识别的难度，提高了汉字识别的准确率。

Description

一种引入字库文字图像进行深度模板匹配的汉字识别方法

技术领域

本发明涉及一种图像中汉字的识别方法，尤其涉及一种引入字库文字图像进行深度模板匹配的汉字识别方法。

背景技术

文字识别技术已有数十年的发展历程，早期的文字识别技术主要针对扫描文档图像，这种扫描文档图像的特点是背景简单，文字通常排列成行，噪声较少，光线受控且均匀。最常见的扫描文档图像是书籍的扫描文档图像，其特点是白纸黑字，背景一般为白色，文字通常为黑色，而且文字排列成行，每行中相邻文字之间的间距较为均匀，且两个相邻行之间的行间距也较为均匀。对于普通难度的扫描文档图像，已有技术或软件能够取得99%左右或以上的准确率。

自然场景图像中的文字识别是文字识别领域最近十几年的研究热点。自然场景图像指的是利用数码相机、手机等成像设备在户外或室内等各种场景下拍摄的图像。包含文字的自然场景图像称为自然场景文本图像。自然场景文本图像的识别通常包括场景文本检测和场景文本识别两个阶段。场景文本检测是指在场景文本图像中定位到每个文本行，或每个单词，或每个字符的所在位置和区域；场景文本识别通常是对定位到场景文本中的文字进行识别，输出对应的文字内容或由多个文字内容组成的字符串。

真实字符图像是指只包含一个文字的图像。一个真实字符图像可以从扫描文档或自然场景文本图像中，通过手工标注或计算机算法自动剪切得到。对每个文字，一般将其对应的所有真实字符图像归类到一个文件夹中，因此，以每个文字命名的文件夹中包含的均为该文字对应的所有真实字符图像。

现有研究中，针对拉丁文的真实字符图像的文字识别技术较多，而针对自然场景文本图像中的汉字真实字符图像的识别研究较少。对于真实字符图像中的拉丁文字符识别，人们通常简单地使用传统的卷积神经网络进行直接识别，如VGG16或ResNet-50神经网络，虽然也能取得一定的文字识别结果，但整体识别准确率不够理想。由于汉字的个数是拉丁文字母个数的数十倍，因此，包含汉字的真实字符图像的文字识别难度更大。

发明内容

本发明的目的是提供一种引入字库文字图像进行深度模板匹配的汉字识别方法，相较于现有技术中直接对真实字符图像进行深度学习识别的方法，能够极大地降低真实汉字真实字符图像的识别难度，提高汉字识别正确率。

本发明采用下述技术方案：

一种引入字库文字图像进行深度模板匹配的汉字识别方法，包括以下步骤：

A：对汉字矢量字库中每个文字，根据该文字的矢量图形，生成对应的文字图像，定义为字库文字图像，并保存该字库文字图像对应的文字内容；然后进入步骤B；

B：对汉字矢量字库中每个文字，获取该文字对应的真实字符图像集合；然后进入步骤C；

C：令batch表示一个能够存放K个元组的容器，初始时batch置空；令maxIter为最大迭代次数；model表示训练阶段得到的文字识别模型，初始时model置空；然后进入步骤D；

D：进行maxIter次循环，且在每次循环中，随机挑选K组文字内容相同或不同的字库文字图像和真实字符图像的组合，然后判断当前文字识别模型model是否为空；

若当前文字识别模型model为空，则利用双通道孪生神经网络，在当前容器batch中的数据上，从零开始训练模型，模型训练完成后，将该模型保存为更新后的文字识别模型model；若当前文字识别模型model非空，则利用双通道孪生神经网络，在当前容器batch中的数据上，更新已有文字识别模型model，并保存为更新后的文字识别模型model；

当每次循环结束后，将容器batch中的内容清空；当maxIter次循环全部结束后，最终得到更新后的文字识别模型model，用于预测输入的两幅图像中的文字内容相同的概率，然后进入步骤E；

E：创建一个键值对数据结构map，键值对数据结构map的键为文字内容cls，键值对数据结构map的值为对应的预测概率值prob；令测试集中的图像数量为m，进行m次循环；在每次循环中，首先从测试集中读取下一幅真实字符图像a，然后将map置空，进入步骤F；

F:对拟预测文字内容的真实字符图像a，依次将真实字符图像a与汉字矢量字库中的每个字库文字图像b组成二元组(a，b)，并将二元组(a，b)送入步骤D中得到的更新后的文字识别模型model中，利用更新后的文字识别模型model得到真实字符图像a与字库文字图像b属于同一个文字内容的预测概率值prob；然后将字库文字图像b对应的文字内容cls及预测概率值prob的值存入键值对数据结构map中，即map[cls]=prob；当真实字符a与汉字矢量字库中的所有字库文字图像比对结束后，输出当前键值对数据结构map中预测概率值最大的前N个文字内容，作为真实字符图像a的最终文字识别结果。

所述的步骤A中，根据所选取的汉字矢量字库中每个文字的矢量图形，利用计算机程序，将对应文字的矢量图形打印到一幅背景透明的空白图像中，并保存为.png格式。

所述的汉字矢量字库为宋体汉字矢量字库。

所述的步骤B中，真实字符图像从真实图像或扫描文档中，通过手工标注或剪切得到的文字的图像。

所述的maxIter = 600000 ，K为32、64或128。

所述的步骤D包括以下具体步骤：

D1：当容器batch中的元组数量小于K时，从汉字矢量字库中的字库文字图像中随机挑选一幅字库文字图像t，并获取该字库文字图像t所对应的文字内容c；在{0，1}集合中随机选择一个数字r，若r =1，则从文字内容c所对应的真实字符图像集合中，随机挑选一幅真实字符图像s，并将三元组（t，s，1）保存到容器batch中，三元组中的t和s表示输入的两幅图像，0和1为两种可能的输出值， 1表示字库文字图像t和真实字符图像s的文字内容相同；如果r=0，则从除了文字内容c之外的其它所有文字内容的真实字符图像集合中，随机挑选一幅真实字符图像f，并将三元组（t，f，0）保存到容器batch中，三元组中的t和f表示输入的两幅图像，0和1为两种可能的输出值，0表示字库文字图像t和真实字符图像f中的文字内容不同；

重复上述步骤，直到容器batch中的元组数量等于K；然后进入步骤D2；

D2：判断当前文字识别模型model是否为空；若当前文字识别模型model为空，则利用双通道孪生神经网络，在当前容器batch中的数据上，从零开始训练模型，模型训练完成后，将该模型保存为更新后的文字识别模型model；若当前文字识别模型model非空，则利用双通道孪生神经网络，在当前容器batch中的数据上，更新已有文字识别模型model，并保存为更新后的文字识别模型model；然后进入步骤D3；

D3：当每次循环结束后，将容器batch中的内容清空；然后进入步骤D4；

D4：当maxIter次循环全部结束后，最终得到更新后的文字识别模型model，用于预测输入的两幅图像中的文字内容相同的概率，然后进入步骤E。

所述的步骤F中，N= 5。

本发明针对现有技术中基于直接识别汉字真实字符图像的难度较大，识别准确率较低的现状，通过引入汉字矢量字库中的文字图像，利用双通道孪生神经网络，将真实字符图像上的汉字识别问题，转换为利用双通道孪生神经网络的汉字真实字符图像与汉字字库文字图像的深度模板匹配，极大地降低了汉字识别的难度，提高了汉字识别的准确率。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下结合附图和实施例对本发明作以详细的描述：

如图1所示，本发明所述的引入字库文字图像进行深度模板匹配的汉字识别方法，包括以下步骤：

本发明中，汉字矢量字库可采用多种字体的汉字矢量字库，如使用宋体汉字矢量字库。根据所选取的汉字矢量字库中每个文字的矢量图形，利用计算机程序，将对应文字的矢量图形打印到一幅背景透明的空白图像中，并保存为.png格式。

真实字符图像是从真实图像或扫描文档中，通过手工标注或技术手段剪切得到的某个文字的图像，每个真实字符图像中有且仅有一个文字。将真实字符图像按照其对应的文字内容进行归类，以确保每个文字内容命名的文件夹下存放该文字所对应的所有的真实字符图像。真实字符图像与通过汉字矢量字库得到的字库文字图像的主要区别是，真实字符图像背景复杂、光照不均且拍摄角度多变，而字库文字图像则是背景纯净，且组成每个字的所有笔画的像素值均相同，因此真实字符图像的文字识别难度较大，而字库文字图像中的文字识别难度较小。

其中，maxIter为超参数，可根据真实字符图像的总个数进行设定，如取值为600000。K为超参数，需要在实验过程中调参，可取值为32，64，128等值。

D：进行maxIter次循环，且在每次循环中，随机挑选K组文字内容相同或不同的字库文字图像和真实字符图像的组合，然后判断当前文字识别模型model是否为空；若当前文字识别模型model为空，则利用双通道孪生神经网络，在当前容器batch中的数据上，从零开始训练模型，模型训练完成后，将该模型保存为更新后的文字识别模型model；若当前文字识别模型model非空，则利用双通道孪生神经网络，在当前容器batch中的数据上，更新已有文字识别模型model，并保存为更新后的文字识别模型model；当每次循环结束后，将容器batch中的内容清空；当maxIter次循环全部结束后，最终得到更新后的文字识别模型model，用于预测输入的两幅图像中的文字内容相同的概率，然后进入步骤E；

本实施例中，所述的步骤D包括以下具体步骤：

D1：当容器batch中的元组数量小于K时，从汉字矢量字库中的字库文字图像中随机挑选一幅字库文字图像t，并获取该字库文字图像t所对应的文字内容c；在{0，1}集合中随机选择一个数字r，若r =1，则从文字内容c所对应的真实字符图像集合中，随机挑选一幅真实字符图像s，并将三元组（t，s，1）保存到容器batch中，三元组中的t和s表示输入的两幅图像，0和1为两种可能的输出值， 1表示字库文字图像t和真实字符图像s的文字内容相同；如果r=0，则从除了文字内容c之外的其它所有文字内容的真实字符图像集合中，随机挑选一幅真实字符图像f，并将三元组（t，f，0）保存到容器batch中，三元组中的t和f表示输入的两幅图像，0和1为两种可能的输出值，0表示字库文字图像t和真实字符图像f中的文字内容不同；重复上述步骤，直到容器batch中的元组数量等于K；然后进入步骤D2；

双通道孪生神经网络为现有神经网络，在此不再赘述。本发明中，使用双通道孪生神经网络（2-channel Siamesenetworks），将两幅图像合在一起，形成一幅双通道的图像，然后使用卷积神经网络对该双通道图像提取特征。双通道孪生神经网络的损失函数使用默认的对比损失函数（Contrastive loss）。

在训练阶段，输入到双通道孪生神经网络中的是两幅图像及对应的目标输出值，目标输出值的取值为0或1，1表示两幅图像中的文字内容相同，0表示两幅图像中的文字内容不同。双通道孪生神经网络通过神经网络的自学习，在输入的两幅图像和目标输出值之间建立一个深度神经网络模型，该模型表示的是输入的两幅图像与目标输出值之间的复杂非线性映射关系。

D4：当maxIter次循环全部结束后，最终得到更新后的文字识别模型model，用于预测输入的两幅图像中的文字内容相同的概率，然后进入步骤E；

E：创建一个键值对数据结构map，键值对数据结构map的键为文字内容cls，键值对数据结构map的值为对应的预测概率值prob；令测试集中的图像数量为m，进行m次循环；在每次循环中，首先从测试集中读取下一幅真实字符图像a，然后将map置空，进入步骤F；其中，m为正整数；

F:对拟预测文字内容的真实字符图像a，依次将真实字符图像a与汉字矢量字库中的每个字库文字图像b组成二元组(a，b)，并将二元组(a，b)送入步骤D中得到的更新后的文字识别模型model中，利用更新后的文字识别模型model得到真实字符图像a与字库文字图像b属于同一个文字内容的预测概率值prob；然后将字库文字图像b对应的文字内容cls及预测概率值prob的值存入键值对数据结构map中，即map[cls]=prob；当真实字符a与汉字矢量字库中的所有字库文字图像比对结束后，输出当前键值对数据结构map中预测概率值最大的前N个文字内容，作为真实字符图像a的最终文字识别结果，即真实字符图像a的文字内容。N的数值可根据具体识别需求设定，本实施例中，N为5，输出当前键值对数据结构map中预测概率值最大的前5个文字内容，作为真实字符图像a的最终文字识别结果。

步骤F中，利用通过双通道孪生神经网络训练得到的更新后的文字识别模型model，输入真实字符图像a与字库文字图像b，能够得到真实字符图像a与字库文字图像b中的文字属于同一类型的概率值大小，该概率值在[0,1]之间。该概率值越大，表示两幅图像中的文字属于同一类型的概率越大；该概率值等于1时，表示两幅图像中的文字完全相同，0表示完全不同。

本发明中，在训练阶段，输入到双通道孪生神经网络中的是两幅图像，和对应的输出目标值，输出目标值的取值为0或1，1表示两幅图像中的文字内容相同，0表示两幅图像中的文字内容不同。双通道孪生神经网络通过神经网络的自学习，在输入的两幅图像和输出目标值之间建立一个深度神经网络模型，该模型表示的是输入的两幅图像与输出目标值之间的复杂非线性映射关系。

在预测阶段，利用双通道孪生神经网络训练得到的模型model的输入是两幅图像，输出是两幅图像中文字内容相同的概率值，该概率值是[0，1]之间的一个小数，概率值越大，表明两幅图像的文字内容相同的概率越大。

本发明中，基于直接识别汉字真实字符图像的难度较大，识别准确率较低的现状，通过引入汉字矢量字库中的文字图像，利用双通道孪生神经网络，将真实字符图像上的汉字识别问题，转换为利用双通道孪生神经网络的真实汉字字符图像与汉字字库文字图像的深度模板匹配问题，极大地降低了汉字识别的难度，提高了汉字识别的准确率。

Claims

1.一种引入字库文字图像进行深度模板匹配的汉字识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法，其特征在于：所述的步骤A中，根据所选取的汉字矢量字库中每个文字的矢量图形，利用计算机程序，将对应文字的矢量图形打印到一幅背景透明的空白图像中，并保存为.png格式。

3.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法，其特征在于：所述的汉字矢量字库为宋体汉字矢量字库。

4.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法，其特征在于：所述的步骤B中，真实字符图像从真实图像或扫描文档中，通过手工标注或剪切得到的文字的图像。

5.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法，其特征在于：所述的maxIter = 600000 ，K为32、64或128。

6.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法，其特征在于，所述的步骤D包括以下具体步骤：

7.根据权利要求1所述的引入字库文字图像进行深度模板匹配的汉字识别方法，其特征在于：所述的步骤F中，N=5。