CN110533057A

CN110533057A - 一种单样本与少样本场景下的汉字验证码识别方法

Info

Publication number: CN110533057A
Application number: CN201910354372.7A
Authority: CN
Inventors: 马伟锋; 陈喆; 许楠钒; 张宇来
Original assignee: Zhejiang University of Science and Technology ZUST
Current assignee: Zhejiang University of Science and Technology ZUST
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-12-03
Anticipated expiration: 2039-04-29
Also published as: CN110533057B

Abstract

本发明公开了一种单样本与少样本场景下的汉字验证码识别方法，包括基于孪生网络结构建立字符匹配网络模型，用字符匹配网络模型中的两个特征提取网络分别对训练样本中的一对文本图像进行特征提取，在通过相似度网络对两个特征向量计算相似度，以此重复多次训练直至字符匹配网络模型的精度稳定，再利用训练后的字符匹配网络模型进行汉字验证码识别；本发明可以在单一训练样本或少量训练样本的情况下，使模式识别技术对汉字验证码具有很好的识别率，而且识别准确率高。

Description

一种单样本与少样本场景下的汉字验证码识别方法

技术领域

本发明涉及模式识别学科技术领域，特别是一种单样本与少样本场景下的汉字验证码识别方法。

背景技术

随着互联网技术的快速发展，网络安全越来越受人们的关注，而验证码作为区分机器与人类的一项重要技术，目前已被广泛地应用于各个领域。在网络环境中，常见的验证码包括英文字母验证码以及数字验证码，但如今，由于此类验证码的自动识别率已经达到较高水平，使用汉字验证码作为代替日渐流行。与英文字母和数字验证码相比，汉字验证码因其繁多的类别与复杂的结构，具有更高的识别难度。

在传统的汉字验证码识别方法中，通常将其看作一个具有固定类别的分类任务，使用卷积神经网络(CNN)对大量样本图像进行学习，从而实现精准识别。如今，基于上述模式的汉字验证码识别方法已经取得了较高的识别率，但其仍存在以下缺陷：1)目前已有研究通常需要几十万标注数据进行训练(即单个类别需要上百张标注图像)，难以在少样本的情况下仍保持较高的识别率；2)此类模型在训练时需要确定识别的类别数量，且无法识别不包含在训练集中的汉字类别。

本发明的目的在于，提供一种单样本与少样本场景下的汉字验证码识别方法。本发明可以在单一训练样本或少量训练样本的情况下，使模式识别技术对汉字验证码具有很好的识别率，而且识别准确率高。

本发明的技术方案：一种单样本与少样本场景下的汉字验证码识别方法，按下述步骤进行：

a、基于孪生网络结构建立字符匹配网络模型，所述字符匹配网络模型包括两个共享权重的特征提取网络和一个相似度网络；所述的特征提取网络用于采集文本图像的特征向量；所述的相似度网络用于计算特征向量之间的相似度；

b、基于GB2312-80字符集建立汉字匹配与识别图像集，所述的汉字匹配与识别图像集包括训练集和模板集；所述的训练集为由一级常用汉字组成的训练样本；所述的模板集包括由一级常用汉字组成的模板一级样本和由二级常用汉字组成模板二级样本；

c、对字符匹配网络模型进行训练，利用两个特征提取网络分别对训练样本中的一对文本图像进行特征向量提取，再通过相似度网络对两个特征向量计算相似度进行识别学习，重复多次识别学习直至字符匹配网络模型识别精度稳定；

d、利用训练后的字符匹配网络模型进行汉字验证码识别。

上述的单样本与少样本场景下的汉字验证码识别方法，所述步骤c中，相似度网络由一个全连接层组成，用于计算特征向量之间的相似度；其中相似度可以表示为：

s＝S(F(x⁺),F(x^-))＝σ(|v⁺-v^-|w+b)

其中，σ表示sigmoid激活函数，‘+’和‘-’表示不同子网络中的对象，x⁺和x^-表示输入的一对文本图像，v⁺和v^-表示使用特征提取网络提取出的特征向量，w和b是全连接层中的权重和偏置，F(·)表示特征提取网络，S(·,·)表示相似度网络。

前述的单样本与少样本场景下的汉字验证码识别方法，所述步骤c中，字符匹配网络模型的训练时，若使用p表示基于孪生网络结构建立字符匹配网络模型的整体，则：

p(x⁺,x^-)＝S(F(x⁺),F(x^-))

采用二元交叉熵损失作为损失函数：

L(x⁺,x^-,y)＝y log p(x⁺,x^-)+(1-y)log(1-p(x⁺,x^-))

其中，y表示输入的一对文本图像的标签，若两张文本图像包含相同汉字，y＝1；若含有不同汉字，y＝0。

前述的单样本与少样本场景下的汉字验证码识别方法，所述步骤d中，汉字验证码识别结果可以表示为：

其中，x表示待识别的汉字验证码，x^a表示模板集中的某一张文本图像,X表示模板集中的所有文本图像，在该方法中，首先将汉字验证码x与模板集X中的所有图像进行两两匹配；接着使用字符匹配网络p进行相似度计算，并取相似度最高的模板的标签作为识别结果。

前述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述步骤d中，汉字验证码结果还可以表示为：

在该方法中，首先将模板集X提取为特征向量，形成模板向量库V；接着，使用特征提取网络F(·)将待识别的汉字验证码x提取为特征向量v；最后，将待识别的特征向量v与模板向量库V中的所有向量进行两两匹配，并使用相似度网络S(·,·)进行相似度计算，并取相似度最高的模板的标签作为识别结果。

前述的单样本与少样本场景下的汉字验证码识别方法，所述步骤c中，将训练样本中含有相同汉字的两个文本图像的定义为正样本对，将含有不同汉字的两个文本图像定义为负样本对；随后随机构造一个含有相同数量正负样本对的集合进行训练，训练字符匹配模型直至精度趋于稳定；当精度稳定时，找出训练集所有文本图像的前10个具有最高相似度的错误匹配，以此重构数据集，并以新数据集替换旧数据集，使字符匹配模型再次训练至精度稳定，重复上述过程多次。

前述的单样本与少样本场景下的汉字验证码识别方法，所述训练样本中设有15020张文本图像，对应GB2312-80字符集中的3755个一级汉字，每个汉字有4张文本图像。

前述的单样本与少样本场景下的汉字验证码识别方法，所述模板一级样本中设有3755张文本图像，对应GB2312-80字符集中的3755个一级汉字；所述模板二级样本中设有3008张文本图像，对应GB2312-80字符集中的3008个二级常用汉字。

前述的单样本与少样本场景下的汉字验证码识别方法，所述的特征提取网络将输入的文本图像转换为256维特征向量。

与现有技术相比，本发明具有以下有益效果：

(1)本发明通过孪生网络结构建立字符匹配网络模型，用字符匹配网络模型中的两个共享权重的特征提取网络分别对训练样本中的一对文本图像进行特征提取，在通过相似度网络对两个特征向量计算相似度，以此重复多次训练直至字符匹配网络模型的精度稳定，再利用训练后的字符匹配网络模型进行对汉字验证码识别；本发明相对于现有的字符分类方法相比，可以实现在单一训练样本或少量训练样本情况下，使模式识别技术对汉字验证码具有很好的识别率，而且识别准确率高，并在一定程度上解决了汉字字符集过大造成的识别困难问题，有效缓解了少样本导致的过拟合现象，具有较强的灵活性与拓展性。此外，本发明还先将模板集中的文本图像进行特征向量提取形成模板向量库，然后将待识别汉字验证码的特征向量与模板向量库中的所有向量进行两两匹配，形成识别结果，加快了预测速度，避免重复计算。

(2)本发明还将训练样本中含有相同汉字的两个文本图像的定义为正样本对，将含有不同汉字的两个文本图像定义为负样本对；随后随机构造一个含有相同数量正负样本对的集合进行训练，训练字符匹配模型直至精度趋于稳定；当精度稳定时，找出训练集所有文本图像的前10个具有最高相似度的错误匹配汉字，以此重构数据集，并以新数据集替换旧数据集，使字符匹配模型再次训练至精度稳定，重复上述过程多次。通过学习由错误字符构造出的负样本对，使得字符匹配网络模型获得了较大的提升，并可从错误识别中学习信息从而提升汉字验证码识别的准确率。

附图说明

图1是本发明的汉字匹配与识别图像集示意图；

图2是本发明的正样本对和负样本对示意图；

图3是本发明随机构造一个含有相同数量正负样本对的集合的算法示意图；

图4是本发明的字符匹配模型的结构示意图；

图5是本发明的字符匹配网络模型训练精度示意图；

图6是本发明的字符匹配网络模型对待识别汉字的识别示意图；

图7是本发明的训练集、测试集和模板集的示意图；

图8是本发明在少样本试验下与对比例的比较识别准确率的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例：一种单样本与少样本场景下的汉字验证码识别方法，按下述步骤进行：

a、基于孪生网络结构建立字符匹配网络模型，所述字符匹配网络模型包括两个特征提取网络和一个相似度网络；所述的特征提取网络用于采集文本图像的特征向量，其结构如表1所示；

表1

所述的相似度网络用于计算特征向量之间的相似度，所述相似度网络由一个全连接层组成，其结构如表2所示：

layer	input size	out size
			abs	256&256	256
fc	256	1
			sigmoid	1	1

表2

b、基于GB2312-80字符集建立汉字匹配与识别图像集，所述的汉字匹配与识别图像集包括训练集和模板集；如附图1所示，该汉字匹配与识别图像集中的所有样本均为48×48的RGB图像，使用的字体为微软雅黑，为了增加识别难度，图像中增加了随机点和随机线，并随机产生汉字的颜色、位置以及旋转角度；所述的训练集为由一级常用汉字组成的训练样本，包括15020张文本图像，对应GB2312-80字符集中的3755个一级汉字，每个汉字仅有4张文本图像，训练样本数量少，可以说是少样本识别；所述的模板集包括由一级常用汉字组成的模板一级样本和由二级常用汉字组成模板二级样本；所述模板一级样本中设有3755张文本图像，对应GB2312-80字符集中的3755个一级汉字；所述模板二级样本中设有3008张文本图像，对应GB2312-80字符集中的3008个二级常用汉字，由于训练样本中没有二级常用汉字的文本图像，仅在模板样本中包含1张，因此对于二级常用汉字的文本图像来说是单样本识别；

c、对字符匹配网络模型进行训练，并设置批大小为512，设置学习率为0.0001，并在每轮训练后衰减为原先的98％。将RGB图像转换为灰度图像，以减轻颜色的影响，如附图2所示，首先将训练样本中含有相同汉字的两个文本图像的定义为正样本对，将含有不同汉字的两个文本图像定义为负样本对；如附图3所示，利用一个生成样本对的动态算法随机构造一个含有相同数量正负样本对的集合进行训练，如附图4所示，先利用两个特征提取网络分别对训练样本中的正样本对或负样本对进行特征向量提取，将输入的文本图像转换为256维特征向量,再通过相似度网络对两个特征向量计算相似度进行识别学习，其中相似度可以表示为：

s＝S(F(x⁺),F(x^-))＝σ(|v⁺-v^-|w+b)

在训练时，若使用p表示基于孪生网络结构建立字符匹配网络模型的整体，则：p(x⁺,x^-)＝S(F(x⁺),F(x^-))，

采用二元交叉熵损失作为损失函数：

L(x⁺,x^-,y)＝ylogp(x⁺,x^-)+(1-y)log(1-p(x⁺,x^-))；

训练字符匹配模型直至识别精度趋于稳定；当精度稳定时，找出训练集所有文本图像的前10个具有最高相似度的错误匹配汉字，以此重构数据集，并以新数据集替换旧数据集，使字符匹配模型再次训练至精度稳定，重复多次训练直至字符匹配网络模型精度稳定；如附图5所示，在每次数据集重建后，精度会突然下降，然后开始上升，在这个过程中，字符匹配网络模型逐渐学会提取具有判别性的特征。

d、利用训练后的字符匹配网络模型进行汉汉字验证码识别，汉字验证码识别结果可以表示为：

其中，x表示待识别的汉字验证码，x^a表示模板集中的某一文本图像,X表示模板集中的所有文本图像。在该方法中，首先将汉字验证码x与模板集X中的所有图像进行两两匹配；接着使用字符匹配网络p进行相似度计算，并取相似度最高的模板的标签作为识别结果。

为加快计算速度，避免重复运算，如附图6所示，优化后的汉字识别结果可以表示为：

在该方法中，首先将模板集X提取为特征向量，形成模板向量库V；接着，使用特征提取网络F(·)将待识别的汉字验证码x提取特征向量v；最后，将待识别特征向量v与模板向量库V中的所有向量进行两两匹配，并使用相似度网络S(·,·)进行相似度计算，取相似度最高的模板的标签作为识别结果。

对比例1：基于ResNet建立字符分类模型，每个Stage由2个瓶颈结构组成，模型通道数使用参数C进行调整。该模型共有26层，其结构如表3所示：

表3

该字符分类模型使用交叉熵作为损失函数进行训练，学习率为0.0001，在每轮训练后衰减为原先的98％。

申请人为验证本发明实施例中的汉字验证码识别准确率和对比例1中常规字符分类的汉字验证码识别准确率，进行了试验。如图7所示，申请人除了设置训练集和模板集以外，还设置了测试集，所述的测试集包括由一级常用汉字组成的测试一级样本和由二级常用汉字组成测试二级样本，所述测试一级样本中设有10000张文本图像，对应GB2312-80字符集中的3755个一级汉字；所述测试二级样本中设有10000张文本图像，对应GB2312-80字符集中的3008个二级常用汉字。

在对比例1中，通过上述字符分类模型测试其在少样本数据集(即每个汉字仅有4张文本图像)学习环境下的性能，其对比例1在训练集和测试集上的准确率如表4所示，表中的模型为使用不同通道数C构建的字符分类模型，其训练集与测试集的准确率具体数值如表4所示：

表4

表4展示了字符分类方法在测试一级样本上的具体表现。在一系列实验中，准确率最高的字符分类模型为C＝8的模型。然而，即便在表现最好的模型下，测试集与训练集的准确率之间存在着超过21％的差距。

在实施例中，每个Stage同样由2个瓶颈结构组成，起始通道数同对比例1中表现最差的模型一致(C＝64)，以表现该方法的优越性。通过多次重构数据集进行训练，识别结果得到了显著的提升，其试验的结果如表5所示。

表5

其中，汉字验证码识别的准确率分别为训练样本、测试一级样本、测试二级样本和整个测试集上的Top1、Top5、Top10识别率。

从表4和表5中可以对比看出，本发明实施例与对比例1相比，一方面在测试一级样本的识别率上都实现了超越，其中Top1的识别率提高20.82％、Top5的识别率提高6.53％、Top10的识别率提高3.15％，显著得提高了在少样本条件下的汉字验证码识别的准确性；而且本发明在测试二级样本的识别率上可以在Top1达到98.59％、Top5上达到99.96％、Top10上达到100.00％，说明本发明能够从训练集中学习汉字的共性，并将所学习到的知识应用于识别此前从未见过的字符中，从而保证当已学习的字符类别与未学习的字符类别混合时，字符匹配网络模型不会损失太多精确度。另一方面，本发明的过拟合情况(训练集与测试集相差精度，实施例中为0.33％)远低于对照例(训练集与测试集相差精度，对照例中为21.29％)，说明本发明可以更好地利用小规模数据集并学习判别特征，提高汉字验证码识别的准确性。

对比例2：采用文献《卷积神经网络在验证码识别上的应用与研究》中介绍的方法进行对汉字验证码识别。

对比例3：采用文献《卷积神经网络识别汉字验证码》中介绍的方法进行对汉字验证码的识别。

对比例4：采用文献《Chinese character CAPTCHA recognition andperformance estimation via deep neural network》中介绍的进行对汉字验证码的识别。

本发明实施例中每个Stage均由k个瓶颈结构组成，当k＝1、k＝2、k＝3时，模型分别命名为SiameseCCR-15、SiameseCCR-27、SiameseCCR-39。用SiameseCCR-15、SiameseCCR-27、SiameseCCR-39和对比例2、对比例3、对比例4进行少样本识别试验，其测试结果如图8所示，图8中a、b和c是传统方法在本文数据集上的准确率变化图，从图8中可以明显可以看出，训练集与测试集准确率存在较大差距，模型存在严重的过拟合；图8中d、e、f是使用本发明实施例的三组实验，其不仅取得了较高的准确率，过拟合的情况也得到了缓解。

在少样本识别的实验中，使用含有15020张汉字验证码单字的D_train进行训练，使用含有10000张汉字验证码单字的进行测试。结果如表6所示。

表6

其中，对比例2和对比例4提出的模型均为5层的类LeNet-5网络，由3层卷积层和2层全连接层组成；而对比例3使用的模型为11层的卷积神经网络，由10层卷积层和1层全连接层组成。

从表6的前三组实验中可以得出以下观察结果：1)这3种传统方法在大样本的情况下能取得较好的准确率，但在少样本场景下，对训练集的过拟合导致其识别结果不够理想；2)通过简单减少模型的层数难以解决过拟合的问题，在表现最好的模型中(对比例2)，测试集与训练集的准确率之间仍存在着超过13％的差距。

与传统汉字验证码识别方法相比，使用本发明使汉字验证码的识别率得到了显著的提升。一方面，相比3组对比试验，该方法在的Top1、Top5、Top10识别率上都实现了明显的超越；另一方面，过拟合得到了缓解，这表明本发明可以更充分地利用小规模数据集所包含的信息。

在构建汉字验证码识别模型时，本发明仅需为每类汉字收集4张标注样本，即可实现传统方法在海量数据下才能达到的识别率，极大地减少了人工标注的工作量。

在进行了少样本试验时候，使用基于D_train训练得到的3个模型进行单样本识别实验，在此处，不对模型进行重新训练，而是仅更改测试时使用的匹配模板。为了评价该方法的鲁棒性以及知识迁移能力，本发明设计了两组实验：1)使用作为匹配模板，使用进行测试；2)使用作为匹配模板，使用进行测试。测试结果如表7所示：

表7

从表7中可以看出，即使在未训练过的测试二级样本中二级常用汉字上，本发明也能实现超过97％的准确率。这表明本发明能够从训练集中学习汉字验证码的共性，并将学习到的知识应用于识别此前从未见过的字符中。另外，即使字符模板的匹配空间扩大至测试一级样本和测试二级样本中全体字符，也不会造成模型识别率大幅下降。而且在现实的汉字验证码识别场景中，若使用传统方法，一旦生成验证码的字符集范围发生变化，原有模型就会失效，需要重新采集大量数据进行重新训练，以应对验证码系统的更新；而利用本发明进行汉字验证码识别，当字符集发生变化时，仅需为增加的每个字符收集1个匹配模板即可，而无需重新训练模型，具有较强的灵活性与拓展性。

综上所述，本发明可以在单一训练样本或少量训练样本的情况下，使模式识别技术对汉字验证码具有很好的识别率，而且识别准确率高。

Claims

1.一种单样本与少样本场景下的汉字验证码识别方法，其特征在于：按下述步骤进行：

c、对字符匹配网络模型进行训练，利用两个共享权重的特征提取网络分别对训练样本中的一对文本图像进行特征向量提取，再通过相似度网络对两个特征向量计算相似度进行识别学习，重复多次识别学习直至字符匹配网络模型识别精度稳定；

d、利用训练后的字符匹配网络模型进行汉字验证码识别。

2.根据权利要求1所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述步骤c中，相似度网络由一个全连接层组成，用于计算特征向量之间的相似度；其中相似度可以表示为：

s＝S(F(x⁺),F(x-))＝σ(|v⁺-v^-|w+b)

3.根据权利要求2所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述步骤c中，字符匹配网络模型的训练时，若使用p表示基于孪生网络结构建立字符匹配网络模型的整体，则：

p(x⁺,x^-)＝S(F(x⁺),F(x^-))，

采用二元交叉熵损失作为损失函数：

L(x⁺,x^-,y)＝y log p(x⁺,x^-)+(1-y)log(1-p(x⁺,x^-))

其中，y表示输入的一对文本图像的标签，若两张文本图像包含相同汉字，则y＝1；若含有不同汉字，则y＝0。

4.根据权利要求3所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述步骤d中，汉字验证码识别结果可以表示为：

其中，x表示待识别的汉字验证码，x^a表示模板集中的某一文本图像,X表示模板集中的所有文本图像，在该方法中，首先将汉字验证码x与模板集X中的所有图像进行两两匹配；接着使用字符匹配网络p进行相似度计算，并取相似度最高的模板的标签作为识别结果。

5.根据权利要求4所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述步骤d中，汉字验证码识别结果还可以表示为：

在该方法中，首先将模板集X提取为特征向量，形成模板向量库V；接着，使用特征提取网络F(·)将待识别的汉字验证码x提取特征向量v；最后，将待识别的特征向量v与模板向量库V中的所有向量进行两两匹配，并使用相似度网络S(·,·)进行相似度计算，取相似度最高的模板的标签作为识别结果。

6.根据权利要求4所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述步骤c中，将训练样本中含有相同汉字的两个文本图像的定义为正样本对，将含有不同汉字的两个文本图像定义为负样本对；随后随机构造一个含有相同数量正负样本对的集合进行训练，训练字符匹配模型直至精度趋于稳定；当精度稳定时，找出训练集所有文本图像的前10个具有最高相似度的错误匹配，以此重构数据集，并以新数据集替换旧数据集，使字符匹配模型再次训练至精度稳定，重复上述过程多次。

7.根据权利要求1所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述训练样本中设有15020张文本图像，对应GB2312-80字符集中的3755个一级汉字，每个汉字有4张文本图像。

8.根据权利要求1所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述模板一级样本中设有3755张文本图像，对应GB2312-80字符集中的3755个一级汉字；所述模板二级样本中设有3008张文本图像，对应GB2312-80字符集中的3008个二级常用汉字。

9.根据权利要求1所述的单样本与少样本场景下的汉字验证码识别方法，其特征在于：所述的特征提取网络将输入的文本图像转换为256维特征向量。