CN115731453B

CN115731453B - 汉字点选式验证码识别方法及系统

Info

Publication number: CN115731453B
Application number: CN202310025389.4A
Authority: CN
Inventors: 廖万里; 金卓; 叶成熙; 肖飞; 刘金朝
Original assignee: Zhuhai Kingsware Information Technology Co Ltd
Current assignee: Zhuhai Kingsware Information Technology Co Ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-05-19
Anticipated expiration: 2043-01-09
Also published as: CN115731453A

Abstract

本发明公开了汉字点选式验证码识别方法及系统，所述方法基于VGG16‑Siamese网络，包含以下步骤：模型训练步骤，通过训练标注的验证码数据获得能够实现验证码识别的模型；图像识别步骤，通过调用所述模型训练步骤得到的模型进行推理，实现验证码内容的识别，并转换为登陆场景下该验证码图像对应汉字的坐标和顺序。本发明通过VGG16‑Siamese网络实现了对复杂汉字验证码图像的识别，相较于大部分的通用验证码识别方案有了一定的准确率提升，能够相对准确识别点选式验证码配合RPA等工具实现登陆自动化的目的。

Description

汉字点选式验证码识别方法及系统

技术领域

本发明涉及信息安全领域，特别涉及汉字点选式验证码识别方法及系统。

背景技术

验证码技术作为一种防止自动化脚本入侵的信息安全手段被广泛应用在各种网络平台中，点选式验证码相较于传统的输入式验证码免去了用户的键盘操作，大大地优化了人机交互体验，成为了现行主流的验证码形式之一。

验证码识别与文本识别原理类似，都是将文本图像的特征抽取，通过一定的方式转换回人类所能识别的自然语言。验证码识别技术大致可以分为检测和识别两步，首先通过检测网络定位文本在图像中的位置，然后再通过识别网络进行文本内容的识别。汉字点选式验证码有着识别目标多的特点，训练难度较大，目前大部分验证码识别方案在第二阶段采取的都是通用文本识别技术实现字符内容的识别。但随着验证码服务提供厂商的迭代优化，验证码文本日趋复杂化，除了字体本身有形变，还会增加背景噪声和色块覆盖字体等手段增强验证码反识别能力。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供汉字点选式验证码识别方法，该方法通过VGG16-Siamese网络实现了对复杂汉字验证码图像的识别，相较于大部分的通用验证码识别方案有了一定的准确率提升，能够相对准确识别点选式验证码配合RPA等工具实现登陆自动化的目的。

本发明的另一目的在于提供汉字点选式验证码识别系统。

本发明的目的通过以下的技术方案实现：

汉字点选式验证码识别方法，基于VGG16-Siamese网络，包含以下步骤：

模型训练步骤：通过训练标注的验证码数据获得能够实现验证码识别的模型；

图像识别步骤：通过调用所述模型训练步骤得到的模型进行推理，实现验证码内容的识别，并转换为登陆场景下验证码图像对应汉字的坐标和顺序。

所述模型分为检测部分和识别部分，其中检测部分采用yolov4模块实现，识别部分的模型网络使用VGG16结构作为主干网络，所述主干网络与针对汉字偏旁部首特征的提取网络进行叠加，输出为一个新的特征；新的特征传入孪生网络，最终输出一个0～1范围的标量作为结果。

所述模型检测和识别图像的过程如下：

（1）接收到两个输入input1和input2，其中input1表示汉字点选验证码的点击部图像输入，input2表示信息部输入；

（2）输入input1经过检测部分的yolov4模块进行检测，得到点击部中各个汉字的边界框坐标信息，并按照横坐标的值进行排序，分别标记为1,2,…,n；n为正整数；

（3）输入input2接受两种类型的输入：如果输入为图片，则通过检测部分的yolov4模块进行检测，得到点击部中各个汉字的边界框坐标信息，并按照横坐标的值进行排序，分别标记为1,2,…,m，如果输入为字符，则调用PIL库中的函数将字符转换为汉字图片，并按照输入汉字的顺序，分别标记为1,2,…,m；m为正整数；

（4）将输入input2输出的m个文字碎片进行旋转操作，得到多个方向的旋转图（每次旋转ω，得到[360/ω]张图），分别将四个方向的旋转图与输入input1中输出的n个文字碎片送入VGG16-Siamese网络进行相似度计算，得到n × m ×[360/ω]个匹配对；对得到的结果按照相似度进行排序，对n张碎片取相似度最高的匹配对作为最终的结果输出。

所述模型基于VGG16-Siamese网络设计，包括backbone、Radical、encoder、predictor、D₁、D₂六部分；backbone和Radical由多个卷积层和最大池化层构成，其用于提取单个文字图像的特征；提取特征分为整体图像和掩模图像两部分，为了融入混合尺度特征辅助识别，通过掩模得到五个高维特征图会通过一个VGG Block提取偏旁特征，与backbone提取的完整图像特征进行contact操作后送入右端的孪生网络；

同时，在另一个分支上，完整图像经过Radical网络提取字形特征；

Radical网络引入了CBAM（Convolutional Block Attention Module）结构在字形结构分类网络中加入注意力机制，最终经过softmax层后经过D₂计算得到的loss与D₁得到的loss叠加作为整体网络的损失；

encoder和predictor都是一个MLP结构，即至少一个线性层和一个ReLu函数的叠加，D1用于计算两侧输出的Loss以及控制stop gradient操作；经过backbone提取的特征先经过projector部分进行非线性变化得到一个新特征，再通过predictor部分得到输出对分支的结果进行变换，并与另一个分支的结果进行匹配，数据经过D₁计算loss。

所述模型的孪生网络增加了encoder和predictor两个结构，同时针对汉字点选验证码的特定场景，融入和汉字偏旁部首的特征信息，具体损失计算过程如下：

在主干网络上：

(1)

同理可得到；其中，

、

是encoder的输出参数，

是predictor的输出参数,

为

、

之间的均方误差，

为

、

之间的均方误差；

由此可得主干网络的均方差损失

为：

(2)

主干网络的均方差损失

还表示为：

(3)

其中：

的含义为参数

经过encoder f这个计算节点时，只要计算出的梯度符合某个设定条件，便不计算和更新encoder f这个计算节点和encoder f这个计算节点之前参数；

的含义为参数

在提取偏旁部首的特征网络Radical上，经过多个卷积层和池化层提取得到汉字字形特征，通过flatten和linear层后得到一个1×50的特征向量，记为

；

计算公式（4）：

(4)

其中：一个字经过Radical网络，会根据掩模得到N个特征向量，

就是1～N中的某个数；N为正整数；

的含义为第

个掩膜得到的向量；

的含义为

的

次方；

的含义为第

个向量经过softmax函数得到的结果；

根据MAE计算Radical网络的损失

：

(5)

其中：

的含义是一个字经过公式（4）计算得到的向量；

的含义是向量

中的第

个值；

的含义是另一个字经过公式（4）计算得到的向量；

的含义是向量

中的第

个值；

最终得到的loss为：

(6)。

本方案的Loss由两部分组成，一部分是来自主干网络的均方差损失，另一部分则是来源于偏旁网络提取字形特征的绝对误差损失。

本发明的另一目的通过以下的技术方案实现：

汉字点选式验证码识别系统，包括预处理模块和识别模块，所述预处理模块对训练数据进行清洗，训练好的识别模块进行推理，实现验证码内容的识别，并转换为登陆场景下验证码图像对应汉字的坐标和顺序；

所述识别模块分为检测部分和识别部分，其中检测部分采用yolov4模块实现，识别部分的模型网络使用VGG16结构作为主干网络，所述主干网络与针对汉字偏旁部首特征的提取网络进行叠加，输出为一个新的特征；新的特征传入孪生网络，最终输出一个0～1范围的标量作为结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明以VGG16和孪生网络构造识别模型，简化了网络结构复杂性，并利用了通用的预训练模型，大大减少了人工数据标注压力，提高了模型的训练效率。

2、本发明根据验证码图像的特征进行数据合成，有效强化模型的汉字点选验证码场景训练。

3、本发明采用云服务模式，客户无需搭建环境就能直接使用，而且服务以接口或网页的形式调用，操作简单。

附图说明

图1为本发明所述模型数据样式的示意图。

图2为本发明所述模型数据集样式的示意图。

图3为本发明所述汉字点选式验证码识别方法的整体网络结构示意图。

图4 为本发明所述字形结构的分类示意图。

图5为本发明所述VGG16-Siamese网络结构示意图。

图6为本发明所述图像识别服务的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1至6，一种汉字点选式验证码识别方法，其目的是实现点选式验证码图像内容的识别，并转换成登陆场景下所需要的坐标信息输出。其中包含了模型训练服务、图像识别服务两部分。模型训练服务通过训练标注的验证码数据获得能够实现验证码识别的模型，图像识别服务则通过调用所述模型训练服务得出的模型进行推理，实现验证码内容的识别，并转换为登陆场景下验证码图像对应汉字的坐标和顺序。

一、模型训练服务

模型训练服务主要包括数据预处理、模型网络结构、关键技术点和算法评估模块。

A、数据预处理

数据预处理主要在模型训练之前对数据进行分析和处理，清洗脏数据和保证训练数据分布平衡。汉字点选验证码分为两部分：第一部分是待识别的点击部，第二部分为信息部。其中点击部由扭曲或模糊化增强手段的汉字和背景组成，信息部有两种形式，一种为直接给定字符，另一种为标准字体生成的文字图片。用户在进行验证时需要按照信息部的内容和顺序依次点击正文部对应的位置通过识别，数据样式如图1所示。

由于相关的用户协议，大规模的收集验证码和标注验证码需要耗费大量的人力，很难获取大量的数据，所以在训练数据的准备过程中，可以采取真实数据和合成数据的方式。通过公开数据的收集，可以发现大部分文字点选验证码都采用特定领域的词汇，且数据长度均控制在2～5个汉字内，我们将选用常用的3500汉字进行数据合成。

综上，模型训练数据集我们将采用部分真实数据，以及随机背景图+随机前景文字合成的数据随机混合进行训练，所有的数据都经过图片增强进行数据增广，以增加模型的泛化能力。按照如图2所示的格式进行数据标注，将标签和图片数据放置在指定路径下，可以进行模型训练。

B、系统流程说明

本发明的网络模型共分为检测和识别两部分，其中检测部分采用较为成熟的yolov4模型实现，识别部分模型网络使用VGG16结构作为主干网络，所述主干网络与针对汉字偏旁部首特征的提取网络进行叠加，输出为一个新的特征。新的特征传入孪生网络，最终输出一个0～1范围的标量作为结果。整体网络结构如图3所示。

本系统运行的简略逻辑如下：

1. 验证码识别系统接收到两个输出input1和input2，其中input1表示汉字点选验证码的点击部图像输入，input2表示信息部输入。

2. input1经过yolov4模块进行检测，得到点击部中各个汉字的边界框坐标信息，并按照横坐标的值进行排序，分别标记为1,2,…,n。

3. input2可以接受两种类型的输入，如果输入为图片，则通过yolov4模块进行检测，得到点击部中各个汉字的边界框坐标信息，并按照横坐标的值进行排序，分别标记为1,2,…,m。

4. 如果input2的输入为字符，则调用PIL库中的函数将字符转换为汉字图片，并按照输入汉字的顺序，分别标记为1,2,…,m。

5. 将input2输出的m个文字碎片进行旋转操作，得到多个方向的旋转图（每次旋转ω，得到[360/ω]张图），分别将四个方向的旋转图与input1中输出的n个文字碎片送入VGG16-Siamese网络进行相似度计算，得到n × m ×[360/ω]个匹配对。对得到的结果按照相似度进行排序，对n张碎片取相似度最高的匹配对作为最终的结果输出。

C、模型网络结构

VGG16-Siamese网络由backbone、Radical、encoder、predictor、D₁、D₂六部分组成。Backbone和Radical由多个卷积层和最大池化层构成，其用于提取单个文字图像的特征。提取特征分为了整体图像和掩模图像两部分，为了融入混合尺度特征辅助识别，通过掩模得到五个高维特征图会通过一个VGG Block提取偏旁特征，与backbone提取的完整图像特征进行contact操作后送入右端的孪生网络，整体网络结构如图5所示。

同时，在另一个分支上，完整图像经过Radical网络提取字形特征，字形结构如图4所示。

Radical网络引入了CBAM（Convolutional Block Attention Module）结构在字形结构分类网络中加入注意力机制，最终经过softmax层后经过D₂计算得到的loss与D₁得到的loss叠加作为整体网络的损失。

encoder和predictor都是一个MLP结构，即至少一个线性层和一个ReLu函数的叠加，D1用于计算两侧输出的Loss以及控制stop gradient操作。经过backbone提取的特征先经过projector部分进行非线性变化得到一个新特征，再通过predictor部分得到输出对分支的结果进行变换，并与另一个分支的结果进行匹配，数据经过D₁计算loss。

D、关键技术点

本发明针对文字点选验证码的特点，进行了识别流程的改进。传统验证码识别方式在识别部分对于单个汉字图像采用是文字编码的形式，即通过检测得到的单个汉字图像对应一个汉字标签信息，通过模型分类得到对应识别信息。此种方法往往由于验证码复杂度提高而大幅度影响识别正确率，而本发明所采用流程只需要检测目标给定的信息，避免了一对多输出的网络，从而增加了识别的稳定性和成功率。

此外，本发明对网络结构采取了一系列的改进以增加识别效果和效率。传统的孪生网络使用主干网络的特征计算其余弦距离作为网络的Loss，所述模型的孪生网络增加了encoder和predictor两个结构，同时针对汉字点选验证码的特定场景，融入和汉字偏旁部首的特征信息，具体损失计算过程如下：

在主干网络上：

(1)

同理可得到；其中，

、

是encoder的输出参数，

是predictor的输出参数,

为

、

之间的均方误差，

为

、

之间的均方误差；

由此可得主干网络的均方差损失

为：

(2)

主干网络的均方差损失

还表示为：

(3)

其中：

的含义为参数

的含义为参数

；

计算公式（4）：

(4)

就是1～N中的某个数；

的含义为第

个掩膜得到的向量；

的含义为

的

次方；

的含义为第

个向量经过softmax函数得到的结果；

根据MAE计算Radical网络的损失

：

(5)

其中：

的含义是一个字经过公式（4）计算得到的向量；

的含义是向量

中的第

个值；

的含义是另一个字经过公式（4）计算得到的向量；

的含义是向量

中的第

个值；

最终得到的loss为：

(6)。

E、算法评估

本发明的模型训练服务经过训练后能有效准确进行字符内容对应的判别。算法评估正负样本输入后得到的输出结果进行判断。训练过程中训练集和验证集中的损失呈现不断下降，输出结果正确率不断上升，并趋于稳定，可以判断模型基本都可以准确识别验证码内容。

二、图像识别服务

图像识别服务由后端应用程序和前端页面展示两部分构成，如图6所示。用户在前端页面端传入待识别的汉字验证码两部分图像，后端应用接收后，调用识别模型识别，并将模型结果返回到前端页面，如图6所示。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.汉字点选式验证码识别方法，其特征在于，基于VGG16-Siamese网络，包含以下步骤：

图像识别步骤：通过调用所述模型训练步骤得到的模型进行推理，实现验证码内容的识别，并转换为登陆场景下验证码图像对应汉字的坐标和顺序；

所述模型分为检测部分和识别部分，其中检测部分采用yolov4模块实现，识别部分的模型网络使用VGG16结构作为主干网络，所述主干网络与针对汉字偏旁部首特征的提取网络进行叠加，输出为一个新的特征；新的特征传入孪生网络，最终输出一个0～1范围的标量作为结果；

在主干网络上：

(1)

同理可得到；其中，

、

是encoder的输出参数，

是predictor的输出参数,

为

、

之间的均方误差，

为

、

之间的均方误差；

由此可得主干网络的均方差损失

为：

(2)

主干网络的均方差损失

还表示为：

(3)

其中：

的含义为参数

经过encoder f这个计算节点时，只要计算出的梯度符合设定条件，便不计算和更新encoder f这个计算节点和encoder f这个计算节点之前参数；

的含义为参数

；

计算公式（4）：

(4)

就是1～N中的某个数；N为正整数；

的含义为第

个掩膜得到的向量；

的含义为

的

次方；

的含义为第

个向量经过softmax函数得到的结果；

根据MAE计算Radical网络的损失

：

(5)

其中：

的含义是一个字经过公式（4）计算得到的向量；

的含义是向量

中的第

个值；

的含义是另一个字经过公式（4）计算得到的向量；

的含义是向量

中的第

个值；

最终得到的loss为：

(6)。

2.根据权利要求1所述汉字点选式验证码识别方法，其特征在于，所述模型检测和识别图像的过程如下：

（4）将输入input2输出的m个文字碎片进行旋转操作，得到多个方向的旋转图，分别将四个方向的旋转图与输入input1中输出的n个文字碎片送入VGG16-Siamese网络进行相似度计算，得到n × m ×[360/ω]个匹配对；对得到的结果按照相似度进行排序，对n张碎片取相似度最高的匹配对作为最终的结果输出。

3.根据权利要求1所述汉字点选式验证码识别方法，其特征在于，所述模型基于VGG16-Siamese网络设计，包括backbone、Radical、encoder、predictor、D1、D2六部分；backbone和Radical由多个卷积层和最大池化层构成，其用于提取单个文字图像的特征；提取特征分为整体图像和掩模图像两部分，为了融入混合尺度特征辅助识别，通过掩模得到五个高维特征图会通过一个VGG Block提取偏旁特征，与backbone提取的完整图像特征进行contact操作后送入右端的孪生网络；

Radical网络引入了CBAM结构在字形结构分类网络中加入注意力机制，最终经过softmax层后经过D2计算得到的loss与D1得到的loss叠加作为整体网络的损失；

encoder和predictor都是一个MLP结构，即至少一个线性层和一个ReLu函数的叠加，D1用于计算两侧输出的Loss以及控制stop gradient操作；经过backbone提取的特征先经过projector部分进行非线性变化得到一个新特征，再通过predictor部分得到输出对分支的结果进行变换，并与另一个分支的结果进行匹配，数据经过D1计算loss。

4.汉字点选式验证码识别系统，其特征在于，用于实现如权利要求1至3任一项所述汉字点选式验证码识别方法，包括预处理模块和识别模块，所述预处理模块对训练数据进行清洗，训练好的识别模块进行推理，实现验证码内容的识别，并转换为登陆场景下验证码图像对应汉字的坐标和顺序；