CN115688083B

CN115688083B - 图文型验证码的识别方法、装置、设备及存储介质

Info

Publication number: CN115688083B
Application number: CN202211703607.7A
Authority: CN
Inventors: 冯俊华; 曾嘉琪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-03-28
Anticipated expiration: 2042-12-29
Also published as: CN115688083A

Abstract

本发明涉及安全技术领域，公开了一种图文型验证码的识别方法、装置、设备及存储介质。该方法包括：获取验证码任务，所述验证码任务包括验证码图像以及对应的问题图像；提取所述验证码图像中各个物体对应的全局视觉特征，以及提取所述问题图像中具有逻辑关系的多个词向量特征；基于所述逻辑关系，选取预设验证顺序的词向量特征对所述全局视觉特征进行属性识别，得到全局语义特征；利用所述全局语义特征对所述全局视觉特征进行分布概率计算，生成所述验证码任务的识别结果。本申请实现对动态语义验证码的高效识别和验证。

Description

图文型验证码的识别方法、装置、设备及存储介质

技术领域

本发明涉及安全技术领域，尤其涉及一种图文型验证码的识别方法、装置、设备及存储介质。

背景技术

随着网络时代的到来，很多网站防止恶意用户利用自动识别工具来破解密码、自动注册、登录等，都采用了验证码技术来进行相应的防护。验证码技术通过在网站页面显示一幅验证码图像，通过收集用户反馈的表单，并对表单与正确的验证码进行对比，从而提高对网站运行的安全性。但是现今深度识别技术的发展，网站的验证码也可能被机器自动识别和成功验证，以致验证码验证不能很好达到保护网站正常运行的要求。

现今，为了提高网站运行的安全性，通常采用一些图文型验证码的识别方法对网站网页中的验证码进行识别，以检测网站的安全性。但是这些图文型验证码的识别方法只能对普通静态验证码进行识别，而对于存在多角度、多语义等的非静态验证码不能很好完成识别和验证的任务，即现有的图文型验证码的识别方法对验证码的识别和验证的效果较差。

发明内容

本发明的主要目的在于解决现有的图文型验证码的识别方法对验证码的识别和验证的效果较差的问题。

本发明第一方面提供了一种图文型验证码的识别方法，所述图文型验证码的识别方法包括：获取验证码任务，所述验证码任务包括验证码图像以及对应的问题图像；提取所述验证码图像中各个物体对应的全局视觉特征，以及提取所述问题图像中具有逻辑关系的多个词向量特征；基于所述逻辑关系，选取预设验证顺序的词向量特征对所述全局视觉特征进行属性识别，得到全局语义特征；利用所述全局语义特征对所述全局视觉特征进行分布概率计算，生成所述验证码任务的识别结果。

可选的，在本发明第一方面的第一种实现方式中，所述提取所述验证码图像中各个物体对应的全局视觉特征，包括：识别所述验证码图像的图像像素值，并基于所述图像像素值，将所述验证码图像调整为预设尺寸像素值的图像，得到调整后的验证码图像；对所述调整后的验证码图像进行第一卷积图像计算，得到第一卷积特征图像，并对所述第一卷积特征图像进行第二卷积网格计算，得到第二卷积特征图像；利用所述第一卷积特征图像对所述第二卷积特征图像进行叠加运算，得到第三卷积特征图像；提取所述第三卷积特征图像中各个物体对应的中心网格，并对所述中心网格进行图像属性的概率映射，得到全局视觉特征。

可选的，在本发明第一方面的第二种实现方式中，所述提取所述问题图像中具有逻辑关系的多个词向量特征，包括：识别所述问题图像中的各个文字，并对各所述文字进行状态编码，得到各所述文字对应的文字状态向量；将各所述文字状态向量映射至预置维度的向量空间，并提取所述向量空间中文字状态向量在所述维度对应的隐藏状态向量和输出状态向量；按照各所述文字对应的排序，对所述隐藏状态向量和所述输出状态向量进行传递计算，得到具有逻辑关系的多个词向量特征。

可选的，在本发明第一方面的第三种实现方式中，所述基于所述逻辑关系，选取预设验证顺序的词向量特征对所述全局视觉特征进行属性识别，得到全局语义特征，包括：基于所述逻辑关系，从多个词向量特征中选取表征物体属性的部分词向量特征，并基于预设验证顺序，对所述部分词向量特征进行排序；利用排序后的部分词向量特征对所述全局视觉特征进行多次属性特征识别，得到全局语义特征。

可选的，在本发明第一方面的第四种实现方式中，所述利用排序后的部分词向量特征对所述全局视觉特征进行属性特征识别，得到全局语义特征，包括：利用排序后的部分词向量特征依次对所述全局视觉特征按照所述物体属性进行多次外观识别，得到全局语义特征，其中，按照排序顺序，将所述部分词向量特征中的在前词向量特征对应的外观识别结果与在后词向量特征进行融合，并利用融合的结果代替所述在后词向量特征对所述全局视觉特征按照所述物体属性进行外观识别。

可选的，在本发明第一方面的第五种实现方式中，所述利用所述全局语义特征对所述全局视觉特征进行分布概率计算，生成所述验证码任务的识别结果，包括：对所述全局语义特征与所述全局视觉特征进行交叉计算，并基于交叉计算的结构，构建出对应的特征回归函数；根据所述特征回归函数，计算出各个物体在所述验证码图像中的置信度概率；将所述置信度概率映射至所述验证码图像的对应中心网格中，得到网格概率分布图；基于所述网格概率分布图，生成所述验证码任务的识别结果。

可选的，在本发明第一方面的第六种实现方式中，所述基于所述网格概率分布图，生成所述验证码任务的识别结果，包括：选择所述网格概率分布图的满足预设置信度阈值的至少一个目标中心网格；基于所述逻辑关系，确定各所述目标中心网格的物体验证顺序；选择所述物体验证顺序对应的物体作为所述验证码任务的识别结果。

本发明第二方面提供了一种图文型验证码的识别装置，所述图文型验证码的识别装置包括：图像获取模块，用于获取验证码任务，所述验证码任务包括验证码图像以及对应的问题图像；特征提取模块，用于提取所述验证码图像中各个物体对应的全局视觉特征，以及提取所述问题图像中具有逻辑关系的多个词向量特征；属性识别模块，用于基于所述逻辑关系，选取预设验证顺序的词向量特征对所述全局视觉特征进行属性识别，得到全局语义特征；概率计算模块，用于利用所述全局语义特征对所述全局视觉特征进行分布概率计算，生成所述验证码任务的识别结果。

可选的，在本发明第二方面的第一种实现方式中，所述特征提取模块包括：像素调整单元，用于识别所述验证码图像的图像像素值，并基于所述图像像素值，将所述验证码图像调整为预设尺寸像素值的图像，得到调整后的验证码图像；卷积计算单元，用于对所述调整后的验证码图像进行第一卷积图像计算，得到第一卷积特征图像，并对所述第一卷积特征图像进行第二卷积网格计算，得到第二卷积特征图像；叠加运算单元，用于利用所述第一卷积特征图像对所述第二卷积特征图像进行叠加运算，得到第三卷积特征图像；概率映射单元，用于提取所述第三卷积特征图像中各个物体对应的中心网格，并对所述中心网格进行图像属性的概率映射，得到全局视觉特征。

可选的，在本发明第二方面的第二种实现方式中，所述特征提取模块还包括：状态编码单元，用于识别所述问题图像中的各个文字，并对各所述文字进行状态编码，得到各所述文字对应的文字状态向量；向量提取单元，用于将各所述文字状态向量映射至预置维度的向量空间，并提取所述向量空间中文字状态向量在所述维度对应的隐藏状态向量和输出状态向量；传递计算单元，用于按照各所述文字对应的排序，对所述隐藏状态向量和所述输出状态向量进行传递计算，得到具有逻辑关系的多个词向量特征。

可选的，在本发明第二方面的第三种实现方式中，所述属性识别模块包括：逻辑排序单元，用于基于所述逻辑关系，从多个词向量特征中选取表征物体属性的部分词向量特征，并基于预设验证顺序，对所述部分词向量特征进行排序；语义识别单元，用于利用排序后的部分词向量特征对所述全局视觉特征进行多次属性特征识别，得到全局语义特征。

可选的，在本发明第二方面的第四种实现方式中，所述语义识别单元包括：利用排序后的部分词向量特征依次对所述全局视觉特征按照所述物体属性进行多次外观识别，得到全局语义特征，其中，按照排序顺序，将所述部分词向量特征中的在前词向量特征对应的外观识别结果与在后词向量特征进行融合，并利用融合的结果代替所述在后词向量特征对所述全局视觉特征按照所述物体属性进行外观识别。

可选的，在本发明第二方面的第五种实现方式中，所述概率计算模块包括：交叉计算单元，用于对所述全局语义特征与所述全局视觉特征进行交叉计算，并基于交叉计算的结构，构建出对应的特征回归函数；置信度计算单元，用于根据所述特征回归函数，计算出各个物体在所述验证码图像中的置信度概率；网格映射单元，用于将所述置信度概率映射至所述验证码图像的对应中心网格中，得到网格概率分布图；结果生成单元，用于基于所述网格概率分布图，生成所述验证码任务的识别结果。

可选的，在本发明第二方面的第六种实现方式中，所述结果生成单元包括：选择所述网格概率分布图的满足预设置信度阈值的至少一个目标中心网格；基于所述逻辑关系，确定各所述目标中心网格的物体验证顺序；选择所述物体验证顺序对应的物体作为所述验证码任务的识别结果。

本发明第三方面提供了一种图文型验证码的识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述图文型验证码的识别设备执行上述的图文型验证码的识别方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的图文型验证码的识别方法的各个步骤。

本发明提供的技术方案中，获取验证码任务，验证码任务包括验证码图像以及对应的问题图像；提取验证码图像中各个物体对应的全局视觉特征，以及提取问题图像中具有逻辑关系的多个词向量特征；基于逻辑关系，选取预设验证顺序的词向量特征对全局视觉特征进行属性识别，得到全局语义特征；利用全局语义特征对全局视觉特征进行分布概率计算，生成验证码任务的识别结果。相比于现有技术，本申请通过获取动态语义的验证码图像，进而在提取验证文字中对应的词向量特征后，依据验证文字中包含的物体验证属性，按照对应的逻辑关系，利用词向量特征依次对验证码图像进行多种特征属性的提取，得到全局语义特征，进而利用全局语义特征来对全局视觉特征进行分布概率计算，从而最终确定动态语义逻辑验证的对应验证物体，生成最终的验证码任务的识别结果，从而实现了对动态语义验证码的高效识别和验证。

附图说明

图1为本发明实施例中图文型验证码的识别方法的第一个实施例示意图；

图2为本发明实施例中图文型验证码的识别方法的第二个实施例示意图；

图3为本发明实施例中图文型验证码的识别方法的第三个实施例示意图；

图4为本发明实施例中图文型验证码的识别装置的一个实施例示意图；

图5为本发明实施例中图文型验证码的识别装置的另一个实施例示意图；

图6为本发明实施例中图文型验证码的识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种图文型验证码的识别方法、装置、设备及存储介质，该方法包括：获取验证码任务，所述验证码任务包括验证码图像以及对应的问题图像；提取所述验证码图像中各个物体对应的全局视觉特征，以及提取所述问题图像中具有逻辑关系的多个词向量特征；基于所述逻辑关系，选取预设验证顺序的词向量特征对所述全局视觉特征进行属性识别，得到全局语义特征；利用所述全局语义特征对所述全局视觉特征进行分布概率计算，生成所述验证码任务的识别结果。本申请实现对动态语义验证码的高效识别和验证。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中图文型验证码的识别方法的第一个实施例包括：

101、获取验证码任务，验证码任务包括验证码图像以及对应的问题图像；

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本实施例中，这里的验证码任务，指的是VTT验证码（Visual Turing Test，基于逻辑语义的动态验证码），该验证码以3D形式来呈现物体，每张图片有多重语种物体（如颜色、物体类型（规则几何体、汉字字符、英文字符、数字字符四大类）、尺寸、倾斜方向、缺口和断面等），每个物体会有不同随机角度的旋转处理、不同位置的处理。与普通验证码问题的不同，在对动态语义验证码进行验证时，需要按照验证问题的对应逻辑来进行验证（即根据逻辑语义的提示对答案物体进行定位）（如“缺口位置在左边的物体”，用户需要先识别缺口的特征，然后再判断缺口的左右关系）。

在实际应用中，通过利用大数据挖掘、爬虫、Python的方式从互联网的各个公开网站上收集一定数量的（如10000 张） VTT 验证码的验证码任务（指令-图像对），完成 VTT图像特征分析和文本问题分析。VTT 的图像特性包含颜色、尺寸、形状、旋转方向、缺口、断面等属性，文本分析可分为基于物体自身属性、基于视觉逻辑关系及基于抽象逻辑关系几类等，从而得到验证码图像以及对应的问题图像。

102、提取验证码图像中各个物体对应的全局视觉特征，以及提取问题图像中具有逻辑关系的多个词向量特征；

本实施例中，这里的全局视觉特征，指的是验证码图像的整体属性，常见的全局特征包括颜色特征、物体类型特征（规则几何体、汉字字符、英文字符、数字字符四大类）、尺寸特征、倾斜方向特征、缺口特征和断面特征等；这里的词向量特征，指的是一种稠密、低维的实数限量，它的每一维表示词语的一个潜在特征，该特征表征了有用的句法和语义特征；这里的逻辑关系，指的是按照该VTT验证码问题的文字读取顺序以及其中相应物体属性的验证定位顺序等。

在实际应用中，通过识别验证码图像的图像像素值，并基于图像像素值，将验证码图像调整为预设尺寸像素值的图像，得到调整后的验证码图像；进而对调整后的验证码图像进行第一卷积图像计算，得到第一卷积特征图像，并对第一卷积特征图像进行第二卷积网格计算，得到第二卷积特征图像；进而利用第一卷积特征图像对第二卷积特征图像进行叠加运算，得到第三卷积特征图像；最终通过提取第三卷积特征图像中各个物体对应的中心网格，并对中心网格进行图像属性的概率映射，得到全局视觉特征。此外通过识别问题图像中的各个文字，并对各文字进行状态编码，得到各文字对应的文字状态向量；进而将各文字状态向量映射至预置维度的向量空间，提取向量空间中文字状态向量在维度的隐藏状态向量和输出状态向量；从而按照各文字对应的排序，对隐藏状态向量和输出状态向量进行传递计算，得到具有逻辑关系的多个词向量特征。

103、基于逻辑关系，选取预设验证顺序的词向量特征对全局视觉特征进行属性识别，得到全局语义特征；

本实施例中，这里的属性识别，指的是将验证码图像中各个物体所对应的多种属性进行识别；这里的全局语义特征，指的是描述整个验证码图像中各个物体所具有的多种物体属性对应的全部语义特征。

在实际应用中，基于逻辑关系，从多个词向量特征中选取表征物体属性的部分词向量特征，并基于预设验证顺序，对部分词向量特征进行排序；进而利用排序后的部分词向量特征对全局视觉特征进行多次属性特征识别，得到全局语义特征，即利用排序后的部分词向量特征依次对全局视觉特征按照物体属性进行多次外观识别，得到全局语义特征，其中，按照排序顺序，将所述部分词向量特征中的在前词向量特征对应的外观识别结果与在后词向量特征进行融合，并利用融合的结果代替所述在后词向量特征对所述全局视觉特征按照所述物体属性进行外观识别。

104、利用全局语义特征对全局视觉特征进行分布概率计算，生成验证码任务的识别结果。

本实施例中，这里的分布概率，指的是当验证码问题所要验证物体，在验证码图像中各个物体对应正确分布位置概率。

在实际应用中，通过对全局语义特征与全局视觉特征进行交叉计算，并基于交叉计算的结构，构建出对应的特征回归函数；进而根据特征回归函数，计算出各个物体在验证码图像中的置信度概率；进而将置信度概率映射至验证码图像的对应中心网格中，得到网格概率分布图；从而基于网格概率分布图，生成验证码任务的识别结果。

本发明实施例中，获取验证码任务，验证码任务包括验证码图像以及对应的问题图像；提取验证码图像中各个物体对应的全局视觉特征，以及提取问题图像中具有逻辑关系的多个词向量特征；基于逻辑关系，选取预设验证顺序的词向量特征对全局视觉特征进行属性识别，得到全局语义特征；利用全局语义特征对全局视觉特征进行分布概率计算，生成验证码任务的识别结果。相比于现有技术，本申请通过获取动态语义的验证码图像，进而在提取验证文字中对应的词向量特征后，依据验证文字中包含的物体验证属性，按照对应的逻辑关系，利用词向量特征依次对验证码图像进行多种特征属性的提取，得到全局语义特征，进而利用全局语义特征来对全局视觉特征进行分布概率计算，从而最终确定动态语义逻辑验证的对应验证物体，生成最终的验证码任务的识别结果，从而实现了对动态语义验证码的高效识别和验证。

请参阅图2，本发明实施例中图文型验证码的识别方法的第二个实施例包括：

201、获取验证码任务，验证码任务包括验证码图像以及对应的问题图像；

202、识别验证码图像的图像像素值，并基于图像像素值，将验证码图像调整为预设尺寸像素值的图像，得到调整后的验证码图像；

本实施例中，由于采集的验证码图像存在尺寸不统一的状态，为了便于后续特征的提取，需要在图像特征提取之前，需要将图像进行像素统一化处理。通过识别当前采集的验证码图像对应的图像像素值，进而基于各个图像的图像像素值，将各个验证码图像的像素值调整为预设尺寸像素值（如调整像素为224x224），从而得到调整后的验证码图像。

203、对调整后的验证码图像进行第一卷积图像计算，得到第一卷积特征图像，并对第一卷积特征图像进行第二卷积网格计算，得到第二卷积特征图像；

本实施例中，在对验证码图像进行特征提取的同时，为了保证最终提取的图像特征尽可能包括物体所具有的特征，在得到所需维度的图像特征时，为了保证特征的完整性，需要多次对图像进行卷积，以及将倒数第二次的卷积结果与原图像进行再次卷积，以保证所要求的维度的图像特征表达丰富，并且利用该计算方法也能降低因网络层数的增加导致计算结果的更大误差，如将即将两个3x3的卷积层替换为1x1 + 3x3 + 1x1的三层卷积。

在实际应用中，为了最终得到14x14维度的卷积特征图像，先对调整后的验证码图像进行第一卷积图像计算，即先对调整后的验证码图像进行降维卷积处理，以减少第二次卷积的计算量，得到第一卷积特征图像，进而对第一卷积特征图像进行第二卷积网格计算，即将第一卷积特征图像升维至相应维度（如14x14）的卷积特征图像，得到第二卷积特征图像。

204、利用第一卷积特征图像对第二卷积特征图像进行叠加运算，得到第三卷积特征图像；

本实施例中，通过利用第一卷积特征图像对第二卷积特征图像进行叠加运算，从而将第二卷积特征图像进行卷积恢复（即将第一次提取的特征通过卷积的方式添加至第二次卷积图像中，从而增加最终卷积结果中包含的图像特征），在还原的到最终维度的卷积特征后，得到图像特征尽可能多的第三卷积特征图像。

205、提取第三卷积特征图像中各个物体对应的中心网格，并对中心网格进行图像属性的概率映射，得到全局视觉特征；

本实施例中，根据上述卷积处理得到的第三卷积特征图像，为特征图像中的每个物体预测可行的抓取圆，若抓取圆的中心位于某个网格内，则该网格负责检测该抓取圆，来确定物体的位置，即网格中物体在图像中的旋转角度，按照旋转直径圆的抓取表示方式构建图像的中心网格位置，从而抓取获得各个网格中心点对应的位置，进而将中心网格位置信息对图像属性进行概率映射，将存在物体的中心位置映射至对应至少一个网格，并将这些相同物体的网格进行相同网格中心位置标记化。

206、识别问题图像中的各个文字，并对各文字进行状态编码，得到各文字对应的文字状态向量；

本实施例中，通过自然语言识别技术识别图像中所包含的各个文字，并对各个文字按照 N位状态寄存器来进行N个状态的编码，从而得到各文字对应的文字状态向量。

207、将各所述文字状态向量映射至预置维度的向量空间，并提取所述向量空间中文字状态向量在所述维度对应的隐藏状态向量和输出状态向量；

本实施例中，基于上述问题图像中包含的文字字数（全部文字或者其中用于描述物体属性的文字），通过提取预置维度（如512维度）的向量空间中与文字字数相应比例（大于等于1的比例）的若干空间向量，将各文字状态向量与对应数量的空间向量进行线性计算（向量相加或者数乘），以将各文字状态向量映射至预置维度的向量空间，进而基于原始向量空间中设置的512维度的隐藏状态与512维度的输出状态，来提取映射后向量空间中文字状态向量在512维度上的隐藏状态向量和输出状态向量。

208、按照各文字对应的排序，对隐藏状态向量和输出状态向量进行传递计算，得到具有逻辑关系的多个词向量特征；

本实施例中，这里各文字对应的排序，可以是问题图像中按照读取逻辑关系的全部文字排序，也可以是其中从全部文字排序进行进一步提取的用于描述物体属性所对应的部分文字排序，本申请以部分文字排序作为说明书处理的文字排序进行说明。

在实际应用中，按照描述物体属性所对应的部分文字排序，提取第一个文字的隐藏状态向量和输出状态向量一个维度的向量以及输入至 sigmoid 函数中去，以确定当前输入的两个向量是否保存，若保存，得到输入门值，则上一次隐藏状态向量（即输入门值）和当前输入的信息传递到 sigmoid 函数以及传递到tanh 函数中进行向量计算，进而将sigmoid 的输出值与 tanh 的输出值相乘，sigmoid 的输出值将决定 tanh 的输出值中需要保留的向量状态，进而按上述对应维度按序计算后，将前一次保留的向量状态与未保留的向量状态进行逐点相乘，并将相乘后的积与输入门值逐点相加，实现依次将上一维度的计算结果传递至下一维度的时间步中计算，进而计算文字，从而得到具有逻辑关系的多个词向量特征。

209、基于逻辑关系，选取预设验证顺序的词向量特征对全局视觉特征进行属性识别，得到全局语义特征；

210、利用全局语义特征对全局视觉特征进行分布概率计算，生成验证码任务的识别结果。

本发明实施例中，通过对验证码任务中验证码图像进行全局视觉特征，以及问题图像进行词特征向量的提取，可以实现对验证码任务中相应特征的精确提取，以便后续实现快速属性识别和验证码的验证提供特征数据基础，从而实现了对动态语义验证码的高效识别和验证。

请参阅图3，本发明实施例中图文型验证码的识别方法的第三个实施例包括：

301、获取验证码任务，验证码任务包括验证码图像以及对应的问题图像；

302、提取验证码图像中各个物体对应的全局视觉特征，以及提取问题图像中具有逻辑关系的多个词向量特征；

303、基于逻辑关系，从多个词向量特征中选取表征物体属性的部分词向量特征，并基于预设验证顺序，对部分词向量特征进行排序；

本实施例中，这里的逻辑关系，指的是问题图像中文字的读取顺序，也可基于其中物体属性的验证顺序组成相应的逻辑关系；这里的验证顺序，可以是物体属性的验证顺序组成相应的逻辑关系作为验证顺序，也可是其中的物体属性对应的词向量随机组成的验证顺序，其中，本申请以物体属性的验证顺序组成相应的逻辑关系作为验证顺序进行说明。

在实际应用中，基于逻辑关系，从上述处理得到的词向量特征中选取表征物体属性的部分词向量特征，并基于预设的验证顺序，对部分词向量特征进行排序，以对后续图像进行语义识别。

304、利用排序后的部分词向量特征对全局视觉特征进行多次属性特征识别，得到全局语义特征；

本实施例中，利用排序后的部分词向量特征依次对全局视觉特征按照物体属性进行多次外观识别，得到全局语义特征，其中，按照排序顺序，将所述部分词向量特征中的在前词向量特征对应的外观识别结果与在后词向量特征进行融合，并利用融合的结果代替所述在后词向量特征对所述全局视觉特征按照所述物体属性进行外观识别，即通过基于逻辑关系，选取预设第一验证顺序对应的第一词向量特征，进而利用第一词向量特征对全局视觉特征进行对应属性特征向量的计算以及配置对应属性的权重系数，得到第一特征向量和第一权重系数，从而利用第一权重系数对各第一特征向量进行加权融合，得到第一语义属性特征；进而利用处理得到的第一语义属性特征以及第二词向量特征对全局视觉特征进行属性识别，即将上一语义计算结果放进下一语义计算中进行计算，得到第二语义属性特征，进而利用第二语义属性特征和其余验证顺序对应的词向量特征对全局视觉特征进行语义融合，得到全局语义特征，其中这里的全局语义包括了描述各个物体验证所需的物体属性特征。

305、对全局语义特征与全局视觉特征进行交叉计算，并基于交叉计算的结构，构建出对应的特征回归函数；

本实施例中，这里的交叉计算，指的是将两个集合进行交叉组合的二分类运算。

在实际应用中，对上述处理得到的全局语义特征中对应的各个特征与全局视觉特征中对应的各个特征进行二分类的组合计算，即利用单个全局语义特征中一个特征来与全局视觉特征中与相关的特征建立对应数量的相关对应关系，以构建出描述全局语义特征与全局视觉特征之间特征对应关系的特征回归函数（即最终构建Softmax函数）。

306、根据特征回归函数，计算出各个物体在验证码图像中的置信度概率；

本实施例中，根据上述的特征回归函数，计算出各个在验证码图像所属物体验证属性对应的置信度概率，即计算各个物体所包含的所要验证属性的对应置信度概率，从而衡量统计语义推断可靠程度。

307、将置信度概率映射至验证码图像的对应中心网格中，得到网格概率分布图；

本实施例中，通过将上述置信度概率映射至验证码图像各个物体对应中心网格中，从而得到验证码图像中各个物体组合的网格概率分布图。

308、基于网格概率分布图，生成验证码任务的识别结果。

本实施例中，通过选择网格概率分布图的满足预设置信度阈值的至少一个目标中心网格，进而基于逻辑关系，确定各目标中心网格的物体验证顺序，如按当前逻辑验证顺序中，第一个物体属性要求置信度阈值为90%，找到相应的至少一个第一物体对应的多个目标中心网格后，再从第一物体中找下一验证属性满足第二置信度阈值的第二物体多个目标中心网格，进而按序查找完所有对应的物体，从而选择最终通过所要验证顺序以及物体验证顺序对应的物体，作为本次验证码任务的识别结果。

上面对本发明实施例中图文型验证码的识别方法进行了描述，下面对本发明实施例中图文型验证码的识别装置进行描述，请参阅图4，本发明实施例中图文型验证码的识别装置一个实施例包括：

图像获取模块401，用于获取验证码任务，所述验证码任务包括验证码图像以及对应的问题图像；

特征提取模块402，用于提取所述验证码图像中各个物体对应的全局视觉特征，以及提取所述问题图像中具有逻辑关系的多个词向量特征；

属性识别模块403，用于基于所述逻辑关系，选取预设验证顺序的词向量特征对所述全局视觉特征进行属性识别，得到全局语义特征；

概率计算模块404，用于利用所述全局语义特征对所述全局视觉特征进行分布概率计算，生成所述验证码任务的识别结果。

请参阅图5，本发明实施例中图文型验证码的识别装置的另一个实施例包括：

进一步的，所述特征提取模块402包括：

像素调整单元4021，用于识别所述验证码图像的图像像素值，并基于所述图像像素值，将所述验证码图像调整为预设尺寸像素值的图像，得到调整后的验证码图像；

卷积计算单元4022，用于对所述调整后的验证码图像进行第一卷积图像计算，得到第一卷积特征图像，并对所述第一卷积特征图像进行第二卷积网格计算，得到第二卷积特征图像；

叠加运算单元4023，用于利用所述第一卷积特征图像对所述第二卷积特征图像进行叠加运算，得到第三卷积特征图像；

概率映射单元4024，用于提取所述第三卷积特征图像中各个物体对应的中心网格，并对所述中心网格进行图像属性的概率映射，得到全局视觉特征。

进一步的，所述特征提取模块402还包括：

状态编码单元4025，用于识别所述问题图像中的各个文字，并对各所述文字进行状态编码，得到各所述文字对应的文字状态向量；

向量提取单元4026，用于将各所述文字状态向量映射至预置维度的向量空间，并提取所述向量空间中文字状态向量在所述维度对应的隐藏状态向量和输出状态向量；

传递计算单元4027，用于按照各所述文字对应的排序，对所述隐藏状态向量和所述输出状态向量进行传递计算，得到具有逻辑关系的多个词向量特征。

进一步的，所述属性识别模块403包括：

逻辑排序单元4031，用于基于所述逻辑关系，从多个词向量特征中选取表征物体属性的部分词向量特征，并基于预设验证顺序，对所述部分词向量特征进行排序；

语义识别单元4032，用于利用排序后的部分词向量特征对所述全局视觉特征进行多次属性特征识别，得到全局语义特征。

进一步的，所述语义识别单元4032包括：

利用排序后的部分词向量特征依次对所述全局视觉特征按照所述物体属性进行多次外观识别，得到全局语义特征，其中，按照排序顺序，将所述部分词向量特征中的在前词向量特征对应的外观识别结果与在后词向量特征进行融合，并利用融合的结果代替所述在后词向量特征对所述全局视觉特征按照所述物体属性进行外观识别。

进一步的，所述概率计算模块404包括：

交叉计算单元4041，用于对所述全局语义特征与所述全局视觉特征进行交叉计算，并基于交叉计算的结构，构建出对应的特征回归函数；

置信度计算单元4042，用于根据所述特征回归函数，计算出各个物体在所述验证码图像中的置信度概率；

网格映射单元4043，用于将所述置信度概率映射至所述验证码图像的对应中心网格中，得到网格概率分布图；

结果生成单元4044，用于基于所述网格概率分布图，生成所述验证码任务的识别结果。

进一步的，所述结果生成单元4044包括：

选择所述网格概率分布图的满足预设置信度阈值的至少一个目标中心网格；基于所述逻辑关系，确定各所述目标中心网格的物体验证顺序；选择所述物体验证顺序对应的物体作为所述验证码任务的识别结果。

上面图4和图5从模块化功能实体的角度对本发明实施例中的图文型验证码的识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中图文型验证码的识别设备进行详细描述。

图6是本发明实施例提供的一种图文型验证码的识别设备的结构示意图，该图文型验证码的识别设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对图文型验证码的识别设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在图文型验证码的识别设备600上执行存储介质630中的一系列指令操作。

图文型验证码的识别设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的图文型验证码的识别设备结构并不构成对图文型验证码的识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种图文型验证码的识别设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述图文型验证码的识别方法的各个步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述图文型验证码的识别方法的各个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图文型验证码的识别方法，其特征在于，所述图文型验证码的识别方法包括：

获取验证码任务，所述验证码任务包括验证码图像以及对应的问题图像；

提取所述验证码图像中各个物体对应的全局视觉特征，以及提取所述问题图像中具有逻辑关系的多个词向量特征；

基于所述逻辑关系，从多个词向量特征中选取表征物体属性的部分词向量特征，并基于预设验证顺序，对所述部分词向量特征进行排序；利用排序后的部分词向量特征对所述全局视觉特征进行多次属性特征识别，得到全局语义特征；

利用所述全局语义特征对所述全局视觉特征进行网格分布概率计算，并基于网格分布概率的结果和所述逻辑关系，选取对应的物体，生成所述验证码任务的识别结果。

2.根据权利要求1所述的图文型验证码的识别方法，其特征在于，所述提取所述问题图像中具有逻辑关系的多个词向量特征，包括：

识别所述问题图像中的各个文字，并对各所述文字进行状态编码，得到各所述文字对应的文字状态向量；

将各所述文字状态向量映射至预置维度的向量空间，并提取所述向量空间中文字状态向量在所述维度对应的隐藏状态向量和输出状态向量；

按照各所述文字对应的排序，对所述隐藏状态向量和所述输出状态向量进行传递计算，得到具有逻辑关系的多个词向量特征。

3.根据权利要求1所述的图文型验证码的识别方法，其特征在于，所述利用排序后的部分词向量特征对所述全局视觉特征进行多次属性特征识别，得到全局语义特征，包括：

4.根据权利要求1所述的图文型验证码的识别方法，其特征在于，所述提取所述验证码图像中各个物体对应的全局视觉特征，包括：

识别所述验证码图像的图像像素值，并基于所述图像像素值，将所述验证码图像调整为预设尺寸像素值的图像，得到调整后的验证码图像；

对所述调整后的验证码图像进行第一卷积图像计算，得到第一卷积特征图像，并对所述第一卷积特征图像进行第二卷积网格计算，得到第二卷积特征图像；

利用所述第一卷积特征图像对所述第二卷积特征图像进行叠加运算，得到第三卷积特征图像；

提取所述第三卷积特征图像中各个物体对应的中心网格，并对所述中心网格进行图像属性的概率映射，得到全局视觉特征。

5.根据权利要求4所述的图文型验证码的识别方法，其特征在于，所述利用所述全局语义特征对所述全局视觉特征进行网格分布概率计算，并基于网格分布概率的结果和所述逻辑关系，选取对应的物体，生成所述验证码任务的识别结果，包括：

对所述全局语义特征与所述全局视觉特征进行交叉计算，并基于交叉计算的结构，构建出对应的特征回归函数；

根据所述特征回归函数，计算出各个物体在所述验证码图像中的置信度概率；

将所述置信度概率映射至所述验证码图像的对应中心网格中，得到网格概率分布图；

基于所述网格概率分布图，生成所述验证码任务的识别结果。

6.根据权利要求5所述的图文型验证码的识别方法，其特征在于，所述基于所述网格概率分布图，生成所述验证码任务的识别结果，包括：

选择所述网格概率分布图的满足预设置信度阈值的至少一个目标中心网格；

基于所述逻辑关系，确定各所述目标中心网格的物体验证顺序；

选择所述物体验证顺序对应的物体作为所述验证码任务的识别结果。

7.一种图文型验证码的识别装置，其特征在于，所述图文型验证码的识别装置包括：

图像获取模块，用于获取验证码任务，所述验证码任务包括验证码图像以及对应的问题图像；

特征提取模块，用于提取所述验证码图像中各个物体对应的全局视觉特征，以及提取所述问题图像中具有逻辑关系的多个词向量特征；

属性识别模块，用于基于所述逻辑关系，从多个词向量特征中选取表征物体属性的部分词向量特征，并基于预设验证顺序，对所述部分词向量特征进行排序；利用排序后的部分词向量特征对所述全局视觉特征进行多次属性特征识别，得到全局语义特征；

概率计算模块，用于利用所述全局语义特征对所述全局视觉特征进行网格分布概率计算，并基于网格分布概率的结果和所述逻辑关系，选取对应的物体，生成所述验证码任务的识别结果。

8.一种图文型验证码的识别设备，其特征在于，所述图文型验证码的识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述图文型验证码的识别设备执行如权利要求1-6中任一项所述的图文型验证码的识别方法的各个步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述图文型验证码的识别方法的各个步骤。