CN110119441A - 基于汉字结构的文字点选验证码识别与填入方法 - Google Patents
基于汉字结构的文字点选验证码识别与填入方法 Download PDFInfo
- Publication number
- CN110119441A CN110119441A CN201910404781.3A CN201910404781A CN110119441A CN 110119441 A CN110119441 A CN 110119441A CN 201910404781 A CN201910404781 A CN 201910404781A CN 110119441 A CN110119441 A CN 110119441A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- identifying code
- prediction
- picture
- radical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于汉字结构的文字点选验证码识别与填入方法,包括以下步骤:预配置语义类词组库,收集语义类中文词组加入供检索使用;预配置结构化汉字库,收集汉字并对单个汉字添加结构标签,供检索使用;采集文字点选验证码图片,检测文字点选验证码图片中的存在汉字的区域并切割成单个汉字图片,记录各汉字图片的区域坐标作为填入值;预创建识别模型,用于预测汉字;根据识别模型,对各汉字图片进行识别预测,得到各预测汉字;将各所述预测汉字,输入语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序;根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中点选验证码并提交。
Description
技术领域
本发明涉及一种基于汉字结构的文字点选验证码识别与填入方法,属于验证码识别技术领域。
背景技术
文字点选验证码目前常见的一般为两类,一类在验证码图片之外提示需要点选的文字及顺序,称为非语义类点选;另一类则未提示,需要根据语义顺序进行点选,通常为成语、美食、风景等中文词组,称为语义类点选。
传统的文字点选验证码识别过程,一般基于每个汉字整理并训练分类模型。具体操作过程如图1所示,首先将收集到的文字点选验证码进行去噪、二值化等预处理,并进行切割;在切割成单个汉字后,会给每个汉字一个唯一数值标签以标识类别,相同的汉字具有相同的标签,达到将汉字分类目的;在样本按标签分类整理好后,利用深度学习CNN等算法进行训练得到模型,从而可以应用于新样本预测;对于未能正确预测部分在结果填入时采用随机方式返回结果。
但由于汉字数量很大,据不完全统计信息,目前汉字的总数已经超过了8万,常用的约有3500字。因此,如果按一个类别大概需要50张样本,按常见汉字则需要人工收集近20万张样本,如果有更多汉字需要收集样本则数量更多,可谓极为耗费人力及时间成本;且可能由于背景复杂,单纯识别模型结合随机算法较容易导致识别准确率低。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种基于汉字结构的文字点选验证码识别与填入方法,利用汉字结构特征,采用结合识别模型及形体结构及偏旁部首的汉字检索匹配算法,极大降低所需样本,从而大幅节省人力时间成本。
本发明的技术方案如下:
技术方案一
基于汉字结构的文字点选验证码识别与填入方法,包括以下步骤:
配置语义类词组库,收集语义类中文词组加入语义类文字库中,供检索使用;
配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用;
获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;
创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字;
预测汉字,调用识别模型,输入各所述汉字图片至识别模型内进行识别预测,得到各所述汉字图片中的预测汉字;
将得到的各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序;
根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中自动点选验证码并提交。
进一步的,所述对单个汉字添加结构标签具体为:
对单个汉字添加形体结构标签以及偏旁部首标签,其中所述形体结构标签包括左右结构、上下结构、左中右结构、上中下结构、半包围结构、全包围结构以及镶嵌结构。
进一步的,所述将各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序,包括对语义类验证码的加权综合评定以及对非语义类验证码的加权综合评定;
所述对语义类验证码的加权综合评定具体为:
将各所述预测汉字,输入所述语义类词组库中进行检索,得到与各所述预测汉字相关的词组,舍弃字数与所述文字点选验证码图片中汉字字数不同的词组,等到一个或一个以上的备选结果;
将各所述预测汉字以及所述备选结果,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及备选结果中汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及各所述备选结果中汉字的形体结构和偏旁部首的匹配关系,加权综合评定得到目标汉字词组,从而得到目标汉字的填入顺序;
所述对非语义类验证码的加权综合评定具体为:
将各所述预测汉字以及非语义类验证码提示的目标结果汉字,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首的匹配关系,修正各所述预测文字,得到目标汉字的填入顺序。
进一步的,所述目标检测算法采用Faster R-CNN或YOLO算法;所述深度学习算法采用CNN算法。
技术方案二
基于汉字结构的文字点选验证码识别与填入设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
配置语义类词组库,收集语义类中文词组加入语义类文字库中,供检索使用;
配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用;
获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;
创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字;
预测汉字,调用识别模型,输入各所述汉字图片至识别模型内进行识别预测,得到各所述汉字图片中的预测汉字;
将得到的各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序;
根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中自动点选验证码并提交。
进一步的,所述对单个汉字添加结构标签具体为:
对单个汉字添加形体结构标签以及偏旁部首标签,其中所述形体结构标签包括左右结构、上下结构、左中右结构、上中下结构、半包围结构、全包围结构以及镶嵌结构。
进一步的,所述将各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序,包括对语义类验证码的加权综合评定以及对非语义类验证码的加权综合评定;
所述对语义类验证码的加权综合评定具体为:
将各所述预测汉字,输入所述语义类词组库中进行检索,得到与各所述预测汉字相关的词组,舍弃字数与所述文字点选验证码图片中汉字字数不同的词组,等到一个或一个以上的备选结果;
将各所述预测汉字以及所述备选结果,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及备选结果中汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及各所述备选结果中汉字的形体结构和偏旁部首的匹配关系,加权综合评定得到目标汉字词组,从而得到目标汉字的填入顺序;
所述对非语义类验证码的加权综合评定具体为:
将各所述预测汉字以及非语义类验证码提示的目标结果汉字,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首的匹配关系,修正各所述预测文字,得到目标汉字的填入顺序。
进一步的,所述目标检测算法采用Faster R-CNN或YOLO算法;所述深度学习算法采用CNN算法。
本发明具有如下有益效果:
1、本发明通过配置语义类词组库和结构化汉字库,利用语义类词组的固有语序以及汉字形体结构及偏旁部首的特征,对识别模型识别出的预测汉字进行加权综合评定,极大降低所需样本,从而大幅节省人力时间成本。
2、本发明将形体结构标签划分为汉字形体结构的七大类,能够更细致的划分汉字的结构。
3、本发明在识别语义类点选验证码时,得到预测汉字后,先输入至语义类词组库中进行检索匹配,得到一个或多个备选结果,再输入至结构化汉字库进行检索匹配,得到预测汉字的形体结构,通过预测汉字的形体结构与备选结果的形体结构进行匹配对比,从而精确得到实际目标结果。在识别非语义类点选验证码时,能够直接解析目标结果的形体结构,从而能够将预测汉字的形体结构与目标结果的形体结构直接进行匹配对比,较于随机返回的准确率得到较大程度提升。
附图说明
图1为现有技术的文字点选验证码识别过程;
图2为本发明实施例的文字点选验证码识别过程;
图3为一文字点选验证码的示例图;
图4为本发明实施例中备选结果的形体结构和偏旁部首表;
图5为本发明实施例中预测汉字的形体结构和偏颇部首表;
图6为本发明实施例中预测汉字的语义类词组检索表。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图2,基于汉字结构的文字点选验证码识别与填入方法,包括以下步骤:
配置语义类词组库,收集语义类中文词组(如:庖丁解牛、胆固醇、非物质文化遗产等)加入语义类文字库中,供检索使用。
配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用。
获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;如图3所示,图3为一语义类点选验证码的图片,图片中的语义类词组为庖丁解牛,通过目标检测算法,得到庖、丁、解、牛四个字的图片和区域坐标,各汉字的区域坐标作为最终点选时的填入值。
创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字。
预测汉字,调用识别模型,输入各所述汉字图片至识别模型内进行识别预测,得到各所述汉字图片中的预测汉字;如图3所示,通过识别模型,分别识别庖、丁、解、牛四个字的图片,得到预测汉字。
将得到的各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序。
根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中自动点选验证码并提交。
本实施例通过配置语义类词组库和结构化汉字库,利用语义类词组的固有语序以及汉字形体结构及偏旁部首的特征,对识别模型识别出的预测汉字进行加权综合评定,极大降低所需样本,从而大幅节省人力时间成本。
实施例二
进一步的,所述对单个汉字添加结构标签具体为:
对单个汉字添加形体结构标签以及偏旁部首标签,其中所述形体结构标签包括左右结构(如:指、细、汉)、上下结构(如:要、志、苗)、左中右结构(如:谢,树,御)、上中下结构(如:高、黄、萤)、半包围结构(如:句、庙、建)、全包围结构(如:围、团、圆)以及镶嵌结构(如:坐、爽、夹)。
进一步的,所述将各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序,包括对语义类验证码的加权综合评定以及对非语义类验证码的加权综合评定。
所述对语义类验证码的加权综合评定具体为:
将各所述预测汉字,输入所述语义类词组库中进行检索,得到与各所述预测汉字相关的词组,舍弃字数与所述文字点选验证码图片中汉字字数不同的词组,等到一个或一个以上的备选结果。
将各所述预测汉字以及所述备选结果,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及备选结果中汉字的形体结构和偏旁部首。
根据各所述预测汉字的形体结构和偏旁部首以及各所述备选结果中汉字的形体结构和偏旁部首的匹配关系,加权综合评定得到目标汉字词组,从而得到目标汉字的填入顺序。
参见图3至图6,假设图3中的庖、丁、解、牛四个汉字图片经识别模型识别后得到病、丁、触、牛四个预测汉字;具体参见图6,,先将病、丁、触、牛四个汉字输入到语义类词组库进行检索匹配,得到四个汉字相关的词组,并排除字数不为四的词组,经检索可以得出庖丁解牛出现了两次,所以庖丁解牛为备选结果。具体参见图4和图5,再将病、丁、触、牛四个预测汉字以及庖、丁、解、牛四个备选结果中的汉字,输入到结构化汉字库进行检索,得到四个预测汉字和四个备选结果中的汉字的形体结构和偏旁部首,如(病-左上包围-疒、触-左右-角)。进行加权综合评定,预测汉字与实际目标汉字不同的两个字为“触”和“病”,由于“解”和“触”的结构和偏旁都一致,匹配度很高;“庖”和“病”结构一致但偏旁部首不一致,也具有一定的匹配度,且庖丁解牛在语义类词组库检索时出现了两次,因此针对此例可以判定识别模型得到的预测汉字“触”实际为“解”,预测汉字“病”实际为“庖”;另假设“庖”识别为“包”,即结构和偏旁部首都不一致,但由于“解”和“触”具有较高的匹配关系,因此仍能得到正确的结果。
所述对非语义类验证码的加权综合评定具体为:
将各所述预测汉字以及非语义类验证码提示的目标结果汉字,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首。
根据各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首的匹配关系,修正各所述预测文字,得到目标汉字的填入顺序。
因为在非语义类点选验证码会提示的一个目标结果,结合结构和偏旁能从结构化汉字库中检索出的一个或多个备选结果,从而进行加权综合评定得到修正的结果,相较于随机返回的准确率得到较大程度提升;且在样本相对较少时,识别错误(往往识别为形近字)也能通过此方法进一步提升少样本时的准确率。
进一步的,所述目标检测算法采用Faster R-CNN或YOLO算法;所述深度学习算法采用CNN算法。
本实施例不仅具备实施例一的有益效果,进一步的,提出了具体的实施方法;形体结构标签划分为汉字形体结构的七大类,能够更细致的划分汉字的结构。在识别语义类点选验证码时,得到预测汉字后,先输入至语义类词组库中进行检索匹配,得到一个或多个备选结果,再输入至结构化汉字库进行检索匹配,得到预测汉字的形体结构,通过预测汉字的形体结构与备选结果的形体结构进行匹配对比,从而精确得到实际目标。在识别非语义类点选验证码时,能够直接解析目标结果的形体结构,从而能够将预测汉字的形体结构与目标结果的形体结构直接进行匹配对比,较于随机返回的准确率得到较大程度提升。
实施例三
参见图2,基于汉字结构的文字点选验证码识别与填入方法,包括以下步骤:
配置语义类词组库,收集语义类中文词组(如:庖丁解牛、胆固醇、非物质文化遗产等)加入语义类文字库中,供检索使用。
配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用。
获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;如图3所示,图3为一语义类点选验证码的图片,图片中的语义类词组为庖丁解牛,通过目标检测算法,得到庖、丁、解、牛四个字的图片和区域坐标,各汉字的区域坐标作为最终点选时的填入值。
创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字。
预测汉字,调用识别模型,输入各所述汉字图片至识别模型内进行识别预测,得到各所述汉字图片中的预测汉字;如图3所示,通过识别模型,分别识别庖、丁、解、牛四个字的图片,得到预测汉字。
将得到的各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序。
根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中自动点选验证码并提交。
本实施例通过配置语义类词组库和结构化汉字库,利用语义类词组的固有语序以及汉字形体结构及偏旁部首的特征,对识别模型识别出的预测汉字进行加权综合评定,极大降低所需样本,从而大幅节省人力时间成本。
实施例四
进一步的,所述对单个汉字添加结构标签具体为:
对单个汉字添加形体结构标签以及偏旁部首标签,其中所述形体结构标签包括左右结构(如:指、细、汉)、上下结构(如:要、志、苗)、左中右结构(如:谢,树,御)、上中下结构(如:高、黄、萤)、半包围结构(如:句、庙、建)、全包围结构(如:围、团、圆)以及镶嵌结构(如:坐、爽、夹)。
进一步的,所述将各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序,包括对语义类验证码的加权综合评定以及对非语义类验证码的加权综合评定。
所述对语义类验证码的加权综合评定具体为:
将各所述预测汉字,输入所述语义类词组库中进行检索,得到与各所述预测汉字相关的词组,舍弃字数与所述文字点选验证码图片中汉字字数不同的词组,等到一个或一个以上的备选结果。
将各所述预测汉字以及所述备选结果,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及备选结果中汉字的形体结构和偏旁部首。
根据各所述预测汉字的形体结构和偏旁部首以及各所述备选结果中汉字的形体结构和偏旁部首的匹配关系,加权综合评定得到目标汉字词组,从而得到目标汉字的填入顺序。
参见图3至图6,假设图3中的庖、丁、解、牛四个汉字图片经识别模型识别后得到病、丁、触、牛四个预测汉字;具体参见图6,先将病、丁、触、牛四个汉字输入到语义类词组库进行检索匹配,得到四个汉字相关的词组,并排除字数不为四的词组,经检索可以得出庖丁解牛出现了两次,所以庖丁解牛为备选结果。具体参见图5,再将病、丁、触、牛四个预测汉字以及庖、丁、解、牛四个备选结果中的汉字,输入到结构化汉字库进行检索,得到四个预测汉字和四个备选结果中的汉字的形体结构和偏旁部首,如(病-左上包围-疒、触-左右-角)。进行加权综合评定,预测汉字与实际目标汉字不同的两个字为“触”和“病”,由于“解”和“触”的结构和偏旁都一致,匹配度很高;“庖”和“病”结构一致但偏旁部首不一致,也具有一定的匹配度,且庖丁解牛在语义类词组库检索时出现了两次,因此针对此例可以判定识别模型得到的预测汉字“触”实际为“解”,预测汉字“病”实际为“庖”;另假设“庖”识别为“包”,即结构和偏旁部首都不一致,但由于“解”和“触”具有较高的匹配关系,因此仍能得到正确的结果。
所述对非语义类验证码的加权综合评定具体为:
将各所述预测汉字以及非语义类验证码提示的目标结果汉字,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首。
根据各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首的匹配关系,修正各所述预测文字,得到目标汉字的填入顺序。
因为在非语义类点选验证码会提示的一个目标结果,结合结构和偏旁能从结构化汉字库中检索出的一个或多个备选结果,从而进行加权综合评定得到修正的结果,相较于随机返回的准确率得到较大程度提升;且在样本相对较少时,识别错误(往往识别为形近字)也能通过此方法进一步提升少样本时的准确率。
进一步的,所述目标检测算法采用Faster R-CNN或YOLO算法;所述深度学习算法采用CNN算法。
本实施例不仅具备实施例三的有益效果,进一步的,提出了具体的实施方法;形体结构标签划分为汉字形体结构的七大类,能够更细致的划分汉字的结构。在识别语义类点选验证码时,得到预测汉字后,先输入至语义类词组库中进行检索匹配,得到一个或多个备选结果,再输入至结构化汉字库进行检索匹配,得到预测汉字的形体结构,通过预测汉字的形体结构与备选结果的形体结构进行匹配对比,从而精确得到实际目标。在识别非语义类点选验证码时,能够直接解析目标结果的形体结构,从而能够将预测汉字的形体结构与目标结果的形体结构直接进行匹配对比,较于随机返回的准确率得到较大程度提升。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.基于汉字结构的文字点选验证码识别与填入方法,其特征在于,包括以下步骤:
配置语义类词组库,收集语义类中文词组加入语义类文字库中,供检索使用;
配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用;
获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;
创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字;
预测汉字,调用识别模型,输入各所述汉字图片至识别模型内进行识别预测,得到各所述汉字图片中的预测汉字;
将得到的各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序;
根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中自动点选验证码并提交。
2.根据权利要求1所述的基于汉字结构的文字点选验证码识别与填入方法,其特征在于,所述对单个汉字添加结构标签具体为:
对单个汉字添加形体结构标签以及偏旁部首标签,其中所述形体结构标签包括左右结构、上下结构、左中右结构、上中下结构、半包围结构、全包围结构以及镶嵌结构。
3.根据权利要求2所述的基于汉字结构的文字点选验证码识别与填入方法,其特征在于,所述将各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序,包括对语义类验证码的加权综合评定以及对非语义类验证码的加权综合评定;
所述对语义类验证码的加权综合评定具体为:
将各所述预测汉字,输入所述语义类词组库中进行检索,得到与各所述预测汉字相关的词组,舍弃字数与所述文字点选验证码图片中汉字字数不同的词组,等到一个或一个以上的备选结果;
将各所述预测汉字以及所述备选结果,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及备选结果中汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及各所述备选结果中汉字的形体结构和偏旁部首的匹配关系,加权综合评定得到目标汉字词组,从而得到目标汉字的填入顺序;
所述对非语义类验证码的加权综合评定具体为:
将各所述预测汉字以及非语义类验证码提示的目标结果汉字,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首的匹配关系,修正各所述预测文字,得到目标汉字的填入顺序。
4.根据权利要求1所述的基于汉字结构的文字点选验证码识别与填入方法,其特征在于:所述目标检测算法采用Faster R-CNN或YOLO算法;所述深度学习算法采用CNN算法。
5.基于汉字结构的文字点选验证码识别与填入设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
配置语义类词组库,收集语义类中文词组加入语义类文字库中,供检索使用;
配置结构化汉字库,收集汉字添加至所述结构化汉字库,并对单个汉字添加结构标签,供检索使用;
获取点选填入值,采集包含文字点选的验证码图片,通过目标检测算法检测所述验证码图片中的存在汉字的区域,并返回存在汉字的区域坐标,通过每个汉字的区域坐标对所述验证码图片进行切割,生成单个汉字图片,记录各所述汉字图片的区域坐标作为文字点选的填入值;
创建识别模型,将每个汉字分类并采用深度学习算法进行调优训练得到识别模型,用于预测汉字;
预测汉字,调用识别模型,输入各所述汉字图片至识别模型内进行识别预测,得到各所述汉字图片中的预测汉字;
将得到的各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序;
根据得到的目标汉字填入顺序及各所述汉字图片的区域坐标,在验证码验证窗口中自动点选验证码并提交。
6.根据权利要求5所述的基于汉字结构的文字点选验证码识别与填入设备,其特征在于,所述对单个汉字添加结构标签具体为:
对单个汉字添加形体结构标签以及偏旁部首标签,其中所述形体结构标签包括左右结构、上下结构、左中右结构、上中下结构、半包围结构、全包围结构以及镶嵌结构。
7.根据权利要求6所述的基于汉字结构的文字点选验证码识别与填入设备,其特征在于,所述将各所述预测汉字,输入所述语义类词组库和结构化汉字库进行检索匹配,并进行加权综合评定,得到目标汉字填入顺序,包括对语义类验证码的加权综合评定以及对非语义类验证码的加权综合评定;
所述对语义类验证码的加权综合评定具体为:
将各所述预测汉字,输入所述语义类词组库中进行检索,得到与各所述预测汉字相关的词组,舍弃字数与所述文字点选验证码图片中汉字字数不同的词组,等到一个或一个以上的备选结果;
将各所述预测汉字以及所述备选结果,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及备选结果中汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及各所述备选结果中汉字的形体结构和偏旁部首的匹配关系,加权综合评定得到目标汉字词组,从而得到目标汉字的填入顺序;
所述对非语义类验证码的加权综合评定具体为:
将各所述预测汉字以及非语义类验证码提示的目标结果汉字,输入所述结构化汉字库进行检索,得到各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首;
根据各所述预测汉字的形体结构和偏旁部首以及非语义类验证码提示的目标结果汉字的形体结构和偏旁部首的匹配关系,修正各所述预测文字,得到目标汉字的填入顺序。
8.根据权利要求5所述的基于汉字结构的文字点选验证码识别与填入设备,其特征在于:所述目标检测算法采用Faster R-CNN或YOLO算法;所述深度学习算法采用CNN算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404781.3A CN110119441A (zh) | 2019-05-16 | 2019-05-16 | 基于汉字结构的文字点选验证码识别与填入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404781.3A CN110119441A (zh) | 2019-05-16 | 2019-05-16 | 基于汉字结构的文字点选验证码识别与填入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110119441A true CN110119441A (zh) | 2019-08-13 |
Family
ID=67522592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910404781.3A Pending CN110119441A (zh) | 2019-05-16 | 2019-05-16 | 基于汉字结构的文字点选验证码识别与填入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119441A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110505498A (zh) * | 2019-09-03 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 视频的处理、播放方法、装置及计算机可读介质 |
CN110674813A (zh) * | 2019-09-24 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN110806942A (zh) * | 2019-11-08 | 2020-02-18 | 广州华多网络科技有限公司 | 数据处理的方法和装置 |
CN111160369A (zh) * | 2019-12-25 | 2020-05-15 | 携程旅游信息技术(上海)有限公司 | 破解汉字验证码的方法、系统、电子设备及存储介质 |
CN112070092A (zh) * | 2020-09-02 | 2020-12-11 | 北京明略昭辉科技有限公司 | 一种验证码参数的获取方法及装置 |
CN112364332A (zh) * | 2020-11-10 | 2021-02-12 | 西安热工研究院有限公司 | 一种基于语义转换的安全图形验证码的实现方法 |
CN114332843A (zh) * | 2022-03-14 | 2022-04-12 | 浙商银行股份有限公司 | 基于双流孪生卷积网络的点选验证码识别方法及装置 |
CN115731453A (zh) * | 2023-01-09 | 2023-03-03 | 珠海金智维信息科技有限公司 | 汉字点选式验证码识别方法及系统 |
-
2019
- 2019-05-16 CN CN201910404781.3A patent/CN110119441A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110505498A (zh) * | 2019-09-03 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 视频的处理、播放方法、装置及计算机可读介质 |
CN110674813B (zh) * | 2019-09-24 | 2022-04-05 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN110674813A (zh) * | 2019-09-24 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN110806942A (zh) * | 2019-11-08 | 2020-02-18 | 广州华多网络科技有限公司 | 数据处理的方法和装置 |
CN110806942B (zh) * | 2019-11-08 | 2024-05-07 | 广州华多网络科技有限公司 | 数据处理的方法和装置 |
CN111160369A (zh) * | 2019-12-25 | 2020-05-15 | 携程旅游信息技术(上海)有限公司 | 破解汉字验证码的方法、系统、电子设备及存储介质 |
CN111160369B (zh) * | 2019-12-25 | 2024-03-05 | 携程旅游信息技术(上海)有限公司 | 破解汉字验证码的方法、系统、电子设备及存储介质 |
CN112070092A (zh) * | 2020-09-02 | 2020-12-11 | 北京明略昭辉科技有限公司 | 一种验证码参数的获取方法及装置 |
CN112364332A (zh) * | 2020-11-10 | 2021-02-12 | 西安热工研究院有限公司 | 一种基于语义转换的安全图形验证码的实现方法 |
CN112364332B (zh) * | 2020-11-10 | 2023-01-31 | 西安热工研究院有限公司 | 一种基于语义转换的安全图形验证码的实现方法 |
CN114332843A (zh) * | 2022-03-14 | 2022-04-12 | 浙商银行股份有限公司 | 基于双流孪生卷积网络的点选验证码识别方法及装置 |
CN114332843B (zh) * | 2022-03-14 | 2022-07-08 | 浙商银行股份有限公司 | 基于双流孪生卷积网络的点选验证码识别方法及装置 |
CN115731453A (zh) * | 2023-01-09 | 2023-03-03 | 珠海金智维信息科技有限公司 | 汉字点选式验证码识别方法及系统 |
CN115731453B (zh) * | 2023-01-09 | 2023-05-19 | 珠海金智维信息科技有限公司 | 汉字点选式验证码识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119441A (zh) | 基于汉字结构的文字点选验证码识别与填入方法 | |
CN109766540B (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
CN109961008B (zh) | 基于文字定位识别的表格解析方法、介质及计算机设备 | |
US11714839B2 (en) | Apparatus and method for automated and assisted patent claim mapping and expense planning | |
CN106528845B (zh) | 基于人工智能的检索纠错方法及装置 | |
US10831769B2 (en) | Search method and device for asking type query based on deep question and answer | |
CN109074642A (zh) | 机器学习装置 | |
CN102662930B (zh) | 一种语料标注方法及装置 | |
RU2643467C1 (ru) | Сопоставление разметки для похожих документов | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
US20160140109A1 (en) | Generation of a semantic model from textual listings | |
CN109543031A (zh) | 一种基于多任务对抗学习的文本分类方法 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN105869642A (zh) | 一种语音文本的纠错方法及装置 | |
CN101645088B (zh) | 确定需要加载的辅助词库的方法、装置及输入法系统 | |
US20220067284A1 (en) | Systems and methods for controllable text summarization | |
CN111159414B (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN107526846B (zh) | 频道排序模型的生成、排序方法、装置、服务器和介质 | |
CN105893478A (zh) | 一种标签提取方法及设备 | |
CN110175236A (zh) | 用于文本分类的训练样本生成方法、装置和计算机设备 | |
US20150113388A1 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
CN109508460B (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
CN110348020A (zh) | 一种英文单词拼写纠错方法、装置、设备及可读存储介质 | |
WO2021112984A1 (en) | Feature and context based search result generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |