CN111783061B - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111783061B
CN111783061B CN202010467740.1A CN202010467740A CN111783061B CN 111783061 B CN111783061 B CN 111783061B CN 202010467740 A CN202010467740 A CN 202010467740A CN 111783061 B CN111783061 B CN 111783061B
Authority
CN
China
Prior art keywords
verification
character
picture
target
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010467740.1A
Other languages
English (en)
Other versions
CN111783061A (zh
Inventor
王元
褚哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202010467740.1A priority Critical patent/CN111783061B/zh
Publication of CN111783061A publication Critical patent/CN111783061A/zh
Application granted granted Critical
Publication of CN111783061B publication Critical patent/CN111783061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。该方法包括:获取验证码图片,验证码图片包括至少一个文字;从验证码图片中确定对应的验证区域,验证区域不包括文字;计算验证区域对应的验证区域信道值;获取目标验证文字,计算目标验证文字对应的验证文字信道值;根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。采用本方法能够增强验证码识别模型的训练样本数据,防止验证码识别模型因为数据量有限出现拟合问题从而提高验证码识别模型的准确性。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了验证码识别技术,验证码识别技术是一种基于图灵测试的自动化识别技术,其中,文字点选是一种验证码形势,主要从所给的图片中识别出字数不等的文字,并且按照提示,依次点选对应的文字,从而完成验证码识别过程。
目前,都是通过验证码识别模型实现文字点选验证码识别的,其中,通过大量爬取网页中的验证码图片作为验证码识别模型的训练样本,对验证码识别模型进行训练,然而,这种方式爬取的验证码图片样本数目有限,很难从中提取规律,即使得到验证码识别模型也容易产生过度依赖与有限数量的验证码图片样本而出现拟合问题,当验证码识别模型应用到新的数据上时,验证码识别模型的准确性会很差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够增强验证码识别模型的训练样本数据,防止验证码识别模型因为数据量有限出现拟合问题从而提高验证码识别模型的准确性的数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,该方法包括:
获取验证码图片,验证码图片包括至少一个文字;
从验证码图片中确定对应的验证区域,验证区域不包括文字;
计算验证区域对应的验证区域信道值;
获取目标验证文字,计算目标验证文字对应的验证文字信道值;
根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
在其中一个实施例中,从验证码图片中确定对应的验证区域,包括:获取预设图片大小;根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片;获取验证码图片中文字所占的文字区域面积;获取验证码子图片对应的子图片区域面积;根据文字区域面积和子图片区域面积计算得到区域面积重叠值;当区域面积重叠值未达到预设重叠阈值时,确定验证码子图片为验证区域;当区域面积重叠值达到预设重叠阈值时,将重新获取新的预设图片大小,返回根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到验证区域。
在其中一个实施例中,计算验证区域对应的验证区域信道值,包括:获取验证区域对应的RGB通道参数;根据RGB通道参数计算得到验证区域信道值。
在其中一个实施例中,获取目标验证文字,包括:获取预设验证文字库,预设验证文字库包括验证字体库和验证字典;从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字;根据目标验证字体和目标验证文字形成目标验证文字。
在其中一个实施例中,计算目标验证文字对应的验证文字信道值,包括:获取目标验证文字对应的文字RGB通道参数;根据文字RGB通道参数计算得到验证文字信道值。
在其中一个实施例中,数据处理方法还包括:获取预设文字操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、剪裁操作、平移操作中的至少一种;获取当前验证文字,根据预设文字操作对当前验证文字进行操作,得到目标验证文字。
在其中一个实施例中,根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,包括:根据验证区域信道值和验证文字信道值计算得到信道差值;若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片;若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
一种数据处理装置,该装置包括:
验证码图片获取模块,用于获取验证码图片,验证码图片包括至少一个文字;
验证区域确定模块,用于从验证码图片中确定对应的验证区域,验证区域不包括文字;
区域信道值计算模块,用于计算验证区域对应的验证区域信道值;
文字信道值计算模块,用于获取目标验证文字,计算目标验证文字对应的验证文字信道值;
信道值比较模块,用于根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取验证码图片,验证码图片包括至少一个文字;
从验证码图片中确定对应的验证区域,验证区域不包括文字;
计算验证区域对应的验证区域信道值;
获取目标验证文字,计算目标验证文字对应的验证文字信道值;
根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取验证码图片,验证码图片包括至少一个文字;
从验证码图片中确定对应的验证区域,验证区域不包括文字;
计算验证区域对应的验证区域信道值;
获取目标验证文字,计算目标验证文字对应的验证文字信道值;
根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
上述数据处理方法、装置、计算机设备和存储介质,获取验证码图片,验证码图片包括至少一个文字;从验证码图片中确定对应的验证区域,验证区域不包括文字;计算验证区域对应的验证区域信道值;获取目标验证文字,计算目标验证文字对应的验证文字信道值;根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
因此,目标验证图片作为验证码识别模型的训练样本数据,通过爬取到的验证码图片可以生成新的目标验证码图片,增强了验证码识别模型的训练样本数据,扩大了有限的验证码图片样本数目,从而防止验证码识别模型由于数据量限制出现拟合问题从而提高验证码识别模型的准确性。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图2A为一个实施例中验证码图片的结构示意图;
图3为一个实施例中验证区域确定步骤的流程示意图;
图4为一个实施例中验证区域信道值计算步骤的流程示意图;
图5为一个实施例中目标验证文字获取步骤的流程示意图;
图6为一个实施例中验证文字信道值计算步骤的流程示意图;
图7为一个实施例中数据处理方法的流程示意图;
图8为一个实施例中目标验证图片生成步骤的流程示意图;
图9为一个实施例中数据处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端102获取到验证码图片后,验证码图片包括至少一个文字,将验证码图片发送至服务器104,服务器104从验证码图片中确定对应的验证区域,验证区域不包括文字,计算验证区域对应的验证区域信道值,获取目标验证文字,计算目标验证文字对应的验证文字信道值,根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
在一个实施例中,终端102获取到验证码图片后,验证码图片包括至少一个文字,从验证码图片中确定对应的验证区域,验证区域不包括文字,计算验证区域对应的验证区域信道值,获取目标验证文字,计算目标验证文字对应的验证文字信道值,根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤202,获取验证码图片,验证码图片包括至少一个文字。
其中,这里的验证码图片是目前正在用来处理的验证码图片,所谓验证码图片是用来进行验证码识别的图片,验证码图片包括但不限于至少一个文字、非文字背景子图等,即验证码图片可以分割成文字部分和非文字部分,其中,非文字背景子图是指不存在文字的背景图片,如图2A所示,图2A示出一个实施例中验证码图片的结构示意图,图2A示出的验证码图片包括至少一个文字和非文字背景子图。
具体地,终端或服务器可通过接收获取指令,通过获取指令向大量验证码网页爬取得到验证码图片,其中,获取指令可以是人为操作触发生成,也可以是定时事件触发生成,在此不作任何限制。
步骤204,从验证码图片中确定对应的验证区域,验证区域不包括文字。
其中,这里的验证区域是指验证码图片中目前正在用来处理的验证区域,而验证区域不包括文字,即验证区域只包括背景像素点,验证区域为非文字区域。
具体地,验证区域可以从验证码图片中裁剪得到,其中,验证区域的裁剪可以根据预设裁剪规则进行裁剪得到的,预设裁剪规则可自定义,在一个实施例中,自定义可以是获取验证码图片中非文字区域,根据预设区域大小从非文字区域中确定对应的验证区域。
在另一个实施例中,预设裁剪规则还可以是,获取预设图片大小,可以根据业务需求、实际应用场景或产品需求确定得到预设图片大小,根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片,判定验证码子图片中是否包括文字,若验证码子图片中不包括文字,则确定验证码子图片为验证区域,否则,则重新根据新的预设图片大小,从验证码图片中裁剪得到验证码子图片。
步骤206,计算验证区域对应的验证区域信道值。
其中,这里验证区域信道值是指验证区域信道对应的值,验证区域信道可以是验证区域对应的颜色空间信道值,例如,验证区域信道可以是HSV信道中的V信道,由于V信道不受色彩饱和度等图片拍摄条件参数影响,则可以将HSV信道中的V信道作为验证区域信道。
具体地,在确定验证区域后,获取验证区域对应的颜色空间参数,根据颜色空间参数计算得到验证区域信道值。其中,验证区域对应的颜色空间参数可以是RGB通道参数,所谓RGB是从颜色发光的原理来设计定的,通俗点说它的颜色混合方式就好像有红、绿、蓝三盏灯,当它们的光相互叠合的时候,色彩相混,而亮度却等于两者亮度之总和,越混合亮度越高,即加法混合。其中,验证区域信道值可以是HSV通道中V信道对应的信道值。
例如,获取验证区域对应的RGB通道参数,RGB通道参数包括R通道参数、G通道参数和B通道参数,可根据R通道参数、G通道参数和B通道参数计算得到对应的中间R通道参数、中间G通道参数和中间B通道参数,最后可根据中间R通道参数、中间G通道参数和中间B通道参数计算得到验证区域信道值。
其中,根据R通道参数、G通道参数和B通道参数计算得到对应的中间R通道参数、中间G通道参数和中间B通道参数,以及根据中间R通道参数、中间G通道参数和中间B通道参数计算得到验证区域信道值,具体可以如以下公式所示:
Figure BDA0002513209140000081
Figure BDA0002513209140000082
Figure BDA0002513209140000083
Cmax=max(R′,G′,B′)
其中,R为R通道参数、R′为中间R通道参数、G为G通道参数、G′为中间G通道参数、B为B通道参数、B′为中间B通道参数,Cmax为验证区域信道值。
步骤208,获取目标验证文字,计算目标验证文字对应的验证文字信道值。
其中,这里的目标验证文字是用来作为验证码的文字,可以从预设验证文字库中确定得到,具体可以是随机从预设验证文字库中确定得到,还可以是依次将预设验证文字库中的文字作为目标验证文字。
其中,预设验证文字库中包括验证字体库和验证字典,所谓验证字体库包括各种各样的字体,而验证字典包括各种各样的文字,由验证字体库和验证字典组成预设验证文字库。具体地,从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字,根据目标验证字体和目标验证文字形成目标验证文字。
在另一个实施例中,获取当前验证文字,当前验证文字可以是在形成目标验证文字之前目前用来处理的验证文字,在确定当前验证文字后,获取预设文字操作,所谓预设文字操作是用来对当前验证文字进行操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、剪裁操作、平移操作中的至少一种,再根据预设文字操作对当前验证文字进行操作,得到目标验证文字。
进一步地,在获取到目标验证文字后,可以计算目标验证文字对应的验证文字信道值,具体可以是,从预设文字颜色库中确定目标验证文字对应的目标文字颜色,根据目标文字颜色对目标验证文字进行渲染,得到渲染后的目标验证文字,再计算渲染后的目标验证文字对应的验证文字信道值,可以是先获取渲染后的目标验证文字对应的文字RGB通道参数,最后根据文字RGB通道参数计算得到验证文字信道值。其中,验证文字信道值可以是验证文字HSV信道中的验证文字V信道对应的信道值。
例如,获取渲染后的目标验证文字对应的文字RGB通道参数,文字RGB通道参数包括文字R通道参数,文字G通道参数和文字B通道参数,可根据文字R通道参数,文字G通道参数和文字B通道参数计算得到对应的中间文字R通道参数、中间文字G通道参数和中间文字B通道参数,最后可根据中间文字R通道参数、中间文字G通道参数和中间文字B通道参数计算得到验证文字信道值。
步骤210,根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
具体地,在得到目标验证文字对应的验证文字信道值后,可以根据验证文字信道值和验证区域信道值判定是否将验证区域和目标验证文字进行组合,从而得到目标验证图片。具体可以是,根据验证文字信道值和验证区域信道值的信道差值与预设信道差值阈值,判定是否将验证区域和目标验证文字进行组合。其中,由于验证区域和目标验证文字都是由各个像素点组成的,因此,将验证区域和目标验证文字进行组合就是将验证区域的像素点与目标验证文字的像素点进行混合,得到目标验证图片。
其中,根据验证文字信道值和验证区域信道值的信道差值与预设信道差值阈值,判定是否将验证区域和目标验证文字进行组合具体可以是,若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片,若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
其中,目标验证图片用于训练验证码识别模型,即作为验证码识别模型的训练样本数据,通过爬取到的验证码图片可以生成新的目标验证码图片,增强了验证码识别模型的训练样本数据,扩大了有限的验证码图片样本数目,从而防止验证码识别模型由于数据量限制出现拟合问题从而提高验证码识别模型的准确性,其中,验证码识别模型用于进行文字点选验证码识别。
上述数据处理方法中,获取验证码图片,验证码图片包括至少一个文字;从验证码图片中确定对应的验证区域,验证区域不包括文字;计算验证区域对应的验证区域信道值;获取目标验证文字,计算目标验证文字对应的验证文字信道值;根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
因此,目标验证图片作为验证码识别模型的训练样本数据,通过爬取到的验证码图片可以生成新的目标验证码图片,增强了验证码识别模型的训练样本数据,扩大了验证码图片样本数目有限,从而防止验证码识别模型因为数据量有限出现拟合问题从而提高验证码识别模型的准确性。
在一个实施例中,如图3所示,从验证码图片中确定对应的验证区域,包括:
步骤302,获取预设图片大小。
步骤304,根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片。
其中,这里的预设图片大小是裁剪标准大小,可根据业务需求、实际应用场景或产品需求提前进行确定得到,再根据预设图片大小从验证码图片中裁剪得到与预设图片大小匹配的验证码子图片,此时验证码子图片只是验证码图片中的一小块区域,验证码子图片中可能包括文字,或者可能不包括文字,因此在得到验证码子图片后,需要判定验证码子图片中是否包括文字。
其中,根据预设图片大小从验证码图片中裁剪得到与预设图片大小匹配的验证码子图片具体可以是,随机抠图,即根据预设图片大小随机从验证码图片中裁剪出符合预设图片大小的一个区域,将这个区域作为验证码子图片。
步骤306,获取验证码图片中文字所占的文字区域面积。
步骤308,获取验证码子图片对应的子图片区域面积。
步骤310,根据文字区域面积和子图片区域面积计算得到区域面积重叠值。
其中,由于在得到验证码子图片后,需要判定验证码子图片中是否包括文字,其中,可以根据验证码子图片对应的子图片区域面积与验证码子图片所有文字位置面积判定验证码子图片中是否包括文字,具体可以是,获取验证码图片中文字所占的文字区域面积,其中,文字区域面积是指验证码子图片中所有文字所占验证码子图片的面积大小,同时获取验证码子图片对应的子图片区域面积,这里的子图片区域面积是指验证码子图片的总面积大小。
进一步地,在获取到文字区域面积和子图片区域面积后,可以根据文字区域面积和子图片区域面积计算得到区域面积重叠值,这里的区域面积重叠值是用来体现验证码子图片中文字与验证码子图片的重叠值,可以通过区域面积重叠值来判定验证码子图片是否存在文字。
其中,根据文字区域面积和子图片区域面积计算得到区域面积重叠值具体可以是获取文字区域面积与子图片区域面积的面积交集值,获取文字区域面积与子图片区域面积的面积并集值,根据面积交集值和面积并集值计算得到区域面积重叠值。例如,根据文字区域面积和子图片区域面积计算得到区域面积重叠值具体可以以下公式所示:
Figure BDA0002513209140000111
其中,S代表区域面积重叠值,A代表文字区域面积,B代表子图片区域面积。
步骤312,当区域面积重叠值未达到预设重叠阈值时,确定验证码子图片为验证区域。
步骤314,当区域面积重叠值达到预设重叠阈值时,将重新获取新的预设图片大小,返回根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到验证区域。
具体地,在得到区域面积重叠值后,可以根据区域面积重叠值判定验证码子图片是否存在文字,获取预设重叠阈值,这里的预设重叠阈值是提前用来设置判定区域面积重叠值是否达到标准,例如,预设重叠值阈值可以是0,当区域面积重叠值为0时,则可认为验证码子图片中不包括任何文字部分。因此,若当区域面积重叠值小于预设重叠阈值时,说明验证码子图片中没有包括任何文字,则可以确定验证码子图片为验证区域。
反之,若区域面积重叠值达到或超过预设重叠阈值时,说明验证码子图片中还存在文字,则需要重新裁剪得到验证子图片,具体可以是,重新获取新的预设图片大小,返回根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到不包括任何文字的验证区域。
在一个实施例中,如图4所示,计算验证区域对应的验证区域信道值,包括:
步骤402,获取验证区域对应的RGB通道参数。
步骤404,根据RGB通道参数计算得到验证区域信道值。
其中,这里的RGB通道参数是验证区域对应的颜色空间参数,所谓RGB是从颜色发光的原理来设计定的,通俗点说它的颜色混合方式就好像有红、绿、蓝三盏灯,当它们的光相互叠合的时候,色彩相混,而亮度却等于两者亮度之总和,越混合亮度越高,即加法混合。其中,验证区域信道值可以是HSV通道中V信道对应的信道值。
具体地,获取验证区域对应的RGB通道参数,RGB通道参数包括R通道参数、G通道参数和B通道参数,可根据R通道参数、G通道参数和B通道参数计算得到对应的中间R通道参数、中间G通道参数和中间B通道参数,最后可根据中间R通道参数、中间G通道参数和中间B通道参数计算得到验证区域信道值。
其中,根据R通道参数、G通道参数和B通道参数计算得到对应的中间R通道参数、中间G通道参数和中间B通道参数,以及根据中间R通道参数、中间G通道参数和中间B通道参数计算得到验证区域信道值,具体可以如以下公式所示:
Figure BDA0002513209140000131
Figure BDA0002513209140000132
Figure BDA0002513209140000133
Cmax=max(R′,G′,B′)
其中,R为R通道参数、R′为中间R通道参数、G为G通道参数、G′为中间G通道参数、B为B通道参数、B′为中间B通道参数,Cmax为验证区域信道值。
在一个实施例中,如图5所示,获取目标验证文字,包括:
步骤502,获取预设验证文字库,预设验证文字库包括验证字体库和验证字典。
步骤504,从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字。
步骤506,根据目标验证字体和目标验证文字形成目标验证文字。
其中,这里的预设验证文字库包括验证字体库和验证字典,其中,所谓验证字体库包括各种各样的字体,而验证字典包括各种各样的文字,由验证字体库和验证字典组成预设验证文字库。具体地,可以预先从大量网页、应用软件等等中爬取各种各样的字体,由各种各样的字体组成验证字体库。同时,可以爬取大量文字,由大量文字组成验证字典,最后,再由验证字体库和验证字典组成预设验证文字库。
进一步地,可以根据业务需求、实际应用场景或者产品需求从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字,或者还可以是随机从验证字体库中确定目标验证字体,随机从验证字典中确定目标验证文字,或者还可以是根据各个字体和各个文字的使用频率来确定目标验证字体和目标验证文字。
最后,可以将目标验证字体和目标验证文字形成目标验证文字,具体可以是,将目标验证字体应用到目标验证文字中,得到目标验证文字,即目标验证文字使用了目标验证字体,得到目标验证文字。
在一个实施例中,如图6所示,计算目标验证文字对应的验证文字信道值,包括:
步骤602,获取目标验证文字对应的文字RGB通道参数。
步骤604,根据文字RGB通道参数计算得到验证文字信道值。
其中,在获取到目标验证文字后,可以计算目标验证文字对应的验证文字信道值,具体可以是,从预设文字颜色库中确定目标验证文字对应的目标文字颜色,根据目标文字颜色对目标验证文字进行渲染,得到渲染后的目标验证文字,再计算渲染后的目标验证文字对应的验证文字信道值,可以是先获取渲染后的目标验证文字对应的文字RGB通道参数,最后根据文字RGB通道参数计算得到验证文字信道值。其中,验证文字信道值可以是验证文字HSV信道中的验证文字V信道对应的信道值。
例如,获取渲染后的目标验证文字对应的文字RGB通道参数,文字RGB通道参数包括文字R通道参数,文字G通道参数和文字B通道参数,可根据文字R通道参数,文字G通道参数和文字B通道参数计算得到对应的中间文字R通道参数、中间文字G通道参数和中间文字B通道参数,最后可根据中间文字R通道参数、中间文字G通道参数和中间文字B通道参数计算得到验证文字信道值。
其中,根据文字R通道参数,文字G通道参数和文字B通道参数计算得到对应的中间文字R通道参数、中间文字G通道参数和中间文字B通道参数,以及可根据中间文字R通道参数、中间文字G通道参数和中间文字B通道参数计算得到验证文字信道值,具体可以如以下公式所示:
Figure BDA0002513209140000141
Figure BDA0002513209140000142
Figure BDA0002513209140000151
Cmax=max(R′,G′,B′)
其中,R为文字R通道参数、R′为中间文字R通道参数、G为文字G通道参数、G′为中间文字G通道参数、B为文字B通道参数、B′为中间文字B通道参数,Cmax为验证文字信道值。
在一个实施例中,如图7所示,数据处理方法还包括:
步骤702,获取预设文字操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、剪裁操作、平移操作中的至少一种。
步骤704,获取当前验证文字,根据预设文字操作对当前验证文字进行操作,得到目标验证文字。
其中,预设文字操作是用来对当前验证文字进行操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、剪裁操作、平移操作中的至少一种,其中,旋转操作是指对当前验证文字进行旋转,旋转角度可自定义,根据旋转角度旋转该当前验证文字,得到目标验证文字。而滤波操作是指模糊当前验证文字边缘特征,根据滤波操作对当前验证文字边缘特征进行操作,从而得到目标验证文字。
其中,模糊操作是指对当前验证文字进行模糊操作,降低当前验证文字的清晰度,从而得到目标验证文字。而扭曲操作是指对当前验证文字进行扭曲,扭曲角度可自定义,根据扭曲角度扭曲该当前验证文字,得到目标验证文字。
其中,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、剪裁操作、平移操作中的至少一种,可根据业务需求、产品需求或实际应用场景从预设文字操作中确定目标文字操作,目标文字操作数目不限,再获取当前验证文字,可根据目标文字操作对当前验证文字进行操作,得到目标验证文字。
其中,剪裁操作是根据业务需求、产品需求或实际应用场景对验证文字进行裁剪操作,可以通过裁剪操作去除非必要因素的影响,从而得到目标验证文字。而平移操作是根据业务需求、产品需求或实际应用场景对验证文字进行平行移动的操作,可以通过平移操作移动验证文字,从而得到目标验证文字。
在一个实施例中,如图8所示,根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,包括:
步骤802,根据验证区域信道值和验证文字信道值计算得到信道差值。
步骤804,若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片。
步骤806,若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
具体地,在得到目标验证文字对应的验证文字信道值后,可以根据验证文字信道值和验证区域信道值判定是否将验证区域和目标验证文字进行组合,从而得到目标验证图片。具体可以是,根据验证文字信道值和验证区域信道值的信道差值与预设信道差值阈值,判定是否将验证区域和目标验证文字进行组合。其中,由于验证区域和目标验证文字都是由各个像素点组成的,因此,将验证区域和目标验证文字进行组合就是将验证区域的像素点与目标验证文字的像素点进行混合,得到目标验证图片。
其中,根据验证文字信道值和验证区域信道值的信道差值与预设信道差值阈值,判定是否将验证区域和目标验证文字进行组合具体可以是,若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片,若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
在一个具体的实施例中,提供了一种数据处理方法,具体包括以下步骤:
1、获取验证码图片,验证码图片包括至少一个文字。
2、从验证码图片中确定对应的验证区域,验证区域不包括文字。
2-1、获取预设图片大小。
2-2、根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片。
2-3、获取验证码图片中文字所占的文字区域面积。
2-4、获取验证码子图片对应的子图片区域面积。
2-5、根据文字区域面积和子图片区域面积计算得到区域面积重叠值。
2-6、当区域面积重叠值未达到预设重叠阈值时,确定验证码子图片为验证区域。
2-7、当区域面积重叠值达到预设重叠阈值时,将重新获取新的预设图片大小,返回根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到验证区域。
3、计算验证区域对应的验证区域信道值。
3-1、获取验证区域对应的RGB通道参数。
3-2、根据RGB通道参数计算得到验证区域信道值。
4、获取目标验证文字,计算目标验证文字对应的验证文字信道值。
4-1-1、获取预设验证文字库,预设验证文字库包括验证字体库和验证字典。
4-1-2、从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字。
4-1-3、根据目标验证字体和目标验证文字形成目标验证文字。
4-2-1、获取预设文字操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、裁剪操作、平移操作中的至少一种。
4-2-2、获取当前验证文字,根据预设文字操作对当前验证文字进行操作,得到目标验证文字。
4-3-1、获取目标验证文字对应的文字RGB通道参数。
4-3-2、根据文字RGB通道参数计算得到验证文字信道值。
5、根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
5-1、根据验证区域信道值和验证文字信道值计算得到信道差值。
5-2、若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片。
5-3、若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种数据处理装置900,包括:验证码图片获取模块902、验证区域确定模块904、区域信道值计算模块906、文字信道值计算模块908和信道值比较模块910,其中:
验证码图片获取模块902,用于获取验证码图片,验证码图片包括至少一个文字。
验证区域确定模块904,用于从验证码图片中确定对应的验证区域,验证区域不包括文字。
区域信道值计算模块906,用于计算验证区域对应的验证区域信道值。
文字信道值计算模块908,用于获取目标验证文字,计算目标验证文字对应的验证文字信道值。
信道值比较模块910,用于根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
在一个实施例中,验证区域确定模块904还用于获取预设图片大小,根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片,获取验证码图片中文字所占的文字区域面积,获取验证码子图片对应的子图片区域面积,根据文字区域面积和子图片区域面积计算得到区域面积重叠值,当区域面积重叠值未达到预设重叠阈值时,确定验证码子图片为验证区域,当区域面积重叠值达到预设重叠阈值时,将重新获取新的预设图片大小,返回根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到验证区域。
在一个实施例中,区域信道值计算模块906还用于获取验证区域对应的RGB通道参数,根据RGB通道参数计算得到验证区域信道值。
在一个实施例中,文字信道值计算模块908还用于获取预设验证文字库,预设验证文字库包括验证字体库和验证字典,从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字,根据目标验证字体和目标验证文字形成目标验证文字。
在一个实施例中,文字信道值计算模块908还用于获取目标验证文字对应的文字RGB通道参数,根据文字RGB通道参数计算得到验证文字信道值。
在一个实施例中,数据处理装置900还用于获取预设文字操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、裁剪操作、平移操作中的至少一种,获取当前验证文字,根据预设文字操作对当前验证文字进行操作,得到目标验证文字。
在一个实施例中,信道值比较模块910还用于根据验证区域信道值和验证文字信道值计算得到信道差值,若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片,若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储验证码识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10或图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取验证码图片,验证码图片包括至少一个文字;从验证码图片中确定对应的验证区域,验证区域不包括文字;计算验证区域对应的验证区域信道值;获取目标验证文字,计算目标验证文字对应的验证文字信道值;根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设图片大小;根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片;获取验证码图片中文字所占的文字区域面积;获取验证码子图片对应的子图片区域面积;根据文字区域面积和子图片区域面积计算得到区域面积重叠值;当区域面积重叠值未达到预设重叠阈值时,确定验证码子图片为验证区域;当区域面积重叠值达到预设重叠阈值时,将重新获取新的预设图片大小,返回根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到验证区域。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取验证区域对应的RGB通道参数;根据RGB通道参数计算得到验证区域信道值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设验证文字库,预设验证文字库包括验证字体库和验证字典;从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字;根据目标验证字体和目标验证文字形成目标验证文字。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取目标验证文字对应的文字RGB通道参数;根据文字RGB通道参数计算得到验证文字信道值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设文字操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、裁剪操作、平移操作中的至少一种;获取当前验证文字,根据预设文字操作对当前验证文字进行操作,得到目标验证文字。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据验证区域信道值和验证文字信道值计算得到信道差值;若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片;若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取验证码图片,验证码图片包括至少一个文字;从验证码图片中确定对应的验证区域,验证区域不包括文字;计算验证区域对应的验证区域信道值;获取目标验证文字,计算目标验证文字对应的验证文字信道值;根据验证区域信道值和验证文字信道值将验证区域和目标验证文字进行组合,得到目标验证图片,目标验证图片用于训练验证码识别模型,验证码识别模型用于进行文字点选验证码识别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设图片大小;根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片;获取验证码图片中文字所占的文字区域面积;获取验证码子图片对应的子图片区域面积;根据文字区域面积和子图片区域面积计算得到区域面积重叠值;当区域面积重叠值未达到预设重叠阈值时,确定验证码子图片为验证区域;当区域面积重叠值达到预设重叠阈值时,将重新获取新的预设图片大小,返回根据预设图片大小从验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到验证区域。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取验证区域对应的RGB通道参数;根据RGB通道参数计算得到验证区域信道值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设验证文字库,预设验证文字库包括验证字体库和验证字典;从验证字体库中确定目标验证字体,从验证字典中确定目标验证文字;根据目标验证字体和目标验证文字形成目标验证文字。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取目标验证文字对应的文字RGB通道参数;根据文字RGB通道参数计算得到验证文字信道值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设文字操作,预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、裁剪操作、平移操作中的至少一种;获取当前验证文字,根据预设文字操作对当前验证文字进行操作,得到目标验证文字。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据验证区域信道值和验证文字信道值计算得到信道差值;若信道差值的绝对值小于等于预设信道差值阈值时,则将验证区域和目标验证文字进行组合,得到目标验证图片;若信道差值的绝对值大于预设信道差值阈值时,则重新获取目标验证文字,返回计算目标验证文字对应的验证文字信道值的步骤,直至得到目标验证图片。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据处理方法,所述方法包括:
获取验证码图片,所述验证码图片包括至少一个文字;
从所述验证码图片中确定对应的验证区域,所述验证区域不包括所述文字;
计算所述验证区域对应的验证区域信道值;
获取目标验证文字,计算所述目标验证文字对应的验证文字信道值;
根据所述验证区域信道值和所述验证文字信道值将所述验证区域和所述目标验证文字进行组合,得到目标验证图片,所述目标验证图片用于训练验证码识别模型,所述验证码识别模型用于进行文字点选验证码识别。
2.根据权利要求1所述的方法,其特征在于,所述从所述验证码图片中确定对应的验证区域,包括:
获取预设图片大小;
根据所述预设图片大小从所述验证码图片中裁剪得到对应的验证码子图片;
获取所述验证码图片中所述文字所占的文字区域面积;
获取所述验证码子图片对应的子图片区域面积;
根据所述文字区域面积和所述子图片区域面积计算得到区域面积重叠值;
当所述区域面积重叠值未达到预设重叠阈值时,确定所述验证码子图片为所述验证区域;
当所述区域面积重叠值达到预设重叠阈值时,将重新获取新的预设图片大小,返回所述根据所述预设图片大小从所述验证码图片中裁剪得到对应的验证码子图片的步骤,直至得到所述验证区域。
3.根据权利要求1所述的方法,其特征在于,所述计算所述验证区域对应的验证区域信道值,包括:
获取所述验证区域对应的RGB通道参数;
根据所述RGB通道参数计算得到所述验证区域信道值。
4.根据权利要求1所述的方法,其特征在于,所述获取目标验证文字,包括:
获取预设验证文字库,所述预设验证文字库包括验证字体库和验证字典;
从所述验证字体库中确定目标验证字体,从所述验证字典中确定目标验证文字;
根据所述目标验证字体和所述目标验证文字形成所述目标验证文字。
5.根据权利要求1所述的方法,其特征在于,所述计算所述目标验证文字对应的验证文字信道值,包括:
获取所述目标验证文字对应的文字RGB通道参数;
根据所述文字RGB通道参数计算得到所述验证文字信道值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预设文字操作,所述预设文字操作包括旋转操作、滤波操作、模糊操作、扭曲操作、剪裁操作、平移操作中的至少一种;
获取当前验证文字,根据所述预设文字操作对所述当前验证文字进行操作,得到所述目标验证文字。
7.根据权利要求1所述的方法,其特征在于,所述根据所述验证区域信道值和所述验证文字信道值将所述验证区域和所述目标验证文字进行组合,得到目标验证图片,包括:
根据所述验证区域信道值和所述验证文字信道值计算得到信道差值;
若所述信道差值的绝对值小于等于预设信道差值阈值时,则将所述验证区域和所述目标验证文字进行组合,得到目标验证图片;
若所述信道差值的绝对值大于所述预设信道差值阈值时,则重新获取目标验证文字,返回所述计算所述目标验证文字对应的验证文字信道值的步骤,直至得到所述目标验证图片。
8.一种数据处理装置,其特征在于,所述装置包括:
验证码图片获取模块,用于获取验证码图片,所述验证码图片包括至少一个文字;
验证区域确定模块,用于从所述验证码图片中确定对应的验证区域,所述验证区域不包括所述文字;
区域信道值计算模块,用于计算所述验证区域对应的验证区域信道值;
文字信道值计算模块,用于获取目标验证文字,计算所述目标验证文字对应的验证文字信道值;
信道值比较模块,用于根据所述验证区域信道值和所述验证文字信道值将所述验证区域和所述目标验证文字进行组合,得到目标验证图片,所述目标验证图片用于训练验证码识别模型,所述验证码识别模型用于进行文字点选验证码识别。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010467740.1A 2020-05-28 2020-05-28 数据处理方法、装置、计算机设备和存储介质 Active CN111783061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467740.1A CN111783061B (zh) 2020-05-28 2020-05-28 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467740.1A CN111783061B (zh) 2020-05-28 2020-05-28 数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111783061A CN111783061A (zh) 2020-10-16
CN111783061B true CN111783061B (zh) 2022-09-23

Family

ID=72754162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467740.1A Active CN111783061B (zh) 2020-05-28 2020-05-28 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111783061B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768754A (zh) * 2012-08-03 2012-11-07 网易(杭州)网络有限公司 一种图片验证码的实现方法和装置
CN106157348A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 生成验证码图片的方法及装置、校验验证码的方法及装置
CN107103225A (zh) * 2017-03-28 2017-08-29 成都优易数据有限公司 一种生成图形验证码的方法
CN108989269A (zh) * 2017-06-02 2018-12-11 阿里巴巴集团控股有限公司 获取验证码的方法、装置和系统
CN109257168A (zh) * 2018-09-21 2019-01-22 深圳市元征科技股份有限公司 一种图片验证码的生成方法、装置、设备及介质
CN110084030A (zh) * 2019-03-14 2019-08-02 咪咕文化科技有限公司 基于图片验证码的验证方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768754A (zh) * 2012-08-03 2012-11-07 网易(杭州)网络有限公司 一种图片验证码的实现方法和装置
CN106157348A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 生成验证码图片的方法及装置、校验验证码的方法及装置
CN107103225A (zh) * 2017-03-28 2017-08-29 成都优易数据有限公司 一种生成图形验证码的方法
CN108989269A (zh) * 2017-06-02 2018-12-11 阿里巴巴集团控股有限公司 获取验证码的方法、装置和系统
CN109257168A (zh) * 2018-09-21 2019-01-22 深圳市元征科技股份有限公司 一种图片验证码的生成方法、装置、设备及介质
CN110084030A (zh) * 2019-03-14 2019-08-02 咪咕文化科技有限公司 基于图片验证码的验证方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111783061A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN109947967B (zh) 图像识别方法、装置、存储介质和计算机设备
CN109285105B (zh) 水印检测方法、装置、计算机设备和存储介质
CN110780873B (zh) 界面颜色适配方法、装置、计算机设备及存储介质
CN111079841A (zh) 目标识别的训练方法、装置、计算机设备和存储介质
CN110008997B (zh) 图像纹理相似度识别方法、装置及计算机可读存储介质
CN110443140B (zh) 文本定位的方法、装置、计算机设备及存储介质
US20210334929A1 (en) Detecting semi-transparent image watermarks
CN108038093B (zh) Pdf文字提取方法和装置
CN112416777B (zh) 文本显示测试方法、装置、计算机设备和存储介质
CN111178310A (zh) 手掌特征识别方法、装置、计算机设备和存储介质
CN114332895A (zh) 文本图像合成方法、装置、设备、存储介质和程序产品
CN111783061B (zh) 数据处理方法、装置、计算机设备和存储介质
CN111783062B (zh) 验证码识别方法、装置、计算机设备和存储介质
CN112840622B (zh) 推送方法及相关产品
CN111401465A (zh) 训练样本优化方法、装置、设备及存储介质
CN110597593B (zh) 用户引导任务的处理方法、装置、计算机设备及存储介质
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
CN114518859A (zh) 显示控制方法、装置、电子设备及存储介质
CN114332297A (zh) 图像的绘制方法、装置、计算机设备和存储介质
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
CN112818301A (zh) Ofd版式电子文档的隐藏信息嵌入及提取方法、装置
CN113591066A (zh) 设备身份识别方法及装置
CN111190574B (zh) 多级联动组件的选项选择方法、装置、设备和存储介质
Chu et al. Automated GUI testing for android news applications
CN111243058A (zh) 物件模拟图像生成方法及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant