CN112686243A - 智能识别图片文字的方法、装置、计算机设备及存储介质 - Google Patents

智能识别图片文字的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112686243A
CN112686243A CN202011590830.6A CN202011590830A CN112686243A CN 112686243 A CN112686243 A CN 112686243A CN 202011590830 A CN202011590830 A CN 202011590830A CN 112686243 A CN112686243 A CN 112686243A
Authority
CN
China
Prior art keywords
character
picture
target
layer
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011590830.6A
Other languages
English (en)
Inventor
谢达荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202011590830.6A priority Critical patent/CN112686243A/zh
Publication of CN112686243A publication Critical patent/CN112686243A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例属于人工智能领域,应用于智慧教育领域中,涉及一种智能识别图片文字的方法、装置、计算机设备及存储介质,包括基于接收的数据单图片生成初始单文字图层;基于初始单文字图层生成单字体图片库;基于接收的目标字符串提取单字体图片库中的目标单文字图层,基于目标单文字图层和预设的背景图片生成训练样本;将训练样本输入预设的初始文字识别模型中,获得第一文字识别结果,基于第一文字识别结果和损失函数计算损失值,直至损失函数收敛,获得目标文字识别模型;将接收的待识别数据单图片输入目标文字识别模型中,获得第二文字识别结果。目标文字识别模型可存储于区块链中。本申请提升模型的训练效率。

Description

智能识别图片文字的方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及智能识别图片文字的方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的不断革新与发展,计算机技术已经逐渐的应用于各行各业,影响着人们的生活。在计算机技术中人工智能具有重要的地位,近年来,随着人工智能的发展,通过计算机技术对图片中的文字进行识别已得到广泛应用,文字是视觉中主要的信息来源,因此识别图像中的文字信息有着重大的意义。
目前,深度学习模型在场景文字识别上取得很好的效果,能够快速识别出图片中的文字。但是,由于图片中常常存在不同的字体,在对深度学习模型进行训练的时候,需要收集海量的不同字体的图片来训练深度学习模型,而在增加新的字体时,又需要收集对应字体的海量图片,造成图片收集周期长,收集繁琐等问题。
发明内容
本申请实施例的目的在于提出一种智能识别图片文字的方法、装置、计算机设备及存储介质,无需准备大量的数据单图片作为训练样本,提升模型的训练效率。
为了解决上述技术问题,本申请实施例提供一种智能识别图片文字的方法,采用了如下所述的技术方案:
一种智能识别图片文字的方法,包括下述步骤:
接收多张数据单图片,基于所述数据单图片生成初始单文字图层,其中,不同的数据单图片之间的文字类型不同;
标注所述初始单文字图层,生成目标单文字图层,并基于所述目标单文字图层生成单字体图片库;
接收目标字符串,基于所述目标字符串提取所述单字体图片库中的目标单文字图层,基于所述目标单文字图层和预设的背景图片生成训练样本,其中,所述背景图片中包含噪声;
将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果,并基于所述第一文字识别结果和预设的损失函数计算损失值,直至所述损失函数收敛,获得目标文字识别模型;
接收待识别数据单图片,将所述待识别数据单图片输入至目标文字识别模型中,获得第二文字识别结果。
进一步的,所述基于所述数据单图片生成初始单文字图层的步骤包括:
基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;
将所述文字图片转换为灰度图,并基于所述灰度图生成图片直方图;
基于预设的三角法获取所述图片直方图中的二值化阈值,并通过所述二值化阈值调整所述灰度图,获得文字二值化图片;
获取所述文字二值化图片中每个连通域的高和宽,并根据所述高和宽确定出当前连通域的相邻区域,将所述当前连通域和所述相邻区域作为待识别区域;
判断所述待识别区域中是否含除所述当前连通域以外的连通域,在所述待识别区域中不含有除所述当前连通域以外的连通域时,将所述待识别区域设定为孤立域;
去除所述孤立域,获得调整后的文字图层,并基于预先训练的单文字切分模型切分所述调整后的文字图层生成所述单文字图层。
进一步的,所述通过所述二值化阈值调整所述灰度图,获得文字二值化图片的步骤包括:
对比所述灰度图中每个像素的灰度值是否超过所述二值化阈值;
在所述灰度值超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第一灰度值;
在所述灰度值未超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第二灰度值;
当完成对所述灰度图中所有像素的调整后,获得所述文字二值化图片。
进一步的,所述基于预先训练的文本切分模型,切分所述数据单图片中的文字,获得行文字图片的步骤包括:
基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;
将所述初始文字图片等比例缩放至预设的尺寸,获得所述行文字图片。
进一步的,所述基于所述文字图层和预设的背景图片生成训练样本的步骤包括:
基于所述数据单字符串中字符的顺序拼接对应所述目标单文字图层,获得拼接图层;
叠加所述拼接图层和所述预设的背景图片,获得叠加图片;
随机对所述叠加图片添加噪声,获得训练样本。
进一步的,所述初始文字识别模型包括多个不同维度的残差块,所述将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果的步骤包括:
将所述训练样本依次经过所述不同维度的残差块,融合第一维度残差块、第二维度的残差块、第三维度残差块和第四维度残差块所输出的特征,获得第一文字识别结果。
进一步的,所述标注所述单文字图层,生成目标单文字图层的步骤包括:
将所述单文字图层缩放至预设的尺寸,获得缩放后的单文字图层;
向用户终端输出请求标注文字的信号;
当接收到所述用户终端发送的目标标注的信号时,基于所述目标标注的信号生成所述目标单文字图层,其中,所述请求标注文字的信号与所述目标标注的信号相对应。
为了解决上述技术问题,本申请实施例还提供一种智能识别图片文字的装置,采用了如下所述的技术方案:
一种智能识别图片文字的装置,包括:
生成模块,用于接收多张数据单图片,基于所述数据单图片生成初始单文字图层,其中,不同的数据单图片之间的文字类型不同;
标注模块,用于标注所述初始单文字图层,生成目标单文字图层,并基于所述目标单文字图层生成单字体图片库;
提取模块,用于接收目标字符串,基于所述目标字符串提取所述单字体图片库中的目标单文字图层,基于所述目标单文字图层和预设的背景图片生成训练样本,其中,所述背景图片中包含噪声;
计算模块,用于将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果,并基于所述第一文字识别结果和预设的损失函数计算损失值,直至所述损失函数收敛,获得目标文字识别模型;以及
输入模块,用于接收待识别数据单图片,将所述待识别数据单图片输入至目标文字识别模型中,获得第二文字识别结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的智能识别图片文字的方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的智能识别图片文字的方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请通过数据单图片建立单字体图片库,并基于接收到的数据单字符串提取数据单字体图片库中的文字图层,实现能够通过单字体图片库中的文字图层和数据单字符串灵活生成不同的训练样本。无需准备大量的数据单图片作为训练样本,开发成本低,可行性高。通过预设的包含大量噪声的背景图片来生成训练样本,提升了目标文字识别模型对于存在大量干扰的图片的识别能力,有利于目标文字识别模型保持较高的识别准确率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的智能识别图片文字的方法的一个实施例的流程图;
图3是根据本申请的智能识别图片文字的装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:200、计算机设备;201、存储器;202、处理器;203、网络接口;300、智能识别图片文字的装置;301、生成模块;302、标注模块;303、提取模块;304、计算模块;305、输入模块。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的智能识别图片文字的方法一般由服务器/终端设备执行,相应地,智能识别图片文字的装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的智能识别图片文字的方法的一个实施例的流程图。所述的智能识别图片文字的方法,包括以下步骤:
S1:接收多张数据单图片,基于所述数据单图片生成初始单文字图层,其中,不同的数据单图片之间的文字类型不同。
在本实施例中,选取业务提供的多种文字类型清晰度较高的数据单图片。
在本实施例中,智能识别图片文字的方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收多张数据单图片。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
具体的,在步骤S1中,即所述基于所述数据单图片生成初始单文字图层的步骤包括:
基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;
将所述文字图片转换为灰度图,并基于所述灰度图生成图片直方图;
基于预设的三角法获取所述图片直方图中的二值化阈值,并通过所述二值化阈值调整所述灰度图,获得文字二值化图片;
获取所述文字二值化图片中每个连通域的高和宽,并根据所述高和宽确定出当前连通域的相邻区域,将所述当前连通域和所述相邻区域作为待识别区域;
判断所述待识别区域中是否含除所述当前连通域以外的连通域,在所述待识别区域中不含有除所述当前连通域以外的连通域时,将所述待识别区域设定为孤立域;
去除所述孤立域,获得调整后的文字图层,并基于预先训练的单文字切分模型切分所述调整后的文字图层生成所述单文字图层。
在本实施例中,根据每行文字进行切分,获文字图片,其中,行文字切分即对每行文字进行定位,就是对行文字进行检测,目前主流的文字检测模型有CTPN、EAST等,本申请采用AdvancedEAST对数据单图片的文本进行检测,相比EAST,AdvancedEAST对长文本检测效果有较大的提升。连通区域(Connected Component)一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域(Region,Blob)。本申请中的连通域可以为8邻接。可以直接调用目前常用的图像处理库(如OpenCV)来直接获取文字二值化图片中的所有连通域。不同的连通域的高和宽是不同的,比如代表文字连通域和代表噪声连通域是不同的,经过文字检测后的图片,一般文字连通域的h和w会比噪声大。获取到连通域的w和h,可以向外扩展8个区域,每个区域的宽都是w,高都是h。孤立域的定义思想是:一般文字的连通域基本都集中在一块,所以在检测文字连通域的周围几个区域的时候一般都包含其他文字的连通域,以至于文字的连通域不被当成噪声去除。而噪声连通域周围几个区域很可能不存在其他的连通域,会被去除掉。在所述待识别区域中含有除所述当前连通域以外的连通域时。不处理所述待识别区域。判断待识别区域中是否含有其他的连通域,在所述待识别区域中不含有除所述当前连通域以外的连通域时,确定该当前连通域为噪声,将所述待识别区域设定为孤立域,去除该孤立域,即实现噪声的去除。获取所述文字二值化图片中每个连通域的高h和宽w,根据所述高h和宽w确定出预设个数的相邻区域,作为待识别区域。其中,本申请中预设个数优先选择8,在实际应用过程中,可以根据实际需要设定预设个数的具体数值。在预设的个数为4个时,即选择该连通域的上下左右四个区域。在预设的个数为2个时,即选择该连通域的左右两个区域。三角法的具体步骤为:在直方图上从最高峰处bmax到最暗对应直方图bmin(p=0)%构造一条直线,从bmin处开始计算每个对应的直方图b到直线的垂直距离,直到bmax为止,其中最大距离对应的直方图位置的数值即为二值化阈值T。获得调整后的文字图层后,还需要切分文字,获得单文字图层。具体的切分方式可以是通过预先训练的单文字切分模型进行切分,也可以人工手动切分,在实际运用过程中,可以根据实际需要选择上述任意一种切分方式,适用即可。
其中,所述通过所述二值化阈值调整所述灰度图,获得文字二值化图片的步骤包括:
对比所述灰度图中每个像素的灰度值是否超过所述二值化阈值;
在所述灰度值超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第一灰度值;
在所述灰度值未超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第二灰度值;
当完成对所述灰度图中所有像素的调整后,获得所述文字二值化图片。
在本实施例中,本申请将第一灰度值设置为255,第二灰度值设置为0,将超过阈值的作为255,小于阈值的作为0。其中,0就是黑色,255为白色,文字连通域为文字区域,它是一组灰度值为255像素组成的集合,当需要提取文字时,只需要把二值化图片中255像素位置部分取出即可。
此外,所述基于预先训练的文本切分模型,切分所述数据单图片中的文字,获得行文字图片的步骤包括:
基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;
将所述初始文字图片等比例缩放至预设的尺寸,获得所述行文字图片。
在本实施例中,本申请的预设的尺寸为64×64像素,将图片等比例缩放为64×64像素,便于后续对行文字图片的进一步处理。
S2:标注所述初始单文字图层,生成目标单文字图层,并基于所述目标单文字图层生成单字体图片库。
在本实施例中,通过标注所述初始单文字图层,实现携带有标注的目标单文字图层,具体的标注内容为该初始单文字图层所对应的文字内容。便于后续通过目标字符串与标注的内容进行匹配,从而确定对应的目标单文字图层。将所有的目标单文字图层集合后,存储至预设的缓存或者数据库中,生成单字体图片库。
S3:接收目标字符串,基于所述目标字符串提取所述单字体图片库中的目标单文字图层,基于所述目标单文字图层和预设的背景图片生成训练样本,其中,所述背景图片中包含噪声。
在本实施例中,接收用户终端发送的目标字符串,目标字符串即为后续需要生成的训练样本的文字内容。根据目标字符串,确定目标字符串中字符,根据所述字符确定与所述字符相同的标注,将该标注所述对应的目标单文字图层,作为所述字符所对应的目标单文字图层。
具体的,所述基于所述文字图层和预设的背景图片生成训练样本的步骤包括:
基于所述数据单字符串中字符的顺序拼接对应所述目标单文字图层,获得拼接图层;
叠加所述拼接图层和所述预设的背景图片,获得叠加图片;
随机对所述叠加图片添加噪声,获得训练样本。
在本实施例中,根据数据单字符串中字符的顺序拼接目标单文字图层,获得拼接图层。选取业务场景中噪声偏多的背景图片与拼接图层进行叠加,随机对生成文字添加边框和横线等噪声,模拟真实场景中的数据单图片。其中,背景图片是指数据单中没有文字的区域,它是作为生成图片的背景图片,真实的数据单图片中,一般包含的噪声有边框横线,黑点,局部曝光等,在选取背景图的时候应该多选择包含以上噪声图片。相对于直接用原多种文字类型的保险单图片用作训练的方案来说,本申请无需海量的图片训练集,更加无需人工对海量图片的内容进行依次的标注,减少了人力的耗费,提升了计算机的处理速度。本申请可以根据需要自定义目标字符串,能够快速的生成需要的与目标字符串所对应的训练样本,只需要修改目标字符串,就可以快速生成大量的不同的训练样本。
S4:将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果,并基于所述第一文字识别结果和预设的损失函数计算损失值,直至所述损失函数收敛,获得目标文字识别模型。
在本实施例中,所述预设的损失函数为CTC(Connectionist TemporalClassification)损失函数,CTC损失函数能够解决模型输入和输出字符对齐问题。CTC损失函数(即CTC算法)通过在每个时间步中选择最可能的字符来计算最佳路径。首先删除重复的字符,然后从路径中删除所有空格,从而撤消编码。剩下的表示已识别的文本。
具体的,所述初始文字识别模型包括多个不同维度的残差块,所述将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果的步骤包括:
将所述训练样本依次经过所述不同维度的残差块,融合第一维度残差块、第二维度的残差块、第三维度残差块和第四维度残差块所输出的特征,获得第一文字识别结果。
在本实施例中,本申请的初始文字识别模型基于CRNN(卷积循环神经网络),其中,本申请对CRNN中的CNN(卷积神经网络)网络设为ResNet-18(Residual Network,残差网络),并进行改进,将ResNet-18四个残差块(Block)输出的特征进行融合,使模型在最终输出时具有不同分辨率的特征。传统的CRNN中,在ResNet-18结构之后会加入LSTM(长短期记忆模型)或其他RNN(循环神经)结构的网络,本申请无需加入RNN结构,而是直接通过初始文字识别模型对训练样本进行识别即可。
S5:接收待识别数据单图片,将所述待识别数据单图片输入至目标文字识别模型中,获得第二文字识别结果。
在本实施例中,将待识别数据单图片输入至目标文字识别模型中,即可快速获得识别出的文字内容。
本申请通过数据单图片建立单字体图片库,并基于接收到的数据单字符串提取数据单字体图片库中的文字图层,实现能够通过单字体图片库中的文字图层和数据单字符串灵活生成不同的训练样本。无需准备大量的数据单图片作为训练样本,开发成本低,可行性高。通过预设的包含大量噪声的背景图片来生成训练样本,提升了目标文字识别模型对于存在大量干扰的图片的识别能力,有利于目标文字识别模型保持较高的识别准确率。
需要强调的是,为进一步保证上述目标文字识别模型的私密和安全性,上述目标文字识别模型的还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可应用于智慧教育领域中,具体可以应用于智慧教育中的试卷文字识别从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种智能识别图片文字的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的智能识别图片文字的装置300包括:生成模块301、标注模块302、提取模块303、计算模块304和输入模块305。其中,生成模块,用于接收多张数据单图片,基于所述数据单图片生成初始单文字图层,其中,不同的数据单图片之间的文字类型不同;标注模块,用于标注所述初始单文字图层,生成目标单文字图层,并基于所述目标单文字图层生成单字体图片库;提取模块,用于接收目标字符串,基于所述目标字符串提取所述单字体图片库中的目标单文字图层,基于所述目标单文字图层和预设的背景图片生成训练样本,其中,所述背景图片中包含噪声;计算模块,用于将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果,并基于所述第一文字识别结果和预设的损失函数计算损失值,直至所述损失函数收敛,获得目标文字识别模型;以及输入模块,用于接收待识别数据单图片,将所述待识别数据单图片输入至目标文字识别模型中,获得第二文字识别结果。
在本实施例中,本申请通过数据单图片建立单字体图片库,并基于接收到的数据单字符串提取数据单字体图片库中的文字图层,实现能够通过单字体图片库中的文字图层和数据单字符串灵活生成不同的训练样本。无需准备大量的数据单图片作为训练样本,开发成本低,可行性高。通过预设的包含大量噪声的背景图片来生成训练样本,提升了目标文字识别模型对于存在大量干扰的图片的识别能力,有利于目标文字识别模型保持较高的识别准确率。
生成模块301包括切分子模块、转换子模块、调整子模块、确定子模块、设定子模块和去除子模块。其中,切分子模块,用于基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;转换子模块,用于将所述文字图片转换为灰度图,并基于所述灰度图生成图片直方图;调整子模块,用于基于预设的三角法获取所述图片直方图中的二值化阈值,并通过所述二值化阈值调整所述灰度图,获得文字二值化图片;确定子模块,用于获取所述文字二值化图片中每个连通域的高和宽,并根据所述高和宽确定出当前连通域的相邻区域,将所述当前连通域和所述相邻区域作为待识别区域;设定子模块,用于判断所述待识别区域中是否含除所述当前连通域以外的连通域,在所述待识别区域中不含有除所述当前连通域以外的连通域时,将所述待识别区域设定为孤立域;去除子模块,用于去除所述孤立域,获得调整后的文字图层,并基于预先训练的单文字切分模型切分所述调整后的文字图层生成所述单文字图层。
调整子模块包括对比单元、第一调整单元、第二调整单元和获得单元。其中,对比单元,用于对比所述灰度图中每个像素的灰度值是否超过所述二值化阈值;第一调整单元,用于在所述灰度值超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第一灰度值;第二调整单元,用于在所述灰度值未超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第二灰度值;获得单元。用于当完成对所述灰度图中所有像素的调整后,获得所述文字二值化图片。
切分模块包括切分子模块和缩放子模块,其中,切分子模块用于基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;缩放子模块,用于将所述初始文字图片等比例缩放至预设的尺寸,获得所述行文字图片。
提取模块303包括拼接子模块、叠加子模块和噪声添加子模块。其中,拼接子模块,用于基于所述数据单字符串中字符的顺序拼接对应所述目标单文字图层,获得拼接图层;叠加子模块,用于叠加所述拼接图层和所述预设的背景图片,获得叠加图片;噪声添加子模块,用于随机对所述叠加图片添加噪声,获得训练样本。
在本实施例的一些可选的实现方式中,上述输入模块305进一步用于:将所述训练样本依次经过所述不同维度的残差块,融合第一维度残差块、第二维度的残差块、第三维度残差块和第四维度残差块所输出的特征,获得第一文字识别结果。
本申请通过数据单图片建立单字体图片库,并基于接收到的数据单字符串提取数据单字体图片库中的文字图层,实现能够通过单字体图片库中的文字图层和数据单字符串灵活生成不同的训练样本。无需准备大量的数据单图片作为训练样本,开发成本低,可行性高。通过预设的包含大量噪声的背景图片来生成训练样本,提升了目标文字识别模型对于存在大量干扰的图片的识别能力,有利于目标文字识别模型保持较高的识别准确率。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如智能识别图片文字的方法的计算机可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述智能识别图片文字的方法的计算机可读指令。
所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
在本实施例中,无需准备大量的数据单图片作为训练样本,开发成本低,可行性高。有效提高模型的训练效率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的智能识别图片文字的方法的步骤。
在本实施例中,无需准备大量的数据单图片作为训练样本,开发成本低,可行性高。有效提高模型的训练效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种智能识别图片文字的方法,其特征在于,包括下述步骤:
接收多张数据单图片,基于所述数据单图片生成初始单文字图层,其中,不同的数据单图片之间的文字类型不同;
标注所述初始单文字图层,生成目标单文字图层,并基于所述目标单文字图层生成单字体图片库;
接收目标字符串,基于所述目标字符串提取所述单字体图片库中的目标单文字图层,基于所述目标单文字图层和预设的背景图片生成训练样本,其中,所述背景图片中包含噪声;
将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果,并基于所述第一文字识别结果和预设的损失函数计算损失值,直至所述损失函数收敛,获得目标文字识别模型;
接收待识别数据单图片,将所述待识别数据单图片输入至目标文字识别模型中,获得第二文字识别结果。
2.根据权利要求1所述的智能识别图片文字的方法,其特征在于,所述基于所述数据单图片生成初始单文字图层的步骤包括:
基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;
将所述文字图片转换为灰度图,并基于所述灰度图生成图片直方图;
基于预设的三角法获取所述图片直方图中的二值化阈值,并通过所述二值化阈值调整所述灰度图,获得文字二值化图片;
获取所述文字二值化图片中每个连通域的高和宽,并根据所述高和宽确定出当前连通域的相邻区域,将所述当前连通域和所述相邻区域作为待识别区域;
判断所述待识别区域中是否含除所述当前连通域以外的连通域,在所述待识别区域中不含有除所述当前连通域以外的连通域时,将所述待识别区域设定为孤立域;
去除所述孤立域,获得调整后的文字图层,并基于预先训练的单文字切分模型切分所述调整后的文字图层生成所述单文字图层。
3.根据权利要求2所述的智能识别图片文字的方法,其特征在于,所述通过所述二值化阈值调整所述灰度图,获得文字二值化图片的步骤包括:
对比所述灰度图中每个像素的灰度值是否超过所述二值化阈值;
在所述灰度值超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第一灰度值;
在所述灰度值未超过所述二值化阈值时,将对应的像素的灰度值调整为预设的第二灰度值;
当完成对所述灰度图中所有像素的调整后,获得所述文字二值化图片。
4.根据权利要求2所述的智能识别图片文字的方法,其特征在于,所述基于预先训练的文本切分模型,切分所述数据单图片中的文字,获得行文字图片的步骤包括:
基于预先训练的行文本切分模型,切分所述数据单图片中的文字,获得行文字图片;
将所述初始文字图片等比例缩放至预设的尺寸,获得所述行文字图片。
5.根据权利要求1所述的智能识别图片文字的方法,其特征在于,所述基于所述文字图层和预设的背景图片生成训练样本的步骤包括:
基于所述数据单字符串中字符的顺序拼接对应所述目标单文字图层,获得拼接图层;
叠加所述拼接图层和所述预设的背景图片,获得叠加图片;
随机对所述叠加图片添加噪声,获得训练样本。
6.根据权利要求1所述的智能识别图片文字的方法,其特征在于,所述初始文字识别模型包括多个不同维度的残差块,所述将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果的步骤包括:
将所述训练样本依次经过所述不同维度的残差块,融合第一维度残差块、第二维度的残差块、第三维度残差块和第四维度残差块所输出的特征,获得第一文字识别结果。
7.根据权利要求1所述的智能识别图片文字的方法,其特征在于,所述标注所述单文字图层,生成目标单文字图层的步骤包括:
将所述单文字图层缩放至预设的尺寸,获得缩放后的单文字图层;
向用户终端输出请求标注文字的信号;
当接收到所述用户终端发送的目标标注的信号时,基于所述目标标注的信号生成所述目标单文字图层,其中,所述请求标注文字的信号与所述目标标注的信号相对应。
8.一种智能识别图片文字的装置,其特征在于,包括:
生成模块,用于接收多张数据单图片,基于所述数据单图片生成初始单文字图层,其中,不同的数据单图片之间的文字类型不同;
标注模块,用于标注所述初始单文字图层,生成目标单文字图层,并基于所述目标单文字图层生成单字体图片库;
提取模块,用于接收目标字符串,基于所述目标字符串提取所述单字体图片库中的目标单文字图层,基于所述目标单文字图层和预设的背景图片生成训练样本,其中,所述背景图片中包含噪声;
计算模块,用于将所述训练样本输入至预设的初始文字识别模型中,获得第一文字识别结果,并基于所述第一文字识别结果和预设的损失函数计算损失值,直至所述损失函数收敛,获得目标文字识别模型;以及
输入模块,用于接收待识别数据单图片,将所述待识别数据单图片输入至目标文字识别模型中,获得第二文字识别结果。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的智能识别图片文字的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的智能识别图片文字的方法的步骤。
CN202011590830.6A 2020-12-29 2020-12-29 智能识别图片文字的方法、装置、计算机设备及存储介质 Pending CN112686243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011590830.6A CN112686243A (zh) 2020-12-29 2020-12-29 智能识别图片文字的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011590830.6A CN112686243A (zh) 2020-12-29 2020-12-29 智能识别图片文字的方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112686243A true CN112686243A (zh) 2021-04-20

Family

ID=75453779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011590830.6A Pending CN112686243A (zh) 2020-12-29 2020-12-29 智能识别图片文字的方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112686243A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012265A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 针式打印字符图像生成方法、装置、计算机设备和介质
CN113205160A (zh) * 2021-07-05 2021-08-03 北京世纪好未来教育科技有限公司 模型训练、文本识别方法、装置、电子设备和介质
CN113627262A (zh) * 2021-07-13 2021-11-09 深圳力维智联技术有限公司 文字识别方法、装置及设备
CN116524529A (zh) * 2023-07-04 2023-08-01 青岛海信信息科技股份有限公司 一种基于图形嵌套关系的图层识别新方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968637A (zh) * 2012-12-20 2013-03-13 山东科技大学 一种复杂背景图像文字分割方法
CN104899571A (zh) * 2015-06-12 2015-09-09 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN108985324A (zh) * 2018-06-04 2018-12-11 平安科技(深圳)有限公司 手写字训练样本获取方法、装置、设备及介质
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN110163285A (zh) * 2019-05-23 2019-08-23 阳光保险集团股份有限公司 票证识别训练样本合成方法和计算机存储介质
CN110414519A (zh) * 2019-06-27 2019-11-05 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置
CN110942067A (zh) * 2019-11-29 2020-03-31 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN110956133A (zh) * 2019-11-29 2020-04-03 上海眼控科技股份有限公司 单字符文本归一化模型训练方法、文本识别方法及装置
CN110969154A (zh) * 2019-11-29 2020-04-07 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111428710A (zh) * 2020-03-16 2020-07-17 五邑大学 一种文件分类协作机器人及基于其的图像文字识别方法
CN111680753A (zh) * 2020-06-10 2020-09-18 创新奇智(上海)科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN112037077A (zh) * 2020-09-03 2020-12-04 平安健康保险股份有限公司 基于人工智能的印章识别方法、装置、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968637A (zh) * 2012-12-20 2013-03-13 山东科技大学 一种复杂背景图像文字分割方法
CN104899571A (zh) * 2015-06-12 2015-09-09 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN108985324A (zh) * 2018-06-04 2018-12-11 平安科技(深圳)有限公司 手写字训练样本获取方法、装置、设备及介质
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN110163285A (zh) * 2019-05-23 2019-08-23 阳光保险集团股份有限公司 票证识别训练样本合成方法和计算机存储介质
CN110414519A (zh) * 2019-06-27 2019-11-05 众安信息技术服务有限公司 一种图片文字的识别方法及其识别装置
CN110942067A (zh) * 2019-11-29 2020-03-31 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN110956133A (zh) * 2019-11-29 2020-04-03 上海眼控科技股份有限公司 单字符文本归一化模型训练方法、文本识别方法及装置
CN110969154A (zh) * 2019-11-29 2020-04-07 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111428710A (zh) * 2020-03-16 2020-07-17 五邑大学 一种文件分类协作机器人及基于其的图像文字识别方法
CN111680753A (zh) * 2020-06-10 2020-09-18 创新奇智(上海)科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN112037077A (zh) * 2020-09-03 2020-12-04 平安健康保险股份有限公司 基于人工智能的印章识别方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012265A (zh) * 2021-04-22 2021-06-22 中国平安人寿保险股份有限公司 针式打印字符图像生成方法、装置、计算机设备和介质
CN113012265B (zh) * 2021-04-22 2024-04-30 中国平安人寿保险股份有限公司 针式打印字符图像生成方法、装置、计算机设备和介质
CN113205160A (zh) * 2021-07-05 2021-08-03 北京世纪好未来教育科技有限公司 模型训练、文本识别方法、装置、电子设备和介质
CN113627262A (zh) * 2021-07-13 2021-11-09 深圳力维智联技术有限公司 文字识别方法、装置及设备
CN116524529A (zh) * 2023-07-04 2023-08-01 青岛海信信息科技股份有限公司 一种基于图形嵌套关系的图层识别新方法
CN116524529B (zh) * 2023-07-04 2023-10-27 青岛海信信息科技股份有限公司 一种基于图形嵌套关系的图层识别新方法

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
WO2023035531A1 (zh) 文本图像超分辨率重建方法及其相关设备
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN112749695A (zh) 文本识别的方法和装置
CN112330331A (zh) 基于人脸识别的身份验证方法、装置、设备及存储介质
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN113673519A (zh) 基于文字检测模型的文字识别方法及其相关设备
CN112651399B (zh) 检测倾斜图像中同行文字的方法及其相关设备
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN112434746B (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN112418206B (zh) 基于位置检测模型的图片分类方法及其相关设备
CN114022891A (zh) 扫描文本的关键信息提取方法、装置、设备及存储介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN112396060A (zh) 基于身份证分割模型的身份证识别方法及其相关设备
CN112419257A (zh) 文本录制视频清晰度检测方法、装置、计算机设备及存储介质
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN113011132B (zh) 竖排文字识别方法、装置、计算机设备和存储介质
CN115019321A (zh) 一种文本识别、模型训练方法、装置、设备及存储介质
CN115359468A (zh) 一种目标网站识别方法、装置、设备及介质
CN116266259A (zh) 图像文字结构化输出方法、装置、电子设备和存储介质
CN111291758B (zh) 用于识别印章文字的方法和装置
CN112395450A (zh) 图片文字检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination