CN112016560A - 覆盖文本识别方法、装置、电子设备及存储介质 - Google Patents

覆盖文本识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112016560A
CN112016560A CN202010880879.9A CN202010880879A CN112016560A CN 112016560 A CN112016560 A CN 112016560A CN 202010880879 A CN202010880879 A CN 202010880879A CN 112016560 A CN112016560 A CN 112016560A
Authority
CN
China
Prior art keywords
text
picture
detection
overlay
detection result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010880879.9A
Other languages
English (en)
Inventor
李膳君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010880879.9A priority Critical patent/CN112016560A/zh
Publication of CN112016560A publication Critical patent/CN112016560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明涉及人工智能,提供一种覆盖文本识别方法,包括:将目标文本的图片转换为预设格式图片,并对预设格式图片进行补零增强处理形成数据增强图片;预测数据增强图片中覆盖处和覆盖文本的候选区域,并通过非极大值抑制算法对候选区域进行提取以获取第一检测结果;将第一检测结果对应到目标文本的图片上提取出ROI,并将ROI送入预设的二级PSE文本检测网络中得出第二检测结果;利用第二检测结果对所述目标文本进行识别处理得出中间识别结果,并通过补正手段对中间识别结果进行补正处理以获得最终识别结果,从而增大覆盖文本区域的感受野,克服类似盖章的覆盖文本中文本重叠、文本字符较小不易识别的情况。

Description

覆盖文本识别方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能,涉及一种智能识别覆盖文本的方法,尤其涉及一种 覆盖文本识别方法、装置、电子设备及计算机可读存储介质。
背景技术
覆盖文本的识别在日常生活中极其常见,比如在现在诸多办公场景中,通 常将印章、卡章作为检验文本公正性的依据,为了避免文本造假,印章或卡章 等覆盖性标记通常将文档中的正常文本覆盖,因此当将印章、卡章的文本进行 上传或文本检测时通常并不能达到预期的文本识别效果,比如将盖了印章的 文件进行文字识别或转换为word文档时,被印章覆盖的部分文字通常不能被 准确识别。
现有的文本识别或数据录入系统一般由卷积神经网络搭建一个端对端检 测识别网络,通过该网络对整个文本(包括覆盖部分和非覆盖部分)直接进行 识别和检测,通常将印章覆盖部分与非覆盖部分一致化对待,因此对于覆盖部 分来讲,其文本存在和印章等覆盖部分重叠、或被覆盖部分文本字体较小、字 符间隔和正文文本不同等情况,使得该类文本中文字或字符检测识别结果较 差,甚至精度不足30%。
因此,亟需一种能够将覆盖区域(覆盖处和覆盖文本)的覆盖面和被覆盖 面剥离开来,从而提高覆盖区域的文字识别准确率的覆盖文本识别方法。
发明内容
本发明提供一种覆盖文本识别方法、装置、电子设备及计算机可读存储介 质,其主要目的在于提高了覆盖区域文字识别的准确率。
为实现上述目的,本发明提供的一种覆盖文本识别方法,包括:
将目标文本的图片转换为预设格式图片,并对所述预设格式图片进行补 零增强处理形成数据增强图片;
预测所述数据增强图片中覆盖处和覆盖文本的候选区域,并通过非极大 值抑制算法对所述候选区域进行提取以获取第一检测结果;
将所述第一检测结果对应到所述目标文本的图片上提取出ROI,并将所 述ROI送入预设的二级PSE文本检测网络中得出第二检测结果;
利用所述第二检测结果对所述目标文本进行识别处理得出中间识别结果, 并通过补正手段对所述中间识别结果进行补正处理以获得最终识别结果。
可选地,将目标文本的图片转换为预设格式图片的过程包括:
使用读入器读入所述目标文本的图片;
将所述目标文本的图片转换为预设格式图片;
所述预设格式为tensor格式。
可选地,对所述预设格式图片进行补零增强处理的过程包括:
将所述预设格式图片中的空余部分补零填充为以所述预设格式图片的最 长边为边长的正方形图片;
将所述正方形图片缩放到预设规格,再对达到预设规格的正方形图片进 行数据增强以形成数据增强图片。
可选地,预测所述数据增强图片中覆盖处和覆盖文本的候选区域的过程 包括:
搭建卷积层网络作为一级检测器;
采集检测器样本对所述一级检测器进行卷积层训练以形成检测器;
所述检测器对所述数据增强图片进行预测以得出覆盖处和覆盖文本的候 选区域。
可选地,所述非极大值抑制算法为:
获取所述候选区域的置信度,并对所有候选区域的置信度进行降序排序;
在所述排序中选出置信度最高的区域,判断所述置信度最高的区域是否 为正确预测,若为非正确预测,则重新选出置信度最高的区域并再次进行判断 直至为正确预测;若为正确预测,则计算所述置信度最高的区域与其他候选区 域的IOU;
将IOU大于设定阈值的候选区域删除,并将剩余的候选区域再次进行置 信度降序排序,再次去除IOU大于设定阈值的候选区域,以此类推,直至IOU 大于设定阈值的候选区域为零。
可选地,将所述ROI送入预设的二级PSE文本检测网络中得出第二检测 结果的过程,包括:
预设二级PSE文本检测网络;
将所述ROI输入所述二级PSE文本检测网络;
通过所述二级PSE文本检测网络将所述ROI转换为多个通道的通道特征 图,并将所述通道特征图按照不同比例收缩以形成不同比例收缩的通道特征 图,再通过渐进扩展算法将不同比例收缩的通道特征图合并得到检测框;
通过非极大值抑制算法对所述检测框进行非极大值抑制处理得出第二检 测结果。
可选地,预设二级PSE文本检测网络的过程包括:
以多通道处理层作为基础特征网络层,以数据层作为附加网络层形成残 差网络;
所述残差网络对采集的样本数据进行多通道处理形成包括多个通道的通 道特征图,并将按照不同比例收缩的通道特征图与所述数据层的数据进行对 照处理以进行残差学习,形成二级PSE文本检测网络。
为了解决上述问题,本发明还提供一种覆盖文本识别装置,所述装置包括:
数据增强模块,用于将目标文本的图片转换为预设格式图片,并对所述预 设格式图片进行补零增强处理形成数据增强图片;
第一检测模块,用于预测所述数据增强图片中覆盖处和覆盖文本的候选 区域,并通过非极大值抑制算法对所述候选区域进行提取以获取第一检测结 果;
第二检测模块,用于将所述第一检测结果对应到所述目标文本的图片上 提取出ROI,并将所述ROI送入预设的二级PSE文本检测网络中得出第二检 测结果;
文本识别模块,用于利用所述第二检测结果对所述目标文本进行识别处 理得出中间识别结果,并通过补正手段对所述中间识别结果进行补正处理以 获得最终识别结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的覆盖文本识别 方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机 可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处 理器执行以实现上述所述的覆盖文本识别方法。
本发明实施例通过对数据增强图片预测候选区域提取出第一检测结果, 即获取出覆盖区域的位置信息,再将第一检测结果对应到目标文本的图片上 提取出ROI,并将ROI送入预设的二级PSE文本检测网络中得出第二检测结 果,即对覆盖区域和文本进行智能识别从而获取被覆盖区域的文本信息,进而 利用第二检测结果对目标文本进行识别处理得出中间识别结果,并通过补正 手段对中间识别结果进行补正处理以获得最终识别结果,获取整个完整文本 的文本数据。
附图说明
图1为本发明一实施例提供的覆盖文本识别方法的流程示意图;
图2为本发明一实施例提供的覆盖文本识别装置的模块示意图;
图3为本发明一实施例提供的实现覆盖文本识别方法的电子设备的内部 结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说 明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定 本发明。
本发明提供一种覆盖文本识别方法。参照图1所示,为本发明一实施例 提供的覆盖文本识别方法的流程示意图。该方法可以由一个装置执行,该装置 可以由软件和/或硬件实现。
在本实施例中,覆盖文本识别方法包括:
S1:将目标文本的图片转换为预设格式图片,并对该预设格式图片进行补 零增强处理形成数据增强图片;
具体的,将目标文本的图片转换为预设格式图片的过程包括:
S11:使用读入器读入该目标文本的图片,该读入器不作具体限制,可以 为任意具有读入功能的文本、图片采集器,在本实施例中该读入器采用opencv 库;
S12:将该目标文本的图片转换为预设格式图片,具体的转换行径不做具 体限制,在本实施例中通过pytorch库将目标文本的图片转换为预设格式图片, 该预设格式在此不作具体限制,该预设格式可以为任意能够被预设的神经网 络所能处理的图片的格式,在本实施例中,该预设格式图片采用符合预设固定 格式的tensor格式图片,且可根据pytorch库提供的代码将目标文本直接转换 为tensor格式图片,其具体代码为:
def imshow(tensor,title=None):
image=tensor.cpu().clone()#we clone the tensor to not do changes onit
image=image.squeeze(0)#remove the fake batch dimension
image=unloader(image)
plt.imshow(image)
if title is not None:
plt.title(title)
plt.pause(0.001)#pause a bit so that plots are updated。
S13:对该预设格式图片进行补零增强;其中,
对预设格式图片进行补零增强处理的过程包括:
将该预设格式图片中的空余部分补零填充为以该预设格式图片的最长边 为边长的正方形图片;将该正方形图片缩放到预设规格,再对达到预设规格的 正方形图片进行数据增强以形成数据增强图片。
S2:预测该数据增强图片中覆盖处(比如印章和手印处)和覆盖文本(被 印章或手印覆盖的文本)的候选区域,并通过非极大值抑制算法对该候选区域 进行提取以获取第一检测结果包括:
S21:预测该数据增强图片中覆盖处(比如印章和手印处)和覆盖文本(被 印章或手印覆盖的文本)的候选区域;
S22:通过非极大值抑制算法对该候选区域进行提取以获取第一检测结果;
具体的,在S21中,预测数据增强图片中覆盖处和覆盖文本的候选区域 的过程包括:
S211:搭建卷积层网络作为一级检测器;
S212:采集检测器样本对所述一级检测器进行卷积层训练以形成检测器;
S213:所述检测器对所述数据增强图片进行预测以得出覆盖处和覆盖文 本的候选区域。
在步骤S211中,搭建卷积层网络作为一级检测器的具体搭建方式不做具 体限制,在本实施例中利用开源框架进行搭建,且在本实施例中,该开源框架 采用Darknet框架,该卷积层网络采用yolo v3网络,即利用该Darknet框架 搭建yolo v3网络作为一级检测器,而后通过采集检测器样本对该卷积层网络 进行反复训练已形成检测器,该检测器对数据增强图片进行预测以得出覆盖 处和覆盖文本的候选区域比如,若文本被印章覆盖,则通过该一级检测器对数 据增强图片进行预测即可得出被印章覆盖的文本的候选区域。
其中,在本发明的一个具体实施例中,利用该Darknet框架搭建yolo v3 网络的过程包括:
获取并运行标注工具,在该标注工具中标注图片、编辑文本,并将该文本 保存为xml格式的文本;
拉取Darknet,在该Darknet中修改配置文件以形成所需的Darknet框架, 将该xml格式的文本和标注的图片输入至该Darknet框架的相应目录中,并运 行相应目录的脚本以生成训练数据;
下载yolo v3预训练模型,并修改Darknet框架下的voc.data文件和yolov3-voc.cfg文件,而后采用训练数据训练该yolo v3预训练模型形成yolo v3训练 模型;
对该yolo v3训练模型进行测试,若测试达标则形成yolo v3网络,若测 试不达标则修改训练权重以重新训练,直至形成与预设参数一致的yolo v3网 络。
在步骤S22中,通过非极大值抑制算法对候选区域进行提取以获取第一 检测结果的过程中,该非极大值抑制算法为:
S221:获取候选区域的置信度,并对所有候选区域的置信度进行降序排 序;其中,所述置信度由置信函数获取,该置信函数为提前预设的函数,在该 置信函数中设置有置信度计算规则和计算参数;
S222:在该排序中选出置信度最高的区域,判断该置信度最高的区域是否 为正确预测,若为非正确预测,则重新选出置信度最高的区域并再次进行判断 直至为正确预测;若为正确预测,则计算该置信度最高的区域与其他候选区域 的IOU(intersect overunion,目标预测框和真实框的交集和并集的比例);其 中,
Figure BDA0002654084820000071
area(A)表示A框的面积,area(B)表示B框的面积, ∩为交集数学符号,∪为并集数学符号,在本实施例中A框、B框分别为该置 信度最高的区域与其他候选区域的预测框和真实框,该预测框和真实框的具 体选定方式为根据预设规则自适应生成在此不作赘述;
S223:将IOU大于设定阈值的候选区域删除,并将剩余的候选区域再次 进行置信度降序排序,再次去除IOU大于设定阈值的候选区域,以此类推, 直至IOU大于设定阈值的候选区域为零,即直至不存在IOU大于设定阈值的 候选区域,而被挑选出的IOU非大于设定阈值的候选区域即为第一检测结果, 该第一检测结果包括覆盖区域和文本的检测结果,即覆盖区域及文本的坐标 信息,比如在印章文本中,印章处及被印章覆盖的文本的坐标信息,从而锁定 到智能识别的区域,进而判断出被覆盖区域的文字,实现人工智能图像识别;其中,该设定阈值为提前预设的数值,其具体数值不做具体限制。
S3:将该第一检测结果对应到该目标文本的图片上提取出ROI,并将该 ROI送入预设的二级PSE文本检测网络中得出第二检测结果,实现人工智能 目标检测。
具体的,在将该第一检测结果对应到该目标文本的图片上提取出ROI的 过程中,该ROI(Region of Interest)为感兴趣区域,即目标文本中的覆盖区 域与文本区域,需要说明的是,其与第一检测结果的区别为,第一检测结果为 覆盖区域的坐标信息,而感兴趣区域为该坐标信息中的主题内容。
将该ROI送入预设的二级PSE文本检测网络中得出第二检测结果的过程, 包括:
S31:预设二级PSE文本检测网络;
S32:将该ROI输入该二级PSE文本检测网络;
S33:通过该二级PSE文本检测网络将该ROI转换为多个通道的通道特 征图,并将该通道特征图按照不同比例收缩以形成不同比例收缩的通道特征 图,再通过渐进扩展算法将不同比例收缩的通道特征图合并得到检测框;
S34:通过非极大值抑制算法对该检测框进行非极大值抑制处理得出第二 检测结果;其中,该第二检测结果至少包括被覆盖区域覆盖的文字。其中,
预设二级PSE文本检测网络的过程包括:
以多通道处理层作为基础特征网络层,以数据层作为附加网络层形成残差网 络;该残差网络对采集的样本数据进行多通道处理形成包括多个通道的通道 特征图,并将按照不同比例收缩的通道特征图与该数据层的数据进行对照处 理以进行残差学习,形成二级PSE文本检测网络;其中,该多通道处理层的 具体网络层不做具体限制,在本实施例中采用ResNet50+FPN网络的形式作为 基础特征部分;在将按照不同比例收缩的通道特征图与该数据层的数据进行 对照处理的过程中,通过渐进扩展算法依次形成不同比例收缩的通道特征图, 具体的,该渐进扩展算法为:将较小的通道特征图(即样本文本图收缩程度较大)逐步向较大的通道特征图(即样本文本图收缩程度较小)膨胀,直到膨胀至 最大的通道特征图(即输入的样本文本图的大小)为止,并输出所有的通道特 征图;其中,该第二检测结果为覆盖区域中被覆盖的文本信息,比如印章覆盖 的日期、落款、签名等。
S4:利用该第二检测结果对该目标文本进行识别处理得出中间识别结果, 并通过补正手段对该中间识别结果进行补正处理以获得最终识别结果。
具体的,首先利用该第二检测结果通过SAR网络对该目标文本进行识别 处理得出识别结果的过程为:首先将第二检测结果的位置进行锁定,获得第二 检测结果的位置坐标;然后根据该位置坐标选取第二ROI,并将该第二ROI 送入识别网络中,以识别出具体的文字;构建位置坐标与第二ROI提取到的 具体的文字之间的映射,根据映射抠取出在原图上的文字信息,再将抠取出来 的文字信息送入SAR网络识别模块,然后通过正则和其他补正手段等处理方 法对文字信息进行矫正和补正,以得到最终的识别结果。
上述覆盖文本识别方法通过级联检测的方法,增大了覆盖区域的感受野, 一定程度上克服了覆盖文本中文本重叠、文本字符较小的情况,实现端对端的 检测,使检测精度至少提升至70%,提高了文字识别的整体检测精度,减少了 后期人工核对的频率。
如图2所示,本发明提供一种覆盖文本识别装置100,本发明可以安装于 电子设备中。根据实现的功能,该覆盖文本识别装置100可以包括数据增强 模块101、第一检测模块102、第二检测模块103、文本识别模块104。本发明 所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能 够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
数据增强模块101,用于将目标文本的图片转换为预设格式图片,并对该 预设格式图片进行补零增强处理形成数据增强图片;
第一检测模块102,用于预测该数据增强图片中覆盖处和覆盖文本的候选 区域,并通过非极大值抑制算法对该候选区域进行提取以获取第一检测结果;
第二检测模块103,用于将该第一检测结果对应到该目标文本的图片上提 取出ROI,并将该ROI送入预设的二级PSE文本检测网络中得出第二检测结 果;
文本识别模块104,用于利用该第二检测结果对该目标文本进行识别处理 得出中间识别结果,并通过补正手段对该中间识别结果进行补正处理以获得 最终识别结果。
如图3所示,本发明提供一种实现覆盖文本识别方法的电子设备1。
该电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在 所述存储器11中并可在所述处理器10上运行的计算机程序,如覆盖文本识 别12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储 介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器 等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电 子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在 另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配 备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器 11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储 器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如覆盖 文本识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数 据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封 装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路 所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微 处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10 是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电 子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块 (例如覆盖文本识别程序等),以及调用存储在所述存储器11内的数据,以 执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简 称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述 总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3 示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更 多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源 (比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10 逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等 功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源 故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电 子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口 可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于 在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器 (Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以 是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED 显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏 或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用 户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的 限制。
所述电子设备1中的所述存储器11存储的覆盖文本识别程序12是多个 指令的组合,在所述处理器10中运行时,可以实现:
将目标文本的图片转换为预设格式图片,并对所述预设格式图片进行补 零增强处理形成数据增强图片;
利用开源框架预测该数据增强图片中覆盖处和覆盖文本的候选区域,并 通过非极大值抑制算法对该候选区域进行提取以获取第一检测结果;
将该第一检测结果对应到该目标文本的图片上提取出ROI,并将该ROI 送入预设的二级PSE文本检测网络中得出第二检测结果;
利用该第二检测结果对该目标文本进行识别处理得出中间识别结果,并 通过补正手段对中间识别结果进行补正处理以获得最终识别结果。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施 例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述覆盖文 本识别的私密和安全性,上述覆盖文本识别数据还可以存储于区块链的节点 中。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式 实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介 质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实 体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存 储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方 法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性 的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另 外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作 为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或 者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者 全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功 能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实 现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制 性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权 利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利 要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法 等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化 的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含 了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。 区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权 利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件 来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽 管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理 解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案 的精神和范围。

Claims (10)

1.一种覆盖文本识别方法,其特征在于,所述方法包括:
将目标文本的图片转换为预设格式图片,并对所述预设格式图片进行补零增强处理形成数据增强图片;
预测所述数据增强图片中覆盖处和覆盖文本的候选区域,并通过非极大值抑制算法对所述候选区域进行提取以获取第一检测结果;
将所述第一检测结果对应到所述目标文本的图片上提取出ROI,并将所述ROI送入预设的二级PSE文本检测网络中得出第二检测结果;
利用所述第二检测结果对所述目标文本进行识别处理得出中间识别结果,并通过补正手段对所述中间识别结果进行补正处理以获得最终识别结果。
2.如权利要求1所述的覆盖文本识别方法,其特征在于,将目标文本的图片转换为预设格式图片的过程包括:
使用读入器读入所述目标文本的图片;
所述目标文本的图片转换为预设格式图片;
所述预设格式为tensor格式。
3.如权利要求1所述的覆盖文本识别方法,其特征在于,对所述预设格式图片进行补零增强处理的过程包括:
将所述预设格式图片中的空余部分补零填充为以所述预设格式图片的最长边为边长的正方形图片;
将所述正方形图片缩放到预设规格,再对达到预设规格的正方形图片进行数据增强以形成数据增强图片。
4.如权利要求1所述的覆盖文本识别方法,其特征在于,预测所述数据增强图片中覆盖处和覆盖文本的候选区域的过程包括:
搭建卷积层网络作为一级检测器;
采集检测器样本对所述一级检测器进行卷积层训练以形成检测器;
所述检测器对所述数据增强图片进行预测以得出覆盖处和覆盖文本的候选区域。
5.如权利要求1所述的覆盖文本识别方法,其特征在于,所述非极大值抑制算法为:
获取所述候选区域的置信度,并对所有候选区域的置信度进行降序排序;
在所述排序中选出置信度最高的区域,判断所述置信度最高的区域是否为正确预测,若为非正确预测,则重新选出置信度最高的区域并再次进行判断直至为正确预测;若为正确预测,则计算所述置信度最高的区域与其他候选区域的IOU;
将IOU大于设定阈值的候选区域删除,并将剩余的候选区域再次进行置信度降序排序,再次去除IOU大于设定阈值的候选区域,以此类推,直至IOU大于设定阈值的候选区域为零。
6.如权利要求1所述的覆盖文本识别方法,其特征在于,将所述ROI送入预设的二级PSE文本检测网络中得出第二检测结果的过程,包括:
预设二级PSE文本检测网络;
将所述ROI输入所述二级PSE文本检测网络;
通过所述二级PSE文本检测网络将所述ROI转换为多个通道的通道特征图,并将所述通道特征图按照不同比例收缩以形成不同比例收缩的通道特征图,再通过渐进扩展算法将不同比例收缩的通道特征图合并得到检测框;
通过非极大值抑制算法对所述检测框进行非极大值抑制处理得出第二检测结果。
7.如权利要求6所述的覆盖文本识别方法,其特征在于,预设二级PSE文本检测网络的过程包括:
以多通道处理层作为基础特征网络层,以数据层作为附加网络层形成残差网络;
所述残差网络对采集的样本数据进行多通道处理形成包括多个通道的通道特征图,并将按照不同比例收缩的通道特征图与所述数据层的数据进行对照处理以进行残差学习,形成二级PSE文本检测网络。
8.一种覆盖文本识别装置,其特征在于,所述装置包括:
数据增强模块,用于将目标文本的图片转换为预设格式图片,并对所述预设格式图片进行补零增强处理形成数据增强图片;
第一检测模块,用于预测所述数据增强图片中覆盖处和覆盖文本的候选区域,并通过非极大值抑制算法对所述候选区域进行提取以获取第一检测结果;
第二检测模块,用于将所述第一检测结果对应到所述目标文本的图片上提取出ROI,并将所述ROI送入预设的二级PSE文本检测网络中得出第二检测结果;
文本识别模块,用于利用所述第二检测结果对所述目标文本进行识别处理得出中间识别结果,并通过补正手段对所述中间识别结果进行补正处理以获得最终识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一所述的覆盖文本识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的覆盖文本识别方法。
CN202010880879.9A 2020-08-27 2020-08-27 覆盖文本识别方法、装置、电子设备及存储介质 Pending CN112016560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010880879.9A CN112016560A (zh) 2020-08-27 2020-08-27 覆盖文本识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010880879.9A CN112016560A (zh) 2020-08-27 2020-08-27 覆盖文本识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112016560A true CN112016560A (zh) 2020-12-01

Family

ID=73502690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010880879.9A Pending CN112016560A (zh) 2020-08-27 2020-08-27 覆盖文本识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112016560A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065868A (zh) * 2021-11-24 2022-02-18 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN114419641A (zh) * 2022-03-15 2022-04-29 腾讯科技(深圳)有限公司 文本分离模型的训练方法、装置、电子设备和存储介质
CN114663671A (zh) * 2022-02-21 2022-06-24 佳都科技集团股份有限公司 一种目标检测方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065868A (zh) * 2021-11-24 2022-02-18 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN114065868B (zh) * 2021-11-24 2022-09-02 马上消费金融股份有限公司 文本检测模型的训练方法、文本检测方法及装置
CN114663671A (zh) * 2022-02-21 2022-06-24 佳都科技集团股份有限公司 一种目标检测方法、装置、设备及存储介质
CN114419641A (zh) * 2022-03-15 2022-04-29 腾讯科技(深圳)有限公司 文本分离模型的训练方法、装置、电子设备和存储介质
CN114419641B (zh) * 2022-03-15 2022-06-21 腾讯科技(深圳)有限公司 文本分离模型的训练方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112016560A (zh) 覆盖文本识别方法、装置、电子设备及存储介质
CN111695439A (zh) 图像结构化数据提取方法、电子装置及存储介质
WO2022247005A1 (zh) 图像中目标物识别方法、装置、电子设备及存储介质
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN111639704A (zh) 目标识别方法、装置及计算机可读存储介质
CN112132216B (zh) 车型识别方法、装置、电子设备及存储介质
CN111476760B (zh) 医学图像的生成方法、装置、电子设备及介质
CN115471775A (zh) 基于录屏视频的信息验证方法、装置、设备及存储介质
CN113822847A (zh) 基于人工智能的图像评分方法、装置、设备及存储介质
CN113505780A (zh) 一种基于二维码的智能检测维保的方法和设备
CN113065607A (zh) 图像检测方法、装置、电子设备及介质
CN115690615B (zh) 一种面向视频流的深度学习目标识别方法及系统
CN115049836B (zh) 图像分割方法、装置、设备及存储介质
CN112580505B (zh) 网点开关门状态识别方法、装置、电子设备及存储介质
CN113419951B (zh) 人工智能模型优化方法、装置、电子设备及存储介质
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN113705559B (zh) 基于人工智能的文字识别方法及装置、电子设备
CN116912872A (zh) 图纸识别方法、装置、设备及可读存储介质
CN112861649B (zh) 指纹签名生成方法、装置、电子设备及计算机存储介质
CN112233194B (zh) 医学图片优化方法、装置、设备及计算机可读存储介质
CN113971627B (zh) 一种车牌图片生成方法及装置
CN113822215A (zh) 设备操作指引文件生成方法、装置、电子设备及存储介质
CN113705749A (zh) 基于深度学习的二维码识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination