CN112364863A - 证照文档的文字定位方法及系统 - Google Patents

证照文档的文字定位方法及系统 Download PDF

Info

Publication number
CN112364863A
CN112364863A CN202011127259.4A CN202011127259A CN112364863A CN 112364863 A CN112364863 A CN 112364863A CN 202011127259 A CN202011127259 A CN 202011127259A CN 112364863 A CN112364863 A CN 112364863A
Authority
CN
China
Prior art keywords
feature map
coordinate
module
image
carrying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011127259.4A
Other languages
English (en)
Other versions
CN112364863B (zh
Inventor
王元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202011127259.4A priority Critical patent/CN112364863B/zh
Publication of CN112364863A publication Critical patent/CN112364863A/zh
Priority to CA3135111A priority patent/CA3135111A1/en
Application granted granted Critical
Publication of CN112364863B publication Critical patent/CN112364863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种证照文档的文字定位方法及系统,所述方法包括:输入待测图片至深度学习模型后,输出经过拼接融合的特征图;对以不同索引标记的所述特征图进行图像差值运算得到特征图差值;对所述特征图差值进行二值化计算;根据二值化计算结果对图像进行连通域标记;遍历所有的连通域并转为定位坐标后输出坐标集合。本发明实现了证照文档文字的自动化识别,且定位精度高,并支持任意方向的文字检测。

Description

证照文档的文字定位方法及系统
技术领域
本发明涉及计算机图像处理和深度学习技术领域,具体地说,是一种证照文档的文字定位方法及系统。
背景技术
在金融业务中,经常会涉及到证照文档的审核和检验工作。例如,在企业向金融机构申请贷款时,需提供企业营业执照,以原件,或复印件、扫描件等形式发给金融机构,金融机构的信贷审批人员针对其文字信息,核实企业证照的真实性、唯一性、合法性,并将信息准确的录入到金融机构的业务系统中,进行后续的风控管理流程。
在业界,这类证照审核和录入工作,有2种方式开展。一种是人工的方式,一种是机器自动化的方式。
人工方式是最常见的操作方式。一名业务员审核一个证照通常耗时为5分钟,且该工作属于高度重复性工作,易产生人为错误和操作风险。人工方式带来的另一个问题是随着业务量的上升,人力资源也随之上升,无法有效规模化,经济成本均无法实现边际递减。
另一种处理该类工作的方式是自动化方式,即利用计算机程序自动获取证照的电子版,然后通过图像处理、文字定位等计算机技术,自动定位文字所在位置、识别文字信息,并且自动提取其对应内容,审核并录入到金融机构的业务系统中,整个过程无人工参与。
其中,基于深度学习的文字定位系统,因为其鲁棒性和准确率的优势已成为主流技术,在目前的图像识别中应用越来越广泛,但是,目前的基于深度学习的证照文档识别系统,往往不能够精确定位到证照文件中的文字所在位置,尤其是针对不是规整方向排列的文字而言,其识别率不高,定位也不准确。
发明内容
本发明的目的是,提供一种证照文档的文字定位方法,以解决现有的证照文档识别系统对文字的定位精度不高的问题。
本发明采用的技术方案如下:
一种证照文档的文字定位方法,所述方法包括:
输入待测图片至深度学习模型后,输出经过拼接融合的特征图;
对以不同索引标记的所述特征图进行图像差值运算得到特征图差值;
对所述特征图差值进行二值化计算;
根据二值化计算结果对图像进行连通域标记;
遍历所有的连通域并转为定位坐标后输出坐标集合。
进一步地,将所述连通域转为所述定位坐标包括:
计算连通域集合内的每一个元素的面积与图像差值运算后的特征图的面积的相对值;
对相对值不大于预设阈值的元素进行抠图;
计算被抠出元素的外包络轮廓;
对被抠出的元素进行像素点缩放量化误差补偿,形成新的外包络轮廓;
对新的所述外包络轮廓坐标进行尺寸变换,将坐标值转换成输入的所述待测图片对应的坐标系;
计算最小旋转矩形的包络坐标并输出所述连通域中每一个元素的坐标。
进一步地,所述深度学习模块包括后端模型、中段模型及头部模型,输入的所述待测图片依次经过后端模型、中段模型的处理后进入所述头部模型,所述头部模型对进入的特征图按照3层1*1的卷积运算后,形成三类特征图,其中,对三类特征图分别加上标引,以第一索引值代表文字像素二分类的特征图,以第二索引值代表文字区域包络的特征图,以第三索引值代表二维高斯核分布的特征图。
进一步地,对从所述深度模型输出的特征图先进行切片处理,根据提取切片后图像的第一索引值和第二索引值,分布计算sigmoid函数,在信道维度上,计算出二者的差值,再将所述差值放大调整到先前图片缩放时的像素点大小,然后对特征图的像素点进行二值化计算。
进一步地,在对被抠出的元素进行像素点缩放误差补偿后,再进行外包络扩展计算,得到能够完全包络住文字边缘的所述新的外包络轮廓。
进一步地,根据二值化计算结果,进行8向连通域标记计算,得到连通域域集合,并将所有的连通域根据面积大小进行倒序排列。
进一步地,输入的所述待测图片进入深度学习模型前,先进行图片缩放和图片预处理。
本发明的另一方面,还提供了一种证照文档的文字定位系统,包括:
特征图融合模块,用于对经深度学习模型处理的特征图进行拼接融合;
图像差值运算模块,用于对以不同索引标记的所述特征图进行图像差值运算得到特征图差值;
二值化计算模块,对所述特征图差值进行二值化计算;
连通域标记模块,根据二值化计算结果对图像进行连通域标记;
定位坐标转换模块,遍历所有的连通域并转为定位坐标后输出坐标集合。
进一步地,所述定位坐标转换模块包括:
抠图模块,对相对值不大于预设阈值的元素进行抠图;
外包络轮廓计算模块,用于计算被抠出元素的外包络轮廓;
误差补偿模块,对被抠出的元素进行像素点缩放误差补偿,形成新的外包络轮廓;
尺寸变换模块,对新的所述外包络轮廓坐标进行尺寸变换,将坐标值转换成输入的所述待测图片对应的坐标系;
连通域坐标计算模块,用于计算最小旋转矩形的包络坐标并输出所述连通域中每一个元素的坐标。
与现有技术相比,本发明所公开的一种证照文档的文字定位方法及系统,通过融合的特征图输出、计算特征图差值、图片缩放量误差补偿、文字外包络扩展、取最小矩形包络,实现了证照文档的自动化文字定位,且支持任意方向的文字检测和识别,并提高了定位精度。
附图说明
图1为本发明实施例中的证照文档的文字定位方法的流程示意图。
图2为本发明实施例中的特征图后处理的流程图。
图3为本发明实施例中的深度学习模型的结构图。
图4为本发明实施例中的证照文档的文字定位系统的架构图。
图5为本发明实施例中的定位坐标转换模块的架构图。
具体实施方式
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
参照图1~图3所示,本发明实施例公开了一种证照文档的文字定位方法,该方法包括:
步骤S1、将待测图片img0进行缩放处理,缩放为2的N次方倍,优选为32倍,计算待测图片img0的缩放比例scale;
步骤S2、输入缩放后的图片,得到图片img_scaled;
步骤S3、对输入的图片进行图像预处理,其中,预处理包括:边缘检测、旋转摆正;质量评估;颜色处理;平滑处理等。在进入模型前对输入的图片进行预处理,主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图像分割、匹配和识别的可靠性。
步骤S4、将预处理完毕的图像输入事先训练好的深度学习模型,模型输出经过拼接融合的特征图。
参照图3所示,本实施例中的深度学习模型采用3端结构,即后端模型(Backbone),中段模型(Neck)和头部模型(Head)。输入的经过预处理的图片依次经过后端模型、中段模型和头部模型后输出相应的特征图。
其中,后端模型采用预训练的图像分类模型,主要用于对图像特征的提取,采用的模型结构可以为VGG或ResNet结构,图像语义的分割采用Fully Convolutional Network(FCN)网络框架。由于用到了CNN(卷积神经网络),所以最后提取的特征的尺度是变小的,具体为长宽均变小、信道变多。为了让CNN提取出来的尺度能到原图大小,FCN网络利用上采样和反卷积到原图像大小;然后做像素级的分类,输入原图,经过VGG16网络,得到特征map,然后将特征map上采样回去;再将预测结果和ground truth每个像素一一对应分类,做像素级别分类,也就是说将分割问题变成分类问题,便于深度学习。
中段模型采用深度学习分割网络UNet,UNet包括两部分,第一部分,特征提取,每经过一个池化层就形成一个尺度,具备多尺度;第二部分,上采样,每上采样一次,就和特征提取部分对应的通道数相同尺度融合,此处的融合也即拼接。由于分割的时候不可能将原图大小输入网络,所以需要切成一张一张的小patch,在切图时需要包含周围区域,并为分割区域边缘部分提供纹理等信息。
头部模型,使用32层3x3卷积层,3层1x1卷积层,索引0代表文字像素2分类特征图,索引1代表文字区域包络的特征图,索引2代表2D高斯核分布的特征图,输出特征图为以上3层1x1卷积层的经过拼接融合的三信道的特征图。采用该头部模型结构,能提升模型的学习能力,并为后续像素级的文字检测提供检测基础。
经过检测模型的三段推理之后,将进入下述步骤的特征图后处理流程。
步骤S5、对从深度学习模型输出的特征图进行切片处理,由于先前三信道的特征图被索引标记,分别提取索引0和索引1,针对特征图的索引0,计算sigmoid函数,得到f_map_0;针对特征图的索引1,计算sigmoid函数,得到f_map_1,在信道维度上,计算f_map_1–f_map_0,得到差值diff;
步骤S6、针对差值diff值,进行图像差值计算,将diff维度差值到img_scaled的大小,也就是对图片的像素点进行放大,形成调整后的图像diff_scaled。
步骤S7、针对diff_scaled,进行二值化运算,阈值可以人工预设,也可以使用自适应阈值设置,大于阈值的像素点设为1,反之设为0。经过图像的二值化处理后,将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果。
步骤S8、进行8向(8-connectivity)连通域标记计算,如果像素x在其上、下、左、右、左上、右上、左下、右下这8个方向上存在一样的像素y,即认为x像素和y像素是连通的。这样,会将图像分成多个多边形区域,这些多边形区域的形状可以相同或不同,面积大小可以相同或不同,最后得到连通域区域集合region_list。
步骤S9、将region_list里头所有元素的区域按照面积大小倒排,面积最大的区域排第一,面积最小的排最后;这样,后续进程将异步化优先处理面积最大区域的坐标,减少系统等待时间,提高效率。
步骤S10、针对连通域区域集合region_list中的每一个元素,进行连通域转定位坐标的处理和计算,其中,该步骤具体包括如下:
步骤S101、计算每一个区域元素与diff_scaled的相对面积值;
步骤S102、忽略相对面积大于预设阈值的元素;
步骤S103、对于相对面积小于或等于预设阈值的元素,对其进行抠图,得到抠图cut_img;
步骤S104、计算抠出的图cut_img的外包络轮廓convex_hull;
步骤S105、图片缩放误差补偿;由于在实际图像处理中,像素点的位置会出现偏差,而如果不经过扩展计算直接进入到后面的坐标转换放大,则误差会放大,在本步骤中,先进行图片缩放的误差补偿,使得每个像素点坐标位置更贴近实际的像素点位置,即使后续进行坐标扩展或尺寸放大,也保证了每一个像素点位置的精确性。
步骤S106、进行外包络扩展计算,得到文字位置包络坐标。通过外包络扩展计算,将外包络轮廓向外扩展,尽量能够包裹住全部的文字。
步骤S107、对文字包络坐标进行尺寸变换,将坐标值转换成img0对应坐标系;由于待测图片进入深度学习模型前,图片进行过缩放,长宽比例会缩小,此步骤将还原成原来的尺寸大小。
步骤S108、计算得到最小旋转矩形包络坐标,该坐标作为该连通域所代表的文字区域集合的最终输出坐标;由于先前的文字包络为多边形,为了方便后续计算机识别处理,计算出最小矩形包络坐标,根据不同的外包络轮廓,其可以是不同角度的矩形。
步骤S109、重复以上S101~S108的各步骤,直至每一个连通域集合内的所有元素的坐标均输出完毕。
步骤S11、去除空坐标,重新返回所有的代表文字位置的全部元素的坐标集合,完成文字位置坐标检测的全部流程。
步骤S12,文字坐标位置检测出来后,将分配给不同的进程去识别框内的所有文字。
与现有技术相比,本发明实施例所公开的一种证照文档的文字定位方法,通过融合的特征图输出、计算特征图差值、图片缩放量误差补偿、文字外包络扩展、取最小矩形包络,实现了证照文档的自动化文字定位,且支持任意方向的文字检测和识别,并提高了定位精度。
与上述实施例中的方法相对应地,配合参照图4、图5所示,本发明的另一实施例还提供了一种证照文档的文字定位系统,该系统包括:
特征图融合模块,用于对经深度学习模型处理的特征图进行拼接融合;
图像差值运算模块,用于对以不同索引标记的所述特征图进行图像差值运算得到特征图差值;
二值化计算模块,对所述特征图差值进行二值化计算;
连通域标记模块,根据二值化计算结果对图像进行连通域标记;
定位坐标转换模块,遍历所有的连通域并转为定位坐标后输出坐标集合。
其中,所述定位转换模块包括:
抠图模块,对相对值不大于预设阈值的元素进行抠图;
外包络轮廓计算模块,用于计算被抠出元素的外包络轮廓;
误差补偿模块,对被抠出的元素进行像素点缩放量化误差补偿,形成新的外包络轮廓;
尺寸变换模块,对新的所述外包络轮廓坐标进行尺寸变换,将坐标值转换成输入的所述待测图片对应的坐标系;
连通域坐标计算模块,用于计算最小旋转矩形的包络坐标并输出所述连通域中每一个元素的坐标。
本发明实施例所公开的证照文档的文字定位系统,通过特征图融合模块、图像差值运算模块、二值化计算模块、连通域标记模块、定位坐标转换模块的配合,实现了证照文档的文字定位和自动化识别,且提高了进度,并支持任意方向的文字。
上述各模块的具体执行步骤,已经在有关该方法的实施例中进行了详细说明。本实施例中未详尽之处,请参阅上述方法实施例。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种证照文档的文字定位方法,其特征在于,所述方法包括:
输入待测图片至深度学习模型后,输出经过拼接融合的特征图;
对以不同索引标记的所述特征图进行图像差值运算得到特征图差值;
对所述特征图差值进行二值化计算;
根据二值化计算结果对图像进行连通域标记;
遍历所有的连通域并转为定位坐标后输出坐标集合。
2.如权利要求1所述的文字定位方法,其特征在于,将所述连通域转为定位坐标包括:
计算连通域集合内的每一个元素的面积与图像差值运算后的特征图的面积的相对值;
对相对值不大于预设阈值的元素进行抠图;
计算被抠出元素的外包络轮廓;
对被抠出的元素进行像素点缩放误差补偿,形成新的外包络轮廓;
对新的所述外包络轮廓坐标进行尺寸变换,将坐标值转换成输入的所述待测图片对应的坐标系;
计算最小旋转矩形的包络坐标并输出所述连通域中每一个元素的坐标。
3.如权利要求1或2所述的文字定位方法,其特征在于,所述深度学习模块包括后端模型、中段模型及头部模型,输入的所述待测图片依次经过后端模型、中段模型的处理后进入所述头部模型,所述头部模型对进入的特征图按照3层1*1的卷积运算后,形成具有索引标记的三层特征图。
4.如权利要求3所述的文字定位方法,其特征在于,对从所述深度模型输出的特征图先进行切片处理,根据提取切片后图像的第一索引值和第二索引值,分布计算sigmoid函数,在信道维度上,计算出二者的差值,再将所述差值放大调整到先前图片缩放时的像素点大小,然后对特征图的像素点进行二值化计算。
5.如权利要求2所述的文字定位方法,其特征在于,在对被抠出的元素进行像素点缩放误差补偿后,再进行外包络扩展计算,得到能够完全包络住文字边缘的所述新的外包络轮廓。
6.如权利要求4所述的文字定位方法,其特征在于,根据二值化计算结果,进行8向连通域标记计算,得到连通域域集合,并将所有的连通域根据面积大小进行倒序排列。
7.如权利要求3所述的文字定位方法,其特征在于,输入的所述待测图片进入深度学习模型前,先进行图片缩放和图片预处理,其中,缩放为2的N次方倍。
8.如权利要求4所述的文字定位方法,其特征在于,所述第一索引值标记为文字像素二分类的特征图,所述第二索引值标记为文字区域包络的特征图。
9.一种证照文档的文字定位系统,其特征在于,所述系统包括:
特征图融合模块,用于对经深度学习模型处理的特征图进行拼接融合;
图像差值运算模块,用于对以不同索引标记的所述特征图进行图像差值运算得到特征图差值;
二值化计算模块,用于对所述特征图差值进行二值化计算;
连通域标记模块,根据二值化计算结果对图像进行连通域标记,形成由多个连通域组成的连通域集合;
定位坐标转换模块,用于遍历所有的连通域并转为定位坐标后输出坐标集合。
10.如权利要求9所述的文字定位系统,其特征在于,所述定位坐标转换模块包括:
抠图模块,对相对值不大于预设阈值的元素进行抠图;
外包络轮廓计算模块,用于计算被抠出元素的外包络轮廓;
误差补偿模块,对被抠出的元素进行像素点缩放误差补偿,形成新的外包络轮廓;
尺寸变换模块,对新的所述外包络轮廓坐标进行尺寸变换,将坐标值转换成输入的所述待测图片对应的坐标系;
连通域坐标计算模块,用于计算最小旋转矩形的包络坐标并输出连通域集合中每一个元素的坐标。
CN202011127259.4A 2020-10-20 2020-10-20 证照文档的文字定位方法及系统 Active CN112364863B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011127259.4A CN112364863B (zh) 2020-10-20 2020-10-20 证照文档的文字定位方法及系统
CA3135111A CA3135111A1 (en) 2020-10-20 2021-10-20 Character positioning method and system for certificate document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011127259.4A CN112364863B (zh) 2020-10-20 2020-10-20 证照文档的文字定位方法及系统

Publications (2)

Publication Number Publication Date
CN112364863A true CN112364863A (zh) 2021-02-12
CN112364863B CN112364863B (zh) 2022-10-28

Family

ID=74510931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011127259.4A Active CN112364863B (zh) 2020-10-20 2020-10-20 证照文档的文字定位方法及系统

Country Status (2)

Country Link
CN (1) CN112364863B (zh)
CA (1) CA3135111A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065561A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于精细字符分割的场景文本识别方法
CN114463376A (zh) * 2021-12-24 2022-05-10 北京达佳互联信息技术有限公司 视频文字跟踪方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110206268A1 (en) * 2010-02-23 2011-08-25 Bill Faulkner Optical waveform generation and use based on print characteristics for MICR data of paper documents
CN108596066A (zh) * 2018-04-13 2018-09-28 武汉大学 一种基于卷积神经网络的字符识别方法
CN110263610A (zh) * 2019-02-28 2019-09-20 重庆大学 一种基于深度学习的退化文档图像二值化方法及系统
CN111563505A (zh) * 2019-02-14 2020-08-21 北京奇虎科技有限公司 一种基于像素分割合并的文字检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110206268A1 (en) * 2010-02-23 2011-08-25 Bill Faulkner Optical waveform generation and use based on print characteristics for MICR data of paper documents
CN108596066A (zh) * 2018-04-13 2018-09-28 武汉大学 一种基于卷积神经网络的字符识别方法
CN111563505A (zh) * 2019-02-14 2020-08-21 北京奇虎科技有限公司 一种基于像素分割合并的文字检测方法及装置
CN110263610A (zh) * 2019-02-28 2019-09-20 重庆大学 一种基于深度学习的退化文档图像二值化方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065561A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于精细字符分割的场景文本识别方法
CN114463376A (zh) * 2021-12-24 2022-05-10 北京达佳互联信息技术有限公司 视频文字跟踪方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CA3135111A1 (en) 2022-04-20
CN112364863B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN110659574B (zh) 文档图像勾选框状态识别后输出文本行内容的方法及系统
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN105528614B (zh) 一种漫画图像版面的识别方法和自动识别系统
CN114529459B (zh) 一种对图像边缘进行增强处理的方法和系统及介质
RU2621601C1 (ru) Устранение искривлений изображения документа
CN112364863B (zh) 证照文档的文字定位方法及系统
CN113158895B (zh) 票据识别方法、装置、电子设备及存储介质
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN114648756B (zh) 一种基于指向向量的书本文字识别指读方法和系统
CN112052845A (zh) 图像识别方法、装置、设备及存储介质
CN111680690A (zh) 一种文字识别方法及装置
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
CN110956088A (zh) 基于深度学习的交叠文本行定位分割方法及系统
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN114005127A (zh) 一种基于深度学习的图像光学文字识别方法,存储装置及服务器
CN113033559A (zh) 一种基于目标检测的文本检测方法及装置、存储介质
CN110991440B (zh) 一种像素驱动的手机操作界面文本检测方法
CN112418210B (zh) 一种杆塔巡检信息智能分类方法
CN112507914A (zh) 一种基于存折、票据字符ocr识别方法和识别系统
CN116363655A (zh) 一种财务票据识别方法及系统
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN115100663A (zh) 文档图像中文字高度的分布情况估计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant