CN107862303B - 表格类图像的信息识别方法、电子装置及可读存储介质 - Google Patents

表格类图像的信息识别方法、电子装置及可读存储介质 Download PDF

Info

Publication number
CN107862303B
CN107862303B CN201711240787.9A CN201711240787A CN107862303B CN 107862303 B CN107862303 B CN 107862303B CN 201711240787 A CN201711240787 A CN 201711240787A CN 107862303 B CN107862303 B CN 107862303B
Authority
CN
China
Prior art keywords
class diagram
callout box
diagram picture
row
form class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711240787.9A
Other languages
English (en)
Other versions
CN107862303A (zh
Inventor
王健宗
王威
刘鹏
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201711240787.9A priority Critical patent/CN107862303B/zh
Priority to PCT/CN2018/076163 priority patent/WO2019104879A1/zh
Publication of CN107862303A publication Critical patent/CN107862303A/zh
Application granted granted Critical
Publication of CN107862303B publication Critical patent/CN107862303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种表格类图像的信息识别方法、电子装置及可读存储介质,该方法包括:识别待处理的表格类图像的表格类别,确定与表格类图像的表格类别对应的第一标准模板及第二标准模板;利用预先确定的校正规则对表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,将检测出的文本行与第一标准模板中的文本行位置进行比对,确定第一标准模板到角度校正后的表格类图像的位置对应关系;根据位置对应关系,将第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,利用预先确定的字符识别模型识别表格类图像上的关键信息。本发明有效提高表格类图像的信息识别精度及效率。

Description

表格类图像的信息识别方法、电子装置及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种表格类图像的信息识别方法、电子装置及可读存储介质。
背景技术
随着国家信息化建设的不断深入,国家机关、企事业单位的纸质信息电子化的需求日益旺盛,为了将大量纸质信息电子化,现有的做法通常是将纸质文件扫描成图像档,再集中采用人工的方式批量将图像档的图像信息填录成电子表格信息或者其他格式文档信息。填录作业人员需填录的图像信息通常非常多,以致于填录作业人员的人力紧张,填录效率低下,而且,在填录表格类图像信息时经常会出现填录错误。
发明内容
本发明的目的在于提供一种表格类图像的信息识别方法、电子装置及可读存储介质,旨在有效提高表格类图像的信息识别精度及效率。
为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的表格类图像的信息识别系统,所述表格类图像的信息识别系统被所述处理器执行时实现如下步骤:
A、在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
B、利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
C、根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
优选地,所述预先确定的校正规则为:
预先设定一最大旋转角度max_skew及旋转次数n,从-max_skew到max_skew平均分成n份,得到一列备选的旋转角度;
以灰度图的方式读入所述表格类图像,对于每一个备选的旋转角度,将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每一个备选的旋转角度对应一个方差值;
从所有备选的旋转角度对应的方差值中挑选出最大方差值,将该最大方差值对应的备选的旋转角度作为校正角度,并利用所述校正角度对所述表格类图像进行校正。
优选地,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
优选地,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该p对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
此外,为实现上述目的,本发明还提供一种表格类图像的信息识别方法,所述表格类图像的信息识别方法包括:
在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
优选地,所述识别所述表格类图像的表格类别包括:
利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,所述表格类图像识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成,所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。
优选地,所述预先确定的校正规则为:
预先设定一最大旋转角度max_skew及旋转次数n,从-max_skew到max_skew平均分成n份,得到一列备选的旋转角度;
以灰度图的方式读入所述表格类图像,对于每一个备选的旋转角度,将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每一个备选的旋转角度对应一个方差值;
从所有备选的旋转角度对应的方差值中挑选出最大方差值,将该最大方差值对应的备选的旋转角度作为校正角度,并利用所述校正角度对所述表格类图像进行校正。
优选地,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
优选地,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该p对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有表格类图像的信息识别系统,所述表格类图像的信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的表格类图像的信息识别方法的步骤。
本发明提出的表格类图像的信息识别方法、系统及可读存储介质,通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系,再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上,以得到表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置,进而通过第二标准模板确定出表格类图像上的关键信息位置,从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响,在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多,从而有效提高表格类图像的信息识别精度及效率。
附图说明
图1为本发明表格类图像的信息识别系统10较佳实施例的运行环境示意图;
图2为本发明表格类图像的信息识别方法一实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种表格类图像的信息识别系统。请参阅图1,是本发明表格类图像的信息识别系统10较佳实施例的运行环境示意图。
在本实施例中,所述的表格类图像的信息识别系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11为至少一种类型的可读计算机存储介质,所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述表格类图像的信息识别系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述表格类图像的信息识别系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如待处理的表格类图像、识别出的关键信息、字符信息等。所述电子装置1的部件11-13通过系统总线相互通信。
表格类图像的信息识别系统10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本申请各实施例。
其中,上述表格类图像的信息识别系统10被所述处理器12执行时实现如下步骤:
步骤S1,在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框。
本实施例中,在收到待信息提取的表格类图像后,识别该表格类图像的表格类别,并根据表格类别确定出与该表格类图像对应的预先确定的带有文本行位置标注框的第一标准模板和带有关键信息位置标注框的第二标准模板,该第一标准模板和第二标准模板的框架格式与该图像的框架格式一致。例如,所述第一标准模板的获取过程为:在若干表格类图像样本的集合中挑选一张摆放位置比较正、背景较少的图像,人工手动标出挑选的图像上所有文本行的位置信息;每个文本行用一个文本行位置标注框(bounding box)标出,各个文本行位置标注框用四个数来表示,分别为左上角的横坐标与纵坐标,及右下角的横坐标与纵坐标,其中,坐标系原点选为图像左上角,向右为横轴正方向,向下为纵轴正方向。所述第二标准模板的获取过程为;在该第一标准模板对应的同一张图像上,标出关键信息位置和对应的关键信息栏位名称。
步骤S2,利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
本实施例中,首先利用预先确定的校正规则对所述表格类图像进行角度校正。在一种可选的实施方式中,所述预先确定的校正规则为:用霍夫变换(Hough)的概率算法找出所述表格类图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像旋转角度,以将收到的所述表格类图像矫正为正常无倾角的图片。
在另一种可选的实施方式中,所述预先确定的校正规则为:预先选定一个最大旋转角度max_skew,选定旋转次数n,从-max_skew到max_skew平均分成n份,这样就得到一列备选的旋转角度;以灰度图的方式读入待校正的所述表格类图像,对于每一个备选的旋转角度,将灰度图按照这个角度大小进行旋转得到新的图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每个备选的角度可得到对应的一个方差值;从上述方差值中挑选出最大方差值,该最大方差值对应的旋转角度即为对待校正的所述表格类图像进行的校正角度,从而利用得到的校正角度对所述表格类图像进行校正。该实施方式中,考虑到如果图像的文本行是水平的,那么图像矩阵某一行或者是文字、或者是空白,得到的均值相差就大;如果图像文本不是水平的,那么图像矩阵大多数行会同时穿过文本和文本行中间的空白,那么得到的均值相差就不大。因此,通过方差值来选取旋转角度的方式,能实现将待校正的所述表格类图像矫正为正常无倾角的图片。
在对所述表格类图像进行角度校正后,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行。例如,在一种可选的实施方式中,所述文本行检测模型为联结文本提案网络(Connectionist Text Proposal Network,简称CTPN)模型,用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。CTPN本质上是一个全卷积网络,输入的图片可以是任意大小,它通过一个小的滑动窗口在卷积特征图上检测文本行,输出精细的文本提议区域序列。
在检测并用标注框标注出角度校正后的表格类图像上的所有文本行之后,可将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。由于所述第一标准模板中预先设置有文本行位置标注框,因此,可将表格类图像上标注的文本行与所述第一标准模板中的文本行进行对应,例如,可比较表格类图像与第一标准模板上相同位置的文本行位置标注框之间的坐标差别,如两个文本行位置标注框之间的左上角横坐标、纵坐标以及右下角横坐标、纵坐标之间的坐标差值,以确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
步骤S3,根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
在确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系之后,可根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上。例如,可根据角度校正后的表格类图像与第一标准模板上文本行位置标注框之间的坐标差值,以及所述第二标准模板上的关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),转换计算得到角度校正后的表格类图像上关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),从而确定出角度校正后的表格类图像上的关键信息位置。即可利用预先确定字符识别模型识别出角度校正后的表格类图像上的关键信息。其中,该预先确定字符识别模型可以为OCR字符识别引擎,也可以是经预先学习、训练得到的字符识别模型,如时间递归神经网络模型(Long-Short Term Memory,LSTM)等,在此不做限定。
与现有技术相比,本实施例通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系,再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上,以得到表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置,进而通过第二标准模板确定出表格类图像上的关键信息位置,从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响,在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多,从而有效提高表格类图像的信息识别精度及效率。
在一可选的实施例中,在上述实施例的基础上,所述识别所述表格类图像的表格类别的步骤包括:
利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,并输出表格类图像的类别识别结果(例如,门诊票据、住院票据、保险收费收据、理赔出单单据以及其他类表格票据等)。
本实施例中,所述表格类图像识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(SingleShot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示:
Layer Name Batch Size Kernel Size Stride Size Pad Size
Input 128 N/A N/A N/A
Conv1 128 3 1 1
Conv2 128 3 1 1
MaxPool1 128 2 2 0
Conv3 128 3 1 1
Conv4 128 3 1 1
MaxPool2 128 2 2 0
Conv5 128 3 1 1
Conv6 128 3 1 1
Conv7 128 3 1 1
MaxPool3 128 2 2 0
Conv8 128 3 1 1
Conv9 128 3 1 1
Conv10 128 3 1 1
MaxPool4 128 2 2 0
Conv11 128 3 1 1
Conv12 128 3 1 1
Conv13 128 3 1 1
MaxPool5 128 2 2 0
Fc1 4096 1 1 0
Fc2 2048 1 1 0
Softmax 3 N/A N/A N/A
表1
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x 3);Stride Size表示卷积核的移动步长,即做完一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述表格类图像识别模型的训练过程如下:
B1、为每一个预设表格图像类别(例如,预设表格图像类别包括门诊票据、住院票据、保险收费收据、理赔出单单据等)准备预设数量(例如,1000张)的标注有对应的图像类别的表格图像样本。本实施例中,在训练之前,针对表格图像样本还做如下处理:
根据其高宽比信息以及印章的位置判断表格图像样本的转置情况,并做翻转调整:当高宽比大于1时,说明表格图像样本高宽颠倒,若印章位置在表格图像样本左侧,则对表格图像样本做顺时针旋转九十度处理,若印章位置在表格图像样本右侧,则对表格图像样本做逆时针旋转九十度处理;当高宽比小于1时,说明表格图像样本高宽未颠倒,若印章位置在表格图像样本下侧,则对表格图像样本做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于表格图像样本中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
这样,能保证进行模型训练的表格图像样本均为高宽未颠倒且标注准确无误的图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设表格图像类别对应的表格图像样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的表格图像样本进行混合以得到训练集,并将各个验证子集中的表格图像样本进行混合以得到验证集;
B3、利用所述训练集训练所述表格类图像识别模型;
B4、利用所述验证集验证训练的所述表格类图像识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设表格图像类别对应的表格类图像样本的数量,并重新执行步骤B2、B3、B4。
在一可选的实施例中,在上述实施例的基础上,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系的步骤包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,例如,两个标注框左上角的纵坐标差值的绝对值小于该两个标注框高度值较小者的一半,则将该两个标注框分为一组。这样,处于同一组的标注框都位于同一行。
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行。需要说明的是,若所述第一标准模板中有大于m行的标注框,则从所述第一标准模板中挑选出m行预设类型(例如,保险单据上的标题、落款,医疗票据上的姓名、日期等)的标注框,或者,从预设位置处挑选出m行标注框,例如,可以从图像的上半部分和下半部分分别选出固定数量(例如,m/2)的标注框行。
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该p对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值。例如,在一种可选的实施方式中,可将该p对标注框中每对标注框对应的位置框差值loss设定为配对的两个标注框左上角坐标差值的绝对值,每对标注框的位置框差值loss对应的权重设定为1/n;把这p对标注框对应的位置框差值loss分别乘以对应的权重后加起来就是本次随机取出的p对标注框对应的两个标注框行的位置行差值loss,将得到的所有位置行差值loss的最小值定义为该两个标注框行的位置行差值loss。
D6、在m对标注框行选择完毕后,得到m个位置行差值loss,根据m个位置行差值loss确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。例如,在一种可选的实施方式中,可从这m个位置行差值loss中找出最小的位置行差值loss,从找出的位置行差值loss对应的一对目标标注框行对应的各个位置框差值loss中,确定最小的位置框差值loss,该最小的位置框差值loss即作为所述第一标准模板到角度校正后的表格类图像的位置对应关系。
如图2所示,图2为本发明表格类图像的信息识别方法一实施例的流程示意图,该表格类图像的信息识别方法包括以下步骤:
步骤S10,在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框。
本实施例中,在收到待信息提取的表格类图像后,识别该表格类图像的表格类别,并根据表格类别确定出与该表格类图像对应的预先确定的带有文本行位置标注框的第一标准模板和带有关键信息位置标注框的第二标准模板,该第一标准模板和第二标准模板的框架格式与该图像的框架格式一致。例如,所述第一标准模板的获取过程为:在若干表格类图像样本的集合中挑选一张摆放位置比较正、背景较少的图像,人工手动标出挑选的图像上所有文本行的位置信息;每个文本行用一个文本行位置标注框(bounding box)标出,各个文本行位置标注框用四个数来表示,分别为左上角的横坐标与纵坐标,及右下角的横坐标与纵坐标,其中,坐标系原点选为图像左上角,向右为横轴正方向,向下为纵轴正方向。所述第二标准模板的获取过程为;在该第一标准模板对应的同一张图像上,标出关键信息位置和对应的关键信息栏位名称。
步骤S20,利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
本实施例中,首先利用预先确定的校正规则对所述表格类图像进行角度校正。在一种可选的实施方式中,所述预先确定的校正规则为:用霍夫变换(Hough)的概率算法找出所述表格类图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像旋转角度,以将收到的所述表格类图像矫正为正常无倾角的图片。
在另一种可选的实施方式中,所述预先确定的校正规则为:预先选定一个最大旋转角度max_skew,选定旋转次数n,从-max_skew到max_skew平均分成n份,这样就得到一列备选的旋转角度;以灰度图的方式读入待校正的所述表格类图像,对于每一个备选的旋转角度,将灰度图按照这个角度大小进行旋转得到新的图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每个备选的角度可得到对应的一个方差值;从上述方差值中挑选出最大方差值,该最大方差值对应的旋转角度即为对待校正的所述表格类图像进行的校正角度,从而利用得到的校正角度对所述表格类图像进行校正。该实施方式中,考虑到如果图像的文本行是水平的,那么图像矩阵某一行或者是文字、或者是空白,得到的均值相差就大;如果图像文本不是水平的,那么图像矩阵大多数行会同时穿过文本和文本行中间的空白,那么得到的均值相差就不大。因此,通过方差值来选取旋转角度的方式,能实现将待校正的所述表格类图像矫正为正常无倾角的图片。
在对所述表格类图像进行角度校正后,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行。例如,在一种可选的实施方式中,所述文本行检测模型为联结文本提案网络(Connectionist Text Proposal Network,简称CTPN)模型,用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。CTPN本质上是一个全卷积网络,输入的图片可以是任意大小,它通过一个小的滑动窗口在卷积特征图上检测文本行,输出精细的文本提议区域序列。
在检测并用标注框标注出角度校正后的表格类图像上的所有文本行之后,可将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。由于所述第一标准模板中预先设置有文本行位置标注框,因此,可将表格类图像上标注的文本行与所述第一标准模板中的文本行进行对应,例如,可比较表格类图像与第一标准模板上相同位置的文本行位置标注框之间的坐标差别,如两个文本行位置标注框之间的左上角横坐标、纵坐标以及右下角横坐标、纵坐标之间的坐标差值,以确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。
步骤S30,根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
在确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系之后,可根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上。例如,可根据角度校正后的表格类图像与第一标准模板上文本行位置标注框之间的坐标差值,以及所述第二标准模板上的关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),转换计算得到角度校正后的表格类图像上关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标),从而确定出角度校正后的表格类图像上的关键信息位置。即可利用预先确定字符识别模型识别出角度校正后的表格类图像上的关键信息。其中,该预先确定字符识别模型可以为OCR字符识别引擎,也可以是经预先学习、训练得到的字符识别模型,如时间递归神经网络模型(Long-Short Term Memory,LSTM)等,在此不做限定。
与现有技术相比,本实施例通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系,再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上,以得到表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置,进而通过第二标准模板确定出表格类图像上的关键信息位置,从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响,在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多,从而有效提高表格类图像的信息识别精度及效率。
在一可选的实施例中,在上述实施例的基础上,所述识别所述表格类图像的表格类别的步骤包括:
利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,并输出表格类图像的类别识别结果(例如,门诊票据、住院票据、保险收费收据、理赔出单单据以及其他类表格票据等)。
本实施例中,所述表格类图像识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(SingleShot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表2所示:
表2
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x 3);Stride Size表示卷积核的移动步长,即做完一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述表格类图像识别模型的训练过程如下:
B1、为每一个预设表格图像类别(例如,预设表格图像类别包括门诊票据、住院票据、保险收费收据、理赔出单单据等)准备预设数量(例如,1000张)的标注有对应的图像类别的表格图像样本。本实施例中,在训练之前,针对表格图像样本还做如下处理:
根据其高宽比信息以及印章的位置判断表格图像样本的转置情况,并做翻转调整:当高宽比大于1时,说明表格图像样本高宽颠倒,若印章位置在表格图像样本左侧,则对表格图像样本做顺时针旋转九十度处理,若印章位置在表格图像样本右侧,则对表格图像样本做逆时针旋转九十度处理;当高宽比小于1时,说明表格图像样本高宽未颠倒,若印章位置在表格图像样本下侧,则对表格图像样本做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于表格图像样本中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
这样,能保证进行模型训练的表格图像样本均为高宽未颠倒且标注准确无误的图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设表格图像类别对应的表格图像样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的表格图像样本进行混合以得到训练集,并将各个验证子集中的表格图像样本进行混合以得到验证集;
B3、利用所述训练集训练所述表格类图像识别模型;
B4、利用所述验证集验证训练的所述表格类图像识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设表格图像类别对应的表格类图像样本的数量,并重新执行步骤B2、B3、B4。
在一可选的实施例中,在上述实施例的基础上,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系的步骤包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,例如,两个标注框左上角的纵坐标差值的绝对值小于该两个标注框高度值较小者的一半,则将该两个标注框分为一组。这样,处于同一组的标注框都位于同一行。
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行。需要说明的是,若所述第一标准模板中有大于m行的标注框,则从所述第一标准模板中挑选出m行预设类型(例如,保险单据上的标题、落款,医疗票据上的姓名、日期等)的标注框,或者,从预设位置处挑选出m行标注框,例如,可以从图像的上半部分和下半部分分别选出固定数量(例如,m/2)的标注框行。
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该p对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值。例如,在一种可选的实施方式中,可将该p对标注框中每对标注框对应的位置框差值loss设定为配对的两个标注框左上角坐标差值的绝对值,每对标注框的位置框差值loss对应的权重设定为1/n;把这p对标注框对应的位置框差值loss分别乘以对应的权重后加起来就是本次随机取出的p对标注框对应的两个标注框行的位置行差值loss,将得到的所有位置行差值loss的最小值定义为该两个标注框行的位置行差值loss。
D6、在m对标注框行选择完毕后,得到m个位置行差值loss,根据m个位置行差值loss确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。例如,在一种可选的实施方式中,可从这m个位置行差值loss中找出最小的位置行差值loss,从找出的位置行差值loss对应的一对目标标注框行对应的各个位置框差值loss中,确定最小的位置框差值loss,该最小的位置框差值loss即作为所述第一标准模板到角度校正后的表格类图像的位置对应关系。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有表格类图像的信息识别系统,所述表格类图像的信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的表格类图像的信息识别方法的步骤,该表格类图像的信息识别方法的步骤S10、S20、S30等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (10)

1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的表格类图像的信息识别系统,所述表格类图像的信息识别系统被所述处理器执行时实现如下步骤:
A、在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
B、利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
C、根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
2.如权利要求1所述的电子装置,其特征在于,所述预先确定的校正规则为:
预先设定一最大旋转角度max_skew及旋转次数n,从-max_skew到max_skew平均分成n份,得到一列备选的旋转角度;
以灰度图的方式读入所述表格类图像,对于每一个备选的旋转角度,将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每一个备选的旋转角度对应一个方差值;
从所有备选的旋转角度对应的方差值中挑选出最大方差值,将该最大方差值对应的备选的旋转角度作为校正角度,并利用所述校正角度对所述表格类图像进行校正。
3.如权利要求1或2所述的电子装置,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
4.如权利要求3所述的电子装置,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该p对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
5.一种表格类图像的信息识别方法,其特征在于,所述表格类图像的信息识别方法包括:
在收到待处理的表格类图像后,识别所述表格类图像的表格类别,并根据预先确定的表格类别与标准模板的映射关系,确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板;其中,所述第一标准模板中预先设置有文本行位置标注框,所述第二标准模板中预先设置有关键信息位置标注框;
利用预先确定的校正规则对所述表格类图像进行角度校正,使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行,并将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系;
根据所述位置对应关系,将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上,得到角度校正后的表格类图像上的关键信息位置,并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
6.如权利要求5所述的表格类图像的信息识别方法,其特征在于,所述识别所述表格类图像的表格类别包括:
利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别,所述表格类图像识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成,所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。
7.如权利要求5所述的表格类图像的信息识别方法,其特征在于,所述预先确定的校正规则为:
预先设定一最大旋转角度max_skew及旋转次数n,从-max_skew到max_skew平均分成n份,得到一列备选的旋转角度;
以灰度图的方式读入所述表格类图像,对于每一个备选的旋转角度,将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵,把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值,将得到的一列均值求方差,依此计算,每一个备选的旋转角度对应一个方差值;
从所有备选的旋转角度对应的方差值中挑选出最大方差值,将该最大方差值对应的备选的旋转角度作为校正角度,并利用所述校正角度对所述表格类图像进行校正。
8.如权利要求5、6或7所述的表格类图像的信息识别方法,其特征在于,所述文本行检测模型为联结文本提案网络CTPN模型,该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置,并用标注框标注出检测出的文本行的位置。
9.如权利要求8所述的表格类图像的信息识别方法,其特征在于,所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对,确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括:
D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组;在分组时,若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值,则将该两个标注框分为一组,以使得处于同一组的标注框都位于同一行;
D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序;
D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序;
D4、若所述第一标准模板中有m行标注框,则从该表格类图像的标注框行排序中选出m行标注框,让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应,形成m对标注框行;
D5、逐一从m对标注框行中选择配对的标注框行,在一对标注框行被选择后,若该对标注框行中第一标准模板对应的行有n个标注框,则分别从该表格类图像对应的行中取出p个标注框,直到无法选择出不同的p个标注框,其中,m、n、p为正整数,p≤n;在每次选择出p个标注框后,让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应,得到p对标注框;根据该p对标注框中每对标注框对应的位置框差值,并按预设规则计算得到选择的该对标注框行的位置行差值;
D6、在m对标注框行选择完毕后,得到m个位置行差值,根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有表格类图像的信息识别系统,所述表格类图像的信息识别系统被处理器执行时实现如权利要求5至9中任一项所述的表格类图像的信息识别方法的步骤。
CN201711240787.9A 2017-11-30 2017-11-30 表格类图像的信息识别方法、电子装置及可读存储介质 Active CN107862303B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711240787.9A CN107862303B (zh) 2017-11-30 2017-11-30 表格类图像的信息识别方法、电子装置及可读存储介质
PCT/CN2018/076163 WO2019104879A1 (zh) 2017-11-30 2018-02-10 表格类图像的信息识别方法、电子装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711240787.9A CN107862303B (zh) 2017-11-30 2017-11-30 表格类图像的信息识别方法、电子装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN107862303A CN107862303A (zh) 2018-03-30
CN107862303B true CN107862303B (zh) 2019-04-26

Family

ID=61704290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711240787.9A Active CN107862303B (zh) 2017-11-30 2017-11-30 表格类图像的信息识别方法、电子装置及可读存储介质

Country Status (2)

Country Link
CN (1) CN107862303B (zh)
WO (1) WO2019104879A1 (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805001B (zh) * 2018-04-09 2019-12-24 平安科技(深圳)有限公司 电子装置、基于证件图片的身份识别方法及存储介质
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108596168B (zh) * 2018-04-20 2020-11-20 京东数字科技控股有限公司 用于识别图像中字符的方法、装置及介质
CN109062921B (zh) * 2018-05-31 2021-06-29 武昌船舶重工集团有限公司 一种提取船舶托盘管理信息的方法及系统
CN108960062A (zh) * 2018-06-01 2018-12-07 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN108921158A (zh) * 2018-06-14 2018-11-30 众安信息技术服务有限公司 图像校正方法、装置及计算机可读存储介质
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN108885699B (zh) * 2018-07-11 2020-06-26 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109214385B (zh) * 2018-08-15 2021-06-08 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109344831B (zh) * 2018-08-22 2024-04-05 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109145904A (zh) * 2018-08-24 2019-01-04 讯飞智元信息科技有限公司 一种字符识别方法及装置
CN109102844B (zh) * 2018-08-24 2022-02-15 北京锐客科技有限公司 一种临床试验源数据自动校验方法
CN109117814B (zh) * 2018-08-27 2020-11-03 京东数字科技控股有限公司 图像处理方法、装置、电子设备及介质
CN109271980A (zh) * 2018-08-28 2019-01-25 上海萃舟智能科技有限公司 一种车辆铭牌全信息识别方法、系统、终端及介质
CN109117848B (zh) * 2018-09-07 2022-11-18 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109325557B (zh) * 2018-09-10 2019-07-16 四川正狐智慧科技有限公司 基于计算机视觉图像识别的数据智能采集方法
CN109492795A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ai的机场登机服务处理方法、装置、设备及介质
CN111079756B (zh) * 2018-10-19 2023-09-19 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN109726643B (zh) * 2018-12-13 2021-08-20 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109886108A (zh) * 2019-01-17 2019-06-14 上海大学 一种表单任意区域字符识别与信息录入方法
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110059688B (zh) * 2019-03-19 2024-05-28 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110059687B (zh) * 2019-03-19 2024-05-28 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110442841B (zh) * 2019-06-20 2024-02-02 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质
CN110390269B (zh) * 2019-06-26 2023-08-01 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110334647A (zh) * 2019-07-03 2019-10-15 云南电网有限责任公司信息中心 一种基于图像识别的参数格式化方法
CN110458161B (zh) * 2019-07-15 2023-04-18 天津大学 一种结合深度学习的移动机器人门牌定位方法
CN110348415B (zh) * 2019-07-17 2022-09-30 济南大学 一种高分辨率遥感目标大数据集的高效标注方法及系统
CN110399875A (zh) * 2019-07-31 2019-11-01 山东浪潮人工智能研究院有限公司 一种基于深度学习与像素投影的通用表格信息提取方法
CN110458070A (zh) * 2019-08-01 2019-11-15 上海眼控科技股份有限公司 基于机动车年检检验表图片识别检验次数的方法与系统
CN110705551B (zh) * 2019-10-09 2022-05-20 北京百度网讯科技有限公司 按键位置的识别方法、装置、电子设备和存储介质
CN111027532A (zh) * 2019-12-11 2020-04-17 上海眼控科技股份有限公司 一种交强险保单车船税金额识别系统和方法
CN111160193B (zh) * 2019-12-20 2024-02-09 中国平安财产保险股份有限公司 关键信息提取方法、装置及存储介质
CN111144282B (zh) * 2019-12-25 2023-12-05 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111325182B (zh) * 2020-03-19 2023-05-30 四川骏逸富顿科技有限公司 一种基于ocr的医保报销欺诈检测方法
CN113536856A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法和系统、数据处理方法
CN111695558B (zh) * 2020-04-28 2023-08-04 深圳市跨越新科技有限公司 基于YoloV3模型的物流运单图片摆正方法及系统
CN111768344B (zh) * 2020-05-12 2023-06-30 北京奇艺世纪科技有限公司 身份证正面图像的校正方法、装置、设备及存储介质
CN111695517B (zh) * 2020-06-12 2023-08-18 北京百度网讯科技有限公司 图像的表格提取方法、装置、电子设备及存储介质
CN111667556A (zh) * 2020-06-22 2020-09-15 深圳壹账通智能科技有限公司 表格矫正方法及装置
CN112149561B (zh) * 2020-09-23 2024-04-16 杭州睿琪软件有限公司 图像处理方法和装置、电子设备和存储介质
CN112149679B (zh) * 2020-09-24 2022-09-23 北京中宏立达信创科技有限公司 一种基于ocr文字识别提取公文要素的方法及装置
CN112633118A (zh) * 2020-12-18 2021-04-09 上海眼控科技股份有限公司 一种文本信息提取方法、设备及存储介质
CN112560847A (zh) * 2020-12-25 2021-03-26 中国建设银行股份有限公司 图像文本区域定位方法及装置、存储介质及电子设备
US11977533B2 (en) 2021-04-02 2024-05-07 Kofax, Inc. Automated document processing for detecting, extracting, and analyzing tables and tabular data
CN113158632B (zh) * 2021-04-30 2024-05-28 广联达科技股份有限公司 Cad图纸的表格重建方法和计算机可读存储介质
CN113191131A (zh) * 2021-05-10 2021-07-30 重庆中科云从科技有限公司 用于文本识别的表格模板建立方法、文本识别方法、系统
CN113139625B (zh) * 2021-05-18 2023-12-15 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113221773B (zh) * 2021-05-19 2022-09-13 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN114708599A (zh) * 2022-03-30 2022-07-05 晨贝(天津)技术有限公司 表格表头识别方法和装置、电子设备
CN114937158A (zh) * 2022-06-21 2022-08-23 中国建设银行股份有限公司 一种图像解析方法及相关装置
CN114842483B (zh) * 2022-06-27 2023-11-28 齐鲁工业大学 基于神经网络和模板匹配的标准文件信息提取方法及系统
CN115273113B (zh) * 2022-09-27 2022-12-27 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置
CN118351543B (zh) * 2024-06-18 2024-08-30 南昌大学第一附属医院 一种医疗检验单的数据信息提取分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0814096D0 (en) * 2006-01-03 2008-09-10 Kyos Systems Inc Document analysis system for integration of paper records into a searchable elecronic database
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
KR20140093514A (ko) * 2013-01-18 2014-07-28 주식회사 슈프리마 전자문서 템플릿 사용자 조작방법 및 템플릿을 이용한 전자문서 판독방법
CN106570105A (zh) * 2016-11-01 2017-04-19 广西电网有限责任公司电力科学研究院 一种电力设备试验报告的结构化处理方法
CN106845545A (zh) * 2017-01-20 2017-06-13 浙江省电力试验研究院技术服务中心 数字式电测仪表自动检定装置中的图像识别方法及装置
CN106909941A (zh) * 2017-02-27 2017-06-30 广东工业大学 基于机器视觉的多表字符识别系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778703B1 (en) * 2000-04-19 2004-08-17 International Business Machines Corporation Form recognition using reference areas
US8358852B2 (en) * 2008-03-31 2013-01-22 Lexmark International, Inc. Automatic forms identification systems and methods
CN101447017B (zh) * 2008-11-27 2010-12-08 浙江工业大学 一种基于版面分析的选票快速识别统计方法及系统
CN101908136B (zh) * 2009-06-08 2013-02-13 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102236789B (zh) * 2010-04-26 2017-06-13 富士通株式会社 对表格图像进行校正的方法以及装置
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
US9779286B2 (en) * 2013-08-28 2017-10-03 Nec Corporation Feature point location estimation device, feature point location estimation method, and feature point location estimation program
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107133621B (zh) * 2017-05-12 2020-09-29 中电鸿信信息科技有限公司 基于ocr的格式化传真的分类和信息提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0814096D0 (en) * 2006-01-03 2008-09-10 Kyos Systems Inc Document analysis system for integration of paper records into a searchable elecronic database
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
KR20140093514A (ko) * 2013-01-18 2014-07-28 주식회사 슈프리마 전자문서 템플릿 사용자 조작방법 및 템플릿을 이용한 전자문서 판독방법
CN106570105A (zh) * 2016-11-01 2017-04-19 广西电网有限责任公司电力科学研究院 一种电力设备试验报告的结构化处理方法
CN106845545A (zh) * 2017-01-20 2017-06-13 浙江省电力试验研究院技术服务中心 数字式电测仪表自动检定装置中的图像识别方法及装置
CN106909941A (zh) * 2017-02-27 2017-06-30 广东工业大学 基于机器视觉的多表字符识别系统及方法

Also Published As

Publication number Publication date
CN107862303A (zh) 2018-03-30
WO2019104879A1 (zh) 2019-06-06

Similar Documents

Publication Publication Date Title
CN107862303B (zh) 表格类图像的信息识别方法、电子装置及可读存储介质
CN109657665B (zh) 一种基于深度学习的发票批量自动识别系统
CN107798299B (zh) 票据信息识别方法、电子装置及可读存储介质
CN107194398B (zh) 车损部位的识别方法及系统
CN107766809B (zh) 电子装置、票据信息识别方法和计算机可读存储介质
EP3258422A1 (en) Character segmentation and recognition method
CN107103320B (zh) 嵌入式医疗数据图像识别及集成方法
US20130238966A1 (en) Automatic Identification of Fields and Labels in Forms
US9298685B2 (en) Automatic creation of multiple rows in a table
CN105574161B (zh) 一种商标图形要素识别方法、装置和系统
US8792730B2 (en) Classification and standardization of field images associated with a field in a form
CN109919037B (zh) 一种文本定位方法及装置、文本识别方法及装置
CN102184383B (zh) 一种印刷体字符图像样本的自动生成方法
CN108875737B (zh) 一种纸质处方单据中检测复选框是否勾选的方法及系统
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN110659637A (zh) 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法
CN107895117A (zh) 恶意代码标注方法和装置
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN116524527A (zh) 一种表格图像文本识别方法及系统
CN116092231A (zh) 票证识别方法、装置、终端设备以及存储介质
CN108109680A (zh) 一种保险理赔影像包分拣的方法
CN110135408B (zh) 文本图像检测方法、网络以及设备
CN111914706A (zh) 一种文字检测输出结果质量检测和控制的方法与装置
CN116563876A (zh) 一种发票识别方法
CN108764365A (zh) 一种设备标识牌检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant