CN106844767B - 格式文档关键信息块配准及提取的方法及装置 - Google Patents

格式文档关键信息块配准及提取的方法及装置 Download PDF

Info

Publication number
CN106844767B
CN106844767B CN201710100063.8A CN201710100063A CN106844767B CN 106844767 B CN106844767 B CN 106844767B CN 201710100063 A CN201710100063 A CN 201710100063A CN 106844767 B CN106844767 B CN 106844767B
Authority
CN
China
Prior art keywords
tag
rectangular frame
determining
rect
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710100063.8A
Other languages
English (en)
Other versions
CN106844767A (zh
Inventor
史存召
何坤
肖柏华
贾馥溪
王春恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201710100063.8A priority Critical patent/CN106844767B/zh
Publication of CN106844767A publication Critical patent/CN106844767A/zh
Application granted granted Critical
Publication of CN106844767B publication Critical patent/CN106844767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种格式文档关键信息块配准及提取的方法及装置,所述方法:对格式文档的灰度图像进行模式定义;根据标签部件的位置、标签域构建弹性框架;根据标签部件的图像像素占空比,确定弹性框架的配准目标的候选集合;根据标签部件的图像特征对弹性框架进行粗配准,确定价值部件的初始矩形框;根据标签部件的位置对价值部件的初始矩形框进行精确配准,确定价值部件的精准矩形框;根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定格式文档关键信息块。本发明格式文档关键信息块配准及提取的方法通过构建弹性框架、多次配准,从而能够准确提取价值部件的精准矩形框内容提取准确,便于数据库的统一管理。

Description

格式文档关键信息块配准及提取的方法及装置
技术领域
本发明涉及格式文档配准领域,更具体地,涉及一种格式文档关键信息块配准及提取的方法及装置。
背景技术
近年来,随着网络技术的迅猛发展,人类已经进入了信息划时代,传统的信息获取方法,如书籍、报纸以及期刊等由于携带的不方便性,同时存放需要大量的空间,不便于编辑整理和传播。人们越来越倾向于使用磁盘等电子设备来存储,因此将纸质材料文字信息快速输入计算机有很重要的意义,OCR(Optical Character Recognition,光学字符识别)技术由此产生。OCR技术能够实现文字信息的告高速、自动的输入,节约了大量的人力资源,目前已经得到广泛的应用。
任何有特定模板、方便提取特定格式的资料都可以称为有格式的文档,比如票据流水单、报表、身份证、名片等。格式文档的数字化应用十分广泛。作为现代经济核心的金融领域,各大商业公司,特别是商业银行,都有着大量的新增或遗留的业务报表需要处理,面临着各项业务中核对转账支票、批量业务数据、提交表和进账单是否相符等大量业务需求的压力,而格式文档的自动识别将会解决很大问题。
发明内容
为了解决现有技术中的上述问题,即为了解决格式文档关键信息块自动识别的问题,本发明提供了一种格式文档关键信息块配准及提取的方法及装置。
为实现上述目的,本发明提供了如下方案:
一种格式文档关键信息块配准及提取的方法,所述方法包括:
对格式文档的灰度图像进行模式定义,确定所述格式文档的部件信息;所述部件信息包括各标签部件的位置、标签域、图像特征和图像像素占空比,及各价值部件的位置;其中,所述格式文档中内容不变部分为标签部件,内容可变部分为价值部件,且各所述标签部件与价值部件一一对应;
根据所述标签部件的位置、标签域构建弹性框架;
根据所述标签部件的图像像素占空比,确定所述弹性框架的配准目标的候选集合;
在所述候选集合中,根据所述标签部件的图像特征对所述弹性框架进行粗配准,确定价值部件的初始矩形框;
根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准,确定价值部件的精准矩形框;
根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定所述格式文档关键信息块。
可选的,根据以下公式确定各所述标签部件的图像像素占空比:
其中,Area_rect为所述标签部件的矩形框rect的面积,Area_front为所述标签部件的矩形框rect中前景像素的面积。
可选的,所述根据所述标签部件的位置、标签域构建弹性框架具体包括:
根据各所述标签部件的位置,确定各所述标签部件的相对位置;
根据所述标签部件的标签域确定所述标签部件的大小;
根据所述标签部件的相对位置和大小构建所述弹性框架。
可选的,所述确定所述弹性框架的配准目标的候选集合具体包括:
对所述格式文档的灰度图像进行二值化处理,得到处理后的图像;
对所述处理后的图像提取连通域;
根据提取的连通域提取超像素点;
根据所述超像素点确定所述配准目标的候选位置,形成候选集合。
可选的,所述根据所述超像素点确定所述配准目标的候选位置具体包括:
采用滑窗遍历的方法,将所述弹性框架在所述灰度图像上滑动,确定所述弹性框架的多个整体位置OP,各所述OP为弹性框架在滑动过程中左上部件的左上顶点的位置;
对于各所述OP,根据所述图像像素的占空比和图像特征信息,确定当前OP对应的所有标签部件中的各匹配标签部件的位置组合PPs,用(OP+PPs)表示所述配准目标的候选位置。
可选的,所述确定各匹配标签部件的位置组合PPs具体包括:
通过第i个标签部件在对应标签域中滑动,确定所述第i个标签部件内的矩形框rect的位置PP,当前OP对应的所有标签部件内的矩形框rect形成集合localrects;所述PP为所述第i个标签部件内的矩形框rect 的左上顶点的位置;
计算所述集合localrects中各所述矩形框的占空比;
分别比较各所述矩形框的占空比与占空比阈值的大小,若小于,则删除所述集合localrects内对应的矩形框;否则保留;
根据以下公式选择多个与模式定义形成匹配的匹配标签部件的矩形框recty
其中,recttemp在模式定义中对应localrects的模板部件, dis()为计算两个rect的特征距离函数,hog[i]为第i个局部弹性部件的hog 特征;
根据各所述匹配标签部件的矩形框recty的位置,形成当前OP 对应的所有标签部件中的匹配标签部件的位置组合PPs。
可选的,所述根据所述标签部件的图像特征对所述弹性框架进行粗配准具体包括:
计算各候选集合中所有标签部件的特征距离之和,确定特征距离之和中最小的候选位置:
其中,rectys为每种候选位置对应的全部矩形框组合,RC 为所有配准目标的各候选位置对应的矩形框的集合,Rects表示弹性框架的粗配准结果;
根据所述弹性框架的粗配准结果及对应标签部件的相对位置确定价值部件的初始矩形框。
可选的,所述确定价值部件的精准矩形框具体包括:
1)根据每个价值部件的初始矩形框的周围信息进行收缩;和/或
2)基于广度优先的方式对每个价值部件的初始矩形框进行像素补缺。
可选的,所述每个价值部件的初始矩形框的周围信息进行收缩具体包括:从上下左右四个方向分别向对应价值部件的初始矩形框rect 的中心收缩,直到遇到前景像素则停止对应方向的收缩;
所述基于广度优先的方式对每个价值部件的初始矩形框 rect进行像素补缺具体包括:沿着对应价值部件的初始矩形框rect的中心向外的方向扩展像素,每一步仅仅扩展一个方向并且同时扩展所有的初始矩形框rect,以设定步长在扩展方向上扩展,如果对应矩形框rect新扩展的区域无前景像素或者与其他矩形框rect有重叠,则便停止对应矩形框rect在对应方向的扩展;直到所有的矩形框rect在每个方向均扩展完毕。
根据本发明的实施例,本发明公开了以下技术效果:
本发明格式文档关键信息块配准及提取的方法通过对格式文档的灰度图像进行模式定义,可准确确定格式文档的部件信息;通过构建弹性框架、多次配准,从而能够准确提取价值部件的精准矩形框;通过标签label部件的位置、字符属性信息及价值部件的精准矩形框可确定格式文档关键信息块,内容提取准确,便于数据库的统一管理。
为实现上述目的,本发明提供了如下方案:
一种格式文档关键信息块配准及提取的系统,所述系统包括:
定义模块,用于对格式文档的灰度图像进行模式定义,确定所述格式文档的部件信息;所述部件信息包括各标签部件的位置、标签域、图像特征和图像像素占空比,及各价值部件的位置;其中,所述格式文档中内容不变部分为标签部件,内容可变部分为价值部件,且各所述标签部件与价值部件一一对应;
构建模块,用于根据所述标签部件的位置、标签域构建弹性框架;
确定模块,用于根据所述标签部件的图像像素占空比,确定所述弹性框架的配准目标的候选集合;
粗配模块,用于在所述候选集合中,根据所述标签部件的图像特征对所述弹性框架进行粗配准,确定价值部件的初始矩形框;
精配模块,用于根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准,确定价值部件的精准矩形框;
输出模块,用于输出所述标签部件的位置、字符属性信息及价值部件的精准矩形框,以确定所述格式文档关键信息块。
根据本发明的实施例,本发明公开了以下技术效果:
本发明格式文档关键信息块配准及提取的系统通过设置定义模块,对格式文档的灰度图像进行模式定义,可准确确定格式文档的部件信息;通过设置构建模块、确定模块、粗配模块和精配模块,可构建弹性框架、多次配准,从而能够准确提取价值部件的精准矩形框;通过输出模块,可根据标签label部件的位置、字符属性信息及价值部件的精准矩形框确定格式文档关键信息块,内容提取准确,便于数据库的统一管理。
附图说明
图1是本发明格式文档关键信息块配准及提取的方法的流程图;
图2是模式定义流程图;
图3是格式文档的样例图像;
图4是模式定义说明图像;
图5是弹性框架示意图图像;
图6是连通域提取示意图图像;
图7是超像素表示示意图图像;
图8是弹性框架配准示意图图像;
图9是粗配准结果图像;
图10是精确配准结果图像;
图11是本发明格式文档关键信息块配准及提取的系统的模块结构示意图。
符号说明:
定义模块—1,构建模块—2,确定模块—3,粗配模块—4,精配模块—5,输出模块—6。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,本发明格式文档关键信息块配准及提取的方法包括:
步骤100:对格式文档的灰度图像进行模式定义,确定所述格式文档的部件信息;所述部件信息包括各标签label部件的位置、label 域、图像特征和图像像素占空比,及各价值value部件的位置;其中,所述格式文档中内容不变部分为label部件,内容可变部分为value部件,且各所述label部件与value部件一一对应。
步骤200:根据所述标签部件的位置、标签域构建弹性框架;
步骤300:根据所述标签部件的图像像素占空比,确定所述弹性框架的配准目标的候选集合;
步骤400:在所述候选集合中,根据所述标签部件的图像特征对所述弹性框架进行粗配准,确定价值部件的初始矩形框;
步骤500:根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准,确定价值部件的精准矩形框;
步骤600:根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定所述格式文档关键信息块。
如图2所示,所述对对格式文档的灰度图像进行模式定义具体包括:输入格式文档的灰度图像;对所述灰度图像进行二值化处理;根据处理后的结果确定部件信息,记录label(标签)-value(价值)对的信息;重复上述操作,直至信息处理完毕后,存储所述部件信息。
如图3所示为一个格式文档的灰度图像的样例,从众多的此类格式文档中可以归纳出格式的共同点:每一种格式文档,都有内容不变的部分,记为标签label;其对应着内容变化的部分,记为价值value;label 与value均称之为部件(如图4所示);所有label部件的相对位置关系是确定不变的,value与其对应的label位置关系也是固定的,只是value尺寸是变化的。
label部件信息包括:(1)位置信息(上、下、左、右), (2)label域,(3)图像特征信息及(4)图像像素占空比信息。所述value 部件的特征信息包括:位置信息(上,下,左,右)。
如图5所示,每个label部件均有属于自己的label域,其为一个弹性移动域,为了克服图像形变所引起的位置偏差,在本方法中移动域设置为以当前矩形框rect为基础,左右两个方向分别增加a长度,上下两个方向分别增加a/2长度,a设置为矩形框rect的高度。
在本发明中,采用的是梯度直方图hog(Histogram of Oriented Gradients)特征为图像特征,根据文献【Dalal N,Triggs B.Histograms of oriented gradients forhuman detection[C]//2005IEEE Computer Society Conference on Computer Visionand Pattern Recognition(CVPR'05).IEEE, 2005,1:886-893.】提取hog特征。
根据公式(1)确定各所述标签部件的图像像素占空比:
其中,Area_rect为所述标签部件的矩形框rect的面积, Area_front为所述标签部件的矩形框rect中前景像素(即文字区域)的面积。
在步骤200中,所述根据所述标签部件的位置、标签域构建弹性框架具体包括:
步骤201:根据各所述label部件的位置,确定各所述label部件的相对位置;步骤202:根据所述label部件的label域确定所述标签部件的大小;根据所述label部件的相对位置和大小构建所述弹性框架。
在步骤300中,所述确定所述弹性框架的配准目标的候选集合具体包括:
步骤301:对所述格式文档的灰度图像进行二值化处理,得到处理后的图像;步骤302:对所述处理后的图像提取连通域;步骤303:根据提取的连通域提取超像素点;步骤304:根据所述超像素点确定所述配准目标的候选位置,形成候选集合。
每个连通域使用一个矩形框rect表示,如图6所示,每个字符可能包含一个或多个矩形框rect。在提取的矩形框rect的基础之上,进行超像素点的提取,每个矩形框rect均可以看作一个超像素点,用其左上顶点进行表示,如图7所示。
进一步地,在步骤304中,所述根据所述超像素点确定所述配准目标的候选位置具体包括:
步骤3041:采用滑窗遍历的方法,将所述弹性框架在所述灰度图像上滑动,确定所述弹性框架的多个整体位置OP,各所述OP为弹性框架在滑动过程中左上部件的左上顶点的位置。其中,滑动方向为从上到下,从左到右。
步骤3042:对于各所述OP,根据所述图像像素的占空比和图像特征信息,确定当前OP对应的所有标签部件中的各匹配标签部件的位置组合PPs,用(OP+PPs)表示所述配准目标的候选位置,以PPs为左上顶点的label部件的矩形框rect构成弹性框架的候选集合candirects。
其中,在步骤3042中,所述确定各匹配标签部件的位置组合 PPs具体包括:
步骤3042a:通过第i个标签部件在对应标签域中滑动,确定所述第i个标签部件内的矩形框rect的位置PP,当前OP对应的所有标签部件内的矩形框rect形成集合localrects;所述PP为所述第i个标签部件内的矩形框rect的左上顶点的位置。
步骤3042b:根据公式(1)计算所述集合localrects中各所述矩形框的占空比。
步骤3042c:分别比较各所述矩形框的占空比与占空比阈值的大小,若小于,则删除所述集合localrects内对应的矩形框;否则保留。
其中,所述占空比阈值根据所述label部件的图像像素占空比设置,在本实施例中,所述占空比阈值为所述label部件的图像像素占空比的0.5倍,即,当所述集合localrects内的各个矩形框的占空比小于0.5 倍的label部件的图像像素占空比,则删除对应的矩形框,从而实现对集合localrects的过滤。
步骤3042d:根据公式(2)从过滤后的集合localrects中选择多个与模式定义形成匹配的匹配label部件的矩形框recty
其中,recttemp在模式定义中对应localrects的模板部件,dis()为计算两个rect的特征距离函数,hog[i]为第i个局部弹性部件的hog 特征。
步骤3042e:根据各所述匹配标签部件的矩形框recty的位置,形成当前OP对应的所有标签部件中的匹配标签部件的位置组合PPs。
如果集合localrects内没有合格的矩形框,所述集合 localrects包含0个recty,则当前OP淘汰,对下一个OP进行同样操作。
在步骤400中,所述根据所述标签部件的图像特征对所述弹性框架进行粗配准具体包括:
步骤401:计算各候选集合中所有标签部件的特征距离之和,确定特征距离之和中最小的候选位置,如公式(3)所示:
其中,rectys为每种候选位置对应的全部矩形框组合,RC 为所有配准目标的各候选位置对应的矩形框的集合,Rects表示弹性框架的粗配准结果(如图8所示)。
步骤402:根据所述弹性框架的粗配准结果及对应label部件的相对位置确定价值部件的初始矩形框(如图9所示)。
针对弹性框架的粗配准结果Rects,鉴于图像形变,需要进行精准配准策略。具体的,在步骤500中,所述确定价值部件的精准矩形框具体包括:
1)根据每个价值部件的初始矩形框的周围信息进行收缩;和/或2)基于广度优先的方式对每个价值部件的初始矩形框进行像素补缺。
进一步地,所述每个价值部件的初始矩形框的周围信息进行收缩具体包括:从上下左右四个方向分别向对应价值部件的初始矩形框 rect的中心收缩,直到遇到前景像素则停止对应方向的收缩。
所述基于广度优先的方式对每个价值部件的初始矩形框 rect进行像素补缺具体包括:沿着对应价值部件的初始矩形框rect的中心向外的方向扩展像素,每一步仅仅扩展一个方向并且同时扩展所有的初始矩形框rect,以设定步长在扩展方向上扩展,如果对应矩形框rect新扩展的区域无前景像素或者与其他矩形框rect有重叠,则便停止对应矩形框rect在对应方向的扩展;直到所有的矩形框rect在每个方向均扩展完毕。通过对所述value部件的进行精确配准,得到如图10所示的value部件精准矩形框的具体大小。
在步骤600中,在分别对label部件和value部件的矩形框rect 进行精确的提取后,可输出value部件的位置、精准矩形框,以及对应的 label部件的字符属性。根据所述label部件的位置、字符属性信息及value 部件的精准矩形框可确定所述格式文档关键信息块,准确度高,识别效果好;同时便于数据库的统一存储管理。
此外,本发明还提供一种格式文档关键信息块配准及提取的系统,可实现对格式文档关键信息块的自动识别。如图11所示,本发明格式文档关键信息块配准及提取的系统包括定义模块1、构建模块2、确定模块3、粗配模块4、精配模块5及输出模块6。
其中,所述定义模块1用于对格式文档的灰度图像进行模式定义,确定所述格式文档的部件信息。所述部件信息包括各label部件的位置、label域、图像特征和图像像素占空比,及各value部件的位置;其中,所述格式文档中内容不变部分为label部件,内容可变部分为value部件,且各所述label部件与value部件一一对应。
所述构建模块2与定义模块1连接,所述构建模块2根据所述标签部件的位置、标签域构建弹性框架。
所述确定模块3分别与所述定义模块1和构建模块22连接;所述确定模块3根据所述label部件的图像像素占空比,确定所述弹性框架的配准目标的候选集合。
所述粗配模块4分别与所述定义模块1和确定模块3连接;在所述候选集合中,所述粗配模块4根据所述label部件的图像特征对所述弹性框架进行粗配准,确定value部件的初始矩形框。
所述精配模块5分别与所述定义模块1和粗配模块4连接;所述精配模块5根据所述label部件的位置对所述value部件的初始矩形框进行精确配准,确定value部件的精准矩形框。
所述输出模块6分别与所述定义模块1和精配模块5连接;所述输出模块6输出所述标签部件的位置、字符属性信息及价值部件的精准矩形框,以确定所述格式文档关键信息块。
相对于现有技术,本发明格式文档关键信息块配准及提取的系统与上述格式文档关键信息块配准及提取的方法的有益效果相同,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种格式文档关键信息块配准及提取的方法,其特征在于,所述方法包括:
对格式文档的灰度图像进行模式定义,确定所述格式文档的部件信息;所述部件信息包括各标签部件的位置、标签域、图像特征和图像像素占空比,及各价值部件的位置;其中,所述格式文档中内容不变部分为标签部件,内容可变部分为价值部件,且各所述标签部件与价值部件一一对应;
根据所述标签部件的位置、标签域构建弹性框架;
根据所述标签部件的图像像素占空比,确定所述弹性框架的配准目标的候选集合;
在所述候选集合中,根据所述标签部件的图像特征对所述弹性框架进行粗配准,确定价值部件的初始矩形框;
根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准,确定价值部件的精准矩形框;
根据所述标签部件的位置、字符属性信息及价值部件的精准矩形框确定所述格式文档关键信息块;
其中,标签部件在对应的标签域中滑动;
其中,根据以下公式确定各所述标签部件的图像像素占空比:
其中,Area_rect为所述标签部件的矩形框rect的面积,Area_front为所述标签部件的矩形框rect中前景像素的面积。
2.根据权利要求1所述的格式文档关键信息块配准及提取的方法,其特征在于,所述根据所述标签部件的位置、标签域构建弹性框架具体包括:
根据各所述标签部件的位置,确定各所述标签部件的相对位置;
根据所述标签部件的标签域确定所述标签部件的大小;
根据所述标签部件的相对位置和大小构建所述弹性框架。
3.根据权利要求1所述的格式文档关键信息块配准及提取的方法,其特征在于,所述确定所述弹性框架的配准目标的候选集合具体包括:
对所述格式文档的灰度图像进行二值化处理,得到处理后的图像;
对所述处理后的图像提取连通域;
根据提取的连通域提取超像素点;
根据所述超像素点确定所述配准目标的候选位置,形成候选集合。
4.根据权利要求3所述的格式文档关键信息块配准及提取的方法,其特征在于,所述根据所述超像素点确定所述配准目标的候选位置具体包括:
采用滑窗遍历的方法,将所述弹性框架在所述灰度图像上滑动,确定所述弹性框架的多个整体位置OP,各所述OP为弹性框架在滑动过程中左上部件的左上顶点的位置;
对于各所述OP,根据所述图像像素的占空比和图像特征信息,确定当前OP对应的所有标签部件中的各匹配标签部件的位置组合PPs,用(OP+PPs)表示所述配准目标的候选位置。
5.根据权利要求4所述的格式文档关键信息块配准及提取的方法,其特征在于,所述确定各匹配标签部件的位置组合PPs具体包括:
通过第i个标签部件在对应标签域中滑动,确定所述第i个标签部件内的矩形框rect的位置PP,当前OP对应的所有标签部件内的矩形框rect形成集合localrects;所述PP为所述第i个标签部件内的矩形框rect的左上顶点的位置;
计算所述集合localrects中各所述矩形框的占空比;
分别比较各所述矩形框的占空比与占空比阈值的大小,若小于,则删除所述集合localrects内对应的矩形框;否则保留;
根据以下公式选择多个与模式定义形成匹配的匹配标签部件的矩形框recty
其中,recttemp在模式定义中对应localrects的模板部件,dis()为计算两个rect的特征距离函数,hog[i]为第i个局部弹性部件的hog特征;
根据各所述匹配标签部件的矩形框recty的位置,形成当前OP对应的所有标签部件中的匹配标签部件的位置组合PPs。
6.根据权利要求5所述的格式文档关键信息块配准及提取的方法,其特征在于,所述根据所述标签部件的图像特征对所述弹性框架进行粗配准具体包括:
计算各候选集合中所有标签部件的特征距离之和,确定特征距离之和中最小的候选位置:
其中,rectys为每种候选位置对应的全部矩形框组合,RC为所有配准目标的各候选位置对应矩形框的集合,Rects表示弹性框架的粗配准结果;
根据所述弹性框架的粗配准结果及对应标签部件的相对位置确定价值部件的初始矩形框。
7.根据权利要求6所述的格式文档关键信息块配准及提取的方法,其特征在于,所述确定价值部件的精准矩形框具体包括:
1)根据每个价值部件的初始矩形框的周围信息进行收缩;和/或
2)基于广度优先的方式对每个价值部件的初始矩形框进行像素补缺。
8.根据权利要求7所述的格式文档关键信息块配准及提取的方法,其特征在于,所述每个价值部件的初始矩形框的周围信息进行收缩具体包括:从上下左右四个方向分别向对应价值部件的初始矩形框rect的中心收缩,直到遇到前景像素则停止对应方向的收缩;
所述基于广度优先的方式对每个价值部件的初始矩形框rect进行像素补缺具体包括:沿着对应价值部件的初始矩形框rect的中心向外的方向扩展像素,每一步仅仅扩展一个方向并且同时扩展所有的初始矩形框rect,以设定步长在扩展方向上扩展,如果对应矩形框rect新扩展的区域无前景像素或者与其他矩形框rect有重叠,则便停止对应矩形框rect在对应方向的扩展;直到所有的矩形框rect在每个方向均扩展完毕。
9.一种格式文档关键信息块配准及提取的系统,其特征在于,所述系统包括:
定义模块,用于对格式文档的灰度图像进行模式定义,确定所述格式文档的部件信息;所述部件信息包括各标签部件的位置、标签域、图像特征和图像像素占空比,及各价值部件的位置;其中,所述格式文档中内容不变部分为标签部件,内容可变部分为价值部件,且各所述标签部件与价值部件一一对应;
构建模块,用于根据所述标签部件的位置、标签域构建弹性框架;
确定模块,用于根据所述标签部件的图像像素占空比,确定所述弹性框架的配准目标的候选集合;
粗配模块,用于在所述候选集合中,根据所述标签部件的图像特征对所述弹性框架进行粗配准,确定价值部件的初始矩形框;
精配模块,用于根据所述标签部件的位置对所述价值部件的初始矩形框进行精确配准,确定价值部件的精准矩形框;
输出模块,用于输出所述标签部件的位置、字符属性信息及价值部件的精准矩形框,以确定所述格式文档关键信息块;
其中,标签部件在对应的标签域中滑动;
其中,根据以下公式确定各所述标签部件的图像像素占空比:
其中,Area_rect为所述标签部件的矩形框rect的面积,Area_front为所述标签部件的矩形框rect中前景像素的面积。
CN201710100063.8A 2017-02-23 2017-02-23 格式文档关键信息块配准及提取的方法及装置 Active CN106844767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710100063.8A CN106844767B (zh) 2017-02-23 2017-02-23 格式文档关键信息块配准及提取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710100063.8A CN106844767B (zh) 2017-02-23 2017-02-23 格式文档关键信息块配准及提取的方法及装置

Publications (2)

Publication Number Publication Date
CN106844767A CN106844767A (zh) 2017-06-13
CN106844767B true CN106844767B (zh) 2019-12-13

Family

ID=59134553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710100063.8A Active CN106844767B (zh) 2017-02-23 2017-02-23 格式文档关键信息块配准及提取的方法及装置

Country Status (1)

Country Link
CN (1) CN106844767B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059572B (zh) * 2019-03-22 2021-08-10 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
CN112200789B (zh) * 2020-10-16 2023-11-21 中国铁道科学研究院集团有限公司 一种图像识别的方法及装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246551A (zh) * 2008-03-07 2008-08-20 北京航空航天大学 一种快速的车牌定位方法
CN101377847A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文档图像的配准及特征点选取方法
CN101702242A (zh) * 2009-11-23 2010-05-05 中兴通讯股份有限公司 一种自动填写固定格式文件的方法及终端
CN105446948A (zh) * 2015-11-13 2016-03-30 武汉鸿图节能技术有限公司 一种报表自动生成方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6330385B2 (ja) * 2014-03-13 2018-05-30 オムロン株式会社 画像処理装置、画像処理方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377847A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文档图像的配准及特征点选取方法
CN101246551A (zh) * 2008-03-07 2008-08-20 北京航空航天大学 一种快速的车牌定位方法
CN101702242A (zh) * 2009-11-23 2010-05-05 中兴通讯股份有限公司 一种自动填写固定格式文件的方法及终端
CN105446948A (zh) * 2015-11-13 2016-03-30 武汉鸿图节能技术有限公司 一种报表自动生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-scale Graph-matching Based Kernel for;SHI Cun-Zhao等;《ACTA AUTOMATICA SINICA》;20140430;第40卷(第4期);第751-756页 *

Also Published As

Publication number Publication date
CN106844767A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
Gatos et al. Automatic table detection in document images
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
US10430681B2 (en) Character segmentation and recognition method
US8693790B2 (en) Form template definition method and form template definition apparatus
CN105528614B (zh) 一种漫画图像版面的识别方法和自动识别系统
CN103034848B (zh) 一种表单类型的识别方法
CN110298376B (zh) 一种基于改进b-cnn的银行票据图像分类方法
CN107944452A (zh) 一种圆形印章文字识别方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN105528604A (zh) 一种基于ocr的票据自动识别与处理系统
CN103577818A (zh) 一种图像文字识别的方法和装置
Ma et al. Segmentation and recognition for historical Tibetan document images
CN105468732A (zh) 一种图像关键词检查方法及装置
Forczmański et al. Stamps detection and classification using simple features ensemble
CN113191348A (zh) 一种基于模板的文本结构化提取方法及工具
CN106844767B (zh) 格式文档关键信息块配准及提取的方法及装置
CN104899551B (zh) 一种表单图像分类方法
Giri Text information extraction and analysis from images using digital image processing techniques
Fan et al. Skew detection in document images based on rectangular active contour
CN103136536A (zh) 对象检测系统和方法、图像的特征提取方法
Rajithkumar et al. Template matching method for recognition of stone inscripted Kannada characters of different time frames based on correlation analysis
Mitchell et al. Newspaper layout analysis incorporating connected component separation
Zhang et al. Transform invariant text extraction
Humied Segmentation accuracy for offline Arabic handwritten recognition based on bounding box algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant