CN111241955A - 一种票据信息提取方法及系统 - Google Patents

一种票据信息提取方法及系统 Download PDF

Info

Publication number
CN111241955A
CN111241955A CN202010006451.1A CN202010006451A CN111241955A CN 111241955 A CN111241955 A CN 111241955A CN 202010006451 A CN202010006451 A CN 202010006451A CN 111241955 A CN111241955 A CN 111241955A
Authority
CN
China
Prior art keywords
bill
information extraction
information
dimensional grid
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010006451.1A
Other languages
English (en)
Other versions
CN111241955B (zh
Inventor
张书源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yilanqunzhi Data Technology Co ltd
Original Assignee
Beijing Yilanqunzhi Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yilanqunzhi Data Technology Co ltd filed Critical Beijing Yilanqunzhi Data Technology Co ltd
Priority to CN202010006451.1A priority Critical patent/CN111241955B/zh
Publication of CN111241955A publication Critical patent/CN111241955A/zh
Application granted granted Critical
Publication of CN111241955B publication Critical patent/CN111241955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

本发明公开了一种票据信息提取方法及系统,属于票据处理信息技术领域。该方法包括:采用超文本标记语言建立含有票据信息对应文本且与票据结构相同的二维网格数据结构;选取票据要素并在数据结构中搜索票据要素对应文本并确定其准确位置;选择含有票据要素的票据信息提取模板;根据票据要素对应文本的位置将票据信息提取模板放置于票据要素对应文本所在的二维网格上生成票据信息提取的候选框;确定与票据对应的候选框以及提取票据信息。本发明可以应用于不同类型、不同格式票据信息的提取,提高了繁杂票据信息处理的效率和智能化水平。

Description

一种票据信息提取方法及系统
技术领域
本发明涉及票据处理信息技术领域,特别是一种票据信息提取方法及系统。
背景技术
在许多业务场景中,如跨境贸易业务中,很多重要信息是记录在纸质票据(如合同、商业发票、装箱单单据等)上,这些信息在业务处理中十分重要,比如在业务审核、纠纷处理等等中,都会用到这些信息。这些信息存在于不同类型的票据之中,不同类型的票据对应的格式不同,同一类型的票据不同单位之间也存在不同的格式。
目前,票据信息的提取多采用现有的票据模板和票据进行匹配比对,通过匹配成功的票据模板将相应位置中的票据信息提取出来。但这种方式受现有票据格式的限制,不能适应现在多样化的票据信息提取的要求。
发明内容
本发明主要解决的技术问题是提供一种票据信息提取方法及系统,满足不同格式的票据中的票据信息提取需求,提高票据信息提取的效率。
为了实现上述目的,本发明采用的第一个技术方案是:采用超文本标记语言建立含有票据信息对应文本且与票据结构相同的二维网格数据结构;选取票据要素并在数据结构中搜索票据要素对应文本,然后确定票据要素对应文本的准确位置;选择含有票据要素的票据信息提取模板;根据票据要素对应文本的位置将票据信息提取模板放置于票据要素对应文本所在的二维网格上生成票据信息提取的候选框;确定与票据对应的候选框;以及提取票据信息。
本发明采用的第二个技术方案是:一种票据信息提取系统,其特征在于,包括:超文本标记语言模块,其采用超文本标记语言建立含有票据信息对应文本且与票据结构相同的二维网格数据结构;票据要素对应文本搜索模块,其根据选取的票据要素在二维网格数据结构中搜索票据要素对应文本并确定其准确位置;票据信息提取模板选择模块,其选择含有票据要素的票据信息提取模板并根据票据要素对应文本的位置将票据信息提取模板放置于票据要素对应文本所在的二维网格上生成票据信息提取的候选框;票据信息提取模块,其确定与票据对应的候选框并提取票据信息。
本发明的有益效果:
本发明通过票据要素及其相关的票据信息提取模板、票据信息提取候选框,从建立的超文本标记语言二维网格数据结构中搜索与票据要素对应的二维网格,并从此二维网格中提取出含有票据要素的票据信息。本发明应用不限于某一具体格式的票据,因而能适应不同格式的票据信息的提取,提高了繁杂票据信息处理的效率和智能化水平。
附图说明
图1是本发明一种票据信息提取方法的流程图;
图2是本发明中的票据信息提取模板示意图;
图3是本发明一种票据信息提取系统结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明的原理是利用选择性搜索(selective search)的思想,将不同格式的纸质票据整理成影像,然后将这些影像中的票据信息利用超文本标记语言整理成含有票据信息超文本的二维网格结构,然后通过选择的票据要素对应的超文本标记语言文本进行定位。采用含有票据要素的票据信息提取模板去票据信息二维网格结构中进行搜索、匹配。匹配完成后根据票据信息提取模板和二维网格的结构生成票据信息提取的候选框,通过票据要素、空白、经验值等因素确定候选框的边界。采用候选框评分器筛选出最适合的候选框,并根据此候选框的结构将相应的票据信息从繁杂的二维网格结构中提取出来。
图1示出了本发明的一个具体实施方式,在本发明一种票据信息提取方法中,票据信息的提取过程包括如下步骤:
步骤S101为建立超文本标记语言二维网格数据结构步骤。将不同格式、不同类型的纸质票据采用影像生成电子设备,例如扫描仪或数码相机、智能手机等,处理成含有票据所有信息的图片。此种处理有利于票据信息的保存和使用计算机批量处理,与人的手工处理相比提高效率,降低手工工作强度。然后利用光学字符识别(OCR)软件将图片中的文字信息转换成文本格式的信息以便于利用文字处理软件进一步编辑加工。
通过超文本标记语言(HTML)将OCR处理生成的文本信息整理成HTML格式的文本,同时生成含有此文本的HTML二维网格。根据此二维网格中得到文本的位置计算机可以快速搜索到此文本所在的文字块。在此二维网格中,该HTML格式的文本中的文字大小及位置与票据影像中的文字大小及位置相对应。例如:一个票据的影像是600*800像素的高和宽,那HTML就初始化一个600*800的数组A;如果一个文字块的坐标为(100,120),对应的二维数组的下标为A[100][120],从而在HTML二维网格中可以快速的搜索该文字块的位置,并从该文字块中获取相关的信息。
将上述与纸质票据对应的HTML二维网格整理可得到超文本标记语言二维网格数据结构。
步骤S102为搜索并定位票据要素对应的文本步骤。从大量票据中选取待提取票据信息的票据,从票据信息中选定一个票据要素,例如从名称、填制日期、单位名称、业务内容(含数量、单价、金额等)、填制单位签章、有关人员签章、凭证附件等票据要素中选取“单位名称”作为搜索用的票据要素。根据“单位名称”这个票据要素在HTML二维网格中搜索相对应的文本“单位名称”,从而在HTML二维网格中快速确定含有“单位名称”这个票据要素的票据范围。
步骤S103为选取票据信息提取模板步骤。选取一个与待提取信息票据含有相同票据要素(比如“单位名称”)的票据信息提取模板,将选定的票据信息提取模板放置到HTML二维网格中,使选定的模板中的票据要素(比如“单位名称”)与HTML二维网格中的票据要素文本(比如“单位名称”)相对应。根据此模板的结构布局将此模板与票据要素文本所在的HTML二维网格的结构进行比对,如果能匹配上,即可确定待提取信息票据的结构。如果不能匹配则选择其它结构布局的与待提取信息票据含有相同票据要素的票据信息提取模板再次与HTML二维网格进行比对匹配,直至匹配成功,确定待提取信息票据的结构。
上述票据信息提取模板是根据不同格式票据中的票据要素的位置与票据要素旁边空白位置和/或构成票据要素下一级内容的特征词之间的相互位置关系形成的结构布局进行统计处理得到的。图2示出了票据信息提取模板的几种基本类型。
在本发明的一个实施例中,将票据要素选为“单位名称”,会有图2中四种模板结构布局。如果在HTML二维网格中模板一不能匹配上,则继续选择模板二、模板三、模板四与HTML二维网格进行匹配,直至某一个模板匹配成功。例如,如果模板三的结构布局和待提取票据信息的票据结构布局相同,则选定模板三作为票据信息提取模板。
步骤S104为生成并选择票据信息提取候选框步骤。待提取信息票据结构确定后,在HTML二维网格中会自动生成一系列边界不同的票据信息提取候选框。然后通过票据要素对应文本的行高和长度、HTML二维网格中票据要素对应文本旁边的空白边界、票据要素对应文本旁边的二维网格线构成的表格的边界及经验值中的至少一个因素确定票据要素提取候选框的边界。
在本发明的一个实施例中,我们通过票据要素(比如“单位名称”)在在HTML二维网格中定位到大致位置,并选定模板三为票据信息提取模板。根据模板三的结构生成了一系列的票据信息提取候选框。然后需要确定票据要素右边的空白的边界和票据要素下边特征词的边界。HTML会以票据要素为起点,向右搜索,遇到空白会生成一个候选边界;HTML继续向右搜索,如果遇到表格线会再生成一个候选边界;HTML向下方搜索,遇到特征词又会生成一个候选边界。根据HTML中“单位名称”的行高和长度、“单位名称”右边空白的大小、特征词(例如“人民商场”)的行高和长度,可确定具体的票据要素提取候选框的边界。
步骤S105为确定候选框步骤。采用文本分类的卷积神经网络训练得到的候选框评分器对S104中确定边界后的不同候选框进行评分。在本发明的一个实施例中,具体评分过程为:将候选框中的文本输入候选框评分器,输出为是否为提取要素值得评分值。然后选取评分分值最高的候选框作为最终提取票据信息的候选框。
步骤S106提取票据信息步骤。将最终提取票据信息的候选框中的内容提取出来,得到票据的信息。
图3所示为本发明的一个具体实施方式,本发明一种票据信息提取系统包括以下部分:
超文本标记语言模块,其采用超文本标记语言建立含有票据信息对应文本且与票据结构相同的二维网格数据结构。在本发明的一个实施例中,具体建立二维网格数据结构的过程同技术方案一中的步骤S101。
票据要素对应文本搜索模块,其根据选取的票据要素在二维网格数据结构中搜索票据要素对应文本并确定其准确位置。在本发明的一个实施例中,具体搜索票据要素对应文本并确定其准确位置的过程同技术方案一中的步骤S102。
票据信息提取模板选择模块,其选择含有票据要素的票据信息提取模板并根据票据要素对应文本的位置将票据信息提取模板放置于票据要素对应文本所在的二维网格上生成票据信息提取的候选框。在本发明的一个实施例中,具体选择票据信息提取模板与生成票据信息提取候选框的过程同技术方案一中的步骤S103和步骤S104。
票据信息提取模块,其确定与票据对应的候选框并提取票据信息。在本发明的一个实施例中,具体确定候选框并提取信息的过程同技术方案一中的步骤S105。
本发明通过票据要素及其相关的票据信息提取模板、票据信息提取候选框,从建立的超文本标记语言二维网格数据结构中搜索与票据要素对应的二维网格,并从此二维网格中提取出含有票据要素的票据信息。本发明应用不限于某一具体格式的票据,因而能适应不同格式的票据信息的提取,提高了繁杂票据信息处理的效率和智能化水平。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种票据信息提取方法,其特征在于,包括以下步骤:
采用超文本标记语言建立含有所述票据信息对应文本且与所述票据结构相同的二维网格数据结构;
选取票据要素并在所述数据结构中搜索所述票据要素对应文本,然后确定所述票据要素对应文本的准确位置;
选择含有所述票据要素的票据信息提取模板;
根据所述票据要素对应文本的位置将所述票据信息提取模板放置于所述票据要素对应文本所在的二维网格上生成所述票据信息提取的候选框;
确定与所述票据对应的所述候选框;以及
提取所述票据信息。
2.如权利要求1所述的票据信息提取方法,其特征在于,所述二维网格数据结构的建立包括以下步骤:
将不同格式的纸质票据处理成包含全部票据信息的图片;
采用光学字符识别软件处理所述图片获得所述票据的影像信息;
采用超文本标记语言处理所述影像信息并生成含有所述票据信息对应文本且与所述票据结构相同的二维网格;以及
整理所述二维网格获得所述二维网格数据结构。
3.如权利要求2所述的票据信息提取方法,其特征在于,所述票据信息对应文本的文字大小与所述票据信息对应的影像信息中的文字大小相同。
4.如权利要求1所述的票据信息提取方法,其特征在于,根据所述票据信息提取模板的结构布局选择所述票据信息提取模板,所述所述票据信息提取模板的结构布局为构成所述票据信息提取模板的所述票据要素、空白和/或构成所述票据要素下一级内容的特征词之间的相互位置关系。
5.如权利要求1所述的票据信息提取方法,其特征在于,确定与所述票据对应的所述候选框包括以下步骤:
通过所述票据要素对应文本的行高和长度、所述二维网格中所述票据要素对应文本旁边的空白边界、所述票据要素对应文本旁边的所述二维网格线构成的表格的边界、经验值中的至少一个确定所述候选框的边界;以及
采用文本分类的卷积神经网络训练得到的候选框评分器对所述候选框进行评分,选择分值最高的作为所述票据对应的候选框。
6.一种票据信息提取系统,其特征在于,包括:
超文本标记语言模块,其采用超文本标记语言建立含有所述票据信息对应文本且与所述票据结构相同的二维网格数据结构;
票据要素对应文本搜索模块,其根据选取的票据要素在所述二维网格数据结构中搜索所述票据要素对应文本并确定其准确位置;
票据信息提取模板选择模块,其选择含有所述票据要素的票据信息提取模板并根据所述票据要素对应文本的位置将所述票据信息提取模板放置于所述票据要素对应文本所在的二维网格上生成所述票据信息提取的候选框;以及
票据信息提取模块,其确定与所述票据对应的所述候选框并提取所述票据信息。
7.如权利要求6所述的票据信息提取系统,其特征在于,所述二维网格数据结构的建立包括以下步骤:
将不同格式的纸质票据处理成包含全部票据信息的图片;
采用光学字符识别软件处理所述图片获得所述票据的影像信息;
采用超文本标记语言处理所述影像信息并生成含有所述票据信息对应文本且与所述票据结构相同的二维网格;以及
整理所述二维网格获得所述二维网格数据结构。
8.如权利要求7所述的票据信息提取系统,其特征在于,所述票据信息对应文本的文字大小与所述票据信息对应的影像信息中的文字大小相同。
9.如权利要求6所述的票据信息提取系统,其特征在于,根据所述票据信息提取模板的结构布局选择所述票据信息提取模板,所述所述票据信息提取模板的结构布局为构成所述票据信息提取模板的所述票据要素、空白和/或构成所述票据要素下一级内容的特征词之间的相互位置关系。
10.如权利要求6所述的票据信息提取系统,其特征在于,其特征在于,确定与所述票据对应的所述候选框包括以下步骤:
通过所述票据要素对应文本的行高和长度、所述二维网格中所述票据要素对应文本旁边的空白边界、所述票据要素对应文本旁边的所述二维网格线构成的表格的边界、经验值中的至少一个确定所述候选框的边界;以及
采用文本分类的卷积神经网络训练得到的候选框评分器对所述候选框进行评分,选择分值最高的作为所述票据对应的候选框。
CN202010006451.1A 2020-01-03 2020-01-03 一种票据信息提取方法及系统 Active CN111241955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010006451.1A CN111241955B (zh) 2020-01-03 2020-01-03 一种票据信息提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010006451.1A CN111241955B (zh) 2020-01-03 2020-01-03 一种票据信息提取方法及系统

Publications (2)

Publication Number Publication Date
CN111241955A true CN111241955A (zh) 2020-06-05
CN111241955B CN111241955B (zh) 2023-05-16

Family

ID=70872344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010006451.1A Active CN111241955B (zh) 2020-01-03 2020-01-03 一种票据信息提取方法及系统

Country Status (1)

Country Link
CN (1) CN111241955B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931687A (zh) * 2020-08-26 2020-11-13 珠海大横琴科技发展有限公司 一种票据识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070009158A1 (en) * 2005-07-06 2007-01-11 International Business Machines Corporation Paper and electronic recognizable forms
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
CN109977723A (zh) * 2017-12-22 2019-07-05 苏宁云商集团股份有限公司 大票据图片文字识别方法
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070009158A1 (en) * 2005-07-06 2007-01-11 International Business Machines Corporation Paper and electronic recognizable forms
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
CN109977723A (zh) * 2017-12-22 2019-07-05 苏宁云商集团股份有限公司 大票据图片文字识别方法
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931687A (zh) * 2020-08-26 2020-11-13 珠海大横琴科技发展有限公司 一种票据识别方法及装置
CN111931687B (zh) * 2020-08-26 2022-03-15 珠海大横琴科技发展有限公司 一种票据识别方法及装置

Also Published As

Publication number Publication date
CN111241955B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN108960223B (zh) 基于票据智能识别自动生成凭证的方法
US11868717B2 (en) Multi-page document recognition in document capture
CN111444793A (zh) 基于ocr的票据识别方法、设备、存储介质及装置
CN113010711B (zh) 一种基于深度学习的影视海报自动生成方法与系统
US8386943B2 (en) Method for query based on layout information
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
JPH0314184A (ja) 文書画像再配置ファイリング装置
CN105184329A (zh) 一种基于云平台的脱机手写识别方法
US11436852B2 (en) Document information extraction for computer manipulation
CN112381086A (zh) 一种结构化输出图像文字识别结果的方法及装置
CN113901933A (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN116092231A (zh) 票证识别方法、装置、终端设备以及存储介质
CN111241955B (zh) 一种票据信息提取方法及系统
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN112464907A (zh) 一种文档处理系统及方法
CN111860450A (zh) 票证识别装置以及票证信息管理系统
CN115713775B (zh) 一种从文档中提取表格的方法、系统和计算机设备
CN113743159A (zh) 一种应用于电力企业的ocr方法
CN109919153A (zh) 基于手写识别人工智能技术的自动单据录入系统及方法
Dulla A dataset of warped historical arabic documents
CN115359505A (zh) 一种电力图纸检测提取方法及系统
CN113065316A (zh) 将方正小样文件动态转换成html并录入题库、从题库选题组稿并生成小样文件的方法
CN1426017A (zh) 一种校对多个电子文件的方法及其系统
CN113657373A (zh) 一种文书自动编目方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant