CN105630817A - 一种电子发票内容解析的方法及系统 - Google Patents

一种电子发票内容解析的方法及系统 Download PDF

Info

Publication number
CN105630817A
CN105630817A CN201410609659.7A CN201410609659A CN105630817A CN 105630817 A CN105630817 A CN 105630817A CN 201410609659 A CN201410609659 A CN 201410609659A CN 105630817 A CN105630817 A CN 105630817A
Authority
CN
China
Prior art keywords
text
electronic invoice
module
character
textview field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410609659.7A
Other languages
English (en)
Other versions
CN105630817B (zh
Inventor
龚勇浩
戴晓栋
张玉魁
尹春天
范立波
杜英垒
黄新华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201410609659.7A priority Critical patent/CN105630817B/zh
Publication of CN105630817A publication Critical patent/CN105630817A/zh
Application granted granted Critical
Publication of CN105630817B publication Critical patent/CN105630817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种电子发票内容解析的方法及系统,属于文本内容提取技术领域,电子发票基于版式文件格式,主要包括位置解析模块、文本合并模块和文本关联识别模块,其中:位置解析模块调用版式文件解析引擎模块对电子发票内容进行位置解析,获取以字符为单位的位置信息集合;文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合;文本关联识别模块结合标签字典和文本域间隙对文本域集合进行文本域的关联识别;完成整个电子发票的解析工作,将解析数据存储到数据库中。该方法能有效地提高文本内容提取的通用性和适用性,能够解析出不同种类、不同样式风格的发票内容。

Description

一种电子发票内容解析的方法及系统
技术领域
本发明涉及文本内容提取技术领域,具体涉及一种电子发票内容解析的方法及系统。
背景技术
为了有效地节约社会资源,减少税务成本,并最终实现无纸化发票,我国正加大力度推广电子发票。随着电子发票受到越来越多地关注与使用,传统的发票管理系统已无法满足要求,取而代之的是电子发票管理系统的应运而生。由于电子发票管理系统需要对发票内容进行存储,所以电子发票内容的解析是必不可少的一步。但由于发票种类繁多、样式繁杂,如何提高发票解析方法的通用性和适用性是亟待解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电子发票内容解析的方法及系统,分析电子发票内容的位置信息,划分属于不同区域的文本,再根据区域的位置信息,找到相关联的区域文本,进而完成对电子发票内容的解析。
依据本发明的一个方面,提供了一种电子发票内容解析的方法,所述电子发票基于版式文件格式,包括位置解析模块、文本合并模块和文本关联识别模块,包括以下步骤:
所述位置解析模块调用版式文件解析引擎模块对所述电子发票内容进行位置解析,获取以字符为单位的位置信息集合;
所述文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合;
所述文本关联识别模块结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别;
完成整个所述电子发票的解析工作,将解析数据存储到数据库中。
进一步地,所述位置解析模块解析所述电子发票中每个字符的位置信息。
进一步地,所述位置信息包括字符的横坐标、纵坐标、高度、宽度、字体信息,获取到所述字符的位置信息列表,并将其保存至所述位置信息集合中。
进一步地,所述文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合的步骤中,具体包括:
将所述位置信息集合中的字符集按照从上到下、从左到右的方式排序;
利用字符间隙阈值,初步合并同一文本域的同行字符;
利用所述标签字典设置每个文本域文本行的类型属性;
将文本域文本行集按照从左到右、从上到下的方式排序;
利用文本行间隙阈值,合并同一文本域的不同行文本;
将合并后的文本域文本行集按照从上到下、从左到右的方式排序。
进一步地,所述标签字典定义需要提取的所述电子发票的票面元素。
进一步地,在所述文本关联识别模块结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别步骤中,具体包括:
所述文本关联识别模块接收来自所述文本合并模块的输出数据;
利用行间隙阈值和标签字典,确定所述电子发票中包含的所有商品行标签及其对应的内容;
完成所述电子发票的内容提取。
根据本发明的另一个方面,提供了一种电子发票内容解析的系统,包括基于版式文件格式的电子发票、版式文件解析引擎模块和数据库,还包括位置解析模块、文本合并模块和文本关联识别模块,其中:
所述位置解析模块适用于调用版式文件解析引擎模块对所述电子发票内容进行位置解析,获取以字符为单位的位置信息集合;
所述文本合并模块适用于采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合;
所述文本关联识别模块适用于结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别;
完成整个所述电子发票的解析工作,将解析数据存储到所述数据库中。
进一步的,所述位置解析模块解析所述电子发票中每个字符的位置信息,所述位置信息包括字符的横坐标、纵坐标、高度、宽度、字体信息,获取到所述字符的位置信息列表,并将其保存至所述位置信息集合中。
本发明采用了高效的版式文件内容提取、票面元素标签字典和模式识别的新方法,满足了各式版式文件格式的电子发票内容解析获取的需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例一的电子发票内容解析的方法流程图;
图2示出了根据本发明实施例二的电子发票内容解析的方法中的文本合并模块的处理流程图;
图3示出了根据本发明实施例三的电子发票内容解析的方法中的文本关联识别模块处理流程图。
图4示出了根据本发明实施例四的电子发票内容解析的系统框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
为了提高发票解析的通用性和适用性的问题,本发明提出了一种电子发票内容解析的方法及系统。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个附图并不构成对本发明实施例的限定。
实施例一、电子发票内容解析的方法。
下面结合图1对本实施例一的方法进行详细说明。
图1为本发明实施例一的电子发票内容解析的方法流程图,如图1所示,本发明实施例所述电子发票基于版式文件格式,包括位置解析模块、文本合并模块和文本关联识别模块,包括以下步骤:
步骤S101、所述位置解析模块调用版式文件解析引擎模块对所述电子发票内容进行位置解析,获取以字符为单位的位置信息集合。
具体的,所述位置解析模块解析所述电子发票中每个字符的位置信息。本发明实施例中优选的,所述位置信息包括字符的横坐标、纵坐标、高度、宽度、字体信息,获取到所述字符的位置信息列表,并将其保存至所述位置信息集合中。
所述位置解析模块是本方法的基础模块。
步骤S102、所述文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合。
具体的,所述文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合的步骤中,包括以下步骤:
将所述位置信息集合中的字符集按照从上到下、从左到右的方式排序;
利用字符间隙阈值,初步合并同一文本域的同行字符;
利用所述标签字典设置每个文本域文本行的类型属性;
将文本域文本行集按照从左到右、从上到下的方式排序;
利用文本行间隙阈值,合并同一文本域的不同行文本;
将合并后的文本域文本行集按照从上到下、从左到右的方式排序。
步骤S103、所述文本关联识别模块结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别。
具体的,所述标签字典定义需要提取的所述电子发票的票面元素。
本发明实施例中优选的,在所述文本关联识别模块结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别步骤中,具体包括:
所述文本关联识别模块接收来自所述文本合并模块的输出数据;
利用行间隙阈值和标签字典,确定所述电子发票中包含的所有商品行标签及其对应的内容;
完成所述电子发票的内容提取。
步骤S104、完成整个所述电子发票的解析工作,将解析数据存储到数据库中。
本发明实施例是一种基于位置信息的文本解析方法,该解析方法主要由三个模块组成:位置解析模块、文本合并模块、文本关联识别模块。利用本方法进行电子发票内容解析时,首先所述位置解析模块调用版式文件解析引擎模块对所述电子发票内容进行位置解析,获取以字符为单位的位置信息集合;在获取到所述位置信息集合之后,所述文本合并模块采用字符间隙对属于同一文本域(textarea,称文本域,又称文本区,即有滚动条的多行文本输入控件,在网页的提交表单中经常用到)的字符进行合并,得到文本域集合;然后所述文本关联模块结合标签字典、文本域间隙对所述文本域集合进行文本域的关联识别;最终完成整个电子发票内容的解析工作后,再将解析数据存储到数据库中。
其中的所述文本合并模块是本发明方法至关重要的一个模块。该模块主要实现功能是将属于同一个文本域的字符进行合并。该模块的输入数据是所述位置解析模块的输出数据,即字符的所述位置信息集合,输出数据是合并同一文本域后的内容集。下面的对其实现方法做出详细描述。
实施例二、电子发票内容解析的方法中的文本合并模块的处理流程。
下面结合图2对本实施例的方法进行详细说明。
图2为本发明实施例二的电子发票内容解析的方法中的文本合并模块的处理流程图,如图2所示,本实施例的方法包括以下步骤:
步骤S201、将所述位置信息集合中的字符集按照从上到下、从左到右的方式排序。
步骤S202、利用字符间隙阈值,初步合并同一文本域的同行字符。
步骤S203、利用所述标签字典设置每个文本域文本行的类型属性。
在本发明实施例中,所述标签字典定义了需要提取的电子发票的票面元素。通过使用所述标签字典,系统具有了适应业务变化的能力,当系统新增业务功能或现有业务功能改变时(例如,新种类的电子发票、发票票面的改变、规则的改变等),系统只需要调整所述标签字典。
步骤S204、将文本域文本行集按照从左到右、从上到下的方式排序。
步骤S205、利用文本行间隙阈值,合并同一文本域的不同行文本。
步骤S206、将合并后的文本域文本行集按照从上到下、从左到右的方式排序。
实施例三、电子发票内容解析的方法中的文本关联识别模块处理流程。
图3为本发明实施例三的电子发票内容解析的方法中的文本关联识别模块处理流程图。
步骤S301、根据所述标签字典,遍历所述文本行集,匹配一个商品行标签。
步骤S302、根据行间隙阈值和已匹配的商品行标签,找到所有商品行标签。
步骤S303、在商品行标签结束处开始遍历所述文本行集,确定商品行内容起始与结束位置。
步骤S304、判断当前索引的文本的属性类型。
步骤S305、如果当前索引的文本的属性类型是文本类型,则继续遍历,返回到步骤S304继续判断索引的文本的属性类型。
步骤S306、如果当前索引的文本的属性类型是标签类型,则结束遍历。
步骤S307、记录商品行内容的起始位置和结束位置。
步骤S308、将商品行内容按横坐标分组。
步骤S309、根据设定的阈值,确定商品行分组的对齐方式。
步骤S310、根据商品行分组的对齐方式,关联商品行标签与商品行内容。
步骤S311、确定商品行内容参考列。
步骤S312、根据参考列的位置信息,合并商品行内容的多行文本域。
步骤S313、遍历所述文本行集,关联普通标签与普通内容。
步骤S314、存储最后的解析内容。
所述文本关联识别模块接收来自所述文本合并模块的输出数据,利用行间隙阈值和所述标签字典,确定所述电子发票中包含的所有商品行标签及其对应的内容,从而完成电子发票的内容提取。
本发明所述方法采用了高效的版式文件内容提取模块、票面元素的标签字典和模式识别的新方法,满足了各式版式文件格式电子发票内容解析获取的需求。本方法提出的电子发票内容解析方法具有高适用性、高灵活性、高稳定性、高精确性等特点,可以与电子发票业务完全分离,作为独立系统,广泛应用于版式文件内容提取领域。
实施例四、电子发票内容解析的系统。
图4为本发明实施例四的电子发票内容解析的系统框图,包括版式文件格式电子发票401、版式文件解析引擎模块403和数据库408,还包括位置解析模块402、文本合并模块404和文本关联识别模块405,所述位置解析模块402、所述文本合并模块404和所述文本关联识别模块405均具有自定义数据结构407,其中:
所述位置解析模块402适用于调用所述版式文件解析引擎模块403对所述版式文件格式电子发票401内容进行位置解析,获取以字符为单位的位置信息集合;
所述文本合并模块404适用于采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合;
所述文本关联识别模块405适用于结合标签字典406和文本域间隙对所述文本域集合进行文本域的关联识别;
完成整个所述版式文件格式电子发票401的解析工作,将解析数据存储到所述数据库408中。
本实施例中优选的,所述位置解析模块解析所述电子发票中每个字符的位置信息,所述位置信息包括字符的横坐标、纵坐标、高度、宽度、字体信息,获取到所述字符的位置信息列表,并将其保存至所述位置信息集合中。
本实施例中的具体实现细节参考上述实施例一、实施例二和实施例三的内容,在此不再赘述。
本发明实施例的基于位置信息的文本解析的系统,能有效地提高文本内容提取的通用性和适用性,利用该系统,能够解析出不同种类、不同样式风格的电子发票内容。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种电子发票内容解析的方法,所述电子发票基于版式文件格式,包括位置解析模块、文本合并模块和文本关联识别模块,其特征在于,包括以下步骤:
所述位置解析模块调用版式文件解析引擎模块对所述电子发票内容进行位置解析,获取以字符为单位的位置信息集合;
所述文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合;
所述文本关联识别模块结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别;
完成整个所述电子发票的解析工作,将解析数据存储到数据库中。
2.根据权利要求1所述的电子发票内容解析的方法,其特征在于:所述位置解析模块解析所述电子发票中每个字符的位置信息。
3.根据权利要求2所述的电子发票内容解析的方法,其特征在于:所述位置信息包括字符的横坐标、纵坐标、高度、宽度、字体信息,获取到所述字符的位置信息列表,并将其保存至所述位置信息集合中。
4.根据权利要求1至3任一所述的电子发票内容解析的方法,其特征在于:所述文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合的步骤中,具体包括:
将所述位置信息集合中的字符集按照从上到下、从左到右的方式排序;
利用字符间隙阈值,初步合并同一文本域的同行字符;
利用所述标签字典设置每个文本域文本行的类型属性;
将文本域文本行集按照从左到右、从上到下的方式排序;
利用文本行间隙阈值,合并同一文本域的不同行文本;
将合并后的文本域文本行集按照从上到下、从左到右的方式排序。
5.根据权利要求1至4任一所述的电子发票内容解析的方法,其特征在于:所述标签字典定义需要提取的所述电子发票的票面元素。
6.根据权利要求1至5任一所述的电子发票内容解析的方法,其特征在于:在所述文本关联识别模块结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别步骤中,具体包括:
所述文本关联识别模块接收来自所述文本合并模块的输出数据;
利用行间隙阈值和标签字典,确定所述电子发票中包含的所有商品行标签及其对应的内容;
完成所述电子发票的内容提取。
7.一种电子发票内容解析的系统,包括基于版式文件格式的电子发票、版式文件解析引擎模块和数据库,其特征在于:还包括位置解析模块、文本合并模块和文本关联识别模块,其中:
所述位置解析模块适用于调用版式文件解析引擎模块对所述电子发票内容进行位置解析,获取以字符为单位的位置信息集合;
所述文本合并模块适用于采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合;
所述文本关联识别模块适用于结合标签字典和文本域间隙对所述文本域集合进行文本域的关联识别;
完成整个所述电子发票的解析工作,将解析数据存储到所述数据库中。
8.根据权利要求7所述的电子发票内容解析的系统,其特征在于:所述位置解析模块解析所述电子发票中每个字符的位置信息,所述位置信息包括字符的横坐标、纵坐标、高度、宽度、字体信息,获取到所述字符的位置信息列表,并将其保存至所述位置信息集合中。
CN201410609659.7A 2014-11-03 2014-11-03 一种电子发票内容解析的方法及系统 Active CN105630817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410609659.7A CN105630817B (zh) 2014-11-03 2014-11-03 一种电子发票内容解析的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410609659.7A CN105630817B (zh) 2014-11-03 2014-11-03 一种电子发票内容解析的方法及系统

Publications (2)

Publication Number Publication Date
CN105630817A true CN105630817A (zh) 2016-06-01
CN105630817B CN105630817B (zh) 2019-06-25

Family

ID=56045765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410609659.7A Active CN105630817B (zh) 2014-11-03 2014-11-03 一种电子发票内容解析的方法及系统

Country Status (1)

Country Link
CN (1) CN105630817B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548383A (zh) * 2016-12-08 2017-03-29 用友网络科技股份有限公司 电子发票的处理方法及处理装置
CN106960049A (zh) * 2017-03-31 2017-07-18 武汉数文科技有限公司 考古数据的处理方法、装置及系统
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN108345880A (zh) * 2018-01-26 2018-07-31 金蝶软件(中国)有限公司 发票识别方法、装置、计算机设备和存储介质
CN109614596A (zh) * 2018-12-13 2019-04-12 税友软件集团股份有限公司 一种电子票据处理方法、装置和系统
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN110188755A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN111444702A (zh) * 2020-03-31 2020-07-24 贵阳块数据城市建设有限公司 一种基于标识技术的历史产品信息解析方法
CN112651725A (zh) * 2019-10-11 2021-04-13 清华大学 电子发票解析方法和装置
CN113361514A (zh) * 2021-06-08 2021-09-07 上海商米科技集团股份有限公司 基于关键字知识库的购物小票信息解析方法及系统
WO2022142627A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 地址信息的提取方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070164882A1 (en) * 2006-01-13 2007-07-19 Monro Donald M Identification of text
CN103295001A (zh) * 2013-06-03 2013-09-11 哈尔滨理工大学 应用于手持设备的发票信息识别设备及发票信息识别方法
CN103488999A (zh) * 2013-09-11 2014-01-01 东华大学 一种发票数据记录方法
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法
US20140270536A1 (en) * 2013-03-13 2014-09-18 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070164882A1 (en) * 2006-01-13 2007-07-19 Monro Donald M Identification of text
US20140270536A1 (en) * 2013-03-13 2014-09-18 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
CN103295001A (zh) * 2013-06-03 2013-09-11 哈尔滨理工大学 应用于手持设备的发票信息识别设备及发票信息识别方法
CN103488999A (zh) * 2013-09-11 2014-01-01 东华大学 一种发票数据记录方法
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何文基: "机动车销售统一发票识别算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
虞飞: "机打普通商业发票识别系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548383A (zh) * 2016-12-08 2017-03-29 用友网络科技股份有限公司 电子发票的处理方法及处理装置
CN106960049A (zh) * 2017-03-31 2017-07-18 武汉数文科技有限公司 考古数据的处理方法、装置及系统
CN108108342B (zh) * 2017-11-07 2021-09-03 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN108345880A (zh) * 2018-01-26 2018-07-31 金蝶软件(中国)有限公司 发票识别方法、装置、计算机设备和存储介质
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN109614596A (zh) * 2018-12-13 2019-04-12 税友软件集团股份有限公司 一种电子票据处理方法、装置和系统
CN110188755A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN110188755B (zh) * 2019-05-30 2021-09-07 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN112651725A (zh) * 2019-10-11 2021-04-13 清华大学 电子发票解析方法和装置
CN112651725B (zh) * 2019-10-11 2022-12-13 清华大学 电子发票解析方法和装置
CN111444702A (zh) * 2020-03-31 2020-07-24 贵阳块数据城市建设有限公司 一种基于标识技术的历史产品信息解析方法
WO2022142627A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 地址信息的提取方法、装置、设备及介质
CN113361514A (zh) * 2021-06-08 2021-09-07 上海商米科技集团股份有限公司 基于关键字知识库的购物小票信息解析方法及系统

Also Published As

Publication number Publication date
CN105630817B (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN105630817A (zh) 一种电子发票内容解析的方法及系统
CN107622230B (zh) 一种基于区域识别与分割的pdf表格数据解析方法
US9798925B2 (en) Method for identifying PDF document
CN101727461B (zh) 一种网页的正文抽取方法
US7836390B2 (en) Strategies for processing annotations
CN101206639B (zh) 一种基于pdf的复杂版面的标引方法
CN104598577B (zh) 一种网页正文的提取方法
CN102043762B (zh) 一种版面比对的方法及装置
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
CN101354727B (zh) 一种建立数字文档目录与正文之间链接的方法及装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN103064827A (zh) 一种网页内容抽取的方法及装置
CN105302626B (zh) Xps结构化数据的解析方法
GB2487600A (en) System for extracting data from an electronic document
JP5380040B2 (ja) 文書処理装置
CN104951429A (zh) 版式电子文档的页眉页脚识别方法及装置
CN103559512B (zh) 一种文字识别输出方法及系统
CN102937949A (zh) 一种在富文本编辑器内实现英文拼写检查的方法及系统
CN110427488A (zh) 文档的处理方法及装置
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
CN101354723B (zh) 一种实现组合字段的方法及装置
CN106777281B (zh) 用于提高网络爬虫稳定性、可用性的数据处理方法及装置
CN103176956B (zh) 用于提取文档结构的方法和装置
Belaïd et al. Morphological tagging approach in document analysis of invoices
CN102479072B (zh) 一种多表头报表的生成方法、装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant