CN116469118B - 电子票据的解析、标注方法、系统、设备及介质 - Google Patents
电子票据的解析、标注方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116469118B CN116469118B CN202310310384.6A CN202310310384A CN116469118B CN 116469118 B CN116469118 B CN 116469118B CN 202310310384 A CN202310310384 A CN 202310310384A CN 116469118 B CN116469118 B CN 116469118B
- Authority
- CN
- China
- Prior art keywords
- target
- value
- bill
- field
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000004458 analytical method Methods 0.000 title claims description 26
- 238000004590 computer program Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 description 48
- 238000012015 optical character recognition Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1465—Aligning or centring of the image pick-up or image-field by locating a pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Inspection Of Paper Currency And Valuable Securities (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开一种电子票据的解析、标注方法、系统、设备及介质,解析方法包括从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;获取与所述目标字段的字段名相对应的相对位置关系;确定与所述目标字段对应的位置坐标之间符合所述相对位置关系的位置坐标,作为目标位置坐标;从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值。本申请基于预先存储的电子票据包含字段中的字段名和相对位置关系,快速确定电子票据中,符合所述目标值的位置坐标的值,实现电子票据的高效解析。
Description
技术领域
本申请涉及计算机自然语言处理技术领域,尤其涉及一种电子票据的解析、标注方法、系统、设备及介质。
背景技术
电子票据,是通过对实物票据(如身份证、发票、费用结算单等)进行电子化得到的文件。
一般地,电子票据中会包含用于表达实物票据中的信息的数据,且数据承载在电子票据包含的字段中。字段中的数据所表达的信息,可分为关键字和值,如对于费用结算单,其包含的字段中的数据有:姓名张三;出生日期2020-01-01;人员编号001等,其中,姓名、出生日期和人员编号为关键字,张三、2020-01-01和001为关键字对应的值。
目前,对电子票据的解析需求,一般会包含:确定电子票据包含的字段中的关键字与值的对应关系。对于标准票据(如火车票、身份证)而言,由于关键字和值在标准票据中的相对位置固定,从而对标准票据对应的电子票据进行解析时,比较容易确定关键字和相应的值的对应关系;而对于不同来源的非标准票据(比如不同医院的诊疗记录单等),由于其内容格式差异较大,因此从相应的电子票据中确定关键字和值的对应关系比较困难。
对于非标准票据对应的电子票据而言,如何高效确定关键字与值的对应关系,是亟待解决的问题。
发明内容
本申请实施例提供一种电子票据的解析、标注方法、系统、设备及介质,用以解决现有技术中存在的如何高效确定非标准票据中的关键字和值的对应关系的问题。
本申请实施例采用下述技术方案:
一种电子票据的解析方法,包括:
从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征所述目标字段中的目标关键字在原票据中的位置;
根据所述目标字段的字段名,从预先对应存储的与所述电子票据的票据类型相匹配的所述电子票据所包含的字段的字段名和相对位置关系中,获取与所述目标字段的字段名相对应的相对位置关系;所述相对位置关系表征:所述字段中的关键字在原票据中的第一位置,与所述关键字对应的值在原票据中的第二位置,之间的位置关系;
根据所述目标字段对应的位置坐标,以及与所述目标字段的字段名相对应的相对位置关系,确定与所述目标字段对应的位置坐标之间符合所述相对位置关系的位置坐标,作为目标位置坐标;
从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值。
一种电子票据的标注方法,包括:
从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征:所述目标字段中的目标关键字在原票据中的第一位置,以及所述目标字段中的目标值在原票据中的第二位置;
根据所述目标字段对应的位置坐标,以及预设的目标关键字与目标值的对应关系,确定所述目标关键字与相对应的目标值的相对位置关系;
将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储。
一种电子票据的解析系统,包括:
第一字段信息获取单元,用于从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征所述目标字段中的目标关键字在原票据中的位置;
相对位置信息获取单元,根据所述目标字段的字段名,从预先对应存储与所述电子票据的票据类型相匹配的所述电子票据所包含的字段的字段名和相对位置关系中,获取与所述目标字段的字段名相对应的相对位置关系;所述相对位置关系表征:所述字段中的关键字在原票据中的第一位置,与所述关键字对应的值在原票据中的第二位置,之间的位置关系;
目标位置确定单元,根据所述目标字段对应的位置坐标,以及与所述目标字段的字段名相对应的相对位置关系,确定与所述目标字段对应的位置坐标之间符合所述相对位置关系的位置坐标,作为目标位置坐标;
目标值确定单元,用于从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值。
一种电子票据的标注系统,包括:
第二字段信息获取单元,从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征:所述目标字段中的目标关键字在原票据中的第一位置,以及所述目标字段中的目标值在原票据中的第二位置;
相对位置确定单元,根据所述目标字段对应的位置坐标,以及预设的目标关键字与目标值的对应关系,确定所述目标关键字与相对应的目标值的相对位置关系;
标注存储单元,用于将所述相对位置关系与所述电子票据相匹配的票据类型对应存储。
一种电子票据解析设备,包括:存储器及处理器,其中,
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述计算机程序,以用于执行上述电子票据的解析方法。
一种电子票据标注设备,包括:存储器及处理器,其中,
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述计算机程序,以用于上述电子票据的标注方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述电子票据的解析方法,或者能够实现上述电子票据的标注方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例在获取到当前电子票据包含的目标字段的字段名和对应的位置坐标后,基于预先存储的电子票据包含字段中的字段名和相对位置关系,计算目标关键字对应的目标值的位置坐标,从而快速确定电子票据中,符合所述目标值的位置坐标的值,实现电子票据的高效解析。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例1提供的一种电子票据的解析方法的具体实现流程图;
图2为本申请实施例2提供的一种电子票据的解析方法的具体实现流程图;
图3为本申请实施例2中通过目标值的属性的约束条件进行电子票据解析的具体实现流程图;
图4为字段均在单元格中的电子票据示例图;
图5字段未在单元格中的电子票据示例图;
图6为本申请实施例3提供的一种电子票据的标注方法的具体实现流程图;
图7为本申请实施例4提供的一种电子票据的标注方法的具体实现流程图部分一;
图8为本申请实施例4提供的一种电子票据的标注方法的具体实现流程图部分二;
图9为本申请实施例5提供的一种电子票据的解析系统的结构示意图;
图10为本申请实施例6提供的一种电子票据的标注系统的结构示意图;
图11为本申请实施例提供的一种计算设备的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
实施例1
本申请实施例1提供了一种电子票据的解析方法,用以解决现有技术存在的如何高效确定非标准票据中的关键字和值的对应关系的问题。
该方法的执行主体,可以是任意的可实现该方法的计算设备,如服务器、手机、个人电脑、智能可穿戴设备、智能机器人,等等。
该方法的不同步骤可以是同一执行主体实现的,也可以是不同执行主体实现的,本申请实施例对采用怎样的执行主体来实现该方法不做限定。
此外,本申请实施例对不同步骤的执行顺序也不做限定。在使用本申请实施例提供的该方法时,可以根据实际需求,调整不同步骤的执行顺序。
为便于描述,以下以一种电子票据的解析设备作为本方法的执行主体为例,对本申请实施例提供的该方法进行详细介绍。
如图1所示,为本申请实施例提供的一种电子票据的解析方法,包括:
步骤101,从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征所述目标字段中的目标关键字在原票据中的位置。
在一种实现方式中,对于不同来源的非标准票据,通过OCR(Optical CharacterRecognition,光学字符识别)识别后,得到原票据对应的电子票据。通过OCR非标准识别接口返回的报文中包括电子票据包含的目标字段的字段名,以及通过行标识、列标识定位的目标字段的位置坐标。
在一种实现方式中,将OCR识别得到的信息存储在如下表1所示的票据OCR识别信息表中,表1存储OCR非标接口识别到的原始信息,其中模板id表征当前电子票据匹配的标注模板信息;票据id表征电子票据的身份识别信息;内容信息是要解析为关键字(key)和值(value)的信息;行标识、行占位、列标识和列占位共同确定了字段的位置坐标;枚举字段名表征表1当前行的内容信息所对应的可能的命名方式,如对应的内容信息为姓名,枚举字段名为名字、名称等;标准字段名表征表1当前行的内容信息所对应的标准的命名方式,可人为设定标准字段名。另外通过表1中的枚举字段名和标准字段名的对应的信息能够快速确定电子票据的原始识别信息与下文中票据字典表已有字段的匹配关系。
表1:
在一种实现方式中,基于获取的电子票据包含的目标字段的字段名,确定当前电子票据对应的票据类型。
本实施例中以贝叶斯分类器为例,介绍电子票据对应的票据类型的确定过程。
首先对贝叶斯分类器涉及的一些技术术语进行如下解释:
1、先验概率,是指是指根据以往经验和分析得到的概率,如全概率公式,它往往作为″由因求果″问题中的″因″出现的概率。
2、后验概率P(ci|x),是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的″果″。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。
3、期望损失(条件风险)R(ci|x),基于后验概率活的样本x分类为ci所产生的期望损失,即在样本x上的条件风险,表达式为:式中,N表示票据可能存在的类别,λij表示将一个真实类别为cj的样本判为cx的损失。
4、分类条件风险R(h),表达式为:R(h)=Ex【R(h(x)|x)】,其中Ex表示样本x。
基于贝叶斯分类器确定票据类型的理论依据为:
基于后验概率P(ci|x)可获得将样本x分类为ci所产生的期望损失,即在样本x上的条件风险R(ci|x);
而期望损失等于条件风险,因此找到一个判断准则h:X→Y能最小化整体风险,就是机器学习的目标。贝叶斯判定准则为最小化总体风险,只需要在每个样本上选择能使风险R(c|x)最小的类别标记,即:h*(x)=argmincR(c|x);
1-R(h*)反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型进度的理论上限。基于贝叶斯定理,可以写成:式中,P(c|x)表示事件x发生情况下c发生的概率,P(x|c)表示事件c发生的情况下x发生的概率;
使用朴素贝叶斯分类器,采用属性条件独立性假设,基于属性条件独立性假设的贝叶斯公式可写为:式中,d表述属性数目,xi表示x属于第i属性的取值;
由于对所有类别来书说P(x)相同,基于h*(x)=argmaxcR(c|x),贝叶斯判定准则为:
朴素贝叶斯的训练就是基于数据集D来估计类先验概率P(x),并为每个属性估计条件概率P(xi|c),令DC表示训练集D中第c类样本组成的集合,若有充足的独立同分布样本,则很容易估计出类先验概率。
本实施例中的样本均为离散苏醒,令xi表示DC在第i个属性上取值为xi的样本组成的集合,则条件概率P(xi|c)可估计为:
在本实施例确定票据类型涉及的一种场景中,通过数据量统计,可以确定特定业务场景下收集到的原票据的票据类型以及票据类型对应的先验概率、每种票据收集到的概率,以及每种票据包含各个字段的概率。以社会保障保险理赔业务场景为例,如果要判断的未知类别票据包含的字段名包括姓名、医疗机构名称、医疗费总额、基本统筹基金支付金额、自费金额等,以此来确定票据类型。
1)计算先验概率:票据类型和统计到的先验概率,如P(发票)=0.7表示票据类型为发票的概率为0.7。
2)为每个票据类型估计条件概率P(xi|c):以发票为例,P(姓名/发票)=1(表示票据类型为发票时,包含“姓名”这一字段名的概率为1)、P(医疗机构名称/发票)=1、P(医疗费总额/发票)=1、P(基本统筹基金支付金额/发票)=0.7、P(自费金额/发票)=0.9…其它票据类型计算方法相同。
3)根据了公式连乘,确定结果:如当识别到的字段名为姓名、身份证、医疗机构名称、医疗费用总额、基本统筹基金支付金额、自费金额时,这张票据类型为发票的概率P(发票/(姓名、身份证、医疗机构名称、医疗费总额、基本统筹基金支付金额、自费金额))=
P(发票)*P(姓名/发票)*P(身份证/发票)*P(医疗机构名称/发票)*P(医疗费总额/发票)*P(基本统筹基金支付金额/发票)*P(自费金额/发票)=0.441
其它票据类型计算方法相同:如医疗结算单:0.432;医疗费用清单:0.72......
结果可以看出“医疗费用清单”概率更高,因此最终判别结果为“医疗费用清单”。
以上介绍了根据电子票据包含的目标字段的字段名确定票据类型的一种实现方式。
电子票据的目标字段中包括目标关键字和目标值,在进行电子票据的解析时,需要区分目标关键字和目标值。
在一种实现方式中,建立如表2所示的票据字典表:
表2:
该票据字典表中包括字段的字段名有票据类型、票据id、标准字段名、枚举字段名、是否模板划分维度字段、字段类型和字段属性等。其中,票据id表征票据的身份识别信息;标准字段名是本实施例进行电子票据解析的所述目标关键字;枚举字段名是指在不同的票据中,标准字段名可能的对应的命名方式(如对于目标关键字“姓名”,其对应的枚举字段名可以是“名字”、“名称”、“name”),通常根据汇总和经验初始化,以及在标注新的图片时添加;是否划分维度字段,是本实施例基于实际,为加快电子票据的解析效率,而设定的特殊字段:由于同一机构出具的票据版式相同,例如同一家医疗机构出具的医疗结算单样式相同,为了充分利用这一特点,可以把医疗机构作为模板的划分维度,也就是每个医疗机构的医疗结算单都配置一个模板,这样的好处是如果同一家医疗机构的结算单在解析时可以使用“配置化标注模板精确解析”,更精确效率更高。字段类型根据标注模板表的标注情况统计得到,如设定超过80%的标准模板具有该属性,则判定该单据类型具有该属性,字段类型的属性可以是字符串或数字;其它属性同样根据标注模板表的标注情况统计得到,如设定超过80%的标准模板具有该属性,则判定该单据类型具有该属性,此处的其它属性可以是当前目标关键字对应的目标值为所有目标值中的最大值(标注l标记)、或当前目标关键字对应的目标值为同行目标值中距离最远的目标值(标注f标记)。
步骤102,根据所述目标字段的字段名,从预先对应存储的与所述电子票据的票据类型相匹配的所述电子票据所包含的字段的字段名和相对位置关系中,获取与所述目标字段的字段名相对应的相对位置关系;所述相对位置关系表征:所述字段中的关键字在原票据中的第一位置,与所述关键字对应的值在原票据中的第二位置,之间的位置关系。
在一种实现方式中,所述目标字段的字段名相对应的相对位置关系存储在预设的标注模板表中,如表3所示。
表3:
需要说明的是,一个票据类型有多个模板(如对于医疗费用结算单这一票据类型,第一医院和人民医院分别具有一个模板),每个“模板划分维度”有一个模板,可以根据目标电子票据上识别到的预设字段名——模板划分维度字段,如第一医院,找到合适的模板。
标注模板表中的位置关系和相对距离共同构成本实施例中所述的相对位置关系。其中标注模板表中的位置关系有r、u、cr、cu四种取值:r表示值(value)在关键字(key)的右方;u表示值(value)在关键字(key)的下方;cr表示值(value)与关键字(key)在同一单元格且在其右方;cu表示值(value)与关键字(key)在同一单元格且在其下方。标注模板表中的相对距离的确定为:在紧挨着的右方或下方,相对距离1;跨n个格子,相对距离是n;在同一单元格的情况,位置关系cr,没有空格,相对距离0;有n个空格,相对距离是n;位置关系cu,有n个换行符,相对距离是n。
需要说明的是,上述对位置关系和相对距离的距离均指的垂直方向,在一种新场景下,本领域技术人员容易想到关键字与值的相对位置关系不是垂直方向,对应的位置关系的取值可以包括角度信息,相对距离可以包括欧式距离等相关描述信息。
步骤103,根据所述目标字段对应的位置坐标,以及与所述目标字段的字段名相对应的相对位置关系,确定与所述目标字段对应的位置坐标之间符合所述相对位置关系的位置坐标,作为目标位置坐标;
步骤104,从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值。
在一种实现方式中,将解析得到的目标关键字与目标值的对应关系存储在如下表4所示的票据关键信息解析表中。
表4:
模板id | 票据id | 标准字段名(key) | 枚举字段名(key) | 值(value) |
在一种实现方式中,根据标注模板表中存储的目标值的属性的约束条件,从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值。所述目标值的约束条件对应表3标注模板表的字段类型和其它属性部分,其中目标值的属性包括目标值对应的字段类型、所述目标值的数值大小、所述目标值相距所述目标关键字的距离大小、所述目标值与目标关键字对应的历史目标值的语义相似度。
从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值,包括:从所述电子票据中,确定对应于所述目标位置坐标的值;若存在多个对应于所述目标位置坐标的值,则根据所述约束条件,从所述多个对应于所述目标位置坐标的值中,选取符合所述约束条件的值,作为目标关键字对应的目标值。
本实现方式中,通过目标值所具备的属性,能够从多个目标值中快速选取与当前目标关键字对应的目标值。
实施例2
本申请实施例2提供了一种电子票据的解析方法,用以解决现有技术存在的如何高效确定非标准票据中的关键字和值的对应关系的问题。
该方法的执行主体,可以是任意的可实现该方法的计算设备,如服务器、手机、个人电脑、智能可穿戴设备、智能机器人,等等。
该方法的不同步骤可以是同一执行主体实现的,也可以是不同执行主体实现的,本申请实施例对采用怎样的执行主体来实现该方法不做限定。
此外,本申请实施例对不同步骤的执行顺序也不做限定。在使用本申请实施例提供的该方法时,可以根据实际需求,调整不同步骤的执行顺序。
为便于描述,以下以一种电子票据的解析设备作为本方法的执行主体为例,对本申请实施例提供的该方法进行详细介绍。
如图2所示,为本申请实施例提供的一种电子票据的解析方法,包括:
步骤201,调用OCR接口识别,将电子票据的识别信息存入票据OCR识别信息表中,其中识别信息包括票据id、内容信息(目标字段的字段名)、行标识、行占位、列标识和列占位。
步骤202,逐个解析内容信息,与票据字典表中的标准字段名、枚举字段名进行匹配,将匹配结果对应存储到票据OCR识别信息表中。其中匹配过程中,若无法精确匹配,则使用词向量语义匹配,如果内容信息中的字段名与票据字段表中的标准字段名(枚举字段名)的词向量语义匹配达到设定阈值,则认为匹配成功。
步骤203,根据票据OCR识别信息表中的标准字段名,通过贝叶斯分类器确定票据类型。
步骤204,在票据字典表中查询当前票据类型的维度划分字段:如果票据字典表中的是否模板划分维度字段取值为1,则当前票据类型存在维度划分字段,且是否模板划分维度字段取值为1对应的标准字段名为维度划分字段。
步骤205,判断当前电子票据上是否查询到该维度划分字段,若是执行步骤206,若否执行步骤209。
步骤206,在标注模板表中查找维度划分字段对应的字段名,如上述表2所示,维度划分字段对应的字段名为医疗机构。
步骤207,判断当前维度划分字段的字段名是否配置了标注模板,即在标注模板表中是否有关于当前票据类型的维度划分字段对应的字段名的标注模板的记录;若是执行步骤208,若否执行步骤209。
步骤208,获取票据OCR识别信息表中目标关键字的位置坐标,根据标注模板表中当前目标关键字对应的位置关系和相对距离计算目标值的位置坐标,从票据OCR识别信息表中匹配该位置坐标的值,记录到票据关键信息解析表中。
步骤209,通过目标关键字的目标值的属性的约束条件,确定目标关键字对应的目标值,记录到票据关键信息解析表中。
在一种实现方式中,步骤209的具体实现过程如图3所示(图中key表示目标关键字,value表示目标值),以下步骤中提及的目标关键字与标准字段名对应。实现方式包括:
步骤301,从票据OCR识别信息表中获取目标关键字、目标关键字的位置坐标,以及目标关键字所在单元格的位置信息。
步骤302,判断目标关键字key所在的单元格中是否存在目标值value,若是,执行步骤303,若否,执行步骤310。
步骤303,查看票据字典表,目标关键字(标准字段名)是否对应有最远距离属性(f),若是,执行步骤304,若否,执行步骤307。
步骤304,判断目标关键字和目标值之间是否存在换行符,若是,执行步骤305,若否,执行步骤306。
步骤305,从票据OCR识别信息表中,获取同一单元格中与目标关键字同行距离最远的目标值,以及同一单元格中与目标关键字同列距离最远的目标值。
步骤306,从票据OCR识别信息表中,获取同一单元格中与目标关键字key同行距离最远的目标值value。
步骤307,判断目标关键字和目标值之间是否存在换行符,若是,执行步骤308,若否,执行步骤309。
步骤308,从票据OCR识别信息表中,获取同一单元格中与目标关键字key右侧紧邻位置的value和key下方紧邻位置的目标值value。
步骤309,从票据OCR识别信息表中,获取同一单元格中与目标关键字key右侧紧邻位置的目标值value。
步骤310,查看票据字典表,判断目标关键字key是否对应有最远距离属性,若是,执行步骤311,若否,执行步骤312。
步骤311,从票据OCR识别信息表中,获取与目标关键字key同行距离最远的单元格内的value,以及与key同列距离最远的单元格内的目标值value。
步骤312,从票据OCR识别信息表中,获取与目标关键字key同行右侧的单元格内的value,以及与key同列下方的单元格内的目标值value。
步骤313,对于步骤305、步骤308、步骤311和步骤312得到的目标值value可能不止一个,查看票据字典表,判断目标关键字是否对应有数值最大属性(l),若是,执行步骤314,若否,执行步骤316。其中的数值最大是指目标关键字对应的目标值的数值最大。
步骤314,判断得到的目标值value的个数是否大于1,若是,执行步骤316,若否,执行步骤315。
步骤315,确定当前1个目标值value为目标关键字的值,并将目标关键字与该对应的值写入票据关键信息解析表中。
步骤316,判断满足票据字典表中字段类型的value的个数是否大于1,若是,执行步骤318,若否,执行步骤317。
步骤317,确定当前1个目标值value为目标关键字的值,并将目标关键字与该对应的值写入票据关键信息解析表中。
步骤318,将value与目标关键字对应的历史value作语义相似度对比,选取相似度最大的value作为目标关键字对应的值,并将目标关键字与该对应的值写入票据关键信息解析表中。
需要说明的是,本实施例中电子票据包含的字段均在单元格中,如图4所示,通过基础OCR接口能够返回单元格的位置信息。
然而实际情况中,存在字段不在单元格中的票据,如图5所示,除字段名“普通处方”存在单元格内,其余字段名均不在单元格内。对于这种电子票据,从电子票据中获取目标字段对应的位置坐标之前,还包括:从电子票据中,获取文本区域的区域边界的位置信息;所述文本区域,包括所述电子票据中的字段在所述原票据中所在的文本区域;按照设定的位置坐标转换方式,将所述文本区域的区域边界的位置信息,转换为所述电子票据中的字段对应的位置坐标;将转化得到的字段的位置坐标,保存至所述电子票据中。
在一种实现方式中,使用能够返回文字区域块位置信息的基础OCR接口识别票据,返回的报文信息中包含文本区域的区域边界的位置信息。区域边界的位置信息包括文本区域的高度、宽度,以及文本区域的左边界和上边界;或者区域边界的位置信息包括文本区域的宽度、高度,以及文本区域的右边界和下边界。
所述位置坐标转换方式具体为(以区域边界的位置信息包括文本区域的高度、宽度,以及文本区域的左边界和上边界为例进行说明):
(1)根据上边界和高度计算文本区域的下边界,根据右边界和宽度计算文本区域的左边界;
(2)标记行数,由于上一行的下边界一定下于其下一行的上边界,可以判断出哪些文本区域在同一行,从而标记出每个文本区域的所在的行数;
(3)根据文本区域的上、下边界画格子的横线,计算行标识和行占位。逐行进行处理,在同一行的值找出上边界最小的,作为该行的行标识,相当于在一行中位置最靠上的文本上紧挨着画了一条线。行占位为下一行的行标识减去上一行的行标识。
(4)根据文本区域的左、右边界画格子的竖线,计算列标识和列占位。列标识为每个字段的左边界,相当于紧挨着每个文本左侧画了一条竖线。列占位为右侧字段的左边界减去其左侧字段的左边界,最后一列的列占位等于它的宽度。
根据上述步骤(1)~步骤(4)得到电子票据中每个字段的行标识、列标识、行占位和列占位,即得到每个字段的位置坐标,以及每个字段所在单元格的位置信息。
对于字段不完全存在单元格中的电子票据,即部分字段存在单元格中,另一部分字段未存在单元格中的电子票据。调用能够返回文字区域块位置信息的基础OCR接口得到第一文本信息,调用能够返回单元格位置信息的基础OCR接口得到第二文本信息,取第一文本信息和第二文本信息的差值,得到字段未存在单元格的第三文本信息,将第三文本信息对应采用上述步骤(1)~步骤(4)的方式得到每个字段的位置坐标。
本实施例中,对于文本信息不在单元格中的电子票据,通过预设的位置坐标转换方式,得到目标字段的位置信息,使得本实施例的电子票据解析方法能够适用于多种形式的电子票据。
实施例3
本申请实施例3提供了一种电子票据的标注方法,用以解决现有技术存在的如何高效确定非标准票据中的关键字对应的相对位置关系的问题。
该方法的执行主体,可以是任意的可实现该方法的计算设备,如服务器、手机、个人电脑、智能可穿戴设备、智能机器人,等等。
该方法的不同步骤可以是同一执行主体实现的,也可以是不同执行主体实现的,本申请实施例对采用怎样的执行主体来实现该方法不做限定。
此外,本申请实施例对不同步骤的执行顺序也不做限定。在使用本申请实施例提供的该方法时,可以根据实际需求,调整不同步骤的执行顺序。
为便于描述,以下以一种电子票据的解析设备作为本方法的执行主体为例,对本申请实施例提供的该方法进行详细介绍。
如图6所示,为本申请实施例提供的一种电子票据的标注方法,电子票据的标注是指确定关键字与对应值的相对位置关系,将目标值与对应的相对位置关系对应存储。所述电子票据的标注方法包括:
步骤601,从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征:所述目标字段中的目标关键字在原票据中的第一位置,以及所述目标字段中的目标值在原票据中的第二位置。
在一种实现方式中,对于不同来源的非标准票据,通过OCR(Optical CharacterRecognition,光学字符识别)识别后,得到原票据对应的电子票据。通过OCR非标准识别接口返回的报文中包括电子票据包含的目标字段的字段名,以及通过行标识、列标识定位的目标字段的位置坐标。目标字段包括目标关键字和目标值。
步骤602,根据所述目标字段对应的位置坐标,以及预设的目标关键字与目标值的对应关系,确定所述目标关键字与相对应的目标值的相对位置关系。
相对位置关系包括目标关键字与目标值的位置关系(r、u、cr、cu)和相对距离(目标值在目标关键字紧挨着的右方或下方,相对距离1;跨n个格子,相对距离是n;在同一单元格的情况,位置关系cr,没有空格,相对距离0;有n个空格,相对距离是n;位置关系Cu,有n个换行符,相对距离是n)
步骤603,将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储。
在一种实现方式中,所述将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储,包括:如果所述目标字段的字段名中存在预设名称,则将包含所述预设名称的电子票据中的目标字段,以及目标字段相对应的所述相对位置关系存入模板表中。
所属预设名称对应上述实施例中的维度划分字段对应的字段名,作为是否配置标注模板的判据。所述预设名称如上文所提到的医疗机构。
在一种实现方式中,所述将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储,包括:所述模板表的目标关键字与相对应的目标值的相对位置关系中,如果该目标值符合预设的目标值的属性的约束条件,则将该目标值符合的约束条件与所述电子票据相匹配的票据类型对应存储。
目标值的属性,包括所述目标值对应的字段类型(对应的约束条件为字符串、数值);所述目标值的数值大小(对应的约束条件为最大、最小);所述目标值相距所述目标关键字的距离大小(对应的约束条件为最远、最近);所述目标值与目标关键字对应的历史目标值的语义相似度(对应的约束条件为语义相似度最大)。
实施例4
本申请实施例4提供了一种电子票据的标注方法,用以解决现有技术存在的如何高效确定非标准票据中的关键字对应的相对位置关系的问题。
该方法的执行主体,可以是任意的可实现该方法的计算设备,如服务器、手机、个人电脑、智能可穿戴设备、智能机器人,等等。
该方法的不同步骤可以是同一执行主体实现的,也可以是不同执行主体实现的,本申请实施例对采用怎样的执行主体来实现该方法不做限定。
此外,本申请实施例对不同步骤的执行顺序也不做限定。在使用本申请实施例提供的该方法时,可以根据实际需求,调整不同步骤的执行顺序。
为便于描述,以下以一种电子票据的解析设备作为本方法的执行主体为例,对本申请实施例提供的该方法进行详细介绍。
如图7、8所示,为本申请实施例提供的一种电子票据的标注方法,包括:
步骤700,调用OCR接口识别,将电子票据的识别信息存入票据OCR识别信息表中,其中识别信息包括票据id、内容信息(目标字段的字段名)、行标识、行占位、列标识和列占位。
步骤701,逐个解析内容信息,与票据字典表中的标准字段名、枚举字段名进行匹配,将匹配结果对应存储到票据OCR识别信息表中。其中匹配过程中,若无法精确匹配,则使用词向量语义匹配,如果内容信息中的字段名与票据字段表中的标准字段名(枚举字段名)的词向量语义匹配达到设定阈值,则认为匹配成功。
步骤702,根据票据OCR识别信息表中的标准字段名,通过贝叶斯分类器确定票据类型。
步骤703,在票据字典表中查询当前票据类型的维度划分字段:如果票据字典表中的是否模板划分维度字段取值为1,则当前票据类型存在维度划分字段,且是否模板划分维度字段取值为1对应的标准字段名为维度划分字段。
步骤704,判断当前电子票据上是否查询到该维度划分字段,若是执行步骤705,若否执行步骤708。
步骤705,在标注模板表中查找维度划分字段对应的字段名,如上述表2所示,维度划分字段对应的字段名为医疗机构。
步骤706,判断当前维度划分字段的字段名是否配置了标注模板,即在标注模板表中是否有关于当前票据类型的维度划分字段对应的字段名的标注模板的记录;若是(说明当前电子票据已被标注过),则结束标注,若否执行步骤707。
步骤707,在标注模板表中增加一条记录,即将当前包含维度划分字段的电子票据的标注信息存入标注模板表中。
步骤708,遍历票据字段表中的标准字段名,如果当前电子票据对应的字段名不存在票据字典表中,则在票据字典表中对应增加一个枚举字段名。
步骤709,从票据OCR识别信息表中,分别获取目标关键字key和对应的目标值value的位置坐标,计算key和value的相对位置关系。
步骤710,判断key和value的位置坐标是否相同,若是(key和value在同一单元格中),执行步骤711,若否(key和value不在同一单元格中),执行步骤724。
步骤711,判断key和value之间是否有换行符,若是,执行步骤712,若否,执行步骤718。
步骤712,位置关系标注cu。
步骤713,根据key和value间隔的换行符的个数n,相对距离标注n。
步骤714,判断同一单元格中,value所在列纵向值比较,value是否距离key最远,若是,执行步骤715,若否,执行步骤716。
步骤715,标注距离大小属性f。
步骤716,判断同一单元格中,value所在列纵向值比较,value是否最大,若是,执行步骤717,若否,执行步骤737。
步骤717,标注数值大小属性l。
步骤718,位置关系标注cr。
步骤719,根据间隔的空格个数n,相对距离标注n。
步骤720,判断同一单元格中,value所在行横向值比较,value是否距离key最远,若是,执行步骤721,若否,执行步骤722。
步骤721,标注距离大小属性f。
步骤722,判断同一单元格中,value所在行横向值比较,value是否最大,若是,执行步骤723,若否,执行步骤737。
步骤723,标注数值大小属性l。
步骤724,比较key和value的行标识、列标识;即分别比较key和value的行标识是否相同,比较key和value的列标识是否相同。若行标识相同,执行步骤725,若列标识相同,执行步骤731。
步骤725,位置关系标注r。
步骤726,根据同行间隔的单元格个数n,相对距离标注n。
步骤727,value所在行全部单元格的值比较,判断value是否距离key最远,若是,执行步骤728,若否,执行步骤729。
步骤728,标注距离大小属性f。
步骤729,value所在行横向值比较,判断value是否最大,若是,执行步骤730,若否,执行步骤737。
步骤730,标注数值大小属性l。
步骤731,位置关系标注u。
步骤732,根据同列间隔的单元格个数n,相对距离标注n。
步骤733,value所在列全部单元格的值比较,判断value是否距离key最远,若是,执行步骤734,若否,执行步骤735。
步骤734,标注距离大小属性f。
步骤735,判断value所在行全部单元格的值比较,value是否最大,若是,执行步骤736,若否,执行步骤737。
步骤736,标注数值大小属性l。
步骤737,根据值所属的字段类型,标注字段类型属性。
步骤738,计算同一票据类型下,对应同一目标关键字的,全部标注模板的标注属性若超过预设阈值(如80%),则标记票据字典表的相应标准字段名对应的属性。
在一种实现方式中,已有的历史数据是天然的标注数据,即已经录入的数据和原票据图片。将原票据图片批量导入自动标注模块,逐个调用OCR非标接口,通过上述流程图(图7、8)匹配完成自动化标注。例如在社保理赔业务系统中,系统中积累了大量医疗机构的票据数据,一次性完成标注后,能够对这些医疗机构的票据覆盖精确解析能力。历史数据和图片是已有的标注数据。将图片逐个导入标注模块,自动生成标注数据。
在一种实现方式中,可以主动标注一个模板,在标注页面上传一张标注单据图片,系统调用自适应学习规则自动解析出key、value,人工进行单据类型、key、value的检查和修正,即完成了标注工作。
在一种实现方式中,识别解析一张票据图片,都会自动完成一次标注,数据库中的数据越来越丰富,特别是特殊属性能够充分挖掘,精确解析覆盖的单据模板越来越多,解析正确率不断提高。
实施例5
为解决现有技术存在的如何高效确定非标准票据中的关键字和值的对应关系的问题,出于与本申请上述实施例1相同的发明构思,本申请实施例5提供一种电子票据的解析系统。
该解析系统的具体结构示意图如图9所示,包括如下功能单元:
第一字段信息获取单元901,用于从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征所述目标字段中的目标关键字在原票据中的位置;
相对位置信息获取单元902,根据所述目标字段的字段名,从预先对应存储与所述电子票据的票据类型相匹配的所述电子票据所包含的字段的字段名和相对位置关系中,获取与所述目标字段的字段名相对应的相对位置关系;所述相对位置关系表征:所述字段中的关键字在原票据中的第一位置,与所述关键字对应的值在原票据中的第二位置,之间的位置关系;
目标位置确定单元903,根据所述目标字段对应的位置坐标,以及与所述目标字段的字段名相对应的相对位置关系,确定与所述目标字段对应的位置坐标之间符合所述相对位置关系的位置坐标,作为目标位置坐标;
目标值确定单元904,用于从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值。
实施例6
为解决现有技术存在的如何高效确定对应的相对位置关系的问题,出于与本申请上述实施例3相同的发明构思,本申请实施例6提供一种电子票据的标注系统。
该标注系统的具体结构示意图如图10所示,包括如下功能单元:
第二字段信息获取单元1001,从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征:所述目标字段中的目标关键字在原票据中的第一位置,以及所述目标字段中的目标值在原票据中的第二位置;
相对位置确定单元1002,根据所述目标字段对应的位置坐标,以及预设的目标关键字与目标值的对应关系,确定所述目标关键字与相对应的目标值的相对位置关系;
标注存储单元1003,用于将所述相对位置关系与所述电子票据相匹配的票据类型对应存储。
实施例7
出于与本申请前述各实施例相同的发明构思,本申请实施例7提供一种计算设备,该计算设备可以包括电子票据解析设备和电子票据标注设备。
如图11所示,所述计算设备包括:存储器1101及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器1102,与存储器1101耦合,用于执行存储器1101中存储的计算机程序,以用于执行本申请实施例1中所述的一种电子票据的解析方法,或本申请实施例3中所述的一种电子票据的分类方法。
处理器1102在执行存储器1101中的计算机程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步的,如图11所示,计算设备还包括:显示器1104、通信组件1103、电源组件1105、音频组件1106等其它组件。图11中仅示意性给出部分组件,并不意味着计算设备只包括图11所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (11)
1.一种电子票据的解析方法,其特征在于,包括:
从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征所述目标字段中的目标关键字在原票据中的位置;
根据所述目标字段的字段名,从预先对应存储的与所述电子票据的票据类型相匹配的所述电子票据所包含的字段的字段名和相对位置关系中,获取与所述目标字段的字段名相对应的相对位置关系;所述相对位置关系表征:所述字段中的关键字在原票据中的第一位置,与所述关键字对应的值在原票据中的第二位置,之间的位置关系;
根据所述目标字段对应的位置坐标,以及与所述目标字段的字段名相对应的相对位置关系,确定与所述目标字段对应的位置坐标之间符合所述相对位置关系的位置坐标,作为目标位置坐标;
从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值;
预先对应存储的内容还包括对于所述目标值的属性的约束条件;则,
所述从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值,包括:
从所述电子票据中,确定对应于所述目标位置坐标的值;
若存在多个对应于所述目标位置坐标的值,则根据所述约束条件,从所述多个对应于所述目标位置坐标的值中,选取符合所述约束条件的值,作为目标关键字对应的目标值;
所述从所述多个对应于所述目标位置坐标的值中,选取符合所述约束条件的值,作为目标关键字对应的目标值,包括:
步骤301,从票据OCR识别信息表中获取目标关键字、目标关键字的位置坐标,以及目标关键字所在单元格的位置信息;
步骤302,判断目标关键字key所在的单元格中是否存在目标值value,若是,执行步骤303,若否,执行步骤310;
步骤303,查看票据字典表,目标关键字是否对应有最远距离属性,若是,执行步骤304,若否,执行步骤307;
步骤304,判断目标关键字和目标值之间是否存在换行符,若是,执行步骤305,若否,执行步骤306;
步骤305,从票据OCR识别信息表中,获取同一单元格中与目标关键字同行距离最远的目标值,以及同一单元格中与目标关键字同列距离最远的目标值;
步骤306,从票据OCR识别信息表中,获取同一单元格中与目标关键字key同行距离最远的目标值value;
步骤307,判断目标关键字和目标值之间是否存在换行符,若是,执行步骤308,若否,执行步骤309;
步骤308,从票据OCR识别信息表中,获取同一单元格中与目标关键字key右侧紧邻位置的value和key下方紧邻位置的目标值value;
步骤309,从票据OCR识别信息表中,获取同一单元格中与目标关键字key右侧紧邻位置的目标值value;
步骤310,查看票据字典表,判断目标关键字key是否对应有最远距离属性,若是,执行步骤311,若否,执行步骤312;
步骤311,从票据OCR识别信息表中,获取与目标关键字key同行距离最远的单元格内的value,以及与key同列距离最远的单元格内的目标值value;
步骤312,从票据OCR识别信息表中,获取与目标关键字key同行右侧的单元格内的value,以及与key同列下方的单元格内的目标值value;
步骤313,对于步骤305、步骤308、步骤311和步骤312得到的目标值value可能不止一个,查看票据字典表,判断目标关键字是否对应有数值最大属性,若是,执行步骤314,若否,执行步骤316,其中的数值最大是指目标关键字对应的目标值的数值最大;
步骤314,判断得到的目标值value的个数是否大于1,若是,执行步骤316,若否,执行步骤315;
步骤315,确定当前1个目标值value为目标关键字的值,并将目标关键字与该对应的值写入票据关键信息解析表中;
步骤316,判断满足票据字典表中字段类型的value的个数是否大于1,若是,执行步骤318,若否,执行步骤317;
步骤317,确定当前1个目标值value为目标关键字的值,并将目标关键字与该对应的值写入票据关键信息解析表中;
步骤318,将value与目标关键字对应的历史value作语义相似度对比,选取相似度最大的value作为目标关键字对应的值,并将目标关键字与该对应的值写入票据关键信息解析表中。
2.根据权利要求1所述的方法,其特征在于,所述目标值的属性,包括以下至少一种:
所述目标值对应的字段类型;
所述目标值的数值大小;
所述目标值相距所述目标关键字的距离大小;
所述目标值与目标关键字对应的历史目标值的语义相似度。
3.根据权利要求1所述的方法,其特征在于,从电子票据中获取目标字段对应的位置坐标之前,所述方法还包括:
从电子票据中,获取文本区域的区域边界的位置信息;所述文本区域,包括所述电子票据中的字段在所述原票据中所在的文本区域;
按照设定的位置坐标转换方式,将所述文本区域的区域边界的位置信息,转换为所述电子票据中的字段对应的位置坐标;
将转化得到的字段的位置坐标,保存至所述电子票据中。
4.一种电子票据的标注方法,其特征在于,所述电子票据采用如权利要求1-3中任一项所述的解析方法进行解析,所述标注方法包括:
从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征:所述目标字段中的目标关键字在原票据中的第一位置,以及所述目标字段中的目标值在原票据中的第二位置;
根据所述目标字段对应的位置坐标,以及预设的目标关键字与目标值的对应关系,确定所述目标关键字与相对应的目标值的相对位置关系;
将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储;
所述将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储,包括:
模板表的目标关键字与相对应的目标值的相对位置关系中,如果该目标值符合预设的目标值的属性的约束条件,则将该目标值符合的约束条件与所述电子票据相匹配的票据类型对应存储。
5.根据权利要求4所述的方法,其特征在于,所述目标值的属性,包括以下至少一种:
所述目标值对应的字段类型;
所述目标值的数值大小;
所述目标值相距所述目标关键字的距离大小;
所述目标值与目标关键字对应的历史目标值的语义相似度。
6.根据权利要求4所述的方法,其特征在于,所述将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储,包括:
如果所述目标字段的字段名中存在预设名称,则将包含所述预设名称的电子票据中的目标字段,以及目标字段相对应的所述相对位置关系存入模板表中。
7.一种电子票据的解析系统,其特征在于,包括:
第一字段信息获取单元,用于从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征所述目标字段中的目标关键字在原票据中的位置;
相对位置信息获取单元,根据所述目标字段的字段名,从预先对应存储与所述电子票据的票据类型相匹配的所述电子票据所包含的字段的字段名和相对位置关系中,获取与所述目标字段的字段名相对应的相对位置关系;所述相对位置关系表征:所述字段中的关键字在原票据中的第一位置,与所述关键字对应的值在原票据中的第二位置,之间的位置关系;
目标位置确定单元,根据所述目标字段对应的位置坐标,以及与所述目标字段的字段名相对应的相对位置关系,确定与所述目标字段对应的位置坐标之间符合所述相对位置关系的位置坐标,作为目标位置坐标;
目标值确定单元,用于从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值;
预先对应存储的内容还包括对于所述目标值的属性的约束条件;则,
所述目标值确定单元中,从所述电子票据中,确定对应于所述目标位置坐标的值,作为与所述目标关键字对应的目标值,包括:
从所述电子票据中,确定对应于所述目标位置坐标的值;
若存在多个对应于所述目标位置坐标的值,则根据所述约束条件,从所述多个对应于所述目标位置坐标的值中,选取符合所述约束条件的值,作为目标关键字对应的目标值;
所述从所述多个对应于所述目标位置坐标的值中,选取符合所述约束条件的值,作为目标关键字对应的目标值,包括:
步骤301,从票据OCR识别信息表中获取目标关键字、目标关键字的位置坐标,以及目标关键字所在单元格的位置信息;
步骤302,判断目标关键字key所在的单元格中是否存在目标值value,若是,执行步骤303,若否,执行步骤310;
步骤303,查看票据字典表,目标关键字是否对应有最远距离属性,若是,执行步骤304,若否,执行步骤307;
步骤304,判断目标关键字和目标值之间是否存在换行符,若是,执行步骤305,若否,执行步骤306;
步骤305,从票据OCR识别信息表中,获取同一单元格中与目标关键字同行距离最远的目标值,以及同一单元格中与目标关键字同列距离最远的目标值;
步骤306,从票据OCR识别信息表中,获取同一单元格中与目标关键字key同行距离最远的目标值value;
步骤307,判断目标关键字和目标值之间是否存在换行符,若是,执行步骤308,若否,执行步骤309;
步骤308,从票据OCR识别信息表中,获取同一单元格中与目标关键字key右侧紧邻位置的value和key下方紧邻位置的目标值value;
步骤309,从票据OCR识别信息表中,获取同一单元格中与目标关键字key右侧紧邻位置的目标值value;
步骤310,查看票据字典表,判断目标关键字key是否对应有最远距离属性,若是,执行步骤311,若否,执行步骤312;
步骤311,从票据OCR识别信息表中,获取与目标关键字key同行距离最远的单元格内的value,以及与key同列距离最远的单元格内的目标值value;
步骤312,从票据OCR识别信息表中,获取与目标关键字key同行右侧的单元格内的value,以及与key同列下方的单元格内的目标值value;
步骤313,对于步骤305、步骤308、步骤311和步骤312得到的目标值value可能不止一个,查看票据字典表,判断目标关键字是否对应有数值最大属性,若是,执行步骤314,若否,执行步骤316,其中的数值最大是指目标关键字对应的目标值的数值最大;
步骤314,判断得到的目标值value的个数是否大于1,若是,执行步骤316,若否,执行步骤315;
步骤315,确定当前1个目标值value为目标关键字的值,并将目标关键字与该对应的值写入票据关键信息解析表中;
步骤316,判断满足票据字典表中字段类型的value的个数是否大于1,若是,执行步骤318,若否,执行步骤317;
步骤317,确定当前1个目标值value为目标关键字的值,并将目标关键字与该对应的值写入票据关键信息解析表中;
步骤318,将value与目标关键字对应的历史value作语义相似度对比,选取相似度最大的value作为目标关键字对应的值,并将目标关键字与该对应的值写入票据关键信息解析表中。
8.一种电子票据的标注系统,其特征在于,所述电子票据采用如权利要求7所述的解析系统进行解析,所述标注系统包括:
第二字段信息获取单元,从电子票据中,获取所述电子票据包含的目标字段的字段名,以及所述目标字段对应的位置坐标;所述目标字段对应的位置坐标,表征:所述目标字段中的目标关键字在原票据中的第一位置,以及所述目标字段中的目标值在原票据中的第二位置;
相对位置确定单元,根据所述目标字段对应的位置坐标,以及预设的目标关键字与目标值的对应关系,确定所述目标关键字与相对应的目标值的相对位置关系;
标注存储单元,用于将所述相对位置关系与所述电子票据相匹配的票据类型对应存储;
所述标注存储单元中,将所述目标关键字、相对位置关系,以及与所述电子票据相匹配的票据类型对应存储,包括:
模板表的目标关键字与相对应的目标值的相对位置关系中,如果该目标值符合预设的目标值的属性的约束条件,则将该目标值符合的约束条件与所述电子票据相匹配的票据类型对应存储。
9.一种电子票据解析设备,其特征在于,包括:存储器及处理器,其中,
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述计算机程序,以用于执行权利要求1~3任一权项所述的方法。
10.一种电子票据标注设备,其特征在于,包括:存储器及处理器,其中,
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述计算机程序,以用于执行权利要求4~6任一项所述的方法。
11.一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现权利要求1~3任一权项所述的电子票据的解析方法,或能够实现权利要求4~6任一项所述的电子票据的标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310310384.6A CN116469118B (zh) | 2023-03-24 | 2023-03-24 | 电子票据的解析、标注方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310310384.6A CN116469118B (zh) | 2023-03-24 | 2023-03-24 | 电子票据的解析、标注方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116469118A CN116469118A (zh) | 2023-07-21 |
CN116469118B true CN116469118B (zh) | 2025-02-11 |
Family
ID=87183387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310310384.6A Active CN116469118B (zh) | 2023-03-24 | 2023-03-24 | 电子票据的解析、标注方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469118B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550189A (zh) * | 2021-12-23 | 2022-05-27 | 上海浦东发展银行股份有限公司 | 票据识别方法、装置、设备、计算机存储介质和程序产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389124B (zh) * | 2018-10-29 | 2019-09-13 | 苏州派维斯信息科技有限公司 | 小票信息类目识别方法 |
CN111475700B (zh) * | 2020-03-19 | 2024-11-26 | 深圳赛安特技术服务有限公司 | 一种数据提取方法及相关设备 |
CN111931784B (zh) * | 2020-09-17 | 2021-01-01 | 深圳壹账通智能科技有限公司 | 票据识别方法、系统、计算机设备与计算机可读存储介质 |
-
2023
- 2023-03-24 CN CN202310310384.6A patent/CN116469118B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550189A (zh) * | 2021-12-23 | 2022-05-27 | 上海浦东发展银行股份有限公司 | 票据识别方法、装置、设备、计算机存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN116469118A (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325110B (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
US9785830B2 (en) | Methods for automatic structured extraction of data in OCR documents having tabular data | |
US10789281B2 (en) | Regularities and trends discovery in a flow of business documents | |
US8620079B1 (en) | System and method for extracting information from documents | |
CN112183036B (zh) | 一种格式文档生成方法、装置、设备及存储介质 | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
CN113420116B (zh) | 医疗文档的分析方法、装置、设备及介质 | |
WO2020207167A1 (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
CN113255642B (zh) | 一种用于人伤理赔的医疗票据信息整合方法 | |
CN113255767B (zh) | 票据分类方法、装置、设备及存储介质 | |
CN114821612B (zh) | 一种证券期货场景下pdf文档的信息抽取方法和系统 | |
CN113642562A (zh) | 基于图像识别的数据解读方法、装置、设备及存储介质 | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
CN110853739A (zh) | 图像管理显示方法、装置、计算机设备及存储介质 | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN118172785A (zh) | 文档信息抽取方法、装置、设备、存储介质和程序产品 | |
CN114202759A (zh) | 基于深度学习的多币种纸币冠字号识别方法和装置 | |
CN119720992A (zh) | 一种pdf文档的差异比对方法及相关装置 | |
CN116469118B (zh) | 电子票据的解析、标注方法、系统、设备及介质 | |
US20140181124A1 (en) | Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents | |
CN118351599A (zh) | 基于ai的在线合同自动化签署方法、装置、设备及介质 | |
CN115878807B (zh) | 一种基于城市大脑的一网通办案件分类方法及系统 | |
CN114730356B (zh) | 日报数据整形装置 | |
HK40030842A (zh) | 基於ocr的表格版式恢復方法、裝置及存儲介質 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |