CN114612921A - 表单识别方法、装置、电子设备和计算机可读介质 - Google Patents

表单识别方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN114612921A
CN114612921A CN202210511300.0A CN202210511300A CN114612921A CN 114612921 A CN114612921 A CN 114612921A CN 202210511300 A CN202210511300 A CN 202210511300A CN 114612921 A CN114612921 A CN 114612921A
Authority
CN
China
Prior art keywords
application form
attribute
text
identification
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210511300.0A
Other languages
English (en)
Other versions
CN114612921B (zh
Inventor
李佳辰
王哲
岳丰
陈卓
王桂强
舒光斌
方兴
宋群力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Citic Securities Co ltd
Original Assignee
Citic Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Citic Securities Co ltd filed Critical Citic Securities Co ltd
Priority to CN202210511300.0A priority Critical patent/CN114612921B/zh
Publication of CN114612921A publication Critical patent/CN114612921A/zh
Application granted granted Critical
Publication of CN114612921B publication Critical patent/CN114612921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Input (AREA)

Abstract

本公开的实施例公开了表单识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组;对上述表单文件组中的各个表单文件进行图像转换,得到申请单图像集;对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集;对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。该实施方式可以提高表单识别的效率和表单识别结果的准确度。

Description

表单识别方法、装置、电子设备和计算机可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及表单识别方法、装置、电子设备和计算机可读介质。
背景技术
表单识别,是用于快速识别表单内容的一项技术。目前,在表单识别时,通常采用的方式为:通过人工的方式识别并录入表单信息或通过深度学习网络模型进行表单识别。
然而,当采用上述方式进行表单识别时,经常会存在如下技术问题:
第一,由于表单数量较多,人工的方式会使得表单识别录入的速度极慢,导致表单识别的效率低下;
第二,由于申请单种类繁多,表结构复杂,从而,导致深度学习网络模型的准确度不足;
第三,对于不同的表结构采用相同的识别方式,而未考虑申请单自身的表结构容易产生识别误差,从而,降低识别结果的准确度;
第四,不能在确保表单识别效率的同时,确保表单识别结果的准确度。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了表单识别方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种表单识别方法,该方法包括:响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组;对上述表单文件组中的各个表单文件进行图像转换,得到申请单图像集;对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集;对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。
第二方面,本公开的一些实施例提供了一种表单识别装置,该装置包括:文档分割单元,被配置成响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组;图像转换单元,被配置成对上述表单文件组中的各个表单文件进行图像转换,得到申请单图像集;申请单识别单元,被配置成对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集;检验处理单元,被配置成对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的表单识别方法,可以极大地提高申请单识别的效率。具体来说,造成申请单识别效率低下的原因在于:由于表单数量较多,人工的方式会使得表单识别录入的速度极慢,导致表单识别的效率低下。基于此,本公开的一些实施例的表单识别方法,首先,响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组。然后,对上述表单文件组中的各个表单文件进行图像转换,得到申请单图像集。通过得到申请单图像,可以便于进行申请单识别。之后,对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集。最后,对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。从而,不仅可以替换人工的方式,且可以通过检验处理提高申请单识别结果的准确度。由此,通过本公开的一些实施例的表单识别方法,可以提高表单识别的效率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是本公开的一些实施例的表单识别方法的一个应用场景的示意图;
图2是根据本公开的表单识别方法的一些实施例的流程图;
图3是根据本公开的表单识别方法的一些实施例的属性识别模型的示意图;
图4是根据本公开的表单识别方法的一些实施例的新的向量表示的生成示意图;
图5是根据本公开的表单识别方法的一些实施例的处理流程的示意图;
图6是根据本公开的表单识别方法的一些实施例的版面图像的示意图;
图7是根据本公开的表单识别方法的一些实施例的模型结构的示意图;
图8是根据本公开的表单识别装置的一些实施例的结构示意图;
图9是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1是本公开的一些实施例的表单识别方法的一个应用场景的示意图。
在图1的应用场景中,首先,计算设备101可以响应于接收到表单文档102,对上述表单文档102进行文档分割处理,得到表单文件组103。然后,计算设备101可以对上述表单文件组103中的各个表单文件进行图像转换,得到申请单图像集104。之后,计算设备101可以对上述申请单图像集104中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集105。最后,计算设备101可以对上述申请单识别结果集105中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集106。
需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
继续参考图2,示出了根据本公开的表单识别方法的一些实施例的流程200。该表单识别方法的流程200,包括以下步骤:
步骤201,响应于接收到表单文档,对表单文档进行文档分割处理,得到表单文件组。
在一些实施例中,表单识别方法的执行主体(如图1所示的计算设备101)可以响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组。其中,表单文档可以包括至少一页的内容。因此,为了可以更好的识别,通过文档分割工具对上述表单文档进行文档分割处理,得到表单文件组。每个表单文件可以对应表单文档中的一页内容。文档分割工具可以包括但不限于以下至少一项:PDF Page Organizer(Portable DocumentFormat Page Organizer可携带文档格式文档管理器)、PDFSplit-Merge(PDF分割合并工具)等。
作为示例,表单文档可以是包括至少一页内容的信息申请单。若接收到的表单文档的格式为PDF文档格式。那么,分割后的表单文件可以是单页的PDF文件。
在一些实施例的一些可选的实现方式中,上述执行主体对上述表单文档进行文档分割处理,得到表单文件组,可以包括以下步骤:
第一步,对上述表单文档进行文档拆分,得到单页文件集。其中,可以通过上述文档分割工具对上述表单文档进行文档拆分,得到单页文件集。
第二步,对上述单页文件集中的各个单页文件进行筛选,以生成表单文件组。其中,首先,可以通过预设的文件识别算法,对单页文件集中的各个单页文件进行识别以确定空白文件。其次,将单页文件集中属于空白文件的单页文件去除,得到表单文件组。通过去除空白页面,不仅可以避免空白页面对识别结果的干扰,还可以提高识别效率。
作为示例,上述文件识别算法可以包括但不限于以下至少一项:DSSM(DeepStructured Semantic Model,深度结构化语义模型)、LSTM(Long-Short Term Memory,长短期记忆)模型等。
上述步骤201及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题二“由于申请单种类繁多,表结构复杂,从而,导致深度学习网络模型的准确度不足”。其中,首先,通过进行文档拆分,以单页文件的形式进行后续的申请单识别,可以降低识别难度。其次,还通过筛选,可以去除干扰项,使得可以提高申请单识别的效率和准确度。
步骤202,对表单文件组中的各个表单文件进行图像转换,得到申请单图像集。
在一些实施例中,上述执行主体可以对上述申请单文件组中的各个申请单文件进行图像转换,得到申请单图像集。其中,可以将申请单文件组中的申请单文件从PDF格式转换到图像格式,得到申请单图像集。
实践中,由于光学字符识别接口对于图像的识别效果相对更好。因此,将申请单文件转换为申请单图像。以提高识别结果的准确度。
步骤203,对申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集。
在一些实施例中,上述执行主体可以对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集。
在一些实施例的一些可选的实现方式中,上述执行主体对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,可以包括以下步骤:
第一步,响应于确定从上述申请单图像提取到表格结构,将上述申请单图像确定为纯表格申请单图像。其中,可以通过OCR(Optical Character Recognition,光学字符识别)算法,对上述申请单图像进行表格结构提取。
第二步,对上述纯表格申请单图像进行表格识别,得到申请单识别结果。其中,可以通过上述OCR算法,对上述纯表格申请单图像进行表格识别,得到申请单识别结果。其中,通过OCR的表格识别接口可以很高效地将表格所有信息识别出来,接着根据需要抽取的字段名称匹配表格第一列所识别出的属性,如果不能匹配到完整字段,则增加OCR对于单个字识别结果的多样性并且通过正则表达式进行一定程度的模糊匹配,从而在保证准确的前提下,提高成功率。匹配成功之后,同行的其他列内容就是要抽取的字段值。
在一些实施例的一些可选的实现方式中,上述执行主体对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,还可以包括以下步骤:
第一步,响应于确定从上述申请单图像未提取到表格结构,将上述申请单图像确定为文本混合申请单图像。
第二步,对上述文本混合申请单图像进行图像特征提取,得到图像特征向量。其中,可以通过图像特征提取算法,对上述文本混合申请单图像进行图像特征提取,得到图像特征向量。
作为示例,上述图像特征提取算法可以包括但不限于以下至少一项:SIFT(Scale-invariant Feature Transform,尺度不变特征转换)算法、BRIEF(Binary RobustIndependent Elementary Features,特征描述子算法)等。
第三步,从预设的申请单模板集中选出与上述图像特征向量相匹配的申请单模板,作为目标申请单模板。其中,首先,可以将上述图像特征向量输入至预设的分类算法,得到分类标识。然后,可以从申请单模板集中选出与上述分类标识相匹配的申请单模板。其次,申请单模板集中的每个申请单模板可以对应一个申请单模板标识。上述相匹配可以是申请单模板标识与上述分类标识相同。
作为示例,上述分类算法可以是SVM(support vector machines,支持向量机)算法。
第四步,利用上述目标申请单模板,对上述申请单图像进行申请单识别,得到申请单识别结果。
在一些实施例的一些可选的实现方式中,上述目标申请模板可以包括:申请单属性名集合、和对应每个申请单属性名的属性名区域坐标组。上述执行主体利用上述目标申请单模板,对上述申请单图像进行申请单识别,得到申请单识别结果,可以包括以下步骤:
第一步,对上述申请单图像中每个属性名区域坐标组对应的区域进行文本识别以生成属性文本,得到属性文本集合。其中,申请单属性名可以是申请单中某一项的属性名。例如,“交易金额:***”其中的“交易金额”即为属性名。可以通过OCR算法,对上述申请单图像中每个属性名区域坐标组对应的区域进行文本识别以生成属性文本。其次,上述属性名区域坐标组中的属性名区域坐标可以是属性名在申请单图像上所在区域的角点坐标。
作为示例,上述属性名区域坐标组可以包括两个属性名区域坐标,分别可以是属性名区域的左上角坐标和右下角坐标。
第二步,将上述属性文本集合中的每个属性文本和对应的属性名区域坐标组输入至预设的属性值识别模型以生成文本编码序列,得到文本编码序列集。其中,上述属性值识别模型可以是多模态识别、多任务模型。文本编码序列可以是标注后的BIO(Begin InsideOutside)文本编码序列。
第三步,对上述文本编码序列集中的各个文本编码序列进行属性值提取,得到申请单识别结果。其中,申请单识别结果可以包括申请单属性值组,上述申请单属性值组中的各个申请单属性值与上述申请单属性名集合中的各个申请单属性名相对应。首先,可以取出文本编码序列中的实体编码部分。然后,可以将属性文本中对应上述实体编码部分的字符确定为属性值。其次,上述申请单识别结果可以包括各个申请单属性名对应的属性值。
实践中,上述步骤及其相关内容作为本公开的实施例的一个发明点,可以解决背景技术提及的技术问题三“对于不同的表结构采用相同的识别方式,而未考虑申请单自身的表结构容易产生识别误差,从而,降低识别结果的准确度”。首先,通过引入申请单模板集,可以便于对能匹配上申请单模板的申请单图像进行申请单识别。另外,也以为引入了申请单模板集和属性值识别模型,可以对应不同类型、不同表结构的申请单图像进行针对性的识别。因此,即使表结构复杂,也可以确保申请单识别结果的准确度。从而,可以避免未考虑申请表表结构所产生的识别误差。进而,可以提高申请单识别的准确度。
在一些实施例的一些可选的实现方式中,上述预设的属性值识别模型可以通过以下训练步骤生成:
第一步,将样本信息包括样本属性关系键值对、对应的样本键值对坐标组和样本键值对编码序列输入至初始属性识别模型,得到训练结果。其中,上述训练结果可以包括:识别属性名概率组和识别文本编码序列。样本属性关系键值对可以由对应的一组样本属性名和样本属性值构成。例如,交易金额:XXX元与交易额的对应关系,在模型的分类模块中期望输出的类别为:大写金额。样本键值对坐标组可以如同上述属性名区域坐标组。样本键值对编码序列可以是上述样本属性关系键值对的BIO编码格式。
作为示例,如图3所示,上述初始属性识别模型可以包括分类网络和编码序列网络。其中,分类网络可以用于生成输入的样本属性关系键值对的类别。编码序列网络可以用于生成样本属性关系键值对的BIO编码格式。其次,上述分类网络可以包括:第一词向量编码层(Word Embedding)301、空间向量编码层(Spatial Embedding)302、第一多头自注意力层(Multi-head Attention)303、第一残差连接及正则化层(ADD&Norm)304、前馈网络层(Feed Forward)305、第二残差连接及正则化层(ADD&Norm)306、分类模块前馈网络层(FeedForward)307、第三残差连接及正则化层(ADD&Norm)308、第一线性层(Linear)309和第一激活层(Softmax)310。上述编码序列网络可以包括:第二词向量编码层(Word Embedding)311、第二多头自注意力层(Multi-head Attention)312、第四残差连接及正则化层(ADD&Norm)313、编码器-译码器注意力层(Multi-head Attention)314、第五残差连接及正则化层(ADD&Norm)315、第二线性层(Linear)316和第二激活层(Softmax)317。因此,可以将上述属性关系键值对输入至上述第一词向量编码层301,将上述样本键值对坐标组输入至上述空间向量编码层302,将上述样本键值对编码序列输入至上述编码序列网络中的第二词向量编码层311。另外,可以从分类网络中的第一激活层310输出上述识别属性名概率组。从上述编码序列网络中的第二激活层317输出上述识别文本编码序列。
作为示例,输入模型的是原始文本(如交易金额:XXX元)以及其对应的坐标位置信息,左分支输出的是类别(如:交易额);右分支输出的是BIO序列。而构造的训练样本刚好有:原始文本、原始文本坐标位置、原始文本对应的类别、原始文本对应的BIO序列四者的一一对应关系,因此可以用于训练该模型。
第二步,确定上述识别属性名概率组的损失值,得到属性名损失值。
第三步,确定上述识别文本编码序列的损失值,得到文本编码损失值;
第四步,根据预设的属性名权重和编码权重,将上述属性名损失值和上述文本编码损失值的加权结果确定为总损失值。其中,总损失值可以是初始属性识别模型的整体损失值。
第五步,响应于确定上述总损失值不满足预设训练条件,调整上述初始属性识别模型的相关参数。其中,上述预设训练条件可以是总损失值大于等于预设损失阈值。
可选的,其中,首先可以调用全文识别接口,对申请单图像进行全文识别,得到全文识别信息。然后,可以对全文识别信息中的空白行进行过滤。之后,通过匹配关键词提取想要抽取的文段内容,根据所在行数放进“行数-文本”为键值对的字典中等待处理。而后,根据选定的属性,按所在行排序,方便后续根据不同字段在模板上的位置,对号入座。最后,根据不同模板的样式,在字典中找到关键字段并通过正则表达式抽取属性信息。例如,大部分字段的属性值和属性之间用“:”隔开,通过验证右侧和下方的字段信息确认是否是要抽取的属性值。如果需要抽取“小写”这个属性,识别出“:”右侧的文段是纯数字,则认为是要抽取的数值。否则识别下一行第一个完整的字段,如果不是纯数字,则可能属性值与下一个字段的内容被一起识别了,就需要根据当前模板的特点,使用正则表达式抽取,保留开头数字的部分,剔除后面无关的文字内容。
基于构造得到的训练数据,期望设计一个模型来实现自动化的将原始文本匹配到对应的规范化属性并从中抽取信息。由于一方面需要匹配到正确的规范化属性类别,另一方面需要从原始文本中抽取出相应的属性值。设计了一个多任务模型,该模型具有两个输出:全文识别结果、抽取的属性,其可以同时满足上述两项需求。
该模型包含两大部分,一个共享的编码器用于对输入数据进行编码建模;以及两个独立的任务模块,其中分类模块负责根据编码器传来的信息得到分类结果,BIO序列生成模块负责基于编码器编码的信息逐步生成BIO序列。
第一步,通过Embedding层将输入信息向量化。其中原始文本可以是如下表示:
Figure 811261DEST_PATH_IMAGE001
s代表原始文本块对应的坐标位置信息。此处仅考虑文本块的左上点以及右下点的坐标,如左上点坐标为(a1,b1),右下点坐标为(a2,b2),将两个坐标点的信息综合考虑,得到一个向量(a1,b1,a2,b2),该向量包含了文本块的空间坐标信息。
具体地,结合文本信息以及其对应的坐标位置信息,输入(input)一个新的向量表示
Figure 89926DEST_PATH_IMAGE002
,其中,
Figure 630760DEST_PATH_IMAGE003
,生成该新的向量的计算方式如图4所示。其中文本向量化层(Token Embedding)是对文本中的每一个字
Figure 447407DEST_PATH_IMAGE004
通过Embedding层进行向量化,将输入文本中的每一个字
Figure 794205DEST_PATH_IMAGE004
分别表示为一个数字化的向量
Figure 848749DEST_PATH_IMAGE005
。但其中没有考虑原始文本中的序列顺序信息,因此额外引入了文本位置向量化层(Position Embeddings),Position Embeddings中区分了文本中不同词的先后顺序信息,
Figure 419539DEST_PATH_IMAGE004
对应位置的PositionEmbeddings表示为
Figure 943055DEST_PATH_IMAGE006
。另外,根据实际业务场景,不同的文本块在申请单表单中的位置是不同的,并且一些特定的信息通常在表单中的相对固定的位置上,这些空间信息可以区分不同的文本块,因此希望额外引入空间位置信息,把位置坐标向量(a1,b1,a2,b2)通过线性层转换到与向量
Figure 546075DEST_PATH_IMAGE005
一样的大小,得到空间坐标表示
Figure 737016DEST_PATH_IMAGE007
。得到上述
Figure 400078DEST_PATH_IMAGE005
Figure 660158DEST_PATH_IMAGE006
以及三种向量表示后,把其相加得到最终的输入信息表示
Figure 20864DEST_PATH_IMAGE002
。这一过程可以表示为:
Figure 112317DEST_PATH_IMAGE008
其中,
Figure 697013DEST_PATH_IMAGE003
。n代表当前输入文本的总长度。
作为示例,如图4所示,生成上述新的向量表示的示意图,包括:文本向量化层(Token Embedding)、文本位置向量化层(Position Embeddings)和空间向量编码层(Spatial Embeddings)。最终可以得到最终的输入信息。
第二步,通过共享编码器对输入信息进行编码。此处的编码器结构与Transformer模型的基础结构是类似的,首先经过多头自注意力层得到更新后的结合了其他位置文本信息的信息表示,之后通过前馈网络层对信息进一步建模以提升模型的建模能力,经过上述多头自注意力层以及前馈网络层后得到编码结果。
第三步,分别通过分类模块以及序列生成模块得到相应的输出结果。其中分类模块的结构相对简单,首先经过前馈网络层更新该模块所需要的信息,之后经过线性层以及Softmax层得到分类结果,分类结果中包括了对于每一个分类类别的预测概率,预测了当前文本所对应的规范化属性类别;序列生成模块的基础结构基于Transformer译码器,相比于Transformer编码器,其中额外引入了一个编码器-译码器注意力层,联合译码器部分前序输出得到的文本信息(y1,y2,…,yt-1)经过自注意力层后的得到结果以及编码器输出的结果得到一个新的信息表示,最后通过线性层以及Softmax层得到当前时间步序列的预测结果,最终可以得到一个BIO序列。具体而言,序列生成是一个逐字生成的过程,每一个时间步仅得到一个位置上对应的结果。如对于输入文本“交易金额:10011.2元”期望生成得到的最终序列为“O,O,O,O,O,B-val1,I-val1,I-val1,I-val1,I-val1,I-val1,I-val1,O”。在的模型中首先通过第二步对应的共享编码器对文本“交易金额:10011.2元”进行编码,得到该条文本对应的编码结果;然后在序列生成模块依赖于这个编码结果逐字生成BIO序列,如目前期望生成第t个BIO值,基于生成得到的第一个至第t-1个BIO信息以及编码结果得到第t个BIO值,依次类推,直到得到所有n个BIO值。
第四步,根据模型输出信息完成信息抽取。根据分类模块得到的分类信息,定位到相应的规范化属性类别,如对于输入文本“交易金额:10011.2元”,分类模块得到的分类结果对应到规范化属性“交易金额”;然后根据序列生成模块得到的BIO序列信息从中抽取出属性值信息,如对于输入文本“交易金额:10011.2元”,由模型得到了其对应的BIO序列“O,O,O,O,O,B-val1,I-val1,I-val1,I-val1,I-val1,I-val1,I-val1,O”。将BI对应位置的信息截取出来并作为属性值填到规范化属性对应的位置上,如得到“10011.2”。基于上述操作,将“10011.2”填入到规范化属性“交易金额”对应的位置,即完成信息抽取。
可选的,响应于确定上述总损失值满足预设训练条件,将上述初始属性识别模型确定为属性值识别模型。
实践中,上述步骤及其相关内容作为本公开的实施例的一个发明点,可以进一步解决背景技术提及的技术问题三。其中,首先,通过引入初始属性识别模型,可以通过训练,得到申请单属性识别模型。以此,便于进行申请单的属性识别。其次,调整了初始属性识别模型的结构,使其更加符合申请单识别的需求。例如,其一,引入了空间向量编码层。从而,在模型训练的过程中,可以加入对申请单属性的空间位置特征,以此表征申请单属性在申请单图像中的位置。另外,通过向量编码,可以便于区分不同申请单的序列顺序。从而,以样本属性关系键值对、对应的样本键值对坐标组和样本键值对编码序列三项为输入的模型训练,可以提高训练完成的属性识别模型对申请单属性的识别准确度。其二,经过多头自注意力层得到更新后的、结合了其它位置文本信息的信息表示,之后通过前馈网络层对信息进一步建模以提升模型的建模能力,经过上述多头自注意力层以及前馈网络层后得到编码结果。从而,可以用于提高申请单属性识别的准确度。其三,通过调整模型结构为两个分支,以多任务的形式,使模型可以从不同的特征之间提取到关联特征。以此,可以同时输出申请单属性的类别和申请单属性的编码序列。从而,可以进一步提高申请单属性识别的准确度。
在一些实施例的一些可选的实现方式中,上述样本信息通过以下步骤生成:
第一步,获取历史申请单图像和对应的历史识别属性信息组。其中,上述历史识别属性信息组中的历史识别属性信息可以包括:历史识别属性名和历史识别属性值。可以从数据库中获取历史申请单图像和对应的历史识别属性信息组。历史识别属性信息可以是从历史申请单图像中识别的属性信息。
第二步,对上述历史申请单图像进行全文识别,得到历史申请单识别文本和与上述历史申请单识别文本中每个字符对应的文本坐标组。其中,可以通过OCR算法对上述历史申请单图像进行全文识别,得到历史申请单识别文本和与上述历史申请单识别文本中每个字符对应的文本坐标组。
作为示例,每个字符对应的文本坐标组可以包括两个角点坐标。例如,字符区域的左上角坐标和右下角坐标。
第三步,对上述历史识别属性信息组中每个历史识别属性信息包括的历史识别属性值与上述历史申请单识别文本进行匹配处理以生成匹配结果,得到匹配结果集。其中,上述匹配结果集中的每个匹配结果可以包括:匹配到历史识别属性信息可以包括的历史识别属性值在上述历史申请单识别文本中出现的次数和匹配字段组。可以通过匹配算法,对上述历史识别属性信息组中每个历史识别属性信息包括的历史识别属性值与上述历史申请单识别文本进行匹配处理以生成匹配结果,得到匹配结果集。上述匹配字段组中的匹配字段可以是匹配到的字段。匹配字段可以包括字段值。
作为示例,上述匹配算法可以包括但不限于以下至少一项:Fasttext(快速文本分类)算法、TF-IDF(term frequency–inverse document frequency,词频-逆文档频度)算法等。
第四步,对于上述匹配结果集中的每个匹配结果,可以执行如下样本信息生成步骤:
第一子步骤,响应于确定上述匹配结果包括的次数满足预设次数条件,将上述匹配结果对应的历史识别属性信息包括的历史识别属性名与历史识别属性值确定为属性关系键值对。其中,上述预设次数条件为次数小于等于1次。
第二子步骤,将上述历史申请单识别文本中对应上述属性关系键值对的各个字符的文本坐标组进行融合处理,得到键值对坐标组。其中,首先,可以将各个字符对应的各个文本坐标的中最小的文本坐标确定为第一坐标。然后,可以将各个字符对应的各个文本坐标中的最大的文本坐标确定为第二坐标。最后,可以将上述第一坐标和上述第二坐标确定为键值对坐标,得到键值对坐标组。
作为示例,由于不同申请单的尺寸可能是不同的,此处对坐标进行了统一变换。因此,可以将原始坐标点(x,y)转化为(x/X,y/Y)。其中,X和Y分别可以表示原始申请单的宽和长的大小。
第三子步骤,对上述属性关系键值对进行编码,得到键值对编码序列。其中,可以通过上述BIO标注算法,对上述属性关系键值对进行编码,得到键值对编码序列。
第四子步骤,将上述属性关系键值对、上述键值对坐标组和上述键值对编码序列确定为样本信息。
在一些实施例的一些可选的实现方式中,上述样本信息生成步骤还可以包括:
第一步,响应于确定上述匹配结果包括的次数不满足预设次数条件,将上述匹配字段组中与上述历史识别属性名相似度最高的匹配字段确定为目标匹配字段。其中,首先,可以确定上述匹配字段组中每个匹配字段与上述历史识别属性名之间的余弦相似度。然后,可以将上述匹配字段组中与上述历史识别属性名相似度最高的匹配字段确定为目标匹配字段。
第二步,将上述历史申请单识别文本中对应上述目标匹配字段的各个字符的文本坐标组进行融合处理,得到目标键值对坐标组。
第三步,将上述属性关系键值对、上述目标键值对坐标组和上述键值对编码序列确定为样本信息。
实践中,在表单识别过程中,首先需要通过OCR技术从表单文件中抽取出其中的全文识别结果,之后通过特定规则对其中的属性逐个进行抽取。人工总结归纳规则一方面需要投入大量的人力,成本高效率低;另一方面人工总结的规则其表单来源数量通常会比较有限,很难实现从海量文件中发现规则,得到的规则难以覆盖所有模式。为了解决该问题,设计了一种基于历史表单数据(人工录入的数据以及人工核验后的数据)构造训练集的方法,通过该方法得到训练数据后,可以在属性抽取时借助于深度学习方法自动抽取信息。
第一步,采集历史表单数据。在公司内的信息系统中,存储着早期人工录入模式下积累的大量表单数据,其中记录了原始表单文件与其识别结果之间的对应关系。
第二步:全文识别。对每个原始表单pdf进行全文识别,获取所有文字内容(包括每个字的坐标信息)。其中,根据这些信息,通过OCR全文识别功能基于原始表单文件得到OCR识别结果,然后将OCR识别得到的文本结果与数据库中存储的结果信息一一对应起来,将其组织成<OCR识别结果,数据库存储结果>的一一配对的二元组形式(每一个二元组对应一个文件),其中OCR识别结果中包含表单中的每一个文字块的坐标以及文字块内的文本内容。
第三步,构造属性名匹配关系键值对。期望从这些二元组中总结挖掘其中蕴含的属性名对应关系,建立起一个键值对组,每一个键值对的键是规范属性名,其可能对应多个值,每一个值是表单文件中的原始属性名。针对每个属性,从识别的全文中匹配属性值(以交易金额为例),找到全文中匹配到匹配的位置具体而言,针对数据库存储结果中的每一个数据对(如交易金额:10011.2元),对其依次进行处理,分别获取到当前数据对的规范属性名(如交易金额)以及属性值(如10011.2元)。然后,在OCR识别结果中查找该属性值并统计其出现的次数及位置。如果仅出现一次,则OCR识别结果中该数值前面的文字即为其对应的属性名称,将该属性名称与数据库存储的规范属性名之间的对应关系记录下来,存储到键为规范属性名的键值对中;如果出现了多次即在表单文件中发现了多个候选属性名称,则通过文本相似度算法依次计算这些候选元素名称与数据库存储的规范属性名的相似度,将最高相似度的候选元素名称与数据库存储的规范属性名的对应关系记录下来,存储到键为规范属性名的键值对中。
完成上述步骤后,可以得到原始表单中各个文字块与数据库中存储结果的一一对应关系,如原始表单中的文本“交易金额:10011.2元”对应数据库中的规范属性名为“交易金额”,并且数据库中“交易金额”对应的属性值为10011.2元。根据这个信息,将原始表单中的文本“交易金额:10011.2元”标注为BIO的形式。
作为示例,标注后的BIO的形式可以是:“交易金额:10011.2元”: “O,O,O,O,O,B-val1,I-val1,I-val1,I-val1,I-val1,I-val1,I-val1,O”。 这个形式是NLP中序列标注问题的标准训练样本表达方式。并且知道该条信息对应的规范属性名为“交易金额”以及原始表单中的文本“交易金额:10011.2元”的坐标位置。基于上述信息,可以在属性抽取时基于这些数据更好地实现智能化抽取,而不需要人工定义抽取规则。在生成样本信息的过程中,输入可以是pdf、数据库里面的下单记录。输出:全文识别结果、抽取的属性(属性本身是已知的,要匹配到全文的位置,并含上下文),坐标信息(区域)。
在一些实施例的一些可选的实现方式中,上述执行主体还可以执行如下步骤:
第一步,响应于确定从上述申请单模板集中选出与上述图像特征向量相匹配的申请单模板失败,更新申请单模板的匹配失败次数,得到目标失败次数。其中,若匹配失败一次,则可以对申请单模板的匹配失败次数加一。
第二步,响应于确定上述目标失败次数满足预设失败条件,对上述申请单图像进行版面提取,得到标题文本、结构化图像和标志图像。其中,上述预设失败条件可以是目标失败次数大于目标阈值。其次,可以通过上述OCR算法对上述申请单图像进行文本识别,得到上述标题文本。可以通过边缘特征提取算法,提取上述申请单图像的版面图像,得到上述结构化图像。可以通过目标检测算法,提取上述申请单图像的标志图像。上述标题文本可以是申请单图像的标题名称。上述标志图像可以是申请单图像中带有标志的子图像。另外,上述结构化图像可以是针对不同的版面填充有不同颜色的、由若干颜色块组成的结构图。
作为示例,上述边缘特征提取算法可以是:MNS(Non-Maximum Suppression,非极大值抑制)算法和双阈值法。上述目标检测算法可以是:VGG(Visual Geometry GroupNetwork,卷积神经网络)模型。
第三步,将上述标题文本、上述结构化图像和上述标志图像输入至预设的模板匹配模型,得到申请单模板。其中,上述模板匹配模型也可以是多模态、多任务分类模型。上述模板匹配模型可以在需要生成新模板时使用。另外,也可以在申请单图像未匹配到申请单模板时,通过上述模板匹配模型,对申请单图像进行再次识别,得到申请单图像与各个申请单模板之间的匹配概率集合。从而,可以将对应匹配概率最高的申请单模板确定为目标申请单模板,以供申请单识别。由此,可以用于选出用于识别上述申请单图像的申请单模板。
作为示例,上述模板匹配模型可以是FCN(Fully Convolutional Networks,全卷积神经网络)模型、Resnet(Residual Network,残差神经网络)模型、VGG(Visual GeometryGroup Network,卷积神经网络)模型和GoogLeNet(深度神经网络)模型等。
可选的,上述模板匹配模型可以是通过如下方式训练生成的:
第一步,获取历史标题文本集。其中,历史标题文本可以由至少一个标题词组成。
第二步,对历史标题文本集中的各个标题文本进行分词,得到标题词表。其中,上述标题词表中可以包括在上述历史标题文本集中词频数量达到一定次数的标题词。
第三步,对上述历史标题文本集中每个历史标题文本中的标题词进行数字化表示,得到数字化文本集。其中,可以将每个标题词在上述标题词表中的位置序号作为该标题词的数字化表示。
第四步,将上述数字化文本集中的各个数字化文本输入至初始模板匹配模型中的编码层,得到词向量集。特别的,还可以在每个数字化文本前加入占位符。得到占位符词向量集。
第五步,将上述占位符词向量集中的占位符词向量输入至初始模板匹配模型的编码器中,通过自注意力机制,生成文本向量集。其中,可以将上述文本向量集中对应占位符位置的内容确定为历史标签文本的向量化表示。
第六步,将上述标志图像输入至上述模板匹配模型的图像建模模块,得到标志图像向量。其中,上述图像建模模块可以包括多层连续的卷积神经网络以及池化神经网络结构,因此,可以具备强大的图像特征抽取能力。
第七步,将上述结构化图像输入至上述模板匹配模型的版面建模模块,得到结构化图像特征向量。
作为示例,上述版面建模模块可以是卷积神经网络。上述文本建模模块可以通过Transformer模型进行实现。上述图像建模模块可以是VGG模型。
第八步,对上述标志图像向量、上述结构化图像特征向量和对应的文本向量进行多模态融合,得到模板生成结果。其中,首先,可以将上述标志图像向量、上述结构化图像特征向量和对应的文本向量输入至全连接层转化为相同大小的向量。然后,可以通过拼接层,将相同大小的三个向量进行拼接,得到拼接向量。之后,可以通过全连接层、线性层和激活层,得到模板生成结果。
实践中,由于不同的申请单图像存在不同的差异。且申请单图像的样式,也存在被调整的情况。因此,通过匹配失败次数,可以引入新模板的构建机制。另外,还通过引入了模板匹配模型,可以进一步提高新模板生成的效率和准确度。
另外,针对申请单,每一个用户都有其自身独特的申请单样式。在进行申请单识别时,需要根据不同的客户根据其对应的模板对其中包含的信息进行抽取。为此,设计了一个基于文本信息以及图像信息的多模态分类方法,该方法可以实现对文档图像的分类,为其匹配到正确的模板。
第一步,从申请表单中抽取出版面数据、文本数据以及logo(logotype,徽标)数据。在证券行业单据识别中,不同客户的单据模板的版面布局通常是不同的,为此首先通过OCR版面分析功能对待处理的申请表单进行版面识别,将版面中不同的部分进行划分,并用不同的颜色区分,将版面中的信息分为标题、文本、图像、表格四个类别,将一张张原始表单转化为了一张张由若干颜色块组成的新图像,即版面图像;很多情况下,申请单在表单头部存在着客户名称等字样,这部分信息对模板类别匹配十分具有参考意义。首先基于版面分析结果定位到版面中的标题部分,然后通过文本识别接口从中获取到标题文本内容;同时,不同客户的申请单中存在一些视觉上的差异,如许多申请单中包含了客户公司的徽标(logo)信息,这一信息对区分不同客户具有重要意义,通过版面分析接口获取到徽标(logo)图像的具体坐标,然后从中抠取出徽标(logo)图像。
作为示例,该部分的处理流程如图5所示。对原始申请图像进行版面分析。即,分别进行文本识别、版面划分和徽标(logo)抠取。最后,分别可以得到标题文本、版面图像和徽标(logo)图像。另外,得到的版面图像可以如图6所示。
第二步,通过文本建模模块对标题文本进行建模。设计了基于Transformer的文本建模模块,其中Transformer巧妙应用了注意力机制,克服了基础卷积神经网络以及循环神经网络的一些缺点,在很多文本建模任务中取得了较好的实验表现。具体地,首先对所有表单数据中得到的标题文本内容,分别对其进行分词;然后,基于已有表单数据,综合所有已有表单中的标题文本内容,建立词表。词表中包含了出现频次最高的前10000个词;然后,基于建立好的词表,将所有表单数据中的标题文本内容中的每一个词分别用词汇表中的词下标来表示,从而可以用数字化的形式来表示文本内容。之后,将数字形式表示的文本内容通过Embedding层,转化为词向量的表示形式;结合位置编码信息得到文本的最终表示。特别地,在每一条文本内容的前面添加了一个<cls>占位符,同样获得了其对应的向量表示。最后,将这些文本输入到Transformer编码器中,通过自注意力机制,得到新的文本表示。取<cls>对应位置输出的内容作为该条文本整体的向量表示。
第三步,通过(logo)建模模块对申请单(logo)图像进行建模。设计了基于VGG的图像建模模块。其中引入了多层连续的卷积神经网络以及池化神经网络结构,具备强大的图像特征抽取能力。将申请单图像输入到VGG网络中,得到图像的向量化表示。
第四步,通过版面建模模块对申请单版面进行建模。每一个申请单的版面图像由若干不同颜色的颜色块组成,图像构成简单。相比于徽标(logo)图像更容易进行建模,因此该部分没有使用较为复杂的VGG网络,而采用了相对简单的基础的CNN(convolutionalneural network,卷积神经网络)结构。在实际应用中,发现在的场景中基础CNN模型取得了与VGG网络相当的效果,但是其参数量相比于VGG更少,更容易进行训练。
第五步,多模态特征融合。将文本建模模块得到的文本表示与徽标(logo)建模模块得到的徽标(logo)图像表示以及版面建模模块的版面表示分别通过全连接层转化为相同的大小后,通过特征融合层(concat)将其连接起来,之后经过全连接层以及Relu(激活)层,最后通过Softmax层得到最终的分类结果。
作为示例,模型结构可以如图7所示。
步骤204,对申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。
在一些实施例中,上述执行主体可以对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。
在一些实施例的一些可选的实现方式中,上述申请单识别结果集中的每个申请单识别结果还可以包括申请单名称和申请单名称代码。上述执行主体对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集,可以包括以下步骤:
第一步,获取与上述申请单名称对应的标准名称代码、和与上述申请单名称代码对应的标准申请单名称。其中,可以从数据库中获取与上述申请单名称对应的标准名称代码、和与上述申请单名称代码对应的标准申请单名称。
第二步,利用上述标准名称代码和上述标准申请单名称,对上述申请单名称和上述申请单名称代码进行名称交叉验证,得到第一申请单识别结果。其中,若标准名称代码和申请单名称代码相同,以及标准申请单名称和申请单名称相同,则可以确定完成交叉验证。若存在不相同,则可以将不相同的申请单名称代码和\或申请单名称替换为标准名称代码和\或标准申请单名称,由此,得到第一申请单识别结果。
第三步,对上述第一申请单识别结果包括的申请单属性值组中的各个申请单属性值进行大小写校验处理,得到第二申请单识别结果。其中,首先,可以从申请单属性值组中选出表征相同的属性值(例如,阿拉伯数字和对应的中文数字或大写数字)。然后,可以通过相互转换,以确定是否存在错误。若转换出错,则可以相同的属性值发送至显示终端,以供人工选择。若转换无误,则可以将第一申请单识别结果确定为第二申请单识别结果。或者获取人工选择后的结果以更新至第一申请单识别结果中,得到第二申请单识别结果。
第四步,利用预设的数据字典,对上述第二申请单识别结果包括的申请单属性值组中的各个申请单属性值和对应的申请单属性名进行形近字校验,得到第三申请单识别结果。其中,首先,对于每个申请单属性名,可以查找数据字典是否存在相同的属性名。然后,若存在,则确认识别无误。若不存在,则可以通过IDS(Ideographic DescriptionSequence,不定长度编码)算法,从数据字典中选出标准属性名替换为该申请单属性名。其次,可以通过余弦相似度确认数据字典中是否存在与上述申请单属性名相同的属性名。最后,若仍无法选出,则可以上述申请单属性名作为异常信息发送至显示终端,以供人工选择。之后,可以获取人工选择后的结果以更新至第二申请单识别结果中,得到第三申请单识别结果。
然后,可以确定数据字典中与该字相近的各个字、与该字对应图像区域的余弦相似度,得到余弦相似度集合。最后,若余弦相似度最大的字与该字相同,则识别无误。若不行同,则可以将余弦相似度最大的字替换为该字。以此,得到第三申请单识别结果。
例如,形近字可以是:“晶”、“磊”、“叒”等。另外,数据字典还可以包括多种形近词,形近词中可以包括形近字。可以直接通过选择相似度最高的形近词作为属性名的替换。
可选的,上述数据字典可以通过获取标准属性名集合的方式构建的。其中,可以将获取的标准属性名中余弦相似度大于一定阈值的标准属性名作为一组,得到多组标注属性名,作为数据字典。另外,通过构建数据字典,可以更好的对形近字进行矫正。从而,不仅可以弥补模型的识别误差,还可以提高申请单识别结果的准确度。
第五步,对上述第三申请单识别结果包括的申请单属性值组中的各个申请单属性值进行准确性校验,得到第四申请单识别结果。其中,首先,可以获取与申请单属性值对应的特征信息。例如,特征信息可以是属性值的字符数量。然后,若申请单属性值的字符数量与特征信息的字符数量不同,则确认识别有误。可以再次对上述申请单属性值进行识别。以此,得到第四申请单识别结果。
作为示例,日期的格式xxxx年xx月xx日,而其中年份一般都是19或者20开头的四位数字,而月份则是01-12的两位数,日是01-31的两位数,通过以上的尝试就可以判断出识别到的交易日期是否有效。
作为另一个示例,对于申请单属性名为“用户代码”的属性名。此种属性名的编码往往为6位数。其中,前两位可以是用户编码,后四位可以是流水号的字符。那么。对识别出来的用户代码检查:其一确定属性名的字符是否为有效的数字字母组合。其二,是否为六位数其三,前两位的用户编码能否查到对应的用户名。
第六步,对上述第四申请单识别结果包括的申请单属性值组中的各个申请单属性值进行坐标校验,得到第五申请单识别结果。其中,首先,可以获取与申请单属性值对应的标准坐标位置。然后,若申请单属性值的对应的坐标位置与上述标准坐标位置不同,则确认识别有误。最后,可以再次对上述申请单图像进行模板匹配,以此进行申请单识别,得到第五申请单识别结果。
第七步,对上述第五申请单识别结果包括的申请单属性值组中的各个申请单属性值对应的申请单属性名进行结构化校验,得到表单识别结果。其中,首先,可以确定申请单属性名的申请类型信息。而后,可以通过结构化抽取算法,从上述第一表单图像中提取出包括申请单属性值的申请单结果的区域字段,作为结构化层级信息。区域字段可以是表单文档中某一块区域的标题。然后,若结构化层级信息与申请类型相同,则可以将申请类型作为调整后申请类型。若结构化层级信息与申请类型不相同,则可以将结构化层级信息作为调整后申请类型。以此完成结构化校验,得到表单识别结果。
实践中,申请单中包括多种业务类型,以及不同业务类型处于申请单的不同区域范围。其中,每个申请单在使用过程中往往仅使用一种业务类型。因此,申请单属性值可以是从同一业务类型的区域范围内识别到的,以及包括识别到的业务类型。从而,可以将识别到的各个申请单属性值作为子属性,能确定其父属性(即,业务类型)。之后,可以确定父属性与识别到的业务类型是否相同。若不相同,则可以将父属性替换为识别到的业务类型。以此,实现结构化校验。
作为示例,结构化抽取算法可以包括但不限于以下至少一项:Bag-of-words(词袋)模型、词汇表模型、CTPN(connection text proposal network,连接文本区域网络)算法等。
另外,OCR识别并不能实现百分百的准确率,特别是在原始文件模糊或不够规整的情况下,一些文字可能被识别为字形相近的其他字,如“交易金额”可能被识别为“交易全额”,因此通常情况下,需要对识别后的结果进行错误判断以及纠正。针对该问题,提出了一个基于字形信息的错误纠正方法,该方法主要应用于对识别结果中属性值进行纠正。
第一步,根据历史表单识别结果,构造每一个规范属性名所对应的数据字典。数据字典中包含了该规范属性名所可能的所有属性值,规范属性名“客户名称”其可能的属性值有“AABB”、“AACC”等,通过遍历所有的历史表单识别结果,可以构建得到一个较为完备的数据字典。
第二步,判断是否存在识别错误。如果识别出来的属性值恰好可以在数据字典中找到完全匹配的数据,则可以认定该次识别是正确的,不需要进行纠正;如果无法找到相匹配的数据,并且该属性值的可能值的个数是有限的,则认为该次识别结果存在错误。
第三步,错误纠正。在OCR识别错误中,最为常见的错误即为字形错误,识别得到的字与实际字存在字形上的些微差异,造成了模型的误判。具体地,首先,通过IDS方法(Ideographic Description Sequence)对OCR识别结果以及数据字典中该属性名对应的可能属性值进行转换,分别计算出他们对应的IDS字符串。通过挖掘汉字中的结构信息,把其逐步进行分解,可以得到一颗IDS树,将这棵树的前序遍历得到的序列视为该字的IDS表示。然后,如对于识别结果“ABCD”与实际数值“ABcD”,分别计算两个字符串中的对应位置上不同字的IDS序列,然后计算两个IDS序列之间的Levenshtein(莱文斯坦距离)距离,并得到两个IDS序列的相似度值,将各个位置上的相似度之和的平均值视为这两个序列之间的文本相似度。其中Levenshtein距离及相似度的计算方式如下所示:
Figure 913230DEST_PATH_IMAGE009
其中,莱文斯坦距离用于衡量两个字符串之间的相似度。称这两个字符串分别为a和b。两个字符串a,b的莱文斯坦距离记作
Figure 897802DEST_PATH_IMAGE010
Figure 578182DEST_PATH_IMAGE011
时,
Figure 68200DEST_PATH_IMAGE012
距离为0,否则为1。
Figure 302872DEST_PATH_IMAGE013
Figure 520227DEST_PATH_IMAGE014
表示的前a个字符和i的前b个字符j之间的距离。
Figure 540267DEST_PATH_IMAGE015
Figure 716033DEST_PATH_IMAGE016
表示序号。
Figure 188734DEST_PATH_IMAGE017
表示其它。
之后根据相似度结果从高到低排序,取数据字典中排名最高的属性值作为纠错后的结果。如果得到的相似度结果中每一个相似度值(如相似度值分别为0.52,0.48)较为接近,此时可能数据字典中的所有候选项均不能与当前结果较好的匹配,无法选出合适的纠错结果。出现这种问题的一种常见的可能是数据字典统计不全面并没有将当前识别到的属性值囊括在内,虽然当前识别得到的属性值实际是正确的。针对该问题,基于数据字典中已有的属性值,使用kenlm(自然语言库)工具训练了一个语言模型(language model),该语言模型尽可能学习了数据字典中属性值的语言模式,通过训练好的语言模型可以得到当前识别结果的perplexity(评价指标)。根据实际场景中的数据统计规律,大部分情况下,perplexity值较小时,通常识别结果并无错误。设定当perplexity小于一定阈值时,认定当前识别结果是可信的、正确的,否则记为异常识别样本,由人工进行审核。
上述步骤及其相关内容作为本公开的实施例的一个发明点,可以解决背景技术提及的技术问题四“不能在确保表单识别效率的同时,确保表单识别结果的准确度”。其中,首先,通过交叉验证,可以准确的避免申请单名称和申请单名称代码的识别误差。以此,提高申请单识别的准确度。然后,通过大小写校验处理,可以准确的避免数值类型的属性值的识别误差。其次,通过形近字校验,可以避免形近字的识别误差。接着,通过准确性校验,可以通过属性值的字符数量,检测识别是否存在误差。以此,可以提高申请单识别的准确度。而后,通过坐标校验,不仅可以矫正识别结果的位置误差,还可以确保申请单属性名和属性值之间的对应关系准确度。最后,通过结构化校验,可以用于校验申请单类型的识别是否存在误差。从而,通过上述检验方式,可以在确保申请单识别效率的同时,确保申请单识别的结果的准确度。
可选的,上述执行主体还可以将上述表单识别结果发送至目标终端,以供显示。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的表单识别方法,可以极大地提高申请单识别的效率。具体来说,造成申请单识别效率低下的原因在于:由于申请单数量较多,人工的方式会使得申请单识别录入的速度极慢。基于此,本公开的一些实施例的表单识别方法,首先,响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组。然后,对上述表单文件组中的各个表单文件进行图像转换,得到申请单图像集。通过得到申请单图像,可以便于进行申请单识别。之后,对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集。最后,对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。从而,不仅可以替换人工的方式,且可以通过检验处理提高申请单识别结果的准确度。由此,通过本公开的一些实施例的表单识别方法,可以提高申请单识别的效率。
进一步参考图8,作为对上述各图上述方法的实现,本公开提供了一种表单识别装置的一些实施例,这些装置实施例与图2上述的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图8所示,一些实施例的表单识别装置800包括:文档分割单元801、图像转换单元802、申请单识别单元803和检验处理单元804。其中,文档分割单元801,被配置成响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组;图像转换单元802,被配置成对上述表单文件组中的各个表单文件进行图像转换,得到申请单图像集;申请单识别单元803,被配置成对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集;检验处理单元804,被配置成对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。
可以理解的是,该装置800中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置800及其中包含的单元,在此不再赘述。
下面参考图9,其示出了适于用来实现本公开的一些实施例的电子设备(例如图1中的计算设备101)900的结构示意图。图9示出的服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储装置908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口904也连接至总线904。
通常,以下装置可以连接至I/O接口904:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置907;包括例如磁带、硬盘等的存储装置908;以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图9中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置909从网络上被下载和安装,或者从存储装置908被安装,或者从ROM 902被安装。在该计算机程序被处理装置901执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于接收到表单文档,对上述表单文档进行文档分割处理,得到表单文件组;对上述表单文件组中的各个表单文件进行图像转换,得到申请单图像集;对上述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集;对上述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括文档分割单元、图像转换单元、申请单识别单元和检验处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,文档分割单元还可以被描述为“对表单文档进行文档分割处理的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方法。

Claims (10)

1.一种表单识别方法,包括:
响应于接收到表单文档,对所述表单文档进行文档分割处理,得到表单文件组;
对所述表单文件组中的各个表单文件进行图像转换,得到申请单图像集;
对所述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,得到申请单识别结果集;
对所述申请单识别结果集中的每个申请单识别结果进行检验处理以生成表单识别结果,得到表单识别结果集。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将所述表单识别结果发送至目标终端,以供显示。
3.根据权利要求1所述的方法,其中,所述对所述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,包括:
响应于确定从所述申请单图像提取到表格结构,将所述申请单图像确定为纯表格申请单图像;
对所述纯表格申请单图像进行表格识别,得到申请单识别结果。
4.根据权利要求3所述的方法,其中,所述对所述申请单图像集中的每个申请单图像进行申请单识别以生成申请单识别结果,还包括:
响应于确定从所述申请单图像未提取到表格结构,将所述申请单图像确定为文本混合申请单图像;
对所述文本混合申请单图像进行图像特征提取,得到图像特征向量;
从预设的申请单模板集中选出与所述图像特征向量相匹配的申请单模板,作为目标申请单模板;
利用所述目标申请单模板,对所述申请单图像进行申请单识别,得到申请单识别结果。
5.根据权利要求4所述的方法,其中,所述目标申请模板包括:申请单属性名集合、和对应每个申请单属性名的属性名区域坐标组;以及
所述利用所述目标申请单模板,对所述申请单图像进行申请单识别,得到申请单识别结果,包括:
对所述申请单图像中每个属性名区域坐标组对应的区域进行文本识别以生成属性文本,得到属性文本集合;
将所述属性文本集合中的每个属性文本和对应的属性名区域坐标组输入至预设的属性值识别模型以生成文本编码序列,得到文本编码序列集;
对所述文本编码序列集中的各个文本编码序列进行属性值提取,得到申请单识别结果,其中,申请单识别结果包括申请单属性值组,所述申请单属性值组中的各个申请单属性值与所述申请单属性名集合中的各个申请单属性名相对应。
6.根据权利要求5所述的方法,其中,所述预设的属性值识别模型通过以下训练步骤生成:
将样本信息包括样本属性关系键值对、对应的样本键值对坐标组和样本键值对编码序列输入至初始属性识别模型,得到训练结果,其中,所述训练结果包括:识别属性名概率组和识别文本编码序列;
确定所述识别属性名概率组的损失值,得到属性名损失值;
确定所述识别文本编码序列的损失值,得到文本编码损失值;
根据预设的属性名权重和编码权重,将所述属性名损失值和所述文本编码损失值的加权结果确定为总损失值;
响应于确定所述总损失值不满足预设训练条件,调整所述初始属性识别模型的相关参数。
7.根据权利要求6所述的方法,其中,所述样本信息通过以下步骤生成:
获取历史申请单图像和对应的历史识别属性信息组,其中,所述历史识别属性信息组中的历史识别属性信息包括:历史识别属性名和历史识别属性值;
对所述历史申请单图像进行全文识别,得到历史申请单识别文本和与所述历史申请单识别文本中每个字符对应的文本坐标组;
对所述历史识别属性信息组中每个历史识别属性信息包括的历史识别属性值与所述历史申请单识别文本进行匹配处理以生成匹配结果,得到匹配结果集,其中,所述匹配结果集中的每个匹配结果包括:匹配到历史识别属性信息包括的历史识别属性值在所述历史申请单识别文本中出现的次数和匹配字段组;
对于所述匹配结果集中的每个匹配结果,执行如下样本信息生成步骤:
响应于确定所述匹配结果包括的次数满足预设次数条件,将所述匹配结果对应的历史识别属性信息包括的历史识别属性名与历史识别属性值确定为属性关系键值对;
将所述历史申请单识别文本中对应所述属性关系键值对的各个字符的文本坐标组进行融合处理,得到键值对坐标组;
对所述属性关系键值对进行编码,得到键值对编码序列;
将所述属性关系键值对、所述键值对坐标组和所述键值对编码序列确定为样本信息。
8.根据权利要求7所述的方法,其中,所述样本信息生成步骤还包括:
响应于确定所述匹配结果包括的次数不满足预设次数条件,将所述匹配字段组中与所述历史识别属性名相似度最高的匹配字段确定为目标匹配字段;
将所述历史申请单识别文本中对应所述目标匹配字段的各个字符的文本坐标组进行融合处理,得到目标键值对坐标组;
将所述属性关系键值对、所述目标键值对坐标组和所述键值对编码序列确定为样本信息。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202210511300.0A 2022-05-12 2022-05-12 表单识别方法、装置、电子设备和计算机可读介质 Active CN114612921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210511300.0A CN114612921B (zh) 2022-05-12 2022-05-12 表单识别方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210511300.0A CN114612921B (zh) 2022-05-12 2022-05-12 表单识别方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN114612921A true CN114612921A (zh) 2022-06-10
CN114612921B CN114612921B (zh) 2022-07-19

Family

ID=81870655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210511300.0A Active CN114612921B (zh) 2022-05-12 2022-05-12 表单识别方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN114612921B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627907A (zh) * 2023-04-10 2023-08-22 甘肃中电瓜州风力发电有限公司 一种基于电力交易平台的结算单数据分析方法及系统
CN117131838A (zh) * 2023-10-24 2023-11-28 天津异乡好居网络科技股份有限公司 基于表单图像的表单页面生成方法、装置、电子设备和介质
CN117542067A (zh) * 2023-12-18 2024-02-09 北京长河数智科技有限责任公司 一种基于视觉识别的区域标注表单识别方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
WO2001071649A1 (en) * 2000-03-23 2001-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
US20180349693A1 (en) * 2017-05-31 2018-12-06 Hitachi, Ltd. Computer, document identification method, and system
US20200160050A1 (en) * 2018-11-21 2020-05-21 Amazon Technologies, Inc. Layout-agnostic complex document processing system
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
US20200401798A1 (en) * 2019-06-24 2020-12-24 International Business Machines Corporation Data structure generation for tabular information in scanned images
WO2021032598A1 (en) * 2019-08-16 2021-02-25 Eigen Technologies Ltd Training and applying structured data extraction models
CN112651331A (zh) * 2020-12-24 2021-04-13 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质
CN113239807A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 训练票据识别模型和票据识别的方法和装置
US20220044058A1 (en) * 2020-08-07 2022-02-10 Salesforce.Com, Inc. Template-Based Key-Value Extraction for Inferring OCR Key Values Within Form Images

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
WO2001071649A1 (en) * 2000-03-23 2001-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
US20180349693A1 (en) * 2017-05-31 2018-12-06 Hitachi, Ltd. Computer, document identification method, and system
US20200160050A1 (en) * 2018-11-21 2020-05-21 Amazon Technologies, Inc. Layout-agnostic complex document processing system
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
US20200401798A1 (en) * 2019-06-24 2020-12-24 International Business Machines Corporation Data structure generation for tabular information in scanned images
WO2021032598A1 (en) * 2019-08-16 2021-02-25 Eigen Technologies Ltd Training and applying structured data extraction models
US20220044058A1 (en) * 2020-08-07 2022-02-10 Salesforce.Com, Inc. Template-Based Key-Value Extraction for Inferring OCR Key Values Within Form Images
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
WO2022037573A1 (zh) * 2020-08-17 2022-02-24 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112651331A (zh) * 2020-12-24 2021-04-13 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质
CN113239807A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 训练票据识别模型和票据识别的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627907A (zh) * 2023-04-10 2023-08-22 甘肃中电瓜州风力发电有限公司 一种基于电力交易平台的结算单数据分析方法及系统
CN117131838A (zh) * 2023-10-24 2023-11-28 天津异乡好居网络科技股份有限公司 基于表单图像的表单页面生成方法、装置、电子设备和介质
CN117131838B (zh) * 2023-10-24 2024-02-09 天津异乡好居网络科技股份有限公司 基于表单图像的表单页面生成方法、装置、电子设备和介质
CN117542067A (zh) * 2023-12-18 2024-02-09 北京长河数智科技有限责任公司 一种基于视觉识别的区域标注表单识别方法
CN117542067B (zh) * 2023-12-18 2024-06-21 北京长河数智科技有限责任公司 一种基于视觉识别的区域标注表单识别方法

Also Published As

Publication number Publication date
CN114612921B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
JP7423715B2 (ja) テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
US10956673B1 (en) Method and system for identifying citations within regulatory content
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
US20220292861A1 (en) Docket Analysis Methods and Systems
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
US11557140B2 (en) Model-independent confidence values for extracted document information using a convolutional neural network
CN114818708B (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN115438215A (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN111324738A (zh) 一种确定文本标签的方法和系统
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
Kayal et al. Tables to LaTeX: structure and content extraction from scientific tables
CN113705207A (zh) 语法错误识别方法及装置
Bhatt et al. Pho (SC)-CTC—a hybrid approach towards zero-shot word image recognition
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
KR102684423B1 (ko) 데이터 검색 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant