CN116110066A - 票据文本的信息提取方法、装置、设备及存储介质 - Google Patents

票据文本的信息提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116110066A
CN116110066A CN202310184159.2A CN202310184159A CN116110066A CN 116110066 A CN116110066 A CN 116110066A CN 202310184159 A CN202310184159 A CN 202310184159A CN 116110066 A CN116110066 A CN 116110066A
Authority
CN
China
Prior art keywords
text
box
entity
frame
bill
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310184159.2A
Other languages
English (en)
Inventor
杨叶平
卢厚祥
王阳
靳晓松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ccb Trust Co ltd
Original Assignee
Ccb Trust Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ccb Trust Co ltd filed Critical Ccb Trust Co ltd
Priority to CN202310184159.2A priority Critical patent/CN116110066A/zh
Publication of CN116110066A publication Critical patent/CN116110066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19153Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19167Active pattern learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种票据文本的信息提取方法、装置、设备及存储介质。该方法包括:分别通过对票据图像进行实体反向标注和光学字符识别,获取实体标注框和对应的数据类别,以及识别文本框;根据框位置信息,获取识别文本框匹配的实体标注框对应的数据类别,以作为识别文本框对应的类别标签;根据识别文本框和对应的框位置信息与类别标签,获取目标富文本信息提取模型,并基于目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息。本实施例的技术方案,可以避免人工进行内容比对和类别标注导致的人力资源浪费,可以提升票据实体信息的提取准确度。

Description

票据文本的信息提取方法、装置、设备及存储介质
技术领域
本发明涉及票据数字化领域,尤其涉及一种票据文本的信息提取方法、装置、设备及存储介质。
背景技术
光学字符识别模型具有广泛的用途,不仅可以识别图片、票据以及证件,还能够非常准确的识别车牌。其中,模型的首要任务为命名实体识别,旨在定位并标注出文本中不同类别的命名实体。
目前,现有的票据文本的实体信息提取方法,包括基于词典和规则的模式匹配方法、基于传统机器学习(例如,隐马尔可夫模型、最大熵马尔可夫模型、支持向量机模型和条件随机场模型等)的方法和基于深度学习的方法。然而,对于网页、图像文档和票据等富文本文档(通过富文本编辑器进行渲染和计算并呈现的文档),现有技术通常只侧重于文字内容的解析,而忽略了富文本文档的粗粒度(布局格式)、细粒度信息(文本密钥)和非文本信息(例如,下划线、未填写的空格)等额外特征,导致对富文本文档的实体信息的提取准确度较低;其次,现有技术还需要花费大量人工进行光学字符识别数据与原文档图像之间的内容比对,以及进行实体类别的标注。
发明内容
本发明提供了一种票据文本的信息提取方法、装置、设备及存储介质,可以避免人工进行内容比对和类别标注导致的人力资源浪费,可以提升票据实体信息的提取准确度。
根据本发明的一方面,提供了一种票据文本的信息提取方法,包括:
获取票据图像,并通过对所述票据图像进行实体反向标注,获取所述票据图像对应的至少一个实体标注框,以及各所述实体标注框对应的数据类别;
通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框;
根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签;
根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于所述目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息。
根据本发明的另一方面,提供了一种票据文本的信息提取装置,包括:
实体标注框获取模块,用于获取票据图像,并通过对所述票据图像进行实体反向标注,获取所述票据图像对应的至少一个实体标注框,以及各所述实体标注框对应的数据类别;
识别文本框获取模块,用于通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框;
类别标签获取模块,用于根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签;
商品实体信息提取模块,用于根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于所述目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的票据文本的信息提取方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的票据文本的信息提取方法。
本发明实施例的技术方案,通过获取票据图像,并通过对票据图像进行实体反向标注,获取票据图像对应的多个实体标注框,以及各实体标注框对应的数据类别;同时,通过对票据图像进行光学字符识别,获取票据图像对应的多个识别文本框;然后,根据各实体标注框和各识别文本框分别对应的框位置信息,获取各识别文本框匹配的实体标注框对应的数据类别,以作为各识别文本框对应的类别标签;最后,根据各识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息;通过自动对识别文本框和实体标注框进行匹配检测,以确定识别文本框对应的类别标签,可以避免人工进行内容比对和类别标注导致的人力资源浪费;通过结合识别文本框和对应的框位置信息与类别标签进行模型再训练,可以提升票据实体信息的提取准确度。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是根据本发明实施例一提供的一种票据文本的信息提取方法的流程图;
图1B是根据本发明实施例一提供的一种标注样例的示意图;
图1C是根据本发明实施例一提供的OCR识别数据的框选效果的示意图;
图1D是根据本发明实施例一提供的识别文本框的数据样例的示意图;
图1E是根据本发明实施例一提供的一种单条文档数据样例的示意图;
图1F是根据本发明实施例一提供的一种LayoutXLM模型的结构示意图;
图1G是根据本发明实施例一提供的识别文本框数据分割的示意图;
图1H是根据本发明实施例一提供的另一种票据文本的信息提取方法的流程示意图;
图2是根据本发明实施例二提供的一种票据文本的信息提取装置的结构示意图;
图3是实现本发明实施例的票据文本的信息提取方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1A为本发明实施例一提供了一种票据文本的信息提取方法的流程图,本实施例可适用于对票据图像中的实体信息进行提取的情况,该方法可以由票据文本的信息提取装置来执行,该票据文本的信息提取装置可以采用硬件和/或软件的形式实现,该票据文本的信息提取装置可配置于电子设备中,典型的,电子设备可以是计算机设备或者服务器。如图1A所示,该方法包括:
S110、获取票据图像,并通过对所述票据图像进行实体反向标注,获取所述票据图像对应的至少一个实体标注框,以及各所述实体标注框对应的数据类别。
其中,票据图像可以对应不同的票据格式,例如,可以对应不同的语言(例如,中文、英语、意大利语等)。在本实施例中,可以通过现有的数据集、网络采集或者扫描纸质票据等,获取一定数量的票据图像。本实施例对票据图像对应的票据种类不作具体限定。
在一个具体的例子中,可以向标注人员发送票据图像对应的票据标注请求,并接收标注人员上传的票据图像对应的多个实体标注框,以及每一个实体标注框对应的数据类别。在本实施例中,通过实体反向标注,允许标注人员在原票据图像上标注文本内容,并赋予数据类别属性。其中,标注样例可以如图1B所示,红色为标题,蓝色为键,绿色为值。
具体的,每一条实体标注框,可以包括框位置信息和对应的数据类别;其中,框位置信息,表示文本框坐标,标注了框选文本框的左上顶点、右上顶点、左下顶点和右下顶点的坐标。对应的,数据类别,可以是数据内容的类型,例如,商品名称、票据编号等。在本实施例中,允许不同票据格式的票据图像对应的实体标注框组成数据集,但是不同票据图像的实体命名应该完全不同,例如,票据A格式中的商品名称可以标注为商品名称A类,而票据B格式中的商品名称则应有别于票据A格式,例如,可以标注为商品名称B类。
S120、通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框。
其中,光学字符识别(Optical Character Recognition,OCR),主要利用光学对文件中的印刷体字符进行黑白点阵处理,使其成为图像文件,再运用识别软件将图像中的文字转换为文本格式。在本实施例中,通过对票据图像进行OCR识别,可以将票据图像中的文本数据内容识别为多个分支部分,每个部分为一个识别文本框,每个识别文本框被输出为一条识别结果数据。例如,OCR识别数据的框选效果可以如图1C所示。
在本实施例中,每个识别文本框可以包括以下结构:(1)框位置信息,标注了文本框的左上顶点、右上顶点、左下顶点和右下顶点的坐标;(2)图像长宽;(3)文本框中文本内容;(4)文本框中每个文字所在文本框位置。其中,识别文本框的数据样例可以如图1D所示。
S130、根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签。
其中,框位置信息可以包括左上顶点坐标、右上顶点坐标、左下顶点坐标和右下顶点坐标,用于标识文本框在票据图像中的位置。在本实施例中,可以针对票据图像预先建立坐标系,从而在确定实体标注框或者识别文本框之后,可以直接确定对应的各顶点的坐标,从而确定框位置信息。
在一个具体的例子中,可以根据每个实体标注框对应的各顶点坐标,以及每个识别文本框对应的各顶点坐标,判断实体标注框与识别文本框之间是否存在重叠;若检测到一个实体标注框与一个识别文本框存在重叠,或者重叠的比例大于预先设置的比例值,则可以确定两个文本框匹配,即可以将该实体标注框对应的数据类别,作为该识别文本框对应的类别标签。由此,可以自动完成对每个识别文本框的类别标注,为每个识别文本框打上对应的类别标签。例如,由识别文本框和对应的类别标签组成的单条文档数据样例可以如图1E所示。
上述设置的好处在于,可以实现对OCR识别文本数据的快速精准的批量标记。
S140、根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于所述目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息。
其中,初始富文本信息提取模型可以为LayoutXLM模型,LayoutXLM模型以多模态变换器为主干网络,并以掩码视觉语言模型损失与多标签文档分类损失为学习目标。其中,在模型输入层面采用具有空间感知的自注意力机制多模态变换器(Transformer),可以对模型输入进行编码并将多个模态的信息进行融合。LayoutXLM模型的结构可以如图1F所示。
在本实施例中,在识别文本框的文本内容和图像信息的基础上,新增文本布局特征作为输入向量,以对初始富文本信息提取模型进行再训练;直至检测到满足预先设置的迭代次数,或者基于掩码视觉语言模型(Masked Visual-Language Model,MVLM)损失与多标签文档分类(Multi-label Document Classification,MDC)损失的损失值小于预设的阈值,获取训练完成的目标富文本信息提取模型。其中,文本布局特征,可以是二维的框位置信息,表示文本内容在票据图像中的位置。而图像信息,在实体名称认知任务中可以忽略。
在一个具体的例子中,首先,可以采用包含三千万标记文档的资料库IIT-CDIPTest Collection 1.0,基于LayoutXLM架构预训练得到初始富文本信息提取模型。然后,可以对初始富文本信息提取模型进行针对性的任务微调;具体的,可以将不同票据图像的各识别文本框和对应的框位置信息与类别标签,作为训练样本集,以对初始富文本信息提取模型进行针对性训练,以提升模型对票据图像的信息提取能力。
具体的,在获取到目标富文本信息提取模型之后,可以将待识别票据图像输入到目标富文本信息提取模型中,以通过目标富文本信息提取模型,定位并标注出待识别票据图像中不同类别的商品命名实体。例如,标注出票据图像中的商品名称、收发人和票据编号等。
在本实施例中,目标富文本信息提取模型的参数配置可以为:(1)vocab_size(int)表示模型分词字典大小,定义了词嵌入层的规模,训练时需要根据预料情况进行调整。(2)hidden_size(int,optional)表示编码器和池化层的维度,本实施例可以设置为768。(3)num_hidden_layers(int,optional)表示Transformer层数,本实施例可以设置为12。(4)hidden_act(str,optional)表示Transformer中的激活函数选择,在本实施例中可以使用GeLu函数,设置为“gelu”。(5)hidden_dropout_prob(float,optional)表示编码器和嵌入层中的全连接层设置dropout rate,本实施例可以配置为0.1。(6)attention_probs_dropout_prob(float,optional)表示池化器中的全连接层设置dropout rate,本实施例可以配置为0.1。(7)max_seq_length表示输入单条文本数据最长长度,本实施例可以设置为512。(8)learning_rate表示学习率,本实施例可以配置为3e-5。(9)Optimizer表示优化器选择,本实施例可以使用adam优化器;该优化器通过综合评估梯度的一阶矩估计和二阶矩估计来计算更新步长,是一款可以高效进行维度下降并提升模型效果的优化器。
在本实施例中,对于票据图像中不同的实体识别的平均评估指标为accuracy(准确率)为0.988418993,macro precision(精确率)为0.836553509,macro recall(召回率)为0.841817355,macro f1_score为0.831221381。其中,各类别的实体识别的平均准确率可以达到98%以上,精准度可以达到83%以上,该效果可以满足票据实体信息识别任务的应用场景。
本发明实施例的技术方案,通过获取票据图像,并通过对票据图像进行实体反向标注,获取票据图像对应的多个实体标注框,以及各实体标注框对应的数据类别;同时,通过对票据图像进行光学字符识别,获取票据图像对应的多个识别文本框;然后,根据各实体标注框和各识别文本框分别对应的框位置信息,获取各识别文本框匹配的实体标注框对应的数据类别,以作为各识别文本框对应的类别标签;最后,根据各识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息;通过自动对识别文本框和实体标注框进行匹配检测,以确定识别文本框对应的类别标签,可以避免人工进行内容比对和类别标注导致的人力资源浪费;通过结合识别文本框和对应的框位置信息与类别标签进行模型再训练,可以提升票据实体信息的提取准确度。
在本实施例的一个可选的实施方式中,根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签,可以包括:
当根据当前识别文本框对应的框位置信息与当前实体标注框对应的框位置信息,确定所述当前识别文本框与所述当前实体标注框存在重叠区域时,计算得到重叠区域面积;
获取所述当前识别文本框与所述当前实体标注框中面积最小的目标文本框,并计算得到所述重叠区域面积与所述目标文本框的面积的比值;
若检测到所述比值大于预设比例阈值,则确定所述当前识别文本框与所述当前实体标注框匹配,将所述当前实体标注框对应的数据类别作为所述当前识别文本框对应的类别标签。
其中,预设比例阈值,可以是预先设置的比例值,例如,可以是百分之五十。
在一个具体的例子中,在判断识别文本框与实体标注框是否匹配时,可以首先根据当前识别文本框对应的各顶点坐标,以及当前实体标注框对应的各顶点坐标,判断两者之间是否存在重叠的部分;若确定存在重叠的部分,则可以计算得到重叠区域面积。然后,对当前识别文本框与当前实体标注框进行面积比较,以获取两者中面积最小的作为目标文本框。
进一步的,采用重叠区域面积除以该目标文本框的面积,以计算得到两者的比值;若检测到该比值大于50%,则可以确定当前识别文本框与当前实体标注框匹配,可以采用当前实体标注框对应的数据类别,作为当前识别文本框对应的类别标签。而若检测到该比值小于或者等于50%,则可以确定两者不匹配,可以继续进行当前识别文本框与其他实体标注框的匹配判断。
在本实施例中,可以将单张票据图像分割为多条文本数据,每条文本数据可以包含文本内容、文本坐标和对应类别标签。单张票据图像的文本数据可以被整合为一个列表,并被存储为单条输入数据。由此,处理多份票据图像即可生成一个训练样本集。
在本实施例的另一个可选的实施方式中,根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,可以包括:
根据各所述识别文本框和对应的框位置信息与类别标签,生成训练样本集;
通过预配置的样本采样器,在所述训练样本集中采样得到对应相同样本数量的至少一个训练样本子集,各所述训练样本子集对应不同的票据格式;
基于各所述训练样本子集,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型。
在本实施例中,可以将一个识别文本框的文本内容、框位置信息和类别标签,作为一条训练样本,故对于一张票据图像,可以获取对应的多个训练样本。然后,可以基于不同票据格式的各票据图像对应的各训练样本,生成训练样本集。
在一个具体的例子中,为了提升再训练得到的目标富文本信息提取模型对于不同格式文档的识别准确性,使其不侧重于样本过多的文档类型的实体识别,可以预先配置样本采样器,以在训练样本集中采样得到相同样本数量的对应不同票据格式的训练样本子集,并采用各训练样本子集对初始富文本信息提取模型进行再训练。其中,样本采样器,可以根据用户配置,从指定的样本集中进行相应的样本采样。
在本实施例中,通过配置样本采样器,可以平衡不同票据格式的训练样本的数量。可选的,当用户需要获取对于特定票据格式的票据图像,具有更强信息提取能力的富文本信息提取模型时,可以通过样本采样器从训练数据集中,采样得到对应特定票据格式的训练样本子集,并基于该训练样本子集进行模型再训练。
在本实施例的另一个可选的实施方式中,通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框,可以包括:
通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个文本框数据;
基于预设文本框分割标准,对各所述文本框数据进行分割,以获取至少一个识别文本框。
在本实施例中,可以通过对票据图像进行OCR识别,以获取识别到的文本框数据;其中,文本框数据的文本内容,可以是未经过分割的长文本。然后,可以基于预设文本框分割标准,例如,根据分词结果,或者根据字符等,对OCR识别出的文本框数据进行分割提取,以最终获取每个文本框数据对应的多个识别文本框。
在本实施例的另一个可选的实施方式中,基于预设文本框分割标准,对各所述文本框数据进行分割,以获取至少一个识别文本框,可以包括:
获取当前文本框数据对应的分词结果,并根据所述分词结果对所述当前文本框数据进行分割,以获取所述当前文本框数据对应的至少一个识别文本框。
在一个具体的例子中,可以首先对当前文本框数据中的文本内容进行分词处理,然后,可以根据分词结果将当前文本框数据,分割为多个识别文本框。其中,根据分词结果进行识别文本框数据分割的示意图可以如图1G所示。
在本实施例的一个具体的实施方式中,票据文本的信息提取方法的流程可以如图1H所示。具体的,可以包括数据预处理、模型训练和结果后处理三个阶段。在数据预处理阶段中,首先,获取OCR识别的识别文本数据,以及实体标注框和对应的数据类别,并通过对识别文本数据进行分词处理,获取识别文本框。之后,对实体标注框和识别文本框进行匹配检测,并根据匹配检测结果,BIO(Beginning、Inside和Outside)标注识别文本框对应的类别标签。最后,可以通过对识别文本框的文本内容进行词向量化处理,以获取训练样本集。
其次,在模型训练阶段,基于训练样本集,对预训练的LayoutXLM模型进行实体名称识别任务模型的再训练,并可以在模型训练完成后,对待识别票据图像进行实体信息预测。最后,在结果后处理阶段,可以对模型预测结果进行解码和标注还原,并统计文本中标记为商品名称的文本内容。
在本实施例中,针对票据这种具有文本内容和文本布局等多种特征的富文本文档,通过结合文本内容和文本布局(位置信息)两种特征进行模型训练,可以提高票据信息提取的精度。其次,有别于现有技术中需要等待OCR识别出文本数据后再进行标注,本实施例提供了一种反向标注实体建立实体识别训练集的标注方法,允许标注人员提前在票据图像上大范围标注文本实体类别,从而可以节省等待OCR识别的时间。此外,由于不需要比对识别结果和原图像,故还可以花费更少的人力实现样本标注。
实施例二
图2为本发明实施例二提供的一种票据文本的信息提取装置的结构示意图。如图2所示,该装置可以包括:实体标注框获取模块210、识别文本框获取模块220、类别标签获取模块230和商品实体信息提取模块240;其中,
实体标注框获取模块210,用于获取票据图像,并通过对所述票据图像进行实体反向标注,获取所述票据图像对应的至少一个实体标注框,以及各所述实体标注框对应的数据类别;
识别文本框获取模块220,用于通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框;
类别标签获取模块230,用于根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签;
商品实体信息提取模块240,用于根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于所述目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息。
本发明实施例的技术方案,通过获取票据图像,并通过对票据图像进行实体反向标注,获取票据图像对应的多个实体标注框,以及各实体标注框对应的数据类别;同时,通过对票据图像进行光学字符识别,获取票据图像对应的多个识别文本框;然后,根据各实体标注框和各识别文本框分别对应的框位置信息,获取各识别文本框匹配的实体标注框对应的数据类别,以作为各识别文本框对应的类别标签;最后,根据各识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息;通过自动对识别文本框和实体标注框进行匹配检测,以确定识别文本框对应的类别标签,可以避免人工进行内容比对和类别标注导致的人力资源浪费;通过结合识别文本框和对应的框位置信息与类别标签进行模型再训练,可以提升票据实体信息的提取准确度。
可选的,类别标签获取模块230,包括:
重叠区域面积计算单元,用于当根据当前识别文本框对应的框位置信息与当前实体标注框对应的框位置信息,确定所述当前识别文本框与所述当前实体标注框存在重叠区域时,计算得到重叠区域面积;
比值计算单元,用于获取所述当前识别文本框与所述当前实体标注框中面积最小的目标文本框,并计算得到所述重叠区域面积与所述目标文本框的面积的比值;
类别标签获取单元,用于若检测到所述比值大于预设比例阈值,则确定所述当前识别文本框与所述当前实体标注框匹配,将所述当前实体标注框对应的数据类别作为所述当前识别文本框对应的类别标签。
可选的,商品实体信息提取模块240,包括:
训练样本集生成单元,用于根据各所述识别文本框和对应的框位置信息与类别标签,生成训练样本集;
训练样本子集采样单元,用于通过预配置的样本采样器,在所述训练样本集中采样得到对应相同样本数量的至少一个训练样本子集,各所述训练样本子集对应不同的票据格式;
目标富文本信息提取模型获取单元,用于基于各所述训练样本子集,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型。
可选的,所述初始富文本信息提取模型为LayoutXLM模型,所述LayoutXLM模型以多模态变换器为主干网络,并以掩码视觉语言模型损失与多标签文档分类损失为学习目标。
可选的,所述框位置信息包括左上顶点坐标、右上顶点坐标、左下顶点坐标和右下顶点坐标。
可选的,识别文本框获取模块220,包括:
文本框数据获取单元,用于通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个文本框数据;
识别文本框获取单元,用于基于预设文本框分割标准,对各所述文本框数据进行分割,以获取至少一个识别文本框。
可选的,识别文本框获取单元,具体用于获取当前文本框数据对应的分词结果,并根据所述分词结果对所述当前文本框数据进行分割,以获取所述当前文本框数据对应的至少一个识别文本框。
本发明实施例所提供的票据文本的信息提取装置可执行本发明任意实施例所提供的票据文本的信息提取方法,具备执行方法相应的功能模块和有益效果。
需要说明的是,本实施例的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备30的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备30包括至少一个处理器31,以及与至少一个处理器31通信连接的存储器,如只读存储器(ROM)32、随机访问存储器(RAM)33等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器31可以根据存储在只读存储器(ROM)32中的计算机程序或者从存储单元38加载到随机访问存储器(RAM)33中的计算机程序,来执行各种适当的动作和处理。在RAM 33中,还可存储电子设备30操作所需的各种程序和数据。处理器31、ROM 32以及RAM 33通过总线34彼此相连。输入/输出(I/O)接口35也连接至总线34。
电子设备30中的多个部件连接至I/O接口35,包括:输入单元36,例如键盘、鼠标等;输出单元37,例如各种类型的显示器、扬声器等;存储单元38,例如磁盘、光盘等;以及通信单元39,例如网卡、调制解调器、无线通信收发机等。通信单元39允许电子设备30通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器31可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器31的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器31执行上文所描述的各个方法和处理,例如票据文本的信息提取方法。
在一些实施例中,票据文本的信息提取方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元38。在一些实施例中,计算机程序的部分或者全部可以经由ROM 32和/或通信单元39而被载入和/或安装到电子设备30上。当计算机程序加载到RAM 33并由处理器31执行时,可以执行上文描述的票据文本的信息提取方法的一个或多个步骤。备选地,在其他实施例中,处理器31可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行票据文本的信息提取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种票据文本的信息提取方法,其特征在于,包括:
获取票据图像,并通过对所述票据图像进行实体反向标注,获取所述票据图像对应的至少一个实体标注框,以及各所述实体标注框对应的数据类别;
通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框;
根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签;
根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于所述目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息。
2.根据权利要求1所述的方法,其特征在于,根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签,包括:
当根据当前识别文本框对应的框位置信息与当前实体标注框对应的框位置信息,确定所述当前识别文本框与所述当前实体标注框存在重叠区域时,计算得到重叠区域面积;
获取所述当前识别文本框与所述当前实体标注框中面积最小的目标文本框,并计算得到所述重叠区域面积与所述目标文本框的面积的比值;
若检测到所述比值大于预设比例阈值,则确定所述当前识别文本框与所述当前实体标注框匹配,将所述当前实体标注框对应的数据类别作为所述当前识别文本框对应的类别标签。
3.根据权利要求1所述的方法,其特征在于,根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,包括:
根据各所述识别文本框和对应的框位置信息与类别标签,生成训练样本集;
通过预配置的样本采样器,在所述训练样本集中采样得到对应相同样本数量的至少一个训练样本子集,各所述训练样本子集对应不同的票据格式;
基于各所述训练样本子集,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型。
4.根据权利要求1或3所述的方法,其特征在于,所述初始富文本信息提取模型为LayoutXLM模型,所述LayoutXLM模型以多模态变换器为主干网络,并以掩码视觉语言模型损失与多标签文档分类损失为学习目标。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述框位置信息包括左上顶点坐标、右上顶点坐标、左下顶点坐标和右下顶点坐标。
6.根据权利要求1所述的方法,其特征在于,通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框,包括:
通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个文本框数据;
基于预设文本框分割标准,对各所述文本框数据进行分割,以获取至少一个识别文本框。
7.根据权利要求6所述的方法,其特征在于,基于预设文本框分割标准,对各所述文本框数据进行分割,以获取至少一个识别文本框,包括:
获取当前文本框数据对应的分词结果,并根据所述分词结果对所述当前文本框数据进行分割,以获取所述当前文本框数据对应的至少一个识别文本框。
8.一种票据文本的信息提取装置,其特征在于,包括:
实体标注框获取模块,用于获取票据图像,并通过对所述票据图像进行实体反向标注,获取所述票据图像对应的至少一个实体标注框,以及各所述实体标注框对应的数据类别;
识别文本框获取模块,用于通过对所述票据图像进行光学字符识别,获取所述票据图像对应的至少一个识别文本框;
类别标签获取模块,用于根据各所述实体标注框和各所述识别文本框分别对应的框位置信息,获取各所述识别文本框匹配的实体标注框对应的数据类别,以作为各所述识别文本框对应的类别标签;
商品实体信息提取模块,用于根据各所述识别文本框和对应的框位置信息与类别标签,对预训练的初始富文本信息提取模型进行再训练,以获取再训练完成的目标富文本信息提取模型,并基于所述目标富文本信息提取模型,提取得到待识别票据图像对应的商品实体信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的票据文本的信息提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的票据文本的信息提取方法。
CN202310184159.2A 2023-02-24 2023-02-24 票据文本的信息提取方法、装置、设备及存储介质 Pending CN116110066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310184159.2A CN116110066A (zh) 2023-02-24 2023-02-24 票据文本的信息提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310184159.2A CN116110066A (zh) 2023-02-24 2023-02-24 票据文本的信息提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116110066A true CN116110066A (zh) 2023-05-12

Family

ID=86254306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310184159.2A Pending CN116110066A (zh) 2023-02-24 2023-02-24 票据文本的信息提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116110066A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095422A (zh) * 2023-10-17 2023-11-21 企查查科技股份有限公司 文档信息解析方法、装置、计算机设备、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095422A (zh) * 2023-10-17 2023-11-21 企查查科技股份有限公司 文档信息解析方法、装置、计算机设备、存储介质
CN117095422B (zh) * 2023-10-17 2024-02-09 企查查科技股份有限公司 文档信息解析方法、装置、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
CN114821622B (zh) 文本抽取方法、文本抽取模型训练方法、装置及设备
CN112949415B (zh) 图像处理方法、装置、设备和介质
WO2020005731A1 (en) Text entity detection and recognition from images
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN113936195B (zh) 敏感图像识别模型的训练方法、训练装置和电子设备
CN113255501A (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN114818708A (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN112199499A (zh) 文本划分方法、文本分类方法、装置、设备及存储介质
CN114419636A (zh) 文本识别方法、装置、设备以及存储介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN116246287B (zh) 目标对象识别方法、训练方法、装置以及存储介质
CN116662484A (zh) 一种文本正则化方法、装置、设备以及存储介质
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备
CN116958512A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN115690816A (zh) 一种文本要素提取方法、装置、设备和介质
CN115546813A (zh) 一种文档分析方法、装置、存储介质及设备
CN115376137A (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
CN111753840A (zh) 一种同城物流配送名片下单技术
CN114998906B (zh) 文本检测方法、模型的训练方法、装置、电子设备及介质
CN116012656B (zh) 样本图像的生成方法和图像处理模型的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination