CN115640401B - 文本内容提取方法及装置 - Google Patents
文本内容提取方法及装置 Download PDFInfo
- Publication number
- CN115640401B CN115640401B CN202211565030.8A CN202211565030A CN115640401B CN 115640401 B CN115640401 B CN 115640401B CN 202211565030 A CN202211565030 A CN 202211565030A CN 115640401 B CN115640401 B CN 115640401B
- Authority
- CN
- China
- Prior art keywords
- text
- graph
- text box
- text boxes
- boxes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 76
- 238000013528 artificial neural network Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 58
- 238000012545 processing Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 15
- 238000010276 construction Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 125000004122 cyclic group Chemical group 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本申请提供文本内容提取方法及装置,其中所述文本内容提取方法包括:对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;基于各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,获得各文本框之间的关联分类结果;按照关联分类结果,提取各文本框中的文本内容。通过构建文本框关系图,并利用预先训练的图神经网络,对文本框关系图中的各文本框之间的关联关系进行分类,获得分类结果,根据分类结果提取各文本框中的文本内容,提高了文本内容提取的效率。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种文本内容提取方法。本申请同时涉及一种文本内容提取装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
结构化文本抽取一直是信息整合和数据分析的重要过程,有很多技术应用于此,例如,纸质表单信息的抽取,在于节省人工录入的时间成本,同时大幅度增加准确率的同时,提高效率。其发展也由传统的利用人工录入,到基于规则的自动录入方式,到最近基于深度学习的自动录入方式。
在对纸质表单信息进行录入时,整体分为四步,第一步是图像信息抽取,第二步是文本关系匹配,第三步是版面结构化,第四步是信息录入;目前针对第一步通常是利用光学字符识别进行图像信息的识别与抽取,针对第二步是利用卷积神经网络的方式进行文本关系匹配,之后进行第三步和第四步,其中在利用卷积神经网络进行第二步文本关系匹配时,需要将纸质表单中的任一文本内容与其余文本内容均进行连接,并遍历所有连接关系,确定具有匹配关系的文本连接关系对,增加了文本匹配的繁琐度,降低了对文本进行提取的效率,因此,亟需一种高效的文本内容提取方法。
发明内容
有鉴于此,本申请实施例提供了一种文本内容提取方法。本申请同时涉及一种文本内容提取装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种文本内容提取方法,包括:
对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;
根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;
基于各文本框之间的关联关系,构建文本框关系图;
利用预先训练的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,获得各文本框之间的关联分类结果;
按照关联分类结果,提取各文本框中的文本内容。
根据本申请实施例的第二方面,提供了一种文本内容提取装置,包括:
信息确定模块,被配置为对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;
关系确定模块,被配置为根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;
构建模块,被配置为基于各文本框之间的关联关系,构建文本框关系图;
分类模块,被配置为利用预先训练的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,获得各文本框之间的关联分类结果;
提取模块,被配置为按照关联分类结果,提取各文本框中的文本内容。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现上述文本内容提取方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现上述文本内容提取方法的步骤。
本申请提供的文本内容提取方法,对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系;基于所述各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果;按照所述关联分类结果,提取所述各文本框中的文本内容。
本申请一实施例通过对目标图像进行文字识别,获得多个文本框,根据各文本框的位置信息、类别信息和关联关系,构建文本框关系图,并利用预先训练的图神经网络,对各文本框之间的关联关系进行分类,获得分类结果,使得分类结果是通过预先训练的图神经网络和文本框关系图进行分类确定出来的,根据分类结果提取各文本框中的文本内容,使得提取的文本内容是基于图神经网络和图确定出来的关联分类结果确定的,提高了文本内容提取的效率。
附图说明
图1是本申请一实施例提供的一种文本内容提取系统架构下的交互流程示意图;
图2是本申请一实施例提供的一种文本内容提取方法的流程图;
图3a是本申请一实施例提供的一种文本框关系图;
图3b是本申请一实施例提供的另一种文本框关系图;
图3c是本申请一实施例提供的一种文本内容提取方法中的文本框关系图;
图4是本申请一实施例提供的一种文本内容提取方法的图神经网络结构图;
图5是本申请一实施例提供的另一种文本内容提取方法的图神经网络结构图;
图6是本申请一实施例提供的另一种文本内容提取方法的图神经网络结构中指定循环网络层结构图;
图7是本申请一实施例提供的一种应用于纸质表单信息提取的文本内容提取方法的处理流程图;
图8是本申请一实施例提供的一种文本内容提取装置的结构示意图;
图9是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
光学字符识别(OCR,Optical Character Recognition)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景,例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社保卡)、票据识别等。
超参数:在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。
图卷积神经网络(GCN,Graph Convolutional Network):实际上跟CNN的作用一样,就是一个特征提取器,只不过它的对象是图数据。GCN精妙地设计了一种从图数据中提取特征的方法,从而让我们可以使用这些特征去对图数据进行节点分类(nodeclassification)、图分类(graph classification)、边预测(link prediction)。
循环神经网络(RNN,Recurrent Neural Network):是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
LayoutLMv3:是不依赖复杂的CNN网络来表征图像,而是直接利用文档图像的图像块,从而大大节省了参数并避免了复杂的文档预处理(如人工标注目标区域框和文档目标检测)。简单的统一架构和训练目标使 LayoutLMv3 成为通用的预训练模型,可适用于以文本为中心和以图像为中心的文档识别任务。
transformer:抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这个模型广泛应用于自然语言处理(NLP,Natural Language Processing)领域,例如机器翻译、问答系统、文本摘要和语音识别等等方向。
BERT(Bidirectional Encoder Representation from Transformers):是指将输入文本中的每一个词(token)送入词嵌入(token embedding)层,从而将每一个词转换成向量形式。token embedding 层是要将各个词转换成固定维度的向量。在BERT中,每个词会被转换成768维的向量表示。
KNN(K-Nearest Neighbor):是机器学习算法中较基础、较简单的算法之一。它既能用于分类,也能用于回归。
XFUND中文公开数据集:这个数据集主要涵盖中文表格、文本类数据,分别带有文本语义实体与文本键值对分类标签。
门控循环单元(GRU,gated recurrent unit):是为了更好地捕捉时间序列中时间步距离较大的依赖关系。
结构化图卷积网络SGCN(Sparse Graph Convolution Network):通过稀疏性和低秩的图结构特性来提高 GCN 的性能。
评定模型:Logit模型(Logit model),是最早的离散选择模型,也是应用最广的模型。
GatedGCN(GatedGraph Convolutional Network)架构:是一种基于各向异性消息传递的GNN。
全连接层(FC,Fully Connected):在整个网络卷积神经网络中起到“分类器”的作用。
现有技术的自动录入方式中,通常包括如下步骤:图像信息抽取、文本关系匹配、版面结构化和信息录入。其中图像信息抽取主要在于整体图像以内的OCR检测识别,这项技术已经较为成熟,较难的部分是文本关系匹配,并基于匹配的结果获得版面结构化,进而进行信息录入。
现有技术中,进行文本关系匹配获得版面结构化的方式通常是使用CNN,较为先进的是LayoutLMv3模型,这个模型主要是同时输入图片与文本信息等多模态信息,通过transformer主干网络,以键值属性方式输出文本关系对,也称为键值对(问题-答案对,例如:日期-6月7日)。利用整张图像的OCR结果,与网络输出的键值对,达到图像版面分析的目的。
layoutlmv3模型的整体流程如下:(1)将输入图片首先经过文字识别算法,提取到文本框与文本框对应的文字内容。将文本框与文字内容经过通用的分词向量提取器,得到词特征向量。(2)再将图片调整到224*224,经过卷积提取图像特征。(3)将图像特征与词向量特征连接到一起输入到多模态transformer主干网络中。(4)模型分为两个阶段,进行版面分析:第一个阶段对文本语义分类,即分类每个文本框是问题、答案、其他文本。第二阶段为文本关系匹配任务,利用第一个阶段的文本框分类结果,与多模态transformer模型输出向量共同输出键值对关系,过程较为复杂,在匹配时,通常会遍历所有文本框,再通过模型进行匹配。然而实际大部分情况中,存在关系的文本框在图像中是邻近匹配的,不需要遍历所有关系。
因此,本申请提供了一种文本内容提取,对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;基于各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,获得各文本框之间的关联分类结果;按照关联分类结果,提取各文本框中的文本内容。通过对目标图像进行文字识别,获得多个文本框,根据各文本框的位置信息、类别信息和关联关系,构建文本框关系图,并利用预先训练的图神经网络,对各文本框之间的关联关系进行分类,获得分类结果,使得分类结果是通过预先训练的图神经网络和文本框关系图进行分类确定出来的,根据分类结果提取各文本框中的文本内容,使得提取的文本内容是基于图神经网络和图确定出来的关联分类结果确定的,提高了文本内容提取的效率。
本申请实施例中提供的文本内容提取方法一般由服务端执行,但是,在本申请的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本申请实施例所提供的文本内容提取方法。在其他实施例中,本申请实施例所提供的文本内容提取方法还可以是由客户端与服务端共同执行。
在本申请中,提供了一种文本内容提取方法,本申请同时涉及一种文本内容提取装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本申请一个实施例提供的一种文本内容提取系统架构下的交互流程示意图,如图1所示,该文本内容提取系统包括客户端和服务端;
客户端,用于向服务端提供目标图像;
服务端,用于对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系;基于所述各文本框之间的关联关系,构建文本框关系图;利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果;按照所述关联分类结果,提取所述各文本框中的文本内容;
进一步地,客户端,还用于接收服务端提取的各文本框中的文本内容。
应用本申请实施例的方案,通过对目标图像进行文字识别,获得多个文本框,根据各文本框的位置信息、类别信息和关联关系,构建文本框关系图,并利用预先训练的图神经网络,对各文本框之间的关联关系进行分类,获得分类结果,使得分类结果是通过预先训练的图神经网络和文本框关系图进行分类确定出来的,根据分类结果提取各文本框中的文本内容,使得提取的文本内容是基于图神经网络和图确定出来的关联分类结果确定的,提高了文本内容提取的效率。
图2示出了本申请一实施例提供的一种文本内容提取方法的流程图,具体包括以下步骤:
步骤202:对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息。
本申请一个或多个实施例中,在有文本内容提取的需求时,服务端会获取目标图像,目标图像可以是用户在前端输入的,也可以是服务端从目标图像库中获得的。
具体地,目标图像是指需要进行文本内容提取的图像,比如,一张纸质版的信息单,需要将该信息单中的文本内容进行提取,则称该信息单为目标图像。文本框是指包含文本内容的框,该文本框的尺寸大小覆盖所包含文本内容的尺寸的大小。位置信息是指文本框在目标图像中的位置,位置信息可以包括文本框的尺寸、文本框中心点的位置、文本框边框顶点的坐标等。类别信息是指文本框中的文本内容所述的类别,比如,类别信息可以是问题、答案等。
实际应用中,对目标图像进行文字识别,通常包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。使用的方式可以是OCR识别,利用OCR对目标图像中的文字转换为黑白点阵的图像文件,并通过识别软件,获得多个文本框。
可选地,确定各文本框的位置信息,可以是确定各文本框的中心点、顶点分别对应的坐标;还可以是各文本框相对于目标图像的位置信息。
可选地,各文本框的位置信息还可以包括各文本框的中心位置。
可选地,确定各文本框的类别信息,可以是识别各文本框中的文本内容的语义特征,基于语义特征进行文本框分类,确定各文本框的类别信息。
本申请一种可选的实施例中,上述步骤确定各文本框的位置信息,包括如下具体步骤:
获得各文本框的尺寸信息以及所述目标图像的尺寸信息;
根据所述各文本框的尺寸信息以及所述目标图像的尺寸信息,对所述各文本框进行归一化,获得归一化后所述各文本框的位置信息。
具体地,尺寸信息是指文本框、目标图像的尺寸大小,比如,文本框的长宽、形状、面积等。归一化是指一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系,具体是指将各文本框单独的尺寸信息,通过归一化处理,使得各文本框对应的位置信息为各文本框的尺寸相对于目标图像的尺寸的信息,将各文本框的尺寸信息经过标准化的处理,生成各自对应的归一化的位置信息。
可选地,获得各文本框的尺寸信息以及目标图像的尺寸信息可以是利用图像识别的方式获得。
实际应用中,确定各文本框的位置信息,可以是在识别出各文本框之后,确定出各文本框的框长宽,再确定出目标图像的图长宽,用框长宽除以图长宽,将计算出来的结果作为各文本框的位置信息;还可以是在确定出各文本框的框长宽和目标图像的图长宽之后,将各框长宽与图长宽进行等比例放大或者缩小,确定出各文本框的框长宽与图长宽处理后的长宽,将该长宽作为各文本框的位置信息。
应用本申请实施例的方案,通过获得各文本框的尺寸信息以及目标图像的尺寸信息;并根据各文本框的尺寸信息和目标图像的尺寸信息,对各文本框进行归一化,获得归一化后的各文本框的位置信息,使得各文本框的位置信息从单独的尺寸参数,变成了有统一标准的归一化位置信息,使得后续基于归一化位置信息构建出来的文本框关系图的图结构更加的准确。
本申请一种可选的实施例中,上述步骤确定各文本框的类别信息,包括如下具体步骤:
获得各文本框中文本内容的特征信息;
基于所述各文本框中文本内容的特征信息,确定所述各文本框的类别信息。
具体地,特征信息是指表征文本内容的特征的信息,是必不可少的、基本的信息。
可选地,获得各文本框的特征信息可以是利用图像识别的方式获得,也可以是对文本框内的文本内容进行分析、提取得到,比如可以是通过特征提取的方式提取文本内容的特征信息。
可选地,基于各文本框中文本内容的特征信息,确定各文本框的类别信息,可以是通过识别特征信息中的信息内容的语义特征,基于语义特征进行文本框分类,确定文本框的类别信息。
应用本申请实施例的方案,通过获得各文本框中文本内容的特征信息,并基于各文本框中文本内容的特征信息,确定出各文本框的类别信息,使得确定出来的文本框的类别信息是根据文本框中的文本内容确定的,进而使文本框的连接是基于文本内容本身的,使得文本内容的提取效率更高。
步骤204:根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系。
具体地,关联关系是指各文本框之间是否存在关联的关系,比如关联关系可以是不存在关联、存在关联。
可选地,根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系,有多种可能的实现方式。一种可能的实现方式中,可以是需要满足预设的位置信息的判定条件和预设的类别信息的判断条件,才能确定出各文本框之间的关联关系,比如,针对第一文本框,与第一文本框之间的距离小于预设阈值,且类别不同的第二文本框与第一文本框存在关联。另一种可能的实现方式中,可以是满足预设的位置信息的判定条件,比如,针对第一文本框,计算其他各文本框与第一文本框之间的距离,将距离由近到远进行排序,选取前10个距离对应的文本框作为与第一文本框存在关联的文本框,其余的文本框为与第一文本框不存在关联的文本框。
根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系,是依次遍历各文本框,比如,针对第一文本框,根据第一文本框和其他各文本框的位置信息和类别信息,确定出第一文本框与其他各文本框之间的关联关系。
本申请一种可选的实施例中,上述步骤304,包括如下具体步骤:
根据所述各文本框的位置信息,确定所述各文本框之间的边框距离;
根据所述各文本框的类别信息,确定所述各文本框之间的类别相似度;
确定边框距离小于预设距离阈值、且类别相似度小于预设相似度的文本框之间存在关联关系。
具体地,边框距离是指各文本框的边框之间的距离,比如,有两个文本框,在目标图像中水平对齐,文本框A位于左边,文本框B位于右边,则文本框A右边的框线与文本框B中左边的框线之间的距离为边框之间的距离。类别相似度是指两个文本框分别对应的类别信息中包含的类别之间的相似度,比如,问题和答案的类别相似度为0,问题与问句的相似度为80%。预设距离阈值是指预先设置的边框距离的阈值,用于限定存在关联的边框之间的距离需要小于预设距离阈值。预设相似度是指预先设置的文本框类别之间的相似度,用于限定存在关联的两个文本框之间的类别相似度需要小于预设相似度。
根据各文本框的为位置信息,确定各文本框之间的边框距离,具体可以是获取各个文本框的顶点坐标,计算顶点坐标之间的距离,确定边框距离;也可以是获取文本框的边之间的距离,进而确定文本框的边框距离。
根据各文本框的类别信息,确定各文本框之间的类别相似度,具体是确定各边框所属的类别,将各文本框的类别进行匹配,根据匹配结果,确定出两个文本框之间的类别相似度,比如,文本框A的类别为“问题”,文本框B的类别为“问句”,经过匹配,确定出文本框A与文本框B的类别相似度为80%。
示例性地,文本框A与文本框B、文本框C、文本框D、文本框E之间的边框距离分别为2.3、4.5、3.2、2.5,预设距离阈值为2.8;文本框A与文本框B、文本框C、文本框D、文本框E之间的类别相似度为40%、10%、100%、20%,预设相似度阈值为40%,则确定文本框A与文本框B、文本框E存在关联关系。
应用本申请实施例的方案,通过确定各文本框之间的边框距离和类别相似度,进一步确定出边框小于预设距离阈值且类别相似度小于预设相似度的文本框之间存在关联关系,使得确定出来存在关联关系的文本框是既符合预设距离阈值又符合预设相似度的文本框,提高了构建文本框关系图的精确性。
参见图3a、图3b,图3a公开了本申请一个实施例提供的一种文本框关系图、图3b公开了本申请一个实施例提供的另一种文本框关系图。
其中,该文本框关系图中包括文本框“票据单号”、“1111111111”、“家庭住址”、“2222222222”、“电话”、“3333333333”、“备注”、“无”。
图3a中,是通过人工先验构建:将“票据单号”与“1111111111”进行连接、将“家庭住址”与“2222222222”进行连接、将“电话”与“3333333333”进行连接、将“备注”与“无”进行连接,通过人工预先构建文本框之间的连接,这种通常是在建立确定任务的情况下,如版面固定的任务,并不适用于通用版面。
图3b中,是利用文本框坐标的KNN构建法、利用文本框坐标的距离构建法(最近距离构建法),这两种构建法直接参考文本框中心点的距离关系,原则是:距离近的有连接,距离远的没有连接,参见图3b可见,“票据单号”与“1111111111”理论上应该有连接,但是因为两个文字框的中心点距离远,反而造成缺失。然而“票据单号”与“家庭住址”却因为框中心点距离近而建立了连接,还有“家庭住址”与“电话”、“电话”与“备注”、“备注”与“无”、“家庭住址”与“2222222222”也因为框中心距离近,各自进行连接,这样就会失去很多有价值的真实连接,会造成较大影响。
为了解决上述问题,本申请一种可选的实施例中,位置信息包括顶点坐标;上述步骤根据所述各文本框的位置信息,确定所述各文本框之间的边框距离,包括如下具体步骤:
根据任两个文本框的顶点坐标,计算所述任两个文本框之间的行间距和列间距;
根据所述各文本框之间的行间距和列间距,以及预设的行间距超参和列间距超参,确定所述各文本框之间的边框距离。
具体地,行间距是指两个文本框在水平方向上的间距;列间距是指两个文本框在竖直方向上的间距。行间距超参是指根据文本框之间的行间距设定的超参。列间距超参是指根据文本框之间的列间距设定的超参,超参的设定用于平衡文本框之间的行间距和列间距之间的差值。
可选地,根据任两个文本框的顶点坐标,计算所述任两个文本框之间的行间距和列间距,可以是获取各文本框的四个顶点的坐标,通过确定需要计算边框距离的两个文本框的整体位置,决定计算哪个顶点与哪个顶点之间的距离,比如,两个文本框的位置为上方和下方,则计算上方的文本框的下面的顶点与下方的文本框的上方的顶点之间的距离,作为行间距;也可以是遍历该两个文本框的各顶点坐标,分别计算属于不同文本框的各个顶点之间的距离,比如,两个文本框各自有四个顶点,则通过计算16次距离,确定边框距离。
根据所述各文本框之间的行间距和列间距,以及预设的行间距超参和列间距超参,确定所述各文本框之间的边框距离d,计算方式见下式(1)至(5):
式(1):
式(2):
式(3):
式(4):
式(5):
其中,min是指最小值;max是指最大值;box是指文本框;x0,y0为box左下角点,x1,y1为box右上角点;sign、abs、iter、、为计算过程参数;与为超参数,通常=2.5, =0.5。
如果两个文本框相交,则边框距离d小于0;如果两个文本框相邻不相交,则边框距离按照两个文本框较近的点或者边进行计算。实际应用中,文字大部分为从左至右印刷,因此通常各文本框之间的行间距小,列间距大,然而关系匹配通常在行内,故通过设置行间距超参和列间距超参的方式,拉远行间距,拉近列间距,确定文本框之间的边框距离。
应用本申请实施例的方案,位置信息包括坐标,根据任两个文本框的顶点坐标,计算两个文本框之间的行间距和列间距,并根据行间距、列间距、行间距超参和列间距超参,确定各文本框之间的边框距离,通过引入行间距超参和列间距超参,使得计算出来的各文本框之间的边框距离更加的准确,同时避免了错误计算由于排版问题导致的边框距离问题。
参见图3c,图3c公开了本申请一个实施例提供的一种文本内容提取方法中的文本框关系图。
其中,该文本框关系图中包括文本框“票据单号”、“1111111111”、“家庭住址”、“2222222222”、“电话”、“3333333333”、“备注”、“无”。
参见图3c,是本申请一个或多个实施例提供的,通过计算文本框之间的边框距离,各节点之间的连接关系,将“票据单号”与“1111111111”、“票据单号”与“家庭住址”、“1111111111”与“2222222222”、“家庭住址”与“2222222222”、“家庭住址”与“电话”、“电话”与“3333333333”、“2222222222”与“3333333333”、“备注”与“无”建立了连接,没有缺失真实的连接。
在XFUND中文公开数据训练集上分别统计了利用图3b中的KNN、最近距离、本申请中构建图时,是否可以完整地把应该包含的语义关系都在建图的过程中包含了。参见表1,统计了图3b与图3c中的三种构建法对应的建图完整率的实验统计数值表:
建图完整率=构建成功边的数量/总体边的数量
表1:三种构建法对应的建图完整率的实验统计数值表
K=10(计算近邻10个点的连接,最长归一化距离0.9) | 建图完整率 |
最近距离 | 77.52% |
KNN | 83.54% |
本申请中的边框距离 | 100% |
其中,建图完整率越高,越说明构建方法有效。
步骤206:基于所述各文本框之间的关联关系,构建文本框关系图。
具体地,文本框关系图是指将各存在关联的文本框,按照对应的关联关系进行连接,得到的文本框关系图,该文本框关系图中包括各文本框,各文本框携带有对应的位置信息、类别信息和文本内容。
基于各文本框之间的关联关系,构建文本框关系图是指将存在关联的各文本框相连接,不存在关联的文本框不连接,根据连接和不连接的结果,确定构建出文本框关系图。
本申请一种可选的实施例中,上述步骤206,包括如下具体步骤:
以所述各文本框作为图节点、所述各文本框之间的关联关系作为边,构建文本框关系图。
具体地,图节点是指文本框关系图中的节点;边是指文本框关系图中的边。文本框关系图是指将多个文本框,根据对应的关联关系进行连接,构成的图。
应用本申请实施例的方案,将各文本框作为图节点,各文本框之间的关联关系作为边,构建得到文本框关系图,使得后续基于文本框关系图进行处理,进而提取文本内容的效率更高。
本申请一种可选的实施例中,上述步骤以所述各文本框作为图节点、所述各文本框之间的关联关系作为边,构建文本框关系图,包括如下具体步骤:
根据所述各文本框之间的关联关系,确定与第一文本框相邻的预设数目个第二文本框,其中,所述第一文本框为所述各文本框中的任一个;
以所述第一文本框和多个所述第二文本框作为图节点、所述第一文本框和各所述第二文本框之间的关联关系作为边,构建文本框关系图。
具体地,预设数目是指预先设置的文本框的数目,用于限定与第一文本框相连的第二文本框的数目。
根据各文本框之间的关联关系,确定与第一文本框相邻的预设数目个第二文本框,具体是针对任意一个文本框,从与该文本框相邻的多个文本框中,确定存在关联关系的预设数目个文本框与该文本框连接,同理,针对其他文本框进行确定,共同构建得到文本框关系图。
应用本申请实施例的方案,通过对文本框与相邻的其他文本框之间的关联关系进行确定,以使文本框的判断不会漏掉具有关联关系的文本框,并从具有关联关系的文本框中确定符合预设数目的文本框,进而提高构建文本框关系图的效率。
参见表2,表2示出了利用CNN、图网络构建文本框关系图时需要判断的关系的实验统计数值表。
在一张目标图像有n个文本框的情况下,CNN网络和本申请实施例的图网络分别需要判断的关系数量:
表2:CNN、图网络构建文本框关系图时需要判断的关系的实验统计数值表
需要判断的关系数量 | |
CNN | n*(n-1) |
图网络 | 10n |
利用图网络,大幅降低了需要判别的关系数量。
步骤208:利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果。
具体地,预先训练的图神经网络是指预先训练得到可以对文本框关系图中的边进行分类的神经网络。关联分类结果是指相连接的各文本框之间的关系,比如关联分类结果可以是相关、无关等。
可选地,利用预先训练得到的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,具体是依据各文本框的位置信息和类别信息,对各文本框之间的关联关系进行分类。
可选地,预先训练的图神经网络针对各文本框进行分别识别处理,再根据分别处理得到的结果,基于关联关系,对关联关系进行分类,获得各文本框之间的关联分类结果。
若有一批图数据,其中有N个节点(node),每个节点都有自己的特征,我们设这些节点的特征组成一个N×D维的矩阵X,然后各个节点之间的关系也会形成一个N×N维的矩阵A,也称为邻接矩阵(adjacency matrix)。X和A便是模型的输入。
GCN也是一个神经网络层,它的层与层之间的传播方式,参见下述公式(6):
式(6):
其中,=A+I,I是单位矩阵;l为层数;是的度矩阵(degree matrix),公式为=;H是每一层的特征,对于输入层的话,H就是X;σ是非线性激活函数;W是指进行线性变换;这个部分,是可以事先算好的,因由A计算而来,而A是输入之一,A为邻接矩阵;i,j分别表示邻接矩阵的第i行与第j列。l表示网络的第l层。
本申请一种可选的实施例中,上述步骤208,包括如下具体步骤:
提取所述文本框关系图中各图节点的节点属性和额外属性;
基于所述各图节点的节点属性,利用图神经网络的图卷积层对所述文本框关系图进行计算,获得第一图特征;
对所述各图节点的额外属性进行线性投影,获得第二图特征;
对所述第一图特征和所述第二图特征进行双线性映射,得到所述文本框关系图中边的分类结果作为所述各文本框之间的关联分类结果。
具体地,节点属性包括文本框的位置信息和类别信息。额外属性包括文本框的文本内容对应的向量,比如,文本内容对应的向量可以是BERT模型输出的768维的特征向量。
基于各图节点的节点属性,利用图神经网络的图卷积层对文本框关系图进行计算,获得第一图特征,具体是利用图神经网络的图卷积层对各图节点的节点属性进行特征提取,再基于文本框关系图,获得第一图特征。
对各图节点的额外属性进行线性投影,获得第二图特征,具体是利用图神经网络的单层对各图节点的额外属性进行线性投影,获得第二图特征。
对第一图特征和第二图特征进行双线性映射,得到所述文本框关系图中边的分类结果作为所述各文本框之间的关联分类结果,具体是利用图神经网络的双线性层对第一图特征和第二图特征进行双线性投影,再利用图神经网络的评定层对双线性投影结果进行评定,根据评定结果,得到文本框关系图中边的分类结果,将分类结果确定为各文本框之间的关联分类结果。
示例性地,参见图4,图4示出了本申请一实施例提供的一种文本内容提取方法的图神经网络结构图。
将图节点的节点属性输入至图神经网络的图卷积层,经过两层图卷积层,获得第一图特征;将图节点的额外属性输入至线性投影层(Linear Layer),获得第二图特征;将第一图特征与第二图特征,经过双线性映射层(Billner Layer),获得双线性映射结果,再经过评定层,得到各文本框之间的关联分类结果。
应用本申请实施例的方案,对各文本框之间的关联进行分类时,基于文本框关系图中各图节点的节点属性、额外属性利用图神经网络进行计算处理,得到各文本框之间的关联分类结果,使得确定出来的关联分类结果是利用图神经网络计算得到。
传统的文本内容提取模型,一般只考虑文本框关系对内二者的关系,缺少不同文本框关系对之间的关系判断,本申请实施例中的方案,针对第一文本框、与第一文本框连接的不同的第二文本框的情况,比如,有“开始时间-2009.4.6”(真实值)、“结束时间-2009.4.7”(真实值)、“结束时间-2009.4.6”,3条构建的边。那么只考虑文本框关系对内部信息的话“开始时间-2009.4.6”、“结束时间-2009.4.6”这两个键值对是分开计算的,没有考虑相互之间的位置关系,“结束时间-2009.4.6”也会被判断为连接关系。那么加入指定循环网络层后,会考虑这两个文本框关系对的相对位置关系,得以排除“结束时间-2009.4.6”这种情况。在这里指定循环网络层会先单独处理“开始时间-2009.4.6”;再同时处理“结束时间-2009.4.7”、“结束时间-2009.4.6”。
为了解决上述问题,本申请一种可选的实施例中,上述步骤基于所述各图节点的节点属性,利用图神经网络的图卷积层对所述文本框关系图进行计算,获得第一图特征,包括如下具体步骤:
将所述各图节点的节点属性输入图神经网络的图卷积层,得到所述各图节点的节点特征;
将第一图节点以及各第二图节点的节点特征输入指定循环网络层,获得所述第一图节点对应的特征结果,其中,所述第一图节点为所述各文本框中的任一个,所述第二图节点为与所述第一图节点连接的图节点;
对所述各图节点对应的特征结果进行连接,得到第一图特征。
具体地,节点特征是指表征图节点的特征,是指表征文本框的特征。特征结果是指第一图节点与连接的图节点之间,根据节点特征确定出来的特征结果,比如,特征结果可以是确定的结果,图节点A与图节点B、C、D、E连接,特征结果为图节点A与图节点C、E连接关系正确,与图节点B、D连接关系不正确;特征结果还可以是具体的数值:预设关系匹配阈值为80%,图节点A与图节点B之间的关系正确率为70%、图节点A与图节点D之间的关系正确率为90%,则确定图节点A与图节点B不存在连接关系,图节点A与图节点D存在连接关系。指定循环网络可用于同时识别一个图节点及与之连接的各图节点之间的连接关系,也即用于处理针对相同键(key)对应不同值(value)时,加入判断不同值之间的关系,比如,指定循环网络可以是Split RNN(分离循环神经网络)。
将各图节点的节点属性输入图神经网络的图卷积层,得到各图节点的节点特征,具体是利用图神经网络的图卷积层提取各图节点的节点特征。
将第一图节点以及各第二图节点的节点特征输入指定循环网络层,获得所述第一图节点对应的特征结果,具体是将第一图节点、与第一图节点连接的其他图节点共同输入指定循环网络层,经过指定循环网络层处理后,得到针对第一图节点的特征结果。
对各图节点对应的特征结果进行连接,得到第一图特征,具体是根据各图节点的特征结果,进行对应的连接。
可选地,特征结果可以是直接标注在各图节点之间连接的边上。
示例性地,参见图5、图6,图5示出了本申请一实施例提供的另一种文本内容提取方法的图神经网络结构图;图6示出了本申请一实施例提供的另一种文本内容提取方法的图神经网络结构中指定循环网络层结构图。
参见图5,将各节点的节点属性输入图神经网络的图卷积层,两层图卷积层包括结构化图卷积网络层、图网络算法层与图网络算法层;再经过边缘提取层(EdgeExtractorLayer)与指定循环网络层;将各节点的额外属性输入图神经网络的全连接层,再经过边缘提取层;仅节点属性处理得到的结果与额外属性处理得到的结果经过双线性映射层,获得双线性映射结果,再经过评定层,得到各文本框之间的关联分类结果。
参见图6,图6中的指定循环网络层,实际上就是分开利用门控循环单元,分开处理每个文本框和与其连接的文本框之间的关系,比如,文本框1+与文本框1连接的所有文本框、文本框2+与文本框2连接的所有文本框、文本框3+与文本框3连接的所有文本框。这样每个文本框之间的关系,就利用门控循环单元的方式连接起来了。简单地说,就是与当前文本框1连接的所有文本框一起通过一次门控循环单元的处理,然后对文本框1处理完成后,再对当前文本框2处理。最终处理完所有的文本框后,将结果连接到一起。图6中权值共享是指对当前文本框1的GRU模块与对当前文本框2处理的GRU模块具有相同的权重(不做权值共享亦可,但是模型整体权重会大很多)。
本申请一个或多个实施例在XFUND公开数据集上与现有SOTA进行了对比,LayoutLMv3、GCN+ KNN建图与GCN+指定循环网络层(边框距离建图K=10)关系抽取的模型召回率,如下表3所示。
表3:XFUND公开数据集三种文本内容提取模型的召回率的实验统计数值表
召回率 | |
LayoutLMv3(LayoutXLM baseline) | 0.8241 |
GCN+ KNN建图 | 0.7537 |
GCN +指定循环网络层(边框距离建图K=10) | 0.8945 |
在金融数据集也进行了实验,LayoutLMv3、GCN+KNN建图与GCN+指定循环网络层(边框距离建图K=10)关系抽取的召回率,如下表4所示。
表4:在金融数据集三种文本内容提取模型的召回率的实验统计数值表
召回率 | |
LayoutLMv3(LayoutXLM baseline) | 0.9470 |
GCN+ KNN建图 | 0.8505 |
GCN +指定循环网络层(边框距离建图K=10) | 0.9700 |
应用本申请实施例的方案,将各图节点的节点属性输入图神经网络的图卷积层,得到各图节点的节点特征,将第一图节点、与第一图节点连接的第二图节点输入指定循环网络层,获得第一图节点对应的特征结果,并将各图节点的特征结果连接,可得到第一图特征,使得与第一图节点连接的第二图特征同时进行处理,减少了处理的冗余次数,提高了处理的效率。
步骤210:按照所述关联分类结果,提取所述各文本框中的文本内容。
本申请一个或多个实施例,在确定出各文本框的关联分类结果之后,按照关联分类结果,提取各文本框中的文本内容,比如,提取到的文本内容可以是:姓名:yyy;身份证号:xxxxxxxx。
本申请一种可选的实施例中,在上述步骤210之后,还包括如下具体步骤:
基于所述关联分类结果,记录所述文本内容。
本申请一个或多个实施例,在将各文本框中的文本内容提取出来之后,将提取得到的内容,记录该文本内容。
示例性地,在纸质表单录入至电子版的过程中,在将纸质表单拍成的图像作为目标图像,经过上述步骤202至210的处理之后,提取得到各文本框中的文本内容,将提取得到的文本内容记录到服务端或客户端的电子版信息中。
应用本申请实施例的方案,在将各文本内框中的文本内容进行提取之后,将提取得到的文本内容记录下来,使得提取得到的文本内容变成电子的信息,提高了文本内容提取的作用。
下述结合附图7,以本申请提供的文本内容提取方法在纸质表单信息提取的应用为例,对所述文本内容提取方法进行进一步说明。其中,图7示出了本申请一实施例提供的一种应用于纸质表单信息提取的文本内容提取方法的处理流程图,具体包括以下步骤:
步骤702:获取纸质的表单图像。
步骤704:对表单图像进行文字识别,获得多个文本框。
步骤706:获得各文本框的长宽以及表单图像的长宽,将各文本框的长宽分别除以表单图像的长宽,获得归一化后各文本框的位置信息。
步骤708:获得各文本框中文本内容的特征信息,基于各文本框中文本内容的特征信息,确定各文本框的类别信息。
步骤710:根据任两个文本框的顶点坐标,计算任两个文本框之间的行间距和列间距;根据各文本框之间的行间距和列间距,以及预设的行间距超参和列间距超参,确定各文本框之间的边框距离。
步骤712:根据各文本框的类别信息,确定各文本框之间的类别相似度。
步骤714:确定边框距离小于预设距离阈值、且类别相似度小于预设相似度的文本框之间存在关联关系。
步骤716:以各文本框作为图节点、各文本框之间的关联关系作为边,构建文本框关系图。
步骤718:提取文本框关系图中各图节点的节点属性和额外属性;基于各图节点的节点属性,利用图神经网络的图卷积层对文本框关系图进行计算,获得第一图特征;对各图节点的额外属性进行线性投影,获得第二图特征;对第一图特征和第二图特征进行双线性映射,得到文本框关系图中边的分类结果作为各文本框之间的关联分类结果。
步骤720:按照关联分类结果,提取各文本框中的文本内容。
步骤722:基于关联分类结果,记录该表单图像中的文本内容至客户端存储器中。
应用本申请实施例的方案,通过对目标图像进行文字识别,获得多个文本框,根据各文本框的位置信息、类别信息和关联关系,构建文本框关系图,并利用预先训练的图神经网络,对各文本框之间的关联关系进行分类,获得分类结果,使得分类结果是通过预先训练的图神经网络和文本框关系图进行分类确定出来的,根据分类结果提取各文本框中的文本内容,使得提取的文本内容是基于图神经网络和图确定出来的关联分类结果确定的,提高了文本内容提取的效率。
与上述方法实施例相对应,本申请还提供了文本内容提取装置实施例,图8示出了本申请一实施例提供的一种文本内容提取装置的结构示意图。如图8所示,该装置包括:
信息确定模块802,被配置为对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;
关系确定模块804,被配置为根据各文本框的位置信息和类别信息,确定各文本框之间的关联关系;
构建模块806,被配置为基于各文本框之间的关联关系,构建文本框关系图;
分类模块808,被配置为利用预先训练的图神经网络,对文本框关系图中各文本框之间的关联关系进行分类,获得各文本框之间的关联分类结果;
提取模块810,被配置为按照关联分类结果,提取各文本框中的文本内容。
可选地,信息确定模块802,进一步被配置为获得各文本框的尺寸信息以及目标图像的尺寸信息;根据各文本框的尺寸信息以及目标图像的尺寸信息,对各文本框进行归一化,获得归一化后各文本框的位置信息。
可选地,信息确定模块802,进一步被配置为获得各文本框中文本内容的特征信息;基于各文本框中文本内容的特征信息,确定各文本框的类别信息。
可选地,关系确定模块804,进一步被配置为根据各文本框的位置信息,确定各文本框之间的边框距离;根据各文本框的类别信息,确定各文本框之间的类别相似度;确定边框距离小于预设距离阈值、且类别相似度小于预设相似度的文本框之间存在关联关系。
可选地,位置信息包括顶点坐标;关系确定模块804,进一步被配置为根据任两个文本框的顶点坐标,计算任两个文本框之间的行间距和列间距;根据各文本框之间的行间距和列间距,以及预设的行间距超参和列间距超参,确定各文本框之间的边框距离。
可选地,构建模块806,进一步被配置为以各文本框作为图节点、各文本框之间的关联关系作为边,构建文本框关系图。
可选地,构建模块806,进一步被配置为根据各文本框之间的关联关系,确定与第一文本框相邻的预设数目个第二文本框,其中,第一文本框为各文本框中的任一个;以第一文本框和多个第二文本框作为图节点、第一文本框和各第二文本框之间的关联关系作为边,构建文本框关系图。
可选地,分类模块808,进一步被配置为提取文本框关系图中各图节点的节点属性和额外属性;基于各图节点的节点属性,利用图神经网络的图卷积层对文本框关系图进行计算,获得第一图特征;对各图节点的额外属性进行线性投影,获得第二图特征;对第一图特征和第二图特征进行双线性映射,得到文本框关系图中边的分类结果作为各文本框之间的关联分类结果。
可选地,分类模块808,进一步被配置为将各图节点的节点属性输入图神经网络的图卷积层,得到各图节点的节点特征;将第一图节点以及各第二图节点的节点特征输入指定循环网络层,获得第一图节点对应的特征结果,其中,第一图节点为各文本框中的任一个,第二图节点为与第一图节点连接的图节点;对各图节点对应的特征结果进行连接,得到第一图特征。
可选地,文本内容提取装置还包括记录模块,被配置为基于关联分类结果,记录文本内容。
应用本申请实施例的方案,通过对目标图像进行文字识别,获得多个文本框,根据各文本框的位置信息、类别信息和关联关系,构建文本框关系图,并利用预先训练的图神经网络,对各文本框之间的关联关系进行分类,获得分类结果,使得分类结果是通过预先训练的图神经网络和文本框关系图进行分类确定出来的,根据分类结果提取各文本框中的文本内容,使得提取的文本内容是基于图神经网络和图确定出来的关联分类结果确定的,提高了文本内容提取的效率。
上述为本实施例的一种文本内容提取装置的示意性方案。需要说明的是,该文本内容提取装置的技术方案与上述的文本内容提取方法的技术方案属于同一构思,文本内容提取装置的技术方案未详细描述的细节内容,均可以参见上述文本内容提取方法的技术方案的描述。
图9示出了本申请一实施例提供的一种计算设备的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)接口,等等。
在本申请的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920执行所述计算机指令时实现所述的文本内容提取方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本内容提取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本内容提取方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述文本内容提取方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本内容提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本内容提取方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种文本内容提取方法,其特征在于,包括:
对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;
根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系;
基于所述各文本框之间的关联关系,构建文本框关系图,其中,所述文本框关系图是指按照关联关系进行连接得到的关系图;
利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果,其中,所述关联分类结果为相连接的文本框对之间的分类结果;
按照所述关联分类结果,提取所述各文本框中的文本内容。
2.根据权利要求1所述的方法,其特征在于,所述确定各文本框的位置信息,包括:
获得各文本框的尺寸信息以及所述目标图像的尺寸信息;
根据所述各文本框的尺寸信息以及所述目标图像的尺寸信息,对所述各文本框进行归一化,获得归一化后所述各文本框的位置信息。
3.根据权利要求1所述的方法,其特征在于,所述确定各文本框的类别信息,包括:
获得各文本框中文本内容的特征信息;
基于所述各文本框中文本内容的特征信息,确定所述各文本框的类别信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系,包括:
根据所述各文本框的位置信息,确定所述各文本框之间的边框距离;
根据所述各文本框的类别信息,确定所述各文本框之间的类别相似度;
确定边框距离小于预设距离阈值、且类别相似度小于预设相似度的文本框之间存在关联关系。
5.根据权利要求4所述的方法,其特征在于,所述位置信息包括顶点坐标;
所述根据所述各文本框的位置信息,确定所述各文本框之间的边框距离,包括:
根据任两个文本框的顶点坐标,计算所述任两个文本框之间的行间距和列间距;
根据所述各文本框之间的行间距和列间距,以及预设的行间距超参和列间距超参,确定所述各文本框之间的边框距离。
6.根据权利要求1所述的方法,其特征在于,所述基于所述各文本框之间的关联关系,构建文本框关系图,包括:
以所述各文本框作为图节点、所述各文本框之间的关联关系作为边,构建文本框关系图。
7.根据权利要求6所述的方法,其特征在于,所述以所述各文本框作为图节点、所述各文本框之间的关联关系作为边,构建文本框关系图,包括:
根据所述各文本框之间的关联关系,确定与第一文本框相邻的预设数目个第二文本框,其中,所述第一文本框为所述各文本框中的任一个;
以所述第一文本框和多个所述第二文本框作为图节点、所述第一文本框和各所述第二文本框之间的关联关系作为边,构建文本框关系图。
8.根据权利要求6或7所述的方法,其特征在于,所述利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果,包括:
提取所述文本框关系图中各图节点的节点属性和额外属性;
基于所述各图节点的节点属性,利用图神经网络的图卷积层对所述文本框关系图进行计算,获得第一图特征;
对所述各图节点的额外属性进行线性投影,获得第二图特征;
对所述第一图特征和所述第二图特征进行双线性映射,得到所述文本框关系图中边的分类结果作为所述各文本框之间的关联分类结果。
9.根据权利要求8所述的方法,其特征在于,所述基于所述各图节点的节点属性,利用图神经网络的图卷积层对所述文本框关系图进行计算,获得第一图特征,包括:
将所述各图节点的节点属性输入图神经网络的图卷积层,得到所述各图节点的节点特征;
将第一图节点以及各第二图节点的节点特征输入指定循环网络层,获得所述第一图节点对应的特征结果,其中,所述第一图节点为所述各文本框中的任一个,所述第二图节点为与所述第一图节点连接的图节点;
对所述各图节点对应的特征结果进行连接,得到第一图特征。
10.根据权利要求1-7中任一项所述的方法,其特征在于,在所述按照所述关联分类结果,提取所述各文本框中的文本内容之后,还包括:
基于所述关联分类结果,记录所述文本内容。
11.一种文本内容提取装置,其特征在于,包括:
信息确定模块,被配置为对目标图像进行文字识别,获得多个文本框,确定各文本框的位置信息和类别信息;
关系确定模块,被配置为根据所述各文本框的位置信息和类别信息,确定所述各文本框之间的关联关系;
构建模块,被配置为基于所述各文本框之间的关联关系,构建文本框关系图,其中,所述文本框关系图是指按照关联关系进行连接得到的关系图;
分类模块,被配置为利用预先训练的图神经网络,对所述文本框关系图中所述各文本框之间的关联关系进行分类,获得所述各文本框之间的关联分类结果,其中,所述关联分类结果为相连接的文本框对之间的分类结果;
提取模块,被配置为按照所述关联分类结果,提取所述各文本框中的文本内容。
12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-10任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-10任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211565030.8A CN115640401B (zh) | 2022-12-07 | 2022-12-07 | 文本内容提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211565030.8A CN115640401B (zh) | 2022-12-07 | 2022-12-07 | 文本内容提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115640401A CN115640401A (zh) | 2023-01-24 |
CN115640401B true CN115640401B (zh) | 2023-04-07 |
Family
ID=84948011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211565030.8A Active CN115640401B (zh) | 2022-12-07 | 2022-12-07 | 文本内容提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115640401B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496542B (zh) * | 2023-12-29 | 2024-03-15 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011123622A (ja) * | 2009-12-09 | 2011-06-23 | Hitachi Electronics Service Co Ltd | ドキュメント分類システム |
WO2017069741A1 (en) * | 2015-10-20 | 2017-04-27 | Hewlett-Packard Development Company, L.P. | Digitized document classification |
EP3462331A1 (en) * | 2017-09-29 | 2019-04-03 | Tata Consultancy Services Limited | Automated cognitive processing of source agnostic data |
WO2020010547A1 (zh) * | 2018-07-11 | 2020-01-16 | 深圳前海达闼云端智能科技有限公司 | 字符识别方法、装置、存储介质及电子设备 |
CN111553363A (zh) * | 2020-04-20 | 2020-08-18 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN112966522A (zh) * | 2021-03-03 | 2021-06-15 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN113780229A (zh) * | 2021-09-18 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 文本识别方法及装置 |
CN114332889A (zh) * | 2021-08-26 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 文本图像的文本框排序方法和文本图像的文本框排序装置 |
CN114511857A (zh) * | 2022-01-25 | 2022-05-17 | 上海微问家信息技术有限公司 | 一种ocr识别结果处理方法、装置、设备及存储介质 |
CN114782943A (zh) * | 2022-05-13 | 2022-07-22 | 广州欢聚时代信息科技有限公司 | 票据信息提取方法及其装置、设备、介质、产品 |
CN114842482A (zh) * | 2022-05-20 | 2022-08-02 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、设备和存储介质 |
CN114842492A (zh) * | 2022-04-29 | 2022-08-02 | 北京鼎事兴教育咨询有限公司 | 一种关键信息抽取方法、装置、存储介质与电子设备 |
WO2022247823A1 (zh) * | 2021-05-25 | 2022-12-01 | 阿里巴巴(中国)有限公司 | 图像检测方法、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709339B (zh) * | 2020-06-09 | 2023-09-19 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
-
2022
- 2022-12-07 CN CN202211565030.8A patent/CN115640401B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011123622A (ja) * | 2009-12-09 | 2011-06-23 | Hitachi Electronics Service Co Ltd | ドキュメント分類システム |
WO2017069741A1 (en) * | 2015-10-20 | 2017-04-27 | Hewlett-Packard Development Company, L.P. | Digitized document classification |
EP3462331A1 (en) * | 2017-09-29 | 2019-04-03 | Tata Consultancy Services Limited | Automated cognitive processing of source agnostic data |
WO2020010547A1 (zh) * | 2018-07-11 | 2020-01-16 | 深圳前海达闼云端智能科技有限公司 | 字符识别方法、装置、存储介质及电子设备 |
CN111553363A (zh) * | 2020-04-20 | 2020-08-18 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN112966522A (zh) * | 2021-03-03 | 2021-06-15 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
WO2022247823A1 (zh) * | 2021-05-25 | 2022-12-01 | 阿里巴巴(中国)有限公司 | 图像检测方法、设备和存储介质 |
CN114332889A (zh) * | 2021-08-26 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 文本图像的文本框排序方法和文本图像的文本框排序装置 |
CN113780229A (zh) * | 2021-09-18 | 2021-12-10 | 北京金山数字娱乐科技有限公司 | 文本识别方法及装置 |
CN114511857A (zh) * | 2022-01-25 | 2022-05-17 | 上海微问家信息技术有限公司 | 一种ocr识别结果处理方法、装置、设备及存储介质 |
CN114842492A (zh) * | 2022-04-29 | 2022-08-02 | 北京鼎事兴教育咨询有限公司 | 一种关键信息抽取方法、装置、存储介质与电子设备 |
CN114782943A (zh) * | 2022-05-13 | 2022-07-22 | 广州欢聚时代信息科技有限公司 | 票据信息提取方法及其装置、设备、介质、产品 |
CN114842482A (zh) * | 2022-05-20 | 2022-08-02 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
戴丽贞 ; .移动IP化网络文本分类聚类模型.中国新通信.2014,(02),全文. * |
王建新 ; 王子亚 ; 田萱 ; .基于深度学习的自然场景文本检测与识别综述.软件学报.2020,(05),全文. * |
白海洋 ; 李静 ; 周培云 ; 庄毅 ; .面向飞行器设计软件界面原型系统生成的研究.小型微型计算机系统.2015,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115640401A (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ke et al. | End-to-end automatic image annotation based on deep CNN and multi-label data augmentation | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
Sun et al. | Spatial dual-modality graph reasoning for key information extraction | |
Sadeghi et al. | HistNet: Histogram-based convolutional neural network with Chi-squared deep metric learning for facial expression recognition | |
WO2022035942A1 (en) | Systems and methods for machine learning-based document classification | |
Elleuch et al. | Towards unsupervised learning for Arabic handwritten recognition using deep architectures | |
CN110598022A (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
Bose et al. | Light weight structure texture feature analysis for character recognition using progressive stochastic learning algorithm | |
CN115640401B (zh) | 文本内容提取方法及装置 | |
Lu et al. | Domain-aware se network for sketch-based image retrieval with multiplicative euclidean margin softmax | |
Das et al. | Determining attention mechanism for visual sentiment analysis of an image using svm classifier in deep learning based architecture | |
CN116108853A (zh) | 一种基于知识迁移的跨领域情感分析方法及存储介质 | |
Zahoor et al. | Deep optical character recognition: a case of Pashto language | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
Yao | [Retracted] Application of Higher Education Management in Colleges and Universities by Deep Learning | |
Zhang et al. | A small target detection algorithm based on improved YOLOv5 in aerial image | |
Sajol et al. | A ConvNeXt V2 Approach to Document Image Analysis: Enhancing High-Accuracy Classification | |
Wang | Improved facial expression recognition method based on gan | |
Silva et al. | Speeding-up the handwritten signature segmentation process through an optimized fully convolutional neural network | |
US20230038097A1 (en) | Document clusterization using neural networks | |
Ali et al. | Context awareness based Sketch-DeepNet architecture for hand-drawn sketches classification and recognition in AIoT | |
Chen et al. | Design and Implementation of Second-generation ID Card Number Identification Model based on TensorFlow | |
Sun et al. | Knock knock, who’s there: Facial recognition using CNN-based classifiers | |
CN109146058B (zh) | 具有变换不变能力且表达一致的卷积神经网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |