CN112801010A - 一种针对实际ocr场景下的视觉富文档信息抽取方法 - Google Patents
一种针对实际ocr场景下的视觉富文档信息抽取方法 Download PDFInfo
- Publication number
- CN112801010A CN112801010A CN202110168304.9A CN202110168304A CN112801010A CN 112801010 A CN112801010 A CN 112801010A CN 202110168304 A CN202110168304 A CN 202110168304A CN 112801010 A CN112801010 A CN 112801010A
- Authority
- CN
- China
- Prior art keywords
- named entity
- character
- ocr
- information
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种针对实际OCR场景下的视觉富文档信息抽取方法,方法包括以下步骤:收集实际场景下的视觉富文本图像;利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征;训练命名实体分类模块;构建基于图卷积GAT的全局文档图结构,引入自注意力机制;训练命名实体边界定位模块;构建多特征聚合结构;训练错误语义纠正模块,采用GRU的解码结构,根据CRF的最优路径,取出对应维度特征的编码隐状态,通过将命名实体的类别信息,作为先验指导信息,指导每次解码器的输出,得到规范格式的实体命名信息。本发明有效提升了视觉富文档信息抽取方法在实际OCR检测识别应用中的精度,对视觉富文档信息的结构化存储具有重要的意义。
Description
技术领域
本发明属于视觉信息抽取技术领域,具体涉及一种针对实际OCR场景下的视觉富文档信息抽取方法。
背景技术
视觉信息抽取(VIE)作为自然语言处理(NLP)的重要组成部分,旨在直接从非结构化文档图像中抽取结构化信息,这是理解文档图像的关键步骤。抽取的结构化信息广泛应用于多种场合,例如快速索引、高效归档和文档分析,典型的方法是将信息抽取问题公式化为顺序标记问题。近年来,关于从文档图像(如发票、ID卡和购买收据等)中抽取信息成为了研究热点。
由于字形、文本位置、布局和字体大小等视觉特征是从文档图像中抽取信息的重要线索,因此许多方法将文档图像合并到顺序标记模型中,与仅使用纯文本相比得到了更好的结果,然而,现有研究大多假定OCR(光学字符识别)结果是准确的,无法应对有缺陷的OCR结果的情况。另一方面,实现文档图像的无错误OCR预测非常复杂,在有缺陷的OCR结果中无法直接将人工标注的定位框用于信息抽取,这是因为有缺陷的OCR结果通常包含大量重复或遗漏的内容,这直接影响VIE模型的性能。此外,融合文本段位置的VIE系统将面临命名实体边界不清晰的问题,这将导致大量后期处理以获得最终正确的结果。尽管VIE模型应该考虑人类注释不能完全匹配OCR结果的问题,但作为OCR的下游任务,它在以前的研究中经常被忽略。因此,需要一种针对实际OCR情况下的视觉信息抽取方法,克服上述缺点并将信息抽取应用于实际生产生活的需要。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种针对实际OCR场景下的视觉富文档信息抽取方法,方法有效提升了视觉富文档信息抽取方法在实际OCR检测识别应用中的精度,对视觉富文档信息的结构化存储具有重要的意义。
为了达到上述目的,本发明采用以下技术方案:
一种针对实际OCR场景下的视觉富文档信息抽取方法,包括以下步骤:
收集实际场景下的视觉富文本图像,对搜集的图像进行文本行位置、文本内容以及命名实体属性的标注,采用启发式的方法标注命名实体标签,利用检测识别方法得到OCR结果;
利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征;
训练命名实体分类模块,按照命名实体识别任务的方式生成每个字符的命名实体属性标签,训练过程中采用交叉熵分类损失函数训练;
构建基于图卷积GAT的全局文档图结构,引入自注意力机制构建全连接有向图;
训练命名实体边界定位模块,命名实体边界定位模块的训练标签根据命名实体分类模块的标签生成,根据每个字符的命名实体属性标注情况,将命名实体的第一个字符和最后一个字符设置为命名实体的边界,其他的设置为非边界;
构建多特征聚合结构,对命名实体分类概率和命名实体边界定位概率做加权和,得到命名实体维度的预测结果,并采用条件随机场CRF结构对预测结果做上下文的约束;
训练错误语义纠正模块,错误语义纠正模块采用GRU的解码结构,根据CRF的最优路径,取出对应维度特征的编码隐状态,通过将命名实体的类别信息,作为先验指导信息,指导每次解码器的输出,最终得到规范格式的实体命名信息。
进一步的,所述命名实体属性的标注具体为针对实际OCR结果下的命名实体标签,所述命名实体标签是指使用BIO tagging的序列标注方法对语句单词的标注;
所述BIO tagging是一种对给定句子中的单元做序列标注的方式,对于一个给定句子,将其中每个词标注为B、I以及O中的一个,其中B指示某短语起始,I指示短语内部,O指示不在短语中;
所述采用启发式的方法标注命名实体标签具体为:
根据人工标注的结果与OCR的检测结果匹配IOU的值,选取与人工标注结果重复度最高的OCR结果,赋予人工标注结果的命名实体标签,所述IOU为模型预测的检测框与人工标注的检测框之间的交并比;
所述利用检测识别方法得到OCR结果具体为:
利用预训练的目标检测框架和文字识别框架Paddle OCR分别得到基于预测的文本检测和识别结果,OCR结果的命名实体的标注通过与人工标注的结果比较,取出最高的IOU结果作为命名实体标签。
进一步的,所述文本词嵌入为将每一个词用一个独一无二的数字表示编码,每个数字映射到固定的768维度的向量;
所述位置嵌入为将每个文本块在图片中的相对位置量化到0-1000之间的一个数字,随后通过矩阵运算将该区间的每个数值用一个固定维度的768维度的向量表示;
所述抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征具体为:
分别按照字符级和单词级以所述文本词嵌入和位置嵌入的方式提取文本词嵌入和位置嵌入,将文本词嵌入特征和位置嵌入特征融入预训练好的Transformer结构得到高层的特征表示。
进一步的,所述命名实体分类模块需要结合字符级和单词级的语义特征、字符的相对中心点坐标以及文本块的相对坐标和长宽信息,采用预训练的Transformer结构融合空间位置和语义特征得到高维的嵌入特征;
所述字符的相对中心点坐标和文本块的相对坐标和长宽信息均量化到0-1000之间的一个数字,采用线性层的矩阵乘法运算将其变换到768维的特征。
进一步的,所述预训练的Transformer结构采用注意力机制并由若干个编码器和解码器构成,所述编码器采用多头注意力机制和一个全连接层构成,所述解码器编码器多了掩码注意力机制,其他结构与编码器相同;
所述预训练具体采用BERT的预训练方式,BERT模型基于Transformer结构,具体包含两部分:
在一句话中遮盖掉若干个单词然后对遮盖的单词做预测;
判断两句话是否存在上下文关系。
进一步的,所述构建基于图卷积GAT的全局文档图结构具体为:
文档图的节点特征采用每个字符的语义特征,所述语义特征为预训练词嵌入模型将维数为所有词数量的高维空间嵌入到低维的连续向量空间;文档图的边特征利用各字符的中心点距离,命名实体边界定位模块做二分类预测,以BIO tagging的实体标注方式预测每个命名实体的标注B和标注I;
所述引入自注意力机制具体为:
引入多头自注意力机制,文档图中所有节点采用全连接的方式,每个节点的预测结果需考虑到所有邻接矩阵边的相关性得分和所有节点的注意力得分。
进一步的,所述命名实体边界定位模块的节点特征采用字符级的文本词嵌入特征,边的特征采用全连接图的形式,融入各字符的中心点相对位置关系,通过加权二分类方式定位每个命名实体的标注B和标注I。
进一步的,所述多特征聚合结构具体包括以下步骤:
解构常规BIO tagging的预测方式,根据命名实体边界定位模块,得到每个命名实体的边界起始信息,根据命名实体分类模块,得到命名实体的属性信息,利用这两部分信息对命名实体分类概率和命名实体边界定位概率做加权和,得到BIO tagging维度的预测结果,并采用条件随机场CRF结构对预测结果做上下文的约束;
所述CRF条件随机场模型是一种判别式模型,具体为给定一组输入随机变量条件下,预测另一组随机变量的条件概率分布模型。
进一步的,所述编码隐状态是在命名实体分类模块中,将文本序列中的每一个字符作为输入,会得到一个对应的输出,该输出汇集的是当前时刻的序列信息和之前序列的信息,用于理解上下文。
进一步的,所述错误语义纠正模块的训练过程中需要人工标注结果与实际OCR场景下的检测识别结果;
所述错误语义纠正模块采用GRU的解码结果,解码过程根据多特征聚合模块对每个字符的属性分类结果取出每个类别的所有字符,将这些字符构成的序列按序列的方向上进行递归,且所有节点按链式链接,融合实体类别信息指导解码和纠错;
所述融合实体类别信息指导解码和纠错具体为:
将字符的属性对应一个唯一的固定维度的向量,并将这个向量作为解码序列的最开头,让错误语义纠正模块学到根据类别信息指导解码的方式,最终抽取得到规范的实体命名信息。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过融入类别信息的解码和实体边界定位方法,解决了在实际OCR场景下,不精确的OCR结果会导致视觉富文档信息抽取错误累计的问题。
2、本发明采取了命名实体分类概率和命名实体边界定位概率做加权和的方法,有效解耦了BIO tagging维度的预测结果;
3、本发明利用OCR结果自适应的结构化信息输出技术手段,实现了OCR结果不佳的视觉富文档的实体命名信息的高性能抽取,解决了文档图像的结构化检索和储存问题。
附图说明
图1是本发明的流程图;
图2是本发明整体的结构框图;
图3是本发明的文档图结构的构建过程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1、图2所示,本发明,一种针对实际OCR场景下的视觉富文档信息抽取方法,包括以下步骤:
S1、收集实际场景下带有关键信息的视觉富文本图像,对搜集的图像进行文本行的标注,具体为:
在本实施例中,所述视觉富文本图像数据集包含简单版面和复杂版面的数据,分别由票据,车票,护照等数据组成。依次包含4306,1500,2331共计8137张图像。
S11、对搜集的图像进行文本行位置、文本内容和命名实体属性的标注,具体为:
所述命名实体属性的标注具体为针对实际OCR结果下的命名实体标签,所述命名实体标签是指使用BIO tagging的序列标注方法对语句单词的标注;
所述BIO tagging是一种对给定句子中的单元做序列标注的方式,对于一个给定句子,将其中每个词标注为B、I以及O中的一个,其中B指示某短语起始,I指示短语内部,O指示不在短语中。以命名实体识别(NER)为例可以将Andy supports New York City这句话里的四个词分别标注为:B-人名O B-地名I-地名I-地名。
在本实施例中,对8137张图像分别进行文本行级别的标注;具体标注的内容涉及符合阅读顺序的每个文本块的位置框标注、框内的文本内容标注以及文字的命名实体属性的标注,例如姓名、日期以及地址等实体属性。搜集的数据集主要包含两种布局,固定的版面,如购买票据等;变化的版面,如试卷头等。从文字的类型来说,分为结构化和半结构化的数据。各种数据集的统计结果如
表1所示。
护照 | 车票 | 购买票据 | |
实体类别数 | 18 | 11 | 9 |
数量 | 2331 | 1500 | 4306 |
表1
在本实施例中,文本行位置标注和文本内容标注,其标注方法需要按照阅读顺序标注,文本的命名实体属性标注方式需要根据其在当前场景下的语义情况,标注具体的实体类别。
S12、采用启发式方法标注命名实体标签,具体为:
根据人工标注的结果与OCR的检测结果匹配IOU的值,选取与人工标注结果重复度最高的OCR结果,赋予人工标注结果的命名实体标签,所述IOU为模型预测的检测框与人工标注的检测框之间的交并比。
S13、利用预训练的目标检测框架和文字识别框架Paddle OCR分别得到基于预测的文本检测和识别结果,OCR结果的命名实体的标注通过与人工标注的结果比较,取出最高的IOU结果作为命名实体的标签。
S2、利用大规模预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征;
所述文本词嵌入为将每一个词用一个独一无二的数字表示编码,每个数字映射到固定的768维度的向量;
所述位置嵌入为将每个文本块在图片中的相对位置量化到0-1000之间的一个数字,随后通过矩阵运算将该区间的每个数值用一个固定维度的768维度的向量表示;
所述抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征具体为:
分别按照字符级和单词级以所述文本词嵌入和位置嵌入的方式提取文本词嵌入和位置嵌入,将文本词嵌入特征和位置嵌入特征融入预训练好的Transformer结构得到高层的特征表示。
在本实施例中,具体为:
将文字检测器和识别器的输出结果送入命名实体分类模块:将获取的视觉富文档信息抽取数据的各数据集按照4:1的比例划分训练数据集和测试集两部分,按照每个数据集的类别数量。首先,分别从字符级和单词级两个层次分别得到语义的词嵌入和空间位置的位置嵌入特征,用基于大规模预训练的Transformer结构,抽取高维的特征表示。随后,经过两个的双向BiLSTM结构分别抽取字符级和单词级的文本全局上下文特征。经过非线性变换后得到当前字符以及每个单词属于每个命名实体的概率。将单词级的预测按照字符级的预测维度进行扩展后进行特征融合,得到最终命名实体的预测概率。结合字符级和单词级的特征可以有效捕获全局和局部特征,实现更为精确的实体分类结果;
所述预训练的Transformer结构采用注意力机制并由若干个编码器和解码器构成,所述编码器采用多头注意力机制和一个全连接层构成,所述解码器编码器多了掩码注意力机制,其他结构与编码器相同;
所述预训练具体采用BERT的预训练方式,BERT模型基于Transformer结构,具体包含两部分:
在一句话中遮盖掉几个单词然后对遮盖的单词做预测;
判断两句话是否存在上下文关系。
S3、训练命名实体分类模块,具体为:
按照命名实体识别任务的方式生成每个字符的实体属性标签,训练过程中采用交叉熵分类损失函数训练;
所述命名实体分类模块需要结合字符级和单词级的语义特征、字符的相对中心点坐标以及文本块的相对坐标和长宽信息,采用预训练的Transformer结构融合空间位置和语义特征得到高维的嵌入特征;
所述字符的相对中心点坐标和文本块的相对坐标和长宽信息均量化到0-1000之间的数值,随后采用线性层的矩阵乘法运算将每个数值变换到独特的768维的特征。
S4、构建基于图卷积GAT的全局文档图结构,引入自注意力机制构建全连接有向图,具体为:
文档图的节点特征采用每个字符的语义特征,所述语义特征为预训练词嵌入模型将维数为所有词数量的高维空间嵌入到低维的连续向量空间;文档图的边特征利用各字符的中心点距离,命名实体边界定位模块做二分类预测,以BIO tagging的实体标注方式预测每个命名实体的标注B和标注I;
所述引入自注意力机制具体为:
引入多头自注意力机制,文档图中所有节点采用全连接的方式,每个节点的预测结果需考虑到所有邻接矩阵边的相关性得分和所有节点的注意力得分。
在本实施例中,如图3所示,具体为:
将文档中每个字符作为单个的节点,构建一个全局的文档图结构。具体而言,充分利用图卷积在节点分类上的优势。以每个字符作为节点,字符对应的词嵌入语义特征作为节点特征。各字符之间的相对位置,距离的远近定义为边的特征,构建一个文档图结构。边的构建采用邻接矩阵的形式,定义节点之间有关联的话该矩阵的数值为1。利用GAT结构在节点分类上的优势,抽取边和节点的高维语义特征。对每个实体的边界进行清晰地定位。为了平衡非边界和边界节点之间的样本不平衡问题。引入Focus Loss,在训练过程中加大边界点预测的权重。
S5、训练命名实体边界定位模块,具体为:
命名实体边界定位模块的训练标签根据命名实体分类模块的标签生成,根据每个字符的命名实体属性标注情况,将命名实体的第一个字符和最后一个字符设置为命名实体的边界,其他的设置为非边界;
所述命名实体边界定位模块的节点特征采用字符级的文本词嵌入特征,边的特征采用全连接图的形式,融入各字符的中心点相对位置关系,通过加权二分类方式定位每个命名实体的标注B和标注I。
S6、构建多特征聚合结构,对命名实体分类概率和命名实体边界定位概率做加权和得到BIO tagging维度的预测结果,并采用条件随机场CRF结构对预测结果做上下文的约束,具体为:
解构常规BIO tagging的预测方式,根据命名实体边界定位模块,得到每个命名实体的边界起始信息,根据命名实体分类模块,得到命名实体的属性信息,利用这两部分信息对命名实体分类概率和命名实体边界定位概率做加权和,得到BIO tagging维度的预测结果,并采用条件随机场CRF结构对预测结果做上下文的约束;
所述CRF条件随机场模型是一种判别式模型,具体为给定一组输入随机变量条件下,预测另一组随机变量的条件概率分布模型。
S7、训练错误语义纠正模块,根据CRF的最优路径,取出对应维度特征的编码隐状态,通过将命名实体的类别信息,作为先验指导信息,指导每次解码器的输出,最终得到规范格式的实体命名信息,具体为:
由于视觉富文档在实际场景下面临各种各样的干扰条件,这会对OCR引擎的检测识别性能带来一定的挑战。实际中,可能出现一些OCR错误。因此引入错误语义纠正模块(错误矫正模块)来应对检测识别结果不佳对模型性能的影响。错误语义纠正模块,采用GRU的解码方式,根据CRF的最优路径作为输入,通过解码的方式得到正确的矫正结果。训练过程中需要构建成对的训练样本。错误的OCR结果作为输入,正确的内容作为训练标签,对模块进行预训练。在前向测试时候,将模块对各命名实体的输出结果作为输入,得到矫正后的结果;
所述编码隐状态是在命名实体分类模块中,将文本序列中的每一个字符作为输入,会得到一个对应的输出,该输出汇集的是当前时刻的序列信息和之前序列的信息,用于理解上下文;
所述错误语义纠正模块的训练过程中需要人工标注结果与实际OCR场景下的检测识别结果;例如,人工标注的结果是“2019年5月3日”,而通过深度学习文字检测和识别模型得到的结果是是“2019午5月3日”。这两对就构成一组训练样本。
所述错误语义纠正模块采用GRU的解码结果,解码过程根据多特征聚合模块对每个字符的属性分类结果取出每个类别的所有字符,将这些字符构成的序列按序列的方向上进行递归,且所有节点按链式链接,融合实体类别信息指导解码和纠错;
所述融合实体类别信息指导解码和纠错具体为:
将字符的属性对应一个唯一的固定维度的向量,并将这个向量作为解码序列的最开头,让错误语义纠正模块学到根据类别信息指导解码的方式,最终抽取得到规范的实体命名信息。
通过融合命名实体分类模块和命名实体边界定位模块的输出可以得到每个命名实体清晰的分类结果,通过错误矫正模块得到最终正确的规定格式的结构化输出。
所述结构化输出的伪代码具体如下:
Input:文字命名实体的分类结果R
Output:经过结构化数据输出
1.For i in R:
3.如果i的分类结果为第k类,i添加到类别k的集合中
4.For j in R except i:
5.如果分类结果j为第k类,且j已经在类别k的集合中。则跳过
6.更新个类别集合的元素
7.对上述得到的集合递归重复操作,直到所有字符的分类结果遍历完
最终实现输出一张视觉富文档图像的OCR检测识别结果,输出文档图像的结构化信息抽取,得到最终输出结果。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,包括以下步骤:
收集实际场景下的视觉富文本图像,对搜集的图像进行文本行位置、文本内容以及命名实体属性的标注,采用启发式的方法标注命名实体标签,利用检测识别方法得到OCR结果;
利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征;
训练命名实体分类模块,按照命名实体识别任务的方式生成每个字符的命名实体属性标签,训练过程中采用交叉熵分类损失函数训练;
构建基于图卷积GAT的全局文档图结构,引入自注意力机制构建全连接有向图;
训练命名实体边界定位模块,命名实体边界定位模块的训练标签根据命名实体分类模块的标签生成,根据每个字符的命名实体属性标注情况,将命名实体的第一个字符和最后一个字符设置为命名实体的边界,其他的设置为非边界;
构建多特征聚合结构,对命名实体分类概率和命名实体边界定位概率做加权和,得到命名实体维度的预测结果,并采用条件随机场CRF结构对预测结果做上下文的约束;
训练错误语义纠正模块,错误语义纠正模块采用GRU的解码结构,根据CRF的最优路径,取出对应维度特征的编码隐状态,通过将命名实体的类别信息,作为先验指导信息,指导每次解码器的输出,最终得到规范格式的实体命名信息。
2.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述命名实体属性的标注具体为针对实际OCR结果下的命名实体标签,所述命名实体标签是指使用BIO tagging的序列标注方法对语句单词的标注;
所述BIO tagging是一种对给定句子中的单元做序列标注的方式,对于一个给定句子,将其中每个词标注为B、I以及O中的一个,其中B指示某短语起始,I指示短语内部,O指示不在短语中;
所述采用启发式的方法标注命名实体标签具体为:
根据人工标注的结果与OCR的检测结果匹配IOU的值,选取与人工标注结果重复度最高的OCR结果,赋予人工标注结果的命名实体标签,所述IOU为模型预测的检测框与人工标注的检测框之间的交并比;
所述利用检测识别方法得到OCR结果具体为:
利用预训练的目标检测框架和文字识别框架Paddle OCR分别得到基于预测的文本检测和识别结果,OCR结果的命名实体的标注通过与人工标注的结果比较,取出最高的IOU结果作为命名实体标签。
3.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述文本词嵌入为将每一个词用一个独一无二的数字表示编码,每个数字映射到固定的768维度的向量;
所述位置嵌入为将每个文本块在图片中的相对位置量化到0-1000之间的一个数字,随后通过矩阵运算将该区间的每个数值用一个固定维度的768维度的向量表示;
所述抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征具体为:
分别按照字符级和单词级以所述文本词嵌入和位置嵌入的方式提取文本词嵌入和位置嵌入,将文本词嵌入特征和位置嵌入特征融入预训练好的Transformer结构得到高层的特征表示。
4.根据权利要求3所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述命名实体分类模块需要结合字符级和单词级的语义特征、字符的相对中心点坐标以及文本块的相对坐标和长宽信息,采用预训练的Transformer结构融合空间位置和语义特征得到高维的嵌入特征;
所述字符的相对中心点坐标和文本块的相对坐标和长宽信息均量化到0-1000之间的一个数字,采用线性层的矩阵乘法运算将其变换到768维的特征。
5.根据权利要求4所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述预训练的Transformer结构采用注意力机制并由若干个编码器和解码器构成,所述编码器采用多头注意力机制和一个全连接层构成,所述解码器编码器多了掩码注意力机制,其他结构与编码器相同;
所述预训练具体采用BERT的预训练方式,BERT模型基于Transformer结构,具体包含两部分:
在一句话中遮盖掉若干个单词然后对遮盖的单词做预测;
判断两句话是否存在上下文关系。
6.根据权利要求2所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述构建基于图卷积GAT的全局文档图结构具体为:
文档图的节点特征采用每个字符的语义特征,所述语义特征为预训练词嵌入模型将维数为所有词数量的高维空间嵌入到低维的连续向量空间;文档图的边特征利用各字符的中心点距离,命名实体边界定位模块做二分类预测,以BIO tagging的实体标注方式预测每个命名实体的标注B和标注I;
所述引入自注意力机制具体为:
引入多头自注意力机制,文档图中所有节点采用全连接的方式,每个节点的预测结果需考虑到所有邻接矩阵边的相关性得分和所有节点的注意力得分。
7.根据权利要求6所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述命名实体边界定位模块的节点特征采用字符级的文本词嵌入特征,边的特征采用全连接图的形式,融入各字符的中心点相对位置关系,通过加权二分类方式定位每个命名实体的标注B和标注I。
8.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述多特征聚合结构具体包括以下步骤:
解构常规BIO tagging的预测方式,根据命名实体边界定位模块,得到每个命名实体的边界起始信息,根据命名实体分类模块,得到命名实体的属性信息,利用这两部分信息对命名实体分类概率和命名实体边界定位概率做加权和,得到BIO tagging维度的预测结果,并采用条件随机场CRF结构对预测结果做上下文的约束;
所述CRF条件随机场模型是一种判别式模型,具体为给定一组输入随机变量条件下,预测另一组随机变量的条件概率分布模型。
9.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述编码隐状态是在命名实体分类模块中,将文本序列中的每一个字符作为输入,会得到一个对应的输出,该输出汇集的是当前时刻的序列信息和之前序列的信息,用于理解上下文。
10.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法,其特征在于,所述错误语义纠正模块的训练过程中需要人工标注结果与实际OCR场景下的检测识别结果;
所述错误语义纠正模块采用GRU的解码结果,解码过程根据多特征聚合模块对每个字符的属性分类结果取出每个类别的所有字符,将这些字符构成的序列按序列的方向上进行递归,且所有节点按链式链接,融合实体类别信息指导解码和纠错;
所述融合实体类别信息指导解码和纠错具体为:
将字符的属性对应一个唯一的固定维度的向量,并将这个向量作为解码序列的最开头,让错误语义纠正模块学到根据类别信息指导解码的方式,最终抽取得到规范的实体命名信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110168304.9A CN112801010B (zh) | 2021-02-07 | 2021-02-07 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110168304.9A CN112801010B (zh) | 2021-02-07 | 2021-02-07 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801010A true CN112801010A (zh) | 2021-05-14 |
CN112801010B CN112801010B (zh) | 2023-02-14 |
Family
ID=75814648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110168304.9A Active CN112801010B (zh) | 2021-02-07 | 2021-02-07 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801010B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113673608A (zh) * | 2021-06-03 | 2021-11-19 | 厦门锐特信息技术有限公司 | 一种基于PaddleOCR框架集装箱号识别系统和方法 |
CN113688207A (zh) * | 2021-08-24 | 2021-11-23 | 思必驰科技股份有限公司 | 基于网络的结构阅读理解的建模处理方法和装置 |
CN113723278A (zh) * | 2021-08-27 | 2021-11-30 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113722490A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN113901847A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
CN114065744A (zh) * | 2021-11-19 | 2022-02-18 | 北京邮电大学 | 中文电子病历手术操作文本的icd自动编码方法及装置 |
CN114332872A (zh) * | 2022-03-14 | 2022-04-12 | 四川国路安数据技术有限公司 | 一种基于图注意力网络的合同文档容错信息提取方法 |
CN114328831A (zh) * | 2021-12-24 | 2022-04-12 | 江苏银承网络科技股份有限公司 | 票据信息识别与纠错方法及装置 |
CN114419304A (zh) * | 2022-01-18 | 2022-04-29 | 深圳前海环融联易信息科技服务有限公司 | 一种基于图神经网络的多模态文档信息抽取方法 |
CN114821603A (zh) * | 2022-03-03 | 2022-07-29 | 北京百度网讯科技有限公司 | 票据识别方法、装置、电子设备以及存储介质 |
CN114821622A (zh) * | 2022-03-10 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN116229493A (zh) * | 2022-12-14 | 2023-06-06 | 国家能源集团物资有限公司 | 跨模态的图片文本命名实体识别方法、系统及电子设备 |
CN116738992A (zh) * | 2023-01-12 | 2023-09-12 | 重庆邮电大学 | 基于图注意力网络和字词融合的医疗命名实体识别方法 |
CN116824609A (zh) * | 2023-06-29 | 2023-09-29 | 北京百度网讯科技有限公司 | 文档版式检测方法、装置和电子设备 |
CN117542063A (zh) * | 2024-01-10 | 2024-02-09 | 华南理工大学 | 一种多语言多模态多分支文档视觉信息抽取方法 |
CN117807999A (zh) * | 2024-02-29 | 2024-04-02 | 武汉科技大学 | 基于对抗学习的域自适应命名实体识别方法 |
CN118349700A (zh) * | 2024-06-17 | 2024-07-16 | 阿里巴巴(中国)有限公司 | 信息抽取方法及装置 |
CN116738992B (zh) * | 2023-01-12 | 2024-09-24 | 重庆邮电大学 | 基于图注意力网络和字词融合的医疗命名实体识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070230787A1 (en) * | 2006-04-03 | 2007-10-04 | Oce-Technologies B.V. | Method for automated processing of hard copy text documents |
US20150199333A1 (en) * | 2014-01-15 | 2015-07-16 | Abbyy Infopoisk Llc | Automatic extraction of named entities from texts |
CN110032737A (zh) * | 2019-04-10 | 2019-07-19 | 贵州大学 | 一种基于神经网络的边界组合命名实体识别方法 |
US20200004815A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Text entity detection and recognition from images |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN111126069A (zh) * | 2019-12-30 | 2020-05-08 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
-
2021
- 2021-02-07 CN CN202110168304.9A patent/CN112801010B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070230787A1 (en) * | 2006-04-03 | 2007-10-04 | Oce-Technologies B.V. | Method for automated processing of hard copy text documents |
US20150199333A1 (en) * | 2014-01-15 | 2015-07-16 | Abbyy Infopoisk Llc | Automatic extraction of named entities from texts |
US20200004815A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Text entity detection and recognition from images |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN110032737A (zh) * | 2019-04-10 | 2019-07-19 | 贵州大学 | 一种基于神经网络的边界组合命名实体识别方法 |
CN111126069A (zh) * | 2019-12-30 | 2020-05-08 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Non-Patent Citations (1)
Title |
---|
宋建炜 等: "基于预训练语言模型的建筑施工安全事故文本的命名实体识别研究", 《图学学报》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673608A (zh) * | 2021-06-03 | 2021-11-19 | 厦门锐特信息技术有限公司 | 一种基于PaddleOCR框架集装箱号识别系统和方法 |
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113468890A (zh) * | 2021-07-20 | 2021-10-01 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113468890B (zh) * | 2021-07-20 | 2023-05-26 | 南京信息工程大学 | 基于nlp信息萃取与词性规则的沉积学文献挖掘方法 |
CN113688207A (zh) * | 2021-08-24 | 2021-11-23 | 思必驰科技股份有限公司 | 基于网络的结构阅读理解的建模处理方法和装置 |
CN113688207B (zh) * | 2021-08-24 | 2023-11-17 | 思必驰科技股份有限公司 | 基于网络的结构阅读理解的建模处理方法和装置 |
CN113723278A (zh) * | 2021-08-27 | 2021-11-30 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113723278B (zh) * | 2021-08-27 | 2023-11-03 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113722490A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN113901847A (zh) * | 2021-09-16 | 2022-01-07 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
CN113901847B (zh) * | 2021-09-16 | 2024-05-24 | 昆明理工大学 | 基于源语言句法增强解码的神经机器翻译方法 |
CN114065744A (zh) * | 2021-11-19 | 2022-02-18 | 北京邮电大学 | 中文电子病历手术操作文本的icd自动编码方法及装置 |
CN114065744B (zh) * | 2021-11-19 | 2024-09-27 | 北京邮电大学 | 中文电子病历手术操作文本的icd自动编码方法及装置 |
CN114328831A (zh) * | 2021-12-24 | 2022-04-12 | 江苏银承网络科技股份有限公司 | 票据信息识别与纠错方法及装置 |
CN114419304A (zh) * | 2022-01-18 | 2022-04-29 | 深圳前海环融联易信息科技服务有限公司 | 一种基于图神经网络的多模态文档信息抽取方法 |
CN114821603A (zh) * | 2022-03-03 | 2022-07-29 | 北京百度网讯科技有限公司 | 票据识别方法、装置、电子设备以及存储介质 |
CN114821603B (zh) * | 2022-03-03 | 2023-09-01 | 北京百度网讯科技有限公司 | 票据识别方法、装置、电子设备以及存储介质 |
CN114821622A (zh) * | 2022-03-10 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
CN114332872A (zh) * | 2022-03-14 | 2022-04-12 | 四川国路安数据技术有限公司 | 一种基于图注意力网络的合同文档容错信息提取方法 |
CN114842368B (zh) * | 2022-05-07 | 2023-10-03 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN116229493A (zh) * | 2022-12-14 | 2023-06-06 | 国家能源集团物资有限公司 | 跨模态的图片文本命名实体识别方法、系统及电子设备 |
CN116229493B (zh) * | 2022-12-14 | 2024-02-09 | 国家能源集团物资有限公司 | 跨模态的图片文本命名实体识别方法、系统及电子设备 |
CN116738992A (zh) * | 2023-01-12 | 2023-09-12 | 重庆邮电大学 | 基于图注意力网络和字词融合的医疗命名实体识别方法 |
CN116738992B (zh) * | 2023-01-12 | 2024-09-24 | 重庆邮电大学 | 基于图注意力网络和字词融合的医疗命名实体识别方法 |
CN116824609B (zh) * | 2023-06-29 | 2024-05-24 | 北京百度网讯科技有限公司 | 文档版式检测方法、装置和电子设备 |
CN116824609A (zh) * | 2023-06-29 | 2023-09-29 | 北京百度网讯科技有限公司 | 文档版式检测方法、装置和电子设备 |
CN117542063A (zh) * | 2024-01-10 | 2024-02-09 | 华南理工大学 | 一种多语言多模态多分支文档视觉信息抽取方法 |
CN117542063B (zh) * | 2024-01-10 | 2024-04-09 | 华南理工大学 | 一种多语言多模态多分支文档视觉信息抽取方法 |
CN117807999A (zh) * | 2024-02-29 | 2024-04-02 | 武汉科技大学 | 基于对抗学习的域自适应命名实体识别方法 |
CN117807999B (zh) * | 2024-02-29 | 2024-05-10 | 武汉科技大学 | 基于对抗学习的域自适应命名实体识别方法 |
CN118349700A (zh) * | 2024-06-17 | 2024-07-16 | 阿里巴巴(中国)有限公司 | 信息抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112801010B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801010B (zh) | 一种针对实际ocr场景下的视觉富文档信息抽取方法 | |
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN111737969B (zh) | 一种基于深度学习的简历解析方法和系统 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
JP2008148322A (ja) | 文字符号化処理方法及びシステム | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN110781672A (zh) | 基于机器智能的题库生产方法及系统 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN112818117A (zh) | 标签映射方法、系统、计算机可读存储介质 | |
CN111814477A (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
Chua et al. | DeepCPCFG: deep learning and context free grammars for end-to-end information extraction | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN115600561A (zh) | 融合规则与小样本的网页结构化方法、设备和存储介质 | |
Ma et al. | Bootstrapping structured page segmentation | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |