CN113536797A - 一种切片文档关键信息单模型抽取方法及系统 - Google Patents
一种切片文档关键信息单模型抽取方法及系统 Download PDFInfo
- Publication number
- CN113536797A CN113536797A CN202110807792.3A CN202110807792A CN113536797A CN 113536797 A CN113536797 A CN 113536797A CN 202110807792 A CN202110807792 A CN 202110807792A CN 113536797 A CN113536797 A CN 113536797A
- Authority
- CN
- China
- Prior art keywords
- coding
- text
- dimensional
- vector
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种切片文档关键信息单模型抽取方法及系统,涉及计算机视觉领域。该方法包括:针对输入信息进行编码后,拼接并输入至Transformer模型中,输出得到拼接特征向量;将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。该方案实现端到端的训练和预测,避免了多个模型带来的误差传播的问题,以及充分利用两个任务之间的关系相互促进、加快学习效率,从而使信息抽取的精度大大提升。
Description
技术领域
本发明涉及计算机视觉领域,尤其是一种关于切片文档关键信息单模型抽取方法及系统。
背景技术
切片是从篇幅较大的文档中切取包含想要的信息的一种篇幅较小的文档。尤其在金融领域,比如在银行中这类切片文档在信息入库、结算报销等场景下有着广泛的应用,图1-3示出了几张典型的银行切片。
切片内的信息结构一般分为两种:一种是k-v对的形式,比如上面的图1和图2所示。也就是说信息值前面会有关键字来说明信息值中包含什么样的信息;另一种是只有信息值没有关键字说明。对于第一种情况,通常希望充分利用文档中的信息,不事先定义想要抽取的信息类型,而是利用其关键字来进行说明。这就要求在抽取出信息的同时,也要把对应该信息的关键字一并抽取出来。对于一个切片中有多个k-v对的情况,还需要对抽出来的关键字和信息做一个匹配,也就是它们之间的关系;第二种情况,没有相应的关键字对信息进行说明。如图3所示,只有一组号码,但没有关键字表明这组号码代表的意义。技术人员需要事先定义想要抽取的信息类型,然后将抽出的信息正确地分到事先定义的某一种类型。根据这两种情况,申请人想要利用深度学习中的NLP的相关知识来解决,这其中就包括了命名体识别和关系抽取两种关键技术。
命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。早期的命名体识别方法基本都是基于规则的。基于规则的方法多采用语言学家手工构造规则模板,选用特征包括统计信息、标点符号、指示词和方向词、中心词等方法,以模式和字符串相匹配为主要手段,这类方法大多依赖于知识库和词典的建立。但是这类方法往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学家重新书写规则。之后由于基于大规模的语料库的统计方法在自然语言处理各个方面取得不错的效果后,出现了一大批机器学习的方法:隐马尔可夫模型、语言模型、最大熵模型、条件随机场等。其中最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。随着深度学习的流行及其在自然语言方向的广泛应用,出现了很多基于深度学习的命名体识别方法且展现出了不错的效果。此类方法将命名体识别当作序列标注任务来做,比较常见的方法有BiLSTM+CRF、CNN+CRF,BERT、RoBERTa等。利用神经网络模型自身极强的拟合能力,可以很好的提取到带有关键信息的特征向量,且此过程不需要人工参与而完全通过训练模型得到,这就省去了冗长复杂的特征制定过程,不仅节省了大量的资源和精力,也大大提高了预测的准确度。
关系抽取旨在发现文本中两个或多个实体之间的语义关系。与命名实体识别类似,早期的关系抽取也是基于规则或者依存句法,通过手工模式的方式来提取。这类方法虽然可以为特定的领域创造出高准确率的模式,但是需要大量的人工工作来创建所有可能的规则,这就导致了模型的鲁棒性差且需要耗费很多的精力和资源。随着机器学习的发展,出现了有监督关系抽取的方法,主要利用支持向量机、最大熵模型等技术。这类方法也有明显的缺陷,比如:过度依赖于精心设计的kernel来提取特征,这就使得模型提取特征的能力有限、容易出错且当应用到新的领域时不够鲁棒。深度学习方法的大规模研究和应用对于关系抽取领域的发展起到至关重要的作用,将RNN、CNN等神经网络模型应用到有监督关系抽取框架中已经成为如今的主流趋势。通过神经网络模型自身的强大拟合能力,研究人员不需要再用手工来设计数据的特征,而是让模型自动地学习到句子中所蕴含的语法和句法特征,从而使得模型的鲁棒性大大提高。
由于关系抽取任务是预测存在关系的实体对,所以对命名实体识别过程有很强的依赖。在针对一个特定的句子做关系抽取时,会首先要求识别出语句中的实体,然后再识别两两实体对之间的关系。根据命名实体识别任务和关系抽取任务之间的关系,可以先做实体识别再根据其结果进行关系抽取,这种做法有几个缺点:1)实体识别模块的错误会传播到关系抽取模块从而影响其性能;2)分成两个模块单独来做忽视了两个子任务之间存在的关系,这种关系可能会使得子任务中的学习能力增强;3)对识别出来的实体进行两两配对,再进行关系分类,那些没有关系的实体对就会产生冗余信息,使得错误率提升。
发明内容
针对上述存在的缺点,申请人提出将两个任务放到一个模型中,通过联合模型不仅可以抽取实体类型,它们之间的关系也可以一起抽取出来,使得关系抽取可以做到端到端的训练和抽取,从而提升预测的精度。由此,本发明提供了一种切片文档关键信息单模型抽取方法及系统。该方案将命名实体识别和关系抽取两个任务融合到一个模型中,利用长短可记忆网络(LSTM)、Transformer等神经网络结构构建模型,做到端到端的训练和预测,最终根据切片信息结构的特殊性输出实体类型或实体对之间的关系。本发明涉及一种精确的文档关键信息抽取方法。针对切片文档关键信息抽取这一问题,申请人创新性地提出利用表格填充的方法来将命名实体识别和关系抽取放到一个模型中,充分利用切片文档的图像、文本和位置特征,实现端到端的训练和预测,避免了多个模型带来的误差传播的问题,以及充分利用两个任务之间的关系相互促进、加快学习效率,从而使信息抽取的精度大大提升。
根据本发明的第一方面,提供一种切片文档关键信息单模型抽取方法,所述单模型的输入信息包括:样本图像、样本图像中文本块所有文字内容拼成的一段文本内容和每个文字对应的位置坐标,其特征在于,所述抽取方法包括以下步骤:
特征编码步骤,针对输入信息进行编码后,拼接并输入至Transformer模型中,输出得到拼接特征向量;
生成表格输入步骤,将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;
表格编码步骤,将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;
分类步骤,针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。
进一步的,所述特征编码步骤具体包括:
针对所述样本图像进行编码,得到样本图像特征向量;
针对所述文本内容进行编码,得到文本语义特征向量、文本词向量;
针对所述位置坐标进行编码,得到位置坐标特征向量;
拼接样本图像特征向量、文本语义特征向量、文本词向量以及位置坐标特征向量,并输入至Transformer模型中,输出得到拼接特征向量。
进一步的,样本图像特征向量、文本语义特征向量、文本词向量以及位置坐标特征向量的维度均为512。
进一步的,所述针对所述样本图像进行编码具体包括:
针对样本图像,采用预训练的深度卷积神经网络对文本块及其周边的图像特征进行编码,得到样本图像特征向量。
此处,周边的图像特征是通过卷积得到的。
进一步的,所述预训练的深度卷积神经网络为预训练的深度残差神经网络ResNet。
进一步的,所述针对所述文本内容进行编码具体包括:
针对文本内容,送入预训练的BERT(Bidirectional Encoder Representationsfrom Transformers)中进行语义层面的编码,得到文本语义特征向量;学习文本词向量,得到文本词向量。
进一步的,所述位置坐标进行编码具体包括:
针对每个文字对应的位置坐标的坐标值做归一化处理;
取四个顶点中左上角和右下角的坐标值作为该文字的位置信息;
按照输入文字的顺序将每个文字的位置信息拼在一起并进行升维,得到作为所有文字内容的位置特征向量。
这里,样本图片上的每个字都可以看作是一个小的四边形,那么输入的位置坐标就是四个顶点的坐标。
进一步的,所述生成表格输入步骤具体包括:
输入的所述文本块包括N个文字,D表示文本块的维度,则得到二维特征向量矩阵S,维度是N×D,Si对应第i个字的特征向量,进一步得到三维特征向量矩阵X,维度是N×N×D,其中Xij代表第i行第j列所对应的特征向量,将Si和Sj特征向量做拼接,然后降维:
Xij=F(Linear([Si;Sj]))
其中Linear代表线性神经网络,F代表非线性的激活函数。此模块输出的维度为N×N×D。
进一步的,所述多维长短可记忆网络的层数为3层。
进一步的,将多维长短可记忆网络的输入分为两类:
Tl,i,j,1=LSTM(Tl-1,i,j,Tl,i-1,j,Tl,i,j-1)
Tl,i,j,2=LSTM(Tl-1,i,j,Tl,i+1,j,Tl,i,j+1)
Tl+1,i,j=[Tl,i,j,1;Tl,i,j,2],
即,拼接后的值作为下一层的输入。
其中,三维特征向量矩阵X作为编码之前第0层T0的输入,Tl+1,i,j代表第1+1层第i行第j列输入的值,它由两部分Tl,i,j,1Tl,i,j,2拼接而成,Tl,i,j,1与同一层位于该位置的左边和上边的值有关,Tl,i,j,2与同一层位于该位置的右边和下边有关。
进一步的,所述表格编码特征向量的维度为N×N×D。
进一步的,所述分类步骤包括:
对角线节点分类:对表格中位于对角线的节点向量做softmax,这里所用的类别为实体类别,抽出来的即为实体;
其余节点分类:对表格中除对角线外的节点向量做softmax,这里所用的类别为关系类别,抽出来的即为实体之间的关系。
根据本发明的第二方面,提供一种切片文档关键信息单模型抽取装置,所述装置基于前述任一方面提供的方法进行操作,所述装置包括:
特征编码模块,用于针对输入信息进行编码后,拼接并输入至Transformer模型中,输出得到拼接特征向量;
生成表格输入模块,用于将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;
表格编码模块,用于将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;
分类模块,用于针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。
根据本发明的第三方面,提供一种切片文档关键信息单模型抽取系统,所述系统包括:处理器和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行如以上任一方面所述的切片文档关键信息单模型抽取方法。
根据本发明的第四方面,提供一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如以上任一方面所述的切片文档关键信息单模型抽取方法。
本发明的有益效果:
1)将命名体识别和关系抽取通过表格填充的方法放到一个模型,实现了端到端的训练和预测,避免了多个模型带来的错误传播,加快了学习效率;
2)金融票据切片文档的信息结构主要有两种,即有关键字和无关键字的情况。当存在关键字时,我们通过抽取关键字和实际信息之间的关系来充分利用关键字来更准确的说明对应信息所代表的意义;当没有关键字时,我们通过抽取事先定义的实体类别,同样可以得到我们想要的信息。这样通过一个模型可以很好地解决所有这些情况,避免了要针对不同情况训练多个模型的工作;
3)泛化能力强,充分且高效地利用文档特征,包括文本内的语法和语义、句子内文本之间的关系、文本在图像上的位置信息等。对于版式的依赖比较小。
4)更符合实际生产场景中的需求。一个模型相对于多个模型体积更小;工程化更加方便,不需要考虑模型间的连接转换问题;更容易找到实际场景中出错的原因,易于之后的维护。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1-3为现有技术中银行切片样本示例图;
图4为表格填充方法示例图;
图5为根据本发明实施例的算法流程图;
图6为根据本发明实施例的算法结构图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
多个,包括两个或者两个以上。
和/或,应当理解,对于本公开中使用的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
首先,通过图4示例列子说明表格填充方法基本原理:
如果申请人想要抽取‘李小龙出生于美国旧金山’这句话中的实体以及它们之间的关系。首先,需要定义想要抽取的实体类型:人(PER)、地点(LOC)和关系:出生于(born_in)、位于(loc_in)。然后,申请人构建一个图1所示的表格,表格中的每个值代表其对应的行和列的两个字之间的关系。对角线上的值代表实体类型,其他位置代表实体之间的关系,空白处代表无关系。这样一种表格填充的问题就使得申请人可以将两个任务放到一个模型中,从而避免两个模型造成的错误传播,并且能有效地利用两个任务之间相互促进的关系来提高整体的准确率。
本发明技术方案具体的算法流程图如图5所示,图6示出了算法结构图。
实施例
1)特征编码模块
模型的输入为样本的图像本身以及样本中所有内容拼成的一段文字和每个文字对应的位置坐标。本模块的主要任务是对这些输入进行编码,生成可输入到后续模块的特征向量。对于输入的图像,最重要的是做长宽比不变的尺寸归一化以及边界补0,使得图像的尺寸能够支持编码模块中神经网络要求的卷积和下采样等操作,并最大化的保留全局和局部特征信息。图像特征编码主要是采用深度卷积神经网络对文本块及其周边的图像特征进行编码。该步骤采用具有强大的表示能力的预训练的深度残差神经网络ResNet1作为特征编码网络。该步骤目标是输出各个文本框对应的图像特征编码,因此,需要在网络输出特征图的对应位置上应用池化操作来获取对应的图像特征编码。该特征的维度为512。
对于文本内容,申请人首先将其送入BERT中进行语义层面的编码。Bert是在海量语料库上,配合巧妙设计的无监督学习任务训练而得到的预训练模型。借助其强大的语义理解和表示能力,将文本内容经过Bert编码后得到的特征向量可以很好的表示文本语义。该特征向量的维度为512。
第二个关于文本内容的编码就是文本词向量的学习。这个向量初始化为随机的值,随着模型的训练不断更新,从而能学习到样本特有的语义、语法方面的特征。该特征向量维度为512。
样本图片上的每个字都可以看作是一个小的四边形,那么输入的位置坐标就是四个顶点的坐标。首先需要对坐标值做归一化处理,目的是把坐标归一化到[0,1]之间,以消除不同图像尺寸下不同大小的坐标值对于学习的模型不变性的影响。这里假设每个四边形近似为矩形,只取四个顶点中左上角和右下角的坐标值作为该字的位置信息。按照输入文字的顺序将每个字的位置信息拼在一起作为整段文字的位置特征向量。为了使位置的特征向量和前面两个特征向量保持在同一个维度的特征空间,这里会利用线性神经网络和非线性的激活函数对原始的位置特征向量做一个升维的操作。该特征向量的维度为512。
得到上述四个特征向量后,申请人在特征空间那一维将它们拼在一起作为对应文字新的特征向量,拼接之后的特征向量的维度为2048。紧接着申请人将新的特征向量送入Transformer中,借助其强大的自注意力机制和多头多层的网络结构,使得模型可以学习到整段文字之间的相互关系,这为后面做关系抽取和实体抽取提供了关键的信息。
Transformer是一种基于encoder-decoder结构的模型,它抛弃了以往的seq2seq模型中的RNN,采用Self—attention或者Mulit-head-self-attention使得输入的数据可以并行处理,提高运行效率。
至此,整个的特征编码模块就算完成了,针对每个文字得到了维度为2048的特征向量,这些特征向量不仅包含文字本身的语法和语义的信息,以及此类样本特有的语句特征,还有文字之间的相互关系,这就为模型最后的高精度输出打下坚实的基础。
2)生成表格输入模块
这一模块的功能是将特征编码模块输出的特征向量转换成二维表格中每个值对应的特征向量,从而作为后续表格编码模块的输入使用。
假设输入是有N个文字的一段内容,D表示经过特征编码模块后得到的特征向量的维度,也就是2048,那么就有了一个S=N×D的特征向量矩阵,Si对应第i个字的特征向量。本发明技术方案想要的是一个特征向量矩阵X,它的维度是N×N×D,其中Xij代表第i行第j列所对应的特征向量。这里,将Si和Sj特征向量做一个拼接,然后降维:
Xij=F(Linear([Si;Sj]))
其中Linear代表线性神经网络,F代表非线性的激活函数。此模块输出的维度为N×N×D。
3)表格编码模块
从图6可以看出该模块由多层相同结构的多维长短可记忆网络(MD-LSTM)构成。多层叠加是为了随着层数的增加模型可以学习到更高水平的特征,从而更好地解决后续的任务。当然也不是层数越多越好,过多的层数可能会导致过拟合,使得泛化能力变差。通过实验申请人发现,对于切片类的样本,层数为3时预测的效果是相对较好的。
关于MD-LSTM的输入,本发明技术方案主要分为两类:
Tl,i,j,1=LSTM(Tl-1,i,j,Tl,i-1,j,Tl,i,j-1)
Tl,i,j,2=LSTM(Tl-1,i,j,Tl,i+1,j,Tl,i,j+1)
Tl+1,i,j=[Tl,i,j,1;Tl,i,j,2]
这里Tl+1,i,j代表第l层第i行第j列所输入的值,它由两部分Tl,i,j,1Tl,i,j,2拼接而成。Tl,i,j,1Tl,i,j,2相同的部分是它们都与前一层该位置的值有关;不同的是:Tl,i,j,1与同一层位于该位置的左边和上边的值有关,而Tl,i,j,2与同一层位于该位置的右边和下边有关。由于表格中的每个值都是按照此方法计算,可以看出所有层的表格中的所有位置的值都是相关的。通过训练模型可以学习到哪些相关性是有益的,哪些是无益的甚至有害的,从而做到趋利避害,充分利用这些相互关系来提高完成任务的能力。此模块输出的维度为N×N×D。
4)分类器模块
这一模块的主要作用是对模型输出的向量做softmax处理,从而得到表格内每个位置对应的类型。
从图3可以看出,这一模块由两个分类器组成:
(i)对角线节点分类:对表格中位于对角线的节点向量做softmax,这里所用的类别为实体类别,抽出来的即为实体。
(ii)其余节点分类:对表格中除对角线外的节点向量做softmax,这里所用的类别为关系类别,抽出来的即为实体之间的关系。
在背景技术里提到切片文档有多种信息结构,利用申请人提出的表格填充的方法可以很好的解决各种不同的信息结构。这里,事先做的就是将“关键字”作为一类实体放入到本发明技术方案的实体类别里。
如果在有关键字的切片里,不想用事先定义的实体类型来标明实体类别,而是希望通过关键字来定义这个实体是什么。也就是说如果对角线分类器输出的实体类型里有“关键字”类型,那么就不用这些实体类型而是通过其余节点分类器得到各个k-v关系,从而通过关键字来定义实体;
如果对角线分类器输出的实体类型里没有“关键字”类型,那么就使用这些类型来定义实体。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种切片文档关键信息单模型抽取方法,所述单模型的输入信息包括:样本图像、样本图像中文本块所有文字内容拼成的一段文本内容和每个文字对应的位置坐标,其特征在于,所述方法包括以下步骤:
特征编码步骤,针对输入信息进行编码后,拼接并输入至Transformer模型中,输出得到拼接特征向量;
生成表格输入步骤,将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;
表格编码步骤,将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;
分类步骤,针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。
2.根据权利要求1所述的切片文档关键信息单模型抽取方法,其特征在于,所述特征编码步骤具体包括:
针对所述样本图像进行编码,得到样本图像特征向量;
针对所述文本内容进行编码,得到文本语义特征向量、文本词向量;
针对所述位置坐标进行编码,得到位置坐标特征向量;
拼接样本图像特征向量、文本语义特征向量、文本词向量以及位置坐标特征向量,并输入至Transformer中,输出得到拼接特征向量。
3.根据权利要求2所述的切片文档关键信息单模型抽取方法,其特征在于,所述针对所述样本图像进行编码具体包括:
针对样本图像,采用预训练的深度卷积神经网络对文本块及其周边的图像特征进行编码,得到样本图像特征向量。
4.根据权利要求3所述的切片文档关键信息单模型抽取方法,其特征在于,所述预训练的深度卷积神经网络为预训练的深度残差神经网络ResNet。
5.根据权利要求2所述的切片文档关键信息单模型抽取方法,其特征在于,所述针对所述文本内容进行编码具体包括:
针对文本内容,送入预训练的BERT模型中进行语义层面的编码,得到文本语义特征向量;学习文本词向量,得到文本词向量。
6.根据权利要求2所述的切片文档关键信息单模型抽取方法,其特征在于,所述位置坐标进行编码具体包括:
针对每个文字对应的位置坐标的坐标值做归一化处理;
取四个顶点中左上角和右下角的坐标值作为该文字的位置信息;
按照输入文字的顺序将每个文字的位置信息拼在一起并进行升维,得到作为所有文字内容的位置特征向量。
7.根据权利要求1所述的切片文档关键信息单模型抽取方法,其特征在于,所述生成表格输入步骤具体包括:
输入的所述文本块包括N个文字,D表示文本块的维度,则得到二维特征向量矩阵S,维度是N×D,Si对应第i个字的特征向量,进一步得到三维特征向量矩阵X,维度是N×N×D,其中Xij代表第i行第j列所对应的特征向量,将Si和Sj特征向量做拼接,然后降维:
Xij=F(Linear([Si;Sj]))
其中Linear代表线性神经网络,F代表非线性的激活函数。
8.根据权利要求7所述的切片文档关键信息单模型抽取方法,其特征在于,表格编码步骤中,将多维长短可记忆网络的输入分为两类:
Tl,i,j,1=LSTM(Tl-1,i,j,Tl,i-1,j,Tl,i,j-1)
Tl,i,j,2=LSTM(Tl-1,i,j,Tl,i+1,j,Tl,i,j+1)
Tl+1,i,j=[Tl,i,j,1;Tl,i,j,2]
其中,三维特征向量矩阵X作为编码之前第0层T0的输入,Tl+1,i,j代表第1+1层第i行第j列输入的值,由两部分Tl,i,j,1Tl,i,j,2拼接而成,Tl,i,j,1与同一层位于该位置的左边和上边的值有关,Tl,i,j,2与同一层位于该位置的右边和下边有关。
9.根据权利要求1所述的切片文档关键信息单模型抽取方法,其特征在于,所述分类步骤包括:
对角线节点分类:对表格中位于对角线的节点向量做softmax,这里所用的类别为实体类别,抽出来的即为实体;
其余节点分类:对表格中除对角线外的节点向量做softmax,这里所用的类别为关系类别,抽出来的即为实体之间的关系。
10.一种切片文档关键信息单模型抽取装置,所述装置基于根据权利要求1至9中任一项所述的方法进行操作,所述装置包括:
特征编码模块,用于针对输入信息进行编码后,拼接并经处理输出得到拼接特征向量;
生成表格输入模块,用于将拼接特征向量转换成二维表格中每个值对应的特征向量,得到三维特征向量矩阵X;
表格编码模块,用于将三维特征向量矩阵X输入至多层相同结构的多维长短可记忆网络进行编码,得到表格编码特征向量;
分类模块,用于针对表格编码特征向量进行分类,得到实体以及各实体之间的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110807792.3A CN113536797A (zh) | 2021-07-16 | 2021-07-16 | 一种切片文档关键信息单模型抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110807792.3A CN113536797A (zh) | 2021-07-16 | 2021-07-16 | 一种切片文档关键信息单模型抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536797A true CN113536797A (zh) | 2021-10-22 |
Family
ID=78099862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110807792.3A Pending CN113536797A (zh) | 2021-07-16 | 2021-07-16 | 一种切片文档关键信息单模型抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536797A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743539A (zh) * | 2021-11-03 | 2021-12-03 | 南京云问网络技术有限公司 | 一种基于深度学习的表格检索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232149A (zh) * | 2020-09-28 | 2021-01-15 | 北京易道博识科技有限公司 | 一种文档多模信息和关系提取方法及系统 |
CN112966676A (zh) * | 2021-02-04 | 2021-06-15 | 北京易道博识科技有限公司 | 一种基于零样本学习的文档关键信息抽取方法 |
-
2021
- 2021-07-16 CN CN202110807792.3A patent/CN113536797A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232149A (zh) * | 2020-09-28 | 2021-01-15 | 北京易道博识科技有限公司 | 一种文档多模信息和关系提取方法及系统 |
CN112966676A (zh) * | 2021-02-04 | 2021-06-15 | 北京易道博识科技有限公司 | 一种基于零样本学习的文档关键信息抽取方法 |
Non-Patent Citations (1)
Title |
---|
JUE WANG 等: "Two are Better than One:Joint Entity and Relation Extraction with Table-Sequence Encoders", pages 1 - 5, Retrieved from the Internet <URL:https://doi.org/10.48550/arXiv.2010.03851> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743539A (zh) * | 2021-11-03 | 2021-12-03 | 南京云问网络技术有限公司 | 一种基于深度学习的表格检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN113792818B (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
US20230106873A1 (en) | Text extraction method, text extraction model training method, electronic device and storage medium | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
KR20220076419A (ko) | 딥러닝 기반 의미역 분석을 활용하는 방법 | |
CN116578688A (zh) | 基于多轮问答的文本处理方法、装置、设备及存储介质 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Peng et al. | Image to LaTeX with graph neural network for mathematical formula recognition | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
CN113536797A (zh) | 一种切片文档关键信息单模型抽取方法及系统 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN117271558A (zh) | 语言查询模型构建方法、查询语言获取方法及相关装置 | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
US20240037335A1 (en) | Methods, systems, and media for bi-modal generation of natural languages and neural architectures | |
CN114722774B (zh) | 数据压缩方法、装置、电子设备及存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |