CN113221181B - 具有隐私保护的表格类信息抽取系统及方法 - Google Patents
具有隐私保护的表格类信息抽取系统及方法 Download PDFInfo
- Publication number
- CN113221181B CN113221181B CN202110642036.XA CN202110642036A CN113221181B CN 113221181 B CN113221181 B CN 113221181B CN 202110642036 A CN202110642036 A CN 202110642036A CN 113221181 B CN113221181 B CN 113221181B
- Authority
- CN
- China
- Prior art keywords
- information
- node
- neural network
- nodes
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 title claims description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000000586 desensitisation Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000035945 sensitivity Effects 0.000 claims abstract description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000013145 classification model Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Image Analysis (AREA)
Abstract
一种具有隐私保护的表格类信息抽取系统及方法,包括:位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块,节点单元特征收集模块根据用户输入待识别的图片,通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征,用户隐私敏感脱敏模块利用自注意力机制,通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量,神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征,图神经网络模块根据节点连接关系节点特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系,提取出整个图片信息并恢复出整个表格。
Description
技术领域
本发明涉及的是一种人工智能应用领域的技术,具体是一种具有隐私保护的表格类信息抽取系统及方法。
背景技术
现有技术对于非结构化的表格文档,自动化的提取精度还需要进一步的提升,通常处理完后还需要人工处理。这往往会成为系统处理速度的瓶颈。随着数据挖掘、机器学习技术的兴起,深度学习在很多方面得到很多利用,同样表格识别领域也有使用现有的神经网络进行表格识别和表格恢复。但现有技术在识别过程中往往会由于传统神经网路技术缺陷导致信息丢失的情况。同时现有的大多数的表格识别不具有隐私保护的能力,对于一般的小公司部署一个本地识别模型具有一定困难,而对于C/S模式的部署,隐私保护在某些场景极为重要,信息安全逐渐重视的今天直接传入一张图片进行识别,对重要数据而言极其敏感。
发明内容
本发明针对现有技术存在的上述不足,提出一种具有隐私保护的表格类信息抽取系统及方法,利用二维文档结构间有一种特殊的空间依赖关系,例如在名片,发票等文档中,姓名后面一般会直接接上实际姓名,日期后面会接上实际日期,这种空间依赖关系在表格类文档中尤其明显。对于需要提取的原图片,通过文字定位、文字识别得到所有节点位置、文字信息,节点指连续的一行文字。通过注意力机制将这二类内容映射到其他维度,在不丢失特征的情况下保证隐私。表格类文档节点间的空间依赖关系分为同行邻接——相邻两个行单元格,同列邻接,同在一个单元组内,下面统一称为relation-r、relation-c、relation-g三类。再结合图神经网络、原始图像信息、节点字段信息进行分类预测出节点的三类关系,从而提取出整个表格的信息。
本发明是通过以下技术方案实现的:
本发明涉及一种具有隐私保护的表格类信息抽取系统,包括:位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块,其中:节点单元特征收集模块根据用户输入待识别的图片,通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征,用户隐私敏感脱敏模块利用自注意力机制,通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量,神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征,图神经网络模块根据节点连接关系节点特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系,提取出整个图片信息并恢复出整个表格。
所述的节点单元特征收集模块采用本地识别的模式,通过文字定位、文字识别获取一个单元格一行的文字信息和坐标信息,该方式获取的是单行分割的文本信息,每行文本信息即一个节点,当一个单元格内出现跨行文本则为多个节点。
所述的文字定位模型进行文字定位获取一段文字的空间坐标信息;文字识别模型通过文字识别获取单元格的原文信息段。
所述的坐标空间转换是指:X·M=X′,其中:原坐标X=[x1,y1,x2,y2,x3,y3, x,y],(x1,y1)为节点左上角坐标,(x2,y2)为节点右下角坐标,(x3,y3)为节点中心点坐标,x,y为节点框的长宽,M为注意力机制中的参数deg(M)=1,对于坐标向量则保持其转换后的欧式距离不变。
所述的文字空间转换是指:对于文字信息,首先节点的文字信息通过词嵌入,再利用具有注意力机制的seq2seq网络,将原始中英文文字信息映射到高维向量维度,同时保留语义关系,其中具有注意力机制的seq2seq网络为输入经过词嵌入后,传入LSTM层,增加向量的输出维度,LSTM在每一个时间点上输出隐藏状态hidden state;具有注意力机制的seq2seq网络的解码器的输入为传入的词向量以及attention的上一个时刻输出状态的融合,将编码器输出的隐藏状态与解码器的输入做attention运算得到Attention输出即为转换后的文字向量。
通过上述的对节点文字、坐标空间的变换,有以下作用:信息传输和接受过程,没有直接暴漏原始信息可以防止重要的信息在传输过程中被窃取后利用的可能;避免用户对云服务的不信任而带来的信心下降问题;避免云服务器可能存在的不安全因素带来的用户敏感信息泄露问题。
所述的图神经网络模块使用图卷积神经网络理解学习节点的位置特征以及邻接关系,使用LSTM处理节点文字信息经过具有注意力机制的seq2seq网络后的输出,将图卷积网络、 LSTM、卷积神经网络的输出特征通过全连接层的输出后进行融合,最后通过多层感知机进行分类输出节点的边连接关系。
技术效果
本发明整体所解决的技术问题是解决表格识别的过程中,用户隐私的保护问题;并且利用空间依赖关系实现表格文档信息提取。
与现有技术相比,本发明能够保证在传输过程中私密文本信息进行转化处理,保护个人隐私;利用特殊的空间依赖关系进行模型训练;利用图网络处理节点间的连接关系,最后解析出整个表格的所有的依赖连接关系。本发明在自主标注的数据集上的准确率达到89%,自主标注得数据为1890张。
附图说明
图1为本发明系统结构图;
图2为本发明的模型图;
图3为本发明表格的空间依赖关系示意图;
图中:单实线箭头、单虚线箭头、双实线箭头分别表示relation-r,relation-c,relation- g;
图4为实施例流程图;
图中采用的具有注意力机制的seq2seq网络对节点文字内容进行维度转换,得到新向量。
具体实施方式
如图1所示,为本实施例涉及一种基于深度学习的表格文档信息抽取系统,分为云服务端和本地端。有四个模块位于本地端的节点单元特征收集模块;用户隐私敏感脱敏模块;神经网络采集模块以及位于云服务端的图神经网络模块,其中:节点单元特征收集模块根据输入图片的信息,进行传统文字识别文字定位处理并得到每个节点的坐标信息文字信息,用户隐私敏感脱敏模块利用自注意力机制,通过空间维度转换将每个节点的文字、坐标信息进行变换并得到不同维度但是保留原语义的向量,从而达到对用户的隐私进行保护,神经网络采集模块将待识别图像通过卷积神经网络的卷积等特征提取操作提取出图像信息,图神经网络模块根据节点的坐标、文本特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,本地端推断出文档信息。
所述的节点单元特征收集模块包括:文字定位单元和文字识别单元,其中:文字定位单元内置开源的CTPN模型,文字识别单元内置开源的CRNN模型,文字定位单元输出节点的坐标信息,文字检测单元输出节点的信息。
所述的用户隐私脱敏模块包括:坐标处理单元和节点文字处理单元,其中:坐标处理单元采用自注意力机制将原始坐标信息转化为欧氏距离不变的新向量,节点文字处理单元将文字识别得到的节点文字内容通过图4所示的注意力机制转化为高维向量。
所述的节点连接关系,通过以下方式的得到:
步骤一、数据收集:从各大保险、金融、等领域提取出包含表格的相关文档数据,并进行照片裁剪切割得到若干原始中文数据图集。建立的初始数据集中包含各种类型表格图片,有较为规整的中心对其左对齐、右对齐、长短文本不一致的各类表格图片。
步骤二、对数据集进行标注:通过传统的OCR和文字定位先进行预处理得到每个文本行的原始信息;标注相邻标注数据之间的关系,即:一个单元格内部或一个单元格外部。对于一个内部有多行的标注单元格,也即为统一个单元格内部包含多个节点,这些节点间形成的是一种relation-g的空间关系,表示他们属于一个单元格内的跨行文本。对于单元格之间,可以分为同行同列关系。本方法将直接与此单元格相邻的单元格称为直接相邻行/列称为relation-c、 relation-r。标注时直接标注relation-r、relation-c、relation-g三种关系。不直接相连的同行同列关系则可以直接通过此标注获取。标注关系如图3所示,即为上述所说的一种空间依赖关系,至此数据处理阶段完成得到原始数据。
所述的文本行的原始信息包括:文本行信息、坐标位置信息。
所述的坐标位置信息包括:节点左上点坐标、右下点坐标、中心点坐标、节点长和宽信息。
步骤三、搭建四个部分的模型,包括:识别节点间交互作用的图卷积神经网络、节点的文字语义信息理解的循环神经网络、理解图片信息的卷积神经网络、节点间空间依赖关系分类的多层感知机,将图卷积神经网络、循环神经网络和卷积神经网络的全连接层的输出进行特征融合,最后输出到分类模型多层感知机中,经过softmax得到节点间的空间依赖关系。
所述的图卷积神经网络模块是指多层图神经网络将节点的特征信息即坐标信息与节点的邻接关系输入至图卷积神经网络。使得图卷积神经网络学习节点间的相互连接关系。网络架构为将节点的属性/特征和邻接/边连接信息通过两层图卷积网络每层后经过ReLU激活函数激活,最后接入全连接层。其中两层图卷积网络的参数(in_channels,out_channels)分别设置为(8, 64)、(64,64)。
所述的卷积神经网络模块是通过多层卷积获取图片整体特征,在提取出每一个节点的图片信息。原始图片通过三个卷积块,前两个卷积块包括CNN、激活函数ReLU激活、最大池化层,最后一个卷积层包括卷积神经网络、批标准化、激活函数、池化层。融合待学习节点的间特征图像,最后一层经全连接层输出。卷积层模块将1×256×256的图片转化为64×32×32的特征向量。
所述的文字语义信息理解的循环神经网络模块是对于步骤一得到的节点文字内容信息本方法采用具有注意力机制的seq2seq网络转换到高维空间。在将文字转换后的向量经过LSTM 处理并提取每个节点的文本的语义信息。合并待预测节点间的语义信息,最后接入全连接层。其中将双向LSTM的参数设置成:输入维度数50,隐藏层状态维度数64。
所述的空间依赖关系,具体通过:将节点的文本信息输入到语义信息理解模块,将图像输入到图像信息提取部分,提取图像特征信息,将节点特征输入到图神经网络模块得到节点间的连接关系,经特征融合最后输出到多层感知机进行分类,解析出各种空间依赖关系,具体为:dependencyout=Softmax(mlp(GNNout ;LSTMout;CNNout)),其中:dependencyout表示空间依赖关系,GNNout 表示图卷积神经网络输出,LSTMout表示循环神经网络模块的输出,CNNout表示卷积神经网络模块输出。
步骤四、模型训练:采用Adam优化函数,损失函数采用NLLLoss(),共迭代训练50轮,数据为步骤二得到的训练样本。数据包含原始图像、节点连接关系、节点坐标特征、节点文字信息。
与现有技术相比,本方法利用空间依赖关系和图神经网络实现表格恢复;该方法在表格识别过程中能够起到隐私保护的作用,能够识别在同一单元格内的跨行文本。经过具体实际实验,在python3.7的pytorch框架下,以上述实验参数启动该方法,能够得到的实验数据是模型的节点空间依赖关系分类准确率为89%。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (9)
1.一种具有隐私保护的表格类信息抽取系统,其特征在于,包括:位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块,其中:节点单元特征收集模块根据用户输入待识别的图片,通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征,用户隐私敏感脱敏模块利用自注意力机制,通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量,神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征,图神经网络模块根据节点连接关系节点特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系,提取出整个图片信息并恢复出整个表格。
2.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的节点单元特征收集模块采用本地识别的模式,通过文字定位模型进行文字定位获取一行文字的空间坐标信息;文字识别模型通过文字识别获取单元格的原文信息段,每行文本信息即一个节点,当一个单元格内出现跨行文本则为多个节点。
3.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的坐标空间转换是指:X·M=X′,其中:原坐标X=[x1,y1,x2,y2,x3,y3,x,y],(x1,y1)为节点左上角坐标,(x2,y2)为节点右下角坐标,(x3,y3)为节点中心点坐标,x,y为节点框的长宽,M为注意力机制中的参数deg(M)=1,对于坐标向量则保持其转换后的欧式距离不变。
5.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的文字空间转换是指:对于文字信息,首先节点的文字信息通过词嵌入,再利用具有注意力机制的seq2seq网络,将原始中英文文字信息映射到高维向量维度,同时保留语义关系,其中具有注意力机制的seq2seq网络为输入经过词嵌入后,传入LSTM层,增加向量的输出维度,LSTM在每一个时间点上输出隐藏状态hidden state;具有注意力机制的seq2seq网络的解码器的输入为传入的词向量以及attention的上一个时刻输出状态的融合,将编码器输出的隐藏状态与解码器的输入做attention运算得到Attention输出即为转换后的文字向量。
6.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的图神经网络模块使用图卷积神经网络理解学习节点的位置特征以及邻接关系,使用LSTM处理节点文字信息经过具有注意力机制的seq2seq网络后的输出,将图卷积网络、LSTM、卷积神经网络的输出特征通过全连接层的输出后进行融合,最后通过多层感知机进行分类输出节点的边连接关系。
7.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的节点连接关系,通过以下方式的得到:
步骤一、数据收集:对包含表格的相关文档数据进行照片裁剪切割得到若干原始中文数据图集,建立的初始数据集中包含各种类型表格图片,有较为规整的中心对其左对齐、右对齐、长短文本不一致的各类表格图片;
步骤二、对数据集进行标注:通过传统的OCR和文字定位先进行预处理得到每个文本行的原始信息;标注相邻标注数据之间的关系,即:一个单元格内部或一个单元格外部,对于一个内部有多行的标注单元格,也即为统一个单元格内部包含多个节点,这些节点间形成的是一种relation-g的空间关系,表示他们属于一个单元格内的跨行文本,对于单元格之间,分为同行同列关系,其中直接与此单元格相邻的单元格即直接相邻行/列称为relation-c、relation-r,标注时直接标注relation-r、relation-c、relation-g三种关系,不直接相连的同行同列关系则直接通过此标注获取,至此数据处理阶段完成得到原始数据;
步骤三、搭建四个部分的模型,包括:识别节点间交互作用的图卷积神经网络、节点的文字语义信息理解的循环神经网络、理解图片信息的卷积神经网络、节点间空间依赖关系分类的多层感知机,将图卷积神经网络、循环神经网络和卷积神经网络的全连接层的输出进行特征融合,最后输出到分类模型多层感知机中,经过softmax得到节点间的空间依赖关系;
步骤四、模型训练:采用Adam优化函数,损失函数采用NLLLoss(),共迭代训练50轮,数据为步骤二得到的训练样本,数据包含原始图像、节点连接关系、节点坐标特征、节点文字信息。
8.根据权利要求7所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的文本行的原始信息包括:文本行信息、坐标位置信息,其中:坐标位置信息包括:节点左上点坐标、右下点坐标、中心点坐标、节点长和宽信息;
所述的图卷积神经网络是指多层图神经网络将节点的特征信息即坐标信息与节点的邻接关系输入至图卷积神经网络,使得图卷积神经网络学习节点间的相互连接关系,网络架构为将节点的属性/特征和邻接/边连接信息通过两层图卷积网络每层后经过ReLU激活函数激活,最后接入全连接层,其中两层图卷积网络的参数(in_channels,out_channels)分别设置为(8,64)、(64,64);
所述的卷积神经网络是通过多层卷积获取图片整体特征,在提取出每一个节点的图片信息,原始图片通过三个卷积块,前两个卷积块包括CNN、激活函数ReLU激活、最大池化层,最后一个卷积层包括卷积神经网络、批标准化、激活函数、池化层,融合待学习节点的间特征图像,最后一层经全连接层输出,卷积层模块将1×256×256的图片转化为64×32×32的特征向量;
所述的循环神经网络对于步骤一得到的节点文字内容信息采用具有注意力机制的seq2seq网络转换到高维空间,在将文字转换后的向量经过LSTM处理并提取每个节点的文本的语义信息,合并待预测节点间的语义信息,最后接入全连接层,其中将双向LSTM的参数设置成:输入维度数50,隐藏层状态维度数64。
9.根据权利要求7所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的空间依赖关系,具体通过:将节点的文本信息输入到语义信息理解模块,将图像输入到图像信息提取部分,提取每个节点对应的图像信息,经特征融合最后输出到多层感知机进行分类,解析出各种空间依赖关系,具体为:
dependencyout=Softmax(mlp(GNNout;LSTMout;CNNout)),其中:dependencyout表示空间依赖关系,GNNout 表示图卷积神经网络输出,LSTMout表示循环神经网络模块的输出,CNNout表示卷积神经网络模块输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110642036.XA CN113221181B (zh) | 2021-06-09 | 2021-06-09 | 具有隐私保护的表格类信息抽取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110642036.XA CN113221181B (zh) | 2021-06-09 | 2021-06-09 | 具有隐私保护的表格类信息抽取系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221181A CN113221181A (zh) | 2021-08-06 |
CN113221181B true CN113221181B (zh) | 2022-08-09 |
Family
ID=77083596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110642036.XA Expired - Fee Related CN113221181B (zh) | 2021-06-09 | 2021-06-09 | 具有隐私保护的表格类信息抽取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221181B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723278B (zh) * | 2021-08-27 | 2023-11-03 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113850260B (zh) * | 2021-09-27 | 2024-05-31 | 中国平安财产保险股份有限公司 | 关键信息抽取方法、装置、电子设备及可读存储介质 |
CN113987587B (zh) * | 2021-11-30 | 2022-10-28 | 重庆贝特计算机系统工程有限公司 | 一种便捷式数据分级分类的处理方法 |
CN114387608B (zh) * | 2022-03-24 | 2022-06-21 | 华南理工大学 | 一种联合卷积与图神经网络的表格结构识别方法 |
CN114925211A (zh) * | 2022-04-13 | 2022-08-19 | 东南大学 | 一种面向表格型数据的事实验证方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805076A (zh) * | 2018-06-07 | 2018-11-13 | 浙江大学 | 环境影响评估报告书表格文字的提取方法及系统 |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
CN111985369A (zh) * | 2020-08-07 | 2020-11-24 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及系统 |
CN112766051A (zh) * | 2020-12-29 | 2021-05-07 | 有米科技股份有限公司 | 基于Attention的图像文字识别方法及装置 |
CN112926322A (zh) * | 2021-04-28 | 2021-06-08 | 河南大学 | 融合自注意力机制和深度学习的文本分类方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543667B (zh) * | 2018-11-14 | 2023-05-23 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN110134786B (zh) * | 2019-05-14 | 2021-09-10 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
-
2021
- 2021-06-09 CN CN202110642036.XA patent/CN113221181B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805076A (zh) * | 2018-06-07 | 2018-11-13 | 浙江大学 | 环境影响评估报告书表格文字的提取方法及系统 |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
CN111985369A (zh) * | 2020-08-07 | 2020-11-24 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及系统 |
CN112766051A (zh) * | 2020-12-29 | 2021-05-07 | 有米科技股份有限公司 | 基于Attention的图像文字识别方法及装置 |
CN112926322A (zh) * | 2021-04-28 | 2021-06-08 | 河南大学 | 融合自注意力机制和深度学习的文本分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
Integrating_Coordinates_with_Context_for_Information_Extraction_in_Document_Images;Zhaohui Jiang等;《IEEE》;20191231;全文 * |
基于图卷积网络的表格结构提取;李一仁;《学术研究》;20210120;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113221181A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113221181B (zh) | 具有隐私保护的表格类信息抽取系统及方法 | |
Ma et al. | Joint layout analysis, character detection and recognition for historical document digitization | |
CN101408874A (zh) | 图像文字翻译装置及方法 | |
Liu et al. | SemiText: Scene text detection with semi-supervised learning | |
CN112528894A (zh) | 一种差异项判别方法及装置 | |
US20220230013A1 (en) | Neural network architecture for extracting information from documents | |
Wang et al. | From object detection to text detection and recognition: A brief evolution history of optical character recognition | |
Pramanik et al. | A study on the effect of CNN-based transfer learning on handwritten Indic and mixed numeral recognition | |
CN116049397A (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
Hasan et al. | Bangla font recognition using transfer learning method | |
Ghosh et al. | A deep learning-based approach to single/mixed script-type identification | |
Ghosh et al. | STDNet: a CNN-based approach to single-/mixed-script detection | |
Liu et al. | Review of CNN in aerial image processing | |
Liu et al. | Iterative deep neighborhood: a deep learning model which involves both input data points and their neighbors | |
Sen et al. | End-to-end scene text recognition system for devanagari and bengali text | |
Murali et al. | Remote sensing image captioning via multilevel attention-based visual question answering | |
Inunganbi et al. | Manipuri handwritten character recognition by convolutional neural network | |
CN115410185A (zh) | 一种多模态数据中特定人名及单位名属性的提取方法 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
Shivakumara et al. | Mining text from natural scene and video images: A survey | |
Wang et al. | Amre: An attention-based crnn for manchu word recognition on a woodblock-printed dataset | |
CN112099773A (zh) | 一种实现桌面应用开发方法 | |
CN113076741A (zh) | 一种基于多语言文本数据分析方法 | |
Xin et al. | Comic text detection and recognition based on deep learning | |
Zheng et al. | Scalable document image information extraction with application to domain-specific analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220809 |