CN113221181B - 具有隐私保护的表格类信息抽取系统及方法 - Google Patents

具有隐私保护的表格类信息抽取系统及方法 Download PDF

Info

Publication number
CN113221181B
CN113221181B CN202110642036.XA CN202110642036A CN113221181B CN 113221181 B CN113221181 B CN 113221181B CN 202110642036 A CN202110642036 A CN 202110642036A CN 113221181 B CN113221181 B CN 113221181B
Authority
CN
China
Prior art keywords
information
node
neural network
nodes
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110642036.XA
Other languages
English (en)
Other versions
CN113221181A (zh
Inventor
代德发
黄征
郭捷
邱卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110642036.XA priority Critical patent/CN113221181B/zh
Publication of CN113221181A publication Critical patent/CN113221181A/zh
Application granted granted Critical
Publication of CN113221181B publication Critical patent/CN113221181B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)

Abstract

一种具有隐私保护的表格类信息抽取系统及方法,包括:位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块,节点单元特征收集模块根据用户输入待识别的图片,通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征,用户隐私敏感脱敏模块利用自注意力机制,通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量,神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征,图神经网络模块根据节点连接关系节点特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系,提取出整个图片信息并恢复出整个表格。

Description

具有隐私保护的表格类信息抽取系统及方法
技术领域
本发明涉及的是一种人工智能应用领域的技术,具体是一种具有隐私保护的表格类信息抽取系统及方法。
背景技术
现有技术对于非结构化的表格文档,自动化的提取精度还需要进一步的提升,通常处理完后还需要人工处理。这往往会成为系统处理速度的瓶颈。随着数据挖掘、机器学习技术的兴起,深度学习在很多方面得到很多利用,同样表格识别领域也有使用现有的神经网络进行表格识别和表格恢复。但现有技术在识别过程中往往会由于传统神经网路技术缺陷导致信息丢失的情况。同时现有的大多数的表格识别不具有隐私保护的能力,对于一般的小公司部署一个本地识别模型具有一定困难,而对于C/S模式的部署,隐私保护在某些场景极为重要,信息安全逐渐重视的今天直接传入一张图片进行识别,对重要数据而言极其敏感。
发明内容
本发明针对现有技术存在的上述不足,提出一种具有隐私保护的表格类信息抽取系统及方法,利用二维文档结构间有一种特殊的空间依赖关系,例如在名片,发票等文档中,姓名后面一般会直接接上实际姓名,日期后面会接上实际日期,这种空间依赖关系在表格类文档中尤其明显。对于需要提取的原图片,通过文字定位、文字识别得到所有节点位置、文字信息,节点指连续的一行文字。通过注意力机制将这二类内容映射到其他维度,在不丢失特征的情况下保证隐私。表格类文档节点间的空间依赖关系分为同行邻接——相邻两个行单元格,同列邻接,同在一个单元组内,下面统一称为relation-r、relation-c、relation-g三类。再结合图神经网络、原始图像信息、节点字段信息进行分类预测出节点的三类关系,从而提取出整个表格的信息。
本发明是通过以下技术方案实现的:
本发明涉及一种具有隐私保护的表格类信息抽取系统,包括:位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块,其中:节点单元特征收集模块根据用户输入待识别的图片,通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征,用户隐私敏感脱敏模块利用自注意力机制,通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量,神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征,图神经网络模块根据节点连接关系节点特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系,提取出整个图片信息并恢复出整个表格。
所述的节点单元特征收集模块采用本地识别的模式,通过文字定位、文字识别获取一个单元格一行的文字信息和坐标信息,该方式获取的是单行分割的文本信息,每行文本信息即一个节点,当一个单元格内出现跨行文本则为多个节点。
所述的文字定位模型进行文字定位获取一段文字的空间坐标信息;文字识别模型通过文字识别获取单元格的原文信息段。
所述的坐标空间转换是指:X·M=X′,其中:原坐标X=[x1,y1,x2,y2,x3,y3, x,y],(x1,y1)为节点左上角坐标,(x2,y2)为节点右下角坐标,(x3,y3)为节点中心点坐标,x,y为节点框的长宽,M为注意力机制中的参数deg(M)=1,对于坐标向量则保持其转换后的欧式距离不变。
所述的自注意力机制
Figure GDA0003617670760000021
其中:self-attentionQ、 K、V都是输入向量坐标X,dk为Q、K的维度。
所述的文字空间转换是指:对于文字信息,首先节点的文字信息通过词嵌入,再利用具有注意力机制的seq2seq网络,将原始中英文文字信息映射到高维向量维度,同时保留语义关系,其中具有注意力机制的seq2seq网络为输入经过词嵌入后,传入LSTM层,增加向量的输出维度,LSTM在每一个时间点上输出隐藏状态hidden state;具有注意力机制的seq2seq网络的解码器的输入为传入的词向量以及attention的上一个时刻输出状态的融合,将编码器输出的隐藏状态与解码器的输入做attention运算得到Attention输出即为转换后的文字向量。
通过上述的对节点文字、坐标空间的变换,有以下作用:信息传输和接受过程,没有直接暴漏原始信息可以防止重要的信息在传输过程中被窃取后利用的可能;避免用户对云服务的不信任而带来的信心下降问题;避免云服务器可能存在的不安全因素带来的用户敏感信息泄露问题。
所述的图神经网络模块使用图卷积神经网络理解学习节点的位置特征以及邻接关系,使用LSTM处理节点文字信息经过具有注意力机制的seq2seq网络后的输出,将图卷积网络、 LSTM、卷积神经网络的输出特征通过全连接层的输出后进行融合,最后通过多层感知机进行分类输出节点的边连接关系。
技术效果
本发明整体所解决的技术问题是解决表格识别的过程中,用户隐私的保护问题;并且利用空间依赖关系实现表格文档信息提取。
与现有技术相比,本发明能够保证在传输过程中私密文本信息进行转化处理,保护个人隐私;利用特殊的空间依赖关系进行模型训练;利用图网络处理节点间的连接关系,最后解析出整个表格的所有的依赖连接关系。本发明在自主标注的数据集上的准确率达到89%,自主标注得数据为1890张。
附图说明
图1为本发明系统结构图;
图2为本发明的模型图;
图3为本发明表格的空间依赖关系示意图;
图中:单实线箭头、单虚线箭头、双实线箭头分别表示relation-r,relation-c,relation- g;
图4为实施例流程图;
图中采用的具有注意力机制的seq2seq网络对节点文字内容进行维度转换,得到新向量。
具体实施方式
如图1所示,为本实施例涉及一种基于深度学习的表格文档信息抽取系统,分为云服务端和本地端。有四个模块位于本地端的节点单元特征收集模块;用户隐私敏感脱敏模块;神经网络采集模块以及位于云服务端的图神经网络模块,其中:节点单元特征收集模块根据输入图片的信息,进行传统文字识别文字定位处理并得到每个节点的坐标信息文字信息,用户隐私敏感脱敏模块利用自注意力机制,通过空间维度转换将每个节点的文字、坐标信息进行变换并得到不同维度但是保留原语义的向量,从而达到对用户的隐私进行保护,神经网络采集模块将待识别图像通过卷积神经网络的卷积等特征提取操作提取出图像信息,图神经网络模块根据节点的坐标、文本特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,本地端推断出文档信息。
所述的节点单元特征收集模块包括:文字定位单元和文字识别单元,其中:文字定位单元内置开源的CTPN模型,文字识别单元内置开源的CRNN模型,文字定位单元输出节点的坐标信息,文字检测单元输出节点的信息。
所述的用户隐私脱敏模块包括:坐标处理单元和节点文字处理单元,其中:坐标处理单元采用自注意力机制将原始坐标信息转化为欧氏距离不变的新向量,节点文字处理单元将文字识别得到的节点文字内容通过图4所示的注意力机制转化为高维向量。
所述的节点连接关系,通过以下方式的得到:
步骤一、数据收集:从各大保险、金融、等领域提取出包含表格的相关文档数据,并进行照片裁剪切割得到若干原始中文数据图集。建立的初始数据集中包含各种类型表格图片,有较为规整的中心对其左对齐、右对齐、长短文本不一致的各类表格图片。
步骤二、对数据集进行标注:通过传统的OCR和文字定位先进行预处理得到每个文本行的原始信息;标注相邻标注数据之间的关系,即:一个单元格内部或一个单元格外部。对于一个内部有多行的标注单元格,也即为统一个单元格内部包含多个节点,这些节点间形成的是一种relation-g的空间关系,表示他们属于一个单元格内的跨行文本。对于单元格之间,可以分为同行同列关系。本方法将直接与此单元格相邻的单元格称为直接相邻行/列称为relation-c、 relation-r。标注时直接标注relation-r、relation-c、relation-g三种关系。不直接相连的同行同列关系则可以直接通过此标注获取。标注关系如图3所示,即为上述所说的一种空间依赖关系,至此数据处理阶段完成得到原始数据。
所述的文本行的原始信息包括:文本行信息、坐标位置信息。
所述的坐标位置信息包括:节点左上点坐标、右下点坐标、中心点坐标、节点长和宽信息。
步骤三、搭建四个部分的模型,包括:识别节点间交互作用的图卷积神经网络、节点的文字语义信息理解的循环神经网络、理解图片信息的卷积神经网络、节点间空间依赖关系分类的多层感知机,将图卷积神经网络、循环神经网络和卷积神经网络的全连接层的输出进行特征融合,最后输出到分类模型多层感知机中,经过softmax得到节点间的空间依赖关系。
所述的图卷积神经网络模块是指多层图神经网络将节点的特征信息即坐标信息与节点的邻接关系输入至图卷积神经网络。使得图卷积神经网络学习节点间的相互连接关系。网络架构为将节点的属性/特征和邻接/边连接信息通过两层图卷积网络每层后经过ReLU激活函数激活,最后接入全连接层。其中两层图卷积网络的参数(in_channels,out_channels)分别设置为(8, 64)、(64,64)。
所述的卷积神经网络模块是通过多层卷积获取图片整体特征,在提取出每一个节点的图片信息。原始图片通过三个卷积块,前两个卷积块包括CNN、激活函数ReLU激活、最大池化层,最后一个卷积层包括卷积神经网络、批标准化、激活函数、池化层。融合待学习节点的间特征图像,最后一层经全连接层输出。卷积层模块将1×256×256的图片转化为64×32×32的特征向量。
所述的文字语义信息理解的循环神经网络模块是对于步骤一得到的节点文字内容信息本方法采用具有注意力机制的seq2seq网络转换到高维空间。在将文字转换后的向量经过LSTM 处理并提取每个节点的文本的语义信息。合并待预测节点间的语义信息,最后接入全连接层。其中将双向LSTM的参数设置成:输入维度数50,隐藏层状态维度数64。
所述的空间依赖关系,具体通过:将节点的文本信息输入到语义信息理解模块,将图像输入到图像信息提取部分,提取图像特征信息,将节点特征输入到图神经网络模块得到节点间的连接关系,经特征融合最后输出到多层感知机进行分类,解析出各种空间依赖关系,具体为:dependencyout=Softmax(mlp(GNNout ;LSTMout;CNNout)),其中:dependencyout表示空间依赖关系,GNNout 表示图卷积神经网络输出,LSTMout表示循环神经网络模块的输出,CNNout表示卷积神经网络模块输出。
步骤四、模型训练:采用Adam优化函数,损失函数采用NLLLoss(),共迭代训练50轮,数据为步骤二得到的训练样本。数据包含原始图像、节点连接关系、节点坐标特征、节点文字信息。
与现有技术相比,本方法利用空间依赖关系和图神经网络实现表格恢复;该方法在表格识别过程中能够起到隐私保护的作用,能够识别在同一单元格内的跨行文本。经过具体实际实验,在python3.7的pytorch框架下,以上述实验参数启动该方法,能够得到的实验数据是模型的节点空间依赖关系分类准确率为89%。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (9)

1.一种具有隐私保护的表格类信息抽取系统,其特征在于,包括:位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块,其中:节点单元特征收集模块根据用户输入待识别的图片,通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征,用户隐私敏感脱敏模块利用自注意力机制,通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量,神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征,图神经网络模块根据节点连接关系节点特征,使用图卷积神经网络理解学习节点的位置特征以及邻接关系,最终得到节点连接关系,通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系,提取出整个图片信息并恢复出整个表格。
2.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的节点单元特征收集模块采用本地识别的模式,通过文字定位模型进行文字定位获取一行文字的空间坐标信息;文字识别模型通过文字识别获取单元格的原文信息段,每行文本信息即一个节点,当一个单元格内出现跨行文本则为多个节点。
3.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的坐标空间转换是指:X·M=X′,其中:原坐标X=[x1,y1,x2,y2,x3,y3,x,y],(x1,y1)为节点左上角坐标,(x2,y2)为节点右下角坐标,(x3,y3)为节点中心点坐标,x,y为节点框的长宽,M为注意力机制中的参数deg(M)=1,对于坐标向量则保持其转换后的欧式距离不变。
4.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的自注意力机制
Figure FDA0003617670750000011
其中:self-attention Q、K、V都是输入向量坐标X,dk为Q、K的维度。
5.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的文字空间转换是指:对于文字信息,首先节点的文字信息通过词嵌入,再利用具有注意力机制的seq2seq网络,将原始中英文文字信息映射到高维向量维度,同时保留语义关系,其中具有注意力机制的seq2seq网络为输入经过词嵌入后,传入LSTM层,增加向量的输出维度,LSTM在每一个时间点上输出隐藏状态hidden state;具有注意力机制的seq2seq网络的解码器的输入为传入的词向量以及attention的上一个时刻输出状态的融合,将编码器输出的隐藏状态与解码器的输入做attention运算得到Attention输出即为转换后的文字向量。
6.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的图神经网络模块使用图卷积神经网络理解学习节点的位置特征以及邻接关系,使用LSTM处理节点文字信息经过具有注意力机制的seq2seq网络后的输出,将图卷积网络、LSTM、卷积神经网络的输出特征通过全连接层的输出后进行融合,最后通过多层感知机进行分类输出节点的边连接关系。
7.根据权利要求1所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的节点连接关系,通过以下方式的得到:
步骤一、数据收集:对包含表格的相关文档数据进行照片裁剪切割得到若干原始中文数据图集,建立的初始数据集中包含各种类型表格图片,有较为规整的中心对其左对齐、右对齐、长短文本不一致的各类表格图片;
步骤二、对数据集进行标注:通过传统的OCR和文字定位先进行预处理得到每个文本行的原始信息;标注相邻标注数据之间的关系,即:一个单元格内部或一个单元格外部,对于一个内部有多行的标注单元格,也即为统一个单元格内部包含多个节点,这些节点间形成的是一种relation-g的空间关系,表示他们属于一个单元格内的跨行文本,对于单元格之间,分为同行同列关系,其中直接与此单元格相邻的单元格即直接相邻行/列称为relation-c、relation-r,标注时直接标注relation-r、relation-c、relation-g三种关系,不直接相连的同行同列关系则直接通过此标注获取,至此数据处理阶段完成得到原始数据;
步骤三、搭建四个部分的模型,包括:识别节点间交互作用的图卷积神经网络、节点的文字语义信息理解的循环神经网络、理解图片信息的卷积神经网络、节点间空间依赖关系分类的多层感知机,将图卷积神经网络、循环神经网络和卷积神经网络的全连接层的输出进行特征融合,最后输出到分类模型多层感知机中,经过softmax得到节点间的空间依赖关系;
步骤四、模型训练:采用Adam优化函数,损失函数采用NLLLoss(),共迭代训练50轮,数据为步骤二得到的训练样本,数据包含原始图像、节点连接关系、节点坐标特征、节点文字信息。
8.根据权利要求7所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的文本行的原始信息包括:文本行信息、坐标位置信息,其中:坐标位置信息包括:节点左上点坐标、右下点坐标、中心点坐标、节点长和宽信息;
所述的图卷积神经网络是指多层图神经网络将节点的特征信息即坐标信息与节点的邻接关系输入至图卷积神经网络,使得图卷积神经网络学习节点间的相互连接关系,网络架构为将节点的属性/特征和邻接/边连接信息通过两层图卷积网络每层后经过ReLU激活函数激活,最后接入全连接层,其中两层图卷积网络的参数(in_channels,out_channels)分别设置为(8,64)、(64,64);
所述的卷积神经网络是通过多层卷积获取图片整体特征,在提取出每一个节点的图片信息,原始图片通过三个卷积块,前两个卷积块包括CNN、激活函数ReLU激活、最大池化层,最后一个卷积层包括卷积神经网络、批标准化、激活函数、池化层,融合待学习节点的间特征图像,最后一层经全连接层输出,卷积层模块将1×256×256的图片转化为64×32×32的特征向量;
所述的循环神经网络对于步骤一得到的节点文字内容信息采用具有注意力机制的seq2seq网络转换到高维空间,在将文字转换后的向量经过LSTM处理并提取每个节点的文本的语义信息,合并待预测节点间的语义信息,最后接入全连接层,其中将双向LSTM的参数设置成:输入维度数50,隐藏层状态维度数64。
9.根据权利要求7所述的具有隐私保护的表格类信息抽取系统,其特征是,所述的空间依赖关系,具体通过:将节点的文本信息输入到语义信息理解模块,将图像输入到图像信息提取部分,提取每个节点对应的图像信息,经特征融合最后输出到多层感知机进行分类,解析出各种空间依赖关系,具体为:
dependencyout=Softmax(mlp(GNNout;LSTMout;CNNout)),其中:dependencyout表示空间依赖关系,GNNout 表示图卷积神经网络输出,LSTMout表示循环神经网络模块的输出,CNNout表示卷积神经网络模块输出。
CN202110642036.XA 2021-06-09 2021-06-09 具有隐私保护的表格类信息抽取系统及方法 Expired - Fee Related CN113221181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110642036.XA CN113221181B (zh) 2021-06-09 2021-06-09 具有隐私保护的表格类信息抽取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110642036.XA CN113221181B (zh) 2021-06-09 2021-06-09 具有隐私保护的表格类信息抽取系统及方法

Publications (2)

Publication Number Publication Date
CN113221181A CN113221181A (zh) 2021-08-06
CN113221181B true CN113221181B (zh) 2022-08-09

Family

ID=77083596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110642036.XA Expired - Fee Related CN113221181B (zh) 2021-06-09 2021-06-09 具有隐私保护的表格类信息抽取系统及方法

Country Status (1)

Country Link
CN (1) CN113221181B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723278B (zh) * 2021-08-27 2023-11-03 上海云从汇临人工智能科技有限公司 表格信息提取模型的训练方法及装置
CN113850260B (zh) * 2021-09-27 2024-05-31 中国平安财产保险股份有限公司 关键信息抽取方法、装置、电子设备及可读存储介质
CN113987587B (zh) * 2021-11-30 2022-10-28 重庆贝特计算机系统工程有限公司 一种便捷式数据分级分类的处理方法
CN114387608B (zh) * 2022-03-24 2022-06-21 华南理工大学 一种联合卷积与图神经网络的表格结构识别方法
CN114925211A (zh) * 2022-04-13 2022-08-19 东南大学 一种面向表格型数据的事实验证方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及系统
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112766051A (zh) * 2020-12-29 2021-05-07 有米科技股份有限公司 基于Attention的图像文字识别方法及装置
CN112926322A (zh) * 2021-04-28 2021-06-08 河南大学 融合自注意力机制和深度学习的文本分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543667B (zh) * 2018-11-14 2023-05-23 北京工业大学 一种基于注意力机制的文本识别方法
CN110134786B (zh) * 2019-05-14 2021-09-10 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805076A (zh) * 2018-06-07 2018-11-13 浙江大学 环境影响评估报告书表格文字的提取方法及系统
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112766051A (zh) * 2020-12-29 2021-05-07 有米科技股份有限公司 基于Attention的图像文字识别方法及装置
CN112926322A (zh) * 2021-04-28 2021-06-08 河南大学 融合自注意力机制和深度学习的文本分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Integrating_Coordinates_with_Context_for_Information_Extraction_in_Document_Images;Zhaohui Jiang等;《IEEE》;20191231;全文 *
基于图卷积网络的表格结构提取;李一仁;《学术研究》;20210120;全文 *

Also Published As

Publication number Publication date
CN113221181A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113221181B (zh) 具有隐私保护的表格类信息抽取系统及方法
Ma et al. Joint layout analysis, character detection and recognition for historical document digitization
CN101408874A (zh) 图像文字翻译装置及方法
Liu et al. SemiText: Scene text detection with semi-supervised learning
CN112528894A (zh) 一种差异项判别方法及装置
US20220230013A1 (en) Neural network architecture for extracting information from documents
Wang et al. From object detection to text detection and recognition: A brief evolution history of optical character recognition
Pramanik et al. A study on the effect of CNN-based transfer learning on handwritten Indic and mixed numeral recognition
CN116049397A (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
Hasan et al. Bangla font recognition using transfer learning method
Ghosh et al. A deep learning-based approach to single/mixed script-type identification
Ghosh et al. STDNet: a CNN-based approach to single-/mixed-script detection
Liu et al. Review of CNN in aerial image processing
Liu et al. Iterative deep neighborhood: a deep learning model which involves both input data points and their neighbors
Sen et al. End-to-end scene text recognition system for devanagari and bengali text
Murali et al. Remote sensing image captioning via multilevel attention-based visual question answering
Inunganbi et al. Manipuri handwritten character recognition by convolutional neural network
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
TWI793432B (zh) 工程專案文件管理方法與系統
Shivakumara et al. Mining text from natural scene and video images: A survey
Wang et al. Amre: An attention-based crnn for manchu word recognition on a woodblock-printed dataset
CN112099773A (zh) 一种实现桌面应用开发方法
CN113076741A (zh) 一种基于多语言文本数据分析方法
Xin et al. Comic text detection and recognition based on deep learning
Zheng et al. Scalable document image information extraction with application to domain-specific analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220809