CN113221181B

CN113221181B - 具有隐私保护的表格类信息抽取系统及方法

Info

Publication number: CN113221181B
Application number: CN202110642036.XA
Authority: CN
Inventors: 代德发; 黄征; 郭捷; 邱卫东
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-08-09
Anticipated expiration: 2041-06-09
Also published as: CN113221181A

Abstract

一种具有隐私保护的表格类信息抽取系统及方法，包括：位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块，节点单元特征收集模块根据用户输入待识别的图片，通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征，用户隐私敏感脱敏模块利用自注意力机制，通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量，神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征，图神经网络模块根据节点连接关系节点特征，使用图卷积神经网络理解学习节点的位置特征以及邻接关系，最终得到节点连接关系，通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系，提取出整个图片信息并恢复出整个表格。

Description

具有隐私保护的表格类信息抽取系统及方法

技术领域

本发明涉及的是一种人工智能应用领域的技术，具体是一种具有隐私保护的表格类信息抽取系统及方法。

背景技术

现有技术对于非结构化的表格文档，自动化的提取精度还需要进一步的提升，通常处理完后还需要人工处理。这往往会成为系统处理速度的瓶颈。随着数据挖掘、机器学习技术的兴起，深度学习在很多方面得到很多利用，同样表格识别领域也有使用现有的神经网络进行表格识别和表格恢复。但现有技术在识别过程中往往会由于传统神经网路技术缺陷导致信息丢失的情况。同时现有的大多数的表格识别不具有隐私保护的能力，对于一般的小公司部署一个本地识别模型具有一定困难，而对于C/S模式的部署，隐私保护在某些场景极为重要，信息安全逐渐重视的今天直接传入一张图片进行识别，对重要数据而言极其敏感。

发明内容

本发明针对现有技术存在的上述不足，提出一种具有隐私保护的表格类信息抽取系统及方法，利用二维文档结构间有一种特殊的空间依赖关系，例如在名片，发票等文档中，姓名后面一般会直接接上实际姓名，日期后面会接上实际日期，这种空间依赖关系在表格类文档中尤其明显。对于需要提取的原图片，通过文字定位、文字识别得到所有节点位置、文字信息，节点指连续的一行文字。通过注意力机制将这二类内容映射到其他维度，在不丢失特征的情况下保证隐私。表格类文档节点间的空间依赖关系分为同行邻接——相邻两个行单元格，同列邻接，同在一个单元组内，下面统一称为relation-r、relation-c、relation-g三类。再结合图神经网络、原始图像信息、节点字段信息进行分类预测出节点的三类关系，从而提取出整个表格的信息。

本发明是通过以下技术方案实现的：

本发明涉及一种具有隐私保护的表格类信息抽取系统，包括：位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块，其中：节点单元特征收集模块根据用户输入待识别的图片，通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征，用户隐私敏感脱敏模块利用自注意力机制，通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量，神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征，图神经网络模块根据节点连接关系节点特征，使用图卷积神经网络理解学习节点的位置特征以及邻接关系，最终得到节点连接关系，通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系，提取出整个图片信息并恢复出整个表格。

所述的节点单元特征收集模块采用本地识别的模式，通过文字定位、文字识别获取一个单元格一行的文字信息和坐标信息，该方式获取的是单行分割的文本信息，每行文本信息即一个节点，当一个单元格内出现跨行文本则为多个节点。

所述的文字定位模型进行文字定位获取一段文字的空间坐标信息；文字识别模型通过文字识别获取单元格的原文信息段。

所述的坐标空间转换是指：X·M＝X′，其中：原坐标X＝[x1，y1，x2，y2，x3，y3， x，y]，(x1，y1)为节点左上角坐标，(x2，y2)为节点右下角坐标，(x3，y3)为节点中心点坐标，x，y为节点框的长宽，M为注意力机制中的参数deg(M)＝1，对于坐标向量则保持其转换后的欧式距离不变。

所述的自注意力机制

其中：self-attentionQ、 K、V都是输入向量坐标X，dk为Q、K的维度。

所述的文字空间转换是指：对于文字信息，首先节点的文字信息通过词嵌入，再利用具有注意力机制的seq2seq网络，将原始中英文文字信息映射到高维向量维度，同时保留语义关系，其中具有注意力机制的seq2seq网络为输入经过词嵌入后，传入LSTM层，增加向量的输出维度，LSTM在每一个时间点上输出隐藏状态hidden state；具有注意力机制的seq2seq网络的解码器的输入为传入的词向量以及attention的上一个时刻输出状态的融合，将编码器输出的隐藏状态与解码器的输入做attention运算得到Attention输出即为转换后的文字向量。

通过上述的对节点文字、坐标空间的变换，有以下作用：信息传输和接受过程，没有直接暴漏原始信息可以防止重要的信息在传输过程中被窃取后利用的可能；避免用户对云服务的不信任而带来的信心下降问题；避免云服务器可能存在的不安全因素带来的用户敏感信息泄露问题。

所述的图神经网络模块使用图卷积神经网络理解学习节点的位置特征以及邻接关系，使用LSTM处理节点文字信息经过具有注意力机制的seq2seq网络后的输出，将图卷积网络、 LSTM、卷积神经网络的输出特征通过全连接层的输出后进行融合，最后通过多层感知机进行分类输出节点的边连接关系。

技术效果

本发明整体所解决的技术问题是解决表格识别的过程中，用户隐私的保护问题；并且利用空间依赖关系实现表格文档信息提取。

与现有技术相比，本发明能够保证在传输过程中私密文本信息进行转化处理，保护个人隐私；利用特殊的空间依赖关系进行模型训练；利用图网络处理节点间的连接关系，最后解析出整个表格的所有的依赖连接关系。本发明在自主标注的数据集上的准确率达到89％，自主标注得数据为1890张。

附图说明

图1为本发明系统结构图；

图2为本发明的模型图；

图3为本发明表格的空间依赖关系示意图；

图中：单实线箭头、单虚线箭头、双实线箭头分别表示relation-r，relation-c，relation- g；

图4为实施例流程图；

图中采用的具有注意力机制的seq2seq网络对节点文字内容进行维度转换，得到新向量。

具体实施方式

如图1所示，为本实施例涉及一种基于深度学习的表格文档信息抽取系统，分为云服务端和本地端。有四个模块位于本地端的节点单元特征收集模块；用户隐私敏感脱敏模块；神经网络采集模块以及位于云服务端的图神经网络模块，其中：节点单元特征收集模块根据输入图片的信息，进行传统文字识别文字定位处理并得到每个节点的坐标信息文字信息，用户隐私敏感脱敏模块利用自注意力机制，通过空间维度转换将每个节点的文字、坐标信息进行变换并得到不同维度但是保留原语义的向量，从而达到对用户的隐私进行保护，神经网络采集模块将待识别图像通过卷积神经网络的卷积等特征提取操作提取出图像信息，图神经网络模块根据节点的坐标、文本特征，使用图卷积神经网络理解学习节点的位置特征以及邻接关系，最终得到节点连接关系，本地端推断出文档信息。

所述的节点单元特征收集模块包括：文字定位单元和文字识别单元，其中：文字定位单元内置开源的CTPN模型，文字识别单元内置开源的CRNN模型，文字定位单元输出节点的坐标信息，文字检测单元输出节点的信息。

所述的用户隐私脱敏模块包括：坐标处理单元和节点文字处理单元，其中：坐标处理单元采用自注意力机制将原始坐标信息转化为欧氏距离不变的新向量，节点文字处理单元将文字识别得到的节点文字内容通过图4所示的注意力机制转化为高维向量。

所述的节点连接关系，通过以下方式的得到：

步骤一、数据收集：从各大保险、金融、等领域提取出包含表格的相关文档数据，并进行照片裁剪切割得到若干原始中文数据图集。建立的初始数据集中包含各种类型表格图片，有较为规整的中心对其左对齐、右对齐、长短文本不一致的各类表格图片。

步骤二、对数据集进行标注：通过传统的OCR和文字定位先进行预处理得到每个文本行的原始信息；标注相邻标注数据之间的关系，即：一个单元格内部或一个单元格外部。对于一个内部有多行的标注单元格，也即为统一个单元格内部包含多个节点，这些节点间形成的是一种relation-g的空间关系，表示他们属于一个单元格内的跨行文本。对于单元格之间，可以分为同行同列关系。本方法将直接与此单元格相邻的单元格称为直接相邻行/列称为relation-c、 relation-r。标注时直接标注relation-r、relation-c、relation-g三种关系。不直接相连的同行同列关系则可以直接通过此标注获取。标注关系如图3所示，即为上述所说的一种空间依赖关系，至此数据处理阶段完成得到原始数据。

所述的文本行的原始信息包括：文本行信息、坐标位置信息。

所述的坐标位置信息包括：节点左上点坐标、右下点坐标、中心点坐标、节点长和宽信息。

步骤三、搭建四个部分的模型，包括：识别节点间交互作用的图卷积神经网络、节点的文字语义信息理解的循环神经网络、理解图片信息的卷积神经网络、节点间空间依赖关系分类的多层感知机，将图卷积神经网络、循环神经网络和卷积神经网络的全连接层的输出进行特征融合，最后输出到分类模型多层感知机中，经过softmax得到节点间的空间依赖关系。

所述的图卷积神经网络模块是指多层图神经网络将节点的特征信息即坐标信息与节点的邻接关系输入至图卷积神经网络。使得图卷积神经网络学习节点间的相互连接关系。网络架构为将节点的属性/特征和邻接/边连接信息通过两层图卷积网络每层后经过ReLU激活函数激活，最后接入全连接层。其中两层图卷积网络的参数(in_channels，out_channels)分别设置为(8， 64)、(64，64)。

所述的卷积神经网络模块是通过多层卷积获取图片整体特征，在提取出每一个节点的图片信息。原始图片通过三个卷积块，前两个卷积块包括CNN、激活函数ReLU激活、最大池化层，最后一个卷积层包括卷积神经网络、批标准化、激活函数、池化层。融合待学习节点的间特征图像，最后一层经全连接层输出。卷积层模块将1×256×256的图片转化为64×32×32的特征向量。

所述的文字语义信息理解的循环神经网络模块是对于步骤一得到的节点文字内容信息本方法采用具有注意力机制的seq2seq网络转换到高维空间。在将文字转换后的向量经过LSTM 处理并提取每个节点的文本的语义信息。合并待预测节点间的语义信息，最后接入全连接层。其中将双向LSTM的参数设置成：输入维度数50，隐藏层状态维度数64。

所述的空间依赖关系，具体通过：将节点的文本信息输入到语义信息理解模块，将图像输入到图像信息提取部分，提取图像特征信息，将节点特征输入到图神经网络模块得到节点间的连接关系，经特征融合最后输出到多层感知机进行分类，解析出各种空间依赖关系，具体为：dependency_out＝Softmax(mlp(GNN_out ；LSTM_out；CNN_out))，其中：dependency_out表示空间依赖关系，GNN_out 表示图卷积神经网络输出，LSTM_out表示循环神经网络模块的输出，CNN_out表示卷积神经网络模块输出。

步骤四、模型训练：采用Adam优化函数，损失函数采用NLLLoss()，共迭代训练50轮，数据为步骤二得到的训练样本。数据包含原始图像、节点连接关系、节点坐标特征、节点文字信息。

与现有技术相比，本方法利用空间依赖关系和图神经网络实现表格恢复；该方法在表格识别过程中能够起到隐私保护的作用，能够识别在同一单元格内的跨行文本。经过具体实际实验，在python3.7的pytorch框架下，以上述实验参数启动该方法，能够得到的实验数据是模型的节点空间依赖关系分类准确率为89％。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种具有隐私保护的表格类信息抽取系统，其特征在于，包括：位于本地端的节点单元特征收集模块、用户隐私敏感脱敏模块和神经网络采集模块以及位于云服务端的图神经网络模块，其中：节点单元特征收集模块根据用户输入待识别的图片，通过部署在本地端的文字识别模型和文字定位模型识别出节点得到节点的文字段以及坐标特征，用户隐私敏感脱敏模块利用自注意力机制，通过坐标空间转换文字空间转换将每个节点的文字、坐标信息进行变换并得到原语义在不同维度下的向量，神经网络采集模块将待识别图像通过卷积神经网络的卷积操作提取出图像特征，图神经网络模块根据节点连接关系节点特征，使用图卷积神经网络理解学习节点的位置特征以及邻接关系，最终得到节点连接关系，通过节点单元特征收集模块得到的节点文字、坐标信息以及云服务端返回的节点连接关系，提取出整个图片信息并恢复出整个表格。

2.根据权利要求1所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的节点单元特征收集模块采用本地识别的模式，通过文字定位模型进行文字定位获取一行文字的空间坐标信息；文字识别模型通过文字识别获取单元格的原文信息段，每行文本信息即一个节点，当一个单元格内出现跨行文本则为多个节点。

3.根据权利要求1所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的坐标空间转换是指：X·M＝X′，其中：原坐标X＝[x1，y1，x2，y2，x3，y3，x，y]，(x1，y1)为节点左上角坐标，(x2，y2)为节点右下角坐标，(x3，y3)为节点中心点坐标，x，y为节点框的长宽，M为注意力机制中的参数deg(M)＝1，对于坐标向量则保持其转换后的欧式距离不变。

4.根据权利要求1所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的自注意力机制

其中：self-attention Q、K、V都是输入向量坐标X，dk为Q、K的维度。

5.根据权利要求1所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的文字空间转换是指：对于文字信息，首先节点的文字信息通过词嵌入，再利用具有注意力机制的seq2seq网络，将原始中英文文字信息映射到高维向量维度，同时保留语义关系，其中具有注意力机制的seq2seq网络为输入经过词嵌入后，传入LSTM层，增加向量的输出维度，LSTM在每一个时间点上输出隐藏状态hidden state；具有注意力机制的seq2seq网络的解码器的输入为传入的词向量以及attention的上一个时刻输出状态的融合，将编码器输出的隐藏状态与解码器的输入做attention运算得到Attention输出即为转换后的文字向量。

6.根据权利要求1所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的图神经网络模块使用图卷积神经网络理解学习节点的位置特征以及邻接关系，使用LSTM处理节点文字信息经过具有注意力机制的seq2seq网络后的输出，将图卷积网络、LSTM、卷积神经网络的输出特征通过全连接层的输出后进行融合，最后通过多层感知机进行分类输出节点的边连接关系。

7.根据权利要求1所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的节点连接关系，通过以下方式的得到：

步骤一、数据收集：对包含表格的相关文档数据进行照片裁剪切割得到若干原始中文数据图集，建立的初始数据集中包含各种类型表格图片，有较为规整的中心对其左对齐、右对齐、长短文本不一致的各类表格图片；

步骤二、对数据集进行标注：通过传统的OCR和文字定位先进行预处理得到每个文本行的原始信息；标注相邻标注数据之间的关系，即：一个单元格内部或一个单元格外部，对于一个内部有多行的标注单元格，也即为统一个单元格内部包含多个节点，这些节点间形成的是一种relation-g的空间关系，表示他们属于一个单元格内的跨行文本，对于单元格之间，分为同行同列关系，其中直接与此单元格相邻的单元格即直接相邻行/列称为relation-c、relation-r，标注时直接标注relation-r、relation-c、relation-g三种关系，不直接相连的同行同列关系则直接通过此标注获取，至此数据处理阶段完成得到原始数据；

步骤三、搭建四个部分的模型，包括：识别节点间交互作用的图卷积神经网络、节点的文字语义信息理解的循环神经网络、理解图片信息的卷积神经网络、节点间空间依赖关系分类的多层感知机，将图卷积神经网络、循环神经网络和卷积神经网络的全连接层的输出进行特征融合，最后输出到分类模型多层感知机中，经过softmax得到节点间的空间依赖关系；

步骤四、模型训练：采用Adam优化函数，损失函数采用NLLLoss()，共迭代训练50轮，数据为步骤二得到的训练样本，数据包含原始图像、节点连接关系、节点坐标特征、节点文字信息。

8.根据权利要求7所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的文本行的原始信息包括：文本行信息、坐标位置信息，其中：坐标位置信息包括：节点左上点坐标、右下点坐标、中心点坐标、节点长和宽信息；

所述的图卷积神经网络是指多层图神经网络将节点的特征信息即坐标信息与节点的邻接关系输入至图卷积神经网络，使得图卷积神经网络学习节点间的相互连接关系，网络架构为将节点的属性/特征和邻接/边连接信息通过两层图卷积网络每层后经过ReLU激活函数激活，最后接入全连接层，其中两层图卷积网络的参数(in_channels，out_channels)分别设置为(8，64)、(64，64)；

所述的卷积神经网络是通过多层卷积获取图片整体特征，在提取出每一个节点的图片信息，原始图片通过三个卷积块，前两个卷积块包括CNN、激活函数ReLU激活、最大池化层，最后一个卷积层包括卷积神经网络、批标准化、激活函数、池化层，融合待学习节点的间特征图像，最后一层经全连接层输出，卷积层模块将1×256×256的图片转化为64×32×32的特征向量；

所述的循环神经网络对于步骤一得到的节点文字内容信息采用具有注意力机制的seq2seq网络转换到高维空间，在将文字转换后的向量经过LSTM处理并提取每个节点的文本的语义信息，合并待预测节点间的语义信息，最后接入全连接层，其中将双向LSTM的参数设置成：输入维度数50，隐藏层状态维度数64。

9.根据权利要求7所述的具有隐私保护的表格类信息抽取系统，其特征是，所述的空间依赖关系，具体通过：将节点的文本信息输入到语义信息理解模块，将图像输入到图像信息提取部分，提取每个节点对应的图像信息，经特征融合最后输出到多层感知机进行分类，解析出各种空间依赖关系，具体为：

dependency_out＝Softmax(mlp(GNN_out；LSTM_out；CNN_out))，其中：dependency_out表示空间依赖关系，GNN_out 表示图卷积神经网络输出，LSTM_out表示循环神经网络模块的输出，CNN_out表示卷积神经网络模块输出。