CN113761131A

CN113761131A - 一种将文本结构化为表格的深度学习模型装置

Info

Publication number: CN113761131A
Application number: CN202111045093.6A
Authority: CN
Inventors: 景泳霖; 周靖宇; 袁阳平; 邹鸿岳
Original assignee: Shanghai Kuaique Information Technology Co ltd
Current assignee: Shanghai Kuaique Information Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-07

Abstract

一种将文本结构化为表格的深度学习模型装置，它涉及数据处理技术领域。它包括以下具体步骤：预处理；数据预处理、数据清洗、文本分词、形成字符和词及表格行标签；词向量化；字符编码层；字符编码和词编码的连接层；列信息的预测；行信息的预测的前处理；行信息的预测；总loss函数的设置。本发明有益效果为：提出了一种多任务的神经网络，通过一个模型，直接将非结构文本转换为表格数据。在金融的数据领域，达到了商业化的标准，且相比于Pipeline的形式，其提高了3‑5个百分点，降低了pipeline的误差传递的问题。

Description

一种将文本结构化为表格的深度学习模型装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种将文本结构化为表格的深度学习模型装置。

背景技术

在自然语言处理中，常见的任务是对文本进行分类或信息提取，另一类问题是提取识别文档中的表格等结构信息，特别在金融等领域，还有一些比较深入的技术需求，比如将非结构文本直接转化为表格的问题，这类问题抽象为，将非结构化的文本信息，结构化为表格数据的一个问题。在做语义理解上，这并不只是简单的文本分类或识别意图，需要将各要素和多个意图一一对应起来、形成一个规范的表格数据。这在当前的文本处理领域，这是一个很难的技术问题，有一系列的技术问题。

关于将文本整理成表格的问题，目前并没有现成的统一技术。主要的处理方法是将它拆分成多个子任务，然后通过管道式(pipeline)的形式去处理这类问题。首先采用文本分类模型，对问题的整体意图进行分类判断，。其次是进行信息提取，采用“命名实体识别(NER)”的技术，将文本中的各要素进行提取，(以上例子为例，提取出债券名、标位、标量等要素)，最后再通过一系列的规则，对各要素进行排列，(例如根据要素在改字前、改字后的位置)，进行组合成表格的形式，但现有技术仍存在以下几点不足：

(1)首先管道(Pipeline)式的处理方法，比较大的缺陷是误差传递问题。将文本结构化为表格的过程中，需要三个模型，一个是意图分类、二是要素抽取、三是要素结构化为表格，中间还需要考虑表格的行数(这是不确定的)的判断。以现在比较好的模型算法，准确率在95％左右，那么三个模型通过Pipeline融合后，最终的准确率在80％-85％左右。为达到可以商用，或者提高准确率，需要一系列各种规则去修正、以及一些的容错设计。

(2)采用Pipeline的第二个缺陷，意图分类、要素抽取、表格结构化，底层都是对文本的编码，但是由于分成多个子任务，每个任务都要对文本单独编码，一是浪费技术资源、降低了结构化的效率；二是不能共享相关参数、达到提高预测准确率的效果。

(3)在意图判断这个子任务上，是一个多级分类问题；第一级分类是判断投、改还是撤标，第二级分类是针对改的意图，还需要判断改前要素，以及改后要素。现有的分类模型不能很好的解决这种分级的意图分类问题。

(4)在结构化成表格上，目前并没有相关的深度学习算法模型，很大程度还是采用人工的方式，梳理出结构化的逻辑规则，通过规则去对要素进行重新排序。而基于规则引擎的方案，需要大量的人力成本，同时还不能保证规则的全面，仍然有很多问题规则不能覆盖到。其次由于人们表达方式的多样性，规则不仅不能覆盖全面，还会互相干扰和冲突，容易出现顾此失彼的情况。最后是开发成本和维护成本很高，早期梳理的规则，每新加一条规则，既要考虑是否有效，同时还要考虑对之前规则的影响；开发和维护成本都极其高。

发明内容

本发明的目的在于针对现有技术中不足与缺点，提供一种将文本结构化为表格的深度学习模型装置，提出了一种多任务的神经网络，通过一个模型，直接将非结构文本转换为表格数据，在金融的数据领域，达到了商业化的标准，且相比于Pipeline的形式，其提高了3-5个百分点，降低了pipeline的误差传递的问题。

为实现上述目的，本发明采用以下技术方案是：一种将文本结构化为表格的深度学习模型装置，它包括以下具体步骤：预处理；数据预处理、数据清洗、文本分词、形成字符和词及表格行标签；词向量化；字符编码层；字符编码和词编码的连接层；列信息的预测；行信息的预测的前处理；行信息的预测；总loss函数的设置。

作为本发明更为具体的：所述预处理，对原始文本进行清洗，并且将表格信息整理成模型训练的数据形式，其次采用多层次的模型结构对文本进行编码，实现文本中的要素提取，再此对提取的要素按表格列形式进行组合，形成多个行信息，对每一行的要素进行二次编码后进行分类，判断是否为有效的行信息，最终实现文本的表格结构化。

作为本发明更为具体的：所述数据预处理与数据清洗，是进行数据清洗，将不规则的数据进行清洗和替换：如“全角半角转化”，去除掉特殊的符号，如“表情符号”等，所述文本分词与形成字符是对文本信息进行分词切割，第一个维度是通过“空格，逗号，分号，Tab键”等等明显分割符，对文本分成短句，第二个维度是采用正则表达式，提取文本中的“字符、数字”等要素，将短句分割为“字符和数字”中粒度的词，第三个是采用jieba分词，对字符和数字作更细粒度的切割，由此形成三种粒度的词，分别是word_c,word_m,word_s，对应三种粒度的词信息，所述表格行标签则由于表格信息是一个N*M的二维信息，将二维信息拆分成两个维度的子任务，对任意一个单元格内的信息，都分为列位置的预测和行位置的预测，列位置与列名信息关联，即命名实体识别的任务，将每个要素标签化为“列名”信息，对于行信息的标签化，将每一行的信息标签化为“0/1”分类问题，当符合表格行的所有信息时标签化为“1”，不符合时标签化为“0”。

作为本发明更为具体的：所述词向量化包括以下步骤：基于文本分词与形成字符的三种不同尺度的分词，对该分词融合词的位置信息后进行向量化，首先采用word2vec，对不同尺度的分词进行向量化，获得每个分词的向量特征；融入分词的位置结构信息，对每个分词的位置进行结构编码，只有一行或多行文本的情况，构建每个词在文本中的位置信息，并且用连接矩阵表示每个分词在文本的行、列的位置信息，连接矩阵定义为A[i,j]＝1(当两个词垂直位置相同，或左右相邻时)，否则A[i,j]＝0，有三种不同粒度的分词，故有三个不同的连接矩阵Ac[i,j]，Am[i,j]和As[i,j]；采用GCN对分词信息进行向量化训练；由于每段文本有三种不同粒度的分词，采用如下的GCN公式；

其中，

A是邻接矩阵，I是单位矩阵；

用来归一化

H^(t)、H^(t+1)分别表示图中各节点在第t和t+1层的编码；W^(l)为待学习的参数；H⁽⁰⁾＝X，X为初始的输入，通过GCN的特征提取公式，对三种词向量进行编码，获得三种不同粒度的词的向量编码，分别为H_c，H_m和H_s。

作为本发明更为具体的：所述字符编码层是对字符层的编码，采用预训练的Albert模型，在上面在拼接一层BiLSTM层，作为embedding矩阵TE。

作为本发明更为具体的：所述字符编码和词编码的连接层包括以下步骤：字符编码后形成每个字的编码矩阵TE，三种不同粒度的分词向量化后形成词的编码，采用GAT算法，对分词编码和字符编码进行融合；将分词直接拼接到字符的后面，假设字符的长度为N，分词的个数为M，构建出一个(N+M)*(N+M)的邻接矩阵K，当词包含字符的信息时候K[i,j]＝1，否则K[i,j]＝0，基于三种不同的分词，构建出三种领域矩阵K_c，K_m和K_s；利用GAT算法，对分词和字符编码进行拼接，其中GAT操作方法如下：在GAT操作中，第t层的输入是一个点集F^t＝{f₁,f₂,...,f_N}，同时存在一个邻接矩阵G，使用带有多头的GAT，主要的计算公式如下，

其中，f′_i∈R^F表示节点i的输入特征；f′_j∈R^F表示节点j的输出特征；||表示拼接操作；σ表示非线性激活函数；v_i表示i的邻接顶点；

表示节点i和节点j连接的边的权重；W^k∈R^F‘×F表示线性变换矩阵，用于对特征进行线性变换；

和

分别是前向反馈神经网络的权重参数；使用G来屏蔽α^k相应位置，分别通过t＝1，2，...，N得到最后一层的输出，然后计算最后AF对应GAT的结果：

根据以上的公式，获得三个不同的不同的分词和字符融合向量矩阵Q_c,Q_m和Q_s；三个向量矩阵再和字符向量二次融合，聚合公式为：Z＝W₁H+W₂Q_c+W₃Q_m+W₄Q_s，其中W₁、W₂、W₃、W₄为待训练的参数矩阵，H为形成字符的最终向量矩阵。

作为本发明更为具体的：所述列信息的预测具体是对文本进行系列标注，类似“命名实体识别”的任务，以BIO的形式对文本的字符进行标注；并且采用交叉熵函数(categorical loss)对列信息进行训练，其loss函数定义为NER_loss。

作为本发明更为具体的：所述行信息的预测的前处理包括以下步骤：基于列信息预测的结果，对字符向量进行提取，考虑到下游任务的需要，对确定为实体的字符信息进行提取；考虑到中文每个词的长度不一的原因；为形成对行信息预测的基本向量信息，采用mean的方法对每个词包含的字符向量进行聚合，其公式为

由此获得每个列的词向量；对每个列信息进行可编辑的组合，形成行信息，这个过程是一个可编辑的过程，针对通用域，可以直接采用每个列信息自由组合的方式，形成各种行信息的组合；组合公式，假设有n列，在一段文本中提取出M_i个第i列的实体信息，则总共形成SUM＝M₁*M₂*...*M_n种行的组合信息；针对特殊的私有领域，可以把该领域的一些规则加入到形成行信息组合中，强制行信息的形成符合该领域的规则要求，这是一个可自由编辑的模块。

作为本发明更为具体的：所述行信息的预测包括以下步骤：首先对随机组合的行的每个词向量进行编码，基于考虑到中文每个词的长度不一的原因形成每个词的向量，作为Graph网络的节点向量；再次采用GAT操作，对自由组合的每一行中的列信息进行编码学习，其操作方法仍为利用GAT算法，不同的只是邻接矩阵G不同；由此形成每行的向量信息R；由于行信息是随机组合，当“随机组合的行”在“标注”的行信息内时，结果为1，否则为0，这样与预处理的行信息一致；通过“随机组合的预测“和“标注的0/1”对比，采用交叉熵函数(categorical loss)对行信息进行训练学习,其loss定义为structure_loss。

作为本发明更为具体的：所述总loss函数的设置：列和行的损失函数加权获得总损失函数Loss＝NER_loss+α*structure_loss，作为模的结果。

采用上述技术方案后，本发明有益效果为：提出了一种多任务的神经网络，通过一个模型，直接将非结构文本转换为表格数据，在金融的数据领域，达到了商业化的标准，且相比于Pipeline的形式，其提高了3-5个百分点，降低了pipeline的误差传递的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的算法模型的学习训练流程图。

图2是本发明中基于图注意力的文本结构化成表格的深度学习模型架构图。

具体实施方式

参看图1-图2所示，本具体实施方式采用的技术方案是：它包括以下具体步骤：预处理；数据预处理、数据清洗、文本分词、形成字符和词及表格行标签；词向量化；字符编码层；字符编码和词编码的连接层；列信息的预测；行信息的预测的前处理；行信息的预测；总loss函数的设置。

作为本发明更为具体的：所述词向量化包括以下步骤：基于文本分词与形成字符的三种不同尺度的分词，对该分词融合词的位置信息后进行向量化，首先采用word2vec，对不同尺度的分词进行向量化，获得每个分词的向量特征；融入分词的位置结构信息，对每个分词的位置进行结构编码，只有一行或多行文本的情况，构建每个词在文本中的位置信息，并且用连接矩阵表示每个分词在文本的行、列的位置信息,连接矩阵定义为A[i,j]＝1(当两个词垂直位置相同，或左右相邻时)，否则A[i,j]＝0，有三种不同粒度的分词，故有三个不同的连接矩阵Ac[i,j]，Am[i,j]和As[i,j]；采用GCN对分词信息进行向量化训练；由于每段文本有三种不同粒度的分词，采用如下的GCN公式；

其中，

A是邻接矩阵，I是单位矩阵；

用来归一化

和

本系统中采用jieba分词，并加入特征字典，进行多粒度分词，采用word2vec进行向量化，可采用其它词向量化和分词方式，以及未来出现的新技术。当前对金融数据进行表格化，但是本方案不限于金融数据，可适用于其它任何需将一段文本结构化为表格的任务。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种将文本结构化为表格的深度学习模型装置，其特征在于：它包括以下具体步骤：

1)预处理；

2)数据预处理、数据清洗、文本分词、形成字符和词及表格行标签；

3)词向量化；

4)字符编码层；

5)字符编码和词编码的连接层；

6)列信息的预测；

7)行信息的预测的前处理；

8)行信息的预测；

9)总loss函数的设置。

2.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述步骤1中预处理，对原始文本进行清洗，并且将表格信息整理成模型训练的数据形式，其次采用多层次的模型结构对文本进行编码，实现文本中的要素提取，再此对提取的要素按表格列形式进行组合，形成多个行信息，对每一行的要素进行二次编码后进行分类，判断是否为有效的行信息，最终实现文本的表格结构化。

3.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述步骤2中数据预处理与数据清洗，是进行数据清洗，将不规则的数据进行清洗和替换，去除掉特殊的符号，所述文本分词与形成字符是对文本信息进行分词切割，第一个维度是通过“空格，逗号，分号，Tab键”等等明显分割符，对文本分成短句，第二个维度是采用正则表达式，提取文本中的“字符、数字”等要素，将短句分割为“字符和数字”中粒度的词，第三个是采用jieba分词，对字符和数字作更细粒度的切割，由此形成三种粒度的词，分别是word_c,word_m,word_s，对应三种粒度的词信息，所述表格行标签则由于表格信息是一个N*M的二维信息，将二维信息拆分成两个维度的子任务，对任意一个单元格内的信息，都分为列位置的预测和行位置的预测，列位置与列名信息关联，即命名实体识别的任务，将每个要素标签化为“列名”信息，对于行信息的标签化，将每一行的信息标签化为“0/1”分类问题，当符合表格行的所有信息时标签化为“1”，不符合时标签化为“0”。

4.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述词向量化包括以下步骤：

1)基于文本分词与形成字符的三种不同尺度的分词，对该分词融合词的位置信息后进行向量化，首先采用word2vec，对不同尺度的分词进行向量化，获得每个分词的向量特征；

2)融入分词的位置结构信息，对每个分词的位置进行结构编码，只有一行或多行文本的情况，构建每个词在文本中的位置信息，并且用连接矩阵表示每个分词在文本的行、列的位置信息,连接矩阵定义为A[i,j]＝1(当两个词垂直位置相同，或左右相邻时)，否则A[i,j]＝0，有三种不同粒度的分词，故有三个不同的连接矩阵Ac[i,j]，Am[i,j]和As[i,j]；

3)采用GCN对分词信息进行向量化训练；由于每段文本有三种不同粒度的分词，采用如下的GCN公式；

，其中，

A是邻接矩阵，I是单位矩阵；

，

用来归一化

5.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述字符编码层是对字符层的编码，采用预训练的Albert模型，在上面在拼接一层BiLSTM层，作为embedding矩阵TE。

6.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述字符编码和词编码的连接层包括以下步骤：

1)字符编码后形成每个字的编码矩阵TE，三种不同粒度的分词向量化后形成词的编码，采用GAT算法，对分词编码和字符编码进行融合；

2)将分词直接拼接到字符的后面，假设字符的长度为N，分词的个数为M，构建出一个(N+M)*(N+M)的邻接矩阵K，当词包含字符的信息时候K[i,j]＝1，否则K[i,j]＝0，基于三种不同的分词，构建出三种领域矩阵K_c，K_m和K_s；

3)利用GAT算法，对分词和字符编码进行拼接，其中GAT操作方法如下：在GAT操作中，第t层的输入是一个点集F^t＝{f₁,f₂,...,f_N}，同时存在一个邻接矩阵G，使用带有多头的GAT，主要的计算公式如下，

表示节点i和节点j连接的边的权重；W^k∈R^F′×F表示线性变换矩阵，用于对特征进行线性变换；

和

根据以上的公式，获得三个不同的不同的分词和字符融合向量矩阵Q_c,Q_m和Q_s；

4)三个向量矩阵再和字符向量二次融合，聚合公式为：Z＝W₁H+W₂Q_c+W₃Q_m+W₄Q_s，其中W₁、W₂、W₃、W₄为待训练的参数矩阵，H为形成字符的最终向量矩阵。

7.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述列信息的预测具体是对文本进行系列标注，类似“命名实体识别”的任务，以BIO的形式对文本的字符进行标注；并且采用交叉熵函数(categorical loss)对列信息进行训练，其loss函数定义为NER_loss。

8.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述行信息的预测的前处理包括以下步骤：

1)基于列信息预测的结果，对字符向量进行提取，考虑到下游任务的需要，对确定为实体的字符信息进行提取；

2)考虑到中文每个词的长度不一的原因；为形成对行信息预测的基本向量信息，采用mean的方法对每个词包含的字符向量进行聚合，其公式为，

由此获得每个列的词向量；

3)对每个列信息进行可编辑的组合，形成行信息，这个过程是一个可编辑的过程，针对通用域，可以直接采用每个列信息自由组合的方式，形成各种行信息的组合；

4)组合公式，假设有n列，在一段文本中提取出M_i个第i列的实体信息，则总共形成SUM＝M₁*M₂*...*M_n种行的组合信息；

5)针对特殊的私有领域，可以把该领域的一些规则加入到形成行信息组合中，强制行信息的形成符合该领域的规则要求，这是一个可自由编辑的模块。

9.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述行信息的预测包括以下步骤：

1)首先对随机组合的行的每个词向量进行编码，基于考虑到中文每个词的长度不一的原因形成每个词的向量，作为Graph网络的节点向量；

2)再次采用GAT操作，对自由组合的每一行中的列信息进行编码学习，其操作方法仍为利用GAT算法，不同的只是邻接矩阵G不同；由此形成每行的向量信息R；

3)由于行信息是随机组合，当“随机组合的行”在“标注”的行信息内时，结果为1，否则为0，这样与预处理的行信息一致；

4)通过“随机组合的预测“和“标注的0/1”对比，采用交叉熵函数(categorical loss)对行信息进行训练学习,其loss定义为structure_loss。

10.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置，其特征在于：所述总loss函数的设置：列和行的损失函数加权获得总损失函数Loss＝NER_loss+α*structure_loss，作为模的结果。