CN113761131A - 一种将文本结构化为表格的深度学习模型装置 - Google Patents
一种将文本结构化为表格的深度学习模型装置 Download PDFInfo
- Publication number
- CN113761131A CN113761131A CN202111045093.6A CN202111045093A CN113761131A CN 113761131 A CN113761131 A CN 113761131A CN 202111045093 A CN202111045093 A CN 202111045093A CN 113761131 A CN113761131 A CN 113761131A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- word
- character
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 54
- 239000011159 matrix material Substances 0.000 claims description 36
- 235000019580 granularity Nutrition 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
一种将文本结构化为表格的深度学习模型装置,它涉及数据处理技术领域。它包括以下具体步骤:预处理;数据预处理、数据清洗、文本分词、形成字符和词及表格行标签;词向量化;字符编码层;字符编码和词编码的连接层;列信息的预测;行信息的预测的前处理;行信息的预测;总loss函数的设置。本发明有益效果为:提出了一种多任务的神经网络,通过一个模型,直接将非结构文本转换为表格数据。在金融的数据领域,达到了商业化的标准,且相比于Pipeline的形式,其提高了3‑5个百分点,降低了pipeline的误差传递的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种将文本结构化为表格的深度学习模型装置。
背景技术
在自然语言处理中,常见的任务是对文本进行分类或信息提取,另一类问题是提取识别文档中的表格等结构信息,特别在金融等领域,还有一些比较深入的技术需求,比如将非结构文本直接转化为表格的问题,这类问题抽象为,将非结构化的文本信息,结构化为表格数据的一个问题。在做语义理解上,这并不只是简单的文本分类或识别意图,需要将各要素和多个意图一一对应起来、形成一个规范的表格数据。这在当前的文本处理领域,这是一个很难的技术问题,有一系列的技术问题。
关于将文本整理成表格的问题,目前并没有现成的统一技术。主要的处理方法是将它拆分成多个子任务,然后通过管道式(pipeline)的形式去处理这类问题。首先采用文本分类模型,对问题的整体意图进行分类判断,。其次是进行信息提取,采用“命名实体识别(NER)”的技术,将文本中的各要素进行提取,(以上例子为例,提取出债券名、标位、标量等要素),最后再通过一系列的规则,对各要素进行排列,(例如根据要素在改字前、改字后的位置),进行组合成表格的形式,但现有技术仍存在以下几点不足:
(1)首先管道(Pipeline)式的处理方法,比较大的缺陷是误差传递问题。将文本结构化为表格的过程中,需要三个模型,一个是意图分类、二是要素抽取、三是要素结构化为表格,中间还需要考虑表格的行数(这是不确定的)的判断。以现在比较好的模型算法,准确率在95%左右,那么三个模型通过Pipeline融合后,最终的准确率在80%-85%左右。为达到可以商用,或者提高准确率,需要一系列各种规则去修正、以及一些的容错设计。
(2)采用Pipeline的第二个缺陷,意图分类、要素抽取、表格结构化,底层都是对文本的编码,但是由于分成多个子任务,每个任务都要对文本单独编码,一是浪费技术资源、降低了结构化的效率;二是不能共享相关参数、达到提高预测准确率的效果。
(3)在意图判断这个子任务上,是一个多级分类问题;第一级分类是判断投、改还是撤标,第二级分类是针对改的意图,还需要判断改前要素,以及改后要素。现有的分类模型不能很好的解决这种分级的意图分类问题。
(4)在结构化成表格上,目前并没有相关的深度学习算法模型,很大程度还是采用人工的方式,梳理出结构化的逻辑规则,通过规则去对要素进行重新排序。而基于规则引擎的方案,需要大量的人力成本,同时还不能保证规则的全面,仍然有很多问题规则不能覆盖到。其次由于人们表达方式的多样性,规则不仅不能覆盖全面,还会互相干扰和冲突,容易出现顾此失彼的情况。最后是开发成本和维护成本很高,早期梳理的规则,每新加一条规则,既要考虑是否有效,同时还要考虑对之前规则的影响;开发和维护成本都极其高。
发明内容
本发明的目的在于针对现有技术中不足与缺点,提供一种将文本结构化为表格的深度学习模型装置,提出了一种多任务的神经网络,通过一个模型,直接将非结构文本转换为表格数据,在金融的数据领域,达到了商业化的标准,且相比于Pipeline的形式,其提高了3-5个百分点,降低了pipeline的误差传递的问题。
为实现上述目的,本发明采用以下技术方案是:一种将文本结构化为表格的深度学习模型装置,它包括以下具体步骤:预处理;数据预处理、数据清洗、文本分词、形成字符和词及表格行标签;词向量化;字符编码层;字符编码和词编码的连接层;列信息的预测;行信息的预测的前处理;行信息的预测;总loss函数的设置。
作为本发明更为具体的:所述预处理,对原始文本进行清洗,并且将表格信息整理成模型训练的数据形式,其次采用多层次的模型结构对文本进行编码,实现文本中的要素提取,再此对提取的要素按表格列形式进行组合,形成多个行信息,对每一行的要素进行二次编码后进行分类,判断是否为有效的行信息,最终实现文本的表格结构化。
作为本发明更为具体的:所述数据预处理与数据清洗,是进行数据清洗,将不规则的数据进行清洗和替换:如“全角半角转化”,去除掉特殊的符号,如“表情符号”等,所述文本分词与形成字符是对文本信息进行分词切割,第一个维度是通过“空格,逗号,分号,Tab键”等等明显分割符,对文本分成短句,第二个维度是采用正则表达式,提取文本中的“字符、数字”等要素,将短句分割为“字符和数字”中粒度的词,第三个是采用jieba分词,对字符和数字作更细粒度的切割,由此形成三种粒度的词,分别是wordc,wordm,words,对应三种粒度的词信息,所述表格行标签则由于表格信息是一个N*M的二维信息,将二维信息拆分成两个维度的子任务,对任意一个单元格内的信息,都分为列位置的预测和行位置的预测,列位置与列名信息关联,即命名实体识别的任务,将每个要素标签化为“列名”信息,对于行信息的标签化,将每一行的信息标签化为“0/1”分类问题,当符合表格行的所有信息时标签化为“1”,不符合时标签化为“0”。
作为本发明更为具体的:所述词向量化包括以下步骤:基于文本分词与形成字符的三种不同尺度的分词,对该分词融合词的位置信息后进行向量化,首先采用word2vec,对不同尺度的分词进行向量化,获得每个分词的向量特征;融入分词的位置结构信息,对每个分词的位置进行结构编码,只有一行或多行文本的情况,构建每个词在文本中的位置信息,并且用连接矩阵表示每个分词在文本的行、列的位置信息,连接矩阵定义为A[i,j]=1(当两个词垂直位置相同,或左右相邻时),否则A[i,j]=0,有三种不同粒度的分词,故有三个不同的连接矩阵Ac[i,j],Am[i,j]和As[i,j];采用GCN对分词信息进行向量化训练;由于每段文本有三种不同粒度的分词,采用如下的GCN公式;其中,A是邻接矩阵,I是单位矩阵; 用来归一化H(t)、H(t+1)分别表示图中各节点在第t和t+1层的编码;W(l)为待学习的参数;H(0)=X,X为初始的输入,通过GCN的特征提取公式,对三种词向量进行编码,获得三种不同粒度的词的向量编码,分别为Hc,Hm和Hs。
作为本发明更为具体的:所述字符编码层是对字符层的编码,采用预训练的Albert模型,在上面在拼接一层BiLSTM层,作为embedding矩阵TE。
作为本发明更为具体的:所述字符编码和词编码的连接层包括以下步骤:字符编码后形成每个字的编码矩阵TE,三种不同粒度的分词向量化后形成词的编码,采用GAT算法,对分词编码和字符编码进行融合;将分词直接拼接到字符的后面,假设字符的长度为N,分词的个数为M,构建出一个(N+M)*(N+M)的邻接矩阵K,当词包含字符的信息时候K[i,j]=1,否则K[i,j]=0,基于三种不同的分词,构建出三种领域矩阵Kc,Km和Ks;利用GAT算法,对分词和字符编码进行拼接,其中GAT操作方法如下:在GAT操作中,第t层的输入是一个点集Ft={f1,f2,...,fN},同时存在一个邻接矩阵G,使用带有多头的GAT,主要的计算公式如下,
其中,f′i∈RF表示节点i的输入特征;f′j∈RF表示节点j的输出特征;||表示拼接操作;σ表示非线性激活函数;vi表示i的邻接顶点;表示节点i和节点j连接的边的权重;Wk∈RF‘×F表示线性变换矩阵,用于对特征进行线性变换;和分别是前向反馈神经网络的权重参数;使用G来屏蔽αk相应位置,分别通过t=1,2,...,N得到最后一层的输出,然后计算最后AF对应GAT的结果:根据以上的公式,获得三个不同的不同的分词和字符融合向量矩阵Qc,Qm和Qs;三个向量矩阵再和字符向量二次融合,聚合公式为:Z=W1H+W2Qc+W3Qm+W4Qs,其中W1、W2、W3、W4为待训练的参数矩阵,H为形成字符的最终向量矩阵。
作为本发明更为具体的:所述列信息的预测具体是对文本进行系列标注,类似“命名实体识别”的任务,以BIO的形式对文本的字符进行标注;并且采用交叉熵函数(categorical loss)对列信息进行训练,其loss函数定义为NER_loss。
作为本发明更为具体的:所述行信息的预测的前处理包括以下步骤:基于列信息预测的结果,对字符向量进行提取,考虑到下游任务的需要,对确定为实体的字符信息进行提取;考虑到中文每个词的长度不一的原因;为形成对行信息预测的基本向量信息,采用mean的方法对每个词包含的字符向量进行聚合,其公式为由此获得每个列的词向量;对每个列信息进行可编辑的组合,形成行信息,这个过程是一个可编辑的过程,针对通用域,可以直接采用每个列信息自由组合的方式,形成各种行信息的组合;组合公式,假设有n列,在一段文本中提取出Mi个第i列的实体信息,则总共形成SUM=M1*M2*...*Mn种行的组合信息;针对特殊的私有领域,可以把该领域的一些规则加入到形成行信息组合中,强制行信息的形成符合该领域的规则要求,这是一个可自由编辑的模块。
作为本发明更为具体的:所述行信息的预测包括以下步骤:首先对随机组合的行的每个词向量进行编码,基于考虑到中文每个词的长度不一的原因形成每个词的向量,作为Graph网络的节点向量;再次采用GAT操作,对自由组合的每一行中的列信息进行编码学习,其操作方法仍为利用GAT算法,不同的只是邻接矩阵G不同;由此形成每行的向量信息R;由于行信息是随机组合,当“随机组合的行”在“标注”的行信息内时,结果为1,否则为0,这样与预处理的行信息一致;通过“随机组合的预测“和“标注的0/1”对比,采用交叉熵函数(categorical loss)对行信息进行训练学习,其loss定义为structure_loss。
作为本发明更为具体的:所述总loss函数的设置:列和行的损失函数加权获得总损失函数Loss=NER_loss+α*structure_loss,作为模的结果。
采用上述技术方案后,本发明有益效果为:提出了一种多任务的神经网络,通过一个模型,直接将非结构文本转换为表格数据,在金融的数据领域,达到了商业化的标准,且相比于Pipeline的形式,其提高了3-5个百分点,降低了pipeline的误差传递的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的算法模型的学习训练流程图。
图2是本发明中基于图注意力的文本结构化成表格的深度学习模型架构图。
具体实施方式
参看图1-图2所示,本具体实施方式采用的技术方案是:它包括以下具体步骤:预处理;数据预处理、数据清洗、文本分词、形成字符和词及表格行标签;词向量化;字符编码层;字符编码和词编码的连接层;列信息的预测;行信息的预测的前处理;行信息的预测;总loss函数的设置。
作为本发明更为具体的:所述预处理,对原始文本进行清洗,并且将表格信息整理成模型训练的数据形式,其次采用多层次的模型结构对文本进行编码,实现文本中的要素提取,再此对提取的要素按表格列形式进行组合,形成多个行信息,对每一行的要素进行二次编码后进行分类,判断是否为有效的行信息,最终实现文本的表格结构化。
作为本发明更为具体的:所述数据预处理与数据清洗,是进行数据清洗,将不规则的数据进行清洗和替换:如“全角半角转化”,去除掉特殊的符号,如“表情符号”等,所述文本分词与形成字符是对文本信息进行分词切割,第一个维度是通过“空格,逗号,分号,Tab键”等等明显分割符,对文本分成短句,第二个维度是采用正则表达式,提取文本中的“字符、数字”等要素,将短句分割为“字符和数字”中粒度的词,第三个是采用jieba分词,对字符和数字作更细粒度的切割,由此形成三种粒度的词,分别是wordc,wordm,words,对应三种粒度的词信息,所述表格行标签则由于表格信息是一个N*M的二维信息,将二维信息拆分成两个维度的子任务,对任意一个单元格内的信息,都分为列位置的预测和行位置的预测,列位置与列名信息关联,即命名实体识别的任务,将每个要素标签化为“列名”信息,对于行信息的标签化,将每一行的信息标签化为“0/1”分类问题,当符合表格行的所有信息时标签化为“1”,不符合时标签化为“0”。
作为本发明更为具体的:所述词向量化包括以下步骤:基于文本分词与形成字符的三种不同尺度的分词,对该分词融合词的位置信息后进行向量化,首先采用word2vec,对不同尺度的分词进行向量化,获得每个分词的向量特征;融入分词的位置结构信息,对每个分词的位置进行结构编码,只有一行或多行文本的情况,构建每个词在文本中的位置信息,并且用连接矩阵表示每个分词在文本的行、列的位置信息,连接矩阵定义为A[i,j]=1(当两个词垂直位置相同,或左右相邻时),否则A[i,j]=0,有三种不同粒度的分词,故有三个不同的连接矩阵Ac[i,j],Am[i,j]和As[i,j];采用GCN对分词信息进行向量化训练;由于每段文本有三种不同粒度的分词,采用如下的GCN公式;其中,A是邻接矩阵,I是单位矩阵; 用来归一化H(t)、H(t+1)分别表示图中各节点在第t和t+1层的编码;W(l)为待学习的参数;H(0)=X,X为初始的输入,通过GCN的特征提取公式,对三种词向量进行编码,获得三种不同粒度的词的向量编码,分别为Hc,Hm和Hs。
作为本发明更为具体的:所述字符编码层是对字符层的编码,采用预训练的Albert模型,在上面在拼接一层BiLSTM层,作为embedding矩阵TE。
作为本发明更为具体的:所述字符编码和词编码的连接层包括以下步骤:字符编码后形成每个字的编码矩阵TE,三种不同粒度的分词向量化后形成词的编码,采用GAT算法,对分词编码和字符编码进行融合;将分词直接拼接到字符的后面,假设字符的长度为N,分词的个数为M,构建出一个(N+M)*(N+M)的邻接矩阵K,当词包含字符的信息时候K[i,j]=1,否则K[i,j]=0,基于三种不同的分词,构建出三种领域矩阵Kc,Km和Ks;利用GAT算法,对分词和字符编码进行拼接,其中GAT操作方法如下:在GAT操作中,第t层的输入是一个点集Ft={f1,f2,...,fN},同时存在一个邻接矩阵G,使用带有多头的GAT,主要的计算公式如下,
其中,f′i∈RF表示节点i的输入特征;f′j∈RF表示节点j的输出特征;||表示拼接操作;σ表示非线性激活函数;vi表示i的邻接顶点;表示节点i和节点j连接的边的权重;Wk∈RF‘×F表示线性变换矩阵,用于对特征进行线性变换;和分别是前向反馈神经网络的权重参数;使用G来屏蔽αk相应位置,分别通过t=1,2,...,N得到最后一层的输出,然后计算最后AF对应GAT的结果:根据以上的公式,获得三个不同的不同的分词和字符融合向量矩阵Qc,Qm和Qs;三个向量矩阵再和字符向量二次融合,聚合公式为:Z=W1H+W2Qc+W3Qm+W4Qs,其中W1、W2、W3、W4为待训练的参数矩阵,H为形成字符的最终向量矩阵。
作为本发明更为具体的:所述列信息的预测具体是对文本进行系列标注,类似“命名实体识别”的任务,以BIO的形式对文本的字符进行标注;并且采用交叉熵函数(categorical loss)对列信息进行训练,其loss函数定义为NER_loss。
作为本发明更为具体的:所述行信息的预测的前处理包括以下步骤:基于列信息预测的结果,对字符向量进行提取,考虑到下游任务的需要,对确定为实体的字符信息进行提取;考虑到中文每个词的长度不一的原因;为形成对行信息预测的基本向量信息,采用mean的方法对每个词包含的字符向量进行聚合,其公式为由此获得每个列的词向量;对每个列信息进行可编辑的组合,形成行信息,这个过程是一个可编辑的过程,针对通用域,可以直接采用每个列信息自由组合的方式,形成各种行信息的组合;组合公式,假设有n列,在一段文本中提取出Mi个第i列的实体信息,则总共形成SUM=M1*M2*...*Mn种行的组合信息;针对特殊的私有领域,可以把该领域的一些规则加入到形成行信息组合中,强制行信息的形成符合该领域的规则要求,这是一个可自由编辑的模块。
作为本发明更为具体的:所述行信息的预测包括以下步骤:首先对随机组合的行的每个词向量进行编码,基于考虑到中文每个词的长度不一的原因形成每个词的向量,作为Graph网络的节点向量;再次采用GAT操作,对自由组合的每一行中的列信息进行编码学习,其操作方法仍为利用GAT算法,不同的只是邻接矩阵G不同;由此形成每行的向量信息R;由于行信息是随机组合,当“随机组合的行”在“标注”的行信息内时,结果为1,否则为0,这样与预处理的行信息一致;通过“随机组合的预测“和“标注的0/1”对比,采用交叉熵函数(categorical loss)对行信息进行训练学习,其loss定义为structure_loss。
作为本发明更为具体的:所述总loss函数的设置:列和行的损失函数加权获得总损失函数Loss=NER_loss+α*structure_loss,作为模的结果。
本系统中采用jieba分词,并加入特征字典,进行多粒度分词,采用word2vec进行向量化,可采用其它词向量化和分词方式,以及未来出现的新技术。当前对金融数据进行表格化,但是本方案不限于金融数据,可适用于其它任何需将一段文本结构化为表格的任务。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种将文本结构化为表格的深度学习模型装置,其特征在于:它包括以下具体步骤:
1)预处理;
2)数据预处理、数据清洗、文本分词、形成字符和词及表格行标签;
3)词向量化;
4)字符编码层;
5)字符编码和词编码的连接层;
6)列信息的预测;
7)行信息的预测的前处理;
8)行信息的预测;
9)总loss函数的设置。
2.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述步骤1中预处理,对原始文本进行清洗,并且将表格信息整理成模型训练的数据形式,其次采用多层次的模型结构对文本进行编码,实现文本中的要素提取,再此对提取的要素按表格列形式进行组合,形成多个行信息,对每一行的要素进行二次编码后进行分类,判断是否为有效的行信息,最终实现文本的表格结构化。
3.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述步骤2中数据预处理与数据清洗,是进行数据清洗,将不规则的数据进行清洗和替换,去除掉特殊的符号,所述文本分词与形成字符是对文本信息进行分词切割,第一个维度是通过“空格,逗号,分号,Tab键”等等明显分割符,对文本分成短句,第二个维度是采用正则表达式,提取文本中的“字符、数字”等要素,将短句分割为“字符和数字”中粒度的词,第三个是采用jieba分词,对字符和数字作更细粒度的切割,由此形成三种粒度的词,分别是wordc,wordm,words,对应三种粒度的词信息,所述表格行标签则由于表格信息是一个N*M的二维信息,将二维信息拆分成两个维度的子任务,对任意一个单元格内的信息,都分为列位置的预测和行位置的预测,列位置与列名信息关联,即命名实体识别的任务,将每个要素标签化为“列名”信息,对于行信息的标签化,将每一行的信息标签化为“0/1”分类问题,当符合表格行的所有信息时标签化为“1”,不符合时标签化为“0”。
4.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述词向量化包括以下步骤:
1)基于文本分词与形成字符的三种不同尺度的分词,对该分词融合词的位置信息后进行向量化,首先采用word2vec,对不同尺度的分词进行向量化,获得每个分词的向量特征;
2)融入分词的位置结构信息,对每个分词的位置进行结构编码,只有一行或多行文本的情况,构建每个词在文本中的位置信息,并且用连接矩阵表示每个分词在文本的行、列的位置信息,连接矩阵定义为A[i,j]=1(当两个词垂直位置相同,或左右相邻时),否则A[i,j]=0,有三种不同粒度的分词,故有三个不同的连接矩阵Ac[i,j],Am[i,j]和As[i,j];
5.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述字符编码层是对字符层的编码,采用预训练的Albert模型,在上面在拼接一层BiLSTM层,作为embedding矩阵TE。
6.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述字符编码和词编码的连接层包括以下步骤:
1)字符编码后形成每个字的编码矩阵TE,三种不同粒度的分词向量化后形成词的编码,采用GAT算法,对分词编码和字符编码进行融合;
2)将分词直接拼接到字符的后面,假设字符的长度为N,分词的个数为M,构建出一个(N+M)*(N+M)的邻接矩阵K,当词包含字符的信息时候K[i,j]=1,否则K[i,j]=0,基于三种不同的分词,构建出三种领域矩阵Kc,Km和Ks;
3)利用GAT算法,对分词和字符编码进行拼接,其中GAT操作方法如下:在GAT操作中,第t层的输入是一个点集Ft={f1,f2,...,fN},同时存在一个邻接矩阵G,使用带有多头的GAT,主要的计算公式如下,
其中,f′i∈RF表示节点i的输入特征;f′j∈RF表示节点j的输出特征;||表示拼接操作;σ表示非线性激活函数;vi表示i的邻接顶点;表示节点i和节点j连接的边的权重;Wk∈RF′×F表示线性变换矩阵,用于对特征进行线性变换;和分别是前向反馈神经网络的权重参数;使用G来屏蔽αk相应位置,分别通过t=1,2,...,N得到最后一层的输出,然后计算最后AF对应GAT的结果:根据以上的公式,获得三个不同的不同的分词和字符融合向量矩阵Qc,Qm和Qs;
4)三个向量矩阵再和字符向量二次融合,聚合公式为:Z=W1H+W2Qc+W3Qm+W4Qs,其中W1、W2、W3、W4为待训练的参数矩阵,H为形成字符的最终向量矩阵。
7.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述列信息的预测具体是对文本进行系列标注,类似“命名实体识别”的任务,以BIO的形式对文本的字符进行标注;并且采用交叉熵函数(categorical loss)对列信息进行训练,其loss函数定义为NER_loss。
8.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述行信息的预测的前处理包括以下步骤:
1)基于列信息预测的结果,对字符向量进行提取,考虑到下游任务的需要,对确定为实体的字符信息进行提取;
3)对每个列信息进行可编辑的组合,形成行信息,这个过程是一个可编辑的过程,针对通用域,可以直接采用每个列信息自由组合的方式,形成各种行信息的组合;
4)组合公式,假设有n列,在一段文本中提取出Mi个第i列的实体信息,则总共形成SUM=M1*M2*...*Mn种行的组合信息;
5)针对特殊的私有领域,可以把该领域的一些规则加入到形成行信息组合中,强制行信息的形成符合该领域的规则要求,这是一个可自由编辑的模块。
9.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述行信息的预测包括以下步骤:
1)首先对随机组合的行的每个词向量进行编码,基于考虑到中文每个词的长度不一的原因形成每个词的向量,作为Graph网络的节点向量;
2)再次采用GAT操作,对自由组合的每一行中的列信息进行编码学习,其操作方法仍为利用GAT算法,不同的只是邻接矩阵G不同;由此形成每行的向量信息R;
3)由于行信息是随机组合,当“随机组合的行”在“标注”的行信息内时,结果为1,否则为0,这样与预处理的行信息一致;
4)通过“随机组合的预测“和“标注的0/1”对比,采用交叉熵函数(categorical loss)对行信息进行训练学习,其loss定义为structure_loss。
10.根据权利要求1所述的一种将文本结构化为表格的深度学习模型装置,其特征在于:所述总loss函数的设置:列和行的损失函数加权获得总损失函数Loss=NER_loss+α*structure_loss,作为模的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045093.6A CN113761131A (zh) | 2021-09-07 | 2021-09-07 | 一种将文本结构化为表格的深度学习模型装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111045093.6A CN113761131A (zh) | 2021-09-07 | 2021-09-07 | 一种将文本结构化为表格的深度学习模型装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761131A true CN113761131A (zh) | 2021-12-07 |
Family
ID=78793537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111045093.6A Pending CN113761131A (zh) | 2021-09-07 | 2021-09-07 | 一种将文本结构化为表格的深度学习模型装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761131A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733837A (zh) * | 2018-05-28 | 2018-11-02 | 杭州依图医疗技术有限公司 | 一种病历文本的自然语言结构化方法及装置 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN113326676A (zh) * | 2021-04-19 | 2021-08-31 | 上海快确信息科技有限公司 | 一种将金融文本结构化为表格的深度学习模型装置 |
-
2021
- 2021-09-07 CN CN202111045093.6A patent/CN113761131A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733837A (zh) * | 2018-05-28 | 2018-11-02 | 杭州依图医疗技术有限公司 | 一种病历文本的自然语言结构化方法及装置 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN113326676A (zh) * | 2021-04-19 | 2021-08-31 | 上海快确信息科技有限公司 | 一种将金融文本结构化为表格的深度学习模型装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020438B (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
Yang et al. | Deep multi-task representation learning: A tensor factorisation approach | |
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN112070138A (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN111832293A (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN113255321A (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN116663540A (zh) | 基于小样本的金融事件抽取方法 | |
Li et al. | Rethinking table structure recognition using sequence labeling methods | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113761131A (zh) | 一种将文本结构化为表格的深度学习模型装置 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
Singh et al. | A Novel Approach of Stock Price Direction and Price Prediction Based on Investor’s Sentiments | |
CN111985204B (zh) | 一种海关进出口商品税号预测方法 | |
CN113569048A (zh) | 一种基于企业经营范围自动划分所属行业的方法及系统 | |
CN113177113A (zh) | 任务型对话模型预训练方法、装置、设备及存储介质 | |
CN113326676A (zh) | 一种将金融文本结构化为表格的深度学习模型装置 | |
Ahmad et al. | Machine and deep learning methods with manual and automatic labelling for news classification in bangla language | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
Amin | Cases without borders: automating knowledge acquisition approach using deep autoencoders and siamese networks in case-based reasoning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |