CN116127099A

CN116127099A - 基于图卷积网络的联合文本增强的表实体与类型注释方法

Info

Publication number: CN116127099A
Application number: CN202310198892.XA
Authority: CN
Inventors: 张桦; 支浩仕; 叶晨; 吴以凡; 戴国骏; 华孝健
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-16

Abstract

本发明公开了一种基于图卷积网络的联合文本增强的表实体与类型注释方法。本发明步骤：1：自适应的与实体相关的定义型文本数据的抽取及预处理；2：将表数据集合、注释数据集合和文本数据集合转化为图结构数据的建模；3：特征向量化表示：根据图顶点的文本信息使用BERT进行特征向量化表示，转化成图卷积网络模型所需要的特征矩阵，并且根据边集建立模型需要的邻接矩阵；4：并行的多任务学习与结果预测。本发明包含文本的提取与预处理、由表到图结构的建模和多任务学习，能够提升模型对表的结构与语义解析能力，增强鲁棒性并提升模型的预测能力。同时能够在不依赖元信息的情况下，引入易从知识库获取的实体相关文本数据，性能显著优于现有模型。

Description

基于图卷积网络的联合文本增强的表实体与类型注释方法

技术领域

本发明涉及自然语言处理领域与深度学习网络模型，具体涉及一种基于图卷积网络的联合文本增强的表实体与类型注释方法。

背景技术

对表格数据进行实体注释和类型注释的任务是从表格数据到知识图谱的匹配任务的两项子任务，该任务是将语义标签从知识图谱(例如Wikidata或DBpedia两个知识库)分配给表格元素的过程。具体来讲，实体注释任务是对表格内与某实体相关的单元格添加实体注释的过程，而类型注释任务是对表格内与某类型相关的列添加类型注释的过程。近年来，随着互联网的迅猛发展和大数据时代的到来，表格数据集合在网络中变得越来越普遍，，如何从纷繁冗杂的表数据集合集中整理出有价值的信息已成为数据挖掘、数据分析、机器学习与知识发现等方向的研究热点。庞大的数据集也使得传统依靠手动构建特征的概率推理模型不再适用，这给这项任务带来了一定挑战。

随着基于深度学习的神经网络模型在自然处理领域的流行，在表数据集合上应用深度神经网络模型的有关研究已成为热点。如今针对表数据集合且采用神经网络模型的主流注释方法可根据是否采用预训练-微调范式(先通过大型语料库进行预训练，然后在目标训练集上仅需小数目训练即可达到最佳精度的模式)分为预训练-微调方法和非预训练-微调方法两种，代表方法分别为TURL和TCN。两类方法都使用BERT将表内信息向量化，不同之处在于TURL将表格元信息(表名、主题等信息)同表格内部信息一起输入Transformer，通过对不同类型的信息间建立可见性矩阵以供注意力机制分别计算不同种类信息的注意力向量，并在掩码语言模型的基础上提出了掩码实体恢复的预训练方法。(2)TCN设计了一种表卷积网络模型，提出了可以聚合表内和表间相关信息的注意力机制。两种方法都在表的类型注释任务上取得了更优结果。然而，TURL按列序对表内容进行编码，忽视了行间联系，因此不能完全捕捉到表格的结构信息。并且，两种方法都依赖于表格元信息，由于网络数据质量参差不齐，以及某些时刻可能出现的网络波动导致的传输错误等问题，从网络中获取到的表格数据经常会遇到元信息缺失的情况，因此对模型的性能影响极大。还有，表格信息大多以文本字符串形式呈现，现有方法没有意识到联合文本能够增强模型对表格的理解能力的作用。此外，这两种方法仅考虑了对表格列的类型注释，不能完成对表格单元格的实体注释任务，割裂了两个任务之间的联系。

因此，本发明拟针对现有深度学习模型在表格注释任务上存在的过度依赖元信息、无法完全获取结构信息、未考虑到表格与文本间联系的问题，引入一种来自知识库且易获取的实体相关文本来帮助模型更好地理解表语义与结构信息，提出能够克服元信息缺失问题、联合文本增强模型的表理解能力、基于图卷积网络捕捉完整表结构信息、采用并行多任务学习的表实体与类型注释方法。

发明内容

针对上述问题，本发明提出了一种基于图卷积网络的联合文本增强的表实体与类型注释方法。基于图卷积网络的联合文本增强的多任务学习的表实体与类型注释方法，通过并行多任务学习提升模型的鲁棒性与预测能力。

本发明解决其技术问题所采用的技术方案如下：

步骤1：自适应的与实体相关的定义型文本数据的抽取及预处理；

本发明设计了一种自适应的从知识库抽取与实体相关的定义型文本并进行预处理的方法。文本从实体所属类型的视角定义了对应实体，因此能够提升模型对表数据集合的理解能力。本发明采用自适应的方法从知识库中抽取和每个表格包含所有实体相关的文本数据，经开放信息操作与词性标注操作，来滤除只包含代词、停止词作为主语和宾语的无效文本；将抽取结果(滤除无效文本后的文本数据)依照原表内容顺序存储。自适应能够解决不存在实体注释的表格的文本抽取问题，且针对存在实体注释的表格按实体注释数量决定是否直接检索所有注释实体名称的方式能够加快抽取文本的速度，在保证具有一定有意义文本数量的同时提升该方法的效率。

输入：表数据集合集T＝{τ¹，τ²，，...，，τⁿ}，每张表含有多个列

每列含有若干单元格信息

对应每张表的实体注释集

(某些表的实体注释可能为空集

)。

1-1.自适应的候选集合选取方法；自适应是指对于没有实体注释信息

或实体注释数量

未超过第i张表格关键列(Primary Key，PK)非空单元格数目

的一半的表格，

将所有单元格信息经语义筛选后构建候选集合

反之则将该表下所有注释实体名称作为候选集合

1-2.知识库的文本抽取：把两个候选集合中的每一元素作为关键词，从知识库中查找与候选集合中的元素相关的文本，将结果保存于候选文本集合S^c＝{s₁，...}。

1-3.开放信息提取：对候选文本集合S^c中的所有文本使用斯坦福的开放信息提取工具Stanford OpenIE抽取关系三元组表示R_s＝{(subject，relation，object)，...}，每一关系三元组由主语、关系词和宾语构成，获得某一文本的关系集合R_s。

1-4.词性标注：对三元组关系使用spacy自然语言处理工具进行词性(Part-of-Speech)标注，以获取所有三元组关系及不同关系所属词性的集合

1-5.候选集文本的过滤：经过1-3和1-4两个步骤获取了每个候选集合中每个文本对应的三元组关系及其词性，筛除不能生成三元组表示的文本和所有三元组关系中主语及宾语全为停止词和代词的文本，得到清洗后的文本集合

步骤2：对表数据集合、注释数据和文本数据的联合图结构建模，本发明设计了一种图结构建模规则，根据表数据集合T、注释数据集合和文本数据集合

构建对应的图结构顶点以区分不同元素，构建边集以阐明顶点之间的联系。由输入实例图4构建出的图结构实例如图2所示。

输入：表数据集合T＝{τ¹，τ²，...，τⁿ}，每张表τⁱ＝(Rⁱ，Cⁱ，Xⁱ)包含了若干行

列

和单元格

(单元格集合可以按行或列的顺序遍历获取)，实体注释集合

(其中

类型注释集合

(其中

)，文本集合

这里表示对于每张表τⁱ，都有对应元素项Sⁱ，但可以是空元素

2-1.图的顶点集构建，由给定的所有表数据集合、注释数据集合和相关文本数据集合，本发明构建了不同类型的顶点集合以区分各类元素，具体包括表顶点n_τ、行顶点n_r、列顶点n_c、单元格顶点n_x、实体顶点n_e、类型顶点n_t和文本顶点n_s。

2-2.图的边集构建，本发明构建了不同类型的边集以建模不同顶点间的结构、语义关系，具体有表示表格结构关系的表结构边E_t、表示实体与类型关系的知识边E_k、表示特定实体或类型信息的注释边E_a、表示文本与实体对应列关系的辅助边E_u和词汇相似边E_l。

步骤3：基于图结构数据的特征向量化表示，根据图顶点的文本特征使用BERT进行向量化表示，将之转化成图卷积网络模型所需要的特征矩阵，并且根据边集建立模型需要的邻接矩阵。

输入：图的顶点集合N＝{n_τ，n_r，n_c，n_x，n_e，n_t，n_s}，图的边集合E＝{E_t，E_k，E_a，E_u，E_l}。

3-1.特征矩阵构建，本发明对于具有原始文本信息的单元格、实体、类型以及文本四类顶点，使用BERT将其特征向量化表示，而对于表示表格结构关系的行、表和列三类顶点，我们用和该顶点有关(从属关系，如某行顶点包括了该行下的所有单元格顶点)所有单元格的输入特征向量的均值表示，由此构建出了用于模型输入的特征矩阵V。

3-2.邻接矩阵构建，本发明将所有边视为无向边，考虑到顶点具有自相关性，先将邻接矩阵初始化为与顶点数一致的单位矩阵I，通过遍历所有边集并按位置索引赋予边权重的方式获得了图的邻接矩阵A。

步骤4：并行的多任务学习与结果预测，本发明设计了一种多任务学习的训练过程，在实体预测器与类型预测器的基础上增加了对与实体相关的文本的类型预测器，通过训练文本预测器使得模型将注意力集中在文本中与实体、类型相关的词汇上。三个预测器同时输出预测结果，然后根据真实标签计算损失函数，结果为加权和，然后进行反向传播，不断微调和优化模型的参数，反复迭代，当损失函数收敛时停止训练，得到最终的模型参数。将特征矩阵V和邻接矩阵A输入训练好的模型，使用两层图卷积网络(GraphConvolution Network，GCN)获取图顶点集的嵌入表示h，将所有待预测的单元格和列顶点的嵌入特征分别输入实体预测器与类型预测器中的得到预测结果。

输入：特征矩阵V和邻接矩阵A，三个预测任务的训练集样本的真实标签集合

4-1.基于图卷积神经网络GCN的嵌入表示，本发明使用两层GCN获取图结构数据中的潜在语义特征信息，输出所有顶点的嵌入向量表示h。

4-2.基于并行多任务的模型训练，本发明设计了一种联合列-类型、单元格-实体和文本-类型三个预测任务的训练模块以提高模型性能及增强模型鲁棒性。通过同时学习三项任务进行联合训练，以优化我们的模型参数。

4-3.结果预测、实体注释和类型注释，将待预测实体或类别的表数据集合特征输入训练好的模型，经运算后，实体预测器p_x与类别预测器p_c的结果即为最终的模型预测结果，我们接受预测概率最高且超过阈值

的类别

和

若没有一个概率阈值

则拒绝预测(将预测结果赋空)。我们将预测出的实体(或类型)和相应的单元格(或列)匹配，也即进行实体和类型注释的过程。

本发明的有益效果如下：

针对现有研究多直接采用预训练-微调的深度学习语言模型而未考虑到表数据集合与文本数据之间的联系，提出了一种能够结合与实体相关的文本特征的同时对表数据集合进行实体与类型注释的方法。本发明包含文本的提取与预处理方法、由表到图结构的建模方法和多任务学习的方法，能够提升模型对表的结构与语义解析能力，增强鲁棒性并提升模型的预测能力。

其次，相较于现有模型依赖于表格元信息的存在，本发明能够在不依赖元信息的情况下，引入易从知识库获取的实体相关文本数据，性能显著优于现有模型。同时，由于不需要经过大量的预训练，本发明在时间效率上也有一定程度上的提升。

本发明能够在小型和中型数据集上较现有最新方法有显著的提升，目前大部分方法都需要大量的训练数据，这就意味着需要大量人工参与注释数据，本发明可以有效节省人工注释的成本。

附图说明

图1是本发明文本抽取与预处理的流程图；

图2是本发明将表数据、注释数据与文本数据建模为图结构数据的实例；

图3是本发明模型的训练与预测过程图；

图4是本发明实施实例。

具体实施方式

下面结合附图和实例，对本发明的具体实施方案作进一步描述。

如图4所示，本发明的数据输入是一张表格(左侧子图)，通过图1的文本抽取与预处理流程获取到了右侧的与实体相关的文本实例(右侧子图)。模型的整体训练与预测过程如图3所示，输入经过图2建模流程转为图结构数据后，输入模型同时输出实体与类别的预测结果。具体步骤如下：

步骤1：自适应的与实体相关的定义型文本数据的抽取及预处理方法；

如图1所示，本发明设计了一种自适应的从知识库抽取与实体相关的定义型文本并进行预处理的方法。文本从实体所属类型的视角定义了对应实体，因此能够提升模型对表数据集合的理解能力。

输入：表数据集合集T＝{τ¹，τ²，，...，，τⁿ}，每张表含有若干单元格信息

对应每张表的实体注释集

(某些表的实体注释可能为空集

)。

或实体注释数量

未超过第i张表格关键列(Primary Key，PK)非空单元格数目

的一半的表格，

将所有单元格信息经语义筛选后构建候选集合

反之则将该表下所有注释实体名称作为候选集合

1-2.知识库的文本抽取：把两个候选集合中的每一元素作为关键词，从DBpedia知识库中查找相关文本，将结果保存于候选文本集合S^c＝{s₁，...，s_z}。

1-3.开放信息提取：对候选文本集合S^c中的所有文本使用斯坦福的开放信息提取工具Stanford OpenIE抽取关系三元组表示，每一关系三元组由主语、关系词和宾语构成，获得某一文本的关系集合R_s＝{(subject，relation，object)，...}。

1-4.词性标注：对所有的三元组关系使用Spacy自然语言处理工具进行词性(Part-of-Speech)标注，以获取所有三元组关系及不同关系所属词性的集合

1-5.候选集文本的过滤：经过1-3和1-4两个步骤获取了每个候选集合中每个文本对应的三元组关系及其词性，过滤不能生成三元组表示的文本和所有三元组关系中主语及宾语全为停止词和代词的无效文本，得到每张表对应的清洗后的文本集合

步骤2：将表数据集合、注释数据集合和文本数据集合转化为图结构数据的建模方法；

根据表数据集合T、实体注释集合

类型注释集合

和抽取到的文本集合

制定相关规则以构建对应的图顶点集合与边集，由输入实例图4构建出的图结构实例如图2所示。

列

和单元格

(单元格集合可以按行或列的顺序遍历获取)，实体注释集合

(其中

类型注释集合

(其中

文本集合

(这里表示对于每张表τⁱ，都有对应元素项Sⁱ，但可以是空元素

)。

2-1.图的顶点集构建：为了保留结构信息并捕获关键特征，本发明为每个表构建了各种类型的顶点。由给定的所有实体注释集合

和类型注释集合

整合成所有表包含的实体集合

和类型集合

为了全面表达表格数据的内容和结构信息，我们为每张表构建对应的表元素顶点，包括表顶点n_τ、行顶点n_r、列顶点n_c和单元格顶点n_x，与表格包含元素τ，r，c，x一一对应。然后，为了捕捉实体和类型的语义特征，我们为所有实体、类型构建实体顶点n_e和类型顶点n_t。最后，为了联合额外引入的文本信息，我们为每一文本构建文本顶点n_s。由此我们获得了由表数据集合、实体和类型信息以及文本数据建模的图结构的所有顶点集N＝{n_τ，n_r，n_c，n_x，n_e，n_t，n_s}。

2-2.图的边集构建：在构建了一系列图顶点后，我们构建不同类型的边以表示不同顶点间的结构和语义关系，以更好地捕捉表数据集合蕴藏的深层语义信息和结构信息，具体分为表示表格结构关系的表结构边E_t、表示实体与类型关系的知识边E_k、表示特定实体或类型信息的注释边E_a、表示文本与实体对应列关系的辅助边E_u和词汇相似边E_l。

表示表格结构关系的表结构边E_t捕获表格数据的基本浅层结构信息，具体分为单元格顶点n_x和对应行顶点n_r之间的边、单元格顶点n_x和对应列顶点n_c之间的边、表顶点n_τ和该表所有行顶点n_r之间的边以及表顶点n_τ和该表所有列顶点n_c之间的边四种。

表示实体与类型关系的知识边E_k用于表达实体顶点n_e和对应类型顶点n_t之间的关系，如果带有类型注释的某列下存在某单元格被实体注释，那么该实体属于对应类型，即该实体顶点与类型顶点之间存在知识边E_k，但由于网络质量不佳导致的数据丢失问题，可能并非所有实体和类型都存在知识边。

表示单元格或类型的特定实体或类型信息的注释边E_a有单元格顶点n_x和对应实体顶点n_e之间的注释、列顶点n_c和对应类型顶点n_t的注释边两种，以将训练集已有的注释信息建模为模型可理解获取的边特征。

表示文本类型信息的辅助边E_u用于连接起解释实体作用的文本顶点n_s和相应列顶点n_c，我们从知识库中获取到的文本信息为三元组关系结构，即对相应实体是什么类型起解释和描述作用，因此在模型中添加文本特征并建立辅助边能够辅助模型更好完成单元格-实体注释任务和列-类型注释任务。若在文本顶点n_s和单元格顶点n_x之间建立辅助边E_u，这将增加模型捕获潜在特征的开销，且模型更容易受到噪声和弱相关顶点的影响。因此，我们在文本顶点n_s和相应列顶点n_c间构建辅助边E_u。

词汇相似边E_l用于连接所有表数据集合间存在词汇相似性的单元格顶点n_x，以增强模型捕捉单元格顶点间的关系和信息的能力。若两个单元格顶点间基于单词的Jaccard相似度高于设定阈值(经实验验证最佳阈值为0.8)，那么认为这两单元格顶点存在词汇相似边E_l。基于单词的Jaccard相似度是文本

与文本

中交集的单词数除以并集的单词数，计算公式为：

由此我们获得了图边集合E＝{E_t，E_k，E_a，E_u，E_l}。

步骤3：特征向量化表示：根据图顶点的文本信息使用BERT进行特征向量化表示，转化成图卷积网络模型所需要的特征矩阵，并且根据边集建立模型需要的邻接矩阵。

3-1.特征矩阵构建：对于具有原始文本信息的单元格顶点、实体和类型顶点以及文本顶点，我们使用BERT词向量表示方法将原始文本信息转化为对应顶点的输入特征，即这四类顶点的输入特征向量为原始文本包含的所有单词经BERT转化后的特征向量的均值：

而对于行、表和列三类顶点，我们用和该顶点有关(从属关系，如某行顶点包括了该行下的所有单元格顶点)所有单元格顶点的输入特征向量的均值表示，具体来讲，行顶点用该行所有单元格顶点的特征向量的均值表示：

v_r＝mean(∑_x∈rv_x) (3)

同理，列顶点用该列所有单元格顶点的向量均值表示：

v_c＝mean(∑_x∈cv_x) (4)

表顶点的特征则取该表下所有行顶点(或列顶点)的特征向量的均值：

v_τ＝mean(∑_r/c∈τv_r/C) (5)

其中，x∈r表示属于某行下的所有单元格，x∈c表示属于某列下的所有单元格，r/c∈τ表示属于某表下的所有行或者列(取行或者取列都行，二选一)。

这样我们构建出了用于模型输入的所有顶点的特征矩阵

(矩降上标T代表转置操作)，N为顶点总数，所有顶点向量的特征维度均为768。

3-2.邻接矩阵构建：根据构建的图的边集E获得图的二元对称邻接矩阵

具体过程为，考虑到顶点的自相关性，先将矩阵A初始化为与顶点数一致的单位矩阵A＝I，遍历边集E(将边视为无向边且权重均设定为1)以给邻接矩阵A赋值，则图的邻接矩阵A为对称矩阵且矩阵取值只有0和1两种。例如，若存在边

则令邻接矩阵第n_a行第n_b列和第n_b行第n_a列均为1：

由此获得了图的邻接矩阵A。

步骤4：并行的多任务学习与结果预测；

总体流程如图3所示，本发明设计了一种多任务学习的训练方法，在实体预测器与类型预测器的基础上增加了对与实体相关的文本的类型预测器，通过训练文本预测器使得模型将注意力集中在文本中与实体、类型相关的词汇上。三个预测器同时输出预测结果，然后根据真实标签计算损失函数，结果为加权和，然后进行反向传播，不断微调和优化模型的参数，反复迭代，当损失函数收敛时停止训练，得到最终的模型参数。将特征矩阵V和邻接矩阵A输入训练好的模型，使用两层图卷积网络获取图顶点集的嵌入表示h，将所有待预测的单元格和列顶点的嵌入特征分别输入实体预测器与类型预测器中的得到预测结果。

4-1.基于图卷积神经网络GCN的嵌入表示：模型首先将转化后的图结构类型的表数据集合特征矩阵V和邻接矩阵A输入图卷积神经网络中，通过两层图卷积网络层(层数是指顶点特征能够传输的最远距离，对于单层GCN网络，每个顶点只能从其邻居那里获得信息；网络的感受野会随着GCN层数增加而增大，因而可以通过堆叠多个GCN层来合并更高阶的邻域信息。但如果网络太深，那么每个顶点就会受无关顶点的影响，效果反而下降，通过大量实验发现GCN层数设为两层时，效果最好)获取图结构数据中的潜在语义特征信息，输出所有顶点的嵌入向量表示h。两个图卷积层维度分别为512和256，每层图卷积网络的计算公式为：

其中，j表GCN层数，第零层的GCN输入即特征矩阵本身L⁽⁰⁾＝V，后面的每一层输出都作为下一层的输入，第二层的输出即为嵌入表示h＝L⁽²⁾。W_j为该层的权重矩阵，对应具体维度为

是拉普拉斯正则矩阵，D为度矩阵，其对角线上的元素取值为对应顶点的出入度之和(即D_ii＝∑_jA_ij+∑_kA_ki＝2×∑_jA_ij)，也可以说拉普拉斯正则矩阵

是对邻接矩阵A作对称归一化操作的结果。ρ是激活函数，在这里我们使用ReLU激活函数，即ρ(x)＝max(0，x)。由此，我们通过图卷积层获取了关于所有顶点的嵌入表示

4-2.基于并行多任务联合学习的模型训练方法：为了提高模型在两个注释任务上的性能，在获得所有顶点的嵌入表示后，本发明设计了一个多任务学习的训练模块，具体由列-类型、单元格-实体和文本-类型三个预测模块构成。

4-2-1.列-类型的预测任务：为了预测未注释列c的类型t^c，我们将待预测列的嵌入向量h_c先通过投影矩阵P_t投影到类型空间上，然后输入类型预测器。具体来说，我们使用全连接层改变向量维度，然后使用softmax函数输出每个类别的预测值，公式表示为：

p_c＝softmax(W_t(P_th_c)+b_t) (7)

其中，

分别是全连接层的权重矩阵和偏置项，q表示待预测类别总数，softmax计算公式为

U为总类别集合。

4-2-2.单元格-实体的预测任务：和列-类型预测器相似，我们将待预测实体类别e^x的单元格嵌入向量h_x先通过投影矩阵P_e投影到实体空间上，然后输入实体预测器(全连接层+softmax函数)输出各实体类别的预测值。公式表示为：

p_x＝softmax(W_e(P_eh_x)+b_e) (8)

其中，

分别是全连接层的权重矩阵和偏置项，g表示待预测实体总数。

4-2-3.文本-类型的预测任务：为了将模型的注意力集中在文本的实体和类型信息上，我们构建了一个文本类型预测器。文本的类型来自与文本关联的实体对应的类型，所以文本的类型集合是列的类型集合的子集

同样地，我们将待预测类型的文本嵌入向量h_s先通过投影矩阵P_s投影到文本类型空间上，然后构建文本类型预测器(全连接层+softmax函数)输出各类别的预测值。公式表示为：

p_s＝softmax(W_s(P_sh_s)+b_s) (9)

其中，

分别是全连接层的权重矩阵和偏置项，z表示待预测文本类型总数。

4-2-4.联合学习：通过同时学习三项任务进行联合训练，以优化我们的模型参数，优化器采用Adam。单元格的真实实体标签

和列的真实类型标签

来自数据集注释文件，文本的真实类型标签则派生自列类型标签。我们使用交叉熵损失函数作为三个预测任务的损失函数，最终计算出的损失为三项任务的损失加权之和，权重比设为δ₁＝1，δ₂＝2，δ₃＝0.5(实验调节最优值)，具体公式为：

其中，N_C，N_x，N_s分别表示训练列、单元格和文本的样本数量；q，g，z分别表示对应的类别数目；

分别表示三个任务真实类别的符号函数(0或1)，具体来讲，如果样本i的真实类别为j则取1，否则取0；

表示三个任务中样本i属于类别j的预测概率。

通过损失函数的反向传导，不断微调和优化模型的参数，反复迭代，当损失函数收敛时停止训练。得到最终的模型参数。

4-3.结果预测、实体注释和类型注释：由步骤4-2我们获得了训练完成的模型参数，将待预测实体或类别的表数据集合特征输入模型，经运算后，实体预测器p_x与类别预测器p_c的结果即为最终的模型预测结果，我们接受预测概率最高且超过阈值

的类别

和

若没有一个概率阈值

则拒绝预测(将预测结果赋空)，具体公式为：

其中，A？B：C为三目运算符，表示若A成立则返回B，否则返回C，argmax函数返回最大值对应的下标，g，q对应实体和类型总数，

表示特定单元格经过实体预测器产生的可能属于每个实体的概率数组，

表示特定列经过类型预测器产生的可能属于每个类型的概率数组。我们将预测出的实体(或类型)和相应的单元格(或列)匹配，也即进行实体和类型注释的过程。

实施例：我们在Wiki M、Web M、Limaye、T2Dv2和Wikipedia五个数据集上进行了实验，实验过程中复现了ColNet、TaBERT、TURL、Doduo四个主流模型，以和我们的方法对比结果。五类数据集的统计表格见表1，其中T2Dv2和Wikipedia没有实体注释，因此在这两类数据集上不能完成单元格-实体预测任务。

表1数据集统计数据(-表示该类数据集没有对应内容)

实验结果见表2所示，评估指标选用了微平均F1分数(Micro-average F1-score)。从结果可以看出，除了在Wiki M的列-类型预测任务上没有TURL模型好之外(因为TURL预训练的语料库包含了Wiki M所有表数据，所以在这个数据集上TURL存在过拟合问题)，在所有数据集上我们和其他模型的精度相比都有着较大提升(最大在T2Dv2的列-类型预测任务上提升了30％)。ColNet、TaBERT、TURL和Doduo只能完成对列的类型预测任务，而我们的模型(Ours)因为采用多任务预测模块，可以同时完成对单元格-实体预测任务和列-类型预测任务。因此能够证明我们所提出方法的优异性能。

表2实验结果(-表示这类模型不能完成特定任务)

Claims

1.基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于包括如下步骤：

输入：表数据集合集T＝{τ¹,τ²,,…,,τⁿ}，每张表含有多个列

每列含有若干单元格信息

对应每张表的实体注释集

或实体注释数量

未超过第i张表格关键列PK非空单元格数目

的一半的表格，

将所有单元格信息经语义筛选后构建候选集合

反之则将该表下所有注释实体名称作为候选集合

1-2.知识库的文本抽取：把两个候选集合中的每一元素作为关键词，从知识库中查找与候选集合中的元素相关的文本，将结果保存于候选文本集合S^c＝{s₁,…}；

1-3.开放信息提取：对候选文本集合S^c中的所有文本使用斯坦福的开放信息提取工具Stanford OpenIE抽取关系三元组表示R_s＝{(subject,relation,object),…}，每一关系三元组由主语、关系词和宾语构成，获得某一文本的关系集合R_s；

1-4.词性标注：对三元组关系使用spacy自然语言处理工具进行词性标注，以获取所有三元组关系及不同关系所属词性的集合

1-5.候选集文本的过滤：筛除不能生成三元组表示的文本和所有三元组关系中主语及宾语全为停止词和代词的文本，得到清洗后的文本集合

步骤3：特征向量化表示：根据图顶点的文本信息使用BERT进行特征向量化表示，转化成图卷积网络模型所需要的特征矩阵，并且根据边集建立模型需要的邻接矩阵；

步骤4：并行的多任务学习与结果预测。

2.根据权利要求1所述的基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于步骤2具体实现如下：

输入：表数据集合T＝{τ¹,τ²,…,τⁿ}，每张表τⁱ＝(Rⁱ,Cⁱ,Xⁱ)包含了若干行

列

和单元格

实体注释集合

其中

类型注释集合

其中

文本集合

这里表示对于每张表τⁱ，都有对应元素项Sⁱ，且可以是空元素

2-1.图的顶点集构建，由给定的所有表数据集合、注释数据集合和相关文本数据集合，构建不同类型的顶点集合以区分各类元素，具体包括表顶点n_τ、行顶点n_r、列顶点n_c、单元格顶点n_x、实体顶点n_e、类型顶点n_t和文本顶点n_s；

2-2.图的边集构建，构建不同类型的边集以建模不同顶点间的结构、语义关系，具体有表示表格结构关系的表结构边E_t、表示实体与类型关系的知识边E_k、表示特定实体或类型信息的注释边E_a、表示文本与实体对应列关系的辅助边E_u和词汇相似边E_l。

3.根据权利要求2所述的基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于步骤2-2具体实现如下：

表示表格结构关系的表结构边E_t捕获表格数据的基本浅层结构信息，具体分为单元格顶点n_x和对应行顶点n_r之间的边、单元格顶点n_x和对应列顶点n_c之间的边、表顶点n_τ和该表所有行顶点n_r之间的边以及表顶点n_τ和该表所有列顶点n_c之间的边四种；

表示实体与类型关系的知识边E_k用于表达实体顶点n_e和对应类型顶点n_t之间的关系，如果带有类型注释的某列下存在某单元格被实体注释，那么该实体属于对应类型，即该实体顶点与类型顶点之间存在知识边E_k，但由于网络质量不佳导致的数据丢失问题，可能并非所有实体和类型都存在知识边；

表示单元格或类型的特定实体或类型信息的注释边E_a有单元格顶点n_x和对应实体顶点n_e之间的注释、列顶点n_c和对应类型顶点n_t的注释边两种，以将训练集已有的注释信息建模为模型可理解获取的边特征；

表示文本类型信息的辅助边E_u用于连接起解释实体作用的文本顶点n_s和相应列顶点n_c，从知识库中获取到的文本信息为三元组关系结构，因此在模型中添加文本特征并建立辅助边能够辅助模型更好完成单元格-实体注释任务和列-类型注释任务；

词汇相似边E_l用于连接所有表数据集合间存在词汇相似性的单元格顶点n_x，以增强模型捕捉单元格顶点间的关系和信息的能力；若两个单元格顶点间基于单词的Jaccard相似度高于设定阈值，那么认为这两单元格顶点存在词汇相似边E_l；基于单词的Jaccard相似度是文本

与文本

中交集的单词数除以并集的单词数，计算公式为：

由此获得图边集合E＝{E_t,E_k,E_a,E_u,E_l}。

4.根据权利要求2或3所述的基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于步骤3所述的特征向量化表示的输入为：图的顶点集合N＝{n_τ,n_r,n_c,n_x,n_e,n_t,n_s}，图的边集合E＝{E_t,E_k,E_a,E_u,E_l}。

5.根据权利要求4所述的基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于步骤3的具体实现包括：

3-1.特征矩阵构建：对于具有原始文本信息的单元格顶点、实体和类型顶点以及文本顶点，使用BERT词向量表示方法将原始文本信息转化为对应顶点的输入特征，即这四类顶点的输入特征向量为原始文本包含的所有单词经BERT转化后的特征向量的均值：

而对于行、表和列三类顶点，用和该顶点有关的所有单元格顶点的输入特征向量的均值表示，具体来讲，行顶点用该行所有单元格顶点的特征向量的均值表示:

v_r＝mean(∑_x∈rv_x) (3)

列顶点用该列所有单元格顶点的向量均值表示:

v_c＝mean(∑_x∈cv_x) (4)

表顶点的特征则取该表下所有行顶点或列顶点的特征向量的均值:

v_τ＝mean(Σ_r/c∈τv_r/c) (5)

其中，x∈r表示属于某行下的所有单元格，x∈c表示属于某列下的所有单元格，r/c∈τ表示属于某表下的所有行或者列；

因此构建出的用于模型输入的所有顶点的特征矩阵

N为顶点总数，所有顶点向量的特征维度均为768。

6.根据权利要求5所述的基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于步骤3的具体实现还包括：

3-2.邻接矩阵构建：将所有边视为无向边，考虑到顶点具有自相关性，先将邻接矩阵初始化为与顶点数一致的单位矩阵I，通过遍历所有边集并按位置索引赋予边权重的方式获得了图的邻接矩阵A。

7.根据权利要求6所述的基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于步骤4设计了一种多任务学习的训练过程，在实体预测器与类型预测器的基础上增加了对与实体相关的文本的类型预测器，通过训练文本预测器使得模型将注意力集中在文本中与实体、类型相关的词汇上；三个预测器同时输出预测结果，然后根据真实标签计算损失函数，结果为加权和，然后进行反向传播，不断微调和优化模型的参数，反复迭代，当损失函数收敛时停止训练，得到最终的模型参数；将特征矩阵V和邻接矩阵A输入训练好的模型，使用两层图卷积网络获取图顶点集的嵌入表示h，将所有待预测的单元格和列顶点的嵌入特征分别输入实体预测器与类型预测器中的得到预测结果。

8.根据权利要求6或7所述的基于图卷积网络的联合文本增强的表实体与类型注释方法，其特征在于步骤4具体实现如下：