CN116127099A - 基于图卷积网络的联合文本增强的表实体与类型注释方法 - Google Patents
基于图卷积网络的联合文本增强的表实体与类型注释方法 Download PDFInfo
- Publication number
- CN116127099A CN116127099A CN202310198892.XA CN202310198892A CN116127099A CN 116127099 A CN116127099 A CN 116127099A CN 202310198892 A CN202310198892 A CN 202310198892A CN 116127099 A CN116127099 A CN 116127099A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- type
- vertex
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000005096 rolling process Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000547 structure data Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000003491 array Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 31
- 239000010410 layer Substances 0.000 description 24
- 238000013135 deep learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241000834151 Notesthes Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于图卷积网络的联合文本增强的表实体与类型注释方法。本发明步骤:1:自适应的与实体相关的定义型文本数据的抽取及预处理;2:将表数据集合、注释数据集合和文本数据集合转化为图结构数据的建模;3:特征向量化表示:根据图顶点的文本信息使用BERT进行特征向量化表示,转化成图卷积网络模型所需要的特征矩阵,并且根据边集建立模型需要的邻接矩阵;4:并行的多任务学习与结果预测。本发明包含文本的提取与预处理、由表到图结构的建模和多任务学习,能够提升模型对表的结构与语义解析能力,增强鲁棒性并提升模型的预测能力。同时能够在不依赖元信息的情况下,引入易从知识库获取的实体相关文本数据,性能显著优于现有模型。
Description
技术领域
本发明涉及自然语言处理领域与深度学习网络模型,具体涉及一种基于图卷积网络的联合文本增强的表实体与类型注释方法。
背景技术
对表格数据进行实体注释和类型注释的任务是从表格数据到知识图谱的匹配任务的两项子任务,该任务是将语义标签从知识图谱(例如Wikidata或DBpedia两个知识库)分配给表格元素的过程。具体来讲,实体注释任务是对表格内与某实体相关的单元格添加实体注释的过程,而类型注释任务是对表格内与某类型相关的列添加类型注释的过程。近年来,随着互联网的迅猛发展和大数据时代的到来,表格数据集合在网络中变得越来越普遍,,如何从纷繁冗杂的表数据集合集中整理出有价值的信息已成为数据挖掘、数据分析、机器学习与知识发现等方向的研究热点。庞大的数据集也使得传统依靠手动构建特征的概率推理模型不再适用,这给这项任务带来了一定挑战。
随着基于深度学习的神经网络模型在自然处理领域的流行,在表数据集合上应用深度神经网络模型的有关研究已成为热点。如今针对表数据集合且采用神经网络模型的主流注释方法可根据是否采用预训练-微调范式(先通过大型语料库进行预训练,然后在目标训练集上仅需小数目训练即可达到最佳精度的模式)分为预训练-微调方法和非预训练-微调方法两种,代表方法分别为TURL和TCN。两类方法都使用BERT将表内信息向量化,不同之处在于TURL将表格元信息(表名、主题等信息)同表格内部信息一起输入Transformer,通过对不同类型的信息间建立可见性矩阵以供注意力机制分别计算不同种类信息的注意力向量,并在掩码语言模型的基础上提出了掩码实体恢复的预训练方法。(2)TCN设计了一种表卷积网络模型,提出了可以聚合表内和表间相关信息的注意力机制。两种方法都在表的类型注释任务上取得了更优结果。然而,TURL按列序对表内容进行编码,忽视了行间联系,因此不能完全捕捉到表格的结构信息。并且,两种方法都依赖于表格元信息,由于网络数据质量参差不齐,以及某些时刻可能出现的网络波动导致的传输错误等问题,从网络中获取到的表格数据经常会遇到元信息缺失的情况,因此对模型的性能影响极大。还有,表格信息大多以文本字符串形式呈现,现有方法没有意识到联合文本能够增强模型对表格的理解能力的作用。此外,这两种方法仅考虑了对表格列的类型注释,不能完成对表格单元格的实体注释任务,割裂了两个任务之间的联系。
因此,本发明拟针对现有深度学习模型在表格注释任务上存在的过度依赖元信息、无法完全获取结构信息、未考虑到表格与文本间联系的问题,引入一种来自知识库且易获取的实体相关文本来帮助模型更好地理解表语义与结构信息,提出能够克服元信息缺失问题、联合文本增强模型的表理解能力、基于图卷积网络捕捉完整表结构信息、采用并行多任务学习的表实体与类型注释方法。
发明内容
针对上述问题,本发明提出了一种基于图卷积网络的联合文本增强的表实体与类型注释方法。基于图卷积网络的联合文本增强的多任务学习的表实体与类型注释方法,通过并行多任务学习提升模型的鲁棒性与预测能力。
本发明解决其技术问题所采用的技术方案如下:
步骤1:自适应的与实体相关的定义型文本数据的抽取及预处理;
本发明设计了一种自适应的从知识库抽取与实体相关的定义型文本并进行预处理的方法。文本从实体所属类型的视角定义了对应实体,因此能够提升模型对表数据集合的理解能力。本发明采用自适应的方法从知识库中抽取和每个表格包含所有实体相关的文本数据,经开放信息操作与词性标注操作,来滤除只包含代词、停止词作为主语和宾语的无效文本;将抽取结果(滤除无效文本后的文本数据)依照原表内容顺序存储。自适应能够解决不存在实体注释的表格的文本抽取问题,且针对存在实体注释的表格按实体注释数量决定是否直接检索所有注释实体名称的方式能够加快抽取文本的速度,在保证具有一定有意义文本数量的同时提升该方法的效率。
1-1.自适应的候选集合选取方法;自适应是指对于没有实体注释信息或实体注释数量未超过第i张表格关键列(Primary Key,PK)非空单元格数目的一半的表格,将所有单元格信息经语义筛选后构建候选集合反之则将该表下所有注释实体名称作为候选集合
1-2.知识库的文本抽取:把两个候选集合中的每一元素作为关键词,从知识库中查找与候选集合中的元素相关的文本,将结果保存于候选文本集合Sc={s1,...}。
1-3.开放信息提取:对候选文本集合Sc中的所有文本使用斯坦福的开放信息提取工具Stanford OpenIE抽取关系三元组表示Rs={(subject,relation,object),...},每一关系三元组由主语、关系词和宾语构成,获得某一文本的关系集合Rs。
1-5.候选集文本的过滤:经过1-3和1-4两个步骤获取了每个候选集合中每个文本对应的三元组关系及其词性,筛除不能生成三元组表示的文本和所有三元组关系中主语及宾语全为停止词和代词的文本,得到清洗后的文本集合
步骤2:对表数据集合、注释数据和文本数据的联合图结构建模,本发明设计了一种图结构建模规则,根据表数据集合T、注释数据集合和文本数据集合构建对应的图结构顶点以区分不同元素,构建边集以阐明顶点之间的联系。由输入实例图4构建出的图结构实例如图2所示。
输入:表数据集合T={τ1,τ2,...,τn},每张表τi=(Ri,Ci,Xi)包含了若干行 列和单元格(单元格集合可以按行或列的顺序遍历获取),实体注释集合(其中 类型注释集合(其中),文本集合 这里表示对于每张表τi,都有对应元素项Si,但可以是空元素
2-1.图的顶点集构建,由给定的所有表数据集合、注释数据集合和相关文本数据集合,本发明构建了不同类型的顶点集合以区分各类元素,具体包括表顶点nτ、行顶点nr、列顶点nc、单元格顶点nx、实体顶点ne、类型顶点nt和文本顶点ns。
2-2.图的边集构建,本发明构建了不同类型的边集以建模不同顶点间的结构、语义关系,具体有表示表格结构关系的表结构边Et、表示实体与类型关系的知识边Ek、表示特定实体或类型信息的注释边Ea、表示文本与实体对应列关系的辅助边Eu和词汇相似边El。
步骤3:基于图结构数据的特征向量化表示,根据图顶点的文本特征使用BERT进行向量化表示,将之转化成图卷积网络模型所需要的特征矩阵,并且根据边集建立模型需要的邻接矩阵。
输入:图的顶点集合N={nτ,nr,nc,nx,ne,nt,ns},图的边集合E={Et,Ek,Ea,Eu,El}。
3-1.特征矩阵构建,本发明对于具有原始文本信息的单元格、实体、类型以及文本四类顶点,使用BERT将其特征向量化表示,而对于表示表格结构关系的行、表和列三类顶点,我们用和该顶点有关(从属关系,如某行顶点包括了该行下的所有单元格顶点)所有单元格的输入特征向量的均值表示,由此构建出了用于模型输入的特征矩阵V。
3-2.邻接矩阵构建,本发明将所有边视为无向边,考虑到顶点具有自相关性,先将邻接矩阵初始化为与顶点数一致的单位矩阵I,通过遍历所有边集并按位置索引赋予边权重的方式获得了图的邻接矩阵A。
步骤4:并行的多任务学习与结果预测,本发明设计了一种多任务学习的训练过程,在实体预测器与类型预测器的基础上增加了对与实体相关的文本的类型预测器,通过训练文本预测器使得模型将注意力集中在文本中与实体、类型相关的词汇上。三个预测器同时输出预测结果,然后根据真实标签计算损失函数,结果为加权和,然后进行反向传播,不断微调和优化模型的参数,反复迭代,当损失函数收敛时停止训练,得到最终的模型参数。将特征矩阵V和邻接矩阵A输入训练好的模型,使用两层图卷积网络(GraphConvolution Network,GCN)获取图顶点集的嵌入表示h,将所有待预测的单元格和列顶点的嵌入特征分别输入实体预测器与类型预测器中的得到预测结果。
4-1.基于图卷积神经网络GCN的嵌入表示,本发明使用两层GCN获取图结构数据中的潜在语义特征信息,输出所有顶点的嵌入向量表示h。
4-2.基于并行多任务的模型训练,本发明设计了一种联合列-类型、单元格-实体和文本-类型三个预测任务的训练模块以提高模型性能及增强模型鲁棒性。通过同时学习三项任务进行联合训练,以优化我们的模型参数。
4-3.结果预测、实体注释和类型注释,将待预测实体或类别的表数据集合特征输入训练好的模型,经运算后,实体预测器px与类别预测器pc的结果即为最终的模型预测结果,我们接受预测概率最高且超过阈值的类别和若没有一个概率阈值则拒绝预测(将预测结果赋空)。我们将预测出的实体(或类型)和相应的单元格(或列)匹配,也即进行实体和类型注释的过程。
本发明的有益效果如下:
针对现有研究多直接采用预训练-微调的深度学习语言模型而未考虑到表数据集合与文本数据之间的联系,提出了一种能够结合与实体相关的文本特征的同时对表数据集合进行实体与类型注释的方法。本发明包含文本的提取与预处理方法、由表到图结构的建模方法和多任务学习的方法,能够提升模型对表的结构与语义解析能力,增强鲁棒性并提升模型的预测能力。
其次,相较于现有模型依赖于表格元信息的存在,本发明能够在不依赖元信息的情况下,引入易从知识库获取的实体相关文本数据,性能显著优于现有模型。同时,由于不需要经过大量的预训练,本发明在时间效率上也有一定程度上的提升。
本发明能够在小型和中型数据集上较现有最新方法有显著的提升,目前大部分方法都需要大量的训练数据,这就意味着需要大量人工参与注释数据,本发明可以有效节省人工注释的成本。
附图说明
图1是本发明文本抽取与预处理的流程图;
图2是本发明将表数据、注释数据与文本数据建模为图结构数据的实例;
图3是本发明模型的训练与预测过程图;
图4是本发明实施实例。
具体实施方式
下面结合附图和实例,对本发明的具体实施方案作进一步描述。
如图4所示,本发明的数据输入是一张表格(左侧子图),通过图1的文本抽取与预处理流程获取到了右侧的与实体相关的文本实例(右侧子图)。模型的整体训练与预测过程如图3所示,输入经过图2建模流程转为图结构数据后,输入模型同时输出实体与类别的预测结果。具体步骤如下:
步骤1:自适应的与实体相关的定义型文本数据的抽取及预处理方法;
如图1所示,本发明设计了一种自适应的从知识库抽取与实体相关的定义型文本并进行预处理的方法。文本从实体所属类型的视角定义了对应实体,因此能够提升模型对表数据集合的理解能力。
1-1.自适应的候选集合选取方法;自适应是指对于没有实体注释信息或实体注释数量未超过第i张表格关键列(Primary Key,PK)非空单元格数目的一半的表格,将所有单元格信息经语义筛选后构建候选集合反之则将该表下所有注释实体名称作为候选集合
1-2.知识库的文本抽取:把两个候选集合中的每一元素作为关键词,从DBpedia知识库中查找相关文本,将结果保存于候选文本集合Sc={s1,...,sz}。
1-3.开放信息提取:对候选文本集合Sc中的所有文本使用斯坦福的开放信息提取工具Stanford OpenIE抽取关系三元组表示,每一关系三元组由主语、关系词和宾语构成,获得某一文本的关系集合Rs={(subject,relation,object),...}。
1-5.候选集文本的过滤:经过1-3和1-4两个步骤获取了每个候选集合中每个文本对应的三元组关系及其词性,过滤不能生成三元组表示的文本和所有三元组关系中主语及宾语全为停止词和代词的无效文本,得到每张表对应的清洗后的文本集合
步骤2:将表数据集合、注释数据集合和文本数据集合转化为图结构数据的建模方法;
输入:表数据集合T={τ1,τ2,...,τn},每张表τi=(Ri,Ci,Xi)包含了若干行 列和单元格(单元格集合可以按行或列的顺序遍历获取),实体注释集合(其中 类型注释集合(其中文本集合 (这里表示对于每张表τi,都有对应元素项Si,但可以是空元素)。
2-1.图的顶点集构建:为了保留结构信息并捕获关键特征,本发明为每个表构建了各种类型的顶点。由给定的所有实体注释集合和类型注释集合整合成所有表包含的实体集合和类型集合为了全面表达表格数据的内容和结构信息,我们为每张表构建对应的表元素顶点,包括表顶点nτ、行顶点nr、列顶点nc和单元格顶点nx,与表格包含元素τ,r,c,x一一对应。然后,为了捕捉实体和类型的语义特征,我们为所有实体、类型构建实体顶点ne和类型顶点nt。最后,为了联合额外引入的文本信息,我们为每一文本构建文本顶点ns。由此我们获得了由表数据集合、实体和类型信息以及文本数据建模的图结构的所有顶点集N={nτ,nr,nc,nx,ne,nt,ns}。
2-2.图的边集构建:在构建了一系列图顶点后,我们构建不同类型的边以表示不同顶点间的结构和语义关系,以更好地捕捉表数据集合蕴藏的深层语义信息和结构信息,具体分为表示表格结构关系的表结构边Et、表示实体与类型关系的知识边Ek、表示特定实体或类型信息的注释边Ea、表示文本与实体对应列关系的辅助边Eu和词汇相似边El。
表示表格结构关系的表结构边Et捕获表格数据的基本浅层结构信息,具体分为单元格顶点nx和对应行顶点nr之间的边、单元格顶点nx和对应列顶点nc之间的边、表顶点nτ和该表所有行顶点nr之间的边以及表顶点nτ和该表所有列顶点nc之间的边四种。
表示实体与类型关系的知识边Ek用于表达实体顶点ne和对应类型顶点nt之间的关系,如果带有类型注释的某列下存在某单元格被实体注释,那么该实体属于对应类型,即该实体顶点与类型顶点之间存在知识边Ek,但由于网络质量不佳导致的数据丢失问题,可能并非所有实体和类型都存在知识边。
表示单元格或类型的特定实体或类型信息的注释边Ea有单元格顶点nx和对应实体顶点ne之间的注释、列顶点nc和对应类型顶点nt的注释边两种,以将训练集已有的注释信息建模为模型可理解获取的边特征。
表示文本类型信息的辅助边Eu用于连接起解释实体作用的文本顶点ns和相应列顶点nc,我们从知识库中获取到的文本信息为三元组关系结构,即对相应实体是什么类型起解释和描述作用,因此在模型中添加文本特征并建立辅助边能够辅助模型更好完成单元格-实体注释任务和列-类型注释任务。若在文本顶点ns和单元格顶点nx之间建立辅助边Eu,这将增加模型捕获潜在特征的开销,且模型更容易受到噪声和弱相关顶点的影响。因此,我们在文本顶点ns和相应列顶点nc间构建辅助边Eu。
词汇相似边El用于连接所有表数据集合间存在词汇相似性的单元格顶点nx,以增强模型捕捉单元格顶点间的关系和信息的能力。若两个单元格顶点间基于单词的Jaccard相似度高于设定阈值(经实验验证最佳阈值为0.8),那么认为这两单元格顶点存在词汇相似边El。基于单词的Jaccard相似度是文本与文本中交集的单词数除以并集的单词数,计算公式为:
由此我们获得了图边集合E={Et,Ek,Ea,Eu,El}。
步骤3:特征向量化表示:根据图顶点的文本信息使用BERT进行特征向量化表示,转化成图卷积网络模型所需要的特征矩阵,并且根据边集建立模型需要的邻接矩阵。
输入:图的顶点集合N={nτ,nr,nc,nx,ne,nt,ns},图的边集合E={Et,Ek,Ea,Eu,El}。
3-1.特征矩阵构建:对于具有原始文本信息的单元格顶点、实体和类型顶点以及文本顶点,我们使用BERT词向量表示方法将原始文本信息转化为对应顶点的输入特征,即这四类顶点的输入特征向量为原始文本包含的所有单词经BERT转化后的特征向量的均值:
而对于行、表和列三类顶点,我们用和该顶点有关(从属关系,如某行顶点包括了该行下的所有单元格顶点)所有单元格顶点的输入特征向量的均值表示,具体来讲,行顶点用该行所有单元格顶点的特征向量的均值表示:
vr=mean(∑x∈rvx) (3)
同理,列顶点用该列所有单元格顶点的向量均值表示:
vc=mean(∑x∈cvx) (4)
表顶点的特征则取该表下所有行顶点(或列顶点)的特征向量的均值:
vτ=mean(∑r/c∈τvr/C) (5)
其中,x∈r表示属于某行下的所有单元格,x∈c表示属于某列下的所有单元格,r/c∈τ表示属于某表下的所有行或者列(取行或者取列都行,二选一)。
3-2.邻接矩阵构建:根据构建的图的边集E获得图的二元对称邻接矩阵 具体过程为,考虑到顶点的自相关性,先将矩阵A初始化为与顶点数一致的单位矩阵A=I,遍历边集E(将边视为无向边且权重均设定为1)以给邻接矩阵A赋值,则图的邻接矩阵A为对称矩阵且矩阵取值只有0和1两种。例如,若存在边则令邻接矩阵第na行第nb列和第nb行第na列均为1:由此获得了图的邻接矩阵A。
步骤4:并行的多任务学习与结果预测;
总体流程如图3所示,本发明设计了一种多任务学习的训练方法,在实体预测器与类型预测器的基础上增加了对与实体相关的文本的类型预测器,通过训练文本预测器使得模型将注意力集中在文本中与实体、类型相关的词汇上。三个预测器同时输出预测结果,然后根据真实标签计算损失函数,结果为加权和,然后进行反向传播,不断微调和优化模型的参数,反复迭代,当损失函数收敛时停止训练,得到最终的模型参数。将特征矩阵V和邻接矩阵A输入训练好的模型,使用两层图卷积网络获取图顶点集的嵌入表示h,将所有待预测的单元格和列顶点的嵌入特征分别输入实体预测器与类型预测器中的得到预测结果。
4-1.基于图卷积神经网络GCN的嵌入表示:模型首先将转化后的图结构类型的表数据集合特征矩阵V和邻接矩阵A输入图卷积神经网络中,通过两层图卷积网络层(层数是指顶点特征能够传输的最远距离,对于单层GCN网络,每个顶点只能从其邻居那里获得信息;网络的感受野会随着GCN层数增加而增大,因而可以通过堆叠多个GCN层来合并更高阶的邻域信息。但如果网络太深,那么每个顶点就会受无关顶点的影响,效果反而下降,通过大量实验发现GCN层数设为两层时,效果最好)获取图结构数据中的潜在语义特征信息,输出所有顶点的嵌入向量表示h。两个图卷积层维度分别为512和256,每层图卷积网络的计算公式为:
其中,j表GCN层数,第零层的GCN输入即特征矩阵本身L(0)=V,后面的每一层输出都作为下一层的输入,第二层的输出即为嵌入表示h=L(2)。Wj为该层的权重矩阵,对应具体维度为 是拉普拉斯正则矩阵,D为度矩阵,其对角线上的元素取值为对应顶点的出入度之和(即Dii=∑jAij+∑kAki=2×∑jAij),也可以说拉普拉斯正则矩阵是对邻接矩阵A作对称归一化操作的结果。ρ是激活函数,在这里我们使用ReLU激活函数,即ρ(x)=max(0,x)。由此,我们通过图卷积层获取了关于所有顶点的嵌入表示
4-2.基于并行多任务联合学习的模型训练方法:为了提高模型在两个注释任务上的性能,在获得所有顶点的嵌入表示后,本发明设计了一个多任务学习的训练模块,具体由列-类型、单元格-实体和文本-类型三个预测模块构成。
4-2-1.列-类型的预测任务:为了预测未注释列c的类型tc,我们将待预测列的嵌入向量hc先通过投影矩阵Pt投影到类型空间上,然后输入类型预测器。具体来说,我们使用全连接层改变向量维度,然后使用softmax函数输出每个类别的预测值,公式表示为:
pc=softmax(Wt(Pthc)+bt) (7)
4-2-2.单元格-实体的预测任务:和列-类型预测器相似,我们将待预测实体类别ex的单元格嵌入向量hx先通过投影矩阵Pe投影到实体空间上,然后输入实体预测器(全连接层+softmax函数)输出各实体类别的预测值。公式表示为:
px=softmax(We(Pehx)+be) (8)
4-2-3.文本-类型的预测任务:为了将模型的注意力集中在文本的实体和类型信息上,我们构建了一个文本类型预测器。文本的类型来自与文本关联的实体对应的类型,所以文本的类型集合是列的类型集合的子集同样地,我们将待预测类型的文本嵌入向量hs先通过投影矩阵Ps投影到文本类型空间上,然后构建文本类型预测器(全连接层+softmax函数)输出各类别的预测值。公式表示为:
ps=softmax(Ws(Pshs)+bs) (9)
4-2-4.联合学习:通过同时学习三项任务进行联合训练,以优化我们的模型参数,优化器采用Adam。单元格的真实实体标签和列的真实类型标签来自数据集注释文件,文本的真实类型标签则派生自列类型标签。我们使用交叉熵损失函数作为三个预测任务的损失函数,最终计算出的损失为三项任务的损失加权之和,权重比设为δ1=1,δ2=2,δ3=0.5(实验调节最优值),具体公式为:
其中,NC,Nx,Ns分别表示训练列、单元格和文本的样本数量;q,g,z分别表示对应的类别数目;分别表示三个任务真实类别的符号函数(0或1),具体来讲,如果样本i的真实类别为j则取1,否则取0;表示三个任务中样本i属于类别j的预测概率。
通过损失函数的反向传导,不断微调和优化模型的参数,反复迭代,当损失函数收敛时停止训练。得到最终的模型参数。
4-3.结果预测、实体注释和类型注释:由步骤4-2我们获得了训练完成的模型参数,将待预测实体或类别的表数据集合特征输入模型,经运算后,实体预测器px与类别预测器pc的结果即为最终的模型预测结果,我们接受预测概率最高且超过阈值的类别和若没有一个概率阈值则拒绝预测(将预测结果赋空),具体公式为:
其中,A?B:C为三目运算符,表示若A成立则返回B,否则返回C,argmax函数返回最大值对应的下标,g,q对应实体和类型总数,表示特定单元格经过实体预测器产生的可能属于每个实体的概率数组,表示特定列经过类型预测器产生的可能属于每个类型的概率数组。我们将预测出的实体(或类型)和相应的单元格(或列)匹配,也即进行实体和类型注释的过程。
实施例:我们在Wiki M、Web M、Limaye、T2Dv2和Wikipedia五个数据集上进行了实验,实验过程中复现了ColNet、TaBERT、TURL、Doduo四个主流模型,以和我们的方法对比结果。五类数据集的统计表格见表1,其中T2Dv2和Wikipedia没有实体注释,因此在这两类数据集上不能完成单元格-实体预测任务。
表1数据集统计数据(-表示该类数据集没有对应内容)
实验结果见表2所示,评估指标选用了微平均F1分数(Micro-average F1-score)。从结果可以看出,除了在Wiki M的列-类型预测任务上没有TURL模型好之外(因为TURL预训练的语料库包含了Wiki M所有表数据,所以在这个数据集上TURL存在过拟合问题),在所有数据集上我们和其他模型的精度相比都有着较大提升(最大在T2Dv2的列-类型预测任务上提升了30%)。ColNet、TaBERT、TURL和Doduo只能完成对列的类型预测任务,而我们的模型(Ours)因为采用多任务预测模块,可以同时完成对单元格-实体预测任务和列-类型预测任务。因此能够证明我们所提出方法的优异性能。
表2实验结果(-表示这类模型不能完成特定任务)
Claims (10)
1.基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于包括如下步骤:
步骤1:自适应的与实体相关的定义型文本数据的抽取及预处理;
1-1.自适应的候选集合选取方法;自适应是指对于没有实体注释信息或实体注释数量未超过第i张表格关键列PK非空单元格数目的一半的表格,将所有单元格信息经语义筛选后构建候选集合反之则将该表下所有注释实体名称作为候选集合
1-2.知识库的文本抽取:把两个候选集合中的每一元素作为关键词,从知识库中查找与候选集合中的元素相关的文本,将结果保存于候选文本集合Sc={s1,…};
1-3.开放信息提取:对候选文本集合Sc中的所有文本使用斯坦福的开放信息提取工具Stanford OpenIE抽取关系三元组表示Rs={(subject,relation,object),…},每一关系三元组由主语、关系词和宾语构成,获得某一文本的关系集合Rs;
步骤2:将表数据集合、注释数据集合和文本数据集合转化为图结构数据的建模方法;
步骤3:特征向量化表示:根据图顶点的文本信息使用BERT进行特征向量化表示,转化成图卷积网络模型所需要的特征矩阵,并且根据边集建立模型需要的邻接矩阵;
步骤4:并行的多任务学习与结果预测。
2.根据权利要求1所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤2具体实现如下:
输入:表数据集合T={τ1,τ2,…,τn},每张表τi=(Ri,Ci,Xi)包含了若干行 列和单元格实体注释集合其中类型注释集合其中文本集合这里表示对于每张表τi,都有对应元素项Si,且可以是空元素
2-1.图的顶点集构建,由给定的所有表数据集合、注释数据集合和相关文本数据集合,构建不同类型的顶点集合以区分各类元素,具体包括表顶点nτ、行顶点nr、列顶点nc、单元格顶点nx、实体顶点ne、类型顶点nt和文本顶点ns;
2-2.图的边集构建,构建不同类型的边集以建模不同顶点间的结构、语义关系,具体有表示表格结构关系的表结构边Et、表示实体与类型关系的知识边Ek、表示特定实体或类型信息的注释边Ea、表示文本与实体对应列关系的辅助边Eu和词汇相似边El。
3.根据权利要求2所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤2-2具体实现如下:
表示表格结构关系的表结构边Et捕获表格数据的基本浅层结构信息,具体分为单元格顶点nx和对应行顶点nr之间的边、单元格顶点nx和对应列顶点nc之间的边、表顶点nτ和该表所有行顶点nr之间的边以及表顶点nτ和该表所有列顶点nc之间的边四种;
表示实体与类型关系的知识边Ek用于表达实体顶点ne和对应类型顶点nt之间的关系,如果带有类型注释的某列下存在某单元格被实体注释,那么该实体属于对应类型,即该实体顶点与类型顶点之间存在知识边Ek,但由于网络质量不佳导致的数据丢失问题,可能并非所有实体和类型都存在知识边;
表示单元格或类型的特定实体或类型信息的注释边Ea有单元格顶点nx和对应实体顶点ne之间的注释、列顶点nc和对应类型顶点nt的注释边两种,以将训练集已有的注释信息建模为模型可理解获取的边特征;
表示文本类型信息的辅助边Eu用于连接起解释实体作用的文本顶点ns和相应列顶点nc,从知识库中获取到的文本信息为三元组关系结构,因此在模型中添加文本特征并建立辅助边能够辅助模型更好完成单元格-实体注释任务和列-类型注释任务;
词汇相似边El用于连接所有表数据集合间存在词汇相似性的单元格顶点nx,以增强模型捕捉单元格顶点间的关系和信息的能力;若两个单元格顶点间基于单词的Jaccard相似度高于设定阈值,那么认为这两单元格顶点存在词汇相似边El;基于单词的Jaccard相似度是文本与文本中交集的单词数除以并集的单词数,计算公式为:
由此获得图边集合E={Et,Ek,Ea,Eu,El}。
4.根据权利要求2或3所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤3所述的特征向量化表示的输入为:图的顶点集合N={nτ,nr,nc,nx,ne,nt,ns},图的边集合E={Et,Ek,Ea,Eu,El}。
5.根据权利要求4所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤3的具体实现包括:
3-1.特征矩阵构建:对于具有原始文本信息的单元格顶点、实体和类型顶点以及文本顶点,使用BERT词向量表示方法将原始文本信息转化为对应顶点的输入特征,即这四类顶点的输入特征向量为原始文本包含的所有单词经BERT转化后的特征向量的均值:
而对于行、表和列三类顶点,用和该顶点有关的所有单元格顶点的输入特征向量的均值表示,具体来讲,行顶点用该行所有单元格顶点的特征向量的均值表示:
vr=mean(∑x∈rvx) (3)
列顶点用该列所有单元格顶点的向量均值表示:
vc=mean(∑x∈cvx) (4)
表顶点的特征则取该表下所有行顶点或列顶点的特征向量的均值:
vτ=mean(Σr/c∈τvr/c) (5)
其中,x∈r表示属于某行下的所有单元格,x∈c表示属于某列下的所有单元格,r/c∈τ表示属于某表下的所有行或者列;
6.根据权利要求5所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤3的具体实现还包括:
3-2.邻接矩阵构建:将所有边视为无向边,考虑到顶点具有自相关性,先将邻接矩阵初始化为与顶点数一致的单位矩阵I,通过遍历所有边集并按位置索引赋予边权重的方式获得了图的邻接矩阵A。
7.根据权利要求6所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤4设计了一种多任务学习的训练过程,在实体预测器与类型预测器的基础上增加了对与实体相关的文本的类型预测器,通过训练文本预测器使得模型将注意力集中在文本中与实体、类型相关的词汇上;三个预测器同时输出预测结果,然后根据真实标签计算损失函数,结果为加权和,然后进行反向传播,不断微调和优化模型的参数,反复迭代,当损失函数收敛时停止训练,得到最终的模型参数;将特征矩阵V和邻接矩阵A输入训练好的模型,使用两层图卷积网络获取图顶点集的嵌入表示h,将所有待预测的单元格和列顶点的嵌入特征分别输入实体预测器与类型预测器中的得到预测结果。
8.根据权利要求6或7所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤4具体实现如下:
4-1.基于图卷积神经网络GCN的嵌入表示,使用两层GCN获取图结构数据中的潜在语义特征信息,输出所有顶点的嵌入向量表示h;
4-2.基于并行多任务的模型训练,设计了一种联合列-类型、单元格-实体和文本-类型三个预测任务的训练模块以提高模型性能及增强模型鲁棒性;通过同时学习三项任务进行联合训练,以优化我们的模型参数;
9.根据权利要求8所述的基于图卷积网络的联合文本增强的表实体与类型注释方法,其特征在于步骤4-2具体实现如下:
4-2-1.列-类型的预测任务:为了预测未注释列c的类型tc,将待预测列的嵌入向量hc先通过投影矩阵Pt投影到类型空间上,然后输入类型预测器;具体来说,使用全连接层改变向量维度,然后使用softmax函数输出每个类别的预测值,公式表示为:
pc=softmax(Wt(Pthc)+bt) (7)
4-2-2.单元格-实体的预测任务:将待预测实体类别ex的单元格嵌入向量hx先通过投影矩阵Pe投影到实体空间上,然后输入实体预测器输出各实体类别的预测值;公式表示为:
px=softmax(We(Pehx)+be) (8)
4-2-3.文本-类型的预测任务:为了将模型的注意力集中在文本的实体和类型信息上,构建了一个文本类型预测器;文本的类型来自与文本关联的实体对应的类型,所以文本的类型集合是列的类型集合的子集同样地将待预测类型的文本嵌入向量hs先通过投影矩阵Ps投影到文本类型空间上,然后构建文本类型预测器输出各类别的预测值;公式表示为:
ps=softmax(Ws(Pshs)+bs) (9)
4-2-4.联合学习:通过同时学习三项任务进行联合训练,优化模型参数,优化器采用Adam;单元格的真实实体标签和列的真实类型标签 来自数据集注释文件,文本的真实类型标签则派生自列类型标签;使用交叉熵损失函数作为三个预测任务的损失函数,最终计算出的损失为三项任务的损失加权之和,权重比设为δ1=1,δ2=2,δ3=0.5,具体公式为:
其中,NC,Nx,Ns分别表示训练列、单元格和文本的样本数量;q,g,z分别表示对应的类别数目;分别表示三个任务真实类别的符号函数,具体来讲,如果样本i的真实类别为j则取1,否则取0;表示三个任务中样本i属于类别j的预测概率;
通过损失函数的反向传导,不断微调和优化模型的参数,反复迭代,当损失函数收敛时停止训练;得到最终的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310198892.XA CN116127099A (zh) | 2023-03-03 | 2023-03-03 | 基于图卷积网络的联合文本增强的表实体与类型注释方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310198892.XA CN116127099A (zh) | 2023-03-03 | 2023-03-03 | 基于图卷积网络的联合文本增强的表实体与类型注释方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127099A true CN116127099A (zh) | 2023-05-16 |
Family
ID=86311877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310198892.XA Pending CN116127099A (zh) | 2023-03-03 | 2023-03-03 | 基于图卷积网络的联合文本增强的表实体与类型注释方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127099A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033469A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种基于表格语义注释的数据库检索方法、装置以及设备 |
CN117252183A (zh) * | 2023-10-07 | 2023-12-19 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
-
2023
- 2023-03-03 CN CN202310198892.XA patent/CN116127099A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033469A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种基于表格语义注释的数据库检索方法、装置以及设备 |
CN117252183A (zh) * | 2023-10-07 | 2023-12-19 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
CN117033469B (zh) * | 2023-10-07 | 2024-01-16 | 之江实验室 | 一种基于表格语义注释的数据库检索方法、装置以及设备 |
CN117252183B (zh) * | 2023-10-07 | 2024-04-02 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN109299341B (zh) | 一种基于字典学习的对抗跨模态检索方法和系统 | |
US20220147836A1 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
Tang et al. | Sentiment embeddings with applications to sentiment analysis | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
CN116127099A (zh) | 基于图卷积网络的联合文本增强的表实体与类型注释方法 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
CN110909116B (zh) | 一种面向社交媒体的实体集合扩展方法及系统 | |
CN111339269A (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
Sousa et al. | Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
Wankerl et al. | f2tag—Can Tags be Predicted Using Formulas? | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
de Oliveira et al. | A syntactic-relationship approach to construct well-informative knowledge graphs representation | |
US20220147585A1 (en) | Systems and methods for categorical representation learning | |
CN113111288A (zh) | 一种融合非结构化和结构化信息的Web服务分类方法 | |
Syaputra et al. | Improving mental health surveillance over Twitter text classification using word embedding techniques | |
Prajapati et al. | Automatic Question Tagging using Machine Learning and Deep learning Algorithms | |
Hao | Naive Bayesian Prediction of Japanese Annotated Corpus for Textual Semantic Word Formation Classification | |
Wang et al. | Adaptive resonance theory based two-stage Chinese name disambiguation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |