CN115828854B

CN115828854B - 一种基于上下文消歧的高效表格实体链接方法

Info

Publication number: CN115828854B
Application number: CN202310126466.5A
Authority: CN
Inventors: 汪鹏; 李欣和; 王树鑫; 周伟; 洪天宇; 张公瑞; 蒋承欢; 陈希烨
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-02
Anticipated expiration: 2043-02-17
Also published as: CN115828854A

Abstract

一种基于上下文消歧的高效表格实体链接方法，首先，对表格数据进行结构分析，提取主题列索引与非主题列索引。其次，通过搜索引擎抓取的网页标题来过滤表格单元格噪声，实现拼写纠错。然后，查询知识图谱以获得实体链接的候选实体，并为每个表格额外转储一份预处理文件。接着，基于非主题列单元格与知识图谱中实体属性值间的相似度对候选实体进行初步评分，最后，根据候选实体排序结果得到表格数据在知识图谱中的对应实体，即得到表格实体链接结果。本发明具有优秀的实体链接性能和高效的实体查询效率，能有效解决大规模表格数据的实体链接问题。

Description

一种基于上下文消歧的高效表格实体链接方法

技术领域

本发明属于人工智能和自然语言处理领域，特别涉及一种基于上下文消歧的高效表格实体链接方法。

背景技术

表格数据，如Web表格或传统数据库，是一种数量庞大且快速增长的数据源，通常蕴含具有高利用价值的数据。例如，Web表格可以用于数据集成、数据清洗、数据挖掘、机器学习、知识抽取等，但是往往因为元数据（如单元格、列名等）的缺失和错误而难以使用，因此理解表格的语义信息尤为重要。表格数据的语义标注是理解表格语义信息的主要方法，这类方法将表格内容（如单元格、列关系等）链接到知识库中的对应内容（如实体、属性等），进而利用知识库中的知识标注表格的语义信息。这种技术在知识库扩充、搜索引擎、知识问答、自动数据挖掘等领域均有重要应用。

表格数据的语义标注目前已被广泛研究，主要包括三项任务：表格单元到知识图谱实体对齐（CEA）、表格字段到知识图谱概念对齐（CTA）、以及表格字段对到知识图谱属性对齐（CPA）。传统方法多数基于字符串匹配算法，还有一些方法旨在利用不同标注任务之间的关系进行消歧，如概率图模型和迭代算法。然而，它们大多依赖于表格元数据来联合建模多个匹配任务，无法应用于元数据缺失的场景。此外，这些方法只考虑表格单元格文本与知识库中实体的字符串相似度，忽略了数据在表格中的上下文语义信息，因而消歧效果往往较差，并且易受单元格中拼写错误的影响。

本发明设计了一种新的实体链接方法以解决表格数据的语义标注，可以高效处理CEA、CTA与CPA三项匹配任务。该方法充分利用了表格数据的上下文语义信息与知识库提供的实体信息提高准确率，主要包括三个模块：首先，我们提出了一系列表格数据预处理机制，包括表格结构分析以提取主题列索引和非主题列索引，针对单元格进行拼写纠错，以及查询候选实体等。然后，我们基于非主题列单元格与知识图谱中实体属性值间的相似度对候选实体进行初步评分。进而，针对每个匹配任务，我们分别设计了一种基于实体评分的排序算法，充分利用了同行或同列表格单元格间的关系用于实体消歧。最后，根据候选实体排序结果得到表格数据在知识图谱中的对应实体，即得到表格实体链接结果。

目前现有技术如下：

与公开号CN113361283A，名称“面向Web表格的成对实体联合消歧方法”的技术对比：

1）该申请主要解决的任务是将Web表格中的实体提及无歧义的链接到知识库中的实体。而我们除了能够处理表格单元到知识图谱实体对齐（CEA）的基本任务外，针对表格字段到知识图谱概念对齐（CTA）和表格字段对到知识图谱属性对齐（CPA）两项任务依然具有优秀的实体链接性能。相较于该申请，我们能够为表格数据提供更充分的语义信息，具有更好的应用前景；

2）该申请针对表格特点采用成对实体联合消歧方法，其中的置信度计算需要考虑多种实体信息与表格信息。但是，Web表格中通常存在元数据（如单元格、列名等）的缺失和错误，如何利用包含噪声的实体提及在知识库中查询候选实体是这项任务的瓶颈。我们采用搜索引擎抓取的网页标题来过滤表格单元格噪声，并实现拼写纠错，利用去噪和纠错的单元格内容查询知识库。相较于该申请成功降低了噪声的干扰，可适应多种场景下的表格数据；

与公开号CN106503148A，名称“一种基于多知识库的表格实体链接方法”的技术对比：

1）该申请基于同义词典BabelNet与字符串匹配规则得到候选实体，需要为知识库中每个实体构建同义词集合，并与表格字符串的分词片段进行匹配，时间开销较大，易产生冗余的候选实体。我们通过搜索引擎抓取的网页标题来过滤表格单元格噪声，基于典型的开放知识图谱进行实体查询，不会引入过多无关的候选实体，在保证表格实体链接性能的同时兼顾效率；

2）该申请采用为表格建立实体消歧图的方法，根据字符串——实体语言学相似度、字符串——实体上下文相似度计算每条字符串——实体边的权重，以确定字符串对应的实体。我们在实体消歧过程中，提出有效的候选实体评分方法，除语言学相似度和上下文相似度外，引入列属性辅助，具有更高的可靠性；

与公开号CN106503148B，名称“一种基于多知识库的表格实体链接方法”的技术对比：

与公开号CN109710725A，名称 “一种基于文本分类的中文表格列标签恢复方法和系统”的技术对比：

1）该申请在网络百科知识平台中搜索提取的实体，获取实体对应的信息详情页面。但是，网络百科知识平台中的信息更新较快，内容完整性差异较大，中文表格列标签的恢复性能受限于信息详情页面中包含属性值的句子，方法的通用性难以保证。我们采用搜索引擎抓取的网页标题来实现拼写纠错，基于典型的开放知识图谱进行实体查询，相较于该申请在通用性、可复现性等方面具有优势；

2）该申请对于表格的属性列，根据属性列中各单元所属的类别，基于多数投票的规则确定该属性列的列标签。在属性列行数较短、存在噪声等情况下，利用多数投票确定列标签难以得到准确的结果。我们基于非主题列单元格与知识图谱中实体属性值间的相似度，辅助确定属性列的列标签，具有更高的可靠性；

与公开号CN114780582A，名称 “基于表格问答的自然答案生成系统及其方法”的技术对比：

1）该申请使用正则表达处理模块进行数据预处理，将问题文本编码后，使用SELECT子句生成模块和WHERE子句生成模块进行槽位填充，生成结构化查询语句。但是，Web表格中通常存在元数据（如单元格、列名等）的缺失和错误，噪声的存在会影响SELECT子句生成模块的效果，可能生成错误的结构化查询语句。我们采用搜索引擎抓取的网页标题来过滤表格单元格噪声，并实现拼写纠错，利用去噪和纠错的单元格内容查询知识库。相较于该申请成功降低了噪声的干扰，可适应多种场景下的表格数据；

2）该申请的文本编码模块采用BERT预训练模型，将自然语言问题文本与知识库实体作为输入。但是，需要借助知识库文本的表头以得到表格问答的自然答案。在表头数据缺失时，该模型难以利用文本分词的结果得到正确的自然答案，表格问答的性能也会受到影响。我们在表头数据缺失时，能够借助表格单元格的候选实体，完成表格字段到知识图谱概念对齐，对表头提供语义标注；

与公开号CN113486177A，名称 “一种基于文本分类的电力领域表格列标注方法”的技术对比：

1）该申请公开了一种基于文本分类的电力领域表格列标注方法，从搜索结果条目中抽取锚文本形成摘要，并用电力领域关键词库进行过滤，从而组成该单元格内容要素的上下文。我们采用搜索引擎抓取的网页标题来过滤表格单元格噪声，并实现拼写纠错，利用去噪和纠错的单元格内容查询知识库。相较于该申请，我们并不局限于电力领域，可适应多种场景下的表格数据；

2）该申请对于表格的属性列，根据属性列中各单元所属的类别，基于多数投票的规则确定该属性列的列标签。在属性列行数较短、存在噪声等情况下，利用多数投票确定列标签难以得到正确的结果。我们基于非主题列单元格与知识图谱中实体属性值间的相似度，辅助确定属性列的列标签，具有更高的可靠性；

与公开号CN114818710A，名称 “表格信息提取方法、装置、设备及介质”的技术对比：

1）该申请针对目标文本块对应的语义标签，根据出现的频次高低进行排序，依次对内容记录中的各行文本进行数字替换，得到对应于各行文本的多个语义数字序列。但是，Web表格中的文本信息可能存在与实体无关的冗余词，我们采用分词技术过滤表格数据的噪声，保留代表实体的单词，有助于实体查询得到候选实体；

2）该申请获取的待处理表格需要包括表头标题以及表头标题对应的内容记录，以得到目标文本块对应的语义标签。但是，当表头标题缺失时，难以输出结构化数据，表格信息的提取也会受到负面影响。我们在处理表头标题缺失的数据时，能够根据表格单元格的候选实体，完成表格字段到知识图谱概念对齐，为表格标题提供语义标注，可适应多种场景下的表格数据；

与公开号CN104794222A，名称 “网络表格语义恢复方法”的技术对比：

1）该申请采用K-means聚类算法，通过调整各个簇的聚类中心，得到缩减后的网络表格，并根据每列的候选概念集合和缩减后的网络表格，恢复出网络表格中每列的列标签和实体列。我们不仅能够完成表格字段到知识图谱概念对齐，而且可以有效解决表格单元到知识图谱实体对齐的任务。相较于该申请，能够为表格数据提供更充分的语义信息，具有更好的应用前景；

2）该申请基于Probase语义库对待恢复的网络表格进行初步的语义恢复，得到网络表格中每列的候选概念集合。我们在实体查询过程中并不局限于知识图谱的种类，可以基于多种典型的开放知识图谱得到候选实体，实现表格数据的实体链接任务，为表格提供多样的语义标注信息；

与公开号CN104794222B，名称 “网络表格语义恢复方法”的技术对比：

与公开号CN115495563A，名称 “基于表格数据检索的智能会话方法及服务器”的技术对比：

1）该申请针对潜在错误位点对应的字符，采用预设同音字和形近字、以及预设常见混淆词典以得到候选字符集，并通过评分得到最优结果。预设同音字和形近字、以及预设常见混淆词典的质量直接决定了纠错的效果，且受限于运行时间，预设常见混淆词典的容量具有一定的限制。我们采用搜索引擎抓取的网页标题来过滤表格单元格噪声，并实现拼写纠错，利用去噪和纠错的单元格内容查询知识库。相较于该申请成功降低了噪声的干扰，且保证了纠错效率；

2）该申请公开了一种基于表格数据检索的智能会话方法及服务器，需要根据表格实体词信息，进行特征拼接和特征编码，这对于表格数据的质量提出了较高的要求。我们用去噪和纠错的单元格内容查询开放知识图谱，得到候选实体，并基于评分算法与排序算法实现表格数据的实体链接任务，为表格提供语义标注信息；

与公开号CN115495563A，名称 “基于人工智能的表格检测方法、装置、电子设备及介质”的技术对比：

1）该申请基于文本实体标签中任意两个文本行处于同一行的行概率和处于同一列的列概率，对文本行进行结构化重组以将表格区域重建为结构化表格。我们不仅能够通过表格数据实体链接确定应处于同一行同一列的实体，也能够得到详细的列属性信息。相较于该申请，我们为表格数据提供更充分的语义信息，具有更好的应用前景；

2）该申请输入目标网络结构图至预先训练的图卷积神经网络中，并得到输出的任意两个文本行的文本实体标签。在检测表格区域、提取文本行、确定位置分量、以及获取文本行的文本实体标签的过程中均可能存在误差，限制了提取结果的准确率。我们在拼写纠错后，基于典型的开放知识图查询候选实体，并提出评分算法与排序算法进行实体消歧，利用表格上下文语义信息降低误差的负面影响。

与公开号CN114724153A，名称 “一种表格还原方法、装置及相关设备”的技术对比：

1）该申请从待还原的表格图像中获取各文本块的位置信息及文本内容，并基于位置信息得到各文本块的组合，其中每一文本块组合需要包含至少两个位置相邻的文本块。但是，网络表格中通常存在元数据（如单元格、列名等）的缺失和错误，影响文本块组合的结果。我们在处理缺失数据时，采用搜索引擎抓取的网页标题来过滤表格单元格噪声，并结合表格上下文语义信息辅助实体消歧，面对具有噪声的表格数据依然保持优秀的实体链接性能；

2）该申请能够区分跨行或跨列的文本块，按照行基线及列基线进行文本块所在单元格的还原，最终能适应性的处理跨行跨列的表格。而我们不仅能够通过表格数据实体链接处理跨行跨列的表格，也能够提取表格的列属性，便于单元格的还原，为表格数据提供更充分的语义信息，具有更好的应用前景；

与公开号CN115545185A，名称 “一种表格预训练方法和装置”的技术对比：

1）该申请公开了一种表格预训练方法和装置，针对文本遮罩实体预训练任务，需要将表格中的列名和列名对应的单元格内容作为实体进行随机遮罩，从而构建得到无监督的文本遮罩实体预训练任务。但是，表格中的文本信息可能存在与实体无关的冗余词，我们采用分词技术过滤表格数据的噪声，保留代表实体的单词，有助于实体查询得到候选实体；

2）该申请能够根据预训练任务对语言模型进行联合预训练，从而得到表格预训练语言模型。我们在处理表格实体链接的过程中，能够解决表格字段到知识图谱概念对齐、表格单元到知识图谱实体对齐、以及表格字段对到知识图谱属性对齐三项任务。相较于该申请，我们基于相同的表格数据提供了更充分的语义信息，提高表格数据的利用率。

发明内容

为了解决以上问题，本申请提出一种基于上下文消歧的高效表格实体链接方法，首先，对表格数据进行结构分析，提取主题列索引与非主题列索引。其次，通过搜索引擎抓取的网页标题来过滤表格单元格噪声，并实现拼写纠错，利用去噪和纠错的单元格内容查询知识图谱，获得实体链接的候选实体。然后，为解决频繁调用搜索引擎导致的网络访问瓶颈，以及高效利用上一步得到的预处理信息，为每个表格额外转储一份文件。接着，基于非主题列单元格与知识图谱中实体属性值间的相似度对候选实体进行初步评分，依据知识图谱中不同的数据类型，设计对应的相似度计算方法，从而提升候选实体评分的置信度。进而，分别针对表格单元到知识图谱实体对齐（CEA）、表格字段到知识图谱概念对齐（CTA）、以及表格字段对到知识图谱属性对齐（CPA）三项链接任务设计对应的排序算法进行实体消歧。其中，CTA任务利用了目标字段各行单元格候选实体的评分，CEA任务利用了目标单元格候选实体的评分与CTA任务的结果，CPA任务利用了目标字段对各行候选关系的评分与CEA任务的结果。最后，根据候选实体排序结果得到表格数据在知识图谱中的对应实体，即得到表格实体链接结果。本发明具有优秀的实体链接性能和高效的实体查询效率，能有效解决大规模表格数据的实体链接问题。

为实现上述目的，本发明采取的技术方案是：

本发明提供

一种基于上下文消歧的高效表格实体链接方法，包括以下步骤：

1）表格结构分析：

首先，针对输入的每个表格以列为单位，对所有单元格进行命名实体识别，并基于多数投票打分机制判断表格的列索引是否为实体列，即本列中的多数单元格是否可以归类为知识图谱中的实体，然后，通过计算本列任意两个单元格的莱文斯坦比，在实体列中进一步提取主题列；

2）拼写纠错和实体查询：

将步骤1）中得到的实体列单元格文本进行拼写纠错和实体查询，通过搜索引擎抓取的网页标题为每个单元格文本构建语料库，根据编辑距离对语料库进行过滤，保留多个纠错结果，并作为知识图谱实体查询的输入，查询的结果则作为本单元格的候选实体；

3）候选实体评分：

对步骤2）中得到的候选实体进行过滤，依据表格数据主题列与非主题列的关系，计算候选实体的属性值与非主题列单元格间的相似度，为每个候选实体提供初步评分；

4）CEA、CTA和CPA实体消歧：

将步骤3）中得到的候选实体评分用于实体消歧，首先，分别针对表格单元到知识图谱实体对齐CEA、表格字段到知识图谱概念对齐CTA以及表格字段对到知识图谱属性对齐CPA三项任务提出排序算法；

其中，表格字段到知识图谱概念对齐CTA任务利用了目标字段各行单元格候选实体的评分，表格单元到知识图谱实体对齐CEA任务利用了目标单元格候选实体的评分与表格字段到知识图谱概念对齐CTA任务的结果，表格字段对到知识图谱属性对齐CPA任务利用了目标字段对各行候选关系的评分与表格单元到知识图谱实体对齐CEA任务的结果；

然后，根据候选实体排序结果得到表格数据在知识图谱中的对应实体，即得到表格实体链接结果。

作为本发明进一步改进，所述步骤1）提出的表格结构分析由命名实体识别、实体列识别以及主题列识别三个模块组成。

作为本发明进一步改进，对所述步骤1）中莱文斯坦比计算公式如下：

；

其中，是第 j列的任意两个单元格，是的编辑距离，分别是单元格的字符串长度，令；

表示第 j列不同单元格的集合， M是表格的行数，主题列索引 s的计算公式如下：

；

如果计算结果存在多个主题列，则选择表格列索引最小的主题列作为结果。

作为本发明进一步改进，所述步骤2）中的拼写纠错和实体查询过程采用多线程查询机制。

作为本发明进一步改进，对所述步骤2）中的拼写纠错和实体查询过程具体如下，

首先，采用分词技术过滤表格数据的噪声，针对实体列单元格 c _ij的文本 t = [ t ₁, t ₂, … , t _l]，其中 l是文本向量 t的单词数，构造查询集合；其中q_{i:
j}是对文本 t分词后的查询文本，然后，将查询集合中的每一个文本向量元素作为搜索引擎的输入，通过搜索引擎抓取的网页标题为每个单元格文本 t构建语料库，其中 r是搜索引擎返回的单词数，接着，基于语料库单词与构成文本的每个单词间的编辑距离，得到每个单元格对应的候选纠错结果集合，最后，将作为知识图谱实体查询的输入得到候选实体集合。

作为本发明进一步改进，所述步骤2）中候选实体集合包含了每个候选实体的信息字典，包括实体ID、标签、描述、属性和陈述。

作为本发明进一步改进，对所述步骤3）中的候选实体评分过程具体如下，

对于给定的知识图谱，实体 e的属性值集合为，根据实体的属性值，提取基本数据类型，并基于不同的数据类型采取对应的相似度计算方法，针对字符串和多语言文本数据类型，提出基于编辑距离的字符串匹配算法对相似度进行评分，针对实体ID数据类型，通过知识图谱进行查询，以得到实体标签，再进行文本相似度计算；

相似度关系的计算公式如下：

；

其中， c _ij是第 i行第 j列的非主题列单元格， v _k是主题列第 i行单元格的候选实体 e的第 k个属性值，参数 α是阈值，用于增加目标实体与其余候选实体之间的分数差距，针对十进制数数据类型，采用数字相似度计算机制NRD，以计算两个数字 a和 b之间的相对差距，NRD公式和相似度关系的计算公式如下：

；

其中， c _ij是第 i行第 j列的非主题列单元格， v _k是主题列第 i行单元格的候选实体 e的第 k个属性值，参数 β是阈值，用于增加目标实体与其余候选实体之间的分数差距，针对地理坐标数据类型，分别计算非主题列单元格的文本数据与经度值和纬度值间的数字相似度NRD，并选择较大的结果作为相似度分数，相似度关系的计算公式如下：

；

其中， c _ij是第 i行第 j列的非主题列单元格，分别是主题列第 i行单元格的候选实体 e的的纬度属性值和经度属性值，针对时间数据类型，需要利用正则表达式分别提取表格数据和实体属性值的时间信息集合，相似度关系的计算公式如下：

；

其中， c _ij是第 i行第 j列的非主题列单元格， v _k是主题列第 i行单元格的候选实体 e的第 k个属性值，在主题列单元格候选实体完成了对所有同行非主题列单元格的相似度计算之后该候选实体 e的评分计算公式如下：

；

其中， s是主题列的列索引， N是表格的列数，是候选实体 e的属性值集合。

作为本发明进一步改进，所述步骤3）中基本数据类型有六个分别为：实体ID、字符串、时间、地理坐标、十进制数、以及多语言文本。

作为本发明进一步改进，所述步骤3）中实体属性值的时间信息集合的时间元素包括年、月、日、小时、分钟和秒。

作为本发明进一步改进，

对所述步骤4）中的表格单元到知识图谱实体对齐CEA、表格字段到知识图谱概念对齐CTA以及表格字段对到知识图谱属性对齐CPA实体消歧过程具体如下，

根据步骤3）中的候选实体评分结果，针对表格单元到知识图谱实体对齐CEA、表格字段到知识图谱概念对齐CTA以及表格字段对到知识图谱属性对齐CPA提出排序算法，排序结果作为表格实体链接的依据，令表示候选实体与单元格对的匹配分数，表示候选实体对的匹配分数，使用标准化函数：

；

其中， x是自变量， a和 b是大于1的参数；

针对表格字段到知识图谱概念对齐CTA任务，旨在使用知识图谱中的实体标注表格数据某列的语义类型，首先对主题列进行标注，令表示主题列第 i行单元格的第 k个候选实体，则主题列的候选类型集合为：

；

其中， InstanceOf代表“隶属于”的关系， KG是给定的知识图谱， M是表格的行数， N (c _i )是主题列第 i行单元格的候选实体数,针对每个候选实体和类型 t，用第 i行非主题列单元格的匹配分数的平均值作为特征分；

；

其中， N是表格的列数， s是主题列的列索引，进而，使用下面的公式为中的每个类型 t评分，针对主题列每行的所有候选实体算出最高的标准化特征分，并逐行求和，主题列的类型分数计算公式如下：

；

非主题列表格字段到知识图谱概念对齐CTA标注任务的方法类似，特征分计算公式如下：

；

其中，是主题列第 i行单元格的第 k个候选实体，是非主题列第 i行第 j列单元格的第 k’个候选实体，进而，非主题列的类型分数计算公式如下：

；

针对表格单元到知识图谱实体对齐CEA任务，旨在使用知识图谱中的实体标注表格数据单元格的语义信息，通过枚举候选实体的所有类型 t，主题列单元格的实体分数计算公式如下：

；

其中， CTAScore _sub( t)为主题列表格字段到知识图谱概念对齐CTA语义标注任务的结果，为协作参数，与上述表格字段到知识图谱概念对齐CTA任务的公式相同；

针对非主题列 j，协作项来自表格单元到知识图谱实体对齐CEA的评分而非表格字段到知识图谱概念对齐CTA的评分，非主题列单元格的实体分数计算公式如下：

；

针对表格字段对到知识图谱属性对齐CPA任务，旨在使用知识图谱中的关系标注主题列与非主题列之间的联系；

令主题列单元格实体的属性集合为：

；

其中， hasProperty代表实体具有属性 p，基于主题列单元格实体的属性 p与第 j列单元格实体的相似度评分，特征分计算公式如下：计算公式如下：

；

进而，主题列单元格实体与同行非主题列单元格实体的关系在集合中的属性分数计算公式如下：

；

最后，根据每项任务的评分，选取分数最高的知识图谱中的候选实体作为表格单元到知识图谱实体对齐CEA、表格字段到知识图谱概念对齐CTA以及表格字段对到知识图谱属性对齐CPA的实体链接结果。

与现有技术相比，本发明具有以下优点和有益效果：

本发明提出了一种基于上下文消歧的高效表格实体链接方法，用于解决表格数据的语义标注任务：CEA、CTA与CPA，我们采用表格结构分析，拼写纠错和实体查询，候选实体评分，以及实体消歧等关键技术，利用知识库中的知识标注表格的语义信息，得到表格数据在知识图谱中的对应实体，及完成表格实体链接问题。同时，为了解决因字符串相似导致知识图谱中多个候选实体链接到表格同一数据单元的问题，提出一种充分利用表格数据的上下文语义信息与知识图谱实体信息的方法，大幅提高实体消歧的准确率。本发明具有优秀的实体链接性能和高效的实体查询效率，能有效解决大规模表格数据的实体链接问题。因此本发明具有较好的应用前景和推广范围。

附图说明

图1为本发明方法的逻辑流程图；

图2为本发明方法的模型流程图；

图3为本发明方法的实验数据图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

作为本发明一种具体实施例，本发明提供模型流程图如图2所示的一种基于上下文消歧的高效表格实体链接方法。在图2示例中，当完成表格数据预处理，候选实体评分以及实体消歧三个步骤后，可以得到表格数据在知识图谱中的对应实体，即得到表格实体链接结果。例如，针对表格单元到知识图谱实体对齐CEA任务，可以实现对图示表格中“中国”单元格文本与“中华人民共和国”实体的对齐；针对表格字段到知识图谱概念对齐CTA任务，可以实现对图示表格中第0列字段与“人类”实体的对齐，以及第1列字段与“主权国家”实体的对齐；针对表格字段对到知识图谱属性对齐CPA任务，可以实现图示表格中第0列和第2列字段对与“出生日期”属性的对齐。

作为本发明一种具体实施例，本发明提供逻辑流程图如图1所示的一种基于上下文消歧的高效表格实体链接方法，包括步骤为：

1）表格结构分析。

对于输入的表格数据，需要将每个列索引分类为可以在知识图谱中查询的实体列与不能在知识图谱中查询的非实体列，如数字、日期等信息。因此，本发明针对每个单元格进行命名实体识别，并提供标签。实体单元格会被打上人名、地名、组织机构名、产品名、专有名词等标签，而非实体单元格会被打上日期、时间、货币、百分比等标签。如果单元格无法被模型标注，则归类为实体单元格，以防止遗漏。同时，提出多数投票打分机制判断表格的列索引是否为实体列，如果本列有超过一半的单元格为实体单元格，判定本列为实体列，否则为非实体列。

下面介绍提取主题列的方法：通过计算两个单元格的莱文斯坦比，在实体列中进一步提取主题列，莱文斯坦比计算公式如下：

;

其中，是第 j列的任意两个单元格，是单元格的编辑距离，分别是单元格的字符串长度。因为表格数据存在拼写错误，如果任意两个单元格的莱文斯坦比大于0.8，则可以判定文本近似相同。

令表示第 j列不同单元格的集合， M是表格的行数，主题列索引 s的计算公式如下：

;

如果计算结果存在多个主题列，则选择表格列索引最小的主题列作为结果。本发明提出的表格结构分析由命名实体识别、实体列识别、以及主题列识别三个模块组成。命名实体识别与实体列识别为后续实体查询提供初步过滤，减少查询的单元格文本数量，解决频繁调用搜索引擎导致的网络访问瓶颈。表格数据中划分的主题列与非主题列是候选实体评分的重要依据，即计算非主题列单元格与知识图谱中实体属性值之间的相似度，实现对候选实体初步评分。同时，命名实体识别利用小型自然语言模型，在保证准确率的前提下进一步提高识别速度。

2）拼写纠错和实体查询。

互联网上的表格数据通常存在拼写错误的单词，显著影响了实体查询的性能。因此，本发明借助搜索引擎进行拼写纠错，以过滤表格单元格噪声。对于实体列单元格 c _ij的文本 t= [ t ₁, t ₂, … , t _l]，其中 l是文本向量 t的单词数量，将 t作为搜索引擎的查询输入得到HTML格式的搜索结果页，进而提取标题构建该查询文本 t的语料库，其中 r是搜索引擎返回的单词数，然后计算语料库 w中每个单词 w _i与查询文本 t中每个单词 t _j的编辑距离，最后提取语料库中与文本 t具有最短编辑距离的 w _i作为正确结果。为了避免遗漏，在语料库中继续提取与正确结果的编辑距离不超过2个字符的单词作为候选纠错结果，得到每个单元格文本对应的候选纠错结果集合。

因为知识图谱的实体查询对于噪声过于敏感，如果查询文本中存在形容词、副词、介词等修饰词语，可能会导致无法提取目标实体。针对上述问题，需要过滤噪声单词，并保留代表实体的单词，因此我们提出在拼写纠错前增加分词技术解决。对于实体列单元格 c _ij的文本 t，构造一个查询集合，将查询集合中的每一个文本向量元素作为拼写纠错模块的输入，得到候选纠错结果集合，最终将作为知识图谱实体查询的输入得到候选实体集合，其中包含了每个候选实体的信息字典，如实体ID、标签、描述、属性、陈述等。

实体查询的主要功能是从给定的知识图谱中查询多个候选实体，因为知识图谱的本地转储对计算机的存储和IO性能要求较高，因此需要在线查询知识图谱。为了提高调用搜索引擎频繁访问网络的效率，针对大规模表格数据采用多线程查询机制，提高查询速度。大量的实验研究表明，与普通查询相比，在网络稳定的前提下使用100个线程查询，查询速度提高了500倍。

3）候选实体评分。

对于多数表格数据，通常有一个主题列，其余列是非主题列。主题列中的单元格通常代表知识图谱中的实体，而非主题列中的单元格代表实体的属性值。例如，Wikidata知识图谱中的Q58590（姚明）实体包含多个属性，如P31（隶属于）、P27（国籍）、P569（出生日期）等。在表格数据中，如果一个主题列单元格代表Q58590实体，则同行的非主题列单元格通常代表上述属性值。通过对非主题列单元格与知识图谱中候选实体的属性值之间的相似度进行评分，可以得到置信度最高的候选实体。

本发明对知识图谱的实体属性值进行分析，提取六个基本数据类型：实体ID、字符串、时间、地理坐标、十进制数、以及多语言文本。为了提升候选实体评分的置信度，以及适应多种场景下的表格数据，需要基于不同的数据类型设计对应的相似度计算方法，包括但不限于莱文斯坦编辑距离。对于给定的知识图谱，实体 e的属性值集合为，基于不同的数据类型，本发明提出对应的相似度计算公式。

针对字符串和多语言文本数据类型，提出基于编辑距离的字符串匹配算法对相似度进行评分。针对实体ID数据类型，通过知识图谱进行查询，以得到实体标签，再进行文本相似度计算。相似度关系的计算公式如下：

;

其中， c _ij是第 i行第 j列的非主题列单元格， v _k是主题列第 i行单元格的候选实体 e的第 k个属性值，参数 α是阈值，用于增加目标实体与其余候选实体之间的分数差距。

针对十进制数数据类型，采用数字相似度计算机制（NRD），以计算两个数字 a和 b之间的相对差距。NRD公式和相似度关系的计算公式如下：

;

其中， c _ij是第 i行第 j列的非主题列单元格， v _k是主题列第 i行单元格的候选实体 e的第 k个属性值，参数 β是阈值，用于增加目标实体与其余候选实体之间的分数差距。

针对地理坐标数据类型，通常是包括纬度和经度的元组，因此可以直接引用NRD作为计算相似度的方法。在此之前，需要识别并提取表格单元格中的经度数据和纬度数据。相似度关系的计算公式如下：

;

其中，分别是主题列第 i行单元格的候选实体 e的的纬度属性值和经度属性值。

针对时间数据类型，知识图谱的时间格式是统一的，容易提取时间信息，如年、月、日、小时、分钟和秒。然而，在表格数据中，有多种表示时间的方式，为此本发明总结出每一种表达方式，并使用正则表达式匹配表格单元格文本，提取时间信息集合。相似度关系的计算公式如下：

;

其中， c _ij是第 i行第 j列的非主题列单元格， v _k是主题列第 i行单元格的候选实体 e的第 k个属性值。在主题列单元格候选实体完成了对所有同行非主题列单元格的相似度计算之后，该候选实体 e的评分计算公式如下：

;

其中， s是主题列的列索引， N是表格的列数，是候选实体 e的属性值集合。至此，评分较高的候选实体的置信度较高，更有可能是表格单元格的目标实体。

4）CEA、CTA和CPA实体消歧。

根据步骤3）中的候选实体评分结果，提出协作机制，分别针对CEA、CTA与 CPA三项任务提出排序算法，排序结果作为表格实体链接的依据。在确定每个标注任务的最终结果时，目标是选取评分最高的候选项。如果存在多个评分最高的候选项，则选取第一个，因为这通常在知识图谱中有较高的重要性程度Rank。如果经过前面步骤的查询和筛选没有得到候选项，则放弃提供结果，以提高准确率P。

下面针对每个任务给出了具体的计算公式，本段对符号进行说明。令表示候选实体与单元格对的匹配分数，表示候选实体对的匹配分数。为了增加高低匹配分之间的差距，使用标准化函数：

其中， x是自变量， a和 b是大于1的参数，标准化函数使接近1的小数被大幅放大，接近0的小数更趋近于0。此处参数的敏感性较小，在一定范围内的取值均能够产生最优结果。

针对表格字段到知识图谱概念对齐（CTA），这是所有标注任务的基础工作，旨在使用知识图谱中的实体标注表格数据某列的语义类型。因为主题列单元格候选实体的确定依据较多的参考信息，以此为基础有助于得到可靠的结果。首先，进行主题列CTA任务的标注，令表示主题列第 i行单元格的第 k个候选实体，则主题列的候选类型集合为：

;

其中， InstanceOf代表“隶属于”的关系， KG是给定的知识图谱， M是表格的行数， N (c _i )为主题列第 i行单元格的候选实体数。针对每个候选实体和类型 t，用第 i行非主题列单元格的匹配分数的平均值作为特征分：

;

其中， N是表格的列数， s是主题列的列索引。进而，使用下面的公式为中的每个类型 t评分，针对主题列每行的所有候选实体算出最高的标准化特征分，并逐行求和，主题列的类型分数计算公式如下：

非主题列CTA标注任务的方法类似，但是特征分没有表格数据其余列的信息辅助，只能利用主题列单元格和非主题列单元格的候选实体对的匹配分数进行计算，特征分计算公式如下：

;

其中，是主题列第 i行单元格的第 k个候选实体，是第 i行第 j列（非主题列）单元格的第 k’个候选实体。进而，非主题列的类型分数计算公式如下：

针对表格单元到知识图谱实体对齐（CEA），旨在使用知识图谱中的实体标注表格数据单元格的语义信息。在确定主题列的类型后，主题列单元格的候选实体数减少，有助于确定目标实体。通过枚举候选实体的所有类型 t，主题列单元格的实体分数计算公式如下：

;

其中 CTAScore _sub( t)为主题列CTA语义标注任务的结果，为协作参数，与上述 CTA任务的公式相同。计算中可能出现使 I _sub(.,.)或 M(.,.)等于0的候选项，因为可靠性较差，故直接跳过，以防止协作项产生不必要的贡献。针对非主题列 j，协作项来自CEA的评分而非CTA的评分，非主题列单元格的实体分数计算公式如下：

针对表格字段对到知识图谱属性对齐（CPA），旨在使用知识图谱中的关系标注主题列与非主题列之间的联系，在CEA任务后进行。令主题列单元格实体的属性集合为：

其中， hasProperty代表实体具有属性 p。基于主题列单元格实体的属性 p与第 j列单元格实体的相似度评分，特征分计算公式如下：

;

其中，对表格数据每行的关系求出最高加权匹配分再求和，并利用CEA语义标注任务的结果，同时仍需要跳过特征分为0的项。

最后，根据每项任务的评分，选取分数最高的知识图谱中的候选实体作为CEA、CTA和CPA的实体链接结果。排序算法充分利用表格数据的上下文语义信息与知识图谱中的实体信息，以解决因字符串相似导致多个候选实体链接到表格同一数据单元的问题，大幅提高实体消歧的准确率。

【实施例1】

在实施实例中，将基于上下文消歧的高效表格实体链接方法在真实的表格数据集上进行实验，且所有的其它实施例中均使用和本实施例相同来源的数据集，均由SemTab2022发布，具体的数据集信息如附图3所示。通常采用实体链接模型在测试集上的表现来评价实体链接模型性能的好坏，采用的评价指标是准确率P、召回率R以及F1值。

针对HardTables数据集，采用Wikidata知识库进行语义标注，表格的行数和列数均相对较少，且多数表格的主题列为第一列。因此，本发明将数据进行批量化处理，并将表格主题列索引的默认值设置为第一列。在实验过程中，针对大规模表格数据提出的多线程查询机制与批量化处理，显著提高了拼写纠错和实体查询的效率，同时设置主题列索引的默认值也降低了表格结构分析的误差。实验结果表明，CEA任务的F1值为0.86，CTA任务的F1值为0.97，CPA任务的F1值为0.92。

【实施例2】

针对ToughTables-WD与ToughTables-DBP数据集，分别采用Wikidata和DBpedia知识库进行语义标注，表格数据的结构相似。相较于实施例1中的HardTables数据集，表格的主题列索引并非总是第一列，且非主题列单元格可能为同行主题列单元格候选实体的描述而非属性。因此，本发明基于表格结构分析判断主题列的列索引，并将描述信息纳入候选实体评分的标准，以上改进显著提高了实体消歧的准确率。同时，ToughTables数据集中每个表格的行数差距大，甚至存在行数破万的表格。因此，本发明根据表格数据的规模引入自适应批处理机制，并针对行数较多的表格，随机选择部分具有代表性的行进行CTA任务的语义标注，有效提高了拼写纠错和实体查询的效率。实验结果表明，ToughTables-WD数据集CEA任务的F1值为0.91，CTA任务的F1值为0.54；ToughTables-DBP数据集CEA任务的F1值为0.83，CTA任务的F1值为0.48。

【实施例3】

针对BiodivTab数据集，采用DBpedia知识库进行语义标注，表格数据主要源自生物多样性领域。因此，本发明构建了小型生物多样性语料库，用于记录该领域常用的缩写和别名。此外，数据集中的部分表格单元格包含副词、形容词、介词短语等噪声，增加了提取目标实体的难度，我们引入分词技术以降低噪声的负面影响。同时，因为BiodivTab数据集多数表格的表头具有语义信息，因此可将CTA任务转换为针对表头的CEA任务。实验结果表明，CEA任务的F1值为0.91，CTA任务的F1值为0.87。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于上下文消歧的高效表格实体链接方法，包括以下步骤，其特征在于：

1）表格结构分析：

2）拼写纠错和实体查询：

3）候选实体评分：

4）CEA、CTA和CPA实体消歧：

2.根据权利要求1所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：所述步骤1）提出的表格结构分析由命名实体识别、实体列识别以及主题列识别三个模块组成。

3.根据权利要求2所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：对所述步骤1）中莱文斯坦比计算公式如下：

；

其中，是第j列的任意两个单元格，是的编辑距离，分别是单元格的字符串长度，令；

表示第j列不同单元格的集合，M是表格的行数，主题列索引s的计算公式如下：

；

4.根据权利要求3所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：

所述步骤2）中的拼写纠错和实体查询过程采用多线程查询机制。

5.根据权利要求4所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：

对所述步骤2）中的拼写纠错和实体查询过程具体如下，

首先，采用分词技术过滤表格数据的噪声，针对实体列单元格c _ij的文本t= [t ₁,t ₂,…,t _l]，其中l是文本向量t的单词数，构造查询集合；其中q_i:j是对文本t分词后的查询文本，然后，将查询集合中的每一个文本向量元素作为搜索引擎的输入，通过搜索引擎抓取的网页标题为每个单元格文本t构建语料库，其中r是搜索引擎返回的单词数，接着，基于语料库单词与构成文本的每个单词间的编辑距离，得到每个单元格对应的候选纠错结果集合，最后，将作为知识图谱实体查询的输入得到候选实体集合。

6.根据权利要求5所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：所述步骤2）中候选实体集合包含了每个候选实体的信息字典，包括实体ID、标签、描述、属性和陈述。

7.根据权利要求5所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：

对所述步骤3）中的候选实体评分过程具体如下，

对于给定的知识图谱，实体e的属性值集合为，根据实体的属性值，提取基本数据类型，并基于不同的数据类型采取对应的相似度计算方法，针对字符串和多语言文本数据类型，提出基于编辑距离的字符串匹配算法对相似度进行评分，针对实体ID数据类型，通过知识图谱进行查询，以得到实体标签，再进行文本相似度计算；

相似度关系的计算公式如下：

；

其中，c _ij是第i行第j列的非主题列单元格，v _k是主题列第i行单元格的候选实体e的第k个属性值，参数α是阈值，用于增加目标实体与其余候选实体之间的分数差距，针对十进制数数据类型，采用数字相似度计算机制NRD，以计算两个数字a和b之间的相对差距，NRD公式和相似度关系的计算公式如下：

；

其中，c _ij是第i行第j列的非主题列单元格，v _k是主题列第i行单元格的候选实体e的第k个属性值，参数β是阈值，用于增加目标实体与其余候选实体之间的分数差距，针对地理坐标数据类型，分别计算非主题列单元格的文本数据与经度值和纬度值间的数字相似度NRD，并选择较大的结果作为相似度分数，相似度关系的计算公式如下：

；

其中，c _ij是第i行第j列的非主题列单元格，分别是主题列第i行单元格的候选实体e的的纬度属性值和经度属性值，针对时间数据类型，需要利用正则表达式分别提取表格数据和实体属性值的时间信息集合，相似度关系的计算公式如下：

；

其中，c _ij是第i行第j列的非主题列单元格，v _k是主题列第i行单元格的候选实体e的第k个属性值，在主题列单元格候选实体完成了对所有同行非主题列单元格的相似度计算之后该候选实体e的评分计算公式如下：

；

其中，s是主题列的列索引，N是表格的列数，是候选实体e的属性值集合。

8.根据权利要求7所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：所述步骤3）中基本数据类型有六个分别为：实体ID、字符串、时间、地理坐标、十进制数、以及多语言文本。

9.根据权利要求7所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：所述步骤3）中实体属性值的时间信息集合的时间元素包括年、月、日、小时、分钟和秒。

10.根据权利要求7所述的一种基于上下文消歧的高效表格实体链接方法，其特征在于：

；

其中，x是自变量，a和b是大于1的参数；

针对表格字段到知识图谱概念对齐CTA任务，旨在使用知识图谱中的实体标注表格数据某列的语义类型，首先对主题列进行标注，令表示主题列第i行单元格的第k个候选实体，则主题列的候选类型集合为：

；

其中，InstanceOf代表“隶属于”的关系，KG是给定的知识图谱，M是表格的行数，N(c _i )是主题列第i行单元格的候选实体数,针对每个候选实体和类型t，用第i行非主题列单元格的匹配分数的平均值作为特征分；

；

其中，N是表格的列数，s是主题列的列索引，进而，使用下面的公式为中的每个类型t评分，针对主题列每行的所有候选实体算出最高的标准化特征分，并逐行求和，主题列的类型分数计算公式如下：

；

其中，是主题列第i行单元格的第k个候选实体，是非主题列第i行第j列单元格的第k’个候选实体，进而，非主题列的类型分数计算公式如下：

；

针对表格单元到知识图谱实体对齐CEA任务，旨在使用知识图谱中的实体标注表格数据单元格的语义信息，通过枚举候选实体的所有类型t，主题列单元格的实体分数计算公式如下：

；

其中，CTAScore _sub(t)为主题列表格字段到知识图谱概念对齐CTA语义标注任务的结果，为协作参数，与上述表格字段到知识图谱概念对齐CTA任务的公式相同；

针对非主题列j，协作项来自表格单元到知识图谱实体对齐CEA的评分而非表格字段到知识图谱概念对齐CTA的评分，非主题列单元格的实体分数计算公式如下：

；

令主题列单元格实体的属性集合为：

；

其中，hasProperty代表实体具有属性p，基于主题列单元格实体的属性p与第j列单元格实体的相似度评分，特征分计算公式如下：计算公式如下：

；