CN114996467A

CN114996467A - 基于语义相似度的知识图谱实体属性对齐算法

Info

Publication number: CN114996467A
Application number: CN202110226584.4A
Authority: CN
Inventors: 马永军; 陈诗剑
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2022-09-02

Abstract

本发明涉及一种基于语义相似度的属性对齐算法，其主要技术特点是基于不同数据源中相同实体的属性名称词汇的语义信息，利用Word2Vec模型将属性名称词汇词性向量化表示，随后根据得到向量来计算词汇之间的余弦相似度。若相似度超过一定阈值，则认为两个属性表征的信息相同，进行属性对齐操作。本发明设计合理，充分考虑到词汇的语义信息，减少了不同数据源实体融合后每个实体内的相同属性表示，大大提高了领域知识图谱的完整性与准确性。

Description

基于语义相似度的知识图谱实体属性对齐算法

技术领域

本发明属于知识工程领域，尤其是一种面向知识图谱构建的基于语义相似度的知识图谱实体属性对齐算法。

背景技术

知识图谱是一种揭示实体或概念之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。在知识图谱中，通过属性和属性值来描述知识图谱中实体的内在特性。由于不同数据源存在指向同一概念或含义相同的属性，所以在构建知识图谱过程中需要对这些属性进行对齐和融合，而属性对齐算法的准确度决定了实体属性对齐的效果以及知识图谱的完整性和准确性。为了提高属性对齐的准确性，需要设计一个合理的属性对齐算法。本发明充分考虑了了词汇的语义信息，利用Word2Vec方法将属性名称词向量化表示，依据计算出的向量计算属性名称词的相似度，并根据相似度大小来判断属性名称词是否相似，并进行属性融合操作。本算法提高了知识图谱实体的属性对齐准确度，提升了知识图谱的完整性和准确性。

当前属性对齐的主要方法有基于编辑距离计算的方法和基于统计语言模型的方法。编辑距离算法在文本相似度的计算上有较好的效果，但是忽略了文本所带的语义信息，利用编辑距离算法计算出的相似度较高的两字符串，但极有可能是个完全不同的概念，属性对齐会取得属性名称和属性内容不对应的结果。统计语言模型是根据已知的一个词序列，来预测下一个词的条件概率。目前的统计语言模型常通过N元模型来进行计算。但是统计语言模型也存在一些问题，即统计语言模型只考虑了当前词上下文的几个相邻词之间的关系，没有考虑到与距离更远的词语之间的关系。

在数据来源不同的情况下，某些不同的属性名称表示的属性内容和意义是相同的。若直接将两个数据源的实体进行融合操作，那么知识图谱内的实体可能会出现属性名称不同但表示意义相同的情况，造成属性重复表示的现象，影响领域知识图谱的准确性。因此知识图谱需要一个准确度较高的属性对齐算法来提升实体属性对齐的效果，提高领域知识图谱的完整性与准确性。

综上分析，设计准确度较高的属性对齐算法是提高领域知识图谱准确性关键技术之一。准确度高的属性对齐算法可有效减少知识图谱中实体属性的重复表示，也可以提高属性对齐的效果以及领域知识图谱的完整性与准确性。

发明内容

本发明的目的在于克服现有知识图谱的属性对齐算法的不足，结合编辑距离算法，并利用Word2Vec技术，将不同数据源中的相同实体的每个属性名称词用一组向量来表示；将属性名称词向量化表示后，计算不同属性名称词之间的余弦相似度，两属性名称词之间的相似度大于一定阈值表示属性相似，即做属性融合操作。本属性对齐算法有效减少了不同数据源中相同实体间的重复属性，大大提高知识图谱的完整性和准确性。

为实现上述目的，本发明的技术方案是：基于语义相似度的知识图谱实体属性对齐算法，包括以下步骤：

步骤1：获取训练Word2Vec模型的语料库，这里使用的是维基百科语料。

步骤2：语料分词过程。获取到的语料库以文本表示，而本文所采用的算法是要将词进行向量化后来进行后续操作。在分词操作之前，先处理掉文本中的停用词，如数字、空格、换行符\n等。首先进行句子切分，对待处理的中文文档进行预处理，得到若干个中文短句的集合。此步骤主要通过标点符号例如句号、逗号、分号等，将中文文档进行切分，缩小中文分词的句子长度；接下来进行原子切分。对输入的中文短句进行原子切分，并根据所得的原子系列简历初始的且分词图。这一步主要是讲中文短句编程不可再分的字或字符系列。第三步，堆砌词语。就原子系列，从不同视角分别进行中文词语识别，并将各自的堆砌结果添加到切分图中。这一步将打散的原子系列从不同视角分别进行中文词语的识别，为后续优化选词过程提供基础。最后，分词优化。基于上一阶段的堆砌路径和各路径的概率，计算得出最可能的堆砌路径，作为最后的分词结果并输出。

步骤3：Word2Vec模型训练过程。模型采用CBOW或Skip-gram训练模式。训练过程开始之前，创建两个矩阵——Embedding矩阵和Context矩阵。这两个矩阵嵌入了词汇表中的每个词。对于输入词，查看Embedding矩阵，对于上下文单词，查看Context矩阵。然后计算输入嵌入与每个上下文嵌入的点积。在每种情况下，结果都将是表示输入和上下文嵌入的相似性的数字。接下来设置窗口大小和负样本数量，进行训练。

步骤4：属性名称相似度计算过程。分别计算两个数据源中实体名相同的不同属性之间的编辑距离，当编辑距离为0时，也就代表两个属性名称相同，表征为同一属性，从而实现属性对齐，并构建属性对齐关系；否则根据步骤3中训练好的Word2Vec模型，向模型中输入不同数据源中每个实体属性名称词，得到属性名称的词向量。根据词向量计算次之间的相似度，相似度大于一定的阈值时，则认为属性表征相似，进行对齐操作。

步骤5：属性对齐过程。基于步骤4的相似度计算操作，如果两属性相似，那么要对两个属性进行融合，将属性名称和属性内容进行统一表示对于属性内容来说，因为数据来源不同，在对相关实体的某一属性进行描述和定义时，可能表述会有所不同。于是在这里采用保留字符串长度较长的属性内容的策略，用来表示属性对齐后的属性内容。

本发明的优点和积极效果是：

相较于现有属性对齐算法，本发明的有益效果：在计算文本的相似度时，兼顾了文本的语义信息，且利用Word2Vec技术，充分考虑到了与当前预测词相距较远的上下文词并结合其语义信息，得到了更加准确的词向量表示。在计算属性名称相似度时，根据上文得到的词向量来计算余弦相似度可以提高属性对齐的准确性。

附图说明

图1为Word2Vec模型中的CBOW训练模式结构图；CBOW模型，中文译为“连续词袋模型”，完成的任务是给定中心词w(t)的一定邻域半径(又称为窗口，窗口大小通常设置为5)内的单词w(t-2)，w(t-1)，w(t+1)，w(t+2)预测输出单词为该中心词w(t)的概率。符号w(t-1)，w(t-2)，w(t+1)，w(t+2)表示输入的单词，实际是一个one-hot的vector，通过构建词典，建立单词索引可以很容易实现，向量的维度和词典中单词数目相同，只有一个维度的值为1，该维度对应该单词在词典索引中的位置，其余维度的值为0。其中的隐藏层是通过查表得到的，首先初始化一个words vector矩阵W，W是一个二维的矩阵，行数等于构建的词典中的单词的数目，依赖具体语料库大小等因素，列数是一个超参数，人为设定，一般为100；

图2为Word2Vec模型中的Skip-gram训练模式结构图。Skip-gram是根据当前的词来预测上下文的词。假设有一组词序列[w₁，w₂，w₃，…w_T]，则Skip-gram模型训练的目标函数是：

其中c是上下文的窗口大小，值越大，得到的训练样本越多，模型的精度也就越高，但是训练所需的时间越长。

其中，Skip-gram模型使用softmax函数定义p(w₀|w_i)：

其中v′_w和v_w分别表示词w的输出向量和输入向量。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

一种基于语义相似度的属性对齐算法，包括以下步骤：

相关定义：

(1)实体(Entity)指的是有可区别性且独立存在的事物。

(2)属性(Property)指的是对实体某些特征的描述。

(3)有向无环图(DAG)：在有向图中，如果存在从一个顶点出发，经过若干条边无法回到该点，则称该图为有向无环图。

(4)词向量(Word embedding)，又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。通常，有两种表示方式：one-hot representation和distribution representation。

(5)余弦相似度(Cosine Similarity)通过计算两个向量的夹角余弦值来评估他们的相似度。将向量根据坐标值，绘制到向量空间中，求得他们的夹角，并得出夹角对应的余弦值，此余弦值就可以用来表征这两个向量的相似性

步骤1：训练语料获取及文本分词处理。

获取到约2.0GB的维基百科中文语料，并进行文本的操作。在对文本进行分词之前要先进行去除停用词的操作。新建停用词表，停用词包括数字、标签、标点符号等。根据停用词词典，去除语料中的停用词。去除停用词后，进行分词操作。这里利用jieba分词工具，jieba分词自带一个词典，包含了每个词条出现的次数和词性。(1)根据此词典生成trie树(前缀树)，字典在生成trie树的同时，也把每个词的出现次数转换为了频率，对待分词句子，根据词典生成的trie树，生成有向无环图；(2)查找待分词句子中已经切分好的词语，对该词语查找该词语出现的频率(次数/总数)，如果没有该词，就把词典中出现频率最小的那个词语的频率作为该词的频率，然后根据动态规划查找最大概率路径的方法，对句子从右往左反向计算最大概率，P(NodeN)＝1.0，P(NodeN-1)＝P(NodeN)*Max(P(倒数第一个词))…依次类推，最后得到最大概率路径，得到最大概率的切分组合。最后得到分词结果。

步骤2：Word2Vec模型训练。设定模型参数，词向量维度(size)设置为100，窗口大小(window)设置为5。同时设置最低频次(min_count)，即如果一个词在整个语料库里出现的次数小于min_count，在训练的时候就不考虑这个词，从而过滤掉一些低频词。根据步骤1得到的语料文本，对模型进行训练。在训练时，模型的输入是w(t)上下文单词的one-hot编码，由于窗口大小为5，所以有4个one-hot编码向量的输入，即w(t-2)，w(t-1)，w(t+1)，w(t+2)。设输入层矩阵为W_in，大小为|V|×d，其中|V|是词典的大小，d是词向量的维度，v向量则是W_in的一行。进行如下操作：

w(t)^TW_in＝v_i

将one-hot编码的向量w(t)和W_in相乘，就是取出了输入矩阵W_in中w(t)对应的一行，该行的行号是单词w(t)在词典中的索引号。经过输入层操作得到的向量是一个稠密的向量(dense)，假设为p_middle。输出层的矩阵设为W_out，输出矩阵的大小d×|V|，则输出向量为：

p_out则为所需要的词向量。

步骤3：属性名称词编辑距离计算。首先计算不同数据源的相同实体中的每个属性名称之间的编辑距离。在本步骤中，编辑距离算法计算公式如下：

其中

当a_i＝b_j时等于0，其他情况下等于1，Lev_a，b(i，j)代表a的前i个字节到b的前j个字节的距离。

分别计算两个数据源中实体名相同的不同属性之间的编辑距离，当编辑距离为0时，也就代表两个属性名称相同，表征为同一属性，从而实现属性对齐，并构建属性对齐关系；否则执行下一步骤。

步骤4：属性名称词相似度计算。根据步骤2训练出的Word2Vec模型，向模型中输入属性名称词，得到词向量。根据得到的词向量，计算词向量之间的相似度。这里相似度采用余弦相似度(Cosine)来表示，计算公式如下：

其中Sim(W₁，W₂)表示两个词之间的相似度，W₁和W₂表示为两词的词向量表示，n表示为词向量的维度，通常为50维或者100维。w_i表示为词向量中的每个特征值，分子公式为两个词向量的点乘积，分母公式表示为两个词向量的模长的乘积。

计算得到相似度后，继续输出若干个与当前属性语义相似的词语。当推荐出的相似属性在另一个数据源中出现，并且余弦相似度大于一定的阈值时，则认为属性表征相似，进行下一步。

步骤5：属性对齐。将两个数据源中完成对齐的属性进行融合操作，构建属性关系集合，并以<实体，属性名称，属性值>的形式输出属性的对齐结果。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于语义相似度的属性对齐算法，其特征在于包括以下步骤：

步骤2：语料分词过程。获取到的语料库以文本表示，而本文所采用的算法是要将词进行向量化后来进行后续操作。在分词操作之前，先处理掉文本中的停用词，如数字、空格、换行符\n等。首先进行句子切分，对待处理的中文文档进行预处理，得到若干个中文短句的集合。此步骤主要通过标点符号例如句号、逗号、分号等，将中文文档进行切分，缩小中文分词的句子长度；接下来进行原子切分。对输入的中文短句进行原子切分，并根据所得的原子系列简历初始的且分词图。这一步主要是讲中文短句编程不可再分的字或字符系列。第三步，堆砌词语。就要原子系列，从不同视角分别进行中文词语识别，并将各自的堆砌结果添加到切分图中。这一步将打散的原子系列从不同视角分别进行中文词语的识别，为后续优化选词过程提供基础。最后，分词优化。基于上一阶段的堆砌路径和各路径的概率，计算得出最可能的堆砌路径，作为最后的分词结果并输出。

2.根据权利要求1所述的基于语义相似度的属性对齐算法算法，其特征在于：所述步骤3中Word2Vec的模型训练目标函数为：

3.根据权利要求1所述的基于语义相似度的属性对齐算法算法，其特征在于：所述步骤3中Word2Vec模型使用的softmax函数为：

其中v′_w和v_w分别表示词w的输出向量和输入向量。

4.根据权利要求1所述的基于语义相似度的属性对齐算法算法，其特征在于：所述步骤4中编辑距离计算公式为：

其中

5.根据权利要求1所述的基于语义相似度的属性对齐算法算法，其特征在于：语义相似度采用余弦值(Cosine)来表示，计算公式为：