CN111428047B

CN111428047B - 一种基于ucl语义标引的知识图谱构建方法及装置

Info

Publication number: CN111428047B
Application number: CN202010194484.3A
Authority: CN
Inventors: 杨鹏; 李超; 纪雯; 马卫东
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2023-04-21
Anticipated expiration: 2040-03-19
Also published as: CN111428047A

Abstract

本发明公开了一种基于UCL语义标引的知识图谱构建方法及装置。本发明首先从开放链接数据库中提取实体和关系，构建基础实体库；然后利用爬虫爬取各大门户网站中的新闻信息，对这些信息进行清洗解析形成UCL实体，完成实体消歧，并将UCL实体与基础实体库进行语义融合构建知识图谱；最后利用改进的关系推理算法完成对知识图谱的自动化补全，提高知识图谱的自动化水平。本发明能够利用UCL国家标准对互联网信息进行规范化、细粒度语义标引，使知识图谱所表示的语义信息更加丰富，为基于语义深度处理的内容大数据应用提供基于UCL语义标引的知识图谱支持。

Description

一种基于UCL语义标引的知识图谱构建方法及装置

技术领域

本发明涉及一种基于UCL语义标引的知识图谱构建方法及装置，属于互联网技术领域。

背景技术

随着互联网的迅速普及和数字信息的爆炸式增长，一方面带来了宝贵的信息财富，而另一方面如何从这些庞大的数据中检索有效信息对于搜索引擎也是一个较大挑战。传统的搜索引擎主要通过索引网页中的内容，匹配用户搜索请求中的关键词反馈给用户相关的网页链接，并利用网页排序算法对结果进行排序。这种模式给互联网信息检索带来了极大便利，但是返回结果过于单一，用户必须点进网页链接做二次检索才能获取所需信息。互联网用户希望当搜索时能够获取准确的、直接的和丰富的信息，搜索引擎需要提供智能语义搜索服务。

知识图谱可以将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好的组织、管理和利用海量信息的方式，目前已经广泛应用于智能语义搜索中。目前国内外关于知识图谱的相关研究已经取得了丰富的成果，对本发明的研究工作具有借鉴意义，但在知识图谱构建上仍有较大提升空间。首先，目前知识图谱的知识表示方式主要是以较为简单的三元组形式将结构化数据组织，这样便于机器处理，但是丢失了实体的“上下文信息”，降低知识图谱语义表达的准确性。另外，目前关系推理算法主要基于Transe算法进行改进，但是这类算法忽略了实体与关系在语义上的多样性，缺乏对“一对多”和“多对一”类型关系的有效处理，从而大大降低了关系推理的准确性。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出了一种基于UCL语义标引的知识图谱构建方法及装置，能够对互联网信息进行规范化、细粒度标引，使知识图谱所表示的语义信息更丰富，同时能够完善传统关系推理算法在处理“一对多”和“多对一”类型关系时，如果对于关系两侧实体分别实施替换干扰得到的推理性能表现不均衡的问题。

技术方案：为实现上述发明目的，本发明所述的一种基于UCL语义标引的知识图谱构建方法，利用爬虫爬取各大门户网站中的新闻信息，对这些信息进行清洗解析形成UCL实体，并从百度百科、维基百科和wikidata等开放链接数据中提取实体和关系构建基础实体库，将UCL实体与该基础实体库进行语义融合最终构建知识图谱，最后利用改进的关系推理算法完成对知识图谱的自动化补全，提高知识图谱的自动化水平。具体步骤如下：

(1)构建基础实体库：从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库。

(2)构建初始UCL知识图谱：对获取的新闻信息进行清洗、语义解析标引成UCL实体。并根据新闻的5W特性，将UCL实体与基础实体库中普通实体间的关系分类，然后分别计算各普通实体在UCL实体中的语义重要程度，从而得到UCL实体与普通实体间的关联度，将UCL实体融入基础实体库，完成初始UCL知识图谱的构建。

(3)改进关系推理算法完成对UCL知识图谱的自动化补全：根据普通实体与UCL实体间的关联关系，将UCL实体作为普通实体间关系的“上下文”，利用关系的语义环境区分实体间的关系，据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量，利用训练好的词向量模型对知识图谱补全，提高知识图谱的自动化程度。

作为优选，所述步骤(1)中构建基础实体库时，首先使用开放链接数据库wikidata中的数据作为源数据建立基础的知识库；然后从其它开放链接数据中提取实体和关系，并对齐到基础实体库中，完善和纠正基础实体库中的实体属性和关联关系信息；所述其它开放链接数据为百度百科、互动百科和/或中文维基百科网站。

作为优选，所述步骤(2)中根据词频选择UCL中待消歧实体，根据词频和词在文中的位置计算实体的语义重要程度，并根据实体间的词语相似度选取基础实体库中的目标实体集合，再从基础实体库中获取目标实体的同义实体和歧义实体加入目标实体集合作为候选实体集合，并从基础实体库中获取每个候选实体的关联实体集合作为候选实体的上下文环境；计算UCL中待消歧实体的上下文与候选实体的上下文的相似性作为实体间的环境相似度；取环境相似度最高的目标实体，将对应的语义重要程度作为它与UCL实体的关联度。

作为优选，根据如下公式计算UCL中待消歧实体ucle_i与候选实体ce_j的环境相似度：

其中，UCLDE表示UCL中待消歧实体集合，pw_i表示ucle_i的语义重要程度，REL表示候选实体的关联实体集合，size(UCLDE)表示集合UCLDE的大小，I(SIM(e_t,e_k)>0)为指示函数，SIM表示实体间的词语相似度，θ为权重分配参数。

作为优选，所述步骤(3)中利用如下公式作为知识图谱补全的判断依据：

其中h、r、t分别表示头实体向量、关系向量和尾实体向量，UCL_r为由头尾实体共同上下文语义环境决定的参数向量，它和头尾实体向量维数相同，

表示UCL_r和h两个向量各位相乘，||·||₂表示L2范数，f(h,r,t)计算的值越接近0，表示补全的实体越准确。

作为优选，按照如下目标函数训练得到UCL知识图谱中三元组(h,r,t)和对应环境参数UCL_r的向量表示：

其中S表示UCL知识图谱中三元组词向量集合，S′_(h,r,t)表示构建的对应三元组(h,r,t)的负样本集合，

为正负样本之间的间距。

基于相同的发明构思，本发明所述的一种基于UCL语义标引的知识图谱构建装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于UCL语义标引的知识图谱构建方法。

有益效果：与现有技术相比，本发明提供的基于UCL语义标引的知识图谱构建方法，具有如下优点：

(1)本发明构建的知识图谱具有丰富的语义信息，保留了实体的“上下文信息”，提高了知识图谱语义表达的丰富性。

(2)本发明基于UCL国家标准对互联网信息进行语义标引，并且将其融入普通知识库中，而UCL具有结构灵活、简洁高效等特点，便于机器处理，提高知识图谱的自动化程度。

(3)本发明利用UCL实体与普通实体的关系，改进传统关系推理算法，提高实体与关系在不同语义环境下的区分能力，进而增加对“一对多”和“多对一”类型关系的有效处理。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例涉及的UCL知识图谱结构图。

图3为本发明实施例涉及的UCL知识图谱自动补全流程图。

图4为本发明实施例涉及的UCL知识图谱实体转换为向量流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

由国家标准《统一内容标签格式规范》(GB/T 35304-2017)所定义的统一内容标签UCL(Uniform Content Label)，是一种可对内容资源的丰富语义进行标引的内容元数据，它能够对传媒、互联网及相关行业中的内容进行规范化标引。UCL具有结构灵活、简洁高效等特点，可以按照具体应用需求进行自由扩展和裁剪。本发明对互联网语义信息进行UCL语义标引，与爬取到的百科知识进行语义融合构建基础的知识图谱，结合UCL和Transe算法完善关系推理算法对知识图谱进行优化。

本发明在具体实施时，先通过网络爬虫等工具从各大新闻门户网站和百度百科、互动百科、中文维基百科等中文百科网站获取相关文本，然后按照构建基础实体库、构建初始UCL知识图谱、改进关系推理算法等3个步骤进行UCL知识图谱的构建，如图1发明实施例的方法流程图，具体各步骤的实施如下：

步骤1，构建基础实体库。首先使用开放链接数据库wikidata中的数据作为源数据建立基础的知识库。wikidata是结构化的信息集合，每个实体都有基础的属性，实体间通过确切关系相连，例如，“迈克尔乔丹”这一实体有属性性别、出生日期等，它和“人类”实体间是“属于”关系。然后从其它开放链接数据中提取实体和关系，并对齐到基础实体库中，完善和纠正基础实体库中的实体属性关联关系等信息，本发明的实体相关数据主要来源于百度百科和互动百科等中文百科网站，这类网站具有良好的布局结构，基本上一个词条对应一个实体，而实体的属性和实体间的关系可以通过网页中的信息框(Infobox)和内链(Internal Links)提取。

步骤2，构建初始UCL知识图谱。首先将爬取的新闻网页信息标引为UCL实体，一篇新闻标引为一个UCL实体，然后计算UCL实体与普通实体间的关联度，将UCL实体融入基础实体库构建初始UCL知识图谱，UCL知识图谱结构如图2所示。具体步骤如下：

子步骤2-1，利用开发工具BeatifulSoup对爬取的新闻信息进行清洗、语义解析，从而抽取到新闻的标题、作者、时间、摘要和正文等主要内容，然后利用UCL标引工具对这些内容进行标引得到UCL实体；

子步骤2-2，利用TextRank算法从新闻网页正文中提取中心句集合sents＝{s₁,s₂,…,s_n}，集合中s_i代表中心句，它由词组成；n为集合中中心句数量；

子步骤2-3，计算UCL实体中所有词的词频并得到词频大于γ的词集合C＝{c₁,c₂,…,c_m}，m为集合中词的数量，γ为阈值，本发明设置为3。本发明的词频为消歧过后的词频，例如“鹅厂”、“腾讯”都指“腾讯控股有限公司”；

子步骤2-4，普通实体在UCL实体所标引的新闻中的语义权重由实体的频次、和上下文决定，若实体出现的频次高且出现在中心句中，其语义权重也较高。按照词在文中的位置，对C中的词依次计算每个词相对于全文的语义重要程度pw_i，计算公式如公式1所示，其中freq(c_i)为c_i的词频，I(c_i∈s_t)为指示函数，表示c_i是否属于s_t，α表示调节参数取值范围为0～1，本发明α取值为0.7；

子步骤2-5，对UCL实体中已经计算好pw_i的候选实体进行语义消歧，使UCL实体融入基础实体库。由以上步骤得到待消歧实体集合，如公式2所示：

其中ucle_i、pw_i、cate_i分别表示UCL中待消歧实体、子步骤2-4计算的语义重要程度、实体所属类别，既Who(何人)、When(何时)、Where(何地)、What(何事)和Why(何故)这五个类别，分别对应cate_i的取值w₁、w₂、w₃、w₄和w₅。

计算基础实体库中实体与UCLDE中实体间的词语相似度，如公式3所示，选取词语相似度大于设定阈值的目标实体，得到对应的目标实体集合TAR，如公式4所示。

LCS(e_i,e_j)表示实体e_i和e_j的最长公共子序列长度，len(e_i)表示实体的长度。

TAR＝{e₁,e₂,…,e_i,…} 公式4

再从基础实体库中获取目标实体TAR的同义实体和歧义实体，将它们加入目标实体得到候选实体集合UCLCE，如公式5所示，同时从基础实体库中获取每个候选实体的关联实体集合REL作为候选实体的上下文环境，如公式6所示。

UCLCE＝{ce₁,ce₂,…,ce_i,…} 公式5

REL＝{re₁,re₂,…,re_i,…} 公式6

最后再计算UCLDE中实体的上下文和UCLCE中实体的上下文的相似性，即两类实体的环境相似度，利用公式7最终计算实体间的相似度。

其中size(UCLDE)表示集合UCLDE的大小，I(SIM(e_t,e_k)>0)为指示函数，表示实体e_t和e_j的相似度是否大于0，θ为权重分配参数，小于1，本发明取值为0.7，REL为候选实体ce_j的上下文实体集合。根据公式7计算好相似度后，取相似度最高的实体作为目标实体，将目标实体的语义重要程度pw_i作为它与UCL实体的关联度，再将目标实体类别cate_i作为关系类别更新入基础实体库，最终完成初始UCL知识图谱的构建。构建好的UCL知识图谱结构如图2所示。图中e表示普通实体，u表示UCL实体，p表示实体间的关系。

步骤3，UCL知识图谱自动化补全，通过改进关系推理算法利用Word2Vec思想将初始UCL知识图谱转换为向量，再利用公式8作为知识图谱补全的判断依据。UCL知识图谱自动化补全总体流程如图3所示。

其中h、r、t分别为头实体向量、关系向量和尾实体向量，UCL_r由头尾实体共同上下文语义环境决定的参数向量，他和头尾实体向量维数相同，UCL_r°h表示UCL_r和h两个向量各位相乘，||·||₂表示L2范数，公式8计算的值越接近0，表示补全的实体越准确。改进关系推理算法的具体步骤如下所示：

子步骤3-1，对于初始UCL知识图谱中的普通实体e_i，取与其关联度大于δ的UCL实体集合UCLE作为其上下文环境，如公式9所示，利用Word2Vec中的CBOW模型训练得到实体e_i的词向量E_i，UCL知识图谱中实体转换为Word2Vec过程如图4所示。

UCLE＝{v₁,v₂,…,v_i,…} 公式9

公式中v_i为实体的onehot向量，通过CBOW训练输出权重矩阵W，任何一个实体的onehot向量乘以W就得到该实体的词向量。

子步骤3-2，将子步骤3-1训练得到的词向量E_i作为Transe算法模型头尾实体h和t的初始向量，然后利用UCL知识图谱中已有的三元组信息构建负样本，为避免负样本真实存在于知识图谱中，取与正确三元组中尾实体属性类似的其它实体作为负样本三元组的尾实体，本发明的UCL知识图谱中含有三元组(姚明，出生于，上海)，该三元组对应的负样本为(姚明，出生于，北京)，“上海”和“北京”均为Where类型实体，将“北京”替换为“上海”后便可确定新的三元组是知识图谱中未出现过的。然后初始化头尾实体的环境向量参数UCL_r。

子步骤3-3，将子步骤3-2初始化的向量，按照公式10的目标函数(损失最小)训练，最终得到UCL知识图谱中三元组(h,r,t)和对应环境参数UCL_r的向量表示。

公式10中S表示UCL知识图谱中三元组词向量集合，S₍′_h,r,t)表示按照步骤3-2方式构建的对应三元组(h,r,t)的负样本集合，

为正负样本之间的间距，是一个常数，[·]₊表示max(0，·)。

子步骤3-4，实体补充。实体补充分为普通实体补充和UCL实体补充。普通实体的来源为新闻网页，一篇新闻网页被标引为UCL实体。针对待补充普通实体e_i、e_j和对应UCL实体重复步骤2进行消歧和语义融合。对于普通实体e_i和e_j，若它们均为知识图谱中已经存在的实体只需更新对应的关系，根据公式8计算实体的关系向量，根据步骤3-3计算得到的实体和关系向量嵌入式表示的映射，得到实体e_i与e_j的关系r，将关系r更新入UCL知识图谱；如只有一个实体为知识图谱中已存在的实体，不失一般性，假设实体e_i为知识图谱的未登录实体，先根据步骤3-1得到e_i对应的Word2Vec词向量，然后重复步骤3-3，基于整个知识图谱重新训练得到包含e_i的新三元组的向量嵌入式表示，并同时更新UCL知识图谱和向量映射表；当两个实体均为未登录实体时，和一个实体的情况类似，只需对这两个实体进行相同操作即可。补充好普通实体后在对相应的UCL实体进行补充。

基于相同的发明构思，本发明实施例公开的一种基于UCL语义标引的知识图谱构建装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于UCL语义标引的知识图谱构建方法。

Claims

1.一种基于UCL语义标引的知识图谱构建方法，其特征在于，包括如下步骤：

(1)从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库；

(2)对获取的新闻信息进行清洗、语义解析标引成UCL实体，并根据新闻的5W特性，将UCL实体与基础实体库中普通实体间的关系分类，然后分别计算各普通实体在UCL实体中的语义重要程度，从而得到UCL实体与普通实体间的关联度，将UCL实体融入基础实体库，完成初始UCL知识图谱的构建；

(3)根据普通实体与UCL实体间的关联关系，将UCL实体作为普通实体间关系的“上下文”，利用关系的语义环境区分实体间的关系，据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量，利用训练好的词向量模型对知识图谱补全；所述特定关系是UCL实体与普通实体的关联度大于设定阈值；

所述步骤(2)中根据词频选择UCL中待消歧实体，根据词频和词在文中的位置计算实体的语义重要程度，并根据实体间的词语相似度选取基础实体库中的目标实体集合，再从基础实体库中获取目标实体的同义实体和歧义实体加入目标实体集合作为候选实体集合，并从基础实体库中获取每个候选实体的关联实体集合作为候选实体的上下文环境；计算UCL中待消歧实体的上下文与候选实体的上下文的相似性作为实体间的环境相似度；取环境相似度最高的目标实体，将对应的语义重要程度作为它与UCL实体的关联度；

根据如下公式计算UCL中待消歧实体ucle_i与候选实体ce_j的环境相似度：

其中，UCLDE表示UCL中待消歧实体集合，pw_i表示ucle_i的语义重要程度，REL表示候选实体的关联实体集合，size(UCLDE)表示集合UCLDE的大小，I(SIM(e_t,e_k)>0)为指示函数，SIM(e_t,e_k)表示实体e_t和e_k间的词语相似度，θ为权重分配参数。

2.根据权利要求1所述的基于UCL语义标引的知识图谱构建方法，其特征在于，所述步骤(1)中构建基础实体库时，首先使用开放链接数据库wikidata中的数据作为源数据建立基础的知识库；然后从其它开放链接数据中提取实体和关系，并对齐到基础实体库中，完善和纠正基础实体库中的实体属性和关联关系信息；所述其它开放链接数据为百度百科、互动百科和/或中文维基百科网站。

3.根据权利要求1所述的基于UCL语义标引的知识图谱构建方法，其特征在于，所述步骤(3)中利用如下公式作为知识图谱补全的判断依据：

4.根据权利要求3所述的基于UCL语义标引的知识图谱构建方法，其特征在于，按照如下目标函数训练得到UCL知识图谱中三元组(h,r,t)和对应环境参数UCL_r的向量表示：

为正负样本之间的间距。

5.一种基于UCL语义标引的知识图谱构建装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的基于UCL语义标引的知识图谱构建方法。