CN108376287A

CN108376287A - 基于CN-DBpedia的多值属性分割装置及方法

Info

Publication number: CN108376287A
Application number: CN201810173269.8A
Authority: CN
Inventors: 罗钲; 徐波; 肖仰华
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2018-08-07

Abstract

本发明公开了一种基于CN‑Dbpedia的多值属性分割装置及方法。本发明的分割装置其包括对象属性数据分割模块、分割模型训练模块、数值属性数据分割模块和多值属性挖掘模块；其中：所述对象属性数据分割模块通过无监督方法对对象属性类型的属性三元组进行分割，实现训练集的构造；所述分割模型训练模块通过构造的训练集，选自其特征，进而采用条件随机算法训练通用的分割模型；所述数值属性数据分割模块利用生成的分割模型对数值属性类型的属性三元组进行分割；所述多值属性挖掘模块统计分析对象属性和数值属性的分割结果，采用逻辑回归模型挖掘多值属性。

Description

基于CN-DBpedia的多值属性分割装置及方法

技术领域

本发明属于数据业务技术领域，具体涉及一种基于CN-DBpedia的多值属性分割装置及方法。

背景技术

随着互联网信息的快速增长，Web已经成为目前可用的规模最大、内容最丰富的信息源。但是由于Web数据缺乏语义相关的信息，使得这些丰富的数据资源仅为人类所理解，而机器或程序则无法自动理解数据的含义。知识图谱技术的出现为解决语义问题提供了新的思路。知识图谱以图形的方式向用户返回加工和推荐的知识，是实现智能化语义分析的基础和桥梁。而属性数据是知识图谱最为重要组成部分之一，属性的数据质量决定了知识的准确性和可用性。因此，如何保证属性的数据质量成为了一个亟待解决的技术难题。

属性的数据质量是指知识图谱中实体对于某一属性可能存在多个属性值。现有的技术中，一般采用规则的方法进行处理，主要过程为：首先，对语料进行分析，人工选择特定的分割符；然后，利用选取的分隔符对语料进行分割；最后得到切分的属性值。

现有的技术中，在实现属性值分割的过程中，主要依赖于大量人工的干预和特定的规则。若过于依赖人工与规则，则很难对其进行扩展，需要对不同语料的不同规则的大量观察，并且需要大量的人力。

发明内容

为了克服现有技术的不足，本发明提出了一种基于CN-DBpedia的多值属性分割装置和方法。本发明将知识图谱的属性三元组(实体、属性、属性值)划分为对象属性(ObjectProperty)和数值属性(Datatype Property)，其分别利用对象属性和数值属性的性质，引入实体的指代表进行子序列匹配的mention表以及条件随机场模型进行分割，分割结果准确，人工需求少。

本发明的技术方案具体介绍如下：

一种基于CN-Dbpedia的多值属性分割装置，其包括对象属性数据分割模块、分割模型训练模块、数值属性数据分割模块和多值属性挖掘模块；其中：

所述对象属性数据分割模块通过无监督方法对对象属性类型的属性三元组进行分割，实现训练集的构造；

所述分割模型训练模块通过构造的训练集，选自其特征，进而采用条件随机算法训练通用的分割模型；

所述数值属性数据分割模块利用生成的分割模型对数值属性类型的属性三元组进行分割；所述多值属性挖掘模块统计分析对象属性和数值属性的分割结果，采用逻辑回归模型挖掘多值属性。

本发明中，所述对象属性数据分割模块，先对对象属性类型的属性三元组进行无监督的预分割，再通过判断预分割后的子序列是否为CN-DBpedia的某个实体的指代，进而得到一系列正确的分割结果，构造训练集。

本发明中，所述分割模型训练模块先对训练基的子序列进行序列标注，选取利用字符本身作为输入的序列特征、实体的指代特征以及是否是多值属性的特征，进而采用条件随机算法训练通用的分割模型。

本发明中，所述多值属性挖掘模块中，多值属性的特征包括属性名、分割次数和分割率。

本发明提供一种基于上述多值属性分割装置的多值属性分割方法，其包括对象属性数据分割的步骤、分割模型训练的步骤、数值属性数据分割的步骤和多值属性挖掘的步骤；其中：

所述对象属性数据分割的步骤，通过无监督方法对对象属性类型的属性三元组进行分割，实现训练集的构造；

所述分割模型训练模块的步骤，通过构造的训练集，选自其特征，进而采用条件随机算法训练通用的分割模型；

所述数值属性数据分割的步骤，利用生成的分割模型对数值属性类型的属性三元组进行分割；

所述多值属性挖掘的步骤，统计分析对象属性和数值属性的分割结果，采用逻辑回归模型挖掘多值属性。

本发明中，所述对象属性数据分割的步骤中，先对对象属性类型的属性三元组进行无监督的预分割，再通过判断预分割后的子序列是否为CN-DBpedia的某个实体的指代，进而得到一系列正确的分割结果，构造训练集。

本发明中，所述分割模型训练的步骤中，先对训练基的子序列进行序列标注，选取利用字符本身作为输入的序列特征、实体的指代特征以及是否是多值属性的特征，进而采用条件随机算法训练通用的分割模型。

本发明中，所述多值属性挖掘的步骤中，多值属性的特征包括属性名、分割次数和分割率。

和现有技术相比，本发明的有益效果在于：

1、本发明中的训练集生成步骤中，其利用对象属性的性质，通过引入一个指代表，用子序列匹配实体指代的无监督方法可以有效分割部分对象属性的属性值。这些分割结果准确率较高，可以作为值分割任务的训练集。这样的训练集构造方法可以有效地解决传统有监督算法训练集缺失的问题，同时整个构造过程自动进行，不需要人工标注训练集。

2、本发明的数值属性的属性值分割中，对于属性值分割问题，首先将它转化为序列标注问题，然后模型变更，采用特征加条件随机场模型的方式进行分割。相对于一般的基于规则的方法，基于模型的方法可以引入更丰富的特征，能够结合概率模型和先验知识引入的特征，解决一些分割规则没有覆盖的情况，同时也可以减少创建规则的人力需求，从而提高结果的召回率。同时其在条件随机场模型中针对任务本身的特点引入实体指代(mention)的标注信息和多值属性信息，可以有效地提高值分割序列标注任务的准确率。

3、本发明的多值属性挖掘的步骤中，不仅对属性值进行了分割处理，而且实现了通过属性值分割的信息判断一个属性是否是多值属性，从而丰富了知识图谱中的属性的信息。

附图说明

图1是本发明的基于CN-DBpedia的多值属性分割方法具体流程图。

图2是序列标注例子示意图。

图3是本发明的数值属性数据分割模块流程图。

图4是本发明的多值属性分割装置的详细架构图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细阐述。

本发明利用CN-DBpedia积累的海量实体-属性数据，将包含多值属性的三元组分割为多个三元组，从而优化知识图谱的结构。

通过获取百科类网站上的信息，可以获得一系列包含实体、属性、属性值的三元组信息。而由于百科类网站主要由人工编辑形成，实体的同一个属性的多个属性值往往会被包含在一个字符串中，如果不经过处理，这个字符串在知识图谱中会被当作一个属性值，产生错误，而其中很大一部分都是以多个属性值加分隔符(常见的分隔符有[/、,，；；|])构成的字符串，例如：“碳水化合物，蛋白质，矿物元素”实际上包含三个值“碳水化合物”，“蛋白质”，“矿物元素”。本发明的目标是对于这类字符串进行分割，得到其中真正的属性值。具体表述如下。

一种基于CN-DBpedia的多值属性装置，其包括如下模块：

(1)对象属性(Object Property)数据分割模块：通过对对象属性对应的属性值进行无监督的预分割；通过中文通用百科知识图谱CN-DBpedia的实体的指代表(mentionlist)，判断分割后的子序列是否为某个实体的指代来判断分割结果是否正确，并得到一系列正确的分割结果。

(2)分割模型训练模块：利用对象属性数据分割模块的分割数据和分割结果作为训练集，将分割问题转化为序列标注问题，并分析其特征；通过在训练集上训练条件随机场CRF算法，实现通用的属性值分割模型。

(3)数值属性(Datatype Property)数据分割模块：利用分割模型训练模块分析的特征和训练的模型，对数值属性的属性值进行分割。

(4)多值属性挖掘模块：通过统计对象属性和数值属性的分割结果，引入逻辑回归模型，挖掘知识图谱中存在的多值属性。

一种基于上述装置的多值属性分割方法具体如下：

步骤一：Object Property数据分割步骤。对收集的三元组数据进行过滤，得到Oject Property类型的属性三元组；引入CN-DPedia的mention表，对三元组的属性值进行分割。

步骤二：分割模型训练步骤。以步骤一的数据和分割的结果作为训练集；选取其特征，并通过CRF算法训练通用的分割模型。

步骤三：Datatype Property数据分割步骤。利用步骤二中特征生成的方式和分割模型对Datatype Property类型的属性三元组进行分割。

步骤四：多值属性挖掘步骤。对分割的结果进行统计分析，引入逻辑斯蒂回归模型，挖掘知识图谱的多值属性。

下面进行详细阐述。

1.对象属性数据分割模块

实体的指代(mention)是实体在自然语言文本中的别名或另一种指代形式。对象属性(Object Property)的值对应一个或多个实体的指代(mention)。假定拥有一个较大的实体指代集合能够涵盖足够多的实体，利用Object Property的这一性质，可以通过判断分割后的子序列是否为实体的mention来判断分割结果是否正确，这样就实现了无监督的分割方法。具体的实现采用一个评估指标加阈值的方案，首先引入一个较大的mention表，对于分割后的每个子序列，如果它存在于mention表中，则认为它是一个mention，则分数加一，反之则分数减一，由此得到每一种分割模式的分值，由阈值判断分割的正确性。最后输出正确的分割结果作为该模块的输出。

2.分割模型训练模块

通过对分词后的序列进行0-1序列标注，在需要被分割的分隔符位置标注为1，其他位置标为0，可以将值分割的任务转化为序列标注问题，如图2所示：

经过第一步的初步分割后可以构建一个值分割的训练集，再结合一定的人工标注得到的训练集，通过在训练集上训练隐马尔科夫模型(HMM)或条件随机场模型(CRF)，可以实现一个通用的属性值分割模型。条件随机场模型(conditional random field)可以再给定观测变量(词语序列)的情况下对隐变量序列(标注序列)建模。例如线性条件随机场模型是一种加入了马尔科夫条件的模型，它所定义的一个隐变量序列的条件概率为：

其中，x_1：N是一个隐变量的序列，e_1：N)是观测到的变量序列，α是归一化因子，F(x_i-1，x_i，e，i)是模型的特征，由k个特征函数(feature functions)加权相加而成：

对于一般的条件随机场模型，

在条件随机场中，特征函数f_k(x_i，x_j，e，i，j)可以使用观测序列e_1∶N的任意部分，也可以被定义为和隐变量x_i，x_j的转移相关。对于许多存在一定的先验知识的领域，通过设计不同的特征，构造特征函数，就可以将各种可能存在的先验统计分布规律引入模型中。在定义了特征函数之后，利用最大后验概率(maximum a posteriori)可以对λ_k进行参数估计，最终可以用Viterbi算法求出隐变量的最大似然路径(most probable path)。

在属性值分割任务中，考虑到：

1)分割后的几个子序列拥有独立的语义，表示某个实体或者某一种值；

2)如果属性的多值属性，那么它的属性值需要被分割的概率较高；

基于以上先验知识的考虑，选取的特征有以下几个：

第一个特征是字符本身作为输入的序列特征；第二个是mention特征，即对于输入属性值字符串先对其中存在的mention利用{B,I,O}标注集合进行标注，分别表示mention的第一个字符，mention的延续部分字符、不属于mention的字符，如“刘德华”是一个mention，则这三个字符的对应位置被标注为B,I,I；第三个特征是是否是多值属性，比如该属性值是一个多值属性的属性值，那么整个序列全部被标注为I，反之如果是单值属性的属性值，则整个序列全部标注为O。利用这三个特征可以训练条件随机场模型。

3.数值属性数据分割模块

数值属性Datatype Property的值对应一些Datatype数据类型，如数值、日期、地址等等。一个完整的处理过程如图3，输入一个属性-属性值对，首先过滤出那些属性值包含分隔符的属性-属性值对作为模型输入，再生成对应的特征序列，利用一个在训练集上训练好的条件随机场模型对序列进行0-1序列标注。对标注序列进行解析，输出的结果即多个子序列(分割结果)或者是单个序列(不分割)。这样就实现了无监督方法难以分割的Datatype属性值的分割。

4.多值属性挖掘模块

知识图谱中的实体对应诸多属性，其中一部分属性具有多值的特性，而多值属性的值中可能包含多个独立的值；多值属性的实例可以为空，也可以包含一个单值或多值。对于任意属性p，都可以被分类为单值属性和多值属性。对于一个属性，已知它在知识库中以不同实体的属性出现多次，并对于不同实体，有不同的属性值。利用这些信息，判别属性是单值属性还是多值属性。

判断一个属性是否为多值属性可以被转化为一个二分类问题。一个最简单的判断标准是这个属性是否存在多个值的情况。然而，实际情况中，判断多值属性存在以下问题：

1)由于错误的值分割，导致一些单值属性的属性值被错分，导致准确率下降；

2)大多数属性出现次数很少，可能某个属性虽然是多值属性，但在数据中没有出现多值，仍会被当作单值属性，导致召回率下降；

基于以上考虑，不能用简单的规则判断属性的多值性质，而应该权衡以上两点，平衡准确率和召回率，使用判别模型来进行分类。对于分类模型，特征选取会很大程度上影响最终效果。考虑到多值属性判别这个任务有以下几个特点：

1)其值能被分割的属性很可能是多值属性，被分割次数越多，值分割模型出错概率越低，说明结果越可靠；

2)部分属性从属性名上可以推断出是单值属性，比如名字是“某某值”，“某某时间”，“某某地址”的属性是单值属性的概率很大；

基于以上的分析，可以设计如下三个特征(属性名、分割次数、分割率)。

表1多值属性特征表

经过无监督和有监督的值分割模型后，最终的分割结果对每一个属性进行汇总，可以得到每一个属性总共被分割次数和分割率。分割次数即该属性的值被分割模型分割的次数，分割率定义为分割次数除以该属性在知识库中出现的总次数。将每一个属性的属性名用字符表示构造成一个one-hot向量，即属性名中出现的每个字符对应的位置为1，其余位置为0的一个向量，再结合属性的分割次数和分割率特征，构成这一属性的特征向量x。其中分割次数是一个整数，分割率是一个[0,1]之间的实数。在进行分类之前，需要对分割次数和分割率特征进行对数归一化，

x_i′＝log(x_i)

实施例中，首先对知识图谱中的每个属性值带有分隔符的三元组进行属性值分割，经过统计得到了各个属性的分割次数和分割率特征。从中选取知识图谱中的常见属性2047个，通过人工标注是否是多值属性，从而构建多值属性训练集。在训练集上训练逻辑斯蒂回归模型(Logistic Regression)，可以对所有属性进行二分类(多值属性或单值属性)，从而导出知识图谱中的多值属性。

该装置应用于系统中的详细架构图，如图4所示。

在图4的架构图中，数据抽取结构用于处理数据准备过程，例如，来自百科类网站中一系列包含实体、属性、属性值的三元组信息；结构化数据展示接口用于输出三元组分割后结果的展示接口，而结果的读取可以采用基于文本文档方式和知识图谱方式显示数据。

Claims

1.一种基于CN-Dbpedia的多值属性分割装置，其特征在于，其包括对象属性数据分割模块、分割模型训练模块、数值属性数据分割模块和多值属性挖掘模块；其中：

2.根据权利要求1所述的多值属性分割装置，其特征在于，所述对象属性数据分割模块，先对对象属性类型的属性三元组进行无监督的预分割，再通过判断预分割后的子序列是否为CN-DBpedia的某个实体的指代，进而得到一系列正确的分割结果，构造训练集。

3.根据权利要求1所述的多值属性分割装置，其特征在于，所述分割模型训练模块先对训练基的子序列进行序列标注，选取利用字符本身作为输入的序列特征、实体的指代特征以及是否是多值属性的特征，进而采用条件随机算法训练通用的分割模型。

4.根据权利要求1所述的多值属性分割装置，其特征在于，所述多值属性挖掘模块中，多值属性的特征包括属性名、分割次数和分割率。

5.一种基于权利要求1所述的装置的多值属性分割方法，其特征在于，其包括对象属性数据分割的步骤、分割模型训练的步骤、数值属性数据分割的步骤和多值属性挖掘的步骤；其中：

6.根据权利要求5所述的多值属性分割方法，其特征在于，所述对象属性数据分割的步骤中，先对对象属性类型的属性三元组进行无监督的预分割，再通过判断预分割后的子序列是否为CN-DBpedia的某个实体的指代，进而得到一系列正确的分割结果，构造训练集。

7.根据权利要求5所述的多值属性分割方法，其特征在于，所述分割模型训练的步骤中，先对训练基的子序列进行序列标注，选取利用字符本身作为输入的序列特征、实体的指代特征以及是否是多值属性的特征，进而采用条件随机算法训练通用的分割模型。

8.根据权利要求5所述的多值属性分割方法，其特征在于，所述多值属性挖掘的步骤中，多值属性的特征包括属性名、分割次数和分割率。