CN112948570A

CN112948570A - 无监督的领域知识图谱自动化构建系统

Info

Publication number: CN112948570A
Application number: CN201911263803.5A
Authority: CN
Inventors: 周元辅; 梁斌; 梁家卿; 肖仰华
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2021-06-11

Abstract

本发明的目的在于实现领域知识图谱的自动化构建。具体地，本发明提供了一种无监督的领域知识图谱自动化构建系统，用于基于预定领域的领域语料建立该领域的领域知识图谱，其特征在于，包括：领域词挖掘模块，基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出领域相关的词语，从而输出领域词表；关系挖掘模块，通过预定规则初步建立起领域词表中的领域词之间的关系；概念挖掘模块，用于采用聚类手段进行概念挖掘从而进一步丰富领域词之间的关系。本发明的系统能够基于各领域均存在的文档作为切入点进行知识图谱构建，很好地适应于不同的领域；另一方面，构建过程不需要领域专家参与，能够降低工作量以及构建成本。

Description

无监督的领域知识图谱自动化构建系统

技术领域

本发明属于知识图谱自动化构建系统领域，具体涉及一种无监督地进行词语挖掘、关系挖掘和概念挖掘的领域知识图谱构建系统。

背景技术

近些年,随着自然语言理解和人工智能技术的发展以及人们对智能服务需求的提升，需要更深入地挖掘知识内容，将信息、数据、链接等关系聚集为知识，使信息资源更易于计算与理解。为了有序组织和表示这些有价值的知识，知识图谱技术应运而生。2012年,Google提出了知识图谱的概念,此后国内外出现了面向各种应用的知识图谱，其中领域知识图谱目前已经应用于语义搜索、智能问答、决策支持等智能服务上，是企业智能化的一种重要支撑技术，其自动构建方法受到了极大的关注。

现有的技术中，领域知识图谱的构建方法可以分为三类：1)自顶向下的构建方法，该方法首先需要领域专家，构建领域图谱的本体模式层，从最顶层的概念开始构建顶层本体，再将概念细化，形成质量较高的图谱框架。然后利用知识抽取方法的将抽到的知识填充到领域专家所构建的图谱中；2)自底向上的构建方法，该方法是从半结构数据中或者直接从文本数据中，利用实体识别、实体消解、关系抽取等方法，提取实体、属性与实体间的关系，将提取出的关系加入到知识图谱中，然后再从这些知识中，抽象出概念层，完成知识图谱的构建；3)二者混合的方法，该二者混合的方法一般先在知识抽取的基础上，归纳构建图谱，之后专家可对增量知识与数据进行验证，再继续抽取知识，加入到验证后的图谱中，从而迭代更新领域图谱。

目前，领域知识图谱的构建多采用自顶向下的方法，而该方法存在着领域专家依赖性强、领域中已有的标注数据量少等问题。在现实场景中，专家往往只精通领域下的某个细分领域，难以准确全面的把握整个领域的图谱框架，仅适用于较小领域少量数据的知识图谱的构建；此外，构建过程需要专家大量的工作量，使得图谱在构建阶段的开销过大。而使用知识抽取的方法构建知识图谱时，需要大量的标注数据的支持，这在各个领域中往往难以获取，实际生产环境中还经常需要手工标注数据以供学习算法的使用，同样需要大量的人力资源。二者混合的方法则混合了前述两种方法的优点及缺点，其同样存在着工作量大、十分耗费人力资源的问题。

发明内容

为解决上述问题，实现领域知识图谱的自动化构建，本发明提出了一种无监督的知识图谱构建系统。

具体地，本发明提供了一种无监督的领域知识图谱自动化构建系统，用于基于预定领域的领域语料建立该领域的领域知识图谱，其特征在于，包括：领域词挖掘模块，基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出领域相关的词语，从而输出领域词表；关系挖掘模块，通过预定规则初步建立起领域词表中的领域词之间的关系；概念挖掘模块，用于采用聚类手段进行概念挖掘从而进一步丰富领域词之间的关系。

本发明提供的无监督的领域知识图谱自动化构建系统，还可以具有这样的技术特征，其中，领域词挖掘模块包括：数据预处理单元，用于筛除领域语料中的无意义信息并生成备选短语集；统计指标计算单元，用于计算每个备选短语的左右信息熵、互信息、短语词频；以及过滤单元，基于统计指标计算单元的计算结果过滤掉不符合构词规则的词语组合。

进一步，上述本发明提供的无监督的领域知识图谱自动化构建系统还可以具有这样的技术特征，其中，备选短语w的左信息熵H_left(w)计算公式如下：

上式中，w表示该备选短语的频率，w_left表示该备选短语左边的词w_left的频率,p(w_left|w)表示两者的条件概率。

一个备选短语包含词x,y时，该备选短语的互信息MI(x,y)计算公式如下：

其中，p(x,y)是词x以及词y在领域语料中同时出现的概率；p(x)是词x出现的概率；p(y)是词y出现的概率。

本发明提供的无监督的领域知识图谱自动化构建系统，还可以具有这样的技术特征，其中，关系挖掘模块包括基于词法的isA关系抽取子模块以及基于共现的相关关系抽取子模块。

进一步，上述本发明提供的无监督的领域知识图谱自动化构建系统还可以具有这样的技术特征，其中，isA关系抽取子模块用于基于领域词本身包含的词法信息抽取出领域词直接的isA关系，对于每个领域词，isA关系抽取子模块首先使用后缀法生成其对应的候选中心词，再通过词性与规则过滤低质量的中心词，从而输出isA关系。

进一步，上述本发明提供的无监督的领域知识图谱自动化构建系统还可以具有这样的技术特征，其中，相关关系抽取子模块利用滑动窗口，统计领域词之间的共现关系，从而判断两领域词之间的相关度，具体步骤如下：首先将文档分词，令滑动窗口大小k等于10，一篇文档d＝w₁w₂...w_n，则领域词w_i的共现窗口为[w_i-5,w_i-4,...w_i,...w_i-4,w_i-5]，则对于该窗口W中领域词w_i到领域词w_j的共现分数

文档d中领域词A到领域词B的共现分数cooccur_d(A→B)如下式所示：

在对单个文档进行统计后，引入一个平滑函数f(x)＝log(x+1)以平衡文档间的数据波动，对只单个文档存在较多共现关系的情况加以限制，最终在全体文档上，对于领域词A到领域词B的相关度P(A→B)定义为：

其中，D为全体文档，freq_d(A)为单个文档d中领域词A出现的频次。

本发明提供的无监督的领域知识图谱自动化构建系统，还可以具有这样的技术特征，其中，概念挖掘模块的聚类手段包括基于主体模型的全局聚类和基于距离的局部聚类。

进一步，上述本发明提供的无监督的领域知识图谱自动化构建系统还可以具有这样的技术特征，其中，全局聚类为将领域词表作为待聚类词表进行的基于PhraseLDA的主题模型的全局聚类。

进一步，上述本发明提供的无监督的领域知识图谱自动化构建系统还可以具有这样的技术特征，其中，局部聚类中的距离包括领域词之间的词向量相似度、领域词之间的最长公共子序列距离以及领域词之间的Levenshtein比。

发明作用与效果

根据本发明提供的无监督的知识图谱构建系统中，由于领域词挖掘模块能够基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出领域相关的词语从而输出领域词表，关系挖掘模块能够通过预定规则初步建立起所述领域词表中的领域词之间的关系，概念挖掘模块能够采用聚类手段进行概念挖掘从而进一步丰富领域词之间的关系，因此，一方面，本发明的知识图谱构建系统能够基于各领域均存在的文档作为切入点进行知识图谱构建，能够很好地适应于不同的领域；另一方面，本发明中，构建过程不需要领域专家参与，能够降低工作量以及构建成本。

附图说明

图1为本发明实施例的无监督的知识图谱构建系统的构成示意图；

图2是本发明实施例的领域词挖掘模块的构成示意图；

图3是本发明实施例的概念挖掘模块工作流程图。

具体实施方式

以下说明本发明的具体实施方式。

图1为本发明实施例的无监督的知识图谱构建系统的构成示意图。

如图1所示，无监督的知识图谱构建系统(以下简称构建系统)100用于基于某个预定领域的领域语料200(例如是领域的语料数据库)建立该预定领域的领域知识图谱300，包括领域词挖掘模块10、关系挖掘模块20以及概念挖掘模块30。

其中，领域词挖掘模块10用于从领域文本文档中挖掘出领域相关的词语，从而输出领域词表；关系挖掘模块20用于通过一些预定规则初步建立起领域词表中的领域词之间的关系；概念挖掘模块30用于进一步丰富领域词之间的关系，增强知识图谱300的密度和连通性。

以下详细说明各个模块的构成以及工作原理。

1、领域词挖掘模块10

领域词挖掘模块10用于从大量的领域文本文档中挖掘出领域相关的词语。本实施例的领域词挖掘模块10通过数据预处理、统计指标计算以及低质量词过滤三个步骤，输出一个较高质量的领域词表。

具体地，领域词挖掘模块10以领域语料200为输入，输出该领域中的领域相关的短语，该领域词挖掘模块10基于统计和规则相结合的词汇挖掘方法，通过融合统计度量值和上下文规则，结合的词汇识别方法的优点，以达到词汇挖掘的效果。

图2是本发明实施例的领域词挖掘模块的构成示意图。

如图1及图2所示，领域词挖掘模块10主要包括数据预处理单元11、统计指标计算单元12以及过滤单元13(即过滤器)三个部分。

数据预处理单元11用于将领域语料200中的无意义信息筛除，从而降低后续部分的处理难度。本实施例中，数据预处理单元11采用N-gram的方法生成备选短语全集，并利用Trie树来记录整个备选短语集合在领域语料中的词频等信息，为后续统计指标计算单元12的计算提供统计数据。

统计指标计算单元12用于计算每个备选短语的左右信息熵、互信息、短语词频这三种统计度量。通过将这些统计度量作为指标，过滤掉N-gram方法生成的大量不合理的备选短语，确定出一个范围较小、质量较高的新的备选短语集合，作为领域词表。

左右信息熵的计算方法如下：

左右信息熵用于确定词语的左边界和右边界。一个备选短语的左信息熵是指该备选短语和与它左边所有相邻的字结合的信息熵之和，用来判断该备选短语的左邻接字的多样性。备选短语w的左信息熵H_left(w)计算公式如下：

左信息熵越大，说明该备选短语左边相邻的字的种类越多，那么该备选短语成为某个词语的左边界的可能性越大。同理，右信息熵越大，该备选短语成为某个词语的右边界的可能性也越大。另外，右信息熵的计算方法与左信息熵相同，将上述计算式中的左边的词w_left相应替换为右边的词w_right即可，在此不再赘述。

互信息的计算方法如下：

互信息是常用的表示词内凝聚度的统计量,可以用来推断多个特征关联程度的大小,通常用来衡量两个信号之间的依赖程度。一个备选短语包含词x,y时，其互信息MI(x,y)计算公式如下：

其中，p(x,y)是词x以及词y在领域语料200中同时出现的概率；p(x)是词x出现的概率；p(y)是词y出现的概率。

互信息表示两个备选短语的关联程度，对于三元以上的备选短语(即包含三个及以上词的备选短语)，本实施例采用计算两两之间的互信息值，并取计算结果中的最小值来作为该备选短语的互信息值。

短语词频的计算方式如下：

一般来说，一个短语在给定的文档集合中至少要出现得足够频繁才被视作高质量的短语。短语本身就是单词的序列组合，因此一个单词序列使用得越多，越可能是一个高质量的短语。如果一个短语出现的次数过少，有可能只是拼写错误。本实施例中，一个备选短语的短语词频就是其在领域语料200中的出现频率。

过滤单元13用于根据统计指标计算单元12的计算结果过滤掉不符合构词规则的词语组合。

由于语料集的限制，通过数据预处理单元11的统计策略获取的备选短语中可能会存在大量不符合构词规则的词组或偶然性搭配形成的词组，如类似“10月1”的组合是不被需要的，影响整体准确率。因此，本实施例中过滤单元13引入基于规则的方法，从语言学的角度出发，结合一定的汉语构词规则，过滤掉备选词组集合中不符合构词规则的词语组合，过滤后的备选词组的集合即可作为领域词的集合，即领域词表。本实施例采用的过滤方式包括规则过滤(例如基于领域语料200涉及的领域特点设计规则)、词性过滤、撞库以及阈值过滤。具体如下：

规则过滤：如该备选短语是否存在数字，或者该备选短语的长度是否在合适范围等。

词性过滤：通常主要保留名词性的相关词性

撞库：可以根据实际条件有选择的使用第三方知识库，如果备选短语存在于第三方知识库中，则只需通过更宽松的过滤策略

阈值过滤：主要针对上面详述的几个统计指标，统计指标上比较优异的备选短语的质量也更优异。

2、关系挖掘模块20

关系挖掘模块20用于通过一些预定规则初步建立起领域词之间的关系。本实施例的关系挖掘模块20分为基于词法的isA关系抽取子模块21以及基于共现的相关关系抽取子模块22。

isA关系抽取子模块21用于基于领域词本身包含的词法信息，抽取出领域词直接的isA关系，具体方法如下：

对于每个领域词，首先使用后缀法生成其对应的候选中心词，再通过词性与规则过滤，过滤低质量的中心词，输出isA关系。例如领域词“银行理财产品”分词后形成“银行”、“理财”、“产品”三个词，组合后生成“产品”、“理财产品”两个可能的后缀，在经过过滤步骤后，由于“产品”并不是领域词，最终输出<银行理财产品，isA，理财产品>。

相关关系抽取子模块22用于利用滑动窗口，统计领域词与领域词之间的共现关系，从而判断两领域词之间的相关度；其原理是认为在语料中经常同时被提及的领域词理应是相关的。具体方法如下：

首先将文档分词，令滑动窗口大小k等于10，一篇文档d＝w₁w₂...w_n，则领域词w_i的共现窗口为[w_i-5,w_i-4,...w_i,...w_i-4,w_i-5]，则对于该窗口W中领域词w_i到领域词w_j的共现分数

在对单个文档进行统计后，引入一个平滑函数f(x)＝log(x+1)以平衡文档间的数据波动，对只单个文档存在较多共现关系的情况加以限制。最终，在全体文档上，对于领域词A到领域词B的相关度P(A→B)定义为：

3、概念挖掘模块30

经过上述关系挖掘模块20的挖掘后，领域词表内的各领域词之间的关系已经初步建立。然而，由于关系挖掘模块20几乎没有考虑隐式语义信息，而偏向在语料中更为明显的关系，所以本实施例继续利用概念挖掘模块30丰富词语间的关系，该概念挖掘模块30主要采用聚类的手段进行概念挖掘，主要包括基于主体模型的全局聚类和基于距离的局部聚类。

图3是本发明实施例的概念挖掘模块工作流程图。

如图3所示，概念挖掘模块30首先将领域词表作为待聚类词表进行基于LDA类的主题模型的全局聚类。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag ofwords)的方法，但是词袋方法没有考虑词与词之间的顺序，因此词语的顺序信息被完全忽略。结果在推断词语w_d,i的主题分布z_d,i时，在同一文档中较远的词的主题分布和近的词的主题分布会有同等程度的影响。但是对于一个短语中的词语来说，显然他们之间的关联应当更为强烈。

因此，本实施例选择使用LDA的一种优化算法PhraseLDA，它在LDA模型的基础上使用链图来描述这种强关联。具体说来，该算法使用LDA来模拟词语和主题之间的有向关系，同时使用无向图来模拟近邻词之间的强关联关系。

本实施例中，首先基于领域语料200的特点建立停用词表，然后基于该停用词表采用PhraseLDA对领域词表中的领域词进行聚类，得到初步的聚类结果，领域词表中的领域词按照其关联性被归类于不同的主题聚类之下。

然后，基于上述初步的聚类结果，使用一些局部特征对同一个主题下的领域词进行更为细致的聚类。局部聚类主要是用基于距离的方法，选取的特征有以下三个。

A.词向量相似度

词向量来自于对大量文本语料的统计，使用的是Word2Vec的Skip-Gram模型，由于许多领域词在领域语料200中出现频率较低，采用该模型可以更好地对低频词进行建模。同时，基于词向量计算得到的相似度也就相当于词之间的一种距离。

两个领域词str1、str2之间的词向量相似度D_vec的范围为0到1，按照下式计算：

上式中，vec(str1)是领域词str1在Skip-Gram模型中对应的词向量，vec(str2)是领域词str2在Skip-Gram模型中对应的词向量。

B.最长公共子序列距离

一个序列S任意删除若干个字符得到的新序列T，则T叫做S的子序列。两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列。两个领域词str1、str2之间的基于最长公共子序列的距离D_lcs按照下式计算：

式中，sum(str1,str2)是领域词str1和领域词str2字串的长度总和，LCS(str1,str2)是领域词str1和领域词str2字串字符串的最长公共子序列长度。D_lcs的计算结果范围为从0～1之间。

C.Levenshtein比

Levenshtein比是计算是两个字符串的编辑代价，范围为0到1。两个领域词str1、str2之间的Levenshtein比D_leven按照下式计算：

式中，sum(str1,str2)是领域词str1和领域词str2字串的长度总和，ldist(str1,str2)是领域词str1和领域词str2的类编辑距离。其中，领域词str1和领域词str2的类编辑距离为：若领域词str1变换为领域词str2需要进行删除、插入及替换操作，则其每一次删除或插入操作记为+1，每一次替换操作记为+2，最终得到的累计值为类编辑距离。

定义了距离之后，可以选择合适的基于距离的聚类方法对全局聚类得到的每个主题中的词语进行更细粒度的局部聚类，具体的基于距离的聚类方法可以采用现有技术中的方法，在此不再赘述。另外，进行局部聚类时，可以采用分别对词向量相似度、最长公共子序列距离以及Levenshtein比设置相应的权重的形式让三种距离可以同时作为基于距离的聚类方法的输入。

如上，本实施例中，领域词挖掘模块10从领域语料200中挖掘输出得到领域词表，关系挖掘模块20建立了领域词表中领域词之间的相关关系，概念挖掘模块30则实现了领域词的全局聚类以及局部聚类使得领域词之间的概念关系得到丰富，因此本实施例所得到的包含相关关系以及概念关系的领域词表即可作为与领域语料200相对应的领域知识图谱300进行应用。

实施例的作用与效果

本实施例的无监督的知识图谱构建系统中，由于领域词挖掘模块能够基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出领域相关的词语从而输出领域词表，关系挖掘模块能够通过预定规则初步建立起所述领域词表中的领域词之间的关系，概念挖掘模块能够采用聚类手段进行概念挖掘从而进一步丰富领域词之间的关系，因此，一方面，本实施例的知识图谱构建系统能够基于各领域均存在的文档作为切入点进行知识图谱构建，能够很好地适应于不同的领域；另一方面，本实施例中，构建过程不需要领域专家参与，能够降低工作量以及构建成本。

另外，由于实施例中，关系挖掘模块包括基于词法的isA关系抽取子模块以及基于共现的相关关系抽取子模块，其中isA关系抽取子模块能够使用词法特征抽取isA关系来构建领域知识图谱中的上下位关系，相关关系抽取子模块能够使用滑动窗口计算共现关系以抽取相关关系来构建领域知识图谱中领域词的相关关系，因此领域词之间的关系不需要依赖于标注数据或模型训练。

进一步，由于概念挖掘模块采用基于主体模型的全局聚类和基于距离的局部聚类这两个层次的聚类手段对领域词进行聚类从而获得领域词中的概念及对应的聚类层次，因此知识图谱的概念获得过程也不依赖于标注数据或模型训练。

与现有技术中的关系抽取概念识别等步骤依赖大量的标注数据以及模型训练相比，本实施例仅需领域词表及领域语料即可获得领域词之间的关系以及层次，因此不需要大量标注工作，也不需要消耗计算资源或时间进行模型构建与训练，能够进一步减少工作量以及构建成本。

Claims

1.一种无监督的领域知识图谱自动化构建系统，用于基于预定领域的领域语料建立该领域的领域知识图谱，其特征在于，包括：

领域词挖掘模块，基于统计和规则相结合的词汇挖掘方法从领域文本文档中挖掘出所述领域相关的词语，从而输出领域词表；

关系挖掘模块，通过预定规则初步建立起所述领域词表中的领域词之间的关系；

概念挖掘模块，用于采用聚类手段进行概念挖掘从而进一步丰富所述领域词之间的关系。

2.根据权利要求1所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述领域词挖掘模块包括：

数据预处理单元，用于筛除所述领域语料中的无意义信息并生成备选短语集；

统计指标计算单元，用于计算每个备选短语的左右信息熵、互信息、短语词频；以及

过滤单元，基于所述统计指标计算单元的计算结果过滤掉不符合构词规则的词语组合。

3.根据权利要求2所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述备选短语W的左信息熵H_left(W)计算公式如下：

上式中，w_left表示所述备选短语左边的词w_left的频率,p(w_left|w)表示两者的条件概率；

一个所述备选短语包含词x,y时，该备选短语的所述互信息MI(x,y)计算公式如下：

其中，p(x,y)是词x以及词y在所述领域语料中同时出现的概率；p(x)是词x出现的概率；p(y)是词y出现的概率。

4.根据权利要求1所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述关系挖掘模块包括基于词法的isA关系抽取子模块以及基于共现的相关关系抽取子模块。

5.根据权利要求4所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述isA关系抽取子模块用于基于所述领域词本身包含的词法信息抽取出所述领域词直接的isA关系，

对于每个所述领域词，所述isA关系抽取子模块首先使用后缀法生成其对应的候选中心词，再通过词性与规则过滤低质量的中心词，从而输出所述isA关系。

6.根据权利要求4所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述相关关系抽取子模块利用滑动窗口，统计所述领域词之间的共现关系，从而判断两领域词之间的相关度，具体步骤如下：

所述文档d中领域词A到领域词B的共现分数cooccur_d(A→B)如下式所示：

在对单个所述文档进行统计后，引入一个平滑函数f(x)＝log(x+1)以平衡所述文档间的数据波动，对只单个文档存在较多共现关系的情况加以限制，最终在全体文档上，对于领域词A到领域词B的相关度P(A→B)定义为：

7.根据权利要求1所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述概念挖掘模块的所述聚类手段包括基于主体模型的全局聚类和基于距离的局部聚类。

8.根据权利要求7所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述全局聚类为将所述领域词表作为待聚类词表进行的基于PhraseLDA的主题模型的全局聚类。

9.根据权利要求7所述的无监督的领域知识图谱自动化构建系统，其特征在于：

其中，所述局部聚类中的所述距离包括所述领域词之间的词向量相似度、所述领域词之间的最长公共子序列距离以及所述领域词之间的Levenshtein比。