CN110209814B

CN110209814B - 一种利用领域建模从百科知识网站抽取知识主题的方法

Info

Publication number: CN110209814B
Application number: CN201910435042.0A
Authority: CN
Inventors: 魏笔凡; 张铎; 刘均; 肖天安; 吴蓓; 马杰; 郭朝彤; 吴科炜; 李鸿轩
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2021-02-02
Anticipated expiration: 2039-05-23
Also published as: CN110209814A

Abstract

本发明公开了一种利用领域建模从百科知识网站抽取知识主题的方法，首先从给定领域中提取出知识术语集并进行少量主题标注，然后通过向量化表示已标注知识术语的语义属性与拓扑特征构建训练样本集，并对二元分类器进行训练，从而得到主题特征分类模型，通过主题特征分类模型实现知识主题抽取。本发明可以实现从百科知识类网站高效且全面的抽取特定领域的知识主题。

Description

一种利用领域建模从百科知识网站抽取知识主题的方法

技术领域

本发明涉及对百科类网站数据信息的获取方法，主要涉及对特定知识领域进行知识术语获取，并利用领域知识主题特征分类模型的构建，从而获得知识主题集的方法。

背景技术

知识碎片化问题伴随着知识的快速增长而产生，是指知识领域不同主题的内容分布在多个数据源中无法被有效认知的现象，它会导致学习者被海量的知识淹没而难以找出自己真正需要的内容。关于碎片化知识聚合的研究已经得到了学术界的广泛关注。知识森林这种知识聚合模式能够将碎片化分布的知识聚合为符合学习者认知的具有关联性、整体性的森林结构。而知识主题是形成知识森林的基础内容，知识主题具有饱满的内容分面信息，其通常还具有一定的抽象性，基于知识主题可以构建知识主题分面树。由特定领域下所有知识主题形成的知识主题分面树构成了该领域的知识森林。

申请人通过查新，检索到2篇与本专利密切相关的专利，专利1为一种知识主题和资源文件的关联方法，专利申请号：2018102655684；专利2为一种基于图数据库的知识森林构建方法，专利申请号：2018100684907。专利1方法包括四个步骤：首先，检索指定格式资源文件；其次，针对资源文件提取关键词集合；再次，通过各关键词与各资源文件的文件名称之间字符匹配算法建立关键词文件索引；最后，计算知识主题与关键词集合中各关键词的相似度等，并建立树形结构。专利2方法包括三个步骤：首先，构建实例化知识主题分面树；其次，生成知识主题间认知关系，最后，存储知识森林数据。

上述专利分别考虑了知识主题的资源关联问题及知识主题分面树的构建与实例化问题，但并未考虑知识主题集的获得问题，因此无法实现高质量、全面的知识主题抽取，也没有解决主题集从完全依赖人工标注到自动采集的转变问题。

发明内容

本发明的目的在于提供一种利用领域建模从百科知识网站抽取知识主题的方法，可通过网页爬取与领域建模来实现知识主题的抽取。

为实现上述目的，本发明采用了以下技术方案：

1)对百科类网站中某特定领域下的知识术语进行爬取，得到知识术语集DTS；

2)对知识术语集DTS中的少部分知识术语按照是否属于知识主题进行标注；

3)获取已标注知识术语的语义属性与拓扑特征；

4)通过向量化表示已标注知识术语的语义属性与拓扑特征构建训练样本集，并对二元分类器进行训练，将知识术语集DTS输入训练后的二元分类器，根据该二元分类器输出的结果对所述领域的知识主题进行抽取，得到知识主题集KTS。

优选的，所述步骤1)具体包括以下步骤：通过分析百科类网站的目录结构与页面结构，确定网页爬虫程序的爬取路径，所述爬取路径从百科类网站某领域的根目录页起始，通过深度遍历根目录页的子页面的超链接延伸多层，并对各级目录相关的术语页面进行爬取；在爬取过程中或者在爬取结束后剔除非知识术语及重复术语。

优选的，所述网页爬虫的程序设计采用WebWagic框架。

优选的，所述知识术语的爬取路径具体为：爬取领域根目录的子目录对应的超链接，并将这部分子目录作为一层候选术语；对一层候选术语超链接下的子目录进行解析，得到二层候选术语，对二层候选术语超链接下的子目录进行解析，得到三层候选术语。

优选的，所述剔除非知识术语具体包括以下步骤：将字符串较长、术语页面内分面数较少及外向超链接数量较少的术语从对应层级的候选术语中去除。

优选的，所述步骤2)具体包括以下步骤：从知识术语集DTS中随机选取20％以下的术语进行主题人工标注，通过标注将选取的术语是否作为知识主题以二元结果表示。

优选的，所述步骤3)中，分别采用TF·IDF算法以及基于带标签的隐形语义分布L-LDA模型计算得到语义属性。

优选的，所述步骤3)中，采用术语间3-MOTIF的程度度量拓扑特征。

优选的，所述步骤4)中，训练样本集分别表示为：

其中

其中

其中，c(x)表示术语样本x的实际标注结果，T_a是训练数据集X_a语义属性的标签，T_b是训练数据集X_b拓扑特征的标签，n和m表示数据集中术语的数目，n＝m。

优选的，所述步骤4)中，二元分类器输出的结果是对知识术语是否成为知识主题的二元判定，二元分类器的构建采用决策树分类算法。

与现有技术相比，本发明具有以下有益的技术效果：

本发明利用分步的方式，首先从给定领域中提取出知识术语集并进行少量主题标注，然后通过向量化表示已标注知识术语的语义属性与拓扑特征构建训练样本集，并训练二元分类器，得到主题特征分类模型，通过主题特征分类模型实现知识主题抽取。本发明可以实现从百科知识类网站高效且全面的抽取领域的知识主题。

进一步的，使用基于WebMagic框架可以简化爬虫程序构建的过程，使得爬取到的知识术语的不同层次结构清晰明了。

进一步的，通过预处理有效地剔除粗术语集中的噪声数据，得到符合要求的知识术语，提高模型构建效率及主题抽取的有效性。

进一步的，使用知识主题语义属性与拓扑特征，结合决策树分类算法构建主题二元分类器，利用少量标注数据训练二元分类器，即而实现知识主题的二元分类与抽取。

附图说明

图1是本发明实施例中实现知识主题抽取的流程框图。

图2是本发明实施例中知识术语预处理程序结构。

图3是本发明实施例中二元分类器框架图。

具体实施方式

下面结合附图和实施例对本发明做进一步的详细说明，所述实施例是对本发明的解释，而不是对本发明保护范围的限制。

本发明是一种从百科知识网站(以维基百科为例进行说明)进行领域建模实现知识主题抽取的方法，该方法通过自动爬取百科知识网站(以维基百科为例)的网页中特定领域的知识术语，以及对少量知识术语进行标注，进而进行属性特征归纳与该领域主题抽取模型构建，利用建模结果实现对对应领域的知识主题集的抽取。该方法具体包括以下四个步骤，参见图1所示：

步骤1、分析维基百科(Wikipedia)Web目录结构(例如，Category，即分类)以及页面结构；根据这些结构的特点针对性地构建网页爬虫程序，以特定领域的根目录页为起始，深度遍历其子页面的超链接，按目录结构延伸多层，获得粗术语集，同时对各层目录对应的具体知识介绍页面进行爬取，存入数据库中。

步骤1中，粗术语集的获取，具体包括以下步骤：

(1.1)通过对维基百科目录结构的特点进行分析，确定待研究知识领域的根目录页面，称为领域根目录，同时根据根目录页面中目录层次结构给出的超链接，确定领域根目录及其各级子目录(Sub Category)的所属关系，得到领域目录结构；

(1.2)解析维基百科术语页面：确定以下需要爬取并分析的领域目录结构中各层目录下的相关术语页面(术语即目录名)的分面：Item Name、Abstract、Contents(目录)、Article及External link(外向超链接)；

(1.3)将领域目录结构及其相关术语页面用形式化的目录结构图CSWG＝(C,P,E)表示，其中C(Category)代表领域目录结构，P(Page)代表该领域目录下所有术语页面的集合，E(Edge)代表页面节点Pi与Pj各自所对应目录之间的超链接E_i,j，E_i,j＝{<P_i,P_j>|P_i,P_j∈C}；

(1.4)利用Java语言及WebWagic框架设计爬虫程序，根据1.3中对维基百科术语页面结构与目录结构的分析结果，爬取领域目录结构中各层级目录的目录名，作为粗知识术语集，简称为粗术语集，存入MySQL数据库中。

步骤2、预处理粗术语集，得到知识术语集DTS与少量知识主题：依据术语分面及其碎片信息的充分程度，结合维基百科领域特点，对粗术语集进行预处理，得到知识术语集DTS，并通过对知识术语集DTS中的少量术语进行标注，得到一定量的知识主题。

步骤2中，粗术语集的预处理可以在步骤1的网页爬取中一并完成(即步骤1中的爬取在此种情况下实际实现了筛选爬取，并得到DTS)，具体包括以下步骤：

(2.1)如图2所示，对步骤1.4中的爬取程序算法进行迭代，形成CSWGA(CSWGAlgorithm)预处理算法框架；该预处理算法框架由领域名称开始对根目录RC(DTC₀)进行遍历，爬取其子目录对应的超链接，这部分子目录的目录名作为一层领域术语候选，称为一层术语DTC₁，将一层术语DTC₁中不符合知识主题长度要求的超长字符串术语(如长度大于15字节的字符串)进行剔除；

(2.2)对一层术语DTC₁超链接下的子目录执行基于Jsoup的HyperLink解析，查找二层术语DTC₂(即这部分子目录的目录名)，并剔除超长字符串术语，对于二层术语DTC₂，还需要剔除对应术语页面相关内容过少的术语(例如，术语页面仅含有一个分面)，并检查外向超链接分面中的链接数量是否过少，据此剔除不符合知识主题引用数量要求的术语(如外向超链接数小于5)；

(2.3)对DTC₂超链接下的子目录执行与2.2相同的解析过程，得到三层术语DTC₃，由于该层术语内容有所重复，除进行以上剔除操作外，还要剔除重名术语，并将剩余术语保留；

(2.4)将以上筛选爬取的术语按目录层级保存，同时为了保证知识术语不重复出现，对获得的各层术语进行综合去重(去掉重名术语)，得到该知识领域最终知识术语数据集，即DTS。

步骤2中，对知识术语集DTS进行的标注，具体包括以下步骤：在该领域知识术语集DTS中随机选取20％的术语进行主题人工标注，将选取的术语根据知识主题的碎片信息充实度(以搜索引擎返回索引数为准)和目录信息丰富度(以术语页面内目录分面的目录个数为准)进行多元投票标注，将选取的术语是否作为知识主题以二元结果表示。

步骤3、获得知识术语的属性特征：归纳特定领域知识主题的语义语法特性与拓扑特性，通过分析已标注术语的特点，从而构建已标注术语在该领域知识网中的语义属性与拓扑特征。

步骤3中，构建已标注术语的语义属性与拓扑特征，具体包括以下步骤：

(3.1)TF·IDF算法是通过对术语在单篇文档(Document)中出现的频次与同类文档中出现的频次，进行语义文本属性的评估；TF·IDF算法具体为：W_kj＝TF_kj×log(N/n_k)，式中TF_kj表示标注术语TF_k在当前术语页面Pj(指上述领域目录下所有术语页面的集合中的任意一个)中出现的次数，而n_k则代表领域目录下所有术语页面中标注术语TF_k出现的次数，N表示领域所有目录总数，经过计算，得到的就是该标注术语在当前语境下的第一语义属性；

(3.2)针对知识主题与其相近术语应当满足的语法关联性质，引入多元术语分布的概念，采用基于带标签的隐形语义分布L-LDA模型，计算每个标注术语与其在DTS中的相近术语(具体指位于同一目录页面中的子目录)的联合概率分布并归一化，得到第二语义属性(具体归一化运算参考文献：Nguyen C T,Zhan D C,Zhou Z H.Multi-modal imageannotation with Multi-instance Multi-label LDA[C]//International JointConference on Artificial Intelligence.2013.)；

(3.3)引入MOTIF特征模式，对当前标注为知识主题的术语与其余标注为知识主题的术语间的拓扑特征进行表征，具体使用3-MOTIF对于术语间拓扑结构进行分析，利用其得到的Z-SCORE这一标准来度量3-MOTIF的程度，定义如下：

式中，N(j)代表在当前领域中MOTIF j(1≤j≤13)显现的概率，

代表该MOTIFj在和当前领域节点结构相同的领域中的概率，σ_γ(j)是

的标准差。若Z-SCORE偏大则表明当前标注为知识主题的术语在拓扑结构中有着更高的权值。

步骤4、通过向量化表示知识术语的语义属性与拓扑特征，训练二元分类器，从而构建基于属性特征分类的主题抽取模型；将对应领域的知识术语集输入训练后的二元分类器，即可输出得到知识主题集KTS。

步骤4中，构建基于属性特征分类的主题抽取模型，具体包括以下步骤；

(4.1)为方便进行程序处理，对步骤2得到的知识术语集DTS进行格式转换，转换为csv格式的文本列表，同时将步骤3中对应领域的标注术语的语义属性与拓扑特征，作为参数项插入对应表项之后；

(4.2)如图3所示，构建基于属性特征向量的二元分类器模型的框架，将训练集的参数分为两类，即属性类与特征类，形式化的训练数据集可以分别表示为以下两个集合：

其中

其中

在训练数据集的定义公式中，c(x)表示术语样本x的实际对应类标签(是或者不是知识主题)，T_a是训练数据集语义属性的标签，T_b是训练数据集拓扑特征的标签，n和m表示两类数据集中术语的数目，n＝m；利用判断准则c(x)，对于属于已标注的训练主题集X的任意x，通过其属性特征分布结果对应到其二元类标签c(x)∈R，R为结果空间，采用C4.5决策树分类算法，形成二元分类器并进行训练；

(4.3)将4.1所述的知识术语集文本列表输入训练后的二元分类器，实现知识术语是否成为知识主题的二元判定，即结果空间R＝{0,1}，结果空间中为1的项为知识主题，为0则表示不是知识主题；将得到的知识主题集输出到MySQL数据库中。

经过验证比对，通过上述步骤中维基百科知识术语爬取与标注，及主题分类器构建与应用进行的知识主题抽取过程，相比现有的完全依赖人工标注的主题抽取方法，在时间效率上有着4～5倍的提高，且根据机器学习通用的P,R,F1评价指标，均能达到相当于或不显著弱于现有完全依赖人工标注的主题抽取方法的效果，并避免出现的遗漏知识主题的问题。结果表明，本发明能全面地抽取开放知识源中的知识主题，仅需要少量人工标注，大幅降低了知识主题抽取的总时间开销，取得了时间与经济效益上的大幅提升。

Claims

1.一种利用领域建模抽取知识主题的方法，其特征在于：包括以下步骤：

3)获取已标注知识术语的语义属性与拓扑特征；

2.根据权利要求1所述一种利用领域建模抽取知识主题的方法，其特征在于：所述步骤1)具体包括以下步骤：通过分析百科类网站的目录结构与页面结构，确定网页爬虫程序的爬取路径，所述爬取路径从百科类网站某领域的根目录页起始，通过深度遍历根目录页的子页面的超链接延伸多层，并对各级目录相关的术语页面进行爬取；在爬取过程中或者在爬取结束后剔除非知识术语及重复术语。

3.根据权利要求2所述一种利用领域建模抽取知识主题的方法，其特征在于：所述网页爬虫的程序设计采用WebWagic框架。

4.根据权利要求2所述一种利用领域建模抽取知识主题的方法，其特征在于：所述知识术语的爬取路径具体为：爬取领域根目录的子目录对应的超链接，并将这部分子目录作为一层候选术语；对一层候选术语超链接下的子目录进行解析，得到二层候选术语，对二层候选术语超链接下的子目录进行解析，得到三层候选术语。

5.根据权利要求2所述一种利用领域建模抽取知识主题的方法，其特征在于：所述剔除非知识术语具体包括以下步骤：将字符串较长、术语页面含有的分面数较少及外向超链接数量较少的术语从对应层级的候选术语中去除。

6.根据权利要求1所述一种利用领域建模抽取知识主题的方法，其特征在于：所述步骤2)具体包括以下步骤：从知识术语集DTS中随机选取20％以下的术语进行主题人工标注，通过标注将选取的术语是否作为知识主题以二元结果表示。

7.根据权利要求1所述一种利用领域建模抽取知识主题的方法，其特征在于：所述步骤3)中，分别采用TF·IDF算法以及基于带标签的隐形语义分布L-LDA模型计算得到语义属性。

8.根据权利要求1所述一种利用领域建模抽取知识主题的方法，其特征在于：所述步骤4)中，训练样本集分别表示为：

其中

其中

9.根据权利要求1所述一种利用领域建模抽取知识主题的方法，其特征在于：所述步骤4)中，二元分类器输出的结果是对知识术语是否成为知识主题的二元判定，二元分类器的构建采用决策树分类算法。