CN105808768A

CN105808768A - 一种基于图书的概念-描述词知识网络的构建方法

Info

Publication number: CN105808768A
Application number: CN201610163737.4A
Authority: CN
Inventors: 鲁伟明; 龚军; 庄越挺; 吴飞; 魏宝刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-19
Filing date: 2016-03-19
Publication date: 2016-07-27
Anticipated expiration: 2036-03-19
Also published as: CN105808768B

Abstract

本发明公开了一种基于图书的概念‑描述词知识网络的构建方法。基于图书构建概念‑描述词知识网络本质上是一种知识图谱构建技术。本发明首先从数字图书中抽取得到目录项，在此基础上利用分词工具和正则表达式对目录进行预处理。然后训练语言模型将各个词、词相应的特征以及词对应的标注用词嵌入进行表达，进而用词嵌入匹配算法抽取得到目录短语。随后训练分类器将目录短语分类成概念和描述词，通过概念和描述的映射构建得到概念‑描述词知识网络。本发明从图书中构建概念‑描述词知识网络，有效的完成了对图书知识的抽取和分解。

Description

一种基于图书的概念-描述词知识网络的构建方法

技术领域

本发明涉及利用自然语言处理、数据挖掘等方法进行知识图谱的构建，尤其涉及基于图书的概念-描述词知识网络的构建方法。

背景技术

随着以Linking Open Data为代表的链接数据公开项目的全面发展，以及各类语义Web数据源的飞速增长，大量的资源描述框架(RDF)数据发布到互联网中。互联网环境发生了巨大的改变，从原来的仅包含网页间超链接的文档万维网(Document Web)，转变成描述各类实体以及实体之间关系的数据万维网(Data Web)。人们已经不能够满足于原有的文档内容呈现方式，基于此，谷歌，百度和搜狗等搜索引擎公司纷纷发布了自己的知识图谱，来提高搜索质量，从而拉开了语义搜索的序幕。

知识图谱旨在对现实世界中存在的各种实体或概念进行描述，正如谷歌的辛格博士所说的：“The world is not made of strings,but is made of things.”。在图谱中，每一个实体(或概念)通过唯一的标识符(identifier)确定，每个属性-值对(attribute-value pair，也叫AVP)用来刻画实体的内在特性，而连接两个实体的关系(relation)用来刻画它们间的某种关联。上述的实体、属性-值对以及关系是对现实世界的建模，可以用图模型来进行表达。目前，可以通过W3C提出的RDF和属性图(Property Graph)来对知识图谱进行表示。目前，主流的知识图谱包括谷歌知识图谱、搜狗知立方和百度知心。

发明内容

本发明的目的是为了克服现有技术的不足，提供一种从图书中构建概念-描述词知识网络的方法。

本发明解决其技术问题采用的技术方案包括以下步骤：

1)预处理图书目录：通过正则表达式去除目录无用的前缀，通过自然语言处理工具将目录分词，保存每个词的词性；

2)基于词嵌入匹配算法的短语抽取：在步骤1)的基础上，训练得到词嵌入匹配模型，从该模型中得到各个词、词对应的特征和词对应的标注的词嵌入，通过向量间的计算得到得分最高的标注，最终从图书目录中抽取得到短语；

3)目录短语分类：对步骤2)中得到的目录短语，抽取特征，采用支持向量机分类得到概念和描述词，然后将概念-描述词对存储到图数据库中。

所述的步骤2)包括：

2.1)以步骤1)预处理的目录为基础，训练得到词嵌入匹配模型，模型参数为输入特征矩阵α和标注矩阵β；

2.2)对目录中的每一个词ω，查询矩阵α得到输入特征I_ω，查询矩阵β得到每个标注符号x对应的标注向量O_x；

2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分，公式如下：

{score}_{i} = \frac{\exp (I_{ω} \cdot O_{i})}{Σ_{j}^{m} \exp (I_{ω} \cdot O_{j})}

其中score_i表示第i个标注符号的得分，exp表示以e为底的指数运算，I_ω表示输入的特征向量，O_i表示第i个标注符号的标注向量，是所有得分的总和，用来做归一化；

2.4)通过步骤2.3)对每个词选取得分最高的标注符号，最终将词合并得到短语。

所述的步骤2.1)包括：

2.1.1)用BIO模型对预处理好的目录进行标注，得到训练所需语料；

2.1.2)定义模型的损失函数如下：

J = - Σ_{k = 1}^{K} δ (a_{k}) \log \frac{\exp (I_{k} \cdot O (a_{k}))}{Σ_{j} \exp (I_{k} \cdot O (a_{k, j}))} + Σ_{k = 1}^{K} \frac{λ}{2} (| | I_{k} | |^{2} + | | O (a_{k}) | |^{2})

δ (a_{k}) = \{\begin{matrix} 1, & i f a_{k} = \overset{&OverBar;}{a_{k}} \\ 0, & o t h e r w i s e \end{matrix}

其中，K表示样本数量，a_k表示第k个样本的预测得到的标注符号，δ(a_k)是一个指示函数，用来预测是否与真实标注相同，I_k表示输入特征向量，O(a_k)表示标注向量，是模型的正则化项，防止模型过拟合，其中λ是正则化项的惩罚因子；

通过随机梯度下降算法求解上述损失函数得到模型中参数I_k和O(a_k)，即步骤2.1)中的α和β。

所述的步骤3)包括：

3.1)通过步骤2)得到了目录中短语，标注得到分类的训练语料；

3.2)选用支持向量机将短语分成概念和描述词，支持向量机的目标函数如下：

\min \frac{1}{2} {| | ω | |}^{2} + C Σ_{i = 1}^{I} ζ_{i}

subject to y_i[(ω·x_i)]≥1-ζ_i(i＝1，2，…，I）

其中，I表示样本数量，ω和ζ是模型参数，C是惩罚因子，x_i表述样本的特征，y_i表述样本的分类；

3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以及字典特征；

3.4)通过上述步骤得到了同一目录中的概念和描述词，通过映射组成概念-描述词对，存储到Neo4j图数据库中。

本发明方法与现有技术相比具有的有益效果：

1、该方法采用的数据来自于出版的图书，图书的作者无不是所处领域的专家，具备丰富的经验和深厚的领域知识。数据的高质量项为方法的效果提供了保证。

2、该方法具有很好的扩展性，当有新的图书数据加进来时，可以按照本方法的各个步骤进行处理。

3、该方法将图书中知识进行抽取和分解，从图书中提炼知识，能够方便后续的知识重组或者人们的工作学习。

附图说明

图1是本发明的总体流程图；

图2是步骤2.1)的流程图；

图3是实施例结果的样例展示图。

具体实施方式

如图1所示，本发明方法，包括以下步骤：

所述步骤1)中的自然语言处理工具为NLPIR汉语分词系统，同过该工具将目录分词，并保存分词结果中的词性。

2)基于词嵌入匹配算法的短语抽取，具体步骤如下：

2.1)以步骤1)预处理的目录为基础，训练得到词嵌入匹配模型，模型主要参数为输入特征矩阵α和标注矩阵β；

2.1.2)定义模型的损失函数如下：

J = - Σ_{k = 1}^{K} δ (a_{k}) l o g \frac{\exp (I_{k} \cdot O (a_{k}))}{Σ_{j} \exp (I_{k} \cdot O (a_{k, j}))} + Σ_{k = 1}^{K} \frac{λ}{2} (| | I_{k} | |^{2} + | | O (a_{k}) | |^{2})

δ (a_{k}) = \{\begin{matrix} 1, & i f a_{k} = \overset{&OverBar;}{a_{k}} \\ 0, & o t h e r w i s e \end{matrix}

2.2)如图2所示，对目录中的每一个词ω，查询矩阵α得到输入特征I_ω，查询矩阵β得到每个标注符号x对应的标注向量O_x；

{score}_{i} = \frac{\exp (I_{ω} \cdot O_{i})}{Σ_{j}^{m} \exp (I_{ω} \cdot O_{j})}

\min \frac{1}{2} {| | ω | |}^{2} + C Σ_{i = 1}^{I} ζ_{i}

subject to y_i[(ω·x_i)]≥1-ζ_i(i＝1，2，…，I）

下面结合本发明的方法详细说明本实例实施的具体步骤，如下：

(1)实例采用的数据集均来自于数字图书馆中的图书。本实例一共从工程科教图书资源中抽取了53059本工业技术的图书，共计目录251129条。图书涉及类别：农业、生物、化工、计算机、电子、机械制造、航空航天、医药、自动化等。所有目录经过步骤1)的去无用前缀和分词处理。

(2)用BIO模型对(1)中数据标注得到词嵌入匹配模型的训练语料，用词嵌入匹配模型抽取目录短语，并利用支持向量机将目录短语分类成概念和描述词。

(3)将(2)中每个目录的概念和描述词组成二元组存入图数据库中。数据实例如图3所示。

Claims

1.一种基于图书的概念-描述词知识网络的构建方法，其特征在于包括以下步骤：

2.根据权利1所述的一种基于图书的概念-描述词知识网络的构建方法，其特征在于所述的步骤2)包括：

{score}_{i} = \frac{\exp (I_{ω} \cdot O_{i})}{Σ_{j}^{m} \exp (I_{ω} \cdot O_{j})}

3.根据权利2所述的一种基于图书的概念-描述词知识网络的构建方法，其特征在于所述的步骤2.1)包括：

2.1.2)定义模型的损失函数如下：

J = - Σ_{k = 1}^{K} δ (a_{k}) l o g \frac{\exp (I_{k} \cdot O (a_{k}))}{Σ_{j} \exp (I_{k} \cdot O (a_{k, j}))} + Σ_{k = 1}^{K} \frac{λ}{2} (| | I_{k} | |^{2} + | | O (a_{k}) | |^{2})

δ (a_{k}) = \{\begin{matrix} 1, & i f a_{k} = \overset{&OverBar;}{a_{k}} \\ 0, & o t h e r w i s e \end{matrix}

4.根据权利1所述的一种基于图书的概念-描述词知识网络的构建方法，其特征在于所述的步骤3)包括：

\min \frac{1}{2} | | ω | |^{2} + C Σ_{i = 1}^{I} ζ_{i}

subject to y_i[(ω·x_i)]≥1-ζ_i(i＝1,2,…,I)