CN107491524B

CN107491524B - 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

Info

Publication number: CN107491524B
Application number: CN201710707736.6A
Authority: CN
Inventors: 鹿文鹏; 张玉腾; 张甜甜; 孟凡擎
Original assignee: Qilu University of Technology
Current assignee: China Southern Power Grid Internet Service Co ltd; Jingchuang United Beijing Intellectual Property Service Co ltd
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2022-02-25
Anticipated expiration: 2037-08-17
Also published as: CN107491524A

Abstract

本发明公开了一种基于Wikipedia概念向量的中文词语相关度计算方法和装置。方法包括：1.由Wikipedia Dump服务站点获取生语料，进行规范化处理，生成Wikipedia基础语料库；2.进行概念标注扩充，构建Wikipedia概念语料库；3.根据Wikipedia概念语料库，训练概念向量；4.对于待比较词语对，根据Wikipedia，获得其词语概念集合；5.计算概念集合的笛卡尔积中的每个概念对所对应的概念向量的相似度，取最大值作为待比较词语对的相关度。利用本发明，可以充分挖掘Wikipedia蕴含的词语概念信息，生成词语概念向量，更准确有效地计算词语相关度。

Description

一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于Wikipedia概念向量的中文词语相关度计算方法和装置。

背景技术

词语相关度是指两个词语之间的语义关联程度，其在自然语言处理领域有着广泛的应用，对信息检索、语义理解、词义消歧、文本聚类的效果具有直接影响。现有的词语相关度计算方法可分为两类：一类是基于知识库的方法，通常利用WordNet等语义本体知识库，分析词语的释义的重叠词数量或者词语在本体概念树中的路径长度、概念密度等，来评判词语的相关程度；另一类是基于统计的方法，根据词语在语料库中一定窗口内的共现频次，将词语表示成词语向量，利用词语向量的相似度来评判词语的相关程度。基于知识库的方法的效果依赖于知识库的规模和质量，而知识库的构建需要大量的人工劳动；而且随着社会发展，新词层出不穷，知识库难以全面覆盖，这制约了基于知识库方法的效果和应用范围。基于统计的方法主要依据语料库的共现关系，而对于缺乏对其它关系的考虑；而且，构建的词语向量往往十分稀疏，这导致其计算精度并不理想。

随着深度学习技术的发展，词向量(word embeddings)技术被提出，并被广泛应用于词语相关度计算。但是，现有的词向量技术往往以词语为基本对象，而忽略了词语所对应的词义概念。同一个词语可能会有多种概念，对应多种词义。现有的词向量技术以词语为基本对象，对每个词语只会生成一个词向量。这导致词向量会融合一个词语的所有概念信息，而无法准确区分每个不同的概念。如果能够为每个概念单独生成相应的概念向量(conceptembeddings)，将有利于精确描述词语的词义概念，推动相关应用的发展。

训练概念向量的前提是有充足的概念标注语料。如何快速有效地构建概念标注语料是一个重要问题。一旦获得了词义概念向量，对于待比较相关度的词语对，只需找到词语所对应的概念集合，便可以将词语相关度的计算转化为概念向量的相似度计算。如何确定词语的概念集合也是一个重要问题。

Wikipedia为解决上述问题奠定了基础。Wikipedia是世界上规模最大的在线百科知识库，蕴含了丰富的语义知识，数据范围广，更新速度快，且具有良好的结构化信息。Wikipedia已成为自然语言领域的一个重要知识来源。

面对词语相关度计算所存在的以上技术问题，本发明专利针对中文Wikipedia的特点，充分挖掘其中蕴含的概念信息，实现一种基于Wikipedia概念向量的中文词语相关度计算方法和装置，力求能够在一定程度上推动这些问题的解决。

发明内容

为解决现有技术存在的不足，本发明公开了一种基于Wikipedia概念向量的中文词语相关度计算方法和装置，以更准确地计算中文词语相关度。

为此，本发明提供如下技术方案：

一种基于Wikipedia概念向量的中文词语相关度计算方法，包括以下步骤：

步骤一、由Wikipedia Dump服务站点获取其Dump生语料；并对生语料进行规范化处理，仅保留namespace属性为0的Wikipedia概念文档；对于每个概念文档，只保留其正式文本及概念标注信息；将处理后的概念文档收集起来，作为Wikipedia基础语料库；

步骤二、对Wikipedia基础语料库进行概念标注扩充，构建Wikipedia概念语料库；

步骤三、根据Wikipedia概念语料库，训练概念向量；

步骤四、对于待比较词语对，根据Wikipedia查询由用户指定的不同层次的概念集合，获得其词语概念集合；

步骤五、取得待比较词语对的概念集合的笛卡尔积，计算其中每个概念对所对应的概念向量的相似度；取最大的概念向量的相似度作为待比较词语对的相关度。

进一步的，所述步骤一中，构建Wikipedia基础语料库时，具体为：

步骤1-1)访问Wikipedia Dump服务站点，下载最新的zhwiki数据库；

步骤1-2)根据zhwiki数据库依次处理<page>节点，提取ns的值为0的<page>节点，提取该节点中的title、redirect、id和text的内容，同时对text做如下处理：删除用户编辑记录和外部链接，替换特殊字符，保留概念标注信息，利用<h#n>标记段落标题；其中，#n＝{1,2,3...n}，代表文档标题的层级，从1到n表示由高到低。

步骤1-3)对文档进行繁体到简体的转换。

步骤1-4)对文档进行分词处理。

进一步的，所述步骤二中，构建Wikipedia概念语料库时，具体为：

步骤2-1)根据one sense per discourse假设，对基础语料库中的每篇文档进行概念标记扩充，具体为：

将基础语料库中的某一篇文档记作doc_l，其标题记作title_l，标识记作id_l；该篇文档中的某一概念标记的热点文本记作link_l,k，目标概念记作target_l,k；doc_l中未加概念标记的词语记作w_l,i。

需要说明的是，概念标记由热点文本link_l,k和目标概念target_l,k组成，在文档中的展现方式为：[[link_l,k|target_l,k]]；若target_l,k＝link_l,k，展现方式变为：[[link_l,k]]；热点文本在文档中仅起显示作用，并不是概念；目标概念是本发明中所指的概念，也是其所对应的Wikipedia文档的标题。概念标记扩充是为符合限定条件的词语添加概念标记。

步骤2-1-1)在doc_l中，收集<h#n>…</h#n>(#n＝1,2,…,n)标签中的词语，作为doc_l的子标题集合，记作

遍历

中的元素，若head_l,i＝title_l，则将原文中head_l,i左右加上三个中括号的概念标记，变为：[[[head_l,i]]]。

步骤2-1-2)在doc_l中，收集所有概念标记信息，构建概念标记集合，记作

按照每个元素中link所包含的词语数量降序排列。

需要说明的是，若target≠link，则target本身也作为一个热点文本(link)，目标概念为其自身。

步骤2-1-3)遍历

若在doc_l中存在w_l,j＝link_l,i，则将w_l,j左右添加三个中括号的概念标记，变为：[[[w_l,j]]]。

需要说明的是，添加概念标记时会出现相交、包含的情况。下面分别说明出现的原因和处理方法：

在为w₁和w₂添加概念标记时，若w₁与w₂相交，w₁添加概念标记后，w₂会缺少与w₁相交的部分。因此，为w₂添加概念标记时，需先将w₂补全，再为w₂添加四个中括号的概念标记，变为[[[w₁]]][[[[w₂]]]]。

在为w₁和w₂添加概念标记时，若w₁包含w₂，w₁添加概念标记后，w₂已经在概念标记内了。因此，为w₂添加概念标记时，先在w₁的后面插入w₂，再为w₂添加四个中括号的概念标记，变为[[[w₁]]][[[[w₂]]]]。

步骤2-2)根据最大频率词义算法，对步骤2-1)处理过的基础语料库做进一步的概念标记扩充，具体为：

收集经过步骤2-1)扩充概念的基础语料库中的概念标记信息元组，构建概念标记集合，记作：

概念标记信息元组包含热点文本(link_i)、目标概念集合(T_i)、热点文本的数量

与热点文本一致但未加概念标记的词语的数量

统计每个概念标记的目标概念和及其数量得到目标概念元组集合，记作：

T_i＝{(target_i,1,num_i,1),(target_i,2,num_i,2),...,(target_i,n,num_i,n)}；语料库中未加概念标记的词语记作w_k。

步骤2-2-1)遍历LS，按照公式(1)计算词语的概念标注概率P_l(link_i)；保留结果大于50％的link_i生成高频概念标注集合，记为LS_H；

步骤2-2-2)遍历LS_H，依次对link_i中T_i的每个元素按照公式(2)计算目标概念的标注概率P_t(target_i,j)；保留标注概率大于90％的目标概念(target)，生成高频目标概念集合，记为LS_HC＝{(link_i,target_i,j),...}，将集合的各个元素按照link_i中含有的词语数降序排列；

步骤2-2-3)遍历LS_HC，若存在w_k＝link_i，则将w_k左右添加五个中括号的概念标记，变为：[[[[[w_k]]]]]。

需要说明的是，添加概念标记时会出现相交、包含的情况。处理方式与步骤2-1-3)的处理方式基本一致；不同之处是，为w₁和w₂添加概念标记时都用五个中括号，变为[[[[[w₁]]]]][[[[[w₂]]]]]。

进一步的，所述步骤三中，训练概念向量时，具体为：

步骤3-1)依次对概念标记进行处理，只保留目标概念并查找目标概念所对应的文档ID，将ID与目标概念之间用“_”连接；去掉概念标记左右两侧的中括号，生成概念语料库。

需要说明的是，目标概念所对应的文档ID由Python的Wikipedia库获取。

步骤3-2)使用概念语料库训练概念向量。

训练得到的概念向量文件包含两种数据：一是传统的词向量，二是概念向量。比如：“领域”和“13_数学”，前者是传统的标准词向量的索引，而后者是本发明专利提出的概念向量的索引。后续步骤对概念向量的查询和计算，均指对后者进行操作处理，不涉及前者。

进一步的，所述步骤四中，获取待比较词语对的概念集合时，具体为：

步骤4-1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合；

步骤4-2)由用户指定概念获取层次，构建概念集合；

需要说明的是，用户可指定的层次如下所示：

a)Normal：只查找正常页面的Title；否则，返回None；

b)Normal_Redirect：只查找正常页面的Title或重定向页的RedirectTitle；若查找失败，则返回None；

c)Normal_Redirect_Disambig：查找正常页面的Title或重定向页的RedirectTitle，并查找消歧页的DisambigItems；若查找失败，则返回None；

d)Normal_Redirect_HatenoteLinkItem：查找正常页面的Title或重定向页的RedirectTitle，并查找页面包含的HatenoteLinkItems；若查找失败，则返回None；

e)Normal_Redirect_Disambig_HatenoteLinkItems：查找正常页面的Title或重定向页的RedirectTitle，并查找消歧页的DisambigItems，并查找页面包含的HatenoteLinkItems；

若查找失败，则返回None；

f)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems：在Normal_Redirect_Disambig_HatenoteLinkItems的基础上，再增加HatenoteLinkItems所对应的可能DisambigItems；若查找失败，则返回None；

其中的符号释义说明如下：

Title：当w_i所对应的Wikipedia页是一个正常页面(非消歧页，非重定向页)时，其对应概念就是Title；

RedirectTitle：当w_i所对应的Wikipedia页是一个重定向页时，RedirectTitle是w_i所对应的最终重定向页面的Title；

DisambigItems：当w_i所对应的Wikipedia页是一个消歧页时，DisambigItems是消歧页所包含的所有可能的概念(不计与Title重复的)；

HatenoteLinkItems：在Title对应的Wikipedia页面的开始部分的<hatenote>部分中，非歧义的热点文本；

HatenoteLinkDisambig：在Title对应的Wikipedia页面的开始部分的<hatenote>部分中，有歧义的热点文本；

HatenoteLinkDisambigItems：依次对HatenoteLinkDisambig各个消歧页提取有可能的概念(不计与Title重复的)。

进一步的，所述步骤五中，计算各个概念对的概念向量相似度并选取最大值作为词语相关度时，具体为：

步骤5-1)待比较词语对为(w₁,w₂)，w₁的概念集合

和w₂的概念集合

根据步骤三得到的概念向量文件，查询

和

中各个概念的概念向量；若某一概念查找失败，则将其由概念集合中剔除；

步骤5-2)根据步骤5-1)处理过的

和

计算它们的笛卡尔积得待计算概念集合，记作

步骤5-3)由步骤5-1)和步骤5-2)，按照公式(3)计算每个概念对的概念向量相似度，生成候选结果集合；

其中

和

表示概念c_i和c_j的概念向量，

和

表示向量

和

的模；

步骤5-4)从候选结果集中选取概念向量相似度的最大值，作为待比较词语对的相关度。

一种基于Wikipedia概念向量的中文词语相关度计算装置，包括：

Wikipedia基础语料库构建单元，用于对Wikipedia Dump生语料进行规范化处理，仅保留namespace属性为0的Wikipedia概念文档；对于每个概念文档，只保留其正式文本及概念标注信息；将处理后的概念文档收集起来，作为Wikipedia基础语料库；

Wikipedia概念语料库构建单元，用于对Wikipedia基础语料库进行概念标注扩充，构建Wikipedia概念语料库；

概念向量训练单元，用于使用Wikipedia概念语料库，训练概念向量；

概念集合提取单元，用于对待比较词语对，根据Wikipedia查询由用户指定的不同层次的概念集合，获得其词语概念集合；

词语相关度计算单元，用于取得待比较词语对的概念集合的笛卡尔积，计算其中每个概念对所对应的概念向量的相似度；取最大的概念向量的相似度作为待比较词语对的相关度。

进一步的，所述Wikipedia基础语料库构建单元还包括：

概念文档提取单元，用于对Wikipedia Dump生语料提取namespace属性为0的Wikipedia概念文档；

单文档规范化处理单元，用于对文档内容进行如下处理：删除用户编辑记录和外部链接，替换特殊字符，保留概念标注信息，利用<h#n>标记段落标题；其中，#n＝{1,2,3...n}，代表文档标题的层级，从1到n表示由高到低；

进一步的，所述Wikipedia概念语料库构建单元还包括：

单文档概念标记扩充单元，用于根据one sense per discourse假设，对基础语料库中的每篇文档扩充概念标记；

全文档概念标记扩充单元，用于根据最大频率词义算法，对单文档概念标记扩充单元处理过的基础语料库进一步扩充概念标记；

进一步的，所述概念向量训练单元还包括：

概念标记单元，用于对概念标记进行处理，只保留目标概念并查找目标概念所对应的文档ID，将ID与目标概念之间用“_”连接；去掉概念标记左右两侧的中括号，生成概念语料库；

概念向量训练单元，用于使用概念语料库训练概念向量；

进一步的，所述概念集合提取单元还包括：

初始概念获取单元，用于获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合；

概念层次选择单元，由用户指定概念获取层次，构建概念集合；

进一步的，所述词语相关度计算单元还包括：

概念向量查询单元，用于查询概念集合中各个概念的概念向量；若某一概念查找失败，则将其由概念集合中剔除；

笛卡尔积计算单元，用于对概念向量查询单元处理的概念集合计算笛卡尔积；

概念向量相似度计算单元，用于计算概念集合中每个概念对的概念向量相似度，生成候选结果集合；

词语相关度选择单元，用于从候选结果集中选取概念向量相似度的最大值，作为待比较词语对的相关度。

本发明的有益效果：

1、本发明通过充分挖掘Wikipedia蕴含的概念信息，进行了概念语料的构建和目标概念的查询获取，可在概念层面上进行词语相关度的计算。

2、本发明充分发挥了深度学习的优势，利用词向量技术生成概念向量，能够较为准确地表达概念，避免了传统词向量无法准确区分不同概念的问题。

3、本发明提出的概念索引将上下文信息与概念融合，有利于提高概念向量的准确性。

4、本发明提出的基于Wikipedia概念向量的中文词语相关度计算方法和装置，能够自动完成概念知识库的构建，准确选择词语的概念集合，并计算概念相似度，具有较高的词语相关度计算正确率，改善中文词语相关度的计算效果

附图说明

图1为根据本发明实施方式基于Wikipedia概念向量的中文词语相关度计算方法的流程图；

图2为根据本发明实施方式基于Wikipedia概念向量的中文词语相关度计算装置的结构示意图；

图3为根据本发明实施方式Wikipedia基础语料库构建单元的结构示意图；

图4为根据本发明实施方式Wikipedia概念语料库构建单元的结构示意图；

图5为根据本发明实施方式概念向量训练单元的结构示意图；

图6为根据本发明实施方式概念集合提取单元的结构示意图；

图7为根据本发明实施方式词语相关度计算单元的结构示意图。

具体实施方式：

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对发明实施例作进一步的详细说明。

本发明实施例基于Wikipedia概念向量的中文词语相关度计算方法的流程图，如图1所示，包括以下步骤。

步骤101，构建Wikipedia基础语料库。

由Wikipedia Dump服务站点获取其Dump生语料；并对生语料进行规范化处理，仅保留namespace属性为0的Wikipedia概念文档；对于每个概念文档，只保留其正式文本及概念标注信息；将处理后的概念文档收集起来，作为Wikipedia基础语料库，具体为：

步骤1-1)访问Wikipedia Dump服务站点，下载最新的zhwiki数据库；

本发明实施例中，zhwiki数据库下载地址为：https://dumps.wikimedia.org/ zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2。

需要说明的是，该数据库由XML结构存储，每个<page>标签都存储了Wikipedia中的一个页面，其中包含唯一标识符(id)、跳转目标(redirect)、命名空间(namespace)等信息。数据库包含了文档(Articles)、模板(templates)、媒体/文件的描述(media/filedescriptions)和主要元页面(primary meta-pages)等信息，使用namespace对其进行区分，namespace的信息如表1所示。

表1

namespace	ns	namespace	ns
				Main/Article	0	Portal	100
Wikipedia	4	Book	108
				File	6	Draft	118
MediaWiki	8	TimedText	710
				Template	10	Module	828
Help	12	Gadget	2300
				Category	14	Topic	2600

其中ns是<page>中的一个子节点，它的值代表了当前<page>节点的内容所属的namespace的类型。

本发明实施例中，以“数学”页面的处理为例，对其截取并构造部分关键信息，示例如下：

经步骤1-1)和步骤1-2)处理后变为：

其中[[古埃及]]和[[印度历史|古印度]]代表概念标注信息。在前者中，“古埃及”是Wikipedia中存在的概念；在后者中，“印度历史”是Wikipedia中存在的概念，而“古印度”只是出现在Wikipedia页面中的热点文本，并不是概念。

步骤1-3)对文档进行繁体到简体的转换。

本发明实施例中，以“基礎數學的知識與運用總是個人與團體生活中不可或缺的一環”的处理为例。使用opencc工具进行转换，结果为：“基础数学的知识与运用总是个人与团体生活中不可或缺的一环”。

步骤1-4)对文档进行分词处理。

本发明实施例中，以“基础数学的知识与运用总是个人与团体生活中不可或缺的一环”的处理为例。使用Python库jieba进行分词处理，结果为：“基础数学的知识与运用总是个人与团体生活中不可或缺的一环”。

步骤102，构建Wikipedia概念语料库。

对Wikipedia基础语料库进行概念标注扩充，构建Wikipedia概念语料库，具体为：

遍历

本发明实施例中，以“数学”文档的处理为例，对其截取并构造部分关键信息，示例如下：

今日，数学使用在不同的领域中

包括[[工程学|工程]]等

工程的范围工程学

[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]

海上丝绸之路世界文化遗产

</doc>

收集文档中的标题，构建H_数学＝{"数学","词源"}。由于标题“<h1>数学</h1>”与标题“数学”一致，因此在其内部添加三个括号的概念标记，结果如下：

今日，数学使用在不同的领域中

包括[[工程学|工程]]等

工程的范围工程学

[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]

海上丝绸之路世界文化遗产

</doc>

按照每个元素中link所包含的词语数量降序排列。

本发明实施例中，以步骤2-2-1)中发明实施例的结果进行处理为例，示例如下：

今日，数学使用在不同的领域中

包括[[工程学|工程]]等

工程的范围工程学

[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]

海上丝绸之路世界文化遗产

</doc>

文档中共有五处概念标记，分别为：[[[数学]]]、[[工程学|工程]]、[[海上丝绸之路]]、[[丝绸之路世界文化遗产]]、[[世界]]；按照link所含词语的数量降序排列构建概念标记集合L_数学＝{(“丝绸之路世界文化遗产”,“丝绸之路世界文化遗产”),(“海上丝绸之路”,“海上丝绸之路”),(“数学”,“数学”),(“工程”,“工程学”),(“世界”,“世界”),(“工程学”,“工程学”)}。

步骤2-1-3)遍历

若在doc_l中存在w_l,j＝llink_l,i，则将w_l,j左右添加三个中括号的概念标记，变为：[[[w_l,j]]]。

本发明实施例中，以步骤2-1-1)中发明实施例的结果进行处理为例，示例如下：

今日，数学使用在不同的领域中

包括[[工程学|工程]]等

工程的范围工程学

[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]

海上丝绸之路世界文化遗产

</doc>

根据步骤2-1-2)得到的概念标记集合L_数学＝{(“丝绸之路世界文化遗产”,“丝绸之路世界文化遗产”),(“海上丝绸之路”,“海上丝绸之路”),(“数学”,“数学”),(“工程”,“工程学”),(“世界”,“世界”),(“工程学”,“工程学”)}，查找属于L_数学但未加概念标记的词语，对其添加标记。

其中，“海上丝绸之路世界文化遗产”存在相交、包含的情况，按照L_数学中元素的顺序添加概念标记；对“丝绸之路世界文化遗产”添加概念标记时，变为“海上[[[丝绸之路世界文化遗产]]]”；对“海上丝绸之路”添加概念标记时，需先将“海上”补全，然后添加标记，变为“[[[[海上丝绸之路]]]][[[丝绸之路世界文化遗产]]]”；对“世界”添加概念标记时，先插入“世界”，然后添加标记，变为“[[[[海上丝绸之路]]]][[[丝绸之路世界文化遗产]]][[[[世界]]]]”。

处理结果如下：

今日，[[[数学]]]使用在不同的领域中

包括[[工程学|工程]]等

[[[工程学|工程]]]的范围[[[工程学]]]

[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]

[[[[海上丝绸之路]]]][[[丝绸之路世界文化遗产]]][[[[世界]]]]

</doc>

与热点文本一致但未加概念标记的词语的数量

本发明实施例中，以“数学”和“工程师”文档模拟作为整个语料库，对其截取部分关键原始信息，示例如下：

今日，[[[数学]]]使用在不同的领域中，包括[[工程学|工程]]等。

</doc>

工程师则遵照工程既定原则，从而在数学和科学上，解决了一些技术问题。通常只有在专业工程考试取得合格才可被称为工程师。

</doc>

语料库中共有两个概念标注信息[[[数学]]]和[[工程学|工程]]；统计前者在语料库中作为概念标注的次数为2次，后者为1次；统计前者在语料库中出现的次数为3次，后者为3次，生成LS＝{数学(T_数学,2,3),工程(T_工程,1,3)}，T_数学＝{(“数学”,2)}，T_工程＝{(“工程学”,1)}；按照公式(1)计算概念标注概率，结果如下：

保留结果大于50％的link_i生成高频概念标注集合LS_H＝{数学(T_数学,2,3)}。

本发明实施例中，以步骤2-2-1)的示例为例。遍历LS_H＝{数学(T_数学,2,3)}，对T_数学＝{(“数学”,2)}的每个元素按照公式(2)计算目标概念的标注概率，结果如下：

保留标注概率大于90％的目标概念，生成高频概念集合LS_HC＝{(“数学”,“数学”)}。

本发明实施例中，以步骤2-2-1)的示例为例。遍历LS_HC＝{(“数学”,“数学”)}，在语料库中共找到1处未加标记的“数学”，添加标记后示例变为：

</doc>

工程师则遵照工程既定原则，从而在[[[[[数学]]]]]和科学上，解决了一些技术问题。通常只有在专业工程考试取得合格才可被称为工程师。

</doc>

步骤103，训练概念向量。

根据Wikipedia概念语料库，训练概念向量，具体为：

本发明实施例中，以“今日，[[[数学]]]使用在不同的领域中，包括[[工程学|工程]]等”的处理为例。使用Wikipedia Tool获取“数学”的文档ID为13，“工程学”的文档ID为2218，将ID与目标概念连接并去掉中括号后变为：“今日，13_数学使用在不同的领域中，包括2218_工程学等”。

步骤3-2)使用概念语料库训练概念向量。

本发明实施例中使用gensim工具包中的word2vec模型训练概念向量，向量的维数是300，最低词频是100，训练算法是Skip-gram，其他训练参数均使用默认值。

步骤104，获取待比较词语对的概念集合。

对于待比较词语对，根据Wikipedia查询由用户指定的不同层次的概念集合，获得其词语概念集合，具体为：

步骤4-1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的概念集合；

本发明实施例中，以收集词语对(“苹果”，“电脑”)的概念集合为例。“汉朝”在Wikipedia中是一个正常页面，因此Normal是“苹果”，Redirect和Disambig都为空。页面中<hatenote>部分包含有歧义的热点文本，因此HatenoteLinkDisambig为“苹果(消歧义)”，查找“苹果(消歧义)”页面中的概念，HatenoteLinkDisambigItems为“苹果公司”、“苹果(电影)”等；不包含非歧义的热点文本，因此HatenoteLinkItems为空。同理可得，“电脑”的各个层次概念，Normal：空，Redirect：“电子计算机”，Disambig：空，HatenoteLinkItems：“个人电脑”、“家用电脑”，HatenoteLinkDisambigItems：“机械计算机”、“电子计算机”、“电子学”、“计算器”、“个人电脑”、“家用电脑”、“计算机(杂志)”、“计算器(应用程序)”。

步骤4-2)由用户指定概念获取层次，构建概念集合。

本发明实施例中，以收集词语对(“苹果”，“电脑”)的概念集合为例。根据步骤4-1)实施例的结果，假设用户指定的层次为：Normal_Redirect_Disambig_HatenoteLinkItems_Hatenot eLinkDisambigItems，因此“苹果”的概念集合为C_苹果＝{"苹果","苹果(电影)"}，“电脑”的概念集合为C_电脑＝{"电子计算机","个人电脑","家用电脑","机械计算机","电子学","计算器","计算机(杂志)","计算器(应用程序)"}。

需要说明的是，用户可指定的层次如下所示：

a)Normal：只查找正常页面的Title；否则，返回None；

e)Normal_Redirect_Disambig_HatenoteLinkItems：查找正常页面的Title或重定向页的RedirectTitle，并查找消歧页的DisambigItems，并查找页面包含的HatenoteLinkItems；若查找失败，则返回None；

上面用到的符号释义：

DisambigItems：当w_i所对应的Wikipedia页是一个消歧页时，DisambigItems是消歧页所包含的可能的概念(不计与Title重复的)；

HatenoteLinkDisambigItems：依次对HatenoteLinkDisambig各个消歧页提取有可能的概念(不计与Title重复的)；

步骤105，计算各个概念对的概念向量相似度并选取最大值作为词语相关度。

取得待比较词语对的概念集合的笛卡尔积，计算其中每个概念对所对应的概念向量的相似度；取最大的概念向量的相似度作为待比较词语对的相关度，具体为：

步骤5-1)待比较词语对为(w₁,w₂)，w₁的概念集合

和w₂的概念集合

根据步骤103得到的概念向量文件，查询

和

中各个概念的概念向量；若某一概念查找失败，则将其由概念集合中剔除。

本发明实施例中，以词语对(“苹果”，“电脑”)的处理为例。由步骤4-2)得到C_苹果和C_电脑；以查询C_苹果中“苹果”的概念向量为例，查询“苹果”的文档ID为7850，概念索引为“7850_苹果”，从概念向量文件查找，得到“苹果”的概念向量；同理，查询C_苹果和C_电脑中各个概念的概念向量；剔除查询失败的概念后，C_苹果＝{"苹果","苹果公司"}，C_电脑＝{"电子计算机","个人电脑","电子学"}。

步骤5-2)根据步骤5-1)处理过的

和

计算它们的笛卡尔积得待计算概念集合，记作

本发明实施例中，以词语对(“苹果”，“电脑”)的处理为例，由步骤5-1)得，“苹果”的概念集合C_苹果＝{"苹果","苹果公司"}，“电脑”的概念集合C_电脑＝{"电子计算机","个人电脑","电子学"}；计算C_苹果和C_电脑的笛卡尔积，可得C_{苹果，电脑}＝{("苹果","电子计算机"),("苹果","个人电脑"),("苹果","电子学"),("苹果公司","电子计算机"),("苹果公司","个人电脑"),("苹果公司","电子学")}。

其中

和

表示概念c_i和c_j的概念向量，

和

表示向量

和

的模。

本发明实施例中，以词语对(“苹果”，“电脑”)的处理为例。由步骤5-1)和步骤5-2)实施例中得C_{苹果，电脑}＝{("苹果","电子计算机"),("苹果","个人电脑"),("苹果","电子学"),("苹果公司","电子计算机"),("苹果公司","个人电脑"),("苹果公司","电子学")}和各个概念的概念向量。

计算C_{苹果，电脑}中每个概念对的概念向量相似度，结果为：

sim("苹果","电子计算机")＝0.269805519448；

sim("苹果","个人电脑")＝0.296117064498；

sim("苹果","电子学")＝0.325971175002；

sim("苹果公司","电子计算机")＝0.434918366673；

sim("苹果公司","个人电脑")＝0.587246728589；

sim("苹果公司","电子学")＝0.354456579224；

本发明实施例中，以词语对(“苹果”，“电脑”)的处理为例。由步骤5-3)实施例得到候选结果集；sim("苹果公司","个人电脑")＝0.587246728589的值最大，因此词语对(“苹果”，“电脑”)的相关度为0.587246728589。

通过以上操作步骤，即可完成词语对(“苹果”，“电脑”)的相关度计算工作。

相应地，本发明实施例还提供一种基于Wikipedia概念向量的中文词语相关度计算装置，其结构示意图如图2所示。

在该实施例中，所述装置包括：

Wikipedia基础语料库构建单元201，用于对Wikipedia Dump生语料进行规范化处理，仅保留namespace属性为0的Wikipedia概念文档；对于每个概念文档，只保留其正式文本及概念标注信息；将处理后的概念文档收集起来，作为Wikipedia基础语料库；

Wikipedia概念语料库构建单元202，用于对Wikipedia基础语料库进行概念标注扩充，构建Wikipedia概念语料库；

概念向量训练单元203，用于使用Wikipedia概念语料库，训练概念向量；

概念集合提取单元204，用于对待比较词语对，根据Wikipedia查询由用户指定的不同层次的概念集合，获得其词语概念集合；

词语相关度计算单元205，用于取得待比较词语对的概念集合的笛卡尔积，计算其中每个概念对所对应的概念向量的相似度；取最大的概念向量的相似度作为待比较词语对的相关度。

图2所示装置的Wikipedia基础语料库构建单元201的结构示意图如图3所示，其包括：

概念文档提取单元301，用于对Wikipedia Dump生语料提取namespace属性为0的Wikipedia概念文档；

单文档规范化处理单元302，用于对文档内容进行如下处理：删除用户编辑记录和外部链接，替换特殊字符，保留概念标注信息，利用<h#n>标记段落标题；其中，#n＝{1,2,3...n}，代表文档标题的层级，从1到n表示由高到低。

图2所示装置的Wikipedia概念语料库构建单元202的结构示意图如图4所示，其包括：

单文档概念标记扩充单元401，用于根据one sense per discourse假设，对基础语料库中的每篇文档扩充概念标记；

全文档概念标记扩充单元402，用于根据最大频率词义算法，对单文档概念标记扩充单元处理过的基础语料库进一步扩充概念标记。

图2所示装置的概念向量训练单元203的结构示意图如图5所示，其包括：

概念标记单元501，用于对概念标记进行处理，只保留目标概念并查找目标概念所对应的文档ID，将ID与目标概念之间用“_”连接；去掉概念标记左右两侧的中括号，生成概念语料库；

概念向量训练单元502，用于使用概念语料库训练概念向。

图2所示装置的概念集合提取单元204的结构示意图如图6所示，其包括：

初始概念获取单元601，用于获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合；

概念层次选择单元602，由用户指定概念获取层次，构建概念集合。

图2所示装置的词语相关度计算单元205的结构示意图如图7所示，其包括：

概念向量查询单元701，用于查询概念集合中各个概念的概念向量；若某一概念查找失败，则将其由概念集合中剔除；

笛卡尔积计算单元702，用于对概念向量查询单元处理的概念集合计算笛卡尔积；

概念向量相似度计算单元703，用于计算概念集合中每个概念对的概念向量相似度，生成候选结果集合；

词语相关度选择单元704，用于从候选结果集中选取概念向量相似度的最大值，作为待比较词语对的相关度。

可以将图2～图7所示的基于Wikipedia概念向量的中文词语相关度计算装置集成到各种硬件实体中。比如，可以将基于Wikipedia概念向量的中文词语相关度计算装置集成到：个人电脑、平板电脑、智能手机、工作站等设备之中。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于Wikipedia概念向量的中文词语相关度计算方法存储在各种存储介质上。这些存储介质包括但不局限于：软盘、光盘、硬盘、内存、U盘、CF卡、SM卡等。

综上所述，在本发明实施方式中，由Wikipedia Dump服务站点获取生语料，进行规范化处理，生成Wikipedia基础语料库；进行概念标注扩充，构建Wikipedia概念语料库；根据Wikipedia概念语料库，训练概念向量；对于待比较词语对，根据Wikipedia，获得其词语概念集合；计算概念集合的笛卡尔积中的每个概念对所对应的概念向量的相似度，取最大值作为待比较词语对的相关度。由此可见，应用本发明实施方式之后，实现了基于Wikipedia概念向量的中文词语相关度计算。本发明实施方式通过充分挖掘Wikipedia知识库的概念信息，进行了概念语料的构建和目标概念的查询获取，可在概念层面上进行词语相关度的计算；充分发挥了深度学习的优势，利用词向量技术生成概念向量，能够较为准确地表达概念，避免了传统词向量无法准确区分不同概念的问题；概念索引将上下文信息与概念融合，有利于提高概念向量的准确性。本发明提出的基于Wikipedia概念向量的中文词语相关度计算方法和装置，能够自动完成概念知识库的构建，准确选择词语的概念集合，并计算概念相似度，具有较高的词语相关度计算正确率，改善中文词语相关度的计算效果。

本说明书中的实施例采用递进的方式描述，彼此相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法和装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，故本说明书不应理解为对本发明的限制。

Claims

1.一种基于Wikipedia概念向量的中文词语相关度计算方法，在特征在于，该方法包括以下步骤：

步骤一、由Wikipedia Dump服务站点获取其Dump生语料；并对生语料进行规范化处理，仅保留namespace属性为0的Wikipedia概念文档；对于每个概念文档，只保留其正式文本及概念标注信息；将处理后的概念文档收集起来，作为Wikipedia基础语料库；具体为：

步骤1-1)访问Wikipedia Dump服务站点，下载最新的zhwiki数据库；

步骤1-2)根据zhwiki数据库依次处理<page>节点，提取ns的值为0的<page>节点，提取该节点中的title、redirect、id和text的内容，同时对text做如下处理：删除用户编辑记录和外部链接，替换特殊字符，保留概念标注信息，利用<h#n>标记段落标题；其中，#n＝{1,2,3...n}，代表文档标题的层级，从1到n表示由高到低；

步骤二、对Wikipedia基础语料库进行概念标注扩充，构建Wikipedia概念语料库；具体为：

将基础语料库中的某一篇文档记作doc_l，其标题记作title_l，标识记作id_l；该篇文档中的某一概念标记的热点文本记作link_l,k，目标概念记作target_l,k；doc_l中未加概念标记的词语记作w_l,i；

遍历

中的元素，若head_l,i＝title_l，则将原文中head_l,i左右加上三个中括号的概念标记，变为：[[[head_l,i]]]；

按照每个元素中link所包含的词语数量降序排列；

步骤2-1-3)遍历

若在doc_l中存在w_l,j＝link_l,i，则将w_l,j左右添加三个中括号的概念标记，变为：[[[w_l,j]]]；

；

与热点文本一致但未加概念标记的词语的数量

T_i＝{(target_i,1,num_i,1),(target_i,2,num_i,2),...,(target_i,n,num_i,n)}；语料库中未加概念标记的词语记作w_k；

步骤2-2-3)遍历LS_HC，若存在w_k＝link_i，则将w_k左右添加五个中括号的概念标记，变为：[[[[[w_k]]]]]；

步骤三、根据Wikipedia概念语料库，训练概念向量；

2.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法，其特征在于，所述步骤三中，训练概念向量时，具体为：

步骤3-1)依次对概念标记进行处理，只保留目标概念并查找目标概念所对应的文档ID，将ID与目标概念之间用“_”连接；去掉概念标记左右两侧的中括号，生成概念语料库；

步骤3-2)使用概念语料库训练概念向量。

3.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法，其特征在于，所述步骤四中，获取待比较词语对的概念集合时，具体为：

步骤4-2)由用户指定概念获取层次，构建概念集合；

需要说明的是，用户可指定的层次如下所示：

a)Normal：只查找正常页面的Title；否则，返回None；

其中的符号释义说明如下：

Title：当w_i所对应的Wikipedia页是一个正常页面且非消歧页非重定向页时，其对应概念就是Title；

DisambigItems：当w_i所对应的Wikipedia页是一个消歧页时，DisambigItems是消歧页所包含的所有可能的概念，且不计与Title重复的；

HatenoteLinkDisambigItems：依次对HatenoteLinkDisambig各个消歧页提取有可能的概念，且不计与Title重复的。

4.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法，其特征在于，所述步骤五中，计算各个概念对的概念向量相似度并选取最大值作为词语相关度时，具体为：

步骤5-1)待比较词语对为(w₁,w₂)，w₁的概念集合

和w₂的概念集合

根据步骤三得到的概念向量文件，查询

和

步骤5-2)根据步骤5-1)处理过的

和

计算它们的笛卡尔积得待计算概念集合，记作

其中

和

表示概念c_i和c_j的概念向量，

和

表示向量

和

的模；

5.一种基于Wikipedia概念向量的中文词语相关度计算装置，其特征在于，该装置包括Wikipedia基础语料库构建单元、Wikipedia概念语料库构建单元、概念向量训练单元、概念集合提取单元、词语相关度计算单元，分别实现权利要求1-4任意一项所述的一种基于Wikipedia概念向量的中文词语相关度计算方法的步骤一、步骤二、步骤三、步骤四和步骤五。