CN107491524B - 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 - Google Patents

一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 Download PDF

Info

Publication number
CN107491524B
CN107491524B CN201710707736.6A CN201710707736A CN107491524B CN 107491524 B CN107491524 B CN 107491524B CN 201710707736 A CN201710707736 A CN 201710707736A CN 107491524 B CN107491524 B CN 107491524B
Authority
CN
China
Prior art keywords
concept
wikipedia
page
word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710707736.6A
Other languages
English (en)
Other versions
CN107491524A (zh
Inventor
鹿文鹏
张玉腾
张甜甜
孟凡擎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Jingchuang United Beijing Intellectual Property Service Co ltd
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201710707736.6A priority Critical patent/CN107491524B/zh
Publication of CN107491524A publication Critical patent/CN107491524A/zh
Application granted granted Critical
Publication of CN107491524B publication Critical patent/CN107491524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Wikipedia概念向量的中文词语相关度计算方法和装置。方法包括:1.由Wikipedia Dump服务站点获取生语料,进行规范化处理,生成Wikipedia基础语料库;2.进行概念标注扩充,构建Wikipedia概念语料库;3.根据Wikipedia概念语料库,训练概念向量;4.对于待比较词语对,根据Wikipedia,获得其词语概念集合;5.计算概念集合的笛卡尔积中的每个概念对所对应的概念向量的相似度,取最大值作为待比较词语对的相关度。利用本发明,可以充分挖掘Wikipedia蕴含的词语概念信息,生成词语概念向量,更准确有效地计算词语相关度。

Description

一种基于Wikipedia概念向量的中文词语相关度计算方法和 装置
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于Wikipedia概念向量的中文词语相关度计算方法和装置。
背景技术
词语相关度是指两个词语之间的语义关联程度,其在自然语言处理领域有着广泛的应用,对信息检索、语义理解、词义消歧、文本聚类的效果具有直接影响。现有的词语相关度计算方法可分为两类:一类是基于知识库的方法,通常利用WordNet等语义本体知识库,分析词语的释义的重叠词数量或者词语在本体概念树中的路径长度、概念密度等,来评判词语的相关程度;另一类是基于统计的方法,根据词语在语料库中一定窗口内的共现频次,将词语表示成词语向量,利用词语向量的相似度来评判词语的相关程度。基于知识库的方法的效果依赖于知识库的规模和质量,而知识库的构建需要大量的人工劳动;而且随着社会发展,新词层出不穷,知识库难以全面覆盖,这制约了基于知识库方法的效果和应用范围。基于统计的方法主要依据语料库的共现关系,而对于缺乏对其它关系的考虑;而且,构建的词语向量往往十分稀疏,这导致其计算精度并不理想。
随着深度学习技术的发展,词向量(word embeddings)技术被提出,并被广泛应用于词语相关度计算。但是,现有的词向量技术往往以词语为基本对象,而忽略了词语所对应的词义概念。同一个词语可能会有多种概念,对应多种词义。现有的词向量技术以词语为基本对象,对每个词语只会生成一个词向量。这导致词向量会融合一个词语的所有概念信息,而无法准确区分每个不同的概念。如果能够为每个概念单独生成相应的概念向量(conceptembeddings),将有利于精确描述词语的词义概念,推动相关应用的发展。
训练概念向量的前提是有充足的概念标注语料。如何快速有效地构建概念标注语料是一个重要问题。一旦获得了词义概念向量,对于待比较相关度的词语对,只需找到词语所对应的概念集合,便可以将词语相关度的计算转化为概念向量的相似度计算。如何确定词语的概念集合也是一个重要问题。
Wikipedia为解决上述问题奠定了基础。Wikipedia是世界上规模最大的在线百科知识库,蕴含了丰富的语义知识,数据范围广,更新速度快,且具有良好的结构化信息。Wikipedia已成为自然语言领域的一个重要知识来源。
面对词语相关度计算所存在的以上技术问题,本发明专利针对中文Wikipedia的特点,充分挖掘其中蕴含的概念信息,实现一种基于Wikipedia概念向量的中文词语相关度计算方法和装置,力求能够在一定程度上推动这些问题的解决。
发明内容
为解决现有技术存在的不足,本发明公开了一种基于Wikipedia概念向量的中文词语相关度计算方法和装置,以更准确地计算中文词语相关度。
为此,本发明提供如下技术方案:
一种基于Wikipedia概念向量的中文词语相关度计算方法,包括以下步骤:
步骤一、由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;
步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;
步骤三、根据Wikipedia概念语料库,训练概念向量;
步骤四、对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;
步骤五、取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。
进一步的,所述步骤一中,构建Wikipedia基础语料库时,具体为:
步骤1-1)访问Wikipedia Dump服务站点,下载最新的zhwiki数据库;
步骤1-2)根据zhwiki数据库依次处理<page>节点,提取ns的值为0的<page>节点,提取该节点中的title、redirect、id和text的内容,同时对text做如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用<h#n>标记段落标题;其中,#n={1,2,3...n},代表文档标题的层级,从1到n表示由高到低。
步骤1-3)对文档进行繁体到简体的转换。
步骤1-4)对文档进行分词处理。
进一步的,所述步骤二中,构建Wikipedia概念语料库时,具体为:
步骤2-1)根据one sense per discourse假设,对基础语料库中的每篇文档进行概念标记扩充,具体为:
将基础语料库中的某一篇文档记作docl,其标题记作titlel,标识记作idl;该篇文档中的某一概念标记的热点文本记作linkl,k,目标概念记作targetl,k;docl中未加概念标记的词语记作wl,i
需要说明的是,概念标记由热点文本linkl,k和目标概念targetl,k组成,在文档中的展现方式为:[[linkl,k|targetl,k]];若targetl,k=linkl,k,展现方式变为:[[linkl,k]];热点文本在文档中仅起显示作用,并不是概念;目标概念是本发明中所指的概念,也是其所对应的Wikipedia文档的标题。概念标记扩充是为符合限定条件的词语添加概念标记。
步骤2-1-1)在docl中,收集<h#n>…</h#n>(#n=1,2,…,n)标签中的词语,作为docl的子标题集合,记作
Figure GDA0003321205990000031
遍历
Figure GDA0003321205990000032
中的元素,若headl,i=titlel,则将原文中headl,i左右加上三个中括号的概念标记,变为:[[[headl,i]]]。
步骤2-1-2)在docl中,收集所有概念标记信息,构建概念标记集合,记作
Figure GDA0003321205990000033
按照每个元素中link所包含的词语数量降序排列。
需要说明的是,若target≠link,则target本身也作为一个热点文本(link),目标概念为其自身。
步骤2-1-3)遍历
Figure GDA0003321205990000034
若在docl中存在wl,j=linkl,i,则将wl,j左右添加三个中括号的概念标记,变为:[[[wl,j]]]。
需要说明的是,添加概念标记时会出现相交、包含的情况。下面分别说明出现的原因和处理方法:
在为w1和w2添加概念标记时,若w1与w2相交,w1添加概念标记后,w2会缺少与w1相交的部分。因此,为w2添加概念标记时,需先将w2补全,再为w2添加四个中括号的概念标记,变为[[[w1]]][[[[w2]]]]。
在为w1和w2添加概念标记时,若w1包含w2,w1添加概念标记后,w2已经在概念标记内了。因此,为w2添加概念标记时,先在w1的后面插入w2,再为w2添加四个中括号的概念标记,变为[[[w1]]][[[[w2]]]]。
步骤2-2)根据最大频率词义算法,对步骤2-1)处理过的基础语料库做进一步的概念标记扩充,具体为:
收集经过步骤2-1)扩充概念的基础语料库中的概念标记信息元组,构建概念标记集合,记作:
Figure GDA0003321205990000041
Figure GDA0003321205990000042
概念标记信息元组包含热点文本(linki)、目标概念集合(Ti)、热点文本的数量
Figure GDA0003321205990000043
与热点文本一致但未加概念标记的词语的数量
Figure GDA0003321205990000044
统计每个概念标记的目标概念和及其数量得到目标概念元组集合,记作:
Ti={(targeti,1,numi,1),(targeti,2,numi,2),...,(targeti,n,numi,n)};语料库中未加概念标记的词语记作wk
步骤2-2-1)遍历LS,按照公式(1)计算词语的概念标注概率Pl(linki);保留结果大于50%的linki生成高频概念标注集合,记为LSH
Figure GDA0003321205990000045
步骤2-2-2)遍历LSH,依次对linki中Ti的每个元素按照公式(2)计算目标概念的标注概率Pt(targeti,j);保留标注概率大于90%的目标概念(target),生成高频目标概念集合,记为LSHC={(linki,targeti,j),...},将集合的各个元素按照linki中含有的词语数降序排列;
Figure GDA0003321205990000046
步骤2-2-3)遍历LSHC,若存在wk=linki,则将wk左右添加五个中括号的概念标记,变为:[[[[[wk]]]]]。
需要说明的是,添加概念标记时会出现相交、包含的情况。处理方式与步骤2-1-3)的处理方式基本一致;不同之处是,为w1和w2添加概念标记时都用五个中括号,变为[[[[[w1]]]]][[[[[w2]]]]]。
进一步的,所述步骤三中,训练概念向量时,具体为:
步骤3-1)依次对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库。
需要说明的是,目标概念所对应的文档ID由Python的Wikipedia库获取。
步骤3-2)使用概念语料库训练概念向量。
训练得到的概念向量文件包含两种数据:一是传统的词向量,二是概念向量。比如:“领域”和“13_数学”,前者是传统的标准词向量的索引,而后者是本发明专利提出的概念向量的索引。后续步骤对概念向量的查询和计算,均指对后者进行操作处理,不涉及前者。
进一步的,所述步骤四中,获取待比较词语对的概念集合时,具体为:
步骤4-1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;
步骤4-2)由用户指定概念获取层次,构建概念集合;
需要说明的是,用户可指定的层次如下所示:
a)Normal:只查找正常页面的Title;否则,返回None;
b)Normal_Redirect:只查找正常页面的Title或重定向页的RedirectTitle;若查找失败,则返回None;
c)Normal_Redirect_Disambig:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems;若查找失败,则返回None;
d)Normal_Redirect_HatenoteLinkItem:查找正常页面的Title或重定向页的RedirectTitle,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;
e)Normal_Redirect_Disambig_HatenoteLinkItems:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems,并查找页面包含的HatenoteLinkItems;
若查找失败,则返回None;
f)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems:在Normal_Redirect_Disambig_HatenoteLinkItems的基础上,再增加HatenoteLinkItems所对应的可能DisambigItems;若查找失败,则返回None;
其中的符号释义说明如下:
Title:当wi所对应的Wikipedia页是一个正常页面(非消歧页,非重定向页)时,其对应概念就是Title;
RedirectTitle:当wi所对应的Wikipedia页是一个重定向页时,RedirectTitle是wi所对应的最终重定向页面的Title;
DisambigItems:当wi所对应的Wikipedia页是一个消歧页时,DisambigItems是消歧页所包含的所有可能的概念(不计与Title重复的);
HatenoteLinkItems:在Title对应的Wikipedia页面的开始部分的<hatenote>部分中,非歧义的热点文本;
HatenoteLinkDisambig:在Title对应的Wikipedia页面的开始部分的<hatenote>部分中,有歧义的热点文本;
HatenoteLinkDisambigItems:依次对HatenoteLinkDisambig各个消歧页提取有可能的概念(不计与Title重复的)。
进一步的,所述步骤五中,计算各个概念对的概念向量相似度并选取最大值作为词语相关度时,具体为:
步骤5-1)待比较词语对为(w1,w2),w1的概念集合
Figure GDA0003321205990000061
和w2的概念集合
Figure GDA0003321205990000062
根据步骤三得到的概念向量文件,查询
Figure GDA0003321205990000063
Figure GDA0003321205990000064
中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除;
步骤5-2)根据步骤5-1)处理过的
Figure GDA0003321205990000065
Figure GDA0003321205990000066
计算它们的笛卡尔积得待计算概念集合,记作
Figure GDA0003321205990000067
步骤5-3)由步骤5-1)和步骤5-2),按照公式(3)计算每个概念对的概念向量相似度,生成候选结果集合;
Figure GDA0003321205990000068
其中
Figure GDA0003321205990000069
Figure GDA00033212059900000610
表示概念ci和cj的概念向量,
Figure GDA00033212059900000611
Figure GDA00033212059900000612
表示向量
Figure GDA00033212059900000613
Figure GDA00033212059900000614
的模;
步骤5-4)从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。
一种基于Wikipedia概念向量的中文词语相关度计算装置,包括:
Wikipedia基础语料库构建单元,用于对Wikipedia Dump生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;
Wikipedia概念语料库构建单元,用于对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;
概念向量训练单元,用于使用Wikipedia概念语料库,训练概念向量;
概念集合提取单元,用于对待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;
词语相关度计算单元,用于取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。
进一步的,所述Wikipedia基础语料库构建单元还包括:
概念文档提取单元,用于对Wikipedia Dump生语料提取namespace属性为0的Wikipedia概念文档;
单文档规范化处理单元,用于对文档内容进行如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用<h#n>标记段落标题;其中,#n={1,2,3...n},代表文档标题的层级,从1到n表示由高到低;
进一步的,所述Wikipedia概念语料库构建单元还包括:
单文档概念标记扩充单元,用于根据one sense per discourse假设,对基础语料库中的每篇文档扩充概念标记;
全文档概念标记扩充单元,用于根据最大频率词义算法,对单文档概念标记扩充单元处理过的基础语料库进一步扩充概念标记;
进一步的,所述概念向量训练单元还包括:
概念标记单元,用于对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;
概念向量训练单元,用于使用概念语料库训练概念向量;
进一步的,所述概念集合提取单元还包括:
初始概念获取单元,用于获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;
概念层次选择单元,由用户指定概念获取层次,构建概念集合;
进一步的,所述词语相关度计算单元还包括:
概念向量查询单元,用于查询概念集合中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除;
笛卡尔积计算单元,用于对概念向量查询单元处理的概念集合计算笛卡尔积;
概念向量相似度计算单元,用于计算概念集合中每个概念对的概念向量相似度,生成候选结果集合;
词语相关度选择单元,用于从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。
本发明的有益效果:
1、本发明通过充分挖掘Wikipedia蕴含的概念信息,进行了概念语料的构建和目标概念的查询获取,可在概念层面上进行词语相关度的计算。
2、本发明充分发挥了深度学习的优势,利用词向量技术生成概念向量,能够较为准确地表达概念,避免了传统词向量无法准确区分不同概念的问题。
3、本发明提出的概念索引将上下文信息与概念融合,有利于提高概念向量的准确性。
4、本发明提出的基于Wikipedia概念向量的中文词语相关度计算方法和装置,能够自动完成概念知识库的构建,准确选择词语的概念集合,并计算概念相似度,具有较高的词语相关度计算正确率,改善中文词语相关度的计算效果
附图说明
图1为根据本发明实施方式基于Wikipedia概念向量的中文词语相关度计算方法的流程图;
图2为根据本发明实施方式基于Wikipedia概念向量的中文词语相关度计算装置的结构示意图;
图3为根据本发明实施方式Wikipedia基础语料库构建单元的结构示意图;
图4为根据本发明实施方式Wikipedia概念语料库构建单元的结构示意图;
图5为根据本发明实施方式概念向量训练单元的结构示意图;
图6为根据本发明实施方式概念集合提取单元的结构示意图;
图7为根据本发明实施方式词语相关度计算单元的结构示意图。
具体实施方式:
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对发明实施例作进一步的详细说明。
本发明实施例基于Wikipedia概念向量的中文词语相关度计算方法的流程图,如图1所示,包括以下步骤。
步骤101,构建Wikipedia基础语料库。
由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库,具体为:
步骤1-1)访问Wikipedia Dump服务站点,下载最新的zhwiki数据库;
本发明实施例中,zhwiki数据库下载地址为:https://dumps.wikimedia.org/ zhwiki/latest/zhwiki-latest-pages-articles-multistream.xml.bz2
需要说明的是,该数据库由XML结构存储,每个<page>标签都存储了Wikipedia中的一个页面,其中包含唯一标识符(id)、跳转目标(redirect)、命名空间(namespace)等信息。数据库包含了文档(Articles)、模板(templates)、媒体/文件的描述(media/filedescriptions)和主要元页面(primary meta-pages)等信息,使用namespace对其进行区分,namespace的信息如表1所示。
表1
namespace ns namespace ns
Main/Article 0 Portal 100
Wikipedia 4 Book 108
File 6 Draft 118
MediaWiki 8 TimedText 710
Template 10 Module 828
Help 12 Gadget 2300
Category 14 Topic 2600
其中ns是<page>中的一个子节点,它的值代表了当前<page>节点的内容所属的namespace的类型。
步骤1-2)根据zhwiki数据库依次处理<page>节点,提取ns的值为0的<page>节点,提取该节点中的title、redirect、id和text的内容,同时对text做如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用<h#n>标记段落标题;其中,#n={1,2,3...n},代表文档标题的层级,从1到n表示由高到低。
本发明实施例中,以“数学”页面的处理为例,对其截取并构造部分关键信息,示例如下:
Figure GDA0003321205990000091
Figure GDA0003321205990000101
经步骤1-1)和步骤1-2)处理后变为:
Figure GDA0003321205990000102
其中[[古埃及]]和[[印度历史|古印度]]代表概念标注信息。在前者中,“古埃及”是Wikipedia中存在的概念;在后者中,“印度历史”是Wikipedia中存在的概念,而“古印度”只是出现在Wikipedia页面中的热点文本,并不是概念。
步骤1-3)对文档进行繁体到简体的转换。
本发明实施例中,以“基礎數學的知識與運用總是個人與團體生活中不可或缺的一環”的处理为例。使用opencc工具进行转换,结果为:“基础数学的知识与运用总是个人与团体生活中不可或缺的一环”。
步骤1-4)对文档进行分词处理。
本发明实施例中,以“基础数学的知识与运用总是个人与团体生活中不可或缺的一环”的处理为例。使用Python库jieba进行分词处理,结果为:“基础数学的知识与运用总是个人与团体生活中不可或缺的一环”。
步骤102,构建Wikipedia概念语料库。
对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库,具体为:
步骤2-1)根据one sense per discourse假设,对基础语料库中的每篇文档进行概念标记扩充,具体为:
将基础语料库中的某一篇文档记作docl,其标题记作titlel,标识记作idl;该篇文档中的某一概念标记的热点文本记作linkl,k,目标概念记作targetl,k;docl中未加概念标记的词语记作wl,i
需要说明的是,概念标记由热点文本linkl,k和目标概念targetl,k组成,在文档中的展现方式为:[[linkl,k|targetl,k]];若targetl,k=linkl,k,展现方式变为:[[linkl,k]];热点文本在文档中仅起显示作用,并不是概念;目标概念是本发明中所指的概念,也是其所对应的Wikipedia文档的标题。概念标记扩充是为符合限定条件的词语添加概念标记。
步骤2-1-1)在docl中,收集<h#n>…</h#n>(#n=1,2,…,n)标签中的词语,作为docl的子标题集合,记作
Figure GDA0003321205990000111
遍历
Figure GDA0003321205990000112
中的元素,若headl,i=titlel,则将原文中headl,i左右加上三个中括号的概念标记,变为:[[[headl,i]]]。
本发明实施例中,以“数学”文档的处理为例,对其截取并构造部分关键信息,示例如下:
<doc id="13"title="数学">
<h1>数学</h1>
今日,数学使用在不同的领域中
包括[[工程学|工程]]等
工程的范围工程学
[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]
海上丝绸之路世界文化遗产
<h2>词源</h2>
</doc>
收集文档中的标题,构建H数学={"数学","词源"}。由于标题“<h1>数学</h1>”与标题“数学”一致,因此在其内部添加三个括号的概念标记,结果如下:
<doc id="13"title="数学">
<h1>[[[数学]]]</h1>
今日,数学使用在不同的领域中
包括[[工程学|工程]]等
工程的范围工程学
[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]
海上丝绸之路世界文化遗产
<h2>词源</h2>
</doc>
步骤2-1-2)在docl中,收集所有概念标记信息,构建概念标记集合,记作
Figure GDA0003321205990000113
按照每个元素中link所包含的词语数量降序排列。
需要说明的是,若target≠link,则target本身也作为一个热点文本(link),目标概念为其自身。
本发明实施例中,以步骤2-2-1)中发明实施例的结果进行处理为例,示例如下:
<doc id="13"title="数学">
<h1>[[[数学]]]</h1>
今日,数学使用在不同的领域中
包括[[工程学|工程]]等
工程的范围工程学
[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]
海上丝绸之路世界文化遗产
<h2>词源</h2>
</doc>
文档中共有五处概念标记,分别为:[[[数学]]]、[[工程学|工程]]、[[海上丝绸之路]]、[[丝绸之路世界文化遗产]]、[[世界]];按照link所含词语的数量降序排列构建概念标记集合L数学={(“丝绸之路世界文化遗产”,“丝绸之路世界文化遗产”),(“海上丝绸之路”,“海上丝绸之路”),(“数学”,“数学”),(“工程”,“工程学”),(“世界”,“世界”),(“工程学”,“工程学”)}。
步骤2-1-3)遍历
Figure GDA0003321205990000121
若在docl中存在wl,j=llinkl,i,则将wl,j左右添加三个中括号的概念标记,变为:[[[wl,j]]]。
需要说明的是,添加概念标记时会出现相交、包含的情况。下面分别说明出现的原因和处理方法:
在为w1和w2添加概念标记时,若w1与w2相交,w1添加概念标记后,w2会缺少与w1相交的部分。因此,为w2添加概念标记时,需先将w2补全,再为w2添加四个中括号的概念标记,变为[[[w1]]][[[[w2]]]]。
在为w1和w2添加概念标记时,若w1包含w2,w1添加概念标记后,w2已经在概念标记内了。因此,为w2添加概念标记时,先在w1的后面插入w2,再为w2添加四个中括号的概念标记,变为[[[w1]]][[[[w2]]]]。
本发明实施例中,以步骤2-1-1)中发明实施例的结果进行处理为例,示例如下:
<doc id="13"title="数学">
<h1>[[[数学]]]</h1>
今日,数学使用在不同的领域中
包括[[工程学|工程]]等
工程的范围工程学
[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]
海上丝绸之路世界文化遗产
<h2>词源</h2>
</doc>
根据步骤2-1-2)得到的概念标记集合L数学={(“丝绸之路世界文化遗产”,“丝绸之路世界文化遗产”),(“海上丝绸之路”,“海上丝绸之路”),(“数学”,“数学”),(“工程”,“工程学”),(“世界”,“世界”),(“工程学”,“工程学”)},查找属于L数学但未加概念标记的词语,对其添加标记。
其中,“海上丝绸之路世界文化遗产”存在相交、包含的情况,按照L数学中元素的顺序添加概念标记;对“丝绸之路世界文化遗产”添加概念标记时,变为“海上[[[丝绸之路世界文化遗产]]]”;对“海上丝绸之路”添加概念标记时,需先将“海上”补全,然后添加标记,变为“[[[[海上丝绸之路]]]][[[丝绸之路世界文化遗产]]]”;对“世界”添加概念标记时,先插入“世界”,然后添加标记,变为“[[[[海上丝绸之路]]]][[[丝绸之路世界文化遗产]]][[[[世界]]]]”。
处理结果如下:
<doc id="13"title="数学">
<h1>[[[数学]]]</h1>
今日,[[[数学]]]使用在不同的领域中
包括[[工程学|工程]]等
[[[工程学|工程]]]的范围[[[工程学]]]
[[海上丝绸之路]][[丝绸之路世界文化遗产]][[世界]]
[[[[海上丝绸之路]]]][[[丝绸之路世界文化遗产]]][[[[世界]]]]
<h2>词源</h2>
</doc>
步骤2-2)根据最大频率词义算法,对步骤2-1)处理过的基础语料库做进一步的概念标记扩充,具体为:
收集经过步骤2-1)扩充概念的基础语料库中的概念标记信息元组,构建概念标记集合,记作:
Figure GDA0003321205990000141
Figure GDA0003321205990000142
概念标记信息元组包含热点文本(linki)、目标概念集合(Ti)、热点文本的数量
Figure GDA0003321205990000143
与热点文本一致但未加概念标记的词语的数量
Figure GDA0003321205990000144
统计每个概念标记的目标概念和及其数量得到目标概念元组集合,记作:
Ti={(targeti,1,numi,1),(targeti,2,numi,2),...,(targeti,n,numi,n)};语料库中未加概念标记的词语记作wk
步骤2-2-1)遍历LS,按照公式(1)计算词语的概念标注概率Pl(linki);保留结果大于50%的linki生成高频概念标注集合,记为LSH
Figure GDA0003321205990000145
本发明实施例中,以“数学”和“工程师”文档模拟作为整个语料库,对其截取部分关键原始信息,示例如下:
<doc id="13"title="数学">
<h1>[[[数学]]]</h1>
今日,[[[数学]]]使用在不同的领域中,包括[[工程学|工程]]等。
</doc>
<doc id="51481866"title="工程师">
工程师则遵照工程既定原则,从而在数学和科学上,解决了一些技术问题。通常只有在专业工程考试取得合格才可被称为工程师。
</doc>
语料库中共有两个概念标注信息[[[数学]]]和[[工程学|工程]];统计前者在语料库中作为概念标注的次数为2次,后者为1次;统计前者在语料库中出现的次数为3次,后者为3次,生成LS={数学(T数学,2,3),工程(T工程,1,3)},T数学={(“数学”,2)},T工程={(“工程学”,1)};按照公式(1)计算概念标注概率,结果如下:
Figure GDA0003321205990000151
Figure GDA0003321205990000152
保留结果大于50%的linki生成高频概念标注集合LSH={数学(T数学,2,3)}。
步骤2-2-2)遍历LSH,依次对linki中Ti的每个元素按照公式(2)计算目标概念的标注概率Pt(targeti,j);保留标注概率大于90%的目标概念(target),生成高频目标概念集合,记为LSHC={(linki,targeti,j),...},将集合的各个元素按照linki中含有的词语数降序排列;
Figure GDA0003321205990000153
本发明实施例中,以步骤2-2-1)的示例为例。遍历LSH={数学(T数学,2,3)},对T数学={(“数学”,2)}的每个元素按照公式(2)计算目标概念的标注概率,结果如下:
Figure GDA0003321205990000154
保留标注概率大于90%的目标概念,生成高频概念集合LSHC={(“数学”,“数学”)}。
步骤2-2-3)遍历LSHC,若存在wk=linki,则将wk左右添加五个中括号的概念标记,变为:[[[[[wk]]]]]。
需要说明的是,添加概念标记时会出现相交、包含的情况。处理方式与步骤2-1-3)的处理方式基本一致;不同之处是,为w1和w2添加概念标记时都用五个中括号,变为[[[[[w1]]]]][[[[[w2]]]]]。
本发明实施例中,以步骤2-2-1)的示例为例。遍历LSHC={(“数学”,“数学”)},在语料库中共找到1处未加标记的“数学”,添加标记后示例变为:
<doc id="13"title="数学">
<h1>[[[数学]]]</h1>
今日,[[[数学]]]使用在不同的领域中,包括[[工程学|工程]]等。
</doc>
<doc id="51481866"title="工程师">
工程师则遵照工程既定原则,从而在[[[[[数学]]]]]和科学上,解决了一些技术问题。通常只有在专业工程考试取得合格才可被称为工程师。
</doc>
步骤103,训练概念向量。
根据Wikipedia概念语料库,训练概念向量,具体为:
步骤3-1)依次对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库。
需要说明的是,目标概念所对应的文档ID由Python的Wikipedia库获取。
本发明实施例中,以“今日,[[[数学]]]使用在不同的领域中,包括[[工程学|工程]]等”的处理为例。使用Wikipedia Tool获取“数学”的文档ID为13,“工程学”的文档ID为2218,将ID与目标概念连接并去掉中括号后变为:“今日,13_数学使用在不同的领域中,包括2218_工程学等”。
步骤3-2)使用概念语料库训练概念向量。
训练得到的概念向量文件包含两种数据:一是传统的词向量,二是概念向量。比如:“领域”和“13_数学”,前者是传统的标准词向量的索引,而后者是本发明专利提出的概念向量的索引。后续步骤对概念向量的查询和计算,均指对后者进行操作处理,不涉及前者。
本发明实施例中使用gensim工具包中的word2vec模型训练概念向量,向量的维数是300,最低词频是100,训练算法是Skip-gram,其他训练参数均使用默认值。
步骤104,获取待比较词语对的概念集合。
对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合,具体为:
步骤4-1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的概念集合;
本发明实施例中,以收集词语对(“苹果”,“电脑”)的概念集合为例。“汉朝”在Wikipedia中是一个正常页面,因此Normal是“苹果”,Redirect和Disambig都为空。页面中<hatenote>部分包含有歧义的热点文本,因此HatenoteLinkDisambig为“苹果(消歧义)”,查找“苹果(消歧义)”页面中的概念,HatenoteLinkDisambigItems为“苹果公司”、“苹果(电影)”等;不包含非歧义的热点文本,因此HatenoteLinkItems为空。同理可得,“电脑”的各个层次概念,Normal:空,Redirect:“电子计算机”,Disambig:空,HatenoteLinkItems:“个人电脑”、“家用电脑”,HatenoteLinkDisambigItems:“机械计算机”、“电子计算机”、“电子学”、“计算器”、“个人电脑”、“家用电脑”、“计算机(杂志)”、“计算器(应用程序)”。
步骤4-2)由用户指定概念获取层次,构建概念集合。
本发明实施例中,以收集词语对(“苹果”,“电脑”)的概念集合为例。根据步骤4-1)实施例的结果,假设用户指定的层次为:Normal_Redirect_Disambig_HatenoteLinkItems_Hatenot eLinkDisambigItems,因此“苹果”的概念集合为C苹果={"苹果","苹果(电影)"},“电脑”的概念集合为C电脑={"电子计算机","个人电脑","家用电脑","机械计算机","电子学","计算器","计算机(杂志)","计算器(应用程序)"}。
需要说明的是,用户可指定的层次如下所示:
a)Normal:只查找正常页面的Title;否则,返回None;
b)Normal_Redirect:只查找正常页面的Title或重定向页的RedirectTitle;若查找失败,则返回None;
c)Normal_Redirect_Disambig:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems;若查找失败,则返回None;
d)Normal_Redirect_HatenoteLinkItem:查找正常页面的Title或重定向页的RedirectTitle,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;
e)Normal_Redirect_Disambig_HatenoteLinkItems:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;
f)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems:在Normal_Redirect_Disambig_HatenoteLinkItems的基础上,再增加HatenoteLinkItems所对应的可能DisambigItems;若查找失败,则返回None;
上面用到的符号释义:
Title:当wi所对应的Wikipedia页是一个正常页面(非消歧页,非重定向页)时,其对应概念就是Title;
RedirectTitle:当wi所对应的Wikipedia页是一个重定向页时,RedirectTitle是wi所对应的最终重定向页面的Title;
DisambigItems:当wi所对应的Wikipedia页是一个消歧页时,DisambigItems是消歧页所包含的可能的概念(不计与Title重复的);
HatenoteLinkItems:在Title对应的Wikipedia页面的开始部分的<hatenote>部分中,非歧义的热点文本;
HatenoteLinkDisambig:在Title对应的Wikipedia页面的开始部分的<hatenote>部分中,有歧义的热点文本;
HatenoteLinkDisambigItems:依次对HatenoteLinkDisambig各个消歧页提取有可能的概念(不计与Title重复的);
步骤105,计算各个概念对的概念向量相似度并选取最大值作为词语相关度。
取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度,具体为:
步骤5-1)待比较词语对为(w1,w2),w1的概念集合
Figure GDA0003321205990000181
和w2的概念集合
Figure GDA0003321205990000182
根据步骤103得到的概念向量文件,查询
Figure GDA0003321205990000183
Figure GDA0003321205990000184
中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除。
本发明实施例中,以词语对(“苹果”,“电脑”)的处理为例。由步骤4-2)得到C苹果和C电脑;以查询C苹果中“苹果”的概念向量为例,查询“苹果”的文档ID为7850,概念索引为“7850_苹果”,从概念向量文件查找,得到“苹果”的概念向量;同理,查询C苹果和C电脑中各个概念的概念向量;剔除查询失败的概念后,C苹果={"苹果","苹果公司"},C电脑={"电子计算机","个人电脑","电子学"}。
步骤5-2)根据步骤5-1)处理过的
Figure GDA0003321205990000185
Figure GDA0003321205990000186
计算它们的笛卡尔积得待计算概念集合,记作
Figure GDA0003321205990000187
本发明实施例中,以词语对(“苹果”,“电脑”)的处理为例,由步骤5-1)得,“苹果”的概念集合C苹果={"苹果","苹果公司"},“电脑”的概念集合C电脑={"电子计算机","个人电脑","电子学"};计算C苹果和C电脑的笛卡尔积,可得C苹果,电脑={("苹果","电子计算机"),("苹果","个人电脑"),("苹果","电子学"),("苹果公司","电子计算机"),("苹果公司","个人电脑"),("苹果公司","电子学")}。
步骤5-3)由步骤5-1)和步骤5-2),按照公式(3)计算每个概念对的概念向量相似度,生成候选结果集合;
Figure GDA0003321205990000188
其中
Figure GDA0003321205990000189
Figure GDA00033212059900001810
表示概念ci和cj的概念向量,
Figure GDA00033212059900001811
Figure GDA00033212059900001812
表示向量
Figure GDA00033212059900001813
Figure GDA00033212059900001814
的模。
本发明实施例中,以词语对(“苹果”,“电脑”)的处理为例。由步骤5-1)和步骤5-2)实施例中得C苹果,电脑={("苹果","电子计算机"),("苹果","个人电脑"),("苹果","电子学"),("苹果公司","电子计算机"),("苹果公司","个人电脑"),("苹果公司","电子学")}和各个概念的概念向量。
计算C苹果,电脑中每个概念对的概念向量相似度,结果为:
sim("苹果","电子计算机")=0.269805519448;
sim("苹果","个人电脑")=0.296117064498;
sim("苹果","电子学")=0.325971175002;
sim("苹果公司","电子计算机")=0.434918366673;
sim("苹果公司","个人电脑")=0.587246728589;
sim("苹果公司","电子学")=0.354456579224;
步骤5-4)从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。
本发明实施例中,以词语对(“苹果”,“电脑”)的处理为例。由步骤5-3)实施例得到候选结果集;sim("苹果公司","个人电脑")=0.587246728589的值最大,因此词语对(“苹果”,“电脑”)的相关度为0.587246728589。
通过以上操作步骤,即可完成词语对(“苹果”,“电脑”)的相关度计算工作。
相应地,本发明实施例还提供一种基于Wikipedia概念向量的中文词语相关度计算装置,其结构示意图如图2所示。
在该实施例中,所述装置包括:
Wikipedia基础语料库构建单元201,用于对Wikipedia Dump生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;
Wikipedia概念语料库构建单元202,用于对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;
概念向量训练单元203,用于使用Wikipedia概念语料库,训练概念向量;
概念集合提取单元204,用于对待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;
词语相关度计算单元205,用于取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。
图2所示装置的Wikipedia基础语料库构建单元201的结构示意图如图3所示,其包括:
概念文档提取单元301,用于对Wikipedia Dump生语料提取namespace属性为0的Wikipedia概念文档;
单文档规范化处理单元302,用于对文档内容进行如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用<h#n>标记段落标题;其中,#n={1,2,3...n},代表文档标题的层级,从1到n表示由高到低。
图2所示装置的Wikipedia概念语料库构建单元202的结构示意图如图4所示,其包括:
单文档概念标记扩充单元401,用于根据one sense per discourse假设,对基础语料库中的每篇文档扩充概念标记;
全文档概念标记扩充单元402,用于根据最大频率词义算法,对单文档概念标记扩充单元处理过的基础语料库进一步扩充概念标记。
图2所示装置的概念向量训练单元203的结构示意图如图5所示,其包括:
概念标记单元501,用于对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;
概念向量训练单元502,用于使用概念语料库训练概念向。
图2所示装置的概念集合提取单元204的结构示意图如图6所示,其包括:
初始概念获取单元601,用于获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;
概念层次选择单元602,由用户指定概念获取层次,构建概念集合。
图2所示装置的词语相关度计算单元205的结构示意图如图7所示,其包括:
概念向量查询单元701,用于查询概念集合中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除;
笛卡尔积计算单元702,用于对概念向量查询单元处理的概念集合计算笛卡尔积;
概念向量相似度计算单元703,用于计算概念集合中每个概念对的概念向量相似度,生成候选结果集合;
词语相关度选择单元704,用于从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。
可以将图2~图7所示的基于Wikipedia概念向量的中文词语相关度计算装置集成到各种硬件实体中。比如,可以将基于Wikipedia概念向量的中文词语相关度计算装置集成到:个人电脑、平板电脑、智能手机、工作站等设备之中。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于Wikipedia概念向量的中文词语相关度计算方法存储在各种存储介质上。这些存储介质包括但不局限于:软盘、光盘、硬盘、内存、U盘、CF卡、SM卡等。
综上所述,在本发明实施方式中,由Wikipedia Dump服务站点获取生语料,进行规范化处理,生成Wikipedia基础语料库;进行概念标注扩充,构建Wikipedia概念语料库;根据Wikipedia概念语料库,训练概念向量;对于待比较词语对,根据Wikipedia,获得其词语概念集合;计算概念集合的笛卡尔积中的每个概念对所对应的概念向量的相似度,取最大值作为待比较词语对的相关度。由此可见,应用本发明实施方式之后,实现了基于Wikipedia概念向量的中文词语相关度计算。本发明实施方式通过充分挖掘Wikipedia知识库的概念信息,进行了概念语料的构建和目标概念的查询获取,可在概念层面上进行词语相关度的计算;充分发挥了深度学习的优势,利用词向量技术生成概念向量,能够较为准确地表达概念,避免了传统词向量无法准确区分不同概念的问题;概念索引将上下文信息与概念融合,有利于提高概念向量的准确性。本发明提出的基于Wikipedia概念向量的中文词语相关度计算方法和装置,能够自动完成概念知识库的构建,准确选择词语的概念集合,并计算概念相似度,具有较高的词语相关度计算正确率,改善中文词语相关度的计算效果。
本说明书中的实施例采用递进的方式描述,彼此相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法和装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,故本说明书不应理解为对本发明的限制。

Claims (5)

1.一种基于Wikipedia概念向量的中文词语相关度计算方法,在特征在于,该方法包括以下步骤:
步骤一、由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;具体为:
步骤1-1)访问Wikipedia Dump服务站点,下载最新的zhwiki数据库;
步骤1-2)根据zhwiki数据库依次处理<page>节点,提取ns的值为0的<page>节点,提取该节点中的title、redirect、id和text的内容,同时对text做如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用<h#n>标记段落标题;其中,#n={1,2,3...n},代表文档标题的层级,从1到n表示由高到低;
步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;具体为:
步骤2-1)根据one sense per discourse假设,对基础语料库中的每篇文档进行概念标记扩充,具体为:
将基础语料库中的某一篇文档记作docl,其标题记作titlel,标识记作idl;该篇文档中的某一概念标记的热点文本记作linkl,k,目标概念记作targetl,k;docl中未加概念标记的词语记作wl,i
步骤2-1-1)在docl中,收集<h#n>…</h#n>(#n=1,2,…,n)标签中的词语,作为docl的子标题集合,记作
Figure FDA0003259721360000011
遍历
Figure FDA0003259721360000012
中的元素,若headl,i=titlel,则将原文中headl,i左右加上三个中括号的概念标记,变为:[[[headl,i]]];
步骤2-1-2)在docl中,收集所有概念标记信息,构建概念标记集合,记作
Figure FDA0003259721360000013
按照每个元素中link所包含的词语数量降序排列;
步骤2-1-3)遍历
Figure FDA0003259721360000014
若在docl中存在wl,j=linkl,i,则将wl,j左右添加三个中括号的概念标记,变为:[[[wl,j]]];
步骤2-2)根据最大频率词义算法,对步骤2-1)处理过的基础语料库做进一步的概念标记扩充,具体为:
收集经过步骤2-1)扩充概念的基础语料库中的概念标记信息元组,构建概念标记集合,记作:
Figure FDA0003259721360000021
概念标记信息元组包含热点文本(linki)、目标概念集合(Ti)、热点文本的数量
Figure FDA0003259721360000022
与热点文本一致但未加概念标记的词语的数量
Figure FDA0003259721360000023
统计每个概念标记的目标概念和及其数量得到目标概念元组集合,记作:
Ti={(targeti,1,numi,1),(targeti,2,numi,2),...,(targeti,n,numi,n)};语料库中未加概念标记的词语记作wk
步骤2-2-1)遍历LS,按照公式(1)计算词语的概念标注概率Pl(linki);保留结果大于50%的linki生成高频概念标注集合,记为LSH
Figure FDA0003259721360000024
步骤2-2-2)遍历LSH,依次对linki中Ti的每个元素按照公式(2)计算目标概念的标注概率Pt(targeti,j);保留标注概率大于90%的目标概念(target),生成高频目标概念集合,记为LSHC={(linki,targeti,j),...},将集合的各个元素按照linki中含有的词语数降序排列;
Figure FDA0003259721360000025
步骤2-2-3)遍历LSHC,若存在wk=linki,则将wk左右添加五个中括号的概念标记,变为:[[[[[wk]]]]];
步骤三、根据Wikipedia概念语料库,训练概念向量;
步骤四、对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;
步骤五、取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。
2.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤三中,训练概念向量时,具体为:
步骤3-1)依次对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;
步骤3-2)使用概念语料库训练概念向量。
3.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤四中,获取待比较词语对的概念集合时,具体为:
步骤4-1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;
步骤4-2)由用户指定概念获取层次,构建概念集合;
需要说明的是,用户可指定的层次如下所示:
a)Normal:只查找正常页面的Title;否则,返回None;
b)Normal_Redirect:只查找正常页面的Title或重定向页的RedirectTitle;若查找失败,则返回None;
c)Normal_Redirect_Disambig:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems;若查找失败,则返回None;
d)Normal_Redirect_HatenoteLinkItem:查找正常页面的Title或重定向页的RedirectTitle,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;
e)Normal_Redirect_Disambig_HatenoteLinkItems:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;
f)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems:在Normal_Redirect_Disambig_HatenoteLinkItems的基础上,再增加HatenoteLinkItems所对应的可能DisambigItems;若查找失败,则返回None;
其中的符号释义说明如下:
Title:当wi所对应的Wikipedia页是一个正常页面且非消歧页非重定向页时,其对应概念就是Title;
RedirectTitle:当wi所对应的Wikipedia页是一个重定向页时,RedirectTitle是wi所对应的最终重定向页面的Title;
DisambigItems:当wi所对应的Wikipedia页是一个消歧页时,DisambigItems是消歧页所包含的所有可能的概念,且不计与Title重复的;
HatenoteLinkItems:在Title对应的Wikipedia页面的开始部分的<hatenote>部分中,非歧义的热点文本;
HatenoteLinkDisambig:在Title对应的Wikipedia页面的开始部分的<hatenote>部分中,有歧义的热点文本;
HatenoteLinkDisambigItems:依次对HatenoteLinkDisambig各个消歧页提取有可能的概念,且不计与Title重复的。
4.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤五中,计算各个概念对的概念向量相似度并选取最大值作为词语相关度时,具体为:
步骤5-1)待比较词语对为(w1,w2),w1的概念集合
Figure FDA0003259721360000041
和w2的概念集合
Figure FDA0003259721360000042
根据步骤三得到的概念向量文件,查询
Figure FDA0003259721360000043
Figure FDA0003259721360000044
中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除;
步骤5-2)根据步骤5-1)处理过的
Figure FDA0003259721360000045
Figure FDA0003259721360000046
计算它们的笛卡尔积得待计算概念集合,记作
Figure FDA0003259721360000047
步骤5-3)由步骤5-1)和步骤5-2),按照公式(3)计算每个概念对的概念向量相似度,生成候选结果集合;
Figure FDA0003259721360000051
其中
Figure FDA0003259721360000052
Figure FDA0003259721360000053
表示概念ci和cj的概念向量,
Figure FDA0003259721360000054
Figure FDA0003259721360000055
表示向量
Figure FDA0003259721360000056
Figure FDA0003259721360000057
的模;
步骤5-4)从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。
5.一种基于Wikipedia概念向量的中文词语相关度计算装置,其特征在于,该装置包括Wikipedia基础语料库构建单元、Wikipedia概念语料库构建单元、概念向量训练单元、概念集合提取单元、词语相关度计算单元,分别实现权利要求1-4任意一项所述的一种基于Wikipedia概念向量的中文词语相关度计算方法的步骤一、步骤二、步骤三、步骤四和步骤五。
CN201710707736.6A 2017-08-17 2017-08-17 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 Active CN107491524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710707736.6A CN107491524B (zh) 2017-08-17 2017-08-17 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710707736.6A CN107491524B (zh) 2017-08-17 2017-08-17 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

Publications (2)

Publication Number Publication Date
CN107491524A CN107491524A (zh) 2017-12-19
CN107491524B true CN107491524B (zh) 2022-02-25

Family

ID=60645458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710707736.6A Active CN107491524B (zh) 2017-08-17 2017-08-17 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

Country Status (1)

Country Link
CN (1) CN107491524B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153853B (zh) * 2017-12-22 2022-02-01 齐鲁工业大学 基于Wikipedia链接结构的中文概念向量生成方法和装置
CN109325230B (zh) * 2018-09-21 2021-06-15 广西师范大学 一种基于维基百科双向链接的词语语义相关度判断方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383B (zh) * 2011-10-15 2013-07-31 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN103678499A (zh) * 2013-11-19 2014-03-26 肖冬梅 一种基于多源异构专利数据语义集成的数据挖掘方法
CN104133868B (zh) * 2014-07-21 2018-01-05 厦门大学 一种用于垂直爬虫数据分类整合的策略
US20170161619A1 (en) * 2015-12-08 2017-06-08 International Business Machines Corporation Concept-Based Navigation
CN106372122B (zh) * 2016-08-23 2018-04-10 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
One Sense per Discourse;William A.Gate 等;《HLT" 91:Proceedings of the workshop on Speech and Natural Language》;19920229;233-237 *
基于依存和领域知识的词义消歧方法研究;鹿文鹏;《中国博士学位论文全文数据库 信息科技辑》;20150415(第04期);I138-99 *

Also Published As

Publication number Publication date
CN107491524A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
WO2020233261A1 (zh) 一种基于自然语言生成技术的知识图谱辅助理解系统
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN107436955B (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
Kayed et al. FiVaTech: Page-level web data extraction from template pages
Shigarov et al. Rule-based spreadsheet data transformation from arbitrary to relational tables
Chang et al. A survey of web information extraction systems
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Lu et al. Annotating search results from web databases
Su et al. ODE: Ontology-assisted data extraction
CN111125524B (zh) 基于知识图谱的数据分析与数据推送方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN105677638B (zh) Web信息抽取方法
Sarkhel et al. Visual segmentation for information extraction from heterogeneous visually rich documents
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
Wang et al. Neural related work summarization with a joint context-driven attention mechanism
Ujwal et al. Classification-based adaptive web scraper
CN113190687A (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN108153851B (zh) 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
Vadrevu et al. Information extraction from web pages using presentation regularities and domain knowledge
CN115982390B (zh) 一种产业链构建和迭代扩充开发方法
Pu et al. A vision-based approach for deep web form extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221229

Address after: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee after: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.

Address before: No. 3501, Daxue Road, science and Technology Park, Xincheng University, Jinan, Shandong Province

Patentee before: Qilu University of Technology

Effective date of registration: 20221229

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong Province, 510699

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee before: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.