CN105279264A

CN105279264A - 一种文档的语义相关度计算方法

Info

Publication number: CN105279264A
Application number: CN201510698539.3A
Authority: CN
Inventors: 郑海涛; 吴文箴; 赵从志
Original assignee: SHENZHEN GIISO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHENZHEN GIISO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2016-01-27
Anticipated expiration: 2035-10-26
Also published as: CN105279264B

Abstract

本发明提供一种文档的语义相关度计算方法，包括数据预处理；建立所述关系数据库中的词语到维基概念向量的映射；输入要进行语义相关度计算的第一文本和第二文本，并分别取所述第一文本和第二文本中所有词对应的维基概念向量；构建层次化的维基目录；分别维基概念向量映射到所述维基目录上构建维基目录向量；通过所述维基目录向量计算所述第一文本和第二文本的语义相关度。本发明提供的文档的语义相关度计算方法基于维基概念和目录的文本语义相关度的计算框架，同时考虑在不同抽象程度上的语义相关性，并有机结合起来，提升语义相关度计算的精度，同时提供良好的人机交互机制和调度策略。

Description

一种文档的语义相关度计算方法

技术领域

本发明涉及信息检索领域，特别涉及一种文档的语义相关度计算方法。

背景技术

社交媒体和移动互联网的迅速发展，让包括文本信息在内的信息资源大量产生并不断加速地累积。文本信息能通过自然语言来表示和传递，是人类知识的主要载体，也是人类交流的主要媒介。然而，信息的快速产生和海量累积，使得花费人力去读取和处理变得越来越困难。很多场景下这种工作已变得不现实，比如网页检索，文本的归类等。利用机器帮助人们更加快速且有效地处理这些信息，成为学术界和工业界的一个挑战。信息检索、机器翻译、自动问答系统以及实体连接等技术，都是属于这方面的努力。

语义相关的度量即是对给定的一对词语或文本，从内容上判定它们之间在不同角度上的总体相关程度。文本的语义相关度计算是广泛应用于人工智能、自然语言处理、计算语言学领域的一类技术。它是指赋予给定的词语对或文本对特定的数值，使之与人类判定其相关性的程度相匹配。由于人类理解文本的语义时，依赖于跟其知识背景和经历有关的大量语境，因而长期以来，使用机器来处理自然语言的数据，需要借助大量的常识和领域相关的知识。人类去完成这种任务时，会去感知文本所描述或指定的事物，并评估事物之间的关系的密切程度。而计算机本身并不具有知识推理和关联事物的能力，因此语义相关度的计算需要将文本与隐式或显式的语义信息关联起来。隐式语义信息即从大量文本中基于词的共现统计而计算出来词语的主题表达，而显式语义信息是指由人类编辑维护的知识库，比如维基百科的内容。

文本的语义相关度计算是属于自然语言处理的子领域，在已有研究中采用的方法可以分为以下几种类型：

1)基于词袋的方法：将文本视为一个无序的词袋并构建由词语组成的向量，它对短文本尤其是一义多词的情况有明显的缺陷。

2)基于词典或本体的方法：将文本中的词语映射到WordNet或其它领域本体上，以词语之间的邻近度和连接度来衡量语义相关性。

3)基于统计的方法：本质上是利用未标注的语料库中的词共现信息对词语-文档矩阵进行降维，抽取出话题结构，再用主题向量来计算语义相关度。

4)基于维基百科的方法：这一类方法是将文本或词语映射到维基百科的概念，映射方法有直接匹配或利用检索技术反向索引到概念。在此基础上，还有许多研究工作利用了概念间的连接关系和目录结构信息。

近年来语义相关度的度量也是国内文本挖掘领域的热点之一。西北工业大学提出了一种基于查询结果的语义相关度计算方法，首先使用检索系统对词进行检索，利用检索得到的网页集合向量和内容信息所构成的向量分别来计算词之间的搜索结果相关度和内容相关度，最后，将两种相关度综合得到词之间最终的语义相关度。华中师范大学提出一种基于相关词语语义分析的全文检索系统，对传统互联网搜索引擎的改进，能够对文档进行基于相关词语的概念语义分析和基于相关词语的主题语义分析，从而使用户可得到更准确全面的查询结果。东北师范大学提了一种基于语义的文本相似度计算方法，解决常规的文本向量空间模型及余弦相似度无法进行语义相关判断的问题。

现有的语义相关度计算技术中都存在以下问题：

第一、依赖于事先构建的词典和领域知识库。词典和领域知识库的构建需要耗费大量的时间和人力，更重要的是，词典所涵盖的信息的范围并不大，只包括特定领域的词汇，知识库就更不完善。基于搜索引擎进行相关度计算方法依赖于外部搜索引擎的返回结果，不能保证系统输出的稳定性，也不支持大量文本集的离线计算。

第二、传统的基于词袋模型的方法虽然原理和实现简单，但对于短文本，以及文本中存在显著的一词多义或一义多词的情况下表现会变得低下。

第三、使用LSA，PLSI和LDA等话题模型用于文档集中提取话题，组成词汇的分布向量来计算语义相关度。这一类方法的局限在于对语料库的依赖，即被考察语义相关度的文本的相近领域的文档集，用以学习词汇的话题分布。而通常在现实的应用场景中，这种的语料库并不是现成的，或者是需要耗费一定的人力去整理组织。

第四、由于维基百科概念文章数目的大量增长，越来越多针对具体的主题的不同概念在显式语义分析中会被映射，它们同时出现在文本的表征向量中，但由于显式语义分析对概念文章之间的相似关系不做考虑，在语义相关度计算中这两篇概念文章会作为单独的向量元素参与计算。从而丢失了这部分语义信息，造成系统输出精度的下降

因此，基于以上要点，有必要提出一种方法将显式语义分析的文本表征向量映射到维基目录上从而构建相应的基于目录的表征向量。

发明内容

针对以上问题，本发明专利目的在于设计了一种文档的语义相关度计算方法,基于维基概念和目录的文本语义相关度的计算框架，同时考虑在不同抽象程度上的语义相关性，并有机结合起来，提升语义相关度计算的精度，同时提供良好的人机交互机制和调度策略。

在众多语义相关度计算方法中，综合起来，基于维基百科的显式语义分析是一种比较有优势的方法。首先，它所基于的语料集的互联网上最大的百科全书，覆盖的主题范围大且针对新实体新概念不断增加和更新内容，从而增强了对进行评估的文本所属领域的适应性。同时，维基百科有规范的编辑和审核的管理，保证了内容的准确性及对条目主题的一致性。其次维基百科的数据对所有互联网用户开放，相对于其它的基于词典和领域知识库的方法，它不需要额外的人工去构建词典或知识库，对工程上的使用更加方便。另外，它采用信息检索的TF-IDF算法将文本内容映射到维基百科概念文章组成的向量，提供了一种具有显式语义的文本表征方式，通过比较向量来完成文本语义相关度的计算，计算方法简单且计算成本更低。事实上，在多个语义相关度的研究中，显式语义分析方法取得较好甚至最好的表现。

本发明是通过以下技术方案实现的：

一种文档的语义相关度计算方法，包括：

数据预处理，获取维基全文备份数据信息并提取维基全文的内容及关键字段储存于关系数据库中；

建立所述关系数据库中的词语到维基概念向量的映射，并存放在数据表中；

输入要进行语义相关度计算的第一文本和第二文本，并对所述第一文本和第二文本进行分词，通过访问所述数据表获取每个词对应的维基概念向量，分别取所述第一文本和第二文本中所有词对应的维基概念向量的平均值作为其对应的维基概念向量；

构建层次化的维基目录；

分别将所述第一文本和第二文本对应的维基概念向量映射到所述维基目录上，构建维基目录向量；

通过所述维基目录向量计算所述第一文本和第二文本的语义相关度。

进一步，本发明所述数据预处理，获取维基全文备份数据信息并提取文件中的内容及关键字段储存于关系数据库中，进一步包括：

从维基全文备份数据信息中抽取出概念的全文信息和目录信息；

对维基概念的正文进行词干化并进行反向索引，存放于数据表中。

进一步，本发明所述构建层次化的维基目录，进一步包括：

去除大量的维基数据库管理相关的维基目录；

以目录页面分类作为根结点，同时也作为第一层次，以队列数据结构来先装载进第一层次，依次装载队列中每个目录的直接子结点，形成下一层次，存放到相应层次中，直到遍历完所有的目录。

进一步，本发明所述分别将所述第一文本和第二文本对应的维基概念向量映射到所述维基目录上，进一步包括：

映射的过程考虑因素包括初始向量中元素的权重、目录的层次和目录的大小。

进一步，本发明所述通过所述维基目录向量计算所述第一文本和第二文本的语义相关度，进一步包括：

计算所述维基目录向量的余弦相似度作为衡量所述第一文本和第二文本之间的语义相关度分值。

本发明还提供一种文档的语义相关度计算系统，包括：

数据预处理模块，用于获取维基全文备份数据信息并提取维基全文的内容及关键字段储存于关系数据库中；

维基概念映射模块，用于建立所述关系数据库中的词语到维基概念向量的映射，并存放在数据表中；

维基目录构建模块，用于构建层次化的维基目录；

维基目录映射模块，用于将文本对应的维基概念向量映射到所述维基目录上，构建维基目录向量；

相关度计算模块，用于通过所述维基目录向量计算所述文本的语义相关度。

进一步，本发明所述系统进一步包括离线调度模块，所述离线调度模块用于进行离线计算的请求。

进一步，本发明所述相关度计算模块通过计算所述维基目录向量的余弦相似度作为衡量所述文本之间的语义相关度分值。

进一步，本发明根据权利要求6所述的一种文档的语义相关度计算系统，其特征在于，所述维基目录映射模块映射的过程考虑因素包括初始向量中元素的权重、目录的层次和目录的大小。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1是本发明一种文档的语义相关度计算方法的维基百科目录的示例图；

图2是本发明一种文档的语义相关度计算系统的模块图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

本发明提出了一种文档的语义相关度计算方法，包括以下步骤：

步骤(A)：数据预处理，获取维基全文备份数据信息并提取维基全文的内容及关键字段储存于关系数据库中。

具体的，取得维基全文备份数据，并抽取文件中的实际内容及关键字段储存于关系数据库。涉及到以下的过程：

1)从维基dump的xml文件中抽取出概念的全文信息和目录信息；

2)对维基概念的正文进行词干化并用使用全文索引工具ApacheLucene进行反向索引，并存放于数据表中；

3)管理目录的筛选，目录中存在大量的维基数据库管理相关的条目，比如“可能清空的分类”，它们并不提供跟概念文章内容有关的语义信息，预处理时将它们去除。

4)超大目录的筛选，包括大量子结点的目录，比如“在世人物”，它们的子结点之间的相近关系比较弱，预处理时我们将子结点数量大于200的目录去除。预处理完成后，系统的运算过程不再需要访问维基备份数据和索引，所有数据交互统一访问数据库。

步骤(B)：建立所述关系数据库中的词语到维基概念向量的映射，并存放在数据表中。

具体的，对维基百科中概念文章条目的内容进行建立词语到概念文章的反射索引，其中确定映射的概念文章和它们的权重采用了跟信息检索技术中最流行的TF-IDF度量。其次，系统维护一个数据库，保存从词汇到相关维基概念文章向量的映射关系，从而获取一个词语的维基概念文章表征向量只需直接查询数据库相应的数据表，得到一条记录，而无需查询索引再进行向量构造。

词语到维基概念向量的映射关系：vec(t)＝{e₁,e₂,e₃...e_n}，其中e_i代表维基百科中的一篇概念文章，t代表一个词语；

相应的权重e_i.score代表它跟t的相关程度：

e_i.score＝tfidf(t_k,e_i.fulltext)；

TF-IDF存在多种变种，此处词频的定义采用对数标度的词频：

步骤(C)：输入要进行语义相关度计算的第一文本和第二文本，并对所述第一文本和第二文本进行分词，通过访问所述数据表获取每个词对应的维基概念向量，分别取所述第一文本和第二文本中所有词对应的维基概念向量的平均值作为其对应的维基概念向量；

vec(t)即单独一个词语的维基概念表征，而对于一个文本而言，它的表征即其中每个词语(除去停用词)的表征向量的平均值：

v e c (d) = Σ_{t &Element; d} \frac{t f (t)}{| d |} v e c (t);

取所述文本中所有词对应的维基概念向量的平均值作为其对应的维基概念向量。

步骤(D)：构建层次化的维基目录；

具体的，维基百科的所有目录构成一个庞大的非严格层次化的树状结构，请参阅图1。尽管目录是对其后代目录和概念文章的统一归类和抽象，但由于目录结构的非严格层次化，对于一个给定的目录很难衡量它抽象程度，为了使目录结构的抽象结构更清晰、有层次，同时量化目录的抽象层次，我们对原始的目录结构构建出一个层次结构。首先我们以目录“页面分类”作为根结点，同时也作为第一层次。以队列数据结构来先装载进第一层次。依次遍历队列中每个目录的直接子结点，形成下一层次，存放到相应层次中，直到遍历完所有的目录。最后的构建结果，是每个目录都有唯一的一个对应层级。对于同层次目录之间还存在连接的情况，我们保留它们之间的父子目录关系，但赋予它们相同的层级。在每一次形成一个新的层次时，考察新目录结点是否已存在于之前的层次，如果已存在的话说明它的层次已确定，于是就跳过该结点。对于同层次之间存在的目录连接，比如目录A和目录B为同一层次的目录的同时B也从属A，我们将B指向A的目录连接剪枝，并把B的子结点全部归属于B。

首先去除大量的维基数据库管理相关的维基目录，比如“可能清空的分类”，然后以目录“页面分类”作为根结点，同时也作为第一层次。以队列数据结构来先装载进第一层次。依次遍历队列中每个目录的直接子结点，形成下一层次，存放到相应层次中，直到遍历完所有的目录。从而每一个维基目录都有唯一的一个它所归属的层级。

步骤(E)：分别将所述第一文本和第二文本对应的维基概念向量映射到所述维基目录上，构建维基目录向量；

具体的，将显式语义分析的表征向量中的维基文章映射到维基目录。将概念文章或目录的分值向父目录结点映射，最关键的因素在于衡量给定文本关于某个目录的重要性，也即目标向量中各个元素的分值。非正式地，在对目录重要性进行衡量时，需要考虑以下原则：

维基概念表征向量中，关于文本越重要的概念文章，即向量对应元素的分值越大，它所属的目录重要的概率更大。表征向量中有越多的元素对应的概念文章从属于某个目录，这个目录重要性就更大。由于大目录本来被映射到的可能性就比较大，因而在被相同数量和分值的孩子结点映射到的前提下，小目录比大目录更重要。两个目录被相同比例的相同分值的孩子结点映射到，被更多孩子映射到的目录更重要。换言之，原则二和原则三冲突时，优先考虑原则二。

令c为一个目录，e的它的一个孩子结点，设分值传播函数的公式如下：

映射算法的执行，一个关键的问题是要确定将显式语义分析的表征向量映射到目录结构的哪一层。考虑到最终目录向量的维度和概念文章在目录结构上的分布，我们对候选层级的选择有两个依据：

1)由于维基文章在除了第一层以外的每个层次都有分布，选择映射到越靠近根结点的层级，越能涵盖多的概念文章结点。

2)映射生成的目录向量的维度跟即目录统计表中的数值，可以看出，第一、二层都维数太低，本文中不做考虑。

步骤(F)：通过所述维基目录向量计算所述第一文本和第二文本的语义相关度。

具体的，利用系统输出的两个文本的相应的维基目录向量，计算它们的余弦相似度并乘以5，作为它们之间的语义相关度分值，其中0表示完全文本之间相关程度最低，5表示文本之间有最高的相关度。

相应的，本发明还提供一种文档的语义相关度计算系统，请参阅图2，包括：

维基目录构建模块，用于构建层次化的维基目录；

所述系统进一步包括离线调度模块，所述离线调度模块用于进行离线计算的请求。

具体的，对于大规模的文本集，相对于在线接口中提供的文本对的语义相关度度量，实际应用中往往更关注一个文本的最相关的若干个其它文本是哪些。比如在新闻的相关推荐的场景中，系统需要针对一条新闻进行跟它内容相关的其它新闻的推荐。由于对文本集的相关度计算资源成本较高，同时这类型的任务实时性要求不高，因此在计算资源有限的前提下，我们在系统中针对这个需求提供了针对多用户多请求的离线的计算和调度模块。

首先系统维护一个待处理任务的队列，对于一个新的离线的请求，我们需要对请求的接口和参数进行有效性和安全的验证，对于合法的请求，系统将检查计算模块的状态。如果计算模块在忙就将任务置入待处理任务队列，否则启动计算模块对所有文本生成它的表征向量。其中文本的表征向量我们采用了以维基目录构成元素的表征向量，其实现将在下一小节中详细阐述。

根据文本的基于维基目录的表征向量，系统为每一个文本计算它在语义上的若干个相近的邻居文本并排序。这里我们采用的是基于K维树(KD-Tree)的K近邻(KNN)算法。K近邻算法顾名思义，即在数据集中搜索离给定数据点最近的K个数据点，它最常用于有监督型分类算法中决定测试数据的标签。在以新闻推荐为例的语义相关文本推荐场景中，需要对文本集中所有文本的进行最近邻居文本的搜索，两两比较并进行排序在效率上并不可取，在这里我们采用KD-Tree来剪枝问题的搜索空间。KD-Tree是一种分割k维数据空间的数据结构，主要应用于多维空间数据的范围搜索和最近邻搜索。它实质上是在高维空间上的二叉树，所有数据点构成它的节点。每个非叶子节点都必定在某个维度上将数据空间平分为两半，分别包含该维度上数值大于或小于该节点的所有数据点，它有效地对高维空间的搜索路径进行剪枝，显著提升了KNN算法的效率。

具体实施例一：

1)数据库创建。主要的数据表如表1中所示。

表格1系统主要数据表

表名	说明
		termindex	词汇对应的维基概念向量
wikipage	概念文章或目录信息
		categorylinks	概念文章或目录与父目录结点的连接

2)建立词语到维基概念向量的映射，存放在数据表中。从维基百科的备份数据库中取得最新或较新的版本，从dump的xml文件中抽取出概念文章的全文信息和目录链接信息分别存放于表wikipage和表categorylinks中。

3)对维基概念文章的正文进行词干化(对于英文)或分词(对于中文，使用的分词程序是中科院自动分词系统ICTCLAS)并用使用全文索引工具lucene进行反向索引，并存放于数据表termindex中。至此，在维基百科的概念文章出现过的词语都有一个对应的表征向量，其中元素由维基的概念文章及衡量其重要性的分值构成。

4)用户通过界面或在线应用程序接口输入要进行语义相关度计算的两个文本，接受到该请求以后，由于词语是信息表达的最小单位，不同于英文，中文文本的词语间没有分隔符(空格)，因此需要进行词语进行切分。

5)文本分词后的形成一个词语的集合，对其中的每个词语获取它的相应维基概念向量，也即以该词语为参数，从termindex表中查询相应的字段vector，最后将所有词语对应的维基概念向量的平均值作为整个文本对应的维基概念向量。

6)维基目录的筛选和层次化构建。首先去除大量的维基数据库管理相关的维基目录，比如“可能清空的分类”，然后以目录“页面分类”作为根结点，同时也作为第一层次。以队列数据结构来先装载进第一层次。依次遍历队列中每个目录的直接子结点，形成下一层次，存放到相应层次中，直到遍历完所有的目录。从而每一个维基目录都有唯一一个它所归属的层级。

7)将显式语义分析的文本表征向量自下而上映射到维基目录上，从而构建相应的基于维基目录的表征向量。映射的过程会考虑初始向量中元素的权重、目录的层次和目录的大小等因素。本实施例以美国总统奥巴马就职演讲内容为例，我们可以分别得到基于维基概念的部分表征向量(参见表格2)和基于维基目录的部分表征向量(参见表格3)。

表格2奥巴马就职演讲的维基概念向量

维基概念向量	中文释义
		Second inauguration of Barack Obama	奥巴马的第二次就任
Great Depression	大萧条
		Liberalism	自由主义
New Deal	罗斯福新政
		United States federal budget	美国联邦预算
Economics	经济学

Oath of office	椭圆型办公室
		Medicare(United States)	医疗保险(美国)
Health insurance in the United States	美国医疗保险
		Economic democracy	经济民主

表格3奥巴马就职演讲的维基目录向量

目录表征向量	中文释义
		American studies	美国研究
Subfields of political science	政治学子领域
		Political geography	政治地理学
United States federal policy	美国联邦政策
		Political ideologies	政治意识形态
Economy of the United States	美国经济
		Social history of the United States	美国社会史
Member states of the United Nations	联合国成员
		United States economic policy	美国经济政策
History of the United States by topic	美国各州历史

8)利用系统输出的两个文本的相应的维基目录向量，计算它们的余弦相似度并乘以5，作为它们之间的语义相关度分值，其中0表示完全文本之间相关程度最低，5表示文本之间有最高的相关度。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种文档的语义相关度计算方法，其特征在于，包括：

构建层次化的维基目录；

2.根据权利要求1所述的一种文档的语义相关度计算方法，其特征在于，所述数据预处理，获取维基全文备份数据信息并提取文件中的内容及关键字段储存于关系数据库中，进一步包括：

3.根据权利要求1所述的一种文档的语义相关度计算方法，其特征在于，所述构建层次化的维基目录，进一步包括：

去除维基数据库管理相关的维基目录；

4.根据权利要求1所述的一种文档的语义相关度计算方法，其特征在于，所述分别将所述第一文本和第二文本对应的维基概念向量映射到所述维基目录上，进一步包括：

5.根据权利要求1所述的一种文档的语义相关度计算方法，其特征在于，所述通过所述维基目录向量计算所述第一文本和第二文本的语义相关度，进一步包括：

6.一种文档的语义相关度计算系统，其特征在于，包括：

维基目录构建模块，用于构建层次化的维基目录；

7.根据权利要求6所述的一种文档的语义相关度计算系统，其特征在于，所述系统进一步包括离线调度模块，所述离线调度模块用于进行离线计算的请求。

8.根据权利要求6所述的一种文档的语义相关度计算系统，其特征在于，所述相关度计算模块通过计算所述维基目录向量的余弦相似度作为衡量所述文本之间的语义相关度分值。

9.根据权利要求6所述的一种文档的语义相关度计算系统，其特征在于，所述维基目录映射模块映射的过程考虑因素包括初始向量中元素的权重、目录的层次和目录的大小。