CN105718445A

CN105718445A - 词与网页的关联度计算方法及装置

Info

Publication number: CN105718445A
Application number: CN201610058722.1A
Authority: CN
Inventors: 刘忠; 陈发君; 黄金才; 朱承; 修保新; 程光权; 陈超; 冯旸赫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2016-06-29
Anticipated expiration: 2036-01-28
Also published as: CN105718445B

Abstract

本发明提供一种词与网页的关联度计算方法及装置，本发明对网页的标题和正文内容进行分词及预处理，使用标题词与正文词构建词连接集合用于计算词的TextRank得分，将TextRank得分作为词与网页的关联度并保存到数据库。该方法采用TextRank得分作为关联度，可有效地反映词与网页的关联关系，将标题的词用于修正基于正文的词构建的词连接集合，并使用修正后的词连接集合计算词的TextRank得分，充分考虑了标题在网页信息中的重要性，有利于提升关联精度。

Description

词与网页的关联度计算方法及装置

技术领域

本发明涉及爬词技术领域，具体的涉及一种词与网页的关联度计算方法及装置。

背景技术

随着互联网的快速发展，每天都有海量新闻资讯产生，这些信息在互联网上以HTML网页文档的形式进行传播。但是海量的信息对用户高效的检索和获取信息带来了极大挑战，各种搜索引擎与推荐系统等应用的出现为其提供了有效的途径，而建立词与网页之间的关联关系是这些应用的基础。词与网页之间的关联关系通过关联度来表示其关联关系的大小，目前词与网页之间的关联度主要以词在网页正文中的TF-IDF(词频-逆向文件频率)值来表示。

现有的以词在网页正文中的TF-IDF值作为文本的关联度计算方法存在以下缺点：1、需要在文本集合上计算，所得结果易受文本集的内容影响；2、IDF(逆文本频度)的简单结构不能有效地反映词的重要程度和分布情况，作为关联度精度不高；3、只考虑了网页正文词的统计信息，忽略了网页标题所包含的与网页最相关的词信息。

发明内容

本发明的目的在于提供一种词与网页的关联度计算方法及装置，该发明解决了现有技术中关联度计算结果易受文本集的内容影响、IDF关联度计算精度不高、忽略网页标题所含信息的技术问题。

本发明的一方面提供一种词与网页的关联度计算方法，包括以下步骤：

步骤S100：读取网页的标题和正文内容，进行分词及词性标注，得到正文词列表bodyList和标题词列表titleList，对正文分词列表bodyList和标题分词列表titleList分别进行过滤预处理；

步骤S200：构建词连接集合linkMap；

步骤S300：根据标题词列表titleList对词连接集合linkMap进行修正，得到修正词连接集合，利用修正词连接集合计算网页中每个词的TextRank得分，得到每个词的得分集合scoreMap，过滤得分集合scoreMap中的常用词，余下的得分集合scoreMap中的词及其TextRank得分，即为词与网页的关联度。

进一步地，词连接集合linkMap的构建包括以下步骤：

步骤S210：初始化队列queue、词连接集合linkMap和窗口大小N，遍历正文词列表bodyList，将第i个词A加入队列queue的尾部，若队列queue的长度大于N，则将队列queue的队首元素删除，若第i个词A不包含于词连接集合linkMap中，则将第i个词A加入词连接集合linkMap中并设置第i个词A的值为空集合；步骤S220：对队列queue中的所有任两元素进行比较，如果二者不相同则分别加入任两词连接集合linkMap的连接词集合中；步骤S230：遍历正文词列表bodyList，重复步骤S210～S220得到词连接集合linkMap。

进一步地，过滤预处理步骤包括过滤停用词，并保留名词、动词、形容词及副词。

进一步地，步骤S300包括以下步骤：

步骤S310：计算词连接集合linkMap中每个词的连接词集合大小的平均值记为M，从词连接集合linkMap中选取前M个连接词集合最大的词构建词集合reviseSet；

步骤S320：遍历标题词列表titleList中的标题词，若标题词不包含于词连接集合linkMap中，则将标题词加入词连接集合linkMap并将词集合reviseSet中的所有词加入到标题词的连接词集合中；

若标题词包含于词连接集合linkMap中，则将词集合reviseSet中除标题词之外的所有词加入标题词的连接词集合中；

步骤S330：遍历reviseSet判断其中每个词是否是标题词，如果该词不是标题词，则将标题词加入该词在词连接集合linkMap中对应的连接词集合；否则，不做处理；

步骤S340：遍历标题词列表titleList，重复步骤S310～330得到修正词连接集合。

进一步地，TextRank得分WS(V_i)的计算公式为：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{w_{j i}}{\underset{V_{k} &Element; O u t (V_{j})}{Σ} w_{j k}} W S (V_{j})

其中，d为阻尼系数，V_i表示词连接集合linkMap中的第i个词，w_ji表示词连接集合linkMap中第i个词与第j个词的连接权重，In(V_i)表示词连接集合linkMap中第i个词的连接词集合，Out(V_j)表示linkMap第j个词的连接词集合，WS(V_j)表示第linkMap中第j个词的TextRank得分。

本发明的另一方面还提供了一种如上述方法用的词与网页的关联度计算装置，包括：

分词预处理模块，用于读取网页的标题和正文内容，进行分词及词性标注，得到正文词列表bodyList和标题词列表titleList，对正文分词列表bodyList和标题分词列表titleList分别进行过滤预处理；

词连接计算模块：用于构建词连接集合linkMap，以键值对形存储，其中键为正文分词列表bodyList中的当前词，值为与当前词有连接关系的连接词集合；

关联度计算模块，用于根据标题词列表titleList对词连接集合linkMap进行修正，得到修正词连接集合，利用修正词连接集合计算网页中每个词的TextRank得分，得到每个词的得分集合scoreMap，过滤得分集合scoreMap中的常用词，余下的得分集合scoreMap中的词及其TextRank得分，即为词与网页的关联度。

进一步地，TextRank得分WS(V_i)的计算公式为：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{w_{j i}}{\underset{V_{k} &Element; O u t (V_{j})}{Σ} w_{j k}} W S (V_{j})

本发明的技术效果：

本发明提供一种词与网页的关联度计算方法，将标题与正文的词信息同时用于关联度计算，并且采用词得分作为关联度的度量，可以提升词与网页关联度的精度，并且对单个网页内容进行直接计算因此不受文本集合内容的影响。

本发明提供一种词与网页的关联度计算装置，采用TextRank得分作为关联度，可有效地反映词与网页的关联关系，将标题的词用于修正基于正文的词构建的词连接集合，并使用修正后的词连接集合计算词的TextRank得分，充分考虑了标题在网页信息中的重要性，有利于提升关联精度。基于单个网页内容计算，使得所得结果不受网页之间内容的影响。

具体请参考根据本发明的词与网页的关联度计算方法及装置提出的各种实施例的如下描述，将使得本发明的上述和其他方面显而易见。

附图说明

图1是本发明优选实施例词与网页的关联度计算方法的流程示意图；

图2是本发明优选实施例词与网页的关联度计算装置的结构示意图。

具体实施方式

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

参见图1，本发明一方面提供了一种词与网页的关联度计算方法，包括以下步骤：

步骤S200：构建词连接集合linkMap；

本文中的常用词是指在一类网页中经常出现的词，这类词对网页不具有区分性,不能作为网页的标识，例如对于体育类新闻网页其中“体育”一词在此类型网页中频繁出现，但并不能将该网页文章与其他体育类文章区分开。通过将此类常用词过滤掉，可减少网页关联的词数量，提高所得网页关联词的精度，有利于后续检索、推荐等对所得结果的二次使用，常用词过滤可采用TF-IDF方法和设置常用词库等常规方法进行。词连接集合linkMap以键值对形存储，其中键为正文分词列表bodyList中的当前词，值为与当前词有连接关系的连接词集合。

本发明的前提是已采用相关技术将网页中的标题与正文分别提取出来，采用常用分词方法对标题和正文分别进行分词、标注词性及预处理，然后基于正文分词结果构建初始词连接集合，对初始词连接集合基于标题分词结果进行修正得到最终的词连接集合，最后使用词连接集合计算词的TextRank得分，以TextRank得分作为词与网页的关联度保存至数据库。通过该方法以TextRank得分作为关联度，可有效反映词与网页的关联关系。将标题的词用于修正基于正文的词构建的词连接集合，并使用修正后的词连接集合计算网页文本中各词的TextRank得分，充分考虑了标题在网页信息中的重要性，有利于提升关联精度，避免关联结果受到文本集的内容影响。基于单个网页内容进行TextRank得分计算，能使所得关联结果不受网页之间内容的影响，提高计算结果的精度。

正文分词列表bodyList中的值为与该词有连接关系的连接词集合以集合Set形式存储。例如当前词A的连接词是指该当前词A出现位置N-邻域内的词，即当前词A前后N个相邻近的词。得分集合scoreMap以键值对形式存储，其中键为词，值为该词对应的TextRank得分。

优选的，过滤预处理步骤包括过滤停用词，并保留名词、动词、形容词及副词。此处的停用词如“由于”、“的确”等词。过滤预处理只保留名词、动词、形容词及副词，可以降低词连接集合的大小有利于提升计算速度，去除停用词等对文本内容没有实质意义的词可看做去噪的过程，有利于提升文本中名词等有实际意义的实词的TextRank得分的精度。

在实施案例中采用N-最短路径进行分词，采用隐马尔科夫模型进行词性标注；

优选的，词连接集合linkMap的构建包括以下步骤：

步骤S210：初始化队列queue、词连接集合linkMap和窗口大小N，遍历正文词列表bodyList，将第i个词A加入队列queue的尾部，若队列queue的大小大于N，则将队列queue的队首元素删除，若第i个词A不包含于词连接集合linkMap中，则将第i个词A加入词连接集合linkMap中并设置第i个词A的值为空集合；

步骤S220：对队列queue中的所有任两元素进行比较，如果二者不相同则分别加入任两词连接集合linkMap的连接词集合中；

步骤S230：遍历正文词列表bodyList，重复步骤S210～S220得到linkMap。

采用正文词初始化词连接集合linkMap，是后面采用标题词进行修正以及计算词的TextRank得分的基础。

例如设为任一元素为w1，另一元素为w2，若任一元素w1不同于另一元素w2，则将另一元素w2加入linkMap(w1)的连接词集合中，将任一元素w1加入linkMap(w2)的连接词集合中；在实施中窗口大小N取5。

优选的，步骤S300包括以下步骤：

步骤S320：遍历标题词列表titleList中的标题词，若标题词不包含于词连接集合linkMap中，则将标题词加入词连接集合linkMap并将词集合设置其值为reviseSet中的所有词加入到标题词的连接词集合中；

此处的前M个连接词集合中集合最大的词是指：词连接集合linkMap中对应key的每个词都有一个连接词集合，按照连接词集合大小从大到小排序取前M个连接词即为此处的M个连接词集合最大的词。

比如对于标题词A，假设reviseSet＝{B，C}；

在S320步骤中若标题词A不包含于词连接集合linkMap中则将A加入词连接集合linkMap并设置linkMap(A)＝{B,C}，即标题词A的连接词为B、C，对应的标题词A也应该成为B、C的连接词，因此在步骤S330中需要更新词连接集合linkMap中B、C对应的连接词集合，假设linkMap(B)＝{D}，linkMap(C)＝{E}，则将标题词A加入词集合reviseSet中除标题词A之外的其他词(即为B、C)对应词连接集合linkMap中该词的连接词集合(即为linkMap(B)和linkMap(C))，更新后linkMap(B)＝{A，D}，linkMap(C)＝{A，E}。

例如标题词列表titleList中的第j个标题词B，若B不包含于词连接集合linkMap中，则将其加入词连接集合linkMap中并设置其值为reviseSet；如果B包含于词连接集合linkMap中，则将词集合reviseSet中除词B之外的其他所有词加入到linkMap(B)的连接词集合中。将B加入到词集合reviseSet中除词B之外的其他所有词对应linkMap中该词的连接词集合，遍历完毕标题词列表titleList，得到修正后的linkMap。

采用上述步骤将标题词与基于正文词初始化构建的词连接集合linkMap中前M(集合大小平均值)个词建立连接关系，等价于赋予标题词相当于正文词平均水平以上的重要性，考虑了标题词对网页正文内容的贡献，采用修正后的linkMap计算网页词TextRank得分有利于提升与网页内容密切相关的词的TextRank得分。采用修正后的linkMap计算得到的TextRank得分作为词与网页的关联度，有利于提升词与网页的关联准确性和精度。

优选的，TextRank得分WS(V_i)的计算公式为：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{w_{j i}}{\underset{V_{k} &Element; O u t (V_{j})}{Σ} w_{j k}} W S (V_{j}),

TextRank得分的具体计算过程可参见RadaMihalcea和PaulTarau的论文《TextRank:BringingOrderintoTexts》(UntScholarlyWorks,2004:404-411)。

在具体实施例中，阻尼系数d取0.85，词之间的连接权重w_ji取1，即对于任意词i和词j其w_ji＝1进行计算。

参见图2，本发明的另一方面还提供了一种上述方法用词与网页的关联度计算装置，包括：

分词预处理模块100，用于读取网页的标题和正文内容，进行分词及词性标注，得到正文词列表bodyList和标题词列表titleList，对正文分词列表bodyList和标题分词列表titleList分别进行过滤预处理；

词连接计算模块200：用于构建词连接集合linkMap，以键值对形存储，其中键为正文分词列表bodyList中的当前词，值为与当前词有连接关系的连接词集合；

关联度计算模块300，用于根据标题词列表titleList对词连接集合linkMap进行修正，得到修正词连接集合，利用修正词连接集合计算网页中每个词的TextRank得分，得到每个词的得分集合scoreMap，过滤得分集合scoreMap中的常用词，余下的得分集合scoreMap中的词及其TextRank得分，即为词与网页的关联度。

采用该装置将此类常用词过滤掉，可减少网页关联的词数量，提高所得网页关联词的精度，有利于后续检索、推荐等对所得结果的二次使用，常用词过滤可采用TF-IDF方法和设置常用词库等常规方法进行。

本领域技术人员将清楚本发明的范围不限制于以上讨论的示例，有可能对其进行若干改变和修改，而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明，但这样的说明和描述仅是说明或示意性的，而非限制性的。本发明并不限于所公开的实施例。

通过对附图，说明书和权利要求书的研究，在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中，术语“包括”不排除其他步骤或元素，而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。

Claims

1.一种词与网页的关联度计算方法，其特征在于，包括以下步骤：

步骤S100：读取网页的标题和正文内容，进行分词及词性标注，得到正文词列表bodyList和标题词列表titleList，对所述正文分词列表bodyList和所述标题分词列表titleList分别进行过滤预处理；

步骤S200：构建词连接集合linkMap；

步骤S300：根据所述标题词列表titleList对所述词连接集合linkMap进行修正，得到修正词连接集合，利用所述修正词连接集合计算所述网页中每个词的TextRank得分，得到每个词的得分集合scoreMap，过滤所述得分集合scoreMap中的常用词，余下的所述得分集合scoreMap中的词及其TextRank得分，即为词与网页的关联度。

2.根据权利要求1所述的词与网页的关联度计算方法，其特征在于，所述词连接集合linkMap的构建包括以下步骤：

步骤S210：初始化队列queue、词连接集合linkMap和窗口大小N，遍历正文词列表bodyList，将第i个词A加入所述队列queue的尾部，若所述队列queue的长度大于N，则将所述队列queue的队首元素删除，若所述第i个词A不包含于所述词连接集合linkMap中，则将所述第i个词A加入词连接集合linkMap中并设置所述第i个词A的值为空集合；

步骤S220：对所述队列queue中的所有任两元素进行比较，如果二者不相同则分别加入任两所述词连接集合linkMap的连接词集合中；

步骤S230：遍历所述正文词列表bodyList，重复步骤S210～S220得到所述词连接集合linkMap。

3.根据权利要求1所述的词与网页的关联度计算方法，其特征在于，所述过滤预处理步骤包括过滤停用词，并保留名词、动词、形容词及副词。

4.根据权利要求1所述的词与网页的关联度计算方法，其特征在于，步骤S300包括以下步骤：

步骤S310：计算所述词连接集合linkMap中每个词的连接词集合大小的平均值记为M，从所述词连接集合linkMap中选取前M个连接词集合最大的词构建词集合reviseSet；

步骤S320：遍历所述标题词列表titleList中的标题词，若所述标题词不包含于所述词连接集合linkMap中，则将所述标题词加入所述词连接集合linkMap并将所述词集合reviseSet中的所有词加入到所述标题词的连接词集合中；

若所述标题词包含于所述词连接集合linkMap中，则将所述词集合reviseSet中除所述标题词之外的所有词加入所述标题词的连接词集合中；

步骤S330：遍历reviseSet判断其中每个词是否是所述标题词，如果该词不是所述标题词，则将所述标题词加入该词在所述词连接集合linkMap中对应的连接词集合；否则，不做处理；

步骤S340：遍历所述标题词列表titleList，重复步骤S310～330得到修正词连接集合。

5.根据权利要求1所述的词与网页的关联度计算方法，其特征在于，所述TextRank得分WS(V_i)的计算公式为：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{w_{j i}}{\underset{V_{k} &Element; O u t (V_{j})}{Σ} w_{j k}} W S (V_{j})

其中，d为阻尼系数，V_i表示所述词连接集合linkMap中的第i个词，w_ji表示所述词连接集合linkMap中第i个词与第j个词的连接权重，In(V_i)表示所述词连接集合linkMap中第i个词的连接词集合，Out(V_j)表示linkMap第j个词的连接词集合，WS(V_j)表示第linkMap中第j个词的TextRank得分。

6.一种如权利要求1～5中任一项所述方法用的词与网页的关联度计算装置，其特征在于，包括：

7.根据权利要求6所述的词与网页的关联度计算装置，其特征在于，所述TextRank得分WS(V_i)的计算公式为：

W S (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; I n (V_{i})}{Σ} \frac{w_{j i}}{\underset{V_{k} &Element; O u t (V_{j})}{Σ} w_{j k}} W S (V_{j})