CN103744954A

CN103744954A - 一种词关联网模型的构建方法及其构建器

Info

Publication number: CN103744954A
Application number: CN201410003874.2A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 丁志军; 王鹏伟; 何源; 钟明洁
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-01-06
Filing date: 2014-01-06
Publication date: 2014-04-23
Anticipated expiration: 2034-01-06
Also published as: CN103744954B

Abstract

本发明涉及一种词关联度网络模型的构建方法及其构建器，包括如下步骤：1）在预处理时，整个爬虫网页信息的过程为递归进行；2）将抽取的文本内容作为分词模块的输入；3）获得的TF-IDF值作为类代表性，同时过滤常用词；4）计算每篇文章中每两个词之间的词关联度权重；5）对文本资料库中的每两个词的词元关联度做均值计算。构建器包括五个功能模块：爬虫模块；HTML解析模块；正文文本分词模块；TF-IDF模块；词关联网构建模块；本发明可以对用户需求进行分析，挖掘潜在的信息服务，提供智能交互服务，为用户提供进一步的信息服务。

Description

一种词关联网模型的构建方法及其构建器

技术领域

本发明涉及对互联网信息资源的管理与组织，具体涉及对文本特征向量关联度计算算法的设计以及实现该算法的软件模块。

背景技术

随着互联网技术的迅猛发展，网上信息量呈现爆炸式增长。在2010年4月，全球Web页面数目已经超过1万亿，中国的网页数目也超过600亿。信息种类的多样繁杂，极大的丰富了人们的生活。目前人们从网上获取信息的主要方式是浏览器，在浏览器中输入关键词，搜索引擎返回信息列表，供用户查询。返回的信息如何能够更好的满足用户的直接需求和潜在的需求，这就涉及到对用户输入的关键词分析，挖掘出和该关键词关联度大的词，而这些词往往是用户潜在的需求焦点。目前，在筛选海量信息的研究中，基于词关联的信息检索技术也急速发展，而如何动态有效的计算词与词之间的关联度成为了一个热门话题。

发明内容

本发明的目的在于克服现有技术的不足，通过词关联构建器实现一种基于文本特征向量的词关联网构建方法，其输入为互联网海量网页文本内容，通过分词器切割文本词元，计算各个词元的类代表权重和词元间的关联度权重，最后输出这些词元的词关联网模型。该词关联网络模型的主要目标是给出整个互联网中的网页文本资源的信息组织管理方式，有效提炼文本的特征向量，过滤常用词，构建词关联网模型。利用该词关联网模型，可以对用户需求进行分析，挖掘潜在的信息服务，提供智能交互服务，为用户提供进一步的信息服务。

本发明是通过以下技术方案实现的：

一种词关联度网络模型的构建方法，其特征在于，包括如下步骤：

1）在预处理时，选择已预定的URL利用爬虫进行爬取，获取网页URL，对网页信息分析归档，把新发现的有效URL压入待爬取队列，标记已处理的URL。整个爬虫网页信息的过程为递归进行。

2）对已爬取的网页信息内容进行HTML解析，抽取正文文本内容。将抽取的文本内容作为分词模块的输入。

3）通过使用分词器对正文文本进行分词，计算每个词元在该文章中出现的频率（TF），该词元在整个文本资料库的逆向文件频率（IDF），获得的TF-IDF值作为类代表性，同时过滤常用词。

4）计算每篇文章中每两个词之间的词关联度权重，

Relevancy (AB) =

\frac{1}{\sqrt{1 - T (A) * T (A) - T (B) * T (B)}} .

5）对文本资料库中的每两个词的词元关联度做均值计算，权重大小为词关联网模型的边长度（权重越大，边越小，表示词间联系越紧密）。

以上所述的词关联网模型的构建方法，可成为网络信息服务系统中具体实现聚类索引的一个软件模块，能够将海量的网页利用聚类和网页间特征向量关联度组织成索引网，它包括五个功能模块，包括：

爬虫模块，主要实现对互联网网页基本信息的爬取，作为词关联网构建器的基础数据源。

HTML解析模块，主要用于对爬虫模块中的网页采取正文文本的解析和抽取，抽取的正文内容作为词关联网关联度计算的文本资料库。

正文文本分词模块，该模块是对HTML解析模块中获得的网页正文内容进行分词。

TF-IDF模块，该模块对正文文本分词模块获得的分词产生的词元计算其在该文章的代表性，包含计算TF词频(Term Frequency)，IDF反文档频率(InverseDocument Frequency)，TF-IDF以及过滤常用词。

词关联网构建模块，该模块利用TF-IDF模块中的每个词的TF-IDF结果，计算单篇文章中Relevancy=F(T(A),T(B))和整个文本资料库中每两个词的关联度权重，构建词关联度网，Relevancy（词关联权重）为模型的边长。

本发明分析海量网页文本内容，计算词语的文本代表度和任意两个词语共现频率，智能展开多组主题，融合了语义与交互，获得各个词语之间的关联度，最终输出一个词关联网模型。

与现有技术相比，本次发明首先在网络信息处理中提出了使用TF-IDF计算词关联度并构建词关联网模型。该模型对互联网海量网页给出了一个组织管理的方式，能够达成搜索服务中网页信息间的概念模型，为基本的网络信息服务奠定基础。利用所述的词关联网络模型，可以挖掘互联网海量网页之间的内在联系，对关联度较为密切的网页群体构建网页类，是一种网页信息服务归类的呈现模式，利用基于词关联网模型构造的网络信息服务系统可以根据用户需求，提供有效的潜在需求挖掘，为用户提供一整套完善齐备的服务模式，实现智能的信息交互服务。

整个词元关联度构建器是词元关联网模型的中介。词元关联度构建器的主要功能是：利用分词器产生的词元计算每个词元在文章中的出现频率和反文档频率，再利用计算的TF-IDF值计算词元间的Relevancy关联度权值，利用权值关系和大小构建词关联度网络模型。基于词关联度网络模型的网络信息服务平台可以使用词间的关联度进行网页聚类分析，挖掘由词关联产生的网页关联网络模型。随着词的TF-IDF值动态变化和关联度变化，可以实时更新词关联网，进而动态对网页聚类归档，为用户的搜索提供一些列的潜在需求服务。

本发明创新性的提出了词关联网模型，在这里，词关联网模型是建立在海量网页文本的分词结果和TF-IDF资讯检索与资讯探勘的常用加权技术上的一种管理和组织互联网中网页信息联系的模型。词关联网模型是网络信息服务平台提供信息服务的中介，利用本发明的词关联网模型可以对互联网网页很好的进行聚类分析计算，为信息服务平台提供良好的网页类管理，挖掘用户潜在需求，实现网络信息服务的要求和目标。

附图说明

图1网页信息爬取过程架构图。

图2网页信息内容的解析流程图。

图3词关联度算法函数近似图像。

图4本发明词关联网络模型的构建流程示意图。

具体实施方式

以下结合附图对本发明技术方案作进一步说明。

整个词关联网络模型的构建建立在海量网页信息，分词技术，传统的TF-IDF文本资讯检索与资讯探勘的常用加权技术和词元间关联度计算特征函数

Relevancy = \frac{1}{\sqrt{1 - T (A) * T (A) - T (B) * T (B)}} .

词关联网构建器需要构建所有词元的关联度，需要对互联网上的海量网页文本内容进行切词，分析计算词间的关联度。如图4所示，主要涉及的内容如下：

1）在预处理时，选择已预定的URL利用爬虫进行爬取，获取网页URL，对网页信息分析归档，把新发现的有效URL压入待爬取队列，标记已处理的URL。爬取的网页基本信息存入数据库，整个爬虫网页信息的过程为递归进行，如附图1所示：

2）对已爬取的网页信息内容进行HTML解析，抽取正文文本内容。将抽取的文本内容作为分词的输入源。具体解析流程如附图2所示。

3）通过使用分词器对正文文本进行分词，计算每个词元在该文章中出现的频率（TF）和该词元的逆向文件频率（IDF），获得的TF-IDF值作为类代表性，同时过滤常用词。

4）计算一个文本中每个词元间的词关联度权重，对于词元A，使用TF-IDF算法可以得出它对文本的代表度T(A)，同理，词元B得到文本代表度T（B）。则当T(A)和T(B)都取得较大值时，词元A可以一定程度上代表词元B，而T(A)或T(B)任何一个取较小值都将使得A对B的代表度减小。于是便可以得到一个特征函数：

Relevancy=F(T(A),T(B)) (1)

为了消除数量影响，将T(A)和T(B)都归一化到[0,1]区间。根据函数(1)的变化趋势可以大致得到F函数的变化图像，大致如下图3所示。得到权重计算公式

Relevancy = \frac{1}{\sqrt{1 - T (A) * T (A) - T (B) * T (B)}} .

5）在整个文本资料库中对两个词间的关联度做均值权重计算，获得最后的关联度权重。权重大小为词关联网模型的边长度（权重越大，边越小，表示词间联系越紧密）。

6）根据词元间的关联度权重值，构建词关联度网模型。

以上所述的词关联网模型的构建，是网络信息服务系统中具体实现聚类索引的一个软件模块，能够将海量的网页利用聚类和网页间特征向量关联度组织成索引网，它包括：

1）爬虫模块，主要实现对互联网网页基本信息的爬取，作为词关联网构建器的基础数据源。

2）HTML解析模块，主要用于对网页正文主题部分的解析和抽取，抽取的正文内容作为词关联网关联度计算的文本资料库。

3）正文文本分词模块，该模块是对网页正文内容进行分词。

4）TF-IDF模块，该模块对分词产生的词元计算其在该文章的代表性，包含计算TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)，TF-IDF以及过滤常用词。

5）词关联度网构建模块，该模块利用每个词的TF-IDF结果，计算

Relevancy = \frac{1}{\sqrt{1 - T (A) * T (A) - T (B) * T (B)}}

和整个文本资料库中每两个词的关联度均值，构建词关联度网，Relevancy（词关联权重）为模型的边长。至此，词关联网模型构建工作结束。

本发明创新点及有益效果:

1.首次提出词关联网模型。

2.利用词的TF-IDF值计算单篇文章中两个词之间的词关联度值。

3.把两个词在不同文章中的关联度做均值计算，并计算出这两个词在比较庞大的文本资料库中的词关联度。最终用该词关联度构建词关联网，关联度值的大小作为词关联网的连接边长短。

4.该词关联网可以为聚类分析奠定基础，可以为各种信息检索服务提供网页类管理，关键词联想等功能。

Claims

1.一种词关联度网络模型的构建方法，其特征在于，包括如下步骤：

1）在预处理时，选择已预定的URL利用爬虫进行爬取，获取网页URL，对网页信息分析归档，把新发现的有效URL压入待爬取队列，标记已处理的URL。整个爬虫网页信息的过程为递归进行；

2）对已爬取的网页信息内容进行HTML解析，抽取正文文本内容，将抽取的文本内容作为分词模块的输入；

3）通过使用分词器对正文文本进行分词，计算每个词元在该文章中出现的频率（TF），该词元在整个文本资料库的逆向文件频率（IDF），获得的TF-IDF值作为类代表性，同时过滤常用词；

4）计算每篇文章中每两个词之间的词关联度权重，

Relevancy (AB) =

\frac{1}{\sqrt{1 - T (A) * T (A) - T (B) * T (B)}};

5）对文本资料库中的每两个词的词元关联度做均值计算，权重大小为词关联网模型的边长度，权重越大，边越小，表示词间联系越紧密。

2.一种词关联网模型的构建器，其特征在于，包括：

爬虫模块，实现对互联网网页基本信息的爬取，作为词关联网构建器的基础数据源；

HTML解析模块，用于对爬虫模块中的网页采取正文文本的解析和抽取，抽取的正文内容作为词关联网关联度计算的文本资料库；

正文文本分词模块，该模块是对HTML解析模块中获得的网页正文内容进行分词；

TF-IDF模块，该模块对正文文本分词模块获得的分词产生的词元计算其在该文章的代表性，包含计算TF词频，IDF反文档频率，TF-IDF以及过滤常用词；

词关联网构建模块，该模块利用TF-IDF模块中的每个词的TF-IDF结果，计算单篇文章中Relevancy=F(T(A),T(B))和整个文本资料库中每两个词的关联度权重，构建词关联度网，Relevancy词关联权重为模型的边长。