CN103744954A - 一种词关联网模型的构建方法及其构建器 - Google Patents

一种词关联网模型的构建方法及其构建器 Download PDF

Info

Publication number
CN103744954A
CN103744954A CN201410003874.2A CN201410003874A CN103744954A CN 103744954 A CN103744954 A CN 103744954A CN 201410003874 A CN201410003874 A CN 201410003874A CN 103744954 A CN103744954 A CN 103744954A
Authority
CN
China
Prior art keywords
word
module
association
idf
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410003874.2A
Other languages
English (en)
Other versions
CN103744954B (zh
Inventor
蒋昌俊
陈闳中
闫春钢
丁志军
王鹏伟
何源
钟明洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201410003874.2A priority Critical patent/CN103744954B/zh
Publication of CN103744954A publication Critical patent/CN103744954A/zh
Application granted granted Critical
Publication of CN103744954B publication Critical patent/CN103744954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种词关联度网络模型的构建方法及其构建器,包括如下步骤:1)在预处理时,整个爬虫网页信息的过程为递归进行;2)将抽取的文本内容作为分词模块的输入;3)获得的TF-IDF值作为类代表性,同时过滤常用词;4)计算每篇文章中每两个词之间的词关联度权重;5)对文本资料库中的每两个词的词元关联度做均值计算。构建器包括五个功能模块:爬虫模块;HTML解析模块;正文文本分词模块;TF-IDF模块;词关联网构建模块;本发明可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。

Description

一种词关联网模型的构建方法及其构建器
技术领域
本发明涉及对互联网信息资源的管理与组织,具体涉及对文本特征向量关联度计算算法的设计以及实现该算法的软件模块。
背景技术
随着互联网技术的迅猛发展,网上信息量呈现爆炸式增长。在2010年4月,全球Web页面数目已经超过1万亿,中国的网页数目也超过600亿。信息种类的多样繁杂,极大的丰富了人们的生活。目前人们从网上获取信息的主要方式是浏览器,在浏览器中输入关键词,搜索引擎返回信息列表,供用户查询。返回的信息如何能够更好的满足用户的直接需求和潜在的需求,这就涉及到对用户输入的关键词分析,挖掘出和该关键词关联度大的词,而这些词往往是用户潜在的需求焦点。目前,在筛选海量信息的研究中,基于词关联的信息检索技术也急速发展,而如何动态有效的计算词与词之间的关联度成为了一个热门话题。
发明内容
本发明的目的在于克服现有技术的不足,通过词关联构建器实现一种基于文本特征向量的词关联网构建方法,其输入为互联网海量网页文本内容,通过分词器切割文本词元,计算各个词元的类代表权重和词元间的关联度权重,最后输出这些词元的词关联网模型。该词关联网络模型的主要目标是给出整个互联网中的网页文本资源的信息组织管理方式,有效提炼文本的特征向量,过滤常用词,构建词关联网模型。利用该词关联网模型,可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。
本发明是通过以下技术方案实现的:
一种词关联度网络模型的构建方法,其特征在于,包括如下步骤:
1)在预处理时,选择已预定的URL利用爬虫进行爬取,获取网页URL,对网页信息分析归档,把新发现的有效URL压入待爬取队列,标记已处理的URL。整个爬虫网页信息的过程为递归进行。
2)对已爬取的网页信息内容进行HTML解析,抽取正文文本内容。将抽取的文本内容作为分词模块的输入。
3)通过使用分词器对正文文本进行分词,计算每个词元在该文章中出现的频率(TF),该词元在整个文本资料库的逆向文件频率(IDF),获得的TF-IDF值作为类代表性,同时过滤常用词。
4)计算每篇文章中每两个词之间的词关联度权重, Relevancy ( AB ) = 1 1 - T ( A ) * T ( A ) - T ( B ) * T ( B ) .
5)对文本资料库中的每两个词的词元关联度做均值计算,权重大小为词关联网模型的边长度(权重越大,边越小,表示词间联系越紧密)。
以上所述的词关联网模型的构建方法,可成为网络信息服务系统中具体实现聚类索引的一个软件模块,能够将海量的网页利用聚类和网页间特征向量关联度组织成索引网,它包括五个功能模块,包括:
爬虫模块,主要实现对互联网网页基本信息的爬取,作为词关联网构建器的基础数据源。
HTML解析模块,主要用于对爬虫模块中的网页采取正文文本的解析和抽取,抽取的正文内容作为词关联网关联度计算的文本资料库。
正文文本分词模块,该模块是对HTML解析模块中获得的网页正文内容进行分词。
TF-IDF模块,该模块对正文文本分词模块获得的分词产生的词元计算其在该文章的代表性,包含计算TF词频(Term Frequency),IDF反文档频率(InverseDocument Frequency),TF-IDF以及过滤常用词。
词关联网构建模块,该模块利用TF-IDF模块中的每个词的TF-IDF结果,计算单篇文章中Relevancy=F(T(A),T(B))和整个文本资料库中每两个词的关联度权重,构建词关联度网,Relevancy(词关联权重)为模型的边长。
本发明分析海量网页文本内容,计算词语的文本代表度和任意两个词语共现频率,智能展开多组主题,融合了语义与交互,获得各个词语之间的关联度,最终输出一个词关联网模型。
与现有技术相比,本次发明首先在网络信息处理中提出了使用TF-IDF计算词关联度并构建词关联网模型。该模型对互联网海量网页给出了一个组织管理的方式,能够达成搜索服务中网页信息间的概念模型,为基本的网络信息服务奠定基础。利用所述的词关联网络模型,可以挖掘互联网海量网页之间的内在联系,对关联度较为密切的网页群体构建网页类,是一种网页信息服务归类的呈现模式,利用基于词关联网模型构造的网络信息服务系统可以根据用户需求,提供有效的潜在需求挖掘,为用户提供一整套完善齐备的服务模式,实现智能的信息交互服务。
整个词元关联度构建器是词元关联网模型的中介。词元关联度构建器的主要功能是:利用分词器产生的词元计算每个词元在文章中的出现频率和反文档频率,再利用计算的TF-IDF值计算词元间的Relevancy关联度权值,利用权值关系和大小构建词关联度网络模型。基于词关联度网络模型的网络信息服务平台可以使用词间的关联度进行网页聚类分析,挖掘由词关联产生的网页关联网络模型。随着词的TF-IDF值动态变化和关联度变化,可以实时更新词关联网,进而动态对网页聚类归档,为用户的搜索提供一些列的潜在需求服务。
本发明创新性的提出了词关联网模型,在这里,词关联网模型是建立在海量网页文本的分词结果和TF-IDF资讯检索与资讯探勘的常用加权技术上的一种管理和组织互联网中网页信息联系的模型。词关联网模型是网络信息服务平台提供信息服务的中介,利用本发明的词关联网模型可以对互联网网页很好的进行聚类分析计算,为信息服务平台提供良好的网页类管理,挖掘用户潜在需求,实现网络信息服务的要求和目标。
附图说明
图1网页信息爬取过程架构图。
图2网页信息内容的解析流程图。
图3词关联度算法函数近似图像。
图4本发明词关联网络模型的构建流程示意图。
具体实施方式
以下结合附图对本发明技术方案作进一步说明。
整个词关联网络模型的构建建立在海量网页信息,分词技术,传统的TF-IDF文本资讯检索与资讯探勘的常用加权技术和词元间关联度计算特征函数 Relevancy = 1 1 - T ( A ) * T ( A ) - T ( B ) * T ( B ) .
词关联网构建器需要构建所有词元的关联度,需要对互联网上的海量网页文本内容进行切词,分析计算词间的关联度。如图4所示,主要涉及的内容如下:
1)在预处理时,选择已预定的URL利用爬虫进行爬取,获取网页URL,对网页信息分析归档,把新发现的有效URL压入待爬取队列,标记已处理的URL。爬取的网页基本信息存入数据库,整个爬虫网页信息的过程为递归进行,如附图1所示:
2)对已爬取的网页信息内容进行HTML解析,抽取正文文本内容。将抽取的文本内容作为分词的输入源。具体解析流程如附图2所示。
3)通过使用分词器对正文文本进行分词,计算每个词元在该文章中出现的频率(TF)和该词元的逆向文件频率(IDF),获得的TF-IDF值作为类代表性,同时过滤常用词。
4)计算一个文本中每个词元间的词关联度权重,对于词元A,使用TF-IDF算法可以得出它对文本的代表度T(A),同理,词元B得到文本代表度T(B)。则当T(A)和T(B)都取得较大值时,词元A可以一定程度上代表词元B,而T(A)或T(B)任何一个取较小值都将使得A对B的代表度减小。于是便可以得到一个特征函数:
Relevancy=F(T(A),T(B))    (1)
为了消除数量影响,将T(A)和T(B)都归一化到[0,1]区间。根据函数(1)的变化趋势可以大致得到F函数的变化图像,大致如下图3所示。得到权重计算公式 Relevancy = 1 1 - T ( A ) * T ( A ) - T ( B ) * T ( B ) .
5)在整个文本资料库中对两个词间的关联度做均值权重计算,获得最后的关联度权重。权重大小为词关联网模型的边长度(权重越大,边越小,表示词间联系越紧密)。
6)根据词元间的关联度权重值,构建词关联度网模型。
以上所述的词关联网模型的构建,是网络信息服务系统中具体实现聚类索引的一个软件模块,能够将海量的网页利用聚类和网页间特征向量关联度组织成索引网,它包括:
1)爬虫模块,主要实现对互联网网页基本信息的爬取,作为词关联网构建器的基础数据源。
2)HTML解析模块,主要用于对网页正文主题部分的解析和抽取,抽取的正文内容作为词关联网关联度计算的文本资料库。
3)正文文本分词模块,该模块是对网页正文内容进行分词。
4)TF-IDF模块,该模块对分词产生的词元计算其在该文章的代表性,包含计算TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency),TF-IDF以及过滤常用词。
5)词关联度网构建模块,该模块利用每个词的TF-IDF结果,计算 Relevancy = 1 1 - T ( A ) * T ( A ) - T ( B ) * T ( B ) 和整个文本资料库中每两个词的关联度均值,构建词关联度网,Relevancy(词关联权重)为模型的边长。至此,词关联网模型构建工作结束。
本发明创新点及有益效果:
1.首次提出词关联网模型。
2.利用词的TF-IDF值计算单篇文章中两个词之间的词关联度值。
3.把两个词在不同文章中的关联度做均值计算,并计算出这两个词在比较庞大的文本资料库中的词关联度。最终用该词关联度构建词关联网,关联度值的大小作为词关联网的连接边长短。
4.该词关联网可以为聚类分析奠定基础,可以为各种信息检索服务提供网页类管理,关键词联想等功能。

Claims (2)

1.一种词关联度网络模型的构建方法,其特征在于,包括如下步骤:
1)在预处理时,选择已预定的URL利用爬虫进行爬取,获取网页URL,对网页信息分析归档,把新发现的有效URL压入待爬取队列,标记已处理的URL。整个爬虫网页信息的过程为递归进行;
2)对已爬取的网页信息内容进行HTML解析,抽取正文文本内容,将抽取的文本内容作为分词模块的输入;
3)通过使用分词器对正文文本进行分词,计算每个词元在该文章中出现的频率(TF),该词元在整个文本资料库的逆向文件频率(IDF),获得的TF-IDF值作为类代表性,同时过滤常用词;
4)计算每篇文章中每两个词之间的词关联度权重, Relevancy ( AB ) = 1 1 - T ( A ) * T ( A ) - T ( B ) * T ( B ) ;
5)对文本资料库中的每两个词的词元关联度做均值计算,权重大小为词关联网模型的边长度,权重越大,边越小,表示词间联系越紧密。
2.一种词关联网模型的构建器,其特征在于,包括:
爬虫模块,实现对互联网网页基本信息的爬取,作为词关联网构建器的基础数据源;
HTML解析模块,用于对爬虫模块中的网页采取正文文本的解析和抽取,抽取的正文内容作为词关联网关联度计算的文本资料库;
正文文本分词模块,该模块是对HTML解析模块中获得的网页正文内容进行分词;
TF-IDF模块,该模块对正文文本分词模块获得的分词产生的词元计算其在该文章的代表性,包含计算TF词频,IDF反文档频率,TF-IDF以及过滤常用词;
词关联网构建模块,该模块利用TF-IDF模块中的每个词的TF-IDF结果,计算单篇文章中Relevancy=F(T(A),T(B))和整个文本资料库中每两个词的关联度权重,构建词关联度网,Relevancy词关联权重为模型的边长。
CN201410003874.2A 2014-01-06 2014-01-06 一种词关联网模型的构建方法及其构建器 Active CN103744954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410003874.2A CN103744954B (zh) 2014-01-06 2014-01-06 一种词关联网模型的构建方法及其构建器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410003874.2A CN103744954B (zh) 2014-01-06 2014-01-06 一种词关联网模型的构建方法及其构建器

Publications (2)

Publication Number Publication Date
CN103744954A true CN103744954A (zh) 2014-04-23
CN103744954B CN103744954B (zh) 2017-02-01

Family

ID=50501972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410003874.2A Active CN103744954B (zh) 2014-01-06 2014-01-06 一种词关联网模型的构建方法及其构建器

Country Status (1)

Country Link
CN (1) CN103744954B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279191A (zh) * 2014-07-22 2016-01-27 吴晨 基于网络数据分析的潜在用户挖掘方法
CN105677633A (zh) * 2014-11-21 2016-06-15 科大讯飞股份有限公司 词语联想方法及装置
CN105787078A (zh) * 2016-03-02 2016-07-20 合网络技术(北京)有限公司 多媒体标题显示方法及装置
CN106033444A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 文本内容的聚类方法和装置
US9734141B2 (en) 2015-09-22 2017-08-15 Yang Chang Word mapping
CN108509571A (zh) * 2018-03-26 2018-09-07 刘莎 一种网页信息数据挖掘通用方法
CN108595466A (zh) * 2018-02-09 2018-09-28 中山大学 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN116431815A (zh) * 2023-06-12 2023-07-14 临沂大学 一种村务公开数据智慧管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204609A1 (en) * 2008-02-13 2009-08-13 Fujitsu Limited Determining Words Related To A Given Set Of Words
CN102737038A (zh) * 2011-04-07 2012-10-17 阿里巴巴集团控股有限公司 关联度确定方法及装置、信息提供方法及装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204609A1 (en) * 2008-02-13 2009-08-13 Fujitsu Limited Determining Words Related To A Given Set Of Words
CN102737038A (zh) * 2011-04-07 2012-10-17 阿里巴巴集团控股有限公司 关联度确定方法及装置、信息提供方法及装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103345528A (zh) * 2013-07-24 2013-10-09 南京邮电大学 一种基于关联分析和knn的文本分类方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279191A (zh) * 2014-07-22 2016-01-27 吴晨 基于网络数据分析的潜在用户挖掘方法
CN105279191B (zh) * 2014-07-22 2019-11-19 吴晨 基于网络数据分析的潜在用户挖掘方法
CN105677633A (zh) * 2014-11-21 2016-06-15 科大讯飞股份有限公司 词语联想方法及装置
CN106033444A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 文本内容的聚类方法和装置
CN106033444B (zh) * 2015-03-16 2019-12-10 北京国双科技有限公司 文本内容的聚类方法和装置
US9734141B2 (en) 2015-09-22 2017-08-15 Yang Chang Word mapping
CN105787078A (zh) * 2016-03-02 2016-07-20 合网络技术(北京)有限公司 多媒体标题显示方法及装置
CN108595466A (zh) * 2018-02-09 2018-09-28 中山大学 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN108509571A (zh) * 2018-03-26 2018-09-07 刘莎 一种网页信息数据挖掘通用方法
CN116431815A (zh) * 2023-06-12 2023-07-14 临沂大学 一种村务公开数据智慧管理系统
CN116431815B (zh) * 2023-06-12 2023-08-22 临沂大学 一种村务公开数据智慧管理系统

Also Published As

Publication number Publication date
CN103744954B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN103744954A (zh) 一种词关联网模型的构建方法及其构建器
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN104008109B (zh) 基于用户兴趣的Web信息推送服务系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN103838785A (zh) 一种专利领域的垂直搜索引擎
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN102915335B (zh) 基于用户操作记录和资源内容的信息关联方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN101231661A (zh) 对象级知识挖掘的方法和系统
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN103838732A (zh) 一种生活服务领域垂直搜索引擎
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
Ji et al. Tag tree template for Web information and schema extraction
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN104504024A (zh) 基于微博内容的关键词挖掘方法及系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN104281619A (zh) 搜索结果排序系统及方法
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN103336765A (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
Deng Research on the focused crawler of mineral intelligence service based on semantic similarity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant