CN103646106B - 一种基于内容相似性的Web主题排序方法 - Google Patents

一种基于内容相似性的Web主题排序方法 Download PDF

Info

Publication number
CN103646106B
CN103646106B CN201310719507.8A CN201310719507A CN103646106B CN 103646106 B CN103646106 B CN 103646106B CN 201310719507 A CN201310719507 A CN 201310719507A CN 103646106 B CN103646106 B CN 103646106B
Authority
CN
China
Prior art keywords
theme
interval
web
web page
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310719507.8A
Other languages
English (en)
Other versions
CN103646106A (zh
Inventor
袁东风
段秋丹
朱丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201310719507.8A priority Critical patent/CN103646106B/zh
Publication of CN103646106A publication Critical patent/CN103646106A/zh
Application granted granted Critical
Publication of CN103646106B publication Critical patent/CN103646106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于内容相似性的Web主题排序方法,属于网络信息处理技术领域。通过网页分析检测筛选出包含相关Web主题的网页,并进行一次排序;对包含该主题的网页内容进行相似性分析,并按照各内容的相似性进行相关排序,完成二次排序。本发明方法可以为用户提供更加清晰明了的层次性的检索结果,同时,能满足用户对该主题某一确定方面内容的需求。由此可见,基于内容相似性的Web主题排序的方法可以为用户提供更优质高效的检索需求。

Description

一种基于内容相似性的Web主题排序方法
技术领域
本发明涉及一种基于内容相似性的Web主题排序方法,属于网络信息处理技术领域。
背景技术
随着因特网的发展,其上的信息呈爆炸式的增长,包括各种各样的新闻,报告,论坛消息等。为了帮助用户检索出其所关心的主题内容就需要对所有网页信息进行相关分析及排序,以供用户查询。
目前,排序方法有很多种,而且针对某一特定需求可能包括多种优化的排序方法。用户在查询某一相关Web主题时,可能会重点关心该主题内容中的某一方面,而现有的排序方法在检索时会把所有与该主题相关的各个方面都按照关键字匹配的程度进行排序,而不会针对某特定需求筛选出该主题的某一方面内容并对其进行排序。
为了获取更好的排序效果,武汉大学申请了一种专利号为201110194133.3,发明名称为“基于Web时间不一致的过时网页自动发现与排序方法”的专利,采用该发明能对同类网站基于时间不一致度量进行排序,如政府或大学网站在信息新鲜度方面的质量进行排序,同时该发明为搜索引擎提供时间敏感信息排序方法,使得用户能够更便利的搜索最新的信息,能提高网站的内容的及时性。通过对比可以发现,上述专利所针对的是网站信息的实时性,而没有注意到网页内容之间的相似度。
发明内容
针对背景技术中涉及到的问题,本发明提供了一种基于内容相似性的Web主题排序方法。
本发明的技术方案如下:
一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供搜索内容相似的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下:
1)确定所要筛选的Web主题
对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字;
2)模糊关键字匹配检测(一次排序)
2-1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容;
2-2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,并估算出其相应的匹配度Uj
2-3设置匹配度阈值U,匹配度Uj大于阈值U的网页即视为该主题的相关网页,并将其筛选出来;
2-4利用优化的网页排序算法即PageRank算法将筛选出来的网页进行一次排序;
3)各网页内容相似度检测(二次排序)
3-1将步骤2)中筛选得到的各网页按匹配度Uj由大到小划分为若干个区间Tm,其中m为区间的个数,可按需求自由设定,如1>Uj>0.8为区间T1,0.8>Uj>0.6为区间T2,0.6>Uj>0.5为区间T3,0.5>Uj>U为区间T4,其中阈值U<0.5;
3-2对步骤3-1设定的第n个区间Tn中的网页内容进行相似度检测,其中n≤m,采用Cosine相似度来计算:
c o s ( x , y ) = x &CenterDot; y | | x | | &CenterDot; | | y | | = &Sigma;x i y i &Sigma;x i 2 &Sigma;y i 2
其中x,y分别代表同一区间Tn中两个不同源的网页内容的向量模型,||x||、||y||分别表示其对应网页的向量模长,运算符号||||表示取模长,x、y向量模型通过TF-IDF算法计算得出;xi、yi分别表示向量模型x,y中第i个元素;两个向量之间的余弦值越大,说明两个向量之间的夹角越小,即两个向量相似度越高;
3-3步骤3-2中计算出来的余弦值cos(x,y)越大说明同一区间中,两个网页内容的相似性越高;反之,则相似性越小,将同一区间中各文档按相似度的大小从大到小进行排序;
3-4重复步骤3-2、3-3,直至所有区间的网页内容均完成相似度分析排序;
3-5保持各区间的排序结果,同时将各区间按匹配度的大小从大到小进行排序;
4)将排序结果展示给用户,供其查询需求。
所述的PageRank算法是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由LarryPage和SergeyBrin在20世纪90年代后期发明。PageRank算法实现了将链接价值概念作为排名因素。
所述的Cosine相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上的差异。
所述的TF-IDF是英文termfrequency-inversedocumentfrequency的缩写,是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF算法是一种统计算法,用于对检索的加权,简单的讲其作用是评估一字词对于一个文件的重要程度。
本发明方法提出一种基于内容相似性的Web主题排序方法。该方法实现了二次排序,首先完成对该主题内容的整体排序,即进行模糊关键字匹配检测,将属于该主题的网页内容进行相关度排序;然后针对该主题内容的相似性再进行局部排序,即进行内容相似性检测,将属于该主题的内容按照相似度从大到小进行二次排序,最终按照用户查询需求将二次排序的结果展示给用户。例如,在用户搜索云计算技术时,该主题就是云计算,但是云计算包含云计算技术介绍,云计算应用,云计算的发展资讯等不同的方面,采用本文发明的方法可以将上述各方面的内容按相似性大小展示给用户供其查看。由此可见,本发明的重点在于针对某个特定Web主题,分析各网页内容,为用户提供某一方面的丰富的相关信息方便用户查询。
本发明方法主要考虑到用户在检索相应Web主题时,通常检索出的各网页内容之间仅有主题相关的的联系,甚至在描述同一主题同一方面内容的网页之间可能排列了同一主题的其他不同方面。这样,用户在查看相应内容时,可能对该主题某一方面的内容更为感兴趣,而传统的排序方法往往不能满足用户的这种需求。
本方法适用于用户在利用搜索引擎检索相关Web主题时,为了帮助用户获得高质量,内容丰富的检索信息而提供的一种排序方法,该方法通过对各网页内容进行相似度分析将各个网页按照相似度进行排序,以为用户提供丰富的某一特定内容的相关信息。
本发明方法的有宜效果及特点如下:通过对网页内容相似性分析实现对检索结果的二次排序,可以为用户提供更加层次化的,高质量、高清晰度的检索结果。
附图说明
具体实施方式
下面结合实施例对本发明做进一步说明,但不限于此。
实施例:
一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供搜索内容相似的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下:
1)确定所要筛选的Web主题
对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字;
2)模糊关键字匹配检测(一次排序)
2-1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容;
2-2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,并估算出其相应的匹配度Uj
2-3设置匹配度阈值U,匹配度Uj大于阈值U的网页即视为该主题的相关网页,并将其筛选出来;
2-4利用优化的网页排序算法即PageRank算法将筛选出来的网页进行一次排序;
3)各网页内容相似度检测(二次排序)
3-1将步骤2)中筛选得到的各网页按匹配度Uj由大到小划分为若干个区间Tm,其中m为区间的个数,可按需求自由设定,如1>Uj>0.8为区间T1,0.8>Uj>0.6为区间T2,0.6>Uj>0.5为区间T3,0.5>Uj>U为区间T4,其中阈值U<0.5;
3-2对步骤3-1设定的第n个区间Tn中的网页内容进行相似度检测,其中n≤m,采用Cosine相似度来计算:
c o s ( x , y ) = x &CenterDot; y | | x | | &CenterDot; | | y | | = &Sigma;x i y i &Sigma;x i 2 &Sigma;y i 2
其中x,y分别代表同一区间Tn中两个不同源的网页内容的向量模型,||x||、||y||分别表示其对应网页的向量模长,运算符号||||表示取模长,x、y向量模型通过TF-IDF算法计算得出;xi、yi分别表示向量模型x,y中第i个元素;两个向量之间的余弦值越大,说明两个向量之间的夹角越小,即两个向量相似度越高;
3-3步骤3-2中计算出来的余弦值cos(x,y)越大说明同一区间中,两个网页内容的相似性越高;反之,则相似性越小,将同一区间中各文档按相似度的大小从大到小进行排序;
3-4重复步骤3-2、3-3,直至所有区间的网页内容均完成相似度分析排序;
3-5保持各区间的排序结果,同时将各区间按匹配度的大小从大到小进行排序;
4)将排序结果展示给用户,供其查询需求。

Claims (1)

1.一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供搜索内容相似的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下:
1)确定所要筛选的Web主题
对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字;
2)模糊关键字匹配检测即一次排序
2-1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容;
2-2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,并估算出其相应的匹配度Uj
2-3设置匹配度阈值U,匹配度Uj大于阈值U的网页即视为该主题的相关网页,并将其筛选出来;
2-4利用优化的网页排序算法即PageRank算法将筛选出来的网页进行一次排序;
3)各网页内容相似度检测即二次排序
3-1将步骤2)中筛选得到的各网页按匹配度Uj由大到小划分为若干个区间Tm,其中m为区间的个数,可按需求自由设定,设1>Uj>0.8为区间T1,0.8>Uj>0.6为区间T2,0.6>Uj>0.5为区间T3,0.5>Uj>U为区间T4,其中阈值U<0.5;
3-2对步骤3-1设定的第n个区间Tn中的网页内容进行相似度检测,其中n≤m,采用
Cosine相似度来计算:
c o s ( x , y ) = x &CenterDot; y | | x | | . | | y | | = &Sigma;x i y i &Sigma;x i 2 &Sigma;y i 2
其中x,y分别代表同一区间Tn中两个不同源的网页内容的向量模型,||x||、||y||分别表示其对应网页的向量模长,运算符号||||表示取模长,x、y向量模型通过TF-IDF算法计算得出;xi、yi分别表示向量模型x,y中第i个元素;两个向量之间的余弦值越大,说明两个向量之间的夹角越小,即两个向量相似度越高;
3-3步骤3-2中计算出来的余弦值cos(x,y)越大说明同一区间中,两个网页内容的相似性越高;反之,则相似性越小,将同一区间中各文档按相似度的大小从大到小进行排序;
3-4重复步骤3-2、3-3,直至所有区间的网页内容均完成相似度分析排序;
3-5保持各区间内部的排序结果,同时将各区间之间按匹配度的大小从大到小进行排序;
4)将排序结果展示给用户,供其查询需求。
CN201310719507.8A 2013-12-23 2013-12-23 一种基于内容相似性的Web主题排序方法 Active CN103646106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310719507.8A CN103646106B (zh) 2013-12-23 2013-12-23 一种基于内容相似性的Web主题排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310719507.8A CN103646106B (zh) 2013-12-23 2013-12-23 一种基于内容相似性的Web主题排序方法

Publications (2)

Publication Number Publication Date
CN103646106A CN103646106A (zh) 2014-03-19
CN103646106B true CN103646106B (zh) 2016-05-25

Family

ID=50251319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310719507.8A Active CN103646106B (zh) 2013-12-23 2013-12-23 一种基于内容相似性的Web主题排序方法

Country Status (1)

Country Link
CN (1) CN103646106B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183784B (zh) * 2015-08-14 2020-04-28 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN113254810B (zh) * 2021-06-17 2021-10-29 浙江口碑网络技术有限公司 搜索结果输出方法、装置、计算机设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496009A (zh) * 2006-07-31 2009-07-29 微软公司 搜索结果的时间排序
CN101604317A (zh) * 2009-07-13 2009-12-16 腾讯科技(深圳)有限公司 搜索引擎的检索结果重排序方法及系统
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统
CN102880728A (zh) * 2012-10-31 2013-01-16 中国科学院自动化研究所 名人视频搜索结果个性化排序的方法
US8566331B1 (en) * 2009-05-29 2013-10-22 Google Inc. Ordering image search results

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101496009A (zh) * 2006-07-31 2009-07-29 微软公司 搜索结果的时间排序
US8566331B1 (en) * 2009-05-29 2013-10-22 Google Inc. Ordering image search results
CN101604317A (zh) * 2009-07-13 2009-12-16 腾讯科技(深圳)有限公司 搜索引擎的检索结果重排序方法及系统
CN102053992A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 聚类方法和系统
CN102880728A (zh) * 2012-10-31 2013-01-16 中国科学院自动化研究所 名人视频搜索结果个性化排序的方法

Also Published As

Publication number Publication date
CN103646106A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
Magara et al. A comparative analysis of text similarity measures and algorithms in research paper recommender systems
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN105760495B (zh) 一种基于知识图谱针对bug问题进行探索性搜索方法
CN103778227B (zh) 从检索图像中筛选有用图像的方法
CN103744956B (zh) 一种关键词的多样化拓展方法
US20150356199A1 (en) Click-through-based cross-view learning for internet searches
CN110543595B (zh) 一种站内搜索系统及方法
CN105574047A (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN103235812B (zh) 查询多意图识别方法和系统
CN101452463A (zh) 定向抓取页面资源的方法和装置
CN107291895B (zh) 一种快速的层次化文档查询方法
CN103530416B (zh) 项目数据预测评分库的生成、项目数据的推送方法和系统
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN110555154B (zh) 一种面向主题的信息检索方法
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN105183784A (zh) 一种基于内容的垃圾网页检测方法及其检测装置
Bouadjenek et al. Personalized social query expansion using social bookmarking systems
US20160170993A1 (en) System and method for ranking news feeds
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN102663447A (zh) 基于判别相关分析的跨媒体检索方法
CN111324801A (zh) 基于热点词的司法领域热点事件发现方法
CN117312681A (zh) 面向元宇宙的用户偏好产品推荐方法及系统
CN103646106B (zh) 一种基于内容相似性的Web主题排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant