CN105589892A - 基于锚文本回溯链的网页主题分析方法 - Google Patents

基于锚文本回溯链的网页主题分析方法 Download PDF

Info

Publication number
CN105589892A
CN105589892A CN201410634936.XA CN201410634936A CN105589892A CN 105589892 A CN105589892 A CN 105589892A CN 201410634936 A CN201410634936 A CN 201410634936A CN 105589892 A CN105589892 A CN 105589892A
Authority
CN
China
Prior art keywords
anchor text
trace
back chain
webpage
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410634936.XA
Other languages
English (en)
Other versions
CN105589892B (zh
Inventor
张琦
尹亚伟
张上誉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410634936.XA priority Critical patent/CN105589892B/zh
Publication of CN105589892A publication Critical patent/CN105589892A/zh
Application granted granted Critical
Publication of CN105589892B publication Critical patent/CN105589892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了基于锚文本回溯链的网页主题分析方法,所述方法包括:在确定待搜索的目标主题之后,搜索引擎触发网页追逐器在由HTML文档借助于超链接组成的网络上行进以形成行进链;基于所述行进链,所述网页追逐器针对每个当前正经过的网页形成锚文本回溯链;所述搜索引擎基于所形成的锚文本回溯链分析当前正经过的网页的主题。本发明所公开的基于锚文本回溯链的网页主题分析方法能够在搜索过程中更准确地分析网页主题。

Description

基于锚文本回溯链的网页主题分析方法
技术领域
本发明涉及网页主题分析方法,更具体地,涉及基于锚文本回溯链的网页主题分析方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,通过搜索引擎获取特定的网页以及网页内容变得越来越重要。
现有的技术方案的基本工作原理如下:在确定特定的目标主题之后,搜索引擎在由HTML文档借助于超链接(其将不同的HTML文档相链接)组成的网络上行进,并且每到一个网页就用抓取程序抓取该网页以及随之抽取该网页的内容,同时抽取该网页的超链接作为进一步行进的线索,随后,通过网页分析算法过滤掉与目标主题无关的超链接,从而仅提取出与目标主题相关的网页,其中,常常采用分析超链接对应的锚文本(其是引导用户点击该超链接的文字描述,该文字描述是对该超链接对应的网页内容的高度概括和描述)来分析网页的主题,即基于当前超链接及其对应的锚文本,通过比较当前锚文本和特定主题的相关程度来确定当前超链接所对应的网页的主题内容。
然而,现有的技术方案存在如下问题:虽然锚文本通常是网页内容的高度概括和描述,然而,在一些特定的情况下(例如,如果锚文本的内容是“最受欢迎”,并且该锚文本对应某个商品的网页,则难以从锚文本的内容“最受欢迎”分析出该网页的主题),仅依靠当前锚文本的信息不能准确地描述其所对应的网页的主题。
因此,存在如下需求:提供能够在搜索过程中准确地分析网页主题的基于锚文本回溯链的网页主题分析方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够在搜索过程中准确地分析网页主题的基于锚文本回溯链的网页主题分析方法。
本发明的目的是通过以下技术方案实现的:
一种基于锚文本回溯链的网页主题分析方法,所述基于锚文本回溯链的网页主题分析方法包括下列步骤:
(A1)在确定待搜索的目标主题之后,搜索引擎触发网页追逐器在由HTML文档借助于超链接组成的网络上行进以形成行进链;
(A2)基于所述行进链,所述网页追逐器针对每个当前正经过的网页形成锚文本回溯链;
(A3)所述搜索引擎基于所形成的锚文本回溯链分析当前正经过的网页的主题。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:通过记录和回溯所述网页追逐器所形成的行进链上的每个超链接所对应的锚文本的信息来形成所述锚文本回溯链。
在上面所公开的方案中,优选地,所述锚文本回溯链包含到达当前正经过的网页时所述网页追逐器最近N次行进所历经的每个超链接所对应的锚文本的信息,其中,N是预先设定的回溯链最大路径长度。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:所述网页追逐器在行进过程中不断记录所经过的超链接对应的锚文本的信息,并且在到达新的超链接时,将上个超链接所对应的锚文本回溯链中的最远一个锚文本的信息去掉,并同时将当前的新的超链接所对应的锚文本的信息添加到锚文本回溯链中,以形成与当前的新的超链接对应的锚文本回溯链。
在上面所公开的方案中,优选地,所述搜索引擎以如下方式分析当前正经过的网页的主题:(1)从当前正经过的超链接所对应的锚文本的信息出发遍历该超链接对应的锚文本回溯链,以计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值;(2)计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值,并且基于该平均值确定当前正经过的网页的主题是否与所述目标主题相关。
在上面所公开的方案中,优选地,以如下公式计算锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值:
URL _ SIM = 1 N Σ i = 1 N w i
其中,Wi为锚文本回溯链中第i个锚文本与目标主题的相关度的值,N为预先设定的回溯链最大路径长度。
在上面所公开的方案中,优选地,通过计算锚文本和所述目标主题的特征词之间的语义相似度来计算锚文本回溯链中的每个锚文本与目标主题的相关度的值,其中,以如下公式计算锚文本和目标主题的特征词之间的语义相似度:
Sim ( C 1 , C 2 ) = λ Dis ( C 1 , C 2 ) + λ
其中λ是可调节的参数,Dis(C1,C2)表示两个词语C1和C2在语义字典中的距离。
在上面所公开的方案中,优选地,通过计算锚文本与目标主题的特征词库中的所有特征词之间的语义相似度并取用最大值作为该锚文本与目标主题的相关度的值,其中,以如下公式计算锚文本回溯链中第i个锚文本Ki与目标主题的相关度的值:
w i = max j = 1 → K Sim ( K i , T j ) = max j = 1 → K λ Dis ( K i , T j ) + λ
其中,Wi为锚文本回溯链中第i个锚文本与目标主题的相关度的值,Tj为目标主题的特征词库中第j个特征词,K为目标主题的特征词库的大小,λ是可调节的参数,Dis(Ki,Tj)表示两个词语Ki和Tj在语义字典中的距离。
在上面所公开的方案中,优选地,所述步骤(A3)进一步包括:将锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值与预定的阈值相比较,如果所述平均值小于所述阈值,则判定当前正经过的网页的主题与所述目标主题相关,否则,判定当前正经过的网页的主题与所述目标主题不相关。
本发明所公开的基于锚文本回溯链的网页主题分析方法具有以下优点:能够在搜索过程中更准确地分析网页主题与目标主题的相关性。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法的流程图;
图2是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法而形成的锚文本回溯链的原理示意图。
具体实施方式
图1是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法的流程图。如图1所示,本发明所公开的基于锚文本回溯链的网页主题分析方法包括下列步骤:(A1)在确定待搜索的目标主题之后,搜索引擎触发网页追逐器(例如网络爬虫程序或脚本)在由HTML文档借助于超链接组成的网络上行进(即不断地从一个链接爬行到另一个链接)以形成行进链;(A2)基于所述行进链,所述网页追逐器针对每个当前正经过的网页形成锚文本回溯链;(A3)所述搜索引擎基于所形成的锚文本回溯链分析当前正经过的网页的主题。
优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,所述步骤(A2)进一步包括:通过记录和回溯所述网页追逐器所形成的行进链上的每个超链接所对应的锚文本的信息来形成所述锚文本回溯链。
优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,所述锚文本回溯链包含到达当前正经过的网页时所述网页追逐器最近N次行进所历经的每个超链接所对应的锚文本的信息,其中,N是预先设定的回溯链最大路径长度(即到达当前正经过的网页时所述网页追逐器最近经过的超链接的个数)。例如,当使用逻辑结构{URL,K1,K2,……,KN}(其中,URL为当前正经过的网页的超链接,K1为当前正经过的网页的超链接对应的锚文本,K2~kN为依次对应回溯路径上的各个网页的锚文本信息,N为预先设定的回溯链最大路径长度)表示与当前正经过的网页相对应的锚文本回溯链,则从当前正经过的网页的超链接(URL)触发行进到下一个超链接时,与该超链接所对应的新的网页相对应的锚文本回溯链的逻辑结构为{URL`,K`,K1,K2,……,KN-1}(其中,URL`为当前正经过的新的网页的超链接,K`为当前正经过的新的网页的超链接对应的锚文本,K1~kN-1为依次对应回溯路径上的各个网页的锚文本信息)。
图2是根据本发明的实施例的基于锚文本回溯链的网页主题分析方法而形成的锚文本回溯链的原理示意图。如图2所示,优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,所述步骤(A2)进一步包括:所述网页追逐器在行进过程中不断记录所经过的超链接对应的锚文本的信息,并且在到达新的超链接时,将上个超链接所对应的锚文本回溯链中的最远一个锚文本的信息去掉,并同时将当前的新的超链接所对应的锚文本的信息添加到锚文本回溯链中,以形成与当前的新的超链接对应的锚文本回溯链。由上可见,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,在网页追逐器行进过程中,在到达新的超链接时能够简单而快捷地形成该超链接所对应的锚文本回溯链,从而避免了具体的回溯过程,因而显著地提高了效率。
优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,所述搜索引擎以如下方式分析当前正经过的网页的主题:(1)从当前正经过的超链接所对应的锚文本的信息出发遍历该超链接对应的锚文本回溯链,以计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值;(2)计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值,并且基于该平均值确定当前正经过的网页的主题是否与所述目标主题相关。
优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,以如下公式计算锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值:
URL _ SIM = 1 N Σ i = 1 N w i
其中,Wi为锚文本回溯链中第i个锚文本与目标主题的相关度的值,N为预先设定的回溯链最大路径长度。
优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,通过计算锚文本和所述目标主题的特征词之间的语义相似度来计算锚文本回溯链中的每个锚文本与目标主题的相关度的值,其中,以如下公式计算锚文本和目标主题的特征词之间的语义相似度:
Sim ( C 1 , C 2 ) = λ Dis ( C 1 , C 2 ) + λ
其中λ是可调节的参数,Dis(C1,C2)表示两个词语C1和C2在语义字典(其被预先设定或构建)中的距离。
优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,通过计算锚文本与目标主题的特征词库中的所有特征词之间的语义相似度并取用最大值作为该锚文本与目标主题的相关度的值,其中,以如下公式计算锚文本回溯链中第i个锚文本Ki与目标主题的相关度的值:
w i = max j = 1 → K Sim ( K i , T j ) = max j = 1 → K λ Dis ( K i , T j ) + λ
其中,Wi为锚文本回溯链中第i个锚文本与目标主题的相关度的值,Tj为目标主题的特征词库中第j个特征词,K为目标主题的特征词库的大小,λ是可调节的参数,Dis(Ki,Tj)表示两个词语Ki和Tj在语义字典中的距离。
优选地,在本发明所公开的基于锚文本回溯链的网页主题分析方法中,所述步骤(A3)进一步包括:将锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值与预定的阈值相比较,如果所述平均值小于所述阈值,则判定当前正经过的网页的主题与所述目标主题相关,否则,判定当前正经过的网页的主题与所述目标主题不相关。
由上可见,本发明所公开的基于锚文本回溯链的网页主题分析方法具有下列优点:能够在搜索过程中更准确地分析网页主题与目标主题的相关性。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (9)

1.一种基于锚文本回溯链的网页主题分析方法,所述基于锚文本回溯链的网页主题分析方法包括下列步骤:
(A1)在确定待搜索的目标主题之后,搜索引擎触发网页追逐器在由HTML文档借助于超链接组成的网络上行进以形成行进链;
(A2)基于所述行进链,所述网页追逐器针对每个当前正经过的网页形成锚文本回溯链;
(A3)所述搜索引擎基于所形成的锚文本回溯链分析当前正经过的网页的主题。
2.根据权利要求1所述的基于锚文本回溯链的网页主题分析方法,其特征在于,所述步骤(A2)进一步包括:通过记录和回溯所述网页追逐器所形成的行进链上的每个超链接所对应的锚文本的信息来形成所述锚文本回溯链。
3.根据权利要求2所述的基于锚文本回溯链的网页主题分析方法,其特征在于,所述锚文本回溯链包含到达当前正经过的网页时所述网页追逐器最近N次行进所历经的每个超链接所对应的锚文本的信息,其中,N是预先设定的回溯链最大路径长度。
4.根据权利要求3所述的基于锚文本回溯链的网页主题分析方法,其特征在于,所述步骤(A2)进一步包括:所述网页追逐器在行进过程中不断记录所经过的超链接对应的锚文本的信息,并且在到达新的超链接时,将上个超链接所对应的锚文本回溯链中的最远一个锚文本的信息去掉,并同时将当前的新的超链接所对应的锚文本的信息添加到锚文本回溯链中,以形成与当前的新的超链接对应的锚文本回溯链。
5.根据权利要求4所述的基于锚文本回溯链的网页主题分析方法,其特征在于,所述搜索引擎以如下方式分析当前正经过的网页的主题:(1)从当前正经过的超链接所对应的锚文本的信息出发遍历该超链接对应的锚文本回溯链,以计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值;(2)计算该锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值,并且基于该平均值确定当前正经过的网页的主题是否与所述目标主题相关。
6.根据权利要求5所述的基于锚文本回溯链的网页主题分析方法,其特征在于,以如下公式计算锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值:
URL _ SIM = 1 N Σ i = 1 N w i
其中,Wi为锚文本回溯链中第i个锚文本与目标主题的相关度的值,N为预先设定的回溯链最大路径长度。
7.根据权利要求6所述的基于锚文本回溯链的网页主题分析方法,其特征在于,通过计算锚文本和所述目标主题的特征词之间的语义相似度来计算锚文本回溯链中的每个锚文本与目标主题的相关度的值,其中,以如下公式计算锚文本和目标主题的特征词之间的语义相似度:
Sim ( C 1 , C 2 ) = λ Dis ( C 1 , C 2 ) + λ
其中λ是可调节的参数,Dis(C1,C2)表示两个词语C1和C2在语义字典中的距离。
8.根据权利要求7所述的基于锚文本回溯链的网页主题分析方法,其特征在于,通过计算锚文本与目标主题的特征词库中的所有特征词之间的语义相似度并取用最大值作为该锚文本与目标主题的相关度的值,其中,以如下公式计算锚文本回溯链中第i个锚文本Ki与目标主题的相关度的值:
w i = man j = 1 → K Sim ( K i , T j ) = max j = 1 → K λ Dis ( K i , T j ) + λ
其中,Wi为锚文本回溯链中第i个锚文本与目标主题的相关度的值,Tj为目标主题的特征词库中第j个特征词,K为目标主题的特征词库的大小,λ是可调节的参数,Dis(Ki,Tj)表示两个词语Ki和Tj在语义字典中的距离。
9.根据权利要求8所述的基于锚文本回溯链的网页主题分析方法,其特征在于,所述步骤(A3)进一步包括:将锚文本回溯链中的每个锚文本与所述目标主题的相关度的值的平均值与预定的阈值相比较,如果所述平均值小于所述阈值,则判定当前正经过的网页的主题与所述目标主题相关,否则,判定当前正经过的网页的主题与所述目标主题不相关。
CN201410634936.XA 2014-11-12 2014-11-12 基于锚文本回溯链的网页主题分析方法 Active CN105589892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410634936.XA CN105589892B (zh) 2014-11-12 2014-11-12 基于锚文本回溯链的网页主题分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410634936.XA CN105589892B (zh) 2014-11-12 2014-11-12 基于锚文本回溯链的网页主题分析方法

Publications (2)

Publication Number Publication Date
CN105589892A true CN105589892A (zh) 2016-05-18
CN105589892B CN105589892B (zh) 2019-01-18

Family

ID=55929475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410634936.XA Active CN105589892B (zh) 2014-11-12 2014-11-12 基于锚文本回溯链的网页主题分析方法

Country Status (1)

Country Link
CN (1) CN105589892B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357801A (zh) * 2017-05-18 2017-11-17 辛柯俊 一种企业相关网页主题测量方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240579A1 (en) * 2004-04-27 2005-10-27 Konica Minolta Holdings, Inc. Information retrieval system
CN101261634A (zh) * 2008-04-11 2008-09-10 哈尔滨工业大学深圳研究生院 基于增量Q-Learning的学习方法及系统
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240579A1 (en) * 2004-04-27 2005-10-27 Konica Minolta Holdings, Inc. Information retrieval system
CN101261634A (zh) * 2008-04-11 2008-09-10 哈尔滨工业大学深圳研究生院 基于增量Q-Learning的学习方法及系统
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357801A (zh) * 2017-05-18 2017-11-17 辛柯俊 一种企业相关网页主题测量方法及系统
CN107357801B (zh) * 2017-05-18 2021-05-28 辛柯俊 一种企业相关网页主题测量方法及系统

Also Published As

Publication number Publication date
CN105589892B (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN106407484B (zh) 一种基于弹幕语义关联的视频标签提取方法
CN102662952B (zh) 一种基于层次的中文文本并行数据挖掘方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN104182412B (zh) 一种网页爬取方法及系统
CN102087648B (zh) 一种新闻评论页面的爬取方法及系统
CN105630941A (zh) 基于统计和网页结构的Web正文内容抽取方法
MY188760A (en) Search intention identifying method and device
CN106649260A (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN110991171B (zh) 敏感词检测方法及装置
CN103853834A (zh) 基于文本结构分析的Web文档摘要的生成方法
CN105488024A (zh) 网页主题句的抽取方法及装置
CN105264518A (zh) 数据处理装置及故事模型构建方法
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
WO2016115944A1 (zh) 网页质量模型的建立方法及装置
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN104636319A (zh) 一种文本去重方法和装置
CN105630772B (zh) 一种网页评论内容的抽取方法
CN101887443A (zh) 一种文本的分类方法及装置
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN105389329A (zh) 一种基于群体评论的开源软件推荐方法
CN103927400A (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN104102658A (zh) 文本内容挖掘方法及装置
CN104123273B (zh) 一种面向对象程序的注释质量评价和注释建议方法
CN103853771B (zh) 一种搜索结果的推送方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant