CN108009202B - 一种基于维特比算法的网页分类排序动态爬虫方法 - Google Patents

一种基于维特比算法的网页分类排序动态爬虫方法 Download PDF

Info

Publication number
CN108009202B
CN108009202B CN201711056113.3A CN201711056113A CN108009202B CN 108009202 B CN108009202 B CN 108009202B CN 201711056113 A CN201711056113 A CN 201711056113A CN 108009202 B CN108009202 B CN 108009202B
Authority
CN
China
Prior art keywords
links
link
value
webpage
parent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711056113.3A
Other languages
English (en)
Other versions
CN108009202A (zh
Inventor
邵玉斌
张鸿飞
龙华
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Fayan Longxiang Technology Co.,Ltd.
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201711056113.3A priority Critical patent/CN108009202B/zh
Publication of CN108009202A publication Critical patent/CN108009202A/zh
Application granted granted Critical
Publication of CN108009202B publication Critical patent/CN108009202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明涉及一种基于维特比算法的网页分类排序动态爬虫方法,属于网络数据挖掘技术领域。本发明首先给出种子URL,并将种子URL作为父链接向下爬取,获取出链子链接;基于链接结构计算子链接的入链数;随后获取子链接网页内容并计算网页内容与主题的相似性;通过计算网页的综合评价值,淘汰评价值较低的网页并将剩下的网页作为父链接向下爬取新的链接。重复上述过程,直到爬虫过程中没有新的网页加入,则停止爬虫。本发明方法可以使用户在给定主题的条件下,通过基于维特比算法的动态网络爬虫,可以高效、准确获取特定主题下的重要网站。

Description

一种基于维特比算法的网页分类排序动态爬虫方法
技术领域
本发明涉及一种基于维特比算法的网页分类排序动态爬虫方法,属于网络数据挖掘技术领域。
背景技术
随着互联网的飞速发展,网络信息资源急剧膨胀。经CNNIC(中国互联网络信息中心)统计,截止2016年12月,中国网站数为482万个,网页数为2360亿个。此时,高效快速地查询到所需信息是网络用户面临的重要问题。由于网络信息资源繁多,爬虫噪音,传统的通用爬虫根本无法满足用户的需求。因此,面向主题的搜索引擎成为新一轮的研究方向。主题爬虫通过设定特定主题,有针对性的遍历爬取,极大地减少了爬取网页数量,提高了搜索效率。主题爬虫的关键问题在于如何精确判断网页类型,尽可能多的过滤掉无关网页,筛选出用户所需的主题网站。通过基于维特比算法的网页分类排序动态爬虫策略可以大大提高主题爬虫的精度和效率。
发明内容
本发明提供了一种基于维特比算法的网页分类排序动态爬虫方法,以用于尽可能多的过滤掉无关网页,筛选出用户所需的主题网站,以及解决了现有的爬虫方法精度低、爬虫效率不高的问题。
本发明的技术方案是:一种基于维特比算法的网页分类排序动态爬虫方法,所述方法的具体步骤为:
Step1、得到链接关系网络;首先获取任意与主题相关网页作为种子URL,通过爬取种子网页的超链接,获取出链子代链接,得到父代链接与子代链接的关系图;
Step2、计算网页链接价值LV;
Step2.1、计算网页链接价值LV,LV计算公式为:
Figure BDA0001453673610000011
其中,LN为网页当前入链数;入链数是一个动态的值,通过爬虫的不断深入,部分网页的入链数会随着增加,逐渐接近真实网络环境中网页的入链数,此步为网络结构的学习过程,随后获得网页的入链数,通过反余切函数对入链数进行归一化处理,得到网页链接价值LV;
Step3、通过TF-IDF算法计算网页内容价值CV;网页内容价值CV反映的是网页内容与主题的相关程度;
Step3.1、统计网页文本词频TF,
Figure BDA0001453673610000021
其中wi为某词在网页中出现的次数,ws为网页中词的总数;
Step3.2、计算拟文档频率IDF,
Figure BDA0001453673610000022
其中D为文档总数,DW为某词出现的文档数;由于DW可能为0但是分母不能为0因此一般情况下用DW+1;
Step3.3、计算网页内容价值CV,计算网页内容价值CV反应的是网页内容与主题的相关程度,网页内容价值CV通过TF-IDF算法计算;网页内容价值CV计算公式如下:G=TF×IDF;Key={G1,G2,…,GN},0<N<t;
Figure BDA0001453673610000023
其中,G为某个词的TF-IDF值,Key是存放的是关键词的G集合,t为Key中关键词的个数;CV为网页内容价值,b为Key集合中主题词的数量,N为Key集合数量;
Step4、计算父代链接与子代链接的静态综合评价值为:
Figure BDA0001453673610000024
其中,f是父代链接与子代链接的静态综合评价值;LV为网页链接价值;CV为网页内容价值;
Figure BDA0001453673610000025
Figure BDA0001453673610000026
分别为网页链接价值和网页内容价值的权值,取
Figure BDA0001453673610000027
Step5、计算下一层爬虫的父代链接;
将维特比算法思想应用在网络爬虫过程中,将网页综合评价较低的网页淘汰,保留评价值较高的网页,则可以得到爬虫最短路径。
互联网中,父子链接关系网络是携带信息的。例如,一个子代网页被一个很重要的父代网页链接,另一个子代网页被一个一般父代网页链接,则可以定义前者网页比后者网页大概率重要。所以,在维特比过程中若要评价子代网页的重要性,需要参考父代链接信息,因此在维特比过程中网页之间比较的就是动态综合评价值。本文引入了转移转移权值w。将转移权值与子代静态综合评价值相乘可以得到子代带有父代链接信息的动态综合评价值。
所述步骤Step5的具体步骤为:
Step5.1、通过公式计算出父代链接的转移权值矩阵W;W=(w0,w1,w2...wi);
Figure BDA0001453673610000031
其中种子URL的转移权值矩阵W为(1),wi为某节点中第i个父代链接的权值,fi为第i个父代链接的静态综合评价值;
Step5.2、根据步骤Step1中得到的父代链接与子代链接的关系图,得到每层的父代链接与子代链接的关系矩阵M:
Figure BDA0001453673610000032
Step5.3、通过公式计算出子代链接的转移权值矩阵Q;
Figure BDA0001453673610000033
Figure BDA0001453673610000034
其中种子URL的转移权值矩阵Q为(1),Qj为某节点中第j个子代链接的权值,fj为第j个子代链接的静态综合评价值;
Step5.4、计算子代链接的动态综合评价值矩阵:F=W×M×Q;
其中,M为父代链接与子代链接的关系矩阵,mij,i∈m,j∈n的取值为0或1,0代表非从属关系,1指代父子链接关系;Q为由子代链接静态综合评价值组成的静态评价矩阵,Q中对角线上Qj为子代链接静态综合评价值,F为子代链接的动态综合评价值矩阵;
Step5.5、通过维特比算法,根据子代链接中动态综合评价值矩阵,筛选出5个动态综合评价值高的链接作为下一层爬虫的父代链接。
Step6、重复Step1-Step5,直到爬虫过程中没有新的网页加入,爬虫结束;
将爬虫过程中所有爬过的网页的静态综合评价值进行对比,包括所有父代链接与子代链接的静态综合评价值,选取静态综合评价值较高的5个网页。
爬虫终止条件为当爬虫过程中没有新的网页加入时则停止;若在逐层爬虫的过程中没有新的网页加入则代表接下来的爬虫只是按照已有网络结构循环爬取,不会有新的网络结构出现,则需要停止爬虫。将所有爬过的网页的静态综合评价值进行对比,选取评价值较高的5个网页。
所述维特比算法为若每个状态取概率最大路径则最后得到最优路径,公式体现为:d(s,xN)=mind(s,x1)+d(x1,x2)+…+d(xN-1,xN):其中S为起始点,xN为第N个节点,d表示距离。
本发明的有益效果是:
1、获取主题某一网站作为种子URL再进行爬取。从给定主题下的某一网站作为种子URL可以更加准确获取主题重要网站;
2、通过计算网页的两个属性:LV(网页链接价值)和CV(网页内容价值)获取相关性较高、网页中最权威的网页;
3、通过父代链接的权值传递下来与子代链接静态综合评价值结合动态计算有效综合评价值,主题爬虫问题转化为最短路径搜索问题,大大增加了搜索结果的效率和准确度;
4、本发明方法可以使用户在给定主题的条件下,通过基于维特比算法的动态网络爬虫,可以高效、准确获取特定主题下的重要网站。
附图说明
图1为本发明的系统流程图。
图2为本发明网页间的链接结构流图。
图3为本发明在图2的基础上维特比过程流图。图中x1,x2,x3,xN为维特比过程的N个节点,从每个节点中获取指定数量的大概率状态,就可以获得最大概率路径,从而高效获取主题网站。
在真实网络环境中存在某主题流行网站,频繁被链接。通常情况下,在特定主题领域内,越被频繁链接,越能体现出重要性。表1为实现仿真真实网络环境中这一现象,人工设定 5个网页(下文称为候选网站):www1330,www732,www4434,www1643,www3957被链接频率(下文称为播撒频率)
图4为本发明表1中Test1单次实验与PageRank算法查全率排序对比图,横坐标为维特比过程中的爬虫层数,纵坐标为查全率;
图5为本发明Test1实验50次后所筛选的特定主题的重要网站以及出现次数,横坐标为筛选出来的重要主题网站,纵坐标为该重要出题网站在实验中出现次数。
图6为本发明表1中Test2单次实验与PageRank算法查全率排序对比图,横坐标为维特比过程中的爬虫层数,纵坐标为查全率;
图7为本发明Test2实验50次后所筛选的特定主题的重要网站以及出现次数,横坐标为筛选出来的重要主题网站,纵坐标为该重要出题网站在实验中出现次数。
图8为本发明表1中Test3单次实验与PageRank算法查全率排序对比图,横坐标为维特比过程中的爬虫层数,纵坐标为查全率;
图9为本发明Test3实验50次后所筛选的特定主题的重要网站以及出现次数,横坐标为筛选出来的重要主题网站,纵坐标为该重要出题网站在实验中出现次数。
具体实施方式
实施例1:如图1-9所示,一种基于维特比算法的网页分类排序动态爬虫方法,所述方法的具体步骤为:
Step1、得到链接关系网络;首先获取任意与主题相关网页作为种子URL,通过爬取种子网页的超链接,获取出链子代链接,得到父代链接与子代链接的关系图,链接结构流图如图2所示;
Step2、计算网页链接价值LV;
Step2.1、计算网页链接价值LV,LV计算公式为:
Figure BDA0001453673610000051
其中,LN为网页当前入链数;入链数是一个动态的值,通过爬虫的不断深入,部分网页的入链数会随着增加,逐渐接近真实网络环境中网页的入链数,此步为网络结构的学习过程,随后获得网页的入链数,通过反余切函数对入链数进行归一化处理,得到网页链接价值LV;
Step3、通过TF-IDF算法计算网页内容价值CV;网页内容价值CV反映的是网页内容与主题的相关程度;
Step3.1、统计网页文本词频TF,
Figure BDA0001453673610000052
其中wi为某词在网页中出现的次数,ws为网页中词的总数;
Step3.2、计算拟文档频率IDF,
Figure BDA0001453673610000053
其中D为文档总数,DW为某词出现的文档数;由于DW可能为0但是分母不能为0因此一般情况下用DW+1;
Step3.3、计算网页内容价值CV,计算网页内容价值CV反应的是网页内容与主题的相关程度,网页内容价值CV通过TF-IDF算法计算;网页内容价值CV计算公式如下:G=TF×IDF;Key={G1,G2,…,GN},0<N<t;
Figure BDA0001453673610000061
其中,G为某个词的TF-IDF值,Key是存放的是关键词的G集合,t为Key中关键词的个数;CV为网页内容价值,b为Key集合中主题词的数量,N为Key集合数量;
Step4、计算父代链接与子代链接的静态综合评价值为:
Figure BDA0001453673610000062
其中,f是父代链接与子代链接的静态综合评价值;LV为网页链接价值;CV为网页内容价值;
Figure BDA0001453673610000063
Figure BDA0001453673610000064
分别为网页链接价值和网页内容价值的权值,取
Figure BDA0001453673610000065
Step5、计算下一层爬虫的父代链接;
将维特比算法思想应用在网络爬虫过程中,将网页综合评价较低的网页淘汰,保留评价值较高的网页,则可以得到爬虫最短路径。其中维特比过程流图如图3所示;
互联网中,父子链接关系网络是携带信息的。例如,一个子代网页被一个很重要的父代网页链接,另一个子代网页被一个一般父代网页链接,则可以定义前者网页比后者网页大概率重要。所以,在维特比过程中若要评价子代网页的重要性,需要参考父代链接信息,因此在维特比过程中网页之间比较的就是动态综合评价值。本文引入了转移转移权值w。将转移权值与子代静态综合评价值相乘可以得到子代带有父代链接信息的动态综合评价值。
所述步骤Step5的具体步骤为:
Step5.1、通过公式计算出父代链接的转移权值矩阵W;W=(w0,w1,w2...wi);
Figure BDA0001453673610000066
其中种子URL的转移权值矩阵W为(1),wi为某节点中第i个父代链接的权值,fi为第i个父代链接的静态综合评价值;
Step5.2、根据步骤Step1中得到的父代链接与子代链接的关系图,得到每层的父代链接与子代链接的关系矩阵M:
Figure BDA0001453673610000071
Step5.3、通过公式计算出子代链接的转移权值矩阵Q;
Figure BDA0001453673610000072
Figure BDA0001453673610000073
其中种子URL的转移权值矩阵Q为(1),Qj为某节点中第j个子代链接的权值,fj为第j个子代链接的静态综合评价值;
Step5.4、计算子代链接的动态综合评价值矩阵:F=W×M×Q;
其中,M为父代链接与子代链接的关系矩阵,mij,i∈m,j∈n的取值为0或1,0代表非从属关系,1指代父子链接关系;Q为由子代链接静态综合评价值组成的静态评价矩阵,Q中对角线上Qj为子代链接静态综合评价值,F为子代链接的动态综合评价值矩阵;
Step5.5、通过维特比算法,根据子代链接中动态综合评价值矩阵,筛选出5个动态综合评价值高的链接作为下一层爬虫的父代链接。
Step6、重复Step1-Step5,直到爬虫过程中没有新的网页加入,爬虫结束;
将爬虫过程中所有爬过的网页的静态综合评价值进行对比,包括所有父代链接与子代链接的静态综合评价值,选取静态综合评价值较高的5个网页。
爬虫终止条件为当爬虫过程中没有新的网页加入时则停止;若在逐层爬虫的过程中没有新的网页加入则代表接下来的爬虫只是按照已有网络结构循环爬取,不会有新的网络结构出现,则需要停止爬虫。将所有爬过的网页的静态综合评价值进行对比,选取评价值较高的5个网页。
所述维特比算法为若每个状态取概率最大路径则最后得到最优路径,公式体现为:d(s,xN)=mind(s,x1)+d(x1,x2)+…+d(xN-1,xN):其中S为起始点,xN为第N个节点,d表示距离。
若在逐层爬虫的过程中没有新的网页加入则代表接下来的爬虫只是按照已有网络结构循环爬取,不会有新的网络结构出现,则需要停止爬虫。将所有爬过的网页的静态综合评价值进行对比,选取评价值较高的5个网页。
经过单次实验,改变指定网站的不同的播撒频率,如表1为5个网页的播撒频率;如表1中Test1,Test2,Test3,可以得到图4、图6、图8这样的对比图。在某一播撒频率下,循环实验50次可以得到特定主题下所筛选出的重要的主题网站。不同的播撒频率会影响重要主题网站的搜索。
表1
Figure BDA0001453673610000081
仿真结果分析:
从图4、图6、图7可以看出,随着候选网站的播撒频率的提高,动态爬虫系统的学习速率越大,所得结果的查全率越高。
图4、图6、图8还可以看出,当任意特定候选网站的播撒频率较小时,在系统的多次学习后,可以得到候选网站外新的目标网站。这说明系统综合分析网站的链接数和网页内容与主题的相关度,得到新的网站的综合评价值大于部分候选网站,避免网站评价只受链接数量的影响,得到更加公平,更综合的网站。
从图5、图7、图9可以看出,经过大数量的试验,系统得到的目标网站越接近候选网站,直到候选网站全部选出。表2为Test1、Test2、Test3三种试验爬取50次与PageRank、全局静态计算所消耗时间对比;
表2
Test1 Test2 Test3 PageRank 全局静态
5s 4s 3.7s 9min26s 1min19s
从表2可以看出,Test1、Test2、Test3三种试验中,随着候选网站播撒频率的提高,系统单次试验耗费的时间越短。这是因为播撒频率越大,候选网站在互联网中的分布密度增加,促进主题网站链接环的形成,根据图4判断条件,减少学习节点,加速系统单次试验的完成。三种试验所消耗的时间远少于PageRank与全局静态计算所消耗的时间。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于维特比算法的网页分类排序动态爬虫方法,其特征在于:所述方法的具体步骤如下:
Step1、得到链接关系网络;首先获取任意与主题相关网页作为种子URL,通过爬取种子网页的超链接,获取出链子代链接,得到父代链接与子代链接的关系图;
Step2、计算网页链接价值LV;
Step2.1、计算网页链接价值LV,LV计算公式为:
Figure FDA0003311560530000011
其中,LN为网页当前入链数;入链数是一个动态的值,通过爬虫的不断深入,部分网页的入链数会随着增加,逐渐接近真实网络环境中网页的入链数,此步为网络结构的学习过程,随后获得网页的入链数,通过反余切函数对入链数进行归一化处理,得到网页链接价值LV;
Step3、通过TF-IDF算法计算网页内容价值CV;
Step3.1、统计网页文本词频TF,
Figure FDA0003311560530000012
其中wi为某词在网页中出现的次数,ws为网页中词的总数;
Step3.2、计算拟文档频率IDF,
Figure FDA0003311560530000013
其中D为文档总数,DW为某词出现的文档数;
Step3.3、计算网页内容价值CV,计算网页内容价值CV反应的是网页内容与主题的相关程度,网页内容价值CV通过TF-IDF算法计算;网页内容价值CV计算公式如下:G=TF×IDF;Key={G1,G2,…,GN},0<N<t;
Figure FDA0003311560530000014
其中,G为某个词的TF-IDF值,Key是存放的是关键词的G集合,t为Key中关键词的个数;CV为网页内容价值,b为Key集合中主题词的数量,N为Key集合数量;
Step4、计算父代链接与子代链接的静态综合评价值为:
Figure FDA0003311560530000015
其中,f是父代链接与子代链接的静态综合评价值;LV为网页链接价值;CV为网页内容价值;
Figure FDA0003311560530000021
Figure FDA0003311560530000022
分别为网页链接价值和网页内容价值的权值,取
Figure FDA0003311560530000023
Step5、通过维特比算法得到下一层爬虫的父代链接;
Step6、重复Step1-Step5,直到爬虫过程中没有新的网页加入,爬虫结束;
将爬虫过程中所有爬过的网页的静态综合评价值进行对比,包括所有父代链接与子代链接的静态综合评价值,选取静态综合评价值较高的5个网页。
2.根据权利要求1所述的基于维特比算法的网页分类排序动态爬虫方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、通过公式计算出父代链接的转移权值矩阵W;W=(w0,w1,w2...wi);
Figure FDA0003311560530000024
其中种子URL的转移权值矩阵W为(1),wi为某节点中第i个父代链接的权值,fi为第i个父代链接的静态综合评价值;
Step5.2、根据步骤Step1中得到的父代链接与子代链接的关系图,得到每层的父代链接与子代链接的关系矩阵M:
Figure FDA0003311560530000025
Step5.3、通过公式计算出子代链接的转移权值矩阵Q;
Figure FDA0003311560530000026
Figure FDA0003311560530000027
其中种子URL的转移权值矩阵Q为(1),Qj为某节点中第j个子代链接的权值,fj为第j个子代链接的静态综合评价值;
Step5.4、计算子代链接的动态综合评价值矩阵:F=W×M×Q;
其中,M为父代链接与子代链接的关系矩阵,mij,i∈m,j∈n的取值为0或1,0代表非从属关系,1指代父子链接关系;Q为由子代链接静态综合评价值组成的静态评价矩阵,Q中对角线上Qj为子代链接静态综合评价值,F为子代链接的动态综合评价值矩阵;
Step5.5、通过维特比算法,根据子代链接中动态综合评价值矩阵,筛选出5个动态综合评价值高的链接作为下一层爬虫的父代链接。
CN201711056113.3A 2017-11-01 2017-11-01 一种基于维特比算法的网页分类排序动态爬虫方法 Active CN108009202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711056113.3A CN108009202B (zh) 2017-11-01 2017-11-01 一种基于维特比算法的网页分类排序动态爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711056113.3A CN108009202B (zh) 2017-11-01 2017-11-01 一种基于维特比算法的网页分类排序动态爬虫方法

Publications (2)

Publication Number Publication Date
CN108009202A CN108009202A (zh) 2018-05-08
CN108009202B true CN108009202B (zh) 2022-02-08

Family

ID=62052065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711056113.3A Active CN108009202B (zh) 2017-11-01 2017-11-01 一种基于维特比算法的网页分类排序动态爬虫方法

Country Status (1)

Country Link
CN (1) CN108009202B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948018B (zh) * 2019-01-10 2021-05-25 北京大学 一种Web结构化数据快速提取方法及系统
CN111143649A (zh) * 2019-12-09 2020-05-12 杭州迪普科技股份有限公司 一种网页搜索方法及装置
CN111753161B (zh) * 2020-06-05 2022-04-29 合肥学院 基于改进的PageRank的网络爬虫方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007041800A1 (en) * 2005-10-14 2007-04-19 Panscient Inc Information extraction system
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN103886020A (zh) * 2014-02-21 2014-06-25 杭州电子科技大学 一种房地产信息快速搜索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065310B2 (en) * 2008-06-25 2011-11-22 Microsoft Corporation Topics in relevance ranking model for web search
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007041800A1 (en) * 2005-10-14 2007-04-19 Panscient Inc Information extraction system
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN103886020A (zh) * 2014-02-21 2014-06-25 杭州电子科技大学 一种房地产信息快速搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Topic Information Collection Based on the Hidden Markov Model;Haiyan Jiang;《Proceedings of the 2nd International Conference on Green Communications and Networks 2012 (GCN 2012)》;20130201;127-136 *
基于网页内容和链接价值的相关度方法的实现;郑国良, 叶飞跃, 张 滨, 林国俊;《计算机工程与设计》;20081231;第29卷(第23期);6020-6046 *

Also Published As

Publication number Publication date
CN108009202A (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
Yin et al. Building taxonomy of web search intents for name entity queries
Jain et al. Page ranking algorithms for web mining
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN105045875B (zh) 个性化信息检索方法及装置
CN100433007C (zh) 提供搜索结果的方法
US20110040717A1 (en) Process for ranking semantic web resoruces
US20100114862A1 (en) Method and apparatus for generating a ranked index of web pages
CN108009202B (zh) 一种基于维特比算法的网页分类排序动态爬虫方法
KR20060017765A (ko) 개념 네트워크
CN102207973B (zh) 一种模糊检索系统及其检索方法
CN104199969A (zh) 网页数据分析方法及装置
Singh et al. A comparative study of page ranking algorithms for information retrieval
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
Kumar et al. A study on web structure mining
CN115130601A (zh) 基于多维特征融合的二阶段学术数据网页分类方法及系统
CN108090200A (zh) 一种排序型隐藏网数据库数据的获取方法
CN103823847A (zh) 一种关键词的扩充方法及装置
Gaur et al. Focused crawling with ontology using semi-automatic tagging for relevancy
Ganguly et al. Performance optimization of focused web crawling using content block segmentation
Batra et al. Content based hidden web ranking algorithm (CHWRA)
Bama et al. Improved pagerank algorithm for web structure mining
CN113312537A (zh) 一种搜索引擎服务可靠性的评价指标计算方法
GB2405709A (en) Search engine optimization using automated target market user profiles
Aggarwal et al. Improving the efficiency of weighted page content rank algorithm using clustering method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240408

Address after: Building A, Building 1, Kunbaida International School, Shangyuan Road, High tech Zone, Kunming City, Yunnan Province, 650000, 14th Floor, 1425, Kunming University of Technology Science Park

Patentee after: Yunnan Fayan Longxiang Technology Co.,Ltd.

Country or region after: China

Address before: 650093 No. 253, Xuefu Road, Wuhua District, Yunnan, Kunming

Patentee before: Kunming University of Science and Technology

Country or region before: China