CN105138558A - 基于用户访问内容的实时个性化信息采集方法 - Google Patents

基于用户访问内容的实时个性化信息采集方法 Download PDF

Info

Publication number
CN105138558A
CN105138558A CN201510435878.2A CN201510435878A CN105138558A CN 105138558 A CN105138558 A CN 105138558A CN 201510435878 A CN201510435878 A CN 201510435878A CN 105138558 A CN105138558 A CN 105138558A
Authority
CN
China
Prior art keywords
sublink
link
current
key words
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510435878.2A
Other languages
English (en)
Other versions
CN105138558B (zh
Inventor
曹叶文
王鹏达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201510435878.2A priority Critical patent/CN105138558B/zh
Publication of CN105138558A publication Critical patent/CN105138558A/zh
Application granted granted Critical
Publication of CN105138558B publication Critical patent/CN105138558B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于用户访问内容的实时个性化信息采集方法,步骤如下:通过实时分析用户网络请求获取当前种子页面,并提取网页的结构化信息;根据网页的结构化信息从多角度提取主题关键词;组成主题关键词词条;提取当前种子页面的子链接的锚文本,依据主题关键词词条对锚文本进行分词,并依据分词后的结果建立向量空间模型,根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效子链接;建立链接主题分类库,进行种子链接优先级设定和当前种子链接主题分类;计算链接主题分类库中所有子链接的重要性,并依据重要性对子链接进行排序,并进行排序后相应页面信息的下载和数据存储。

Description

基于用户访问内容的实时个性化信息采集方法
技术领域
本发明涉及一种基于用户访问内容的实时个性化信息采集方法。
背景技术
随着家庭环境中智能手机、平板电脑等终端产品的增加,各种多媒体数据的丰富,用户已逐渐建立起对智能终端设备的使用习惯。然而随着终端产品的增加,网络信息的增长也极为迅速,海量的信息可以为用户提供丰富信息资源的同时,也对用户如何快速从信息海洋中获取所需信息提出了挑战。根据用户访问内容进行的实时个性化信息采集成为大数据背景下一个重要课题,对后续的数据分析和挖掘具有至关重要的推动意义。
现今常用的根据主题定向抓取网页资源的技术为聚焦爬虫技术,通用聚焦爬虫的目标是根据事先选定的主题来人工设定主题关键字和种子链接,从而尽可能多地采集相关页面,这会消耗非常多的系统资源、网络带宽,处理速度慢。并且现今的聚焦爬虫技术主要采用基于内容评价的主题爬行策略,忽略了链接信息的作用,预测链接价值的能力较差。
发明内容
本发明的目的就是为了解决上述问题,提供一种基于用户访问内容的实时个性化信息采集方法,它通过分析用户网络请求实时获取用户访问链接,结合内容评价和链接结构准确快速爬取与主题相关的有效子链接,并建立链接主题分类库对采集的链接进行主题分类、重要性排序和内容存储。
为了实现上述目的,本发明采用如下技术方案:
一种基于用户访问内容的实时个性化信息采集方法,包括如下步骤:
步骤(1):通过实时分析用户网络请求获取当前种子页面,并提取网页的结构化信息;
步骤(2):根据网页的结构化信息从多角度提取主题关键词;组成主题关键词词条;
步骤(3):提取当前种子页面的子链接的锚文本,依据主题关键词词条对锚文本进行分词,并依据分词后的结果建立向量空间模型,根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效子链接;
步骤(4):建立链接主题分类库,进行种子链接优先级设定和当前种子链接主题分类;
步骤(5):计算链接主题分类库中所有子链接的重要性,并依据重要性对子链接进行排序,并进行排序后所有子链接所对应的页面信息的下载和数据存储。
所述步骤(1):实时获取用户网络请求,并从所述网络请求中提取统一资源定位符URL(UniformResourceLocator,是互联网标准资源的地址),根据URL下载对应网页作为当前种子页面,并提取网页的结构化信息;
所述步骤(2):对步骤(1)的网页的结构化信息进行分词操作,获得所有候选关键词,从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权值,并选取权值最大的设定数量的词作为主题关键词;将选取出来的主题关键词组成主题关键词词条,将选取出来的主题关键词相对应的权值组成特征向量;
所述步骤(3):爬取种子页面中所有子链接,提取每个子链接的锚文本,将步骤(2)的主题关键词词条作为词库对锚文本进行分词,根据锚文本分词后的词对应的词频获取相应子链接的特征向量,组成向量空间模型,根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效子链接;
所述步骤(4):建立链接主题分类库,进行种子链接优先级设定和当前种子链接主题分类:
进行种子链接优先级设定,并利用当前链接主题分类库对当前种子链接进行匹配,
如果种子链接属于当前链接主题分类库,则将步骤(3)提取的有效子链接存入当前链接主题分类库并跳转执行步骤(1);
如果种子链接不属于当前链接主题分类库,则根据种子链接建立新的链接主题分类库,并执行步骤(5);
所述步骤(5):根据步骤(3)的子链接与当前种子页面的主题相关性和步骤(4)的当前种子链接优先级,计算当前链接主题分类库中所有子链接的重要性,根据重要性对链接主题分类库中的所有URL进行排序,并进行排序后相应页面信息的下载和数据存储。
所述步骤(1)的网页的结构化信息包括:网页的标题、简介和正文。
所述步骤(2)的步骤为:
步骤(2-1):对标题、简介和正文进行分词操作,去除干扰词汇,最终获得所有候选关键词;
步骤(2-2):统计所有候选关键词的属性信息,并将所有候选关键词的属性信息存储;所述属性信息包括:包括词频、词位置、词跨度、词长和词性;
步骤(2-3):从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权重参数,根据每个候选关键词的权重参数,确定每个候选关键词的权值Score(xi),并选取权值最大的设定数量的词作为主题关键词,将选取出来的主题关键词组成主题关键词词条,将选取出来的主题关键词相对应的权值组成特征向量。
所述步骤(2-1)中干扰词汇包括停用词、合并数字和人名;
所述步骤(2-2)的所有候选关键词的属性信息存储到哈希表wordMap中,其中key为候选关键词,value为自定义的词信息结构对象,存储每个候选关键词的属性信息。
所述步骤(2-3)中,从统计分析方面计算每个候选关键词的权重参数:
利用词频加权函数Tf(xi)计算当前种子页面中候选关键词xi的词频权重Tf(xi);
计算公式为:
T f ( x i ) = n i Σ j = 1 k n j ,
其中ni是候选关键词出现的次数,而分母是所有k个候选关键词的出现次数之和。
所述步骤(2-3)中,从结构分析方面计算每个候选关键词的权重参数:
a利用词位置加权函数计算候选关键词xi的词位置权重Loc(xi);
计算公式为:
Loc(xi)=tloc
tloc是词位置加权函数Loc(xi)=tloc的一个系数,表示词语出现的位置。
b利用词跨度加权函数计算候选关键词xi的词跨度权重Spa(xi);
计算公式为:
S p a ( x i ) = l i L ,
其中,li表示词语出现的段落数量,L表示段落总数。
所述步骤(2-3)中,从语言分析方面计算每个候选关键词的权重参数:
c利用词长加权函数计算候选关键词的词长权重Len(xi);
计算公式为:
L e n ( x i ) = l e n ( x i ) M a x ( l e n ( x 1 ) , l e n ( x 2 ) , ... , l e n ( x k ) ) ,
其中,len(xi)表示候选关键词xi的实际词长,分母Max(len(x1),len(x2),...,len(xk))表示k个候选关键词中词长最长的长度;len(xk)表示第k个候选关键词中词长的长度。
d利用词性加权函数计算候选关键词的词性权重Pos(xi);
计算公式为:
Pos(xi)=tpos
其中,tpos是词性加权函数Pos(xi)=tpos的一个系数,表示词性。
所述步骤(2-3)中,根据每个候选关键词的权重参数,确定每个候选关键词的权值Score(xi)的计算公式为:
Score(xi)=Tf(xi)×(1+Loc(xi)+Spa(xi)+Len(xi)+Pos(xi))。
选取权值最大的设定数量的词作为主题关键词,将选取出来的主题关键词组成主题关键词词条β=(x1,x2,...,xn),将选取出来的主题关键词相对应的权值组成特征向量α=(w1,w2,...,wn)。xn表示所有的主题关键词,wn表示所有对应主题关键词的权值,n是指主题关键词的数量。
所述步骤(3)的向量空间模型是由一个特征向量组和两个对应的特征向量组成:所述特征向量组就是步骤(2)计算获得的种子页面的主题关键词;所述两个对应的特征向量分别是:(1)种子页面内容与主题关键词对应的权值组成的特征向量,(2)子链接的锚文本内容与主题关键词对应的权值组成的特征向量;
所述步骤(3)的步骤为:
步骤(3-1):爬取当前种子页面中的所有子链接,提取每个子链接的锚文本,过滤掉指向图片、视频和门户网站的子链接,判断剩余子链接是否被爬取过,如果是则返回步骤(3-1),如果否则进入步骤(3-2);
步骤(3-2):将主题关键词词条作为词库对锚文本进行分词,根据锚文本分词后的词对应的词频获取相应锚文本的特征向量,使每个子链接的锚文本的特征向量与主题关键词的特征向量组成向量空间模型VSM,vectorspacemodel;
步骤(3-3):利用余弦定理计算子链接与当前种子页面的主题相关性sim(α,αi),判断主题相关性是否大于第一设定阈值,如果大于,就把主题相关性大于设定阈值的子链接判定为有效子链接,否则返回步骤(3-1);
步骤(3-4):继续判断有效子连接的数量是否达到第二设定阈值,如果达到就结束,如果未达到,就返回步骤(3-1)。
所述步骤(3-3)中余弦定理公式为:
s i m ( α , α i ) = Σ k = 1 n w k w i k Σ k = 1 n w k 2 Σ k = 1 n w i k 2 ;
其中,α、αi分别为当前种子页面和子链接的特征向量,wk、wik分别为当前种子页面和子链接的第k个特征向量值。
所述步骤(4)的建立链接主题分类库,是指按照种子链接的内容进行主题分类,然后依据主题分别对种子链接进行存储。
所述步骤(5)的步骤为:
步骤(5-1):根据当前链接主题分类库中的所有URL进行深度爬取,直到爬取的有效子链接数量达到设定阈值时停止并进行存储;
步骤(5-2):将当前链接主题分类库中每一个URL与种子页面的主题相关性sim(α,αi)、链接优先级P(Pi),作为参数带入到改进的PageRank公式当中计算链接重要性;
步骤(5-3):根据重要性对链接主题分类库中的所有URL进行排序,并进行相应页面信息的下载和数据库存储。
所述步骤(5-2)中改进的PageRank公式为:
P R ( P i ) = ( 1 - d ) + d Σ j = 0 n P R ( P j ) C ( P j ) × ( 1 + s i m ( α , α i ) + P ( P i ) ) ;
其中,PR(Pi)表示当前页面的PageRank值;n为连接到当前页面的链接总数;PR(Pj)表示连接到当前页面的网页Pj的PageRank值;C(Pj)表示页面Pj的出站链接总数;d为阻尼系数;P(Pi)为用户访问的当前种子链接的优先级。
本发明的有益效果:
本发明基于用户访问内容并结合内容评价和链接结构进行实时的个性化信息采集。通过分析种子页面内容提取主题关键词,并建立其与子链接锚文本之间的向量空间模型进而获取相关链接,最后利用改进的PageRank算法计算链接主题分类库中所有链接的重要性。
本发明不仅能够准确快速的采集与用户访问内容相关的链接,并且能够对采集的链接进行主题分类、重要性排序和页面内容存储,对后续的数据分析和挖掘具有至关重要的推动意义。
附图说明
图1是本发明的整体方法流程图;
图2是本发明所述的提取种子页面主题关键词方法的流程图。
图3是本发明所述的爬取有效子链接方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
聚焦爬虫:又称为网页蜘蛛,是一种按照设定的规则,自动的抓取万维网信息的程序或者脚本。
如图1所示,
1.首先通过智能网关实时获取用户网络请求,并从所述网络请求中提取URL,根据URL下载对应页面作为当前的种子页面。过滤导航、广告和版权声明等噪声内容,分别提取标题、简介和正文内容,保存在自定义的网页信息结构WebText中。
2.多角度分析提取种子页面主题关键词。如图2所示,
(2.1)首先分别对标题、简介和正文内容进行分词操作,去停用词、合并数字和人名等词汇,获取所有候选关键词。
(2.2)通过分析链接结构,获取域名标题,去除与域名标题一致的候选关键词。对余下的候选关键词进行统计词频、判断词位置、过滤词性操作。建立候选关键词哈希表wordMap,保存分词统计信息,其中key为String类型的候选关键词,value为词信息结构对象,存储所有候选关键词的词频、词位置、词跨度、词长、词性和权值6项信息。
(2.3)根据候选关键词哈希表中的词信息从统计分析、结构分析和语言分析三个方面确定候选关键词的权值。
(2.3.1)统计分析方面,计算种子页面中的候选关键词xi的词频Tf(xi)。计算公式为其中ni是候选关键词出现的次数,而分母是所有k个候选关键词的出现次数之和。
(2.3.2)结构分析方面,词语的重要程度与其出现的位置密切相关,出现在标题的词语往往比出现在正文中的词语更重要,利用词位置加权函数计算出候选关键词xi的词位置权值参数Loc(xi)。计算公式为Loc(xi)=tloc,当词语出现在标题位置时tloc为2.5,出现在简介位置时为1,出现在正文位置时为0。
一个词的跨段落情况说明这个词是描述局部的还是表达全文的。跨段落越多,说明该词越重要,全局性越强,利用词跨度加权函数计算出候选关键词xi的词跨度权值参数Spa(xi)。计算公式为其中li表示词语出现的段落数量,L表示段落总数。
(2.3.3)语言分析方面,通常词语的长度越长,则其包含语义更丰富,成为正式关键词的概率也越大,利用词长加权函数计算出候选关键词xi的词长权值参数Len(xi)。计算公式为其中len(xi)表示候选关键词xi的实际词长,分母表示k个候选关键词中词长最长词的长度。
通过总结大量实验数据可知,在关键词库中,名词和包含名词性成分的关键词占重要部分,利用词性加权函数计算出候选关键词xi的词性权值参数Pos(xi)。计算公式为Pos(xi)=tpos,其中当词语为名词时,tpos为1,否则为0。
(2.4)通过统计分析、结构分析和语言分析,将获得的候选关键词的词频,词位置、词跨度、词长、词性权值参数带入候选关键词的权值计算公式,则有:
Score(xi)=Tf(xi)×(1+Loc(xi)+Spa(xi)+Len(xi)+Pos(xi))
利用上述公式计算每个候选关键词的权值,取权值最大的n个词组成主题关键词词条β=(x1,x2,...,xn),并将相应的词权值组成一个特征向量α=(w1,w2,...,wn)。
3.爬取种子页面中的URL及其锚文本,并进行链接过滤,利用正则匹配方法去除指向图片、视频和门户网站的URL。将获取的URL与队列中的URL进行匹配,判断其是否被访问过,如果被访问过则进行重新抓取,如图3所示。
4.将主题关键词词条β作为词库对获取的链接锚文本进行分词,并根据词频获得锚文本的特征向量αi=(wi1,wi2,...,win),使每一个子链接锚文本都与主题关键词组成向量空间模型(VSM),利用余弦定理计算子链接与种子页面的主题相关性sim(α,αi),并且把主题相关性大于阈值(1)的子链接判定为有效子链接,余弦定理公式为:
s i m ( α , α i ) = Σ k = 1 n w k w i k Σ k = 1 n w k 2 Σ k = 1 n w i k 2
其中,α、αi分别为种子页面和子链接的特征向量,wk、wik分别为种子页面和子链接的第k个特征向量值。
5.进行种子链接优先级设定和主题分类,将用户访问的种子链接的优先级设定为P(Pi),将其他爬取到的有效子链接的优先级设定为零。然后对当前种子链接进行主题分类,利用当前链接主题分类库对种子链接进行匹配,如果存在则将爬取到的有效子链接加入到当前分类库中,并跳转到步骤1。如果不存在,则根据当前链接主题分类库中的所有URL利用上述方法进行深度爬取,直到爬取的有效子链接数量达到阈值(2)时停止并存储至当前分类库,最后为当前种子链接建立新的链接主题分类库,执行步骤6。
6.提取当前链接主题分类库中所有的URL,将其与当前种子页面的主题相关性sim(α,αi)、链接优先级P(Pi),作为参数带入到改进的PageRank公式当中,计算每一个URL的重要性。改进的PageRank公式为:
P R ( P i ) = ( 1 - d ) + d Σ j = 0 n P R ( P j ) C ( P j ) × ( 1 + s i m ( α , α i ) + P ( P i ) )
其中,PR(Pi)表示当前页面的PageRank值;n为连接到当前页面的链接总数;PR(Pj)表示连接到当前页面的网页Pj的PageRank值;C(Pj)表示页面Pj的出站链接总数;d为阻尼系数,一般设定为0.85。
7.根据链接重要性对链接主题分类库中的所有URL排序,并进行对应网页内容下载,最后按类别保存至Web页面库。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于用户访问内容的实时个性化信息采集方法,其特征是,包括如下步骤:
步骤(1):通过实时分析用户网络请求获取当前种子页面,并提取网页的结构化信息;
步骤(2):根据网页的结构化信息从多角度提取主题关键词;组成主题关键词词条;
步骤(3):提取当前种子页面的子链接的锚文本,依据主题关键词词条对锚文本进行分词,并依据分词后的结果建立向量空间模型,根据向量空间模型利用余弦定理计算子链接与当前种子页面的主题相关性;并把主题相关性大于设定阈值的子链接判定为有效子链接;
步骤(4):建立链接主题分类库,进行种子链接优先级设定和当前种子链接主题分类;
步骤(5):计算链接主题分类库中所有子链接的重要性,并依据重要性对子链接进行排序,并进行排序后所有子链接所对应的页面信息的下载和数据存储。
2.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,所述步骤(2):对步骤(1)的网页的结构化信息进行分词操作,获得所有候选关键词,从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权值,并选取权值最大的设定数量的词作为主题关键词;将选取出来的主题关键词组成主题关键词词条,将选取出来的主题关键词相对应的权值组成特征向量。
3.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(4):进行种子链接优先级设定,并利用当前链接主题分类库对当前种子链接进行匹配,
如果种子链接属于当前链接主题分类库,则将步骤(3)提取的有效子链接存入当前链接主题分类库并跳转执行步骤(1);
如果种子链接不属于当前链接主题分类库,则根据种子链接建立新的链接主题分类库,并执行步骤(5)。
4.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(5):根据步骤(3)的子链接与当前种子页面的主题相关性和步骤(4)的当前种子链接优先级,计算当前链接主题分类库中所有子链接的重要性,根据重要性对链接主题分类库中的所有URL进行排序,并进行排序后相应页面信息的下载和数据存储。
5.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(2)的步骤为:
步骤(2-1):对标题、简介和正文进行分词操作,去除干扰词汇,最终获得所有候选关键词;
步骤(2-2):统计所有候选关键词的属性信息,并将所有候选关键词的属性信息存储;所述属性信息包括:包括词频、词位置、词跨度、词长和词性;
步骤(2-3):从统计分析、结构分析和语言分析三个方面分别计算每个候选关键词的权重参数,根据每个候选关键词的权重参数,确定每个候选关键词的权值Score(xi),并选取权值最大的设定数量的词作为主题关键词,将选取出来的主题关键词组成主题关键词词条,将选取出来的主题关键词相对应的权值组成特征向量。
6.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(3)的向量空间模型是由一个特征向量组和两个对应的特征向量组成:所述特征向量组就是步骤(2)计算获得的种子页面的主题关键词;所述两个对应的特征向量分别是:(1)种子页面内容与主题关键词对应的权值组成的特征向量,(2)子链接的锚文本内容与主题关键词对应的权值组成的特征向量。
7.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(3)的步骤为:
步骤(3-1):爬取当前种子页面中的所有子链接,提取每个子链接的锚文本,过滤掉指向图片、视频和门户网站的子链接,判断剩余子链接是否被爬取过,如果是则返回步骤(3-1),如果否则进入步骤(3-2);
步骤(3-2):将主题关键词词条作为词库对锚文本进行分词,根据锚文本分词后的词对应的词频获取相应锚文本的特征向量,使每个子链接的锚文本的特征向量与主题关键词的特征向量组成向量空间模型VSM,vectorspacemodel;
步骤(3-3):利用余弦定理计算子链接与当前种子页面的主题相关性sim(α,αi),判断主题相关性是否大于第一设定阈值,如果大于,就把主题相关性大于设定阈值的子链接判定为有效子链接,否则返回步骤(3-1);
步骤(3-4):继续判断有效子连接的数量是否达到第二设定阈值,如果达到就结束,如果未达到,就返回步骤(3-1)。
8.如权利要求7所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(3-3)中余弦定理公式为:
s i m ( α , α i ) = Σ k = 1 n w k w i k Σ k = 1 n w k 2 Σ k = 1 n w i k 2 ;
其中,α、αi分别为当前种子页面和子链接的特征向量,wk、wik分别为当前种子页面和子链接的第k个特征向量值。
9.如权利要求1所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(5)的步骤为:
步骤(5-1):根据当前链接主题分类库中的所有URL进行深度爬取,直到爬取的有效子链接数量达到设定阈值时停止并进行存储;
步骤(5-2):将当前链接主题分类库中每一个URL与种子页面的主题相关性sim(α,αi)、链接优先级P(Pi),作为参数带入到改进的PageRank公式当中计算链接重要性;
步骤(5-3):根据重要性对链接主题分类库中的所有URL进行排序,并进行相应页面信息的下载和数据库存储。
10.如权利要求9所述的一种基于用户访问内容的实时个性化信息采集方法,其特征是,
所述步骤(5-2)中改进的PageRank公式为:
P R ( P i ) = ( 1 - d ) + d Σ j = 0 n P R ( P j ) C ( P j ) × ( 1 + s i m ( α , α i ) + P ( P i ) ) ;
其中,PR(Pi)表示当前页面的PageRank值;n为连接到当前页面的链接总数;PR(Pj)表示连接到当前页面的网页Pj的PageRank值;C(Pj)表示页面Pj的出站链接总数;d为阻尼系数;P(Pi)为用户访问的当前种子链接的优先级。
CN201510435878.2A 2015-07-22 2015-07-22 基于用户访问内容的实时个性化信息采集方法 Expired - Fee Related CN105138558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510435878.2A CN105138558B (zh) 2015-07-22 2015-07-22 基于用户访问内容的实时个性化信息采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510435878.2A CN105138558B (zh) 2015-07-22 2015-07-22 基于用户访问内容的实时个性化信息采集方法

Publications (2)

Publication Number Publication Date
CN105138558A true CN105138558A (zh) 2015-12-09
CN105138558B CN105138558B (zh) 2018-05-22

Family

ID=54723908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510435878.2A Expired - Fee Related CN105138558B (zh) 2015-07-22 2015-07-22 基于用户访问内容的实时个性化信息采集方法

Country Status (1)

Country Link
CN (1) CN105138558B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824884A (zh) * 2016-03-10 2016-08-03 海信集团有限公司 一种用户上网信息处理方法及装置
CN105930369A (zh) * 2016-04-13 2016-09-07 南京新与力文化传播有限公司 一种快速分析Web信息的方法
CN106294542A (zh) * 2016-07-25 2017-01-04 北京市信访矛盾分析研究中心 一种信访数据挖掘评分方法及系统
CN106612279A (zh) * 2016-12-22 2017-05-03 北京知道创宇信息技术有限公司 网络地址的处理方法、设备及系统
CN108228656A (zh) * 2016-12-21 2018-06-29 普天信息技术有限公司 基于cart决策树的url分类方法及装置
CN108681571A (zh) * 2018-05-05 2018-10-19 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108959382A (zh) * 2018-05-30 2018-12-07 维沃移动通信有限公司 一种音视频检测方法及移动终端
CN109284369A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 证券新闻资讯重要性的判定方法、系统、装置及介质
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN110909118A (zh) * 2018-08-28 2020-03-24 中国移动通信集团重庆有限公司 筛选信息的方法、装置、设备和介质
CN112116473A (zh) * 2020-09-18 2020-12-22 上海计算机软件技术开发中心 跨链公证人机制评价系统和平台
CN112631139A (zh) * 2020-12-14 2021-04-09 山东大学 智能家居指令合理性实时检测系统及方法
CN113435199A (zh) * 2021-07-18 2021-09-24 谢勇 一种性格对应文化的存储读取干涉方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090198676A1 (en) * 2006-06-01 2009-08-06 Microsoft Corporation Indexing Documents for Information Retrieval
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090198676A1 (en) * 2006-06-01 2009-08-06 Microsoft Corporation Indexing Documents for Information Retrieval
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈丛丛: "主题爬虫搜索策略研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824884A (zh) * 2016-03-10 2016-08-03 海信集团有限公司 一种用户上网信息处理方法及装置
CN105930369A (zh) * 2016-04-13 2016-09-07 南京新与力文化传播有限公司 一种快速分析Web信息的方法
CN106294542A (zh) * 2016-07-25 2017-01-04 北京市信访矛盾分析研究中心 一种信访数据挖掘评分方法及系统
CN106294542B (zh) * 2016-07-25 2018-03-30 北京市信访矛盾分析研究中心 一种信访数据挖掘评分方法及系统
CN108228656A (zh) * 2016-12-21 2018-06-29 普天信息技术有限公司 基于cart决策树的url分类方法及装置
CN106612279B (zh) * 2016-12-22 2020-04-17 北京知道创宇信息技术股份有限公司 网络地址的处理方法、设备及系统
CN106612279A (zh) * 2016-12-22 2017-05-03 北京知道创宇信息技术有限公司 网络地址的处理方法、设备及系统
CN108681571A (zh) * 2018-05-05 2018-10-19 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108681571B (zh) * 2018-05-05 2024-02-27 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108959382B (zh) * 2018-05-30 2021-06-18 维沃移动通信有限公司 一种音视频检测方法及移动终端
CN108959382A (zh) * 2018-05-30 2018-12-07 维沃移动通信有限公司 一种音视频检测方法及移动终端
CN109284369B (zh) * 2018-08-01 2020-10-09 数据地平线(广州)科技有限公司 证券新闻资讯重要性的判定方法、系统、装置及介质
CN109284369A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 证券新闻资讯重要性的判定方法、系统、装置及介质
CN110909118A (zh) * 2018-08-28 2020-03-24 中国移动通信集团重庆有限公司 筛选信息的方法、装置、设备和介质
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN109614625B (zh) * 2018-12-17 2022-06-17 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN112116473A (zh) * 2020-09-18 2020-12-22 上海计算机软件技术开发中心 跨链公证人机制评价系统和平台
CN112631139A (zh) * 2020-12-14 2021-04-09 山东大学 智能家居指令合理性实时检测系统及方法
CN112631139B (zh) * 2020-12-14 2022-04-22 山东大学 智能家居指令合理性实时检测系统及方法
CN113435199A (zh) * 2021-07-18 2021-09-24 谢勇 一种性格对应文化的存储读取干涉方法及系统

Also Published As

Publication number Publication date
CN105138558B (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN101067808B (zh) 文本关键词的提取方法
CN103870461B (zh) 主题推荐方法、装置和服务器
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN102087648B (zh) 一种新闻评论页面的爬取方法及系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN104199874A (zh) 一种基于用户浏览行为的网页推荐方法
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN103020123B (zh) 一种搜索不良视频网站的方法
CN110555154B (zh) 一种面向主题的信息检索方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN106021383A (zh) 网页相似度计算方法及装置
CN101777053A (zh) 一种识别作弊网页的方法及系统
CN101383782A (zh) 一种获取网络资源标识的方法及系统
CN106021418A (zh) 新闻事件的聚类方法及装置
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN104503988A (zh) 搜索方法及装置
CN105119910A (zh) 基于模板的在线社交网络垃圾信息实时检测方法
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
CN102073678A (zh) 一种网站信息分析系统及其方法
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180522

Termination date: 20190722