CN103927365B - 一种基于能量函数的网页时间敏感性度量方法 - Google Patents

一种基于能量函数的网页时间敏感性度量方法 Download PDF

Info

Publication number
CN103927365B
CN103927365B CN201410160080.7A CN201410160080A CN103927365B CN 103927365 B CN103927365 B CN 103927365B CN 201410160080 A CN201410160080 A CN 201410160080A CN 103927365 B CN103927365 B CN 103927365B
Authority
CN
China
Prior art keywords
webpage
energy
time
moment
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410160080.7A
Other languages
English (en)
Other versions
CN103927365A (zh
Inventor
李石君
甘琳
朱昌盛
刘世超
余伟
李宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201410160080.7A priority Critical patent/CN103927365B/zh
Publication of CN103927365A publication Critical patent/CN103927365A/zh
Application granted granted Critical
Publication of CN103927365B publication Critical patent/CN103927365B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于能量函数的网页时间敏感性度量方法,属于数据质量的研究范畴,涉及时态Web、网络信息质量评估、使用模式等技术领域。目前,Web垃圾信息泛滥,数据质量低下已经成为普遍现象。导致这一现象的一个重要原因是信息是时间敏感的,即信息是随着时间的推移而变化的。然而不同信息的时间敏感程度是不一样的,为统一度量信息的时间敏感度,本发明根据Web用户对信息的需求、信息量的增加和页面的链接关系三个方面对网页的能量进行度量,用能量的变化刻画网页的时间敏感度。本方法可应用于网页质量评价和排序,也可应用于信息检索中,以提高检索结果的质量。

Description

一种基于能量函数的网页时间敏感性度量方法
技术领域
本发明属于时态Web、Web信息质量评估、使用模式等技术领域,涉及数据质量的研究范畴,特别涉及一种基于能量函数的网页时间敏感性度量方法。
背景技术
时态Web:近年来,时态Web日渐成为学者们关注的焦点。Web学术的权威国际会议WWW(International World Wide Web Conference)在2011年专门设立了“时态Web”研讨会——TWAW(Temporal Web Analytics Workshop)。该研讨会主要讨论了时间信息检索、Web内容的时间性和Web档案的搜索与访问的时间性三个方面。Omar Alonso等分析了文档中时间信息的类型,时间的表述方式及形式化,时间的标注等内容,指出了时态网络的研究方向,包括时空信息挖掘、时态检索、时间相似度与实时搜索等。Miklós Erdélyi等提出了新的基于特征的时态链接相似度,给出了在大规模的图中高效计算的方法,用以探测网络的垃圾信息。Marilena Oita等研究了网页进化的规律,并对近年来捕捉网页随时间而变化轨迹的各种最优方法进行了对比。
另外,Brian D.Davison等人基于在不同时间点的多种网络快照组成的时态Web图,建立了网络冲浪模型来组合各个网络的刷新率。Jure Leskovec等人对在线媒体的时态变化模式进行了研究,他认为网页内容存在产生、发展和消退的生命周期,他们对生命周期内网页内容随时间变化的规律性进行了研究,并针对两组不同时间敏感度的网页进行了时态模式实验。Yun Chi等通过“社区分解”分析结构和时间动态变化发现社区。SusanT.Dumais分析了Web内容随时间的变化,用户重复访问网页的行为,以及用户意图和网页内容对用户重复访问模式的影响,并将Web页面和链接的演化模式、文档改变数量和频率等应用到相关度排序中,以改善排序结果。
Web信息质量评估:与本发明相关的Web信息质量评估主要涉及可信度、新鲜度、时效性、三个方面:
(1)可信度方面:Weiyi Meng和Clement Yu基于信息的正确性、新鲜度和一致性,研究了Web信息的真实性,他们利用Web中的其他信息判断给定语句是否真实,并针对虚假的陈述找出最相近的真实表达;
(2)新鲜度方面:新鲜度(Freshness)的研究开始得很早,已经有了广泛研究。特别是在搜索领域,新鲜度已经逐渐成为一个度量搜索结果的重要标准。Brian D.Davison从Web用户的维护活动中挖掘网页的新鲜度,并将这个特征用于搜索。他们从页面本身和链入页面两方面量化了Web随着时间推移的新鲜度,并利用两种新鲜度度量类型间的时间相关性量化页面新鲜度的可信性。Jun Ma等人提出了一个基于网页的发表时间的网页质量排序模型,并将该模型应用于PageRank算法中,以提高检索性能;
(3)时效性方面:时效性(timeliness)是评价Web信息质量的一个重要指标,陈传夫等人提出了一个时效性评估框架,在采用层次分析法确定各级指标权重的过程中,构造了时效性指标的判断矩阵。Yanlong Zhang等提出了平均发布时延(Mean Time Delay ToPublish)、网站演化速度(Site Evolution Speed)和主页更新频率(Homepage UpdateFrequency)三种网站时效性度量方法。Elad Yom-Tov和Fernando Diaz针对三个新闻事件,研究了新闻媒体(电视、报纸和新闻网站)、社会媒体(包括Facebook和Twitter)和搜索引擎三种信息源的时效性和信息源传播范围与地理位置之间的关系。Sandra de F.MendesSampaio等人构建了基于数据的准确度、完整度和时效性的数据质量评价模型对网页进行评价,并将该模型应用到已有的信息查询系统中,以提高查询结果的质量。
然而,时间敏感性分析与时效性度量、新鲜度和可信度是有区别的。Web内容的时效性度量往往是在时间戳缺失、不完整或者不确定的情况下确定Web内容是否过时,换句话说,Web内容的时间戳可能没有、不完整或者不确定,进行时效性度量就是要找到Web内容的时间戳;Web内容的新鲜度是仅仅是考虑信息发布的时间与当前系统时间的距离。而Web内容的时间敏感性分析就是发现Web内容随时间变化而变化的快慢规律,从而可以帮助确定Web内容的时间戳进行时效性度量。也就是,时效性度量、新鲜度只需要明确数据的时间戳,确定是否过时,是否新鲜,不需要考虑中间过程,是以目的为导向的。而敏感性分析却需要考虑信息随时间变化的过程和规律,不需要确定是否过时,是以过程为导向的。
可信度与敏感性分析的差别在于,Web内容的可信度是考虑Web内容的表达是否正确、可靠和真实,时间只是参考因素,而敏感性分析并不考虑内容的真实性,时间是研究的主要对象。
其他Web信息质量评估的方法还包括:方滨兴等研究了利用网页质量评价的新维度——社会性标注——以改进网页检索性能;中科院钟华、黄涛等提出了一种网络资源敏感的性能诊断方法。
本发明还涉及到使用模式方面的研究:在使用模式(Usage Pattern)方面,已有大量的研究工作。K Sudheer Reddy等人采用了一种基于模式摘要的聚类方法,挖掘对网站通常进行不定期访问的用户的行为模式。Lixuan Zhang和Iryna Pentina将微博用户与Twitter用户进行了对比,研究了新浪微博用户的动机和使用模式。上述研究仅限于发现模式,而Robert Cooley等人则研究了这些发现的模式是否有趣,他们基于支持逻辑(SupportLogic)提出了一个量化模型,用于度量模式的趣味性,在Web数据中自动识别有趣的模式。在使用模式的应用方面,主要是用于帮助用户快速获取目标信息和对用户进行个性化推荐。Qiqi Jiang等人采用序列分析的方法研究不同的网页浏览模式,识别出搜索信息浏览、社会信息浏览、电子商务信息浏览和直接浏览四类独特的Web浏览行为类别。OznurKirmemis Alkan和Pinar Karagoz提出了一个新的模式挖掘框架,该框架将用户会话的聚类与PathSearch-BF算法结合,构建智能访问路径,促进网站的个性化,辅助用户更容易到达目标页面。Yanchun Zhang等人基于Web事务数据,研究了以任务为对象的用户行为模式,结合概率潜在语义分析(PLSA)模型,提出了一个Web推荐框架,依据派生任务优先的规则,给用户推荐感兴趣的内容或者定制信息。使用模式除了被用于推荐外,还有可以应用与其他一些领域。Nurit Gal-Oz1等人从Web应用的使用信息和使用模式中挖掘用户的角色。Johann Schrammel等人研究了在不同类型的Web社区中用户的个性特征、使用模式和信息泄露之间的关系。
随着Web信息的飞速增长,Web正日益成为人们发布和获取信息最主要渠道,Web信息质量变得尤为重要。目前,Web垃圾信息泛滥,数据质量低下已经成为普遍现象。导致这一现象的一个重要原因是信息是时间敏感的,即信息是随着时间的推移而变化的,然而不同信息的时间敏感程度是不一样的。
发明内容
为统一度量信息的时间敏感度,本发明提出了一种基于能量函数的网页时间敏感性度量方法。
为完成上述目标,本发明所采用的技术方案是:一种基于能量函数的网页时间敏感性度量方法,其特征在于,包括以下步骤:
步骤1:选取目标网页集合D,利用已有爬虫爬取目标网页集合,针对网页集合D中的任意一个网页d,通过信息抽取算法从无结构的网页文本中抽取结构化的网页信息,作为网页时间敏感性特征;所述的网页时间敏感性特征包括网页的标题、网页的发布时间、网页的正文内容、网页的正文标签、网页的链出链接、用户访问与评论的时间序列;
步骤2:基于步骤1中所述的网页时间敏感性特征,构建网页能量函数模型,计算每个特征对网页的能量贡献;其具体实现包括以下子步骤:
步骤2.1:根据网页的正文内容计算网页的时间词信息量IVtw(d),基于网页的时间词信息量IVtw(d)与网页的发布时间,计算网页发布时刻即t0时刻网页信息本身产生的初始能量,并定义网页信息的衰减函数,计算在tk时刻网页信息本身的能量
步骤2.2:根据网页的标题、网页的正文内容和网页的正文标签,计算网页的主题信息覆盖度IVtopic,基于主题信息覆盖度IVtopic,计算网页在tk时刻主题信息覆盖的能量贡献 e IV topic ( t k , d ) ;
步骤2.3:依据网页的链出链接,构建网页的链接网络,并计算其链接网络在tk时刻对该网页的能量贡献elink(tk,d);
步骤2.4:基于用户的访问序列和评论序列,定义用户访问与用户评论网页信息的衰减函数,计算网页在tk时刻,用户访问与用户评论对网页的能量贡献ejoin(tk,d);
步骤3:基于步骤2中所述的tk时刻网页信息本身的能量网页在tk时刻主题信息覆盖的能量贡献链接网络在tk时刻对该网页的能量贡献elink(tk,d)和网页在tk时刻用户访问与用户评论对网页的能量贡献ejoin(tk,d),计算网页在tk时刻的总能量Eng(tk,d);
步骤4:计算网页在tk时刻的时间敏感度。
作为优选,步骤2.1中所述的时间词信息量IVtw(d)和tk时刻网页信息本身的能量分别 e IV tword ( t k , d ) 为:
IV tw ( d ) = n tw ( d ) &mu; ( d ) &times; n w ( d ) = n tw ( d ) n w ( d ) &times; arg min &Sigma; 0 < i &le; n tw ( d ) | | l i ( d ) - &mu; ( d ) | | 2 n tw ( d ) ,
其中d为网页,nw(d)表示网页d的文本中包含的词语个数,ntw(d)表示网页d文本中的nw个词中时间词的个数,li(d)为第i个时间词在网页d文本中的位置,μ(d)表示时间词在网页d文本中的中心位置;
e IV tword ( t k , d ) = e IV tword ( t 0 , d ) e - K ( t k - t 0 ) ,
其中为网页信息本身的初始能量,t0为网页d的发布时间,K为衰减参数。
作为优选,步骤2.2中所述的主题信息覆盖度IVtopic和tk时刻主题信息覆盖的能量贡献 e IV topic ( t k , d ) 分别为:
IV topic = &Sigma; d &prime; &Element; S ( d ) sim ( d , d &prime; ) f ( d &prime; ) ;
其中,D表示网页的数据集,网页d∈D,表示所有具有与网页d相似主题的网页集合,而且这些网页均晚于网页d发布,即t0(d’)>t0(d),d’∈S(d),sim(d,d’)是网页d和网页d’之间的主题相似度,f(d’)是关于网页d’的权重函数;
e IV topic ( t k , d ) = - &Sigma; d &prime; &Element; S ( d ) sim ( d , d &prime; ) f ( d &prime; ) Eng ( t k - 1 , d ) ,
其中Eng(tk-1,d)是网页d在tk-1时刻的总能量,且
作为优选,步骤2.3中所述的链接网络在tk时刻对该网页的能量贡献elink(tk,d)为:
elink(tk,d)=elinkin(tk,d)+elinkout(tk,d),
其中 e linkout ( t k , d ) = - &Sigma; d &prime; &Element; D out ( d ) relate ( d , d &prime; ) f ( d &prime; ) Eng ( t k - 1 , d ) 为网页d的链出网络的能量贡献, e linkout ( t k , d ) = - &Sigma; d &prime; &Element; D in ( d ) relate ( d , d &prime; ) f ( d &prime; ) Eng ( t k - 1 , d ) 为网页d的链入网络的能量贡献,其中relate(d,d’)为网页d与网页d’之间的链接关系强度,elinkout(t0,d)=elinkin(t0,d)=0,t0为网页d的发布时间,f(d)是关于网页d的权重函数。
作为优选,步骤2.4中所述的在tk时刻用户访问与用户评论对网页的能量贡献ejoin(tk,d)为:
e join ( t k , d ) = &Sigma; i = 0 k Corr ( c i ( d ) ) e Kc ( t k - t i ) , s i ( d ) e Ks ( t k - t i ) = &Sigma; i = 0 k ( &theta; l 1 + &theta; l 2 c i ( d ) ) e Ks ( t k - t i ) + c i ( d ) e Kc ( t k - t i )
其中ci(d)和si(d)分别为在ti时刻网页d的用户访问数用户评论数,Kc和Ks分别为用户评论和用户访问的衰减参数,表示用户评论数与用户访问数的相关性函数,θl1和θl2为用户访问数和用户评论数之间线性关系的相关系数。
作为优选,步骤3中所述的网页d在tk时刻的总能量Eng(tk,d)为:
Eng ( t k , d ) = e IV tw ( t k , d ) + e IV topic ( t k , d ) + e join ( t k , d ) + e link ( t k , d ) ,
其中 Eng d ( t 0 ) = E IV tw ( t 0 ) + e IV topic ( t 0 ) + e join ( t 0 ) + e link ( t 0 ) = IV tw .
作为优选,步骤4中所述的网页在tk时刻的时间敏感度为
在使用模式上,本发明主要是Web信息的角度,挖掘信息的被使用模式,用于信息的敏感性分析度量;与已有的关于使用模式的研究的区别在于:
(1)研究主体不一样,本发明的研究是以Web信息为主体,而已有研究是以Web用户为主体;
(2)应用不一样,本发明是将使用模式用于Web信息的敏感性分析,而已有研究则是用于对用户的个性化推荐或者帮助用户更快捷地获取目标信息;
(3)研究方法不一样,本发明是以每条信息为对象,研究每条信息被用户访问的模式,忽略用户的个体性。已有研究是以用户个体为对象,跟踪用户的访问路径,研究每个用户的使用模式。
与现有技术相比,本发明具有以下优点和有益效果:
1.本发明可自动分析网页信息随时间的变化,并基于网页的能量度量,根据Web用户对信息的需求、信息量的增加和页面的链接关系三个方面,刻画不同主题网页在任意时刻的能量和时间敏感度;
2.本发明中的方法可广泛应用于网页质量评价和排序,也可应用于信息检索中,以提高检索结果的质量。
附图说明
图1:为本发明的流程图;
图2:为本发明实施例的框架图;
图3:为本发明实施例的用户需求、网页链接与网页信息覆盖关系图;
图4:为本发明的实施例中所有网页的用户访问数序列和用户评论数序列的散点图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1、图2和图3,本发明所采用的技术方案是:一种基于能量函数的网页时间敏感性度量方法,其特征在于,包括以下步骤:
步骤1:选取目标网页集合D,利用已有爬虫爬取目标网页集合,针对网页集合D中的任意一个网页d,通过信息抽取算法从无结构的网页文本中抽取结构化的网页信息,作为网页时间敏感性特征;所述的网页时间敏感性特征包括网页的标题、网页的发布时间、网页的正文内容、网页的正文标签、网页的链出链接、用户访问与评论的时间序列;
例如:本发明实施例中选择了新浪2013年8月4日至2013年11月4日的新闻,抽取了网页标题、发布时间、正文、标签、相关新闻中的链出链接、用户评论与用户访问的时间序列(时间序列的时间区间为网页发布时间至2013年12月23日)。
步骤2:基于步骤1中所述的网页时间敏感性特征,构建网页能量函数模型,计算每个特征对网页的能量贡献;其具体实现包括以下子步骤:
步骤2.1:根据网页的正文内容计算网页的时间词信息量IVtw(d),基于网页的时间词信息量IVtw(d)与网页的发布时间,计算网页发布时刻即t0时刻网页信息本身产生的初始能量,并定义网页信息的衰减函数,计算在tk时刻网页信息本身的能量其中,时间词信息量IVtw(d)和tk时刻网页信息本身的能量分别为:
IV tw ( d ) = n tw ( d ) &mu; ( d ) &times; n w ( d ) = n tw ( d ) n w ( d ) &times; arg min &Sigma; 0 < i &le; n tw ( d ) | | l i ( d ) - &mu; ( d ) | | 2 n tw ( d ) ,
其中d为网页,nw(d)表示网页d的文本中包含的词语个数,ntw(d)表示网页d文本中的nw个词中时间词的个数,li(d)为第i个时间词在网页d文本中的位置,μ(d)表示时间词在网页d文本中的中心位置;
e IV tword ( t k , d ) = e IV tword ( t 0 , d ) e - K ( t k - t 0 ) ,
其中为网页信息本身的初始能量,t0为网页d的发布时间,K为衰减参数。
步骤2.2:根据网页的标题、网页的正文内容和网页的正文标签,计算网页的主题信息覆盖度IVtopic,基于主题信息覆盖度IVtopic,计算网页在tk时刻主题信息覆盖的能量贡献 e IV topic ( t k , d ) ;
主题信息覆盖度的定义为:对任意数据集D中的网页d,用词向量vtd=(w1,w2,…,wm)表示网页d的主题,其中wi为网页d中的词,i表示词wi在网页中的重要程度排序为i。m为词向量的长度。在词向量vtd中,无重复词,即对词向量vtd中的任意两个词wi,wj都有wi≠wj。用表示所有具有与网页d相似主题的网页集合,而且这些网页均晚于网页d发布,即t0(d’)>t0(d),d’∈S(d),则网页d的主题信息覆盖度为其中,D表示网页的数据集,网页d∈D,表示所有具有与网页d相似主题的网页集合,而且这些网页均晚于网页d发布,即t0(d’)>t0(d),d’∈S(d),sim(d,d’)是网页d和网页d’之间的主题相似度,f(d’)是关于网页d’的权重函数;
上述sim(d,d’)S(d)与的计算方法如下:
(1)对网页d的文本和其标题进行分词,利用计算文本中各词的交叉信息熵,将交叉信息熵大的单词作为文本的关键词;
(2)将文本关键词、网页标签和网页标题依据权重进行排序,作为网页d的主题向量vtd
(3)计算网页d与之前某个时间窗内发布的任意网页d’的相似度sim(d,d’);
(4)若sim(d,d’)大于某个阈值,则网页d’∈S(d)。
交叉信息熵可以通过中文分词工具NIPIR获得。
网页d与网页d’的相似度sim(d,d’)的计算方法为:将网页d的主题向量vtd与网页d’的主题向量vtd’利用向量空间模型将其数值化,然后将数值化的主题向量的欧式距离作为网页d与网页d’的相似度sim(d,d’)。
tk时刻主题信息覆盖的能量贡献为 e IV topic ( t k , d ) = - &Sigma; d &prime; &Element; S ( d ) sim ( d , d &prime; ) f ( d &prime; ) Eng ( t k - 1 , d ) , 其中Eng(tk-1,d)是网页d在tk-1时刻的总能量,且
步骤2.3:依据网页的链出链接,构建网页的链接网络,并计算其链接网络在tk时刻对该网页的能量贡献elink(tk,d);
链接网络定义如下:G=(D,E),其中D表示网页节点的集合,E为网页节点间链接关系的集合。对任意网页d∈D,其链接网络为G(d)=(D(d),E(d))。另外,网页d的链接网络又可拆分为链入网络和链出网络,即G(d)=Gout(d)∪Gin(d),其中链出网络Gout(d)=(Dout(d),Eout(d)),Dout(d)={d’|d→d’∈Eout(d)}为网页d的链出网页节点集合,→表示链接方向,Eout(d)表示网页d的所有链出关系集合;链入网络Gin(d)=(Din(d),Ein(d)),Din(d)={d’|d’→d∈Ein(d)}为网页d的链入网页节点集合,Ein(d)表示网页d的所有链入关系集合。而且D(d)=Dout(d)∪Din(d),E(d)=E out(d)∪E in(d)。
tk时刻链接网络的能量贡献:elink(tk,d)=elinkin(tk,d)+elinkout(tk,d),其中 e linkout ( t k , d ) = - &Sigma; d &prime; &Element; D out ( d ) relate ( d , d &prime; ) f ( d &prime; ) Eng ( t k - 1 , d ) 为网页d的链出网络的能量贡献, e linkout ( t k , d ) = - &Sigma; d &prime; &Element; D in ( d ) relate ( d , d &prime; ) f ( d &prime; ) Eng ( t k - 1 , d ) 为网页d的链入网络的能量贡献。其中relate(d,d’)为网页d与网页d’之间的链接关系强度,在实施例中,本发明对relate(d,d’)的取值为:elinkout(t0,d)=elinkin(t0,d)=0,t0为网页d的发布时间,f(d)是关于网页d的权重函数。
步骤2.4:基于用户的访问序列和评论序列,定义用户访问与用户评论网页信息的衰减函数,计算网页在tk时刻,用户访问与用户评论对网页的能量贡献ejoin(tk,d);
用户访问数序列与用户评论数序列的定义如下:对每个新闻网页d,定义其评论数量的时间序列与访问数量的时间序列分别为cs(d)={c1(d),c2(d),…,cn(d)}和ss(d)={s1(d),s2(d),…,sn(d)},其中ci(d)和si(d)分别为时间点ti时用户对网页d的评论数量和访问数量,ti∈T。n是新闻网页d在时间轴T上的跨度,表示网页d已经发布了n天了,n依据新闻网页的不同的而不同。
所述tk时刻用户访问与用户评论对网页的能量贡献为:
e join ( t k , d ) = &Sigma; i = 0 k Corr ( c i ( d ) ) e KC ( t k - t i ) , s i ( d ) e Ks ( t k - t i ) , 其中ci(d)和si(d)分别为在ti时刻网页d的用户访问数用户评论数。Kc和Ks分别为用户评论和用户访问的衰减参数,表示用户评论数与用户访问数的相关性函数。
其中相关性函数的确定方法为:针对用户访问网页与评论网页的时间序列,进行相关性分析,确定两个时间序列特征间的函数关系,该函数关系即为 Corr ( c i ( d ) ) e Kc ( t k - t i ) , s i ( d ) e Ks ( t k - t i )
请见图4,通过描绘实施例中所有网页的用户访问数序列和用户评论数序列的散点图,发现用户访问数和用户评论数均服从对数分布,且存在一定的相关性。基于这个发现,本方法对用户访问数和用户评论数进行了回归分析,其中回归分析的结果如下表:
上述表格中 cos t l = &Sigma; i = 1 k ( &theta; l 1 + &theta; l 2 &times; c i ( d ) - s i ( d ) ) 2 , cos t ln = &Sigma; i = 1 k ( &theta; ln 1 + &theta; ln 2 &times; c i ( d ) - s i ( d ) ) 2 分别为线性回归与对数回归的代价函数。由于Costl<Costln,所以用户访问网页与评论网页的时间序列更接近于线性相关,故本发明认为该实施例中用户访问数和用户评论数存在线性关系,相关系数为θl1和θl2,并有 Corr ( c i ( d ) e Kc ( t k - t i ) ) , s i ( d ) e Ks ( t k - t i ) = ( &theta; l 1 + &theta; l 2 c i ( d ) ) e Ks ( t k - t i ) + c i ( d ) e Kc ( t k - t i ) .
步骤3:基于步骤2中所述的tk时刻网页信息本身的能量网页在tk时刻主题信息覆盖的能量贡献链接网络在tk时刻对该网页的能量贡献和网页在tk时刻用户访问与用户评论对网页的能量贡献ejoin(tk,d)计算网页在tk时刻的总能量Eng(tk,d):
Eng ( t k , d ) = e IV tw ( t k , d ) + e IV topic ( t k , d ) + e join ( t k , d ) + e link ( t k , d ) ,
其中 Eng d ( t 0 ) = E IV tw ( t 0 ) + e IV topic ( t 0 ) + e join ( t 0 ) + e link ( t 0 ) = IV tw .
步骤4:计算得到网页在tk时刻的时间敏感度为
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于能量函数的网页时间敏感性度量方法,其特征在于,包括以下步骤:
步骤1:选取目标网页集合D,利用已有爬虫爬取目标网页集合,针对网页集合D中的任意一个网页d,通过信息抽取算法从无结构的网页文本中抽取结构化的网页信息,作为网页时间敏感性特征;所述的网页时间敏感性特征包括网页的标题、网页的发布时间、网页的正文内容、网页的正文标签、网页的链出链接、用户访问与评论的时间序列;
步骤2:基于步骤1中所述的网页时间敏感性特征,构建网页能量函数模型,计算每个特征对网页的能量贡献;其具体实现包括以下子步骤:
步骤2.1:根据网页的正文内容计算网页的时间词信息量IVtw(d),基于网页的时间词信息量IVtw(d)与网页的发布时间,计算网页发布时刻即t0时刻网页信息本身产生的初始能量,并定义网页信息的衰减函数,计算在tk时刻网页信息本身的能量
步骤2.2:根据网页的标题,网页的正文内容和网页的正文标签,计算网页的主题信息覆盖度IVtopic,基于主题信息覆盖度IVtopic,计算网页在tk时刻主题信息覆盖的能量贡献
步骤2.3:依据网页的链出链接,构建网页的链接网络,并计算其链接网络在tk时刻对该网页的能量贡献elink(tk,d);
步骤2.4:基于用户的访问序列和评论序列,定义用户访问与用户评论网页信息的衰减函数,计算网页在tk时刻,用户访问与用户评论对网页的能量贡献ejoin(tk,d);
步骤3:基于步骤2中所述的tk时刻网页信息本身的能量网页在tk时刻主题信息覆盖的能量贡献链接网络在tk时刻对该网页的能量贡献elink(tk,d)和网页在tk时刻用户访问与用户评论对网页的能量贡献ejoin(tk,d),计算网页在tk时刻的总能量Eng(tk,d);
步骤4:计算网页在tk时刻的时间敏感度。
2.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.1中所述的时间词信息量IVtw(d)和tk时刻网页信息本身的能量分别为:
IV t w ( d ) = n t w ( d ) &mu; ( d ) &times; n w ( d ) = n t w ( d ) n w ( d ) &times; arg min &Sigma; 0 < i &le; n t w ( d ) | | l i ( d ) - &mu; ( d ) | | 2 n t w ( d ) ,
其中d为网页,nw(d)表示网页d的文本中包含的词语个数,ntw(d)表示网页d文本中的nw个词中时间词的个数,li(d)为第i个时间词在网页d文本中的位置,μ(d)表示时间词在网页d文本中的中心位置;
e IV t w o r d ( t k , d ) = e IV t w o r d ( t 0 , d ) e - K ( t k - t 0 ) ,
其中为网页信息本身的初始能量,t0为网页d的发布时间,K为衰减参数。
3.根据权利要求2所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.2中所述的主题信息覆盖度IVtopic和tk时刻主题信息覆盖的能量贡献分别为:
其中,D表示网页的数据集,网页d∈D,表示所有具有与网页d相似主题的网页集合,而且这些网页均晚于网页d发布,即t0(d’)>t0(d),d’∈S(d),sim(d,d’)是网页d和网页d’之间的主题相似度,f(d’)是关于网页d’的权重函数;
e IV t o p i c ( t k , d ) = - &Sigma; d &prime; &Element; S ( d ) s i m ( d , d &prime; ) f ( d &prime; ) E n g ( t k - 1 , d ) ,
其中Eng(tk-1,d)是网页d在tk-1时刻的总能量,且
4.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.3中所述的链接网络在tk时刻对该网页的能量贡献elink(tk,d)为:
elink(tk,d)=elinkin(tk,d)+elinkout(tk,d),
其中为网页d的链出网络的能量贡献,为网页d的链入网络的能量贡献,其中relate(d,d’)为网页d与网页d’之间的链接关系强度,elinkout(t0,d)=elinkin(t0,d)=0,t0为网页d的发布时间,f(d)是关于网页d的权重函数。
5.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.4中所述的在tk时刻用户访问与用户评论对网页的能量贡献ejoin(tk,d)为:
e j o i n ( t k , d ) = &Sigma; i = 0 k C o r r ( c i ( d ) e K c ( t k - t i ) , s i ( d ) e K s ( t k - t i ) ) = &Sigma; i = 0 k ( &theta; l 1 + &theta; l 2 c i ( d ) ) e K s ( t k - t i ) + c i ( d ) e K c ( t k - t i )
其中ci(d)和si(d)分别为在ti时刻网页d的用户访问数用户评论数,Kc和Ks分别为用户评论和用户访问的衰减参数,表示用户评论数与用户访问数的相关性函数,θl1和θl2为用户访问数和用户评论数之间线性关系的相关系数。
6.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤3中所述的网页d在tk时刻的总能量Eng(tk,d)为:
E n g ( t k , d ) = e IV t w ( t k , d ) + e IV t o p i c ( t k , d ) + e j o i n ( t k , d ) + e l i n k ( t k , d ) .
7.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤4中所述的网页在tk时刻的时间敏感度为
CN201410160080.7A 2014-04-21 2014-04-21 一种基于能量函数的网页时间敏感性度量方法 Expired - Fee Related CN103927365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410160080.7A CN103927365B (zh) 2014-04-21 2014-04-21 一种基于能量函数的网页时间敏感性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410160080.7A CN103927365B (zh) 2014-04-21 2014-04-21 一种基于能量函数的网页时间敏感性度量方法

Publications (2)

Publication Number Publication Date
CN103927365A CN103927365A (zh) 2014-07-16
CN103927365B true CN103927365B (zh) 2017-01-25

Family

ID=51145586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410160080.7A Expired - Fee Related CN103927365B (zh) 2014-04-21 2014-04-21 一种基于能量函数的网页时间敏感性度量方法

Country Status (1)

Country Link
CN (1) CN103927365B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326445B (zh) * 2016-08-26 2019-09-17 武汉大学 一种基于传感信息量的网页内容评价方法
CN108334516B (zh) * 2017-01-20 2021-12-24 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN110008334B (zh) * 2017-08-04 2023-03-14 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN108875018B (zh) * 2018-06-19 2021-06-29 网智天元科技集团股份有限公司 新闻影响力评估方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253998A (zh) * 2011-07-12 2011-11-23 武汉大学 基于Web时间不一致的过时网页自动发现与排序方法
CN102737125A (zh) * 2012-06-15 2012-10-17 武汉大学 基于Web时态对象模型的过时网页信息自动发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190422B2 (en) * 2007-05-20 2012-05-29 George Mason Intellectual Properties, Inc. Semantic cognitive map

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253998A (zh) * 2011-07-12 2011-11-23 武汉大学 基于Web时间不一致的过时网页自动发现与排序方法
CN102737125A (zh) * 2012-06-15 2012-10-17 武汉大学 基于Web时态对象模型的过时网页信息自动发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网页质量评价体系的研究;魏超 等;《中心信息学报》;20110930;第25卷(第5期);第3-8页 *

Also Published As

Publication number Publication date
CN103927365A (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
Torres-Salinas et al. Altmetrics: New indicators for scientific communication in web 2.0
Paul et al. Compass: Spatio temporal sentiment analysis of US election what twitter says!
Asadi et al. Pseudo test collections for learning web search ranking functions
Dimitrov et al. What makes a link successful on wikipedia?
CN103235772A (zh) 一种文本集人物关系自动提取方法
CN102750390A (zh) 新闻网页要素自动提取方法
Osipov et al. Exactus expert—search and analytical engine for research and development support
CN103927365B (zh) 一种基于能量函数的网页时间敏感性度量方法
CN104794108A (zh) 网页标题抽取方法及其装置
Wan et al. Scsminer: mining social coding sites for software developer recommendation with relevance propagation
Gleason et al. Google the gatekeeper: How search components affect clicks and attention
Zhang et al. Top-N recommendation algorithm integrated neural network
Francia et al. Social business intelligence in action
Couto et al. New trends in big data profiling
Mackaness et al. Assessing the Veracity of Methods for Extracting Place Semantics from F lickr Tags
Garcia et al. Comparative evaluation of link-based approaches for candidate ranking in link-to-wikipedia systems
Zhang et al. Analysing academic paper ranking algorithms using test data and benchmarks: an investigation
Akuma et al. Development of Relevance Feedback System using Regression Predictive Model and TF-IDF Algorithm
Varga et al. Integrating dbpedia and sentiwordnet for a tourism recommender system
Jiang et al. SG-WSTD: A framework for scalable geographic web search topic discovery
Conde et al. Inferring user intent in web search by exploiting social annotations
Xie et al. Predicating paper influence in academic network
Du et al. Scientific users' interest detection and collaborators recommendation
Li et al. Hierarchical user interest modeling for Chinese web pages
Matosevic Using anchor text to improve web page title in process of search engine optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170125

CF01 Termination of patent right due to non-payment of annual fee