CN101409634B - 基于信息检索的互联网新闻影响力定量分析工具及方法 - Google Patents
基于信息检索的互联网新闻影响力定量分析工具及方法 Download PDFInfo
- Publication number
- CN101409634B CN101409634B CN200710175668XA CN200710175668A CN101409634B CN 101409634 B CN101409634 B CN 101409634B CN 200710175668X A CN200710175668X A CN 200710175668XA CN 200710175668 A CN200710175668 A CN 200710175668A CN 101409634 B CN101409634 B CN 101409634B
- Authority
- CN
- China
- Prior art keywords
- news
- website
- influence
- webpage
- reprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004445 quantitative analysis Methods 0.000 title claims description 16
- 230000004044 response Effects 0.000 claims abstract description 41
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 31
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 claims description 13
- 102100026983 Protein FAM107B Human genes 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004451 qualitative analysis Methods 0.000 abstract description 9
- 238000011084 recovery Methods 0.000 abstract 4
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013549 information retrieval technique Methods 0.000 description 4
- 230000032683 aging Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 235000015277 pork Nutrition 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
基于信息检索的互联网新闻影响力定量分析工具及方法,工具包括:网页内容判重模块判断网页是否为近似网页;相关信息提取模块提取网页中相关信息;新闻转载率计算模块计算转载网站权威度值;找出新闻源网站和新闻转载率;新闻信源网站影响力确定模块判断新闻源网站的人气指数,获取新闻信源网站影响力因子;新闻回复率计算模块确定网络新闻回复率;新闻影响力计算模块计算新闻影响力值。方法是判断网页是否为近似网页,提取新闻网页转载信息和回复信息,计算新闻转载率,计算新闻的回复率,计算新闻源网站的权威度,计算新闻源网站的影响力因子,计算新闻影响力。本发明定量计算结果与用户的定性分析结合,帮助用户对新闻影响力大小进行判断。
Description
技术领域
本发明涉及网络信息内容安全领域,具体地说是涉及网络信息内容安全领域中网络新闻影响力分析的实现方法。
背景技术
作为一种新兴的信息传播的方式,网络新闻会对社会稳定产生很大的影响。新闻舆论监督的勃兴,肇始于美国大法官斯特瓦特创设的“第四权力理论”。所谓的“第四权力”就是指新闻舆论。事实上,它不是国家权力,但随着新闻媒体在社会政治、经济、文化生活中的作用日益增强而变得越来越重要,发挥着重要影响力。因而确定新闻的影响力对把握社会舆论的动向,从而确定新闻对社会安全的影响具有重要意义。
在此之前,对网络新闻的分析主要为社会科学领域进行的一些定性分析,没有一个定量的工具来验证定性分析的正确性。因而我们提出了一种借助于信息检索的相关技术,获取相关的信息,对新闻影响力进行定量分析的方法。
此方法主要是通过对网页进行判重处理以及提取网页中的相关信息。然后利用这些信息判断互联网新闻影响力。主要思路为:第一步,对新闻网页进行去噪,提取内容块,然后对其进行相似性判断。如果判断为重复网页则提取网页相关信息并记录重复信息,以备以后计算时使用。第二步,对新闻网页进行信息提取,并利用提取的信息和上步中得到的重复信息进行认可率计算。第三,将中国互联网指数系统对新闻的源网站的CIIS值进行归一化之后作为新闻影响力判断的一个比例因子。第四,根据新闻转载网站之间的链接关系,利用HITS算法对新闻源网站进行权威度计算,最终对以上信息进行综合计算得出新闻的影响力。
发明内容
为了解决现有技术对网络新闻的分析主要为社会科学领域进行的一些人为的定性分析,没有一个定量的工具来验证定性分析的正确性的缺陷,本发明的目的在于提供一种基于信息检索技术、有效衡量互联网新闻影响力的定量分析工具或称为装置及方法,衡量新闻影响力结果与用户的定性分析相结合,可以帮助用户对新闻影响力大小进行有效的判断。
为了实现所述目的,本发明一方面,提供一种基于信息检索技术的互联网新闻影响力定量分析工具,包括:
网页内容判重模块,用于判断网页是否为近似网页;
信息提取模块,接收近似网页信息,从近似网页中抽取后续计算需要的相关信息;
新闻转载率计算模块:接收信息提取模块中提取到的相关信息,计算转载网站的权威度值,之后把权威度最高的那个网站作为新闻的源网站,并把此网站的权威度值作为新闻转载率;
新闻信源网站影响力确定模块:用于判断新闻源网站的人气指数CIIS值,并把此指数归一化之后作为新闻信源网站影响力因子;
新闻回复率计算模块:用于确定网络新闻的回复率;
新闻影响力计算模块:用于通过以上模块得到的网络新闻转载率值、新闻信源网站的影响力因子值和新闻回复率值计算新闻影响力值。
根据本发明的实施例,所述网页内容判重模块:对整篇文档采用MD5散列值方法判重,如果文档完全一致,则直接确定网页之间的转载关系;如果文档并不完全一致,则进一步采用基于网页主体内容间的相似程度来判断他们是否为近似网页。
根据本发明的实施例,相关信息提取模块还包括:
网页重复转载信息提取模块:如果判定两个网页为相似网页,则由此模块提取转载重复信息;主要是源网站以及转载网站之间的关系,包括直接转载和间接转载关系;
网页回复信息提取模块:用于提取源网站与转载网站中对新闻的回复次数,然后去除相似网页。
根据本发明的实施例,新闻转载率计算模块:利用相关信息提取模块中提取到的新闻转载网站之间的关系,利用HITS算法,计算转载网站的权威度值;计算之后将入链最多的那个网站作为新闻的源网站,并将此网站的权威度值作为新闻转载率。
根据本发明的实施例,新闻信源网站影响力确定模块:用于判断新闻源网站的人气指数CIIS值,并把此指数归一化之后作为新闻信源网站影响力因子。
根据本发明的实施例,所述新闻回复率计算模块,在浏览网页之后,根据新闻回复次数的相对数量总结一个回复率表,通过查找表中对应范围的回复率作为新闻的回复率。
根据本发明的实施例,所述新闻影响力计算模块,用于利用网页内容判重模块、信息提取模块、新闻转载率计算模块、新闻信源网站影响力确定模块、新闻回复率计算模块得到的数据计算新闻影响力为:
NF=D(ts,t)×Ws×(α×Trans+b×Rep)
其中,NF为新闻的影响力;Ws为新闻信源网站的影响力因子;Trans为新闻转载率;Rep为新闻回复率;D(ts,t)为新闻发布时间与它的影响力之间的关系;a=0.8;b=0.2。
为了实现所述目的,本发明另一方面,提供一种基于信息检索技术的互联网新闻影响力定量分析方法,包括步骤如下:
(1)根据网页内容判断网页是否为转载或者重复网页;
(2)提取重复网页中的相关信息;
(3)计算新闻网页转载率;
(4)计算新闻信源网站的影响力;
(5)计算新闻回复率;
(6)使用上述步骤所得数据计算新闻影响力。
根据本发明的实施例,所述新闻网页转载率计算步骤还包括:利用HITS算法,利用HITS算法是把一个转载网站作为一个节点,网站之间存在的转载关系和原来算法中的hub属性相对应,计算转载网站的权威度值;计算之后把入链最多的那个网站作为新闻的源网站,并把求得源网站的权威度值作为新闻转载率。
根据本发明的实施例,所述新闻信源网站的影响力计算步骤还包括:利用中国互联网指数系统中的网站人气指数(CIIS值),确定对应信源网站的人气指数,然后归一化之后作为新闻信源网站的影响力因子。
本发明提供了一种基于信息检索技术的互联网新闻影响力定量分析工具装置及方法,本发明的计算可以得到一个对网络新闻影响力的定量评估,通过把此定量分析结果与人为定性分析结果进行比较,可以有效判断网络新闻影响力大小。本发明解决了现有技术对网络新闻的分析主要为社会科学领域进行的一些人为的定性分析,没有一个定量的工具来验证定性分析的正确性的缺陷,有效衡量新闻影响力的定量分析,衡量新闻影响力的结果与用户的定性分析相结合,可以帮助用户对新闻影响力大小进行有效的判断。
附图说明
图1是本发明的原理示意图;
图2是本发明中相关信息提取模块框图;
图3是本发明方法的实施例流程图;
图4是本发明方法的实施例的回复人次规律统计;
图5是本发明时间因素对新闻影响力影响曲线图。
具体实施方式
下面结合附图对本发明作进一步详细的描述。
为了能够有效的确定新闻影响力,我们充分利用了新闻网页的一些特性。我们通过判重处理发现新闻网页的转载或者相似网页,然后抽取其中的转载信息和回复信息,并计算得到新闻的转载率和回复率,最后利用新闻信源网站的CIIS值作为最终的比例因子,利用公式计算得到新闻的影响力。以图1为例:
本发明系统的结构包括:
网页内容判重模块1:对整篇文档进行MD5方法判重,如果文档完全一致,则直接确定网页之间的转载关系。如果文档并不完全一致,则进一步采用基于网页主体内容间的相似程度来判断他们是否为近似网页。
如图2所示信息提取模块2还包括:
网页重复信息提取模块21:如果判定两个网页为相似网页,则由此模块提取重复信息。主要是源网站以及转载网站之间的关系。包括直接转载和间接转载关系。
网页回复信息提取模块22:用于提取源网站与转载网站中对新闻的回复次数。然后去除转载或相似的网页。
新闻转载率计算模块3:利用相关信息提取模块2中提取到的新闻转载网站之间的关系,利用HITS算法是把一个转载网站作为一个节点,网站之间存在的转载关系和原来算法中的hub属性相对应,计算转载网站的权威度值。计算之后把权威度最高的那个网站作为新闻的源网站。并把求得源网站的权威度值作为新闻转载率。
新闻信源网站影响力确定模块4:利用中国互联网指数系统中的网站人气指数(CIIS值),确定对应信源网站的人气指数,然后归一化之后作为新闻信源网站的影响力因子。
新闻回复率计算模块5:用于确定网络新闻的回复率。然而网页中点击次数是在网页服务器端存储的。通过简单的抓取和信息抽取是很难得到的。但是回复次数是很容易就可以得到的。因而我们在浏览了大量网页之后,根据新闻回复次数的相对数量总结了一个回复率表,通过查找表中对应范围的回复率作为新闻的回复率。
新闻影响力计算模块6:用于结合网页内容判重模块、相关信息提取模块、新闻转载率计算模块、新闻信源网站影响力确定模块、新闻回复率计算模块得到的数据,根据公式计算新闻影响力。
图3是本发明所述方法的实施例流程图。按照图3,本发明包括六个主要部分:
一是新闻网页判重;
二是提取新闻网页中的信息;
三是计算新闻转载率;
四是计算新闻源网站的影响力因子;
五是计算新闻的回复率;
六是计算新闻影响力。
首先在步骤1判断获得的一个新网页是否为转载网页,如果是执行步骤3,否则执行步骤2;
步骤2:判断新网页是否为相似网页,如果是转步骤3,否则重新获得一个新网页并返回步骤1;
步骤3:提取相似网页和转载网页的转载关系信息并执行步骤4;
步骤4:提取转载关系信息的回复信息并执行步骤5;
步骤5:根据网页之间的转载关系,计算各个网站权威度,确定源网站,并执行步骤6;
步骤6:计算回复信息,获取新闻回复率,并执行步骤7;
步骤7:计算新闻源网站影响力因子,并执行步骤8;
步骤8:计算新闻影响力因子,然后结束;
在图3的实施例中,对网页的判重及重复信息记录和利用主要方法如下:对于新闻来说,重复一般源于转载或对同一事件的不同报道,而且重复网页在净化之后进行信息提取得到的信息在结构和内容方面能够保持高度的一致性。这一部分我们主要是提取网络新闻转载相关的信息。在对网页进行净化之后,首先对整篇文档进行MD5方法判重,如果文档完全一致,则直接确定网页之间的转载关系。如果文档并不完全一致,则进一步采用基于网页主体内容间的相似程度来判断他们是否为近似相同,而网页主体内容采用向量空间模型(VSM)进行表示。同时识别文章主体中的命名实体,因为命名实体最能体现新闻的特征,是新闻相似性判断的一个重要依据,此算法中需要识别的命名实体为人名、地名、机构名称和时间。当两个网页主体内容相似比例达到设定的经验阈值时认为它们为近似相同,为重复网页。网页Ui(i∈[1,n])使用特征向量进行表示,其关键词权值We采用以TF*IDF方法来确定,如果判定词项为命名实体,权值适当加强。具体定义如下:
最后选取m个权值较大的词项生成网页特征向量,通过比较两个网页的特征向量中共现词项数量作为比较相似性的依据,如果共现个数大于预先设定的阈值,则认为这两个网页为相似网页。确定转载或近似关系之后,提取并记录相关的信息,然后从网页集中去掉重复网页。
对网页进行判重之后,需要记录的主要信息有:
(1)转载网站(2)转载网站的信源网站(3)转载网站中的回复次数(4)新闻发布时间。此处的转载网站和信源网站只是对转载关系的一种记录,并非最后确定的真正的源网站和转载网站。最后的源网站在下一步中确定。
利用上一步中提取到的信息我们可以计算新闻转载率。一般情况下,新闻转载率(记为Trans)=转载次数/源网站点击次数,然而由于网络新闻的转载关系存在直接转载和间接转载两种,使得源网站一开始不能确定,而且源网站的点击次数是保存在服务器端,网页中一般不提供,所以很难得到。由于新闻网页与其源网站之间存在互相增强的关系,与HITS算法的初衷及其相似,HITS算法中的Authority和Hub属性很自然地对应着网页自身的内容质量和它所链接指向的网页的质量。同样,本文中是把一个网站的内容质量和它的转载网站的质量与HITS算法中的Authority和Hub属性对应。把一个转载网站作为一个节点,网站之间存在的转载关系和原来算法中的Hub属性相对应,因而可知本文中HITS算法的应用与原HITS算法完全一致。而且本文利用HITS算法可以更加准确的计算新闻转载网站之间的关系。
具体算法如下:每个网站pt有内容质量属性值A0(pt)和转载属性值A1(pt)。首先在网络整体层次上将所有节点的这两个属性值初始化为1,然后用pt→qt描述网站pt转载了网站qt的新闻,用下面的迭代公式计算内容质量属性值和转载属性值,每次迭代完成后将所有网页的属性值正则化为1。
按以上公式迭代更新每个节点的属性A0(pt),A1(pt)。
利用提取到的转载信息,首先提取新闻转载网站之间的关系,此处包括直接转载和间接转载关系,计算各个转载网站的权威度值,最终把被转载(类似于普通网页的入链)次数最多的那个网站作为源网站,把它的权威度值作为新闻的转载率值。
在图3的实施例中,源网站CIIS值的确定过程如下:
中文网站排行榜是中国互联网指数系统(CIIS)的重要组成部分,是互联网实验室的核心产品。依托各监测网站的人气指数,将提供中文服务的网站按照所处行业、地域、提供服务等进行划分,并由此进一步揭示出中国互联网行业的行业发展及区域发展特征。中国互联网指数系统(CIIS,China Internet Index System)由互联网实验室与国家统计局于2004年联合发布。中国互联网指数系统(CIIS)由四大指数体系组成,分别是:
1.中国互联网基础指数
2.中国互联网满意度指数
3.中国互联网表现指数
4.中国网络股指数
其中表现指数是在互联网表现层描述互联网经济,利用Alexa.com作为第三方监测机构。又细分为三个重要指数:
1.网站人气指数(CIIS值)
2.网站综合指数
3.网站结构指数
其中的人气指数是以Alexa.com的数据为基础进行计算,选取各个行业排名靠前的网站为成分网站,对其访问量(IP值)及人均页面访问数(PV)进行加权计算得出平均值,其他网站与此值相比,得到各自的人气指数值。我们此文中利用的正是新闻源网站人气指数(CIIS值),在把此指数归一化之后作为新闻重要性评估的又一个参数。
新闻回复率确定过程如下:
回复率直接体现了人们对网络新闻产生的反应。一般情况下,
回复率=回复次数/点击次数
然而通过观察我们发现,大部分新闻网页只是提供了回复人次,而没有提供点击/浏览人次,而且网页中点击/浏览次数是在网页服务器端存储的,通过简单的抓取和信息抽取是很难得到的。回复次数通过对网页进行信息抽取是很容易就可以得到的。因而我们在浏览了大量网页之后,根据新闻回复次数的相对数量总结了一个回复率比值,把这个比值作为新闻的回复率。此处,我们使用的回复次数是源网站回复次数和转载网站回复次数的总和。新闻回复次数分布图4是本发明方法的实施例的回复人次规律统计所示,从图4我们可以得出:大多新闻的回复次数是在1000人次以内的。极少数是在3000人次以上。根据上图统计规律得出下面的相对回复率比值。举例说明:其中回复次数(0-100)表示对本条新闻发出回复的人数范围,相对回复率比值表示在发出回复人数为(0-100)之间时,我们可以认为对本条新闻发出回复的人数占浏览人数的10%。如果回复人数超过了5000,表示浏览过本条新闻的人基本上都发出了回复,所以相对回复率为100%。
相对回复率列表如下:
回复次数(人次) | 相对回复率比值(%) |
5000- | 100 |
3000-5000 | 80 |
2000-3000 | 70 |
1000-2000 | 60 |
500-1000 | 50 |
300-500 | 40 |
200-300 | 30 |
100-200 | 20 |
0-100 | 10 |
计算时,根据新闻的回复人次,通过查找表中对应范围的回复率作为新闻的回复率。
时间因素对新闻影响力大小也有很大影响。人们对新闻的关注程度变化一般为两种,如图5所示。第一种是缓慢增长型,例如新闻关注度模型a,对国家政策类新闻等知识类的关注度。这些类别的新闻的时效性不强,人们对它们的关注度是随着时间的推移缓慢增长的。另外一种则是快速增长下降型,例如新闻关注度模型b。主要是针对时事类的新闻,这类新闻的时效性很强,人们对这类新闻的关注度在短时间内快速增长,经过一段时间之后,关注度快速下降。因而在对新闻排序时一定要首先进行类别判断,然后考虑时间要素产生的影响。从这方面看,新闻影响力与发布时间成反比关系。
另外,发布时间越长,被转载和被回复的几率越大,回复次数和转载次数越多。如果不考虑时间因素对新发布的新闻是不公平的。所以必须选定一个参数作为时间因素对新闻重要性产生影响的平衡。对发布时间长的新闻在回复次数和转载次数做一些削减。
总结以上两点:新闻发布时间与它的影响力之间成反比关系。时间参数定义如下:
其中ts为新闻的发布时间,并且有t≥ts。α的确定取决于新闻它所属于新闻类别的衰退时间,衰退时间指新闻从发布到无人关注中间经历的时间,此处定义α与新闻衰退时间之间的关系为:
此处定义时事类新闻的衰退时间为24小时,而非时事类新闻的衰退时间为72小时。
在图3的实施例中,新闻影响力判断具体过程如下:
通过以上步骤,我们可以得到如下的数据:新闻转载率(Trans),新闻回复率(Rep),新闻信源网站的影响力因子(Ws)。
我们认为对新闻进行转载和回复即为人对新闻的认可,所以此处我们把网络新闻认可率(Rec)定义为:
新闻认可率=a×转载率+b×回复率;
为了保证认可率为小于1的数值,此处的a和b的关系我们定义为a+b=1;b的确定借助于80/20法则而得到。此处理解为:浏览新闻的人也许很多,但是做出回复的人是极少的,大约仅占浏览人次的20%。
最后综合以上信息,定义新闻的影响力(NF)如下:
NF=D(ts,t)×Ws×(α×Trans+b×Rep)
其中a=0.8,b=0.2。
下面是一个具体实施例。从网络上选择几个主题的新闻,然后利用网络搜索引擎把新闻主题作为关键字搜索相关的页面,从查询结果中选取前100个按照以上计算步骤进行统计计算它们的影响力值,得到一个定量分析的结果。然后对这些值进行排序从而得到一个新闻影响力排序结果。然后通过调查多个人对这些新闻影响力的排序结果,综合之后得到一个人为定性排序结果,比较这两个结果可以发现排序结果基本一致。举例说明比较结果如下:
列表1人为对新闻影响力排序的结果
序号 | 新闻标题 | 影响力值 |
1 | 陈良宇被依法罢免全国及上海人大代表职务 | 大 |
2 | 河南陕县发生煤矿透水事故70人被困 | 大 |
3 | 2010年基本医保有望覆盖全国城镇非从业居民 | 大 |
4 | 陈水扁签署公约呈送联合国被潘基文退回 | 一般 |
5 | 发改委回应6月份房价上涨,要采取措施停 | 一般 |
止炒房 | ||
6 | 山东济南遭受特大暴雨袭击 | 一般 |
7 | 全国多地猪肉价格涨至历史最高点 | 一般 |
8 | 中国海军新型舰艇编队赴欧洲参加联合军演 | 一般偏小 |
9 | 塔利班绑架23名韩国人包括15名妇女 | 一般偏小 |
10 | 亚洲杯尤尼斯头槌定乾坤,伊拉克1-0沙特首捧冠军 | 小 |
列表2对相同新闻通过影响力排序的结果
序号 | 新闻标题 | 发布时间 | 影响力值 |
1 | 陈良宇被依法罢免全国及上海人大代表职务 | 7.27 | 0.7936 |
2 | 河南陕县发生煤矿透水事故70人被困 | 7.27-7.30跟踪报道 | 0.7619 |
3 | 2010年基本医保有望覆盖全国城镇非从业居民 | 7.24 | 0.110 |
4 | 陈水扁签署公约呈送联合国被潘基文退回 | 7.19 | 0.095 |
5 | 发改委回应6月份房价上涨、要采取措施停止炒房 | 7.25 | 0.045 |
6 | 亚洲杯尤尼斯头槌定乾坤、 | 7.29 | 0.0058 |
伊拉克1-0沙特首捧冠军 | |||
7 | 山东济南遭受特大暴雨袭击 | 7.19-7.20跟踪报道 | 0.0056 |
8 | 外交部就台申请以“台湾名义加入联合国”答问 | 7.20 | 0.005 |
9 | 中国海军新型舰艇编队赴欧洲参加联合军演 | 7.25 | 0.00487 |
10 | 塔利班绑架23名韩国人包括15名妇女 | 7.21-7.31跟踪报道 | 0.0047 |
总之,在新闻影响力分析过程中采用本发明可以帮助专家评估自己定性分析的正确性,解决分析过程中只有定性分析没有定量衡量工具的问题。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种基于信息检索的互联网新闻影响力定量分析工具,其特征在于,包括:
网页内容判重模块,接收网页内容用于判断网页是否为近似网页;网页内容判重模块,对整篇文档采用MD5散列值方法判重,如果文档完全一致,则直接确定网页之间的转载关系;如果文档并不完全一致,则进一步采用基于网页主体内容间的相似程度来判断他们是否为近似网页;
相关信息提取模块,接收近似网页信息,从近似网页中抽取后续计算需要的转载重复信息和回复信息;
新闻转载率计算模块:接收相关信息提取模块中提取到的转载重复信息,计算转载网站的权威度值,之后把权威度最高的那个网站作为新闻的源网站,并把此网站的权威度值作为新闻转载率;
新闻信源网站影响力确定模块:用于判断新闻源网站的人气指数CIIS值,并把此指数归一化之后作为新闻信源网站影响力因子;
新闻回复率计算模块:用于确定网络新闻的回复率;
新闻影响力计算模块:用于通过以上模块得到的网络新闻转载率、新闻信源网站的影响力因子值和新闻回复率值计算新闻影响力值。
2.根据权利要求1所述的互联网新闻影响力定量分析工具,其特征在于:相关信息提取模块还包括:
网页重复转载信息提取模块:如果判定两个网页为相似网页,则由此模块提取转载重复信息;所述转载重复信息主要是源网站以及转载网站之间的关系,包括直接转载和间接转载关系;
网页回复信息提取模块:用于提取源网站与转载网站中对新闻的回复次数,然后去除转载或相似的网页。
3.根据权利要求1所述的互联网新闻影响力定量分析工具,其特征在于:新闻转载率计算模块:利用相关信息提取模块中提取到的新闻转载网站之间的关系,利用HITS算法,计算转载网站的权威度值;计算之后将权威度最高的那个网站作为新闻的源网站,并将此网站的权威度值作为新闻转载率。
4.根据权利要求1所述的互联网新闻影响力定量分析工具,其特征在于:新闻信源网站影响力确定模块:用于判断新闻源网站的人气指数CIIS值,并把此指数归一化之后作为新闻信源网站影响力因子。
5.根据权利要求1所述的互联网新闻影响力定量分析工具,其特征在于:所述新闻影响力计算模块,用于利用网页内容判重模块、相关信息提取模块、新闻转载率计算模块、新闻信源网站影响力确定模块、新闻回复率计算模块得到的数据计算新闻影响力,
NF=D(ts,t)×Ws×(a×Trans+b×Rep)
其中,NF为新闻的影响力;Ws为新闻信源网站的影响力因子;Trans为新闻转载率;Rep为新闻回复率;D(ts,t)为新闻发布时间与它的影响力之间的关系;a=0.8;b=0.2。
6.一种基于信息检索的互联网新闻影响力定量分析方法,其特征在于,包括:
(1)根据网页内容判断网页是否为转载或者重复网页;
(2)提取重复网页中的转载重复信息和回复信息;
(3)利用新闻转载网站之间的关系,利用HITS算法是把一个转载网站作为一个节点,网站之间存在的转载关系和原来算法中的Hub属性相对应,计算转载网站的权威度值;计算之后把权威度最高的那个网站作为新闻的源网站,并把求得源网站的权威度值作为新闻转载率;
(4)利用中国互联网指数系统中的网站人气指数CIIS值,确定对应信源网站的人气指数,然后归一化之后作为新闻信源网站的影响力因子;
(5)在浏览了大量网页之后,根据新闻回复次数的相对数量总结了一个回复率表,通过查找表中对应范围的回复率作为新闻的回复率;
(6)利用网页内容判重模块、相关信息提取模块、新闻转载率计算模块、新闻信源网站影响力确定模块、新闻回复率计算模块得到的数据计算新闻影响力为:
NF=D(ts,t)×Ws×(a×Trans+b×Rep)
其中,NF为新闻的影响力;Ws为新闻信源网站的影响力因子;Trans为新闻转载率;Rep为新闻回复率;D(ts,t)为新闻发布时间与它的影响力之间的关系;a=0.8;b=0.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710175668XA CN101409634B (zh) | 2007-10-10 | 2007-10-10 | 基于信息检索的互联网新闻影响力定量分析工具及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710175668XA CN101409634B (zh) | 2007-10-10 | 2007-10-10 | 基于信息检索的互联网新闻影响力定量分析工具及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101409634A CN101409634A (zh) | 2009-04-15 |
CN101409634B true CN101409634B (zh) | 2011-04-13 |
Family
ID=40572440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710175668XA Expired - Fee Related CN101409634B (zh) | 2007-10-10 | 2007-10-10 | 基于信息检索的互联网新闻影响力定量分析工具及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101409634B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385576A (zh) * | 2010-08-27 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 博主影响力计算方法及系统 |
CN102651012A (zh) * | 2012-03-09 | 2012-08-29 | 华中科技大学 | 互联网新闻文本之间的转载关系识别方法 |
CN103324637B (zh) * | 2012-03-23 | 2017-12-12 | 深圳市世纪光速信息技术有限公司 | 一种热点信息挖掘方法和系统 |
CN102663077B (zh) * | 2012-03-31 | 2014-03-12 | 福建师范大学 | 基于Hits算法的Web搜索结果安全性排序方法 |
CN102651025A (zh) * | 2012-04-01 | 2012-08-29 | 百度在线网络技术(北京)有限公司 | 一种用于在网络社区中对发布信息进行定位的方法与设备 |
CN102663101B (zh) * | 2012-04-13 | 2015-10-28 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
CN104850588A (zh) * | 2015-04-24 | 2015-08-19 | 深圳市梦网科技股份有限公司 | 媒体内容生成发布方法及系统 |
CN106682007A (zh) * | 2015-11-06 | 2017-05-17 | 北京国双科技有限公司 | 数据获取方法及装置 |
CN105630928B (zh) * | 2015-12-22 | 2019-06-21 | 北京奇虎科技有限公司 | 文本的标识方法及装置 |
CN106776841B (zh) * | 2016-11-28 | 2020-04-21 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
CN107153908A (zh) * | 2017-03-24 | 2017-09-12 | 国家计算机网络与信息安全管理中心 | 移动新闻App影响力评级方法 |
CN107967364B (zh) * | 2017-12-22 | 2021-11-23 | 新华网股份有限公司 | 网络文章传播力评估方法及装置 |
CN108875018B (zh) * | 2018-06-19 | 2021-06-29 | 网智天元科技集团股份有限公司 | 新闻影响力评估方法、装置及电子设备 |
CN109359857B (zh) * | 2018-10-12 | 2021-08-27 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN111027310A (zh) * | 2019-11-04 | 2020-04-17 | 中证征信(深圳)有限公司 | 文本影响力的评估方法、装置、设备及可读介质 |
CN111552882B (zh) * | 2020-05-09 | 2022-07-01 | 重庆邮电大学 | 一种新闻影响力计算方法、装置、计算机设备及存储介质 |
CN112287195A (zh) * | 2020-08-21 | 2021-01-29 | 国家电网有限公司 | 新闻媒体处理方法及系统、计算机存储介质、处理器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6032196A (en) * | 1995-12-13 | 2000-02-29 | Digital Equipment Corporation | System for adding a new entry to a web page table upon receiving a web page including a link to another web page not having a corresponding entry in the web page table |
CN1402156A (zh) * | 2001-08-22 | 2003-03-12 | 威瑟科技股份有限公司 | 网站信息提取系统与方法 |
CN1952947A (zh) * | 2005-10-17 | 2007-04-25 | 左其其 | 一种网站反克隆的系统和方法 |
-
2007
- 2007-10-10 CN CN200710175668XA patent/CN101409634B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6032196A (en) * | 1995-12-13 | 2000-02-29 | Digital Equipment Corporation | System for adding a new entry to a web page table upon receiving a web page including a link to another web page not having a corresponding entry in the web page table |
CN1402156A (zh) * | 2001-08-22 | 2003-03-12 | 威瑟科技股份有限公司 | 网站信息提取系统与方法 |
CN1952947A (zh) * | 2005-10-17 | 2007-04-25 | 左其其 | 一种网站反克隆的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101409634A (zh) | 2009-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101409634B (zh) | 基于信息检索的互联网新闻影响力定量分析工具及方法 | |
CN110222267B (zh) | 一种游戏平台信息推送方法、系统、存储介质及设备 | |
CN102591854B (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
CN101819573B (zh) | 一种自适应的网络舆情识别方法 | |
CN107122467B (zh) | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN102426590B (zh) | 一种质量评价的方法和装置 | |
Kurashima et al. | Blog map of experiences: Extracting and geographically mapping visitor experiences from urban blogs | |
CN111400499A (zh) | 文档分类模型的训练方法、文档分类方法、装置及设备 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN103279879A (zh) | 一种在线二手汽车估价的方法 | |
CN108932291B (zh) | 电网舆情评价方法、存储介质及计算机 | |
CN108460499B (zh) | 一种融合用户时间信息的微博客用户影响力排名方法 | |
CN105389389A (zh) | 一种网络舆情传播态势媒体联动分析方法 | |
CN113868235A (zh) | 一种基于大数据的信息检索分析系统 | |
CN110096499A (zh) | 一种基于行为时间序列大数据的用户对象识别方法及系统 | |
CN103095849B (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 | |
CN115759640A (zh) | 一种智慧城市的公共服务信息处理系统及方法 | |
CN103684896A (zh) | 基于域名解析特征的网站作弊检测方法 | |
CN112529415B (zh) | 基于组合多感受野图神经网络的物品评分方法 | |
Wan et al. | Topic modeling and progression of American digital news media during the onset of the COVID-19 pandemic | |
Zhang et al. | A latent usage approach for clustering web transaction and building user profile | |
CN115829683A (zh) | 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统 | |
CN109033133A (zh) | 基于特征项权重增长趋势的事件检测与跟踪方法 | |
Xu et al. | Improved Statistical Analysis Method Based on Big Data Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110413 Termination date: 20171010 |
|
CF01 | Termination of patent right due to non-payment of annual fee |