CN101639856B - 检测互联网信息传播的网页关联评价装置 - Google Patents

检测互联网信息传播的网页关联评价装置 Download PDF

Info

Publication number
CN101639856B
CN101639856B CN 200910092356 CN200910092356A CN101639856B CN 101639856 B CN101639856 B CN 101639856B CN 200910092356 CN200910092356 CN 200910092356 CN 200910092356 A CN200910092356 A CN 200910092356A CN 101639856 B CN101639856 B CN 101639856B
Authority
CN
China
Prior art keywords
webpage
similarity
webpages
correction
calculate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910092356
Other languages
English (en)
Other versions
CN101639856A (zh
Inventor
李春平
高松
王益斌
顾明
古川和年
阿部昌平
犬塚裕介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Nomura Research Institute Ltd
Original Assignee
Tsinghua University
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Nomura Research Institute Ltd filed Critical Tsinghua University
Priority to CN 200910092356 priority Critical patent/CN101639856B/zh
Priority to JP2009212380A priority patent/JP5133953B2/ja
Publication of CN101639856A publication Critical patent/CN101639856A/zh
Application granted granted Critical
Publication of CN101639856B publication Critical patent/CN101639856B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

检测互联网信息传播的网页关联评价装置,属于互联网信息传播技术领域,其特征在于,所述网页关系评价装置30具有:检测多个判断对象网页各自的生成时刻的生成时刻检测部分2,计算判断对象网页与其他判断对象网页之间相似度的相似度计算部分3,对于计算出的多个相似度中达到阈值以上的相似度、将计算该相似度时使用的两个判断对象网页定义为相互关联网页的关联网页定义部分5。本发明解决了互联网网页之间的相互关联关系精确定位技术问题。

Description

检测互联网信息传播的网页关联评价装置
技术领域
本发明涉及一种互联网信息传播检测技术,用于评价互联网网页间相互的关联关系。
近年来,企业和个人利用网页、博客和SNS(Social Network Service)来发布信息。所发布的信息时常受到其它信息资源的影响。例如,某个企业在网页上宣布将推出新产品,而看到了这个网页的某个人则在博客上公开该信息以及对该新产品的意见。如此,信息经网页传播开来。然而,也有对公布网页的信息之传播感到不快的情况。例如,尽管没有真正发生丑闻,但如果中伤企业的信息蔓延至大量的网站且为多人所知,那么就有可能会影响并阻碍该企业的经济活动。在此情形下,企业会希望了解该信息的传播路径。如能弄清构成传播路径的核心网站或信息源头在何处,就可定期检阅此站点,迅速察知不利信息的流传并尽早采取对策。
另外,有时也会出现寻求广告效果而在网页、博客和SNS等公开信息的情况。例如,企业即将发售新产品这一事实在本公司网站上作为新闻发布时,而一般人通常则经由新闻网站或有名的博客网站了解此事实。在这种情况下,该企业从属人员会希望了解信息是经何种途径传播。如能确定将信息直接或通过影响其它有名博客间接传播给多数民众的新闻网站或有名博客,便可将焦点集中于此类站点,进行更有效率的广告行为。然而,目前尚不存在对通过网页扩散信息的传播路径进行精确定义的技术。也就是说,不存在对网页之间的相互关联关系进行精确定义的技术。
发明内容
本发明的目的是,提供一种可对互联网网页之间的相互关联关系进行精确定义的网页关系评价装置。
为解决所述课题并达成上述目的,本发明中的网页关系评价装置包括:
-可获取多个判断对象网页中各自构成信息的获取部分;
-基于上述获取部件所取得的信息,检测多个判断对象网页其生成时刻的检测部分,
-基于上述信息获取部分所取得的信息,计算与其它判断对象网页相互之间相似度的相似度计算部分;
-在根据上述相似度计算部分所得出的相似性度量值中,对于达到所规定的阈值以上的相似度值,作为判断两个对象网页相互关联程度的关联关系定义部分。
同时,本发明的另一形式是,使本发明的网页关系评价装置中的各构件功能在计算机上得以程序实现。
本发明可提供一种可对关联网网页之间的相互关系进行精确定义的网页关系评价装置。
附图说明
图1为本发明实施方式中的网页关联分析系统结构图
图2为本发明实施方式中网页分析部件的结构图
图3为本发明实施方式中网页分析系统的工作概要说明图
图4为表示图2中检索关键词生成部件所进行的检索关键词生成工作各步骤的流程图
图5为表示图2中网页关联评估部件所进行的网页相互关系评价工作各步骤的流程图
图6(A)为表示按照生成时刻顺序排列的4个判断对象网页、与各判断对象的网页之间的相似度的关系图
图6(B)为图6(A)中4个判断对象网页的相关网页之间以线连结生成的网络关系图
图7为表示图2的网站评价部件所进行的网站评价工作各步骤的流程图
图8为网站的示意图
其中符号说明为:100网页分析部件、200客户终端装置、300检索部件、400通信网络、500网站访问量推算部件、250显示装置、10通讯部件、20检索关键词生成部件、30网页关联评估部件、40网站评价部件、1获取部分、2生成时刻检验部分、3相似度计算部分、4相似度修正部分、5关联网页定义部分、6网络关系图生成部分、7输出部分。
具体实施方式
以下将参照附图对本发明的实施方式进行说明。
首先,利用图1说明本实施方式的网页关联分析系统的结构。图1为本实施方式的网页关联分析系统的结构图,包括网页分析部件100、客户终端装置200、检索部件300、通信网络400与网站访问量推算部件500。
网页分析部件100,是对在通信网络400中明示的网页进行分析的模块。网页分析部件100的详细结构将通过图2进行详述。客户终端200是供用户使用的装置,从用户那里接受检索关键词或检索与检索关键词相关的网页等指令(以下简称“检索命令”)。客户终端200将所接受的指令发送给网页分析部件100及检索部件300,并从网页分析部件100及检索部件300那里接收其得到的结果。如图1所示,客户终端装置200中连接着显示装置250,客户终端装置200所接收的信息将通过显示装置250展示。
检索部件300,是在通信网络400中包含的网页中对与检索关键词相关的网页进行检索的模块。通信网络400,是将因特网等数据连通的网络。网站访问量推算部件500,是用于推定网站访问数的模块。网页分析部件100、客户终端装置200、检索部件300以及网站访问量推算部件500,皆与通信网络400相连接,相互之间可进行通信。
这里用图2说明网页分析部件100的结构。如上所述,网页分析部件100是对通信网络400中包含的网页进行分析的模块,如图2所示,具有通讯部件10、检索关键词生成部件20、网页关联评估部件30以及网站评价部件40。
通讯部件10进行数据传输。检索关键词生成部件20基于用户所选择的关键词,生成经过适当变换处理、更精确的检索关键词。
网页关联评估部件30,是基于检索关键词生成部件20所生成的检索关键词,对在检索部件300中检索出的多个网页之间的相互关系进行评价。网页关联评估部件30如图2所示,包括获取部分1、生成时间检测部分2、相似度计算部分3、相似度修正部分4、关联网页定义部分5、网络关系图生成部分6和输出部分7。
获取部分1获取在检索部件300中检索出的多个网页的综合信息。由于检索部件300中检索出的网页即为网页关联评估部件30所评价的网页,因此以下将检索部件300所检索出的网页称为“判断对象网页”。网页生成时间检测部分2基于获取部分1所获取的信息,检出判断对象网页的生成时刻。
相似度计算部分3基于获取部分1所取得的信息,对众多判断对象网页,计算出各网页与其它的判断对象网页之间的相似度。具体来说,相似度计算部分3在计算两个判断对象网页的相似度时,对这两个判断对象网页各自的结构信息进行语言分析,运用TF-IDF(Term Frequency-Inverse Document Frequency)以及向量空间模型,计算出这两个判断对象网页之间的相似度。另外,也可使用其它在计算网页相似度时常用的文本相似度计算法,如可使用N-Gram法代替TF-IDF法。
相似度修正部分4用于修正相似度计算部分3中计算出来的相似度。以下将相似度修正部分4中所得到的值称为“修正相似度”。另外,由于相似度修正部分4运用多个方法修正相似度,对于各种方法将在描述相似度修正部分4的工作时进行说明。
关联网页选定部分5用于检测在相似度修正部分4中得到的多个修正相似度中达到判断两个网页之间互相关联所需阈值以上的修正相似度值;关联网页选定部分5同时也检测出达到修正像似度阈值之上的两个判断对象网页,并选定其为相互关联的网页。
网络关系图生成部分6,对于在关联网页选定部分5中所选定出的网页对,将构成该对的两个网页按照生成时刻检测部分2中检测出来的生成时刻的顺序,进行虚拟排序,并以虚拟线条连接,生成关联网页的网络关系图。也就是说,网络关系图生成部分6将关联网页按照生成时刻的顺序进行连接,生成网络关系图。
输出部分7将网络关系图生成部分6中生成的网络关系图输出至通讯部件10。
网站评价部件40对通信网络400中明示的网站进行评价。
接下来,对本实施方式中的网页分析系统的工作进行说明。图3为本实施方式中网页分析系统的工作概要说明图,具体分为用于精确搜索的检索关键词的生成动作(F2)和网站评价动作(F3)。为此,下面将对本实施方式的网页分析系统的工作就各部分进行说明。
生成检索关键词的工作。首先,对生成用于精确搜索的检索关键词的工作(F1)进行说明。用户将检索关键词和对与该检索关键词相关网页的检索命令(检索命令)输入客户终端装置200。客户终端装置200接受所输入的检索关键词和检索命令,将其通过通信网络400发送到检索部件300。检索部件300接收到发自客户终端装置200的检索关键词和检索命令,从通信网络400上包含的网页之中,检索出与接收的关键词相关联的网页。为了说明方便,假设检索部件300已经检索出了多个网页。检索装置300将检索出的这些网页的标题和摘要等通过通信网络400发送至客户终端装置200。
客户终端装置200接收到来自检索部件300的多个网页的标题和摘要,将其按照检索装置300中规定的顺序在显示装置250中显示。用户阅读显示装置250中显示的各网页标题,选择其中的网页,并在客户终端装置200中下达获取所选网页的命令。
客户终端装置200获取用户选择的网页,并将其显示在显示装置250上。如果用户判断显示装置250中所显示的网页作为能生成更精确的检索关键词的题材较为合适,便将该判断结果输入客户终端装置200。
客户终端装置200将该种网页的URL(Uniform Resource Locator)通过通信网络400发送至网页分析部件100。如果用户选择多个用于生成更精确关键词的网页,客户终端装置200接收用户选择的多个网页的URL信息并发送至网页分析部件100。同时,客户终端装置200也将用户输入的检索关键词发送至网页分析部件100。
在网页分析部件100中,通讯部件10接收来自客户终端装置的、用于生成更精确检索关键词的多个网页的URL,以及用户输入的检索关键词。
图4表示检索关键词生成部件20中所进行的检索关键词生成工作的流程图。
检索关键词生成部件20可获取经由通讯部件10接收的用于生成更精确检索关键词的多个网页的URL,以及用户输入的检索关键词(S1)。然后,检索关键词生成装置20通过通信网络400,获取用于生成更精确的检索关键词的多个网页的文本内容信息。
检索关键词生成部件20基于所获取的文本内容,对多个网页相关联的关键词进行选定。具体来说,检索关键词生成部件20对获取的多个网页的文本内容进行分析,从使用TF-IDF方法得到的权值较大一端开始,将所定数目的关键词选定作为这些网页相关联的关键词(S3)。
另外,检索关键词生成部件20还将所定义的关键词加入用户输入的检索关键词,生成进行精确搜索所需的新的更丰富的检索关键词(S4)。本方法仅是实现方法的一例,采用其它的如Key-Graph方法生成检索关键词也可。
如此而来,通讯部件10通过通信网络400,将检索关键词生成部件20生成的新检索关键词发送至检索部件300。检索部件300从网页分析部件100的通讯部件10那里接收新检索关键词,从通信网络400中包含的网页之中检索关于新检索关键词的网页。这里为了说明方便,假设检索部件300已经检索出多个网页。检索部件300通过通信网络400,将检索出的多个网页的文本内容信息发送至网页分析部件100。
下面通过图5对多个网页相互关联关系的评价工作(图3中的F2)进行说明。图5为表示网页关联评估部件30中进行的网页相互关联关系评价工作的各步骤的流程图。
网页分析部件100的通讯部件10,接收在F1(图3中)的最后步骤中检索部件300检索出的多个网页(判断对象网页)的文本内容信息。在网页关联评估部件30中,获取部分1获取由通讯部件10接收的多个判断对象网页的文本内容信息(S11)。生成时刻检测部分2根据获取部分1所获取的信息,检测多个判断对象网页的生成时刻(S12)。
相似度计算部分3根据获取部分1所取得的文本内容信息,对多个判断对象网页,计算出每个网页与其它判断对象网页之间的相似度(S13)。
相似度修正部分4对相似度计算部分3中计算出的相似度进行修正(S14)。现举出众多判断对象网页中的两个判断对象网页,对相似度修正部分4的工作进行具体说明。为了说明方便,假设两个判断对象网页分别为网页X及网页Y,网页X先于网页Y生成。另外,相似度计算部3中计算出的网页X与网页Y的相似度设为“相似度S”。
此时,相似度修正部分4根据获取部分1所取得的信息,判断网页Y是否链接在网页X上。若判断为网页Y链接在网页X上,则相似度修正部分4赋予相似度S以第一修正系数C1。若判断网页Y没有链接在网页X上,则不赋予相似度S以第一修正系数C1。
同时,相似度修正部分4根据获取部分1所取得的信息,对网页X及网页Y是否都链接在另一个网页(记作a)上进行判断。若判断两个网页都链接在网页a,则相似度修正部分4赋予相似度S以第二修正系数C2。若判断两个网页不同时链接在另一个网页a,则相似度修正部分4不赋予相似度S以第二修正系数C2。
另外,相似度修正部分4根据生成时刻检测部分2中检测出的生成时刻,对网页X与网页Y的生成时刻的差进行判断,并赋予相似度S以与其差值相对应的第三修正系数C3。例如,相似度修正部分4根据如下所示算式(1),对相似度S赋以特定的第三修正系数C3。
C3=exp(-α×(sp/tp)  (1)
其中,α为根据实验确定的常数(其取值范围在0与1之间),sp为网页X的生成时刻与网页Y的生成时刻之差,tp为所有判断对象网页中,最初生成的网页与最后生成网页之间的生成时刻之差。
另外,相似度修正部分4根据生成时刻检测部2中检测出的生成时刻,测出在网页X的生成时刻与网页Y的生成时刻之间所生成的其他判断对象网页的数目。相似度修正部分4根据如下所示算式(2),对相似度S给以特定的第四修正系数C4。
C4=exp(-β×(sn/tn)    (2)
其中,β为根据试验确定的常数(其取值范围在0与1之间),sn为所有判断对象网页中,在网页X的生成时刻与网页Y的生成时刻之间所生成的网页数目,tn为所有判断对象网页的数目。
另外,相似度修正部分4对相似度计算部分3中算出的相似度S,给以与网页X的单位时间段访问数相对应的第五修正系数C5。此时,相似度修正部分4首先令获取部分1取得包括网页X及网页Y在内的所有判断对象网页其单位时间段的访问数。然后,相似度修正部分4根据如下所示算式(3),对相似度S给以特定的第五修正系数C5。
C5=exp(-γ×(n/N)…(3)
γ为根据实验确定的常数(其取值范围在0与1之间),n为网页X的单位时间段访问数,N为包含网页X及网页Y在内的多个判断对象网页各自的单位时间段访问数的最大值。
另外,相似度修正部分4计算上述所有修正系数(第一修正系数C1--第五修正系数C5)之和,并将求得的合计修正系数乘以相似度S,以此对相似度S进行修正。
至此,对相似度修正部分4和对相似度计算部分3中算出的网页X与网页Y的相似度S进行修正的过程进行了说明。相似度修正部分4对相似度计算部3中算出的所有相似度执行同样动作,以此修正相似度计算部分3中算出的所有相似度,即对所有的相似度计算出其修正相似度。
关联网页选定部分5对相似度修正部分4中得出的修正相似度,检测出其中达到判断两个网页相互关联的阈值以上的修正相似度。然后,关联网页选定部分5检选出达到修正相似度阈值以上的两个判断对象网页,并设定为相互关联网页(S15)。
网络关系图生成部分6,针对在关联网页选定部分5中所设定的网页对,将构成该对的两个网页按照生成时刻检测部2中检测出来的生成时刻的顺序,进行虚拟排序,并以虚拟线条连接,生成关联网页的网络关系图(S16)。
下面通过图6(A)及图6(B)对关联网页选定部分5及网络关系图生成部分6的工作通过具体例子进行说明。图6(A)为表示按照生成时刻顺序排列的4个判断对象网页、与各判断对象的网页之间相似度的关系图,图6(B)为图6(A)中4个判断对象网页的相关网页之间以线连结生成的网络关系图。图6(A)及图6(B)中的横轴t为时间轴。
为了说明方便,假设图6(A)和图6(B)中显示的4个判断对象网页为网页A、网页B、网页C和网页D。图6(A)及图6(B)中的圆圈为网页。另外,假设图6(A)及图6(B)中的4个网页之中,网页A最先生成,其次为网页B,再次为网页C,最后生成的是网页D。
另外,如图6(A)所示,假设网页A与网页B的修正相似度为0.8,网页A与网页C的修正相似度为0.8,网页A与网页D的修正相似度为0.3,网页B与网页C的修正相似度为0.2,网页B与网页D的修正相似度为0.3,网页C与网页D的修正相似度为0.6。并且设两个网页相互关联的判定阈值为0.5。
此时,关联网页选定部分5将网页A与网页B、网页A与网页C,网页C与网页D选定为相互关联的网页。网络关系图生成部分6在网页A与网页B、网页A与网页C、网页C与网页D各自之间画线,形成如图6(B)所示的网络关系图。
输出部分7将网络关系图生成部分6中生成的网页网络关系图输出至通讯部件10。
通讯部件10通过通信网络400,将来自网页关联评估部件30的网页网络关系图输出至客户终端装置200。客户终端装置200接收网页关联评估部件30中得到的网页网络关系图,显示在显示装置250中。
由此,用户可对于与自己决定的检索关键词、以及与该检索关键词相关网页中自己选择的高相关联的网页,了解其按照生成时刻的顺序相关联的网络关系。也就是说,用户可以知道与自己所定的检索关键词相关联的多个网页之间的相互关联性。
另外,上述说明中,相似度修正部分4计算第一修正系数C1至第五修正系数C5的所有修正系数之和,并将求得的合计修正系数乘以相似度S,以此对相似度S进行修正。然而,相似度修正部分4也可以将第一修正系数C1至第五修正系数C5的部分修正系数相加得出合计修正系数,将其乘以相似度S,对相似度S进行修正。
同时,上述说明中,关联网页选定部分5对相似度修正部分4中得出的修正相似度,检出其中达到两个网页相互关联的判定阈值以上的修正相似度。可是,若在不具备判断修正相似度的各种条件的情况下,关联网页选定部分5也可直接检出相似度计算部分3中得到的其中达到(修正前的)两个网页相互关联的判定阈值以上的相似度。此时,关联网页定义部分5对于检出的各相似度,将计算该相似度时使用的两个判断对象网页定义为相互关联的网页。
下面通过图7对网站评价工作(图3中的F3)进行说明。图7为表示网站评价部件40所进行的网站评价工作的各步骤的流程图。
网站评价部件40将经通讯部件10接收的所有判断对象网页按域名(Domain)进行分类,并由此判定出各网站(S21)。网站能被视为判断对象网页中拥有共通域名的网页的集合,这里通过图8对网站进行说明。网页H、网页J、网页K及网页M是拥有同样域名的网页,这些网页的集合即对应为网站。
如图8所示,网页H、网页J、网页K及网页M,是网站G的下级网页。而网页H、网页J、网页K及网页M的排序(Rank)分别为h、j、k及m。排序是由检索部件300所决定的值。例如,若使用一般的搜索引擎作为检索部件,则排序为检索结果的显示顺序。
然后,网站评价部件40通过通讯部件10,使用网站访问量推定装置500,获取对各个站点的访问量(图7的S22),如图8的例子,可获取网站G的访问量g。
然后,网站评价装置40通过通讯部件10,对每一个网站获取与该网站有相同域名的网页的排序(图7的S22)。如图8的例子,网站评价部件40获取了网页H、网页J、网页K及网页M各自的排序。
随后,网页评价部件40对每一个网站,运用该网站的访问量和属于该网站的网页排序,通过如PageRank及类似的计算方法,计算出该网站的重要度。
最后,网站评价部件40按照重要度由大到小的顺序,给所有网站以名次(图7的S25)。
通讯部件10通过通信网络400,将网站评价部件40中得出的各网站标题按照其名次,与其重要度一起发送给客户终端装置200。客户终端装置200接收由网站评价部件得出的各网站的标题、名次及重要度,将各网站的标题按照名次显示在显示装置250上。此时,客户终端装置200将各网站的重要度与标题配对,在显示装置250上显示。
如上所述,本实施方式中,网页关联评估部件30将多个判断对象网页按照生成时刻的顺序进行虚拟排序,并将其中有关联的网页用虚拟线条连接,由此生成网页网络关系图。在生成的网络关系中,时间排序靠前的网站意味着对信息敏感,时间排序靠后但关联网站较多的网站则意味着将信息传播至其他网站的能力强。同时,网站评价部件40计算每个网站的重要度。
在根据重要度进行排序的网站一览上排名靠前的网站,在访问量和检索装置排序等观点上来说,意味着对信息传播具有较高影响力。
对于本发明装置,如果输入与对企业的毫无根据的中伤信息之传播案例相关联的关键词得出上述分析结果,可以由此找出该案例中在信息传播上发挥较大作用的网站。也可以通过要求该网站自我约束,引发对防止再犯措施的探讨。再比如,如果制造商想对公布本公司产品发售信息的广告效果进行分析,可以将多个该公司产品名称输入本发明装置,得到上述分析结果。在得到的分析结果中,对那些结果倾向于在多个本公司产品分析案例中拥有较高信息传播能力的网站,可以认为其在今后的公司产品发售消息的公布上也拥有较大的信息传播功用。可以通过对该网站施加影响来取得更好的广告效果。
另外,构成网页分析部件100的各功能模块,是通过计算机的CPU、内存等硬件与计算机程序共同运转才能实现。不过,上述各种功能也可以通过其它如专用线路等方式得到实现。同时,网页关联评估部件30可以拥有与生成时刻检测部分2、相似度计算部分3、相似度修正部分4、关联网页选定部分5以及网络关系图生成部分6各自相对应的专用内存,也可以让这些部件使用共同的内存。这些部件也可将用来处理的数据及处理结果存入专用或共同存储设备中。

Claims (6)

1.一种互联网网页关联关系评价装置,其特征在于,具有:
获取装置,用于获取在检索装置中检索出的多个判断对象网页各自的构成信息;
网页生成时间检测装置,用于基于所述获取装置获取的信息,检测多个判断对象网页各自的生成时刻;
相似度计算装置,用于基于所述获取装置获取的信息,对多个判断对象网页,计算各网页与其他的判断对象网页之间的相似度;
相似度修正装置,用于对相似度计算装置中计算的相似度进行修正;
关联网页定义装置,用于检测在相似度修正装置中得出的多个修正相似度,对于达到判断两个网页间互相关联的阈值以上的修正相似度,将上述阈值以上的修正相似度使用的两个判断对象网页定义为相互关联网页;
网络关系图生成装置,用于对各个在关联网页定义装置中定义出的两个网页的对,将构成该对的两个网页,按照网页生成时间检测装置中检测出的生成时刻的顺序,进行虚拟排序,并以虚拟线条连接,生成关联网页的网络关系图。
2.根据权利要求1所述的互联网网页关联关系评价装置,其特征在于:
相似度修正装置,用于对于相似度计算装置中得出的各相似度,当计算相似度时使用的两个判断对象网页中的某一方链接至另一方时,将该相似度乘以修正系数从而算出修正相似度。
3.根据权利要求1所述的互联网网页关联关系评价装置,其特征在于:
相似度修正装置,用于对于相似度计算装置中得出的各相似度,当计算该相似度时使用的两个判断对象网页同时链接至其他网页时,将该相似度乘以修正系数从而算出修正相似度。
4.根据权利要求1所述的互联网网页关联关系评价装置,其特征在于:
相似度修正装置,用于对于相似度计算装置中得出的各相似度,将与计算该相似度时使用的两个判断对象网页之间的生成时刻差相对应的修正系数乘以该相似度,从而计算出修正相似度,利用以下公式计算修正系数:c=exp(-α×(sp/tp),其中α为根据实验确定的常数,取值范围为0与1之间,sp为网页生成时刻之差,tp为所有判断对象网页中,最初生成的网页与最后生成的网页之间的生成时刻之差,c为修正系数。
5.根据权利要求1所述的互联网网页关联关系评价装置,其特征在于:
相似度修正装置,用于对于相似度修正装置中得出的各相似度,将与计算该相似度时使用的两个判断对象网页的生成时刻之间生成的其他判断对象网页数目相对应的修正系数乘以 该相似度,从而计算出修正相似度,利用以下公式计算修正系数:c=exp(-β×(sn/tn),其中β为根据实验确定的常数,取值范围为0与1之间,sn为所有判断对象网页中,一网页的生成时刻与另一网页的生成时刻之间所生成的网页数目,tn为所有判断对象网页的数目,c为修正系数。
6.根据权利要求1所述的互联网网页关联关系评价装置,其特征在于:
获取装置,还用于获取多个判断对象网页各自单位时间段内的访问量;相似度修正装置,用于根据所述获取装置所取得的多个判断对象网页各自单位时间段的访问量,对于所述相似度计算装置所得出的各相似度,将该相似度乘以与计算该相似度时所使用的两个判断对象网页中先生成的网页的单位时间段访问量相对应的修正系数,从而计算出修正相似度,利用以下公式计算修正系数:c=exp(-γ×(n/N),γ为根据实验确定的常数,取值范围为0与1之间,n为一网页的单位时间段访问数,N为包含所述一网页与另一网页在内的多个判断对象网页各自的单位时间段访问数的最大值,c为修正系数。 
CN 200910092356 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置 Expired - Fee Related CN101639856B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 200910092356 CN101639856B (zh) 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置
JP2009212380A JP5133953B2 (ja) 2009-09-11 2009-09-14 情報伝播を検知するウェブページ関係評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910092356 CN101639856B (zh) 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置

Publications (2)

Publication Number Publication Date
CN101639856A CN101639856A (zh) 2010-02-03
CN101639856B true CN101639856B (zh) 2011-05-11

Family

ID=41614840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910092356 Expired - Fee Related CN101639856B (zh) 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置

Country Status (2)

Country Link
JP (1) JP5133953B2 (zh)
CN (1) CN101639856B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541863B (zh) * 2010-12-14 2015-08-05 联芯科技有限公司 一种应用于移动终端的网页压缩方法
CN102254038B (zh) * 2011-08-11 2013-01-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
CN115150297B (zh) * 2022-08-15 2023-05-19 雁展科技(深圳)有限公司 一种基于移动互联网的数据过滤及内容评价方法和系统
CN116049893B (zh) * 2023-02-17 2023-12-22 飞渡航天科技有限公司 一种应对云服务的敏感软件大数据处理方法及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1732459A (zh) * 2002-11-01 2006-02-08 Lg电子株式会社 用于较小显示装置的网页内容译码系统和方法
CN1920815A (zh) * 2006-05-09 2007-02-28 上海态格文化传播有限公司 基于网页内容的网页清洗方法
CN1952929A (zh) * 2005-10-20 2007-04-25 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2001147936A (ja) * 1999-11-22 2001-05-29 Ntt Data Corp 文書検索システム、方法及び記録媒体
JP2004021665A (ja) * 2002-06-18 2004-01-22 Hitachi Ltd 情報閲覧方法および装置
JP2005122295A (ja) * 2003-10-14 2005-05-12 Fujitsu Ltd 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2009151373A (ja) * 2007-12-18 2009-07-09 Nec Corp 引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1732459A (zh) * 2002-11-01 2006-02-08 Lg电子株式会社 用于较小显示装置的网页内容译码系统和方法
CN1952929A (zh) * 2005-10-20 2007-04-25 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
CN1920815A (zh) * 2006-05-09 2007-02-28 上海态格文化传播有限公司 基于网页内容的网页清洗方法

Also Published As

Publication number Publication date
JP5133953B2 (ja) 2013-01-30
JP2011060228A (ja) 2011-03-24
CN101639856A (zh) 2010-02-03

Similar Documents

Publication Publication Date Title
US10268960B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
Zhao et al. Exploring demographic information in social media for product recommendation
Zhou et al. Userrec: A user recommendation framework in social tagging systems
TWI539305B (zh) Personalized information push method and device
US10528574B2 (en) Topical trust network
Lai et al. Novel personal and group-based trust models in collaborative filtering for document recommendation
US8150860B1 (en) Ranking authors and their content in the same framework
US20130110915A1 (en) Correlated information recommendation
CN105247507A (zh) 品牌的影响力得分
WO2016043826A1 (en) Determining trustworthiness and compatiblity of a person
US20100185623A1 (en) Topical ranking in information retrieval
US20120066359A1 (en) Method and system for evaluating link-hosting webpages
CN104081392A (zh) 社会媒体配置文件的影响评分
US10311072B2 (en) System and method for metadata transfer among search entities
WO2020018812A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
Lin et al. Blog popularity mining using social interconnection analysis
US20190354638A1 (en) Action indicators for search operation output elements
Costa et al. Emotion-based recommender system for overcoming the problem of information overload
JP5738785B2 (ja) ユーザ嗜好に合った批評者を推薦するレコメンドプログラム、装置及び方法
Saleem et al. Personalized decision-strategy based web service selection using a learning-to-rank algorithm
CN101639856B (zh) 检测互联网信息传播的网页关联评价装置
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
WO2011159863A1 (en) A system and method for query temporality analysis
Kim et al. Topic-Driven SocialRank: Personalized search result ranking by identifying similar, credible users in a social network
Lee Author-related factors predicting citation counts of conference papers: focusing on computer and information science

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110511

Termination date: 20190911

CF01 Termination of patent right due to non-payment of annual fee