CN101639856A - 检测互联网信息传播的网页关联评价装置 - Google Patents

检测互联网信息传播的网页关联评价装置 Download PDF

Info

Publication number
CN101639856A
CN101639856A CN 200910092356 CN200910092356A CN101639856A CN 101639856 A CN101639856 A CN 101639856A CN 200910092356 CN200910092356 CN 200910092356 CN 200910092356 A CN200910092356 A CN 200910092356A CN 101639856 A CN101639856 A CN 101639856A
Authority
CN
China
Prior art keywords
similarity
webpage
webpages
web page
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200910092356
Other languages
English (en)
Other versions
CN101639856B (zh
Inventor
李春平
高松
王益斌
顾明
古川和年
阿部昌平
犬塚裕介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Nomura Research Institute Ltd
Original Assignee
Tsinghua University
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Nomura Research Institute Ltd filed Critical Tsinghua University
Priority to CN 200910092356 priority Critical patent/CN101639856B/zh
Priority to JP2009212380A priority patent/JP5133953B2/ja
Publication of CN101639856A publication Critical patent/CN101639856A/zh
Application granted granted Critical
Publication of CN101639856B publication Critical patent/CN101639856B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

检测互联网信息传播的网页关联评价装置,属于互联网信息传播技术领域,其特征在于,所述网页关系评价装置30具有:检测多个判断对象网页各自的生成时刻的生成时刻检测部分2,计算判断对象网页与其他判断对象网页之间相似度的相似度计算部分3,对于计算出的多个相似度中达到阈值以上的相似度、将计算该相似度时使用的两个判断对象网页定义为相互关联网页的关联网页定义部分5。本发明解决了互联网网页之间的相互关联关系精确定位技术问题。

Description

检测互联网信息传播的网页关联评价装置
技术领域
本发明涉及一种互联网信息传播检测技术,用于评价互联网网页间相互的关联关系。
发明内容
近年来,企业和个人利用网页、博客和SNS(Social Network Service)来发布信息。所发布的信息时常受到其它信息资源的影响。例如,某个企业在网页上宣布将推出新产品,而看到了这个网页的某个人则在博客上公开该信息以及对该新产品的意见。如此,信息经网页传播开来。然而,也有对公布网页的信息之传播感到不快的情况。例如,尽管没有真正发生丑闻,但如果中伤企业的信息蔓延至大量的网站且为多人所知,那么就有可能会影响并阻碍该企业的经济活动。在此情形下,企业会希望了解该信息的传播路径。如能弄清构成传播路径的核心网页或信息源头在何处,就可定期检阅此站点,迅速察知不利信息的流传并尽早采取对策。
另外,有时也会出现寻求广告效果而在网页、博客和SNS等公开信息的情况。例如,企业即将发售新产品这一事实在本公司网站上作为新闻发布时,而一般人通常则经由新网网站或有名的博客网站了解此事实。在这种情况下,该企业从属人员会希望了解信息是经何种途径传播。如能确定将信息直接或通过影响其它有名博客间接传播给多数民众的新闻网站或有名博客,便可将焦点集中于此类站点,进行更有效率的广告行为。然而,目前尚不存在对通过网页扩散信息的传播路径进行精确定义的技术。也就是说,不存在对网页之间的相互关联关系进行精确定义的技术。
本发明的目的是,提供一种可对互联网网页之间的相互关联关系进行精确定义的网页关系评价装置。
为解决所述课题并达成上述目的,本发明中的网页关系评价装置包括:
-可获取多个判断对象网页中各自构成信息的获取部分;
-基于上述获取部件所取得的信息,检测多个判断对象网页其生成时刻的检测部分,
-基于上述信息获取部分所取得的信息,计算其他判断对象网页其各自之间相似度的相似度计算部分;
-在根据上述相似度计算部分所得出的相似性度量值中,对于达到所规定的阈值以上的相似度值,作为判断两个对象网页相互关联程度的关联关系定义部分。
同时,本发明的另一形式是,使本发明的网页关系评价装置中的各构件功能在计算机上得以程序实现。
本发明可提供一种可对关联网网页之间的相互关系进行精确定义的网页关系评价装置。
附图说明
图1为本发明实施方式中的网页关联分析系统结构图
图2为本发明实施方式中网页分析部件的结构图
图3为本发明实施方式中网页分析系统的工作概要说明图
图4为表示图2中检索关键词生成部件所进行的检索关键词生成工作各步骤的流程图
图5为表示图2中网页关联程度评价部件所进行的网页相互关系评价工作的各步骤的流程图
图6(A)为表示按照生成时刻顺序排列的4个判断对象网页、与各判断对象的网页之间的相似度的关系图
图6(B)为图6(A)中4个判断对象网页的相关网页之间以线连结生成的网络关系图
图7为表示图2的网站评价部件所进行的网站评价工作各步骤的流程图
图8为网站的示意图
其中符号说明为:100网页分析部件、200客户终端装置、300检索部件、400通信网络、500网站访问量推算部件、250显示装置、10通讯部件、20检索关键词生成部件、30网页关系评价部件、40网站评价部件、1获取部分、2生成时刻检验部分、3相似度计算部分、4相似度修正部分、5关联网页定义部分、6网络关系图生成部分、7输出部分。
具体实施方式
以下将参照附图对本发明的实施方式进行说明。
首先,利用图1说明本实施方式的网页关联分析系统的结构。图1为本实施方式的网页关联分析系统的结构图,包括网页分析部件100、客户终端装置200、检索部件300、通信网络400与网站访问量推算部件500。
网页分析部件100,是对在通信网络400中明示的网页进行分析的模块。网页分析部件100的详细结构将通过图2进行详述。客户终端200是供用户使用的装置,从用户那里接受检索关键词或检索与检索关键词相关的网页等指令(以下简称“检索命令”)。客户终端200将所接受的指令发送给网页分析部件100或检索部件300,并从网页分析部件100及检索部件300那里接收其得到的结果。如图1所示,客户终端装置200中连接着显示装置250,客户终端装置200所接收的信息将通过显示装置250展示。
检索部件300,是在通信网络400中明示的网页中对与检索关键词相关的网页进行检索的模块。通信网络400,是将因特网等数据连通的网络。网站访问量推算部件500,是用于推定网站访问数的模块。网页分析部件100、客户终端装置200、检索部件300以及网站访问量推算部件500,皆与通信网络400相连接,相互之间可进行通信。
这里用图2说明网页分析部件100的结构。如上所述,网页分析部件100是对通信网络400中明示的网页进行分析的模块,如图2所示,具有通信部件10、检索关键词生成部件20、网页关联评估部件30以及网站评价部件40。通信部件10进行数据传输。检索关键词生成部件20基于用户所选择的关键词,生成经过适当变换处理、更精确的检索关键词。
网页关系评价部件30,是基于检索关键词生成部件20所生成的检索关键词,对在检索部件300中检索出的多个网页之间的相互关系进行评价。网页关系评价装置30如图2所示,包括获取部分1、生成时间检测部分2、相似度计算部分3、相似度修正部分4、关联网页定义部分5、网络关系图生成部分6和输出部分7。
获取部分1获取在检索部件300中检索出的多个网页的综合信息。由于检索部件300中检索出的网页即为网页关系评价部件30所评价的网页,因此以下将检索部件300所检索出的网页称为“判断对象网页”。网页生成时间检测部分2基于获取部分1所获取的信息,检出多个判断对象网页其各自的生成时刻。
相似度计算部分3基于获取部分1所取得的信息,对多个判断对象网页,计算出各个网页与其他的判断对象网页之间的相似度。具体来说,相似度计算部分3在计算2个判断对象网页的相似度时,对该2个判断对象网页各自的结构信息的进行语言分析,运用TF-IDF(Term Frequency-Inverse Document Frequency)以及向量空间模型,计算出该2个判断对象网页之间的相似度。另外,也可使用任意在计算网页相似度时常用的文本相似度计算法,如可以使用N-Gram法代替TF-IDF法。
相似度修正部分4用于修正相似度计算部分3中计算出来的相似度。以下将相似度修正部分4中所得到的值称为“修正相似度”。另外,由于相似度修正部分4运用多个方法修正相似度,对于各种方法将在说明相似度修正部分4的工作时进行说明。
关联网页定义部分5用于检测在相似度修正部分4中得到的多个修正相似度中各个达到判断2个网页之间互相关联所需阈值以上的修正相似度值。同时,关联网页定义部分5对于检测出的各个修正相似度,将计算该修正相似度时所使用的2个判断对象网页定义为相互关联的网页。
网络关系图生成部分6,对于在关联网页定义部分5中所定义出的2个网页的对,将构成该对的2个网页按照生成时刻检测部分2中检测出来的生成时刻的顺序,进行虚拟排序,并以虚拟线条连接,生成关联网页的网络关系图。也就是说,网络关系图生成部分6将关联网页按照生成时刻的顺序进行树状连接,生成网络关系图。
输出部分7将网络关系图生成部分6中生成的网络关系图输出至通信部件10。
网站评价部件40对通信网络400中明示的网站进行评价。
接下来,对本实施方式中的网页分析系统的工作进行说明。图3为本实施方式中网页分析系统的工作概要说明图,具体分为用于精确搜索的检索关键词的生成动作(F2)和网站评价动作(F3)。为此,下面将对本实施方式的网页分析系统的工作就各相位进行说明。
生成检索关键词的工作。首先,对生成用于精确搜索的检索关键词的工作(F1)进行说明。
用户将检索关键词和对与该检索关键词相关的网页的检索命令(检索命令)输入客户终端装置200。客户终端装置200接受所输入的检索关键词和检索命令,将其通过通信网络400发送至检索部件300.检索部件300接收到发自客户终端装置200的检索关键词和检索命令,从通信网络400上明示的网页之中,检索出与接收的关键词相关联的网页。为了说明方便,假设检索部件300已经检索出了多个网页。检索装置300将检索出的多个网页的标题通过通信网络400发送至客户终端装置200.
客户终端装置200接收到来自检索部件300的多个网页的标题和正文内容概要,将其按照检索装置300中规定的顺序在显示装置250中显示。用户阅读显示装置250中显示的各网页标题,选择任意网页,并在客户终端装置200中下达获取所选网页的命令。
客户终端装置200获取用户选择的网页,并将其显示在显示装置250上。如果用户判断显示装置250中所显示的网页作为生成更精确的检索关键词的题材较为合适,便将该判断结果输入客户终端装置200。
客户终端装置200将用于定义该种网页的信息通过通信网络400发送至网页分析部件100.定义网页的信息,假设其为该网页的URL(Uniform Resource Locator)。如上所述,用户选择多个用于生成更精确关键词的网页,客户终端装置200接收用户选择的多个网页的定义信息并发送至网页分析部件100。同时,客户终端装置200也将用户输入的检索关键词发送至网页分析部件100.
在网页分析部件100中,通信部件10接收来自客户终端装置的、用于生成更精确检索关键词的多个网页的定义信息,以及用户输入的检索关键词。
图4表示检索关键词生成部件20中所进行的检索关键词生成工作的流程图。
检索关键词生成部件20可获取经由通信装置10接收的用于生成更精确检索关键词的多个网页定义信息,以及用户输入的检索关键词(S1)。然后,检索关键词生成装置20通过通信网络400,获取用于生成更精确的检索关键词的多个网页各自的结构信息。
检索关键词生成部件20基于所获取的信息,对多个网页相关联的关键词进行定义。具体来说,检索关键词生成部件20根据所获取的信息,对多个网页的内容进行分析,从使用TF-IDF方法得到的值较大一端开始,将所定数目的关键词定义为与多个网页向关联的关键词(S3)。
另外,检索关键词生成部件20还将所定义的关键词加入用户输入的检索关键词,生成进行精确搜索所需的新检索关键词(S4)。本方法仅是实现方法的一例,如以Key-Graph方法生成检索关键词也可。
如此,通讯部件10通过通信网络400,将检索关键词生成部件20生成的新检索关键词发送至检索部件300。检索部件300从网页分析部件100的通信部件10那里接收新检索关键词,从通信网络400中明示的网页之中检索关于新检索关键词的网页。这里为了说明方便,也假设检索部件300已经检索出多个网页。检索部件300通过通信网络400,将检索出的多个网页的各自的构成信息发送至网页分析部件100。
下面通过图5,对多个网页相互关系的评价工作(相F2)进行说明。图5为表示网页关系评价部件30中进行的网页相互关系评价工作的各步骤的流程图。
网页分析部件100的通讯部件10,接收在F1的最后步骤中检索部件300检索出的多个网页(判断对象网页)的构成信息。在网页关系评价部件30中,获取部分1获取由通讯部件10接收的多个判断对象网页各自的构成信息(S11)。生成时刻检测部分2根据获取部分1所获取的信息,检测多个判断对象网页的各自的生成时刻(S12)。
相似度计算部分3根据获取部分1所取得的信息,对多个判断对象网页,计算出各个网页与其他判断对象网页各自之间的相似度(S13)。
相似度修正部分4对相似度计算部分3中计算出的相似度进行修正(S14)。现举出多个判断对象网页中的2个判断对象网页,对相似度修正部分4的工作进行具体说明。为了说明方便,设2个判断对象网页分别为网页X及网页Y,网页X先于网页Y生成。另外,相似度计算部3中计算出的网页X与网页Y的相似度设为“相似度S”。
此时,相似度修正部分4根据获取部分1所取得的信息,判断网页Y是否链接在网页X上。若判断为网页Y链接在网页X上,则相似度修正部分4赋予相似度S以第一修正系数C1。若判断网页Y没有链接在网页X上,则不赋予相似度S以第一修正系数C1.
同时,相似度修正部分4根据获取部分1所取得的信息,对网页X及网页Y是否都链接在其他网页a上进行判断。若判断2个网页都链接在其他网页a,则相似度修正部分4赋予相似度S以第二修正系数C2。若判断2个网页中至少有1个没有链接在其他网页a,则相似度修正部分4不赋予相似度S以第二修正系数C2。
另外,相似度修正部分4根据生成时刻检测部分2中检测出的生成时刻,对网页X与网页Y的生成时刻的差进行判断,并赋予相似度S以与其差值相对应的第三修正系数C3。例如,相似度修正部分4根据如下所示算式(1),对相似度S赋以特定的第三修正系数C3。
C3=exp(-α×(sp/tp)                (1)
其中,α为根据实验确定的常数(其取值范围在0与1之间),sp为网页X的生成时刻与网页Y的生成时刻之差,tp为所有判断对象网页中,最初生成的网页与最后生成网页之间的生成时刻之差。
另外,相似度修正部分4根据生成时刻检测部2中检测出的生成时刻,测出在网页X的生成时刻与网页Y的生成时刻之间所生成的其他判断对象网页的数目。相似度修正部分4根据如下所示算式(2),对相似度S给以特定的第四修正系数C4。
C4=exp(-β×(sn/tn)                (2)
其中,β为根据试验确定的常数(其取值范围在0与1之间),sn为所有判断对象网页中,在网页X的生成时刻与网页Y的生成时刻之间所生成的网页数目,tn为所有判断对象网页的数目。
另外,相似度修正部分4对相似度计算部分3中算出的相似度S,给以与网页X的单位时间段访问数相对应的第五修正系数C5。此时,相似度修正部分4首先令获取部分1取得包括网页X及网页Y在内的所有判断对象网页各自的单位时间段的访问数。然后,相似度修正部分4根据如下所示算式(3),对相似度S给以特定的第五修正系数C5。
C5=exp(-γ×(n/N)    …(3)
γ为根据实验确定的常数(其取值范围在0与1之间),n为网页X的单位时间段访问数,N为包含网页X及网页Y在内的多个判断对象网页各自的单位时间段访问数的最大值。
另外,相似度修正部分4计算上述所有修正系数(第一修正系数C1--第五修正系数C5)之和,并将求得的合计修正系数乘以相似度S,以此对相似度S进行修正。
到此,对相似度修正部分4核对相似度计算部分3中算出的网页X与网页Y的相似度S进行修正的过程进行了说明。相似度修正部分4对相似度计算部3中算出的所有相似度执行同样动作,以此修正相似度计算部分3中算出的所有相似度,并对所有的相似度计算出其修正相似度。
关联网页定义部分5对相似度修正部分4中得出的多个修正相似度,检测出其中达到判断两个网页相互关联的阈值以上的修正相似度。然后,关联网页定义部分5对于检出的各个修正相似度,将计算该修正相似度时所使用的2个判断对象网页定义为相互关联网页(S15)。
网络关系图生成部分6,对于各个在关联网页定义部分5中所定义出的2个网页的对,将构成该对的2个网页按照生成时刻检测部2中检测出来的生成时刻的顺序,进行虚拟排序,并以虚拟线条连接,生成关联网页的网络关系图(S16)。
在此,通过图6(A)及图6(B)对关联网页定义部分5及网络关系图生成部分6的工作通过具体例子进行说明。图6(A)为表示按照生成时刻顺序排列的4个判断对象网页、与各判断对象的网页之间的相似度的关系图,图6(B)为图6(A)中4个判断对象网页的相关网页之间以线连结生成的网络关系图。图6(A)及图6(B)中的横轴t为时间轴。
为了说明方便,设图6(A)及图6(B)中显示的4个判断对象网页为网页A、网页B、网页C及网页D。图6(A)及图6(B)中的圆圈为网页。另外,假设图6(A)及图6(B)中的4个网页之中,网页A最先生成,其次为网页B,再次为网页C,最后生成网页D。另外,如图6(A)所示,假设网页A与网页B的修正相似度为0.8,网页A与网页C的修正相似度为0.8,网页A与网页D的修正相似度为0.3,网页B与网页C的修正相似度为0.2,网页B与网页D的修正相似度为0.3,网页C与网页D的修正相似度为0.6。并且设2个网页相互关联的判断阈值为0.5。
此时,关联网页定义部5将网页A与网页B、网页A与网页C,网页C与网页D各自定义为相互关联的网页。网络关系图生成部分6在网页A与网页B、网页A与网页C、网页C与网页D各自之间画线,形成如图6(B)所示的网络关系图。
输出部分7将网络关系图生成部分6中生成的网页网络关系图输出至通讯部件10。
通讯部件10通过通信网络400,将来自网页关系评价部件30的网页网络关系图输出至客户终端装置200。客户终端装置200接收网页关系评价部件30中得到的网页网络关系图,显示在显示装置250中。
由此,用户可对于与自己决定的检索关键词、以及与该检索关键词相关网页中自己选择的网页相关联的网页,了解其按照生成时刻的顺序相关联的网络关系。也就是说,用户可以知道与自己所定的检索关键词相关联的多个网页之间的相互关联性。
另外,上述说明中,相似度修正部分4计算第一修正系数C1--第五修正系数C5的所有修正系数之和,并将求得的合计修正系数乘以相似度S,以此对相似度S进行修正。然而,相似度修正部分4也可以将第一修正系数C1--第五修正系数C5的部分修正系数相加得出合计修正系数,将其乘以相似度S,对相似度S进行修正。另外,相似度修正部分4也可以将第一修正系数C1--第五修正系数C5中的某一个修正系数乘以相似度S,对相似度S进行修正。
同时,上述说明中,关联网页定义部分5对相似度修正部分4中得出的多个修正相似度,检测出其中达到判断2个网页相互关联的阈值以上的修正相似度。然而,关联网页定义部分5也可以检测相似度计算部3中得到的(修正前的)多个相似度中上述阈值以上的相似度。此时,关联网页定义部分5对于检出的各相似度,将计算该相似度时使用的2个判断对象网页定义为相互关联的网页。
下面通过图7对网站评价工作(F3)进行说明。图7为表示网站评价部件40所进行的网站评价工作的各步骤的流程图。
网站评价部件40将经通讯部件10接收的所有判断对象网页按域名(Domain)进行分类,并由此定义出各网站(S21)。网站为判断对象网页中拥有共通域名的网页的集合,通过图8对网站进行说明。网页H、网页J、网页K及网页M是拥有同样域名的网页,这些网页的集合即为网站。
因此,在图8中,网页H、网页J、网页K及网页M,是网站G的下级网页。而网页H、网页J、网页K及网页M的排序(Rank)分别为h、j、k及m。排序是由检索部件300所决定的值。例如,若使用一般的搜索引擎作为检索部件,则排序为检索结果的显示顺序。
然后,网站评价部件40通过通讯部件10,使用网站访问量推定装置500,获取对各个站点的访问量(图7的S22)。在图8的例子中为获取网站G的访问量g。
然后,网站评价装置40通过通讯部件10,对每一个网站获取与该网站有相同域名的网页的排序(图7的S22)。在图8的例子中,网站评价部件40获取了网页H、网页J、网页K及网页M各自的排序。
随后,网页评价部件40对每一个网站,运用该网站的访问量和属于该网站的网页排序,通过任意方法,计算出该网站的重要度。
最后,网站评价部件40按照重要度由大到小的顺序,给所有网站以名次(图7的S25)。通讯部件10通过通信网络400,将网站评价部件40中得出的各网站标题按照其名次,与其重要度一起发送给客户终端装置200。客户终端装置200接收由网站评价部件得出的各网站的标题、名次及重要度,将各网站的标题按照名次显示在显示装置250上。此时,客户终端装置200将各网站的重要度与标题配对,在显示装置250上显示。
如上所述,本实施方式中,网页关系评价部件30将多个判断对象网页按照生成时刻的顺序进行虚拟排序,并将其中有关联的网页用虚拟线条连接,由此生成树状的网页网络关系图。在生成的网络关系中,时间排序靠前的网站意味着对信息敏感,时间排序靠后的关联网站较多的网站则意味着将信息传播至其他网站的能力强。同时,网站评价部件40计算每个网站的重要度。在根据重要度进行排序的网站一览上排名靠前的网站,在访问量和检索装置排序等观点上来说,意味着对信息传播具有较高影响力。
对于本发明装置,比如,如果输入与对企业的毫无根据的中伤信息之传播案例相关联的关键词得出上述分析结果,可以由此找出该案例中在信息传播上发挥较大作用的网站。也可以通过要求该网站自我约束,引发对防止再犯措施的探讨。再比如,如果制造商想对公布本公司产品发售信息的广告效果进行分析,可以将多个该公司产品名称输入本发明装置,得到上述分析结果。在得到的分析结果中,对那些结果倾向于在多个本公司产品分析案例中拥有较高信息传播能力的网站,可以认为其在今后的公司产品发售消息的公布上也拥有较大的信息传播功用。可以通过对该网站施加影响来取得更好的广告效果。
另外,构成网页分析部件100的各功能模块,是通过计算机的CPU、内存等硬件与计算机程序共同运转才能实现。不过,上述各种功能也可以通过任意方式如专用线路等得到实现。
同时,网页关系评价部件30可以拥有与生成时刻检测部分2、相似度计算部分3、相似度修正部分4、关联网页定义部分5以及网络关系图生成部分6各自相对应的专用内存,也可以让这些部件使用共同的内存。这些部件也可将用来处理的数据及处理结果存入专用或共同内存中。

Claims (8)

1.一种互联网网页关联关系评价装置,其特征在于,具有:
可获取多个判断对象网页中各自构成信息的获取部分;
基于所述获取部分所取得的信息,检测多个判断对象网页各自生成时刻的生成时刻检测部分;
基于所述获取部分所取得的信息,对多个判断对象网页,计算各网页与其他判断对象网页各自之间相似度的相似度计算部分;
在根据所述相似度计算部分所得出的多个相似度之中,对于达到判断两个网页间互相关联所需阈值以上的相似度值,将计算该相似度值所使用的这两个判断对象网页定义为相互关联网页的关联网页定义部分。
2.根据权利要求项1所记载的互联网网页关系评价装置,其特征在于,具有:
各个在所述关联网页定义部中所定义出的两个网页的对,将构成该对的两个网页,按照所述生成时刻检测部分中检测出来的生成时刻的顺序进行虚拟排序,并以虚拟线条连接,生成关联网页的网络关系图。
3.根据权利要求项1记载的互联网网页关系评价装置,其特征在于:
具有根据所述获取部分取得的信息,对于所述相似度计算部中得出的各相似度,当计算该相似度时使用的2个判断对象网页中的某一方链接至另一方时,将该相似度乘以修正系数从而算出修正相似度;而且所述关联网页定义部分对于基于所述相似度修正部得出的多个修正相似度中高于前述阈值的各个修正相似度,将算出该修正相似度时使用的两个判断对象网页定义为相互关联的网页。
4.根据权利要求项1记载的互联网网页关系评价装置,其特征在于:
具有根据所述获取部分取得的信息,对于所述相似度计算部中得出的各相似度,当计算该相似度时使用的两个判断对象网页同时链接至其他网页时,将该相似度乘以修正系数从而算出修正相似度的相似度修正部分;而且所述关联网页定义部分对于所述相似度修正部分得出的多个修正相似度中高于前述阈值的各个修正相似度,将算出该修正相似度时使用的两个判断对象网页定义为相互关联的网页。
5.根据权利要求项1记载的互联网网页关系评价装置,其特征在于:
具有根据所述生成时刻检测部分检测出的生成时刻,对于所述相似度计算部分中得出的各相似度,将与计算该相似度时使用的两个判断对象网页之间的生成时刻差相对应的修正系数乘以该相似度,从而计算出修正相似度;而且所述关联网页定义部分对于所述相似度修正部分得出的多个修正相似度中高于前述阈值的各个修正相似度,将算出该修正相似度时使用的两个判断对象网页定义为相互关联的网页。
6.根据权利要求项1记载的互联网网页关系评价装置,其特征在于:
具有根据所述生成时刻检测部分检测出的生成时刻,对于所述相似度计算部分中得出的各相似度,将与计算该相似度时使用的两个判断对象网页的生成时刻之间生成的其他判断对象网页数目相对应的修正系数乘以该相似度,从而计算出修正相似度;而且所述关联网页定义部分对于所述相似度修正部分得出的多个修正相似度中高于前述阈值的各个修正相似度,将算出该修正相似度时使用的两个判断对象网页定义为相互关联的网页。
7.根据权利要求项1记载的互联网网页关系评价装置,其特征在于:
具有对所述相似度计算部分得出的各相似度进行修正的相似度修正部分;
所述获取部分获取多个判断对象网页各自单位时间段内的访问量;
所述相似度修正部分根据所述获取部分所取得的多个判断对象网页各自的单位时间段访问量,对于所述相似度计算部分所得出的各相似度,将该相似度乘以与计算该相似度时所使用的两个判断对象网页中先生成的网页的单位时间段访问量相对应的修正系数,从而计算出修正相似度;
所述关联网页定义部分对于所述相似度修正部分得出的多个修正相似度中高于前述阈值的各个修正相似度,将算出该修正相似度时使用的2个判断对象网页定义为相互关联的网页。
8.根据权利要求项1所述的检测互联网信息传播的网页关联评价装置,作为一种在计算机中实现的程序,其特征在于,具有:
获取多个判断对象网页各自的构成信息的功能,
根据获取的信息,检测出多个判断对象网页各自生成时刻的功能,
根据获取的信息,对于多个判断对象网页,计算各网页与其他判断对象网页各自之间的相似度的功能,
对于计算出的多个相似度中各个达到判断两个网页之间互相关联所需阈值以上的相似度值,将计算该相似度值时所使用的两个判断对象网页定义为相互关联网页的功能。
CN 200910092356 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置 Expired - Fee Related CN101639856B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 200910092356 CN101639856B (zh) 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置
JP2009212380A JP5133953B2 (ja) 2009-09-11 2009-09-14 情報伝播を検知するウェブページ関係評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910092356 CN101639856B (zh) 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置

Publications (2)

Publication Number Publication Date
CN101639856A true CN101639856A (zh) 2010-02-03
CN101639856B CN101639856B (zh) 2011-05-11

Family

ID=41614840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910092356 Expired - Fee Related CN101639856B (zh) 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置

Country Status (2)

Country Link
JP (1) JP5133953B2 (zh)
CN (1) CN101639856B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
CN102541863A (zh) * 2010-12-14 2012-07-04 联芯科技有限公司 一种应用于移动终端的网页压缩方法
CN116049893A (zh) * 2023-02-17 2023-05-02 何宁 一种应对云服务的敏感软件大数据处理方法及服务器

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150297B (zh) * 2022-08-15 2023-05-19 雁展科技(深圳)有限公司 一种基于移动互联网的数据过滤及内容评价方法和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2001147936A (ja) * 1999-11-22 2001-05-29 Ntt Data Corp 文書検索システム、方法及び記録媒体
JP2004021665A (ja) * 2002-06-18 2004-01-22 Hitachi Ltd 情報閲覧方法および装置
KR100461019B1 (ko) * 2002-11-01 2004-12-09 한국전자통신연구원 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
JP2005122295A (ja) * 2003-10-14 2005-05-12 Fujitsu Ltd 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN100442283C (zh) * 2005-10-20 2008-12-10 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
CN1920815A (zh) * 2006-05-09 2007-02-28 上海态格文化传播有限公司 基于网页内容的网页清洗方法
JP2009151373A (ja) * 2007-12-18 2009-07-09 Nec Corp 引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541863A (zh) * 2010-12-14 2012-07-04 联芯科技有限公司 一种应用于移动终端的网页压缩方法
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
CN116049893A (zh) * 2023-02-17 2023-05-02 何宁 一种应对云服务的敏感软件大数据处理方法及服务器
CN116049893B (zh) * 2023-02-17 2023-12-22 飞渡航天科技有限公司 一种应对云服务的敏感软件大数据处理方法及服务器

Also Published As

Publication number Publication date
CN101639856B (zh) 2011-05-11
JP2011060228A (ja) 2011-03-24
JP5133953B2 (ja) 2013-01-30

Similar Documents

Publication Publication Date Title
TWI539305B (zh) Personalized information push method and device
Lu et al. BizSeeker: a hybrid semantic recommendation system for personalized government‐to‐business e‐services
CN103729359B (zh) 一种推荐搜索词的方法及系统
US10452662B2 (en) Determining search result rankings based on trust level values associated with sellers
US9639622B2 (en) Image processing system, image processing method, program, and non-transitory information storage medium
Lai et al. Novel personal and group-based trust models in collaborative filtering for document recommendation
TW201513019A (zh) 基於用戶行爲的特徵提取、個性化推薦方法和系統
US20170161283A1 (en) Topical trust network
US9020922B2 (en) Search engine optimization at scale
CN108304410A (zh) 一种异常访问页面的检测方法、装置及数据分析方法
Lin et al. Blog popularity mining using social interconnection analysis
Costa et al. Emotion-based recommender system for overcoming the problem of information overload
Chakraborty et al. Ferosa: A faceted recommendation system for scientific articles
CN103699603A (zh) 一种基于用户行为的信息推荐方法和系统
Dias et al. Automating the extraction of static content and dynamic behaviour from e-commerce websites
CN101639856B (zh) 检测互联网信息传播的网页关联评价装置
O'Doherty et al. Towards trust inference from bipartite social networks
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
Lee Author-related factors predicting citation counts of conference papers: focusing on computer and information science
US20210073237A1 (en) System and method for automatic difficulty level estimation
Volk et al. New e-commerce user interest patterns
CN117056619A (zh) 确定用户行为特征的方法和装置
KR20200065754A (ko) 도서 추천 방법 및 이를 지원하는 서비스 장치
Benzarti et al. EgoTR: Personalized tweets recommendation approach
Movahedian et al. A tag-based recommender system using rule-based collaborative profile enrichment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110511

Termination date: 20190911

CF01 Termination of patent right due to non-payment of annual fee