CN101231641B - 一种自动分析互联网上热点主题传播过程的方法及系统 - Google Patents

一种自动分析互联网上热点主题传播过程的方法及系统 Download PDF

Info

Publication number
CN101231641B
CN101231641B CN200710062944A CN200710062944A CN101231641B CN 101231641 B CN101231641 B CN 101231641B CN 200710062944 A CN200710062944 A CN 200710062944A CN 200710062944 A CN200710062944 A CN 200710062944A CN 101231641 B CN101231641 B CN 101231641B
Authority
CN
China
Prior art keywords
document
source
website
reprinting
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710062944A
Other languages
English (en)
Other versions
CN101231641A (zh
Inventor
万小军
王栋
黄小江
余军
杨建武
吴於茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN200710062944A priority Critical patent/CN101231641B/zh
Publication of CN101231641A publication Critical patent/CN101231641A/zh
Application granted granted Critical
Publication of CN101231641B publication Critical patent/CN101231641B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。

Description

一种自动分析互联网上热点主题传播过程的方法及系统
技术领域
本发明属于智能信息处理技术领域,具体涉及一种自动分析互联网上热点主题传播过程的方法及系统。
背景技术
近年来,互联网上文本信息呈爆炸性增长,包括新闻,论坛,博客(blog)等多种形式。互联网上文本信息的一个特点就是并非所有文本信息都是原创的,其中很多文本信息都是从别的网站转载的,例如,新浪网上的大部分新闻都是从别的网站或媒体转载而来,并且可能经过简单的编辑加工。论坛上的热门帖子也有很多是从别的网站或媒体转载而来。这种互联网上文本信息之间大量转载的现象被称之为互联网信息传播。人们通过主题检测与全文检索可以找到热点主题与敏感主题,而通过分析某个主题在互联网上信息传播过程,可以了解该主题的传播源头以及传播枢纽,对该主题进行监控跟踪,从而辅助决策。传播源头指信息的始发站点,也就是第一次发表的站点。传播枢纽则指向外转载最多信息的地点,也就是出度最大的站点。通过综合分析大量主题的信息传播过程,可以获取互联网上信息传播的整体趋势,从宏观角度找到互联网核心网站。本发明重点在于针对某个特定热点或敏感主题,分析其信息传播过程,方便用户跟踪监控。
目前对互联网信息传播过程的研究一般都基于传播学理论,从宏观角度分析探讨适合描述互联网信息传播过程的各种模型。其中疾病传播模型是最早被广泛接受的一种模型,能够较好地和互联网信息传播过程进行吻合,参见书籍The mathematical theory of infectious diseases and its applications(作者为N.Bailey,第二版,出版于1975年)和文章A simple model of epidemics withpathogen mutation(作者为M.Girvan等,发表于2002年出版的期刊:Phys.Rev.E)。近些年,不少文章提出和探讨了基于社会网络分析的传播模型,包括文章Epidemics and percolation in small-world networks(作者为C.Moore和M.E.J.Newman,发表于2000年出版的期刊:Phys.Rev.E)、文章Collective dynamicsof‘small-world’networks(作者为D.Watts和S.Strogatz,发表于1998年出版的期刊:Nature)以及文章Epidemic spreading in scale-free networks(作者为R.Pasto-Satorras和A.Vespignani,发表于2001年出版的期刊:Phys.Rev.Letters)。此外,有文章专门针对博客提出了不同的信息传播模型,包括文章On the bursty evolution of blogspace(作者为R.Kumar等,发表于2003年出版的论文集:Proceedings of WWW)和文章Information diffusion through blogspace(作者为D.Gruhl等,发表于2004年出版的论文集:Proceedings of WWW)。
以上模型都从宏观角度描述互联网信息传播特性,无法分析特定主题的信息传播过程,而用户往往需要监控跟踪热点主题或敏感主题的信息传播过程,进而做出决策。本发明的方法可以满足用户从微观层面上对信息传播过程监控的需求。
发明内容
为了满足用户跟踪监控特定主题的信息传播过程的需求,本发明通过综合利用模式匹配方法和相似性比较方法对属于该主题内的文档逐一查找其转载出处以及对应的源文档,最终绘制出信息传播过程图。具体说来,对于站点B上的文档b,采用本发明的方法可以获取文档b的转载出处A以及对应的源文档a,记作站点A(文档a)->站点B(文档b),站点A与B分别成为文档a与b的发布站点(PublishSite),站点A是文档b的转载出处(SourceSite),文档a是文档b的源文档(SourceDoc)。该方法具有高效性、鲁棒性等优点,具有很大的实用价值。
为达到以上目的,本发明采用的技术方案是:一种自动分析互联网上热点主题传播过程的方法,包括以下步骤:
(1)读入属于同一热点主题的文档集,抽取文档元数据;
(2)按照文档发表时间将文档排序,得到序列d1,d2,...,dn,n为文档数量;
(3)从序列中第一篇文档开始,计算当前文档di的转载出处;并获取该文档对应的源文档,其中利用文本模式匹配的方法搜索当前文档di的转载出处,包括:
3.1对于新闻文档,如果步骤(1)获取的文档元数据中已经得到其转载站点,那么用该站点名作为该文档的转载出处,否则进行下一步;对于其他类型的文档直接进行下一步;
3.2在该文档di的长度为L1的前缀文本上根据定义的匹配模式搜索转载出处,其中L1为正整数;
3.3如果步骤3.2未找到转载出处,则在该文档di的长度为L2的后缀文本上根据定义的匹配模式搜索转载出处,其中L2为正整数。
进一步,为使本发明获得更好的发明效果,步骤(1)中热点主题可通过主题检测系统获取,敏感主题可通过全文检索系统获取。每一个主题内均包括具有共性的1个或多个Web文档。本发明的方法对给定主题类型及其文档类型不加任何限制,主题类型可以是除热点主题和敏感主题之外的其他主题,文档类型可以是新闻文本,也可以是论坛、博客等其它形式的文本。对于给定的任一文档集合,采用本发明的方法可进行同样处理。文档元数据主要包括文档发布站点以及文档的发表时间(PublishTime),文档发布站点为该文档的下载站点,文档发表时间通过简单的模板匹配得到,在无法得到文档发表时间的情况下,由网页的更新时间替代。此外,对于新闻文本,文档元数据还包括利用人工定制的模板抽取得到的新闻转载站点,这主要是因为新闻文本比较正规,普遍具有明确的标记指明该篇文档转载自哪个新闻网站。最后由于网页文本包含很多的HTML标记,以及广告、导航条等无关信息,因此需要对下载的网页要进行HTML标记过滤等预处理过程,尽可能地获得网页的重要文本内容。
进一步,为使本发明获得更好的发明效果,按照发表的文档时间按照自然时间顺序排序,得到序列d1,d2,...,dn,n为文档数量。序列中靠前的文档具有较早的时间。
进一步,为使本发明获得更好的发明效果,所述匹配模式指根据观察自定义的一些匹配规则,定义如下:
模式1:[线索词].{0,k}[网站名]
模式2:[线索符号][网站名]
模式1中[线索词]匹配任意一个自定义的指示词,包括以下词汇:
转载、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出处、zt、zz、from、zz from
模式1和模式2中[网站名]匹配任意一个网站的名字,这些名字由人工收集统计得到,覆盖面较广。
模式1中“.”表示任意一个字符(包括汉字),k为正整数。
模式2中[线索符号]匹配下列任意一个符号:[、【、(、〔、『、*、-、—、″、‘、“;
模式1表示匹配任一线索词开头的网站名,线索词和网站名之间允许间隔最多k个字符的位置。模式2表示匹配任意线索符号开头的网站名,线索符号和网站名之间无间隔位置。通过模式1或模式2匹配到的网站名作为转载出处。如果匹配到多个网站名,那么以模式1匹配到的网站名作为转载出处;如果利用同一模式匹配到多个网站名,那么对于步骤3.2,以更接近文本开始的网站名作为转载出处,而对于步骤3.3,以更接近文本结尾的网站名作为转载出处。
对文本搜索转载出处时,前缀文本长度L1为20个字符,每个汉字作为一个字符;后缀文本长度L2为20个字符,每个汉字作为一个字符。
进一步,如能搜索到当前文档di的转载出处,利用文本相似性比较方法获取其对应的源文档,获取其对应的源文档包括以下步骤:
A1将当前文档di与序列中排在该文档前面并且发布站点等于文档di的转载出处的每一篇文档dj计算相似度值,其中dj属于{d1,d2,...,di-1};
A2找到文档di的最相似文档dk及对应的最大相似度值,如果该相似度值大于设定的阈值T1,那么当前文档di对应的源文档为文档dk
如未找到当前文档di的转载出处,利用文本相似性比较方法寻找其转载出处,包括以下步骤:
B1将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值,其中dj属于{d1,d2,...,di-1};
B2从这些相似度值中找到最大相似度值,如果该相似度值大于设定的阈值T2,那么当前文档di的转载出处为与当前文档最相似的文档dk的发布站点名,di对应的源文档为dk
进一步,计算文档之间的相似度值时,采用余弦公式Cosine进行计算,或采用Jaccard公式,Dice公式、编辑距离Edit Distance方法进行计算,其中利用余弦公式计算文档di和dj之间的相似度值时,首先以中心向量
Figure G2007100629441D00051
表示主题,然后利用如下公式进行计算:
sim ( d i , d j ) = cos ( d → i , d → j ) = d → i · d → j | | d → i | | · | | d → j | | - - - ( 1 )
其中1≤i,j≤n,i≠j,每个中心向量的每一维为主题中的一个词,n为词的个数,词t权重为tft*idft,tft为词t在文档中的频率,idft为词t的倒排文档频率。注意对文本进行向量化的时候,所有的词均加以保留,包括停用词在内。
进一步,根据最大相似度值判断当前文档对应的源文档时,阈值T1的选择跟所采用的相似度计算方法有关,当采用余弦公式计算文档相似度值时,阈值T1的范围为(0.5,1);同样利用文本相似性比较方法寻找当前文档转载出处时,阈值T2的选择跟所采用的相似度计算方法有关。当采用余弦公式计算文档相似度值时,阈值T2的范围为(0.5,1)。
进一步,还包括绘制该热点主题的信息传播过程图的步骤,具体方法为:根据获取的文档的转载出处以及源文档信息,绘制信息传播过程图时,对信息传播图的基本绘制要求如下:按照传播关系的时间先后顺序,每次绘制一次文档转载过程,每个站点用一个图片表示,上面标注有站点名字,站点之间的文档转载用带箭头的连线表示;传播源站点布局在左上角,其他站点随机分布,不允许相互重叠。传播枢纽站点(出度最大的站点)是被转载的文档数量最多的站点,也就是向外连线最多的站点,以和普通站点不同的颜色加以显示;站点是可拖拽的,可由用户改变站点的布局;鼠标点击每个站点可显示该站点转载和被转载的文档标题,鼠标移到连线上方可显示通过该连线转载的文档标题;此外,信息传播图在文本框中实时显示当前绘制的转载关系的有关信息,包括转载出处,发布站点,源文档,当前文档;并且可由用户自定义在图上绘制的转载关系的最大数量。
本发明还提供一种自动分析互联网上热点主题传播过程的系统,用于对特定主题的信息传播过程进行分析与展示,包括以下装置:文档输入处理装置,文档排序装置,文档转载出处搜索装置,源文档计算装置,绘图装置;
其中,文档输入处理装置用于读入属于同一热点或敏感主题的文档集,抽取文档元数据;
文档排序装置,用于按照文档时间将文档排序;
文档转载出处搜索装置,用于搜索文档转载出处,此装置利用文本模式匹配方法进行搜索;
源文档计算装置,用于对文档转载出处搜索装置搜索到的文档转载出处计算其源文档的装置,此装置利用文本相似性比较方法计算其对应的源文档;对于未搜索到转载出处的文档,此装置则利用文本相似性比较方法同时计算该文档的转载出处和对应的源文档。
绘图装置,用于根据获得的文档转载关系,绘制该主题的信息传播过程图,供用户浏览与查看。
进一步,将文档输入处理装置,文档排序装置,文档转载出处搜索装置运行在服务器上,而将源文档计算装置,绘图装置运行在客户端上。
本发明的效果在于:综合利用模式匹配方法与相似性比较方法查找文档的转载出处,两种方法相互补充,具有高效性;以可视化的界面将给定主题的整个信息传播过程呈现给用户,具有直观性和用户友好性;采用的计算方法直接,将计算任务分担给服务器和客户端,减少了服务器的计算压力,具有实时性和很强的实用性。
附图说明
图1是本发明所述方法的流程图。
图2-图4是利用Flash绘制出的针对主题“北京一村庄连发爆炸纵火案”的信息传播过程图实例,其中:
图2显示了绘制结束后整个信息传播过程图;
图3显示了鼠标移到连线上显示了其传播的文档标题;
图4显示了鼠标点击网站名后显示了该网站转载(传入)和被转载(传出)的文档标题。
具体实施方式
下面结合实施例和附图进一步阐明本发明所述的技术方案:
为了满足用户跟踪监控特定主题的信息传播过程的需求,本发明通过综合利用模式匹配方法和相似性比较方法对属于该主题内的文档逐一查找其转载出处以及对应的源文档,最终绘制出信息传播过程图。具体说来,对于站点B上的文档b,采用本发明的方法可以获取文档b的转载出处A以及对应的源文档a,记作站点A(文档a)->站点B(文档b),站点A与B分别成为文档a与b的发布站点(PublishSite),站点A是文档b的转载出处(SourceSite),文档a是文档b的源文档(SourceDoc)。该方法具有高效性、鲁棒性等优点,具有很大的实用价值。
如图1所示,一种对互联网上热点或敏感主题的传播过程进行自动分析的方法,包括以下步骤:
(1)读入属于同一热点主题的文档集,抽取文档元数据;
本实施例中的热点主题通过主题检测系统获取,敏感主题通过全文检索系统获取。每一个主题内均包括具有共性的1个或多个Web文档。本实施例中文档类型包括新闻、论坛、博客等多种形式的文本。对每种类型的文本进行同样处理。文档元数据主要包括文档发布站点以及文档的发表时间(PublishTime),文档发布站点为该文档的下载站点,文档发表时间通过简单的模板匹配得到,在无法得到文档发表时间的情况下,由网页的更新时间等替代。对于新闻文本,文档元数据还包括利用人工定制的模板抽取得到的新闻转载站点,这主要是因为新闻文本比较正规,普遍具有明确的标记指明该篇文档转载自哪个新闻网站。最后由于网页文本包含很多的HTML标记,以及广告、导航条等无关信息,因此对下载的网页要进行HTML标记过滤等预处理过程,获得网页的重要文本内容。
(2)按照文档发表时间将文档排序,得到序列d1,d2,...,dn,n为文档数量;
发表的文档时间按照自然时间顺序排序,得到序列d1,d2,...,dn,n为文档数量,序列中靠前的文档具有较早的时间。
(3)从序列中第一篇文档开始,计算当前文档di的转载出处;并获取该文档对应的源文档。
此处利用文本模式匹配的方法搜索当前文档di的转载出处,具体包括以下步骤:
3.1对于新闻文档,如果步骤(1)获取的文档元数据中已经得到其转载站点,那么用该站点名作为该文档的转载出处,否则进行下一步;对于其他类型的文档直接进行下一步;
3.2在该文本di的长度为L1的前缀文本上根据定义的匹配模式搜索转载出处,其中L1为正整数,本实施例中L1为20个字符,每个汉字作为一个字符;
本步骤中匹配模式指根据观察自定义的一些匹配规则,定义如下:
模式1:[线索词].{0,k}[网站名]
模式2:[线索符号][网站名]
模式1中[线索词]匹配任意一个自定义的指示词,包括以下词汇:
转载、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出处、zt、zz、from、zz from
模式1和模式2中[网站名]匹配任意一个网站的名字,例如新浪网、新华网、水木社区、网易社区等,这些名字由人工收集统计得到,覆盖面较广。
模式1中“.”表示任意一个字符(包括汉字),k为正整数,一般为0-3,本实施例中为2。
模式2中[线索符号]匹配下列任意一个符号:[、【、(、〔、『、*、-、—、″、‘、“。
模式1表示匹配任一线索词开头的网站名,线索词和网站名之间允许间隔最多k个字符的位置。模式2表示匹配任意线索符号开头的网站名,线索符号和网站名之间无间隔位置。通过模式1或模式2匹配到的网站名作为转载出处。
3.3如果上一步未找到转载出处,则在该文本di的长度为L2的后缀文本上根据定义的匹配模式搜索转载出处,其中L2为正整数,本实施例中L2为20个字符,每个汉字作为一个字符;本步骤中文本模式的定义与匹配方法跟上一步相同。
步骤3.2和3.3中如果利用不同模式匹配到多个网站名,那么以模式1匹配到的网站名作为转载出处;如果利用同一模式匹配到多个网站名,那么对于步骤3.2,以更接近文本开始的网站名作为转载出处,而对于步骤3.3,以更接近文本结尾的网站名作为转载出处。
对于当前文档di,如果在上述步骤中找到其转载出处,则利用文本相似性比较方法判断其对应的源文档;
利用文本相似性比较方法判断当前文档对应的源文档时,具体方法如下:
a)将当前文档di与序列中排在该文档前面并且发布站点等于文档di的转载出处的每一篇文档dj计算相似度值,其中dj属于{d1,d2,...,di-1}并且任意dj均有PublishSite(dj)=SourceSite(di);
计算文档之间的相似度值时,一般采用余弦公式(Cosine)进行计算,也可采用Jaccard公式,Dice公式、编辑距离(Edit Distance)等方法进行计算。本实施例利用余弦公式计算文档di和dj之间的相似度值时,首先以中心向量
Figure G2007100629441D00101
Figure G2007100629441D00102
表示主题,然后利用如下公式进行计算:
sim ( d i , d j ) = cos ( d → i , d → j ) = d → i · d → j | | d → i | | · | | d → j | | - - - ( 1 )
其中1≤i,j≤n,i≠j,每个中心向量的每一维为主题中的一个词,n为词的个数,词t权重为tft*idft,tft为词t在文档中的频率,idft为词t的倒排文档频率。注意对文本进行向量化的时候,所有的词均加以保留,包括停用词在内,这主要是因为该步骤中着重比较文本的文字相似性,而非主题相似性。
b)找到文档di的最相似文档dk及对应的最大相似度值,如果该相似度值大于设定的阈值T1,那么当前文档di对应的源文档为文档dk,也就是SourceDoc(di)=dk;本实施例中阈值T1的取值为0.9。
对于当前文档di,如果上述步骤未找到其转载出处,则利用文本相似性比较方法继续寻找其转载出处,同时获取源文档;
利用文本相似性比较方法继续寻找当前文档转载出处时,具体方法如下:
c)将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值,其中dj属于{d1,d2,...,di-1};计算文档之间的相似度值时,一般采用余弦公式(Cosine)进行计算,也可采用Jaccard公式,Dice公式、编辑距离(Edit Distance)等方法进行计算。本实施例利用余弦公式计算文档之间的相似度值。
d)从这些相似度值中找到最大相似度值,如果该相似度值大于设定的阈值T2,那么当前文档di的转载出处为与当前文档最相似的文档dk的发布站点名,也就是SourceSite(di)=PublishSite(dk),di对应的源文档为dk;阈值T2的选择跟所采用的相似度计算方法有关。阈值T2的范围为(0.5,1),本实施例中取0.9。
上述过程中,如果存在相似度值不满足大于设定的阈值的情况,也就是说如果模式匹配和文本相似性比较两种方法都找不到其转载出处,那么就认为无转载出处;也存在无法认定源文档的可能。
(4)为了更加明显的显示出互联网上热点主题传播过程,此发明还可以绘制该主题的信息传播过程图的操作。
本实施例中采用的画图显示程序为Flash。对信息传播图的基本绘制说明如下:按照传播关系的时间先后顺序,每次绘制一次文档转载过程,每个站点用一个图片表示,上面标注有站点名字,站点之间的文档转载用带箭头的连线表示,例如“站点A(文档a)->站点B(文档b)”表示将站点A中的文档a传播到站点B中的文档b,文档a允许为空。传播源站点(始发站点)布局在左上角,其他站点随机分布,不允许相互重叠。传播枢纽站点(出度最大的站点)是被转载的文档数量最多的站点,也就是向外连线最多的站点,以和普通站点不同的颜色加以显示。站点是可拖拽的,可有用户改变站点的布局。鼠标点击每个站点可显示该站点转载和被转载的文档标题,鼠标移到连线上方可显示通过该连线转载的文档标题。此外,信息传播图在文本框中实时显示当前绘制的转载关系的有关信息,包括转载出处,发布站点,源文档,当前文档。并且可由用户自定义在图上绘制的转载关系的最大数量。
附图中图2至图4显示了最终绘制出的信息传播过程图,图中可以看到“新华网”既是传播源点又是传播枢纽。
本发明的方法分析获得的主题信息传播过程图通过用户分析和评价,传播关系基本准确,能够较好地反映热点或敏感主题的信息传播过程,方便用户跟踪监控,辅助用户决策,在实际应用中深受用户好评。
本发明还提供一种自动分析互联网上热点主题传播过程的系统,用于对特定主题的信息传播过程进行分析与展示,包括以下装置:文档输入处理装置,文档排序装置,文档转载出处搜索装置,源文档计算装置,绘图装置;
其中,文档输入处理装置用于读入属于同一热点或敏感主题的文档集,抽取文档元数据;
文档排序装置,用于按照文档时间将文档排序;
文档转载出处搜索装置,用于搜索文档转载出处,此装置利用文本模式匹配方法进行搜索;
源文档计算装置,用于对文档转载出处搜索装置搜索到的文档转载出处计算其源文档的装置,此装置利用利用文本相似性比较方法计算其对应的源文档;对于未搜索到转载出处的文档,此装置则利用文本相似性比较方法同时计算该文档的转载出处和对应的源文档。
绘图装置,用于根据获得的文档转载关系,绘制该主题的信息传播过程图,供用户浏览与查看。
进一步,将文档输入处理装置,文档排序装置,文档转载出处搜索装置等运行在服务器上,而将源文档计算装置,绘图装置运行在客户端上。
该系统各装置的功能与上述方法一一对应。
这样大大提高系统运行的效率,减少用户等待的时间。
本发明的效果在于:综合利用模式匹配方法与相似性比较方法查找文档的转载出处以及获取对应的源文档,两种方法相互补充,具有高效性;以可视化的界面将给定主题的整个信息传播过程呈现给用户,具有直观性和用户友好性;采用的计算方法直接,将计算任务分担给服务器和客户端,减少了服务器的计算压力,具有实时性和很强的实用性。
本发明所述的方法并不限于具体实施方式中所述的实施例,步骤(3)中定义的匹配模式不仅仅限于模式1和模式2,还包括模式1及模式2的改进和变形。计算文档之间的相似度值时,除了采用余弦公式(Cosine)进行计算之外,也可采用Jaccard公式,Dice公式、编辑距离(Edit Distance)等方法进行计算。绘制主题信息传播过程图时除了使用Flash之外,还可以使用Java Applet等客户端图形显示程序,或者直接将主题信息传播过程图生成图片。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种自动分析互联网上热点主题传播过程的方法,包括以下步骤:
(1)读入属于同一热点主题的文档集,抽取文档元数据;
(2)按照文档发表时间将文档排序,得到序列d1,d2,...,dn,n为文档数量;
(3)从序列中第一篇文档开始,计算当前文档di的转载出处;并获取该文档对应的源文档,其中利用文本模式匹配的方法搜索当前文档di的转载出处,包括:
3.1对于新闻文档,如果步骤(1)获取的文档元数据中已经得到其转载站点,那么用该站点名作为该文档的转载出处,否则进行下一步;对于其他类型的文档直接进行下一步;
3.2在该文档di的长度为L1的前缀文本上根据定义的匹配模式搜索转载出处,其中L1为正整数;
3.3如果步骤3.2未找到转载出处,则在该文档di的长度为L2的后缀文本上根据定义的匹配模式搜索转载出处,其中L2为正整数。
2.如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其特征在于,步骤(1)中热点主题通过主题检测系统获取,敏感主题通过全文检索系统获取,每一个主题内均包括具有共性的1个或多个Web文档;所述文档元数据主要包括文档发布站点以及文档的发表时间,文档发布站点为该文档的下载站点,文档发表时间通过简单的模板匹配得到,在无法得到文档发表时间的情况下,由网页的更新时间替代。
3.如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其特征在于,步骤3.2和3.3中的匹配模式指根据观察自定义的一些匹配规则,定义如下:
模式1:[线索词].{0,k}[网站名]
模式2:[线索符号][网站名]
模式1中[线索词]匹配任意一个自定义的指示词,包括以下词汇:
转载、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出处、zt、zz、from、zz from
模式1和模式2中[网站名]匹配任意一个网站的名字,这些名字由人工收集统计得到,覆盖面较广;
模式1中“.”表示任意一个字符,k为正整数;
模式2中[线索符号]匹配下列任意一个符号:[、【、(、〔、『、*、-、—、``、‘、“;
模式1表示匹配任一线索词开头的网站名,线索词和网站名之间允许间隔最多k个字符的位置;模式2表示匹配任意线索符号开头的网站名,线索符号和网站名之间无间隔位置;通过模式1或模式2匹配到的网站名作为转载出处;如果匹配到多个网站名,那么以模式1匹配到的网站名作为转载出处;如果利用同一模式匹配到多个网站名,对于步骤3.2,以更接近文本开始的网站名作为转载出处,而对于步骤3.3,以更接近文本结尾的网站名作为转载出处。
4.如权利要求3所述的自动分析互联网上热点主题传播过程的方法,其特征在于,对文本搜索转载出处时,前缀文本长度L1为20个字符,每个汉字作为一个字符;后缀文本长度L2为20个字符,每个汉字作为一个字符。
5.如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其特征在于,当步骤(3)如能搜索到当前文档di的转载出处时,所述方法还包括:利用文本相似性比较方法获取其对应的源文档,获取其对应的源文档包括以下步骤:
6.1将当前文档di与序列中排在该文档前面并且发布站点等于文档di的转载出处的每一篇文档dj计算相似度值,其中dj属于{d1,d2,...,di-1};
6.2找到文档di的最相似文档dk及对应的最大相似度值,如果该相似度值大于设定的阈值T1,那么当前文档di对应的源文档为文档dk
如未找到当前文档di的转载出处,利用文本相似性比较方法寻找其转载出处,包括以下步骤:
6.A将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值,其中dj属于{d1,d2,...,di-1};
6.B从这些相似度值中找到最大相似度值,如果该相似度值大于设定的阈值T2,那么当前文档di的转载出处为与当前文档最相似的文档dk的发布站点名,也就是SourceSite(di)=PublishSite(dk),di对应的源文档为dk
6.如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其特征在于,计算文档之间的相似度值时,可采用余弦公式(Cosine)进行计算,也可采用Jaccard公式,Dice公式、编辑距离(Edit Distance)方法进行计算,其中利用余弦公式计算文档di和dj之间的相似度值时,首先以中心向量
Figure F2007100629441C00031
Figure F2007100629441C00032
表示主题,然后利用如下公式进行计算:
sim ( d i , d j ) = cos ( d → i , d → j ) = d → i · d → j | | d → i | | · | | d → j | |
其中1≤i,j≤n,i≠j,每个中心向量的每一维为主题中的一个词,n为词的个数,词t权重为tft*idft,tft为词t在文档中的频率,idft为词t的倒排文档频率,注意对文本进行向量化的时候,所有的词均加以保留,包括停用词在内。
7.如权利要求6所述的自动分析互联网上热点主题传播过程的方法,其特征在于,根据最大相似度值判断当前文档对应的源文档时,阈值T1的选择跟所采用的相似度计算方法有关,当采用余弦公式计算文档相似度值时,阈值T1的范围为(0.5,1),一般取0.9;同样利用文本相似性比较方法寻找当前文档转载出处时,阈值T2的选择跟所采用的相似度计算方法有关,当采用余弦公式计算文档相似度值时,阈值T2的范围为(0.5,1),一般取0.9。
8.如权利要求1所述的自动分析互联网上热点主题传播过程的方法,其特征在于,还包括绘制该热点主题的信息传播过程图的步骤,具体方法为:根据获取的文档的转载出处以及源文档信息,绘制信息传播过程图时,对信息传播图的基本绘制要求如下:按照传播关系的时间先后顺序,每次绘制一次文档转载过程,每个站点用一个图片表示,上面标注有站点名字,站点之间的文档转载用带箭头的连线表示;传播源站点布局在左上角,其他站点随机分布,不允许相互重叠,传播枢纽站点是被转载的文档数量最多的站点,也就是向外连线最多的站点,以和普通站点不同的颜色加以显示;站点是可拖拽的,可由用户改变站点的布局;鼠标点击每个站点可显示该站点转载和被转载的文档标题,鼠标移到连线上方可显示通过该连线转载的文档标题;此外,信息传播图在文本框中实时显示当前绘制的转载关系的有关信息,包括转载出处,发布站点,源文档,当前文档;并且可由用户自定义在图上绘制的转载关系的最大数量。
9.一种自动分析互联网上热点主题传播过程的系统,包括以下装置:文档输入处理装置,文档排序装置,文档转载出处搜索装置,源文档计算装置,绘图装置;
其中,文档输入处理装置用于读入属于同一热点或敏感主题的文档集,抽取文档元数据;
文档排序装置,用于按照文档时间将文档排序;
文档转载出处搜索装置,用于搜索文档转载出处,此装置利用文本模式匹配方法进行搜索;
源文档计算装置,用于对文档转载出处搜索装置搜索到的文档转载出处计算其源文档的装置,此装置利用文本相似性比较方法计算其对应的源文档;对于未搜索到转载出处的文档,此装置则利用文本相似性比较方法同时计算该文档的转载出处和对应的源文档,
绘图装置,用于根据获得的文档转载关系,绘制该主题的信息传播过程图,供用户浏览与查看。
10.如权利要求9所述的自动分析互联网上热点主题传播过程的系统,其特征在于,将文档输入处理装置,文档排序装置,文档转载出处搜索装置运行在服务器上,而将源文档计算装置,绘图装置运行在客户端上。
CN200710062944A 2007-01-22 2007-01-22 一种自动分析互联网上热点主题传播过程的方法及系统 Expired - Fee Related CN101231641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710062944A CN101231641B (zh) 2007-01-22 2007-01-22 一种自动分析互联网上热点主题传播过程的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710062944A CN101231641B (zh) 2007-01-22 2007-01-22 一种自动分析互联网上热点主题传播过程的方法及系统

Publications (2)

Publication Number Publication Date
CN101231641A CN101231641A (zh) 2008-07-30
CN101231641B true CN101231641B (zh) 2010-05-19

Family

ID=39898125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710062944A Expired - Fee Related CN101231641B (zh) 2007-01-22 2007-01-22 一种自动分析互联网上热点主题传播过程的方法及系统

Country Status (1)

Country Link
CN (1) CN101231641B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578035A (zh) * 2012-08-06 2014-02-12 北大方正集团有限公司 一种基于新闻事件的报道和监控的方法及系统

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401B (zh) * 2009-12-30 2012-05-30 暨南大学 一种网络舆情的热点预测和分析方法
CN101976252B (zh) * 2010-10-26 2012-10-10 百度在线网络技术(北京)有限公司 图片展示系统及其展示方法
CN103154945A (zh) * 2010-11-29 2013-06-12 日本电气株式会社 内容分析系统、内容分析设备、内容分析方法以及内容分析程序
CN102214241B (zh) * 2011-07-05 2013-02-13 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN103150310A (zh) * 2011-12-07 2013-06-12 腾讯科技(深圳)有限公司 一种提取热点信息的方法及装置
CN103186599B (zh) * 2011-12-28 2016-04-20 北大方正集团有限公司 互联网新闻的监控方法和装置
CN103488637B (zh) * 2012-06-11 2016-12-14 北京大学 一种基于动态社区挖掘进行专家检索的方法
US20140201227A1 (en) * 2013-01-15 2014-07-17 Getty Images (Us), Inc. Content-identification engine based on social media
CN104252445B (zh) * 2013-06-26 2017-11-24 华为技术有限公司 近似重复文档检测方法及装置
CN104572756A (zh) * 2013-10-24 2015-04-29 中兴通讯股份有限公司 传播树的可视化处理方法及装置
CN104346443B (zh) * 2014-10-20 2018-08-03 北京国双科技有限公司 网络文本处理方法及装置
CN105610640B (zh) * 2015-12-21 2019-09-24 中国电子科技集团公司第十五研究所 一种互联网信息传播路径还原的方法和装置
CN105868315B (zh) * 2016-03-25 2020-09-04 哈尔滨工程大学 一种基于遗忘规律的社会网络信息传播方法
CN107688576B (zh) * 2016-08-04 2020-06-16 中国科学院声学研究所 一种cnn-svm模型的构建及倾向性分类方法
CN107679075B (zh) * 2017-08-25 2020-06-02 北京德塔精要信息技术有限公司 网络监控方法和设备
CN108710654B (zh) * 2018-05-10 2021-03-26 新华智云科技有限公司 一种舆情数据可视化方法及设备
CN110633993A (zh) * 2018-06-01 2019-12-31 厦门本能管家科技有限公司 一种可追溯的信息发布方法及系统
CN109065179B (zh) * 2018-08-22 2021-10-22 昆明理工大学 一种疾病传染过程的空时动态模拟方法
CN111104786A (zh) * 2018-10-26 2020-05-05 北京金山办公软件股份有限公司 一种文档追踪的方法、装置、计算机存储介质及终端
CN110083832B (zh) * 2019-04-17 2020-12-29 北大方正集团有限公司 文章转载关系的识别方法、装置、设备及可读存储介质
CN111324809A (zh) * 2020-02-04 2020-06-23 京东数字科技控股有限公司 一种热点信息监测方法、装置及系统
CN112000866B (zh) * 2020-08-05 2024-03-26 杭州安恒信息技术股份有限公司 互联网数据分析方法、装置、电子装置及介质
CN112084776B (zh) * 2020-09-15 2023-11-10 腾讯科技(深圳)有限公司 相似文章的检测方法、装置、服务器和计算机存储介质
CN115329050A (zh) * 2022-10-12 2022-11-11 北京金堤科技有限公司 信息溯源方法和装置、及存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN1790321A (zh) * 2005-10-28 2006-06-21 北大方正集团有限公司 一种用于海量文本快速相似搜索的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN1790321A (zh) * 2005-10-28 2006-06-21 北大方正集团有限公司 一种用于海量文本快速相似搜索的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2002-83103A 2002.03.22

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578035A (zh) * 2012-08-06 2014-02-12 北大方正集团有限公司 一种基于新闻事件的报道和监控的方法及系统

Also Published As

Publication number Publication date
CN101231641A (zh) 2008-07-30

Similar Documents

Publication Publication Date Title
CN101231641B (zh) 一种自动分析互联网上热点主题传播过程的方法及系统
CN101681251B (zh) 从文档到排名短语的语义分析
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN104008109B (zh) 基于用户兴趣的Web信息推送服务系统
CN102760172B (zh) 一种网络搜索方法及网络搜索系统
CN103294781B (zh) 一种用于处理页面数据的方法与设备
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN105518661B (zh) 经由挖掘的超链接文本的片段来浏览图像
CN102722501B (zh) 搜索引擎及其实现方法
CN101329674A (zh) 一种提供个性化搜索的系统和方法
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN102722499B (zh) 搜索引擎及其实现方法
CN103177036A (zh) 一种标签自动提取方法和系统
CN101661513A (zh) 网络热点和舆情的检测方法
CN102722498A (zh) 搜索引擎及其实现方法
CN108572990A (zh) 信息推送方法和装置
JP2008529179A (ja) 自然言語によってモバイル情報にアクセスするための方法及び装置
CN102270331A (zh) 基于可视化搜索的网络购物导航方法
WO2009144698A1 (en) A system for finding website invitation cueing keywords and for attribute-based generation of invitation-cueing instructions
CN102737021A (zh) 搜索引擎及其实现方法
CN101789929A (zh) 在线业务管理网络及其运营方法
JP2008226235A (ja) 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム
JP4743766B2 (ja) 印象判定システム、広告記事生成システム、印象判定方法、広告記事生成方法、印象判定プログラムおよび広告記事生成プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, Haidian District Fangzheng Road, Beijing, Zhongguancun Fangzheng building, 298, 513

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230417

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Address before: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee before: New founder holdings development Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100519

CF01 Termination of patent right due to non-payment of annual fee