CN102929977A - 一种面向新闻网站的事件跟踪方法 - Google Patents

一种面向新闻网站的事件跟踪方法 Download PDF

Info

Publication number
CN102929977A
CN102929977A CN2012103942462A CN201210394246A CN102929977A CN 102929977 A CN102929977 A CN 102929977A CN 2012103942462 A CN2012103942462 A CN 2012103942462A CN 201210394246 A CN201210394246 A CN 201210394246A CN 102929977 A CN102929977 A CN 102929977A
Authority
CN
China
Prior art keywords
event
webpage
reports
uncorrelated
seed collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103942462A
Other languages
English (en)
Other versions
CN102929977B (zh
Inventor
林怀忠
陈泽锋
陈劲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201210394246.2A priority Critical patent/CN102929977B/zh
Publication of CN102929977A publication Critical patent/CN102929977A/zh
Application granted granted Critical
Publication of CN102929977B publication Critical patent/CN102929977B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向新闻网站的事件跟踪方法。它利用事件种子报道集和事件的不相关报道集训练一组SVM二元分类器,作为事件跟踪模型;利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;根据分类结果对目标新闻网页进行事件相关性判断;如果目标新闻网页与事件相关则加入事件种子报道集,并重新训练事件跟踪模型;否则继续处理新的目标新闻网页。本发明克服了现有技术事件跟踪初期事件相关信息过少、数据倾斜和计算复杂度过高的缺陷,能够有效地提高事件跟踪的准确率和召回率。

Description

一种面向新闻网站的事件跟踪方法
技术领域
本发明属于计算机数据挖掘技术领域,涉及一种基于分类算法的事件跟踪方法。 
背景技术
在当今网络信息爆炸的情况下,由于信息更新迅速,且杂乱无章,使得从网络中及时寻找感兴趣、有价值的热点信息变得越来越困难。为此,以事件为研究对象的事件跟踪技术引起了人们的兴趣。通过事件跟踪,可以将事件相关的各方面信息自动组织起来,从而为人们提供一种方便快捷的渠道去全面了解热门事件。 
事件跟踪方法目前的主流方法分为以下几种: 
(1)基于KNN分类算法的事件跟踪模型,其首先根据内容的相关性从事件样本集中选择当前待检测报道最相似的k个先验报道作为最近邻,然后根据最近邻所属事件类别综合判定当前报道论述的事件。该方法简单易用,考虑因素少;但数据倾斜对其影响严重,且当数据量上规模后性能下降严重。 
(2)基于决策树算法的事件跟踪模型,该模型从事件样本集中提取出决策树的分裂属性,创建相应的决策树分类模型,利用该决策树对待检测的报道所论述的事件进行判断。该方法对不同跟踪任务和不同数据源需选择不同的属性,作为决策树的分裂属性,选择难度大,模型复杂不好理解。 
(3)基于Rocchio算法的跟踪模型,其利用事件样本集训练Rocchio分类器,然后利用该分类器判断待测报道是否与事件相关。其优点在于模型可以利用后续报道不断改进和更新事件模型,使模型更符合事件发展的特性;而其存在的明显缺陷是Rocchio算法对阈值的依赖程度很高:过高的阀值导致漏检率加大,过低的阀值则会引入大量噪声。 
关于事件跟踪任务,先前的很多研究工作主要集中在如何建立更好的分类方法、事件与报道的表示模型及其相似度计算方法,以此提高跟踪系统的整体效果,而对于话题跟踪初期先验信息稀少和数据倾斜问题的研究很少。但由于事件跟踪初期先验知识稀少,再加上数据倾斜造成的影响,当前的事件跟踪方法获得的准确率和查全率都不高。 
发明内容
本发明的目的是克服目前事件跟踪初期先验知识稀少和数据倾斜问题,提供一种快速有效的面向新闻网站的事件跟踪方法。 
为实现上述目的,本发明面向新闻网站的事件跟踪方法包括如下步骤: 
(1)从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上的关键词;以所提取的所有关键词作为要素构造一个查询向量;,将所述查询向量提交给搜索引 擎而获得一个以上网页,并对每一个从搜索引擎获得的每一个网页构造其VSM向量,然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值,并选择其中VSM向量的平均相似度值最高的前n个网页加入到所述事件种子报道集中,得到扩展后的事件种子报道集,其中,n≥1; 
(2)从事件的不相关报道集中随机选取2组以上不相关报道,每组不相关报道包含m个不相关报道,且0≤|m-q|≤3,其中,q为所述扩展后的事件种子报道集中的网页的数量; 
(3)将每一组所述不相关报道分别与当前事件种子报道集进行组合组构成相应的训练集,对每个训练集中的每个网页构造训练样本,每个所述训练样本由网页所属的类别与该网页的VSM(Vector Space Model)向量构成;使用SVM分类算法,对每个训练集中的所有训练样本进行训练,得到相应的SVM二元分类器。 
(4)分别利用各SVM二元分类器(Support Vector Machine)对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;所述目标新闻网页的主信息包括标题和正文; 
(5)利用所有的分类结果判断所述目标新闻网页的主信息是否与事件相关,如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件相关,则将所述目标新闻网页加入到当前事件种子报道集中,得到更新后的事件种子报道集,并返回执行步骤(3);如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件不相关,则返回执行步骤(4)。 
进一步地,本发明在所述步骤(1)中,所述关键词为6-8个。 
进一步地,本发明在所述步骤(1)中,n=8。 
进一步地,本发明在所述步骤(2)中,|m-q|=0。 
进一步地,本发明在所述步骤(2)中,从事件的不相关报道集中随机提取选取的不相关报道为4-6组。 
进一步地,本发明在步骤(4)中,所述目标新闻网页的主信息或者由标题和正文组成,或者由标题、正文和发布时间组成,或者由标题、正文和来源组成,或者由标题、正文、发布时间和来源组成。 
进一步地,本发明的步骤(1)所述权重是指加权TF×IDF特征词权重。 
进一步地,本发明所述加权TF×IDF特征词权重的计算公式如式(1)所示: 
w t = pos × TF ( t , d i ) × IDF ( t ) = pos × TF ( t , d i ) × log | D z | DF ( t ) + 1 - - - ( 1 )
其中,di表示事件种子报道集中的第i个网页,wt表示di中某一特征词t的权重;pos为用于调整特征词t在网页di中的不同位置的权重因子;TF(t,di)表示特征词t在di中出现的 次数;DF(t)表示在事件种子报道集中出现特征词t的所有网页的总数;IDF(t)表示DF(t)的倒数;|Dz|为事件种子报道集中所包含的网页总数。 
进一步地,本发明当特征词t出现在标题时,pos取值为4.0;当特征词t出现在正文时,pos取值为1.0。 
与现有技术相比,本发明的有益效果是:本发明在步骤(1)和步骤(2)分别考虑了事件跟踪初期先验知识稀少和数据倾斜问题,结合加权TF×IDF特征权重,使用多个当前文本分类领域分类性能良好的SVM分类器(Support Vector Machine)组合成事件跟踪的核心算法,有效的提高了事件跟踪的准确率和召回率。 
附图说明
图1为本发明方法的流程示意图; 
图2为本发明的一个实施例的流程示意图。 
具体实施方式
本发明基于以下理论基础: 
1)事件跟踪任务基于文本分类,该任务通常给定1-4个事件种子报道及一个事件不相关报道集,利用这些报道,在事件粒度上,训练分类器用于事件的跟踪。 
2)先验知识越充足,分类效果越好。事件最初通常只有1-4个事件种子报道,由于信息过于稀少,很难训练出一个好的分类模型,因此,本发明通过搜索引擎,搜索与事件相关的信息扩展到事件种子报道集中,再利用扩展后的事件种子报道集训练分类模型,能有效地克服信息稀少造成的分类模型不准确。 
3)基于统计学的分类器,其分类结果会向拥有训练样本数量较多的类别偏倚。事件跟踪最初包含大量的不相关报道,它们相比于事件种子报道,数量要大很多,造成严重的数据倾斜。本发明通过对事件的不相关报道进行采样,对解决数据倾斜具有良好的效果。 
如图1所示,本发明面向新闻网站的事件跟踪方法包括以下步骤: 
步骤(1):对初始事件种子报道集中包含的所有网页的标题和正文进行分词,分析出事件种子报道集合的所有网页中包含的词语,然后使用加权TF×IDF特征词权重计算方法计算这些词语的权重并对结果进行排序,选取其中权重最高的2个以上的词语作为关键词。为了使所提取的关键词能有效地概括事件的内容且又不至于引入噪音,所取关键词的数量优选为6-8个。加权TF×IDF特征词权重的计算公式如式(1)所示: 
w t = pos × TF ( t , d i ) × IDF ( t ) = pos × TF ( t , d i ) × log | D z | DF ( t ) + 1 - - - ( 1 )
其中,di表示事件种子报道集合中的第i个网页,wt表示di中某一特征词t的权重;pos为用于调整特征词t在网页di中的不同位置的权重因子,pos≥1.0,通常,当特征词t出 现在标题时,pos取值为4.0,当特征词t出现在正文时,pos取值为1.0;TF(t,di)表示特征词t在di中出现的次数;DF(t)表示在事件种子报道集中出现特征词t的所有网页的总数;IDF(t)表示DF(t)的倒数;|Dz|为事件种子报道集中所包含的网页总数。 
以所提取的所有关键词作为要素构造一个查询向量query,向量形式为{关键词1,关键词2,…}。将查询向量query提交给搜索引擎开放的API接口,搜索引擎会以JSON、BSON等形式返回一组网页,相应地利用JSON解析器或BSON解析器对网页进行解析,获得一个以上网页ds。 
对每一个从搜索引擎获得的网页ds,构造其VSM向量 
Figure BDA00002263711300041
构造每一个网页ds的VSM向量的做法是: 
a)对每一个网页ds的标题、正文内容进行分词,分析出ds包含的所有词语t。本发明可选择采用中国科学院计算技术研究所的分词系统ICTCLAS进行分词。 
b)统计每一个词语t在每一个网页ds中出现的频率TF(t,ds),以及从搜索引擎获得的所有网页中出现该词语t的网页的总数量DFs(t)。 
c)利用公式 w t = pos × TF ( t , d s ) × log | D S | DF s ( t ) + 1 计算每一个词语t在搜索引擎获得的所有网页中的加权TF×IDF权重并对结果排序,选择其中权重最高的N(N≥1)个词语作为特征词,其中,优选1000≥N≥50;|DS|表示从搜索引擎获得的网页的总数。 
d)将每一个特征词作为VSM向量 
Figure BDA00002263711300043
的一个维度,如果从搜索引擎获得的某一个网页ds中包含该特征词,则该特征词所代表的维度上的值为该特征词在网页 
Figure BDA00002263711300044
的加权TF×IDF权重,否则该特征词在网页 
Figure BDA00002263711300045
的加权TF×IDF权重为0。 
由以上方法构造得到每一个从搜索引擎获得的网页ds的VSM向量,其向量形式为: 
Figure BDA00002263711300046
其中wJ为网页ds中第J个特征词的权重,N表示网页ds中所包含的特征词的数量。 
然后,计算从搜索引擎获得的所有网页的VSM向量 
Figure BDA00002263711300047
的平均相似度并排序,选择其中VSM向量 
Figure BDA00002263711300048
的平均相似度值 最大的n(n≥1)个网页加入到事件种子报道集中,得到第一次扩展后的事件种子报道集(记作Cp)。 
为了有效地扩展事件种子报道集,n优选的经验值为8。 的平均相似度 
Figure BDA000022637113000411
的计算公式如式(2)所示: 
sim ‾ ( d → s ) = 1 sizeof ( CP 0 ) Σ d → i ∈ CP 0 sim ( d → s , d → i ) - - - ( 2 )
其中,CP0表示扩展前的事件种子报道集,sizeof(CP0)表示CP0中包含的网页个数; 
Figure BDA00002263711300051
表示从搜索引擎获得的一个网页的VSM向量, 表示CP0中第i个网页的VSM向量, 表示向量 与 
Figure BDA00002263711300055
的余弦相似度,其计算公式如式(3)所示: 
sim ( d → s , d → i ) = cos ( d → s , d → i ) = d → s · d → i | d → s | | d → i | - - - ( 3 )
其中 和 
Figure BDA00002263711300058
分别对应表示向量 
Figure BDA00002263711300059
与 
Figure BDA000022637113000510
的模。 
步骤(2):从事件的不相关报道集中随机选取2组以上不相关报道。从事件跟踪的准确率和方法执行的效率上综合考虑,通常取4-6组不相关报道。每组不相关报道包含m个不相关报道,且0≤|m-q|≤3,其中,q为步骤(1)所得到的扩展后的事件种子报道集中的网页的数量。|m-q|的值直接影响数据倾斜,取值越大数据倾斜越严重,所以该值取值不应太大,以0≤|m-q|≤3为宜,优选|m-q|=0。 
步骤(3):将步骤(2)提取得到的每一组不相关报道分别与当前事件种子报道集组成训练集,每一组不相关报道与当前事件种子报道集构成一个报道集,有几组不相关报道则得到几个训练集。在每一个训练集中,不相关报道所属的类别可标记为-1(也可以标记为其他数字符号),当前事件种子报道所属的类别可标记为1(也可以标记为其他数字符号)。 
对每一个训练集中的网页dc,构造其VSM向量 
Figure BDA000022637113000511
构造每一个网页dc的VSM向量的做法是: 
a)对网页dc的标题、正文内容进行分词,分析出dc中包含的所有词语。本发明可选择采用中国科学院计算技术研究所的分词系统ICTCLAS进行分词。 
b)统计每一个词语t在每一个网页dc中出现的频率TF(t,dc),以及训练集中所有网页中出现该词语t的网页的总数量DFc(t)。 
c)利用公式 w t = pos × TF ( t , d c ) × log | D C | DF c ( t ) + 1 计算每一个词语t的加权TF×IDF权重并对结果排序,选择其中权重最高的N(1000≥N≥50)个词语作为网页dc的特征词;其中|DC|表示dc所属的训练集包含的网页总数。 
d)将每一个特征词作为向量 
Figure BDA000022637113000513
的一个维度,如果网页dc中包含该特征词,则该特征词所代表的维度上的值为该特征词在网页 
Figure BDA000022637113000514
的加权TF×IDF权重,否则该特征词在网页 的加权TF×IDF权重为0。 
然后,将训练集中的每一个网页所属的类别及其VSM向量构成一个训练样本,训练样本的形式如 
Figure BDA000022637113000516
其中 
Figure BDA000022637113000517
表示某一个训练集中的某一个网页的VSM向量;x表示 
Figure BDA000022637113000518
所属 的类别,若 
Figure BDA00002263711300061
归属于不相关报道,则其所属类别标记为-1(也可以标记为其他数字符号),若 
Figure BDA00002263711300062
归属于当前事件种子报道,则其所属类别标记为1(也可以标记为其他数字符号)。 
使用SVM分类算法(例如使用LibSVM软件),对每一个训练集包含的所有训练样本进行训练,得到相应的SVM二元分类器。 
步骤(4):逐个利用SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,由此,每使用一个SVM二元分类器便得到一个分类结果。作为一种具体的方法,未曾处理的目标新闻网页的主信息可从MySQL数据库中导出。 
其中,目标新闻网页的主信息是通过爬虫工具从新闻网站爬取下来保存在数据库中的新闻网页的信息,一般目标新闻网页的主信息由标题和正文组成;此外,主信息还可以由标题、正文和发布时间组成,或者由标题、正文和来源组成,或者由标题、正文、发布时间和来源组成。 
利用SVM二元分类器对目标新闻网页的主信息的VSM向量进行分类的具体步骤如下: 
1)对每一个目标新闻报道主信息de,构造其VSM向量 
Figure BDA00002263711300063
构造每一个网页de的VSM向量的做法是: 
a)对de的标题、正文内容进行分词,分析出de中包含的所有词语。本发明可选择采用中国科学院计算技术研究所的分词系统ICTCLAS进行分词。 
b)统计每一个词语t在每一个de中出现的频率TF(t,de),以及所有保存在数据库中的新闻网页的信息中出现该词语t的网页的总数量DFe(t)。 
c)利用公式 w t = pos × TF ( t , d e ) × log | D E | DF ( t e ) + 1 计算每一个词语t的加权TF×IDF权重并对结果排序,选择其中权重最高的N(1000≥N≥1)个词语作为网页de的特征词;其中|DE|表示保存在数据库中的新闻网页总数。 
d)将每一个特征词作为向量 的一个维度,如果de中包含该特征词,则该特征词所代表的维度上的值为特征词的权重,否则该特征词所代表的维度上的取值为0。 
2)逐个利用SVM二元分类器分别对步骤1)构造的目标新闻网页的主信息的VSM向量 
Figure BDA00002263711300066
进行分类,得到每一个SVM二元分类器的分类结果。 
步骤(5):步骤(4)所得到的各分类结果分别表示目标新闻网页是否与事件相关。如果有一半以上的分类结果显示目标新闻网页的主信息的类别标记为1,则表明该目标新闻网页与事件相关,则将该目标新闻网页加入到当前事件种子报道集中,得到更新后的事件种子报道集,并返回执行步骤(3);如果有一半以上的分类结果显示目标新闻网页的主信息的类别标记为-1,则表明该目标新闻网页与事件不相关,进而返回执行步骤(4)。 
当所有目标新闻网页处理完毕后,所得到的事件种子报道集中的网页数被判断为与事件相关的网页总数。 
以下以具体实施例进一步说明本发明方法的效果。 
如图2所示,在以下实施例中分别对4个事件进行了跟踪实验,为了方便叙述,将测试的事件隐含称作事件A、事件B、事件C和事件D。未处理的目标新闻网站的主信息的获取,是通过使用开源爬虫工具Nutch从新浪、网易、腾讯等新闻网站中抓取发布时间从T1到T2的新闻网页,然后利用HTMLParser对抓取到的新闻网页进行解析,提取出标题、正文、发布时间和来源信息组合成网页的主信息,保存到MySQL数据库。利用本发明方法对这些新闻网页的主信息进行事件跟踪处理,获得的分析结果如以下表1所示。其中,召回率和准确率的计算方法如下: 
Figure BDA00002263711300071
Figure BDA00002263711300072
其中,实际与事件相关的报道数是指从新浪、腾讯、网易等网站中抓取到的所有网页中,报道了事件的网页数(包含与事件相关的内容的网页数);被判断为与事件相关的报道数是指使用本发明方法对从网站抓取到的所有未处理的网页进行处理,其中被判断为与事件相关的网页总数;被判断为与事件相关且实际与事件相关的报道数是指被本发明方法判断为与事件相关且实际与事件相关的网页总数;被判断为与事件相关而实际与事件不相关的报道数是指被本发明方法实现的系统判断为与事件相关但实际与事件不相关的网页总数。 
本发明在步骤(1)和步骤(2)分别考虑了事件跟踪初期先验知识稀少和数据倾斜问题,结合加权TF×IDF特征权重计算公式,使用多个当前文本分类领域分类性能良好的SVM分类器组合成事件跟踪的核心算法,由表1可知,对事件A、B、C和D进行跟踪,平均召回率和平均准确率分别达到93.0%和97.4%,与目前的主流方法中效果最好的基于Rocchio算法的跟踪方法相比,基于Rocchio算法的跟踪方法获得的平均召回率和平均准确率分别是85.5%和93.7%,从上述比较中可以看出,本发明方法有效地提高了事件跟踪的准确率和召回率。 
表1 
Figure BDA00002263711300073

Claims (9)

1.一种面向新闻网站的事件跟踪方法,其特征在于,包括如下步骤:
(1) 从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上关键词;以所提取的所有关键词作为要素构造一个查询向量,将所述查询向量提交给搜索引擎而获得一个以上网页,对每一个从搜索引擎获得的每一个网页构造其VSM向量,然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值,并选择其中VSM向量的平均相似度值最高的前                                                
Figure 2012103942462100001DEST_PATH_IMAGE001
个网页加入到所述事件种子报道集中,得到扩展后的事件种子报道集,其中,
Figure 222238DEST_PATH_IMAGE001
≥1; 
(2)从事件的不相关报道集中随机选取2组以上不相关报道,每组不相关报道包含m个不相关报道,且0≤|m-q|≤3,其中,q为所述扩展后的事件种子报道集中的网页的数量;
(3) 将每一组所述不相关报道分别与当前事件种子报道集进行组合构成相应的训练集,对每个训练集中的每个网页构造训练样本,每个所述训练样本由网页所属的类别与该网页的VSM向量构成;使用SVM分类算法,对每个训练集中的所有训练样本进行训练,得到相应的SVM二元分类器;
(4)分别利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类,得到相应的分类结果;所述目标新闻网页的主信息包括标题和正文;
(5)利用所有的分类结果判断所述目标新闻网页的主信息是否与事件相关,如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件相关,则将所述目标新闻网页加入到当前事件种子报道集中,得到更新后的事件种子报道集,并返回执行步骤(3);如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件不相关,则返回执行步骤(4)。
2.根据权利要求1所述的事件跟踪方法,其特征在于:在所述步骤(1)中,所述关键词为6-8个。
3.根据权利要求1或2所述的事件跟踪方法,其特征在于:在所述步骤(1)中,n=8。
4.根据权利要求1所述的事件跟踪方法,其特征在于:在所述步骤(2)中,|m-q|=0。
5.根据权利要求1或4所述的事件跟踪方法,其特征在于:在所述步骤(2)中,从事件的不相关报道集中随机选取的不相关报道为4-6组。
6.根据权利要求1所述的事件跟踪方法,其特征在于:在步骤(4)中,所述目标新闻网页的主信息或者由标题和正文组成,或者由标题、正文和发布时间组成,或者由标题、正文和来源组成,或者由标题、正文、发布时间和来源组成。
7.根据权利要求1所述的事件跟踪方法,其特征在于:步骤(1)所述权重为加权
Figure 947356DEST_PATH_IMAGE002
特征词权重。
8.根据权利要求7所述的事件跟踪方法,其特征在于:所述加权特征词权重的计算公式如式(1)所示:
Figure 2012103942462100001DEST_PATH_IMAGE003
     (1)
其中,
Figure 526422DEST_PATH_IMAGE004
表示事件种子报道集中的第i个网页, 
Figure 2012103942462100001DEST_PATH_IMAGE005
表示中某一特征词
Figure 36217DEST_PATH_IMAGE006
的权重;
Figure 2012103942462100001DEST_PATH_IMAGE007
为用于调整特征词
Figure 296297DEST_PATH_IMAGE006
在网页
Figure 109533DEST_PATH_IMAGE004
中的不同位置的权重因子;
Figure 607510DEST_PATH_IMAGE008
表示特征词
Figure 175895DEST_PATH_IMAGE006
Figure 860954DEST_PATH_IMAGE004
中出现的次数;
Figure 2012103942462100001DEST_PATH_IMAGE009
表示在事件种子报道集中出现特征词
Figure 274618DEST_PATH_IMAGE006
的所有网页的总数;表示
Figure 366387DEST_PATH_IMAGE009
的倒数;
Figure 2012103942462100001DEST_PATH_IMAGE011
为事件种子报道集中所包含的网页总数。
9.根据权利要求8所述的事件跟踪方法,其特征在于:当特征词
Figure 836945DEST_PATH_IMAGE006
出现在标题时,
Figure 991983DEST_PATH_IMAGE012
取值为4.0;当特征词
Figure 261290DEST_PATH_IMAGE006
出现在正文时,
Figure 109161DEST_PATH_IMAGE012
取值为1.0。
CN201210394246.2A 2012-10-16 2012-10-16 一种面向新闻网站的事件跟踪方法 Expired - Fee Related CN102929977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210394246.2A CN102929977B (zh) 2012-10-16 2012-10-16 一种面向新闻网站的事件跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210394246.2A CN102929977B (zh) 2012-10-16 2012-10-16 一种面向新闻网站的事件跟踪方法

Publications (2)

Publication Number Publication Date
CN102929977A true CN102929977A (zh) 2013-02-13
CN102929977B CN102929977B (zh) 2015-07-22

Family

ID=47644775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210394246.2A Expired - Fee Related CN102929977B (zh) 2012-10-16 2012-10-16 一种面向新闻网站的事件跟踪方法

Country Status (1)

Country Link
CN (1) CN102929977B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205045A (zh) * 2015-09-21 2015-12-30 上海智臻智能网络科技股份有限公司 一种用于智能交互的语义模型方法
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN108829699A (zh) * 2018-04-19 2018-11-16 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN110458296A (zh) * 2019-08-02 2019-11-15 腾讯科技(深圳)有限公司 目标事件的标记方法和装置、存储介质及电子装置
CN114491102A (zh) * 2022-04-14 2022-05-13 深圳格隆汇信息科技有限公司 一种基于大数据的数据库监控方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073722A (zh) * 2011-01-11 2011-05-25 吕晓东 Url云发布系统
CN102567820A (zh) * 2010-12-08 2012-07-11 上海杉达学院 动态新闻发布和管理系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567820A (zh) * 2010-12-08 2012-07-11 上海杉达学院 动态新闻发布和管理系统
CN102073722A (zh) * 2011-01-11 2011-05-25 吕晓东 Url云发布系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205045A (zh) * 2015-09-21 2015-12-30 上海智臻智能网络科技股份有限公司 一种用于智能交互的语义模型方法
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN108829699A (zh) * 2018-04-19 2018-11-16 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN110458296A (zh) * 2019-08-02 2019-11-15 腾讯科技(深圳)有限公司 目标事件的标记方法和装置、存储介质及电子装置
CN110458296B (zh) * 2019-08-02 2023-08-29 腾讯科技(深圳)有限公司 目标事件的标记方法和装置、存储介质及电子装置
CN114491102A (zh) * 2022-04-14 2022-05-13 深圳格隆汇信息科技有限公司 一种基于大数据的数据库监控方法及系统

Also Published As

Publication number Publication date
CN102929977B (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
US10997256B2 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
CN103345528B (zh) 一种基于关联分析和knn的文本分类方法
CN102289522B (zh) 一种对于文本智能分类的方法
Fan et al. Research on text classification based on improved tf-idf algorithm
CN105045875B (zh) 个性化信息检索方法及装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN101350011B (zh) 一种基于小样本集的搜索引擎作弊检测方法
CN103186675A (zh) 一种基于网络热词识别的网页自动分类方法
CN105512311A (zh) 一种基于卡方统计的自适应特征选择方法
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN102929977B (zh) 一种面向新闻网站的事件跟踪方法
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN103678274A (zh) 一种基于改进互信息和熵的文本分类特征提取方法
Man Feature extension for short text categorization using frequent term sets
CN105893380A (zh) 一种改良的文本分类特征选择方法
CN101477563A (zh) 一种短文本聚类的方法、系统及其数据处理装置
CN105512143A (zh) 一种网页分类方法及装置
CN101211339A (zh) 基于用户行为的智能网页分类器
CN108388914A (zh) 一种基于语义计算的分类器构建方法、分类器
CN103678422A (zh) 网页分类方法和装置、网页分类器的训练方法和装置
CN109885675A (zh) 基于改进lda的文本子话题发现方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN103123685A (zh) 文本模式识别方法
CN106649264B (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN103823847A (zh) 一种关键词的扩充方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20161016

CF01 Termination of patent right due to non-payment of annual fee