CN102929977B

CN102929977B - 一种面向新闻网站的事件跟踪方法

Info

Publication number: CN102929977B
Application number: CN201210394246.2A
Authority: CN
Inventors: 林怀忠; 陈泽锋; 陈劲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-10-16
Filing date: 2012-10-16
Publication date: 2015-07-22
Anticipated expiration: 2032-10-16
Also published as: CN102929977A

Abstract

本发明公开了一种面向新闻网站的事件跟踪方法。它利用事件种子报道集和事件的不相关报道集训练一组SVM二元分类器，作为事件跟踪模型；利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类，得到相应的分类结果；根据分类结果对目标新闻网页进行事件相关性判断；如果目标新闻网页与事件相关则加入事件种子报道集，并重新训练事件跟踪模型；否则继续处理新的目标新闻网页。本发明克服了现有技术事件跟踪初期事件相关信息过少、数据倾斜和计算复杂度过高的缺陷，能够有效地提高事件跟踪的准确率和召回率。

Description

一种面向新闻网站的事件跟踪方法

技术领域

本发明属于计算机数据挖掘技术领域，涉及一种基于分类算法的事件跟踪方法。

背景技术

在当今网络信息爆炸的情况下，由于信息更新迅速，且杂乱无章，使得从网络中及时寻找感兴趣、有价值的热点信息变得越来越困难。为此，以事件为研究对象的事件跟踪技术引起了人们的兴趣。通过事件跟踪，可以将事件相关的各方面信息自动组织起来，从而为人们提供一种方便快捷的渠道去全面了解热门事件。

事件跟踪方法目前的主流方法分为以下几种：

（1）基于KNN分类算法的事件跟踪模型，其首先根据内容的相关性从事件样本集中选择当前待检测报道最相似的k个先验报道作为最近邻，然后根据最近邻所属事件类别综合判定当前报道论述的事件。该方法简单易用，考虑因素少；但数据倾斜对其影响严重，且当数据量上规模后性能下降严重。

（2）基于决策树算法的事件跟踪模型，该模型从事件样本集中提取出决策树的分裂属性，创建相应的决策树分类模型，利用该决策树对待检测的报道所论述的事件进行判断。该方法对不同跟踪任务和不同数据源需选择不同的属性，作为决策树的分裂属性，选择难度大，模型复杂不好理解。

（3）基于Rocchio算法的跟踪模型，其利用事件样本集训练Rocchio分类器，然后利用该分类器判断待测报道是否与事件相关。其优点在于模型可以利用后续报道不断改进和更新事件模型，使模型更符合事件发展的特性；而其存在的明显缺陷是Rocchio算法对阈值的依赖程度很高：过高的阀值导致漏检率加大，过低的阀值则会引入大量噪声。

关于事件跟踪任务,先前的很多研究工作主要集中在如何建立更好的分类方法、事件与报道的表示模型及其相似度计算方法，以此提高跟踪系统的整体效果，而对于话题跟踪初期先验信息稀少和数据倾斜问题的研究很少。但由于事件跟踪初期先验知识稀少，再加上数据倾斜造成的影响，当前的事件跟踪方法获得的准确率和查全率都不高。

发明内容

本发明的目的是克服目前事件跟踪初期先验知识稀少和数据倾斜问题，提供一种快速有效的面向新闻网站的事件跟踪方法。

为实现上述目的，本发明面向新闻网站的事件跟踪方法包括如下步骤：

(1)从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上的关键词；以所提取的所有关键词作为要素构造一个查询向量；，将所述查询向量提交给搜索引擎而获得一个以上网页，并对每一个从搜索引擎获得的每一个网页构造其VSM向量，然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值，并选择其中VSM向量的平均相似度值最高的前n个网页加入到所述事件种子报道集中，得到扩展后的事件种子报道集，其中，n≥1；

(2)从事件的不相关报道集中随机选取2组以上不相关报道，每组不相关报道包含m个不相关报道，且0≤|m-q|≤3，其中，q为所述扩展后的事件种子报道集中的网页的数量；

(3)将每一组所述不相关报道分别与当前事件种子报道集进行组合组构成相应的训练集，对每个训练集中的每个网页构造训练样本，每个所述训练样本由网页所属的类别与该网页的VSM（Vector Space Model）向量构成；使用SVM分类算法，对每个训练集中的所有训练样本进行训练，得到相应的SVM二元分类器。

(4)分别利用各SVM二元分类器(Support Vector Machine)对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类，得到相应的分类结果；所述目标新闻网页的主信息包括标题和正文；

(5)利用所有的分类结果判断所述目标新闻网页的主信息是否与事件相关，如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件相关，则将所述目标新闻网页加入到当前事件种子报道集中，得到更新后的事件种子报道集，并返回执行步骤(3)；如果有一半以上的分类结果显示所述目标新闻网页的主信息与事件不相关，则返回执行步骤(4)。

进一步地，本发明在所述步骤(1)中，所述关键词为6-8个。

进一步地，本发明在所述步骤（1）中，n=8。

进一步地，本发明在所述步骤(2)中，|m-q|=0。

进一步地，本发明在所述步骤(2)中，从事件的不相关报道集中随机提取选取的不相关报道为4-6组。

进一步地，本发明在步骤（4）中，所述目标新闻网页的主信息或者由标题和正文组成，或者由标题、正文和发布时间组成，或者由标题、正文和来源组成，或者由标题、正文、发布时间和来源组成。

进一步地，本发明的步骤（1）所述权重是指加权TF×IDF特征词权重。

进一步地，本发明所述加权TF×IDF特征词权重的计算公式如式（1）所示：

w_{t} = pos \times TF (t, d_{i}) \times IDF (t) = pos \times TF (t, d_{i}) \times \log \frac{| D_{z} |}{DF (t) + 1} - - - (1)

其中，d_i表示事件种子报道集中的第i个网页，w_t表示d_i中某一特征词t的权重；pos为用于调整特征词t在网页d_i中的不同位置的权重因子；TF(t,d_i)表示特征词t在d_i中出现的次数；DF(t)表示在事件种子报道集中出现特征词t的所有网页的总数；IDF(t)表示DF(t)的倒数；|D_z|为事件种子报道集中所包含的网页总数。

进一步地，本发明当特征词t出现在标题时，pos取值为4.0；当特征词t出现在正文时，pos取值为1.0。

与现有技术相比，本发明的有益效果是：本发明在步骤(1)和步骤(2)分别考虑了事件跟踪初期先验知识稀少和数据倾斜问题，结合加权TF×IDF特征权重，使用多个当前文本分类领域分类性能良好的SVM分类器(Support Vector Machine)组合成事件跟踪的核心算法，有效的提高了事件跟踪的准确率和召回率。

附图说明

图1为本发明方法的流程示意图；

图2为本发明的一个实施例的流程示意图。

具体实施方式

本发明基于以下理论基础：

1）事件跟踪任务基于文本分类，该任务通常给定1-4个事件种子报道及一个事件不相关报道集，利用这些报道，在事件粒度上，训练分类器用于事件的跟踪。

2)先验知识越充足，分类效果越好。事件最初通常只有1-4个事件种子报道，由于信息过于稀少，很难训练出一个好的分类模型，因此，本发明通过搜索引擎，搜索与事件相关的信息扩展到事件种子报道集中，再利用扩展后的事件种子报道集训练分类模型，能有效地克服信息稀少造成的分类模型不准确。

3)基于统计学的分类器，其分类结果会向拥有训练样本数量较多的类别偏倚。事件跟踪最初包含大量的不相关报道，它们相比于事件种子报道，数量要大很多，造成严重的数据倾斜。本发明通过对事件的不相关报道进行采样，对解决数据倾斜具有良好的效果。

如图1所示，本发明面向新闻网站的事件跟踪方法包括以下步骤：

步骤(1)：对初始事件种子报道集中包含的所有网页的标题和正文进行分词，分析出事件种子报道集合的所有网页中包含的词语，然后使用加权TF×IDF特征词权重计算方法计算这些词语的权重并对结果进行排序，选取其中权重最高的2个以上的词语作为关键词。为了使所提取的关键词能有效地概括事件的内容且又不至于引入噪音,所取关键词的数量优选为6-8个。加权TF×IDF特征词权重的计算公式如式（1）所示：

w_{t} = pos \times TF (t, d_{i}) \times IDF (t) = pos \times TF (t, d_{i}) \times \log \frac{| D_{z} |}{DF (t) + 1} - - - (1)

其中，d_i表示事件种子报道集合中的第i个网页，w_t表示d_i中某一特征词t的权重；pos为用于调整特征词t在网页d_i中的不同位置的权重因子，pos≥1.0，通常，当特征词t出现在标题时，pos取值为4.0，当特征词t出现在正文时，pos取值为1.0；TF(t,d_i)表示特征词t在d_i中出现的次数；DF(t)表示在事件种子报道集中出现特征词t的所有网页的总数；IDF(t)表示DF(t)的倒数；|D_z|为事件种子报道集中所包含的网页总数。

以所提取的所有关键词作为要素构造一个查询向量query,向量形式为{关键词1，关键词2,…}。将查询向量query提交给搜索引擎开放的API接口，搜索引擎会以JSON、BSON等形式返回一组网页，相应地利用JSON解析器或BSON解析器对网页进行解析，获得一个以上网页d_s。

对每一个从搜索引擎获得的网页d_s，构造其VSM向量构造每一个网页d_s的VSM向量的做法是：

a)对每一个网页d_s的标题、正文内容进行分词，分析出d_s包含的所有词语t。本发明可选择采用中国科学院计算技术研究所的分词系统ICTCLAS进行分词。

b)统计每一个词语t在每一个网页d_s中出现的频率TF(t,d_s)，以及从搜索引擎获得的所有网页中出现该词语t的网页的总数量DF_s(t)。

c)利用公式

w_{t} = pos \times TF (t, d_{s}) \times \log \frac{| D_{S} |}{{DF}_{s} (t) + 1}

计算每一个词语t在搜索引擎获得的所有网页中的加权TF×IDF权重并对结果排序，选择其中权重最高的N（N≥1）个词语作为特征词，其中，优选1000≥N≥50；|D_S|表示从搜索引擎获得的网页的总数。

d)将每一个特征词作为VSM向量的一个维度，如果从搜索引擎获得的某一个网页d_s中包含该特征词，则该特征词所代表的维度上的值为该特征词在网页的加权TF×IDF权重，否则该特征词在网页的加权TF×IDF权重为0。

由以上方法构造得到每一个从搜索引擎获得的网页d_s的VSM向量，其向量形式为：其中w_J为网页d_s中第J个特征词的权重，N表示网页d_s中所包含的特征词的数量。

然后，计算从搜索引擎获得的所有网页的VSM向量的平均相似度并排序，选择其中VSM向量的平均相似度值最大的n（n≥1）个网页加入到事件种子报道集中，得到第一次扩展后的事件种子报道集（记作Cp）。

为了有效地扩展事件种子报道集，n优选的经验值为8。的平均相似度的计算公式如式（2）所示：

\overset{&OverBar;}{sim} ({\overset{&RightArrow;}{d}}_{s}) = \frac{1}{sizeof (CP 0)} \underset{\overset{&RightArrow;}{d} i &Element; CP 0}{Σ} sim ({\overset{&RightArrow;}{d}}_{s}, {\overset{&RightArrow;}{d}}_{i}) - - - (2)

其中，CP0表示扩展前的事件种子报道集，sizeof(CP0)表示CP0中包含的网页个数；表示从搜索引擎获得的一个网页的VSM向量，表示CP0中第i个网页的VSM向量，表示向量与的余弦相似度,其计算公式如式（3）所示：

sim ({\overset{&RightArrow;}{d}}_{s}, {\overset{&RightArrow;}{d}}_{i}) = \cos ({\overset{&RightArrow;}{d}}_{s}, {\overset{&RightArrow;}{d}}_{i}) = \frac{{\overset{&RightArrow;}{d}}_{s} \cdot {\overset{&RightArrow;}{d}}_{i}}{| {\overset{&RightArrow;}{d}}_{s} | | {\overset{&RightArrow;}{d}}_{i} |} - - - (3)

其中和分别对应表示向量与的模。

步骤(2)：从事件的不相关报道集中随机选取2组以上不相关报道。从事件跟踪的准确率和方法执行的效率上综合考虑，通常取4-6组不相关报道。每组不相关报道包含m个不相关报道，且0≤|m-q|≤3，其中，q为步骤（1）所得到的扩展后的事件种子报道集中的网页的数量。|m-q|的值直接影响数据倾斜，取值越大数据倾斜越严重，所以该值取值不应太大，以0≤|m-q|≤3为宜，优选|m-q|=0。

步骤(3)：将步骤（2）提取得到的每一组不相关报道分别与当前事件种子报道集组成训练集，每一组不相关报道与当前事件种子报道集构成一个报道集，有几组不相关报道则得到几个训练集。在每一个训练集中，不相关报道所属的类别可标记为-1（也可以标记为其他数字符号），当前事件种子报道所属的类别可标记为1（也可以标记为其他数字符号）。

对每一个训练集中的网页d_c，构造其VSM向量构造每一个网页d_c的VSM向量的做法是：

a)对网页d_c的标题、正文内容进行分词，分析出d_c中包含的所有词语。本发明可选择采用中国科学院计算技术研究所的分词系统ICTCLAS进行分词。

b)统计每一个词语t在每一个网页d_c中出现的频率TF(t,d_c)，以及训练集中所有网页中出现该词语t的网页的总数量DF_c(t)。

c)利用公式

w_{t} = pos \times TF (t, d_{c}) \times \log \frac{| D_{C} |}{{DF}_{c} (t) + 1}

计算每一个词语t的加权TF×IDF权重并对结果排序，选择其中权重最高的N（1000≥N≥50）个词语作为网页d_c的特征词；其中|D_C|表示d_c所属的训练集包含的网页总数。

d)将每一个特征词作为向量的一个维度，如果网页d_c中包含该特征词，则该特征词所代表的维度上的值为该特征词在网页的加权TF×IDF权重，否则该特征词在网页的加权TF×IDF权重为0。

然后，将训练集中的每一个网页所属的类别及其VSM向量构成一个训练样本，训练样本的形式如其中表示某一个训练集中的某一个网页的VSM向量；x表示所属的类别，若归属于不相关报道，则其所属类别标记为-1（也可以标记为其他数字符号），若归属于当前事件种子报道，则其所属类别标记为1（也可以标记为其他数字符号）。

使用SVM分类算法（例如使用LibSVM软件），对每一个训练集包含的所有训练样本进行训练，得到相应的SVM二元分类器。

步骤(4)：逐个利用SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类，由此，每使用一个SVM二元分类器便得到一个分类结果。作为一种具体的方法，未曾处理的目标新闻网页的主信息可从MySQL数据库中导出。

其中，目标新闻网页的主信息是通过爬虫工具从新闻网站爬取下来保存在数据库中的新闻网页的信息，一般目标新闻网页的主信息由标题和正文组成；此外，主信息还可以由标题、正文和发布时间组成，或者由标题、正文和来源组成，或者由标题、正文、发布时间和来源组成。

利用SVM二元分类器对目标新闻网页的主信息的VSM向量进行分类的具体步骤如下：

1)对每一个目标新闻报道主信息d_e，构造其VSM向量构造每一个网页d_e的VSM向量的做法是：

a)对d_e的标题、正文内容进行分词，分析出d_e中包含的所有词语。本发明可选择采用中国科学院计算技术研究所的分词系统ICTCLAS进行分词。

b)统计每一个词语t在每一个d_e中出现的频率TF(t,d_e)，以及所有保存在数据库中的新闻网页的信息中出现该词语t的网页的总数量DF_e(t)。

c)利用公式

w_{t} = pos \times TF (t, d_{e}) \times \log \frac{| D_{E} |}{DF (t_{e}) + 1}

计算每一个词语t的加权TF×IDF权重并对结果排序，选择其中权重最高的N（1000≥N≥1）个词语作为网页d_e的特征词；其中|D_E|表示保存在数据库中的新闻网页总数。

d)将每一个特征词作为向量的一个维度，如果d_e中包含该特征词，则该特征词所代表的维度上的值为特征词的权重，否则该特征词所代表的维度上的取值为0。

2)逐个利用SVM二元分类器分别对步骤1)构造的目标新闻网页的主信息的VSM向量进行分类，得到每一个SVM二元分类器的分类结果。

步骤(5)：步骤（4）所得到的各分类结果分别表示目标新闻网页是否与事件相关。如果有一半以上的分类结果显示目标新闻网页的主信息的类别标记为1，则表明该目标新闻网页与事件相关，则将该目标新闻网页加入到当前事件种子报道集中，得到更新后的事件种子报道集，并返回执行步骤(3)；如果有一半以上的分类结果显示目标新闻网页的主信息的类别标记为-1，则表明该目标新闻网页与事件不相关，进而返回执行步骤(4)。

当所有目标新闻网页处理完毕后，所得到的事件种子报道集中的网页数被判断为与事件相关的网页总数。

以下以具体实施例进一步说明本发明方法的效果。

如图2所示，在以下实施例中分别对4个事件进行了跟踪实验，为了方便叙述，将测试的事件隐含称作事件A、事件B、事件C和事件D。未处理的目标新闻网站的主信息的获取，是通过使用开源爬虫工具Nutch从新浪、网易、腾讯等新闻网站中抓取发布时间从T1到T2的新闻网页，然后利用HTMLParser对抓取到的新闻网页进行解析，提取出标题、正文、发布时间和来源信息组合成网页的主信息，保存到MySQL数据库。利用本发明方法对这些新闻网页的主信息进行事件跟踪处理，获得的分析结果如以下表1所示。其中，召回率和准确率的计算方法如下：

其中，实际与事件相关的报道数是指从新浪、腾讯、网易等网站中抓取到的所有网页中，报道了事件的网页数（包含与事件相关的内容的网页数）；被判断为与事件相关的报道数是指使用本发明方法对从网站抓取到的所有未处理的网页进行处理，其中被判断为与事件相关的网页总数；被判断为与事件相关且实际与事件相关的报道数是指被本发明方法判断为与事件相关且实际与事件相关的网页总数；被判断为与事件相关而实际与事件不相关的报道数是指被本发明方法实现的系统判断为与事件相关但实际与事件不相关的网页总数。

本发明在步骤(1)和步骤(2)分别考虑了事件跟踪初期先验知识稀少和数据倾斜问题，结合加权TF×IDF特征权重计算公式，使用多个当前文本分类领域分类性能良好的SVM分类器组合成事件跟踪的核心算法，由表1可知，对事件A、B、C和D进行跟踪，平均召回率和平均准确率分别达到93.0%和97.4%，与目前的主流方法中效果最好的基于Rocchio算法的跟踪方法相比，基于Rocchio算法的跟踪方法获得的平均召回率和平均准确率分别是85.5%和93.7%，从上述比较中可以看出，本发明方法有效地提高了事件跟踪的准确率和召回率。

表1

。

Claims

1.一种面向新闻网站的事件跟踪方法，其特征在于,包括如下步骤：

(1)从初始事件种子报道集包含的所有网页的标题和正文中提取权重最高的2个以上关键词；以所提取的所有关键词作为要素构造一个查询向量，将所述查询向量提交给搜索引擎而获得一个以上网页，对每一个从搜索引擎获得的每一个网页构造其VSM向量，然后计算从搜索引擎获得的所有网页的VSM向量的平均相似度值，并选择其中VSM向量的平均相似度值最高的前n个网页加入到所述初始事件种子报道集中，得到扩展后的事件种子报道集，其中，n≥1；

(3)将每一组所述不相关报道分别与当前事件种子报道集进行组合构成相应的训练集，对每个训练集中的每个网页构造训练样本，每个所述训练样本由网页所属的类别与该网页的VSM向量构成；使用SVM分类算法，对每个训练集中的所有训练样本进行训练，得到相应的SVM二元分类器；

(4)分别利用各SVM二元分类器对从新闻网站中抓取的其中一个未曾处理的目标新闻网页的主信息的VSM向量进行分类，得到相应的分类结果；所述目标新闻网页的主信息包括标题和正文；

2.根据权利要求1所述的事件跟踪方法，其特征在于：在所述步骤(1)中，所述关键词为6-8个。

3.根据权利要求1或2所述的事件跟踪方法，其特征在于：在所述步骤(1)中，n＝8。

4.根据权利要求1所述的事件跟踪方法，其特征在于：在所述步骤(2)中，|m-q|＝0。

5.根据权利要求1或4所述的事件跟踪方法，其特征在于：在所述步骤(2)中，从事件的不相关报道集中随机选取的不相关报道为4-6组。

6.根据权利要求1所述的事件跟踪方法，其特征在于：在步骤(4)中，所述目标新闻网页的主信息或者由标题和正文组成，或者由标题、正文和发布时间组成，或者由标题、正文和来源组成，或者由标题、正文、发布时间和来源组成。

7.根据权利要求1所述的事件跟踪方法，其特征在于：步骤(1)所述权重是指加权TF×IDF特征词权重。

8.根据权利要求7所述的事件跟踪方法，其特征在于：所述加权TF×IDF特征词权重的计算公式如式(1)所示：

w_{t} = pos \times TF (t, d_{i}) \times IDF (t) = pos \times TF (t, d_{i}) \times \log \frac{| D_{z} |}{DF (t) + 1} - - - (1)

9.根据权利要求8所述的事件跟踪方法，其特征在于：当特征词t出现在标题时，pos取值为4.0；当特征词t出现在正文时，pos取值为1.0。