CN101296128A

CN101296128A - 一种对互联网信息进行异常状态监测的方法

Info

Publication number: CN101296128A
Application number: CNA2007100986453A
Authority: CN
Inventors: 梁循; 陈华; 杨健
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2007-04-24
Filing date: 2007-04-24
Publication date: 2008-10-29
Also published as: WO2008128442A1; US20110191355A1; US8185537B2

Abstract

本发明提供了一种通过对互联网信息中热点词汇的频率所发生的变化进行监测，从而对互联网信息进行异常状态监测的方法。该方法包括以下步骤：一、获取通用词汇在当日互联网页中出现的当日词频数据；二、结合用户关注的热点词汇词典，确定互联网信息的当日关键词集合；三、确定每个当日关键词的权重；四、确定当日关键词的异常阀值；五、检测当日关键词的异常程度并确定当日热点互联网信息。本发明通过对互联网信息中热点词汇的频率所发生的变化进行监测，计算关键词的异常程度，对热点词汇的词频变化的异常程度进行预测和报警。可以使得互联网信息使用者在第一时间做出反应。

Description

一种对互联网信息进行异常状态监测的方法

技术领域

本发明属于互联网信息挖掘技术领域，具体涉及的是对互联网信息进行异常程度的跟踪和监测的方法。

背景技术

随着网络日益成为人们发布信息、沟通信息的主要媒体，网络上的信息也越来越能反映人们关注的焦点和社会热点事件了。因此，通过监控网络信息中所反映的热点问题和热点事件就成为一个自然的需求了。不论是普通用户还是行业专家都希望有一个自动化的工具或者方法帮助他们实时地跟踪他们所关注的领域的最新热点话题或者新闻，以便了解该领域的最新进展。

不难发现，在一般情况下，互联网信息中某个关键词大量集中出现往往意味着某个热点新闻或者热点事件的发生，而当发生了被广泛关注的新闻或事件时，又会在网络上集中出现大量的带有相关关键词的文本。因此，互联网文本中热点关键词的数量的较大变化常常反映了社会热点新闻或事件的出现或降温，而网络上反映热点新闻或事件的文本又会进一步推动广大网民对于相关新闻和事件的关注程度和看法。也就是说，异常高的关键词词频和显著的热点新闻和事件有一定的耦合关系。所以，在本发明中，避开对词频小的变化问题的预测，只关心异常高的词频变化量。本发明对于网络监管机构、关注社会热点新闻和事件的机构来说，是非常有价值的自动跟踪热点词汇出现频率的工具。

以下讨论的关于词的方法，均指互联网信息中的关键词。

不同词有不同的出现词频，而在某日，不同出现词频的词的相同出现次数有不同含义。对于一个使用频率很高的词来说，词频的历史均值和历史标准差都很大，例如，分别是500次/天和350次/天。如果在某一天，其互联网频率增加了300次，变成了800次，即增加了大约1倍，那么一般仍然很正常；但是，如果其互联网频率变成了1200次，即增加了大约2倍，就会预示着发生了相应的热点新闻或事件了。

而对一个频率比较低的词，平均日互联网出现频率及其标准差很小，例如，分别是20次和15次。如果在某一天，其互联网频率增加了30次，变成了50次，即增加了大约1倍多，那么一般仍然很正常；但是，如果在某一天，互联网上该词的信息量增加了300次，变成了320次，则预示出现了相应的热点事件或新闻。

也就是说，同样是增加300次，对高频词说，仍然正常；而对低频词来说，则说明出现了异常事件。即对具有不同词频的词的度量，标准是不同的。

对于低频词，上述的300次出现次数称为异常高的词频增加量。本发明的主要目标是监测异常高的词频增加量，进而预测网络热点信息的出现或降温，以及进行必要的报警。

Khoo K.B.等人于2001年提出了一种跟踪热点话题的方法，对一些定点的网站或者网页定期统计一些关键词项(term)的词频，并利用tfidf公式计算每个term的当前权重，并从中得到当前的热点话题(Khoo K.B.，Mitsuru I.Emerging TopicTracking System.Advanced Issues of E-Commerce and Web-Based Information Systems，WECWIS 2001，Third International Workshop on.2-11.2001.)，以下称为现有技术1。其贡献之处在于，现有技术1给出了一种标准化的公式来计算每个term的当前权重，随着时间的变化，这个权重也会随之变化，从而反映出互联网信息热点的变化情况。其主要缺点在于，没有考虑每个term的历史均值和历史标准差，因此无法按照高频词和低频词的历史表现对异常的热点进行准确的度量，只能对各个term进行横向的比较。

发明内容

本发明的目的是提供一种通过对互联网信息中热点词汇的频率所发生的变化进行监测，从而对互联网信息进行异常状态监测的方法。

本发明的技术方案如下：

一种对互联网信息进行异常状态监测的方法，所述的方法是结合用户关注的热点词汇词典，对用户关注的互联网信息进行异常状态的监测，具体包括以下步骤：

一、获取通用词汇在当日互联网页中出现的当日词频数据，并存入数据库。

对互联网的网页进行定时抓取，得出每个通用词汇在每篇网页中的词频数；累加所有网页中该通用词汇的词频数，得到当日互联网信息中的该通用词汇的当日词频数据，并存入数据库。可以按照以下步骤进行：

(1.1)给定欲抓取的互联网站点列表并存入数据库之中；

(1.2)遍历数据库站点列表中的每一条记录，按照如下方法得到该站点中每一个通用词汇的词频数：根据互联网站点列表记录和通用词汇表，得到需抓取的网页链接地址；根据需抓取的链接地址，找出每一个通用词汇标有当天日期的信息，并对这些信息计数；

(1.3)累加每一个通用词汇在数据库中所有站点列表中的词频数，得到该通用词汇的当日词频数据，并再存入数据库的原位置。

使用上述步骤，可以抓取并算出所有通用词汇的当日词频数据。需要说明的是，使用本方面的方法，需要按如上方法积累相对较长一段时间的上面的历史数据。

在得到历史数据之后，就可以对新的一天的词频变化状况进行检测了。首先利用中文分词方法把当日每篇网页文档进行中文分词得到该网页中的所有通用词汇(可借助当前较成熟的中文分词词典进行，如中科院计算所的海量词典)。

二、结合用户关注的热点词汇词典，确定每篇网页的当日关键词，合并所有网页的当日关键词，得到互联网信息的当日关键词集合{ti，i＝1……M}，M为当日关键词表中的关键词个数。

确定当日每篇网页的关键词的方法可以如下：

(2.1)对于每篇网页中的每个通用词汇，按照如下公式计算其信息特征值tfidf，即tfidf＝-[freq(p，D)/size(D)]*[log(df(p)/N)]，其中：freq(p，D)是通用词汇p在网页D中的出现次数，size(D)是网页D中包含的所有通用词汇的数量，df(p)是当日网页集合中含有通用词汇p的文章的数量，N是当日网页集合中网页的数量N；

(2.2)将该网页中的所有通用词汇与用户关注的热点词汇词典进行比较，删去其中不属于用户关注的热点词汇，形成针对该网页的备选关键词表，选取该网页备选关键词表中tfidf值较大的K个关键词，得到该篇网页的当日关键词，K为正整数。

三、确定当日关键词的权重。

在当日抓取的网页集合中对当日关键词集合中的所有关键词进行累加求和，统计出每个关键词的当日词频，按照当日词频将所有当日关键词从小到大排序。

根据每个关键词的互联网词频的历史数据，计算历史均值μi、历史波动率σi(不管频率升降，本发明定义波动率均取词频变化率的绝对值，即波动率永远为正数)。

然后计算关键词的权重：将关键词ti的q值定义为其波动率的上取整值的倒数，即qi＝1/(cein(σi))，i＝1，...，M，其中cein()是上取整函数，那么关键词ti的权重

wi = q_{i} / Σ_{i = 1}^{M} q_{i},

i＝1时对应当日词频fi最小的当日关键词。

四、确定当日关键词的异常阀值。

对于当日关键词ti，定义其异常阀值为σi’＝σi+c(wi/w1)，i＝1，...，M。其中c是一个常数，可以由用户根据经验来给出，代表词语异常阀值的膨胀。

对于不常见词汇ti，由于σi≈σ1，所以σi’≈σi+c；而对于最常见词汇，其σi较大，所以σi’≈σi；而对于普通的词汇，其异常阀值在σi和σi+c之间平滑过渡。

五、检测当日关键词的异常程度并确定当日热点互联网信息：

定义当日关键词的偏移度θi’＝(fi-μi)/σi’，偏移度大的当日关键词所属的互联网信息即为当日热点互联网信息。

进一步，上述的方法中还包括如下步骤：

六.按照如图4所示的折线判别函数(需要取整)检测每个关键词的异常度θi。

也就是说，当-∞＜θi’＜0时，θi＝0；当0≤θi’＜1时，θi＝floor(10θi’)，其中floor()是下取整函数；当1≤θi’＜2时，θi＝floor(80(θi’-1))+10；当2≤θi’＜3时，θi＝floor(9(θi’-2))+90；当3≤θi’＜+∞时，θi＝99。当关键词ti的异常度θi＞90分时，认为该关键词发生异常变化，该关键词所属的互联网信息为当日突发的热点信息。

进一步，上述的方法中还包括如下步骤：

七.将所有关键词的异常度得分以图2所示的图形方式显示，便于用户观察其得分。图形方式下：

将步骤6的结果使用Java Applet技术和Java AWT接口，根据各热点词汇在画布上的坐标及其预测的词频异常度大小，绘制给用户。其中，图形条越长，表示互联网词频的异常程度越大。图形条的颜色的决定方法是：按照图形条的长度，通过查一个20个长度和20个颜色一一对应的表，来决定其应该绘制的颜色(见图2)。

图形条的长度和颜色分别从

<7.1>长度为0、颜色为深绿色(对应词频异常度0)，逐渐过度到

<7.2>长度为L/2、颜色为橙色(对应词频异常度90)，再逐渐过度到

<7.3>长度为L、颜色为大红色(对应词频异常度100)。

其中，图形条最大长度为L，而且为了突出异常关键词的显示，图形条的长度与关键词的异常度分值并不是正比关系而是反方向的对数关系，即l_i＝(2-log(100-θi))L/2，其中log是以10为底的对数函数。这样，最高分99对应着长度L，异常临界值90分对应着长度L/2，异常度0分对应着长度0。

为及时提醒用户，上述的方法进一步包括如下步骤：

当当日关键词ti的异常度θi＞90分时，向用户报警。也即，当图形条长度超过或等于L/2(这时颜色较偏红，例如为大红色和橙色)时，即达到或超过报警线时，系统向用户报警。

本发明与现有技术1的区别有以下三点。

第一，现有技术1使用了tfidf公式来度量关键词项的重要程度，而没有考虑各个term的历史均值和标准差，也没有对高频词和低频词的不同情况进行分别处理的机制；本发明除了使用tfidf公式选取当日的关键词，还发明设计了对不同频率词汇变化的权重度量公式，使用历史均值和历史标准差对词频显著性波动，进行预测。由于每个关键词是否出现异常在很大程度上依赖于历史上该关键词的频率分布，所以利用历史均值和标准差可以从根本上提高关键词异常程度检测的实际应用效果。

第二，对词频的变化所代表的热点话题的变化，现有技术1使用term的权重的排位来体现，而本发明使用异常、半异常或正常作为检测标准，而异常程度是通过当日的词频偏离历史均值的程度计算的，判断的阀值除了建立在历史标准差之上，还对高频词和低频词进行区分，从而把抽象的热点变化程度具体化，并使之更接近实际使用场合。

第三，现有技术1没有进行图形化显示，不方便实际应用，本发明的方法进一步设计和实现了图形条长度及颜色的显示方法，对词频波动率大小给出了直观表达的途径，并提供了报警功能。

本发明通过对互联网信息中热点词汇的频率所发生的变化进行监测，计算关键词的异常程度，对热点词汇的词频变化的异常程度进行预测和报警。对网络监管部门来说，本发明可以提供一个及时的热点信息观察窗口，尽早发现那些有异常程度的事件，可以对热点词汇词频的较大波动提高警惕性，并在第一时间做出反应。此外，根据本方法，可以从互联网角度，对热点信息和事件的变化情况进行预测，并可以相当地准确向用户报警。由于通常互联网信息数量庞大，本发明的图形输出方式实质上是给出了一个总结性信息，从而提高了发现热点信息的效率。举例来说，如果热点信息为股市热点信息，通过此监控技术，就可以间接地了解宏观经济指标变动、公司财务变化对股价的影响，为决策机关的政策制定提供更多的理论依据。随着互联网的进一步发展和渗透，将会有更多的金融信息通过网络的渠道进行公示，而由于互联网的广泛性和匿名性，很可能成为故意炒作者的利器。从这个意义上说，对互联网金融热点信息进行研究还可以帮助金融监督机构有效地实现金融监管，提高信息可信度，打击恶意操作的行为。对于企业管理者而言，如果可以提前把握互联网金融信息对自身股市行为带来的可能影响，那么势必将更为有效地做出决策，同时也可以及时地对虚假和炒作的金融信息做出回应。

附图说明

图1 本发明方法的主要步骤流程图；

图2 利用互联网词频的变化预测热点异常程度的图形化显示及报警举例；

图3 2006-09-11新浪网的新闻分页上的信息。

图4 异常度折线判别函数图

具体实施方式

下面更详细的描述出本发明的一个实施例。

参见附图1，一种对互联网信息进行异常状态监测的方法，所述的方法是结合用户关注的热点词汇词典，对用户关注的互联网信息进行异常状态的监测，包括以下步骤：

(1)抓取某日互联网新闻文本

<1>给出待抓取的网站列表并存入数据库之中，错误！未找到引用源。给出了一部分。

表1互联网新闻网站列表举例

序号	链接
序号	链接	1	http://news.sina.com.cn/
2	http://news.163.com/	1	http://news.sina.com.cn/
2	http://news.163.com/	3	http://cn.news.yahoo.com/
4	http://news.sohu.com/	3	http://cn.news.yahoo.com/
4	http://news.sohu.com/	5	http://news.tom.com/
6	http://sounews.ynet.com/shishi/shishi_class.htm	5	http://news.tom.com/
6	http://sounews.ynet.com/shishi/shishi_class.htm	7	http://tv.pchome.net/

8	http://www.enet.com.cn/enews/
8	http://www.enet.com.cn/enews/	9	http://www.enet.com.cn/enews/
10	http://news.chinabyte.com/	9	http://www.enet.com.cn/enews/
10	http://news.chinabyte.com/	11	http://www.gov.cn/jrzg/zgyw.htm
12	http://news.hexun.com/	11	http://www.gov.cn/jrzg/zgyw.htm
12	http://news.hexun.com/	13	http://news.china.com/
14	http://msn.ynet.com/	13	http://news.china.com/
14	http://msn.ynet.com/	15	http://www.zaobao.com.sg/
16	http://www.xinhua.org/	15	http://www.zaobao.com.sg/
16	http://www.xinhua.org/	17	http://www.people.com.cn/
18	http://www.ce.cn/xwzx/	17	http://www.people.com.cn/
18	http://www.ce.cn/xwzx/	19	http://www.cet.com.cn/
20	http://news.cctv.com/index.shtml	19	http://www.cet.com.cn/

<2>从数据库的站点列表中读取一条记录，例如http://news.sina.com.cn/。

<3>根据需抓取的链接地址，找出标有当天日期(例如2005-12-6)的信息，并计数(如果需要，可以进入标有“更多”的网页链接，以找全当日所有信息)，例子见图3；

<4>生成用户热点词汇的词典(错误！未找到引用源。给出了一部分，这是由用户给定的)，给出每个热点词汇对应的历史平均词频和历史词频方差。

<5>对于每个网页，计算词典中的每个热点词汇在其中出现了多少次，与前面已经抓取过的网页中所计算的词频相加，存入数据库的原位置。

使用上述步骤，可以抓取并算出所有热点词汇的当日词频。

本例子使用从2003年末至2004年末的互联新闻信息数据。

本发明并不限于抓取互联网新闻文本，可以抓取任何能够反映热点信息的文本，例如论坛文本。

(2)数据预处理

如上得到历史数据之后，下面可以对每天的关键词异常状态进行监测。首先利用中文分词方法借助分词词典(如中科院计算所的海量词典)把当日每篇网页文档进行中文分词，得到该篇网页中的通用词汇。对于每个通用词汇，计算其信息特征值tfidf，即tfidf＝-freq(p，D)/size(D)*log(df(p)/N)，其中：freq(p，D)是通用词汇p在网页D中的出现次数，size(D)是网页D中包含的所有通用词汇的数量，df(p)是当日网页集合中含有通用词汇p的文章的数量，N是当日网页集合中网页的数量。

(3)关键词自动选取

将当日抓取的网页中的所有通用词汇按照其tfidf值的大小排序，然后与用户给定的热点词汇词典进行比较，删去没有出现在用户词典中的单词，从而形成备选关键词表。然后对照备选关键词表，从当日抓取的每个网页文档中选取tfidf值最大的10个关键词，合并得到当日关键词集合，如表2所示。

表22004年8月16日的关键词表

词汇	伊拉克	爆炸	美军	...	教育	资源	奥运会	台湾	银行
词汇	伊拉克	爆炸	美军	...	教育	资源	奥运会	台湾	银行	tf*idf	.015672	.012761	.008559	...	.005939	.005932	.005596	.004896	.004132

(4)计算关键词权重

在当日抓取的网页集合中对当日关键词集合中的所有关键词进行累积求和，统计出每个关键词的当日词频fi，并按照当日词频从小到大将所有当日关键词排序，方便按照词频大小顺序进行权重的计算过程，i＝1时fi最小。

根据每个关键词的互联网词频的历史数据，计算历史均值μi、历史波动率σi(不管频率升降，我们定义波动率均取词频变化率的绝对值，即波动率永远为正数)。然后计算关键词的权重。关键词ti的权重

Wi = q_{i} / Σ_{i = 1}^{M} q_{i},

其中qi＝1/(cein(σi))，i＝1，...，M，cein()是上取整函数。(见错误！未找到引用源。)

(5)计算关键词的异常阀值

对于关键词ti，计算其异常阀值σi’＝σi+c(wi/w1)，i＝1，...，M。这里默认的常数c为15，由用户根据经验给出，代表词语异常阀值的膨胀。

可以看到，对于不常见词汇ti，σi’≈σi+c；而对于最常见词汇，σi’≈σi；对于普通的词汇，其异常阀值在σi和σi+c之间平滑过渡(见错误！未找到引用源。)。

(6)关键词异常程度检测以及图形化显示

计算关键词的偏移度θi’＝(fi-μi)/σi’，i＝1，...，M。

然后按照图4所示的折线函数测每个关键词的异常度θi。结果如错误！未找到引用源。所示。

最后，异常度θi＞90分的关键词认为是发生了异常变化。同时，可以将所有关键词的异常度得分以图2所示的图形方式显示，便于用户观察其得分。

表32004年8月16日的关键词各属性值及其异常度指标

词汇	当日词频	历史均值	历史方差	权重	异常阀值	偏移度	异常度
词汇	当日词频	历史均值	历史方差	权重	异常阀值	偏移度	异常度	伊拉克	108	72.75	36.99097	0.005504	46.99097	0.750144	7
爆炸	2	21.6	15.93542	0.012727	39.06042	-0.50179	0	伊拉克	108	72.75	36.99097	0.005504	46.99097	0.750144	7
爆炸	2	21.6	15.93542	0.012727	39.06042	-0.50179	0	美军	60	34.9	20.70418	0.009697	38.32323	0.654955	6

...	...	...	...	...	...	...	...
...	...	...	...	...	...	...	...	教育	101	37.2	16.14899	0.011979	37.9137	1.682769	64
资源	37	22.8	17.08389	0.011313	37.63945	0.377264	3	教育	101	37.2	16.14899	0.011979	37.9137	1.682769	64
资源	37	22.8	17.08389	0.011313	37.63945	0.377264	3	奥运会	160	41.375	25.09189	0.007832	39.32266	3.016708	99
食品	19	9	12.729	0.015665	41.19053	0.242774	2	奥运会	160	41.375	25.09189	0.007832	39.32266	3.016708	99
食品	19	9	12.729	0.015665	41.19053	0.242774	2	台湾	105	46.45	27.32155	0.007273	40.53584	1.444401	45
银行	43	24.9	24.92628	0.008146	39.72628	0.455618	4	台湾	105	46.45	27.32155	0.007273	40.53584	1.444401	45
银行	43	24.9	24.92628	0.008146	39.72628	0.455618	4	贷款	27	9.45	8.173518	0.022627	49.28463	0.356095	3
西部	19	8.25	6.796552	0.029091	59.65369	0.180207	1	贷款	27	9.45	8.173518	0.022627	49.28463	0.356095	3
西部	19	8.25	6.796552	0.029091	59.65369	0.180207	1	高考	19	5.95	6.984899	0.029091	59.84204	0.218074	2
...	...	...	...	...	...	...	...	高考	19	5.95	6.984899	0.029091	59.84204	0.218074	2
...	...	...	...	...	...	...	...	中国队	21	25.05	28.95143	0.007022	41.71005	-0.0971	0
比赛	116	52.4	52.48914	0.003842	59.47027	1.069442	15	中国队	21	25.05	28.95143	0.007022	41.71005	-0.0971	0

图2所示的图形方式下，按照图形条的长度，通过查一个20个长度和20个颜色一一对应的表，来决定其应该绘制的颜色。图形条表示关键词的异常程度，图形条越长，表示互联网词频的异常程度越大。

图中可以看出，关键词“奥运会”发生了显著的异常变化，为大红色；关键词“教育”也有异常变化，为橘红色；而关键词“伊拉克”虽然词频的绝对值较高，但是由于词频变化较小，没有超出阀值，所以不认为发生了异常变化。

(7)报警

当图形条长度超过或等于L/2(这时颜色较偏红，例如为大红色和橙色)时，即达到或超过报警线时，系统向用户报警。

本发明的有效性评价：

本发明中采用一个测试集合来评价本发明的有效性，这个集合取自各个门户网站的新闻和消息，为表现热点事件的关键词出现异常的全面情况，选用的事件涵盖了多个领域。

评价热点词汇的选择是否正确，以及这些热点词汇的正确率多高需要一个参照标准，当前还没有一个客观的全面的标准来进行评价，对于这种情形，本发明根据这些门户网站上的信息分布，预先采用人工的方式确定一个热点词汇的参照表(由于随着时间变动，该热点词汇表也是不断变化的，每天都可能改变)的方式来进行。

目前在信息检索领域，用于评价词汇提取性能的最常用指标是召回率(Recall)和查准率(Precision)，在本发明的有效性评价中，采用这两个指标来进行，分别定义为：

P＝(获取的符合条件的热点词数目)/(获取的词汇总数目)

R＝(获取的符合条件的热点词数目)/(热点词汇表中词数目)

两个指标分别从不同侧面刻画了性能的好坏。

测试首先是获取数据集合，文档时间范围为2004年8月1日至2004年8月16日，选取的地点来自前面错误！未找到引用源。所列举的网站。

采用本发明所介绍的第一步方法来获取网页数据，并保存于本地供进一步评测使用，测试文档集合详细情形参见附错误！未找到引用源。所示，列出了成功获取的文档篇数、词数以及文档大小。获取数据的同时，对文档进行了中文分词处理，分词基于中科院计算所的海量词典进行，后面的统计计算是基于分词后的结果。

表42004年8月1日至2004年8月16日的测试集合

日期	文档数量	集合大小	总用词数	消重后总词数
日期	文档数量	集合大小	总用词数	消重后总词数	20040801	242	302,582bytes	72141	10289
20040802	311	586,180bytes	143316	14812	20040801	242	302,582bytes	72141	10289
20040802	311	586,180bytes	143316	14812	20040803	195	374,591bytes	91595	11027
20040804	332	671,684bytes	162834	15998	20040803	195	374,591bytes	91595	11027
20040804	332	671,684bytes	162834	15998	20040805	207	385,729bytes	92733	11383
20040806	305	595,104bytes	144207	15074	20040805	207	385,729bytes	92733	11383
20040806	305	595,104bytes	144207	15074	20040807	283	447,607bytes	107764	12694
20040808	269	428,878bytes	103720	12893	20040807	283	447,607bytes	107764	12694
20040808	269	428,878bytes	103720	12893	20040809	367	762,034bytes	186284	17163
20040810	344	670,417bytes	161539	16075	20040809	367	762,034bytes	186284	17163
20040810	344	670,417bytes	161539	16075	20040811	359	627,811bytes	152953	15242
20040812	357	684,667bytes	166526	16451	20040811	359	627,811bytes	152953	15242
20040812	357	684,667bytes	166526	16451	20040813	348	600,706bytes	145480	15381
20040814	317	490,444bytes	118125	13032	20040813	348	600,706bytes	145480	15381
20040814	317	490,444bytes	118125	13032	20040815	320	495,136bytes	119087	14192
20040816	360	706,954bytes	170695	16486	20040815	320	495,136bytes	119087	14192

针对该段时间的关键词异常度检测获得的异常度结果如错误！未找到引用源。所示，当日的异常度依赖于前面的历史词频和波动变化。

表52004年8月1日至2004年8月16日部分关键词异常度

	伊拉克	爆炸	美军	教育	银行	...	奥运会	恐怖	资源	台湾
	伊拉克	爆炸	美军	教育	银行	...	奥运会	恐怖	资源	台湾	20040801	99	68	25	3	0	-	0	2	1	0
20040802	93	20	25	6	3	...	0	4	3	6	20040801	99	68	25	3	0	-	0	2	1	0
20040802	93	20	25	6	3	...	0	4	3	6	20040803	7	0	28	7	1	...	0	5	3	62
20040804	95	6	7	86	82	...	90	4	45	95	20040803	7	0	28	7	1	...	0	5	3	62
20040804	95	6	7	86	82	...	90	4	45	95	20040805	3	1	3	4	0	...	9	5	7	1
20040806	24	2	5	29	1	...	5	96	7	30	20040805	3	1	3	4	0	...	9	5	7	1

20040807	93	6	49	63	72	...	2	5	2	14
20040807	93	6	49	63	72	...	2	5	2	14	20040808	92	3	7	2	4	...	2	15	1	26
20040809	66	8	16	59	2	...	99	21	59	6	20040808	92	3	7	2	4	...	2	15	1	26
20040809	66	8	16	59	2	...	99	21	59	6	20040810	17	0	0	78	1	...	92	3	5	93
20040811	3	4	5	9	3	...	7	2	5	33	20040810	17	0	0	78	1	...	92	3	5	93
20040811	3	4	5	9	3	...	7	2	5	33	20040812	87	9	95	41		...	86	8	3	94
20040813	4	7	1	7	99	...	99	8	1	90	20040812	87	9	95	41		...	86	8	3	94
20040813	4	7	1	7	99	...	99	8	1	90	20040814	0	0	6	0	0	...	96	2	1	0
20040815	82	0	32	0	0	...	91	5	0	0	20040814	0	0	6	0	0	...	96	2	1	0
20040815	82	0	32	0	0	...	91	5	0	0	20040816	7	0	6	64	4	...	99	0	3	45

在错误！未找到引用源。中，该段时间每日的关键词异常度随着相应词频的历史均值和历史方差变动，在这段时间内，可以观察到热点词汇的异常变化与历史均值和方差之间的关系，以测试文档头一天的异常度数据为例，在此前未有历史均值和方差的基础上，该天的异常度数据可能说明不了什么问题，仅仅只是在tf*idf值的基础上，更多的以词频本身来体现当天的热点词汇，词频大的，比如“伊拉克”，异常度为99，该天的词频数量为155，占有很大的比重，只能说明在该天的出现次数较多，等到隔一周时间之后，该词的词频145虽然还是很大，但异常度就只有66，未达到异常报警限。

平常词频均值较小的词语，如“奥运会”，在测试文档第一天的数据中，异常度为0，词频数目8很小，但是到三天之后，虽然词频仅有67，但是异常度已经达到90了。主要是由于词频的历史数据较大波动率所致。而这与根据当天文档信息所产生的热点词表符合度是较高的，在后面的错误！未找到引用源。数据分析中会进一步予以说明。

针对热点词汇的提取，首先是对词频的统计，计算其tf和idf的值，根据得到的tf*idf特征，预先提取相应特征词汇，这个过程获得词汇与我们提供的关键词有个比较过程，用以验证前期提取关键词的效果。

在利用tf*idf值进行关键词自动选取之后，得到的数据如错误！未找到引用源。所示。

表62004年8月1日至2004年8月16日部分关键词tf*idf值

	伊拉克	爆炸	美军	教育	银行	...	奥运会	恐怖	资源	台湾
	伊拉克	爆炸	美军	教育	银行	...	奥运会	恐怖	资源	台湾	20040801	.0151	.0070	.0051	.0023	.0005	...	.0007	.0018	.0016	.0008
20040802	.0080	.0032	.0035	.0030	.0040	...	.0011	.0023	.0023	.0057	20040801	.0151	.0070	.0051	.0023	.0005	...	.0007	.0018	.0016	.0008
20040802	.0080	.0032	.0035	.0030	.0040	...	.0011	.0023	.0023	.0057	20040803	.0041	.0005	.0043	.0030	.0007	...	.0008	.0024	.0018	.0055
20040804	.0079	.0018	.0019	.0049	.0046	...	.0095	.0015	.0044	.0059	20040803	.0041	.0005	.0043	.0030	.0007	...	.0008	.0024	.0018	.0055

20040805	.0033	.0012	.0018	.0020	.0007	...	.0041	.0025	.0028	.0016
20040805	.0033	.0012	.0018	.0020	.0007	...	.0041	.0025	.0028	.0016	20040806	.0050	.0011	.0019	.0035	.0007	...	.0020	.0082	.0022	.0038
20040807	.0102	.0025	.0050	.0054	.0054	...	.0017	.0023	.0014	.0042	20040806	.0050	.0011	.0019	.0035	.0007	...	.0020	.0082	.0022	.0038
20040807	.0102	.0025	.0050	.0054	.0054	...	.0017	.0023	.0014	.0042	20040808	.0105	.0017	.0031	.0016	.0019	...	.0016	.0040	.0012	.0047
20040809	.0067	.0024	.0031	.0042	.0012	...	.0200	.0032	.0041	.0026	20040808	.0105	.0017	.0031	.0016	.0019	...	.0016	.0040	.0012	.0047
20040809	.0067	.0024	.0031	.0042	.0012	...	.0200	.0032	.0041	.0026	20040810	.0049	.0024	.0017	.0052	.0011	...	.0070	.0019	.0020	.0067
20040811	.0037	.0020	.0023	.0035	.0016	...	.0034	.0017	.0021	.0047	20040810	.0049	.0024	.0017	.0052	.0011	...	.0070	.0019	.0020	.0067
20040811	.0037	.0020	.0023	.0035	.0016	...	.0034	.0017	.0021	.0047	20040812	.0078	.0009	.0065	.0043	.0005	...	.0067	.0029	.0018	.0071
20040813	.0046	.0025	.0018	.0034	.0079	...	.0109	.0032	.0016	.0071	20040812	.0078	.0009	.0065	.0043	.0005	...	.0067	.0029	.0018	.0071
20040813	.0046	.0025	.0018	.0034	.0079	...	.0109	.0032	.0016	.0071	20040814	.0040	.0012	.0035	.0021	.0012	...	.0097	.0025	.0017	.0004
20040815	.0092	.0012	.0048	.0027	.0020	...	.0075	.0029	.0005	.0023	20040814	.0040	.0012	.0035	.0021	.0012	...	.0097	.0025	.0017	.0004
20040815	.0092	.0012	.0048	.0027	.0020	...	.0075	.0029	.0005	.0023	20040816	.0157	.0128	.0086	.0059	.0041	...	.0055	.0014	.0060	.0049

可以看到，关键词选取过程中的tf*idf值的大小并不能完全说明关键词的热度，以错误！未找到引用源。中的2004年8月16日关键词tf*idf值为例，对比错误！未找到引用源。中的异常度可以看到，“奥运会”的异常度99在当天为最大，但是tf*idf值0.0041却排在好几个词之后。

在接下来的步骤中，采用本发明所述的方法检测并提取热点词汇，得到的提取效果如表7所示。

表7基于统计异常度提取热点词汇的结果

单日	平均准确率	平均召回率
单日	平均准确率	平均召回率	20040801	0.686641536	0.465080343
20040802	0.692661	0.402397086	20040801	0.686641536	0.465080343
20040802	0.692661	0.402397086	20040803	0.6220188	0.481478064
20040804	0.7518346	0.58748368	20040803	0.6220188	0.481478064
20040804	0.7518346	0.58748368	20040805	0.7926606	0.52531332
20040806	0.8825684	0.567693	20040805	0.7926606	0.52531332
20040806	0.8825684	0.567693	20040807	0.81027584	0.63876715
20040808	0.7750464	0.599780186	20040807	0.81027584	0.63876715
20040808	0.7750464	0.599780186	20040809	0.83807388	0.67579401
20040810	0.85889964	0.701615432	20040809	0.83807388	0.67579401
20040810	0.85889964	0.701615432	20040811	0.81146836	0.645256038
20040812	0.8091744	0.630898944	20040811	0.81146836	0.645256038
20040812	0.8091744	0.630898944	20040813	0.85577976	0.698546352
20040814	0.7513766	0.685936876	20040813	0.85577976	0.698546352
20040814	0.7513766	0.685936876	20040815	0.75486213	0.66625091
20040816	0.80788981	0.72581074	20040815	0.75486213	0.66625091

热点词汇的提取，在基于前面的tf*idf值的选取范围之内，根据词频历史均值和历史方差，对词汇进行重要性排序，按照异常度打分的机制，选取最终的热点词汇。由于网上获取的文档没有给出关键词，也没有较客观的现成标准可以用来对照，对于本发明的验证我们通过手工建立的热点关键词词典，进而与提取词汇进行比较。

对于按照本发明的方法找出来的热点词汇，也即经检测发现的异常度较大的关键词，其对于文档的查准率和查全率从错误！未找到引用源。中可以看到，本发明中的热点词汇检测方法是建立在关键词提取基础上的，是对关键词中的热点词汇的发现，因此关键词提取的全面性会影响到热点词汇的发现。本发明的效果验证过程，某个词汇在一段时间成为异常度较高的词汇，如果异常度持续保持较高，对于其词频的增长是个较强的递增过程，通过错误！未找到引用源。中的tf*idf体现出词汇出现频度的变动；同时在一段时间内，某个词汇异常度一直为较低，会在出现一个较为可观的变动后，异常度开始走高(如“奥运会”，在本发明中的测试数据集中，以13日为分界线，此前异常度一直不是很大不足5.0，异常度开始变为较大异常90以上)；同时异常度在起初较大，到后来随着时间变化逐渐异常度减低(如伊拉克，在测试数据开始阶段，从6-9日异常度均值83.7，逐渐变为不到10)，可以从错误！未找到引用源。中看出部分词汇异常度的走势。

可以观察到，错误！未找到引用源。中涉及的热点词提取的查准率是较高的，初始第一天的数据，由于历史数据波动尚未考虑，查准率较低，包括第二、三天也是历史波动不太明显，在此后的几日数据有了历史波动的参照和修正，可以发现查准率均在75％以上，最高达89％(均值为78.13％)，说明按照本发明的方法提取的热点词汇中的大部分符合热点词表的词汇，提取的结果比较准确。

在错误！未找到引用源。中，召回率表示按照本发明方法进行热点词发现的词占热点词表比例，本发明所提供的热点词评价词典是人工产生的，每天的词典不同，词数也有差异，都是根据当天以及前些天的网上信息得出，由于在本次信息的提取中涉及到的样本数量比较有限，加上在关键词自动选取中根据tf*idf的大小选取词数较少，验证中的召回率不是太高(均值为60.61％)。该处不足可以通过扩大样本集合，并且增加关键词自动选词数目来进行提高。此处只是简单的效果验证，在实际的应用中使用的样本数量远远大于此处的测试集合，而且实现中就不再仅限于按照tf*idf值提取当天10个词语作为关键词，可根据需要扩大这个范围，以免漏掉一些tf*idf值偏小但是有可能是热点词汇的词语，通过实际应用大规模数据集和大量提取关键词的方式，可相应提升召回率。

按照我们的方法，检测出的热点词汇效果进行评价打分，根据错误！未找到引用源。中的查准率和召回率数值来综合比较，可作为评价热点词汇的一个较为客观的参考数据，打分的准确性由这两个指标数值进行综合评价，据了解目前在中文的热点词检测方面并没有同类的方法，本发明的提出具有原创性，我们对该处两个指标值的评价就只能从专利的效果自身来进行。考查从1日到16日的查准率和召回率数值变化看来，初始第一天的查准率和召回率指标均不高，而且差异较大(查准率68％，召回率46％)，在其后的几日，通过与人工热点词表的对照比较，综合了历史词频的波动，查准率和召回率都有所回升，比如在2004年8月13-16日的热点词表中，基于历史波动，对“奥运会”词频的增长做出了很好的判断，并能正确的做出预警提示，对于此段时间的其他热点词汇，平均查准率达79.2％，平均查全率为69.4％，考虑历史波动的累积对评价指标值的提升有一定效果。

在本发明方法的效果评价过程中，我们更多的依靠人的主观常识判断生成的热点词汇作为标准，可能会在一定程度上影响评价效果的客观性，但是由于目前没有现成的中文热点词表标准作为参照，作为热点词汇的检测方法效果的体现，暂时只能以人工标准作为比对，就某领域的重大事件而言，我们选取的热点词是基于主要门户网站的信息，相对也是比较客观的，从目的上来说它也适应作为实际应用的参考。

进一步的我们对提取的一段时间的热门词，对照了某搜索网站搜集并总结的以周为单位的时间段内热门事件(从2004年8月1日到8月16日两周时间)，对比结果如表8所示。

表8本发明的热点词汇与某搜索引擎的热门事件关键词

分类	本发明热点词汇累计	某搜索引擎热点事件关键词	标准词表累计
分类	本发明热点词汇累计	某搜索引擎热点事件关键词	标准词表累计	时间段	20040801-20040816	20040801-20040816	20040801-20040816
词例	奥运会、房地产、汇率、伊拉克、人民币、股改、环保、通货膨胀、世界杯、恐怖、巴勒斯坦、台湾、教育、银行、比赛、爆炸、中国队等等	比赛、希腊、中国队、奥运会、金牌、伊拉克、美军、恐怖、加沙、电信、纳杰夫、奥林匹克、教育、飞机、巴勒斯坦、援助、资源、航空、开幕式、录取、影片、人民币、禁赛、纪录、体育场等等	台湾、飞机、伊拉克、美军、比赛、中国队、奥运会、教育、航空、恐怖、体育场、纳杰夫、海军、奥委会、联合国、希腊、阿富汗、战争、资源、武器、金牌、核武器、影片、食品、石油、好莱坞、市政等等	时间段	20040801-20040816	20040801-20040816	20040801-20040816
词例				总词数	160	196	210

符合标准词数	125	138	--
符合标准词数	125	138	--	平均召回率	0.59524	0.65714	--
平均查准率	0.78125	0.70408	--	平均召回率	0.59524	0.65714	--

因为该搜索网站搜集的这些信息都是以消息标题形式呈现，并且列出的是一段时间的信息，没有具体针对某一天的事件，我们针对这些事件提取了关键词，同时列出了该段时间内我们的方法发现的热门词信息。以前面每天手工产生的热门词表的累积为标准来进行一下比较，仍然按照前面定义的方式，经过统计计算，可以看到该搜索引擎在该段时间内获取的信息平均查准率为69.27％，平均召回率为63.3％；相应的，对于一段时间的统计结果，本发明验证的平均查准率73.75，召回率56.19％。从这两样指标的数值看来，本次测试中方法的平均召回率不及该搜索引擎的指标，但是查确率却稍稍领先，可能是受到此处验证使用的人工标准热点词表的影响，但是这里的差异都不是太大。

错误！未找到引用源。中的数据对比可以看出，本发明具有较高的平均查准率，原因主要是因为较好地抓住了“热点词汇在某一特定时间点相较于自身历史回溯忽增的特点”，与此同时，另一方面本发明显示出较低的平均召回率，这一特性又说明热点词汇还有其他特点本发明没有概括进去。这样，综合看来，本发明适合的用户包括：那些比较挑剔结果正确率，满足于找出当天大部分热点词汇，而对于个别未能找到的热点词汇不太在意的人群，包括：时间紧张的政府领导人、风险投资家等等。

Claims

1.一种对互联网信息进行异常状态监测的方法，所述的方法是结合用户关注的热点词汇词典，对用户关注的互联网信息进行异常状态的监测，其特征在于，包括以下步骤：

(1)获取通用词汇在当日互联网页中出现的当日词频数据，并存入数据库；：

(2)结合用户关注的热点词汇词典，确定每篇网页的当日关键词，合并所有网页的当日关键词，得到互联网信息的当日关键词集合{ti，i＝1……M}，M为当日关键词表中的关键词个数；

(3)确定当日关键词的权重：

根据每个当日关键词ti的互联网词频的历史数据，计算其历史均值μi、历史波动率σi，波动率为词频变化率的绝对值；定义qi＝1/(cein(σi))，cein()是上取整函数，当日关键词ti的权重

wi = q_{i} / Σ_{i = 1}^{M} q_{i},

i＝1时对应当日词频fi最小的当日关键词；

(4)确定当日关键词的异常阀值：

对于当日关键词ti，定义其异常阀值为σi’＝σi+c(wi/w1)，其中c是用户根据经验来给出的一个常数，代表词语异常阀值的膨胀；

(5)检测当日关键词的异常程度并确定当日热点互联网信息：

2.如权利要求1所述的自动监测方法，其特征在于，所述步骤(1)中通用词汇的当日词频数据是按照如下方法得出：

(1.1)给定欲抓取的互联网站点列表并存入数据库之中；

(1.3)累加每一个通用词汇在数据库中所有站点列表中的词频数，得到该通用词汇的当日词频数据。

3.如权利要求1所述的对互联网信息进行异常状态监测的方法，其特征在于，所述步骤(2)中确定当日每篇网页的关键词的方法如下：

(2.1)对于每篇网页中的每个通用词汇，按照如下公式计算其信息特征值tfidf，即tfidf＝-[freq(p，D)/size(D)]*[log(df(p)/N)]，其中：freq(p，D)是通用词汇p在网页D中的出现次数，size(D)是网页D中包含的所有通用词汇的数量，df(p)是当日网页集合中含有通用词汇p的文章的数量，N是当日网页集合中网页的数量；

4.如权利要求1所述的自动监测方法，其特征在于，所述的方法进一步包括如下步骤：定义每个当日关键词的异常度θi，当-∞＜θi’＜0时，θi＝0；当0≤θi’＜1时，θi＝floor(10θi’)，其中floor()是下取整函数；当1≤θi’＜2时，θi＝floor(80(θi’-1))+10；当2≤θi’＜3时，θi＝floor(9(θi’-2))+90；当3≤θi’＜+∞时，θi＝99；当当日关键词ti的异常度θi＞90时，认为该关键词发生异常变化，该关键词所属的互联网信息为当日突发的热点信息。

5.如权利要求4所述的自动监测方法，其特征在于，所述的方法进一步包括如下步骤：将所有当日关键词的异常度得分进行图形化显示。

6.如权利要求4或5所述的自动监测方法，其特征在于，所述的方法进一步包括如下步骤：当当日关键词ti的异常度θi＞90分时，向用户报警。