CN101645066A

CN101645066A - 一种互联网新颖词监测方法

Info

Publication number: CN101645066A
Application number: CN200810117821A
Authority: CN
Inventors: 王超; 梁循
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2008-08-05
Filing date: 2008-08-05
Publication date: 2010-02-10
Anticipated expiration: 2028-08-05
Also published as: CN101645066B

Abstract

本发明公开了一种互联网新颖词监测方法，属于互联网信息挖掘领域。本发明方法包括下列步骤：根据目标信息源集合，获得其中各个首页及其内部链接所指向的各级下级页面中当日的所有文章；对各个文章作分词处理，并为各个文章中的每个词语赋予权重，以权重最大的前a个词语作为该文章的备选新颖词，并以该备选新颖词同时成为多个文章的备选新颖词时的文章数作为该词当天的频率freq；根据各个备选新颖词在b天内的freq记录计算各个备选新颖词的新颖系数n；根据新颖系数n确定新颖度θ，当某个备选新颖词的新颖度大于新颖度阈值θ_t时，即认为该词语是当天的新颖词。本发明方法可以有效地发现当天的新颖词汇，指导互联网新信息发现和监管的实践。

Description

一种互联网新颖词监测方法

技术领域

本发明涉及一种互联网新颖词监测方法，属于互联网信息挖掘领域。

背景技术

随着网络日益成为人们发布信息、沟通信息的主要媒体，网络已逐渐成为一个多元化的信息平台。在这个平台上，既有官方的新闻，也有小道的消息。如何在第一时间把握这些消息，并且把握人们对这些消息的看法，寻找人们关注的新焦点和新热点，就成为一个自然的需求了。不论是普通用户还是行业专家都希望有一个自动化的工具或者方法帮助他们实时地跟踪他们所关注的领域的最新热点话题或者新闻，进而了解该领域的最新进展。

不难发现，在一般情况下，某个关键词突然大量集中出现往往意味着某个热点新闻或者热点事件的发生，而当发生了被广泛关注的新闻或事件时，又会在网络上集中出现大量的带有相应关键词的文本。因此，互联网文本中相应关键词的数量的较大变化常常反映了社会热点新闻或事件的出现或降温，而网络上反映热点新闻或事件的文本又会进一步推动广大网民对于热点新闻和事件的关注程度和看法。也就是说，异常高的关键词词频和新出现的显著的热点新闻和事件有一定的耦合关系。信息熵是计算语言学中一种用来表达信息所包含的信息量的一个指标。在本发明中，我们通过信息熵来度量关键词的新颖程度。本发明对于网络监管机构、关注社会热点新闻和事件的机构来说，是非常有价值的自动监控新事件发生及群众对事件反应的工具。

以下讨论的关于词的方法，均指关键词。

不同词有不同的出现词频，其信息熵的大小不仅与当日的词频有关，更与其一段时间内的词频变化有关。比如在某日，不同出现词频的词的相同出现次数有不同含义。对于一个使用频率很高的词来说，词频的历史均值和历史标准差都很大，例如，分别是500次/天和350次/天。如果在某一天，其互联网频率增加了300次，变成了800次，即增加了大约1倍，那么一般仍然很正常；但是，如果其互联网频率变成了1200次，即增加了大约2倍，就会预示着发生了相应的热点新闻或事件了。

而对一个频率比较低的词，平均日互联网出现频率及其标准差很小，例如，分别是20次和15次。如果在某一天，其互联网频率增加了30次，变成了50次，即增加了大约1倍多，那么一般仍然很正常；但是，如果在某一天，互联网上该词的信息量增加了300次，变成了320次，则预示出现了相应的热点事件或新闻。

也就是说，同样是增加300次，对高频词说，仍然正常；而对低频词来说，则说明出现了新事件，则该词可以定义为当天的“新颖词”。以上说明对具有不同词频的词的度量，标准是不同的。

对于低频词，上述的300次出现次数称为新颖高的词频增加量。我们的主要目标是检测异常高的词频增加量，通过信息熵的度量，进而监控并预测网络热点信息的出现或降温，以及进行必要的报警。

Khoo K.B.等人于2001年提出了一种跟踪热点话题的方法，对一些定点的网站或者网页定期统计一些关键词项(term)的词频，并利用tfidf公式计算每个term的当前权重，并从中得到当前的热点话题(topic)(Khoo K.B.，Mitsuru I.Emerging Topic Tracking System.Advanced Issues of E-Commerce and Web-Based Information Systems，WECWIS 2001，ThirdInternational Workshop on.2-11.2001.)。其贡献之处在于，给出了一种标准化的公式来计算每个term的当前权重，随着时间的变化，这个权重也会随之变化，从而反映出互联网信息热点的变化情况。利用该方法的主要缺点在于，没有考虑每个term的历史，因此无法根据每个词的信息熵对异常的热点信息进行准确的度量，只能对各个term进行横向的比较。

发明内容

本发明的目的在于克服现有技术中存在的问题，提供一种基于信息熵的互联网新颖词监测方法。

本发明针对互联网上的某个领域，对其相关词汇的频率变化进行监测，计算关键词的信息熵，从而描述该词的新颖度，并确定其是否为新颖词，进而对新颖词进行图形化显示。同时，对这些新颖词进行持续性的观测，即连续对该词所代表的新事件进行“热点关注”。所以，本发明包括对“新颖词”的发现及追踪两部分组成。发现主要基于信息熵，来寻找到事件的突发点，随后通过对其出现的频数变化，保持对其的追踪。由于通常互联网信息数量庞大，本发明的图形输出方式实质上是给出了一个总结性信息，从而提高了发现新话题信息的效率。对网络监管部门来说，本发明可以提供一个及时的热点信息观察窗口，尽早发现那些新发生的事件，并对其进行追踪，了解事态的变化及群众对其的看法。此外，根据本方法，可以从互联网角度，对热点信息和事件的变化情况进行监控和预测，并可以相当地准确向用户报警。

总的来说，本发明技术方案可包括以下内容：输入领域关键词从而确定相关领域网站，抓取相关网站上的信息，计算当天的备选新颖词，通过信息熵得到当天新颖词，新颖词图形化显示，新颖词的持续跟踪及对其原文的查看(见图1)。

具体来说：

<1>确定相关领域网站

互联网涵盖的领域很广，只有对相关领域的新颖词进行监测，才会使得结果更有意义。确定相关领域网站的可按以下步骤进行：

<1.1>输入代表相关领域的关键词，通过搜索引擎得到返回的多个结果(比如，500个)；

<1.2>每个结果可用域名，路径和文件名三部分组成，选取这些结果中出现最频繁的多个域名(比如，50个)作为候选网站首页。注意这里的域名有的是顶级的，有的只是某一子域名，由其涵盖的结果决定；

<1.3>对每个候选首页求两个指标：Outline Ratio(OR)和Content Ratio(CR)这两个指标的定义如下：

OR = \frac{P_{i}}{P_{o}},

其中P_i为该首页上指向其余各个网址的超链接个数，P_o为该首页上所有的出链个数；

CR = \frac{P_{r}}{P_{n}},

其中P_r为该首页下级的页面中，包含搜索领域关键词的页面数，P_n为该首页下包含的所有页面数。

<1.4>把OR值大于其阈值ORt(比如，0.7)并且CR值大于CRt其阈值(比如，0.5)的网站做为种子存入数据库中，这些网址构成了这个领域的信息来源集；

通过上述方法，可以得到某个特定领域的信息来源集。需要提醒的是，互联网的变化发展是很快的，所以这个集合也要注意更新。

当然，如果距离上一次更新所经过的时间较短，则不更新也可；或者本领域信息来源集的变化较小或者已有比较权威的信息来源集，则直接使用这些信息来源集即可，无需进行上述步骤。

<2>抓取相关网站上的信息

得到相关领域的网站集后，按照以下步骤进行其信息内容的抓取：

<2.1>从数据库的站点列表中读取一条网站地址记录；

<2.2>抓取得到该地址的页面，存入数据库的网页信息表中，同时记录抓取时间等相关信息；

<2.3>当该页面有内部链接时，得到该链接地址，返回<2.2>；

<2.4>当页面已经是最后一层时，程序结束；

通过上述步骤，可以得到每天的该领域的互联网上的信息，为进一步数据处理提供了素材，也为后面的用户对新颖词所暗示的事件的察看打下了基础。需要说明的是，本发明方法要求用以上方法积累一段时间的历史数据。

<3>通过信息熵计算当天的备选新颖词

得到当天的所有网页后，我们就可以计算当天的备选新颖词了。按以下步骤进行：

<3.1>对当天存入数据库的网页主体文字进行分词处理，统计每一个词的信息特征值TF，公式如下：

{TF}_{ij} = \frac{freq (i, j)}{num (j)},

其中freq(i,j)表示词语i在文章j中的出现次数，num(j)表示文章j的总词数，TF_ij即词i在文章j中的词频。

<3.2>对每个词求其当天的信息熵值。公式如下：

ENTROPY = 1 - \frac{Σ_{j = 1}^{N} P_{ij} \log_{2} P_{ij}}{\log_{2} N},

其中

P_{ij} = \frac{{TF}_{ij}}{Σ_{j = 1}^{N} {TF}_{ij}}

<3.3>对每篇文章的词计算TF*ENTROPY值，作为其权重，按其大小进行排序，取排名靠前(比如，前二十名)的词语作为该篇文章的备选新颖词；

<3.4>汇总当天出现的所有文章，将每篇文章的备选新颖词取并集，构成当天的备选新颖词，若备选词a在当天的f篇文章中都被列入备选新颖词之列，则该词a的频率就定为f，我们在数据库中记录下该值和所出现的f篇文章编号，以方便后期的跟踪和察看；

通过上述步骤，可以得到当天的备选新颖词。最终的新颖词结果就从这些词中产生。

<4>计算当天新颖词

接下来，我们将使用均值方差模型来评估每一个候选词是否有资格成为当天的新颖词。步骤如下：

<4.1>将当日抓取的网页中的所有单词与用户词典进行比较，删去没有出现在用户词典中的单词；

<4.2>对当天的每一个备选新颖词，按照其在过去一段时间(比如，三十天，以下的计算以30天为例)内记录的频率计算其均值和方差。公式如下：

平均值

avg = \frac{Σ_{i = 1}^{30} freq (i)}{30},

方差

var = \frac{\sqrt{Σ_{i = 1}^{30} {(freq (i) - avg)}^{2}}}{30} .

<4.3>评估每一个备选新词的新颖系数n，公式为：

n = ({freq}_{i} - {avg}_{i}) / \sqrt{ceil ({var}_{i})},

其中ceil()是上取整函数。

<4.4>然后按照下列折线判别函数检测每个关键词的新颖度θi。即，当-∞＜n＜0时，θi＝0；当0≤n＜1时，θi＝floor(10n)，其中floor()是下取整函数；当1≤n＜2时，θi＝floor(70(n-1))+10；当2≤n＜3时，θi＝floor(9(n-2))+80；当3≤n＜4时，θi＝floor(10(n-3))+90，当4≤n＜+∞时，θi＝99。

最后，当关键词ti的异常度θi＞90分时，该词被认定为是新颖词；

通过上述步骤我们就可以得到当天的新颖词汇，将其存入到数据库中。

<5>新颖词的图形化显示

这一步我们将会把得到的新颖词用一种直观的方式表现出来。

整个图形用柱状图显示，柱的长度表示了新颖度的大小(见图3)。同时，还可使其颜色随着新颖度的变化，由绿，黄，橙，红进行变化，以更加直观地体现新颖度差别。

<6>新颖词的持续跟踪及对其原文的查看

用户在看到新颖词的图形化展示后，检测到了哪些词代表了今天的新事件。但仅从词汇还看不出事件的全貌，所以，可以让用户点击新颖词去查看当天出现这些新颖词的新闻(见图4)。此外，用户在识别了一个新事件后，会希望在以后的日子里对其进行关注。

本发明也允许用户持续长时间的关注某一新颖词的频率历史变化(见图5)。

本发明与Khoo等人的技术区别有以下五点。

第一，Khoo等人使用了TFIDF公式来度量关键词项的重要程度，但存在一个问题：在一篇文章中，无论一个词出现了1次还是100次，对IDF值的贡献是相同的。IDF值只考量了在文集中包含词语的文章数目，而没有考虑词语在文集中不同文档的分布变化。同时，大多数的算法中IDF是根据一个大规模的文集静态计算的，这对于时间敏感度高的新闻来说是不利于提取关键词的。所以，本发明使用了信息熵作为当天词汇是否新颖的度量标准。

第二，Khoo等人没有考虑各个term的历史均值和标准差，也没有对高频词和低频词的不同情况进行分别处理的机制，而在本文中发明设计了对不同频率词汇变化的权重度量公式，使用历史均值和历史标准差对词频显著性波动，进行预测。由于每个关键词是否是新颖词在很大程度上依赖于历史上该关键词的频率分布，所以利用历史均值和标准差可以从根本上提高新颖词检测的实际应用效果。

第三，对词频的变化所代表的热点话题的变化，Khoo等人使用term的权重的排位来体现，而本发明通过阀值条件来判断，该阀值除了建立在历史标准差之上，还对高频词和低频词进行区分，并使之更接近实际使用场合。

第四，Khoo等人的技术没有进行图形化显示，不方便实际应用，本发明设计和实现了图形条长度及颜色的显示方法，使用户可以一目了然。

第五，Khoo等人的技术并没有给出对新颖词的持续跟踪和全面了解的方法。本发明中用户可以查看出现新颖词的新闻内容，并且可以持续跟踪新颖词的频率变化，对于研究一个新颖事件的发展全过程有很大的益处。

本发明方法可以有效地发现当天的新颖词汇，并且能够通过图形化的方式对其进行显示，用户还可以通过阅读出现新颖词的新闻来全面地了解新事件的动态，并通过对其的长时间跟踪来对事件持续关注。用户可以通过使用本发明方法对自己关注的领域所发生的新事件在第一时间做出反应，可以指导互联网新信息发现和监管的实践。

举例来说，如果新颖信息为股市热点信息，通过此监控技术，就可以间接地了解宏观经济指标变动、公司财务变化对股价的影响，为决策机关的政策制定提供更多的理论依据。随着互联网的进一步发展和渗透，将会有更多的金融信息通过网络的渠道进行公示，而由于互联网的广泛性和匿名性，很可能成为故意炒作者的利器。从这个意义上说，对互联网金融信息最新的发展变化进行研究还可以帮助金融监督机构有效地实现金融监管，提高信息可信度，打击恶意操作的行为。

对于企业管理者而言，如果可以提前把握互联网金融信息对自身股市行为带来的可能影响，那么势必将更为有效地做出决策，同时也可以及时地对虚假和炒作的金融信息做出回应。

附图说明

图1本发明方法的主要步骤流程图；

图22007-05-30新浪网的新闻分页上的信息；

图32007-05-30日发现的新颖词图形展示；

图45.30当天就“印花税”这一新颖词出现的文章简表；

图5“印花税”在五、六月份的频率变化趋势；

具体实施方式

下面结合具体实施例和附图对本发明作进一步描述。

实施例1

(1)本实施例以金融领域作为目标领域，选择“金融”作为领域关键词进行网站收集，并把收集到的网站列表存入数据库之中，表1给出了其中的一部分。

表1

序号	链接
序号	链接	1	http://finance.sina.com.cn/
2	http://finance.163.com/	1	http://finance.sina.com.cn/
2	http://finance.163.com/	3	http://cn.finance.yahoo.com/
4	http://finance.sohu.com/	3	http://cn.finance.yahoo.com/
4	http://finance.sohu.com/	5	http://finance.tom.com/
6	http://www.jrj.com	5	http://finance.tom.com/
6	http://www.jrj.com	7	http://www.hexun.com.cn
8	http://www.enet.com.cn/finance/	7	http://www.hexun.com.cn
8	http://www.enet.com.cn/finance/	9	http://www.qq.com/finance/
10	http://news.chinabyte.com/	9	http://www.qq.com/finance/
10	http://news.chinabyte.com/	11	http://www.gov.cn/jrzg/zgyw.htm
12	http://news.hexun.com/	11	http://www.gov.cn/jrzg/zgyw.htm
12	http://news.hexun.com/	13	http://news.china.com/
14	http://msn.ynet.com/	13	http://news.china.com/

15	http://www.zaobao.com.sg/
15	http://www.zaobao.com.sg/	16	http://www.xinhua.org/
17	http://www.people.com.cn/	16	http://www.xinhua.org/
17	http://www.people.com.cn/	18	http://www.ce.cn/xwzx/
19	http://www.cet.com.cn/	18	http://www.ce.cn/xwzx/
19	http://www.cet.com.cn/	20	http://news.cctv.com/index.shtml

(2)抓取相关网站上的信息

本例子使用从2006年末至2007年末的互联新闻信息数据。

<2.1>从如表1中的数据库的站点列表中读取一条网站地址记录，比如http://finance.sina.com.cn；

<2.2>抓取得到该地址的页面，存入数据库的网页信息表中，同时记录抓取时间等相关信息，例子见图2；

<2.3>当该页面有内部链接时，得到该链接地址，返回<2.2>；

<2.4>当页面已经是最后一层时，程序结束；

本发明并不限于抓取互联网新闻文本，可以抓取任何能够反映热点信息的文本，例如论坛文本。

(3)通过信息熵计算当天的备选新颖词

选取2007.5.30日作为实验点。在得到当天的所有网页后，计算当天的备选新颖词了。按以下步骤进行：

{TF}_{ij} = \frac{freq (i, j)}{num (j)},

其中freq(i，j)表示词语i在文章j中的出现次数，num(j)表示文章j的总词数，TF_ij即词i在文章j中的词频。

<3.2>对每个词求其5.30当天的信息熵值。公式如下：

ENTROPY = 1 - \frac{Σ_{j = 1}^{N} P_{ij} \log_{2} P_{ij}}{\log_{2} N},

其中

P_{ij} = \frac{{TF}_{ij}}{Σ_{j = 1}^{N} {TF}_{ij}}

<3.3>对每篇文章的词计算TF*ENTROPY值，作为其权重，按其大小进行排序，取前二十名为该篇文章的备选新颖词；

<3.4>汇总当天出现的所有文章，将每篇文章的备选新颖词取并集，构成当天的备选新颖词，若备选词a在当天的f篇文章中都排前二十，则该词a的频率就定为f，在数据库中记录下该值和所出现的f篇文章编号，以方便后期的跟踪和察看；

表2列出了一部分2007-5-30号当天的候选新颖词列表。

表2

词汇	印花税	基金	美元	…	股份公司	犯罪	左晓蕾	充足率	格林
词汇	印花税	基金	美元	…	股份公司	犯罪	左晓蕾	充足率	格林	TF*ENTROPY	32.5	23.6	12.5	3.2	11.3	4.2	4.3	7.5
频率值	77	55	34	…	4	17	5	5	6	TF*ENTROPY	32.5	23.6	12.5	3.2	11.3	4.2	4.3	7.5

(4)计算当天新颖词

<4.2>对当天的每一个备选新颖词，按照其在过去三十天内记录的频率计算其均值和方差，公式如下：

平均值

avg = \frac{Σ_{i = 1}^{30} freq (i)}{30},

方差

var = \frac{\sqrt{Σ_{i = 1}^{30} {(freq (i) - avg)}^{2}}}{30} .

<4.3>评估每一个备选新词的新颖系数n，公式为：

n = ({freq}_{i} - {avg}_{i}) / \sqrt{ceil ({var}_{i})},

其中ceil()是上取整函数。

<4.4>然后按照下列折线判别函数检测每个关键词的新颖度θi。也就是说，当-∞＜n＜0时，θi＝0；当0≤n＜1时，θi＝floor(10n)，其中floor()是下取整函数；当1≤n＜2时，θi＝floor(80(n-1))+10；当2≤n＜3时，θi＝floor(9(n-2))+70；当机立3＜n＜4时，θi＝floor(7(n-3))+90当4≤n＜+∞时，θi＝99。

最后，当关键词ti的异常度θi＞90分时，该词被认定为是新颖词。表3给出了部分备选新颖词的新颖度计算过程。

表3

词汇	当日词频	历史均值	历史方差	新颖系数	新颖度
词汇	当日词频	历史均值	历史方差	新颖系数	新颖度	延边	13	0.334	1.575	5.089	99
印花税	77	1.9178	44.722	5.037	99	延边	13	0.334	1.575	5.089	99
印花税	77	1.9178	44.722	5.037	99	美元	34	23.86	295.44	0.82	6
…	…	…	…	…	…	美元	34	23.86	295.44	0.82	6

(5)新颖词的图形化显示

图3所示的图形方式下，按照图形条的长度，通过查一个20个长度和20个颜色一一对应的表，来决定其应该绘制的颜色。图形条表示关键词的新颖程度，图形条越长，表示该词的新颖度越大。

图中可以看出，关键词“印花税”的新颖度非常高(且颜色为大红色，图中未显示)，说明今天一定发生了某种与之相关的新事件，而实际上，当天确实是证监会宣布上调印花税的时候；关键词“延边”的新颖度也很高，因为当天有关于延边借壳上市违规的报道。而关键词“美元”虽然词频的绝对值较高，但是由于词频变化较小，新颖系数很低，不认为是新颖词汇。

(6)新颖词的持续跟踪及对其原文的查看

本发明还可以在发现新颖词之后，还可以对当天出现该新颖词的新闻进行查看，以确定究竟发生了什么事情。比如在5.30这天发现了印花税作为一个新颖词出现了，那么可以看到如图4所示的出现印花税的文章内容。这里也摘录其中的一条：

“据新华社电为进一步促进证券市场的健康发展，经国务院批准，财政部决定从2007年5月30日起，调整证券(股票)交易印花税税率，由现行1‰调整为3‰。即对买卖、继承、赠与所书立的A股、B股股权转让书据，由立据双方当事人分别按3‰的税率缴纳证券(股票)交易印花税。”

有了对包含新颖词的内容的查看，就可以进一步把握新颖词背后所蕴含的意思和事件。此外，在发现新颖词之后，我们还应该对其进行持续性的关注。这时我们更多的是关注其词频的变化，因为词频的多少就直接表现了该词的热度。如图5所示。

实施例2

本实施例采用一个测试集合来评价本发明的有效性。该测试集合取自各个门户网站的新闻和消息，因为本发明基于领域的新颖词监测系统，所以以金融领域为研究对象，来对发明的有效性进行评价。

由于新颖词是一个全新的概念，如何评价其选择是否正确，以及这些新颖词汇的正确率有多高需要一个参照标准，当前还没有一个客观的全面的标准来进行评价，对于这种情形，本发明依据新浪财经等门户网站上的信息排行榜，预先采用人工的方式确定一个新颖词汇的参照表(由于随着时间变动，该词汇表也是不断变化的，每天都可能改变)的方式来进行。

目前在信息检索领域，用于评价词汇提取性能的最常用指标是召回率(Recall)和查准率(Precision)，在本发明的有效性评价中，采用这两个指标来进行，分别定义为：

P＝(获取的符合条件的新颖词数目)/(获取的词汇总数目)

R＝(获取的符合条件的新颖词数目)/(新颖词汇表中词数目)

两个指标分别从不同侧面刻画了性能的好坏。

测试首先是获取数据集合，文档时间范围为2007年5月18日至2007年6月1日，选取的信息来源自前面表1所列举的网站。

采用本发明所介绍的第<1>步方法来获取网页数据，并保存于本地供进一步评测使用，测试文档集合详细情形参见表4所示，列出了成功获取的文档篇数、词数以及文档大小。获取数据的同时，对文档进行了中文分词处理，分词基于中科院计算所的海量词典进行，后面的统计计算是基于分词后的结果。

表4

针对该段时间的关键词新颖度检测获得的新颖度结果如表5所示，当日的新颖度依赖于前面的历史词频和波动变化。

表5

	印花税	基金	美元	犯罪	股份公司	左晓蕾	充足率	格林
	印花税	基金	美元	犯罪	股份公司	左晓蕾	充足率	格林	20070518	3	68	45	1	45	0	2	1
20070519	2	43	25	20	3	0	4	3	20070518	3	68	45	1	45	0	2	1
20070519	2	43	25	20	3	0	4	3	20070520	4	4	7	7	1	0	5	3
20070521	20	6	11	4	3	3	4	4	20070520	4	4	7	7	1	0	5	3
20070521	20	6	11	4	3	3	4	4	20070522	3	3	4	4	0	9	5	7
20070523	70	2	5	2	1	5	6	7	20070522	3	3	4	4	0	9	5	7
20070523	70	2	5	2	1	5	6	7	20070524	80	6	2	3	2	2	5	2
20070525	35	3	7	2	4	2	5	1	20070524	80	6	2	3	2	2	5	2
20070525	35	3	7	2	4	2	5	1	20070526	66	8	6	1	2	2	2	9
20070527	17	3	4	3	1	4	3	5	20070526	66	8	6	1	2	2	2	9
20070527	17	3	4	3	1	4	3	5	20070528	88	4	5	9	3	7	2	5
20070529	87	9	4	31		3	8	34	20070528	88	4	5	9	3	7	2	5
20070529	87	9	4	31		3	8	34	20070530	99	7	1	99	4	6	8	72
20070531	32	4	6	34	0	3	2	1	20070530	99	7	1	99	4	6	8	72
20070531	32	4	6	34	0	3	2	1	20070601	21	5	3	3	0	2	5	4

在表5中，该段时间每日的关键词新颖度随着相应词频的历史均值和历史方差变动，以测试文档头一天的新颖度数据为例，在此前未有历史均值和方差的基础上，该天的新颖度数据可能说明不了什么问题，仅仅只是在当天的信息熵的基础上，更多的以词频本身来体现当天的热点词汇，词频大的，比如“基金”，新颖度为68，该天的词频数量为75，占有很大的比重，只能说明在该天的出现次数较多，等到隔一周时间之后，该词的词频73虽然还是很大，但新颖度就已经下降得很低了。

平常词频均值较小的词语，如“印花税”，在测试文档第一天的数据中，新颖度为3，词频数目8很小，随后的几天其频数一直比较低。但是到了5.28，虽然词频仅有50，但是新颖度已经达到88了。主要是由于词频的历史数据较大波动率所致。同时，我们可以看出，在5.30之前，人们对印花税就已经开始议论了，由此可以看出本发明有一定的揭示新事件发生的可能性的功能。

本发明相以之前的类似发明，最大的改进在于新颖词的候选方面使用了信息熵作为评价指标。相比TFIDF的方法，本发明更看重词汇在一天当中的概率分布，越均匀则说明越不是候选词。而TFIDF只是看重词频，得到的结果自然要比本发明差一些。

在本发明方法的效果评价过程中，我们选用某门户网站上的财经排行榜作为依据，需要指出的是，新颖词的选择在一定程序上依靠人的主观判断。所以标准并不唯一。对比结果如表8所示。

表6

分类	本发明新颖词汇累计	某门户网站的财经排行榜
分类	本发明新颖词汇累计	某门户网站的财经排行榜	时间段	20070518-20070601	20070518-20070601
词例	印花税，延边，周小川，广发，QDII，商品房，证监会，屠光绍，左晓蕾，充足，国债等等	印花税，延边，周小川，广发，QDII，商品房，证监会，屠光绍，左晓蕾，充足，国债，估值，反弹等等	时间段	20070518-20070601	20070518-20070601
词例	印花税，延边，周小川，广发，QDII，商品房，证监会，屠光绍，左晓蕾，充足，国债等等	印花税，延边，周小川，广发，QDII，商品房，证监会，屠光绍，左晓蕾，充足，国债，估值，反弹等等	总词数	146	166
符合标准词数	115	-	总词数	146	166
符合标准词数	115	-	平均召回率	0.6928	-
平均查准率	0.7877	-	平均召回率	0.6928	-

因为该网站搜集的这些信息都是以消息标题形式呈现，我们针对这些事件提取了关键词，同时列出了该段时间内我们的方法发现的新颖词信息。经过统计计算，可以看到本发明的平均查准率为78.77％，平均召回率为69.3％，效果较好。

从词性上对这些新颖词进行分析，名词词性的热点词汇多为有关该人所发表的看法，如5月18日周小川发表股市泡沫令人担忧的评论；该事物的特殊变化，如5月28日银星能源连续出现20余个涨停板后受到强烈关注；有关该事物的一些政策措施，如5月19日中国人民银行上调存贷款基准利率。动词词性的热点词汇多为对当日股市期货等财经指标走势的评价，5月16日的反弹是在经历15日暴跌后，股指出现报复性反弹。多个词与同一组文章相关通常是有一定关联的词语，如5月17日的援引、箭在弦上、署名是“《金融时报》发表记者署名文章称中国新一轮宏观调控箭在弦上，不过力度将保持温和。该报道同时援引未具名专家的话称，如果CPI(消费者价格指数)继续攀升，不排除央行下一步采取加息措施的可能性。”5月18日的辞职，沃尔福威茨是世界银行集团17日发表执行董事会和行长的声明，宣布沃尔福威茨将辞去行长职务。5月30日的印花税这组词汇则是有关印花税在当日上调至3％的新闻通报及相关评论和影响评价。而少数看起来无关的词汇则是文章关键词的提取有误，如5月28日的提示的相关新闻是“上证所上市公司部日前发布了《关于加强*ST和ST公司风险揭示的通知》。通知要求，*ST公司和ST公司应及时向控股股东和实际控制人函证相关信息，至少每两周披露一次风险提示公告。”

表6中的数据可以看出，本发明具有较高的平均查准率，原因主要是使用信息熵的方法，很好的过滤了无意义词或普遍词对算法的影响，此外充分利用了“新颖词汇在某一特定时间点相较于自身历史回溯忽增的特点”，与此同时，另一方面本发明显示出较低的平均召回率，这可能是因为选取的信息来源是有限集，可以通过调整参数来扩大信息来源数。总体来看，本发明在新颖词的监测方法有比较好的效果，适合用作人们对于某一领域的持续关注的工具。

Claims

1.一种互联网新颖词监测方法，其特征在于，包括下列步骤：

a)根据目标信息源集合，获得其中各个首页及其内部链接所指向的各级下级页面中当日的所有文章；

b)对各个文章作分词处理，并为各个文章中的每个词语赋予权重，以权重最大的前a个词语作为该文章的备选新颖词，并以该备选新颖词同时成为多个文章的备选新颖词时的文章数作为该词当天的频率freq；

c)根据各个备选新颖词在b天内的freq记录计算各个备选新颖词的新颖系数

n = (freq - avg) / \sqrt{ceil (var)},

其中

avg = \frac{Σ_{i = 1}^{b} freq (i)}{b},

var = \frac{\sqrt{Σ_{i = 1}^{b} {(freq (i) - avg)}^{2}}}{b},

ceil表

示上取整函数；

d)根据新颖系数n确定新颖度θ，当某个备选新颖词的新颖度大于新颖度阈值θ_t时，即认为该词语是当天的新颖词。

2.如权利要求1所述的方法，其特征在于，步骤a)所述目标信息源集合通过下述方法获得：

i.确定目标领域；

ii.确定目标领域的关键词；

iii.通过搜索引擎搜索所述领域关键词，得到返回的前c个结果；

iv.从所述c个结果中提取出现频率最高的前d个域名；

v.从所述d个域名对应的d个首页中提取OR值大于其阈值ORt，CR值大于其

阈值CR_t的首页，并以这些首页对应的域名作为目标信息源集合，其中，

OR = \frac{P_{i}}{P_{o}},

CR = \frac{P_{r}}{P_{n}},

两式中：

P_i表示当前首页中指向其余d-1个首页的超链接个数，P_o表示当前首页上所有的外部链接个数；

P_r表示当前首页的下级页面中包含所述领域关键词的页面数，P_n表示当前首页的下级页面个数；

3.如权利要求2所述的方法，其特征在于，所述目标信息源集合定期更新。

4.如权利要求1所述的方法，其特征在于，步骤b)所述权重按照下述方法计算：

i.计算每一个词语的信息特征值TF_ij：

{TF}_{ij} = \frac{freq (i, j)}{num (j)},

freq(i，j)表示当前词语i在其所在的文章j中的出现次数，

num(j)表示该文章j的总词语数；

ii.计算每一个词语在当天的信息熵值ENTROPY：

ENTROPY = 1 - \frac{Σ_{j = 1}^{N} P_{ij} \log_{2} P_{ij}}{\log_{2} N},

P_{ij} = \frac{{TF}_{ij}}{Σ_{j = 1}^{N} {TF}_{ij}},

N表示文章数；

iii.以TF_ij和ENTROPY的乘积作为当前词语的权重。

5.如权利要求1所述的方法，其特征在于，在步骤b)和c)之间将所有备选新颖词和用户词典进行比较，仅对出现在用户词典中的词语进行后续处理。

6.如权利要求1所述的方法，其特征在于，步骤d)所述新颖度θ按照下述规则取值：当-∞＜n＜0时，θi＝0；当0≤n＜1时，θi＝floor(10n)，其中floor()是下取整函数；当1≤n＜2时，θi＝floor(70(n-1))+10；当2≤n＜3时，θi＝floor(9(n-2))+80；当3≤n＜4时，θi＝floor(10(n-3))+90，当4≤n＜+∞时，θi＝99。

7.如权利要求1所述的方法，其特征在于，步骤d)之后以柱形图展示新颖词，其中柱长表示新颖度。

8.如权利要求1所述的方法，其特征在于，a＝20，b＝30，c＝500，d＝50，θ_t＝90，OR_t＝0.7，CR_t＝0.5。

9.如权利要求1所述的方法，其特征在于，步骤d)之后还包括集中展示各个新颖词所在的文章。