CN101727494B

CN101727494B - 特定区域内网络热词生成系统

Info

Publication number: CN101727494B
Application number: CN2009102734511A
Authority: CN
Inventors: 杨宗凯; 王泰; 汪虹; 赵刚; 姚华雄; 刘清堂
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2009-12-29
Filing date: 2009-12-29
Publication date: 2012-03-28
Anticipated expiration: 2029-12-29
Also published as: CN101727494A

Abstract

本发明提出了一种特定区域内网络热词生成系统，属于网络技术与中文文本信息处理技术领域，解决了在某区域内及时发现该区域流行的网络热词的技术问题。该发明采用一个网络数据分流过滤设备，将从区域网关中镜像出来的上下行双向数据流，按照一定的规则过滤分流到若干台协议还原服务器上还原http会话，然后在区域内外交互信息分析服务器上提取这些http会话的下行标题和上行搜索句，最后对它们进行分词和热词统计。这些网络热词是有关部门(如政府、企业)在进行调研、决策、管理和服务时的重要参考。它们的及时发现能为事件的处置赢得宝贵的第一时间。

Description

特定区域内网络热词生成系统

技术领域

本发明属于网络技术与中文文本信息处理技术领域，具体涉及特定区域内网络热词生成系统。

背景技术

网络热词是指互联网用户在浏览网页时频繁出现的主题词或搜索信息时频繁使用的词汇。这些网络热词是有关部门(如政府、企业)在进行调研、决策、管理和服务时的重要参考。它们的及时发现能为事件的处置赢得宝贵的第一时间。

近年来，随着互联网向现实生活的加速渗透，一些著名机构都在总结和发布各式各样的全国年度网络热词排行榜。这些网络热词通常采自于在全国有影响力的门户网络或各大网络论坛、BBS等。它们集中地反映了全国网民所关注的热点事件或热点人物，在某种意义上代表了相当一部分社情民意。但是，不同的地区受自身发展状况的制约，其关注的对象往往不同。例如在2009年6月底，新疆艺术学院里的学生们关注的是在广东韶关发生的维汉群体事件(《新京报》2009年7月28日A22版)。而在相同时期，湖北某高校里的学生们关注的则是高考相关新闻。参见图1，随着日期变化，时间热度曲线表现“高考”这个词的检索热度不断变化，以数量级为1，在2009年6月25号左右达到了顶峰400。这些关注对象往往与当地的社会文化生活息息相关，具有鲜明的地域特征。

网络热词通常在两种数据来源中产生：一种数据来源是互联网用户浏览过的一张张网页，所产生的网络热词可称为网文热词；另一种数据来源是用户在使用搜索引擎时所键入的关键词，所产生的网络热词可称为搜索热词。目前，前面一种数据源的主要获取方法是面向网页发布端进行的、基于规则的网络爬虫下载方法，后面一种数据源的主要获取方法是面向网页接收端进行的、基于协议还原的内容过滤方法。

由于网络爬虫下载方法面向的是网页发布端，所以采集下来的网页内容并不包含网页浏览者的地域属性。另一方面，某个区域的用户在使用搜索引擎时所键入的关键词虽然反映了该区域的关注热点，但仅捕获该区域流出到万维网的上行数据流是不够的。原因有二：首先、从万维网中流入到该区域的下行数据流中同样也包含了大量能够反映该区域内用户关注热点的信息；其次，如果仅捕获上行数据流，在记录到的URL请求中，不仅不同的搜索引擎对键入的关键词具有不同的呈现结构，而且具有不同的编码方法，甚至会遇上无法解码的情况。可见目前的网络热词生成技术存在缺陷。

事实上，google或baidu等搜索引擎的响应页面的标题栏会显示用户请求时所使用的上行搜索句。也就是说，上行搜索句被包含在下行浏览标题中。我们只需捕获由响应页面所汇聚的下行数据流，并提取中其中与搜索引擎字样相伴出现的上行搜索句即能弥补上述两项技术缺陷。

发明内容

为克服现有技术的不足，本发明提出了一种通过采用面向上下行双向数据流的内容过滤方式，对某个特点区域内的用户浏览过的网页标题(存在于下行数据流中，简称为下行标题)和用户在使用搜索引擎时采用的搜索句(存在于上行数据流中，简称为上行搜索句)进行处理，从而生成网络热词的技术方案。

本发明的技术方案为：设置网络数据分流过滤设备、协议还原服务器和区域内外交互信息分析服务器，并在网络数据分流过滤设备、协议还原服务器和区域内外交互信息分析服务器之间建立网络交换连接，

所述网络数据分流过滤设备，用于对从区域网关中取得上下行双向数据流并进行过滤分流，所得分流内容分送到若干协议还原服务器；

所述协议还原服务器，用于从来自网络数据分流过滤设备的分流内容中还原http会话，并将还原出的http会话发送到区域内外交互信息分析服务器；

所述区域内外交互信息分析服务器，用于提取从各协议还原服务器所得http会话的下行标题和上行搜索句，对下行标题和上行搜索句进行分词处理，在分词的结果中统计出网络热词。

而且，所述网络数据分流过滤设备进行过滤分流的具体方式为，过滤出上下行双向数据流中源端口是80的TCP数据包，将过滤所得TCP数据包按照协议还原服务器数目进行分流。

而且，所述协议还原服务器中还原http会话的具体方式为，对于属于同一条TCP连接的TCP数据包，重组出http会话；如果该http会话的首部响应代码不是200，则不作后续处理；如果该http会话的首部响应代码是200，而且其数据类型是text/html，则记为数据源文本1。

而且，所述区域内外交互信息分析服务器中，

提取http会话的下行标题和上行搜索句的具体方式为，提取数据源文本1里http会话中标签<title>和</title>之间的字符串；把获得的字符串分为下行标题或上行搜索句；

对下行标题和上行搜索句进行分词处理的具体方式为，去掉下行标题和上行搜索句中的停用词，然后采用逆向最大匹配算法进行切分；

在分词的结果中统计出网络热词的具体方式包括以下步骤，步骤a，对于从下行标题中产生的词，将其归为网文词语；对于从上行搜索句中产生的词，将其归为搜索词语；

步骤b，分别记录搜索词语和网文词语中每个词出现的频率；

步骤c，对搜索词语和网文词语中所有词按步骤b所得频率分别进行排序，排名靠前的100个词语即为该区域内的网络热词。

而且，所述网络数据分流过滤设备从区域网关中取得上下行双向数据流，具体实施方式为，网络数据分流过滤设备经过分光器以旁路方式接入区域网关，由分光器将区域中经过区域网关的上下行双向数据流复制送到网络数据分流过滤设备。

或者，所述网络数据分流过滤设备从区域网关中取得上下行双向数据流，具体实施方式为，网络数据分流过滤设备直接接入区域网关，由区域网关自行将区域中经过区域网关的上下行双向数据流复制送到网络数据分流过滤设备。

本发明能够支持及时地发现特定区域(如高校校园、居民社区)所关注的网络热词。网络热词及其相关的网络话题的及时发现可以为有关部门(决策、宣传、心理辅导等)开展工作赢得宝贵的第一时间。另一方面，长期跟踪网络热词所积累的变化曲线能够直观真实地反映该区域社情民意发生发展的脉络和轨迹，给政策评估和舆情预测提供了有力的技术支持。本发明的实施方式所使用的硬件设备是成熟产品，简便易行，可扩展性强。在网络容量为1Gbps的校园网络出口处部署这套系统，能够在http协议数据包日常流量为200Mbps以上时(包括高峰流量为500-600Mbps)，实现网页标题的实时提取，并能够及时显示排名前100的网文热词和搜索热词。

附图说明

图1是湖北某高校网络热词“高考”的时间热度曲线。

图2是本发明的系统结构图。

图3是特定区域网络热词生成方法流程图。

图4是按照本发明的一个实施方式获得的湖北某高校在一段时间内的前100个搜索热词(字体越小、颜色越浅者排名越后)。

图5是按照本发明的一个实施方式获得的湖北某高校在一段时间内的前100个网文热词(字体越小、颜色越深者排名越后)。

具体实施方式

下面结合附图和实施例对本发明进一步说明：

本发明需要在具体的网络环境里依托相应的装置实施，如图2所示。区域网关提供区域外部与区域内部的信息传递，实现互联网和局域网的连通。为了考察特点区域的网络热词，首先要从区域网关取得网络数据流，本发明考察上下行双向数据流。

如果区域网关与互联网之间的接入信道具有较大的容量(例如1Gbps以上)，宜采用分光器将经过区域网关的上下行网络数据流(即包括从局域网流出和从互联网流入这两个方向的数据流)，复制到网络数据过滤分流设备的输入接口。图2所展示的系统结构正是这种情况，其中用双箭头标识上下行网络数据流。网络数据过滤分流设备可采用市面上的成熟产品，例如FS3108过滤设备。分光器的分光比一般设置成7∶3。即如果将分光前的光纤传输功率看作10，那么分光后的区域用户与互联网正常产生交互数据流的光纤传输功率为7，而复制到网络数据过滤分流设备输入接口的光纤传输功率为3。对于采用光纤接入的区域网关而言，采用分光器对网络数据流进行复制是一个比较简便而且不影响用户正常使用的复制方法。

如果区域网关与互联网之间的接入信道的容量较小(例如1Gbps以下，数百兆bps左右)，可以采用区域网关通常自带的镜像拷贝网络数据包的方法，将经过区域网关的上下行网络数据流复制到网络数据过滤分流设备的输入接口。区域网关自带的这种镜像拷贝功能通常是为网络检修而设置，不宜长期使用，而且这种镜像拷贝增加了区域网关的工作负荷，对区域用户的正常使用会造成一定程度的影响。

还原http会话的实施需要由网络数据过滤分流设备和http还原服务器配合完成。因此网络数据分流过滤设备和协议还原服务器之间建立网络连接，以实现信息传递。如图2所示，网络数据分流过滤设备发送给协议还原服务器的分流内容用单箭头标识。在接入容量为1Gbps的网络环境下，网络数据过滤分流设备必须能支持1路千兆线速输入，能按照五元组(源IP、目的IP、源端口、目的端口和协议名)中全部或者部分规则输出符合规则的数据包而且丢弃不符合规则的数据包，具有多路千兆线速输出(一般为4或8路)。http还原服务器的基本配置可为：2颗主频不低于2.5GHz、Intel Xeon 5400系列以上的CPU，容量不低于4G字节的内存和IO带宽不低于80MBps的磁盘，操作系统为Red HatEnterprise Linux Advanced Server 4.5操作系统(考虑到依据http会话还原出来的网页容易携带针对Windows系统的病毒)。

从所有http还原服务器所得http会话中得到网络热词需要在较高性能的服务器上实施，本发明称为区域内外交互信息分析服务器。因此所有http还原服务器所得通过网络连接到区域内外交互信息分析服务器，以实现信息传递。如图2所示，所有http还原服务器发送给区域内外交互信息分析服务器的http会话用虚线单箭头标识。区域内外交互信息分析服务器基本配置可为：4颗主频不低于2.4GHz、Intel Tigerton系列至强CPU，不低于8M字节的二级缓存容量，容量8G字节的内存和IO带宽不低于80MBps的磁盘，操作系统为WindowsServer 2003。

网络数据分流过滤设备和协议还原服务器之间、http还原服务器和区域内外交互信息分析服务器之间，设置网络交换设备，就能实现高信息传递效率的网络交换连接。

如图3所示，本发明实施例的具体实现流程分步骤详述如下：

步骤1，采用网络数据分流过滤设备，从区域网关中取得的上下行双向数据流并进行过滤分流，所得分流内容分送到若干协议还原服务器。

实施例采用网络数据分流过滤设备，将源端口是80的TCP数据包，转发到协议还原服务器上。首先，对于每一个从区域网关中镜像出来的IP数据包(既可能是经网关流出，也可能经网关流入)，网络数据分流过滤设备检查其首部的协议字段，如果是TCP，则捕获；否则丢弃。然后，对于每一个捕获的TCP数据包，如果其源端口是80，则送入协议还原服务器进行后续的http协议分析还原；否则丢弃。

步骤2，采用协议还原服务器，从来自网络数据分流过滤设备的分流内容中还原http会话，并将还原出的http会话发送到区域内外交互信息分析服务器。实施例中，首先在协议还原服务器上，对于属于同一条TCP连接的TCP数据包，重组出http会话内容。如果该TCP数据包的源端口是80，那么它就和在它之前或之后到来的、具有着相同的源端口、目的端口、源IP和目的IP的TCP数据包属于同一条TCP连接。对于属于同一条TCP连接的TCP数据包，按照其首部序号依序重组出http会话内容。然后，实施例为了提取响应页面所汇聚的下行数据流，进一步进行了判断：如果该http会话内容的首部响应代码不是200，则不再作后续处理；否则，若其数据类型是text/html，记为数据源文本1。获得数据源文本1后即可进入步骤3作后续处理。text/html含义为该数据类型属于html网页内的text文本。若其数据类型不是text/html，则不再处理。

步骤3，采用区域内外交互信息分析服务器，提取从各协议还原服务器所得http会话的下行标题和上行搜索句。实施例分以下两个步骤实现：

步骤3.1，提取数据源文本1里http会话内容中标签<title>和</title>之间的字符串。

实施例中，对于步骤2中获得的数据源文本1中的每一条http会话内容，如果没有标签<title>，就不做后续处理；否则采用正则表达式“<title>(.*)</title>”提取网页标签对<title></title>之间的内容，或者采用DOM(文档对象模型，Document Object Model)解析步骤2中还原出来的数据源文本1，然后访问生成的XML树中的元素<title>的属性值，记提取出来的标签<title>和</title>之间的字符串为S。

步骤3.2，把步骤3.1获得的字符串分为上行搜索句和下行标题两类。

如果S中出现了下划线“_”或中划线“-”，就以此为分隔符，获得若干个子串：s₁，s₂，…，s_n。如果这些子串中出现了“百度搜索”、“Google搜索”等搜索引擎的名字，那么S中剩下的其它子串就是上行搜索句；如果这些子串中没有出现“百度”、“Google”等搜索引擎的名字，那么除去网页栏目子串(如“新闻中心”“新浪网”等)后，剩下的子串就是下行标题。

步骤4，采用区域内外交互信息分析服务器，对下行标题和上行搜索句进行分词处理。实施例分以下两个步骤实现：

步骤4.1，去掉上行搜索句或下行标题中的停用词。

对于步骤3.2中获得的上行搜索句或下行标题，首先去掉停用词，去停用词所依据的停用词表可以选用哈尔滨工业大学信息检索研究中心推出的停用词表。

步骤4.2，对于步骤4.1去掉上行搜索句或下行标题中的停用词后结果，采用逆向最大匹配算法进行切分。

依照标点符号或者空格将C1中获得的文本切分成若干小段，采用逆向最大匹配算法(《中文文本信息处理的原理与应用》，苗夺谦、卫志华著，清华大学出版社，2007年9月第1版，第22页)进行切分。逆向最大匹配算法的思想是：对于待切分的一段语句，首先以该段语句的尾字为起点，向首字的方向进行搜索(如果以从首字向尾字搜索为正向，则从尾字向首字方向搜索为逆向)，直到找到以该尾字为结尾、且在该语句中出现的最长的词，并以此为标志切出第一个词。然后将剩余字符串作为另一待切分文本进行相同处理。设待切分的语句L中的字数是n，最长词的长度为max(一般为3或4)。

具体实施过程如下：

whil e(n＞1)

{

从L中截取从(n-(max-1))到n的字符串，记为sub_sentence；

if(字典中存在sub_sentence这个词)

{

保存已切分出来的词sub_sentence；

n＝n-max；

}

else max＝max-1；

}

该算法中所使用的分词词典可以选用北京大学计算语言学研究所或中国科学院软件研究所等推出的分词词典。

步骤5，采用区域内外交互信息分析服务器，在分词的结果中统计出网络热词。实施例分以下三个步骤实现：

步骤5.1，对于从上行搜索句中产生的词，将其归为搜索词语；对于从下行标题中产生的词，将其归为网文词语。

步骤5.2，分别记录搜索词语和网文词语中每个词出现的频率。

由于从上行搜索句或下行标题里提取出来的词语数量非常多，故在本步骤需要考虑执行效率。

实施例对于词中的每个汉字，获取其Unicode编码，如“华”的Unicode编码是21326。假设某个词语W的词长是n，W(i)是该词中从左往右数的第i个字的Unicode编码，则该词W的哈希值HashCode(W)的计算方法是：

HashCode (W) = Σ_{i = 1}^{n} 31^{n - i} W (i)

在内存无限大的理想状态下，可以用一个充分大的数组来计数：将每个词的哈希值作为该词在这个数组中的索引，通过计算每个词的哈希值直接定位该词的位置，定位时间与词语总量无关。但是内存是有限的，所以我们应该把计数数组的大小控制在一个合适的值，设为N。比如：把HashCode(W)对N取模，将余数作为W在计数数组中的索引。这样一来，不同的词语W可能具有相同的索引。考虑到这些具有相同索引但字符不同的词语的数量无法事先设定，所以采用链表来存储这些词语，把该链表的头地址存储在计数数组中。链表中的一个单元结构定义为词语、频率和指针。对于每个词语，计算它的哈希值，得到对应的计数数组索引，然后加入到该索引存储单元记录的链表首部，其频率自加1。在进行查询时，也是通过计算哈希值，得到对应的计数数组索引，然后遍历链表查找对应元素。也就是用哈希表的链式存储(记为HashStore)来避免这种哈希冲突。

步骤5.3，对步骤5.2中的词语依出现的频率进行排序，排名靠前的若干个词汇即为该区域内的网络热词。

由于实施例只要求挑选出排名前100位的词语，故前100位之外的词语不需要排序，其基本思路是用折半比较来提高效率。首先把HashStore中出现频次不为0的词语挑出来，这些词语组成的集合记为A，最高频次为Frequency_Max。开始时，设最高频次为Frequency_Max的词语组成的集合是A₁，个数是P₁。若P₁不小于100，则停止挑选，在这些词中挑足100个词语，作为结果输出；否则把A中频次比Frequency_Max/2高的词语挑出来，设这些词语组成的集合为A₂，个数是P₂。如果(P₁+P₂)不小于100，则在A₂中剔除(P₁+P₂-100)个出现频次最小的词语；否则在A-A₁-A₂中挑选频次比Frequency_Max/4大的词语……以此类推，每次不断地缩小范围，最终挑出排名前100位的词语。

特定区域的网络热词生成结果如图4和图5所示。图4为湖北某高校在2009年7月4日-2009年7月15日排名前100的搜索热词。图5为该校在2009年7月15日-2009年7月30日排名前100的网文热词。图中字体越小，颜色越浅者排名越后。

Claims

1.一种特定区域内网络热词生成系统，其特征在于：设置网络数据分流过滤设备、协议还原服务器和区域内外交互信息分析服务器，并在网络数据分流过滤设备、协议还原服务器和区域内外交互信息分析服务器之间建立网络交换连接，

2.根据权利要求1所述的特定区域内网络热词生成系统，其特征在于：所述网络数据分流过滤设备进行过滤分流的具体方式为，过滤出上下行双向数据流中源端口是80的TCP数据包，将过滤所得TCP数据包按照协议还原服务器数目进行分流。

3.根据权利要求1或2所述的特定区域内网络热词生成系统，其特征在于：所述网络数据分流过滤设备从区域网关中取得上下行双向数据流，具体实施方式为，网络数据分流过滤设备经过分光器以旁路方式接入区域网关，由分光器将区域中经过区域网关的上下行双向数据流复制送到网络数据分流过滤设备。

4.根据权利要求1或2所述的特定区域内网络热词生成系统，其特征在于：所述网络数据分流过滤设备从区域网关中取得上下行双向数据流，具体实施方式为，网络数据分流过滤设备直接接入区域网关，由区域网关自行将区域中经过区域网关的上下行双向数据流复制送到网络数据分流过滤设备。