CN112395480A

CN112395480A - 一种基于搜索行为的网络热点话题判定方法和系统

Info

Publication number: CN112395480A
Application number: CN201910707855.0A
Authority: CN
Inventors: 杜小军; 丁雨
Original assignee: Beijing Runup Information Technology Co ltd
Current assignee: Beijing Runup Information Technology Co ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-02-23
Anticipated expiration: 2039-08-01
Also published as: CN112395480B

Abstract

本发明涉及一种基于搜索行为自动发现和判定网络热点话题的方法，包括：采用文本的聚类方法、热点发掘算法和分词矩阵技术来实现热点的发现。也就是当一个类的规模很大的时候，运用文本的聚类方法、热点发掘算法和分词矩阵技术就可以判定它是一个话题(Topic)。由于传统的一些话题提取算法都是基于比较正式的文章或是比较专业的论文，而在这里我们需要针对网络搜索行为的特点来实现热点提取算法，这些搜索行为的特征体现为一些字词或者关键词汇。由于网络上的话题存在相关性，因此将文本的聚类方法、关联关系算法和分词矩阵技术引入到话题提取算法中，从而实现网络热点话题的自动判断和自主发现。

Description

一种基于搜索行为的网络热点话题判定方法和系统

技术领域

本发明涉及大数据分析技术领域，并特别涉及一种基于搜索行为的网络热点话题判定方法和系统。

背景技术

中国互联网络信息中心(CNNIC)发布第39次《中国互联网络发展状况统计报告》。报告显示，截止到2016年12月，中国网民规模达7.31亿，相当于欧洲人口总量，互联网普及率达到53.2％，超过全球平均水平3.1个百分点，超过亚洲平均水平7.6个百分点。现在，全国有大约7亿网民活跃在网上，每天产生300多亿条信息，信息从稀缺到泛滥，舆论从单一到多元。

据中国互联网调查中心调查显示，超过九成(90.4％)的网民承认，需要信息时，首先想到的就是去互联网上寻找或者去搜索引擎搜索；超过3/4(76.3％) 的网民承认，互联网是获取重大新闻的首选渠道。

热点话题是指一定时间、一定范围内，公众最为关心的热点问题。往往随着时间的推移，热点话题在不断变化。如当前社会的热门话题应该就是人民群众最关心、最直接、最现实的教育、社保、医疗、楼市、股市、劳动就业问题等等，这些热点问题近年来很多都是通过互联网而引起公众强烈关注。

社会上的各种错误思潮包括各种不健康的价值观在网上几乎都有反映。同时，互联网的强大聚合功能，还使之成为一种新的社会动员和组织方式，为各种政治、社会力量在网上聚集、组织、动员提供了便利，这种聚合有时会形成对社会有利、有益的因素，但有时候也可能成为影响社会安定的重要因素。

发明内容

本发明公开了一种基于搜索行为自动发现和判定网络热点话题的方法，属于互联网通信领域。该发明对时时发现热点、追踪热点、评估热点、管控热点和舆情很有意义。

具体来说，本发明公开了一种基于搜索行为的网络热点话题判定方法，其中包括：

步骤1、获取已标注事件类别的文章，作为训练数据；

步骤2、集合该训练数据中出现的词，并根据每一种事件类别文章中该词的数量，为每一个该词分配对应的事件类别，以训练得到词分类模型；

步骤3、根据用户的搜索行为，得到预设周期内用户搜索的热点关键词，使用该词分类模型对该热点关键词进行分类，得到该热点关键词对应的事件类别；

步骤4、根据该热点关键词对应的事件类别，统计该预设周期内每一种事件类别对应的热点关键词数量，将对应热点关键词数量大于阈值的事件类别作为网络热点话题。

该基于搜索行为的网络热点话题判定方法，其中该步骤3还包括：

若该词分类模型无法对该热点关键词进行分类，则获取该预设周期内具有该热点关键词的文章，作为待分类文章，将该待分类文章中的词，输入至该词分类模型，得到该待分类文章中每一个词对应的事件类别，在该待分类文章中统计每个事件类别对应的词的数量，以得到每一篇该待分类文章的事件类别，并根据每一种事件类别对应的待分类文章数量，确定该热点关键词对应的事件类别。

若该词分类模型无法对该热点关键词进行分类，则获取该预设周期内具有该热点关键词的文章，作为待分类文章，获取该待分类文章所属网站的分类，作为为该待分类文章的事件类别，并根据每一种事件类别对应的待分类文章数量，确定该热点关键词对应的事件类别。

该基于搜索行为的网络热点话题判定方法，其中该步骤3包括：

根据用户的搜索行为，得到用户的搜索词，进一步统计得到该预设周期内搜索词的数量、频率以及相较于上一预设周期频率的变化率，若该搜索词的数量或频率或变化率超过预设值，则将该搜索词判定为该热点关键词。

该基于搜索行为的网络热点话题判定方法，其中该步骤4包括：

步骤41、通过聚类算法、关联关系算法和分词矩阵算法，分析热点关键词数量大于阈值的事件类别之间的关系，以得到该网络热点话题。

本发明还公开了一种基于搜索行为的网络热点话题判定系统，其中包括：

模型训练模块，用于获取已标注事件类别的文章，作为训练数据，集合该训练数据中出现的词，并根据每一种事件类别文章中该词的数量，为每一个该词分配对应的事件类别，以训练得到词分类模型；

关键词分类模块，用于根据用户的搜索行为，得到预设周期内用户搜索的热点关键词，使用该词分类模型对该热点关键词进行分类，得到该热点关键词对应的事件类别；

热点话题确定模块，用于根据该热点关键词对应的事件类别，统计该预设周期内每一种事件类别对应的热点关键词数量，将对应热点关键词数量大于阈值的事件类别作为网络热点话题。

该基于搜索行为的网络热点话题判定系统，其中该关键词分类模块还包括：

该基于搜索行为的网络热点话题判定系统，其中该关键词分类模块包括：

该基于搜索行为的网络热点话题判定系统，其中该热点话题确定模块还包括：

通过聚类算法、关联关系算法和分词矩阵算法，分析热点关键词数量大于阈值的事件类别之间的关系，以得到该网络热点话题。

所述方法包括：其发现功能实现的主要算法是文本的聚类方法、热点发掘算法和分词矩阵技术。也就是当一个类的规模很大的时候，运用文本的聚类方法、热点发掘算法和分词矩阵技术就可以判定它是一个话题(Topic)。由于传统的一些话题提取算法都是基于比较正式的文章或是比较专业的论文之类，而在这里本发明需要针对网络搜索行为的特点来实现提取算法，这些搜索行为特点实际上对应的是一些字词或者关键词汇，它们有时候是一个个关键的字词，有时是一些关键的词汇。字词对应的英文翻译是word，通常指一个字，如“我”、“母亲”，此处的“母亲”虽然是两个字，但在习惯上不能拆开使用，对应的是英文的一个word，即mother，因此属于字词的范围。而词汇对应的英文翻译是 phrase，指短语，在汉语中对应的是字词的组合，如“弃婴”、“水污染”等。在汉语里网络上的话题又不是完全独立的，会有相关性，所以要将文本的聚类方法、关联关系算法和分词矩阵技术也引入到原始的话题提取算法中，并对其加以改进，从而才能实现网络热点话题的自动判断和自主发现。

附图说明

图1为本发明网络热点话题发现流程图；

图2为本发明实施例的频率-时间曲线图；

图3为本发明实施例的关键词的地域分布饼状图；

图4为本发明实施例的关键词千人均搜索数量地域分布图；

图5为数量或频率与关注度的关系图。

具体实施方式

本发明公开了一种基于搜索行为的网络热点话题判定方法，其中包括：

步骤1、获取已标注事件类别的文章，作为训练数据；

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

网络热点发现的流程图请见图1。本发明提出了一种基于搜索行为自动发现和判定网络热点话题的方法，用于网络热点的自动发现和判定，包括：

1)统计网络用户的搜索行为在一定周期内所呈现出来的关键字和关键词汇(主要是统计用户在搜索引擎中输入的关键字和词汇)；

2)统计这些关键字和关键词的数量和频率，作为判断用户对这些关键字和关键词的关注程度的依据。

数量和频率，与关注度呈现正相关的关系，示例图如图5所示。

数量与频率的关系说明如公式(1)所示。

N＝F*P (1)

N：一定周期(如一周)内关键字或关键词(以下统称关键词)出现的数量，单位为“次”。

F：一定周期内(如一周)关键词出现的频率(周期内取平均值)，单位为“次/天”、“次/小时”或“次/分钟”等。

P：一定周期，如一个月、一个星期、一天、一小时等。

公式应用过程应注意F与P的周期单位应一致，例如：计算一周内“空心菜”被搜索次数，已知一周内平均每天“空心菜”被搜索的次数，也就是频率 F＝100次/天，则一周内“空心菜”被搜索的次数N＝F*P＝100次/天*7天＝700次。

关键词的频率变化本身即是热点判断的依据之一。如在一定周期(例如一周)内，关键词“水污染”的频率变化如表1所示。

表1“水污染”频率统计表

天	第1天	第2天	第3天	第4天	第5天	第6天	第7天
								频率	100	150	250	400	800	900	1000

绘制频率-时间曲线图，见图2。从图2可以看出，“水污染”的搜索频率在第1到第3天缓慢增长，第4-第5天的时候急剧增长，第5天到第7天频率仍然在增长，但趋势变缓。

基于搜索行为自动发现和判定网络热点话题的方法，还包括：不同地域的关键词的一定周期内搜索数量与词频变化能够反映出有价值的舆情信息。

例如，通过统计网络用户的IP等技术方法，获得关键词数量与频率的地域分布。仍以“水污染”为例，设不同省份的一定周期内关键词搜索数量如表 2所示：

表2“水污染”关键词数量地域分布表

省份名	北京	天津	河北	河南	山东
						数量	1000	800	700	500	300

数量分布饼状图如图3所示。

基于搜索行为自动发现和判定网络热点话题的方法，还包括：根据区域内人均搜索数量可以提供更为细致的舆情信息。仍以“水污染”为例，不同地域的千人均数量地域分布表如表3所示。其中千人均指的是搜索量/千人。千人均搜索量表示的是搜索密度。2000人搜了100次，千人均搜索量就是50次/千人。

表3“水污染”关键词千人均搜索数量地域分布表

省份名	北京	天津	河北	河南	山东
						数量	1000	800	700	500	300

千人均数量地域分布饼状图如图4所示。从图4可见，巨大的区域人口可能“稀释”关键词的关注程度，有利于更加准确地判断地域舆情。

本发明在经过上述方法确定关键词的基础上，通过聚类算法、关联关系算法和分词矩阵算法对关键词进一步处理，发现关键词之间的联系，这种联系的发现，提高了对热点话题判定的准确性。例如：发现“咖啡公司A”、“地沟油”、“酒厂”、“咖啡”、“空巢老人”、“致癌”、“交通法规”、“提示”等20几个关键词，通过聚类算法、关联关系算法和分词矩阵算法发现“咖啡公司A”、“咖啡”、“致癌”、“提示”等关键词存在更紧密的关联关系。并由此推断热点话题是“咖啡公司A需要就咖啡致癌给出提示信息”，而不是仅仅得到“咖啡公司A最近比较受社会关注”这样比较笼统的信息。

聚类算法有很多种，如比较主流的有k-means算法等，是公开的成熟算法。关联关系算法指的是相关性的算法，如线性回归算法等，也是公开成熟的算法。以上两种算法都有成熟的三方支持库可以在程序实现过程中使用。分词矩阵是中润普达的专利技术，已经获得授权，例如：通过用户搜索行为确定“地沟油”、“健康”、“癌症”、“食品安全”、“法律法规”等关键词，通过聚类算法发现它们分别属于“食品”、“健康”和“法律”等不同的分类，此时，这些关键词还是彼此孤立的。但是通过分词矩阵、关联关系算法可以发现他们其实是围绕“地沟油带来了食品安全问题，威胁到了人民的身体健康，应该加强法律法规治理力度”这一热点话题。

具体操作方法是：在一个固定的周期内，去统计当前用户搜索行为所呈现出来的关键词汇(主要是统计用户在搜索引擎中输入的关键词)的数量，因为用户的搜索行为所对应的是一些关键的字和关键词汇，同时统计这些词的数量、规模和搜索行为频率。通过以反映不同关键词在过去一段时间里的“用户关注度”。可以发现、共享和挖掘互联网上最有价值的信息和资讯，直接、客观地反映社会热点、网民的兴趣和需求。

网络热点话题发现流程见附图1。并详述如下：

步骤一：制作文章分类训练样本，例如，采集军事类、体育类、教育类等文章各若干篇。该步骤通常使用爬虫工具将网络公开数据采集回来，人工处理为训练集。

步骤二：为文章类的词进行标注。认为某类别文章中的词即属于该类，如：“战斗机”出现在军事类的文章里，则“战斗机”被标注为“军事类”标签。如果“战斗机”同时也出现在“历史”类文章中，则根据统计数量，在“军事类”文章中出现的次数更多，则仍然认为“战斗机”属于“军事类”。

利用深度学习算法、回归算法等机器学习方法，利用整理好的训练集完成模型训练。完成训练的模型，可以判断任何词汇属于什么类型，如：“战斗机”属于军事类，“足球”属于体育类等。

步骤三：这样，当一篇陌生的文章到来时，根据文章中词的分类，加总后判断文章类别，如全文中“教育”类的词最多，则认为该文章属于“教育”分类。对于文章分类，也可以直接采信网站分类，如文章来自新浪新闻的“教育”板块，则认为文章属于“教育”分类。

步骤四：在一定周期内，用户搜索行为的热门关键词通常较多，每条关键词的分类的计算方法为，如果在步骤二时已经对该关键词完成分类，则直接采用分类，否则利用步骤三对近期出现该关键词的文章进行分类，再对该关键词进行分类，分类过程中遇到矛盾时，以统计数量大者为准。这样，对若干关键词完成分类，对于相同分类的关键词，即完成了聚类操作。

步骤五：根据聚类后的关键词，推断网络热点。例如：“XXX咖啡店”、“咖啡”、“致癌”、“提示”等为相同聚类关键词，可以推断出“XXX咖啡店应就咖啡致癌给出提示”的热点信息。

文章的分类可以利用数学模型自动分类，也可以直接采信网站设置的标签进行分类。

统计并比较关键词在不同类别文章中的出现频率，可以确定关键词的所属类别，从而完成对关键词的聚类操作。具体算法可以简单地取最大值，也可以采用最大熵算法，并以计算机程序自动实现。以最大值算法为例，如“地沟油”在“健康”类文章中出现的频率最高，则认为“地沟油”属于“健康”类。

本发明通过周期性的获取网络搜索行为数据，在网络搜索行为数据中获取热点关键字词或者关键词汇，并根据当前周期内的热点关键词来选取热点话题，避免了人工查询热点话题效率低，准确性差的缺陷，提高了获取热点话题的时效性。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

虽然本发明以上述实施例公开，但具体实施例仅用以解释本发明，并不用于限定本发明，任何本技术领域技术人员，在不脱离本发明的构思和范围内，可作一些的变更和完善，故本发明的权利保护范围以权利要求书为准。

Claims

1.一种基于搜索行为的网络热点话题判定方法，其特征在于，包括：

步骤1、获取已标注事件类别的文章，作为训练数据；

2.如权利要求1所述的基于搜索行为的网络热点话题判定方法，其特征在于，该步骤3还包括：

3.如权利要求1所述的基于搜索行为的网络热点话题判定方法，其特征在于，该步骤3还包括：

4.如权利要求1或2或3所述的基于搜索行为的网络热点话题判定方法，其特征在于，该步骤3包括：

5.如权利要求1所述的基于搜索行为的网络热点话题判定方法，其特征在于，该步骤4包括：

6.一种基于搜索行为的网络热点话题判定系统，其特征在于，包括：

7.如权利要求6所述的基于搜索行为的网络热点话题判定系统，其特征在于，该关键词分类模块还包括：

8.如权利要求6所述的基于搜索行为的网络热点话题判定系统，其特征在于，该关键词分类模块还包括：

9.如权利要求6或7或8所述的基于搜索行为的网络热点话题判定系统，其特征在于，该关键词分类模块包括：

10.如权利要求6所述的基于搜索行为的网络热点话题判定系统，其特征在于，该热点话题确定模块还包括：