CN105488196A

CN105488196A - 一种基于互联语料的热门话题自动挖掘系统

Info

Publication number: CN105488196A
Application number: CN201510889261.8A
Authority: CN
Inventors: 窦志成; 文继荣; 江政宝
Original assignee: Renmin University of China
Current assignee: Beijing Yilanqunzhi Data Technology Co ltd
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2016-04-13
Anticipated expiration: 2035-12-07
Also published as: CN105488196B

Abstract

本发明公开了一种基于互联语料的热门话题自动挖掘系统，该系统由两种路线组成：1)爬取现有热词统计站点的热词，通过聚类、实体抽取、关键字挖掘的步骤，生成一系列的热门话题；2)在大量新闻文档中抽取n-gram，通过计算n-gram的互信息和条件熵的值，在大量新闻文档中挖掘高频热词，并利用基于时间序列的事件侦测方法，识别新生话题。本发明不仅能够实时挖掘当下热点事件，并且在生成热门话题的同时，还会自动挖掘该话题的相关关键词和命名实体。

Description

一种基于互联语料的热门话题自动挖掘系统

技术领域

本发明涉及一种基于互联语料的热门话题自动挖掘系统。

背景技术

现有的热词挖掘系统主要有三种方法：基于规则匹配的方法，基于站点统计信息的方法和基于事件侦测的方法。基于规则匹配的方法需要大量的领域知识，利用手工建立的热词匹配模板挖掘热词。基于站点统计信息的方法主要利用站点流量的统计数据，例如门户网站的新闻访问日志、搜索引擎的查询日志等，并从高频访问内容中挖掘热词。基于事件侦测的方法首先利用命名实体识别、高频串统计等方法，挖掘出候选热词，再此基础上，利用时间序列分析的相关方法，在候选集合中选取热度趋势明显的词作为最终结果。

基于规则匹配的方法需要大量的先验知识，虽然准确性较高，但是可扩展性较差，不同领域的匹配模板不能复用；基于站点统计信息的方法需要基于大量的用户群体，收集大量日志，这些数据是中小公司或科研单位无法获得的；基于事件侦测的方法首先需要生成高质量的候选词，由于互联网上的信息日新月异，新词层出不穷，未登录词问题对于这种方法是一个挑战。

因此，如何解决上述问题成为本领域技术人员亟需解决的技术问题。

发明内容

针对背景技术中存在的问题，本发明的目的在于提供一种基于互联语料的热门话题自动挖掘系统，该系统不仅能够实时挖掘当下热点事件，并且在生成热门话题的同时，还会自动挖掘该话题的相关命名实体。

本发明的目的是通过以下技术方案来实现的：

一种基于互联语料的热门话题自动挖掘系统，所述系统由两种路线组成：

1)爬取现有热词统计站点的热词，通过聚类、实体抽取、关键字挖掘的步骤，生成一系列的热门话题；

2)在大量新闻文档中抽取n-gram，通过计算n-gram的互信息和条件熵的值，在大量新闻文档中挖掘高频热词，并利用基于时间序列的事件侦测方法，识别新生话题。

进一步，所述路线1)具体为：

(1)热词爬取：通过网络爬虫程序爬取众多热词站点，抽取其中的热词并存储；

(2)热词检索：使用商用搜索引擎，检索话题标题，并将返回页面中的前N个结果存储起来；存储的内容包括检索页面每个结果的标题、摘要和链接URL；

(3)热词聚类：利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同话题之间的距离，并使用WQT方法聚类；每个话题由3部分信息组成：话题标题、检索结果中前N个标题、检索结果中前N个摘要；通过分析这3种信息生成描述话题的4个向量；系统首先对这3种文本进行分词，抽取其中的实体；将N个标题、N个摘要看做两个整体进行分析，分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率，进而计算每个词的tf-idf值；这样每个话题会得到3个词频向量；另外，统计所有抽取出的实体的频率，得到1个实体向量；通过加权4个向量的余弦相似性得到两个话题的相似性。

进一步，所述步骤(3)中加权4个向量的余弦相似性的计算公式为：

s i m (t_{1}, t_{2}) = \underset{k &Element; C}{Σ} w_{k} \times \cos i n e_s i m (v_{1}^{k}, v_{2}^{k})

其中，集合C包括4种类型，分别是话题标题tf-idf、检索结果标题tf-idf、检索结果摘要tf-idf、实体频率；表示话题t₁的k类型向量，w_k表示k类型的权重，∑_k∈Cw_k＝1。

进一步，所述路线2)具体为：

a)n-gram生成：利用Nagao串频统计方法，统计所有n-gram(n≤N)出现的频率及左右邻；

b)去常见词：利用分词字典去掉所有n-gram中的常见词；

c)n-gram成词度计算：统计每个n-gram出现的频率，并利用公式计算其互信息、左邻熵和右邻熵；最终经公式计算出一个n-gram的成词度；

d)n-gram热度趋势计算：通过公式计算每个n-gram的热度趋势，将n-gram的成词度计算公式与每个n-gram的热度趋势计算公式相乘得到一个n-gram的总得分；

e)n-gram聚类。

进一步，所述步骤c)中每个n-gram互信息的计算公式为：

M I (x, y) = P (x, y) * l o g (\frac{P (x, y)}{P (x) P (y)})

进一步，所述步骤c)中每个n-gram左邻熵的计算公式为：

L E (x) = - Σ_{i} P (x_{L e f t W o r d_{i}}) l o g (P (x_{L e f t W o r d_{i}})) .

进一步，所述步骤c)中每个n-gram右邻熵的计算公式为：

R E (x) = - Σ_{i} P (x_{R i g h t W o r d_{i}}) l o g (P (x_{R i g h t W o r d_{i}})) .

进一步，所述步骤c)中每个n-gram成词度的计算公式为：

W (x) = m i n {{M I (x_{k}, x_{k}^{'})}_{k}^{\min}, L E (x), R E (x)}

(其中k是对词x的切分位置)。

进一步，所述步骤d)中每个n-gram的热度趋势的计算公式为：

T S c o r e (x) = \frac{{Freq}_{t} (x)}{Σ_{i} λ^{i} {Freq}_{t - i} (x)}, λ \leq 1 i s a d e c a y c o e f f i c i e n t .

本发明具有以下积极的技术效果：

本发明不仅能够实时挖掘当下热点事件，并且在生成热门话题的同时，还会自动挖掘该话题的相关命名实体。

具体实施方式

下面结合具体实施方式对本发明做进一步的说明。

首先对本发明涉及到的一些相关概念做如下说明：

命名实体：人名、机构名、地名以及其他所有以名称为标识的实体。

命名实体识别：命名实体识别是信息抽取的一个子任务，目的在于定位并标识文本中出现的命名实体，命名实体识别的主要难点在于歧义问题。

Tf-idf：Tf-idf是用于评估一个词对于一篇文档重要性的模型。Tf是词频，指单词w在文档中d出现的频率，idf是逆向文档频率，指包含单词w的文档个数的倒数与总文档个数的乘积。

余弦相似度：两个维数相同的向量存在于同一空间，如果使用欧氏距离计算，会存在向量量级不同的问题。通过计算两个向量的余弦相似度可以很好的解决这个问题。

WQT聚类算法：WQT算法是对QT算法的改进，是基于贪心策略的聚类算法，待聚类的数据是按照重要性排序的，每次聚类过程，会首先将重要性高的节点加入到当前类中，之后每次选取距离当前类最近的点加入，直到所有数据点到当前类的距离都大于阈值，则该类聚类完成，开始对下一个类的聚类过程。

n-gram：n-gram是一种语言模型，在这种概率模型下，一个单词的出现的概率只与前面的n-1个词有关。

Nagao串频统计法：Nagao算法是快速统计文本子串的方法，该方法会建立三个表，分别是后缀表、前缀表和1Table，后缀表经过排序后，所有相同的子串都是相邻的，这样对词频的统计结果可以及时输出，而不需要在内存中驻留。

互信息：互信息是信息论里的一种信息度量，互信息的计算见公式[2.1]，随机变量X，Y的互信息可以理解为对X(Y)减少Y(X)的不确定性的度量，互信息是对随机变量相互性的度量。

熵：熵是信息论中的重要概念，熵用来衡量随机变量的不确定性，或者信息量的。熵越大的随机变量随机性越大，也因而包含更多的信息。其计算公式为H(X)＝∑_x∈C-p(x)×log(p(x))。

事件侦测：事件侦测指的是从周期性收集的数据中挖掘出有用的但却是较为异常、不常发生的事件，如疾病爆发检测等。

本发明能够实时挖掘当下热点事件，如“黄晓明Angelababy大婚”等，在生成热门话题的同时，还会自动挖掘该话题的相关命名实体(如、“美国”、“奥巴马”、“黄晓明”，“上海”等)、关键字(“出访”，“大国”，“婚礼”等)。

上述内容是一个完整的热门事件，其中：

·title：热门事件的标题

·score：对事件热度的度量

·alias：同一热门事件的不同标题，方便服务调用方进行检索

·keywords：热门事件的关键词，可以用来对新闻文档打标签

·entities：热门事件涉及的命名实体，方便服务调用方全面了解事件发生的地点、人物和机构

同时，每个alia、keyword、entity都附带一个得分，这个得分衡量该项的重要性，对于基于本系统进行后续研发系统来说，可以利用该得分计算相应指标。

本发明的方案由两种路线组成：

(1)爬取现有热词统计站点的热词，通过聚类、实体抽取、关键字挖掘等步骤，生成一系列的热门话题。本申请这种方法为基于热词爬取的方法。

(2)在大量新闻文档中抽取n-gram，通过计算n-gram的互信息，条件熵等值，在大量新闻文档中挖掘高频热词，并利用基于时间序列的事件侦测方法，识别新生话题。本申请称这种方法为基于热词生成的方法。

一、基于热词爬取的方法

首先爬取现有的热词统计站点的热词，这些热词由不同的搜索引擎提供商、新闻站点通过自己的方法生成，存在重复的情况。本申请使用贪心策略的WQT聚类方法将指代相同事件的热门话题聚成一类，并通过搜集搜索引擎的检索结果，进一步挖掘话题相关的关键词、命名实体。

(1)热词爬取

通过网络爬虫程序爬取众多热词站点，抽取其中的热词并存储。由于每个站点热词的结构字段不尽相同，所以我们定义了如下标准存储格式，如果热词某字段不存在，则存为空值。

(2)热词检索

使用商用搜索引擎，检索话题标题，并将返回页面中的前N个结果存储起来。存储的内容包括检索页面每个结果的标题、摘要、链接URL等。

(3)热词聚类

利用话题的标题、相应检索结果的标题和摘要计算不同话题之间的距离，并使用WQT方法聚类。具体来说，每个话题由3部分重要的信息组成：话题标题、检索结果中前N个标题、检索结果中前N个摘要。通过分析这3种信息可以生成描述话题的4个向量。系统首先对这3种文本进行分词，抽取其中的实体。本申请将N个标题、N个摘要看做两个整体进行分析，分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率，进而计算每个词的tf-idf值。这样每个话题会得到3个词频向量；另外，统计所有抽取出的实体的频率，得到1个实体向量。通过加权4个向量的余弦相似性得到两个话题的相似性：

s i m (t_{1}, t_{2}) = Σ_{k &Element; C} w_{k} \times \cos i n e_s i m (v_{1}^{k}, v_{2}^{k}) - - - 1.1

其中，集合C包括4种类型，分别是话题标题tf-idf、检索结果标题tf-idf、检索结果摘要tf-idf、实体频率。表示话题t₁的k类型向量，w_k表示k类型的权重，∑_k∈Cw_k＝1。

二、基于热词生成的方法

对于一段时间内的新闻文档集合，利用Nagao串频统计方法，统计所有n-gram(n≤N)出现的频率及左右邻。通过计算n-gram内部互信息和左右邻熵找到成词率高的单词，并利用时序分析的方法，计算n-gram的热度趋势。综合成词率和热度趋势，选择高于某阈值的词作为新生热词。最后利用和基于热词爬取类似的方法进行聚类。方法流程如下：

(1)n-gram生成

利用Nagao串频统计方法，统计所有n-gram(n≤N)出现的频率及左右邻。

(2)去常见词

利用分词字典去掉所有n-gram中的常见词。

(3)n-gram成词度计算

统计每个n-gram出现的频率，并利用公式[2.1，2.2，2.3]计算其互信息、左邻熵和右邻熵。

互信息衡量一个词的内聚程度，举例来说，对于“图书馆”这个词，我们可以分别计算在一个语料库中图书馆出现的概率P(“图书馆”)，以及P(“图书”)和P(“馆”)，如果P(“图书馆”)明显高于P(“图书”)和P(“馆”)的乘积，我们就可以确定，“图书馆”并不是由“图书”和“馆”随机独立拼凑起来的，而是相互依赖的，依赖程度越大的两个随机变量，其互信息也越大。上面蕴含的假设是“图书馆”由“图书”和“馆”拼凑而成，但机器并没有这样的先验知识，所以为了避免错误的分割，一个词的互信息值是有所有分割中的互信息的最小值确定的。

互信息衡量了词的内聚力，而左右邻熵衡量的是一个词的自由程度。之所以需要这个值是因为一些组合词的存在，例如“竞技项目”这个词，如果只考虑互信息，则更可能挖掘出更小的词，如“竞技”、“项目”，因为聚合少数的字更容易。如果“竞技”后面经常跟“项目”，或者“项目”前面经常有“竞技”，则可以把“竞技项目”整体当作一个词，因为一个词之所以能成为一个词，意味着它可以用在多种上下文中，也就是说它有丰富的左右邻，这样我们就可以用左右邻的熵来估计该词的自由程度。

文本片段的内聚程度和自由程度是一个权衡。只看内聚程度的话，程序会找出小词；只看自由程度，程序则只会看中上下文的丰富程度。

一个n-gram的成词率W可以表示为公式[2.4]，其中k表示对x分割的位置，x_k表示x的左子串，x′_k表示x的右子串。

M I (x, y) = P (x, y) * l o g (\frac{P (x, y)}{P (x) P (y)}) - - - 2.1

L E (x) = - Σ_{i} P (x_{{LeftWord}_{i}}) l o g (P (x_{L e f t W o r d_{i}})) - - - 2.2

R E (x) = - Σ_{i} P (x_{R i g h t W o r d_{i}}) \log (P (x_{R i g h t W o r d_{i}})) - - - 2.3

W (x) = m i n {{M I (x_{k}, x_{k}^{'})}_{k}^{\min}, L E (x), R E (x)} - - - 2.4

(4)n-gram热度趋势计算

通过公式[2.5]计算每个n-gram的热度趋势，该式可以看做将词x的频率与过去一段时间窗口内事件的频率加权作比较，分值越高的词热度上升趋势越大。将[2.4]与[2.5]相乘得到一个n-gram的总得分。

T S c o r e (x) = \frac{{Freq}_{t} (x)}{Σ_{i} λ^{i} {Freq}_{t - i} (x)}, λ \leq 1 i s a d e c a y c o e f f i c i e n t - - - 2.5

(5)n-gram聚类

利用和基于热词爬取的方法中类似的方法进行聚类。

上面所述只是为了说明本发明，应该理解为本发明并不局限于以上实施例，符合本发明思想的各种变通形式均在本发明的保护范围之内。

Claims

1.一种基于互联语料的热门话题自动挖掘系统，其特征在于，所述系统由两种路线组成：

2.根据权利要求1所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述路线1)具体为：

3.根据权利要求2所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述步骤(3)中加权4个向量的余弦相似性的计算公式为：

s i m (t_{1}, t_{2}) = \underset{k &Element; C}{Σ} w_{k} \times \cos i n e_s i m (v_{1}^{k}, v_{2}^{k})

4.根据权利要求1所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述路线2)具体为：

b)去常见词：利用分词字典去掉所有n-gram中的常见词；

e)n-gram聚类。

5.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述步骤c)中每个n-gram互信息的计算公式为：

M I (x, y) = P (x, y) * l o g (\frac{P (x, y)}{P (x) P {y)}) .

6.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述步骤c)中每个n-gram左邻熵的计算公式为：

L E (x) = - Σ_{i} P (x_{{LeftWord}_{i}}) l o g (P (x_{{LeftWord}_{i}})) .

7.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述步骤c)中每个n-gram右邻熵的计算公式为：

R E (x) = - Σ_{i} P (x_{{RightWord}_{i}}) l o g (P (x_{{RightWord}_{i}})) .

8.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述步骤c)中每个n-gram成词度的计算公式为：

W (x) = m i n {\begin{matrix} \min \\ k \end{matrix} {M I (x_{k}, x_{k}^{'})}, L E (x), R E (x)}

其中,k是对词x的切分位置。

9.根据权利要求4所述的基于互联语料的热门话题自动挖掘系统，其特征在于，所述步骤d)中每个n-gram的热度趋势的计算公式为：

T S c o r e (x) = \frac{{Freq}_{t} (x)}{Σ_{i} λ^{i} {Freq}_{t - i} (x)}, λ \leq 1 i s a d e c a y c o e f f i c i e n t .