CN104216964A

CN104216964A - 一种面向微博的非分词突发话题检测方法

Info

Publication number: CN104216964A
Application number: CN201410416127.1A
Authority: CN
Inventors: 杨武; 伸国伟; 王巍; 苘大鹏; 宣世昌
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2014-08-22
Filing date: 2014-08-22
Publication date: 2014-12-17
Anticipated expiration: 2034-08-22
Also published as: CN104216964B

Abstract

本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非分词突发话题检测方法。本发明包括：语料预处理，构建动态的微博检测窗口；将微博内容切分成单个汉字，并构建字典；计算突发特征字集合；计算由特征字组成的突发话题；生成有意义词或串，形成由词或串表示的突发话题。本发明提出了一种无须中文分词的微博突发话题检测方法，对中文微博消息内容事先不做中文分词，而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后对突发特征实体中的中文汉字构词，能够提高检测方法的整体性能，提高对新词、口语化串的召回率。

Description

一种面向微博的非分词突发话题检测方法

技术领域

本发明涉及利用计算机技术辅助网络信息智能分析或舆情的一种面向微博的非分词突发话题检测方法。

背景技术

随着移动互联网的兴起，我国新浪、腾讯等微博快速崛起。新浪微博注册用户数已突破2亿，腾讯微博注册用户已超过1.6亿。我国微博网络中每天产生的微博消息数量超过3亿条，微博平台已经成为人们日常生活、获取新闻资讯的主要渠道之一。由于微博的推送机制，使得微博消息在网络中快速传播，产生巨大的传播影响力。

微博给人们提供资讯的同时，也增加了社会管理的难度。现实社会中的事件在微博网络中快速扩散，迅速演变成突发事件，产生巨大的社会影响力。突发事件中还包含了大量的虚假信息、谣言消息等，仅仅靠官方账号发动网民的举报和辟谣，或是当事人在第一时间出来辟谣，已远远不能满足如今网络信息传播的速度，而虚假的信息往往给政府、企业、及知名人士带来负面的影响。因此需要通过技术手段实时检测微博网络中的突发事件，为危机管理、辟谣等提供基础。

如何对微博网络中的消息进行有效监测，是国家政府及网络监管部门面临的一大课题。仅仅靠人工进行搜集和浏览，不仅会消耗大量的人力、物力，并且难以及时、准确、全面把握微博舆论的敏感内容和传播趋势。使用微博舆情监测预警软件能第一时间发现相关微博内容，对突发话题及敏感信息进行预警，并能随时掌握舆论关注动向及关注趋势强弱变化。微博舆情监测软件是各级政府、网络监督部门、品牌企业上市公司掌握微博舆情的好帮手。因此，伴随着微博监测预警软件的投入使用，对微博内容的健康有序管理起到积极的推动作用。

目前虽然有很多面向微博的舆情监测、预警软件，但大多数软件都是在中文分词的基础上实现。微博网络中包含大量的社会化、口语化的词语，基于分词的方法很难检测由新词或串诱导的突发话题。

发明内容

本发明的目的在于提供一种提高检测方法的整体性能的面向微博的非分词突发话题检测方法。

本发明的目的是这样实现的：

步骤1：语料预处理，构建动态的微博检测窗口；

步骤2：将微博内容切分成单个汉字，并构建字典；

步骤3：计算突发特征字集合；

步骤4：计算由特征字组成的突发话题；

步骤5：生成有意义词或串，形成由词或串表示的突发话题。

语料预处理的步骤为：

步骤1.1：依据微博发布时间序抽取微博消息元素；

步骤1.2：微博窗口划分，基于小波分析思想将微博消息流动态划分微博窗口。

将微博内容切分成单个汉字，并构建字典步骤为：

步骤2.1，直接将每一条微博消息以字为单元进行切分，无需去除停用词；

步骤2.2，按照字典序进行存储，支持高效查找和动态更新。

计算突发特征字集合步骤为：

步骤3.1，遍历字典，依据历史特征权值和检测窗口中的突发特征权值判定当前检测窗口是否发生突发；

步骤3.2，更新历史窗口中字的特征权值，依据生命周期模型中的老化理论，更新字的特征权值；

步骤33，计算当前检测窗口中字的突发特征权值，在考虑用户的粉丝数、消息的转发数和评论数基础上计算字的影响力，并将字的影响力作为突发特征权值。

计算由特征字组成的突发话题步骤为：

步骤4.1，构建突发特征字与消息、用户之间的关系矩阵；

步骤4.2，通过联合聚类算法对关系矩阵进行计算，得到实体、消息、用户的聚类指示矩阵。

生成有意义词或串，形成由词或串表示的突发话题的步骤为：

步骤5.1，对于每一个话题中的汉字以及对应的消息作为样本集合，计算话题中任意两个字之间的聚合程度；

步骤5.2，计算话题中左右边界字的熵；

步骤5.3，依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。

生成字典步骤包括：

步骤2.2.1，字典为空，则根据汉字的字典序插入到字典中；

步骤2.2.2，若字典不为空并已存在字典中，则直接将该字在当前检测窗口中的关联信息增加到字典中；

步骤2.2.3，若字典不为空且不存在字典中，基于字典序实现二分查找，依据查找返回结果得到字典序号，将该字插入字典，字典当前序号后面的字依次后移。

本发明的有益效果在于：

1)本发明提出了一种无须中文分词的微博突发话题检测方法，对中文微博消息内容事先不做中文分词，而是将汉字和英文单词、图片、视频、外部链接等作为单个实体。最后对突发特征实体中的中文汉字构词，能够提高检测方法的整体性能，提高对新词、口语化串的召回率。

2)从影响力的角度提出突发权值的计算方法，并且引入权值的衰减机制，能够过滤掉一些垃圾用户、水军等的影响。

3)本发明同时对突发特征实体、消息、用户进行联合聚类分析，在检测话题的同时，识别参与话题的用户。为突发话题提供尽可能多的信息，为微博舆情危机管理提供了可控、可管的可能。

附图说明

图1系统检测框架图。

图2突发检测中字典的存储结构。

图3生成新词的过程图。

具体实施方式

现有的基于中文分词的突发话题检测方法都是基于特征词的词频信息进行检测。对于中文微博来说，首先要进行中文分词，构造特征词的特征轨迹，根据一定的突发检测算法计算出突发特征词，然后用关联度高的特征词集合来表示突发话题。

对于中文微博来说，这种方法有一定的缺陷性。因为微博用户的多样性，致使微博用语具有灵活、不规范的特点，例如屌丝、薄谷开来、舌尖上的中国、唐山地震等词或串。微博中出现大量的由新词或串诱导的突发话题，而根据中文分词词典则无法划分出这些新词或有意义串，从而无法准确发现微博中的突发话题。

正是基于目前微博突发话题检测方法存在的不足，本专利提出一种基于特征字的突发话题检测方法。该方法无需中文分词。将文本消息流分成一个一个独立的汉字，直接检测当前时间窗口的突发字集合，然后计算这些字之间的相关度形成突发话题，采用一定的新词发现方法把突发特征字组合成有意义的特征词或串，从而表示突发话题。整体检测流程如图1所示，具体分为五个步骤。

步骤A：语料预处理；

步骤B：生成字典；

步骤C：计算突发特征字；

步骤D：计算由特征字组成的突发话题；

步骤E：生成有意义词或串，表示突发话题。

所述步骤A包括些下列步骤：

步骤A1，依据微博发布时间序抽取微博消息元素；

步骤A2，微博窗口划分，基于小波分析思想将微博消息流动态划分微博窗口。

所述步骤B包括些下列步骤：

步骤B1，直接将每一条微博消息以字为单元进行切分，无需去除停用词等；

步骤B2，按照字典序进行存储，支持高效查找和动态更新。

所述步骤C包括些下列步骤：

步骤C1，遍历字典，依据历史特征权值和检测窗口中的突发特征权值判定当前检测窗口是否发生突发；

步骤C2，更新历史窗口中字的特征权值，依据生命周期模型中的老化理论，更新字的特征权值；

步骤C3，计算当前检测窗口中字的突发特征权值，在考虑用户的粉丝数、消息的转发数和评论数基础上计算字的影响力，并将字的影响力作为突发特征权值。

所述步骤D包括些下列步骤：

步骤D1，构建突发特征字与消息、用户之间的关系矩阵；

步骤D2，通过联合聚类算法对关系矩阵进行计算，得到实体、消息、用户的聚类指示矩阵。

所述步骤E包括些下列步骤：

步骤E1，对于每一个话题中的汉字以及对应的消息作为样本集合，计算话题中任意两个字之间的聚合程度；

步骤E2，计算话题中左右边界字的熵；

步骤E3，依据聚合程度和左右边界字的熵值判定是否可生产一个有意义词或串。

所述步骤B2包括些下列步骤：

步骤B21，字典为空，则根据汉字的字典序插入到字典中；

步骤B22，若字典不为空并已存在字典中，则直接将该字在当前检测窗口中的关联信息增加到字典中；

步骤B23，若字典不为空且不存在字典中，基于字典序实现二分查找，依据查找返回结果得到字典序号，将该字插入字典，字典当前序号后面的字依次后移。

为了完成本发明，针对微博消息流的非分词突发话题检测进行如下实施，并给出具体的实施方案。

(一)在步骤A中，按照微博发布时间重构微博消息流，针对每一条微博消息m_i进行元素抽取，包括用户信息(粉丝数、关注数、发布微博消息总数)和消息属性信息(消息发布时间、转发数、评论数)。借鉴小波变换的多分辨率分析的思想，提出了动态窗口选择算法，如算法1所示。算法中的微博窗口和滑动窗口阈值参数α、β可调整，|·|为对应的消息数目。算法中第1步可根据实际微博流量大小通过参数α调整微博窗口大小，第4步动态调整滑动窗口大小。因此，在微博消息流量较大时，对应的时间间隔则较小，而在晚上微博数较少时，则扩大对应的时间间隔。

算法1：动态窗口选择算法.

输入：ms：微博消息流；α：微博窗口调整系数；β：滑动窗口调整系数

输出：sw：滑动窗口。

① for each m_i∈ms do

② 按照时间t划分到时间片s^t中；

③ if|w_j|＞(|s^t|×α)/t//微博窗口选择，|s^t|为时间片s^t的大小。

④ if|sw|>(|s^t|×β)/t//滑动窗口选择

⑤ 输出sw＝[w₁,...,w_S]；//w₁,w_s为微博窗口

⑥ else

⑦ 滑动窗口扩大1个微博窗口；

⑧ else

⑨ 将s^t中的消息加入到微博窗口w_j；

⑩ end for

(二)在步骤B中，针对每一条消息，以字、图片、链接为单位构建字典，并按照字典序组织存储，方便查找，具体存储结构如图2所示。构建字典时，若字典为空，则根据汉字的字典序插入到字典中。若字典不为空则分两种情况进行处理，(a)待插入的字已存在字典中，则直接将该字在当前检测窗口中的关联信息增加到字典中；(b)待插入的字不存在字典中，基于字典序实现二分查找，依据查找返回结果得到字典序号，将该字插入字典，字典当前序号后面的字依次后移。

(三)在步骤C中，计算特征字k的突发值，构造带权序列其中为特征字k在第n个时间窗口的权重。本发明中采用影响力作为实体的权值，消息m_i中的第j个实体对应的影响力权值计算如公式(1)，该式括号中第一项为用户影响力，第二项为消息影响力。

I_{j}^{S} = \frac{f_{j}^{m_{i}}}{| m_{i} |} (\frac{{Fan}_{i}}{{Fan}_{\max}} \times {tp}_{i} + γ \times (R_{i} + \sqrt{C_{i}})) - - - (1)

其中Fan_i为发布m_i消息的用户粉丝数，R_i为曝光消息m_i中原始消息的转发数，C_i为曝光消息m_i中原始消息的评论数，为实体j在m_i中出现的次数，|m_i|为消息总长度，tp_i为用户影响力权重系数，max为归一化系数，

微博具有很强的实时性，其消息影响力随着时间的推移快速衰减，因此，实体的影响力权值同样是快速衰减的。窗口S中的实体j对应的突发特征权值计算如公式(2)。

{burst}_{j}^{S} = Σ_{l = 1}^{l = S} ({(I_{j}^{S})}^{2} - {({EI}_{j}^{l})}^{2}) \times \frac{1}{S - l} - - - (2)

在滑动窗口sw中，前S-1个窗口为历史背景信息，第1个窗口对本窗口的影响最小，第S-1个窗口的值对本窗口影响最大，因此，公式2中通过窗口序列距离S-l作为衰减系数。由于单个窗口的随机性较大，对于第l个历史窗口值，采用第l个窗口临近的σ个窗口的均值作为背景值，减少随机噪声的影响。

如果实体j的突发权值大于阈值，则作为候选突发特征实体，为话题检测算法提供突发实体集合。

(四)在步骤D中，计算突发话题。通过比较突发特征权值识别出来的实体数目较少，其规模远远小于原始的实体规模。突发实体太少，不利于清晰的表达主题，因此，对实体进行扩充。从初始化过程中得到实体-消息矩阵EM、消息-用户矩阵MU中抽取突发特征实体对应消息中的其他实体，进而得到话题分析的两个新关系矩阵：实体-消息矩阵E、消息-用户矩阵U。为了控制E、U的规模，只考虑从转发数和用户粉丝数较多的消息中抽取实体。

对新的关系矩阵E、U同时进行聚类分析，得到话题的同时得到其关联的消息集合、用户集合。本文采用基于非负矩阵三分解的联合聚类算法同时对二个关系矩阵E、U进行聚类分析。基于非负矩阵三分解的联合聚类问题将其转换成优化问题进行求解，对应的目标函数为公式(3)，式中P_E、P_M、P_U分别为实体、消息、用户的聚类指示矩阵，为聚类结果对应的关联矩阵。

\min_{P_{U} &GreaterEqual; 0, P_{E} &GreaterEqual; 0, P_{M} &GreaterEqual; 0} {| | E - P_{E} \tilde{E} P_{M} | |}^{2} + {| | U - P_{U} \tilde{U} P_{M} | |}^{2} - - - (3)

(五)在步骤E中，通过新词识别过程计算话题中的突发特征描述词或串。突发话题检测算法得到实体的划分集合，对于实体中的中文汉字，需要形成有意义的词或串，表达清晰的语义。对于每一个话题中的汉字以及对应的消息作为样本集合D，按照公式(4)计算话题中任意两个字x，y之间的聚合程度T(x,y)，按照公式(5)、(6)分别计算左右边界字的熵E_L(w)、E_L(w)。新词识别流程如图3所示。

T (x, y) = \lg \frac{P (x, y)}{P (x) P (y)} - - - (4)

其中P(x,y)为字x,y在D中同时出现的概率，p(x),p(y)分别为字x,y在D中出现的概率。

E_{L} (w) = - \frac{1}{\underset{a_{i} &Element; A}{Σ} N (w, a_{i})} \underset{a_{i} &Element; A}{Σ} N (w, a_{i}) \lg \frac{N (w, a_{i})}{\underset{a_{i} &Element; A}{Σ} N (w, a_{i})} - - - (5)

E_{R} (w) = - \frac{1}{\underset{b_{i} &Element; B}{Σ} N (w, b_{i})} \underset{b_{i} &Element; B}{Σ} N (w, b_{i}) \lg \frac{N (w, b_{i})}{\underset{a_{i} &Element; B}{Σ} N (w, b_{i})} - - - (6)

其中N(w,a_i)，N(w,b_i)分别是词语w的左单字a_i和右单字b_i出现的次数，A，B分别词w的左字集合和右字集合。

(六)实验验证

为了验证本发明的有效性，我们搭建了典型应用环境。首先收集微博数据集，通过多个实验室合作的方式，按任务进行分布式抓取，通过微博ID和微博发布时间对抓取的消息进行过滤，选择2012年9月30日到10月6日期间的微博作为本实验的数据集，共计三千五百万条消息。

1)准确性对比实验

面向微博消息流的突发话题检测没有标准测试集，通过人工标记话题的方式构造测试数据集。在9月30到10月6日之间，标记10个话题。根据话题的特征实体分别从数据集中将话题关联的消息抽取出来。为了更真实的模拟实际数据流，在抽取话题关联的微博消息基础上，增加与该话题无关的消息流作为背景数据，增大数据流的规模，模拟真实微博消息流。

通过回放构造的数据流，对比分析本文算法Burst_I与三种常用的微博突发话题检测算法的准确率。基于标签的算法Burst_T只考虑消息中的标签内容。基于频率的算法Burst_F在计算突发特征实体时只考虑词频信息，而基于行为的算法Busrt_B中的突发权值只计算消息的转发数和评论数，并且同一消息中不同实体的权值一样。

对比实验结果表明，本文算法Burst_I能够准确识别9个话题，比其他相关对比算法的准确性要高。

2)大规模消息流检测实验

该实验中通过对原始数据集进行检测，共计检测出48个话题。选择同时被算法Burst_I和算法Burst_B检测出来的12个突发话题进行分析。针对“中国好声音，梁博冠军”、“京津唐高速追尾”两个话题，算法Burst_I比Burst_B都能更早地检测到结果。尽可能早的识别突发事件，能够为舆情处置、危机公关留出决策时间。

“中国海监巡航钓鱼岛”话题是一个热点话题，但是由于讨论钓鱼岛相关的消息总数多，瞬间的波动就可能满足突发特征阈值，因此，将该话题也识别为突发话题。针对这种随机噪声导致的突发，可对连续两个窗口进行检测，只有都满足时才认为突发，进而过滤掉随机噪声。

针对“中国好声音，梁博冠军”的话题进行详细分析，在中国好声音巅峰之夜的直播过程中，形成了两个峰值，分别是9月30日的23点45分和10月1日0点45分。在第二个峰值前检测到该突发话题，在检测窗口内，通过对突发特征实体、消息、用户进行联合聚类分析，得到话题的十个特征描述词。“广告”关联的消息数仅次于“中国好声音”、“梁博”两个词，这是因为检测到话题时，中国好声音直播刚刚结束，大家对直播过程中过多的广告表示不满。

Claims

1.一种面向微博的非分词突发话题检测方法，其特征在于：包括以下步骤：

步骤1：语料预处理，构建动态的微博检测窗口；

步骤2：将微博内容切分成单个汉字，并构建字典；

步骤3：计算突发特征字集合；

步骤4：计算由特征字组成的突发话题；

步骤5：生成有意义词或串，形成由词或串表示的突发话题。

2.根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述语料预处理的步骤为：

步骤1.1：依据微博发布时间序抽取微博消息元素；

3.根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述将微博内容切分成单个汉字，并构建字典步骤为：

步骤2.2，按照字典序进行存储，支持高效查找和动态更新。

4.根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述计算突发特征字集合步骤为：

5.根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述计算由特征字组成的突发话题步骤为：

步骤4.1，构建突发特征字与消息、用户之间的关系矩阵；

6.根据权利要求1所述的一种面向微博的非分词突发话题检测方法，其特征是：所述生成有意义词或串，形成由词或串表示的突发话题的步骤为：

步骤5.2，计算话题中左右边界字的熵；

7.根据权利要求1或4所述的一种面向微博的非分词突发话题检测方法，其特征是：所述生成字典步骤包括：

步骤2.2.1，字典为空，则根据汉字的字典序插入到字典中；