CN110069703B

CN110069703B - 一种基于特征增强的微博话题检测方法

Info

Publication number: CN110069703B
Application number: CN201910219638.7A
Authority: CN
Inventors: 杨红天; 刘峰; 赵志宏; 刘博伟; 陈松宇
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2023-10-24
Anticipated expiration: 2039-03-19
Also published as: CN110069703A

Abstract

本发明公开了一种基于特征增强的微博话题检测方法。本发明针对微博话题检测存在的问题，从微博的时间特性和微博语义相似度出发对特征进行了增强，提升了Single‑Pass算法在微博话题检测场景下的表现。本发明通过将微博的时间特性融入到微博文本特征的相似度计算中，提高了属于同一话题的微博内容在时间维度上的关联度；通过使用分布式词向量表示微博，并利用其中的语义关系来增强微博关键特征，解决了微博特征稀疏的问题；为了减少了话题检测时微博与话题簇的比较次数，提出用于表示话题簇的“簇中心”概念，并围绕该概念进行计算。实验结果显示本发明简单易行，使用效果好，可以为微博话题检测提供实用方法。

Description

一种基于特征增强的微博话题检测方法

技术领域

本发明涉及微博话题检测技术领域，尤其涉及一种基于特征增强的微博话题检测方法。

背景技术

随着移动互联网的高速发展，越来越多的人通过互联网来获取资讯、分享信息。其中，新浪微博作为社交媒体平台，凭借其互动灵活、实时交流、简短快捷等特性吸引了大量的用户，每天有超过1亿条的信息发布。这些微博数据蕴含着大量时政信息与社会热点，挖掘微博中的话题不仅可以帮助用户及时了解时事信息，而且可以辅助政府进行舆情预警和舆论指导。

微博话题检测即微博话题发现，主要任务是通过对微博文本数据进行处理和分析，发现微博平台中预先未知的话题，本质是一种无指导的文本聚类过程。传统微博话题检测的研究利用向量空间模型(Vector Space Model，VSM)对微博文本进行特征表示，使用Single-Pass聚类算法检测微博中的热点话题。由于微博平台具有内容短小、用户活跃度高的显著特点，所以导致微博数据出现文本特征稀疏、话题更新频率高的问题，这使得传统微博话题检测方法效果不佳。

发明内容

为了克服传统微博话题检测中存在的不足，本发明从微博的时间特性和微博语义相似度出发对特征进行增强，提供了一种基于特征增强的微博话题检测方法。

其特征在于，包括如下步骤：

1)微博文本预处理，包括：

1.1)去除超短微博；

1.2)过滤无意义信息；

1.3)分词和词性标注；

2)微博文本向量化，包括：

2.1)特征词向量表示；

2.2)基于特征词语义增强的微博文本表示；

3)微博文本聚类，包括：

3.1)话题簇表示和基于时间衰减的微博文本相似度计算标准；

3.2)基于Single-Pass算法进行微博文本聚类；

3.3)输出话题簇。

所述步骤1.1)中，经过观察发现，文本长度小于10字符的微博，多是用户情感表达，不含有话题信息，本发明在预处理过程中删除这些超短微博。

所述步骤1.2)，微博中通常含有URL链接、转发信息、特殊字符、HTML标签等无意义的信息，影响分词结果和话题检测，本发明在预处理过程中使用正则匹配表达式进行过滤。具体的正则表达式如表1所示。

表1微博过滤正则表达式

类型	正则表达式
		URL链接	((https\|http\|ftp\|rtsp\|mms)？：\/\/)[^\s]+

转发信息	@[\u4e00-\u9fa5a-zA-Z0-9_-]{2，30}
		特殊字符	[.～！#$％\^\+\*&\\\/\？\\|：\.{}()′；＝″]
HTML标签	</？\w+[^＞]*＞>

所述步骤1.3)中，使用Jieba中文分词工具对微博进行分词和词性标注，并利用微博停用词表去除无意义的词。

所述步骤2)中，采用VSM对微博文本向量化，即微博m表示为：

m＝[t₁：w₁，t₂：w₂，…，t_n：w_n]

式中ti表示m中的第i个特征词，wi表示特征词ti的权重。

所述步骤2.1)中，本发明使用了分布式词向量表示特征词，并利用公开的基于Word2Vec的Skip-gram语言模型训练中文百科网页语料来生成词向量语料库。

所述步骤2.2)中，由于微博长度限制在140字，过于短小导致分词后特征稀疏，因此本发明利用词向量间的语义关系增强特征。根据步骤1.3)词性标注，抽取名词和形容词这些更能表达话题信息的词语作为关键词，利用预训练的词向量语料库，将与关键词语义最相似的前K个词加入到文本表示中。由于在词向量空间中，每个词为向量空间中的一个点，语义相似的点距离更近，并且词向量之间存在一定的线性关系，可以通过简单的线性组合产生有意义的表达，所以本发明利用词向量对关键词进行语义增强，公式如下：

式中表示预训练词向量，/>表示词向量ti和词向量t1的余弦相似度，α是权重系数，本发明选取参数值为K＝10，α＝0.9。

本发明采用增量TF-IDF方法计算特征词权重，根据时间处理新发布的微博后更新IDF值，公式如下：

式中c表示当前时间，N_c表示截止当前时间c总共的微博数量，n(t_i，c)表示截止当前时间c含有特征词t_i的微博数量，根据增量TF-IDF方法计算特征词t_i的权重w_i，并进行归一化处理，公式如下：

式中tf(t_i，m)表示特征词t_i在微博m中出现的频率，t_j表示微博m中的任一特征词。

本发明利用语义增强特征词向量t_{i_exp}和特征词权重wi将微博m的语义向量m_dis表示在固定维度的词向量空间模型中，公式如下：

所述步骤3)中，Single-Pass算法是数据流增量式聚类的经典方法，可以对微博平台进行从无到有的动态话题发现。

所述步骤3.1)中，由于微博话题对时间敏感，每个微博话题都有相对应的发生时间，因此本发明除了使用传统的文本表示话题簇之外，也将时间属性作为话题簇的衡量标准，即话题簇C表示为(C_txt，C_t)，式中C_txt和C_t表示话题簇C的“文本簇中心”和“时间簇中心”，其通过计算簇中所有微博的文本向量平均值和发布时间平均值来获得。在聚类过程中话题簇随着微博的添加而不断更新，添加新微博m后话题簇C的“文本簇中心”C_txt和“时间簇中心”C_t动态更新的公式如下：

式中C_{txt_old}和C_{t_old}表示未添加微博m前话题簇C的“文本簇中心”和“时间簇中心”，N表示添加微博m后话题簇C的微博数量，mi表示微博m的发布时间，本发明使用Unix时间戳来计算话题簇C的“时间簇中心”C_t。

对于Single-Pass算法的相似度计算，使用传统的夹角余弦公式计算微博m与话题簇C的“文本簇中心”C_txt的内容相似度sim_txt(m，C)，而且利用微博的时间特性，在微博m与话题簇C的内容相似度sim_txt(m，C)中融入时间衰减因子，得到微博m与话题簇C的相似度sim(m，C)，公式如下：

式中表示时间衰减因子，β是时间衰减参数，本发明选取参数值为β＝0.05。

所述步骤3.2)中，基于Single-Pass算法进行微博文本聚类，具体流程包括：

a)选取第一条微博作为初始话题簇；

b)输入新微博mi；

c)将mi与已有话题簇进行基于时间衰减的微博文本相似度计算，选择与mi相似度最大的话题簇并得到相似度值sim；

d)若sim大于相似度阈值T，则将mi加入到该话题簇中，更新该话题簇的“文本簇中心”C_txt和“时间簇中心”C_t，跳转至f)；

e)若sim小于相似度阈值T，则把mi创建为新的话题簇，跳转至f)；

f)若还有微博未处理，跳转至b)，否则，跳转至g)；

g)结束。

本发明选取参数值为T＝0.6。

所述步骤3.3)中，将步骤3.2)聚类过程中生成的话题簇输出，包括话题簇的时间中心值和话题簇中的微博文本。

与现有技术相比，本发明的有益效果是：基于特征增强的微博话题检测方法，通过增强微博关键词的语义信息，解决了文本特征稀疏的问题；通过采用词向量方法表示微博，丰富了文本语义信息，提高了话题检测时相似度计算效率；通过引入“簇中心”思想表示话题簇，减少了话题检测时微博与话题簇的比较次数；通过使用时间衰减的微博文本相似度计算方法，提升了同一话题中微博在时间上的关联度。

附图说明

图1为基于特征增强的微博话题检测方法流程图。

图2为微博文本预处理流程图。

图3为微博文本向量化流程图。

图4为微博文本聚类流程图。

图5为基于Single-Pass算法进行微博文本聚类的流程图。

图6为微博数据进行话题检测流程图。

具体实施方式

为了加深对本发明的理解，下面结合附图和实施例对本发明进一步说明，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

本发明提供一种基于特征增强的微博话题检测方法，如图1所示，本发明方法的流程主要包括：

步骤S1，微博文本预处理；

步骤S2，微博文本向量化及语义增强；

步骤S3，基于Single-Pass算法进行微博文本聚类。

由于用户发布的微博质量参差不齐，含有的噪声信息较多，因此，对数据进行预处理是挖掘话题信息的第一步。如图2所示，所述步骤S1，进一步包括：

步骤S1.1，去除超短微博。经过观察发现，文本长度小于10字符的微博，多是用户情感表达，不含有话题信息，在预处理过程中删除这些超短微博。

步骤S1.2，过滤无意义信息。微博中通常含有URL链接、转发信息、特殊字符、HTML标签等无意义的信息，影响分词结果和话题检测，在预处理过程中使用正则匹配表达式进行过滤。具体的正则表达式如表2所示。

表2微博过滤正则表达式

类型	正则表达式
		URL链接	((https\|http\|ftp\|rtsp\|mms)？：\/\/)[^\s]+
转发信息	@[\u4e00-\u9fa5a-zA-Z0-9_-]{2，30}
		特殊字符	[.～！#$％\^\+\*&\\\/\？\\|：\.{}()′；＝″]
HTML标签	</？\w+[^＞]*＞>

步骤S1.3，分词和词性标注。本发明使用目前主流的中文分词工具结巴(Jieba)进行微博分词和词性标注。针对分词结果中的标点符号、特殊表情、介词、助词、连词、语气词、感叹词等无明确意义的词语，本发明通过构建微博停用词表来去除。

通过步骤S1得到较为规范化的微博分词数据后，步骤S2采用VSM对文本进行向量化，即微博m表示为：

m＝[t₁：w₁，t₂：w₂，…，t_n：w_n]

式中t_i表示m中的第i个特征词，w_i表示特征词t_i的权重。如图3所示，所述步骤S2，进一步包括：

步骤S2.1，特征词向量表示。本发明采用了分布式词向量表示特征词，并利用公开的基于Word2Vec的Skip-gram语言模型训练中文百科网页语料来生成词向量语料库。

步骤S2.2，基于特征词语义增强的微博文本表示。由于微博长度限制在140字，过于短小导致分词后特征稀疏，因此本发明利用词向量间的语义关系增强特征。根据步骤S1.3词性标注，抽取名词和形容词这些更能表达话题信息的词语作为微博的关键词，利用预训练的词向量语料库，将与关键词语义最相似的前K个词融入到文本表示中。由于在词向量空间中，每个词为向量空间中的一个点，语义相似的点距离更近，并且词向量之间存在一定的线性关系，可以通过简单的线性组合产生有意义的表达，所以本发明利用词向量对关键词进行语义增强，公式如下：

式中表示预训练词向量，/>表示词向量t_i和词向量t₁的余弦相似度，α是权重系数，本发明选取参数值为K＝10，α＝0.9。

式中tf(t_i，m)表示特征词ti在微博m中出现的频率，t_j表示微博m中的任一特征词。

为了更好地表达文本语义信息，提高话题检测时相似度计算效率，本发明利用语义增强特征词向量t_{i_exp}和特征词权重w_i将微博m的语义向量m_dis表示在固定维度的词向量空间模型中，公式如下：

本发明采用基于Single-Pass算法进行微博文本聚类。如图4所示，所述步骤S3，进一步包括：

步骤S3.1，话题簇表示和基于时间衰减的微博文本相似度计算标准。由于微博话题对时间敏感，每个微博话题都有相对应的发生时间，因此本发明除了使用传统的文本表示话题簇之外，也将时间属性作为话题簇的衡量标准，即话题簇C表示为(C_txt，C_t)，式中C_txt和C_t表示话题簇C的“文本簇中心”和“时间簇中心”，其通过计算簇中所有微博的文本向量平均值和发布时间平均值来获得。新产生的微博只与“簇中心”进行相似度比较，减少计算量，提高话题聚类的时间效率。在聚类过程中话题簇随着微博的添加而不断更新，添加新微博m后话题簇C的“文本簇中心”C_txt和“时间簇中心”C_t动态更新的公式如下：

式中C_{txt_old}和C_{t_old}表示未添加微博m前话题簇C的“文本簇中心”和“时间簇中心”，N表示添加微博m后话题簇C的微博数量，m_t表示微博m的发布时间，本发明使用Unix时间戳来计算话题簇C的“时间簇中心”C_t。

对于Single-Pass算法的相似度计算，本发明使用传统的夹角余弦公式计算微博m与话题簇C的“文本簇中心”C_txt的内容相似度sim_txt(m，C)，而且利用微博的时间特性，在微博m与话题簇C的内容相似度sim_txt(m，C)中融入时间衰减因子，得到微博m与话题簇C的相似度sim(m，C)，公式如下：

步骤S3.2中，基于Single-Pass算法进行微博文本聚类。如图5所示，具体流程包括：

a)选取第一条微博作为初始话题簇；

b)输入新微博m_i；

c)将m_i与已有话题簇进行基于时间衰减的微博文本相似度计算，选择与m_i相似度最大的话题簇并得到相似度值sim；

e)若sim小于相似度阈值T，则把m_i创建为新的话题簇，跳转至f)；

f)若还有微博未处理，跳转至b)，否则，跳转至g)；

g)结束。

本发明选取参数值为T＝0.6。

步骤S3.3中，输出话题簇。将步骤S3.2聚类过程中生成的话题簇输出，包括话题簇的时间中心值和话题簇中的微博文本。

对于从新浪微博平台产生的微博数据，本发明采用如图6所示的流程进行微博热点话题的检测，主要包括微博文本预处理、微博文本向量化及语义增强和基于Single-Pass算法进行微博文本聚类三个流程将微博数据进行高效地分析处理，挖掘出数据中蕴含的话题信息。

以上所述，仅为本发明的较佳实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.一种基于特征增强的微博话题检测方法，其特征在于，包括如下步骤：

1)微博文本预处理，包括：

1.1)去除超短微博；

1.2)过滤无意义信息；

1.3)分词和词性标注；

2)微博文本向量化，包括：

2.1)特征词向量表示；

2.2)基于特征词语义增强的微博文本表示，利用语义增强特征词向量t_{i_exp}和特征词向量权重w_i将微博m的语义向量m_dis表示在固定维度的词向量空间模型中，公式如下：

3)微博文本聚类，包括：

3.1)话题簇表示和基于时间衰减的微博文本相似度计算标准；在相似度计算中，使用夹角余弦公式计算微博m与话题簇C的“文本簇中心”C_txt的内容相似度sim_txt(m，C)，而且利用微博的时间特性，在微博m与话题簇C的内容相似度sim_txt(m，C)中融入时间衰减因子，得到微博m与话题簇C的相似度sim(m，C)，公式如下：

式中表示时间衰减因子，β是时间衰减参数，β＝0.05；

3.2)基于Single-Pass算法进行微博文本聚类；

3.3)输出话题簇；

步骤2.2)所述的基于特征词语义增强的微博文本表示，包括根据词性标注，抽取名词和形容词作为关键词，并利用预训练的词向量语料库，将与关键词语义最相似的前K个词加入到文本表示中，公式如下：

式中表示预训练词向量，/>表示特征词向量t_i和特征词向量t_l的余弦相似度，α是权重系数，参数值选取为K＝10，α＝0.9；

采用增量TF-IDF方法计算特征词权重，根据时间处理新发布的微博后更新IDF值，公式如下：

式中c表示当前时间，N_c表示截止当前时间c总共的微博数量，n(t_i，c)表示截止当前时间c含有特征词向量t_i的微博数量，根据增量TF-IDF方法计算特征词向量t_i的权重w_i，并进行归一化处理，公式如下：

式中tf(t_i，m)表示特征词向量t_i在微博m中出现的频率，t_j表示微博m中的任一特征词向量；

步骤3.1)所述的话题簇表示和基于时间衰减的微博文本相似度计算标准，包括除了使用文本表示话题簇之外，也将时间属性作为话题簇的衡量标准，C_txt和C_t表示话题簇C的“文本簇中心”和“时间簇中心”，分别通过计算簇中所有微博的文本向量平均值和发布时间平均值来获得，在聚类过程中话题簇C随着微博的添加而不断更新，添加新微博m后话题簇C的“文本簇中心”C_txt和“时间簇中心”C_t动态更新的公式如下：

式中C_{txt_old}和C_{t_old}表示未添加微博m前话题簇C的“文本簇中心”和“时间簇中心”，N表示添加微博m后话题簇C的微博数量，m_t表示微博m的发布时间，使用Unix时间戳来计算话题簇C的“时间簇中心”C_t。