CN111985247B

CN111985247B - 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

Info

Publication number: CN111985247B
Application number: CN202010895778.9A
Authority: CN
Inventors: 李弼程; 郁友琴; 杜文倩; 王成; 皮慧娟
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-08-26
Anticipated expiration: 2040-08-31
Also published as: CN111985247A

Abstract

一种基于多粒度文本特征表示的微博用户兴趣识别方法，包括：对获取的语料进行预处理，包括文本清洗、分词、去停用词和数据过滤；从主题层、词序层和词汇层三个方面构造文本向量；对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示；将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估。本发明提供的方法，综合多粒度文本特征的考量，提高了模型的表征能力，进而提高文本分类的准确性，达到精准分类的效果，能够解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。

Description

一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

技术领域

本发明涉及信息检索与推荐领域，特别是指一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统。

背景技术

伴随着互联网时代的飞速发展，我国网民规模日益庞大，互联网普及率不断攀升，人们可以随时随地从网络中获取所需信息，为当代生活提供了便利。然而信息爆炸式的增长，从信息匮乏时代快速进入了过载时代，导致网民们被信息泛滥的问题困扰。从海量信息中挖掘出用户兴趣实施精准的个性化推荐，可以有效缓解信息过载的问题，从而提高用户的体验感和满意度。因此，用户兴趣挖掘具有十分重要的现实意义。

微博作为一种基于用户关系实现信息分享、传播互动的社交媒体，其内容的精简性、时效性和原创性吸引了广大的网民群众，成为用户获取新闻资讯和各界信息的重要网络平台。该平台等同于一个兴趣社区，用户发表、转发、点赞、收藏等行为都能够反映其个人兴趣偏好。但无时无刻都有用户在发送、传播和接收信息，难以完整捕捉其行为轨迹，用户兴趣变得离散化。再加上微博文本碎片化、口语化、更新快等特点，加大了挖掘用户兴趣的难度。对微博内容进行有效的特征提取成为研究的重难点。

目前社交网络中用户兴趣识别的方法主要有以下两类：基于用户行为的兴趣识别和基于用户内容的兴趣识别。基于用户行为的兴趣识别主要是通过用户的交互行为分析用户之间的相似性，包括关注、点赞、转发、评论等行为，从而提取出用户的兴趣。基于用户内容的兴趣识别主要是进行文本分析，LDA可以有效地从全局预测信息，对文本的整体语义进行表达，具有可解释性和降维能力，但它又是一种典型的词袋模型，没有考虑文档中词与词之间的顺序，并且主题与主题之间存在弱相关性，导致主题语义的不连贯。Word2Vec模型将词汇映射为包含上下文词义信息的词向量，有效地从局部预测信息，解决了特征稀疏和语义联系的问题，但不具有可解释性。此外，社交网络短文本噪声大、不规范、特征稀疏，传统词袋模型的文本表示显然无法满足对其进行深层次的表征，且仅从单个层面对文本信息进行挖掘也是不够的。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于多粒度文本特征表示的微博用户兴趣识别方法，解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。

本发明采用如下技术方案：

一种基于多粒度文本特征表示的微博用户兴趣识别方法，包括以下步骤：

对获取的语料进行预处理，包括文本清洗、分词、去停用词和数据过滤；

从主题层、词序层和词汇层三个方面构造文本向量：利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量；对文本分词进行词向量训练，通过LSTM获取语义向量；根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量；

对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示；

将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估。

具体地，对获取的语料进行预处理，具体为：

包括文本清洗、结巴分词、去停用词，并利用正则表达式和停用词表过滤掉数据中无意义的内容，得到词典库。

具体地，所述利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量，具体为：

根据预处理完的语料的词频信息建立词典，对文档进行BOW编码；

输入LDA模型中，对文档特征降维，得到文档的主题分布和对应主题的词语分布，进而提取出文档的主题特征词；

将所述主题特征词输入到Word2Vec模型中进行词向量训练，主题向量集合表示为：

T＝[T₁，T₂，…，T_K]∈R^K×a

式中，a为词向量的维度，K为主题数，T_k表示第k个主题的向量，R^K×a表示一个行为主题个数，列为词向量维数的矩阵。

分别对文档的所有主题向量取平均，获取文档集合D的主题向量表示：

式中，t_d表示第d篇文档的主题向量，R^D×a表示一个行为文档数，列为词向量维数的矩阵。

具体地，所述对文本分词进行词向量训练，通过LSTM获取语义向量，具体为：

将分词文本输入词嵌入层，对每一个词进行向量化表示；

将词向量按序列输入LSTM模型中进行特征提取：

h_t＝LSTM(x_t)，t∈[1，n]

式中，x_t表示文档序列中第t个词的词向量输入，h_t表示一篇文档的语义特征向量。

按上述方式对文档集合D进行语义编码，获取文档集合D的语义向量表示：

式中，c为LSTM模型的向量维度，h_d表示第d篇文档的语义向量，R^D×c表示一个行为文档数，列为向量维数的矩阵。

具体地，所述根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量，具体为：

根据AI Lab开源词向量表示词汇，将预处理后的分词文本匹配词向量数据，分别把文档中匹配到的向量进行加权取平均，没有匹配到的词的向量判为0，获取文档集合D的词义特征向量表示：

式中，z_d表示第d篇文档的词义向量，R^D×200表示一个行为文档数，列数为200的矩阵。

具体地，对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示，具体为：

将LDA结合Word2Vec提取的主题向量与LSTM提取的语义向量拼接，构建包含文档主题抽象描述和词序语义表达的文本特征表示模型LSTM_LDA_W2V；

结合AI Lab开源词向量得到的词义向量，构建包含词粒度和语义粒度的文本特征表示模型ALL2Vec；

文档集合D的向量化表示可描述为：

式中，

为拼接运算符。

具体地，所述将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估，具体包括：

将多粒度文本特征表示矩阵输入CNN中进行分类模型训练；

利用softmax分类器获取样本的预测标签；

式中，S_k表示输出向量S的第k个值，v_k表示输入向量中的第k个值，v_t表示输入向量中的所有值，T表示类别数量；

采用文本分类问题评价指标准确率、精准率、召回率、F1值、宏平均F1以及权平均F1进行效果评估。

本发明另一方面还提供一种基于多粒度文本特征表示的微博用户兴趣识别系统，包括：

预处理单元：用于对语料进行预处理，包括文本清洗、分词、去停用词和数据过滤；

文本向量获取单元：从主题层、词序层和词汇层三个方面构造文本向量：利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量；对文本分词进行词向量训练，通过LSTM获取语义向量；根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量；

向量融合单元：用于对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示；

分类识别单元：将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明通过分别获取主题向量、语义向量和词义向量，并进行拼接融合，综合多粒度文本特征的考量，提高模型的表征能力，进而提高文本分类的准确性，达到精准分类的效果，解决了社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题，也可用于用户兴趣挖掘、网络用户画像以及个性化信息推荐等。

附图说明

图1为本发明整体流程图；

图2为主题特征提取流程图；

图3为LDA主题生成模型图；

图4为语义特征提取流程图；

图5为LSTM模型结构图；

图6为卷积神经网络分类模型图；

图7为损失值随迭代次数变化图。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

如图1，是本发明实施例一种基于多粒度文本特征表示的微博用户兴趣识别方法的流程图。

S10:对获取的语料进行预处理，包括文本清洗、分词、去停用词和数据过滤；

对初始语料进行一系列预处理，主要包括文本清洗、结巴分词、去停用词等。利用正则表达式和停用词表(百度停用词表、中文停用词表、哈工大停用词表和四川大学机器智能实验室停用词表)过滤掉数据中的表情符号、相同词、分词后数据为空以及预处理后词数小于3的文本，还有一些常出现但无意义的词语，比如“转发微博”、“分享图片”、“Repost”等，最终得到可用的词典库。

S20:从主题层、词序层和词汇层三个方面构造文本向量：利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量；对文本分词进行词向量训练，通过LSTM获取语义向量；根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量；

本发明实施例分别从主题层面、词序层面和词汇层面对文本特征进行提取，构建多粒度的文本特征表示模型，具体分为以下三部分：

S201:利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量主题特征提取流程图如图2所示。

首先，根据预处理完的语料的词频信息建立词典，对文档进行BOW编码，得到文档-词语的概率分布；

然后，将其输入LDA模型中提取文档的主题信息。假设有文档集合D，其中每个文档d包含N个单词，主题集合T中有K个隐含主题，LDA主题生成模型如图3所示，其生成过程描述如下：

1.1)从Dirichlet分布α中取样，生成文档d的主题分布：θ_d＝Dirichlet(α)；

1.2)从主题的多项式分布θ_d中采样，生成文档d中第n个词w_d，n的主题：z_d，n＝Multi(θ_d)；

1.3)从Dirichlet分布β中取样，生成主题z_d，n对应的词语分布：

1.4)从词语的多项式分布

中采样，最终生成单词：

其中，Dirichlet分布是多项式分布的共轭先验概率分布。

LDA中所有变量的联合概率公式为：

选用Gibbs采样的方法，通过求解主题分布和词语分布的后验分布，得到参数值θ_d和

根据每篇文档的主题分布和对应主题的词语分布，提取出文档的主题特征词。

继而，采用CBOW模型对主题词进行训练。将LDA提取到的主题信息作为输入，通过词向量训练，减缓主题向量之间的稀疏度。设词向量的维度为a，主题数为K，则主题向量集合可表示为：

T＝[T₁，T₂，…，T_K]∈R^K×a (2)

式中，T_k表示第k个主题的向量，R^K×a表示一个行为主题个数，列为词向量维数的矩阵。

最后，分别对每篇文档对应的所有主题向量取平均，得到文档集合D的主题向量表示：

S202：对文本分词进行词向量训练，通过LSTM获取语义向量语义特征提取流程图如图4所示。

首先，将经过预处理后的分词文本输入词嵌入层，对每一个词进行向量化表示。假设文档d由N个单词组成，即d＝{w₁，w₂，…，w_N}，通过词嵌入层，每个词映射为一个b维向量，得到文档d的词向量表示：

X_d＝[x₁，x₂，…，x_N]∈R^N×b (4)

式中，x_n表示第n个词的词向量，R^N×b表示一个行为词数，列为向量维度的矩阵。

然后，将词向量X_d按序列输入LSTM模型中学习内容的语义特征。LSTM模型结构如图5所示，其具体操作过程描述如下：

2.1)通过遗忘门的sigmoid单元决定细胞状态需要丢弃和保留的信息；

f_t＝σ(W_f×[h_t-1，x_t]+b_f) (5)

2.2)通过输入门的sigmoid单元决定是否给细胞状态更新信息；

i_t＝σ(W_i×[h_t-1，x_t]+b_i) (6)

2.3)通过tanh层创建一个新的候选细胞信息C_int，加入状态中；

C_int＝tanh(W_C×[h_t-1，x_t]+b_C) (7)

2.4)旧的细胞信息C_t-1更新为新的细胞信息C_t；

C_t＝f_t·C_t-1+i_t·C_int (8)

2.5)根据输出门的sigmoid单元来判断输出细胞的状态特征；

o_t＝σ(W₀×[h_t-1，x_t]+b₀) (9)

2.6)最终仅输出确定输出的部分，得到LSTM单元的输出表达，作为输入文档的特征向量；

h_t＝o_t·tanh(C_t) (10)

式中，σ表示sigmoid激活函数，i、f、o和C分别表示输入门、遗忘门、输出门和记忆细胞的激活向量，x_t表示文档序列中第t个词的词向量输入，模型参数W是权值矩阵，b是偏置值向量，·为点乘运算符。

最后，按上述方式对文档集合D进行语义编码，得到词与词之间的前后语义信息。设LSTM模型输出的向量维度为c，则语义特征向量可表示为：

式中，h_d表示第d篇文档的语义向量，R^D×c表示一个行为文档数，列为向量维数的矩阵。

S203：根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量；

引入腾讯AI Lab开源词向量表示词汇，其中每个词对应一个200维的向量。将预处理后的分词文本一一匹配词向量数据，分别把每篇文档中所有匹配到的向量进行加权取平均，没有匹配到的词的向量判为0，得到文档集合D的词义特征向量表示：

S30：对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示；

首先将LDA结合Word2Vec提取的主题特征(LDA_W2V)与LSTM提取的语义特征进行拼接，构建兼顾文档主题抽象描述和词序语义表达的文本特征表示模型(LSTM_LDA_W2V)，再结合AI Lab开源词向量得到的词义特征，构建包含词粒度和语义粒度的文本特征表示模型(ALL2Vec)。最终文档集合D的向量化表示可描述为：

式中，

为拼接运算符。

S40：将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估。

将多粒度文本特征表示矩阵输入CNN中进行分类模型训练；

利用softmax分类器获取样本的预测标签；

其中对于神经网络分类模型，卷积神经网络分类模型结构如图6所示。

1)输入层。将式(13)中的多粒度文本特征表示矩阵

作为CNN模型的输入，该矩阵的行数是文档数，也就是微博用户数，列数是三种特征维度相加的和。

2)卷积层。将不同尺寸的卷积核建立相应尺寸的卷积层，对输入的二维矩阵进行卷积操作，从而生成特征：

c_i＝f(w·x_i：i+h-1+b) (15)

其中，c_i表示卷积操作得到的第i个特征；w表示卷积核的权重矩阵；x_i可以看作特征x的第i个输入，x_i：i+h-1表示h个词向量首尾相连；b为偏置项；f表示非线性激活函数：

f＝ReLu(x)＝max(0，x) (16)

将式(15)生成的所有特征连接起来，得到卷积层的输出特征图C：

C＝[c₁，c₂，…，c_r-h+1] (17)

式中，r表示输出长度。

3)池化层。使用max pooling方法进行特征采样，对卷积层的输出特征进一步抽象，提取出最关键的特征：

式中，

为最大池化的输出结果。

将式(18)生成的所有最大池化结果连接起来，构成池化层的特征向量z：

式中，N为卷积核个数。

4)全连接层。经过一个T×N维的权值矩阵W，输出一个T×1维的特征向量：

V＝[v₁，v₂，…，v_T] (20)

5)输出层。当一个测试样本经过Softmax层并输出一个T×1维的向量时，取这个向量中的最大值，其对应的index就是该样本的预测标签。

对于效果评估：本发明实施例利用专门的微博分类语料训练分类器，再通过真实的微博用户数据进行分类测试，完成用户兴趣识别，从而验证该方法的有效性。

首先，微博分类语料包括十个兴趣类别，共30846篇微博文本，各个类别及数量如表1所示。对超过2000篇的类别进行负采样，对少于2000篇的类别进行完全采样，从而控制每个类别不超过2000篇，缓解数据分布的不均衡性。

表1微博分类语料

其次，利用python语言编写的爬虫程序，从微博平台爬取2230名用户三个月内所有的微博内容，为保证数据的可用性，筛选出微博数据量在30篇以上的用户，并按照表1里的十种类别，人工打上兴趣标签。经过处理，最后选取1000名带有兴趣标签的用户数据，作为评估效果的测试集。

模型训练的参数设置：基于Gibbs采样方法训练LDA主题模型，隐含主题数K设置为200，超参数

β＝0.01，主题词数设置为15，迭代次数为5；Word2Vec采用CBOW训练方式，负采样的优化方法，主题向量维度a设为16，词向量维度b设为64，窗口大小为10，学习率为0.0001；LSTM的向量维度c设为16；CNN中向量维度设为16，卷积核窗口大小为2，核数为8，初始化学习率为0.1，迭代次数为100。

评估标准如下：

统计分类结果的准确率、精准率、召回率、F1值、宏平均F1以及权平均F1。计算公式如下：

微博用户兴趣识别方法为：设兴趣类别集合为I＝(i₁，i₂，…，i_M)，给定某个微博用户u，爬取其发布的微博文本集合W＝(w₁，w₂，…，w_n)，预处理后输入模型中进行特征提取和文本分类，得到该用户n条微博内容的兴趣类别列表L＝(l₁，l₂，…，l_n)，其中l_i∈I。在兴趣类别列表上定义一个计数函数count(x，L)表示类别x在L中出现的次数，按照count(x，L)由高到低排序，选择排序靠前的类别作为该用户的兴趣类别。

如图7所示，随着横坐标迭代次数(hum epoch)不断增加，三个模型的纵坐标损失值(loss)同时都在趋于收敛，下降速度也都比较迅速，说明学习率合理。当迭代次数为80左右的时候，三个模型均基本下降到稳定值。虽然ALL2Vec模型相比其他两个模型的向量构造更加复杂，但收敛速度并没有随之减慢，表现出较好的响应能力，且训练最终得到的损失值最低，表明该模型的鲁棒性最好，分类性能最优。

测试本发明方法在微博文本分类任务上的效果，实验结果如表2所示，在绝大部分类别上均获得了很好的分类效果。

表2 ALL2Vec模型分类效果

由表3可以看出，对比三个模型，ALL2Vec在准确率、宏平均F1和权平均F1上都达到了最优，是一种有效且完备的文本特征表示模型。

表3不同分类方法比较结果

本发明实施例的另一方面还提供一种基于多粒度文本特征表示的微博用户兴趣识别系统，包括：

综上所述，本发明通过分别获取主题向量、语义向量和词义向量，并进行拼接融合，综合多粒度文本特征的考量，提高了模型的表征能力，进而提高文本分类的准确性，达到精准分类的效果，解决了社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题，也可用于用户兴趣挖掘、网络用户画像以及个性化信息推荐等。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。