CN117150148A

CN117150148A - 一种基于预训练模型的社交网络舆情态势监控方法

Info

Publication number: CN117150148A
Application number: CN202311111352.XA
Authority: CN
Inventors: 季一木; 朱金森; 刘强; 刘尚东
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-12-01

Abstract

本发明公开了一种基于预训练模型的社交网络舆情态势监控方法，属于文本信息挖掘技术领域，包括：社交网络文本数据预处理；构建LDA模型对文本数据实现事件聚类；使用LoRA微调后的预训练模型对文本数据进行基于字粒度的编码，并通过填充或截断操作保持文本编码长度一致性，通过循环神经网络和全连接神经网络输出情感分类结果；根据事件聚类的结果与文本情感分类的结果分别得到关注度变化和情感变化，同时基于关注度变化和情感变化实现态势预测；本发明采用事件聚类和文本情感分类实现事件在时间维度上的情感分析，从而实现不同事件舆情态势的实时监测，使用预训练模型进行建模，辅以LoRA微调技术，有效地提高模型的准确率和训练速度。

Description

一种基于预训练模型的社交网络舆情态势监控方法

技术领域

本发明涉及一种面向社交网络平台文本的事件聚类和情感分析算法，具体涉及一种基于预训练模型的社交网络舆情态势监控方法，属于文本信息挖掘技术领域。

背景技术

随着各种智能终端的普及和互联网技术的发展，人们可以随时随地在各种社交平台分享时事新闻、自身观点等信息。社交网络舆情态势监控具有重要意义。

随着自然语言处理不断发展，人们开始将相关技术运用于舆情监控。舆情态势监控分析关键在于分析相关评论信息的情感变化，传统舆论监控算法主要使用情感词典或静态词向量进行特征处理，并通过贝叶斯网络等传统机器学习方法进行情感判断。传统舆情监控算法在情感分类模型中存在提取信息不全、无法处理一词多义现象等局限性，同时缺乏对不同事件在不同时间下情感态势变化的分析，导致监控算法准确率较低，挖掘信息不全面等问题。

发明内容

为了解决现有舆情监控算法中存在的问题，本发明考虑优化语言模型，提出了一种基于预训练模型的社交网络舆情态势监控方法，将社交网络文本数据进行事件聚类，对不同事件下的文本数据进行情感分析，并按发表时间进行排序，统计不同时间段内不同事件的关注度以及各类情感占比，最后得到不同事件在时间维度上的舆情态势变化。

为实现上述目的，本发明采用的技术方案为：一种基于预训练模型的社交网络舆情态势监控方法，将舆情态势分析分解为事件聚类和文本情感分类两个子任务，并基于时间维度分析事件的关注度变化和情感变化，包括以下步骤：

步骤1，对社交网络文本数据进行预处理，社交网络文本数据预处理包括脏数据清洗、简繁体转化、文本分词以及无关词清除；

步骤2，事件聚类：构建LDA模型并使用困惑度指标筛选出最优的LDA模型，使用最优的LDA模型对预处理后的文本数据实现无监督事件聚类；

步骤3，文本情感分类：使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的文本编码，并通过填充或截断操作保持文本编码长度一致性，最后通过循环神经网络提取文本的时序特征，并通过全连接神经网络输出情感分类结果，情感分为正向、中立和负向；

步骤4，态势分析：根据步骤2事件聚类的结果与步骤3文本情感分类的结果分别得到关注度变化和情感变化，同时基于关注度变化和情感变化实现态势预测。

优选的，步骤1中，所述脏数据主要包括文本数据中的符号以及无法编码的颜文字，对脏数据预处理采用字符匹配或正则表达式匹配进行清洗。

优选的，步骤1中，简繁体转化使用python调用langconv库或者zhconv库中的convert方法将文本数据中繁体字转换为简体字。

优选的，步骤1中，文本分词以及无关词清除使用jieba库或者stanfordcorenlp库实现，然后删除语气词、助词以及与语义表达无关的词，同时加载停用词词典，删除文本数据和停用词词典中共有的词语。

优选的，步骤2中，所述的构建LDA模型，具体为：首先为预处理后的文本数据创建词典，赋予文本数据中每个分词一个token，使用预训练模型句子级的编码方式对分词进行编码，从而生成语料集；然后调用gensim库中的LDAModel方法，基于词典和语料集训练LDA模型，最后修改主题数参数迭代训练LDA模型，使用困惑度指标筛选出最优的LDA模型，困惑度PP的计算公式如下：

其中，W是由分词ω₁、ω₂···ω_N组成的文本序列，N为文本序列中的分词个数。

优选的，所述预训练模型为Bert预训练模型，其包括嵌入层、编码层和池化层，通过大量语料训练编码层的多头自注意力权重。使得Bert预训练模型相比于gensim库中自带的静态词向量模型具有更好的语义表征能力。

优选的，步骤3中，LoRA微调预训练模型可以在保持预训练模型强大的泛化能力的同时，增加模型更加匹配特定任务，同时提高模型训练速度，更加适合大数据场景。具体为：调用transformers库下的pretrained方法加载预训练模型，使用LoRA微调在预训练语言模型的每层权重矩阵中添加一个低秩适应层，在训练时保持预训练模型权重固定不变，只更新低秩适应层，前向计算过程如下：

其中，h为输出向量，W₀是预训练模型初始化的参数，x为输入向量，A为低秩适应层的降维矩阵，B为低秩适应层的升维矩阵。

优选的，步骤3中，使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的编码，并通过填充或截断操作保持文本编码长度一致性，使模型支持批量操作，具体为：使用LoRA微调后的预训练模型实现基于字粒度的文本编码，对每一条文本编码进行填充或截断固定编码长度，保持每条编码后的文本数据的长度一致，取文本数据长度的平均数或者中位数作为固定长度。

优选的，步骤3中循环神经网络为LSTM神经网络或者GRU神经网络

优选的，步骤4中，根据步骤2事件聚类的结果与步骤3文本情感分类的结果分别得到关注度变化和情感变化，同时基于关注度变化和情感变化实现态势预测，具体为：

以事件的时间为横轴，事件相关的文本数为纵轴，即可得到不同时间段内某一事件的关注度变化；

以事件的时间为横轴，时间段内事件相关文本不同情感的占比为纵轴，即可得到某一事件一段时间内的情感变化；

通过分析关注度变化和情感变化的变化趋势和变化快慢实现态势预测。

与现有技术相比，本发明的有益效果是：本发明考虑了采用事件聚类和文本情感分类实现不同事件的舆情态势分析，将社交网络的文本数据进行基于事件的聚类，并对不同事件单独进行时间维度上的关注度分析和情感变化分析，从而实时了解公众对特定事件的关注度，及时发觉错误舆论导向，预防危机事件。在事件聚类和文本情感分类中，均采用预训练语言模型进行文本编码，相比传统静态词向量模型，预训练模型具有更好的泛化能力，可以有效地提高模型的准确率，避免了传统词向量模型在语义表达方面的局限性。另外，文本情感分类中使用LoRA对预训练模型进行微调，只需要更新低秩适应层，而不是整个预训练模型，与全面微调相比，具有更快的计算效率，更加适合海量数据场景。解决了传统舆情监控算法在情感分类模型中存在提取信息不全、无法处理一词多义现象等局限性。

附图说明

图1是本发明的流程框图。

图2是本发明中预处理、事件聚类和文本情感分类框图。

图3是本发明中事件1关注度变化示意图。

图4是本发明中事件3情感变化示意图。

图5是本发明中事件1情感变化示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本实施例提出的一种基于预训练模型的社交网络舆情态势监控方法，主要包括预处理，事件聚类，文本情感分类，态势分析4个步骤。其流程如图1所示，包括以下步骤：

步骤1：社交网络文本数据预处理，主要包括脏数据清洗，简繁体转化，文本分词，无关词清洗。

具体实现时，脏数据主要包括文本数据中的符号以及无法编码的颜文字等，对脏数据预处理采用字符匹配或者正则表达式进行匹配进行清洗，然后删除。例如一些微博数据爬取下来时会有“”“//@奶茶猫：武汉樱花开了，周末是真想去武汉旅游。”，可以设置正则表达式“(//)？\s*@\S*？\s*(:||$)”，并使用python的re库的sub方法将文本中的“//”和“@奶茶猫：”删除。

简繁体转化可以使用python调用langconv库或者zhconv库中的convert方法进行转换。

文本分词使用jieba库的cut方法或者stanfordcorenlp的tokenize方法，词性标注可以使用jieba库分词的flag属性或者stanfordcorenlp的pos_tag方法，然后删除词性为语气词，助词等与语义表达无关的词，还可以加载停用词词典，删除文本数据和停用词词典中共有的词语。

步骤2：事件聚类，如图2所示，构建LDA模型并使用困惑度指标筛选出最优的LDA模型，使用最优的LDA模型对预处理后的文本数据实现无监督事件聚类；构建LDA模型主要包括语料集生成，创建LDA模型，困惑度筛选。

具体实现时，可以使用python的开源第三方库gensim，gensim库提供了词典构建，向量编码，语料构建，LDA模型训练，聚类评估等一系列方法。本发明提出使用预训练模型进行特征编码，对向量编码进行改进，使用Bert预训练模型代替gensim提供的编码方法。Bert预训练模型主要包括嵌入层、编码层和池化层，通过大量语料训练编码层的多头自注意力权重，使得Bert预训练模型相比于gensim库中自带的静态词向量模型具有更好的语义表征能力。Bert预训练模型可以在Hugging Face网站下载，但是可使用的预训练模型不限于Bert，Albert、Roberta、Deberta等预训练模型均可。

构建LDA模型具体步骤如下：首先为预处理后的文本数据创建词典，赋予文本数据中每个分词一个token，使用Bert预训练模型句子级的编码方式对分词进行编码，从而生成语料集。然后调用gensim库中的LDAModel方法，基于词典和语料集训练LDA模型，最后修改主题数参数迭代训练模型，使用困惑度指标筛选出最优的LDA模型，

困惑度PP的计算公式如下：

步骤3：文本情感分类，如图2所示，使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的文本编码，并通过填充或截断操作保持文本编码长度一致性，最后通过循环神经网络提取文本的时序特征，并通过全连接神经网络输出情感分类结果，情感分为正向、中立和负向；主要包括LoRA微调Bert预训练模型，文本编码和情感分类。

首先，调用transformers库下的pretrained方法加载Bert预训练模型，使用LoRA微调在预训练语言模型的每层权重矩阵中添加一个低秩适应层，在训练时保持Bert预训练模型权重固定不变，只更新低秩适应层，

前向计算过程如下：

其中，h为输出向量，W₀是预训练模型初始化的参数，x为输入向量，A为低秩适应层的降维矩阵，B为低秩适应层的升维矩阵，表示大小为d×r的向量空间，/>表示大小为r×k的向量空间。

具体实现时，可以在Hugging Face网站下载Bert预训练模型，但是可使用的预训练模型不限于Bert，Albert、Roberta、Deberta等预训练模型均可。LoRA微调的实现可以使用peft库下的Lora_Config方法和get_peft_model方法进行LoRA配置以及LoRA微调预训练模型的封装。

然后，使用LoRA微调的Bert预训练模型对预处理后的文本数据实现文本编码，并通过填充或截断操作，保持文本编码长度一致性。

具体实现时，通过调用transformers库下pretrained方法加载模型实现基于字粒度的文本编码。为了提高情感分析模型的效率以及支持模型的数据批量处理，对每一条编码后的文本数据进行填充或截断操作，保持每条文本数据的长度一致。一般情况下，取文本数据长度的平均数或者中位数作为固定长度。

最后，进行情感分类输出，使用循环神经网络提取文本的时序特征，并通过全连接神经网络得到情感分类。全连接神经网络的输出为一个大小为3的向量，设置第1个向量元素代表正向，第2个向量元素代表中立，第3个向量元素代表负向，最终最大的向量元素代表的情感即为文本情感分类的结果。

具体实现时，相较一般的循环神经网络，可以使用效果更优的LSTM神经网络或者GRU神经网络。

步骤4：态势分析，如图3、4、5所示，主要包括关注度变化，情感变化，态势预测。

以事件的时间为横轴，事件相关的文本数为纵轴，即可得到不同时间段内某一事件的关注程度的变化。

以事件的时间为横轴，纵轴为时间段内事件相关文本不同情感的占比，即可得到某一事件一段时间内的情感变化。

此外，可以基于关注度变化和情感变化进一步实现态势预测，例如未来时间关注度和情感分布的预估。

具体实现时，可以从关注度的变化以及情感分布的变化挖掘更多有效信息。例如，为单位时间的关注度确定一个阈值，超出阈值范围则定义为热点事件，需要重点监控，同时通过单位时间的关注度变化速度的快慢可以估算该事件成为热点事件的时间，常见的方法例如使用多项式回归拟合离散数据，可以通过sklearn库中的PolynomialFeatures定义多项式特征并拟合多项式曲线。另外，通过单位时间上情感分布的变化也能估算该事件未来的舆论导向，从而采取措施防范错误的舆论导向，例如一些关于伦理道德的文本，当单位时间上负向情感占比在逐渐增加时，即负面情感有主导舆论导向的趋势，此时应该采取一些措施来纠正舆论导向。

本发明在原有的舆情监控算法的基础上，考虑了采用事件聚类和情感分析实现不同事件的舆情态势分析，并通过时间维度上事件的文本数据数量以及不同情感占比实时了解某个事件的关注度，监测公众的舆论导向和变化。在事件聚类和情感分析中，均采用泛化能力更强的预训练语言模型进行文本编码，有效地提高模型的准确率。另外，固定编码长度并使用LoRA微调技术，有效地提高模型的计算效率。

应该注意的是，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims

1.一种基于预训练模型的社交网络舆情态势监控方法，其特征在于：将舆情态势分析分解为事件聚类和文本情感分类两个子任务，并基于时间维度分析事件的关注度变化和情感变化，包括以下步骤：

2.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：步骤1中，所述脏数据主要包括文本数据中的符号以及无法编码的颜文字，对脏数据预处理采用字符匹配或正则表达式匹配进行清洗。

3.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：步骤1中，简繁体转化使用python调用langconv库或者zhconv库中的convert方法将文本数据中繁体字转换为简体字。

4.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：步骤1中，文本分词以及无关词清除使用jieba库或者stanfordcorenlp库实现，然后删除语气词、助词以及与语义表达无关的词，同时加载停用词词典，删除文本数据和停用词词典中共有的词语。

5.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：步骤2中，所述的构建LDA模型，具体为：首先为预处理后的文本数据创建词典，赋予文本数据中每个分词一个token，使用预训练模型句子级的编码方式对分词进行编码，从而生成语料集；然后调用gensim库中的LDAModel方法，基于词典和语料集训练LDA模型，最后修改主题数参数迭代训练LDA模型，使用困惑度指标筛选出最优的LDA模型，困惑度PP的计算公式如下：

6.根据权利要求5所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：所述预训练模型为Bert预训练模型，其包括嵌入层、编码层和池化层，通过大量语料训练编码层的多头自注意力权重。

7.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控算法，其特征在于：步骤3中，LoRA微调预训练模型具体为：调用transformers库下的pretrained方法加载预训练模型，使用LoRA微调在预训练语言模型的每层权重矩阵中添加一个低秩适应层，在训练时保持预训练模型权重固定不变，只更新低秩适应层，前向计算过程如下：

8.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：步骤3中，使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的文本编码，并通过填充或截断操作保持文本编码长度一致性，具体为：使用LoRA微调预训练模型实现基于字粒度的文本编码，对每一条编码后的文本数据进行填充或截断固定编码长度，保持每条文本编码的长度一致，取文本数据长度的平均数或者中位数作为固定长度。

9.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：所述步骤3中循环神经网络为LSTM神经网络或者GRU神经网络。

10.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法，其特征在于：步骤4中，根据步骤2事件聚类的结果与步骤3文本情感分类的结果分别得到关注度变化和情感变化，同时基于关注度变化和情感变化实现态势预测，具体为：