CN117150148A - 一种基于预训练模型的社交网络舆情态势监控方法 - Google Patents
一种基于预训练模型的社交网络舆情态势监控方法 Download PDFInfo
- Publication number
- CN117150148A CN117150148A CN202311111352.XA CN202311111352A CN117150148A CN 117150148 A CN117150148 A CN 117150148A CN 202311111352 A CN202311111352 A CN 202311111352A CN 117150148 A CN117150148 A CN 117150148A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- emotion
- change
- training model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012544 monitoring process Methods 0.000 title claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 72
- 230000008859 change Effects 0.000 claims abstract description 51
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000005520 cutting process Methods 0.000 claims abstract description 10
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 5
- 230000006978 adaptation Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000000049 pigment Substances 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000005065 mining Methods 0.000 abstract description 3
- 230000003068 static effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 241001278833 Rosa laevigata Species 0.000 description 1
- 235000000661 Rosa laevigata Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于预训练模型的社交网络舆情态势监控方法,属于文本信息挖掘技术领域,包括:社交网络文本数据预处理;构建LDA模型对文本数据实现事件聚类;使用LoRA微调后的预训练模型对文本数据进行基于字粒度的编码,并通过填充或截断操作保持文本编码长度一致性,通过循环神经网络和全连接神经网络输出情感分类结果;根据事件聚类的结果与文本情感分类的结果分别得到关注度变化和情感变化,同时基于关注度变化和情感变化实现态势预测;本发明采用事件聚类和文本情感分类实现事件在时间维度上的情感分析,从而实现不同事件舆情态势的实时监测,使用预训练模型进行建模,辅以LoRA微调技术,有效地提高模型的准确率和训练速度。
Description
技术领域
本发明涉及一种面向社交网络平台文本的事件聚类和情感分析算法,具体涉及一种基于预训练模型的社交网络舆情态势监控方法,属于文本信息挖掘技术领域。
背景技术
随着各种智能终端的普及和互联网技术的发展,人们可以随时随地在各种社交平台分享时事新闻、自身观点等信息。社交网络舆情态势监控具有重要意义。
随着自然语言处理不断发展,人们开始将相关技术运用于舆情监控。舆情态势监控分析关键在于分析相关评论信息的情感变化,传统舆论监控算法主要使用情感词典或静态词向量进行特征处理,并通过贝叶斯网络等传统机器学习方法进行情感判断。传统舆情监控算法在情感分类模型中存在提取信息不全、无法处理一词多义现象等局限性,同时缺乏对不同事件在不同时间下情感态势变化的分析,导致监控算法准确率较低,挖掘信息不全面等问题。
发明内容
为了解决现有舆情监控算法中存在的问题,本发明考虑优化语言模型,提出了一种基于预训练模型的社交网络舆情态势监控方法,将社交网络文本数据进行事件聚类,对不同事件下的文本数据进行情感分析,并按发表时间进行排序,统计不同时间段内不同事件的关注度以及各类情感占比,最后得到不同事件在时间维度上的舆情态势变化。
为实现上述目的,本发明采用的技术方案为:一种基于预训练模型的社交网络舆情态势监控方法,将舆情态势分析分解为事件聚类和文本情感分类两个子任务,并基于时间维度分析事件的关注度变化和情感变化,包括以下步骤:
步骤1,对社交网络文本数据进行预处理,社交网络文本数据预处理包括脏数据清洗、简繁体转化、文本分词以及无关词清除;
步骤2,事件聚类:构建LDA模型并使用困惑度指标筛选出最优的LDA模型,使用最优的LDA模型对预处理后的文本数据实现无监督事件聚类;
步骤3,文本情感分类:使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的文本编码,并通过填充或截断操作保持文本编码长度一致性,最后通过循环神经网络提取文本的时序特征,并通过全连接神经网络输出情感分类结果,情感分为正向、中立和负向;
步骤4,态势分析:根据步骤2事件聚类的结果与步骤3文本情感分类的结果分别得到关注度变化和情感变化,同时基于关注度变化和情感变化实现态势预测。
优选的,步骤1中,所述脏数据主要包括文本数据中的符号以及无法编码的颜文字,对脏数据预处理采用字符匹配或正则表达式匹配进行清洗。
优选的,步骤1中,简繁体转化使用python调用langconv库或者zhconv库中的convert方法将文本数据中繁体字转换为简体字。
优选的,步骤1中,文本分词以及无关词清除使用jieba库或者stanfordcorenlp库实现,然后删除语气词、助词以及与语义表达无关的词,同时加载停用词词典,删除文本数据和停用词词典中共有的词语。
优选的,步骤2中,所述的构建LDA模型,具体为:首先为预处理后的文本数据创建词典,赋予文本数据中每个分词一个token,使用预训练模型句子级的编码方式对分词进行编码,从而生成语料集;然后调用gensim库中的LDAModel方法,基于词典和语料集训练LDA模型,最后修改主题数参数迭代训练LDA模型,使用困惑度指标筛选出最优的LDA模型,困惑度PP的计算公式如下:
其中,W是由分词ω1、ω2···ωN组成的文本序列,N为文本序列中的分词个数。
优选的,所述预训练模型为Bert预训练模型,其包括嵌入层、编码层和池化层,通过大量语料训练编码层的多头自注意力权重。使得Bert预训练模型相比于gensim库中自带的静态词向量模型具有更好的语义表征能力。
优选的,步骤3中,LoRA微调预训练模型可以在保持预训练模型强大的泛化能力的同时,增加模型更加匹配特定任务,同时提高模型训练速度,更加适合大数据场景。具体为:调用transformers库下的pretrained方法加载预训练模型,使用LoRA微调在预训练语言模型的每层权重矩阵中添加一个低秩适应层,在训练时保持预训练模型权重固定不变,只更新低秩适应层,前向计算过程如下:
其中,h为输出向量,W0是预训练模型初始化的参数,x为输入向量,A为低秩适应层的降维矩阵,B为低秩适应层的升维矩阵。
优选的,步骤3中,使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的编码,并通过填充或截断操作保持文本编码长度一致性,使模型支持批量操作,具体为:使用LoRA微调后的预训练模型实现基于字粒度的文本编码,对每一条文本编码进行填充或截断固定编码长度,保持每条编码后的文本数据的长度一致,取文本数据长度的平均数或者中位数作为固定长度。
优选的,步骤3中循环神经网络为LSTM神经网络或者GRU神经网络
优选的,步骤4中,根据步骤2事件聚类的结果与步骤3文本情感分类的结果分别得到关注度变化和情感变化,同时基于关注度变化和情感变化实现态势预测,具体为:
以事件的时间为横轴,事件相关的文本数为纵轴,即可得到不同时间段内某一事件的关注度变化;
以事件的时间为横轴,时间段内事件相关文本不同情感的占比为纵轴,即可得到某一事件一段时间内的情感变化;
通过分析关注度变化和情感变化的变化趋势和变化快慢实现态势预测。
与现有技术相比,本发明的有益效果是:本发明考虑了采用事件聚类和文本情感分类实现不同事件的舆情态势分析,将社交网络的文本数据进行基于事件的聚类,并对不同事件单独进行时间维度上的关注度分析和情感变化分析,从而实时了解公众对特定事件的关注度,及时发觉错误舆论导向,预防危机事件。在事件聚类和文本情感分类中,均采用预训练语言模型进行文本编码,相比传统静态词向量模型,预训练模型具有更好的泛化能力,可以有效地提高模型的准确率,避免了传统词向量模型在语义表达方面的局限性。另外,文本情感分类中使用LoRA对预训练模型进行微调,只需要更新低秩适应层,而不是整个预训练模型,与全面微调相比,具有更快的计算效率,更加适合海量数据场景。解决了传统舆情监控算法在情感分类模型中存在提取信息不全、无法处理一词多义现象等局限性。
附图说明
图1是本发明的流程框图。
图2是本发明中预处理、事件聚类和文本情感分类框图。
图3是本发明中事件1关注度变化示意图。
图4是本发明中事件3情感变化示意图。
图5是本发明中事件1情感变化示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本实施例提出的一种基于预训练模型的社交网络舆情态势监控方法,主要包括预处理,事件聚类,文本情感分类,态势分析4个步骤。其流程如图1所示,包括以下步骤:
步骤1:社交网络文本数据预处理,主要包括脏数据清洗,简繁体转化,文本分词,无关词清洗。
具体实现时,脏数据主要包括文本数据中的符号以及无法编码的颜文字等,对脏数据预处理采用字符匹配或者正则表达式进行匹配进行清洗,然后删除。例如一些微博数据爬取下来时会有“”“//@奶茶猫:武汉樱花开了,周末是真想去武汉旅游。”,可以设置正则表达式“(//)?\s*@\S*?\s*(:||$)”,并使用python的re库的sub方法将文本中的“//”和“@奶茶猫:”删除。
简繁体转化可以使用python调用langconv库或者zhconv库中的convert方法进行转换。
文本分词使用jieba库的cut方法或者stanfordcorenlp的tokenize方法,词性标注可以使用jieba库分词的flag属性或者stanfordcorenlp的pos_tag方法,然后删除词性为语气词,助词等与语义表达无关的词,还可以加载停用词词典,删除文本数据和停用词词典中共有的词语。
步骤2:事件聚类,如图2所示,构建LDA模型并使用困惑度指标筛选出最优的LDA模型,使用最优的LDA模型对预处理后的文本数据实现无监督事件聚类;构建LDA模型主要包括语料集生成,创建LDA模型,困惑度筛选。
具体实现时,可以使用python的开源第三方库gensim,gensim库提供了词典构建,向量编码,语料构建,LDA模型训练,聚类评估等一系列方法。本发明提出使用预训练模型进行特征编码,对向量编码进行改进,使用Bert预训练模型代替gensim提供的编码方法。Bert预训练模型主要包括嵌入层、编码层和池化层,通过大量语料训练编码层的多头自注意力权重,使得Bert预训练模型相比于gensim库中自带的静态词向量模型具有更好的语义表征能力。Bert预训练模型可以在Hugging Face网站下载,但是可使用的预训练模型不限于Bert,Albert、Roberta、Deberta等预训练模型均可。
构建LDA模型具体步骤如下:首先为预处理后的文本数据创建词典,赋予文本数据中每个分词一个token,使用Bert预训练模型句子级的编码方式对分词进行编码,从而生成语料集。然后调用gensim库中的LDAModel方法,基于词典和语料集训练LDA模型,最后修改主题数参数迭代训练模型,使用困惑度指标筛选出最优的LDA模型,
困惑度PP的计算公式如下:
其中,W是由分词ω1、ω2···ωN组成的文本序列,N为文本序列中的分词个数。
步骤3:文本情感分类,如图2所示,使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的文本编码,并通过填充或截断操作保持文本编码长度一致性,最后通过循环神经网络提取文本的时序特征,并通过全连接神经网络输出情感分类结果,情感分为正向、中立和负向;主要包括LoRA微调Bert预训练模型,文本编码和情感分类。
首先,调用transformers库下的pretrained方法加载Bert预训练模型,使用LoRA微调在预训练语言模型的每层权重矩阵中添加一个低秩适应层,在训练时保持Bert预训练模型权重固定不变,只更新低秩适应层,
前向计算过程如下:
其中,h为输出向量,W0是预训练模型初始化的参数,x为输入向量,A为低秩适应层的降维矩阵,B为低秩适应层的升维矩阵,表示大小为d×r的向量空间,/>表示大小为r×k的向量空间。
具体实现时,可以在Hugging Face网站下载Bert预训练模型,但是可使用的预训练模型不限于Bert,Albert、Roberta、Deberta等预训练模型均可。LoRA微调的实现可以使用peft库下的Lora_Config方法和get_peft_model方法进行LoRA配置以及LoRA微调预训练模型的封装。
然后,使用LoRA微调的Bert预训练模型对预处理后的文本数据实现文本编码,并通过填充或截断操作,保持文本编码长度一致性。
具体实现时,通过调用transformers库下pretrained方法加载模型实现基于字粒度的文本编码。为了提高情感分析模型的效率以及支持模型的数据批量处理,对每一条编码后的文本数据进行填充或截断操作,保持每条文本数据的长度一致。一般情况下,取文本数据长度的平均数或者中位数作为固定长度。
最后,进行情感分类输出,使用循环神经网络提取文本的时序特征,并通过全连接神经网络得到情感分类。全连接神经网络的输出为一个大小为3的向量,设置第1个向量元素代表正向,第2个向量元素代表中立,第3个向量元素代表负向,最终最大的向量元素代表的情感即为文本情感分类的结果。
具体实现时,相较一般的循环神经网络,可以使用效果更优的LSTM神经网络或者GRU神经网络。
步骤4:态势分析,如图3、4、5所示,主要包括关注度变化,情感变化,态势预测。
以事件的时间为横轴,事件相关的文本数为纵轴,即可得到不同时间段内某一事件的关注程度的变化。
以事件的时间为横轴,纵轴为时间段内事件相关文本不同情感的占比,即可得到某一事件一段时间内的情感变化。
此外,可以基于关注度变化和情感变化进一步实现态势预测,例如未来时间关注度和情感分布的预估。
具体实现时,可以从关注度的变化以及情感分布的变化挖掘更多有效信息。例如,为单位时间的关注度确定一个阈值,超出阈值范围则定义为热点事件,需要重点监控,同时通过单位时间的关注度变化速度的快慢可以估算该事件成为热点事件的时间,常见的方法例如使用多项式回归拟合离散数据,可以通过sklearn库中的PolynomialFeatures定义多项式特征并拟合多项式曲线。另外,通过单位时间上情感分布的变化也能估算该事件未来的舆论导向,从而采取措施防范错误的舆论导向,例如一些关于伦理道德的文本,当单位时间上负向情感占比在逐渐增加时,即负面情感有主导舆论导向的趋势,此时应该采取一些措施来纠正舆论导向。
本发明在原有的舆情监控算法的基础上,考虑了采用事件聚类和情感分析实现不同事件的舆情态势分析,并通过时间维度上事件的文本数据数量以及不同情感占比实时了解某个事件的关注度,监测公众的舆论导向和变化。在事件聚类和情感分析中,均采用泛化能力更强的预训练语言模型进行文本编码,有效地提高模型的准确率。另外,固定编码长度并使用LoRA微调技术,有效地提高模型的计算效率。
应该注意的是,上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。
Claims (10)
1.一种基于预训练模型的社交网络舆情态势监控方法,其特征在于:将舆情态势分析分解为事件聚类和文本情感分类两个子任务,并基于时间维度分析事件的关注度变化和情感变化,包括以下步骤:
步骤1,对社交网络文本数据进行预处理,社交网络文本数据预处理包括脏数据清洗、简繁体转化、文本分词以及无关词清除;
步骤2,事件聚类:构建LDA模型并使用困惑度指标筛选出最优的LDA模型,使用最优的LDA模型对预处理后的文本数据实现无监督事件聚类;
步骤3,文本情感分类:使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的文本编码,并通过填充或截断操作保持文本编码长度一致性,最后通过循环神经网络提取文本的时序特征,并通过全连接神经网络输出情感分类结果,情感分为正向、中立和负向;
步骤4,态势分析:根据步骤2事件聚类的结果与步骤3文本情感分类的结果分别得到关注度变化和情感变化,同时基于关注度变化和情感变化实现态势预测。
2.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:步骤1中,所述脏数据主要包括文本数据中的符号以及无法编码的颜文字,对脏数据预处理采用字符匹配或正则表达式匹配进行清洗。
3.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:步骤1中,简繁体转化使用python调用langconv库或者zhconv库中的convert方法将文本数据中繁体字转换为简体字。
4.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:步骤1中,文本分词以及无关词清除使用jieba库或者stanfordcorenlp库实现,然后删除语气词、助词以及与语义表达无关的词,同时加载停用词词典,删除文本数据和停用词词典中共有的词语。
5.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:步骤2中,所述的构建LDA模型,具体为:首先为预处理后的文本数据创建词典,赋予文本数据中每个分词一个token,使用预训练模型句子级的编码方式对分词进行编码,从而生成语料集;然后调用gensim库中的LDAModel方法,基于词典和语料集训练LDA模型,最后修改主题数参数迭代训练LDA模型,使用困惑度指标筛选出最优的LDA模型,困惑度PP的计算公式如下:
其中,W是由分词ω1、ω2···ωN组成的文本序列,N为文本序列中的分词个数。
6.根据权利要求5所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:所述预训练模型为Bert预训练模型,其包括嵌入层、编码层和池化层,通过大量语料训练编码层的多头自注意力权重。
7.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控算法,其特征在于:步骤3中,LoRA微调预训练模型具体为:调用transformers库下的pretrained方法加载预训练模型,使用LoRA微调在预训练语言模型的每层权重矩阵中添加一个低秩适应层,在训练时保持预训练模型权重固定不变,只更新低秩适应层,前向计算过程如下:
其中,h为输出向量,W0是预训练模型初始化的参数,x为输入向量,A为低秩适应层的降维矩阵,B为低秩适应层的升维矩阵。
8.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:步骤3中,使用LoRA微调后的预训练模型对预处理后的文本数据进行基于字粒度的文本编码,并通过填充或截断操作保持文本编码长度一致性,具体为:使用LoRA微调预训练模型实现基于字粒度的文本编码,对每一条编码后的文本数据进行填充或截断固定编码长度,保持每条文本编码的长度一致,取文本数据长度的平均数或者中位数作为固定长度。
9.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:所述步骤3中循环神经网络为LSTM神经网络或者GRU神经网络。
10.根据权利要求1所述的基于预训练模型的社交网络舆情态势监控方法,其特征在于:步骤4中,根据步骤2事件聚类的结果与步骤3文本情感分类的结果分别得到关注度变化和情感变化,同时基于关注度变化和情感变化实现态势预测,具体为:
以事件的时间为横轴,事件相关的文本数为纵轴,即可得到不同时间段内某一事件的关注度变化;
以事件的时间为横轴,时间段内事件相关文本不同情感的占比为纵轴,即可得到某一事件一段时间内的情感变化;
通过分析关注度变化和情感变化的变化趋势和变化快慢实现态势预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311111352.XA CN117150148A (zh) | 2023-08-30 | 2023-08-30 | 一种基于预训练模型的社交网络舆情态势监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311111352.XA CN117150148A (zh) | 2023-08-30 | 2023-08-30 | 一种基于预训练模型的社交网络舆情态势监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117150148A true CN117150148A (zh) | 2023-12-01 |
Family
ID=88900124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311111352.XA Pending CN117150148A (zh) | 2023-08-30 | 2023-08-30 | 一种基于预训练模型的社交网络舆情态势监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150148A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669737A (zh) * | 2023-12-20 | 2024-03-08 | 中科星图数字地球合肥有限公司 | 一种端到端地理行业大语言模型构建及使用方法 |
-
2023
- 2023-08-30 CN CN202311111352.XA patent/CN117150148A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669737A (zh) * | 2023-12-20 | 2024-03-08 | 中科星图数字地球合肥有限公司 | 一种端到端地理行业大语言模型构建及使用方法 |
CN117669737B (zh) * | 2023-12-20 | 2024-04-26 | 中科星图数字地球合肥有限公司 | 一种端到端地理行业大语言模型构建及使用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN110825845B (zh) | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN109359297B (zh) | 一种关系抽取方法及系统 | |
Xie et al. | Attention-based dense LSTM for speech emotion recognition | |
CN111177376A (zh) | 一种基于bert与cnn层级连接的中文文本分类方法 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN107357899B (zh) | 基于和积网络深度自动编码器的短文本情感分析方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及系统 | |
CN117150148A (zh) | 一种基于预训练模型的社交网络舆情态势监控方法 | |
CN113609289A (zh) | 一种基于多模态对话文本的情感识别方法 | |
CN115982350A (zh) | 基于多模态Transformer的虚假新闻检测方法 | |
CN114529903A (zh) | 文本细化网络 | |
CN111191452A (zh) | 一种铁路文本命名实体识别方法及装置 | |
CN111581392B (zh) | 一种基于语句通顺度的自动作文评分计算方法 | |
CN114462420A (zh) | 一种基于特征融合模型的虚假新闻检测方法 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN112905776B (zh) | 一种情感对话模型构建方法、情感对话系统及方法 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
Chowanda et al. | Generative Indonesian conversation model using recurrent neural network with attention mechanism | |
CN116501877A (zh) | 一种基于因果图谱的多模态注意力谣言检测方法 | |
CN113326695B (zh) | 一种基于迁移学习的情感极性分析方法 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |