CN114936283B - 一种基于Bert的网络舆情分析方法 - Google Patents
一种基于Bert的网络舆情分析方法 Download PDFInfo
- Publication number
- CN114936283B CN114936283B CN202210539480.3A CN202210539480A CN114936283B CN 114936283 B CN114936283 B CN 114936283B CN 202210539480 A CN202210539480 A CN 202210539480A CN 114936283 B CN114936283 B CN 114936283B
- Authority
- CN
- China
- Prior art keywords
- vector
- query
- key
- bert
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 35
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于大数据技术领域,具体涉及一种基于Bert的网络舆情分析方法。本发明主要是针对传统方法复杂度高的问题,提出了的可提升分析效率的方法,主本发明的Bert为只有编码器的Transformer,将输入的文本序列映射到查询、键、值三个空间,得到查询向量、键向量和值向量,然后对每一个查询向量,使用Softmax指数归一化函数作用在查询向量与键向量的内积上得到编码向量,再将编码向量输入训练好的分类器即可获得识别结果。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种基于Bert的网络舆情分析方法。
背景技术
舆情的全称是“舆论情况”,是民意的一种综合反应。舆情往往反映了在事件特别是公共事件发生、发展和变化过程中,民众所持的社会态度。随着互联网技术的不断发展,舆论信息的传播方式发生了根本的改变。当前主要的舆情传播方式主要以社交网络平台,如微博、知乎、今日头条等,以用户信息、用户关系、平台导流等方式迅速进行传播。用户评论语言的情感分析对预防公共突发事件预警和社会公共事件的应急响应具有非常重要的意义。
目前,应用较为广泛的网络舆情情感分析方法有基于NLP分析方法、RNN或TextCNN分析方法等。NLP分析方法是一种基于监督学习的方法,网络舆情情感分析的准确度受模型训练样本质量的影响较大,当样本数据量较少或者噪声过大时,采用该方法模型的预测准确性较低。采用RNN或TextCNN方法,仅考虑输出层,而忽略了文本之间的上下文关系,预测准确性有待提高,且无法并行进行计算,算法的效率较低。在这种情况下,需要寻找一种全新的方法,能快速、准确的分析出网络舆情的情感分析倾向。
发明内容
本发明的目的是,针对上述问题,提出了一种利用Bert进行网络舆情的情感分析方法。该方法旨在提高情感分析的准确性并进一步提升分析效率。
本发明的技术方案是:
一种基于Bert模型的网络舆情分析方法,包括以下步骤:
S1、获取与网络舆情相关的文本数据,并进行预处理,至少包括:全角转半角、繁体转简体、英文大写转小写、去除url、去除email、去除@以及保留emoji;
S2、将经过预处理的文本数据输入Bert编码器进行编码。编码过程首先将输入序列映射到查询、键、值三个空间,得到查询向量、键向量和值向量,然后对每一个查询向量,使用 Softmax指数归一化函数作用在查询向量与键向量的内积上得到编码向量。
S3、将编码向量输入到分类器中,得到舆情情感倾向是否积极的判别结果。
本发明的有益效果是:
1.基于Bert的网络舆情分析方法,克服了传统循环神经网络忽略上下文的缺点;
2.基于Bert的网络舆情分析方法,算法复杂度从RNN或TextCNN的O(n2)简化为O(n)。
附图说明
图1为Bert编码图。
图2为分类器结构图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细描述:
本发明的具体步骤为:
步骤1:对输入的文本数据进行标记和预处理。
(1)根据文本内容标记正向和负向情绪。
(2)处理的内容包括全角转半角、繁体转简体、英文大写转小写、去除url、去除email、去除@以及保留emoji等操作。
步骤2:将经过预处理的文本数据输入Bert编码器,其编码过程如图1所示。
Bert采用查询-键-值(QKV,Query-Key-Value)模式。假设输入的序列为 输出序列为/>具体过程如下:
(1)对于每个输入xi,首先将其线性映射到三个不同的空间,得到查询向量键向量/>和值向量/>对于整个输入序列X,线性映射过程可以简写为
其中分别为线性映射的参数矩阵,
Q=[q1,…,qN]
K=[k1,…,kN]
V=[v1,…,vN]
分别是由查询向量、键向量和值向量构成的矩阵。
(2)对于每一个查询向量qn∈Q,采用下式得到输出向量hn。
Softmax函数为指数归一化函数。
Bert编码器的编码向量为:H=[h1,…,hN]
步骤3:将Bert编码器输出的编码向量输入到分类器中,得到舆情情感倾向是否积极的判别结果。
(1)分类器为一个前向全链接神经网络,结构如图2所示。训练集为
X=[x1,…,xN],Y=[y1,…,yN]
,Y是训练集X对应的标签,代表分类的种类。
激活函数使用ReLU函数,定义如下:
ReLU(a)=max(a,0)=aI(a>0)
(2)分类器的训练过程如下:记
分类器的损失函数定义为:
L(y,y~)=-ylogy~
其中y~代表分类器对于输入样本x的分类结果。利用梯度下降法更新网络参数W,b,更新公式如下:
本发明方法中的Bert为只有编码器的Transformer,从而简化了结构,提升了效率。
Claims (1)
1.一种基于Bert的网络舆情分析方法,其特征在于,包括以下步骤:
S1、获取与网络舆情相关的文本数据,并进行预处理,至少包括:全角转半角、繁体转简体、英文大写转小写、去除url、去除email、去除@以及保留emoji;
S2、将经过预处理的文本数据输入Bert编码器进行编码,获得编码向量,具体为:将输入序列映射到查询、键、值三个空间,得到查询向量、键向量和值向量,然后对每一个查询向量,使用Softmax指数归一化函数作用在查询向量与键向量的内积上得到编码向量;
Bert采用查询-键-值(QKV,Query-Key-Value)模式;
假设输入的序列为输出序列为/>具体过程如下:
对于每个输入xi,首先将其线性映射到三个不同的空间,得到查询向量键向量/>和值向量/>对于整个输入序列X,线性映射过程可以简写为:
其中分别为线性映射的参数矩阵,
Q=[q1,…,qN]
K=[k1,…,kN]
V=[v1,…,vN]
分别是由查询向量、键向量和值向量构成的矩阵;
对于每一个查询向量qn∈Q,采用下式得到输出向量hn;
Softmax函数为指数归一化函数;
Bert编码器的编码向量为:H=[h1,…,hN];
S3、将编码向量输入到分类器中,得到舆情情感倾向是否积极的判别结果;所述分类器是经过预训练的用于判别舆情情感倾向是否积极的前向全链接神经网络;前向全链接神经网络训练集为:
X=[x1,…,xN],Y=[y1,…,yN],Y是训练集X对应的标签,代表分类的种类;
激活函数使用ReLU函数,定义如下:
ReLU(a)=max(a,0)=aI(a>0);
分类器的训练过程如下:
记分类器的损失函数定义为:
L(y,y~)=-ylogy~;
其中y~代表分类器对于输入样本x的分类结果;利用梯度下降法更新网络参数W,b,更新公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539480.3A CN114936283B (zh) | 2022-05-18 | 2022-05-18 | 一种基于Bert的网络舆情分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539480.3A CN114936283B (zh) | 2022-05-18 | 2022-05-18 | 一种基于Bert的网络舆情分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114936283A CN114936283A (zh) | 2022-08-23 |
CN114936283B true CN114936283B (zh) | 2023-12-26 |
Family
ID=82865230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210539480.3A Active CN114936283B (zh) | 2022-05-18 | 2022-05-18 | 一种基于Bert的网络舆情分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936283B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
CN110287323A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种面向目标的情感分类方法 |
CN111914553A (zh) * | 2020-08-11 | 2020-11-10 | 民生科技有限责任公司 | 一种基于机器学习的金融信息负面主体判定的方法 |
WO2021057424A1 (zh) * | 2019-09-23 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 基于文本的虚拟形象行为控制方法、设备和介质 |
CN114169364A (zh) * | 2021-11-18 | 2022-03-11 | 南京邮电大学 | 一种基于时空图模型的脑电情感识别方法 |
CN114372475A (zh) * | 2022-01-12 | 2022-04-19 | 西安交通大学 | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220129621A1 (en) * | 2020-10-26 | 2022-04-28 | Adobe Inc. | Bert-based machine-learning tool for predicting emotional response to text |
CN112100388B (zh) * | 2020-11-18 | 2021-02-23 | 南京华苏科技有限公司 | 一种长文本新闻舆情的情感极性的分析方法 |
CN112966526A (zh) * | 2021-04-20 | 2021-06-15 | 吉林大学 | 一种基于情感词向量的汽车在线评论情感分析方法 |
-
2022
- 2022-05-18 CN CN202210539480.3A patent/CN114936283B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
CN110287323A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种面向目标的情感分类方法 |
WO2021057424A1 (zh) * | 2019-09-23 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 基于文本的虚拟形象行为控制方法、设备和介质 |
CN111914553A (zh) * | 2020-08-11 | 2020-11-10 | 民生科技有限责任公司 | 一种基于机器学习的金融信息负面主体判定的方法 |
CN114169364A (zh) * | 2021-11-18 | 2022-03-11 | 南京邮电大学 | 一种基于时空图模型的脑电情感识别方法 |
CN114372475A (zh) * | 2022-01-12 | 2022-04-19 | 西安交通大学 | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于复合图文特征的视觉问答模型研究.《计算机应用研究》.2021,2293-2298. * |
面向上下文注意力联合学习网络的方面级情感分类模型;杨玉亭等;《模式识别与人工智能》(第08期);753-765 * |
Also Published As
Publication number | Publication date |
---|---|
CN114936283A (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN107798140A (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN113065344A (zh) | 一种基于迁移学习和注意力机制的跨语料库情感识别方法 | |
CN116010575A (zh) | 一种融合基础知识与用户信息的对话生成方法 | |
CN113254675B (zh) | 基于自适应少样本关系抽取的知识图谱构建方法 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
WO2023231576A1 (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN114372475A (zh) | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 | |
CN111540470B (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN115062003B (zh) | 基于gpt2的云erp社区生成式问答方法 | |
CN114528398A (zh) | 一种基于交互双重图卷积网络的情感预测方法及系统 | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN114429122A (zh) | 一种基于循环注意力的方面级情感分析系统和方法 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN110727758A (zh) | 一种基于多长度文本向量拼接的舆情分析方法及其系统 | |
CN114444481B (zh) | 一种新闻评论的情感分析与生成方法 | |
CN117251562A (zh) | 一种基于事实一致性增强的文本摘要生成方法 | |
CN116562275B (zh) | 一种结合实体属性图的自动文本摘要方法 | |
CN114936283B (zh) | 一种基于Bert的网络舆情分析方法 | |
CN113326695B (zh) | 一种基于迁移学习的情感极性分析方法 | |
CN115374283A (zh) | 一种基于双图注意力网络的方面类别情感分类方法 | |
CN115618017A (zh) | 一种面向产业知识图谱的企业上下游关系预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |