CN112100388B - 一种长文本新闻舆情的情感极性的分析方法 - Google Patents

一种长文本新闻舆情的情感极性的分析方法 Download PDF

Info

Publication number
CN112100388B
CN112100388B CN202011291196.6A CN202011291196A CN112100388B CN 112100388 B CN112100388 B CN 112100388B CN 202011291196 A CN202011291196 A CN 202011291196A CN 112100388 B CN112100388 B CN 112100388B
Authority
CN
China
Prior art keywords
layer
embedding
model
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011291196.6A
Other languages
English (en)
Other versions
CN112100388A (zh
Inventor
唐大鹏
郭柏龙
陈大龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Howso Technology Co ltd
Original Assignee
Nanjing Howso Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Howso Technology Co ltd filed Critical Nanjing Howso Technology Co ltd
Priority to CN202011291196.6A priority Critical patent/CN112100388B/zh
Publication of CN112100388A publication Critical patent/CN112100388A/zh
Application granted granted Critical
Publication of CN112100388B publication Critical patent/CN112100388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种长文本新闻舆情的情感极性的分析方法,包括以下步骤:S1收集文本数据作为训练样本,S2对步骤S1中收集的训练样本的数据进行数据清洗,并对清洗后的训练样本的数据中的特殊字符进行处理,获得数据集;S3切分数据集,将训练样本按照比例切分为训练集和测试集;S4搭建基于表征模型的深度学习网络并加载预训练参数;S5搭建长文本情感极性分析网络模型;S6修改训练样本数据结构;S7模型训练,采用分层抽样与K折交叉验证的方法,在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致,每折模型结果保存在验证集得分最高的模型,综合K折模型对于测试集进行测试,取平均概率作为该模型的测试结果。

Description

一种长文本新闻舆情的情感极性的分析方法
技术领域
本发明属于本发明属自然语言处理技术领域,尤其是涉及一种基于变形器(Transformer)结构的长文本新闻舆情情感极性分析的方法。
背景技术
判断新闻舆情的情感极性在自然语言处理领域可以抽象为文本分类问题,即通过标题与正文来判断该新闻所表达的情感极性。目前用于情感分析的方法主要分为以下三种:
1、基于情感词典的方法。基于情感词典的传统模型方法流程是先构建情感词典,通过该词典来对预分析文本中的字词进行情感倾向以及情感强弱的判定,从而实现文本整体的情感分类。该方法存在的局限性:(1)情感词典对未收纳的词汇无法处理(2)需要耗费大量的人工来制作高质量的情感词典(3)同样的词汇在不同领域表现出的情感倾向可能相差很大。
2、基于机器学习的方法。基于机器学习的方法可以通过对样本数据进行有效特征提取,从而来建立情感分类模型。该方法的优点是不受情感词典规模的限制,但其缺点是需要耗费大量的人工成本设计文本特征。
3、基于深度学习的方法。基于深度学习的方法能够自动将低阶特征组合、变化、提取生成高阶特征,因此成为了自然语言处理领域的主流方法。常见的方法有递归神经网络(RNN, Recursive Neural Network)、卷积神经网络(CNN,Convolutional NeuralNetwork)、长短期记忆网络(LSTM,Long Short-Term Memory)以及双向长短期记忆网络(Bi-LSTM,Bi-directional Long Short-Term Memory)等。随着变形器(Transformer)结构的出现,以基于变形器的双向编码器(BERT)为代表的深度双向预训练语言模型开始占领自然语言处理各项任务的头榜。但当前的中文预训练语言模型受限于模型文本最大长度的限制,在处理篇章级的长文本时通常采取直接截断的方法,失去了长文本中的很多有效信息。
因此,有必要开发一种长文本新闻舆情的情感极性的分析方法,将长文本通过变形器(Transformer)编码,再通过双向门限循环单元网络(Bi-GRU)来分析长文本新闻舆情情感极性的方法,能够解决传统方法准确率较低的问题。
发明内容
本发明要解决的技术问题是,提供一种长文本新闻舆情的情感极性的分析方法,将长文本通过变形器(Transformer)编码,再通过双向门限循环单元网络(Bi-GRU)来分析长文本新闻舆情情感极性的方法,能够解决传统方法准确率较低的问题。
为了解决上述技术问题,本发明采用的技术方案是:该长文本新闻舆情的情感极性的分析方法,包括以下步骤:
S1:收集文本数据作为训练样本;
S2:对步骤S1中收集的训练样本的数据进行数据清洗,并对清洗后的训练样本的数据中的特殊字符进行处理,获得数据集;
S3:切分数据集,将训练样本按照比例切分为训练集和测试集,在切分数据集时保证训练集和测试集中的情感极性标签的比例一致;
S4:搭建基于表征模型的深度学习网络并加载预训练参数;
S5:搭建长文本情感极性分析网络模型;
S6:修改训练样本数据结构;
S7:模型训练,采用分层抽样与K折交叉验证的方法,在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致,每折模型结果保存在验证集得分最高的模型,综合K折模型对于测试集进行测试,取平均概率作为所述步骤S5搭建的长文本情感极性分析网络模型的测试结果。
采用上述技术方案,将长文本通过变形器(Transformer)编码,再通过双向门限循环单元网络(Bi-GRU)来分析长文本新闻舆情情感极性,其中步骤S2中对样本的数据中的特殊字符进行处理时包括删除URL、删除特殊标点符号、删除连续标点符合、删除空格、删除连续换行符等;步骤S3中将样本按照8:2的比例随机切分为训练集和测试集,在切分数据集时保证训练集和测试集中的情感极性标签的比例一致;步骤S7中进行模型训练时所使用的是步骤S5搭建的长文本情感极性分析网络模型,其中K优选取值为10。
作为本发明的优选技术方案,所述步骤S4搭建基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络的具体步骤为:
S41:搭建网络输入层Input-Token与Input-Segment,该深度学习网络的输入为一个文本句子或文本句子对,即文本的Token编码与句子分割标识;
S42:搭建网络的字嵌入层Embedding,获得嵌入层结果;
S43:搭建面向中文理解的神经语境表征模型NEZHA-WWM的变形器Transformer主体结构,从而获得基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络。
作为本发明的优选技术方案,所述步骤S5具体包括以下步骤:
S51:搭建网络输出层,所述输出层为并列的多对输出Input-Token与Input-Segment;
S52:搭建网络拼接层,所述步骤S51中的多对输出通过共享的所述步骤S4中的面向中文理解的神经语境表征模型NEZHA-WWM的网络,每对输出Input-Token与Input-Segment可得到其4倍输出层,选取输出层作为输出值并将对应的多个隐藏层进行拼接;
S53:搭建双向门限循环单元网络层Bi-GRU,双向门限循环单元网络Bi-GRU能够从前后两个方向同时获取上下文信息,以提高特征提取的准确率;
S54:在网络的最后一层增加全连接层,并使用Softmax激活函数,用于输出各种类型的情感极性的概率结果。在步骤S4中搭建的面向中文理解的神经语境表征模型(NEZHA-WWM)可以提高模型对文本表意的准确性,但由于其模型结构无法处理长文本,需要调整模型结构后再添加分类部分,因此需要拱建长文本情感极性分析网络模型。步骤S52中由于前几层的输出值还未充分学习到文本的语义且最后一层的输出值过于接近掩码语言模型任务(MLM,Masked Language Model)与预测下句任务(NSP,Next Sentence Prediction),因此本方法取倒数第2层的输出值,并将其拼接。双向门限循环单元网络可(Bi-GRU)从前后方向同时获取上下文信息,以提高特征提取的准确率,并且该网络具有对词向量的依赖性小、复杂度低、响应时间快的优点。
作为本发明的优选技术方案,所述步骤S42中所述字嵌入层Embedding包括标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding,所述标记嵌入Token-Embedding是文本字典的下标,其引用NEZHA-WWM对应的文本字典;所述断句嵌入Segment-Embedding表明每个字属于句子对中的哪个句子,所述位置嵌入Position-Embedding代表的是每个字的位置信息,所述位置嵌入Position-Embedding使用Sin-Cos形式的位置向量;将所述标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding三个嵌入的输出直接相加,即得到嵌入层Embedding的值。
作为本发明的优选技术方案,所述步骤S43中所述变形器Transformer主体结构包括多个编码器,每个所述编码器的结构均依次由多头自注意力层Transformer-Multi-Head-Self-Attention、第一相加层Add和层归一化层Layer-Normalization、前馈神经网络层Transformer-Feed-Forward以及第二相加层Add和层归一化层Layer-Normalization构成。
作为本发明的优选技术方案,所述多头自注意力层Transformer-Multi-Head-Self-Attention能实现当前节点不只关注当前的字词,还能关注当前的输入句子的其他部分;所述多头自注意力层的自注意力机制Self-Attention采用矩阵运算的方式,计算出查询向量Query、键向量Key和值向量Value的矩阵,然后把步骤S42中的嵌入层Embedding的值与所述查询向量Query、键向量Key和值向量Value三个矩阵直接相乘,从而得到的新矩阵Q,再把所述矩阵Q与K相乘并乘以一个常数,做Softmax操作,最后乘上值向量Value矩阵,具体公式如下:
Figure 474575DEST_PATH_IMAGE001
其中Q=Query矩阵,K=Key矩阵,V=Value矩阵,d为K的维度。
作为本发明的优选技术方案,所述前馈神经网络层Transformer-Feed-Forward接收所述多头自注意力层的输出,负责进行线性变换与激活变换并将数据输出到下一层;所述第一相加层Add和层归一化层Layer-Normalization与第二相加层Add和层归一化层Layer-Normalization用于让每层的输入结果与输出结果相加后进行标准化处理,使数据分布一致。
作为本发明的优选技术方案,所述步骤S51中的所述输出层为并列的三对输出Input-Token与Input-Segment,相应地,所述步骤S52中将并列的三对输出Input-Token与Input-Segment通过共享的面向中文理解的神经语境表征模型网络NEZHA-WWM,每对输出Input-Token与Input-Segment可得到输出共12层。
作为本发明的优选技术方案,所述步骤S6修改训练样本数据结构时基于步骤S5中所需的模型输入结构,将每个长文本样本的切分为3段,每段的最大长度为512,这样模型便能容纳最大长度为1536字的长文本,即保留了长文本的全部有效信息。
作为本发明的优选技术方案,当采用该长文本新闻舆情的情感极性的分析方法应用于新的样本分析时,具体步骤包括:
S1-1:将新的长文本新闻舆情样本数据采用步骤S2和步骤S3的方法进行数据清洗与文本切分;
S1-2:将切分后的多段文本输入面向中文理解的神经语境表征模型NEZHA-WWM,依次经过标记嵌入、断句嵌入和位置嵌入后,通过多头自注意力层Transformer-Multi-Head-Self-Attention得到编码器Encoder输出的结果,取出输出结果的倒数第二层隐藏层,并将对应的多个隐藏层结果进行拼接,再通过双向门限循环单元网络层Bi-GRU,最后对输出结果使用Softmax激活函数,得到输出三个类型的概率结果;
S1-3:从得到的情感极性概率结果的分布中,选择最大概率的情感极性作为该文本的情感极性。由于前几层的输出值还未充分学习到文本的语义且最后一层的输出值过于接近掩码语言模型任务(MLM,Masked Language Model)与预测下句任务(NSP,NextSentence Prediction),因此本方法取倒数第2层的输出值,并将其拼接。
相比现有技术,该技术方案具有的有益效果是:该长文本新闻舆情的情感极性的分析方法解决了基于变形器(Transformer)结构的情感分析模型无法处理长文本的问题,完整的保留了长文本新闻舆情的文本信息,使得情感极性分析模型更准确。
附图说明
下面结合附图和本发明的实施方式进一步详细说明:
图1为本发明的长文本新闻舆情的情感极性的分析方法的字嵌入层网络结构图;
图2为本发明的长文本新闻舆情的情感极性的分析方法的面向中文理解的神经语境表征模型NEZHA-WWM结构图;
图3为本发明的长文本新闻舆情的情感极性的分析方法的编码器Encoder结构图;
图4为本发明的长文本新闻舆情的情感极性的分析方法的自注意力Self-Attention结构图。
具体实施方式
实施例:该长文本新闻舆情的情感极性的分析方法,包括以下步骤:
S1:收集文本数据作为训练样本;其中情感极性标签类型包括积极、中性、消极三类;
S2:对步骤S1中收集的训练样本的数据进行数据清洗,并对清洗后的训练样本的数据中的特殊字符进行处理,包括删除URL、删除特殊标点符号、删除连续标点符合、删除空格、删除连续换行符等,获得数据集;
S3:切分数据集,将样本按照8:2的比例随机切分为训练集和测试集,在切分数据集时保证训练集和测试集中的情感极性标签的比例一致;
S4:搭建基于表征模型的深度学习网络并加载预训练参数;
所述步骤S4搭建基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络的具体步骤为:
S41:搭建网络输入层Input-Token与Input-Segment,该深度学习网络的输入为一个文本句子或文本句子对,即文本的Token编码与句子分割标识;
S42:搭建网络的字嵌入层Embedding,获得嵌入层结果;
如图1所示,所述步骤S42中所述字嵌入层Embedding包括标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding,所述标记嵌入Token-Embedding是文本字典的下标,其引用NEZHA-WWM对应的文本字典;所述断句嵌入Segment-Embedding表明每个字属于句子对中的哪个句子,所述位置嵌入Position-Embedding代表的是每个字的位置信息,所述位置嵌入Position-Embedding使用Sin-Cos形式的位置向量;将所述标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding三个嵌入的输出直接相加,即得到嵌入层Embedding的值;
S43:搭建面向中文理解的神经语境表征模型NEZHA-WWM的变形器Transformer主体结构,从而获得基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络;
如图2所示,所述步骤S43中所述变形器Transformer主体结构包括多个编码器,如图3所示,每个所述编码器的结构均依次由多头自注意力层Transformer-Multi-Head-Self-Attention、第一相加层Add和层归一化层Layer-Normalization、前馈神经网络层Transformer-Feed-Forward以及第二相加层Add和层归一化层Layer-Normalization构成;
如图4所示,所述多头自注意力层Transformer-Multi-Head-Self-Attention能实现当前节点不只关注当前的字词,还能关注当前的输入句子的其他部分;所述多头自注意力层的自注意力机制Self-Attention采用矩阵运算的方式,计算出查询向量Query、键向量Key和值向量Value的矩阵,然后把步骤S42中的嵌入层Embedding的值与所述查询向量Query、键向量Key和值向量Value三个矩阵直接相乘,从而得到的新矩阵Q,再把所述矩阵Q与K相乘并乘以一个常数,做Softmax操作,最后乘上值向量Value矩阵,具体公式如下:
Figure 594978DEST_PATH_IMAGE001
其中Q=Query矩阵,K=Key矩阵,V=Value矩阵,d为K的维度;
所述前馈神经网络层Transformer-Feed-Forward接收所述多头自注意力层的输出,负责进行线性变换与激活变换并将数据输出到下一层;所述第一相加层Add和层归一化层Layer-Normalization与第二相加层Add和层归一化层Layer-Normalization用于让每层的输入结果与输出结果相加后进行标准化处理,使数据分布一致;
S5:搭建长文本情感极性分析网络模型;所述步骤S5具体包括以下步骤:
S51:搭建网络输出层,所述输出层为并列的三对输出Input-Token与Input-Segment;
S52:搭建网络拼接层,所述步骤S51中的多对输出通过共享的所述步骤S4中的面向中文理解的神经语境表征模型NEZHA-WWM的网络,所述步骤S51中的所述输出层为并列的三对输出Input-Token与Input-Segment,相应地,所述步骤S52中将并列的三对输出Input-Token与Input-Segment通过共享的面向中文理解的神经语境表征模型网络NEZHA-WWM,每对输出Input-Token与Input-Segment可得到输出共12层;选取倒数第二层输出层作为输出值并将对应的多个隐藏层进行拼接;由于前几层的输出值还未充分学习到文本的语义且最后一层的输出值过于接近掩码语言模型任务(MLM,Masked Language Model)与预测下句任务(NSP,Next Sentence Prediction),因此本方法取倒数第2层的输出值,并将其拼接;
S53:搭建双向门限循环单元网络层Bi-GRU,双向门限循环单元网络Bi-GRU能够从前后两个方向同时获取上下文信息,以提高特征提取的准确率;并且该网络具有对词向量的依赖性小、复杂度低、响应时间快的优点;
S54:在网络的最后一层增加全连接层,并使用Softmax激活函数,用于输出各种类型的情感极性的概率结果。在步骤S4中搭建的面向中文理解的神经语境表征模型(NEZHA-WWM)可以提高模型对文本表意的准确性,但由于其模型结构无法处理长文本,需要调整模型结构后再添加分类部分,因此需要拱建长文本情感极性分析网络模型。
S6:修改训练样本数据结构;所述步骤S6修改训练样本数据结构时基于步骤S5中所需的模型输入结构,将每个长文本样本的切分为3段,每段的最大长度为512,这样模型便能容纳最大长度为1536字的长文本,即保留了长文本的全部有效信息;
S7:模型训练,采用分层抽样与K(K=10)折交叉验证的方法,在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致,每折模型结果保存在验证集得分最高的模型,综合K折模型对于测试集进行测试,取平均概率作为所述步骤S5搭建的长文本情感极性分析网络模型的测试结果。
新样本测试:
当采用该长文本新闻舆情的情感极性的分析方法应用于新的样本分析时,具体步骤包括:
S1-1:将新的长文本新闻舆情样本数据采用步骤S2和步骤S3的方法进行数据清洗与文本切分;
S1-2:将切分后的多段文本输入面向中文理解的神经语境表征模型NEZHA-WWM,依次经过标记嵌入、断句嵌入和位置嵌入后,通过多头自注意力层Transformer-Multi-Head-Self-Attention得到编码器Encoder输出的结果,取出输出结果的倒数第二层隐藏层,并将对应的多个隐藏层结果进行拼接,再通过双向门限循环单元网络层Bi-GRU,最后对输出结果使用Softmax激活函数,得到输出三个类型的概率结果;
S1-3:从得到的情感极性概率结果的分布中,选择最大概率的情感极性作为该文本的情感极性。由于前几层的输出值还未充分学习到文本的语义且最后一层的输出值过于接近掩码语言模型任务(MLM,Masked Language Model)与预测下句任务(NSP,NextSentence Prediction),因此本方法取倒数第2层的输出值,并将其拼接。
采用上述长文本新闻舆情的情感极性的分析方法,进行了分析对比实验,对比实验结果如下表1。
表1对比实验结果
Figure 305272DEST_PATH_IMAGE002
从表1中可以看出,通过4个实验对比可得到以下结论:
(1)在本实验所使用的数据集上,同时利用标题与正文进行训练的模型效果优于仅仅利用标题进行训练。通过人工观察发现,存在一些样本数据在标题上体现的情感极性为消极如违法犯罪事件等,但正文中会出现违法犯罪行为已被打击,其真正的情感极性应属于中性或积极,因此正文中的语义信息不可缺少;
(2)在本实验所使用的数据集上,使用基于面向中文理解的神经语境表征模型(NEZHA-WWM)的实验结果优于基于变形器的双向编码器(BERT)预训练模型;
(3)在本实验所使用的数据集上,通过基于面向中文理解的神经语境表征模型(NEZHA-WWM)得到文本的向量表达后再输入双向门限循环单元网络(Bi-GRU)神经网络层,模型的准确率有了提升,说明了该网络的有效性。
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.一种长文本新闻舆情的情感极性的分析方法,其特征在于,包括以下步骤:
S1:收集文本数据作为训练样本,其中情感极性标签类型包括积极、中性、消极三类;
S2:对步骤S1中收集的训练样本的数据进行数据清洗,并对清洗后的训练样本的数据中的特殊字符进行处理,获得数据集;
S3:切分数据集,将训练样本按照比例切分为训练集和测试集,在切分数据集时保证训练集和测试集中的情感极性标签的比例一致;
S4:搭建基于表征模型的深度学习网络并加载预训练参数;
S5:搭建长文本情感极性分析网络模型;
S6:修改训练样本数据结构;
S7:模型训练,采用分层抽样与K折交叉验证的方法,在分层抽样时保证每折的样本数据集中的样本比例与原始数据比例一致,每折模型结果保存在验证集得分最高的模型,综合K折模型对于测试集进行测试,取平均概率作为所述步骤S5搭建的长文本情感极性分析网络模型的测试结果;
所述步骤S4搭建基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络的具体步骤为:
S41:搭建网络输入层Input-Token与Input-Segment,该深度学习网络的输入为一个文本句子或文本句子对,即文本的Token编码与句子分割标识;
S42:搭建网络的字嵌入层Embedding,获得嵌入层结果;
S43:搭建面向中文理解的神经语境表征模型NEZHA-WWM的变形器Transformer主体结构,从而获得基于面向中文理解的神经语境表征模型NEZHA-WWM的深度学习网络;
所述步骤S5具体包括以下步骤:
S51:搭建网络输出层,所述输出层为并列的多对输出Input-Token与Input-Segment;
S52:搭建网络拼接层,所述步骤S51中的多对输出通过共享的所述步骤S4中的面向中文理解的神经语境表征模型NEZHA-WWM的网络,每对输出Input-Token与Input-Segment可得到其4倍输出层,选取输出层作为输出值并将对应的多个隐藏层进行拼接;
S53:搭建双向门限循环单元网络层Bi-GRU,双向门限循环单元网络Bi-GRU能够从前后两个方向同时获取上下文信息,以提高特征提取的准确率;
S54:在网络的最后一层增加全连接层,并使用Softmax激活函数,用于输出各种类型的情感极性的概率结果。
2.根据权利要求1所述的长文本新闻舆情的情感极性的分析方法,其特征在于,所述步骤S42中所述字嵌入层Embedding包括标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding,所述标记嵌入Token-Embedding是文本字典的下标,其引用NEZHA-WWM对应的文本字典;所述断句嵌入Segment-Embedding表明每个字属于句子对中的哪个句子,所述位置嵌入Position-Embedding代表的是每个字的位置信息,所述位置嵌入Position-Embedding使用Sin-Cos形式的位置向量;将所述标记嵌入Token-Embedding、断句嵌入Segment-Embedding和位置嵌入Position-Embedding三个嵌入的输出直接相加,即得到嵌入层Embedding的值。
3.根据权利要求2所述的长文本新闻舆情的情感极性的分析方法,其特征在于,所述步骤S43中所述变形器Transformer主体结构包括多个编码器,每个所述编码器的结构均依次由多头自注意力层Transformer-Multi-Head-Self-Attention、第一相加层Add和层归一化层Layer-Normalization、前馈神经网络层Transformer-Feed-Forward以及第二相加层Add和层归一化层Layer-Normalization构成。
4.根据权利要求3所述的长文本新闻舆情的情感极性的分析方法,其特征在于,所述多头自注意力层Transformer-Multi-Head-Self-Attention能实现当前节点不只关注当前的字词,还能关注当前的输入句子的其他部分;所述多头自注意力层的自注意力机制Self-Attention采用矩阵运算的方式,计算出查询向量Query、键向量Key和值向量Value的矩阵,然后把步骤S42中的嵌入层Embedding的值与所述查询向量Query、键向量Key和值向量Value三个矩阵直接相乘,从而得到的新矩阵Q,再把所述矩阵Q与K相乘并乘以一个常数,做Softmax操作,最后乘上值向量Value矩阵,具体公式如下:
Figure DEST_PATH_IMAGE002
其中Q=Query矩阵, K=Key矩阵, V=Value矩阵, d为K的维度。
5.根据权利要求4所述的长文本新闻舆情的情感极性的分析方法,其特征在于,所述前馈神经网络层Transformer-Feed-Forward接收所述多头自注意力层的输出,负责进行线性变换与激活变换并将数据输出到下一层;所述第一相加层Add和层归一化层Layer-Normalization与第二相加层Add和层归一化层Layer-Normalization用于让每层的输入结果与输出结果相加后进行标准化处理,使数据分布一致。
6.根据权利要求5所述的长文本新闻舆情的情感极性的分析方法,其特征在于,所述步骤S51中的所述输出层为并列的三对输出Input-Token与Input-Segment,相应地,所述步骤S52中将并列的三对输出Input-Token与Input-Segment通过共享的面向中文理解的神经语境表征模型网络NEZHA-WWM,每对输出Input-Token与Input-Segment可得到输出共12层。
7.根据权利要求5所述的长文本新闻舆情的情感极性的分析方法,其特征在于,所述步骤S6修改训练样本数据结构时基于步骤S5中所需的模型输入结构,将每个长文本样本的切分为3段,每段的最大长度为512,这样模型便能容纳最大长度为1536字的长文本,即保留了长文本的全部有效信息。
8.根据权利要求5所述的长文本新闻舆情的情感极性的分析方法,其特征在于,当采用该长文本新闻舆情的情感极性的分析方法应用于新的样本分析时,具体步骤包括:
S1-1:将新的长文本新闻舆情样本数据采用步骤S2和步骤S3的方法进行数据清洗与文本切分;
S1-2:将切分后的多段文本输入面向中文理解的神经语境表征模型NEZHA-WWM,依次经过标记嵌入、断句嵌入和位置嵌入后,通过多头自注意力层Transformer-Multi-Head-Self-Attention得到编码器Encoder输出的结果,取出输出结果的倒数第二层隐藏层,并将对应的多个隐藏层结果进行拼接,再通过双向门限循环单元网络层Bi-GRU,最后对输出结果使用Softmax激活函数,得到输出各种类型的情感极性的概率结果;
S1-3:从得到的情感极性概率结果的分布中,选择最大概率的情感极性作为该文本的情感极性。
CN202011291196.6A 2020-11-18 2020-11-18 一种长文本新闻舆情的情感极性的分析方法 Active CN112100388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011291196.6A CN112100388B (zh) 2020-11-18 2020-11-18 一种长文本新闻舆情的情感极性的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011291196.6A CN112100388B (zh) 2020-11-18 2020-11-18 一种长文本新闻舆情的情感极性的分析方法

Publications (2)

Publication Number Publication Date
CN112100388A CN112100388A (zh) 2020-12-18
CN112100388B true CN112100388B (zh) 2021-02-23

Family

ID=73785932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011291196.6A Active CN112100388B (zh) 2020-11-18 2020-11-18 一种长文本新闻舆情的情感极性的分析方法

Country Status (1)

Country Link
CN (1) CN112100388B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766368A (zh) * 2021-01-18 2021-05-07 咪咕音乐有限公司 一种数据分类方法、设备和可读存储介质
CN112988962B (zh) * 2021-02-19 2024-05-28 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN112949318B (zh) * 2021-03-03 2022-03-25 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN113220887B (zh) * 2021-05-31 2022-03-15 华南师范大学 一种利用目标知识增强模型的情感分类方法
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN113672727B (zh) * 2021-07-28 2024-04-05 重庆大学 一种金融文本实体关系抽取方法及系统
CN113609390A (zh) * 2021-08-06 2021-11-05 北京金堤征信服务有限公司 信息分析方法及装置、电子设备和计算机可读存储介质
CN113849592B (zh) * 2021-11-30 2022-04-08 之江实验室 文本情感分类方法及装置、电子设备、存储介质
CN114936562A (zh) * 2022-04-26 2022-08-23 哈尔滨理工大学 一种基于Transformer模型的中文文本情感分析方法
CN114936283B (zh) * 2022-05-18 2023-12-26 电子科技大学 一种基于Bert的网络舆情分析方法
CN115329751B (zh) * 2022-10-17 2023-01-17 广州数说故事信息科技有限公司 针对网络平台发文的关键词提取方法、装置、介质及设备
CN115994184B (zh) * 2023-03-23 2023-05-16 深圳市宝腾互联科技有限公司 一种基于大数据自动化运维平台的运维方法及系统
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116776886B (zh) * 2023-08-15 2023-12-05 浙江同信企业征信服务有限公司 一种信息抽取方法、装置、设备及存储介质
CN117574981B (zh) * 2024-01-16 2024-04-26 城云科技(中国)有限公司 一种信息分析模型的训练方法及信息分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6675474B2 (ja) * 2016-03-23 2020-04-01 株式会社野村総合研究所 文章解析システム及びプログラム
CN109933795B (zh) * 2019-03-19 2023-07-28 上海交通大学 基于上下文-情感词向量的文本情感分析系统
CN110377696A (zh) * 2019-06-19 2019-10-25 新华智云科技有限公司 一种商品期货新闻舆情分析方法及系统

Also Published As

Publication number Publication date
CN112100388A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112100388B (zh) 一种长文本新闻舆情的情感极性的分析方法
Bakhtin et al. Real or fake? learning to discriminate machine from human generated text
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN106933804B (zh) 一种基于深度学习的结构化信息抽取方法
Peng et al. Phonetic-enriched text representation for Chinese sentiment analysis with reinforcement learning
CN107168957A (zh) 一种中文分词方法
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN111506700B (zh) 基于上下文感知嵌入的细粒度情感分析方法
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN111125323B (zh) 一种聊天语料标注方法、装置、电子设备及存储介质
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN114692621A (zh) Nlp中基于样本的序列到序列任务的影响函数解释方法
Jin Application optimization of NLP system under deep learning technology in text semantics and text classification
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN116562296A (zh) 地理命名实体识别模型训练方法及地理命名实体识别方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant