CN112950019B - 一种基于联合注意力机制的售电公司评价情感分类方法 - Google Patents
一种基于联合注意力机制的售电公司评价情感分类方法 Download PDFInfo
- Publication number
- CN112950019B CN112950019B CN202110224761.5A CN202110224761A CN112950019B CN 112950019 B CN112950019 B CN 112950019B CN 202110224761 A CN202110224761 A CN 202110224761A CN 112950019 B CN112950019 B CN 112950019B
- Authority
- CN
- China
- Prior art keywords
- word
- evaluation
- emotion
- lstm
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 83
- 238000011156 evaluation Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005611 electricity Effects 0.000 title claims abstract description 43
- 230000007246 mechanism Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000010276 construction Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 41
- 210000002569 neuron Anatomy 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Water Supply & Treatment (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于联合注意力机制的售电公司评价情感分类方法,属于信息技术领域。该方法包括售电公司评价文本数据集的构建与划分、模型训练、模型调优和售电公司评价情感分类四大步骤。该方法获得的评价情感的分类结果一定程度可以反映电力用户对于售电公司的情感倾向,能够在某种意义上刻画售电公司在零售市场的客户满意度和好评度;分类结果可以作为评估售电公司服务质量、信用等级的一个重要指标,能够促进售电公司不断提升服务质量,优化电力套餐结构,调整电力价格,保障电力零售市场的良性竞争和健康平稳运行。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于联合注意力机制的售电公司评价情感分类方法。
背景技术
随着近年来国内电力市场化改革在如火如荼的进行之中,电力零售市场作为电力市场的一大重要组成部分,为售电公司和中小型电力用户提供了较批发交易方式更为灵活的零售交易方式。中小型电力用户在向售电公司购电、用电之后,会对电力套餐的实惠程度、用电偏差的处理和售电公司的服务态度等方面进行评价,在这些评价中充满了电力用户丰富的情感倾向。基于此,分析电力用户对售电公司评价中的情感倾向,一方面可以为其他电力用户在选购和定制电力套餐时提供参考和决策依据,另一方面也能促使售电公司不断优化电力套餐结构、调整套餐价格和提升服务质量。
情感分类的算法大致经历了基于自定义情感词典和规则的方法、基于特征工程的机器学习的方法以及基于深度学习的方法三个阶段。基于自定义情感词典和规则的方法需要人工构建词库和情感判定规则,比较耗时耗力,且难以处理复杂的多情感极性分类任务;基于特征工程的机器学习方法则通过对文本建立特征向量而后训练分类器进行分类,这类方法虽然具有较强的可解释性,但特征提取和处理的过程会随着数据复杂程度增加而变得繁琐,导致严重的特征稀疏和维度灾难等问题。基于深度学习的方法在近年随着深度学习技术的崛起而备受关注,它通过神经网络端对端地学习输入数据和输出标签之间的映射关系,从而实现分类。虽然基于深度学习的方法比上述两种方法取得了更好的分类性能,但现存的大部分深度模型存在网络结构单一,网络运行机制不符合人类阅读理解文本的习惯和规律。
另外,现存的情感分类任务针对的领域通常是社交平台、传统网购平台和第三产业平台等,电力零售平台作为近年来电力市场化改革的产物,在一定程度上决定了未来电力零售行业的发展方向。售电公司作为零售平台上的店铺运营商,其服务质量的好坏与零售市场能否健康稳定发展直接挂钩。基于此,对售电公司的评价进行情感分类能够有效考量售电公司在零售市场中的用户满意度,有利于规范售电公司市场行为,提升其服务质量。然而,现存的情感分类任务还未有与电力零售领域中售电公司评价数据进行结合的案例。
综上,在情感分类算法方面,虽然目前基于深度学习的各种算法在其他领域取得了较好的结果,但这些算法大部分都存在提取特征粒度单一,不符合人类阅读理解文本规律的问题。另外,国内电力市场发展还处于起步阶段,市场模式也有别于国外,目前还没有一种高效、准确的对售电公司评价进行情感分类的算法。
发明内容
本发明的目的是为了解决现有技术的不足,基于在当前国内电力市场化改革背景下,在电力零售市场中缺乏一种高效准确的对售电公司评价情感进行分类的算法,提供一种基于联合注意力机制的售电公司评价情感分类方法。
为实现上述目的,本发明采用的技术方案如下:
一种基于联合注意力机制的售电公司评价情感分类方法,包括如下步骤:
步骤(1),售电公司评价文本数据集的构建与划分:构建售电公司评价文本数据集,并将其划分为训练集和测试集;所述的评价文本数据集包括评论数据及其对应的情感类别;
步骤(2),模型训练:采用训练集,以评论数据作为输入,以评论数据对应的情感类别作为输出,以交叉熵作为损失函数进行训练,得到基于联合注意力机制的情感分类模型;
所述的基于联合注意力机制的情感分类模型包括嵌入层、Bi-LSTM模块、CNN-LSTM模块、注意力层;
步骤(3),模型调优:采用测试集,以交叉熵作为损失函数对模型中的参数进行调整,得到最优基于联合注意力机制的情感分类模型;
步骤(4),售电公司评价情感分类:获取各售电公司的所有评价数据,使用模型对其评价数据进行情感分类,并统计其评价被分为各个情感类别的数量。
进一步,优选的是,步骤(1)中,构建售电公司评价文本数据集的具体方法为:在电力零售平台上随机爬取若干个售电公司10000条的评论数据,之后人工对其类别进行标注,标注类别总共有5个类别,即1星到5星,数字越大表示评论蕴含的情感越积极,反之则越消极;标注完成后将这些数据进行清洗和过滤,去除从网页爬取下来或显示乱码的评论,并去除网页标签、特殊符号、以及与情感表达无关的助词、介词。
例如5星表示用户对售电公司的服务非常满意,4星表示总体满意,3星表示一般满意,2星表示不太满意,1星则表示非常不满意;标注完成后将这些数据进行清洗和过滤,清洗和过滤主要是去除一些从网页爬取下来或显示乱码的评论,以及去除评论中的一些网页标签,特殊符号、以及与情感表达无关的助词、介词。
进一步,优选的是,步骤(1)中,训练集和测试集的比例为4∶1,且训练集和测试集中每个类别的样本数量需保持一致。
进一步,优选的是,步骤(2)中,嵌入层为模型的第一层,用于将输入文本序列中的每个词语转换为相应的分布式表示;具体为:对于一个包含有n个按序排列词语的句子S={w1,w2,...,wn},通过一个词嵌入矩阵E∈Rd×v以及公式(1)来查询每个词语对应的分布式向量表示,其中,d为词向量维度,V为词汇表的数量,R为实数空间,wi(i=1,2,…,n)为句子中第i个词语,S为由n个词语构成的句子;
而后将句子S中所有词语的词向量进行堆叠得到一个词向量矩阵W∈Rd×n,其中,d为词向量维度,n为句子S中词语数量,R为实数空间,之后将词向量矩阵W分别作为后续Bi-LSTM层和CNN-LSTM层的输入;
ei=Eoi (1)
在公式(1)中,oi是词语wi对应的one-hot编码,ei为词语wi对应的词向量。
进一步,优选的是,步骤(2)中,Bi-LSTM模块每个神经元都包含遗忘门、输入门和输出门;
对于当前神经元,遗忘门首先接收上一神经元的输出ht-1和当前输入xt来计算遗忘权重ft,如公式(2)所示,其中当前输入xt就是词向量矩阵W中的第t行构成的向量,该遗忘权重用于后面与上一神经元的状态Ct-1进行相乘来决定保留哪些历史状态,如公式(5)所示;在公式(2)中,Wf为遗忘权重ft的参数矩阵,该矩阵的取值在训练前可以随机设定,而后在训练过程中逐步调整,bf为遗忘权重ft的偏移量,σ为sigmoid激活函数;
ft=σ(Wf·[ht-1,xt]+bf) (2)
输入门接收上一单元输出ht-1和当前输入xt(即词向量矩阵W中的第t行构成的向量)来计算得到当前哪些信息需要被记忆的权重it,如公式(3)所示,同时,输入门还通过公式(4)计算当前神经元的候选状态Ct’;在公式(3)和(4)中,Wi和WC分别为记忆权重it和候选状态Ct’的参数矩阵,bi和bC则分别为记忆权重it和候选状态Ct’的偏移量,tanh为tanh激活函数;最终使用公式(5)的加权和公式计算得出当前神经元的终态Ct;
it=σ(Wi·[ht-1,xt]+bi) (3)
C′t=tanh(WC·[ht-1,xt]+bC) (4)
Ct=ft*Ct-1+it*C′t (5)
之后输出门将基于前一神经元输出ht-1和当前输入xt来计算一个输出权重ot,如公式(6)所示,与上述公式类似,Wo为输出权重ot的参数矩阵,bo为输出权重ot的偏移量,最后,输出权重ot与经过tanh激活函数处理过的神经元状态Ct相乘,得到当前神经元的输出信息ht,如公式(7)所示;
ot=σ(Wo·[ht-1,xt]+bo) (6)
ht=ot*tanh(Ct) (7)
Bi-LSTM模块分别使用两个反向的LSTM对输入序列进行建模,定义输入词语wt(t=1,2,…,n)对应的正向和反向LSTM输出状态分别为和/>将其拼接得到当前输入的状态表示/>对于包含n个词语的句子,经过双向LSTM处理后得到的特征表示为H={h1,h2,…,hn]。
进一步,优选的是,CNN-LSTM模块用于对文本序列在n-gram粒度上进行建模;CNN-LSTM模块包含两个以串联方式连接的神经网络:一个不带池化层的标准CNN和一个双向LSTM;
首先CNN对输入词向量矩阵W进行特征提取得到表示n-gram的特征映射图,而后将特征映射图输入到双向LSTM中得到n-gram序列的长序依赖关系。
进一步,优选的是,CNN用于对文本捕获基于窗口的n-gram表示,CNN接收嵌入层传入的词嵌入矩阵W,而后采用固定大小的卷积过滤器F∈Rd×k在W上进行滑动,其中d为词向量维度,k为过滤器长度,R为实数空间;过滤器F进行第i次特征提取的部分为k个连续的词向量即W[i:i+k-1],如公式(8)所示;
ci=f(F·W[i:i+k-1]+b) (8)
其中,f为ReLU非线性激活函数,ci为当前窗口的特征表示,b为当前窗口特征ci的偏移量,;当过滤器F在词嵌入矩阵W上以步长为1完成滑动并对所有大小为k的窗口提取特征后便得到了特征映射图向量c={c1,c2,...,cn-k+1};以同样的方式使用m个过滤器对词嵌入矩阵进行特征提取便能够得到m个对应的特征映射图,将这些特征映射图堆叠成一个矩阵M∈Rm×n,其中,n为词嵌入矩阵W中词语数量,R为实数空间;
将特征映射图矩阵M也输入到一个双向LSTM中进行建模对词嵌入矩阵提取特征;同理,把第t个n-gram对应的正向和反向LSTM隐层状态和/>拼接得到第t个n-gram的状态表示/>因此,整个CNN-LSTM模块的输出特征A={a1,α2,…,an]。
进一步,优选的是,在注意力层将CNN-LSTM模块的输出A作为注意力权重,与捕获词语序列长序依赖的Bi-LSTM模块输出H通过元素积相乘,如公式(9)所示;
相乘结果R为待分类文本最终的矩阵表示,而后将表示结果R输入池化层进行降维得到向量化表示P,再将P输入到一个全连接层通过Softmax函数进行归一化处理,最终得到文本属于每个类别概率构成的向量p=(p1,p2,…,pc),其中pj(j=1,2,…,c)为该文本属于第j个类别的概率,c为类别总数,如公式(10)所示,其中W和bp分别为参数矩阵和p相对于参数矩阵的偏移量,Softmax为归一化激活函数;
p=Softmax(P·W+bp) (10)。
进一步,优选的是,损失函数交叉熵,具体描述为:假设待分类数据集共有N个类别,则对于某个样本,分别将其对于第i个类别预测概率pi取对数后与指示变量yi相乘,指示变量yi来源于训练数据的标签,假设该样本的标签确定该样本属于第j类(0<j≤N,j∈R),则yj为1,其他yi(0<i≤N,i≠j,j∈R)为0。并将所有相乘结果相加后取负值即可得到该样本的损失函数值L,如公式(11)所示;
在模型训练过程中,每一轮迭代都需对所有样本计算损失函数值并得出样本的损失函数均值,而后计算损失函数对于各模型参数的梯度,并通过学习率对模型参数进行基于梯度方向的更新;模型参数经过多轮迭代后会使得损失函数的值在一个可接受的阈值范围内波动,这意味着模型已经充分学习到了从样本特征到类别的映射关系,可停止训练。
本发明分析传统的基于深度学习情感分类算法存在的缺陷,并结合人类阅读理解中使用注意力的习惯,探究设计一种基于联合注意力机制的情感分类模型;将售电公司评价文本作为数据集,并使用划分的训练集和测试集分别对模型进行训练和测试。在获取到售电公司评价文本数据集后对其进行清洗、过滤和词语向量化操作后,划分训练集和测试集,并将分类模型分别在训练集和测试集上进行训练和测试;然后调优模型以获得最佳分类性能。针对售电公司评价数据集特点和分类测试结果,对模型各网络层的参数进行调整以提升分类性能,实现分类模型与该领域数据集的有效契合;最后以评价情感分类结果作为对各售电公司的服务客户满意度的测评指标。评价情感的分类结果一定程度可以反映电力用户对于售电公司的情感倾向,能够在某种意义上刻画售电公司在零售市场的客户满意度和好评度;分类结果可以作为评估售电公司服务质量、信用等级的一个重要指标。
本发明与现有技术相比,其有益效果为:
本发明以电力零售市场中售电公司评价文本作为数据集,通过分析现有深度学习的情感分类算法存在的缺陷,提出了一种基于联合注意力机制的深度模型。该模型通过模仿人类在阅读文本时抓住文本中表达关键语义的词语和词组进行理解的特点,对售电公司评价文本提取对情感表达最为关键的语义进行建模,从而提升了评价情感分类的准确率。该模型通过在售电公司评价文本数据集上训练、测试,从而能对其他售电公司的评价情感进行有效、快速和准确的预测,最终根据各售电公司评价情感分类的指标,对其市场用户好评率和差评率进行评估,以促进售电公司不断提升服务质量,优化电力套餐结构,调整电力价格,保障电力零售市场的良性竞争和健康平稳运行。
附图说明
图1为基于联合注意力机制的情感分类模型图。
具体实施方式
下面结合实施例对本发明作进一步的详细描述。
本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用材料或设备未注明生产厂商者,均为可以通过购买获得的常规产品。
一、问题定义
情感分类是自然语言处理领域的主流任务之一,该任务通过抽取文本中与情感相关的词法、语法结构和语义特征进而将文本分为具有不同情感倾向的类别。情感分类根据情感类别的数量可分为正负情感极性分类、多极性情感分类和细粒度方面级情感分类。本发明针对电力零售市场中售电公司评价文本数据集的特点,并结合市面上常见网购平台商品评价级别数量,选择多极性情感分类作为任务类型进行分类模型构建、模型训练、模型测试和模型调优,来实现将各售电公司评价文本根据情感倾向分为多个类别,并根据分类结果对各售电公司的市场服务满意度进行评估。
二、基于联合注意力机制的情感分类模型
本发明根据人类在阅读过程中会抓住文本关键义元之间的语义关系对文本进行理解的习惯,设计了一种基于联合注意力机制的网络模型,该模型采用一种并行结构,如图1所示,下面对该模型各网络层进行介绍。
1、嵌入层
该层为模型的第一层,用于将输入文本序列中的每个词语转换为相应的分布式表示。具体来说给定一个包含有n个按序排列词语的句子S={w1,w2,…,wn},其中wi(i=1,2,…,n)表示第i个词语,通过一个词嵌入矩阵E∈Rd×V(d为词向量维度,V为词汇表的数量,R表示实数空间)以及公式(1)来查询每个词语对应的分布式向量表示,而后将句子S中所有词语的词向量进行堆叠得到一个词向量矩阵W∈Rd×n(d为词向量维度,n为句子S中词语数量,R表示实数空间),之后将W作为后续网络层的输入。
ei=Eoi (1)
在公式(1)中,oi是词语wi对应的one-hot编码,ei为词语wi对应的词向量。
2、建模词语序列的双向LSTM(Bi-LSTM模块)
双向LSTM是一种经过改进后的RNN,用于对文本序列在词语粒度上进行建模。LSTM中的每个神经元都包含遗忘门、输入门和输出门。对于当前神经元,遗忘门首先接收上一神经元的输出ht-1和当前输入xt来计算遗忘权重ft,当前输入xt就是词向量矩阵W中的第t行构成的向量,如公式(2)所示,其中Wf为遗忘权重ft的参数矩阵,该矩阵的取值在训练前可以随机设定,而后在训练过程中逐步调整,bf为遗忘权重ft的偏移量,σ为sigmoid激活函数。该遗忘权重用于后面与上一神经元的状态Ct-1进行相乘来决定保留哪些历史状态。
ft=σ(Wf·[ht-1,xt]+bf) (2)
同理,输入门接收上一单元输出ht-1和当前输入xt来计算得到当前哪些信息需要被记忆的权重it,如公式(3)所示,同时,输入门还通过公式(4)计算当前神经元的候选状态Ct’,在公式(3)和(4)中,Wi和WC分别为记忆权重it和候选状态Ct’的参数矩阵,bi和bC则分别为记忆权重it和候选状态Ct’的偏移量,σ为sigmoid激活函数,tanh为tanh激活函数。最终使用公式(5)的加权和公式计算得出当前神经元的终态Ct。
it=σ(Wi·[ht-1,xt]+bi) (3)
C′t=tanh(WC·[ht-1,xt]+bc) (4)
Ct=ft*Ct-1+it*C′t (5)
之后输出门将基于前一神经元输出ht-1和当前输入xt来计算一个输出权重ot,如公式(6)所示,与上述公式类似,Wo为输出权重ot的参数矩阵,bo为输出权重ot的偏移量,σ为sigmoid激活函数。最后,输出权重与经过tanh激活函数处理过的神经元状态相乘,得到当前神经元的输出信息ht,如公式(7)所示。
ot=σ(Wo·[ht-1,xt]+bo) (6)
ht=ot*tanh(Ct) (7)
此处分别使用两个反向的LSTM对输入序列进行建模,定义输入词语wi对应的正向和反向LSTM输出状态分别为和/>将其拼接得到/>对于包含n个词语的句子,经过双向LSTM处理后得到的特征表示为H={h1,h2,…,hn]。
3、建模n-gram序列的CNN-LSTM模块
该模块用于对文本序列在n-gram粒度上进行建模。具体来说,它包含两个以串联方式连接的神经网络:一个不带池化层的标准CNN和一个双向LSTM。首先CNN对输入词向量矩阵进行特征提取得到表示n-gram的特征映射图,而后将特征映射图输入到双向LSTM中得到n-gram序列的长序依赖关系。
CNN通常用于对文本捕获基于窗口的n-gram表示,CNN接收嵌入层传入的词嵌入矩阵W,而后采用固定大小的卷积过滤器F∈Rd×k(其中d为词向量维度,k为过滤器长度,R为实数空间)在W上进行滑动,过滤器F进行第i次特征提取的部分为k个连续的词向量即W[i:i+k-1],如公式(8)所示。
ci=f(F·W[i:i+k-1]+b) (8)
其中,f为ReLU非线性激活函数,ci为当前窗口的特征表示,b为当前窗口特征ci的偏移量;当过滤器F在词嵌入矩阵W上以步长为1完成滑动并对所有大小为k的窗口提取特征后便得到了特征映射图向量c={c1,c2,…,cn-k+1}。以同样的方式使用m个过滤器对词嵌入矩阵进行特征提取便能够得到m个对应的特征映射图,将这些特征映射图堆叠成一个矩阵M∈Rm×n,其中n为词嵌入矩阵W中词语数量,R为实数空间。类似于对文本在词语粒度进行建模的双向LSTM对词嵌入矩阵提取特征,此处将特征映射图矩阵M也输入到一个双向LSTM中进行建模。同理,把第t个n-gram对应的正向和反向LSTM隐层状态和/>并接得到因此,整个CNN-LSTM模块的输出为A={a1,a2,...,an]。
4、注意力层
在注意力层将CNN-LSTM模块的输出A作为注意力权重,与捕获词语序列长序依赖的双向LSTM输出H通过元素积相乘,如公式(9)所示。
相乘结果R为待分类文本最终的向量化表示,考虑到A和H分别包含了n-gram和词语粒度的文本长序依赖特征,其中A不仅蕴含了基于窗口的局部上下文特征,也包含了n-gram序列的长序依赖特征,因此将其作为注意力权重与对应的词语长序依赖特征H相乘,便能够对关键词语的语义进行强调。而后将表示结果R输入到一个池化层进行降维,再将降维后的结果P送入全连接层通过Softmax函数进行归一化处理,最终得到文本属于每个类别概率构成的向量p=(p1,p2,…,pc),其中pj(j=1,2,…,c)为该文本属于第j个类别的概率,c为类别总数,如公式(10)所示,公式(10)中W和bp分别为参数矩阵和p相对于参数矩阵的偏移量,Softmax为归一化激活函数。
p=Softmax(P·W+bp) (10)
三、损失函数与分类性能指标
模型训练过程中采用分类常规的交叉熵作为损失函数。假设待分类数据集共有N个类别,则对于某个样本,分别将其对于第i个类别预测概率pi取对数后与指示变量yi相乘指示变量yi来源于训练数据的标签,假设该样本的标签确定该样本属于第j类(0<j≤N),则yj为1,其他yi(0<i≤N,i≠j)为0。并将所有相乘结果相加后取负值即可得到该样本的损失函数值L,如公式(11)所示。
训练过程就是通过对模型各参数进行基于损失函数梯度方向的更新来让损失函数的值不断减小,从而能够使模型对未标注数据进行准确的预测。模型分类的性能指标采用准确率(Accuracy)进行衡量,即统计所有样本中被正确分类的样本数占总样本数的比例。
四、一种基于联合注意力机制的售电公司评价情感分类方法
1、构建售电公司评价文本数据集
在电力零售平台上随机爬取若干个售电公司的10000条评论数据,之后人工对其类别进行标注,标注类别总共有5个类别,即1星到5星,数字越大表示评论蕴含的情感越积极,反之则越消极。例如5星表示用户对售电公司的服务非常满意,4星表示总体满意,3星表示一般满意,2星表示不太满意,1星则表示非常不满意。标注完成后将这些数据进行清洗和过滤以去除文本中的网页标签、特殊符号和与情感表达无关的助词、介词,最后将数据集利用中文分词工具进行分词后以4∶1的比例划分训练集和测试集,划分过程中需保证训练集和测试集中每类样本数量一致。
2、模型训练
将所构建数据集的训练集输入到基于联合注意力机制的情感分类模型中,以交叉熵作为损失函数进行训练,在训练初始阶段,模型的其他参数先随机进行设定。而后将测试集输入经过训练后的模型进行预测,统计预测结果。多次使用交叉验证的方式划分多组训练集和测试集,并分别对模型在不同训练集和测试集上进行训练和测试,分别记录模型在不同训练集和测试集上的分类性能。
3、模型调优
根据模型在多次交叉验证上的分类性能,对模型的若干参数例如(CNN卷积核大小、训练迭代次数、输入长度)进行调整,并再次进行训练和测试,直到模型获得最佳的分类性能,模型在实验过程中每个网络层关键超参数设定及参数总数如表1所示。此时将模型的最优参数进行保存,用于后续对其他售电公司的评价进行情感分类。
表1
网络层名称 | 关键超参数 | 参数数量 |
嵌入层 | n=100,d=300 | 3000000000 |
双向LSTM模块 | n=100 | 1442400 |
CNN-LSTM模块 | n=100,m=300,k=3 | 2703000 |
注意力层 | 无 | 0 |
Softmax全连接层 | c=5 | 3005 |
此处选取近三年来被提出的模型结构与本发明模型结构相似的四个模型作为对比对象,并使用上述经过人工标记的售电公司评价数据作为数据集,使用相同的训练集对本发明涉及的模型及另外四个对比模型进行训练,而后使用相同测试集分别对上述模型进行测试,统计各模型的在测试集上的分类准确率,统计结果如表2所示。由表2可知,本发明涉及模型在售电公司评价数据分类上性能均优于其他四个现有模型。
表2
4、售电公司评价情感分类应用
获得最优模型后,获取各售电公司的所有评价数据,使用模型对其评价数据进行情感分类预测,并统计其评价被分为各个情感类别的数量,基于各个情感类别所对应的评价数量来计算售电公司在零售市场的好评率(5星评价数量占评价总数的比例)和差评率(1星评价数量占评价总数的比例),并可对电力零售用户推荐好评率较高的售电公司。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于联合注意力机制的售电公司评价情感分类方法,其特征在于,包括如下步骤:
步骤(1),售电公司评价文本数据集的构建与划分:构建售电公司评价文本数据集,并将其划分为训练集和测试集;所述的评价文本数据集包括评论数据及其对应的情感类别;
步骤(2),模型训练:采用训练集,以评论数据作为输入,以评论数据对应的情感类别作为输出,以交叉熵作为损失函数进行训练,得到基于联合注意力机制的情感分类模型;
所述的基于联合注意力机制的情感分类模型包括嵌入层、Bi-LSTM模块、CNN-LSTM模块、注意力层;
步骤(3),模型调优:采用测试集,以交叉熵作为损失函数对模型中的参数进行调整,得到最优基于联合注意力机制的情感分类模型;
步骤(4),售电公司评价情感分类:获取各售电公司的所有评价数据,使用模型对其评价数据进行情感分类,并统计其评价被分为各个情感类别的数量;
步骤(2)中,嵌入层为模型的第一层,用于将输入文本序列中的每个词语转换为相应的分布式表示;具体为:对于一个包含有n个按序排列词语的句子S={w1,w2,...,wn},通过一个词嵌入矩阵E∈Rd×V以及公式(1)来查询每个词语对应的分布式向量表示,其中,d为词向量维度,V为词汇表的数量,R为实数空间,wi(i=1,2,..,n)为句子中第i个词语,S为由n个词语构成的句子;
而后将句子S中所有词语的词向量进行堆叠得到一个词向量矩阵W∈Rd×n,其中,d为词向量维度,n为句子S中词语数量,R为实数空间,之后将词向量矩阵W分别作为后续Bi-LSTM层和CNN-LSTM层的输入;
ei=Eoi (1)
在公式(1)中,oi是词语wi对应的one-hot编码,ei为词语wi对应的词向量;
步骤(2)中,Bi-LSTM模块每个神经元都包含遗忘门、输入门和输出门;
对于当前神经元,遗忘门首先接收上一神经元的输出ht-1和当前输入xt来计算遗忘权重ft,如公式(2)所示,其中当前输入xt就是词向量矩阵W中的第t行构成的向量,该遗忘权重用于后面与上一神经元的状态Ct-1进行相乘来决定保留哪些历史状态,如公式(5)所示;在公式(2)中,Wf为遗忘权重f的参数矩阵,该矩阵的取值在训练前随机设定,而后在训练过程中调整,bf为遗忘权重ft的偏移量,σ为sigmoid激活函数;
ft=σ(Wf·[ht-1,xt]+bf) (2)
输入门接收上一单元输出ht-1和当前输入xt来计算得到当前哪些信息需要被记忆的权重it,如公式(3)所示,同时,输入门还通过公式(4)计算当前神经元的候选状态Ct’;在公式(3)和(4)中,Wi和WC分别为记忆权重it和候选状态Ct’的参数矩阵,bi和bC则分别为记忆权重it和候选状态Ct’的偏移量,tanh为tanh激活函数;最终使用公式(5)的加权和公式计算得出当前神经元的终态Ct;
it=σ(Wi·[ht-1,xt]+bi) (3)
C′t=tanh(WC·[ht-1,xt]+bC) (4)
Ct=ft*Ct-1+it*C′t (5)
之后输出门将基于前一神经元输出ht-1和当前输入xt来计算一个输出权重ot,如公式(6)所示,Wo为输出权重ot的参数矩阵,bo为输出权重ot的偏移量,最后,输出权重ot与经过tanh激活函数处理过的神经元状态Ct相乘,得到当前神经元的输出信息ht,如公式(7)所示;
ot=σ(Wo·[ht-1,xt]+bo) (6)
ht=ot*tanh(Ct) (7)
Bi-LSTM模块分别使用两个反向的LSTM对输入序列进行建模,定义输入词语wt(t=1,2,...,n)对应的正向和反向LSTM输出状态分别为和/>将其拼接得到当前输入的状态表示/>对于包含n个词语的句子,经过双向LSTM处理后得到的特征表示为H={h1,h2,...,hn}。
2.根据权利要求1所述的基于联合注意力机制的售电公司评价情感分类方法,其特征在于,步骤(1)中,构建售电公司评价文本数据集的具体方法为:在电力零售平台上随机爬取若干个售电公司10000条的评论数据,之后人工对其类别进行标注,标注类别总共有5个类别,即1星到5星,数字越大表示评论蕴含的情感越积极,反之则越消极;标注完成后将这些数据进行清洗和过滤,去除从网页爬取下来或显示乱码的评论,并去除网页标签、特殊符号、以及与情感表达无关的助词、介词。
3.根据权利要求2所述的基于联合注意力机制的售电公司评价情感分类方法,其特征在于,步骤(1)中,训练集和测试集的比例为4∶1,且训练集和测试集中每个类别的样本数量需保持一致。
4.根据权利要求1所述的基于联合注意力机制的售电公司评价情感分类方法,其特征在于,CNN-LSTM模块用于对文本序列在n-gram粒度上进行建模;CNN-LSTM模块包含两个以串联方式连接的神经网络:一个不带池化层的标准CNN和一个双向LSTM;
首先CNN对输入词向量矩阵W进行特征提取得到表示n-gram的特征映射图,而后将特征映射图输入到双向LSTM中得到n-gram序列的长序依赖关系。
5.根据权利要求4所述的基于联合注意力机制的售电公司评价情感分类方法,其特征在于,CNN用于对文本捕获基于窗口的n-gram表示,CNN接收嵌入层传入的词嵌入矩阵W,而后采用固定大小的卷积过滤器F∈Rd×k在W上进行滑动,其中d为词向量维度,k为过滤器长度,R为实数空间;过滤器F进行第i次特征提取的部分为k个连续的词向量即W[i:i+k-1],如公式(8)所示;
ci=f(F·W[i:i+k-1]+b) (8)
其中,f为ReLU非线性激活函数,ci为当前窗口的特征表示,b为当前窗口特征ci的偏移量;当过滤器F在词嵌入矩阵W上以步长为1完成滑动并对所有大小为k的窗口提取特征后便得到了特征映射图向量c={c1,c2,...,cn-k+1};以同样的方式使用m个过滤器对词嵌入矩阵进行特征提取便能够得到m个对应的特征映射图,将这些特征映射图堆叠成一个矩阵M∈Rm ×n,其中,n为词嵌入矩阵W中词语数量,R为实数空间;
将特征映射图矩阵M也输入到一个双向LSTM中进行建模对词嵌入矩阵提取特征;同理,把第t个n-gram对应的正向和反向LSTM隐层状态和/>拼接得到第t个n-gram的状态表示因此,整个CNN-LSTM模块的输出特征A={a1,a2,...,an}。
6.根据权利要求4所述的基于联合注意力机制的售电公司评价情感分类方法,其特征在于,在注意力层将CNN-LSTM模块的输出A作为注意力权重,与捕获词语序列长序依赖的Bi-LSTM模块输出H通过元素积相乘,如公式(9)所示;
相乘结果R为待分类文本最终的矩阵表示,而后将表示结果R输入池化层进行降维得到向量化表示P,再将P输入到一个全连接层通过Softmax函数进行归一化处理,最终得到文本属于每个类别概率构成的向量p=(p1,p2,...,pc),其中pj(j=1,2,...,c)为该文本属于第j个类别的概率,c为类别总数,如公式(10)所示,其中W和bp分别为参数矩阵和p相对于参数矩阵的偏移量,Softmax为归一化激活函数;
7.根据权利要求1所述的基于联合注意力机制的售电公司评价情感分类方法,其特征在于,损失函数交叉熵,具体描述为:假设待分类数据集共有N个类别,则对于某个样本,分别将其对于第i个类别预测概率pi取对数后与指示变量yi相乘,并将所有相乘结果相加后取负值即可得到该样本的损失函数值L,如公式(11)所示;其中,指示变量yi为训练数据的标签,假设该样本的标签确定该样本属于第j类(0<j≤N),则yj为1,其他yi(0<i≤N,i≠j)为0;
在模型训练过程中,每一轮迭代都需对所有样本计算损失函数值并得出样本的损失函数均值,而后计算损失函数对于各模型参数的梯度,并通过学习率对模型参数进行基于梯度方向的更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224761.5A CN112950019B (zh) | 2021-03-01 | 2021-03-01 | 一种基于联合注意力机制的售电公司评价情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224761.5A CN112950019B (zh) | 2021-03-01 | 2021-03-01 | 一种基于联合注意力机制的售电公司评价情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112950019A CN112950019A (zh) | 2021-06-11 |
CN112950019B true CN112950019B (zh) | 2024-03-29 |
Family
ID=76246877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110224761.5A Active CN112950019B (zh) | 2021-03-01 | 2021-03-01 | 一种基于联合注意力机制的售电公司评价情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112950019B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436446B (zh) * | 2023-12-21 | 2024-03-22 | 江西农业大学 | 基于弱监督的农业社会化销售服务用户评价数据分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570179A (zh) * | 2016-11-10 | 2017-04-19 | 中国科学院信息工程研究所 | 一种面向评价性文本的核心实体识别方法及装置 |
CN107544957A (zh) * | 2017-07-05 | 2018-01-05 | 华北电力大学 | 一种面向商品目标词的情感倾向分析方法 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN111858935A (zh) * | 2020-07-13 | 2020-10-30 | 北京航空航天大学 | 一种航班点评的细粒度情感分类系统 |
CN112183056A (zh) * | 2020-08-19 | 2021-01-05 | 合肥工业大学 | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统 |
-
2021
- 2021-03-01 CN CN202110224761.5A patent/CN112950019B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570179A (zh) * | 2016-11-10 | 2017-04-19 | 中国科学院信息工程研究所 | 一种面向评价性文本的核心实体识别方法及装置 |
CN107544957A (zh) * | 2017-07-05 | 2018-01-05 | 华北电力大学 | 一种面向商品目标词的情感倾向分析方法 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN111858935A (zh) * | 2020-07-13 | 2020-10-30 | 北京航空航天大学 | 一种航班点评的细粒度情感分类系统 |
CN112183056A (zh) * | 2020-08-19 | 2021-01-05 | 合肥工业大学 | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112950019A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106920147B (zh) | 一种基于词向量数据驱动的商品智能推荐方法 | |
CN107608956B (zh) | 一种基于cnn-grnn的读者情绪分布预测算法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN110517121A (zh) | 基于评论文本情感分析的商品推荐方法及商品推荐装置 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN112364638A (zh) | 一种基于社交文本的人格识别方法 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN110019822B (zh) | 一种少样本关系分类方法及系统 | |
CN115481219A (zh) | 一种基于语法序列嵌入模型的售电公司评价情感分类方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN110717654A (zh) | 基于用户评论的产品质量评价方法和系统 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN112950019B (zh) | 一种基于联合注意力机制的售电公司评价情感分类方法 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN111666410B (zh) | 商品用户评论文本的情感分类方法及系统 | |
CN113312907A (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
CN116415593B (zh) | 一种研究前沿识别方法、系统、电子设备及存储介质 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
Qi et al. | Stock prediction under COVID-19 based on LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |