CN109145112B - 一种基于全局信息注意力机制的商品评论分类方法 - Google Patents

一种基于全局信息注意力机制的商品评论分类方法 Download PDF

Info

Publication number
CN109145112B
CN109145112B CN201810884389.9A CN201810884389A CN109145112B CN 109145112 B CN109145112 B CN 109145112B CN 201810884389 A CN201810884389 A CN 201810884389A CN 109145112 B CN109145112 B CN 109145112B
Authority
CN
China
Prior art keywords
comment
information
vector
neural network
global information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810884389.9A
Other languages
English (en)
Other versions
CN109145112A (zh
Inventor
欧阳元新
王涛
荣文戈
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810884389.9A priority Critical patent/CN109145112B/zh
Publication of CN109145112A publication Critical patent/CN109145112A/zh
Application granted granted Critical
Publication of CN109145112B publication Critical patent/CN109145112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于全局信息注意力机制的商品评论分类方法,该方法在神经网络模型的基础上进行改进。将输入词汇与评论所涉及到的用户、商品、投票等全局信息分别用向量表示,并对其进行初始化;依据评论所涉及到的用户反馈信息为神经网络模型的词汇层添加基于文本风格全局信息的注意力机制,进而为一句话中每个词汇计算权重,得到一句话的最终向量表示;以同样的方式,根据词汇层所得到的结果,将一条评论中的每句话作为基础输入单元,为神经网络模型的语句层添加注意力机制,得到每条评论的向量表示;将每条评论的向量表示经过激活函数处理后得到最终的分类预测结果;根据目标损失函数对模型进行训练,直到损失值达到某一阈值。本发明与其他基础模型相比,准确率和均方误差得到了明显地提升。

Description

一种基于全局信息注意力机制的商品评论分类方法
技术领域
本发明属于文本分类,机器学习研究的技术领域,通过结合与文本语料相关的用户反馈信息,在循环神经网络分类框架的基础上进行改进,为其在词汇和语句两个层面添加注意力权重机制,融合了文本语料和包括用户标识,商品标识,其他用户操作(如点赞等)产生的文本风格信息在内的全局信息,进而提升注意力模型的分类准确率。该方法适用于商品分类、个性化推荐等领域。
背景技术
在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。特别是在互联网上,文本数据广泛地存在于各种形式,如新闻报道、电子图书、研究论文、数字图书馆、网页、电子邮件等等。文本分类技术可以应用于信息过滤、个性化的信息推荐,使人们能够准确地检索到所需要的信息,缩短信息检索的时间。
文本分类为处理和组织海量文本数据的关键技术,可以比较有效地解决信息杂乱的问题,方便了用户准确地定位所需的信息和分流信息。传统的文本分类系统主要采用支持向量机、逻辑斯蒂回归等分类方法,能在短文本分类(200词以下)如新闻标题分类的应用中获得较好的分类效果。
随着互联网的继续发展,长文本(250词左右)信息开始大量出现,例如论坛的留言、社交网络的状态、即时消息、微博等等,这些长文本信息是大家日常交流通讯中所必不可少的信息形式,它们的共同特点是:信息长度较长、表述内容丰富、组合比较灵活、内容上下文相关性大、数据规模很大。同时这些长文本如网站评论等内容附带很多全局和反馈信息,如用户的唯一识别标号,商品的唯一识别标号,其他社区用户的点赞等反馈信息,经过实验说明,利用这些全局反馈信息能够有效提升文本分类的准确率和召回率。
发明内容
本发明要解决的技术问题为:克服现有技术的不足,提供基于全局信息注意力机制的商品评论分类方法,通过注意力感知机制引入全局反馈信息(用户、产品、风格信息),提高了分类的准确率和召回率。
本发明解决上述技术问题的技术方案为:一种基于全局信息注意力机制的商品评论分类方法,该方法具体步骤如下:
步骤(1)、采用文本语料(例如谷歌新闻语料)预训练完成的词向量(例如300维)来表示待分类评论文本中的词汇;
步骤(2)、采用多维向量(例如150维)表示待分类评论文本所涉及到的全局信息,所述全局信息为用户、商品以及风格倾向信息;所述风格倾向信息是指评论社区中的用户交互因素,用户交互因素包括商品评论社区中的其他用户对该评论的投票、点赞或反对;并将所述多维向量初始值随机化;
步骤(3)、搭建词汇级别神经网络,所述词汇级别神经网络包括词汇级别双向LSTM层、词汇级别注意力机制层,其中双向LSTM层,即长短期记忆层结构如下:
Figure BDA0001755254930000021
Figure BDA0001755254930000022
其中:
Figure BDA0001755254930000023
Figure BDA0001755254930000024
分别为神经网络模型中所涉及的输入门、遗忘门以及输出门,三种门所对应的向量数值均在0到1之间,1表示“完全保留”,0表示“完全舍弃”,⊙表示的是矩阵乘法操作,W、U、Uc和Wc为词汇级别神经网络中待训练的权重矩阵,隐藏状态
Figure BDA0001755254930000025
表示LSTM层中第i句话第j个词汇单元所对应的输出,
Figure BDA0001755254930000026
代表第i句话第j个词汇所对应的词向量即步骤(1)所提到的词向量表示结果;
Figure BDA0001755254930000027
表示当前正在训练的词汇,即第i句话第j个词汇所对应的神经元状态向量,
Figure BDA0001755254930000028
表示上一词汇,即第i句话第j-1个词汇所对应的神经元所产生的隐藏状态输出向量,bh表示计算输入门、遗忘门、输出门的公式(1)所对应的偏置向量,bc表示计算
Figure BDA0001755254930000029
的公式(2)所对应的偏置向量;
步骤(4)、为步骤(3)所搭建的词汇级别双向LSTM层添加融合用户评论全局信息的注意力感知机制层,所述全局信息注意力机制根据用户评论的全局信息,即用户、产品、风格倾向信息为词汇级别神经网络中的每个神经元节点添加一个权重,并用每个神经元节点产生的输出结合权重形成整个神经网络的最后输出结果,所述全局信息注意力机制层的公式如下:
gs=sigmoid(Wss) (5)
Figure BDA0001755254930000031
Figure BDA0001755254930000032
Figure BDA0001755254930000033
其中:wm,wh,ws,wu和wp是初始值经过初始化的待训练权重矩阵,u,p和s分别表示用户、产品和风格信息的矩阵,gs是结合风格信息用户与产品信息的控制门,经过激活函数sigmod作用后,gs矩阵的值均在0到1之间;
Figure BDA0001755254930000034
是计算输入文本各单词与该文本所对应的用户、产品和风格信息的相关度的函数,
Figure BDA0001755254930000035
是根据
Figure BDA0001755254930000036
计算得到的相关度计算输入文本各单词所对应权重的函数,Si是经过全局信息加权后所产生的表示整个句子的最终向量结果;
步骤(5)、搭建语句级别神经网络,所述语句级别神经网络包括:语句级别双向LSTM层、语句级别注意力机制层,所述语句级别神经网络的输入是多条由步骤(4)中词汇级别神经网络产生的语句向量组成的评论,所述语句级别神经网络的结构如下:
Figure BDA0001755254930000037
Figure BDA0001755254930000038
其中:ij,fj和oj分别为神经网络模型中所涉及的输入门、遗忘门以及输出门,三种门所对应的向量数值均在0到1之间,⊙表示的是矩阵乘法操作,W、U、Uc和Wc为语句级别神经网络层中待训练的权重矩阵,隐藏状态hj表示中评论文本中第j个语句单元所对应的输出,sj代表评论文本中第j句话所对应的向量即步骤(4)中计算得到的语句最终表示结果;
Figure BDA0001755254930000039
表示当前正在训练的语句,即评论文本中第j个语句所对应的神经元状态向量,hj-1表示上一个语句,即评论文本中第j-1个语句对应神经元所产生的隐藏状态输出向量,bh表示计算输入门、遗忘门、输出门的公式(1)所对应的偏置向量,bc表示计算
Figure BDA00017552549300000310
的公式(2)所对应的偏置向量;
步骤(6)、为步骤(3)所搭建的语句级别神经网络添加融合用户评论全局信息的注意力感知机制层,所述用户评论全局信息的注意力感知机制层的公式如下:
gs=sigmoid(Wss) (11)
Figure BDA0001755254930000041
Figure BDA0001755254930000042
Figure BDA0001755254930000043
其中:wm,wh,ws,wu和wp是初始值经过初始化的待训练权重矩阵,u,p和s分别表示用户、产品和风格信息的矩阵,gs是结合风格信息用户与产品信息的控制门,经过激活函数sigmod作用后,gs矩阵的值均在0到1之间;mj是计算输入评论中的每句话与这句话所对应的用户、产品和风格信息的相关度的函数,βj是根据uj计算得到的相关度计算输入评论中每句话所对应权重的函数,d是经过全局信息加权后所产生的表示整个评论的最终向量结果;
步骤(7)、将表示整个评论的向量d经过激活函数为softmax的线性层操作之后,得到最终的预测结果
Figure BDA0001755254930000044
计算公式如下式所示:
Figure BDA0001755254930000045
其中:wy表示计算
Figure BDA0001755254930000046
的公式(10)所对应的权重矩阵,by表示计算
Figure BDA0001755254930000047
的所对应的偏置向量,py是评论打分情况的预测结果;
步骤(8)、根据目标损失函数对步骤(1)至步骤(7)所搭建的基于全局信息注意力机制层的商品评论分类模型进行训练,如公式(16)所示,
Figure BDA0001755254930000048
其中y表示每条评论,Y表示全部评论,Loss表示模型的损失函数(例如公式16所提到的交叉熵函数),损失函数是一种衡量模型预测误差程度的函数。
根据Adam优化算法即Adam梯度反向传播优化算法在训练过程中对基于全局信息注意力机制层的商品评论分类模型中的词向量参数,全局信息向量参数,以及上述步骤中提及的待训练权重矩阵和LSTM结构中的输入,输出,遗忘门(如步骤(3)中的ij,fj和oj和步骤(4)中的wm,wh,ws,wu和wp),进行优化,最终得到优化后的基于全局信息注意力机制的商品评论分类结果。
所述步骤(2)中,在每一次训练过程中,隐藏状态向量
Figure BDA0001755254930000049
以及当前单元所对应的状态向量
Figure BDA00017552549300000410
都会受到前一感知单元所对应的状态向量
Figure BDA00017552549300000411
Figure BDA00017552549300000412
的影响并更新数值,更新方式如公式(3)与(4)所示:
Figure BDA0001755254930000051
Figure BDA0001755254930000052
所述步骤(4)中,待训练矩阵wm,wh,ws,wu和wp使用正态随机初始化方法进行数值初始化。
所述步骤(5)中,三种控制门,即输入门
Figure BDA0001755254930000053
遗忘门
Figure BDA0001755254930000054
和输出门
Figure BDA0001755254930000055
所对应的向量数值均在0到1之间,其中1表示“完全保留”,0表示“完全舍弃”。
步骤(8)中,所提到损失函数公式(16)是交叉熵函数,用于度量两个概率分布间的差异性信息,采用商品评论的真实分类结果作为交叉熵的训练集的先验信息,将基于全局信息注意力机制的商品评论分类模型预测后的分类结果作为后验信息,计算两者的交叉熵,在训练过程中通过减小损失函数的值,进而使商品评论的真实分类结果与基于全局信息注意力机制的商品评论分类模型的预测结果更加贴近。
本发明与现有技术相比的优点在于:
(1)本发明在神经网络模型的基础上采用基于全局信息的注意力机制,融合了包括用户标识,商品标识,其他用户操作(如点赞等)产生的文本风格信息。通过这种机制,可以在词汇和语句两个层面融合评论风格、用户偏好以及产品特征等信息。将输入词汇与评论所涉及到的用户、商品、投票等信息用向量表示,并对其进行初始化;依据评论所所涉及到的用户反馈信息为神经网络模型的词汇层添加注意力感知机制,进而为一句话中每个词汇计算权重,得到一句话的最终向量表示;以同样的方式,根据词汇层所得到的结果,将一条评论中的每句话作为基础输入单元,为神经网络模型的语句层添加注意力感知机制,得到每条评论的向量表示;将每条评论的向量表示经过激活函数处理后得到最终的分类预测结果;根据目标损失函数对模型进行训练,直到损失值达到某一阈值。本发明与其他基础模型相比,准确率和召回率得到了明显地提升。在表1中给出,对结果的分析则在表1下方有进行详细说明。
(2)在文本分类的研究领域中,当前的文本分类预测神经网络模型往往忽视了用户、产品以及风格(或者称之为社交反馈信息,例如在美国商品评论社区Yelp中用户对评论的投票情况)等全局信息。而本发明通过设计一个融合了全局信息的层次神经网络模型来解决这个问题。简而言之是以全局信息作为一个影响因子来调整某些词汇或语句在模型中的含义。具体而言,本发明以向量的形式来表示用户和产品信息,将评论的风格投票信息作为注意力层的“筛选门”作用于用户和产品信息之中,以增强其信息的价值程度。用户和产品信息得到风格信息的强化之后,使得本发明与传统分类方法相比准确率得到了明显的提高。
附图说明
图1是基于全局信息注意力机制的商品评论分类方法结构图;
图2是采用不同用户反馈信息的分类效果对比图;
图3是采用不同注意力机制的词汇加权效果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明是一种采用层次风格感知注意力机制的文本分类方法,其充分利用了用户对于待分类文本的反馈信息,并将这些反馈信息应用到神经网络模型的注意力加权机制中。
本发明将输入词汇与评论所涉及到的用户、商品、投票等信息用向量表示,并对其进行初始化;依据评论所所涉及到的用户反馈信息为神经网络模型的词汇层添加注意力感知机制,进而为一句话中每个词汇计算权重,得到一句话的最终向量表示;以同样的方式,根据词汇层所得到的结果,将一条评论中的每句话作为基础输入单元,为神经网络模型的语句层添加注意力感知机制,得到每条评论的向量表示;将每条评论的向量表示经过激活函数处理后得到最终的分类预测结果;根据目标损失函数对模型进行训练,直到损失值达到某一阈值。本发明同时又对采纳不同用户反馈信息的注意力加权方式进行了效果对比测试。
本发明的一种采用层次风格感知注意力机制的文本分类方法主要分为以下9个步骤。
步骤(1)、使用谷歌新闻语料预训练完成的300维词向量来表示评论中的词汇;
步骤(2)、使用150维向量来表示评论所涉及到的用户、商品以及风格信息,并将向量初始值随机化;
步骤(3)、搭建词汇层的LSTM模型,所涉及到的公式如下:
Figure BDA0001755254930000061
Figure BDA0001755254930000062
Figure BDA0001755254930000063
Figure BDA0001755254930000064
其中:
Figure BDA0001755254930000065
Figure BDA0001755254930000066
分别为LSTM模型中所涉及的输入门、遗忘门以及输出门,其数值在0到1之间,⊙表示的是矩阵乘法操作,W,U和b为待训练的权重矩阵,隐藏状态
Figure BDA0001755254930000067
是LSTM层中第i句话第j个词汇单元所对应的输出,
Figure BDA0001755254930000068
代表第i句话第j个词汇所对应的词向量。在每一次训练过程中,隐藏状态向量
Figure BDA0001755254930000071
以及当前单元所对应的状态向量
Figure BDA0001755254930000072
都会受到前一感知单元所对应的状态向量
Figure BDA0001755254930000073
Figure BDA0001755254930000074
的影响并更新数值,更新方式如公式(3)与(4)所示;
步骤(4)、为LSTM层所对应的神经网络模型添加融合用户评论反馈信息的注意力感知机制,所涉及到的公式如下:
gs=sigmoid(Wss) (5)
Figure BDA0001755254930000075
Figure BDA0001755254930000076
Figure BDA0001755254930000077
其中:wm,wh,ws,wu和wp是初始值经过初始化的待训练权重矩阵,u,p和s分别表示用户、产品和风格信息的矩阵,gs是结合风格信息用户与产品信息的控制门,经过激活函数sigmod作用后,gs矩阵的值均在0到1之间;
步骤(5)、将神经网络模型中的隐藏状态向量
Figure BDA0001755254930000078
与用户的社交反馈信息向量结合得到向量
Figure BDA0001755254930000079
并用之表示第j句话第i个词的权重生成向量,最终根据公式(5)得到每个单词所对应的权重,将每个单词的状态向量与相应的权重相乘并求和得到语句的最终表示si
步骤(6)、搭建文本层的神经网络模型并为之添加融合用户评论反馈信息的注意力感知机制,搭建方式与语句层相同;
步骤(7)、在语句层中计算代表整个评论信息的最终输出结果,计算方式同词汇层一致,使用风格信息注意力感知机制,得到表示整个评论的向量d,计算方式如公式(9)所示:
Figure BDA00017552549300000710
步骤(8)、将表示评论的向量经过激活函数为softmax的线性层操作之后得到最终的预测结果
Figure BDA00017552549300000711
计算方式如公式(10)所示:
Figure BDA00017552549300000712
其中:wy和by是待训练的权重矩阵,py是评论打分情况的预测结果(满分为5星,因此预测结果类别为5类);
步骤(9)、根据目标损失函数对模型进行训练,如公式(11)所示:
Figure BDA00017552549300000713
表1传统文本分类方法与本发明的分类结果
Figure BDA0001755254930000081
说明:上表为本发明提出方法与对照模型在两个美国商品评论社区真实数据集Yelp 2013(十万量级的评论数据,属于中等规模数据集)以及Yelp 2016(百万量级的评论数据量,属于大规模数据集)上的准确率和均方误差的对比。下面对基准对照模型进行简要介绍。
1.向量方法为2014年提出的一种经典文本分类方法。该方法在连续词袋模型的输入层增加随机初始化的段落向量转换,在选定的段落中选取随机部分内容,将其中的词向量连同初始化得到的段落向量一起输入网络,然后梯度下降来更新段落向量直到收敛。该方法在多个应用数据集上有高于深度学习模型的准确率得分。
2.fastText是Facebook公司于2016年开源的一个词向量计算和文本分类工具,在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度。
3.卷积神经网络在图像处理领域取得了很大的成绩,它的卷积和池化结构能很好提取图像的信息,而在自然语言处理领域也从2014年起有了很多的研究,并在多个应用场景如文本分类和推荐系统上有着远超传统机器学习方法的准确度。字符级和单词级卷积神经网络分别以文本的字符和单词为最小语义单元,对其应用卷积网络算法。
4.LSTM是一种循环神经网络的改进模型,循环神经网络模型在自然语言处理领域有着长时间的研究与应用,而LSTM通过解决循环神经网络的长期记忆与梯度消失问题而得到广泛应用,并在多种应用场景上取得最佳的准确率等指标成绩。
从表1中可以观察到,本发明提出的基于全局信息注意力机制的商品评论分类方法在实验的中等规模和大规模商品评论数据集上均能够得到显著高于其他基准模型的准确率和显著低于其他基准模型的均方误差,实验说明本发明具有更好的分类效果以及更稳定的分类误差率。同时,通过对比本发明在句子和单词层级以及多层级包含全局信息时的实验结果,能够证明本发明提出的全局信息加权的注意力机制在文本分类模型中的句子和单词语义分类向量构造时都能够起到增强分类关键词抽取的作用,从而提高文本分类的表现。
如图2所示,图2为采用不同用户反馈信息的分类效果对比,实验在两个美国商品评论社区真实数据集Yelp 2013(十万量级的评论数据,属于中等规模数据集)以及Yelp2016(百万量级的评论数据量,属于大规模数据集)上进行,其中:Accuracy表示实验得出的准确率数据,RMSE表示实验得到的均方误差数据,P代表只融合评论附带的产品信息的注意力机制模型,U代表只融合评论附带的用户信息的注意力机制模型,U+P代表利用加法原理融合了评论用户和产品信息的模型,U+P+S代表加法原理融合了评论用户和产品以及风格信息的模型,sa U代表利用加权控制门融合评论用户风格信息的模型,sa P代表利用加权控制门融合评论产品风格信息的模型,sa U+P代表利用加权控制门融合评论用户以及产品风格信息的模型。图中左上和右上为Yelp 2013数据集上各分类效果的对比,可以看出,融合越多的反馈全局信息,模型能得到更高的准确率以及更低的均方误差,并且加权控制门能得到比加法原理更高的效果,说明控制门的确能够使风格信息和用户以及产品信息更好的融合起来。图中左下和右下得到的实验结论也是相同的,证明了在大规模数据集上,融合了反馈信息的注意力模型也能够提高分类准确率,降低模型误差。
如图3所示,为采用不同注意力机制的词汇加权效果对比。为了说明本发明提出的神经网络模型注意力机制的可解释性,特提供神经网络训练Yelp 2016数据集时随机抽取一条评论(该评论中文翻译为“世界上最差的三明治,请永远不要来这家店”)的权重参数可视化分析。图中颜色越深,表示该单词得到的注意力权重越大,代表该单词对模型的分类影响越大。从图中可以看到,加入了用户+产品的反馈全局信息后,注意力权重集中在了sandwich(三明治)这一食品信息上,而经过数据分析,该用户多次在其他评论中也提及过三明治,而用户+产品注意力模型很好的捕捉到了这一信息。然而这样还不能很好的对评论评分进行分类,因为用户+产品注意力模型没有捕捉到全局风格信息。而风格加权的用户-产品注意力模型能够在捕捉用户产品全局信息的同时,利用评论的风格信息进行加权,表现在图中则是捕获到了三明治这一全局信息之前进行修饰的worst(最差劲的)这一单词,并赋予了其较高的注意力权重,从而使得模型对这一评论的分类为最低的1星,这也是用户这个评论对该产品的实际评分星级。
本发明未详细阐述的部分属于本领域公知技术。以上实施例仅用以说明本发明的技术方案而非限制在具体实施方式的范围内,对本技术领域的普通技术人员来讲,只要各种变化在权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于全局信息注意力机制的商品评论分类方法,其特征在于,包括以下步骤:
步骤(1)、采用文本语料预训练完成的词向量来表示待分类评论文本中的词汇;
步骤(2)、采用多维向量表示待分类评论文本所涉及到的全局信息,所述全局信息为用户、商品以及风格倾向信息;所述风格倾向信息是指评论社区中的用户交互因素,用户交互因素包括商品评论社区中的其他用户对该评论的投票、点赞或反对;并将所述多维向量初始值随机化;
步骤(3)、搭建词汇级别神经网络,所述词汇级别神经网络包括词汇级别双向LSTM层、词汇级别注意力机制层,其中双向LSTM层,即长短期记忆层结构如下:
Figure FDA0003101262510000011
Figure FDA0003101262510000012
其中:
Figure FDA0003101262510000013
Figure FDA0003101262510000014
分别为神经网络模型中所涉及的输入门、遗忘门以及输出门,三种门所对应的向量数值均在0到1之间,1表示“完全保留”,0表示“完全舍弃”,W、U、Uc和Wc为词汇级别神经网络中待训练的权重矩阵,隐藏状态
Figure FDA0003101262510000015
表示LSTM层中第i句话第j个词汇单元所对应的输出,
Figure FDA0003101262510000016
代表第i句话第j个词汇所对应的词向量即步骤(1)所提到的词向量表示结果;
Figure FDA0003101262510000017
表示当前正在训练的词汇,即第i句话第j个词汇所对应的神经元状态向量,
Figure FDA0003101262510000018
表示上一词汇,即第i句话第j-1个词汇所对应的神经元所产生的隐藏状态输出向量,bh表示计算输入门、遗忘门、输出门的公式(1)所对应的偏置向量,bc表示计算
Figure FDA0003101262510000019
的公式(2)所对应的偏置向量;
步骤(4)、为步骤(3)所搭建的词汇级别双向LSTM层添加融合用户评论全局信息的注意力感知机制层,所述注意力感知机制层根据用户评论的全局信息,即用户、产品、风格倾向信息为词汇级别神经网络中的每个神经元节点添加一个权重,并用每个神经元节点产生的输出结合权重形成整个神经网络的最后输出结果,所述注意力感知机制层的公式如下:
gs=sigmoid(Wss) (5)
Figure FDA0003101262510000021
Figure FDA0003101262510000022
Figure FDA0003101262510000023
其中:Wm,Wh,Ws,Wu和Wp是初始值经过初始化的待训练权重矩阵,u,p和s分别表示用户、产品和风格信息的矩阵,gs是结合风格信息、用户与产品信息的控制门,经过激活函数sigmoid作用后,gs矩阵的值均在0到1之间,⊙表示的是矩阵乘法操作;
Figure FDA0003101262510000024
是计算输入文本各单词与该文本所对应的用户、产品和风格信息的相关度的函数,
Figure FDA0003101262510000025
是根据
Figure FDA0003101262510000026
计算得到的相关度计算输入文本各单词所对应权重的函数,Si是经过全局信息加权后所产生的表示整个句子的最终向量结果;
步骤(5)、搭建语句级别神经网络,所述语句级别神经网络包括:语句级别双向LSTM层、语句级别注意力机制层,所述语句级别神经网络的输入是多条由步骤(4)中词汇级别神经网络产生的语句向量组成的评论,所述语句级别神经网络的结构如下:
Figure FDA0003101262510000027
Figure FDA0003101262510000028
其中:ij,fj和oj分别为神经网络模型中所涉及的输入门、遗忘门以及输出门,三种门所对应的向量数值均在0到1之间,W、U、Uc和Wc为语句级别神经网络层中待训练的权重矩阵,隐藏状态hj表示评论文本中第j个语句单元所对应的输出,sj代表评论文本中第j句话所对应的向量即步骤(4)中计算得到的语句最终表示结果;
Figure FDA0003101262510000029
表示当前正在训练的语句,即评论文本中第j个语句所对应的神经元状态向量,hj-1表示上一个语句,即评论文本中第j-1个语句对应神经元所产生的隐藏状态输出向量,bh表示计算输入门、遗忘门、输出门的公式(9)所对应的偏置向量,bc表示计算
Figure FDA00031012625100000210
的公式(10)所对应的偏置向量;
步骤(6)、为步骤(5)所搭建的语句级别神经网络添加融合用户评论全局信息的注意力感知机制层,所述注意力感知机制层的公式如下:
gs=sigmoid(Wss) (11)
uj=tanh[Whhj+gs⊙(Wuu+Wpp)+b] (12)
Figure FDA0003101262510000031
Figure FDA0003101262510000032
其中:Wm,Wh,Ws,Wu和Wp是初始值经过初始化的待训练权重矩阵,u,p和s分别表示用户、产品和风格信息的矩阵,gs是结合风格信息、用户与产品信息的控制门,经过激活函数sigmoid作用后,gs矩阵的值均在0到1之间,⊙表示的是矩阵乘法操作;uj是计算输入评论中的每句话与这句话所对应的用户、产品和风格信息的相关度的函数,βj是根据uj计算得到的相关度计算输入评论中每句话所对应权重的函数,d是经过全局信息加权后所产生的表示整个评论的最终向量结果;步骤(7)、将表示整个评论的向量d经过激活函数为softmax的线性层操作之后,得到最终的预测结果
Figure FDA0003101262510000033
计算公式如下式所示:
Figure FDA0003101262510000034
其中:Wy表示计算
Figure FDA0003101262510000035
的公式(15)所对应的权重矩阵,by表示计算
Figure FDA0003101262510000036
的所对应的偏置向量,
Figure FDA0003101262510000037
是评论打分情况的预测结果;
步骤(8)、根据目标损失函数对步骤(1)至步骤(7)所搭建的基于全局信息注意力机制层的商品评论分类模型进行训练,如公式(16)所示,
Figure FDA0003101262510000038
其中y表示每条评论,Y表示全部评论,Loss表示模型的损失函数;
根据Adam优化算法即Adam梯度反向传播优化算法在训练过程中对基于全局信息注意力机制层的商品评论分类模型中的词向量参数,全局信息向量参数,以及上述步骤中提及的待训练权重矩阵和LSTM结构中的输入,输出,遗忘门,进行优化,最终得到优化后的基于全局信息注意力机制的商品评论分类结果。
2.根据权利要求1所述的基于全局信息注意力机制的商品评论分类方法,其特征在于:所述步骤(3)中,在每一次训练过程中,隐藏状态向量
Figure FDA0003101262510000039
以及当前单元所对应的状态向量
Figure FDA00031012625100000310
都会受到前一感知单元所对应的状态向量
Figure FDA00031012625100000311
Figure FDA00031012625100000312
的影响并更新数值,更新方式如公式(3)与(4)所示:
Figure FDA0003101262510000041
Figure FDA0003101262510000042
3.根据权利要求1所述的基于全局信息注意力机制的商品评论分类方法,其特征在于:所述步骤(4)中,待训练矩阵Wm,Wh,Ws,Wu和Wp使用正态随机初始化方法进行数值初始化。
4.根据权利要求1所述的基于全局信息注意力机制的商品评论分类方法,其特征在于:步骤(8)中,所提到损失函数公式(16)是交叉熵函数,交叉熵函数用于度量两个概率分布间的差异性信息。
CN201810884389.9A 2018-08-06 2018-08-06 一种基于全局信息注意力机制的商品评论分类方法 Active CN109145112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810884389.9A CN109145112B (zh) 2018-08-06 2018-08-06 一种基于全局信息注意力机制的商品评论分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810884389.9A CN109145112B (zh) 2018-08-06 2018-08-06 一种基于全局信息注意力机制的商品评论分类方法

Publications (2)

Publication Number Publication Date
CN109145112A CN109145112A (zh) 2019-01-04
CN109145112B true CN109145112B (zh) 2021-08-06

Family

ID=64791714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810884389.9A Active CN109145112B (zh) 2018-08-06 2018-08-06 一种基于全局信息注意力机制的商品评论分类方法

Country Status (1)

Country Link
CN (1) CN109145112B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902293B (zh) * 2019-01-30 2020-11-24 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN109846472A (zh) * 2019-01-30 2019-06-07 郑州大学 基于BiLSTM-Attention深度神经网络的心搏分类方法
KR102644380B1 (ko) * 2019-03-28 2024-03-07 현대자동차주식회사 볼트 축력 예측 방법
CN110334759B (zh) * 2019-06-28 2022-09-23 武汉大学 一种评论驱动的深度序列推荐方法
CN110457480B (zh) * 2019-08-16 2023-07-28 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN110597994A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 事件元素识别方法和装置
CN112528006B (zh) * 2019-09-18 2024-03-01 阿里巴巴集团控股有限公司 一种文本处理方法以及装置
CN110766073B (zh) * 2019-10-22 2023-10-27 湖南科技大学 一种强化主题注意力机制的移动应用分类方法
CN110765359B (zh) * 2019-10-30 2022-09-16 北京速途网络科技股份有限公司 新媒体内容推荐方法和系统
CN110795411B (zh) * 2019-11-01 2022-01-04 北京理工大学 一种基于类别门机制的文本分类方法
CN110991464B (zh) * 2019-11-08 2023-05-23 华南理工大学 一种基于深度多模态数据融合的商品点击率预测方法
CN111008278B (zh) * 2019-11-22 2022-06-21 厦门美柚股份有限公司 内容推荐方法及装置
CN110825974B (zh) * 2019-11-22 2022-06-21 厦门美柚股份有限公司 推荐系统内容排序方法及装置
CN111191415A (zh) * 2019-12-16 2020-05-22 山东众阳健康科技集团有限公司 基于原始手术数据的手术分类编码方法
CN111260449B (zh) * 2020-02-17 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练的方法、商品推荐的方法、装置及存储介质
CN113553841B (zh) * 2020-04-26 2024-02-20 顺丰科技有限公司 词的表征方法、装置、电子设备及存储介质
CN111680151B (zh) * 2020-05-06 2022-02-11 华东师范大学 一种基于层次化transformer的个性化商品评论摘要生成方法
CN111581981B (zh) * 2020-05-06 2022-03-08 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
CN111754980A (zh) * 2020-05-21 2020-10-09 华南理工大学 一种基于语义识别的智能评分方法、装置及存储介质
CN111651603B (zh) * 2020-06-04 2024-03-19 上海电力大学 一种基于lav参数微调的电力工单层次文本分类方法及系统
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN111833583B (zh) * 2020-07-14 2021-09-03 南方电网科学研究院有限责任公司 电力数据异常检测模型的训练方法、装置、设备和介质
CN111915413B (zh) * 2020-08-21 2023-04-07 支付宝(杭州)信息技术有限公司 支付实现方法、装置及电子设备
CN112434516B (zh) * 2020-12-18 2024-04-26 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析系统及方法
CN112949821B (zh) * 2021-01-28 2024-02-02 河北师范大学 基于双重注意力机制的网络安全态势感知方法
CN112989802B (zh) * 2021-01-28 2023-06-20 北京信息科技大学 一种弹幕关键词提取方法、装置、设备及介质
CN113255360A (zh) * 2021-04-19 2021-08-13 国家计算机网络与信息安全管理中心 基于层次化自注意力网络的文档评级方法和装置
CN113298179B (zh) * 2021-06-15 2024-05-28 南京大学 一种海关商品异常价格检测方法和装置
CN113254592B (zh) * 2021-06-17 2021-10-22 成都晓多科技有限公司 基于门机制的多级注意力模型的评论方面检测方法及系统
CN113486227A (zh) * 2021-07-01 2021-10-08 哈尔滨理工大学 一种基于深度学习的购物平台商品垃圾评论的识别方法
CN113360660B (zh) * 2021-07-27 2024-08-16 北京有竹居网络技术有限公司 文本类别识别方法、装置、电子设备和存储介质
CN114708117B (zh) * 2022-03-21 2024-08-06 广东电网有限责任公司 融合先验知识的用电安全检查评级方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383815A (zh) * 2016-09-20 2017-02-08 清华大学 结合用户和产品信息的神经网络情感分析方法
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究;成璐;《软件工程》;20171130;全文 *

Also Published As

Publication number Publication date
CN109145112A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145112B (zh) 一种基于全局信息注意力机制的商品评论分类方法
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN110543242B (zh) 基于bert技术的表情输入法及其装置
CN107247702A (zh) 一种文本情感分析处理方法和系统
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN110516245A (zh) 细粒度情感分析方法、装置、计算机设备及存储介质
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN108388554A (zh) 基于协同过滤注意力机制的文本情感识别系统
Shah et al. An intelligent chat-bot using natural language processing
Chen et al. Deep neural networks for multi-class sentiment classification
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN111460146A (zh) 一种基于多特征融合的短文本分类方法及系统
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
Dangi et al. An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network
Zhao et al. Sentimental prediction model of personality based on CNN-LSTM in a social media environment
CN111523319A (zh) 基于情景lstm结构网络的微博情感分析方法
Sun et al. Rumour detection technology based on the BiGRU_capsule network
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Tashu Off-topic essay detection using C-BGRU siamese

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant