CN110489523B - 一种基于网购评价的细粒度情感分析方法 - Google Patents

一种基于网购评价的细粒度情感分析方法 Download PDF

Info

Publication number
CN110489523B
CN110489523B CN201910702075.7A CN201910702075A CN110489523B CN 110489523 B CN110489523 B CN 110489523B CN 201910702075 A CN201910702075 A CN 201910702075A CN 110489523 B CN110489523 B CN 110489523B
Authority
CN
China
Prior art keywords
word
training
sequence
data
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910702075.7A
Other languages
English (en)
Other versions
CN110489523A (zh
Inventor
缪亚林
张阳
程文芳
刘学敏
姬怡纯
孔艳龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201910702075.7A priority Critical patent/CN110489523B/zh
Publication of CN110489523A publication Critical patent/CN110489523A/zh
Application granted granted Critical
Publication of CN110489523B publication Critical patent/CN110489523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

本发明公开的一种基于网购评价的细粒度情感分析方法,其特征在于,包括以下步骤:步骤1:网购评价数据集的采集;步骤2:网购评价数据的预处理;步骤3:确定最终的实验数据并划分数据集;步骤4:采用字向量进行文本的训练;步骤5:建立BiLSTM‑CRF改进模型,输入字向量和词语位置结合的特征;步骤6:训练BiLSTM‑CRF改进模型并进行情感分析。本发明的目的在于提供一种基于网购评价的细粒度情感分析方法,提升了情感分析的准确率,方便了用户对产品属性的直观、快速和准确判断。

Description

一种基于网购评价的细粒度情感分析方法
技术领域
本发明属于文本情感分析技术领域,具体涉及一种基于网购评价的细粒度情感分析方法。
背景技术
目前,网络购物已经成为人们的主要购物方式之一,对用户的网购评论进行分析具有学术价值和商业价值。各大电商平台的网购评价存在两大问题:一方面,电商平台的网购评价是按照消费者自主选择的“好评”、“中评”和“差评”,或者“一星”到“五星”进行分类,但这并不能满足消费者和商家的需求;另一方面,伴随着网购用户的增加,网购评价呈现爆炸式增长趋势,消费者不可能一条一条去阅读网购评价获取信息,这样浪费时间且效率低,商家也不可能花费大量的人力去整理分析海量的网购评价。
情感分析主要分为两类:一类是粗粒度情感分析,也就是判断篇章或句子的整体情感,例如电商网站评价的“好评”、“中评”和“差评”标签;另一类是细粒度情感分析,侧重于属性级或者词语的角度判断其情感态度,例如“手机外观很漂亮,电池不耐用”这句评论。
粗粒度情感分析只给出一整句话的情感极性是没有参考价值的,甚至还可能会误导消费者,而对网购评价采用细粒度情感分析,获取产品各属性对应的情感极性,不仅能为消费者进行商品购买决策时提供支持,而且对商家收集产品建议有很大帮助。通过对网购评价数据进行细粒度情感分析,研究产品评价中属性词与情感词的联合抽取模型。该模型不仅提高了属性词与情感词抽取的准确率,而且为产品属性分析提供了便利,具有重要的研究意义和实用价值。
发明内容
本发明的目的在于提供一种基于网购评价的细粒度情感分析方法,提升了情感分析的准确率,方便了用户对产品属性的直观、快速和准确判断。
本发明所采用的技术方案是:一种基于网购评价的细粒度情感分析方法,包括以下步骤:
步骤1:网购评价数据集的采集;
步骤2:网购评价数据的预处理;
步骤3:确定最终的实验数据并划分数据集;
步骤4:采用字向量进行文本的训练;
步骤5:建立BiLSTM-CRF改进模型,输入字向量和词语位置结合的特征;
步骤6:训练BiLSTM-CRF改进模型并进行情感分析。
本发明的特点还在于,
步骤1使用Python语言从网购平台网页HTML标签抓取数据,具体包括:
步骤1.1:打开网购平台网站需要爬取的网页文件,分析页面结构,获取url参数,找到url参数数值大小变化的规律;
步骤1.2:打开对应的网页获取到网络地址url,找到网页源代码中的评论数据,然后采用requests的get方法发送网页访问请求,接收到的Response里包含了网页数据,采用BeautifulSoup解析数据,获得只包含评论数据的数据包;
步骤1.3:采用python的正则表达式模块:re模块的findall方法对网页数据进行筛选,获得需要的数据;
步骤1.4:存储数据为txt文本。
步骤2具体包括:
步骤2.1:语料库的构建
结合产品评价属性级别情感分析的需求,制定四要素标注体系,定义如下:
Model={Sentence,Aspect,Emotion,Polarity} (1)
式(1)中:Sentence表示原始的评论句子;Aspect表示句子中的属性词,若有多个属性词用英文的分号隔开;Emotion表示句子中的情感词;Polarity表示是情感词的极性判断,分为正面、中立和负面,取值为(1,0,-1);
步骤2.2:实验数据处理
步骤2.2.1:使用{B,I,O}方式进行序列标注,其中B表示目标词汇的开始,I表示目标词汇的剩余部分,O表示不属于目标词汇的其它词汇;具体的标注定义如下表1所示:
表1实验数据标注定义
Figure BDA0002151105780000031
Figure BDA0002151105780000041
步骤2.2.2:对评论语料的句子进行停用词处理,包括去除标点符号、英文字符和数字等其它非中文符号;
步骤2.2.3:分别判断句子中的每个字属于属性词还是情感词,如果是属性词,继续判断改字是否属于属性词的第一个字,如果成立,则将改字标注为B-ASP;如果是情感词再根据“sentiment_anls-情感正负面”列的数据,将情感词直接标定为对应的极性标签。
步骤3中通过去重和无关评论筛选,确定最终的实验数据,并按照6:2:2的比例进行训练集、验证集和测试集的划分。
步骤4具体包括:
步骤4.1:采用维基百科和手机领域的评价数据作为训练语料;
步骤4.2:将训练语料中的所有字建立一个查找表,查找表是一个数字序列,每个字对应一个序列编号;
步骤4.3:采用Gensim里的CBOW模型进行训练,训练参数如下表2所示;
表2字向量训练参数
Figure BDA0002151105780000042
步骤4.4:将训练好的向量初始化查找表。
步骤5的BiLSTM-CRF改进模型第一层是输入层,第二层是双向LSTM层,第三层是CRF层,具体步骤为:
步骤5.1:首先将步骤2.2.1中标签信息总结定义为如式(2)所示,然后将式(2)标签信息采用数字的形式进行标识,如式(3)所示;再将文本序列进行分词后,提取词语的位置信息;最后将向量、标签信息标识、词语位置信息共同输入BiLSTM-CRF改进模型;
{O,B-ASP,I-ASP,B-POS,I-POS,B-NEG,I-NEG,B-ZER,I-ZER} (2)
Figure BDA0002151105780000051
步骤5.2:自动提取句子特征,向量序(x1,x2,…,xn)列是双向LSTM的输入,将正向LSTM的输出序列
Figure BDA0002151105780000052
与反向LSTM的输出序列
Figure BDA0002151105780000053
按位置进行拼接
Figure BDA0002151105780000054
得到完整的序列,再设置dropout后,接入一个线性层,将序列进行维度转换后为提取的句子特征,记作矩阵P=(p1,p2,…,pn),pi中的每一维pij代表将字xi分类到第j个标签的非归一化概率;
步骤5.3:进行句子级的序列标注,CRF层存在一个转移矩阵A,Aij代表标签i转移到标签j的转移概率,对于一个输入序列x=(x1,x2,…,xn)对应的预测标签序列y=(y1,y2,…,yn),预测得分的计算如下:
Figure BDA0002151105780000055
由式(4)可知整个序列的预测得分等于各个位置的得分之和,并且由双向LSTM层的输出矩阵和CRF的转移矩阵决定,对其进行归一化后的概率:
Figure BDA0002151105780000061
模型训练时通过最大似然估计得到最优标注序列,公式如(6)所示:
Figure BDA0002151105780000062
模型在预测过程使用动态的Viterbi算法求解最优路径如式(7)所示:
Figure BDA0002151105780000063
步骤6具体包括:采用Adam算法使模型收敛和对参数进行更新,同时在训练网络的每个节点引入Dropout;训练过程中使用Adma优化算法进行网络参数的优化,其中β1=0.9,利用Adam算法对参数进行更新,通过不断地参数调节,将模型的学习率设置为lr=0.001,批处理的样本数设置为batch_siz=20.0,随机抽取训练节点占总节点的数目设置为dropout_keep=0.5,使用预训练向量设置为pre_emb=false;根据迭代次数遍历整个训练样本集,保存训练好的网络模型的结构及参数;此后如步骤5.2向每个节点引入Dropout。
本发明的有益效果是:本发明一种基于网购评价的细粒度情感分析方法,针对目前没有中文细粒度情感分析语料库的问题,构建了一个高质量的网购评价细粒度情感分析语料库。并把BiLSTM-CRF模型的从字向量或者词向量输入转变为采用字向量与词语位置特征结合的方式输入,使输入层含有更丰富的语义信息。
附图说明
图1是本发明一种基于网购评价的细粒度情感分析方法的序列标注数据处理算法图;
图2是本发明一种基于网购评价的细粒度情感分析方法中字向量与词语位置信息的BiLSTM-CRF序列标注模型图。
具体实施方式
下面结合附图以及具体实施方式对本发明进行详细说明。
本发明提供了一种基于网购评价的细粒度情感分析方法,如图1和图2所示,包括以下步骤:
1、网购评价数据集的采集
本发明使用Python语言从京东商城网页HTML标签抓取数据,主要包括:
(1)打开京东商城网站需要爬取的网页文件,分析页面结构,获取url参数,找到url中参数数值大小变化的规律。
(2)打开对应的网页获取到网络地址(url),找到网页源代码中的评论数据,然后采用requests的get方法发送网页访问请求,接收到的Response里包含了网页数据,采用BeautifulSoup解析数据,获得只包含评论数据的数据包。
(3)采用python的正则表达式模块:re模块的findall方法对网页数据进行筛选,获得需要的数据。
(4)存储数据为txt文本。
2、网购评价数据的预处理
(1)语料库的构建:本发明结合了产品评价属性级别情感分析的需求,制定了四要素标注体系,定义如下:
Model={Sentence,Aspect,Emotion,Polarity} (1)
等式(1):Sentence表示原始的评论句子;Aspect表示句子中的属性词,若有多个属性词用英文的分号隔开;Emotion表示句子中的情感词;Polarity表示是情感词的极性判断,分为正面、中立和负面,取值为(1,0,-1)。
(2)实验数据处理
本发明使用{B,I,O}方式进行序列标注。其中B表示目标词汇的开始,I表示目标词汇的剩余部分,O表示不属于目标词汇的其它词汇。具体的标注定义如表1所示。数据处理过程是先对评论语料的句子进行停用词处理,包括去除标点符号、英文字符和数字等其它非中文符号,再分别判断句子中的每个字属于属性词还是情感词。如果是属性词,继续判断改字是否属于属性词的第一个字,如果成立,则将改字标注为B-ASP。如果是情感词再根据“sentiment_anls-情感正负面”列的数据,将情感词直接标定为对应的极性标签。数据处理算法流程如图1。
表1实验数据标注定义
Figure BDA0002151105780000081
3、数据集的划分
网购评价存在刷评论和一些对产品评论无关的言论,通过去重和无关评论筛选,确定最终的实验数据。按照6:2:2的比例进行训练集、验证集和测试集的划分。
4、字向量训练
(1)采用维基百科和手机领域的评价数据作为训练语料。
(2)将训练语料中的所有字建立一个查找表,查找表是一个数字序列,每个字对应一个序列编号
(3)采用Gensim里的CBOW模型进行训练,训练参数如表2所示。
(4)将训练好的向量初始化查找表。
表2字向量训练参数
Figure BDA0002151105780000091
5、模型的建立
本发明以字向量和词语位置特征结合的方式作为模型的第一层即输入层,第二层是双向LSTM层,第三层是CRF层。
由于模型无法直接处理文字序列,所有的输入都需要处理成对应的标识。本发明的训练数据由汉字和对应的标签信息两部分组成,因此不仅需要将汉字转化为向量,同时也要将标签信息转化为特定的标识;然后再将文本序列进行分词后,提取词语的位置信息;最后将向量、标签信息标识、词语位置信息作为共同的输入。
汉字到向量的转化采用4中的方法将字转换为字向量,标签信息根据表1的实验数据标注定义总结如下:
{O,B-ASP,I-ASP,B-POS,I-POS,B-NEG,I-NEG,B-ZER,I-ZER} (2)
将式(1)的标签信息采用数字的形式进行标识,定义如下:
Figure BDA0002151105780000101
词语位置特征通过将句子进行分词后,判断分词后每个部分的长度。如果长度为1,则该部分为单个字,将其用数字“0”进行标识;如果长度大于1,则该部分是词语,将词语的第一个字用数字“1”标识,最后一个字用数字“3”标识,其余部分用数字“2”标识。
模型的第二层是双向LSTM层,自动提取句子特征。向量序(x1,x2,…,xn)列是双向LSTM的输入,将正向LSTM的输出序列
Figure BDA0002151105780000102
与反向LSTM的输出序列
Figure BDA0002151105780000103
按位置进行拼接
Figure BDA0002151105780000104
得到完整的序列,再设置dropout后,接入一个线性层,将序列进行维度转换后为提取的句子特征,记作矩阵P=(p1,p2,…,pn),pi中的每一维pij代表将字xi分类到第j个标签的非归一化概率。
模型的第三层是CRF层,进行句子级的序列标注。CRF层存在一个转移矩阵A,Aij代表标签i转移到标签j的转移概率。对于一个输入序列x=(x1,x2,…,xn)对应的预测标签序列y=(y1,y2,…,yn),预测得分的计算如下:
Figure BDA0002151105780000105
由等式(4)可知整个序列的预测得分等于各个位置的得分之和,并且由双向LSTM层的输出矩阵和CRF的转移矩阵决定,对其进行归一化后的概率:
Figure BDA0002151105780000111
模型训练时通过最大似然估计得到最优标注序列,公式如下:
Figure BDA0002151105780000112
模型在预测过程使用动态的Viterbi算法求解最优路径如等式(7)所示:
Figure BDA0002151105780000113
6、模型训练
本发明采用Adam算法使模型收敛和对参数进行更新。利用Adam算法对参数进行更新,通过不断地参数调节,将模型的学习率设置为lr=0.001,批处理的样本数设置为batch_siz=20.0,随机抽取训练节点占总节点的数目设置为dropout_keep=0.5,使用预训练向量设置为pre_emb=false。根据迭代次数遍历整个训练样本集,保存训练好的网络模型的结构及参数。同时为了防止过拟合,在训练网络的每个节点引入Dropout,即在每个训练批次的前向传播过程中,通过随机让一定概率的隐藏层节点的权重不工作,工作的隐藏层节点进行参数的更新,不工作的节点的权重暂时不更新,下一个训练批次时这些不工作节点可能又工作了,而其他的工作的节点可能进入到不工作的状态,这种方法使模型不会太依赖某些局部的特征,以防模型在训练数据上预测准确率较高,而在测试数据预测准确率较低的情况,提高模型的泛化能力。
结果分析
实验一:字向量维度的实验。为了验证向量维度对细粒度情感分析结果的影响,本实验在改进后的BiLSTM-CRF模型的基础上,将输入的字向量维度分别从100维、150维和200维进行实验,实验结果如表3所示:
表3不同维度的字向量实验结果
Figure BDA0002151105780000121
由表3的实验结果可知,当字向量的维度从100维增加到200维时,模型的精确率、召回率和F值呈小幅度的下降趋势,其中精确率下降1.29%,召回率下降3.11%,F值下降2.21%。其下降的原因可能是网购评价语料里的评论语句长度的问题。
实验二:改进前的BiLSTM-CRF模型与改进后的BiLSTM-CRF模型对比实验。改进前的BiLSTM-CRF模型的输入是100维的字向量,改进后的BiLSTM-CRF模型的输入是100维字向量与词语位置特征结合,两个模型的实验结果如下:
表4模型改进前后对比实验结果
Figure BDA0002151105780000122
由表4可知,改进后的BiLSTM-CRF模型比改进前的BiLSTM-CRF模型在精确率、召回率和F值上分别提高了1.28%、0.24%和0.75%。改进后的模型比改进前的模型的输入增加了一个词语位置特征,词语位置特征不仅解决了词向量存在的未登录词问题,而且增加了字向量的词语语义特性,相较于单独的字向量具有一定的优势。
实验三:不同模型的对比实验。将相同的数据分别在CRF模型、BiLSTM模型和改进后的BiLSTM-CRF模型进行实验,实验结果如表5所示:
表5不同模型的实验结果
Figure BDA0002151105780000131
表5里的ASP、POS、NEG、ZER和ALL分别代表属性词、极性为正的情感词、极性为负的情感词、极性中立的情感词和上述四类词语的整体抽取情况。对于属性词抽取,改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了6.7%、10.54%;对于极性为正的情感词抽取,改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了5.63%、14.07%;对于极性为负的情感词抽取,改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了13.26%、34.73%;对于极性中立的情感词抽取,改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了8.15%、49.98%。

Claims (1)

1.一种基于网购评价的细粒度情感分析方法,其特征在于,包括以下步骤:
步骤1:网购评价数据集的采集;
步骤2:网购评价数据的预处理;
步骤3:确定最终的实验数据并划分数据集;
步骤4:采用字向量进行文本的训练;
步骤5:建立BiLSTM-CRF改进模型,输入字向量和词语位置结合的特征;
步骤6:训练BiLSTM-CRF改进模型并进行情感分析;
步骤1使用Python语言从网购平台网页HTML标签抓取数据,具体包括:
步骤1.1:打开网购平台网站需要爬取的网页文件,分析页面结构,获取url参数,找到url参数数值大小变化的规律;
步骤1.2:打开对应的网页获取到网络地址url,找到网页源代码中的评论数据,然后采用requests的get方法发送网页访问请求,接收到的Response里包含了网页数据,采用BeautifulSoup解析数据,获得只包含评论数据的数据包;
步骤1.3:采用python的正则表达式模块:re模块的findall方法对网页数据进行筛选,获得需要的数据;
步骤1.4:存储数据为txt文本;
步骤2具体包括:
步骤2.1:语料库的构建
结合产品评价属性级别情感分析的需求,制定四要素标注体系,定义如下:
Model={Sentence,Aspect,Emotion,Polarity} (1)
式(1)中:Sentence表示原始的评论句子;Aspect表示句子中的属性词,若有多个属性词用英文的分号隔开;Emotion表示句子中的情感词;Polarity表示是情感词的极性判断,分为正面、中立和负面,取值为(1,0,-1);
步骤2.2:实验数据处理
步骤2.2.1:使用{B,I,O}方式进行序列标注,其中B表示目标词汇的开始,I表示目标词汇的剩余部分,O表示不属于目标词汇的其它词汇;具体的标注定义如所示,标注类型及其具体含义分别为:B-ASP为属性词的第一个字、I-ASP为剩余的属性词、B-POS为极性为正的情感词的第一个字、I-POS为剩余的正面情感词、B-NEG为极性为负的情感词的第一个字、I-NEG为剩余的负面情感词、B-ZER为极性为中立的情感词的第一个字、I-ZER为剩余的中立情感词、O为不属于上述任何情况的字;
步骤2.2.2:对评论语料的句子进行停用词处理,包括去除标点符号、英文字符和数字及其它非中文符号;
步骤2.2.3:分别判断句子中的每个字属于属性词还是情感词,如果是属性词,继续判断该字是否属于属性词的第一个字,如果成立,则将该字标注为B-ASP;如果是情感词再根据“sentiment_anls-情感正负面”列的数据,将情感词直接标定为对应的极性标签;
步骤3中通过去重和无关评论筛选,确定最终的实验数据,并按照6:2:2的比例进行训练集、验证集和测试集的划分;
步骤4具体包括:
步骤4.1:采用维基百科和手机领域的评价数据作为训练语料;
步骤4.2:将训练语料中的所有字建立一个查找表,查找表是一个数字序列,每个字对应一个序列编号;
步骤4.3:采用Gensim里的CBOW模型进行训练,训练参数如下所示,训练参数及其取值和相应的意义分别为:size-100-向量维度、window-5-窗口大小、sg-0-CBOW模型、min_count-5-词频低于该值丢弃、batch_words-10000-每一批的单词数量;
步骤4.4:将训练好的向量初始化查找表;
步骤5的BiLSTM-CRF改进模型第一层是输入层,第二层是双向LSTM层,第三层是CRF层,具体步骤为:
步骤5.1:首先将步骤2.2.1中标注信息总结定义为如式(2)所示,然后将式(2)标注信息采用数字的形式进行标识,如式(3)所示;再将文本序列进行分词后,提取词语的位置信息;最后将字向量、标注信息标识、词语位置信息共同输入BiLSTM-CRF改进模型;
{O,B-ASP,I-ASP,B-POS,I-POS,B-NEG,I-NEG,B-ZER,I-ZER} (2)
Figure FDA0003252811310000031
步骤5.2:自动提取句子特征,向量序列(x1,x2,…,xn)是双向LSTM的输入,将正向LSTM的输出序列
Figure FDA0003252811310000041
与反向LSTM的输出序列
Figure FDA0003252811310000042
按位置进行拼接
Figure FDA0003252811310000043
得到完整的序列,再设置dropout后,接入一个线性层,将序列进行维度转换后为提取的句子特征,记作矩阵P=(p1,p2,…,pn),pi中的每一维pij代表将字xi分类到第j个标签的非归一化概率;
步骤5.3:进行句子级的序列标注,CRF层存在一个转移矩阵A,Aij代表标签i转移到标签j的转移概率,对于一个输入序列x=(x1,x2,…,xn)对应的预测标签序列y=(y1,y2,…,yn),预测得分的计算如下:
Figure FDA0003252811310000044
由式(4)可知整个序列的预测得分等于各个位置的得分之和,并且由双向LSTM层的输出矩阵和CRF的转移矩阵决定,对其进行归一化后的概率:
Figure FDA0003252811310000045
模型训练时通过最大似然估计得到最优标注序列,公式如(6)所示:
Figure FDA0003252811310000046
模型在预测过程使用动态的Viterbi算法求解最优路径如式(7)所示:
Figure FDA0003252811310000047
步骤6具体包括:采用Adam算法使模型收敛和对参数进行更新,同时在训练网络的每个节点引入Dropout;训练过程中使用Adma优化算法进行网络参数的优化,其中β1=0.9,利用Adam算法对参数进行更新,通过不断地参数调节,将模型的学习率设置为lr=0.001,批处理的样本数设置为batch_siz=20.0,随机抽取训练节点占总节点的数目设置为dropout_keep=0.5,使用预训练向量设置为pre_emb=false;根据迭代次数遍历整个训练样本集,保存训练好的网络模型的结构及参数;此后如步骤5.2向每个节点引入Dropout。
CN201910702075.7A 2019-07-31 2019-07-31 一种基于网购评价的细粒度情感分析方法 Active CN110489523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910702075.7A CN110489523B (zh) 2019-07-31 2019-07-31 一种基于网购评价的细粒度情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910702075.7A CN110489523B (zh) 2019-07-31 2019-07-31 一种基于网购评价的细粒度情感分析方法

Publications (2)

Publication Number Publication Date
CN110489523A CN110489523A (zh) 2019-11-22
CN110489523B true CN110489523B (zh) 2021-12-17

Family

ID=68549130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910702075.7A Active CN110489523B (zh) 2019-07-31 2019-07-31 一种基于网购评价的细粒度情感分析方法

Country Status (1)

Country Link
CN (1) CN110489523B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126035A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种电商评论分析场景下细粒度属性分析方法
CN111460158B (zh) * 2020-04-01 2022-09-23 安徽理工大学 一种基于情感分析的微博话题公众情感预测方法
CN112800184B (zh) * 2021-01-13 2021-08-06 华东师范大学 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN113761910A (zh) * 2021-03-17 2021-12-07 中科天玑数据科技股份有限公司 一种融合情感特征的评论文本细粒度情感分析方法
CN113378543B (zh) * 2021-06-28 2022-12-27 深圳前海微众银行股份有限公司 数据分析方法、训练数据分析模型的方法及电子设备
CN114462411B (zh) * 2022-02-14 2023-05-16 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及存储介质
CN117436446B (zh) * 2023-12-21 2024-03-22 江西农业大学 基于弱监督的农业社会化销售服务用户评价数据分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133214A (zh) * 2017-05-05 2017-09-05 中国计量大学 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法
CN108764109A (zh) * 2018-05-23 2018-11-06 西安理工大学 一种基于狗脸图像识别技术的寻狗系统及方法
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN109299277A (zh) * 2018-11-20 2019-02-01 中山大学 舆情分析方法、服务器及计算机可读存储介质
KR20190019661A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133214A (zh) * 2017-05-05 2017-09-05 中国计量大学 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法
KR20190019661A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법
CN108764109A (zh) * 2018-05-23 2018-11-06 西安理工大学 一种基于狗脸图像识别技术的寻狗系统及方法
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN109299277A (zh) * 2018-11-20 2019-02-01 中山大学 舆情分析方法、服务器及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Improving sentiment analysis via sentence type classification using BiLSTM-CRF and CNN;Chen T et al.;《Expert Systems with Applications》;20171231;全文 *
网购评论信息细粒度情感分析方法研究;张焕成;《大连海事大学》;20180801;全文 *

Also Published As

Publication number Publication date
CN110489523A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN111209738B (zh) 一种联合文本分类的多任务命名实体识别方法
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN110263325A (zh) 中文分词系统
CN111666766A (zh) 数据处理方法、装置和设备
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN111859967A (zh) 实体识别方法、装置,电子设备
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN110728136A (zh) 一种融合多因素的textrank关键词提取算法
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant