CN110427458A - 基于双门lstm的社交网络双语的五分类情感分析方法 - Google Patents

基于双门lstm的社交网络双语的五分类情感分析方法 Download PDF

Info

Publication number
CN110427458A
CN110427458A CN201910596187.9A CN201910596187A CN110427458A CN 110427458 A CN110427458 A CN 110427458A CN 201910596187 A CN201910596187 A CN 201910596187A CN 110427458 A CN110427458 A CN 110427458A
Authority
CN
China
Prior art keywords
door
data
training
classification
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910596187.9A
Other languages
English (en)
Other versions
CN110427458B (zh
Inventor
王永利
彭姿容
雷吉成
杨辉
刘森淼
卜凡
郭相威
朱亚涛
朱根伟
张伟
罗靖杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Nanjing Tech University
Original Assignee
Division Big Data Research Institute Co Ltd
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd, Nanjing Tech University filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201910596187.9A priority Critical patent/CN110427458B/zh
Publication of CN110427458A publication Critical patent/CN110427458A/zh
Application granted granted Critical
Publication of CN110427458B publication Critical patent/CN110427458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于双门LSTM的社交网络双语的五分类情感分析方法。该方法为:使用人工标注好的数据集作为初始训练数据集,对测试数据集进行数据清洗以及分词处理;构建双门LSTM网络模型,训练已标注好的五分类训练数据集,并构建英汉双语情感词词典,对数据集进行向量化处理,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,使用分类器选出情感置信度高的数据加入已标注的测试数据集中,作为新的训练数据集用于训练分类器,循环迭代,直至对所有未标注的测试数据集完成文本情感分类;使用训练好的网络模型,对输入文本进行感情特征分析。本发明能够对社交网络上用户的中英文评论信息进行准确的情感信息抽取和分析。

Description

基于双门LSTM的社交网络双语的五分类情感分析方法
技术领域
本发明涉及文本情感分类技术领域,特别是一种基于双门LSTM的社交网络双语的五分类情感分析方法。
背景技术
情感分析又称倾向性分析,是一种基于深度学习的分类方法。文本情感分析作为NLP的常见任务,具有很高的实际应用价值。一般的文本情感分析采用LSTM模型,对社交网络的用户评论训练一个二分类情感的分类器,来识别文本是积极的还是消极的。LSTM即Long Short Term Memory网络,是一种特殊的RNN类型,可以学习长期依赖信息。神经网络包含输入层、隐层和输出层,通过激活函数控制输出,层与层之间通过权值连接。激活函数是提前确定好的,神经网络模型通过训练“学”到的东西就蕴含在“权值”中。基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。
在社交网络上,现有的二分类方法只对文本的情感进行积极或者消极的判断,显而易见,这样的二分类方法对文本的感情分析不够全面,许多种类的情感难以得到剖析。虽然LSTM有很好的利用长距离历史信息的能力,但是它只能够利用一类数据,不能对多类数据进行很好的利用。
发明内容
本发明的目的在于提供一种能够准确、全面地对文本文档进行五种情感分析的基于双门LSTM的社交网络双语的五分类情感分析方法。
实现本发明目的的技术解决方案为:一种基于双门LSTM的社交网络双语的五分类情感分析方法,包括以下步骤:
步骤1、数据集的准备和预处理:准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集;
步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析;
步骤3、网络模型训练:根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型;
步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self-training方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标记的测试数据集中,作为新的训练数据集,重新用新的训练数据集训练分类器,循环迭代,直至所有未标注过的测试数据集完成文本情感分类;
步骤5、情感特征分析:使用训练好的双门LSTM网络模型,对新的输入文本进行感情特征分析,判断该输入文本所属的类别,并输出分类结果。
进一步地,步骤1所述的数据集的准备和预处理,具体如下:
步骤1.1、将原始数据集人工标注成代表happiness、sad、anger、fear、surprise五种情感的初始训练数据集;
步骤1.2、根据人工标注好的初始训练数据集,对待训练数据集进行分词处理,中文数据使用jieba进行分词,英文数据根据空格进行词汇识别;
步骤1.3、对每一条分词处理后的数据进行去停用词处理,然后得到已经被正确切分的,能够用作模型训练的数据。
进一步地,步骤2所述的网络模型构建,具体如下:
构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,包含输入层、隐层和输出层,其中输入门的计算如式(1)(2),遗忘门的计算如式(3)(4),输出门的计算如式(5):
itx=σ(Wxixt+Uhi xht-1 x+Vci xct-1 x+bi x) (1)
ity=σ(Wyiyt+Uhi yht-1 y+Vci yct-1 y+bi y) (2)
ftx=σ(Wxfxt+Uhf xot-1 x+Vcf xct-1 x+bf x) (3)
fty=σ(Wyfyt+Uhf yot-1 y+Vcf yct-1 y+bf y) (4)
ot=σ(Wxoxt++Wyoyt+Uho xot-1 x+Uho yot-1 y+Vcoct-1+bo) (5)
其中,t表示当前时刻,t-1为上一时刻,itx、ity分别代表两个输入门的计算方法,ftx、fty分别代表两个遗忘门的计算方法,ot表示输出门的计算方法;σ()为sigmoid函数,xt、yt分别对应这一时刻x、y方向上的输入,ot-1 x为上一时刻x方向的输出门计算,ot-1 y为上一时刻y方向的输出门计算,ht-1 x、ht-1 y分别为上一时刻输出在x、y方向的分量,ct-1 x、ct-1 y分别为记忆单元上一时刻在x、y方向分量的值;为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量,为y 方向遗忘门的偏置向量,bo为输出门的偏置向量,Wxi为x方向连接输入门的权重、 Wyi为x方向连接输入门的权重、Wxf为x方向连接遗忘门的权重、Wyf为y方向连接遗忘门的权重、Wxo为x方向连接输出门的权重、Wyo为y方向连接输出门的权重;输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、Uho x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重;输入门x方向连接记忆单元的权重、输入门y方向连接记忆单元的权重、遗忘门x方向连接记忆单元的权重、遗忘门y方向连接记忆单元的权重、Vco输出门连接记忆单元的权重;ct-1表示t-1时刻记忆单元的计算方法。
进一步地,步骤3所述通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,所用工具为gensim里的Word2vec以及Dictionary,具体如下:
设D={d1,d2,...,dn}是做过预处理操作的全部训练数据集数据的集合,其中di是训练数据集中的第i条数据的向量表示,则对于训练数据集中的任一条文本数据 di={w1,w2,w3,w4,w5},其中w1,w2,w3,w4,w5表示该条文本数据中对应的 happiness、sad、anger、fear、surprise五类情感词的个数,因此每条数据均以5维向量表示。
进一步地,步骤4所述的网络模型测试,具体如下:
步骤4.1、根据训练好的双门LSTM网络模型,对步骤1中分词处理后的测试数据集进行情感特征分析,判断出每条数据所属的类别,将数据分为已标注五分类测试集的数据和未标注的测试集数据;
步骤4.2、使用半监督学习的self-trainning方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标注的测试数据集中,作为新的训练数据集;
步骤4.3、用新的训练数据集继续训练分类器,然后进行循环迭代,直至未标注的测试数据集完成文本情感分类。
进一步地,步骤5所述的情感特征分析,具体如下:
步骤5.1、根据训练好的双门LSTM网络模型,对输入文本进行情感特征分析,首先提取出输入文本的内容,并将输入文本的每条内容转换为列表;
步骤5.2、每行对应列表里的一个元素,对列表的每个元素都判断该元素所属的类别,情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果,计算公式如下:
precision=TP/(TP+FP) (6)
recall=TP/(TP+FN) (7)
F=2*recall*precision/(recall+precision) (8)
其中,TP为将正类预测为正类数目,FN为将正类预测为负类的数目,FP为将负类预测位正类的数目;
步骤5.3、输出分类结果。
本发明与现有技术相比,其显著优点在于:(1)构建双门LSTM网络模型,并构建英汉双语情感词词典,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,能够对社交网络上用户的中英文评论信息进行情感信息的全面、准确的抽取和分析;(2)将情感分析的文本分为happiness、sad、anger、fear、surprise五类,实现了多分类,且方法简单、实用性强。
附图说明
图1是本发明基于双门LSTM的社交网络双语的五分类情感分析方法的流程图。
图2是本发明中双门LSTM网络模型的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
结合图1,本发明基于双门LSTM的社交网络双语的五分类情感分析方法,步骤为:
步骤1、数据集的准备和预处理,准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集,具体如下:
步骤1.1、将原始数据集划分成代表happiness、sad、anger、fear、surprise五种情感的训练数据集;
进一步地,针对目前社交网络中存在大量的中英文混合的文本数据,原始数据集为包含中文和英文双语的情感词文本;
步骤1.2、根据人工标注好的代表五种情感的训练数据集,对测试数据集进行分词处理,中文数据使用jieba进行分词,英文数据根据空格进行词汇识别;
步骤1.3、对每一条分词处理后的数据进行去停用词处理,如:“的”、“a”、“t he”等,然后得到已经被正确切分的,可用作模型训练的数据。
步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析,具体如下:
构建双门LSTM网络模型,如图2所示,双门LSTM网络模型包括2个输入门、2 个遗忘门和1个输出门,包含输入层、隐层和输出层,其中输入门的计算如式(1)(2),遗忘门的计算如式(3)(4),输出门的计算如式(5):
itx=σ(Wxixt+Uhi xht-1 x+Vci xct-1 x+bi x) (1)
ity=σ(Wyiyt+Uhi yht-1 y+Vci yct-1 y+bi y) (2)
ftx=σ(Wxfxt+Uhf xot-1 x+Vcf xct-1 x+bf x) (3)
fty=σ(Wyfyt+Uhf yot-1 y+Vcf yct-1 y+bf y) (4)
ot=σ(Wxoxt++Wyoyt+Uho xot-1 x+Uho yot-1 y+Vcoct-1+bo) (5)
其中,t表示当前时刻,t-1为上一时刻,itx、ity分别代表两个输入门的计算方法,ftx、fty分别代表两个遗忘门的计算方法,ot表示输出门的计算方法;σ()为sigmoid函数,xt、yt分别对应这一时刻x、y方向上的输入,ot-1 x为上一时刻x方向的输出门计算,ot-1 y为上一时刻y方向的输出门计算,ht-1 x、ht-1 y分别为上一时刻输出在x、y方向的分量,ct-1 x、ct-1 y分别为记忆单元上一时刻在x、y方向分量的值;为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量,为y 方向遗忘门的偏置向量,bo为输出门的偏置向量,Wxi为x方向连接输入门的权重、 Wyi为x方向连接输入门的权重、Wxf为x方向连接遗忘门的权重、Wyf为y方向连接遗忘门的权重、Wxo为x方向连接输出门的权重、Wyo为y方向连接输出门的权重;输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、Uho x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重;输入门x方向连接记忆单元的权重、输入门y方向连接记忆单元的权重、遗忘门x方向连接记忆单元的权重、遗忘门y方向连接记忆单元的权重、Vco输出门连接记忆单元的权重;ct-1表示t-1时刻记忆单元的计算方法。
构建的双门LSTM网络模型包含两个输入门和两个遗忘门可以同时接收处理两种数据,可以同时对中文文本和英文文本进行分析,提升了社交网络中存在的大量中英文混合文本的情感分析的准确性。
步骤3、网络模型训练,根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型,具体如下:
步骤3.1、使用构建的双门LSTM网络模型,训练已标注好的五分类训练数据集,作为初始的训练分类器;
为了防止模型过度拟合,训练的样本不能太小;
步骤3.2、通过利用大量语料、已有知识库、词汇相似性计算模型,构建英汉双语情感词词典,进而对训练数据集进行向量化处理,得到训练好的双门LSTM网络模型;进一步地,向量化处理用到的工具为gensim里的Word2vec以及Dictionary,具体如下:设D={d1,d2,...,dn}是做过预处理操作的训练数据集的集合,其中di是训练数据集中的第i条数据的向量表示,则对于训练数据集中的任一条文本数据di={w1,w2,w3, w4,w5},其中w1,w2,w3,w4,w5表示该条文本数据中对应的happiness、sad、anger、fear、surprise五类情感词的个数,因此每条数据均以5维向量表示。。
步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self-training方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标记的测试数据集中,作为新的训练数据集,重新用新的训练数据集训练分类器,循环迭代,直至所有未标注过的测试数据集完成文本情感分类;
步骤4.1、根据训练好的双门LSTM网络模型,对步骤1中分词处理后的测试数据集进行情感特征分析,判断出每条数据所属的类别,将数据分为已标注五分类测试集的数据和未标注的测试集数据;
步骤4.2、使用半监督学习的self-trainning方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标注的测试数据集中,作为新的训练数据集;
步骤4.3、用新的训练数据集继续训练分类器,然后进行循环迭代,直至未标注的测试数据集完成文本情感分类。
步骤5、情感特征分析:使用训练好的双门LSTM网络模型,对新的输入文本进行感情特征分析,判断该输入文本所属的类别,并输出分类结果,具体如下:
步骤5.1、根据训练好的双门LSTM网络模型,对输入文本进行情感特征分析,首先提取出输入文本的内容,并将输入文本的每条内容转换为列表;
步骤5.2、每行对应列表里的一个元素,对列表的每个元素都判断该元素所属的类别,情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果,计算公式如下:
precision=TP/(TP+FP) (6)
recall=TP/(TP+FN) (7)
F=2*recall*precision/(recall+precision) (8)
其中,TP为将正类预测为正类数目,FN为将正类预测为负类的数目,FP为将负类预测位正类的数目。
步骤5.3、输出分类结果。
本发明通过构建双门LSTM网络模型,并构建英汉双语情感词词典,进而训练双门LSTM网络模型,对分词处理过的测试数据集进行情感特征分类,能够对社交网络上用户的中英文评论信息进行情感信息的全面、准确的抽取和分析。

Claims (6)

1.一种基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,包括以下步骤:
步骤1、数据集的准备和预处理:准备一个训练数据集和一个测试数据集,对训练数据集进行五种情感happiness、sad、anger、fear、surprise的人工标注得到已标注的训练数据集,再对训练数据集进行数据清洗以及分词处理,并对分词处理后的数据进行去停用词处理,得到五分类训练数据集;
步骤2、网络模型构建:构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,能够同时接收处理两种数据,对中文文本和英文文本进行同时分析;
步骤3、网络模型训练:根据构建的双门LSTM网络模型,训练由步骤1得到的已做好人工标注的五分类训练数据集,用作训练初始的分类器,然后通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,得到训练好的双门LSTM网络模型;
步骤4、网络模型测试:根据训练好的双门LSTM网络模型,对测试数据集进行分词处理,再对预处理过的测试数据集进行情感特征分析,将测试数据集中已分类的数据做好标记;首先利用半监督学习的self-training方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标记的测试数据集中,作为新的训练数据集,重新用新的训练数据集训练分类器,循环迭代,直至所有未标注过的测试数据集完成文本情感分类;
步骤5、情感特征分析:使用训练好的双门LSTM网络模型,对新的输入文本进行感情特征分析,判断该输入文本所属的类别,并输出分类结果。
2.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤1所述的数据集的准备和预处理,具体如下:
步骤1.1、将原始数据集人工标注成代表happiness、sad、anger、fear、surprise五种情感的初始训练数据集;
步骤1.2、根据人工标注好的初始训练数据集,对待训练数据集进行分词处理,中文数据使用jieba进行分词,英文数据根据空格进行词汇识别;
步骤1.3、对每一条分词处理后的数据进行去停用词处理,然后得到已经被正确切分的,能够用作模型训练的数据。
3.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤2所述的网络模型构建,具体如下:
构建双门LSTM网络模型,包括2个输入门、2个遗忘门和1个输出门,包含输入层、隐层和输出层,其中输入门的计算如式(1)(2),遗忘门的计算如式(3)(4),输出门的计算如式(5):
itx=σ(Wxixt+Uhi xht-1 x+Vci xct-1 x+bi x) (1)
ity=σ(Wyiyt+Uhi yht-1 y+Vci yct-1 y+bi y) (2)
ftx=σ(Wxfxt+Uhf xot-1 x+Vcf xct-1 x+bf x) (3)
fty=σ(Wyfyt+Uhf yot-1 y+Vcf yct-1 y+bf y) (4)
ot=σ(Wxoxt++Wyoyt+Uho xot-1 x+Uho yot-1 y+Vcoct-1+bo) (5)
其中,t表示当前时刻,t-1为上一时刻,itx、ity分别代表两个输入门的计算方法,ftx、fty分别代表两个遗忘门的计算方法,ot表示输出门的计算方法;σ()为sigmoid函数,xt、yt分别对应这一时刻x、y方向上的输入,ot-1 x为上一时刻x方向的输出门计算,ot-1 y为上一时刻y方向的输出门计算,ht-1 x、ht-1 y分别为上一时刻输出在x、y方向的分量,ct-1 x、ct-1 y分别为记忆单元上一时刻在x、y方向分量的值;为x方向输入门的偏置向量、为y方向输入门的偏置向量、为x方向遗忘门的偏置向量,为y方向遗忘门的偏置向量,bo为输出门的偏置向量,Wxi为x方向连接输入门的权重、Wyi为x方向连接输入门的权重、Wxf为x方向连接遗忘门的权重、Wyf为y方向连接遗忘门的权重、Wxo为x方向连接输出门的权重、Wyo为y方向连接输出门的权重;输入门计算后在x方向上的权重、为输入门计算后在y方向上的权重、为遗忘门计算后在x方向上的权重、为遗忘门计算后在y方向上的权重、Uho x为输出门计算后在x方向上的权重、为输出门计算后在y方向上的权重;输入门在x方向连接记忆单元的权重、输入门在y方向连接记忆单元的权重、遗忘门在x方向连接记忆单元的权重、遗忘门在y方向连接记忆单元的权重、Vco输出门连接记忆单元的权重;ct-1表示t-1时刻记忆单元的计算方法。
4.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤3所述通过利用语料、已有知识库和词汇相似性计算模型,构建英汉双语情感词词典,对训练好的五分类数据集进行向量化处理,所用工具为gensim里的Word2vec以及Dictionary,具体如下:
设D={d1,d2,...,dn}是做过预处理操作的全部训练数据集数据的集合,其中di是训练数据集中的第i条数据的向量表示,则对于训练数据集中的任一条文本数据di={w1,w2,w3,w4,w5},其中w1,w2,w3,w4,w5表示该条文本数据中对应的happiness、sad、anger、fear、surprise五类情感词的个数,因此每条数据均以5维向量表示。
5.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤4所述的网络模型测试,具体如下:
步骤4.1、根据训练好的双门LSTM网络模型,对步骤1中分词处理后的测试数据集进行情感特征分析,判断出每条数据所属的类别,将数据分为已标注五分类测试集的数据和未标注的测试集数据;
步骤4.2、使用半监督学习的self-trainning方法,将经过预处理的训练数据集作为初始训练集训练初始分类器,使用该分类器对测试数据集中未分类的数据进行情感预测,选出情感置信度高于设定值的数据加入已标注的测试数据集中,作为新的训练数据集;
步骤4.3、用新的训练数据集继续训练分类器,然后进行循环迭代,直至未标注的测试数据集完成文本情感分类。
6.根据权利要求1所述的基于双门LSTM的社交网络双语的五分类情感分析方法,其特征在于,步骤5所述的情感特征分析,具体如下:
步骤5.1、根据训练好的双门LSTM网络模型,对输入文本进行情感特征分析,首先提取出输入文本的内容,并将输入文本的每条内容转换为列表;
步骤5.2、每行对应列表里的一个元素,对列表的每个元素都判断该元素所属的类别,情感分类评价标准使用准确率precision、召回率recall、和F值F-measure来评价分类结果,计算公式如下:
precision=TP/(TP+FP) (6)
recall=TP/(TP+FN) (7)
F=2*recall*precision/(recall+precision) (8)
其中,TP为将正类预测为正类数目,FN为将正类预测为负类的数目,FP为将负类预测位正类的数目;
步骤5.3、输出分类结果。
CN201910596187.9A 2019-07-03 2019-07-03 基于双门lstm的社交网络双语的五分类情感分析方法 Active CN110427458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910596187.9A CN110427458B (zh) 2019-07-03 2019-07-03 基于双门lstm的社交网络双语的五分类情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910596187.9A CN110427458B (zh) 2019-07-03 2019-07-03 基于双门lstm的社交网络双语的五分类情感分析方法

Publications (2)

Publication Number Publication Date
CN110427458A true CN110427458A (zh) 2019-11-08
CN110427458B CN110427458B (zh) 2022-10-14

Family

ID=68410257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910596187.9A Active CN110427458B (zh) 2019-07-03 2019-07-03 基于双门lstm的社交网络双语的五分类情感分析方法

Country Status (1)

Country Link
CN (1) CN110427458B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532380A (zh) * 2019-07-12 2019-12-03 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
CN111241286A (zh) * 2020-01-16 2020-06-05 东方红卫星移动通信有限公司 一种基于混合分类器的短文本情感细分类方法
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112183088A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 词语层级确定的方法、模型构建方法、装置及设备
CN112862021A (zh) * 2021-04-25 2021-05-28 腾讯科技(深圳)有限公司 一种内容标注方法和相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法
CN109902177A (zh) * 2019-02-28 2019-06-18 上海理工大学 基于双通道卷积记忆神经网络的文本情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法
CN109902177A (zh) * 2019-02-28 2019-06-18 上海理工大学 基于双通道卷积记忆神经网络的文本情感分析方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532380A (zh) * 2019-07-12 2019-12-03 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
CN110532380B (zh) * 2019-07-12 2020-06-23 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
CN111241286A (zh) * 2020-01-16 2020-06-05 东方红卫星移动通信有限公司 一种基于混合分类器的短文本情感细分类方法
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN111966944B (zh) * 2020-08-17 2024-04-09 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112115331B (zh) * 2020-09-21 2021-05-04 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112183088A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 词语层级确定的方法、模型构建方法、装置及设备
CN112183088B (zh) * 2020-09-28 2023-11-21 云知声智能科技股份有限公司 词语层级确定的方法、模型构建方法、装置及设备
CN112862021A (zh) * 2021-04-25 2021-05-28 腾讯科技(深圳)有限公司 一种内容标注方法和相关装置
CN112862021B (zh) * 2021-04-25 2021-08-31 腾讯科技(深圳)有限公司 一种内容标注方法和相关装置

Also Published As

Publication number Publication date
CN110427458B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN110427458A (zh) 基于双门lstm的社交网络双语的五分类情感分析方法
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN109710919A (zh) 一种融合注意力机制的神经网络事件抽取方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
CN105205124B (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN107861951A (zh) 智能客服中的会话主题识别方法
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN108614855A (zh) 一种谣言识别方法
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN108228569A (zh) 一种基于松散条件下协同学习的中文微博情感分析方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN103473356B (zh) 一种篇章级情感分类方法及装置
CN110874397A (zh) 基于注意力机制的水军评论检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant