CN107025284B - 网络评论文本情感倾向的识别方法及卷积神经网络模型 - Google Patents

网络评论文本情感倾向的识别方法及卷积神经网络模型 Download PDF

Info

Publication number
CN107025284B
CN107025284B CN201710220777.2A CN201710220777A CN107025284B CN 107025284 B CN107025284 B CN 107025284B CN 201710220777 A CN201710220777 A CN 201710220777A CN 107025284 B CN107025284 B CN 107025284B
Authority
CN
China
Prior art keywords
training
word
neural network
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710220777.2A
Other languages
English (en)
Other versions
CN107025284A (zh
Inventor
郑瑾
田星
张祖平
宋冬云
李俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201710220777.2A priority Critical patent/CN107025284B/zh
Publication of CN107025284A publication Critical patent/CN107025284A/zh
Application granted granted Critical
Publication of CN107025284B publication Critical patent/CN107025284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种网络评论文本的情感倾向的识别方法及卷积神经网络模型,该方法包括步骤:将抓取的网络评论文本构成数据集;分词并进行文本预处理;对文本预处理后的所有词语进行训练,得到所有词语的词向量表示;构建卷积神经网络模型在取自所述数据集的训练集上进行训练,通过后向传播算法更新网络参数;训练的每一步,在输入层的词向量上添加噪声构建对抗样本,进行对抗式训练,通过随机梯度下降算法更新网络参数;多次迭代得到分类模型识别网络评论文本的情感倾向。所述卷积神经网络模型为用于上述方法的模型,包括输入层、卷积层、池化层和分类层。本发明对于对抗样本可以正确分类,提升了识别的准确度。

Description

网络评论文本情感倾向的识别方法及卷积神经网络模型
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种网络评论文本的情感倾向的识别方法及卷积神经网络模型。
背景技术
随着互联网的快速发展,网络用户在各种网络平台上发布了丰富的文本信息,如服务评价和商品评论等。挖掘网络用户评论性文本中的情感特征,识别这些文本的情感倾向,在市场分析、舆情分析和信息预测等方面具有重要的应用意义。文本情感倾向识别又称为文本情感分析,是指对带有情感特征的主观性文本进行分析、处理、归纳和推理的过程,其主要目的是将评论文本划分为“肯定”和“否定”两类。目前的文本情感倾向识别主要存在以下三类方法:
第一类是基于规则和词典的方法。此类方法借助人工构建的情感词典,以及语言学专家提取的规则来识别文本的情感倾向。常用的情感词典有FrameNet、SentiWordNet、主观性线索词典、褒贬义词典等。基于规则和词典的方法过于依赖所使用情感词典的质量,对于网络新词和表情符号的识别度不高。
第二类是基于机器学习的方法。此类方法需要使用机器学习分类器,通过人工选择的语言学特征在训练集上进行训练,然后将训练好的分类器用来识别文本的情感倾向。常用的分类器有朴素贝叶斯算法、最大熵模型、支持向量机,常用的语言学特征有词袋模型、词性特征、否定词特征等。基于机器学习的方法需要人工提取的语言学特征,需要相关语言学专家的领域内知识,人工成本较高。
以上第一类和第二类方法对于网络评论文本的情感倾向识别准确度较低,而且系统的泛化性不高,迁移性较差。
第三类是基于深度学习的方法。此类方法需要使用一个多层的神经网络模型,通过在训练集上的训练自动学习出用于分类的情感特征,然后将训练好的神经网络模型用来识别文本的情感倾向。常用的神经网络模型有卷积神经网络、递归神经网络、循环神经网络、长短时记忆网络等。基于深度学习的方法识别准确度较高,但受到神经网络性质的影响,对于对抗样本会造成错误分类,而且由于使用词向量作为输入,最终的分类效果受到词向量质量的影响。
发明内容
本发明目的在于提供一种网络评论文本的情感倾向的识别方法及卷积神经网络模型,以解决现有方法中对对抗样本误分类的技术问题。
为实现上述目的,本发明提供了一种网络评论文本的情感倾向的识别方法,包括以下步骤:
S1:将抓取的网络评论文本中的一星评价和二星评价标注为“否定”倾向样本,四星评价和五星评价标注为“肯定”倾向样本;“否定”倾向样本和“肯定”倾向样本构成数据集;
S2:使用分词工具对数据集中的所有网络评论文本进行分词,并进行文本预处理;
S3:对文本预处理后的所有词语进行训练,得到所有词语的词向量表示;
S4:构建卷积神经网络模型在取自数据集的训练集上进行训练,通过后向传播算法更新网络参数;网络参数为神经网络模型中每个神经元的权值向量和偏置项;
S5:在训练的每一步,在输入层的词向量上添加噪声构建对抗样本,进行对抗式训练,通过随机梯度下降算法更新网络参数;
S6:经过多次迭代步骤S4-S5,得到分类模型;使用分类模型识别网络评论文本的情感倾向。
优选地,步骤S1中,舍弃三星评价。
优选地,文本预处理为:分词、去停用词、去低频词和\或纠正拼写错误。
优选地,在步骤S4中,训练集的选取方法包括:将数据集随机洗牌,从中选取70%作为训练集;其余30%作为测试集。
优选地,在步骤S6中,得到分类模型后,用测试集验证模型的分类效果。
作为一个总的发明构思,本发明还提供了一种卷积神经网络模型,包括输入层、卷积层、池化层和分类层:
输入层被设置为:
给定一段文本S,其长度为|s|,
Figure BDA0001263668380000021
为句中第i个词的d维词向量,则文本S为:
Figure BDA0001263668380000022
其中,
Figure BDA0001263668380000023
为连接操作;
卷积层被设置为:
将输入的多个词向量进行卷积,一个卷积操作可以理解为一个
Figure BDA0001263668380000024
的卷积滤波器与m个词向量进行点乘操作获取新的特征值,如下式:
cj=f(FTvj-m+1:j+b)
其中m为卷积滤波器的滑动窗口大小,vj-m+1:j表示文本中第j-m+1个词到第j个词所对应的词向量,b为偏置项,f为修正线性单元函数(Rectified linear unit,ReLU函数);
池化层用于进行降采样;
分类层被设置为:
将池化层得到的特征输入,按如下公式预测分类结果:
Figure BDA0001263668380000031
优选地,卷积神经网络模型,降采样采用分段最大池化法进行:按照每3个一段的方式把从卷积层提取的特征向量分为k段,分别取这k段中的最大值组合为最终的特征向量。
本发明具有以下有益效果:
1、本发明的网络评论文本的情感倾向的识别方法,将对抗式训练应用到文本处理领域,结合卷积神经网络,通过给词向量加噪声的方式进行对抗式训练,在更新神经网络参数的同时更新词向量,不仅能够正确分类训练集中的正常样本,而且也提高了在处理对抗样本时的鲁棒性。同时,在此过程中,词向量也得到了更新,词向量的质量更好,其表意能力相比于原始词向量更强。相比于现有的基于深度学习的文本情感倾向识别方法,本发明既提高了词向量的质量,也提升了分类的效果。
2、本发明的卷积神经网络模型,在池化层采用了分段取最大值的池化方法,最大程度上保留了原文本的词序位置等信息,不仅收敛速度更快,而且分类效果更好。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的网络评论文本的情感倾向的识别方法的流程示意图;
图2是本发明优选实施例的卷积神经网络模型的结构示意图;
图3是本发明优选实施例的卷积神经网络模型收敛速度示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
以下为本实施例中使用的部分名词释义:
词向量:
在自然语言处理领域中,传统的词汇表示使用的是one-hot表示法,这种方法把每个词都表示为一个高维稀疏向量,向量维度为整个词表的大小,其中除了代表该词汇的元素为1外,其余元素均为0。比如,“计算机”和“电脑”两个词汇,其表示如下:
计算机:[0,0,0,1,0,0,…]
电脑:[0,1,0,0,0,0,…]
这种方式的缺点在于,不仅浪费了大量的存储空间,而且存在“词汇鸿沟”现象,即使“计算机”和“电脑”这样含义如此接近的词语,从它们的向量表示中也看不出任何关系。
词向量是词汇的分布式表示,解决了one-hot表示法的这两个问题。它将每个词汇都表示成固定维度的实值向量,该维度大小一般为100或200,远小于动辄上万的词表大小,而且,通过计算词向量的余弦相似度就可以近似得出词汇的语义相近程度。
但是,词向量也有缺点。由于在训练过程中受到文本句法结构的影响,造成某些含义相反的词语,因为上下文的相似性,它们的词向量表示也具有较高的相似度,比如“good(好)”和“bad(坏)”,含义相反,但是它们的词向量相似度很高,被判定为同义词。
对抗样本和对抗式训练:
2014年,Google公司的研究人员在研究神经网络的性质时发现,对于一个已经训练好的分类模型,将训练集中的样本数据做一些微小的改变,会导致模型给出一个完全错误的分类结果,即使这些改动小到人眼都无法识别。这种相对于原样本数据改变很小,却会造成分类器误分类的样本称为对抗样本(Adversarial examples)。他们利用这些样本提出了对抗式训练方法,分类器(分类模型)既训练正常的样本,也训练加入噪声人工构造的对抗样本,从而提高模型的泛化能力。
对抗式训练可以在图像处理领域得到应用,其中一个重要的原因是,在研究图片的神经网络模型中,通常将图片的颜色值矩阵作为输入,其中的数据都是连续实值。而在文本领域,传统的one-hot向量维度太高且为离散数据,无法添加随机噪声。
参见图1,本发明的一种网络评论文本的情感倾向的识别方法,包括以下步骤:
S1:将抓取的网络评论文本中的一星评价和二星评价标注为“否定”倾向样本,四星评价和五星评价标注为“肯定”倾向样本;舍弃三星评价。“否定”倾向样本和“肯定”倾向样本构成数据集。
一般在实验中把数据集随机洗牌,然后选取70%做训练集,30%做测试集(这里的训练集和测试集都是对卷积神经网络而言)。划分测试集的目的是为了验证模型的效果。如果不需要测试集,则可直接把所有数据集都作为训练集。
S2:使用分词工具对数据集中的所有网络评论文本进行分词,并进行文本预处理。预处理一般有以下步骤:分词、去停用词、去低频词和纠正拼写错误等。分别为处理不同问题的预处理方式。情感分析时一般无需去低频词,而是保留低频词。此外,中文数据集无需检查拼写错误,英文数据集无需分词。
S3:对文本预处理后的所有词语进行训练,得到所有词语的词向量表示。
词向量的训练与神经网络模型的训练,可以使用不同的训练集,词向量的训练甚至可以放在第一步。如有两个数据集,A为S1中抓取的评论数据集,B为任意一个文本数据集(如新闻语料、twitter语料等)。B一般规模较大,那么词向量可以在B上进行训练,每个词语都得到一个词向量表示,这份词向量文件记为C。然后在A预处理之后,从C中查表就可以找到需要词语所对应的词向量。但词向量直接在A上训练也可,在情感分析任务上反而效果更好。故本发明词向量预处理之后直接在A上进行训练。
S4:构建卷积神经网络模型在取自数据集的训练集上进行训练,通过后向传播算法更新网络参数。
后向传播算法是神经网络模型更新参数的通用算法。神经网络模型里包含两个步骤,前向传播和后向传播,前向传播用于将输入的x层层处理传递到分类层,得到一个预测标签y’,y’和真正的标签y之间有一个误差。通过训练,更改网络参数使得这个误差最小。训练算法常采用梯度下降法,但在神经网络中,y没有和x直接相连,中间相隔若干层,后向传播的目的是为了将梯度往前传递到x,并逐层更新网络参数。
网络参数是指神经网络模型中每个神经元的权值向量和偏置项。例如:若输入x,输出y,则一维线性情况下,y=kx+b,其中k为斜率,b为截距。类似的,在神经网络模型中,x是一个向量,因此这个式子变成了y=wx+b,其中w是这个神经元的权值向量,b是它的偏置项。而在神经网络模型中,每一层都有多个神经元,一般为了计算上的方便,都是采用矩阵的形式直接更新层与层之间的参数W和b(此处均为矩阵)。更新网络参数就是以矩阵更新的形式更新W和b。
S5:在训练的每一步,在输入层的词向量上添加噪声构建对抗样本,进行对抗式训练,通过随机梯度下降算法更新网络参数。
一般地,将训练集中的所有样本在神经网络模型上跑一遍叫做一次迭代,即训练的一步。当训练集过大时,可选500个或100个一批,也可称为一次迭代或者一步,批次大小可以根据实际情况自由选取。
一步结束后,按照构建对抗样本的方法,针对当前的神经网络模型构造对抗样本,噪声直接加到词向量上,然后按照对抗式训练方式更新网络参数。
对抗样本的构建过程如下:
给定一个分类标签为y,输入为x,参数为θ的文本分类器,对其输入添加噪声radv,进行对抗式训练,相当于在其代价函数中添加下式所示项:
-logp(y|x+radv;θ)
其中:
Figure BDA0001263668380000061
其中r为添加的噪声,∈为一微小常量,用来保证每次添加的噪声都是相对于原样本的微小改动,
Figure BDA0001263668380000062
为神经网络模型的一个常值参数集,为对抗式训练所用的参数,使用
Figure BDA0001263668380000063
是为了与神经网络通过后向传播算法更新的参数θ区别开。
由于上式在神经网络模型上较难求解,因此通过线性近似和L2范数约束对其进行变换,结果如下:
radv=-∈g/||g||2
Figure BDA0001263668380000064
这样,由于加入噪声,对抗式训练在大小为N的训练集上的代价函数如下式所示:
Figure BDA0001263668380000065
通过随机梯度下降(stochastic gradient descent,SGD)算法进行训练,即可提高模型对对抗样本的分类能力。然而,如果不对此过程加任何限制,在训练过程中,为了达到加入噪声之后对分类结果影响不显著的训练目的,该模型会把原有词向量的数值无限扩大,以弱化噪声带来的影响,这就失去了对抗样本的意义。为了防止这一问题的出现,在每一步训练之后对词向量进行标准化,如下式所示:
Figure BDA0001263668380000066
Figure BDA0001263668380000067
其中,fi为训练集中词汇vi出现的频率。
至此,词向量得到了更新,对抗样本构造完成。
S6:经过多次迭代步骤S4-S5,得到分类模型(此时可以用测试集验证模型的分类效果);然后使用分类模型识别网络评论文本的情感倾向。
迭代的终止条件是神经网络的损失函数的值小于一定值(这个常数是人为约定的),理论上说:到达了局部最小点(收敛)。而对于机器学习或者深度学习模型,都有一个函数来表示预测结果与真实结果之间的误差,这个函数可以叫做代价函数、损失函数或误差函数,训练的目的就是通过调整参数让这个误差最小。迭代次数也并非固定,当损失函数(代价函数或误差函数等)基本不变了就终止迭代。迭代次数几十次到上千次不等。
参见图2,上述方法中使用的卷积神经网络模型,包括输入层、卷积层、池化层和分类层:
输入层被设置为:
给定一段文本S,其长度为|s|,
Figure BDA0001263668380000071
为句中第i个词的d维词向量,则文本S为:
Figure BDA0001263668380000072
其中,
Figure BDA0001263668380000073
为连接操作。
卷积层被设置为:
将输入的多个词向量进行卷积,一个卷积操作可以理解为一个
Figure BDA0001263668380000074
的卷积滤波器与m个词向量进行点乘操作获取新的特征值,如下式:
cj=f(FTvj-m+1:j+b)
其中m为卷积滤波器的滑动窗口大小,vj-m+1:j表示文本中第j-m+1个词到第j个词所对应的词向量,b为偏置项,f为ReLu函数。
池化层用于进行降采样;卷积神经网络模型,降采样使用为平均池化法进行,如下式:
Figure BDA0001263668380000075
或者,使用分段最大池化法进行降采样。该方法的思想为,按照每3个一段的方式把从卷积层提取的特征向量分为k段,分别取这k段中的最大值组合为最终的特征向量,这样可以最大程度保留原文本中词序位置等信息。实验发现,使用分段最大池化法可以有效提升最终的分类准确率。
表1池化法与分类准确率对照表
Figure BDA0001263668380000076
分类层被设置为:
将池化层得到的特征输入,按如下公式预测分类结果:
Figure BDA0001263668380000077
本发明采用了对抗式训练及分段最大池化法之后,CNN模型(卷积神经网络模型)的收敛速度更快了,图3中SST-1为五分类数据集,SST-2为二分类数据集,其中加“'”的是原CNN模型收敛曲线图。原CNN模型在两个数据集上,需要70-80次左右的迭代,而本发明提出的卷积神经网络模型只需要进行50-60次迭代即可收敛,而且效果更好。
综上可知,本发明通过用于文本情感倾向识别的神经网络模型对于对抗样本可以正确分类,从而提升了识别的准确度,解决了现有方法中对对抗样本误分类的问题。在训练神经网络模型时,对词向量也进行了更新,使得词向量的表意能力更强,解决了在现有方法使用的词向量表示下,某些反义词被误判为同义词的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种网络评论文本的情感倾向的识别方法,其特征在于,包括以下步骤:
S1:将抓取的网络评论文本中的一星评价和二星评价标注为“否定”倾向样本,四星评价和五星评价标注为“肯定”倾向样本;舍弃三星评价;所述“否定”倾向样本和“肯定”倾向样本构成数据集;
S2:使用分词工具对数据集中的所有所述网络评论文本进行分词,并进行文本预处理;所述文本预处理为:对中文数据集进行分词、去停用词、以及保留低频词;对英文数据集进行去停用词、和纠正拼写错误、以及保留低频词;
S3:对文本预处理后的所有词语进行训练,得到所有词语的词向量表示;
S4:构建卷积神经网络模型在取自所述数据集的训练集上进行训练,通过后向传播算法更新网络参数;所述网络参数为神经网络模型中每个神经元的权值向量和偏置项;
S5:在训练的每一步,按照构建对抗样本的方法,针对当前的神经网络模型构造对抗样本,对抗样本作为噪声直接加到词向量上,在输入层的词向量上添加噪声构建对抗样本,进行对抗式训练,通过随机梯度下降算法更新网络参数;其中,所述对抗样本的构建过程如下:
给定一个分类标签为y,输入为x,参数为θ的文本分类器,对其输入添加噪声radv,进行对抗式训练,相当于在其代价函数中添加下式所示项:
-logp(y|x+radv;θ)
其中:
Figure FDA0002651866360000011
其中r为添加的噪声,∈为一微小常量,用来保证每次添加的噪声都是相对于原样本的微小改动,
Figure FDA0002651866360000012
为神经网络模型的一个常值参数集,为对抗式训练所用的参数;
通过线性近似和L2范数约束对其进行变换,结果如下:
radv=-∈g/||g||2
Figure FDA0002651866360000013
这样,由于加入噪声,对抗式训练在大小为N的训练集上的代价函数如下式所示:
Figure FDA0002651866360000014
其中,sn为第n个样本的输入,且sn∈x;yn是第n个样本的输出,且yn∈y;
在每一步训练之后对词向量进行标准化,如下式所示:
Figure FDA0002651866360000015
其中,vk代表第k个单词的词向量,
Figure FDA0002651866360000021
是标准化后的词向量;Var(v)所有词向量样本的方差;
Figure FDA0002651866360000022
其中,fi为训练集中词汇vi出现的频率;K为词向量的数量;E(v)为所有词向量的均值;至此,词向量得到了更新,对抗样本构造完成;
S6:经过多次迭代步骤S4-S5,得到分类模型;使用所述分类模型识别网络评论文本的情感倾向。
2.根据权利要求1所述的网络评论文本的情感倾向的识别方法,其特征在于,在所述步骤S4中,所述训练集的选取方法包括:将所述数据集随机洗牌,从中选取70%作为训练集;其余30%作为测试集。
3.根据权利要求2所述的网络评论文本的情感倾向的识别方法,其特征在于,在所述步骤S6中,得到分类模型后,用所述测试集验证模型的分类效果。
4.一种用于权利要求1至3中任一项所述网络评论文本的情感倾向的识别方法的卷积神经网络模型,其特征在于,包括输入层、卷积层、池化层和分类层:
所述输入层被设置为:
给定一段文本s,其长度为|s|,
Figure FDA0002651866360000023
为句中第i个词的d维词向量,则文本s为:
Figure FDA0002651866360000024
其中,
Figure FDA0002651866360000025
为连接操作;
所述卷积层被设置为:
将输入的多个词向量进行卷积,一个卷积操作可以理解为一个
Figure FDA0002651866360000026
的卷积滤波器与m个词向量进行点乘操作获取新的特征值,如下式:
cj=f(FTvj-m+1:j+b)
其中m为卷积滤波器的滑动窗口大小,vj-m+1:j表示文本中第j-m+1个词到第j个词所对应的词向量,b为偏置项,f为修正线性单元函数;FT是F的转置;
所述池化层用于进行降采样;
所述分类层被设置为:
将池化层得到的特征输入,按如下公式预测分类结果:
Figure FDA0002651866360000027
其中,θk为神经网络中对应到第k个节点的训练参数,θi为神经网络中对应到第i个节点的训练参数,e是自然常数。
5.根据权利要求4所述的卷积神经网络模型,其特征在于,所述降采样使用分段最大池化法进行:按照每3个一段的方式把从卷积层提取的特征向量分为k段,分别取这k段中的最大值组合为最终的特征向量。
CN201710220777.2A 2017-04-06 2017-04-06 网络评论文本情感倾向的识别方法及卷积神经网络模型 Active CN107025284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710220777.2A CN107025284B (zh) 2017-04-06 2017-04-06 网络评论文本情感倾向的识别方法及卷积神经网络模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710220777.2A CN107025284B (zh) 2017-04-06 2017-04-06 网络评论文本情感倾向的识别方法及卷积神经网络模型

Publications (2)

Publication Number Publication Date
CN107025284A CN107025284A (zh) 2017-08-08
CN107025284B true CN107025284B (zh) 2020-10-27

Family

ID=59527729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710220777.2A Active CN107025284B (zh) 2017-04-06 2017-04-06 网络评论文本情感倾向的识别方法及卷积神经网络模型

Country Status (1)

Country Link
CN (1) CN107025284B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023593B2 (en) 2017-09-25 2021-06-01 International Business Machines Corporation Protecting cognitive systems from model stealing attacks
CN107714057A (zh) * 2017-10-01 2018-02-23 南京邮电大学盐城大数据研究院有限公司 一种基于卷积神经网络的三分类情绪识别模型方法
DE102017219274A1 (de) * 2017-10-26 2019-05-02 Robert Bosch Gmbh Verfahren und Vorrichtung zum Verbessern der Robustheit eines maschinellen Lernsystems
US10657259B2 (en) * 2017-11-01 2020-05-19 International Business Machines Corporation Protecting cognitive systems from gradient based attacks through the use of deceiving gradients
CN107766577B (zh) * 2017-11-15 2020-08-21 北京百度网讯科技有限公司 一种舆情监测方法、装置、设备及存储介质
CN107818173B (zh) * 2017-11-15 2021-05-14 电子科技大学 一种基于向量空间模型的中文虚假评论过滤方法
CN108009148B (zh) * 2017-11-16 2021-04-27 天津大学 基于深度学习的文本情感分类表示方法
CN108108351B (zh) * 2017-12-05 2020-05-22 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108446813A (zh) * 2017-12-19 2018-08-24 清华大学 一种电商服务质量综合评价的方法
CN108563696B (zh) * 2018-03-22 2021-05-25 创新先进技术有限公司 一种发掘潜在风险词的方法、装置及设备
CN108536784B (zh) * 2018-03-29 2021-08-24 阿里巴巴(中国)有限公司 评论信息情感分析方法、装置、计算机存储介质和服务器
CN108710892B (zh) * 2018-04-04 2020-09-01 浙江工业大学 面向多种对抗图片攻击的协同免疫防御方法
CN108733652B (zh) * 2018-05-18 2022-08-09 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN108984679B (zh) * 2018-06-29 2022-05-10 北京百度网讯科技有限公司 对话生成模型的训练方法和装置
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN108920666B (zh) * 2018-07-05 2021-02-26 苏州思必驰信息科技有限公司 基于语义理解的搜索方法、系统、电子设备及存储介质
CN109033356A (zh) * 2018-07-25 2018-12-18 深圳追科技有限公司 为客服系统日志打标签的方法及客服系统
CN109213860A (zh) * 2018-07-26 2019-01-15 中国科学院自动化研究所 融合用户信息的文本情感分类方法及装置
US10790432B2 (en) 2018-07-27 2020-09-29 International Business Machines Corporation Cryogenic device with multiple transmission lines and microwave attenuators
CN109146152A (zh) * 2018-08-01 2019-01-04 北京京东金融科技控股有限公司 一种线上事故等级预测方法和装置
CN109255025A (zh) * 2018-08-01 2019-01-22 华中科技大学鄂州工业技术研究院 一种短文本分类方法
CN109190118A (zh) * 2018-08-16 2019-01-11 云南大学 基于流水线式神经网络的短语层次情感强度预测方法
CN109357749B (zh) * 2018-09-04 2020-12-04 南京理工大学 一种基于dnn算法的电力设备音频信号分析方法
CN109117482B (zh) * 2018-09-17 2021-07-06 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109271522B (zh) * 2018-11-20 2021-07-30 深圳大学 基于深度混合模型迁移学习的评论情感分类方法及系统
CN109710757A (zh) * 2018-11-29 2019-05-03 深圳中兴网信科技有限公司 文本分类模型的构建方法、系统以及计算机可读存储介质
CN109918501A (zh) * 2019-01-18 2019-06-21 平安科技(深圳)有限公司 新闻文章分类的方法、装置、设备及存储介质
CN110134947B (zh) * 2019-04-17 2021-03-26 中国科学院计算技术研究所 一种基于不平衡多源数据的情感分类方法及系统
CN110222173B (zh) * 2019-05-16 2022-11-04 吉林大学 基于神经网络的短文本情感分类方法及装置
CN110276377B (zh) * 2019-05-17 2021-04-06 杭州电子科技大学 一种基于贝叶斯优化的对抗样本生成方法
CN110321554A (zh) * 2019-06-03 2019-10-11 任子行网络技术股份有限公司 基于Bi-LSTM的不良文本检测方法及装置
CN110415071B (zh) * 2019-07-03 2024-02-27 西南交通大学 一种基于观点挖掘分析的汽车竞品对比方法
CN110348014B (zh) * 2019-07-10 2023-03-24 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110477909B (zh) * 2019-07-31 2021-11-09 同济大学 一种基于静息态脑电数据的性别分类方法
CN110364186B (zh) * 2019-08-08 2021-06-25 清华大学深圳研究生院 一种基于对抗学习的端到端的跨语言语音情感识别方法
CN110457701A (zh) * 2019-08-08 2019-11-15 南京邮电大学 基于可解释性对抗文本的对抗训练方法
CN110717090A (zh) * 2019-08-30 2020-01-21 昆山市量子昆慈量子科技有限责任公司 一种旅游景点网络口碑评价方法、系统及电子设备
CN110766439A (zh) * 2019-08-30 2020-02-07 昆山市量子昆慈量子科技有限责任公司 一种酒店网络口碑评价方法、系统及电子设备
CN110851835A (zh) * 2019-09-23 2020-02-28 平安科技(深圳)有限公司 图像模型检测方法、装置、电子设备及存储介质
CN110750645B (zh) * 2019-10-15 2023-11-07 广东外语外贸大学 基于对抗训练的跨领域虚假评论识别方法
CN111078882A (zh) * 2019-12-13 2020-04-28 北京工业大学 一种文本情感测量方法和装置
CN111209370A (zh) * 2019-12-27 2020-05-29 同济大学 一种基于神经网络可解释性的文本分类方法
CN111222460B (zh) * 2020-01-02 2023-04-18 中南大学 一种基于增量误差计算的行人检测器训练方法及系统
CN111309859B (zh) * 2020-01-21 2023-07-07 上饶市中科院云计算中心大数据研究院 一种景区网络口碑情感分析方法及装置
CN111540467B (zh) * 2020-04-21 2023-03-31 五邑大学 精神分裂症分类识别方法、运行控制装置及医疗设备
CN111611388A (zh) * 2020-05-29 2020-09-01 北京学之途网络科技有限公司 账号分类方法、装置和设备
CN112115264B (zh) * 2020-09-14 2024-03-22 中科苏州智能计算技术研究院 面向数据分布变化的文本分类模型调整方法
CN112163069B (zh) * 2020-09-27 2024-04-12 广东工业大学 一种基于图神经网络节点特征传播优化的文本分类方法
CN112307211A (zh) * 2020-11-09 2021-02-02 深圳市洪堡智慧餐饮科技有限公司 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法
CN112819308B (zh) * 2021-01-23 2024-04-02 罗家德 一种基于双向图卷积神经网络的头部企业识别方法
CN113159035B (zh) * 2021-05-10 2022-06-07 北京世纪好未来教育科技有限公司 图像处理方法、装置、设备及存储介质
CN115081436B (zh) * 2022-07-15 2022-12-30 苏州大学 一种否定焦点的识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN106557566A (zh) * 2016-11-18 2017-04-05 杭州费尔斯通科技有限公司 一种文本训练方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11257115B2 (en) * 2014-09-02 2022-02-22 Gil Emanuel Fuchs Providing additional digital content or advertising based on analysis of specific interest in the digital content being viewed
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN106557566A (zh) * 2016-11-18 2017-04-05 杭州费尔斯通科技有限公司 一种文本训练方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Convolutional Neural Networks for Sentence Classification";Yoon Kim;《ar Xiv preprint 》;20141231;全文 *
"Generating Text via Adversarial Training";Yizhe Zhang et. Al;《Workshop on Adversarial Training》;20161231;第1-6页 *
"基于卷积神经网络的微博情感倾向性分析";刘龙飞 等;《中文信息学报》;20151130;第159页第1段-第165页第1栏第1段 *
"结合卷积神经网络和词语情感序列特征的中文情感分析";陈钊 等;《中文信息学报》;20151130;第29卷(第6期);全文 *

Also Published As

Publication number Publication date
CN107025284A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN107025284B (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN109992783B (zh) 中文词向量建模方法
CN109308318B (zh) 跨领域文本情感分类模型的训练方法、装置、设备及介质
Zhang et al. A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model
Xu et al. Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning.
Roth et al. Part of speech tagging using a network of linear separators
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN111738003A (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
Jungiewicz et al. Towards textual data augmentation for neural networks: synonyms and maximum loss
CN112368697A (zh) 经由对偶分解评估损失函数或损失函数的梯度的系统和方法
CN106506327B (zh) 一种垃圾邮件识别方法及装置
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112395393A (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN109145304A (zh) 一种基于字的中文观点要素情感分析方法
CN109271636B (zh) 词嵌入模型的训练方法及装置
CN112667806A (zh) 一种使用lda的文本分类筛选方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN112463982B (zh) 一种基于显隐式实体约束的关系抽取方法
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
CN115345158A (zh) 基于无监督学习的新词发现方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant