CN108446271A - 基于汉字部件特征的卷积神经网络的文本情感分析方法 - Google Patents
基于汉字部件特征的卷积神经网络的文本情感分析方法 Download PDFInfo
- Publication number
- CN108446271A CN108446271A CN201810187041.4A CN201810187041A CN108446271A CN 108446271 A CN108446271 A CN 108446271A CN 201810187041 A CN201810187041 A CN 201810187041A CN 108446271 A CN108446271 A CN 108446271A
- Authority
- CN
- China
- Prior art keywords
- word
- feature
- chinese
- text
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于汉字部件特征的卷积神经网络的文本情感分析方法,该方法首先考虑情感词的情感强烈程度,结合Attention优化情感词典中词的权重;同时在特征提取方面采用了更细粒度的特征,由于中文的基本语素是汉字部件,其携带语音和语义等丰富信息,不同于英文的26个字母,最终提出了一种基于汉字组成部件与情感词典的双通道词嵌入的卷积神经网络的中文文本情感分类方法,在多个公开数据集上实验证明,该模型可以显著提高文本的情感分类效果。
Description
技术领域
本发明涉及计算机技术人工智能方向自然语言领域,更具体地,涉及一种基于汉字部件特征的卷积神经网络的文本情感分析方法。
背景技术
当今社会,互联网用户交互信息爆炸,电商购物、娱乐、餐饮、交通和文化等多个产业的交互平台都产生了大量的短文本(Short Text),这些文本数据的情感倾向性是双方重要的沟通桥梁。例如,电影发行方和影迷都更倾向放映和观看公众好评的新电影;商家和潜在顾客都密切关注买家对新买商品的满意度,这些都是生活中短文本情感分析的典型使用场景。因此挖掘短文本的情感信息,一直是近年来众多学者的研究方向。
现有的中文文本情感分析技术主要分为两大类:基于知识的方法和基于机器学习的方法。前者一般指结合语法规则和情感词典识别有情感极性的词语来计算文本的情感倾向,然而由于依赖情感词典的大小和质量,不仅需要大量的人工预处理,而且泛化性差,特别是运用于跨域文本时;后者又分为两个阶段,第一个阶段主要是采用传统的机器学习技术,如支持向量机(SVM)、朴素贝叶斯(NB)和随机森林(RF)等分类算法,主要存在的问题是需要人工构建特征,而中文情感特征不同于英文,中文没有字与字间的空格,中文的词语通常由不止一个汉字组成,因而基于词语提取特征就需要先分词;所以通常提取特征不仅费时费力,而且分类结果过于依赖提取的特征;第二个阶段出现了深度学习技术,主要指应用多种深度神经网络CNN、RNN等来实现分类,这种方式不需要人工标注的情感词典,也不需要人工构建特征,完全依靠自我学习来提取特征,但特征提取粒度不够细,而且往往需要大量标注好的语料,这一点在中文情感分析领域是稀缺的。
发明内容
本发明提供一种细化特征提取的粒度的基于汉字部件特征的卷积神经网络的文本情感分析方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于汉字部件特征的卷积神经网络的文本情感分析方法,包括以下步骤:
S1:获取汉字和汉字组成部件的信息:从HTTPCN网站爬取所有汉字的组成部件和部首的数据,以列表形式保存所有基本部件,以字典形式保存所有汉字和其对应的部件序列,最后生成部件级别的词嵌入;
S2:得到第一个输入通道表达:对情感分类语料的所有中文文本以汉字为单位,基于汉字组成部件的字典和部件级的词嵌入生成汉字级别的部件嵌入表达,即第一个通道的输入;
S3:得到第二个输入通道表达:对情感分类语料的所有中文文本进行分词和词性标注,结合词性匹配情感词典,对情感词的情感强度结合Attention机制优化权重,获得第二个通道的输入;
S4:第一个CNN:第一个输入通道作为char-cnn的输入,连接卷积核大小为[2,3,4,5]、卷积核数目为256的卷积层,通过1-max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;
S5:第二个CNN:第二个输入通道作为cnn的输入,连接卷积核大小为[2,3,4]、卷积核数目为256的卷积层,通过1-max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;
S6:融合两个CNN:两个输入通道分别得到一个情感类别输出,作为一个新的DNN的输入,接入全连接层,通过分类器最终得到目标情感倾向。
进一步地,所述步骤S1中获取汉字和汉字组成部件的信息过程包括以下步骤:
S11:爬取HTTPCN网站,得到所有汉字及其对应的汉字组成部件序列的对应关系,保存为:汉字以空格隔开的汉字组成部件序列\n格式的txt文件char2comp.txt;
S12:读取char2comp.txt获取所有基本部件的集合并保存为comp.txt;
S13:以comp.txt作为输入,生成部件级别的embedding:comp_embedding。
进一步地,所述步骤S2中得到第一个输入通道表达的过程包括以下步骤:
S21:将中文训练语料整理成仅包括汉字、数字和小写英文字母的集合char_list,即统一字母为小写,去除标点等无情感表达的符号的干扰;
S22:输入文本中的每个字先分解为多个部件组成的序列,每个部件再依次从训练好的部件向量矩阵中找到对应的component embedding,然后“横向累加”并取平均.即形成字级别的汉字部件组成表达,再通过“纵向累加”的方式形成句子级别的文本表达,作为适合CNN处理的二维特征矩阵,这里用X1表示。
进一步地,所述步骤S3中得到第二个输入通道表达的过程包括以下步骤:
S31:将中文训练语料通过jieba进行分词和词性标注;
S32:整合两个经典的情感词典:Hownet和NTUSD,形成新的情感词典;
S33:分词后,以词语为单位,匹配情感字典,得到情感词的序列,结合情感词的词性特征:是否动词、是否形容词、是否副词、是否标点符号等,先形成单词级别的情感特征向量,通过word attention优化特征向量表达,同样作为CNN的二维特征矩阵输入,这里用X2表示。
进一步地,所述步骤S4和S5中,两个CNN的结构,具体包括4层:
卷积层:在这一层,对每个文本,每个大小的卷积核的数目为m,每个句子的文本输入长度为h,则特征ci提取过程如下公式所示:
其中,ci是第i个特征值,Xi:i+h代表第i行到第i+h-1行组合成的局部特征向量矩阵,表示数组元素依次相乘,F是卷积核的权重矩阵,b是第f个卷积核的偏置,每个卷积核的维度是d,和句子矩阵的维度一致,m个卷积核生成了多个feature map,最终聚合成一个大的feature map C;
最大池化层:这一层,主要用来降维,提取最显著的特征,池化后的特征集合矩阵如下所示:
全连接层:计算变化值,公式如下:x=Re LU(W*Cpool+b),其中,W是权重矩阵,b是偏置,本层的输出x代表每个文本的句子嵌入表达;
Softmax层:完成情感的映射,返回一个最大可能性的情感类别值,公式如下:
其中,wj是情感类别j的权重向量,aj是情感类别j的偏置。
与现有技术相比,本发明技术方案的有益效果是:
本发明首先,考虑情感词的情感强烈程度,结合Attention优化情感词典中词的权重;同时在特征提取方面采用了更细粒度的特征,由于中文的基本语素是汉字部件,其携带语音和语义等丰富信息,不同于英文的26个字母,最终提出了一种基于汉字组成部件与情感词典的双通道词嵌入的卷积神经网络的中文文本情感分类方法,在多个公开数据集上实验证明,该模型可以显著提高文本的情感分类效果。
附图说明
图1为本发明第一个输入通道的组合方式示意图;
图2为本发明第二个输入通道的组合方式示意图;
图3为本发明提出的模型的整体结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1-3所示,一种基于汉字部件特征的卷积神经网络的文本情感分析方法,包括以下步骤:
S1:获取汉字和汉字组成部件的信息:从HTTPCN网站爬取所有汉字的组成部件和部首的数据,以列表形式保存所有基本部件,以字典形式保存所有汉字和其对应的部件序列,最后生成部件级别的词嵌入;
S2:得到第一个输入通道表达:对情感分类语料的所有中文文本以汉字为单位,基于汉字组成部件的字典和部件级的词嵌入生成汉字级别的部件嵌入表达,即第一个通道的输入;
S3:得到第二个输入通道表达:对情感分类语料的所有中文文本进行分词和词性标注,结合词性匹配情感词典,对情感词的情感强度结合Attention机制优化权重,获得第二个通道的输入;
S4:第一个CNN:第一个输入通道作为char-cnn的输入,连接卷积核大小为[2,3,4,5]、卷积核数目为256的卷积层,通过1-max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;
S5:第二个CNN:第二个输入通道作为cnn的输入,连接卷积核大小为[2,3,4]、卷积核数目为256的卷积层,通过1-max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;
S6:融合两个CNN:两个输入通道分别得到一个情感类别输出,作为一个新的DNN的输入,接入全连接层,通过分类器最终得到目标情感倾向。
进一步地,所述步骤S1中获取汉字和汉字组成部件的信息过程包括以下步骤:
S11:爬取HTTPCN网站,得到所有汉字及其对应的汉字组成部件序列的对应关系,保存为:汉字以空格隔开的汉字组成部件序列\n格式的txt文件char2comp.txt;
S12:读取char2comp.txt获取所有基本部件的集合并保存为comp.txt;
S13:以comp.txt作为输入,生成部件级别的embedding:comp_embedding。
进一步地,所述步骤S2中得到第一个输入通道表达的过程包括以下步骤:
S21:将中文训练语料整理成仅包括汉字、数字和小写英文字母的集合char_list,即统一字母为小写,去除标点等无情感表达的符号的干扰;
S22:输入文本中的每个字先分解为多个部件组成的序列,每个部件再依次从训练好的部件向量矩阵中找到对应的component embedding,然后“横向累加”并取平均.即形成字级别的汉字部件组成表达,再通过“纵向累加”的方式形成句子级别的文本表达,作为适合CNN处理的二维特征矩阵,这里用X1表示。
进一步地,所述步骤S3中得到第二个输入通道表达的过程包括以下步骤:
S31:将中文训练语料通过jieba进行分词和词性标注;
S32:整合两个经典的情感词典:Hownet和NTUSD,形成新的情感词典;
S33:分词后,以词语为单位,匹配情感字典,得到情感词的序列,结合情感词的词性特征:是否动词、是否形容词、是否副词、是否标点符号等,先形成单词级别的情感特征向量,通过word attention优化特征向量表达,同样作为CNN的二维特征矩阵输入,这里用X2表示。
进一步地,所述步骤S4和S5中,两个CNN的结构,具体包括4层:
卷积层:在这一层,对每个文本,每个大小的卷积核的数目为m,每个句子的文本输入长度为h,则特征ci提取过程如下公式所示:
其中,ci是第i个特征值,Xi:i+h代表第i行到第i+h-1行组合成的局部特征向量矩阵,表示数组元素依次相乘,F是卷积核的权重矩阵,b是第f个卷积核的偏置,每个卷积核的维度是d,和句子矩阵的维度一致,m个卷积核生成了多个feature map,最终聚合成一个大的feature map C;
最大池化层:这一层,主要用来降维,提取最显著的特征,池化后的特征集合矩阵如下所示:
全连接层:计算变化值,公式如下:x=Re LU(W*Cpool+b),其中,W是权重矩阵,b是偏置,本层的输出x代表每个文本的句子嵌入表达;
Softmax层:完成情感的映射,返回一个最大可能性的情感类别值,公式如下:
其中,wj是情感类别j的权重向量,aj是情感类别j的偏置。
本发明基于汉字部件特征的卷积神经网络的文本情感分析方法的分类效果实验:
1、实验数据集:谭松波公布的酒店评论数据集Chn2000(共2个情感类别)
2、实验环境:tensorflow-gpu 1.2.0、sklearn和python3.5;
3、实验工具集:jieba、fasttext和numpy开源库;
4、实验方法:对于Chn2000酒店评论数据集,正负评价各2000条,共4000条短文本,按照8:1:1的比例来训练、验证、测试,采用逻辑回归、朴素贝叶斯、fasttext、已发表论文中的模型CNN+Hsemantic和本发明提出的模型测试分类结果;
5、评价标准:
分类问题中,通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,四种情况出现的总数分别记作:
TP:将正类预测为正类数(True Positive)
FN:将正类预测为负类数(False Negative)
FP:将负类预测为正类
TN:将负类预测为负类数
(1)精确率:预测为正的样本中有多少预测对,其公式如下所示:
(2)召回率:真实标签为正的样本有多少预测对,其公式如下所示:
(3)F1值:精确率和召回率的调和均值,其公式如下所示:
6、实验结果:如表1所示,表中表示在数据集Chn2000上,分别使用逻辑回归、朴素贝叶斯、fasttext、已发表论文中的模型CNN+Hsemantic和本发明提出的模型进行训练之后预测测试集情感倾向结果的精确率、召回率和F1值。实验结果表明,本发明提出的模型取得较好的分类效果,与现有的方法比较,具有显著性的进步。
表1-Chn2000测试集结果
模型 | P/% | R/% | F1/% |
LogisticRegression | 78.87 | 74.74 | 74.96 |
NaiveBayesian | 72.25 | 71.25 | 71.34 |
Fasttext | 82.75 | 82.75 | 82.73 |
CNN+Hsemantic | 87.45 | 86.71 | 87.02 |
本专利提出的模型 | 91.26 | 91 | 90.99 |
从表1中可以得到用本专利提出的方法得到了最好的情感分类效果。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于汉字部件特征的卷积神经网络的文本情感分析方法,其特征在于,包括以下步骤:
S1:获取汉字和汉字组成部件的信息:从HTTPCN网站爬取所有汉字的组成部件和部首的数据,以列表形式保存所有基本部件,以字典形式保存所有汉字和其对应的部件序列,最后生成部件级别的词嵌入;
S2:得到第一个输入通道表达:对情感分类语料的所有中文文本以汉字为单位,基于汉字组成部件的字典和部件级的词嵌入生成汉字级别的部件嵌入表达,即第一个通道的输入;
S3:得到第二个输入通道表达:对情感分类语料的所有中文文本进行分词和词性标注,结合词性匹配情感词典,对情感词的情感强度结合Attention机制优化权重,获得第二个通道的输入;
S4:第一个CNN:第一个输入通道作为char-cnn的输入,连接卷积核大小为[2,3,4,5]、卷积核数目为256的卷积层,通过1-max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;
S5:第二个CNN:第二个输入通道作为cnn的输入,连接卷积核大小为[2,3,4]、卷积核数目为256的卷积层,通过1-max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;
S6:融合两个CNN:两个输入通道分别得到一个情感类别输出,作为一个新的DNN的输入,接入全连接层,通过分类器最终得到目标情感倾向。
2.根据权利要求1所述的基于汉字部件特征的卷积神经网络的文本情感分析方法,其特征在于,所述步骤S1中获取汉字和汉字组成部件的信息过程包括以下步骤:
S11:爬取HTTPCN网站,得到所有汉字及其对应的汉字组成部件序列的对应关系,保存为:汉字以空格隔开的汉字组成部件序列\n格式的txt文件char2comp.txt;
S12:读取char2comp.txt获取所有基本部件的集合并保存为comp.txt;
S13:以comp.txt作为输入,生成部件级别的embedding:comp_embedding。
3.根据权利要求2所述的基于汉字部件特征的卷积神经网络的文本情感分析方法,其特征在于,所述步骤S2中得到第一个输入通道表达的过程包括以下步骤:
S21:将中文训练语料整理成仅包括汉字、数字和小写英文字母的集合char_list,即统一字母为小写,去除标点等无情感表达的符号的干扰;
S22:输入文本中的每个字先分解为多个部件组成的序列,每个部件再依次从训练好的部件向量矩阵中找到对应的component embedding,然后“横向累加”并取平均.即形成字级别的汉字部件组成表达,再通过“纵向累加”的方式形成句子级别的文本表达,作为适合CNN处理的二维特征矩阵,这里用X1表示。
4.根据权利要求3所述的基于汉字部件特征的卷积神经网络的文本情感分析方法,其特征在于,所述步骤S3中得到第二个输入通道表达的过程包括以下步骤:
S31:将中文训练语料通过jieba进行分词和词性标注;
S32:整合两个经典的情感词典:Hownet和NTUSD,形成新的情感词典;
S33:分词后,以词语为单位,匹配情感字典,得到情感词的序列,结合情感词的词性特征:是否动词、是否形容词、是否副词、是否标点符号等,先形成单词级别的情感特征向量,通过word attention优化特征向量表达,同样作为CNN的二维特征矩阵输入,这里用X2表示。
5.根据权利要求4所述的基于汉字部件特征的卷积神经网络的文本情感分析方法,其特征在于,所述步骤S4和S5中,两个CNN的结构,具体包括4层:
卷积层:在这一层,对每个文本,每个大小的卷积核的数目为m,每个句子的文本输入长度为h,则特征ci提取过程如下公式所示:
其中,ci是第i个特征值,Xi:i+h代表第i行到第i+h-1行组合成的局部特征向量矩阵,表示数组元素依次相乘,F是卷积核的权重矩阵,b是第f个卷积核的偏置,每个卷积核的维度是d,和句子矩阵的维度一致,m个卷积核生成了多个feature map,最终聚合成一个大的feature map C;
最大池化层:这一层,主要用来降维,提取最显著的特征,池化后的特征集合矩阵如下所示:
全连接层:计算变化值,公式如下:x=Re LU(W*Cpool+b),其中,W是权重矩阵,b是偏置,本层的输出x代表每个文本的句子嵌入表达;
Softmax层:完成情感的映射,返回一个最大可能性的情感类别值,公式如下:
其中,wj是情感类别j的权重向量,aj是情感类别j的偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810187041.4A CN108446271B (zh) | 2018-03-07 | 2018-03-07 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810187041.4A CN108446271B (zh) | 2018-03-07 | 2018-03-07 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108446271A true CN108446271A (zh) | 2018-08-24 |
CN108446271B CN108446271B (zh) | 2021-11-26 |
Family
ID=63193606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810187041.4A Active CN108446271B (zh) | 2018-03-07 | 2018-03-07 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446271B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471946A (zh) * | 2018-11-16 | 2019-03-15 | 中国科学技术大学 | 一种中文文本的分类方法及系统 |
CN109582784A (zh) * | 2018-10-26 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 文本分类方法及装置 |
CN109871539A (zh) * | 2019-02-18 | 2019-06-11 | 山东科技大学 | 一种基于多任务神经网络的语言检测与情感分类的方法 |
CN109948156A (zh) * | 2019-03-13 | 2019-06-28 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN110046223A (zh) * | 2019-03-13 | 2019-07-23 | 重庆邮电大学 | 基于改进型卷积神经网络模型的影评情感分析方法 |
CN110502757A (zh) * | 2019-08-29 | 2019-11-26 | 西安邮电大学 | 一种自然语言情感分析方法 |
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN111061873A (zh) * | 2019-11-28 | 2020-04-24 | 北京工业大学 | 一种基于Attention机制的多通道的文本分类方法 |
CN111639483A (zh) * | 2019-02-14 | 2020-09-08 | 顺丰科技有限公司 | 一种评价方面确定方法和装置 |
CN112418360A (zh) * | 2021-01-21 | 2021-02-26 | 深圳市安软科技股份有限公司 | 卷积神经网络的训练方法、行人属性识别方法及相关设备 |
CN112464674A (zh) * | 2020-12-16 | 2021-03-09 | 四川长虹电器股份有限公司 | 一种字级别的文本意图识别方法 |
CN112749566A (zh) * | 2019-10-31 | 2021-05-04 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN113946661A (zh) * | 2021-12-21 | 2022-01-18 | 南京云问网络技术有限公司 | 一种融合字形的多视角情感分析方法 |
CN115329775A (zh) * | 2022-10-14 | 2022-11-11 | 成都晓多科技有限公司 | 一种语句中方面类别及情感极性联合识别的方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
US9659248B1 (en) * | 2016-01-19 | 2017-05-23 | International Business Machines Corporation | Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN107358258A (zh) * | 2017-07-07 | 2017-11-17 | 西安电子科技大学 | 基于nsct双cnn通道和选择性注意机制的sar图像目标分类 |
CN107515855A (zh) * | 2017-08-18 | 2017-12-26 | 武汉红茶数据技术有限公司 | 一种结合表情符的微博情感分析方法和系统 |
-
2018
- 2018-03-07 CN CN201810187041.4A patent/CN108446271B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9659248B1 (en) * | 2016-01-19 | 2017-05-23 | International Business Machines Corporation | Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107291795A (zh) * | 2017-05-03 | 2017-10-24 | 华南理工大学 | 一种结合动态词嵌入和词性标注的文本分类方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN107358258A (zh) * | 2017-07-07 | 2017-11-17 | 西安电子科技大学 | 基于nsct双cnn通道和选择性注意机制的sar图像目标分类 |
CN107515855A (zh) * | 2017-08-18 | 2017-12-26 | 武汉红茶数据技术有限公司 | 一种结合表情符的微博情感分析方法和系统 |
Non-Patent Citations (3)
Title |
---|
HAYATE ISO: "NTCIR13 MedWeb Task: Multi-label Classification of Tweets using an Ensemble of Neural Networks", 《PROCEEDINGS OF THE 13TH NTCIR CONFERENCE ON EVALUATION OF INFORMATION ACCESS TECHNOLOGIES》 * |
XIANG ZHANG: "Character-level Convolutional Networks for Text", 《COMPUTER SCIENCE》 * |
胡浩 等: "基于汉字固有属性的中文字向量方法研究", 《中文信息学报》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582784A (zh) * | 2018-10-26 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 文本分类方法及装置 |
CN109471946B (zh) * | 2018-11-16 | 2021-10-01 | 中国科学技术大学 | 一种中文文本的分类方法及系统 |
CN109471946A (zh) * | 2018-11-16 | 2019-03-15 | 中国科学技术大学 | 一种中文文本的分类方法及系统 |
CN111639483A (zh) * | 2019-02-14 | 2020-09-08 | 顺丰科技有限公司 | 一种评价方面确定方法和装置 |
CN111639483B (zh) * | 2019-02-14 | 2023-06-23 | 顺丰科技有限公司 | 一种评价方面确定方法和装置 |
CN109871539A (zh) * | 2019-02-18 | 2019-06-11 | 山东科技大学 | 一种基于多任务神经网络的语言检测与情感分类的方法 |
CN110046223A (zh) * | 2019-03-13 | 2019-07-23 | 重庆邮电大学 | 基于改进型卷积神经网络模型的影评情感分析方法 |
CN110046223B (zh) * | 2019-03-13 | 2021-05-18 | 重庆邮电大学 | 基于改进型卷积神经网络模型的影评情感分析方法 |
CN109948156B (zh) * | 2019-03-13 | 2023-03-24 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN109948156A (zh) * | 2019-03-13 | 2019-06-28 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN110502757A (zh) * | 2019-08-29 | 2019-11-26 | 西安邮电大学 | 一种自然语言情感分析方法 |
CN110502757B (zh) * | 2019-08-29 | 2023-01-10 | 西安邮电大学 | 一种自然语言情感分析方法 |
CN112749566B (zh) * | 2019-10-31 | 2024-05-03 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN112749566A (zh) * | 2019-10-31 | 2021-05-04 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN110852102A (zh) * | 2019-11-14 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN110852102B (zh) * | 2019-11-14 | 2023-09-05 | 北京香侬慧语科技有限责任公司 | 一种中文的词性标注方法、装置、存储介质及电子设备 |
CN111061873A (zh) * | 2019-11-28 | 2020-04-24 | 北京工业大学 | 一种基于Attention机制的多通道的文本分类方法 |
CN112464674A (zh) * | 2020-12-16 | 2021-03-09 | 四川长虹电器股份有限公司 | 一种字级别的文本意图识别方法 |
CN112418360A (zh) * | 2021-01-21 | 2021-02-26 | 深圳市安软科技股份有限公司 | 卷积神经网络的训练方法、行人属性识别方法及相关设备 |
CN113946661A (zh) * | 2021-12-21 | 2022-01-18 | 南京云问网络技术有限公司 | 一种融合字形的多视角情感分析方法 |
CN115329775B (zh) * | 2022-10-14 | 2023-03-24 | 成都晓多科技有限公司 | 一种语句中方面类别及情感极性联合识别的方法及系统 |
CN115329775A (zh) * | 2022-10-14 | 2022-11-11 | 成都晓多科技有限公司 | 一种语句中方面类别及情感极性联合识别的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108446271B (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446271A (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
Akhtar et al. | Feature selection and ensemble construction: A two-step method for aspect based sentiment analysis | |
Dahou et al. | Word embeddings and convolutional neural network for arabic sentiment classification | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
CN108874997A (zh) | 一种面向电影评论的人名命名实体识别方法 | |
Lin et al. | An attentive fine-grained entity typing model with latent type representation | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN110347836A (zh) | 融入观点句特征的汉越双语新闻情感分类方法 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
Khatun et al. | Authorship Attribution in Bangla literature using Character-level CNN | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
Thattinaphanich et al. | Thai named entity recognition using Bi-LSTM-CRF with word and character representation | |
Huang et al. | Text classification with document embeddings | |
Yi et al. | Method of profanity detection using word embedding and LSTM | |
Huang | A CNN model for SMS spam detection | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
Diao et al. | Multi-granularity bidirectional attention stream machine comprehension method for emotion cause extraction | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
Yu et al. | Leveraging auxiliary tasks for document-level cross-domain sentiment classification | |
CN116049349A (zh) | 基于多层次注意力和层次类别特征的小样本意图识别方法 | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Nsaif et al. | Political Post Classification based on Firefly and XG Boost | |
Kong et al. | Construction of microblog-specific chinese sentiment lexicon based on representation learning | |
Wai | Myanmar language part-of-speech tagging using deep learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |