CN107193801B - 一种基于深度信念网络的短文本特征优化及情感分析方法 - Google Patents

一种基于深度信念网络的短文本特征优化及情感分析方法 Download PDF

Info

Publication number
CN107193801B
CN107193801B CN201710360583.2A CN201710360583A CN107193801B CN 107193801 B CN107193801 B CN 107193801B CN 201710360583 A CN201710360583 A CN 201710360583A CN 107193801 B CN107193801 B CN 107193801B
Authority
CN
China
Prior art keywords
word
short text
feature
belief network
deep belief
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710360583.2A
Other languages
English (en)
Other versions
CN107193801A (zh
Inventor
杜永萍
陈守钦
赵晓铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710360583.2A priority Critical patent/CN107193801B/zh
Publication of CN107193801A publication Critical patent/CN107193801A/zh
Application granted granted Critical
Publication of CN107193801B publication Critical patent/CN107193801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于深度信念网络的短文本特征提取及情感分析方法,包括:步骤1、获取微博短文本语料集合、同义词典、语义递进关联词、微博表情词典、分词模型;步骤2、对短文本进行扩展重构;步骤3、短文本分词及预处理;步骤4,词语相似度计算模型构建;步骤5、短文本特征向量扩展;步骤6、对扩展后的候选特征集合基于深度信念网络的特征深度自适应抽取;步骤7、将深度信念网络获得特征集合利用机器学习分类算法进行分类训练,获得分类预测模型;步骤8、利用分类预测模型将测试数据集进行情感标注。本发明方法能够更有效的发现潜在特征语义信息,提高了情感特征提取的质量,从而提高了情感分类的准确度。

Description

一种基于深度信念网络的短文本特征优化及情感分析方法
技术领域
本发明属于文字信息处理领域,尤其涉及一种基于深度信念网络的短文本特征提取及情感分析方法。
背景技术
情感分析的主要内容是发现文本所携带的主观性意见,包含信息主体的想法、爱好、情感表达等方面,是一个多学科融合的任务,涉及NLP(Natural LanguageProcessing)、IR(Information Retrieval)、AI(Artificial Intelligence)等众多领域。
短文本情感分析研究是伴随着国内外新型社交工具的出现而发展的新兴方向,相对于传统文本的观点和情感倾向分析,短文本由于内容简短,特征稀疏,语法表达随意,充斥着大量的表情元素等非标准表达词语及短句。传统文本情感分析方法可以借鉴但同时存在许多需要改进的方面,如何弥补现有方法的不足,提高短文本情感分类的准确度,是工业界及学术界研究的重点。
现有的特征提取算法主要有文档频率(Document Frequency,DF)、卡方检验(Chi-Square Statistic,CHI)、信息增益(Information Gain,IG)、TF*IDF(Term Frequency–Inverse Document Frequency)等算法。
文档频率:以某个特征项在某个类别中出现的文档数作为特征权值的标准,从而导致该方法的理论性不强,获得的结果与领域的关联性差。
卡方检验:在计算方法中只是关心词是否在文档中出现,而不关心出现的次数,因此该算法可能会夸大低频词的作用。
信息增益:信息增益考虑某个特征项对于整个语料库的信息量贡献,不能够针对某个类别进行特征选择,因此信息增益较为适合做全局的特征选择。
TF*IDF:可能会夸大TF值计算时,较长文档中较高频率特征项的作用,因此使用时常将TF值归一化。
综上,基于规则的情感分析方法不能有效的利用文本潜在的语义信息,传统机器学习特征提取的方法主要基于概率统计的方法,存在固有的缺陷,为了弥补这些方法的不足,本发明在扩展重构短文本的基础上引入深度学习工具深度信念网络,对短文本特征进行深度自适应学习,经过实验证明,该方法能够较好的发现并提取更高质量的潜在语义特征,较大幅度的提高情感分类的性能。
发明内容
本发明提供一种基于深度信念网络的短文本特征提取及情感分析方法,实现了基于深度学习算法-深度信念网络的短文本特征自适应抽取,并以此进行情感倾向判定,通过与传统特征提取方法进行对比发现,本方法能够更有效的发现潜在特征语义信息,提高了情感特征提取的质量,从而提高了情感分类的性能。
为实现上述目的,本发明采用如下的技术方案:
一种基于深度学习的新型短文本特征提取及情感分析方法包括以下步骤:
步骤1、获取微博短文本语料集合、同义词典、语义递进关联词、微博表情词典、分词模型。
步骤2、对短文本进行扩展重构,包括:
(2.1)将微博语料按照转发评论关系构建上下文关联树;
(2.2)利用语义递进关联词典寻找上下文中与原始微博情感倾向相同的语料对原始文本进行扩展重构;
步骤3、短文本分词及预处理,包括:
(3.1)将获得表情符号词典加入到分词模型词库中,然后利用该优化的分词模型对扩展后的短文本语料进行分词;
(3.2)将分词后的语料进行停用词过滤,标点符号过滤;
步骤4,词语相似度计算模型构建,具体工作如下:
将收集整理的同义词典与分词预处理后的词语利用Word2vec进行词语相似度训练,获得词语相似度计算模型;
步骤5、短文本特征向量扩展,包括:
(5.1)将分词预处理后的短文本分词集合利用特征提取算法进行大规模粗粒度特征抽取,获得候选特征集合;
(5.2)利用词语相似度计算模型对候选特征集合进行词语扩展,利用构建的语义相似度计算模型,依次对每个特征词计算出余弦相似度大于0.8的相似词集合,扩展到现有的特征词集合中;
步骤6、对扩展后的候选特征集合基于深度信念网络的特征深度自适应抽取;
步骤7、将深度信念网络获得特征集合利用机器学习分类算法进行分类训练,获得分类预测模型;
步骤8、利用分类预测模型将测试数据集进行情感标注。
作为优选,步骤8中具体过程如下:
(1)将测试训练集经过上述相同的步骤进行文本扩展、分词、特征扩展、深度信念网络特征提取;
(2)利用分类预测模型对未标注的测试数据进行情感倾向判定,将获得的情感分类结果输出给用户。
本发明具有以下技术效果:
能够缓解微博等短文本篇章简短、特征缺失等问题,利用评论转发等上下文信息,基于语义递进关联词对原文本进行扩展重构,该方法能够丰富情感语义表达,对特征提取及情感倾向判定具有积极意义。
深度信念网络由多层玻尔兹曼机构成,经过深度信念网络的预训练过程,各层玻尔兹曼机能够独立无监督的训练候选特征,确保特征向量能够映射到不同特征空间的同时,尽可能保留原有特征信息。
由于每一层玻尔兹曼机为独立无监督的训练,只能达到局部最优,为克服这一缺点,利用反向传播网络将错误信息由高到低传播至每一层玻尔兹曼机,能够对每一层玻尔兹曼机进行微调,力争达到整体最优。
引入深度信念网络对特征进行深度自适应学习,可以克服基于概率统计特征提取算法固有的缺陷,更好的挖掘文本所涵盖的潜在语义特征,发现更高质量的特征。为进一步丰富特征密度,利用分布式语义相似度算法对特征向量进行词语级别的扩展,该方法能够更深层次的利用文本潜在语义信息,提高情感特征提取的质量。
附图说明
图1基于深度信念网络的短文本特征提取及情感分类方法流程图;
图2基于上下文的短文本扩展重构的示意图;
图3深度信念网络预训练与微调示意图;
图4深度信念网络特征提取与情感倾向判定的示意图;
图5语义相似度模型举例的示意图;
图6特征向量扩展示意图。
具体实施方式
如图1所示,本发明提供一种基于深度信念网络的短文本特征提取及情感分析方法包括以下步骤:
步骤1、基础语料及工具收集整理,主要包括如下方面:
(1)收集微博短文本语料集合,并按照一定比例划分训练集与测试集,将训练集的数据进行人工标注。
(2)收集整理同义词典,包括哈工大同义词林、复旦大学中文同义词库等资料,为词语语义相似度模型构建鉴定基础。
(3)收集整理语义递进关联词,通过结合中文连词及微博短文本的特点,我们对微博中常用的语义递进关联词进行整理,该类连接词能够延伸原微博表达的情感倾向,为短文本扩展重构提供基础语料,语义递进关联词例如:“赞”“说得对”,“强烈支持”,“顶”等等。
(4)整理标注微博表情词典。微博涵盖大量表情符号,例如:“[高兴]”,“[大哭]”等,该类符号通常含有较为明确的情感倾向,我们认为该类符号在短文本情感分析中应该作为原子词来确定情感,但现有的分词模型词库并未涵盖该类词语,因此本文收集整理该类符号,将其加入分词模型词库,确保分词时将其划分为原子词。
(5)收集常用分词模型,常用机器学习分类算法,学习深度信念网络的原理及使用,为情感分析做好鉴定较为扎实的理论基础。
步骤2、对短文本进行扩展重构,主要工作如下:
(1)将原始微博语料按照转发评论关系构建上下文关联树,通过该关联树能够分析短文本上下之间的关联关系。
(2)利用构建语义递进关联词典寻找上下文中与原始微博情感倾向相同的语料对原始文本进行扩展重构,该方法能够扩展原始短文本的语义丰富度。上下文扩展示意图如图2所示。
步骤3、短文本分词及预处理,主要工作如下:
(1)将获得表情符号词典加入到分词模型词库中,然后利用该优化的分词模型对扩展后的短文本语料进行分词。
(2)将分词后的语料进行停用词过滤,标点符号过滤等。
步骤4,词语相似度计算模型构建,具体工作如下:
将收集整理的同义词典与分词预处理后的词语利用Word2vec进行词语相似度训练,获得词语相似度计算模型。
步骤5、短文本特征向量扩展,主要工作如下:
(1)为了兼顾深度信念网络的学习效率与准确度,我们首先将分词预处理后的短文本分词集合利用传统特征提取算法进行大规模粗粒度特征抽取,获得候选特征集合。
(2)利用词语相似度计算模型对候选特征集合进行词语扩展,利用构建的语义相似度计算模型,依次对每个特征词计算出余弦相似度大于0.8的相似词集合,扩展到现有的特征词集合中,如图5所示。
首先特征词原始数据中的情感词“开心”,“梦寐以求”通过Word2vec词语语义相似度计算模型得到语义相近词“高兴”、“渴望”,由此更新其在特征向量中的权值,该方法能够缓解短文本的特征稀疏问题。特征扩展的具体过程如图6所示。
步骤6、基于深度信念网络进行特征深度自适应学习,具体过程如下:
对扩展后的候选特征集合基于深度信念网络的特征深度自适应抽取,该方法能够克服传统基于概率统计的方法所固有的缺点,能够更好的发现特征潜在的信息,提高特征抽取的质量。
深度信念网络经过正向预训练过程,尽可能的将特征向量映射到不同的特征空间时保留更多的特征信息,并能利用反向网络传播将错误信息自上而下传播至每一层玻尔兹曼机,以此微调整个深度信念网络,深度信念网络训练与微调过程如图3所示。
经过深度信念网络预训练与微调过程能够获得较高质量的特征,通过将特征向量输入到分类算法中验证深度信念网络特征提取质量的高低。整体流程如图4所示。
步骤7、利用分类模型对特征进行分类训练,即,将深度信念网络获得特征集合利用机器学习分类算法进行分类训练,获得分类预测模型;
步骤8、将测试数据集进行情感标注,具体过程如下:
(1)将测试训练集经过上述相同的步骤进行文本扩展、分词、特征扩展、深度信念网络特征提取。
(2)利用分类预测模型对未标注的测试数据进行情感倾向判定,将获得的情感分类结果输出给用户。
实施例1:
传统提取特征的方法主要基于概率统计的方式,不能充分发现文本潜在的语义信息,从而不能更好的进行特征训练来确定短文本情感倾向;本发明实施例提供一种基于深度学习的新型短文本特征提取及情感分析方法包含如下具体步骤:
将所有的语料集合按照8:2的比例划分为训练集与测试集,利用训练集对本发明提取的方法进行模型训练,利用测试集测试本发明方法相比较于传统方法的优劣。
对训练语料集进行人工情感倾向标注,积极情感倾向标注为1,中性情感倾向标注为0,消极情感倾向标注为-1。
数据预处理,数据预处理能够更好的规范微博短文本文字表达,剔除文本乱码,进行分词、词性标注等,去除停用词。
构建短文本关联树,一条微博可能含有大量的评论、转发等上下文信息,以原始微博文本为基准,构建原始微博与转发评论的关联thread。
构建语义递进关联词典,通过语义递进关联词确定评论转发等上下文语料是否与原始微博内容具有相同的情感倾向,语义递进关联词典样例,如:“确实是”,“赞”,“非常认同”“说得对”等等。
由thread关联树及语义递进关联词典对原始微博内容进行扩展重构,丰富短文本的语义信息。
构建微博表情词典。微博等短文本充斥着大量表情符号等网络元素,通过收集微博表情将其加入分词词典,确保分词模型将其作为一个整体词切分,例如:“[给力]”、“[泪流满面]”等。
微博等短文本含有较多的网络流行语,为保证分词模型将这些流行语作为整体词,利用信息熵和点互信息实现新词自动发现,将其加入分词模型词典中。如:“我去”、“蓝瘦香菇”等等。
将表情词及新词加入ICTCLAS分词模型后,利用分词模型对经过预处理及扩展的短文本进行分词,例如:“哎呦我去,本宝宝不开心[大哭]”,原始分词结果:“哎呦/我/去/,/本/宝宝/不开心/[/大哭/]”,经过优化后的结果:“哎呦/我去/,/本/宝宝/不开心/[大哭]”。
为保证深度信念网络学习的效率及准确度,首先利用传统特征提取算法TF*IDF对特征词进行大规模初筛,构建较大规模的候选特征词集合。
Figure BDA0001300309290000061
Figure BDA0001300309290000062
引入分布式语义计算模型,对分词后的微博语料集进行词语语义相似度模型的训练构建。
对候选特征词集合利用语义相似度计算模型进行特征向量扩展,丰富特征表示密度。
按照深度信念网络输入层的格式要求,统计每个特征项出现频率构建输入向量。
指定深度信念网络玻尔兹曼机训练层数、输出特征维度等模型参数初始化深度信念网络。
将构造的输入向量经过多层玻尔兹曼机单独无监督的训练,确保特征向量映射到不同的特征空间时,能尽可能的保留原有特征信息。
利用反向传播网络将每一层的错误信息自顶向下传播到每一层玻尔兹曼机,微调整个深度信念网络。
经过预训练与微调过程,深度信念网络会将经过深度自适应学习获得的特征向量输出。
将输出的特征向量构造适合于不同机器学习分类算法的输入向量,以便验证特征抽取的质量高低。
分别利用不同的机器学习分类算法对获得的特征向量进行学习训练,获得训练模型。
将测试集合利用上述相同的步骤抽取特征向量,然后利用所获得的分类模型对其进行情感倾向标注。
利用大连理工大学、中国知网、台湾大学等情感词典资源合并汇总后构建情感词典库。
Figure BDA0001300309290000071
针对汉语语法规则构造通用情感判定规则,为基于规则的情感判定方法鉴定基础。
利用情感词典及规则方式对测试集合进行情感倾向计算,记录测试集合的准确率、召回率及F1值以便与本发明方法对比。
Figure BDA0001300309290000072
Figure BDA0001300309290000073
Figure BDA0001300309290000074
利用传统特征提取算法TF*IDF、信息增益等方法提取特征向量,并采用与本发明相同的机器学习分类算法进行情感倾向训练标注,以便对比与本发明所采用方法的优劣。
统计本发明测试集上的准确率、召回率及F1值,对比与传统规则和机器学习方法分类的性能。
根据对比结果调整深度信念网络输出特征维度的大小,重复上述操作获得调整后的实验结果,通过对比不同的参数,获得较好效果的学习训练参数。
调整分类算法的参数及对比利用弱学习分类器增强算法等对特征进一步增强训练,提高分类算法的分类性能。
经过实验结果验证,本发明提出的方法能够发现更高质量的特征,能够更有效的挖掘特征的潜在语义,能够较好的提高短文本情感分类的性能。

Claims (2)

1.一种基于深度信念网络的短文本特征提取及情感分析方法,其特征在于,包括以下步骤:
步骤1、获取微博短文本语料集合、同义词典、语义递进关联词典、微博表情词典、分词模型;
步骤2、对短文本进行扩展重构,包括:
(2.1)将微博语料按照转发评论关系构建上下文关联树;
(2.2)利用语义递进关联词典寻找上下文中与原始微博情感倾向相同的语料,对原始文本进行扩展重构;
步骤3、短文本分词及预处理,包括:
(3.1)将获得表情符号加入到分词模型中,然后利用优化的分词模型对扩展后的短文本语料进行分词;
(3.2)将分词后的语料进行停用词过滤,标点符号过滤;
步骤4,词语相似度计算模型构建,具体工作如下:
将收集整理的同义词典与分词预处理后的词语利用Word2vec进行词语相似度训练,获得词语相似度计算模型;
步骤5、短文本特征向量扩展,包括:
(5.1)将分词预处理后的短文本分词集合利用特征提取算法进行大规模粗粒度特征抽取,获得候选特征词集合;
(5.2)利用词语相似度计算模型对候选特征词集合进行词语扩展,即依次对每个候选特征词计算出余弦相似度大于0.8的相似词集合,扩展到现有的候选特征词集合中;
步骤6、对扩展后的候选特征词集合,通过基于深度信念网络的特征进行深度自适应抽取;
步骤7、将深度信念网络获得的特征词集合利用机器学习分类算法进行分类训练,获得分类预测模型;
步骤8、利用分类预测模型将测试数据集进行情感标注。
2.如权利要求1所述的基于深度信念网络的短文本特征提取及情感分析方法,其特征在于,步骤8中具体过程如下:
(1)将测试训练集经过上述相同的步骤进行文本扩展、分词、特征扩展、基于深度信念网络特征进行提取;
(2)利用分类预测模型对未标注的测试数据进行情感倾向判定,将获得的情感分类结果输出给用户。
CN201710360583.2A 2017-05-21 2017-05-21 一种基于深度信念网络的短文本特征优化及情感分析方法 Active CN107193801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710360583.2A CN107193801B (zh) 2017-05-21 2017-05-21 一种基于深度信念网络的短文本特征优化及情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710360583.2A CN107193801B (zh) 2017-05-21 2017-05-21 一种基于深度信念网络的短文本特征优化及情感分析方法

Publications (2)

Publication Number Publication Date
CN107193801A CN107193801A (zh) 2017-09-22
CN107193801B true CN107193801B (zh) 2020-07-03

Family

ID=59875663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710360583.2A Active CN107193801B (zh) 2017-05-21 2017-05-21 一种基于深度信念网络的短文本特征优化及情感分析方法

Country Status (1)

Country Link
CN (1) CN107193801B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967337B (zh) * 2017-12-05 2021-10-15 云南大学 一种基于情感极性增强语义的跨领域情感分析方法
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN108108355A (zh) * 2017-12-25 2018-06-01 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的文本情感分析方法和系统
CN108280206B (zh) * 2018-01-30 2020-05-26 尹忠博 一种基于语义增强的短文本分类方法
CN110246049A (zh) * 2018-03-09 2019-09-17 北大方正集团有限公司 话题检测方法、装置、设备及可读存储介质
CN108389082B (zh) * 2018-03-15 2021-07-06 火烈鸟网络(广州)股份有限公司 一种游戏智能评级方法与系统
CN108376133A (zh) * 2018-03-21 2018-08-07 北京理工大学 基于情感词扩充的短文本情感分类方法
CN110427484A (zh) * 2018-04-26 2019-11-08 上海意仕腾教育科技有限公司 一种基于深度学习的中文自然语言处理方法
CN108804617B (zh) * 2018-05-30 2021-08-10 广州杰赛科技股份有限公司 领域术语抽取方法、装置、终端设备及存储介质
CN109408802A (zh) * 2018-08-28 2019-03-01 厦门快商通信息技术有限公司 一种提升句向量语义的方法、系统及存储介质
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统
CN109388800B (zh) * 2018-09-30 2023-04-18 江苏师范大学 一种基于加窗词向量特征的短文本情感分析方法
CN109508454B (zh) * 2018-10-09 2023-04-18 北京百悟科技有限公司 一种短信审核方法及装置
CN109657057A (zh) * 2018-11-22 2019-04-19 天津大学 一种结合svm和文档向量的短文本情感分类方法
CN110929148A (zh) * 2019-11-01 2020-03-27 杨勇 一种基于深度学习的推荐方法
CN111027315B (zh) * 2019-11-18 2023-06-09 曲阜师范大学 一种基于Word2Vec模型的WordNet中词语相似度计算方法
CN110909529B (zh) * 2019-11-27 2023-03-24 国网能源研究院有限公司 一种公司形象提升系统的用户情感分析和预判系统
CN110909535B (zh) * 2019-12-06 2023-04-07 北京百分点科技集团股份有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN111144108B (zh) * 2019-12-26 2023-06-27 北京百度网讯科技有限公司 情感倾向性分析模型的建模方法、装置和电子设备
CN111159412B (zh) * 2019-12-31 2023-05-12 腾讯科技(深圳)有限公司 分类方法、装置、电子设备及可读存储介质
CN111291551B (zh) * 2020-01-22 2023-04-18 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN111353044B (zh) * 2020-03-09 2022-11-11 重庆邮电大学 一种基于评论的情感分析方法及系统
CN111400496B (zh) * 2020-03-18 2023-05-09 江苏海洋大学 一种面向用户行为分析的大众口碑情感分析方法
CN111523318A (zh) * 2020-04-02 2020-08-11 言图科技有限公司 一种汉语短语分析方法、系统、存储介质及电子设备
CN111948531A (zh) * 2020-09-14 2020-11-17 山东电工电气集团有限公司 基于多参量提取的有载分接开关带电检测方法
CN112287524B (zh) * 2020-10-13 2022-06-21 泉州津大智能研究院有限公司 一种基于稀疏高斯条件随机场的情感分类方法及装置
CN112632969B (zh) * 2020-12-13 2022-06-21 复旦大学 一种增量式行业词典更新方法和系统
CN113111653B (zh) * 2021-04-07 2023-06-02 同济大学 一种基于Word2Vec和句法依存树的文本特征构造方法
CN114201605A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于联合属性建模的图像情感分析方法
CN116450840A (zh) * 2023-03-22 2023-07-18 武汉理工大学 基于深度学习的领域情感词典构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chinese Microblog Sentiment Classification Based on Convolution Neural Network with Content Extension Method;Xiao SUN et al.;《2015 International Conference on Affective Computing and Intelligent Interaction(ACII)》;20151207;摘要、第409页右栏倒数第2段、第410页左栏倒数第2段、第411页、第412页右栏第2段 *

Also Published As

Publication number Publication date
CN107193801A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN106021272B (zh) 基于分布式表达词向量计算的关键词自动提取方法
CN109960799B (zh) 一种面向短文本的优化分类方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
WO2015043075A1 (zh) 面向微博的情感实体搜索系统
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN111429184A (zh) 一种基于文本信息的用户画像抽取方法
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Campbell et al. Content+ context networks for user classification in twitter
CN109299251A (zh) 一种基于深度学习算法的异常垃圾短信识别方法及系统
Rabbimov et al. Uzbek news categorization using word embeddings and convolutional neural networks
Yang et al. Microblog sentiment analysis algorithm research and implementation based on classification
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN107562774A (zh) 小语种词嵌入模型的生成方法、系统及问答方法和系统
Alqaraleh Turkish Sentiment Analysis System via Ensemble Learning
Jin et al. Micro-blog short text clustering algorithm based on bootstrapping
CN112507071B (zh) 基于新型情感词典的网络平台短文本混合情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant