CN108733653B - 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 - Google Patents

一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 Download PDF

Info

Publication number
CN108733653B
CN108733653B CN201810481860.XA CN201810481860A CN108733653B CN 108733653 B CN108733653 B CN 108733653B CN 201810481860 A CN201810481860 A CN 201810481860A CN 108733653 B CN108733653 B CN 108733653B
Authority
CN
China
Prior art keywords
speech
word
vector
information
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810481860.XA
Other languages
English (en)
Other versions
CN108733653A (zh
Inventor
李瑞轩
文坤梅
黄伟
李玉华
辜希武
昝杰
龚晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201810481860.XA priority Critical patent/CN108733653B/zh
Publication of CN108733653A publication Critical patent/CN108733653A/zh
Application granted granted Critical
Publication of CN108733653B publication Critical patent/CN108733653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于融合词性和语义信息的Skip‑gram模型的情感分析方法,包括:数据预处理、词性信息建模、词向量表示、语义信息建模、情感分析五个步骤。其中数据预处理包括过滤、分词、词性标注;词性信息建模包含基于上下文对词性信息建模;词向量表示模块在融合词性信息的Skip‑gram模型上进行向量训练;语义信息建模模块包括融合情感语义信息的文本表示。同现有技术相比,本发明考虑了单词的词性信息及情感语义信息,且在对单词的词性信息建模和融合语义信息的基础上,充分利用单词的词性信息帮助词向量训练以及情感语义先验信息帮助文本向量的学习,使得表示的文本向量更加符合语言学特征,对于情感分析有很好的结果。

Description

一种基于融合词性和语义信息的Skip-gram模型的情感分析 方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于融合词性和语义信息的Skip-gram模型的情感分析方法。
背景技术
随着电子商务的发展,商品评论文本的情感分析与挖掘对于研究商品口碑、进行商品推荐都具有重要的价值,评论数据已成为企业提高商品质量和提升服务的重要数据源。
随着深度学习在音频、图像、视频领域所取得的巨大成就,用深度学习中的神经网络模型融合传统的机器学习模型,用低维度并能度量单词间的语义关联度的词向量替代传统词袋模型中采用的One-hot向量,在情感分析(Sentiment Analysis)、命名实体识别、机器翻译以及词性标注等多种自然语言处理任务中,相比于传统机器学习方法都取得了优越的性能表现。在处理中文文本时,分词后的单词是具有独特语义含义的最小单位。通过一定词法、语法规则将单词与上下文一起构成了短语、句子,而其上下文也是由多个单词构成的。在自然语言处理(Natural language processing,NLP)中,涉及到处理句子及文章,独立语义的单词表示的好坏直接影响模型的性能和质量。对于文本情感分类任务,单词的情感语义信息是影响商品评论情感的重要因素,合理利用单词的情感先验能够提高商品文本情感分析的准确度。单词向量合成文本向量的过程中,不同语义的单词对于文本向量的影响程度不同,例如:名词“苹果”和主观单词“喜欢”中,主观单词“喜欢”对于商品评论文本情感倾向有较大的影响。
Bengio等人提出了一种神经网络语言模型(Neural Network Language Model,NNLM)表示词向量的方法,该方法通过学习器将词表征为固定长度的向量,这些向量组成词向量空间,词与词之间的语义相似度通过坐标距离衡量,克服了one-hot表示方式的维灾、稀疏性等缺点;Bengio等人采用经典的三层前馈神经网络直接对n-gram语言模型进行求解,期间通过考虑投影层与输出层之间神经元相连的情形减少迭代次数,最后用softmax函数归一化得到词汇表每个单词的概率,并获取中间产物-词向量;Mikolov等人首次使用循环神经网络做语言模型,循环神经网络能够充分利用上下文词信息,将输出词频|V|分组为
Figure BDA0001665723280000021
均摊,时间复杂度为
Figure BDA0001665723280000022
通过这种方式学到的词向量几乎能够和词向量(上下文语义表示)的定义契合;Gittens等人证明当单词满足足Zipf分布时,通过Skip-Gram负采样训练的词向量具有矢量可加性的原因,并引入了KL-divergence相似度,证明了一系列上下文单词C1,...,Cm和单词c对其它单词w而言具有相同的意义,即
Figure BDA0001665723280000023
Socher等人使用句法分析器构建句法树,树中的每个叶子节点代表单词,通过叶子节点合成子树-对应短语,网络合成的语义也表示为对应短语的语义,最终合成整个树;Kalchbrenner等人提出了动态卷积神经网络为句子建模,该模型在句子线性序列上使用动态K大池化技术,将输入句子合并为图,因为该模型没有依赖句子树的解析,所以模型适用性更强;Qian等人提出了基于语言正则的LSTM情感分析模型,模型的核心为在句子邻接的位置分别建立非情感正则、情感正则、否定正则、强度正则,之后作者为缓解否定和强度单词长度跨度问题将正则信息加入双向LSTM;Deriu等人扩充了单层的卷积神经网络到两层的卷积层、池化层,利用多种语言中的弱监督数据集训练卷积神经网络,验证在跨语言情感分析中预训练网络的重要性。
综上所述,目前已有的情感分析研究工作大都集中在提出不同的深度神经网络模型用于情感分析,模型改进上多集中于修改模型结构减少模型复杂度,其他的工作主要是进行跨语言的情感分析研究,而既融合词性信息的词向量训练又综合情感语义信息的情感分析工作很少,对于词性信息利用也不太合理,大多是通过选取词性的方式而不是将词性信息融入词向量模型。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术情感分析方法未考虑词性信息的技术问题。
为实现上述目的,第一方面,本发明提供了一种基于融合词性和语义信息的Skip-gram模型的情感分析方法,该方法包括以下步骤:
步骤1.评论语料库预处理,得到文本训练集;
步骤2.基于文本训练集构建综合词性关联关系权重矩阵Zn×n,n为词性的数量;
步骤3.基于综合词性关联关系权重矩阵Zn×n,融合词性信息建立Skip-gram模型,基于该模型将文本训练集中每个单词转化为对应的词向量,得到词向量训练集;
步骤4.基于词向量训练集,将评论语料库中的每个评论文档,在由词向量组成文档向量的过程中,加入语言学语义信息,得到文档向量数据集;
步骤5.采用分类算法对文档向量数据集进行分类,实现情感分析。
具体地,预处理包括:过滤、分词、词性标注。
具体地,步骤2包括以下步骤:
步骤2.1.定义词性权重矩阵PWn×n,根据不同词性对对于情感极性的影响人为赋值矩阵元素PWij,其中,PWij表示词性i-词性j词性对对于情感极性的影响权重,n为词性的数量;
2.2基于文本训练集构建词性关联矩阵Mn×n,矩阵元素Mij的取值为词性i-词性j词性对在文本训练集中的出现频率;
2.3基于词性权重矩阵PWn×n和词性关联矩阵Mn×n,计算综合词性关联关系权重矩阵Zn×n,其计算公式如下:
Zn×n=Mn×n*PWn×n (1)。
具体地,步骤3包括以下步骤:
3.1基于综合词性关联关系权重矩阵Zn×n,融合词性信息建立Skip-gram模型,该模型采用负采样优化,目标函数表示如下:
Figure BDA0001665723280000041
Figure BDA0001665723280000042
其中,w为当前单词,C为文本训练集;
Figure BDA0001665723280000044
表示上下文单词;Context(w)表示上下文;
u表示负采样成功的单词,NEG(w)表示从语料库采样的负样本集;
标签Lw(u)表示负采样成功的概率函数,在负采样过程中,已知上下文Context(w)的条件下,采样到w为正采样,非w为负采样,Lw(u)的计算公式如下:
Figure BDA0001665723280000043
将词性信息融合进sigmoid单分类判别函数,计算公式如下:
Figure BDA0001665723280000051
其中,
Figure BDA0001665723280000052
表示上下文Context(w)中任一单词
Figure BDA0001665723280000053
的词向量的转置;θu表示分类器的参数,为优化目标函数后待求的参数,用于辅助求解最优化问题的向量;负采样单词u的词性为i,上下文任一单词为
Figure BDA0001665723280000054
的词性为j,单词u和
Figure BDA0001665723280000055
的词性关联关系为Zij,Zij表示综合词性关联关系权重矩阵第i行第j列元素;
3.2对整个文本训练集进行优化,使得目标函数最大,求解得到单词
Figure BDA0001665723280000056
的词向量
Figure BDA0001665723280000057
具体地,步骤4中使用权重加权法,在由词向量组成文档向量的过程中,入语言学语义信息,计算公式如下:
Figure BDA0001665723280000058
其中,v(D)表示文档向量,v(w)表示单词向量,D表示评论文档,SD表示情感词典,λ代表单词向量v(w)合成文档向量v(D)的权重。
可选地,步骤5之后,分别选取准确率、召回率、F1作为分类效果的评估指标来验证情感分析方法的有效性。
第二方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述图情感分析方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
(1)本发明通过自定义词性影响权重矩阵、文本数据集统计构建词性关联矩阵,可以充分利用词性信息进行建模。
(2)本发明将词性信息融入基础Skip-Gram模型,使得模型包含丰富的语言学信息,并通过负采样加速模型训练过程。
(3)本发明利用情感语义先验信息生成文本向量,使得最终向量包含词性、语义信息,在情感分类任务中取得了良好的结果。
附图说明
图1为本发明实施例提供的一种基于融合词性和语义信息的Skip-gram模型的情感分析方法流程示意图。
图2为本发明实施例提供基于负采样优化策略的词性的增强Skip-gram算法伪代码示意图。
图3为本发明实施例提供的语义权重文档向量合成算法伪代码示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中语料库为网上下载的大众点评、京东等电子商务的中文商品评论数据集,该评论数据集主要为顾客对于商家的评论,数据集具有真实、客观性。
图1为本发明实施例提供的一种基于融合词性和语义信息的Skip-gram模型的情感分析方法流程示意图。如图1所示,该方法包括:
步骤1.评论语料库预处理,得到文本训练集。
具体包含以下步骤:
1.1对评论语料库中每个评论文档进行无用信息过滤;
利用java文件处理方法将多余无用的信息过滤掉,多余无用的信息包括:XML标签,HTTP链接和图片链接;空格,“、”,“@”、“#”,“$”等特殊字符。
例如,对于评论“派件太快了,第一次被这样的速度惊呆,超开心!”,经过步骤1.1之后,得到“派件太快了,第一次被这样的速度惊呆,超开心!”,滤掉了空格。
1.2对过滤后的评论语料库中每个评论文档进行分词和词性标注,得到文本训练集;
对于单词wi,词性标注为pi,单词和词性构成对应的单词-词性对<wi,pi>。
例如,“派件太快了,第一次被这样的速度惊呆,超开心!”分词后得到{派件太快了第一次被这样的速度惊呆超开心},对其词性标注后,得到{派件-n,太快了-adj,第一次-adv,被-v,这样的-adj,速度-n,惊呆-v,超-adv>,开心-adj},n、adj、adv、v为标注的词性。
可选用现有的中文自然语言处理的工具进行分词和标注,比如Hanlp,该工具中文词性标注兼容性良好,同时满足《ICTPOS3.0汉语词性标记集》和《现代汉语语料库加工规范——词语切分与词性标注》标注要求,词性标注过程中做到词性大类与小类同时标注,标注尽可能详尽。
步骤2.基于文本训练集构建综合词性关联关系权重矩阵Zn×n,n为词性的数量;
因为需要使得词向量包含尽可能多的语料信息,所以将词性标注信息转化为对应的数学符号进行描述,将词的词性信息直接融入模型,因此词性建模作为必要的过程。
具体包括以下步骤:
步骤2.1.定义词性权重矩阵PWn×n,根据不同词性对对于情感极性的影响人为赋值矩阵元素PWij,其中,PWij表示词性i-词性j词性对对于情感极性的影响权重,n为词性的数量;
词性和词性之间对于情感影响具有不同的权重,例如,形容词-形容词词性对对于情感的影响可能更加强烈,赋值可能大一些;名词-名词词性对对于情感的影响可能更加强烈,赋值可能小一些。
例如,词性数量为两种——动词和形容词,词性权重矩阵
Figure BDA0001665723280000081
其中,1代表动词与动词对于情感影响的权重,2代表动词与形容词对于情感影响的权重;3代表形容词与动词对于情感影响的权重,4代表形容词与形容词对于情感影响的权重。
2.2基于文本训练集构建词性关联矩阵Mn×n,矩阵元素Mij的取值为词性i-词性j词性对在文本训练集中的出现频率。
针对不同的语料库,词性对于情感极性的影响还和语料相关,不同的语料词性频率占比千差万别,即语料中的词性也对于情感倾向起着至关重要的作用。
例如,对于单词“太快了”、“这样的”、“开心”,存在三个单词对“太快乐-这样的”、“太快了-开心”、“这样的-开心”。这三个单词对的词性对均为“形容词-形容词”,统计词性对“形容词-形容词”在整个语料库中出现的频率,将频率作为“形容词-形容词”词性对的影响权重。
2.3基于词性权重矩阵PWn×n和词性关联矩阵Mn×n,计算综合词性关联关系权重矩阵Zn×n,其计算公式如下:
Zn×n=Mn×n*PWn×n (1)
词性权重矩阵PWn×n是一种情感影响重要程度的先验信息,词性关联矩阵Mn×n是语料变化的统计信息,可以理解为一种条件信息。根据这两类信息计算综合词性影响权重信息,得到综合词性关联关系权重矩阵。
步骤3.基于综合词性关联关系权重矩阵Zn×n,融合词性信息建立Skip-gram模型,基于该模型将文本训练集中每个单词转化为对应的词向量,得到词向量训练集;
词向量表示基于分布假设“一个单词的语义信息由单词的上下文决定”,核心观点是通过词的上下文、词与词之间的词性语义关系进行词向量的建模。
对词性信息进行建模后,已经将语言信息转化为数学符号信息,为词性加入模型提供了可能性。在已有Skip-Gram模型的基础上加入词性等自然语言特性增强词向量的学习,得到一种基于负采样的词性与位置信息增强Skip-gram模型。该模型的输入为当前单词w和上下文Context(w),输出为上下文单词
Figure BDA0001665723280000096
的词向量
Figure BDA0001665723280000095
对于整个文本训练集而言,需要定义一个目标函数,训练整个文本训练集,使得目标函数的概率最大。
图2为本发明实施例提供基于负采样优化策略的词性的增强Skip-gram算法伪代码示意图。如图2所示,步骤3具体包括以下步骤:
3.1基于综合词性关联关系权重矩阵Zn×n,融合词性信息建立Skip-gram模型,该模型采用负采样优化,目标函数表示如下:
Figure BDA0001665723280000091
Figure BDA0001665723280000092
其中,w为当前单词,C为文本训练集;
Figure BDA0001665723280000097
表示上下文单词;Context(w)表示上下文;
u表示负采样成功的单词,NEG(w)表示从语料库采样的负样本集;
标签Lw(u)表示负采样成功的概率函数,在负采样过程中,已知上下文Context(w)的条件下,采样到w为正采样,非w为负采样。Lw(u)的计算公式如下:
Figure BDA0001665723280000093
将词性信息融合进sigmoid单分类判别函数,计算公式如下:
Figure BDA0001665723280000094
其中,
Figure BDA0001665723280000101
表示上下文Context(w)中任一单词
Figure BDA0001665723280000102
的词向量的转置;θu表示分类器的参数,为优化目标函数后待求的参数,用于辅助求解最优化问题的向量;负采样单词u的词性为i,上下文任一单词为
Figure BDA0001665723280000103
的词性为j,单词u和
Figure BDA0001665723280000104
的词性关联关系为Zij,Zij表示综合词性关联关系权重矩阵第i行第j列元素。
例如,已知当前单词w为“第一次”,则Context(w)={派件,太快了,被,这样的,速度,惊呆,超,开心}。单词“第一次”为正样本,此时单词“第一次”的标签为1,对于其他单词如“派件”、“太快了”、“被”、“这样的”、“速度”、“惊呆”、“超”、“开心”等就是负样本,其标签为0。
3.2对整个文本训练集进行优化,使得目标函数最大,求解得到单词
Figure BDA0001665723280000105
的词向量
Figure BDA0001665723280000106
目标函数最大,实际上是求L′=Lw(u)·log[fneg]+(1-Lw(u))·log[1-fneg](6)的最优解。分别求L′关于参数θu
Figure BDA0001665723280000107
和Zij的梯度,求得更新迭代公式,遍历整个文本训练集获取对应的中间产物-词向量
Figure BDA0001665723280000108
每个单词对应一个词向量。
首先计算L′关于θu的梯度,计算公式如下:
Figure BDA0001665723280000109
参数θu的迭代更新公式如下:
Figure BDA00016657232800001010
再考虑计算L′关于词向量
Figure BDA00016657232800001011
的梯度变化,计算公式如下:
Figure BDA00016657232800001012
词向量的迭代更新过程如下:
Figure BDA0001665723280000111
最后计算L′对于Zij的梯度,计算公式如下:
Figure BDA0001665723280000112
关联权重的更新公式如下:
Figure BDA0001665723280000113
步骤4.基于词向量训练集,将评论语料库中的每个评论文档,在由词向量组成文档向量的过程中,加入语言学语义信息,得到文档向量数据集。
为充分利用已有的研究成果,本方法选取尽可能多的情感词典作为语言学语义信息,尽量保证情感词典的完整性。在由词向量组成文档向量的过程中,如何加入语言学语义信息,本发明使用权重加权法,计算公式如下:
Figure BDA0001665723280000114
其中,v(D)表示文档向量,v(w)表示单词向量,D表示评论文档,SD表示情感词典,λ代表单词向量v(w)合成文档向量v(D)的权重,整个过程如图3所示。
如果评论文档中出现了情感词典中的先验词语,认为该向量对于文档的情感倾向影响大,为合成文档向量赋予一定的权重信息,否者把该词当做普通词语对待,进行单词向量的简单加和。每一篇文档对应一个文档向量。
本发明综合选取了清华大学中文褒贬义词典、台湾大学NTUSD简体中文情感词典和知网Hownet情感词典,总共包含了12000个positive情感单词和15000个negative单词。
步骤5.采用分类算法对文档向量数据集进行分类,实现情感分析。
分类算法是现有的经典分类算法,例如,Adboost、GBDT、SVM、Decision Tree、Random Forest等。
分别选取准确率(Precision)、召回率(Recall)、F1作为分类效果的评估指标来验证情感分析方法的有效性。
实验结果表明,在加入了词性和情感语义信息后能够显著提升情感分析的效果,分类准确率、召回率、F1值都有一定程度的提高。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于融合词性和语义信息的Skip-gram模型的情感分析方法,其特征在于,该方法包括以下步骤:
步骤1.评论语料库预处理,得到文本训练集;
步骤2.基于文本训练集构建综合词性关联关系权重矩阵Zn×n,n为词性的数量;
步骤3.基于综合词性关联关系权重矩阵Zn×n,融合词性信息建立Skip-gram模型,基于该模型将文本训练集中每个单词转化为对应的词向量,得到词向量训练集;
步骤4.基于词向量训练集,将评论语料库中的每个评论文档,在由词向量组成文档向量的过程中,加入语言学语义信息,得到文档向量数据集;
步骤5.采用分类算法对文档向量数据集进行分类,实现情感分析;
步骤2包括以下步骤:
步骤2.1.定义词性权重矩阵PWn×n,根据不同词性对对于情感极性的影响人为赋值矩阵元素PWij,其中,PWij表示词性i-词性j词性对对于情感极性的影响权重;
2.2基于文本训练集构建词性关联矩阵Mn×n,矩阵元素Mij的取值为词性i-词性j词性对在文本训练集中的出现频率;
2.3基于词性权重矩阵PWn×n和词性关联矩阵Mn×n,计算综合词性关联关系权重矩阵Zn×n,其计算公式如下:
Zn×n=Mn×n*PWn×n (1)
步骤3包括以下步骤:
3.1基于综合词性关联关系权重矩阵Zn×n,融合词性信息建立Skip-gram模型,该模型采用负采样优化,目标函数表示如下:
Figure FDA0002461270220000021
Figure FDA0002461270220000022
其中,w为当前单词,C为文本训练集;
Figure FDA0002461270220000023
表示上下文单词;Context(w)表示上下文;
u表示负采样成功的单词,NEG(w)表示从语料库采样的负样本集;
标签Lw(u)表示负采样成功的概率函数,在负采样过程中,已知上下文Context(w)的条件下,采样到w为正采样,非w为负采样,Lw(u)的计算公式如下:
Figure FDA0002461270220000024
将词性信息融合进sigmoid单分类判别函数,计算公式如下:
Figure FDA0002461270220000025
其中,
Figure FDA0002461270220000026
表示上下文Context(w)中任一单词
Figure FDA0002461270220000027
的词向量的转置;θu表示分类器的参数,为优化目标函数后待求的参数,用于辅助求解最优化问题的向量;负采样单词u的词性为i,上下文任一单词为
Figure FDA0002461270220000028
的词性为j,单词u和
Figure FDA0002461270220000029
的词性关联关系为Zij,Zij表示综合词性关联关系权重矩阵第i行第j列元素;
3.2对整个文本训练集进行优化,使得目标函数最大,求解得到单词
Figure FDA0002461270220000031
的词向量
Figure FDA0002461270220000032
2.如权利要求1所述的情感分析方法,其特征在于,预处理包括:过滤、分词、词性标注。
3.如权利要求1所述的情感分析方法,其特征在于,步骤4中使用权重加权法,在由词向量组成文档向量的过程中,加入语言学语义信息,计算公式如下:
Figure FDA0002461270220000033
其中,v(D)表示文档向量,v(w)表示单词向量,D表示评论文档,SD表示情感词典,λ代表单词向量v(w)合成文档向量v(D)的权重。
4.如权利要求1所述的情感分析方法,其特征在于,步骤5之后,分别选取准确率、召回率、F1作为分类效果的评估指标来验证情感分析方法的有效性。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的情感分析方法。
CN201810481860.XA 2018-05-18 2018-05-18 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 Active CN108733653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810481860.XA CN108733653B (zh) 2018-05-18 2018-05-18 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810481860.XA CN108733653B (zh) 2018-05-18 2018-05-18 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法

Publications (2)

Publication Number Publication Date
CN108733653A CN108733653A (zh) 2018-11-02
CN108733653B true CN108733653B (zh) 2020-07-10

Family

ID=63938501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810481860.XA Active CN108733653B (zh) 2018-05-18 2018-05-18 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法

Country Status (1)

Country Link
CN (1) CN108733653B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209392B (zh) * 2018-11-20 2023-06-20 百度在线网络技术(北京)有限公司 污染企业的挖掘方法、装置及设备
CN109657057A (zh) * 2018-11-22 2019-04-19 天津大学 一种结合svm和文档向量的短文本情感分类方法
CN109272262B (zh) * 2018-11-26 2022-04-01 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN109582963A (zh) * 2018-11-29 2019-04-05 福建南威软件有限公司 一种基于极限学习机的档案自动分类方法
CN109726391B (zh) * 2018-12-11 2024-01-09 中科恒运股份有限公司 对文本进行情感分类的方法、装置及终端
CN111368996B (zh) * 2019-02-14 2024-03-12 谷歌有限责任公司 可传递自然语言表示的重新训练投影网络
CN109933795B (zh) * 2019-03-19 2023-07-28 上海交通大学 基于上下文-情感词向量的文本情感分析系统
CN109977257A (zh) * 2019-03-22 2019-07-05 浙江大学城市学院 一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法
CN110110083A (zh) * 2019-04-17 2019-08-09 华东理工大学 一种文本的情感分类方法、装置、设备及存储介质
CN110245682B (zh) * 2019-05-13 2021-07-27 华中科技大学 一种基于话题的网络表示学习方法
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN110298038B (zh) * 2019-06-14 2022-12-06 北京奇艺世纪科技有限公司 一种文本打分方法及装置
CN110298402A (zh) * 2019-07-01 2019-10-01 国网内蒙古东部电力有限公司 一种小目标检测性能优化方法
CN110413777A (zh) * 2019-07-08 2019-11-05 上海鸿翼软件技术股份有限公司 一种对长文本生成特征向量实现分类的系统
CN111079442B (zh) 2019-12-20 2021-05-18 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111274808B (zh) * 2020-02-11 2023-07-04 支付宝(杭州)信息技术有限公司 文本检索方法、模型训练方法、文本检索装置及存储介质
CN111359203B (zh) * 2020-03-09 2021-09-28 西南交通大学 一种个性化铁路vr场景交互方法
CN111368068A (zh) * 2020-03-18 2020-07-03 江苏鸿程大数据技术与应用研究院有限公司 一种基于词性特征和语义增强的短文本主题建模方法
CN111881676B (zh) * 2020-07-03 2024-03-15 南京航空航天大学 一种基于词向量和情感词性的情感分类方法
CN112818698B (zh) * 2021-02-03 2022-07-15 北京航空航天大学 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113792142B (zh) * 2021-09-07 2024-02-27 中国船舶重工集团公司第七0九研究所 基于多语义因素与特征聚合的目标用户隐性关系分类方法
CN115859968B (zh) * 2023-02-27 2023-11-21 四川省计算机研究院 一种基于自然语言解析及机器学习的政策颗粒化分析系统
CN116385029B (zh) * 2023-04-20 2024-01-30 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913323A (zh) * 2016-05-06 2016-08-31 浙江大学 一种GitHub开源社区的PullRequest评审者推荐方法
CN106156196A (zh) * 2015-04-22 2016-11-23 富士通株式会社 提取文本特征的装置和方法
US9715497B1 (en) * 2013-11-26 2017-07-25 Amazon Technologies, Inc. Event detection based on entity analysis
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715497B1 (en) * 2013-11-26 2017-07-25 Amazon Technologies, Inc. Event detection based on entity analysis
CN106156196A (zh) * 2015-04-22 2016-11-23 富士通株式会社 提取文本特征的装置和方法
CN105913323A (zh) * 2016-05-06 2016-08-31 浙江大学 一种GitHub开源社区的PullRequest评审者推荐方法
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于加权word2vec的微博情感分析;李锐;《通信技术》;20170310;第50卷(第3期);第502-506页 *
基于统计方法的中文短文本情感分析;卢兴;《中国优秀硕士学位论文全文数据库 信息科技辑》;20161115(第11期);I138-482,第32-38、47-49页 *
面向中文情感分析的词类组合模式研究;张紫琼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090315(第3期);I138-912,第20-45页 *

Also Published As

Publication number Publication date
CN108733653A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108733653B (zh) 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
Sboev et al. Machine learning models of text categorization by author gender using topic-independent features
CN109086269B (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
Hande et al. Offensive language identification in low-resourced code-mixed dravidian languages using pseudo-labeling
Azim et al. Text to emotion extraction using supervised machine learning techniques
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
Chaturvedi et al. Bayesian deep convolution belief networks for subjectivity detection
CN111159405B (zh) 基于背景知识的讽刺检测方法
Nerabie et al. The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach
KR100829401B1 (ko) 세부분류 개체명 인식 장치 및 방법
Antit et al. TunRoBERTa: a Tunisian robustly optimized BERT approach model for sentiment analysis
Hu et al. Retrieval-based language model adaptation for handwritten Chinese text recognition
Khodaei et al. Deep emotion detection sentiment analysis of persian literary text
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Ananth et al. Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Yadav et al. Intelligent Chatbot Using GNMT, SEQ-2-SEQ Techniques
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Kipyatkova et al. Experimenting with attention mechanisms in joint CTC-attention models for Russian speech recognition
Zheng A Novel Computer-Aided Emotion Recognition of Text Method Based on WordEmbedding and Bi-LSTM
Wehrmann et al. Fast and efficient text classification with class-based embeddings
Imtiaz A novel Auto-ML Framework for Sarcasm Detection
Hellström Aspect based sentiment analysis in Finnish
Lapointe et al. Literature Review of Automatic Restoration of Arabic Diacritics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant