CN106294324B - 一种基于自然语言句法分析树的机器学习情感分析器 - Google Patents

一种基于自然语言句法分析树的机器学习情感分析器 Download PDF

Info

Publication number
CN106294324B
CN106294324B CN201610653224.1A CN201610653224A CN106294324B CN 106294324 B CN106294324 B CN 106294324B CN 201610653224 A CN201610653224 A CN 201610653224A CN 106294324 B CN106294324 B CN 106294324B
Authority
CN
China
Prior art keywords
vocabulary
machine learning
tree
natural language
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610653224.1A
Other languages
English (en)
Other versions
CN106294324A (zh
Inventor
唐新怀
蒋戈
胡月
胡晓博
施维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610653224.1A priority Critical patent/CN106294324B/zh
Publication of CN106294324A publication Critical patent/CN106294324A/zh
Application granted granted Critical
Publication of CN106294324B publication Critical patent/CN106294324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自然语言句法分析树的机器学习情感分析器,包括句法分析模块和机器学习模块,句法分析模块包括CRF模型分析器、LALR语法分析器、特征分析器和语法树生产器,其中,特征分析器还包括词性分析模块、语法成分分析模块和词法依赖分析模块,机器学习模块包括机器学习模型和机器学习情感结果融合模块。

Description

一种基于自然语言句法分析树的机器学习情感分析器
技术领域
本发明属于人工智能技术领域,特别涉及一种基于自然语言句法分析树的机器学习情感分析器。
背景技术
Web已越来越成为现代社会各种信息的载体。随着Web 2.0的兴起于普及,由普通用户主动发布的文本越来越多,如新闻、博客文章、产品评论、论坛帖子等。情感分析,就是对这些信息进行有效的分析和挖掘,识别出其情感趋向——高兴、悲伤,或得出其观点是“赞同”还是“反对”,甚至情感随时间的演化规律。这样就可以更好地理解用户的消费习惯,分析热点事件的舆情,为企业和政府等机构提供重要的决策依据。
然而,目前通常的信息检索技术,尤其是广为应用的搜索引擎技术,是以关键词为基础的,无法对这种需求提供支持,表现在:1)情感或观点很难简单地用关键词来表示和索引,2)信息检索领域的排序策略也不适合观点。
进入本世纪以来,关于情感分析的研究逐渐增多。目前较为有效的情感分析算法是通过机器学习的方法进行words-bag算法的分析,最后产生一个情感分类器进行自然语言的情感分析。但是这种方法忽视了自然语言中词汇之间的相关联系,以及语句中各部分语法上的不同作用。这些特性往往会很大地影响自然语言的分析结果。另外句法分析中各词汇的词性也会影响情感分析的结果,但是这部分特性同样没有很好地加入到已有的算法中。
发明内容
针对现有技术的缺陷或改进需求,本发明提供了一种基于自然语言句法分析树的机器学习情感分类器,其目的在于,通过生成语句的句法结构分析树并对其进行分析,解决现有情感分析技术中所不能反映的词汇以及语法结构之间的关系,和各词汇词性的特性的问题。
本发明的技术方案是,一种基于自然语言句法分析树的机器学习情感分析器,包括句法分析模块和机器学习模块,
句法分析模块包括CRF模型分析器(用于语法树的学习)、LALR语法分析器(用于对语法进行词法分析)、特征分析器和语法树生产器,其中,特征分析器还包括词性分析模块、语法成分分析模块和词法依赖分析模块,分别对词性,语法成分和词法依赖三个部分进行分析。
机器学习模块包括机器学习模型和机器学习情感结果融合模块。
包括以下分析步骤:
A1,接受用户的自然语言文本输入;
A2,对自然语言文本进行基于CRF(Conditional random fields,条件随机场)和LALR(Look-AheadLR)语法分析范式的句法分析,得到句子的句法分析树,句法分析树以树的方式展现句子的语法结构,并且包含了各词汇的词性,同时,还会生成句子中词汇之间的依赖关系,此依赖关系包含了句子词汇之间的逻辑性;
A3,针对目标文字,使用words-bag的方法构架文字的特征向量维度集合,该集合包含了目标文字中的所有词汇和步骤A2中所生成的所有依赖关系对;
A4,获取了步骤A3中的特征向量维度集合之后,对每一个维度计算其值,根据生成的句法分析树,获取每个词汇在句中的语法功能,并根据其功能获得一个值x;
A5,根据分析出的每个词汇的词性特征,根据规则赋予每个词汇一个值y;
A6,根据步骤A4和步骤A5的结果,将x+y设为每个特征向量维度上此词汇或语法结构组合的值;
A7,根据已有或者已构建的训练集(已知情感结果的自然文本集合),通过SVM(支持向量机),Bayes(朴素贝页斯),以及随机森林的机器学习算法构建出分类器模型M;
A8,使用步骤A7中的模型M对步骤A6中生成的特征向量进行分析,得到最后的情感分析分类结果。
在步骤A2中,句法分析树是通过以下的步骤实现的:
B1,通过已有或已构建的训练集(已知句法分析树结果的自然文本集合),使用CRF模型构建出最大似然的模型;
B2,使用LALR的分析范式,从左向右地对自然语言进行语法检查,并结合CRF中的转移概率,对各个词汇进行最大似然的语法功能的计算;
B3,通过朴素贝叶斯算法,在已有的训练集上构建关于词汇依赖关系的模型,并对输入的文本进行分析。
在步骤A3中,words-bag的方法是通过以下步骤实现的:
C1,提取出目标文本中的所有词汇,以及步骤A2中所生成的所有词汇依赖关系对,合并为一个集合C;
C2,对目标文本以及训练集中的所有文本,在集合C中每一项都进行步骤A4到步骤A6中的计算,获得每个文本自身的特征向量。
在步骤A4中,x的值产生规则如下:
D1,若此维度下词汇处于主句成分之中,则x=2;
D2,若此维度下词汇处于任何从句成分之中,则x=1;
在步骤A5中,y的值产生规则如下:
E1,若此维度下词汇的词性特性为动词,则y=3;
E2,若此维度下词汇的词性特性为形容词与副词,则y=2;
E3,若此维度下词汇的词性特性为其他,则y=1。
在步骤A5中,对于依赖词汇对的词汇特性判断为:按照动词>形容词/副词>名词的词汇等级顺序,取依赖词汇对中等级较高的词汇的等级为此以来词汇对的等级。
在步骤A7中,Bayes的训练方法如下:
其中c表示需要目标的情感类型,d表示当前分类对象的情感语义特征,公式(1)又可简化为:
即,目标情感类型c的概率等于其语法特征f在所有已知情感c中的比例之乘积,将正负面结果计算之后再进行比较即可得到最后的情感类型。
在步骤A7中,随机森林的训练和使用方法如下:
F1,给定训练集合S,测试集合T,特征维数F,
训练参数的确定:使用到的CART树数量t,每棵CART树的深度d,每个节点所使用到的特征数量f,
训练终止条件确定:节点上得到最少的样本数s,节点上得到最少的信息增益m,
对于每一棵计算中的树i:
F2,从训练集合S中有返回地抽取大小和S一样的训练集合,作为根节点的训练样本,并且从根节点开始训练;
F3,若在当前节点上达到预设好的训练终止条件,则设置当前节点为叶子节点,若再当前节点上并没有达到终止条件,则从F维特征中无放回地随机选取f维特征,并且利用这f维特征,寻找分类效果最好的一维特征k及其阈值th,
之后对余下的样本进行划分,在当前节点上样本第k维特征小于th的样本会被划分到左节点,而其余的则被划分到右节点。之后继续训练其他节点;
F4,重复步骤F2,F3直到所有节点都被训练过或者被标记为叶子节;
F5,重复步骤F2,F3,F4直到所有的CART树都被训练过,
随机森林的预测过程如下所示:
对于树i:
F6,从当前树的根节点开始,根据当前节点的阈值th进行判断。若目标样本在当前节点的值小于th,则进入左节点,
若目标样本在当前节点的值大于th,则进入右节点,
重复此判定直到到达某个叶子节点,并输出预测值;
F7,重复执行步骤F6直到所有CART树都输出了预测值,
若目标问题为分类问题,则目标类别为所有树中预测概率总和最大的类别,
若目标问题为回归问题,则输出为所有CART树的输出平均值。
本发明的基于自然语言句法分析树的机器学习情感分析器与现有技术相比,具有如下优点:
本发明构建的自然语言语法分析器能够通过查看全局的自然语言信息量,判断出局部的自然语言特征以及依赖关系,而不是只是依靠当前判断词汇前后的特征来判断。而本发明构建的机器学习情感分析器能够通过语法分析器中分析出的情感特质,进行提取和筛选,选择出对于情感分析机器学习有价值的特征来进行学习,达到良好的效果。
附图说明
图1本发明的基于自然语言句法分析树的机器学习情感分析器的架构图。
图2本发明的基于自然语言句法分析树的机器学习情感分析器的主要流程图。
图3本发明中涉及的句法分析树的实现流程。
图4本发明中涉及的随机森林模型训练过程。
具体实施方式
本发明的情感分析器主要包括两部分,自然语言的句法分析以及基于语法特征的机器学习。
其中,自然语言的句法分析是针对自然语言的的各种知识,构建出一个自然语言的语法分析器,能够提取出自然语言中的文本词性,文本语法特征,以及文本依赖。在本系统中,使用CRF(Conditional random fields:条件随机场)的方法,比起目前通用的HMM(Hidden Markov Model:隐马尔可夫模型),CRF能够实现当前词汇与全局信息的关联,而不是只局限于部分信息的语法分析匹配,这样极大的增加了语法分析器的分析能力。
基于语法特征的机器学习是使用句法分析器中提取出的句法特征,来进行机器学习的方法。首先句法分析器提取出的若干句法特征需要进行过滤,方能良好的在机器学习模型中使用。并非所有的句法特征都适用于情感分析器,也并非所有的句法特征都能达到良好的效果。之后需要对提取出的句法特征进行分类,比如词性上的分类:动词,形容词,名词等。以及句法作用上的分类:主语,谓语,宾语等。最后语法依赖上的分类:之前各分类词汇之间的依赖关系。本发明的主要架构如附图1所示。
为实现上述目的,本发明提供了基于自然语言句法分析树的机器学习情感分类器,包含以下步骤,如附图2所示:
(1)接受用户的自然语言文本输入;
(2)对自然语言文本进行基于CRF(Conditional random fields:条件随机场)和LALR(Look-AheadLR)语法分析范式的句法分析,得到句子的句法分析树。句法分析树以树的方式展现句子的语法结构,并且包含了各词汇的词性。另外,还会生成句子中词汇之间的依赖关系,此依赖关系包含了句子词汇之间的逻辑性。
(3)针对目标文字,使用words-bag的方法构架文字的特征向量维度集合。这个集合包含了1)目标文字中的所有词汇2)步骤(2)中所生成的所有依赖关系对。
(4)获取了上一个步骤中的特征向量维度集合之后,开始对每一个维度计算其值。首先根据生成的句法分析树,获取每个词汇在句中的语法功能,并根据其功能获得一个值x。
(5)根据分析出的每个词汇的词性特征,根据规则赋予每个词汇一个值y。
(6)根据步骤(4)和步骤(5)的结果,将x+y设为每个特征向量维度上此词汇或语法结构组合的值。
(7)根据已有或者已构建的训练集(已知情感结果的自然文本集合),通过SVM,Bayes,以及Random Forest的机器学习算法构建出分类器模型M。
(8)使用步骤(7)中的模型M对步骤(6)中生成的特征向量进行分析,得到最后的情感分析分类结果。
在步骤(2)中,句法分析树是通过以下的步骤实现的,如附图3所示:
(2-1)通过已有或已构建的训练集(已知句法分析树结果的自然文本集合),使用CRF模型构建出最大似然的模型。
(2-2)使用LALR的分析范式,从左向右地对自然语言进行语法检查,并结合CRF中的转移概率,对各个词汇进行最大似然的语法功能的计算。
(2-3)通过朴素贝叶斯算法,在已有的训练集上构建关于词汇依赖关系的模型,并对输入的文本进行分析。
在步骤(3)中,words-bag的方法是通过以下步骤实现的:
(3-1)提取出目标文本中的所有词汇,以及步骤(2)中所生成的所有词汇依赖关系对,合并为一个集合C。
(3-2)对目标文本以及训练集中的所有文本,在集合C中每一项都进行步骤(4)到步骤(6)中的计算,获得每个文本自身的特征向量。
在步骤(4)中,x的值得产生规则如下:
(4-1)若此维度下词汇处于主句成分之中,则x=2。
(4-2)若此维度下词汇处于任何从句成分之中,则x=1。
在步骤(5)中,y的值得产生规则如下:
(5-1)若此维度下词汇的词性特性为动词,则y=3。
(5-2)若此维度下词汇的词性特性为形容词与副词,则y=2。
(5-3)若此维度下词汇的词性特性为其他,则y=1。
另外,在步骤(5)中,对于依赖词汇对的词汇特性判断为:按照动词>形容词/副词>名词的词汇等级顺序,取依赖词汇对中等级较高的词汇的等级为此以来词汇对的等级。
在步骤(7)中,Bayes的训练方法如下所示:
其中c表示需要目标的情感类型,d表示当前分类对象的情感语义特征。根据本发明中的情况此公式又可简化为:
即,本发明中的目标情感类型c的概率等于其语法特征f在所有已知情感c中的比例之乘积。将正负面结果计算之后再进行比较即可得到最后的情感类型。
在步骤(7)中,RandomForest的训练和使用方法如下所示:
随机森林的训练过程如下以及附图4所示:
(7-1)给定训练集合S,测试集合T,特征维数F。训练参数确定:使用到的CART树数量t,每棵CART树的深度d,每个节点所使用到的特征数量f。训练终止条件确定:节点上得到最少的样本数s,节点上得到最少的信息增益m。
对于每一棵计算中的树i:
(7-2)从训练集合S中有返回地抽取大小和S一样的训练集合,作为根节点的训练样本,并且从根节点开始训练。
(7-3)若在当前节点上达到预设好的训练终止条件,则设置当前节点为叶子节点。若再当前节点上并没有达到终止条件,则从F维特征中无放回地随机选取f维特征,并且利用这f维特征,寻找分类效果最好的一维特征k及其阈值th。之后对余下的样本进行划分,在当前节点上样本第k维特征小于th的样本会被划分到左节点,而其余的则被划分到右节点。之后继续训练其他节点。
(7-4)重复步骤7-2,7-3直到所有节点都被训练过或者被标记为叶子节。
(7-5)重复步骤7-2,7-3,7-4直到所有的CART树都被训练过。
随机森林的预测过程如下所示:
对于树i:
(7-6)从当前树的根节点开始,根据当前节点的阈值th进行判断。若目标样本在当前节点的值小于th,则进入左节点。若目标样本在当前节点的值大于th,则进入右节点。重复此判定直到到达某个叶子节点,并输出预测值。
(7-7)重复执行步骤7-6直到所有CART树都输出了预测值。若目标问题为分类问题,则目标类别为所有树中预测概率总和最大的类别。若目标问题为回归问题,则输出为所有CART树的输出平均值。

Claims (7)

1.一种基于自然语言句法分析树的机器学习情感分析器,分析器包括句法分析模块和机器学习模块,
句法分析模块包括CRF模型分析器、LALR语法分析器、特征分析器和语法树生产器,
其中,CRF模型分析器用于语法树的学习,
LALR语法分析器用于对语法进行词法分析,
特征分析器还包括词性分析模块、语法成分分析模块和词法依赖分析模块,分别对词性,语法成分和词法依赖三个部分进行分析,
机器学习模块包括机器学习模型和机器学习情感结果融合模块,
其特征在于,分析器的分析过程包括以下分析步骤:
A1,接受用户的自然语言文本输入;
A2,对自然语言文本进行基于CRF(Conditional random fields,条件随机场)和LALR(Look-AheadLR)语法分析范式的句法分析,得到句子的句法分析树,句法分析树以树的方式展现句子的语法结构,并且包含了各词汇的词性,同时,还会生成句子中词汇之间的依赖关系,此依赖关系包含了句子词汇之间的逻辑性;
A3,针对目标文字,使用words-bag的方法构架文字的特征向量维度集合,该集合包含了目标文字中的所有词汇和步骤A2中所生成的所有依赖关系对;
A4,获取了步骤A3中的特征向量维度集合之后,对每一个维度计算其值,根据生成的句法分析树,获取每个词汇在句中的语法功能,并根据其功能获得一个值x;
A5,根据分析出的每个词汇的词性特征,根据规则赋予每个词汇一个值y;
A6,根据步骤A4和步骤A5的结果,将x+y设为每个特征向量维度上此词汇或语法结构组合的值;
A7,根据已知情感结果的自然文本集合,通过支持向量机SVM、朴素贝叶斯、以及随机森林的机器学习算法构建出分类器模型M;
A8,使用步骤A7中的模型M对步骤A6中生成的特征向量进行分析,得到最后的情感分析分类结果。
2.如权利要求1所述的基于自然语言句法分析树的机器学习情感分析器,其特征在于,在步骤A2中,句法分析树是通过以下的步骤实现的:
B1,通过已知句法分析树结果的自然文本集合,使用CRF模型构建出最大似然的模型;
B2,使用LALR的分析范式,从左向右地对自然语言进行语法检查,并结合CRF中的转移概率,对各个词汇进行最大似然的语法功能的计算;
B3,通过朴素贝叶斯算法,在已有的训练集上构建关于词汇依赖关系的模型,并对输入的文本进行分析。
3.如权利要求1所述的基于自然语言句法分析树的机器学习情感分析器,其特征在于,在步骤A3中,words-bag的方法是通过以下步骤实现的:
C1,提取出目标文本中的所有词汇,以及步骤A2中所生成的所有词汇依赖关系对,合并为一个集合C;
C2,对目标文本以及训练集中的所有文本,在集合C中每一项都进行步骤A4到步骤A6中的计算,获得每个文本自身的特征向量。
4.如权利要求1所述的基于自然语言句法分析树的机器学习情感分析器,其特征在于,在步骤A4中,x的值产生规则如下:
D1,若此维度下词汇处于主句成分之中,则x=2;
D2,若此维度下词汇处于任何从句成分之中,则x=1;
在步骤A5中,y的值产生规则如下:
E1,若此维度下词汇的词性特性为动词,则y=3;
E2,若此维度下词汇的词性特性为形容词与副词,则y=2;
E3,若此维度下词汇的词性特性为其他,则y=1。
5.如权利要求1所述的基于自然语言句法分析树的机器学习情感分析器,其特征在于,在步骤A5中,对于依赖词汇对的词汇特性判断为:按照动词>形容词/副词>名词的词汇等级顺序,取依赖词汇对中等级较高的词汇的等级为此依赖词汇对的等级。
6.如权利要求1所述的基于自然语言句法分析树的机器学习情感分析器,其特征在于,在步骤A7中,Bayes的训练方法如下:
其中c表示需要目标的情感类型,d表示当前分类对象的情感语义特征,公式(1)又可简化为:
即,目标情感类型c的概率等于其语法特征f在所有已知情感c中的比例之乘积,将正负面结果计算之后再进行比较即可得到最后的情感类型。
7.如权利要求1所述的基于自然语言句法分析树的机器学习情感分析器,其特征在于,在步骤A7中,随机森林的训练和使用方法如下:
F1,给定训练集合S,测试集合T,特征维数F,
训练参数的确定:使用到的CART树数量t,每棵CART树的深度d,每个节点所使用到的特征数量f,
训练终止条件确定:节点上得到最少的样本数s,节点上得到最少的信息增益m,
对于每一棵计算中的树i:
F2,从训练集合S中有返回地抽取大小和S一样的训练集合,作为根节点的训练样本,并且从根节点开始训练;
F3,若在当前节点上达到预设好的训练终止条件,则设置当前节点为叶子节点,若再当前节点上并没有达到终止条件,则从F维特征中无放回地随机选取f维特征,并且利用这f维特征,寻找分类效果最好的一维特征k及其阈值th,
之后对余下的样本进行划分,在当前节点上样本第k维特征小于th的样本会被划分到左节点,而其余的则被划分到右节点,之后继续训练其他节点;
F4,重复步骤F2,F3直到所有节点都被训练过或者被标记为叶子节;
F5,重复步骤F2,F3,F4直到所有的CART树都被训练过,
随机森林的预测过程如下所示:
对于树i:
F6,从当前树的根节点开始,根据当前节点的阈值th进行判断,若目标样本在当前节点的值小于th,则进入左节点,
若目标样本在当前节点的值大于th,则进入右节点,
重复此判定直到到达某个叶子节点,并输出预测值;
F7,重复执行步骤F6直到所有CART树都输出了预测值,
若目标问题为分类问题,则目标类别为所有树中预测概率总和最大的类别,
若目标问题为回归问题,则输出为所有CART树的输出平均值。
CN201610653224.1A 2016-08-11 2016-08-11 一种基于自然语言句法分析树的机器学习情感分析器 Active CN106294324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610653224.1A CN106294324B (zh) 2016-08-11 2016-08-11 一种基于自然语言句法分析树的机器学习情感分析器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610653224.1A CN106294324B (zh) 2016-08-11 2016-08-11 一种基于自然语言句法分析树的机器学习情感分析器

Publications (2)

Publication Number Publication Date
CN106294324A CN106294324A (zh) 2017-01-04
CN106294324B true CN106294324B (zh) 2019-04-05

Family

ID=57668082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610653224.1A Active CN106294324B (zh) 2016-08-11 2016-08-11 一种基于自然语言句法分析树的机器学习情感分析器

Country Status (1)

Country Link
CN (1) CN106294324B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460044B2 (en) * 2017-05-26 2019-10-29 General Electric Company Methods and systems for translating natural language requirements to a semantic modeling language statement
CN107391684B (zh) * 2017-07-24 2020-12-11 深信服科技股份有限公司 一种威胁情报生成的方法及系统
US11301759B2 (en) * 2017-12-28 2022-04-12 National Taiwan University Detective method and system for activity-or-behavior model construction and automatic detection of the abnormal activities or behaviors of a subject system without requiring prior domain knowledge
CN108776820A (zh) * 2018-06-07 2018-11-09 中国矿业大学 一种利用宽度神经网络改进的随机森林集成方法
CN109189919B (zh) * 2018-07-27 2020-11-13 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质
CN111581953A (zh) * 2019-01-30 2020-08-25 武汉慧人信息科技有限公司 一种自动解析英文文本语法现象的方法
CN109840281A (zh) * 2019-02-27 2019-06-04 浪潮软件集团有限公司 一种基于随机森林算法的自学习智能判定方法
CN110209812B (zh) * 2019-05-07 2022-04-22 北京地平线机器人技术研发有限公司 文本分类方法和装置
EP3770760A1 (en) * 2019-07-23 2021-01-27 Siemens Aktiengesellschaft Prediction of resource consumption for functions
CN112115700B (zh) * 2020-08-19 2024-03-12 北京交通大学 一种基于依存句法树和深度学习的方面级情感分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及系统
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法
CN102411562A (zh) * 2010-09-21 2012-04-11 朱俭 一种基于语义块的情感特征生成算法
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104699695A (zh) * 2013-12-05 2015-06-10 中国科学院软件研究所 一种基于多特征语义树核的关系抽取方法和信息检索方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及系统
CN101593204A (zh) * 2009-06-05 2009-12-02 北京大学 一种基于新闻评论网页的情感倾向性分析系统
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法
CN102411562A (zh) * 2010-09-21 2012-04-11 朱俭 一种基于语义块的情感特征生成算法
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN104699695A (zh) * 2013-12-05 2015-06-10 中国科学院软件研究所 一种基于多特征语义树核的关系抽取方法和信息检索方法
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Dependency Tree-based Sentiment Classification using CRFs with Hidden Variables;Tetsuji Nakagawa 等;《Human Language Technologies》;20100630;786-794
Extracting Product Features and Opinions from Reviews;Ana-Maria Popescu,Oren Etzioni;《Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language》;20051031;339-346
Segment-based Fine-grained Emotion Detection for Chinese Text;Odbal,ZengfuWang;《Proceedings of the Third CIPS-SIGHAN Joint Conference on Chinese Language Processing》;20141021;52-60
Sentiment Classification Using Machine Learning Techniques with Syntax Features;Huang Zou 等;《Computational Science and Computational Intelligence》;20151209;第175页右栏第3段、178页第V节第1段
用户评论的质量检测与控制研究综述;林煜明 等;《软件学报》;20131128;第25卷(第3期);506-527

Also Published As

Publication number Publication date
CN106294324A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106294324B (zh) 一种基于自然语言句法分析树的机器学习情感分析器
CN105740228B (zh) 一种互联网舆情分析方法及系统
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN102789498B (zh) 基于集成学习的中文评论文本的情感分类方法与系统
TWI536364B (zh) 自動語音識別方法和系統
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107025299B (zh) 一种基于加权lda主题模型的金融舆情感知方法
CN106257455B (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN103034626A (zh) 情感分析系统及方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN103942191A (zh) 一种基于内容的恐怖文本识别方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN106681986A (zh) 一种多维度情感分析系统
Ashok et al. Sarcasm detection using genetic optimization on LSTM with CNN

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant