CN108197100A - 情感分析方法、装置、计算机可读存储介质及电子设备 - Google Patents
情感分析方法、装置、计算机可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN108197100A CN108197100A CN201711287858.0A CN201711287858A CN108197100A CN 108197100 A CN108197100 A CN 108197100A CN 201711287858 A CN201711287858 A CN 201711287858A CN 108197100 A CN108197100 A CN 108197100A
- Authority
- CN
- China
- Prior art keywords
- participle
- emotion word
- emotion
- relationship
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种情感分析方法、装置、计算机可读存储介质及电子设备,所述方法包括:获取待分析语料的第一分词集合;通过句法分析模型对所述第一分词集合进行句法分析,以获得所述第一分词集合中各个分词间的关系;根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词以及该情感词的对象;根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,其中,所述三维情感辞典包括情感词、情感词的对象及情感类型三者之间的对应关系。通过上述技术方案,可以准确地确定出同一情感词在对应不同对象时可能表示的不同情感类型,有效避免根据情感词进行单一判断的片面结果,有效提高情感分析的准确度。
Description
技术领域
本公开涉及情感分析领域,具体地,涉及一种情感分析方法、装置、计算机可读存储介质及电子设备。
背景技术
情感分析是对带有主观情感色彩的文本或文字进行分析、归类、整理、推理的一类分析。目前常用的情感分析方法主要分为以下两种:
(一)基于情感词匹配的方法。基于情感词匹配的方法一般需要情感辞典、否定辞典。情感辞典一般包含主观的情感,如“好”、“优秀”、“脏”等。否定辞典一般会将情感反转,如“不”、“非”、“无”、“没”等。然而通过情感词匹配的方法只是单纯对语料中出现的词语进行匹配,而不会考虑整段语料的语义信息,影响对该语料的情感分析的结果。如,对于同一词语而言,其可能有不同词性,例如,“这个电影真垃圾”中“垃圾”是表示负向的情感词,但是在“扔垃圾”中“垃圾”只是单纯的名词。又例如,同一词语在不同的语言环境下其含义不同,同一情感词和不同词语搭配可以表示不同的情感,如,“这个车的空间大”中的“大”可以认为是正向的情感,“这个车的油耗大”中的“大”可以认为是负向的情感。
(二)基于机器学习(深度学习)的方法。现在一般会使用word2vec进行词向量转换,后续再使用SVM、LSTM等方法进行分类。在该方法中,一般会先对语料进行预处理,如人为地将和情感无关的文本过滤掉,以防止这些文本在机器学习过程中造成的干扰。另外,在机器学习的过程中一般会针对不同领域进行不同学习训练,使得不同领域的模型难以共享。
发明内容
本公开的目的是提供一种使用范围广、准确率高的情感分析方法、装置、计算机可读存储介质及电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种情感分析方法,所述方法包括:
获取待分析语料的第一分词集合;
通过句法分析模型对所述第一分词集合进行句法分析,以获得所述第一分词集合中各个分词间的关系;
根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词以及该情感词的对象;
根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,其中,所述三维情感辞典包括情感词、情感词的对象及情感类型三者之间的对应关系。
可选地,所述根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词,包括:
将所述第一分词集合中的分词逐个与所述情感词库中的情感词进行匹配,并将匹配成功的分词确定为候选情感词;
当所述候选情感词为多个时,根据所述各个分词间的关系,确定所述第一分词集合中是否存在与候选情感词之间的关系为转折关系的转折分词;
若所述第一分词集合中存在与候选情感词之间的关系为转折关系的转折分词,则将与所述转折分词之间的关系为转折关系的至少一个候选情感词确定为所述待分析语料的情感词;
若所述第一分词集合中不存在与候选情感词之间的关系为转折关系的转折分词,则将所述多个候选情感词中的至少一者确定为所述待分析语料的情感词。
可选地,所述根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,包括;
根据所述情感词和所述对象查询三维情感辞典,获得与所述对象和所述情感词相对应的情感类型;
根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为否定关系的分词;
若不存在与所述情感词之间的关系为否定关系的分词,则将获得的所述情感类型确定为所述待分析语料的情感类型;
若存在与所述情感词之间的关系为否定关系的分词,则将获得的所述情感类型的反向情感类型确定为所述待分析语料的情感类型。
可选地,所述三维情感辞典通过如下方式建立:
获取多篇已标注情感类型的训练语料;
针对每篇所述训练语料,获取该训练语料的第二分词集合;
通过所述句法分析模型分别对每个所述第二分词集合进行句法分析,以获得每个所述第二分词集合中各个分词间的关系;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系以及所述预置的情感词库,确定该训练语料的情感词以及该情感词的对象;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系,确定是否存在与该训练语料的情感词之间的关系为否定关系的分词;
若不存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型三者之间的对应关系;
若存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型的反向情感类型三者之间的对应关系;
将所建立的对应关系存储在所述三维情感辞典中。
可选地,所述方法还包括:
根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为修饰关系的分词;
若存在与所述情感词之间的关系为修饰关系的分词,则根据该分词确定所述待分析语料的情感程度。
根据本公开的第二方面,提供一种情感分析装置,所述装置包括:
获取模块,用于获取待分析语料的第一分词集合;
句法分析模块,用于通过句法分析模型对所述第一分词集合进行句法分析,以获得所述第一分词集合中各个分词间的关系;
第一确定模块,用于根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词以及该情感词的对象;
查询模块,用于根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,其中,所述三维情感辞典包括情感词、情感词的对象及情感类型三者之间的对应关系。
可选地,所述第一确定模块包括:
匹配子模块,用于将所述第一分词集合中的分词逐个与所述情感词库中的情感词进行匹配,并将匹配成功的分词确定为候选情感词;
第一确定子模块,用于在所述候选情感词为多个时,根据所述各个分词间的关系,确定所述第一分词集合中是否存在与候选情感词之间的关系为转折关系的转折分词;
第二确定子模块,用于在所述第一分词集合中存在与候选情感词之间的关系为转折关系的转折分词时,将与所述转折分词之间的关系为转折关系的至少一个候选情感词确定为所述待分析语料的情感词;在所述第一分词集合中不存在与候选情感词之间的关系为转折关系的转折分词时,将所述多个候选情感词中的至少一者确定为所述待分析语料的情感词。
可选地,所述查询模块包括;
查询子模块,用于根据所述情感词和所述对象查询三维情感辞典,获得与所述对象和所述情感词相对应的情感类型;
第三确定子模块,用于根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为否定关系的分词;
第四确定子模块,用于在不存在与所述情感词之间的关系为否定关系的分词时,将获得的所述情感类型确定为所述待分析语料的情感类型;在存在与所述情感词之间的关系为否定关系的分词时,将获得的所述情感类型的反向情感类型确定为所述待分析语料的情感类型。
可选地,所述三维情感辞典通过如下方式建立:
获取多篇已标注情感类型的训练语料;
针对每篇所述训练语料,获取该训练语料的第二分词集合;
通过所述句法分析模型分别对每个所述第二分词集合进行句法分析,以获得每个所述第二分词集合中各个分词间的关系;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系以及所述预置的情感词库,确定该训练语料的情感词以及该情感词的对象;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系,确定是否存在与该训练语料的情感词之间的关系为否定关系的分词;
若不存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型三者之间的对应关系;
若存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型的反向情感类型三者之间的对应关系;
将所建立的对应关系存储在所述三维情感辞典中。
可选地,所述装置还包括:
第二确定模块,用于根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为修饰关系的分词;
第三确定模块,用于在存在与所述情感词之间的关系为修饰关系的分词时,根据该分词确定所述待分析语料的情感程度。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
第三方面所述的计算机可读存储介质;以及
一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
在上述技术方案中,在确定待分析语料的情感类型时,确定该待分析语料的各个分词间的关系,从而可以对同一词语在待分析语料中是否为情感词进行区分。在确定出该待分析语料的各个分词间的关系后,结合预置的情感词库,确定出待分析语料的情感词以及该情感词的对象,并将情感词的对象作为确定情感类型的依据,因此可以准确地确定出同一情感词在对应不同对象时可能表示的不同情感类型,有效避免根据情感词进行单一判断时的片面结果,有效提高情感分析的准确度。另外,三维情感辞典中可以包括各个领域下的情感词、情感词的对象及情感类型三者之间的对应关系,可以适用于多领域中语料的情感分析,适用范围广,通用性强,满足用户的使用需求。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的情感分析方法的流程图;
图2是句法分析的流程示意图;
图3是句法分析的结果示意图;
图4是根据情感词和对象查询三维情感辞典,以确定待分析语料的情感类型的一种示例实现方式的流程图;
图5是建立三维情感辞典的流程图;
图6是根据本公开的一种实施方式提供的情感分析装置的框图;
图7是根据本公开的一种实施方式提供的情感分析装置中查询模块的框图;
图8是根据一示例性实施例示出的一种电子设备的框图;
图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1所示,为根据本公开的一种实施方式提供的情感分析方法的流程图。如图1所示,所述方法包括:
在S11中,获取待分析语料的第一分词集合,其中,所述第一分词集合可以是通过分词系统对该待分析语料进行分词后所得的集合。
在S12中,通过句法分析模型对第一分词集合进行句法分析,以获得第一分词集合中各个分词间的关系。
在一实施例中,可以通过句法分析模型对该第一分词集合进行句法分析。示例地,该句法分析模型可以通过深度学习进行建模,并基于状态转移系统实现。其中,每个状态都由栈、缓存以及分析好的关系弧构成。初始状态下,栈中仅包含根结点ROOT,关系弧为空,第一分词集合中的所有分词全部处于缓存。
以下,以“我吃红苹果”为例进行说明,其具体移进与规约状态如图2所示。其中,“我吃红苹果”经过分词后,所获得的第一分词集合中的分词为“我”、“吃”、“红”、“苹果”,示例地,每个分词间可以以空格隔开。随着第一分词集合中的词语不断从左至右读入,状态转移系统中一个状态经过一个转移动作(Action)变为一个新的状态,转移动作共有移进(Shift)、左规约(Left-Reduce)、右规约(Right-Reduce)三种。其中,移进动作为将缓存中第一个分词压入栈中。在该实施例中,首先将分词“我”压入栈中,此时,栈中为“ROOT我”,缓存中为“吃红苹果”,此时栈中的分词并未满足规约条件。之后,将分词“吃”移进,此时,栈中为“ROOT我吃”,满足左规约条件,则执行左规约操作,即,在栈顶的两个分词之间产生一条左指向依存弧(“吃”指向“我”),同时将左指向的分词“我”移出栈内。相应地,满足右规约条件时,执行相应的右规约操作:在栈顶的两个分词之间产生一条右指向依存弧,同时将右指向的分词移出栈内。重复上述操作过程,直至栈中仅含有一个根节点、缓存为空时停止,此时恰好构成一颗完整的树,并完成对一个句子的句法分析,最终得出的句法关系如图3所示。其中,弧线表示关系弧,弧线上的文字表示关系弧的具体关系,可以采用国际通用标准的简称,如,“nsubj”表示名词性主语,即“吃”的主语是“我”;“dobj”表示直接宾语,即“吃”的宾语是“苹果”;“amod”表示形容词修饰语,表示“苹果”是被形容词“红”所修饰的。
另外,通过句法分析也可以确定同一词语在待分析语料中是否表示情感词。例如,在对“这个电影真垃圾”进行句法分析时,可以确定出“垃圾”与电影之间的关系是“nsubj”,则可以确定“垃圾”在语料“这个电影真垃圾”中为情感词。在对“扔垃圾”进行句法分析时,可以确定出“垃圾”与“扔”的关系是“dobj”,则可以确定“垃圾”在语料“扔垃圾”中不是情感词。
可选地,在通过深度学习对该句法分析模型进行建模时,可以将单词、词性和句法关系一并作为输入对该句法分析模型进行建模,可以对词性标签和句法关系标签进行相似性建模,从而可以有效提高句法分析的准确度。
在S13中,根据各个分词间的关系以及预置的情感词库,确定待分析语料的情感词以及该情感词的对象。
可选地,所述根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词的一种示例实现方式如下,包括:
将所述第一分词集合中的分词逐个与所述情感词库中的情感词进行匹配,并将匹配成功的分词确定为候选情感词。
其中,当所述候选情感词为一个时,将该候选情感词确定为待分析语料的情感词。
当所述候选情感词为多个时,根据所述各个分词间的关系,确定所述第一分词集合中是否存在与候选情感词之间的关系为转折关系的转折分词;
若所述第一分词集合中存在与候选情感词之间的关系为转折关系的转折分词,则将与所述转折分词之间的关系为转折关系的至少一个候选情感词确定为所述待分析语料的情感词;
若所述第一分词集合中不存在与候选情感词之间的关系为转折关系的转折分词,则将所述多个候选情感词中的至少一者确定为所述待分析语料的情感词。
在一实施例中,待分析语料为“这件衣服贵但是漂亮”。通过对该待分析语料进行分词及情感词匹配,确定该待分析语料中有“贵”、“漂亮”两个候选情感词。之后根据该待分析语料的各个分词间的关系,确定出候选情感词“漂亮”存在与之关系为转折关系的转折分词“但是”,此时,将候选情感词“漂亮”确定为待分析语料的情感词。
在另一实施例中,待分析语料为“这车的空间又大又宽敞”。通过对该待分析语料进行分词及情感词匹配,确定该待分析语料中有“大”、“宽敞”两个候选情感词。之后根据该待分析语料的各个分词间的关系,确定在该待分析语料中不存在与候选情感词之间的关系为转折关系的转折分词,将所述多个候选情感词中的至少一者确定为所述待分析语料的情感词。
在确定出待分析语料的情感词之后,可以通过如下方式确定待分析语料的情感词的对象:
根据各个分词间的关系,确定与该情感词的关系为“nsubj”的分词,并将该分词确定为该情感词的对象。
在S14中,根据情感词和对象查询三维情感辞典,以确定待分析语料的情感类型,其中,所述三维情感辞典包括情感词、情感词的对象及情感类型三者之间的对应关系。
可选地,图4所示为根据情感词和对象查询三维情感辞典,以确定待分析语料的情感类型的一种示例实现方式,如图4所示,包括;
在S41中,根据情感词和对象查询三维情感辞典,获得与对象和情感词相对应的情感类型;
在S42中,根据第一分词集合中各个分词间的关系,确定是否存在与情感词之间的关系为否定关系的分词,若不存在与情感词之间的关系为否定关系的分词,转入S43,反之,若存在与情感词之间的关系为否定关系的分词,转入S44;
在S43中,将获得的情感类型确定为待分析语料的情感类型;
在S44中,将获得的情感类型的反向情感类型确定为待分析语料的情感类型。
示例地,三维情感辞典中存在“空间-大-正向”、“噪声-大-负向”等记录。
在一实施例中,待分析语料为“这车的空间真大”。在对该待分析语料进行分析时,首先对该待分析语料进行分词得到第一分词集合,通过句法分析模型对该第一分词集合进行句法分析以获得第一分词集合中各个分词间的关系。根据预置的情感词库匹配确定该待分析语料的情感词为“大”,通过句法分析得出该情感词的对象为“空间”,根据情感词“大”和对象“空间”查询三维情感辞典,确定出对应的情感类型为“正向”。并且,在该待分析语料中不存在与情感词“大”之间的关系为否定关系的分词,此时,可以将情感类型“正向”确定为该待分析语料“这车的空间真大”的情感类型。
在另一实施例中,待分析语料为“这车的噪声不大”。在对该待分析语料进行分析时,首先对该待分析语料进行分词得到第一分词集合,通过句法分析模型对该第一分词集合进行句法分析以获得第一分词集合中各个分词间的关系。根据预置的情感词库匹配确定该待分析语料的情感词为“大”,通过句法分析得出该情感词的对象为“噪声”,根据情感词“大”和对象“噪声”查询三维情感辞典,确定出对应的情感类型为“负向”。并且,在该待分析语料中存在与情感词“大”之间的关系为否定关系的分词“不”,此时,可以将情感类型“负向”的反向情感类型“正向”确定为该待分析语料“这车的噪声不大”的情感类型。
在另一实施例中,待分析语料为“这车的空间又大又宽敞”,确定出的该待分析语料的情感词为“大”和“宽敞”,且根据句法关系确定出这两个情感词的对象都为“空间”,此时,可以基于这两个情感词逐一进行查询,例如,首先根据情感词“宽敞”和对象“空间”查询三维情感辞典,在三维情感辞典中没有相应的情感类型。此时,可以再根据情感词“大”和对象“空间”查询三维情感辞典,在三维情感辞典中存在相应的情感类型“正向”,则可以确定待分析语料“这车的空间又大又宽敞”的情感类型为“正向”。
另外,当在待分析语料中未匹配到情感词、或者在待分析语料中匹配到情感词但该情感词没有对应的对象、或者在待分析语料中成功匹配到情感词及情感词的对象但在三维情感辞典中没有对应的情感类型时,确定该待分析语料的情感未知。此时,可以通过人工来判断,并基于判断结果来扩展情感词库以及三维情感辞典,从而实现情感词库和三维情感辞典的维护与更新,使其更全面。
在上述技术方案中,在确定待分析语料的情感类型时,确定该待分析语料的各个分词间的关系,从而可以对同一词语在待分析语料中是否为情感词进行区分。在确定出该待分析语料的各个分词间的关系后,结合预置的情感词库,确定出待分析语料的情感词以及该情感词的对象,并将情感词的对象作为确定情感类型的依据,因此可以准确地确定出同一情感词在对应不同对象时可能表示的不同情感类型,有效避免根据情感词进行单一判断时的片面结果,有效提高情感分析的准确度。另外,三维情感辞典中可以包括各个领域下的情感词、情感词的对象及情感类型三者之间的对应关系,可以适用于多领域中语料的情感分析,适用范围广,通用性强,满足用户的使用需求。
可选地,所述方法还包括:
根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为修饰关系的分词;
若存在与所述情感词之间的关系为修饰关系的分词,则根据该分词确定所述待分析语料的情感程度。
示例地,可以根据情感程度辞典确定该分析语料的情感程度。例如,待分析语料为“这车的噪声太大”和“这车的噪声特别大”,其情感词为“大”,通过各个分词间的关系,确定存在与该情感词“大”之间的关系为修饰关系的分词分别为“太”和“特别”。在情感程度辞典中对应的情感程度等级由低到高依次为“太”、“非常”、“特别”。因此,对于待分析语料“这车的噪声太大”和“这车的噪声特别大”而言,则可以根据情感程度辞典确定出“这车的噪声特别大”所表示的负向情感的情感程度高于“这车的噪声太大”所表示的负向情感。另外,情感程度辞典中可以有各个修饰情感程度的分词对应的情感等级,等级越高,该分词对应的情感越强烈。示例地,“太”、“非常”、“特别”对应的等级分别为二级、三级、四级,因此,在对待分析语料“这车的噪声太大”进行情感分析时,可以确定出该待分析语料的情感类型为负向,在根据情感程度辞典进行匹配时,可以确定“太”对应的等级为二级,从而根据该等级可以确定待分析语料的情感程度。
通过上述技术方案,可以在确定待分析语料的情感类型的同时,确定出该待分析语料的情感程度,从而扩展情感分析结果的维度,满足用户更多的使用需求。
上文所述的三维情感辞典可以被预先构建。具体地,图5所示,为建立三维情感辞典的方法的流程图,如图5所示,该方法可以包括:
在S51中,获取多篇已标注情感类型的训练语料,其中,该训练语料可以是通过爬虫技术从互联网中抓取带有情感极性的语料,该语料可以是舆情类的新闻资料,也可以是互联网上用户的评论,如大众点评、淘宝、京东等网站中用户的评论。示例地,从好评中抓取的评论其对应的情感类型为“正向”,从差评中抓取的评论其对应的情感类型为“负向”,这样可以有效降低人工对训练语料进行标注的工作量。
在S52中,针对每篇训练语料,获取该训练语料的第二分词集合。
在S53中,通过句法分析模型分别对每个第二分词集合进行句法分析,以获得每个第二分词集合中各个分词间的关系。
在S54中,针对每篇训练语料,根据该训练语料的第二分词集合中各个分词间的关系以及预置的情感词库,确定该训练语料的情感词以及该情感词的对象。
其中,获取训练语料的分词集合及各个分词间的关系、确定训练语料的情感词及该情感词的对象与上文方式相同,在此不再赘述。
在S55中,针对每篇训练语料,根据该训练语料的第二分词集合中各个分词间的关系,确定是否存在与该训练语料的情感词之间的关系为否定关系的分词,若不存在与该训练语料的情感词之间的关系为否定关系的分词,转入S56,若存在与该训练语料的情感词之间的关系为否定关系的分词,转入S57。
在S56中,建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型三者之间的对应关系。
在S57中,建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型的反向情感类型三者之间的对应关系。
示例地,从好评中抓取的训练语料为“这件衣服不贵”,则该训练语料所标注的情感类型为“正向”。在确定训练语料的情感词为“贵”、该情感词的对象为“衣服”后,确定在该训练语料中存在与该情感词“贵”之间的关系为否定关系的分词“不”时,建立该训练语料的情感词“贵”、该情感词的对象“衣服”、以及该训练语料所标注的情感类型“正向”的反向情感类型“负向”三者之间的对应关系,即“衣服-贵-负向”的对应关系。
在S58中,将所建立的对应关系存储在三维情感辞典中。
可选地,在三维情感辞典建立之后,也可以通过人工进行确认,从而可以进一步提高三维情感辞典的准确度。
本公开还提供一种情感分析装置,如图6所示,所述装置10包括:
获取模块100,用于获取待分析语料的第一分词集合;
句法分析模块200,用于通过句法分析模型对所述第一分词集合进行句法分析,以获得所述第一分词集合中各个分词间的关系;
第一确定模块300,用于根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词以及该情感词的对象;
查询模块400,用于根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,其中,所述三维情感辞典包括情感词、情感词的对象及情感类型三者之间的对应关系。
可选地,所述第一确定模块300包括:
匹配子模块,用于将所述第一分词集合中的分词逐个与所述情感词库中的情感词进行匹配,并将匹配成功的分词确定为候选情感词;
第一确定子模块,用于在所述候选情感词为多个时,根据所述各个分词间的关系,确定所述第一分词集合中是否存在与候选情感词之间的关系为转折关系的转折分词;
第二确定子模块,用于在所述第一分词集合中存在与候选情感词之间的关系为转折关系的转折分词时,将与所述转折分词之间的关系为转折关系的至少一个候选情感词确定为所述待分析语料的情感词;在所述第一分词集合中不存在与候选情感词之间的关系为转折关系的转折分词时,将所述多个候选情感词中的至少一者确定为所述待分析语料的情感词。
可选地,如图7所示,所述查询模块400包括;
查询子模块401,用于根据所述情感词和所述对象查询三维情感辞典,获得与所述对象和所述情感词相对应的情感类型;
第三确定子模块402,用于根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为否定关系的分词;
第四确定子模块403,用于在不存在与所述情感词之间的关系为否定关系的分词时,将获得的所述情感类型确定为所述待分析语料的情感类型;在存在与所述情感词之间的关系为否定关系的分词时,将获得的所述情感类型的反向情感类型确定为所述待分析语料的情感类型。
可选地,所述三维情感辞典通过如下方式建立:
获取多篇已标注情感类型的训练语料;
针对每篇所述训练语料,获取该训练语料的第二分词集合;
通过所述句法分析模型分别对每个所述第二分词集合进行句法分析,以获得每个所述第二分词集合中各个分词间的关系;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系以及所述预置的情感词库,确定该训练语料的情感词以及该情感词的对象;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系,确定是否存在与该训练语料的情感词之间的关系为否定关系的分词;
若不存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型三者之间的对应关系;
若存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型的反向情感类型三者之间的对应关系;
将所建立的对应关系存储在所述三维情感辞典中。
可选地,所述装置10还包括:
第二确定模块,用于根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为修饰关系的分词;
第三确定模块,用于在存在与所述情感词之间的关系为修饰关系的分词时,根据该分词确定所述待分析语料的情感程度。
图8是根据一示例性实施例示出的一种电子设备800的框图。如图8所示,该电子设备800可以包括:处理器801,存储器802,多媒体组件803,输入/输出(I/O)接口804,以及通信组件805。
其中,处理器801用于控制该电子设备800的整体操作,以完成上述的情感分析方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该电子设备800的操作,这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该电子设备800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的情感分析方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器802,上述程序指令可由电子设备800的处理器801执行以完成上述的情感分析方法。
图9是根据一示例性实施例示出的一种电子设备900的框图。例如,电子设备900可以被提供为一服务器。参照图9,电子设备900包括处理器922,其数量可以为一个或多个,以及存储器932,用于存储可由处理器922执行的计算机程序。存储器932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器922可以被配置为执行该计算机程序,以执行上述的情感分析方法。
另外,电子设备900还可以包括电源组件926和通信组件950,该电源组件926可以被配置为执行电子设备900的电源管理,该通信组件950可以被配置为实现电子设备900的通信,例如,有线或无线通信。此外,该电子设备900还可以包括输入/输出(I/O)接口958。电子设备900可以操作基于存储在存储器932的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器932,上述程序指令可由电子设备900的处理器922执行以完成上述的情感分析方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种情感分析方法,其特征在于,所述方法包括:
获取待分析语料的第一分词集合;
通过句法分析模型对所述第一分词集合进行句法分析,以获得所述第一分词集合中各个分词间的关系;
根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词以及该情感词的对象;
根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,其中,所述三维情感辞典包括情感词、情感词的对象及情感类型三者之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词,包括:
将所述第一分词集合中的分词逐个与所述情感词库中的情感词进行匹配,并将匹配成功的分词确定为候选情感词;
当所述候选情感词为多个时,根据所述各个分词间的关系,确定所述第一分词集合中是否存在与候选情感词之间的关系为转折关系的转折分词;
若所述第一分词集合中存在与候选情感词之间的关系为转折关系的转折分词,则将与所述转折分词之间的关系为转折关系的至少一个候选情感词确定为所述待分析语料的情感词;
若所述第一分词集合中不存在与候选情感词之间的关系为转折关系的转折分词,则将所述多个候选情感词中的至少一者确定为所述待分析语料的情感词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,包括;
根据所述情感词和所述对象查询三维情感辞典,获得与所述对象和所述情感词相对应的情感类型;
根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为否定关系的分词;
若不存在与所述情感词之间的关系为否定关系的分词,则将获得的所述情感类型确定为所述待分析语料的情感类型;
若存在与所述情感词之间的关系为否定关系的分词,则将获得的所述情感类型的反向情感类型确定为所述待分析语料的情感类型。
4.根据权利要求1所述的方法,其特征在于,所述三维情感辞典通过如下方式建立:
获取多篇已标注情感类型的训练语料;
针对每篇所述训练语料,获取该训练语料的第二分词集合;
通过所述句法分析模型分别对每个所述第二分词集合进行句法分析,以获得每个所述第二分词集合中各个分词间的关系;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系以及所述预置的情感词库,确定该训练语料的情感词以及该情感词的对象;
针对每篇所述训练语料,根据该训练语料的第二分词集合中各个分词间的关系,确定是否存在与该训练语料的情感词之间的关系为否定关系的分词;
若不存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型三者之间的对应关系;
若存在与该训练语料的情感词之间的关系为否定关系的分词,则建立该训练语料的情感词、该情感词的对象、以及该训练语料所标注的情感类型的反向情感类型三者之间的对应关系;
将所建立的对应关系存储在所述三维情感辞典中。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为修饰关系的分词;
若存在与所述情感词之间的关系为修饰关系的分词,则根据该分词确定所述待分析语料的情感程度。
6.一种情感分析装置,其特征在于,所述装置包括:
获取模块,用于获取待分析语料的第一分词集合;
句法分析模块,用于通过句法分析模型对所述第一分词集合进行句法分析,以获得所述第一分词集合中各个分词间的关系;
第一确定模块,用于根据所述各个分词间的关系以及预置的情感词库,确定所述待分析语料的情感词以及该情感词的对象;
查询模块,用于根据所述情感词和所述对象查询三维情感辞典,以确定所述待分析语料的情感类型,其中,所述三维情感辞典包括情感词、情感词的对象及情感类型三者之间的对应关系。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:
匹配子模块,用于将所述第一分词集合中的分词逐个与所述情感词库中的情感词进行匹配,并将匹配成功的分词确定为候选情感词;
第一确定子模块,用于在所述候选情感词为多个时,根据所述各个分词间的关系,确定所述第一分词集合中是否存在与候选情感词之间的关系为转折关系的转折分词;
第二确定子模块,用于在所述第一分词集合中存在与候选情感词之间的关系为转折关系的转折分词时,将与所述转折分词之间的关系为转折关系的至少一个候选情感词确定为所述待分析语料的情感词;在所述第一分词集合中不存在与候选情感词之间的关系为转折关系的转折分词时,将所述多个候选情感词中的至少一者确定为所述待分析语料的情感词。
8.根据权利要求6所述的装置,其特征在于,所述查询模块包括;
查询子模块,用于根据所述情感词和所述对象查询三维情感辞典,获得与所述对象和所述情感词相对应的情感类型;
第三确定子模块,用于根据所述第一分词集合中各个分词间的关系,确定是否存在与所述情感词之间的关系为否定关系的分词;
第四确定子模块,用于在不存在与所述情感词之间的关系为否定关系的分词时,将获得的所述情感类型确定为所述待分析语料的情感类型;在存在与所述情感词之间的关系为否定关系的分词时,将获得的所述情感类型的反向情感类型确定为所述待分析语料的情感类型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
权利要求9中所述的计算机可读存储介质;以及
一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287858.0A CN108197100B (zh) | 2017-12-07 | 2017-12-07 | 情感分析方法、装置、计算机可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287858.0A CN108197100B (zh) | 2017-12-07 | 2017-12-07 | 情感分析方法、装置、计算机可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197100A true CN108197100A (zh) | 2018-06-22 |
CN108197100B CN108197100B (zh) | 2021-09-24 |
Family
ID=62574024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711287858.0A Active CN108197100B (zh) | 2017-12-07 | 2017-12-07 | 情感分析方法、装置、计算机可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197100B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036554A (zh) * | 2018-08-07 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN112417256A (zh) * | 2020-10-20 | 2021-02-26 | 中国环境科学研究院 | 一种基于互联网的自然保护地认知评价系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901230A (zh) * | 2009-05-31 | 2010-12-01 | 国际商业机器公司 | 信息检索方法和用户评论处理方法及其系统 |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
US20150331937A1 (en) * | 2007-10-29 | 2015-11-19 | Cornell University | System and method for automatically summarizing fine-grained opinions in digital text |
CN106469145A (zh) * | 2016-09-30 | 2017-03-01 | 中科鼎富(北京)科技发展有限公司 | 文本情感分析方法及装置 |
-
2017
- 2017-12-07 CN CN201711287858.0A patent/CN108197100B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150331937A1 (en) * | 2007-10-29 | 2015-11-19 | Cornell University | System and method for automatically summarizing fine-grained opinions in digital text |
CN101901230A (zh) * | 2009-05-31 | 2010-12-01 | 国际商业机器公司 | 信息检索方法和用户评论处理方法及其系统 |
CN102866989A (zh) * | 2012-08-30 | 2013-01-09 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN106469145A (zh) * | 2016-09-30 | 2017-03-01 | 中科鼎富(北京)科技发展有限公司 | 文本情感分析方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036554A (zh) * | 2018-08-07 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109036554B (zh) * | 2018-08-07 | 2020-02-14 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN112417256A (zh) * | 2020-10-20 | 2021-02-26 | 中国环境科学研究院 | 一种基于互联网的自然保护地认知评价系统及方法 |
CN112417256B (zh) * | 2020-10-20 | 2024-05-24 | 中国环境科学研究院 | 一种基于互联网的自然保护地认知评价系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108197100B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Rlprompt: Optimizing discrete text prompts with reinforcement learning | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
US10565244B2 (en) | System and method for text categorization and sentiment analysis | |
CN106328147B (zh) | 语音识别方法和装置 | |
TWI754033B (zh) | 關注點文案的生成 | |
US20190371299A1 (en) | Question Answering Method and Apparatus | |
CN110209897B (zh) | 智能对话方法、装置、存储介质及设备 | |
Hitesh et al. | Real-time sentiment analysis of 2019 election tweets using word2vec and random forest model | |
CN109992781B (zh) | 文本特征的处理方法、装置和存储介质 | |
US10902209B2 (en) | Method for content search and electronic device therefor | |
CN109635080A (zh) | 应答策略生成方法及装置 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
KR20190000587A (ko) | 딥러닝 신경망회로에 의한 번역알고리즘을 구비한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램 및 사용자 장치 | |
CN113392641A (zh) | 文本处理方法、装置、存储介质和设备 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN106997339A (zh) | 文本特征提取方法、文本分类方法及装置 | |
Wohlgenannt et al. | Extracting social networks from literary text with word embedding tools | |
WO2020172649A1 (en) | System and method for text categorization and sentiment analysis | |
CN115114395A (zh) | 内容检索及模型训练方法、装置、电子设备和存储介质 | |
CN107562729B (zh) | 基于神经网络和主题强化的党建文本表示方法 | |
CN110750998A (zh) | 一种文本输出方法、装置、计算机设备和存储介质 | |
CN108197100A (zh) | 情感分析方法、装置、计算机可读存储介质及电子设备 | |
CN109472032A (zh) | 一种实体关系图的确定方法、装置、服务器及存储介质 | |
CN111581347B (zh) | 语句相似度匹配方法及装置 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |