CN103473356B - 一种篇章级情感分类方法及装置 - Google Patents
一种篇章级情感分类方法及装置 Download PDFInfo
- Publication number
- CN103473356B CN103473356B CN201310444957.0A CN201310444957A CN103473356B CN 103473356 B CN103473356 B CN 103473356B CN 201310444957 A CN201310444957 A CN 201310444957A CN 103473356 B CN103473356 B CN 103473356B
- Authority
- CN
- China
- Prior art keywords
- text
- polarity
- sentence
- level
- level text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种篇章级情感分类方法,通过收集篇章级文本和已标注极性的句子级文本,确定已标注极性的句子级文本为已分类句子级文本,从篇章级文本中的子句中获取与已分类句子级文本极性相同的待分类子句,以对篇章级文本的极性进行标注。相比于直接对篇章级文本进行人工标注所需时间短,因此减少了人工的劳动时间,节约了人力,且缩短了训练过程的时间,提高了对待分类文本进行分类的效率。在本申请中得到篇章级基分类单元和句子级基分类单元两种分类单元,分别对待分类文本进行分类,并将分类后的结果进行相加,得到最终分类结果。由于使用了两种分类单元对待分类文本进行分类,提高了分类结果的准确率。
Description
技术领域
本申请涉及自然语言处理技术领域及模式识别领域,特别涉及一种篇章级情感分类方法及装置。
背景技术
随着互联网的快速发展,互联网所倡导“以用户为中心,用户参与”的开放式构架理念,使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变。因此,互联网(如博客和论坛)上产生了大量用户参与的、对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了用户的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。用户可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。越来越多的用户乐于在互联网上分享自己的观点或体验,导致评论信息量迅速增加,仅靠人工的方法难以应付网上海量信息的收集和处理,因此文本情感分析技术应运而生。
文本情感分析技术利用计算机快速获取和整理相关评价信息,其可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理。
情感分类是文本情感分析技术的一项子任务,其利用底层情感信息抽取的结果将情感文本分为若干情感类别,如分为褒贬两类情感类别,其中,褒类情感类别对应的文本为正面文本,贬类情感类别对应的文本为负面文本。
目前,对篇章级文本进行分类的方法主要采用基于机器学习的监督分类方法。基于机器学习的监督分类方法包括训练分类器过程和使用分类器对待分类文本进行分类过程。其中,在训练分类器过程中,需要人工标注大量篇章级正面文本和篇章级负面文本作为训练样本。由于人工标注大量篇章级正面文本和篇章级负面文本需要很长时间,因此需要人工进行长时间劳动,极大的耗费了人力,且延长了训练过程的时间,从而降低了对待分类文本进行分类的效率。且训练得到的分类器只有一种,导致使用分类器对待分类文本进行分类的结果的准确率较低。
由上可见,目前对篇章级文本进行分类的方法存在耗费人力、效率低且分类结果的准确性存在较大误差的缺点。
发明内容
为解决上述技术问题,本申请实施例提供一种篇章级情感分类方法及装置,以达到节约人力,且缩短训练过程的时间,提高对待分类文本进行分类的效率,及提高分类结果的准确率的目的,技术方案如下:
一种篇章级情感分类方法,包括:
收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本;
拆分所述篇章级文本,获取所述篇章级文本中的子句;
从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负;
将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1;
分别将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元;
分别使用所述篇章级基分类单元和所述句子级基分类单元对待分类文本进行分类,得到第一分类结果和第二分类结果,其中所述第一分类结果包括:第一正概率和第一负概率;所述第二分类结果包括:第二正概率和第二负概率;
依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
优选的,所述从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句的过程,包括:
使用公式计算所述篇章级文本中的子句与所述已分类句子级文本之间的余弦相似度;其中,所述cosθ为余弦相似度,W1k为篇章级文本中的子句中的第k特征值的权值,W2k为已分类句子级文本中第k个特征值的权值,为求和函数;
使用基于动态规划的编辑距离算法计算所述篇章级文本中的子句与所述已分类句子级文本之间的编辑距离;
确定所述余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句与所述待分类句子级文本相似,将余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句作为待分类子句;
获取所述待分类子句。
优选的,所述依据所述篇章级文本的极性值确定所述篇章级文本的极性包括:
判断所述篇章级文本的极性值是否为零;
若是,确定所述篇章级文本不具有极性;
若否,确定所述篇章级文本具有极性;
判断所述篇章级文本的极性值是否大于零;
若是,确定所述篇章级文本的极性为正;
若否,确定所述篇章级文本的极性为负。
优选的,所述分别将将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类器和句子级基分类器的过程,包括:
使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类器,其中,所述正篇章级文本和所述负篇章级文本数量相等;
从所述已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类器,其中所述正已分类句子级文本和所述负已分类句子级文本数量相等。
优选的,依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性包括:
对所述第一正概率和第二正概率进行加运算,得到待分类正概率;
对所述第一负概率和第二幅概率进行加运算,得到待分类负概率;
比较所述待分类正概率和所述待分类负概率的大小;
在所述待分类正概率大于所述待分类负概率的情况下,确定所述待分类文本的极性为正;
在所述待分类负概率大于所述待分类正概率的情况下,确定所述待分类文本的极性为负。
一种篇章级情感分类装置,包括:
收集单元,用于收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本;
拆分单元,用于拆分所述篇章级文本,获取所述篇章级文本中的子句;
第一获取单元,用于从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负;
第一确定单元,用于将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1;
第一训练单元,用于分别将将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元;
篇章级基分类单元,用于对待分类文本进行分类,得到第一分类结果,所述第一分类结果包括:第一正概率和第一负概率;
句子级基分类单元,用于对待分类文本进行分类,得到第二分类结果,所述第二分类结果包括:第二正概率和第二负概率;
第二确定单元,用于依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
优选的,所述第一获取单元包括:
第一计算单元,用于使用公式计算所述篇章级文本中的子句与所述已分类句子级文本之间的余弦相似度;其中,所述cosθ为余弦相似度,W1k为篇章级文本中的子句中的第k特征值的权值,W2k为已分类句子级文本中第k个特征值的权值,为求和函数;
第二计算单元,用于使用基于动态规划的编辑距离算法计算所述篇章级文本中的子句与所述已分类句子级文本之间的编辑距离;
第三确定单元,用于确定所述余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句与所述待分类句子级文本相似,将余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句作为待分类子句;
第二获取单元,用于获取所述待分类子句。
优选的,所述第一确定单元包括:
第一判断单元,用于判断所述篇章级文本的极性值是否为零,若是,执行第四确定单元,若否,执行第五确定单元;
第四确定单元,用于确定所述篇章级文本不具有极性;
第五确定单元,用于确定所述篇章级文本具有极性,并执行第二判断单元;
第二判断单元,用于判断所述篇章级文本的极性值是否大于零,若是,执行第六确定单元,若否,执行第七确定单元;
第六确定单元,用于确定所述篇章级文本的极性为正;
第七确定单元,用于确定所述篇章级文本的极性为负。
优选的,所述第一训练单元包括:
第二训练单元,用于使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元,其中,所述正篇章级文本和所述负篇章级文本数量相等;
第三训练单元,用于从所述已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类单元,其中所述正已分类句子级文本和所述负已分类句子级文本数量相等。
优选的,所述第二确定单元包括:
第三计算单元,用于对所述第一正概率和第二正概率进行加运算,得到待分类正概率;
第四计算单元,用于对所述第一负概率和第二幅概率进行加运算,得到待分类负概率;
比较单元,用于比较所述待分类正概率和所述待分类负概率的大小,在所述待分类正概率大于所述待分类负概率的情况下,执行第八确定单元,在所述待分类负概率大于所述待分类正概率的情况下,执行第九确定单元;
第八确定单元,用于确定所述待分类文本的极性为正;
第九确定单元,用于确定所述待分类文本的极性为负。
与现有技术相比,本申请的有益效果为:
在本申请中,通过收集篇章级文本和已标注极性的句子级文本,确定已标注极性的句子级文本为已分类句子级文本,从篇章级文本中的子句中获取与已分类句子级文本极性相同的待分类子句,以对篇章级文本的极性进行标注。由于本申请对篇章级文本的极性进行标注是基于机器的,因此相比于直接对篇章级文本进行人工标注所需时间短,因此减少了人工的劳动时间,节约了人力,且缩短了训练过程的时间,提高了对待分类文本进行分类的效率。
在本申请中得到篇章级基分类单元和句子级基分类单元两种分类单元,分别对待分类文本进行分类,并将分类后的结果进行相加,得到最终分类结果。由于使用了两种分类单元对待分类文本进行分类,提高了分类结果的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种篇章级情感分类方法的一种流程图;
图2是本申请提供的一种篇章级情感分类方法的一种子流程图;
图3是本申请提供的一种篇章级情感分类方法的另一种子流程图;
图4是本申请提供的一种篇章级情感分类方法的再一种子流程图;
图5是本申请提供的一种篇章级情感分类装置的一种结构示意图;
图6是本申请提供的一种第一获取单元的一种结构示意图;
图7是本申请提供的一种第一确定单元的一种结构示意图;
图8是本申请提供的一种第二确定单元的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
一个实施例
请参见图1,其示出了本申请提供的一种篇章级情感分类方法的一种流程图,可以包括以下步骤:
步骤S11:收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本。
在本实例中,收集的篇章级文本的极性未知,收集的句子级文本的极性已知,并确定已标注极性的句子级文本为已分类句子级文本。
篇章级文本由多个未知极性的句子构成的。已标注极性的句子级文本为具有极性的一个句子。且已标注极性的句子级文本的极性为正或负。
步骤S12:拆分所述篇章级文本,获取所述篇章级文本中的子句。
在本实施例中,拆分篇章级文本时,将篇章级文本中的句号、感叹号、问号和省略号作为一个句子的结束,将篇章级文本拆分成多个子句,获取篇章级文本中的子句。
需要说明的是,若句号前后为都为数字则判定为小数,不作为单独一句。
步骤S13:从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负。
在本实施例中,基于机器,利用特定的算法从篇章级文本中的子句中,自动获取与已分类句子级文本的极性相似的待分类子句,在获取到与已分类句子级文本的极性相似的待分类子句后,将已分类句子级文本的极性作为待分类子句的极性。
其中,已分类句子级文本的极性包括正或负,待分类子句的极性与已分类句子级文本的极性对应,也包括正或负。
步骤S14:将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性。
在待分类子句的极性确定后,待分类子句会对应有极性值。其中,极性值在极性为正的情况下,为1,极性值在极性为负的情况下,为-1。因此,待分类子句的极性值包括1或-1。
依据篇章级文本的极性值可以确定篇章级文本的极性。
步骤S15:分别将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元。
在本实施例中,将具有极性的篇章级文本作为训练样本,训练最大熵分类器,得到篇章级基分类单元;将已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类单元。
其中,将具有极性的篇章级文本作为训练样本,训练最大熵分类器,得到篇章级基分类单元的具体过程可以为:使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元,其中,正篇章级文本和负篇章级文本数量相等。
将已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类单元的具体过程可以为:从已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类单元,其中正已分类句子级文本和负已分类句子级文本数量相等。
其中,在训练最大熵分类器时,可以利用公式依据预测条件概率公式来训练最大熵分类器,其中,fi()为二值特征函数,a分别为+1和-1,b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,λi为第i个特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,为对a为不同值时对应的数据进行求和的函数。
步骤S16:分别使用所述篇章级基分类单元和所述句子级基分类单元对待分类文本进行分类,得到第一分类结果和第二分类结果,其中所述第一分类结果包括:第一正概率和第一负概率;所述第二分类结果包括:第二正概率和第二负概率。
在本实施例中,篇章级基分类单元对待分类文本进行分类,得到的第一分类结果包括第一正概率和第一负概率。第一正概率即待分类文本的极性为正的概率,第一负概率即待分类文本极性为负的概率。
句子级基分类单元对待分类文本进行分类,得到的第二分类结果包括第二正概率和第二负概率。第二正概率为待分类文本极性为正的概率,第二负概率为待分类文本极性为负的概率。
步骤S17:依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
在本实施例中,依据篇章级基分类单元对待分类文本进行分类后得到的第一分类结果和句子级基分类单元对待分类文本进行分类后得到的第二分类结果,来确定待分类文本的极性。相比于仅依据篇章级基分类单元对待分类文本分类后得到的第一分类结果和句子级基分类单元对待分类文本进行分类后得到的第二分类结果中的其中一个分类结果,确定的待分类文本的极性更加准确。
在本申请中,通过收集篇章级文本和已标注极性的句子级文本,确定已标注极性的句子级文本为已分类句子级文本,从篇章级文本中的子句中获取与已分类句子级文本极性相同的待分类子句,以对篇章级文本的极性进行标注。由于本申请对篇章级文本的极性进行标注是基于机器的,因此相比于直接对篇章级文本进行人工标注所需时间短,因此减少了人工的劳动时间,节约了人力,且缩短了训练过程的时间,提高了对待分类文本进行分类的效率。
在本申请中得到篇章级基分类单元和句子级基分类单元两种分类单元,分别对待分类文本进行分类,并将分类后的结果进行相加,得到最终分类结果。由于使用了两种分类单元对待分类文本进行分类,提高了分类结果的准确率。
另一个实施例
在本实施例中,示出的是从所述篇章级文本中的子句中,获取与已分类句子级文本的极性相似的待分类子句的过程,请参见图2,图2示出的是本申请提供的一种篇章级情感分类方法的一种子流程图,可以包括以下步骤:
步骤S21:使用公式计算所述篇章级文本中的子句与所述已分类句子级文本之间的余弦相似度。
在本实施例中,cosθ为余弦相似度,W1k为篇章级文本中的子句中的第k特征值的权值,W2k为已分类句子级文本中第k个特征值的权值,为求和函数。
在本实施例中,需要计算篇章级文本中的每个子句与已分类句子级文本之间的余弦相似度。例如,篇章级文本包括三个子句,分别为a,b和c,已分类句子级文本包括已分类句子级文本A和已分类句子级文本B,则计算子句a与已分类句子级文本A之间的余弦相似度,计算子句b与已分类句子级文本A之间的余弦相似度,计算子句c与已分类句子级文本A之间的余弦相似度,计算子句a与已分类句子级文本B之间的余弦相似度,计算子句b与已分类句子级文本B之间的余弦相似度,计算子句c与已分类句子级文本B之间的余弦相似度。
在计算每个子句与已分类句子级文本之间的余弦相似度时,都是使用公式
步骤S22:使用基于动态规划的编辑距离算法计算所述篇章级文本中的子句与所述已分类句子级文本之间的编辑距离。
篇章级文本中的子句与已分类句子级文本之间的编辑距离指的是:篇章级文本中的子句转换成已分类句子级文本所需的最少编辑操作次数。其中,编辑操作包括将一个字符替换成另一个字符,插入一个字符和删除一个字符。
需要说明的是,若篇章级文本中的子句与已分类句子级文本之间的编辑距离越小,则从篇章级文本中的子句转换成已分类句子级文本的编辑操作次数越少,若篇章级文本中的子句与已分类句子级文本之间的编辑距离越大,则从篇章级文本中的子句转换成已分类句子级文本的编辑操作次数越多。
步骤S23:确定所述余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句与所述待分类句子级文本相似,将余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句作为待分类子句。
在本实施例中,在篇章级文本中的子句同时满足对应余弦相似度大于0.6和对应编辑距离小于12条件的情况下,篇章级文本中的子句与待分类句子级文本相似。
且将余弦相似度大于0.6且编辑距离小于12对应的篇章级文本中的子句作为待分类子句。
步骤S24:获取所述待分类子句。
再一个实施例
在本实施例中,示出的是依据所述篇章级文本的极性值确定所述篇章级文本的极性的具体过程,请参见图3,图3示出的是本申请提供的一种篇章级情感分类方法的另一种子流程图,可以包括以下步骤:
步骤S31:判断所述篇章级文本的极性值是否为零。
在判断结果为篇章级文本的极性值为零的情况下,执行步骤S31,在片段结果为篇章级文本的极性值不为零的情况下,执行步骤S33。
步骤S32:确定所述篇章级文本不具有极性。
步骤S33:确定所述篇章级文本具有极性。
步骤S34:判断所述篇章级文本的极性值是否大于零。
在本实施例中,由于已确定篇章级文本具有极性,因此篇章级文本在具有极性的情况下,极性值为非零的值。
在判断结果为篇章级文本的极性值大于零的情况下,执行步骤S35,在判断结果为篇章级文本的极性值不大于零的情况下,执行步骤S36。在本实施例中的篇章级文本的极性值不大于零即篇章级文本的极性值小于零。
步骤S35:确定所述篇章级文本的极性为正。
在篇章级文本的极性值大于零的情况下,篇章级文本的极性为正。
步骤S36:确定所述篇章级文本的极性为负。
在篇章级文本的极性值小于零的情况下,篇章级文本的极性为负。
再一个实施例
在本实施例中,示出的是依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性的具体过程,请参见图4,图4示出的是本申请提供的一种篇章级情感分类方法的再一种子流程图,可以包括以下步骤:
步骤S41:对所述第一正概率和第二正概率进行加运算,得到待分类正概率。
步骤S42:对所述第一负概率和第二幅概率进行加运算,得到待分类负概率。
步骤S43:比较所述待分类正概率和所述待分类负概率的大小。
在比较结果为待分类正概率大于待分类负概率的情况下,执行步骤S44,在比较结果为待分类负概率大于待分类正概率的情况下,执行步骤S45。
步骤S44:确定待分类文本的极性为正。
步骤S45:确定待分类文本的极性为负。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述方法实施例相对应,本申请提供了一种篇章级情感分类装置的一种结构示意图,请参见图5,篇章级情感分类装置包括:
收集单元51、拆分单元52、第一获取单元53、第一确定单元54、第一训练单元55、篇章级基分类单元56、句子级基分类单元57和第二确定单元58。其中:
收集单元51,用于收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本。
拆分单元52,用于拆分所述篇章级文本,获取所述篇章级文本中的子句。
第一获取单元53,用于从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负。
第一确定单元54,用于将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1。
第一训练单元55,用于分别将将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元56和句子级基分类单元57。
在本实施例中,第一训练单元55可以包括第二训练单元和第三训练单元,其中:
第二训练单元,用于使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元,其中,所述正篇章级文本和所述负篇章级文本数量相等。
第三训练单元,用于从所述已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类单元,其中所述正已分类句子级文本和所述负已分类句子级文本数量相等。
篇章级基分类单元56,用于对待分类文本进行分类,得到第一分类结果,所述第一分类结果包括:第一正概率和第一负概率。
句子级基分类单元57,用于对待分类文本进行分类,得到第二分类结果,所述第二分类结果包括:第二正概率和第二负概率。
第二确定单元58,用于依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
另一个实施例
在本实施例中,示出的是第一获取单元53的具体结构,可以参见图6,图6示出的是本申请提供的一种第一获取单元的一种结构示意图,第一获取单元53包括:第一计算单元61、第二计算单元62、第三确定单元63和第二获取单元64。
第一计算单元61,用于使用公式计算所述篇章级文本中的子句与所述已分类句子级文本之间的余弦相似度;其中,所述cosθ为余弦相似度,W1k为篇章级文本中的子句中的第k特征值的权值,W2k为已分类句子级文本中第k个特征值的权值,为求和函数。
第二计算单元62,用于使用基于动态规划的编辑距离算法计算所述篇章级文本中的子句与所述已分类句子级文本之间的编辑距离。
第三确定单元63,用于确定所述余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句与所述待分类句子级文本相似,将余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句作为待分类子句。
第二获取单元64,用于获取所述待分类子句。
再一个实施例
在本实施例中,示出的是第一确定单元54的具体结构,可以参见图7,图7示出的是本申请提供的一种第一确定单元的一种结构示意图,第一确定单元54包括:第一判断单元71、第四确定单元72、第五确定单元73、第二判断单元74、第六确定单元75和第七确定单元76。其中:
第一判断单元71,用于判断所述篇章级文本的极性值是否为零,若是,执行第四确定单元72,若否,执行第五确定单元73。
第四确定单元72,用于确定所述篇章级文本不具有极性。
第五确定单元73,用于确定所述篇章级文本具有极性,并执行第二判断单元74。
第二判断单元74,用于判断所述篇章级文本的极性值是否大于零,若是,执行第六确定单元75,若否,执行第七确定单元76。
第六确定单元75,用于确定所述篇章级文本的极性为正。
第七确定单元76,用于确定所述篇章级文本的极性为负。
再一个实施例
在本实施例中,示出的是第二确定单元的具体结构,可以参见图8,图8示出的是本申请提供的一种第二确定单元的一种结构示意图,第二确定单元包括:第三计算单元81、第四计算单元82、比较单元83、第八确定单元84和第九确定单元85。其中:
第三计算单元81,用于对所述第一正概率和第二正概率进行加运算,得到待分类正概率。
第四计算单元82,用于对所述第一负概率和第二幅概率进行加运算,得到待分类负概率。
比较单元83,用于比较所述待分类正概率和所述待分类负概率的大小,在所述待分类正概率大于所述待分类负概率的情况下,执行第八确定单元84,在所述待分类负概率大于所述待分类正概率的情况下,执行第九确定单元85。
第八确定单元84,用于确定所述待分类文本的极性为正。
第九确定单元85,用于确定所述待分类文本的极性为负。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种篇章级情感分类方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种篇章级情感分类方法,其特征在于,包括:
收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本;
拆分所述篇章级文本,获取所述篇章级文本中的子句;
从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负;
将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1;
分别将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元;
分别使用所述篇章级基分类单元和所述句子级基分类单元对待分类文本进行分类,得到第一分类结果和第二分类结果,其中所述第一分类结果包括:第一正概率和第一负概率;所述第二分类结果包括:第二正概率和第二负概率;
依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
2.根据权利要求1所述的方法,其特征在于,所述从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句的过程,包括:
使用公式计算所述篇章级文本中的子句与所述已分类句子级文本之间的余弦相似度;其中,所述cosθ为余弦相似度,W1k为篇章级文本中的子句中的第k特征值的权值,W2k为已分类句子级文本中第k个特征值的权值,为求和函数;
使用基于动态规划的编辑距离算法计算所述篇章级文本中的子句与所述已分类句子级文本之间的编辑距离;
确定所述余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句与所述待分类句子级文本相似,将余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句作为待分类子句;
获取所述待分类子句。
3.根据权利要求1所述的方法,其特征在于,所述依据所述篇章级文本的极性值确定所述篇章级文本的极性包括:
判断所述篇章级文本的极性值是否为零;
若是,确定所述篇章级文本不具有极性;
若否,确定所述篇章级文本具有极性;
判断所述篇章级文本的极性值是否大于零;
若是,确定所述篇章级文本的极性为正;
若否,确定所述篇章级文本的极性为负。
4.根据权利要求1所述的方法,其特征在于,所述分别将将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类器和句子级基分类器的过程,包括:
使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类器,其中,所述正篇章级文本和所述负篇章级文本数量相等;
从所述已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类器,其中所述正已分类句子级文本和所述负已分类句子级文本数量相等。
5.根据权利要求1所述的方法,其特征在于,依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性包括:
对所述第一正概率和第二正概率进行加运算,得到待分类正概率;
对所述第一负概率和第二幅概率进行加运算,得到待分类负概率;
比较所述待分类正概率和所述待分类负概率的大小;
在所述待分类正概率大于所述待分类负概率的情况下,确定所述待分类文本的极性为正;
在所述待分类负概率大于所述待分类正概率的情况下,确定所述待分类文本的极性为负。
6.一种篇章级情感分类装置,其特征在于,包括:
收集单元,用于收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本;
拆分单元,用于拆分所述篇章级文本,获取所述篇章级文本中的子句;
第一获取单元,用于从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负;
第一确定单元,用于将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1;
第一训练单元,用于分别将将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元;
篇章级基分类单元,用于对待分类文本进行分类,得到第一分类结果,所述第一分类结果包括:第一正概率和第一负概率;
句子级基分类单元,用于对待分类文本进行分类,得到第二分类结果,所述第二分类结果包括:第二正概率和第二负概率;
第二确定单元,用于依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括:
第一计算单元,用于使用公式计算所述篇章级文本中的子句与所述已分类句子级文本之间的余弦相似度;其中,所述cosθ为余弦相似度,W1k为篇章级文本中的子句中的第k特征值的权值,W2k为已分类句子级文本中第k个特征值的权值,为求和函数;
第二计算单元,用于使用基于动态规划的编辑距离算法计算所述篇章级文本中的子句与所述已分类句子级文本之间的编辑距离;
第三确定单元,用于确定所述余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句与所述待分类句子级文本相似,将余弦相似度大于0.6且所述编辑距离小于12对应的篇章级文本中的子句作为待分类子句;
第二获取单元,用于获取所述待分类子句。
8.根据权利要求6所述的装置,其特征在于,所述第一确定单元包括:
第一判断单元,用于判断所述篇章级文本的极性值是否为零,若是,执行第四确定单元,若否,执行第五确定单元;
第四确定单元,用于确定所述篇章级文本不具有极性;
第五确定单元,用于确定所述篇章级文本具有极性,并执行第二判断单元;
第二判断单元,用于判断所述篇章级文本的极性值是否大于零,若是,执行第六确定单元,若否,执行第七确定单元;
第六确定单元,用于确定所述篇章级文本的极性为正;
第七确定单元,用于确定所述篇章级文本的极性为负。
9.根据权利要求6所述的装置,其特征在于,所述第一训练单元包括:
第二训练单元,用于使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元,其中,所述正篇章级文本和所述负篇章级文本数量相等;
第三训练单元,用于从所述已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类单元,其中所述正已分类句子级文本和所述负已分类句子级文本数量相等。
10.根据权利要求6所述的装置,其特征在于,所述第二确定单元包括:
第三计算单元,用于对所述第一正概率和第二正概率进行加运算,得到待分类正概率;
第四计算单元,用于对所述第一负概率和第二幅概率进行加运算,得到待分类负概率;
比较单元,用于比较所述待分类正概率和所述待分类负概率的大小,在所述待分类正概率大于所述待分类负概率的情况下,执行第八确定单元,在所述待分类负概率大于所述待分类正概率的情况下,执行第九确定单元;
第八确定单元,用于确定所述待分类文本的极性为正;
第九确定单元,用于确定所述待分类文本的极性为负。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310444957.0A CN103473356B (zh) | 2013-09-26 | 2013-09-26 | 一种篇章级情感分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310444957.0A CN103473356B (zh) | 2013-09-26 | 2013-09-26 | 一种篇章级情感分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473356A CN103473356A (zh) | 2013-12-25 |
CN103473356B true CN103473356B (zh) | 2017-01-25 |
Family
ID=49798204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310444957.0A Active CN103473356B (zh) | 2013-09-26 | 2013-09-26 | 一种篇章级情感分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473356B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874291A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 文本分类的处理方法及装置 |
CN107797981B (zh) * | 2016-08-31 | 2021-06-04 | 科大讯飞股份有限公司 | 一种目标文本识别方法及装置 |
CN109933793B (zh) * | 2019-03-15 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 文本极性识别方法、装置、设备及可读存储介质 |
CN112667826A (zh) * | 2019-09-30 | 2021-04-16 | 北京国双科技有限公司 | 一种篇章去噪方法、装置、系统及存储介质 |
CN113688620B (zh) * | 2021-08-26 | 2024-03-22 | 北京阅神智能科技有限公司 | 文章情感分析方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275757A (ja) * | 2004-03-24 | 2005-10-06 | Denso It Laboratory Inc | 文章分類装置及び文章分類方法 |
CN101639824A (zh) * | 2009-08-27 | 2010-02-03 | 北京理工大学 | 一种针对不良信息的基于情感倾向性分析的文本过滤方法 |
CN101882136A (zh) * | 2009-05-08 | 2010-11-10 | 中国科学院计算技术研究所 | 文本情感倾向性分析方法 |
CN102298646A (zh) * | 2011-09-21 | 2011-12-28 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
-
2013
- 2013-09-26 CN CN201310444957.0A patent/CN103473356B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275757A (ja) * | 2004-03-24 | 2005-10-06 | Denso It Laboratory Inc | 文章分類装置及び文章分類方法 |
CN101882136A (zh) * | 2009-05-08 | 2010-11-10 | 中国科学院计算技术研究所 | 文本情感倾向性分析方法 |
CN101639824A (zh) * | 2009-08-27 | 2010-02-03 | 北京理工大学 | 一种针对不良信息的基于情感倾向性分析的文本过滤方法 |
CN102298646A (zh) * | 2011-09-21 | 2011-12-28 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103473356A (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273490A (zh) | 一种基于知识图谱的组合错题推荐方法 | |
CN103473356B (zh) | 一种篇章级情感分类方法及装置 | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN109766544B (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN103514279B (zh) | 一种句子级情感分类方法及装置 | |
CN111221962B (zh) | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN107609132A (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN107168945A (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN105975555A (zh) | 一种基于双向递归神经网络的企业简称提取方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN104809103A (zh) | 一种人机对话的语义分析方法及系统 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN103020249A (zh) | 分类器的构建方法及装置、中文文本情感分类方法及系统 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN105975455A (zh) | 基于双向递归神经网络的信息分析系统 | |
CN105069072A (zh) | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 | |
CN108052505A (zh) | 文本情感分析方法及装置、存储介质、终端 | |
CN110427458A (zh) | 基于双门lstm的社交网络双语的五分类情感分析方法 | |
CN110717843A (zh) | 一种可复用的法条推荐框架 | |
CN106407235A (zh) | 一种基于点评数据的语义词典构建方法 | |
CN105786898B (zh) | 一种领域本体的构建方法和装置 | |
CN111326040A (zh) | 语文阅读理解智能测试和智能辅导系统和方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN105183808A (zh) | 一种问题分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |