CN103514279A - 一种句子级情感分类方法及装置 - Google Patents

一种句子级情感分类方法及装置 Download PDF

Info

Publication number
CN103514279A
CN103514279A CN201310445953.4A CN201310445953A CN103514279A CN 103514279 A CN103514279 A CN 103514279A CN 201310445953 A CN201310445953 A CN 201310445953A CN 103514279 A CN103514279 A CN 103514279A
Authority
CN
China
Prior art keywords
sentence
level
negative
positive
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310445953.4A
Other languages
English (en)
Other versions
CN103514279B (zh
Inventor
李寿山
朱珠
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201310445953.4A priority Critical patent/CN103514279B/zh
Publication of CN103514279A publication Critical patent/CN103514279A/zh
Application granted granted Critical
Publication of CN103514279B publication Critical patent/CN103514279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种句子级情感分类方法,包括:获取预设句子级情感分类单元;利用预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;其中,预设句子级情感分类器的获取过程,包括:分别获取标记为正、负和客观的篇章级文本;对拆分篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;利用正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。因此,本申请相比于采用人工标注的方式对句子级文本进行分类,提高了工作效率,且由于不需要再使用人工来标注,因此不需要支付人工费,降低了成本。

Description

一种句子级情感分类方法及装置
技术领域
本申请涉及自然语言处理及机器学习领域,特别涉及一种句子级情感分类方法及装置。
背景技术
随着互联网的快速发展,互联网所倡导“以用户为中心,用户参与”的开放式构架理念,使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变。因此,互联网(如博客和论坛)上产生了大量用户参与的、对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了用户的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。用户可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。越来越多的用户乐于在互联网上分享自己的观点或体验,导致评论信息量迅速增加,仅靠人工的方法难以应付网上海量信息的收集和处理,因此文本情感分析技术应运而生。
文本情感分析技术利用计算机快速获取和整理相关评价信息,其可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理。
情感分类是文本情感分析技术的一项子任务,其利用底层情感信息抽取的结果将情感文本分为若干情感类别,如分为褒贬两类或者其他更细致的情感类别。
目前,基于计算机的情感分类,主要对篇章级文本进行分类,对句子级文本进行分类则主要采用人工逐句标注的方式,但是采用人工逐句标注的方式对句子级文本进行分类,效率低,且由于需要支付人工费,因此长期使用人工逐句标注的方式,投资大,成本高。
由上可见,采用人工逐句标注的方式对句子级文本进行分类,存在效率低,投资大,成本高的缺点。
发明内容
为解决上述技术问题,本申请实施例提供一种句子级情感分类方法及装置,以达到提高工作效率,不需要支付人工费,降低了成本的目的,技术方案如下:
一种句子级情感分类方法,包括:
获取预设句子级情感分类单元;
利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;
其中,所述预设句子级情感分类器的获取过程,包括:
分别获取标记为正、负和客观的篇章级文本;
对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;
利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
优选的,所述对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本的过程,包括:
确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量;
确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量;
计算任意一个文档向量到该文档向量所包含的词向量的词转移概率;
依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率;
依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率;
比较所述正句子级概率和负句子级概率的大小;
在比较结果为所述正句子级概率大于所述负句子级概率的情况下,确定该句子级文本的类别为正;
在比较结果为所述负句子级概率大于所述正句子级概率的情况下,确定该句子级文本的类别为负;
确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本;
对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
优选的,利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元的过程,包括:
确定所述正、负和客观训练样本中包含的词语为特征值;
依据公式
Figure BDA0000388139320000031
分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,其中,所述b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,
Figure BDA0000388139320000033
为对a为不同值时对应的数据进行求和的函数;
利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自的测试正λ;
利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自的测试负λ;
利用GIS算法,调整每个特征值对应的客观预测条件概率,直至每个特征值各自的客观预测条件概率收敛,并将每个特征值各自收敛的客观预测条件概率对应的λ作为每个特征值各自的测试客观λ;
确定所述测试正λ、测试负λ和测试客观λ对应的最大熵分类器为预设句子级情感分类单元。
优选的,所述利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类,包括:
确定所述已标注情感类别的篇章级文本中的句子级文本为待分类句子级文本;
确定所述待分类句子级文本所包含的词语为待分类特征值;
预设所述待分类句子级文本的情感类别分别为正、负和客观;
依据公式
Figure BDA0000388139320000041
分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率,其中,所述b为待分类特征值,P()为待分类预测条件概率,
Figure BDA0000388139320000042
为对每个待分类特征值对应的k个特征函数值进行求和的函数,K为3;
其中,每个待分类特征值对应的各个特征函数值分别对应所述待分类句子级文本的预设情感类型正、负和客观,在计算待分类正预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试正λ,否则λ为0,在计算待分类负预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试负λ,否则λ为0,在计算待分类客观预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为测试客观λ,否则λ为0;
将各个待分类特征值对应的待分类正预测条件概率进行乘运算,得到句子级正预测条件概率,将各个待分类特征值对应的待分类负预测条件概率进行乘运算,得到句子级负预测条件概率,将各个待分类特征值对应的待分类客观预测条件概率进行乘运算,得到句子级客观预测条件概率;
比较从所述句子级正预测条件概率、所述句子级负预测条件概率和所述句子级客观预测条件概率的大小;
在比较结果为所述句子级正预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为正;
在比较结果为所述句子级负预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为负;
在比较结果为所述句子级客观预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为客观。
优选的,在确定所述待分类句子级文本的情感类别之后,还包括:
判断所述待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值是否小于0.05;
若是,将所述待分类句子级文本的情感类别转换为客观;
若否,所述待分类句子级文本的情感类别保持不变。
一种句子级情感分类装置,包括:
第一获取单元,用于获取预设句子级情感分类单元;
预设句子级情感分类单元,用于对已标注情感类别的篇章级文本中的句子级文本进行分类;
其中,第一获取单元,包括:
第二获取单元,用于分别获取标记为正、负和客观的篇章级文本;
第一分类单元,用于对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;
训练单元,用于利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
优选的,所述第一分类单元包括:
第一确定单元,用于确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量;
第二确定单元,用于确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量;
第一计算单元,用于计算任意一个文档向量到该文档向量所包含的词向量的词转移概率;
第二计算单元,用于依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率;
第三计算单元,用于依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率;
第一比较单元,用于比较所述正句子级概率和负句子级概率的大小,在比较结果为所述正句子级概率大于所述负句子级概率的情况下,执行第三确定单元,在比较结果为所述负句子级概率大于所述正句子级概率的情况下,执行第四确定单元;
第三确定单元,用于确定该句子级文本的类别为正;
第四确定单元,用于确定该句子级文本的类别为负;
第五确定单元,用于确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本;
第六确定单元,用于对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
优选的,所述训练单元包括:
第七确定单元,用于确定所述正、负和客观训练样本中包含的词语为特征值;
第四计算单元,用于依据公式
Figure BDA0000388139320000061
分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,其中,所述b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,为对a为不同值时对应的数据进行求和的函数;
第一调整单元,用于利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自的测试正λ;
第二调整单元,用于利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自的测试负λ;
第三调整单元,用于利用GIS算法,调整每个特征值对应的客观预测条件概率,直至每个特征值各自的客观预测条件概率收敛,并将每个特征值各自收敛的客观预测条件概率对应的λ作为每个特征值各自的测试客观λ;
第八确定单元,用于确定所述测试正λ、测试负λ和测试客观λ对应的最大熵分类器为预设句子级情感分类单元。
优选的,所述预设句子级情感分类单元包括:
第九确定单元,用于确定所述已标注情感类别的篇章级文本中的句子级文本为待分类句子级文本;
第十确定单元,用于确定所述待分类句子级文本所包含的词语为待分类特征值;
预设单元,用于预设所述待分类句子级文本的情感类别分别为正、负和客观;
第五计算单元,用于依据公式分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率,其中,所述b为待分类特征值,P()为待分类预测条件概率,
Figure BDA0000388139320000072
为对每个待分类特征值对应的k个特征函数值进行求和的函数,K为3;
其中,每个待分类特征值对应的各个特征函数值分别对应所述待分类句子级文本的预设情感类型正、负和客观,在计算待分类正预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试正λ,否则λ为0,在计算待分类负预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试负λ,否则λ为0,在计算待分类客观预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为测试客观λ,否则λ为0;
第六计算单元,用于将各个待分类特征值对应的待分类正预测条件概率进行乘运算,得到句子级正预测条件概率,将各个待分类特征值对应的待分类负预测条件概率进行乘运算,得到句子级负预测条件概率,将各个待分类特征值对应的待分类客观预测条件概率进行乘运算,得到句子级客观预测条件概率;
第二比较单元,用于比较从所述句子级正预测条件概率、所述句子级负预测条件概率和所述句子级客观预测条件概率的大小,在比较结果为所述句子级正预测条件概率最大的情况下,执行第十一确定单元,在在比较结果为所述句子级负预测条件概率最大的情况下,执行第十二确定单元,在比较结果为所述句子级客观预测条件概率最大的情况下,执行第十三确定单元;
第十一确定单元,用于确定所述待分类句子级文本的情感类别为正;
第十二确定单元,用于确定所述待分类句子级文本的情感类别为负;
第十三确定单元,用于确定所述待分类句子级文本的情感类别为客观。
优选的,还包括:
判断单元,用于判断所述待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值是否小于0.05,若是,执行转换单元,若否,所述待分类句子级文本的情感类别保持不变;
转换单元,用于将所述待分类句子级文本的情感类别转换为客观。
与现有技术相比,本申请的有益效果为:
在本申请中,获取预设句子级情感分类单元;利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;其中,所述预设句子级情感分类器的获取过程,包括:分别获取标记为正、负和客观的篇章级文本;对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
因此,本申请通过获取到的预设句子级情感分类单元,可以自动对已标注情感类别的篇章级文本中的句子级文本进行分类,相比于采用人工标注的方式对句子级文本进行分类,提高了工作效率,且由于不需要再使用人工来标注,因此不需要支付人工费,降低了成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种句子级情感分类方法的一种流程图;
图2是本申请提供的一种句子级情感分类方法的一种子流程图;
图3是本申请提供的一种句子级情感分类方法的再一种流程图;
图4是本申请提供的一种句子级情感分类方法的再一种流程图;
图5是本申请提供的一种句子级情感分类方法的再一种子流程图;
图6是本申请提供的一种句子级情感分类方法的再一种流程图;
图7是本申请提供的一种句子级情感分类装置的一种结构示意图;
图8是本申请提供的第一分类单元的一种结构示意图;
图9是本申请提供的一种训练单元的一种结构示意图;
图10是本申请提供的一种预设句子级情感分类单元的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
一个实施例
请参见图1,其示出了本申请提供的一种句子级情感分类方法的一种流程图,可以包括以下步骤:
步骤S11:获取预设句子级情感分类单元。
在本实施例中,预设句子级情感分类单元的获取过程可以参见图2,图2示出了本申请提供的一种句子级情感分类方法的一种子流程图,可以包括以下步骤:
步骤S21:分别获取标记为正、负和客观的篇章级文本。
其中,标记为正、负的篇章级文本可以为自动标记为正、负的篇章级文本,标记为客观的篇章级文本为人工标记为客观的篇章级文本。获取到的标记为正、负和客观的篇章级文本分别对应的数量可以相同。
标记为正、负和客观的篇章级文本可以来自于DVD领域。标记为正、负的篇章级文本可以根据DVD领域已存在的星级自动获取,标记为客观的篇章级文本则通过人工标记的方式从DVD领域中获取。
步骤S22:对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本。
分别对标记为正、负和客观的篇章级文本进行拆分,得到句子级文本,并对拆分得到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本。
步骤S23:利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
步骤S12:利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类。
在本实施例中,利用预设句子级情感分类单元可以对已标注情感类别的篇章级文本中的句子级文本进行自动分类。具体的,利用预设句子级情感分类单元可以对已标注情感类别的篇章级文本中的句子级文本自动分类为正、负或客观。
在本实施例中,预设句子级情感分类单元的获取过程不需要循环执行,执行一次即可,在获取预设句子级情感分类单元后,可以使用获取到的预设句子级情感分类单元对每个已标注情感类别的篇章级文本中的每个句子级文本进行自动分类。
在本申请中,获取预设句子级情感分类单元;利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;其中,所述预设句子级情感分类器的获取过程,包括:分别获取标记为正、负和客观的篇章级文本;对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
因此,本申请通过获取到的预设句子级情感分类单元,可以自动对已标注情感类别的篇章级文本中的句子级文本进行分类,相比于采用人工标注的方式对句子级文本进行分类,提高了工作效率,且由于不需要再使用人工来标注,因此不需要支付人工费,降低了成本。
另一个实施例
在本实施例中,示出的是对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本的过程,请参见图3,图3示出了本申请提供的一种句子级情感分类方法的再一种流程图,可以包括以下步骤:
步骤S31:确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量。
步骤S32:确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量。
步骤S33:计算任意一个文档向量到该文档向量所包含的词向量的词转移概率。
步骤S34:依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率。
步骤S35:依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率。
步骤S36:比较所述正句子级概率和负句子级概率的大小。
在比较结果为正句子级概率大于负句子级概率的情况下,确定该句子级文本的类别为正,在比较结果为负句子级概率大于正句子级概率的情况下,确定该句子级文本的类别为负。
步骤S37:确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本。
步骤S38:对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
当然,在确定正训练样本和负训练样本的执行过程除了步骤S31至步骤S37的实现方式之外,还可以通过人工标注的方式,确定正训练样本和负训练样本。
再一个实施例
在本实施例中,示出的是利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元的过程,请参见图4,图4示出的是本申请提供的一种句子级情感分类方法的再一种流程图,可以包括以下步骤:
步骤S41:确定所述正、负和客观训练样本中包含的词语为特征值。
步骤S42:依据公式
Figure BDA0000388139320000121
分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率。
其中,
Figure BDA0000388139320000122
中的b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,
Figure BDA0000388139320000123
为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,
Figure BDA0000388139320000131
为对a为不同值时对应的数据进行求和的函数。
现举例对依据公式,分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率的过程进行详细说明。例如,三个训练样本,序号分别为1、2和3,序号为1的训练样本为正训练样本,且正训练样本包括词语x,y,序号为2的训练样本为负训练样本,且负训练样本包括词语c,d,x,序号为3的训练样本为客观训练样本,客观训练样本包括词语e、y。
以x为例,对在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率的过程进行说明。
x在正训练样本中和负训练样本中都存在,因此在a为+1时,x对应两个特征函数值,分别为f1(1,x)、f2(1,x),在a为-1时,对应两个特征函数值,分别为f1(-1,x)、f2(-1,x),在a为0时,对应两个特征函数值,分别为f1(0,x)、f2(0,x)。由于相同b对应的不同特征函数值的权值相同,因此x对应的f1(1,x)的权值和对应f2(1,x)的权值相同,记为λ1;x对应的f1(-1,x)的权值和对应f2(-1,x)的权值相同,记为λ2;x对应的f1(0,x)的权值和对应f2(0,x)的权值相同,记为λ3
在a为+1时,依据公式
Figure BDA0000388139320000132
可以得到
P ( 1 , x ) = exp ( Σ i = 1 2 λ i f i ( 1 , x ) ) Σ a exp ( Σ i = 1 2 λ i f i ( 1 , x ) ) = P ( 1 , x ) = exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) + exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) + exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) ) .
P ( 1 , x ) = exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) + exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) + exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) )
即x的正预测条件概率。
在a为-1时,依据公式
Figure BDA0000388139320000141
可以得到
P ( - 1 , x ) = exp ( Σ i = 1 2 λ i f i ( - 1 , x ) ) Σ a exp ( Σ i = 1 2 λ i f i ( - 1 , x ) ) = P ( - 1 , x ) = exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) + exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) + exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) ) .
P ( - 1 , x ) = exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) + exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) + exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) )
即x的负预测条件概率。
在a为0时,依据公式
Figure BDA0000388139320000144
可以得到
P ( 0 , x ) = exp ( Σ i = 1 2 λ i f i ( 0 , x ) ) Σ a exp ( Σ i = 1 2 λ i f i ( 0 , x ) ) = P ( 0 , x ) = exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) ) exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) + exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) + exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) ) .
P ( 0 , x ) = exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) ) exp ( λ 1 f 1 ( 1 , x ) + λ 1 f 2 ( 1 , x ) ) + exp ( λ 2 f 1 ( - 1 , x ) + λ 2 f 2 ( - 1 , x ) ) + exp ( λ 3 f 1 ( 0 , x ) + λ 3 f 2 ( 0 , x ) )
即x的客观预测条件概率。
词语y,c,d,e各自对应的正预测条件概率、负预测条件概率和客观预测条件概率的计算过程如上述x对应的正预测条件概率、负预测条件概率和客观预测条件概率的计算过程,在此不再赘述。
每个特征值各自对应的正预测条件概率、负预测条件概率和客观预测条件概率的计算过程也如上述以x为例的计算过程,在此不再赘述。
步骤S43:利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自的测试正λ。
步骤S44:利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自的测试负λ。
步骤S45:利用GIS算法,调整每个特征值对应的客观预测条件概率,直至每个特征值各自的客观预测条件概率收敛,并将每个特征值各自收敛的客观预测条件概率对应的λ作为每个特征值各自的测试客观λ。
步骤S46:确定所述测试正λ、测试负λ和测试客观λ对应的最大熵分类器为预设句子级情感分类单元。
再一个实施例
在本实施例中,示出的是利用预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类的过程,请参见图5,图5示出的是本申请提供的一种句子级情感分类方法的再一种子流程图,可以包括以下步骤:
步骤S51:确定所述已标注情感类别的篇章级文本中的句子级文本为待分类句子级文本。
步骤S52:确定所述待分类句子级文本所包含的词语为待分类特征值。
步骤S53:预设所述待分类句子级文本的情感类别分别为正、负和客观。
步骤S54:依据公式
Figure BDA0000388139320000151
分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率。
其中,所述b为待分类特征值,P()为待分类预测条件概率,
Figure BDA0000388139320000152
为对每个待分类特征值对应的k个特征函数值进行求和的函数,K为3。
其中,每个待分类特征值对应的各个特征函数值分别对应所述待分类句子级文本的预设情感类型正、负和客观,在计算待分类正预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试正λ,否则λ为0,在计算待分类负预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试负λ,否则λ为0,在计算待分类客观预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为测试客观λ,否则λ为0。
现举例对依据公式分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率的过程进行说明。
例如,待分类句子级文本包括词语x,e,h。而特征值为x,y,c,d,e,则在计算h的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率时,λ为0。
在计算x对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率时,λ为x对应的测试正λ、测试负λ和测试客观λ。
在计算e对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率时,λ为e对应的测试正λ、测试负λ和测试客观λ。
以x为例,对。。。。进行说明。令x对应的测试正λ为λ'1,测试负λ为λ'2,测试客观λ为λ'3。在a为+1时,x在待分类句子级文本的预设情感类别分别为正、负和客观时对应的特征函数值分别为f1(1,x)、f-1(1,x)和f0(1,x);在a为-1时,x在待分类句子级文本的预设情感类别分别为正、负和客观时对应的特征函数值分别为f1(-1,x)、f-1(-1,x)和f0(-1,x);在a为0时,x在待分类句子级文本的预设情感类别分别为正、负和客观时对应的特征函数值分别为f1(0,x)、f-1(0,x)和f0(0,x)。
在a为+1时,依据公式
Figure BDA0000388139320000162
可以得到
Figure BDA0000388139320000163
即x的待分类正预测条件概率。
在a为-1时,依据公式
Figure BDA0000388139320000171
可以得到
Figure BDA0000388139320000172
Figure BDA0000388139320000173
即x的待分类负预测条件概率。
在a为0时,依据公式
Figure BDA0000388139320000174
可以得到
Figure BDA0000388139320000175
Figure BDA0000388139320000176
即x的待分类客观预测条件概率。
每个待分类特征值各自对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率的计算过程如本实施例中上述以x为例的计算过程,在此不再赘述。
步骤S55:将各个待分类特征值对应的待分类正预测条件概率进行乘运算,得到句子级正预测条件概率,将各个待分类特征值对应的待分类负预测条件概率进行乘运算,得到句子级负预测条件概率,将各个待分类特征值对应的待分类客观预测条件概率进行乘运算,得到句子级客观预测条件概率。
步骤S56:比较从所述句子级正预测条件概率、所述句子级负预测条件概率和所述句子级客观预测条件概率的大小。
在比较结果为句子级正预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为正;在比较结果为句子级负预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为负;在比较结果为句子级客观预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为客观。
再一个实施例
在本实施例中,在图5示出的利用预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类的过程的基础上扩展出另一种利用预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类的过程,请参见图6,图6示出的是本申请提供的一种句子级情感分类方法的再一种流程图,可以包括以下步骤:
步骤S61:确定所述已标注情感类别的篇章级文本中的句子级文本为待分类句子级文本。
步骤S62:确定所述待分类句子级文本所包含的词语为待分类特征值。
步骤S63:预设所述待分类句子级文本的情感类别分别为正、负和客观。
步骤S64:依据公式
Figure BDA0000388139320000181
分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率。
步骤S65:将各个待分类特征值对应的待分类正预测条件概率进行乘运算,得到句子级正预测条件概率,将各个待分类特征值对应的待分类负预测条件概率进行乘运算,得到句子级负预测条件概率,将各个待分类特征值对应的待分类客观预测条件概率进行乘运算,得到句子级客观预测条件概率。
步骤S66:比较从所述句子级正预测条件概率、所述句子级负预测条件概率和所述句子级客观预测条件概率的大小。
在比较结果为句子级正预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为正;在比较结果为句子级负预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为负;在比较结果为句子级客观预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为客观。
步骤S61,步骤S62,步骤S63,步骤S64,步骤S65和步骤S66与图5示出的利用预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类的过程中的步骤S51,步骤S52,步骤S53,步骤S54,步骤S55和步骤S56相同,在此不再赘述。
步骤S67:在确定所述待分类句子级文本的情感类别之后,判断所述待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值是否小于0.05。
在判断结果为待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值小于0.05时,执行步骤S68,在判断结果为待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值不小于0.05,执行步骤S69。
步骤S68:将所述待分类句子级文本的情感类别转换为客观。
步骤S69:所述待分类句子级文本的情感类别保持不变。
与上述方法实施例相对应,本申请提供了一种句子级情感分类装置的一种结构示意图,请参见图7,句子级情感分类装置包括:第一获取单元71和预设句子级情感分类单元72。
第一获取单元71,用于获取预设句子级情感分类单元。
其中,第一获取单元71包括:第二获取单元、第一分类单元和训练单元。
第二获取单元,用于分别获取标记为正、负和客观的篇章级文本。
第一分类单元,用于对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本。
训练单元,用于利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
预设句子级情感分类单元72,用于对已标注情感类别的篇章级文本中的句子级文本进行分类。
另一个实施例
本实施例中,示出的是第一分类单元的具体构成,请参见图8,图8示出的是第一分类单元的一种结构示意图。第一分类单元包括:第一确定单元81、第二确定单元82、第一计算单元83、第二计算单元84、第三计算单元85、第一比较单元86、第三确定单元87、第四确定单元88、第五确定单元89和第六确定单元810。
第一确定单元81,用于确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量。
第二确定单元82,用于确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量。
第一计算单元83,用于计算任意一个文档向量到该文档向量所包含的词向量的词转移概率。
第二计算单元84,用于依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率。
第三计算单元85,用于依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率。
第一比较单元86,用于比较所述正句子级概率和负句子级概率的大小,在比较结果为所述正句子级概率大于所述负句子级概率的情况下,执行第三确定单元87,在比较结果为所述负句子级概率大于所述正句子级概率的情况下,执行第四确定单元88。
第三确定单元87,用于确定该句子级文本的类别为正。
第四确定单元88,用于确定该句子级文本的类别为负。
第五确定单元89,用于确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本。
第六确定单元810,用于对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
再一个实施例
在本实施例中,示出的是训练单元的具体结构,请参见图9,图9示出的是本申请提供的一种训练单元的一种结构示意图,训练单元包括:
第七确定单元91、第四计算单元92、第一调整单元93、第二调整单元94、第三调整单元95和第八确定单元96。
第七确定单元91,用于确定所述正、负和客观训练样本中包含的词语为特征值。
第四计算单元92,用于依据公式
Figure BDA0000388139320000211
分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,其中,所述b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,
Figure BDA0000388139320000212
为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,
Figure BDA0000388139320000213
为对a为不同值时对应的数据进行求和的函数。
第一调整单元93,用于利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自的测试正λ。
第二调整单元94,用于利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自的测试负λ。
第三调整单元95,用于利用GIS算法,调整每个特征值对应的客观预测条件概率,直至每个特征值各自的客观预测条件概率收敛,并将每个特征值各自收敛的客观预测条件概率对应的λ作为每个特征值各自的测试客观λ。
第八确定单元96,用于确定所述测试正λ、测试负λ和测试客观λ对应的最大熵分类器为预设句子级情感分类单元。
再一个实施例
在本实施例中,示出的是预设句子级情感分类单元的具体结构,请参见图10,图10示出的是本申请提供的一种预设句子级情感分类单元的一种结构示意图,预设句子级情感分类单元包括:
第九确定单元101、第十确定单元102、预设单元103、第五计算单元104、第六计算单元105、第二比较单元106、第十一确定单元107、第十二确定单元108和第十三确定单元109。
第九确定单元101,用于确定所述已标注情感类别的篇章级文本中的句子级文本为待分类句子级文本。
第十确定单元102,用于确定所述待分类句子级文本所包含的词语为待分类特征值。
预设单元103,用于预设所述待分类句子级文本的情感类别分别为正、负和客观。
第五计算单元104,用于依据公式
Figure BDA0000388139320000221
分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率,其中,所述b为待分类特征值,P()为待分类预测条件概率,
Figure BDA0000388139320000222
为对每个待分类特征值对应的k个特征函数值进行求和的函数,K为3。
其中,每个待分类特征值对应的各个特征函数值分别对应所述待分类句子级文本的预设情感类型正、负和客观,在计算待分类正预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试正λ,否则λ为0,在计算待分类负预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试负λ,否则λ为0,在计算待分类客观预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为测试客观λ,否则λ为0。
第六计算单元105,用于将各个待分类特征值对应的待分类正预测条件概率进行乘运算,得到句子级正预测条件概率,将各个待分类特征值对应的待分类负预测条件概率进行乘运算,得到句子级负预测条件概率,将各个待分类特征值对应的待分类客观预测条件概率进行乘运算,得到句子级客观预测条件概率。
第二比较单元106,用于比较从所述句子级正预测条件概率、所述句子级负预测条件概率和所述句子级客观预测条件概率的大小,在比较结果为所述句子级正预测条件概率最大的情况下,执行第十一确定单元107,在在比较结果为所述句子级负预测条件概率最大的情况下,执行第十二确定单元108,在比较结果为所述句子级客观预测条件概率最大的情况下,执行第十三确定单元109。
第十一确定单元107,用于确定所述待分类句子级文本的情感类别为正。
第十二确定单元108,用于确定所述待分类句子级文本的情感类别为负。
第十三确定单元109,用于确定所述待分类句子级文本的情感类别为客观。
在上述装置实施例中,句子级情感分类装置还可以包括:判断单元和转换单元。
判断单元,用于判断所述待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值是否小于0.05,若是,执行转换单元,若否,所述待分类句子级文本的情感类别保持不变。
转换单元,用于将所述待分类句子级文本的情感类别转换为客观。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种句子级情感分类方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种句子级情感分类方法,其特征在于,包括:
获取预设句子级情感分类单元;
利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;
其中,所述预设句子级情感分类器的获取过程,包括:
分别获取标记为正、负和客观的篇章级文本;
对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;
利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
2.根据权利要求1所述的方法,其特征在于,所述对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本的过程,包括:
确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量;
确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量;
计算任意一个文档向量到该文档向量所包含的词向量的词转移概率;
依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率;
依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率;
比较所述正句子级概率和负句子级概率的大小;
在比较结果为所述正句子级概率大于所述负句子级概率的情况下,确定该句子级文本的类别为正;
在比较结果为所述负句子级概率大于所述正句子级概率的情况下,确定该句子级文本的类别为负;
确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本;
对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
3.根据权利要求1所述的方法,其特征在于,利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元的过程,包括:
确定所述正、负和客观训练样本中包含的词语为特征值;
依据公式分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,其中,所述b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,
Figure FDA0000388139310000022
为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,
Figure FDA0000388139310000023
为对a为不同值时对应的数据进行求和的函数;
利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自的测试正λ;
利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自的测试负λ;
利用GIS算法,调整每个特征值对应的客观预测条件概率,直至每个特征值各自的客观预测条件概率收敛,并将每个特征值各自收敛的客观预测条件概率对应的λ作为每个特征值各自的测试客观λ;
确定所述测试正λ、测试负λ和测试客观λ对应的最大熵分类器为预设句子级情感分类单元。
4.根据权利要求3所述的方法,其特征在于,所述利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类,包括:
确定所述已标注情感类别的篇章级文本中的句子级文本为待分类句子级文本;
确定所述待分类句子级文本所包含的词语为待分类特征值;
预设所述待分类句子级文本的情感类别分别为正、负和客观;
依据公式
Figure FDA0000388139310000031
分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率,其中,所述b为待分类特征值,P()为待分类预测条件概率,
Figure FDA0000388139310000032
为对每个待分类特征值对应的k个特征函数值进行求和的函数,K为3;
其中,每个待分类特征值对应的各个特征函数值分别对应所述待分类句子级文本的预设情感类型正、负和客观,在计算待分类正预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试正λ,否则λ为0,在计算待分类负预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试负λ,否则λ为0,在计算待分类客观预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为测试客观λ,否则λ为0;
将各个待分类特征值对应的待分类正预测条件概率进行乘运算,得到句子级正预测条件概率,将各个待分类特征值对应的待分类负预测条件概率进行乘运算,得到句子级负预测条件概率,将各个待分类特征值对应的待分类客观预测条件概率进行乘运算,得到句子级客观预测条件概率;
比较从所述句子级正预测条件概率、所述句子级负预测条件概率和所述句子级客观预测条件概率的大小;
在比较结果为所述句子级正预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为正;
在比较结果为所述句子级负预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为负;
在比较结果为所述句子级客观预测条件概率最大的情况下,确定所述待分类句子级文本的情感类别为客观。
5.根据权利要求4所述的方法,其特征在于,在确定所述待分类句子级文本的情感类别之后,还包括:
判断所述待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值是否小于0.05;
若是,将所述待分类句子级文本的情感类别转换为客观;
若否,所述待分类句子级文本的情感类别保持不变。
6.一种句子级情感分类装置,其特征在于,包括:
第一获取单元,用于获取预设句子级情感分类单元;
预设句子级情感分类单元,用于对已标注情感类别的篇章级文本中的句子级文本进行分类;
其中,第一获取单元,包括:
第二获取单元,用于分别获取标记为正、负和客观的篇章级文本;
第一分类单元,用于对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;
训练单元,用于利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
7.根据权利要求6所述的装置,其特征在于,所述第一分类单元包括:
第一确定单元,用于确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量;
第二确定单元,用于确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量;
第一计算单元,用于计算任意一个文档向量到该文档向量所包含的词向量的词转移概率;
第二计算单元,用于依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率;
第三计算单元,用于依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率;
第一比较单元,用于比较所述正句子级概率和负句子级概率的大小,在比较结果为所述正句子级概率大于所述负句子级概率的情况下,执行第三确定单元,在比较结果为所述负句子级概率大于所述正句子级概率的情况下,执行第四确定单元;
第三确定单元,用于确定该句子级文本的类别为正;
第四确定单元,用于确定该句子级文本的类别为负;
第五确定单元,用于确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本;
第六确定单元,用于对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
8.根据权利要求6所述的装置,其特征在于,所述训练单元包括:
第七确定单元,用于确定所述正、负和客观训练样本中包含的词语为特征值;
第四计算单元,用于依据公式
Figure FDA0000388139310000051
分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,其中,所述b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,
Figure FDA0000388139310000052
为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,为对a为不同值时对应的数据进行求和的函数;
第一调整单元,用于利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自的测试正λ;
第二调整单元,用于利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自的测试负λ;
第三调整单元,用于利用GIS算法,调整每个特征值对应的客观预测条件概率,直至每个特征值各自的客观预测条件概率收敛,并将每个特征值各自收敛的客观预测条件概率对应的λ作为每个特征值各自的测试客观λ;
第八确定单元,用于确定所述测试正λ、测试负λ和测试客观λ对应的最大熵分类器为预设句子级情感分类单元。
9.根据权利要求8所述的装置,其特征在于,所述预设句子级情感分类单元包括:
第九确定单元,用于确定所述已标注情感类别的篇章级文本中的句子级文本为待分类句子级文本;
第十确定单元,用于确定所述待分类句子级文本所包含的词语为待分类特征值;
预设单元,用于预设所述待分类句子级文本的情感类别分别为正、负和客观;
第五计算单元,用于依据公式分别计算每个待分类特征值在a分别为+1、-1和0时,对应的待分类正预测条件概率、待分类负预测条件概率和待分类客观预测条件概率,其中,所述b为待分类特征值,P()为待分类预测条件概率,
Figure FDA0000388139310000063
为对每个待分类特征值对应的k个特征函数值进行求和的函数,K为3;
其中,每个待分类特征值对应的各个特征函数值分别对应所述待分类句子级文本的预设情感类型正、负和客观,在计算待分类正预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试正λ,否则λ为0,在计算待分类负预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为对应测试负λ,否则λ为0,在计算待分类客观预测条件概率时,若待分类特征值对应的词语包含在所述特征值中,则λ为测试客观λ,否则λ为0;
第六计算单元,用于将各个待分类特征值对应的待分类正预测条件概率进行乘运算,得到句子级正预测条件概率,将各个待分类特征值对应的待分类负预测条件概率进行乘运算,得到句子级负预测条件概率,将各个待分类特征值对应的待分类客观预测条件概率进行乘运算,得到句子级客观预测条件概率;
第二比较单元,用于比较从所述句子级正预测条件概率、所述句子级负预测条件概率和所述句子级客观预测条件概率的大小,在比较结果为所述句子级正预测条件概率最大的情况下,执行第十一确定单元,在在比较结果为所述句子级负预测条件概率最大的情况下,执行第十二确定单元,在比较结果为所述句子级客观预测条件概率最大的情况下,执行第十三确定单元;
第十一确定单元,用于确定所述待分类句子级文本的情感类别为正;
第十二确定单元,用于确定所述待分类句子级文本的情感类别为负;
第十三确定单元,用于确定所述待分类句子级文本的情感类别为客观。
10.根据权利要求9所述的装置,其特征在于,还包括:
判断单元,用于判断所述待分类句子级文本的情感类别对应的句子级预测条件概率与0.5之差的绝对值是否小于0.05,若是,执行转换单元,若否,所述待分类句子级文本的情感类别保持不变;
转换单元,用于将所述待分类句子级文本的情感类别转换为客观。
CN201310445953.4A 2013-09-26 2013-09-26 一种句子级情感分类方法及装置 Active CN103514279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310445953.4A CN103514279B (zh) 2013-09-26 2013-09-26 一种句子级情感分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310445953.4A CN103514279B (zh) 2013-09-26 2013-09-26 一种句子级情感分类方法及装置

Publications (2)

Publication Number Publication Date
CN103514279A true CN103514279A (zh) 2014-01-15
CN103514279B CN103514279B (zh) 2016-10-05

Family

ID=49897003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310445953.4A Active CN103514279B (zh) 2013-09-26 2013-09-26 一种句子级情感分类方法及装置

Country Status (1)

Country Link
CN (1) CN103514279B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408035A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 词语情感类型的分析方法和装置
CN104809232A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于句子间情绪转移概率的句子级情绪分类方法
CN105869073A (zh) * 2016-04-11 2016-08-17 苏州大学 一种互联网用户数据处理方法、装置及系统
CN106202243A (zh) * 2016-06-29 2016-12-07 苏州大学 一种句子级文本情绪分类方法和装置
CN106202181A (zh) * 2016-06-27 2016-12-07 苏州大学 一种情感分类方法、装置及系统
CN107025250A (zh) * 2016-04-11 2017-08-08 苏州大学 一种互联网用户数据处理方法、装置及系统
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN109597916A (zh) * 2018-11-07 2019-04-09 北京达佳互联信息技术有限公司 视频风险分类方法、装置、电子设备及储存介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092035A (en) * 1996-12-03 2000-07-18 Brothers Kogyo Kabushiki Kaisha Server device for multilingual transmission system
CN100593783C (zh) * 2007-05-30 2010-03-10 北大方正集团有限公司 一种词汇语义褒贬获得方法、系统及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092035A (en) * 1996-12-03 2000-07-18 Brothers Kogyo Kabushiki Kaisha Server device for multilingual transmission system
CN100593783C (zh) * 2007-05-30 2010-03-10 北大方正集团有限公司 一种词汇语义褒贬获得方法、系统及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨超等: ""基于情感词典扩展技术的网络舆情倾向性分析"", 《小型微型计算机系统》 *
杨频、李涛、赵奎: ""一种网络舆情的定量分析方法"", 《计算机应用研究》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408035A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 词语情感类型的分析方法和装置
CN104408035B (zh) * 2014-12-15 2018-04-03 北京国双科技有限公司 词语情感类型的分析方法和装置
CN104809232A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于句子间情绪转移概率的句子级情绪分类方法
CN104809232B (zh) * 2015-05-11 2018-06-01 苏州大学 一种基于句子间情绪转移概率的句子级情绪分类方法
CN105869073A (zh) * 2016-04-11 2016-08-17 苏州大学 一种互联网用户数据处理方法、装置及系统
CN107025250A (zh) * 2016-04-11 2017-08-08 苏州大学 一种互联网用户数据处理方法、装置及系统
CN106202181A (zh) * 2016-06-27 2016-12-07 苏州大学 一种情感分类方法、装置及系统
CN106202243A (zh) * 2016-06-29 2016-12-07 苏州大学 一种句子级文本情绪分类方法和装置
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN108595568B (zh) * 2018-04-13 2022-05-17 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN109597916A (zh) * 2018-11-07 2019-04-09 北京达佳互联信息技术有限公司 视频风险分类方法、装置、电子设备及储存介质

Also Published As

Publication number Publication date
CN103514279B (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN103514279B (zh) 一种句子级情感分类方法及装置
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Zhou et al. A machine learning approach to customer needs analysis for product ecosystems
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
Salinca Business reviews classification using sentiment analysis
WO2018218705A1 (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
US11409964B2 (en) Method, apparatus, device and storage medium for evaluating quality of answer
CN107491531A (zh) 基于集成学习框架的中文网络评论情感分类方法
Bhonde et al. Sentiment analysis based on dictionary approach
CN105893344A (zh) 基于用户语义情感分析的应答方法和装置
CN109190109B (zh) 融合用户信息生成评论摘要的方法及装置
US11756094B2 (en) Method and device for evaluating comment quality, and computer readable storage medium
CN113312480B (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN112287197B (zh) 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN105809186A (zh) 情感分类的方法及系统
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
WO2023196554A1 (en) Systems and methods for generating codes and code books using cosine proximity
CN118132714A (zh) 基于难度学习的语言模型微调方法、系统、设备及介质
CN103729431B (zh) 具有增减量功能的海量微博数据分布式分类装置及方法
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
Abbas et al. Active learning empowered sentiment analysis: An approach for optimizing smartphone customer’s review sentiment classification
Abdussalam et al. BERT implementation on news sentiment analysis and analysis benefits on branding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Suzhou City, Jiangsu province 215123 Xiangcheng District Ji Road No. 8

Patentee after: Soochow University

Address before: 215123 Suzhou Industrial Park, Jiangsu Road, No. 199

Patentee before: Soochow University

CP02 Change in the address of a patent holder