CN103279549A - 一种目标对象的目标数据的获取方法及装置 - Google Patents

一种目标对象的目标数据的获取方法及装置 Download PDF

Info

Publication number
CN103279549A
CN103279549A CN2013102245085A CN201310224508A CN103279549A CN 103279549 A CN103279549 A CN 103279549A CN 2013102245085 A CN2013102245085 A CN 2013102245085A CN 201310224508 A CN201310224508 A CN 201310224508A CN 103279549 A CN103279549 A CN 103279549A
Authority
CN
China
Prior art keywords
comment
target
parameter
destination object
quantitative value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102245085A
Other languages
English (en)
Other versions
CN103279549B (zh
Inventor
李寿山
薛云霞
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Big Data Co ltd
Suzhou Big Data Research Institute Co ltd
Suzhou Big Data Trading Service Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201310224508.5A priority Critical patent/CN103279549B/zh
Publication of CN103279549A publication Critical patent/CN103279549A/zh
Application granted granted Critical
Publication of CN103279549B publication Critical patent/CN103279549B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标对象的目标数据的获取方法及装置,所述方法包括:获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未来公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。

Description

一种目标对象的目标数据的获取方法及装置
技术领域
本申请涉及计算机应用技术领域,特别涉及一种目标对象的目标数据的获取方法及装置。
背景技术
互联网的开放性、虚拟性和共享性使其成为网民针对某一对象表达观点、态度、感觉和情绪等情感的公共平台。网民所表达的情绪通常以文本的形式显示在互联网上,如文字评论等。这些文本一般以商品评论、论坛评论或博客的形式存在,这些可以添加评论的商品、论坛或者博客等则称为对象,而对象的评论内容或者博文内容等,则是该对象的相关数据。
现有技术中,对于目标对象,例如,还未发表的博文或者还未上映的电影等,其目标数据的获取方案还不存在。以对象为博客为例,对于一篇博文,也只能对其已经存在的数据,例如博文的评论或者阅读量进行统计,而无法实现对还未发表的博文可能存在的评论或者阅读量等数据进行预测。
因此,亟需一种能够对目标对象的目标数据进行获取的方案。
发明内容
本申请所要解决的技术问题是提供一种目标对象的目标数据的获取方法及装置,用以解决现有技术中无法对未公布的对象的目标数据进行获取的技术问题。
本申请提供了一种目标对象的目标数据的获取方法,包括:
获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;
利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;
依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
上述方法,优选的,所述依据第一数量值和所述第二数量值,获取所述目标对象的目标数据,包括:
利用
Figure BDA00003317488600021
计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N+为所述第一数量值,所述N-为所述第二数量值。
上述方法,优选的,所述分类器包括最大熵分类器;
相应的,所述获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器,包括:
获取至少一个参考对象的参考评论参数;
对每条所述参考评论参数标注第一类别、第二类别或不确定类别;
对标注第一类别类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本;
利用所述训练样本构建最大熵分类器。
上述方法,优选的,所述利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值,包括:
利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率;
分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论;
确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定在所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
上述方法,优选的,在所述构建分类器之后,在所述利用所述分类器对目标对象的每条目标评论参数进行分类之前,所述方法还包括:
分别对目标对象的每条目标评论参数进行分词操作;
将经过分词操作的目标评论参数作为新的目标评论参数,执行所述利用所述分类器对目标对象的每条目标评论参数进行分类的步骤。
本申请提供了一种目标对象的目标数据的获取装置,包括:
分类器建立单元,用于获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;
数量值确定单元,用于利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;
数据获取单元,用于依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
上述装置,优选的,所述指数获取单元具体用于:
利用
Figure BDA00003317488600031
计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N+为所述第一数量值,所述N-为所述第二数量值。
上述装置,优选的,所述分类器包括最大熵分类器;
相应的,所述分类器建立单元包括:
评论获取子单元,用于获取至少一个参考对象的参考评论参数;
评论标注子单元,用于对每条所述参考评论参数标注第一类别、第二类别或不确定类别;
评论分词子单元,用于对标注第一类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本;
分类器构建子单元,用于利用所述训练样本构建最大熵分类器。
上述装置,优选的,所述数量值确定单元包括:
概率确定子单元,用于利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率;
评论标记子单元,用于分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论;
数量值确定子单元,用于确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定在所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
上述装置,优选的,还包括:
评论分词单元,用于在所述分类器建立单元构建分类器之后,在所述数量值确定单元利用所述分类器对目标对象的每条目标评论参数进行分类之前,分别对目标对象的每条目标评论参数进行分词操作;
分词触发单元,用于将经过分词操作的目标评论参数作为新的目标评论参数,触发所述数量值确定单元。
由上述方案可知,本申请提供的一种目标对象的目标数据的获取方法及装置,在获取参考对象的参考评论参数作为训练样本构建分类器之后,利用分类器对目标对象的每条目标评论参数进行分类,得到目标对象的第一类别评论的第一数量值和第二类别评论的第二数量值,进而依据第一数量值和第二数量值获取到目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种目标对象的目标数据的获取方法实施例一的流程图;
图2为本申请提供的一种目标对象的目标数据的获取方法实施例二的部分流程图;
图3为本申请提供的一种目标对象的目标数据的获取方法实施例三的部分流程图;
图4为本申请提供的一种目标对象的目标数据的获取方法实施例四的部分流程图;
图5为本申请提供的一种目标对象的目标数据的获取装置实施例五的结构示意图;
图6为本申请提供的一种目标对象的目标数据的获取装置实施例六的部分结构示意图;
图7为本申请提供的一种目标对象的目标数据的获取装置实施例七的部分结构示意图;
图8为本申请提供的一种目标对象的目标数据的获取装置实施例八的部分结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,为本申请提供的一种目标对象的目标数据的获取方法实施例一的流程图,所述方法包括:
步骤101:获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器。
在本申请实施例中,以目标对象为未上映电影为例,那么首先需要获取至少一个参考对象即是已上映电影的上映前评论作为训练样本,并根据所述训练样本构建分类器。其中,所述上映前评论即为所述已上映电影的参考评论参数。
其中,所述已上映电影的评论可以在预设的电影评论网站上获取,例如,所述步骤101中可以在豆瓣电影网站的服务器保存的历史评论数据中获取多部已上映电影的上映前评论,也可以在其他评论网站的服务器所保存的历史评论预料中进行获取,进而,将所述上映前评论作为训练样本构建分类器。
步骤102:利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值。
以所述目标对象为未上映电影为例,所述未上映电影的目标评论参数即为所述未上映电影的未上映评论。而所述未上映电影的未上映评论可以在所述电影评论网站如豆瓣电影网站等的服务器保存的评论数据中进行获取。
步骤103:依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
在本申请实施例中,以所述未上映电影的目标数据为所述未上映电影被期待观看放映的期待指数为例,所述步骤103可以通过以下方式实现:
利用
Figure BDA00003317488600061
计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N+为所述第一数量值,所述N-为所述第二数量值。
其中,所述M即为所述未上映电影的被期待观看的期待指数。
由上述方案可知,本申请提供的一种目标对象的目标数据的获取方法实施例一,在获取参考对象的参考评论参数作为训练样本构建分类器之后,利用分类器对目标对象的每条目标评论参数进行分类,得到目标对象的第一类别评论的第一数量值和第二类别评论的第二数量值,进而依据第一数量值和第二数量值获取到目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
在本申请的具体实现中,所述分类器可以采用最大熵分类器,即所述步骤101中构建的分类器为最大熵分类器。
相应的,参考图2,为本申请提供的一种目标对象的目标数据的获取方法实施例二中步骤101的流程图,其中,所述步骤101可以通过以下步骤实现:
步骤201:获取至少一个参考对象的参考评论参数。
其中,所述步骤201可以通过以下方式实现:
以所述参考对象为已上映电影为例,所述已上映电影的上映前评论即为所述参考对象的参考评论参数。在此,需要说明的是,所述已上映电影在电影评论网站的服务器中保存的评论数据包括上映前评论和上映后评论,因此,在本申请实施例中,所述步骤201可以首先在电影评论网站的服务器保存的评论数据中获取与所述已上映电影相对应的评论,并在所述已上映电影的评论中选取评论时间在所述已上映电影的上映日期之间的评论,进而将选取的评论作为所述已上映电影的上映前评论。
步骤202:对每条所述参考评论参数标注第一类别、第二类别或不确定类别。
例如,在电影评论网站中通常会采用文字描述的方式、等级评定的方式或分数评定等方式对某一电影进行评论,因此,以所述参考评论参数为所述已上映电影的上映前评论为例,所述步骤202中的第一类别即为正面类别,所述第二类别即为负面类别。在本申请实施例中,所述步骤202可以通过以下方式实现:
分别确定正面类别、负面类别及不确定类别各自对应的评定等级范围,并识别每条所述已上映电影的上映前评论的评定等级,将每条上映前评论的评定等级在所述正面类别、负面类别及不确定类别各自对应的评定等级范围中进行对比匹配,从而得到每条上映前评论对应的类别,进而依据每条所述上映前评论的类别进行标注。
例如,在豆瓣电影网站中每条评论中均以评分星级进行打分,由此在所述步骤202中确定正面类别、负面类别及不确定类别各自对应的评定等级范围,分别为:4~5星、1~2星、3星。由此,在识别到其中一条上映前评论的评定等级为4星之后,将该4星评定等级与上述三个星级范围进行对比匹配,得出该上映前评论的类别为正面类别,由此对该上映前评论标注正面类别。
步骤203:对标注第一类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本。
其中,在本申请实施例中,所述步骤203可以采用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
步骤204:利用所述训练样本构建最大熵分类器。
其中,所述最大熵分类器的基本思想是为所有已知的因素建立模型,而把所有位置的因素排除在外。也就是说,所述最大熵分类器的作用是找到一个概率分布,不仅满足所有已知的时候,而且不会受到任何位置因素的影响,在本本申请实施例中,以所述目标对象为上述未上映电影为示例,依据确定为第一类别和第二类别的参考评论参数构建最大熵分类器,而抛弃被标注为不确定类别的参考评论参数,即为:依据确定为正面类别和负面类别的上映前评论构建最大熵分类器,而抛弃被标注为不确定类别的上映前评论。
以下对最大熵分类器的构建原理进行描述:
假设x是特征向量,y是样本类别的输出值。p(y|x)是样本被预测为某一类别的概率。最大熵模型要求p(y|x)在满足一定约束的条件下,必须使下面定义的熵取得最大值,即在约束集下输出最均匀分布的模型:
H ( p ) = - Σ x , y p ~ ( x ) p ( y | x ) log p ( y | x )
这里用H(p)代替H(Y|X),条件熵H(Y|X)是条件概率p(y|x)均匀性的一种数学度量方法,强调对概率分布p的依赖。对于任意给定的约束集C,需要求得满足C的所有模型中H(p)取最大值的p*
p*=argmaxH(p)
其中p为满足约束集C条件下的统计模型。
特征fi的权重用相应的参数λi来表示,则最大熵的最终概率输出为:
p λ ( y | x ) = 1 Z λ ( x ) exp ( Σ i λ i f i ( x , y ) )
其中: Z λ ( x ) = Σ y exp ( Σ λ i f i ( x , y ) ) 称为归一化因子。
参考图3,为本申请提供的一种目标对象的目标数据的获取方法实施例三中所述步骤102的流程图,所述步骤102可以通过以下步骤实现:
步骤301:利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率。
以所述目标对象为未上映电影为例,所述步骤301是指,利用所述分类器对每条未上映评论的文本极性所对应的概率值进行判断,得出每条未上映评论分别为正面评论和负面评论的概率。
步骤302:分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,执行步骤303,否则,执行步骤304;
步骤303:标记所述第一概率所属的目标评论参数为第一类别评论;
步骤304:标记所述第一概率所属的目标评论参数为第二类别评论。
在上述步骤301的示例中,所述步骤302至所述步骤304可以理解为:对所述未上映电影的每条未上映评论中,标记第一概率大于第二概率的未上映评论为正面评论,标记第一概率小于第二概率的未上映评论为负面评论。
步骤305:确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
例如,在本申请实施例中,所述目标对象为未上映电影时,所述目标评论参数即为所述未上映电影的未上映评论,在标记完成所述每条未上映评论为正面评论或负面评论之后,所述步骤305可以通过以下方式实现:
记录所述未上映评论中被标记为正面评论的未上映评论的数量为第一数量值,并记录所述未上映评论中被标记为负面评论的未上映评论的数量为第二数量值。
在本申请实施例中,所述最大熵分类器在构建过程中,可以对所述上映前评论进行分词操作,因此,在对未上映评论进行分类之前,可以对所述未上映评论进行分词。参考图4,为本申请提供的一种目标对象的目标数据的获取方法实施例四的部分流程图,其中,在所述步骤101之后,在所述步骤102之前,所述方法还可以包括以下步骤:
步骤401:分别对目标对象的每条目标评论参数进行分词操作。
其中,所述步骤401中可以利用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
步骤402:将经过分词操作的目标评论参数作为新的目标评论参数,执行所述步骤102。
参考图5,为本申请提供的一种目标对象的目标数据的获取装置实施例五的结构示意图,所述装置可以包括:
分类器建立单元501,用于获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器。
在本申请实施例中,以目标对象为未上映电影为例,那么首先需要获取至少一个参考对象即是已上映电影的上映前评论作为训练样本,并根据所述训练样本构建分类器。其中,所述上映前评论即为所述已上映电影的参考评论参数。
其中,所述已上映电影的评论可以在预设的电影评论网站上获取,例如,所述分类器建立单元501中可以在豆瓣电影网站的服务器保存的历史评论数据中获取多部已上映电影的上映前评论,也可以在其他评论网站的服务器所保存的历史评论预料中进行获取,进而,将所述上映前评论作为训练样本构建分类器。
数量值确定单元502,用于利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值。
以所述目标对象为未上映电影为例,所述未上映电影的目标评论参数即为所述未上映电影的未上映评论。而所述未上映电影的未上映评论可以在所述电影评论网站如豆瓣电影网站等的服务器保存的评论数据中进行获取。
数据获取单元503,用于依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
在本申请实施例中,以所述未上映电影的目标数据为所述未上映电影被期待观看放映的期待指数为例,所述指数获取单元503可以通过以下方式实现:
利用计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N+为所述第一数量值,所述N-为所述第二数量值。
其中,所述M即为所述未上映电影的被期待观看的期待指数。
由上述方案可知,本申请提供的一种目标对象的目标数据的获取装置实施例五,在获取参考对象的参考评论参数作为训练样本构建分类器之后,利用分类器对目标对象的每条目标评论参数进行分类,得到目标对象的第一类别评论的第一数量值和第二类别评论的第二数量值,进而依据第一数量值和第二数量值获取到目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
在本申请的具体实现中,所述分类器可以采用最大熵分类器,即所述分类器建立单元501构建的分类器为最大熵分类器。
参考图6,为本申请提供的一种目标对象的目标数据的获取装置实施例六中所述分类器建立单元501的结构示意图,其中,所述分类器建立单元501包括:
评论获取子单元511,用于获取至少一个参考对象的参考评论参数。
其中,所述评论获取子单元511可以通过以下方式实现:
以所述参考对象为已上映电影为例,所述已上映电影的上映前评论即为所述参考对象的参考评论参数。在此,需要说明的是,所述已上映电影在电影评论网站的服务器中保存的评论数据包括上映前评论和上映后评论,因此,在本申请实施例中,所述评论获取子单元511可以首先在电影评论网站的服务器保存的评论数据中获取与所述已上映电影相对应的评论,并在所述已上映电影的评论中选取评论时间在所述已上映电影的上映日期之间的评论,进而将选取的评论作为所述已上映电影的上映前评论。评论标注子单元512,用于对每条所述参考评论参数标注第一类别、第二类别或不确定类别。
例如,在电影评论网站中通常会采用文字描述的方式、等级评定的方式或分数评定等方式对某一电影进行评论,因此,以所述参考评论参数为所述已上映电影的上映前评论为例,所述评论标注子单元512中的第一类别即为正面类别,所述第二类别即为负面类别。在本申请实施例中,所述评论标注子单元512可以通过以下方式实现:
分别确定正面类别、负面类别及不确定类别各自对应的评定等级范围,并识别每条所述已上映电影的上映前评论的评定等级,将每条上映前评论的评定等级在所述正面类别、负面类别及不确定类别各自对应的评定等级范围中进行对比匹配,从而得到每条上映前评论对应的类别,进而依据每条所述上映前评论的类别进行标注。
例如,在豆瓣电影网站中每条评论中均以评分星级进行打分,由此在所述步骤202中确定正面类别、负面类别及不确定类别各自对应的评定等级范围,分别为:4~5星、1~2星、3星。由此,在识别到其中一条上映前评论的评定等级为4星之后,将该4星评定等级与上述三个星级范围进行对比匹配,得出该上映前评论的类别为正面类别,由此对该上映前评论标注正面类别。
评论分词子单元513,用于对标注第一类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本。
其中,在本申请实施例中,所述评论分词子单元513可以采用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
分类器构建子单元514,用于利用所述训练样本构建最大熵分类器。
其中,所述最大熵分类器的基本思想是为所有已知的因素建立模型,而把所有位置的因素排除在外。也就是说,所述最大熵分类器的作用是找到一个概率分布,不仅满足所有已知的时候,而且不会受到任何位置因素的影响,在本本申请实施例中,以所述目标对象为上述未上映电影为示例,依据确定为第一类别和第二类别的参考评论参数构建最大熵分类器,而抛弃被标注为不确定类别的参考评论参数,即为:依据确定为正面类别和负面类别的上映前评论构建最大熵分类器,而抛弃被标注为不确定类别的上映前评论。
以下对最大熵分类器的构建原理进行描述:
假设x是特征向量,y是样本类别的输出值。p(y|x)是样本被预测为某一类别的概率。最大熵模型要求p(y|x)在满足一定约束的条件下,必须使下面定义的熵取得最大值,即在约束集下输出最均匀分布的模型:
H ( p ) = - Σ x , y p ~ ( x ) p ( y | x ) log p ( y | x )
这里用H(p)代替H(Y|X),条件熵H(Y|X)是条件概率p(y|x)均匀性的一种数学度量方法,强调对概率分布p的依赖。对于任意给定的约束集C,需要求得满足C的所有模型中H(p)取最大值的p*
p*=argmaxH(p)
其中p为满足约束集C条件下的统计模型。
特征fi的权重用相应的参数λi来表示,则最大熵的最终概率输出为:
p λ ( y | x ) = 1 Z λ ( x ) exp ( Σ i λ i f i ( x , y ) )
其中: Z λ ( x ) = Σ y exp ( Σ λ i f i ( x , y ) ) 称为归一化因子。
参考图7,为本申请提供的一种目标对象的目标数据的获取装置实施例七中所述数量值确定单元502的结构示意图,其中,所述数量值确定单元502包括:
概率确定子单元521,用于利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率。
以所述目标对象为未上映电影为例,所述概率确定子单元521的功能可以理解为:利用所述分类器对每条未上映评论的文本极性所对应的概率值进行判断,得出每条未上映评论分别为正面评论和负面评论的概率。
评论标记子单元522,用于分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论。
在上述概率确定子单元521的示例中,所述评论标记子单元522可以理解为:对所述未上映电影的每条未上映评论中,标记第一概率大于第二概率的未上映评论为正面评论,标记第一概率小于第二概率的未上映评论为负面评论。
数量值确定子单元523,用于确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
例如,在本申请实施例中,所述目标对象为未上映电影时,所述目标评论参数即为所述未上映电影的未上映评论,在所述评论标记子单元522标记完成所述每条未上映评论为正面评论或负面评论之后,所述数量值确定子单元523可以通过以下方式实现:
记录所述未上映评论中被标记为正面评论的未上映评论的数量为第一数量值,并记录所述未上映评论中被标记为负面评论的未上映评论的数量为第二数量值。
在本申请实施例中,所述最大熵分类器在构建过程中,可以对所述上映前评论进行分词操作,因此,在对未上映评论进行分类之前,可以对所述未上映评论进行分词。参考图8,为本申请提供的一种目标对象的目标数据的获取装置实施例八的部分结构示意图,所述装置还包括:
评论分词单元504,用于在所述分类器建立单元501构建分类器之后,在所述数量值确定单元502利用所述分类器对目标对象的每条目标评论参数进行分类之前,分别对目标对象的每条目标评论参数进行分词操作。
其中,所述评论分词单元504中可以利用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
分词触发单元505,用于将经过分词操作的目标评论参数作为新的目标评论参数,触发所述数量值确定单元502。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种目标对象的目标数据的获取方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种目标对象的目标数据的获取方法,其特征在于,包括:
获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;
利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;
依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
2.根据权利要求1所述的方法,其特征在于,所述依据第一数量值和所述第二数量值,获取所述目标对象的目标数据,包括:
利用计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N+为所述第一数量值,所述N-为所述第二数量值。
3.根据权利要求1或2所述的方法,其特征在于,所述分类器包括最大熵分类器;
相应的,所述获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器,包括:
获取至少一个参考对象的参考评论参数;
对每条所述参考评论参数标注第一类别、第二类别或不确定类别;
对标注第一类别类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本;
利用所述训练样本构建最大熵分类器。
4.根据权利要求3所述的方法,其特征在于,所述利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值,包括:
利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率;
分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论;
确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定在所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
5.根据权利要求4所述的方法,其特征在于,在所述构建分类器之后,在所述利用所述分类器对目标对象的每条目标评论参数进行分类之前,所述方法还包括:
分别对目标对象的每条目标评论参数进行分词操作;
将经过分词操作的目标评论参数作为新的目标评论参数,执行所述利用所述分类器对目标对象的每条目标评论参数进行分类的步骤。
6.一种目标对象的目标数据的获取装置,其特征在于,包括:
分类器建立单元,用于获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;
数量值确定单元,用于利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;
数据获取单元,用于依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
7.根据权利要求6所述的装置,其特征在于,所述数据获取单元具体用于:
利用
Figure FDA00003317488500021
计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N+为所述第一数量值,所述N-为所述第二数量值。
8.根据权利要求6或7所述的装置,其特征在于,所述分类器包括最大熵分类器;
相应的,所述分类器建立单元包括:
评论获取子单元,用于获取至少一个参考对象的参考评论参数;
评论标注子单元,用于对每条所述参考评论参数标注第一类别、第二类别或不确定类别;
评论分词子单元,用于对标注第一类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本;
分类器构建子单元,用于利用所述训练样本构建最大熵分类器。
9.根据权利要求8所述的装置,其特征在于,所述数量值确定单元包括:
概率确定子单元,用于利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率;
评论标记子单元,用于分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论;
数量值确定子单元,用于确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定在所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
10.根据权利要求9所述的装置,其特征在于,还包括:
评论分词单元,用于在所述分类器建立单元构建分类器之后,在所述数量值确定单元利用所述分类器对目标对象的每条目标评论参数进行分类之前,分别对目标对象的每条目标评论参数进行分词操作;
分词触发单元,用于将经过分词操作的目标评论参数作为新的目标评论参数,触发所述数量值确定单元。
CN201310224508.5A 2013-06-07 2013-06-07 一种目标对象的目标数据的获取方法及装置 Expired - Fee Related CN103279549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310224508.5A CN103279549B (zh) 2013-06-07 2013-06-07 一种目标对象的目标数据的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310224508.5A CN103279549B (zh) 2013-06-07 2013-06-07 一种目标对象的目标数据的获取方法及装置

Publications (2)

Publication Number Publication Date
CN103279549A true CN103279549A (zh) 2013-09-04
CN103279549B CN103279549B (zh) 2016-05-25

Family

ID=49062068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310224508.5A Expired - Fee Related CN103279549B (zh) 2013-06-07 2013-06-07 一种目标对象的目标数据的获取方法及装置

Country Status (1)

Country Link
CN (1) CN103279549B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778283A (zh) * 2015-05-11 2015-07-15 苏州大学 一种基于微博的用户职业分类方法及系统
CN104915377A (zh) * 2015-05-07 2015-09-16 亿赞普(北京)科技有限公司 一种外文业务对象类别标签的添加方法和装置
CN108764972A (zh) * 2018-05-08 2018-11-06 中国电影科学技术研究所 一种影片票房预测方法及装置
CN110069625A (zh) * 2017-09-22 2019-07-30 腾讯科技(深圳)有限公司 一种内容分类方法、装置及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179579A (zh) * 2007-12-12 2008-05-14 北京亿企通信息技术有限公司 一种在企业即时通信工具中浏览、评论日志的方法及系统
CN101320456A (zh) * 2007-06-06 2008-12-10 姜伟 网络新闻发布空间站系统及其使用方法
CN102708164A (zh) * 2012-04-26 2012-10-03 苏州大学 电影期望值的计算方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320456A (zh) * 2007-06-06 2008-12-10 姜伟 网络新闻发布空间站系统及其使用方法
CN101179579A (zh) * 2007-12-12 2008-05-14 北京亿企通信息技术有限公司 一种在企业即时通信工具中浏览、评论日志的方法及系统
CN102708164A (zh) * 2012-04-26 2012-10-03 苏州大学 电影期望值的计算方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915377A (zh) * 2015-05-07 2015-09-16 亿赞普(北京)科技有限公司 一种外文业务对象类别标签的添加方法和装置
CN104778283A (zh) * 2015-05-11 2015-07-15 苏州大学 一种基于微博的用户职业分类方法及系统
CN104778283B (zh) * 2015-05-11 2018-05-01 苏州大学 一种基于微博的用户职业分类方法及系统
CN110069625A (zh) * 2017-09-22 2019-07-30 腾讯科技(深圳)有限公司 一种内容分类方法、装置及服务器
CN110069625B (zh) * 2017-09-22 2022-09-23 腾讯科技(深圳)有限公司 一种内容分类方法、装置及服务器
CN108764972A (zh) * 2018-05-08 2018-11-06 中国电影科学技术研究所 一种影片票房预测方法及装置

Also Published As

Publication number Publication date
CN103279549B (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
Bhardwaj et al. Sentiment analysis for Indian stock market prediction using Sensex and nifty
Dawson et al. Current state and future trends: A citation network analysis of the learning analytics field
CN103365997B (zh) 一种基于集成学习的观点挖掘方法
CN102682124B (zh) 一种文本的情感分类方法及装置
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN108073568A (zh) 关键词提取方法和装置
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN105005589A (zh) 一种文本分类的方法和装置
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN105740404A (zh) 标签关联方法及装置
CN105069072A (zh) 基于情感分析的混合用户评分信息推荐方法及其推荐装置
CN105869016A (zh) 一种基于卷积神经网络的点击通过率预估方法
CN106610970A (zh) 基于协同过滤的内容推荐系统与方法
CN106708938A (zh) 用于辅助推荐的方法及装置
CN103020249A (zh) 分类器的构建方法及装置、中文文本情感分类方法及系统
CN106202380A (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN107357763A (zh) 一种基于自步学习的众包分类数据质量控制方法
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
Horáková et al. Classification of the Educational Texts Styles with the Methods of Artificial Intelligence.
CN103324758A (zh) 一种新闻分类方法和系统
CN103279549A (zh) 一种目标对象的目标数据的获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220809

Address after: 215000 floor 7, North building, Guofa building, No. 3118 Renmin Road, Gusu District, Suzhou City, Jiangsu Province

Patentee after: Suzhou big data Co.,Ltd.

Patentee after: Suzhou Big Data Trading Service Co.,Ltd.

Patentee after: Suzhou big data Research Institute Co.,Ltd.

Address before: 215123 No. 199 benevolence Road, Suzhou Industrial Park, Jiangsu, China

Patentee before: SOOCHOW University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160525