发明内容
本申请所要解决的技术问题是提供一种目标对象的目标数据的获取方法及装置,用以解决现有技术中无法对未公布的对象的目标数据进行获取的技术问题。
本申请提供了一种目标对象的目标数据的获取方法,包括:
获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;
利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;
依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
上述方法,优选的,所述依据第一数量值和所述第二数量值,获取所述目标对象的目标数据,包括:
利用
计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N
+为所述第一数量值,所述N
-为所述第二数量值。
上述方法,优选的,所述分类器包括最大熵分类器;
相应的,所述获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器,包括:
获取至少一个参考对象的参考评论参数;
对每条所述参考评论参数标注第一类别、第二类别或不确定类别;
对标注第一类别类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本;
利用所述训练样本构建最大熵分类器。
上述方法,优选的,所述利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值,包括:
利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率;
分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论;
确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定在所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
上述方法,优选的,在所述构建分类器之后,在所述利用所述分类器对目标对象的每条目标评论参数进行分类之前,所述方法还包括:
分别对目标对象的每条目标评论参数进行分词操作;
将经过分词操作的目标评论参数作为新的目标评论参数,执行所述利用所述分类器对目标对象的每条目标评论参数进行分类的步骤。
本申请提供了一种目标对象的目标数据的获取装置,包括:
分类器建立单元,用于获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;
数量值确定单元,用于利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;
数据获取单元,用于依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
上述装置,优选的,所述指数获取单元具体用于:
利用
计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N
+为所述第一数量值,所述N
-为所述第二数量值。
上述装置,优选的,所述分类器包括最大熵分类器;
相应的,所述分类器建立单元包括:
评论获取子单元,用于获取至少一个参考对象的参考评论参数;
评论标注子单元,用于对每条所述参考评论参数标注第一类别、第二类别或不确定类别;
评论分词子单元,用于对标注第一类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本;
分类器构建子单元,用于利用所述训练样本构建最大熵分类器。
上述装置,优选的,所述数量值确定单元包括:
概率确定子单元,用于利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率;
评论标记子单元,用于分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论;
数量值确定子单元,用于确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定在所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
上述装置,优选的,还包括:
评论分词单元,用于在所述分类器建立单元构建分类器之后,在所述数量值确定单元利用所述分类器对目标对象的每条目标评论参数进行分类之前,分别对目标对象的每条目标评论参数进行分词操作;
分词触发单元,用于将经过分词操作的目标评论参数作为新的目标评论参数,触发所述数量值确定单元。
由上述方案可知,本申请提供的一种目标对象的目标数据的获取方法及装置,在获取参考对象的参考评论参数作为训练样本构建分类器之后,利用分类器对目标对象的每条目标评论参数进行分类,得到目标对象的第一类别评论的第一数量值和第二类别评论的第二数量值,进而依据第一数量值和第二数量值获取到目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,为本申请提供的一种目标对象的目标数据的获取方法实施例一的流程图,所述方法包括:
步骤101:获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器。
在本申请实施例中,以目标对象为未上映电影为例,那么首先需要获取至少一个参考对象即是已上映电影的上映前评论作为训练样本,并根据所述训练样本构建分类器。其中,所述上映前评论即为所述已上映电影的参考评论参数。
其中,所述已上映电影的评论可以在预设的电影评论网站上获取,例如,所述步骤101中可以在豆瓣电影网站的服务器保存的历史评论数据中获取多部已上映电影的上映前评论,也可以在其他评论网站的服务器所保存的历史评论预料中进行获取,进而,将所述上映前评论作为训练样本构建分类器。
步骤102:利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值。
以所述目标对象为未上映电影为例,所述未上映电影的目标评论参数即为所述未上映电影的未上映评论。而所述未上映电影的未上映评论可以在所述电影评论网站如豆瓣电影网站等的服务器保存的评论数据中进行获取。
步骤103:依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
在本申请实施例中,以所述未上映电影的目标数据为所述未上映电影被期待观看放映的期待指数为例,所述步骤103可以通过以下方式实现:
利用
计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N
+为所述第一数量值,所述N
-为所述第二数量值。
其中,所述M即为所述未上映电影的被期待观看的期待指数。
由上述方案可知,本申请提供的一种目标对象的目标数据的获取方法实施例一,在获取参考对象的参考评论参数作为训练样本构建分类器之后,利用分类器对目标对象的每条目标评论参数进行分类,得到目标对象的第一类别评论的第一数量值和第二类别评论的第二数量值,进而依据第一数量值和第二数量值获取到目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
在本申请的具体实现中,所述分类器可以采用最大熵分类器,即所述步骤101中构建的分类器为最大熵分类器。
相应的,参考图2,为本申请提供的一种目标对象的目标数据的获取方法实施例二中步骤101的流程图,其中,所述步骤101可以通过以下步骤实现:
步骤201:获取至少一个参考对象的参考评论参数。
其中,所述步骤201可以通过以下方式实现:
以所述参考对象为已上映电影为例,所述已上映电影的上映前评论即为所述参考对象的参考评论参数。在此,需要说明的是,所述已上映电影在电影评论网站的服务器中保存的评论数据包括上映前评论和上映后评论,因此,在本申请实施例中,所述步骤201可以首先在电影评论网站的服务器保存的评论数据中获取与所述已上映电影相对应的评论,并在所述已上映电影的评论中选取评论时间在所述已上映电影的上映日期之间的评论,进而将选取的评论作为所述已上映电影的上映前评论。
步骤202:对每条所述参考评论参数标注第一类别、第二类别或不确定类别。
例如,在电影评论网站中通常会采用文字描述的方式、等级评定的方式或分数评定等方式对某一电影进行评论,因此,以所述参考评论参数为所述已上映电影的上映前评论为例,所述步骤202中的第一类别即为正面类别,所述第二类别即为负面类别。在本申请实施例中,所述步骤202可以通过以下方式实现:
分别确定正面类别、负面类别及不确定类别各自对应的评定等级范围,并识别每条所述已上映电影的上映前评论的评定等级,将每条上映前评论的评定等级在所述正面类别、负面类别及不确定类别各自对应的评定等级范围中进行对比匹配,从而得到每条上映前评论对应的类别,进而依据每条所述上映前评论的类别进行标注。
例如,在豆瓣电影网站中每条评论中均以评分星级进行打分,由此在所述步骤202中确定正面类别、负面类别及不确定类别各自对应的评定等级范围,分别为:4~5星、1~2星、3星。由此,在识别到其中一条上映前评论的评定等级为4星之后,将该4星评定等级与上述三个星级范围进行对比匹配,得出该上映前评论的类别为正面类别,由此对该上映前评论标注正面类别。
步骤203:对标注第一类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本。
其中,在本申请实施例中,所述步骤203可以采用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
步骤204:利用所述训练样本构建最大熵分类器。
其中,所述最大熵分类器的基本思想是为所有已知的因素建立模型,而把所有位置的因素排除在外。也就是说,所述最大熵分类器的作用是找到一个概率分布,不仅满足所有已知的时候,而且不会受到任何位置因素的影响,在本本申请实施例中,以所述目标对象为上述未上映电影为示例,依据确定为第一类别和第二类别的参考评论参数构建最大熵分类器,而抛弃被标注为不确定类别的参考评论参数,即为:依据确定为正面类别和负面类别的上映前评论构建最大熵分类器,而抛弃被标注为不确定类别的上映前评论。
以下对最大熵分类器的构建原理进行描述:
假设x是特征向量,y是样本类别的输出值。p(y|x)是样本被预测为某一类别的概率。最大熵模型要求p(y|x)在满足一定约束的条件下,必须使下面定义的熵取得最大值,即在约束集下输出最均匀分布的模型:
这里用H(p)代替H(Y|X),条件熵H(Y|X)是条件概率p(y|x)均匀性的一种数学度量方法,强调对概率分布p的依赖。对于任意给定的约束集C,需要求得满足C的所有模型中H(p)取最大值的p*:
p*=argmaxH(p)
其中p为满足约束集C条件下的统计模型。
特征fi的权重用相应的参数λi来表示,则最大熵的最终概率输出为:
其中: 称为归一化因子。
参考图3,为本申请提供的一种目标对象的目标数据的获取方法实施例三中所述步骤102的流程图,所述步骤102可以通过以下步骤实现:
步骤301:利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率。
以所述目标对象为未上映电影为例,所述步骤301是指,利用所述分类器对每条未上映评论的文本极性所对应的概率值进行判断,得出每条未上映评论分别为正面评论和负面评论的概率。
步骤302:分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,执行步骤303,否则,执行步骤304;
步骤303:标记所述第一概率所属的目标评论参数为第一类别评论;
步骤304:标记所述第一概率所属的目标评论参数为第二类别评论。
在上述步骤301的示例中,所述步骤302至所述步骤304可以理解为:对所述未上映电影的每条未上映评论中,标记第一概率大于第二概率的未上映评论为正面评论,标记第一概率小于第二概率的未上映评论为负面评论。
步骤305:确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
例如,在本申请实施例中,所述目标对象为未上映电影时,所述目标评论参数即为所述未上映电影的未上映评论,在标记完成所述每条未上映评论为正面评论或负面评论之后,所述步骤305可以通过以下方式实现:
记录所述未上映评论中被标记为正面评论的未上映评论的数量为第一数量值,并记录所述未上映评论中被标记为负面评论的未上映评论的数量为第二数量值。
在本申请实施例中,所述最大熵分类器在构建过程中,可以对所述上映前评论进行分词操作,因此,在对未上映评论进行分类之前,可以对所述未上映评论进行分词。参考图4,为本申请提供的一种目标对象的目标数据的获取方法实施例四的部分流程图,其中,在所述步骤101之后,在所述步骤102之前,所述方法还可以包括以下步骤:
步骤401:分别对目标对象的每条目标评论参数进行分词操作。
其中,所述步骤401中可以利用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
步骤402:将经过分词操作的目标评论参数作为新的目标评论参数,执行所述步骤102。
参考图5,为本申请提供的一种目标对象的目标数据的获取装置实施例五的结构示意图,所述装置可以包括:
分类器建立单元501,用于获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器。
在本申请实施例中,以目标对象为未上映电影为例,那么首先需要获取至少一个参考对象即是已上映电影的上映前评论作为训练样本,并根据所述训练样本构建分类器。其中,所述上映前评论即为所述已上映电影的参考评论参数。
其中,所述已上映电影的评论可以在预设的电影评论网站上获取,例如,所述分类器建立单元501中可以在豆瓣电影网站的服务器保存的历史评论数据中获取多部已上映电影的上映前评论,也可以在其他评论网站的服务器所保存的历史评论预料中进行获取,进而,将所述上映前评论作为训练样本构建分类器。
数量值确定单元502,用于利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值。
以所述目标对象为未上映电影为例,所述未上映电影的目标评论参数即为所述未上映电影的未上映评论。而所述未上映电影的未上映评论可以在所述电影评论网站如豆瓣电影网站等的服务器保存的评论数据中进行获取。
数据获取单元503,用于依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。
在本申请实施例中,以所述未上映电影的目标数据为所述未上映电影被期待观看放映的期待指数为例,所述指数获取单元503可以通过以下方式实现:
利用计算所述目标对象的目标数据,其中,所述M为所述目标对象的目标数据,所述N+为所述第一数量值,所述N-为所述第二数量值。
其中,所述M即为所述未上映电影的被期待观看的期待指数。
由上述方案可知,本申请提供的一种目标对象的目标数据的获取装置实施例五,在获取参考对象的参考评论参数作为训练样本构建分类器之后,利用分类器对目标对象的每条目标评论参数进行分类,得到目标对象的第一类别评论的第一数量值和第二类别评论的第二数量值,进而依据第一数量值和第二数量值获取到目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
在本申请的具体实现中,所述分类器可以采用最大熵分类器,即所述分类器建立单元501构建的分类器为最大熵分类器。
参考图6,为本申请提供的一种目标对象的目标数据的获取装置实施例六中所述分类器建立单元501的结构示意图,其中,所述分类器建立单元501包括:
评论获取子单元511,用于获取至少一个参考对象的参考评论参数。
其中,所述评论获取子单元511可以通过以下方式实现:
以所述参考对象为已上映电影为例,所述已上映电影的上映前评论即为所述参考对象的参考评论参数。在此,需要说明的是,所述已上映电影在电影评论网站的服务器中保存的评论数据包括上映前评论和上映后评论,因此,在本申请实施例中,所述评论获取子单元511可以首先在电影评论网站的服务器保存的评论数据中获取与所述已上映电影相对应的评论,并在所述已上映电影的评论中选取评论时间在所述已上映电影的上映日期之间的评论,进而将选取的评论作为所述已上映电影的上映前评论。评论标注子单元512,用于对每条所述参考评论参数标注第一类别、第二类别或不确定类别。
例如,在电影评论网站中通常会采用文字描述的方式、等级评定的方式或分数评定等方式对某一电影进行评论,因此,以所述参考评论参数为所述已上映电影的上映前评论为例,所述评论标注子单元512中的第一类别即为正面类别,所述第二类别即为负面类别。在本申请实施例中,所述评论标注子单元512可以通过以下方式实现:
分别确定正面类别、负面类别及不确定类别各自对应的评定等级范围,并识别每条所述已上映电影的上映前评论的评定等级,将每条上映前评论的评定等级在所述正面类别、负面类别及不确定类别各自对应的评定等级范围中进行对比匹配,从而得到每条上映前评论对应的类别,进而依据每条所述上映前评论的类别进行标注。
例如,在豆瓣电影网站中每条评论中均以评分星级进行打分,由此在所述步骤202中确定正面类别、负面类别及不确定类别各自对应的评定等级范围,分别为:4~5星、1~2星、3星。由此,在识别到其中一条上映前评论的评定等级为4星之后,将该4星评定等级与上述三个星级范围进行对比匹配,得出该上映前评论的类别为正面类别,由此对该上映前评论标注正面类别。
评论分词子单元513,用于对标注第一类别和第二类别后的每条参考评论参数进行分词操作,得到训练样本。
其中,在本申请实施例中,所述评论分词子单元513可以采用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
分类器构建子单元514,用于利用所述训练样本构建最大熵分类器。
其中,所述最大熵分类器的基本思想是为所有已知的因素建立模型,而把所有位置的因素排除在外。也就是说,所述最大熵分类器的作用是找到一个概率分布,不仅满足所有已知的时候,而且不会受到任何位置因素的影响,在本本申请实施例中,以所述目标对象为上述未上映电影为示例,依据确定为第一类别和第二类别的参考评论参数构建最大熵分类器,而抛弃被标注为不确定类别的参考评论参数,即为:依据确定为正面类别和负面类别的上映前评论构建最大熵分类器,而抛弃被标注为不确定类别的上映前评论。
以下对最大熵分类器的构建原理进行描述:
假设x是特征向量,y是样本类别的输出值。p(y|x)是样本被预测为某一类别的概率。最大熵模型要求p(y|x)在满足一定约束的条件下,必须使下面定义的熵取得最大值,即在约束集下输出最均匀分布的模型:
这里用H(p)代替H(Y|X),条件熵H(Y|X)是条件概率p(y|x)均匀性的一种数学度量方法,强调对概率分布p的依赖。对于任意给定的约束集C,需要求得满足C的所有模型中H(p)取最大值的p*:
p*=argmaxH(p)
其中p为满足约束集C条件下的统计模型。
特征fi的权重用相应的参数λi来表示,则最大熵的最终概率输出为:
其中: 称为归一化因子。
参考图7,为本申请提供的一种目标对象的目标数据的获取装置实施例七中所述数量值确定单元502的结构示意图,其中,所述数量值确定单元502包括:
概率确定子单元521,用于利用所述分类器分别确定目标对象的每条目标评论参数属于第一类别评论的第一概率及属于第二类别评论的第二概率。
以所述目标对象为未上映电影为例,所述概率确定子单元521的功能可以理解为:利用所述分类器对每条未上映评论的文本极性所对应的概率值进行判断,得出每条未上映评论分别为正面评论和负面评论的概率。
评论标记子单元522,用于分别判断每条所述目标评论参数对应的第一概率是否大于第二概率,如果是,标记所述第一概率所属的目标评论参数为第一类别评论,否则标记所述第一概率所属的目标评论参数为第二类别评论。
在上述概率确定子单元521的示例中,所述评论标记子单元522可以理解为:对所述未上映电影的每条未上映评论中,标记第一概率大于第二概率的未上映评论为正面评论,标记第一概率小于第二概率的未上映评论为负面评论。
数量值确定子单元523,用于确定在所述目标对象的目标评论参数中第一类别评论的数量为第一数量值,并确定所述目标对象的目标评论参数中第二类别评论的数量为第二数量值。
例如,在本申请实施例中,所述目标对象为未上映电影时,所述目标评论参数即为所述未上映电影的未上映评论,在所述评论标记子单元522标记完成所述每条未上映评论为正面评论或负面评论之后,所述数量值确定子单元523可以通过以下方式实现:
记录所述未上映评论中被标记为正面评论的未上映评论的数量为第一数量值,并记录所述未上映评论中被标记为负面评论的未上映评论的数量为第二数量值。
在本申请实施例中,所述最大熵分类器在构建过程中,可以对所述上映前评论进行分词操作,因此,在对未上映评论进行分类之前,可以对所述未上映评论进行分词。参考图8,为本申请提供的一种目标对象的目标数据的获取装置实施例八的部分结构示意图,所述装置还包括:
评论分词单元504,用于在所述分类器建立单元501构建分类器之后,在所述数量值确定单元502利用所述分类器对目标对象的每条目标评论参数进行分类之前,分别对目标对象的每条目标评论参数进行分词操作。
其中,所述评论分词单元504中可以利用分词软件CTCLAS进行分词操作,或者也可以采用其他分词和词性标注工具进行分词。
分词触发单元505,用于将经过分词操作的目标评论参数作为新的目标评论参数,触发所述数量值确定单元502。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种目标对象的目标数据的获取方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。