CN103778109A - 一种识别用户评论的方法及装置 - Google Patents

一种识别用户评论的方法及装置 Download PDF

Info

Publication number
CN103778109A
CN103778109A CN201410050343.9A CN201410050343A CN103778109A CN 103778109 A CN103778109 A CN 103778109A CN 201410050343 A CN201410050343 A CN 201410050343A CN 103778109 A CN103778109 A CN 103778109A
Authority
CN
China
Prior art keywords
comment
sample
targeted customer
storehouse
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410050343.9A
Other languages
English (en)
Inventor
郑伟华
周寻
傅一峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201410050343.9A priority Critical patent/CN103778109A/zh
Publication of CN103778109A publication Critical patent/CN103778109A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明实施例公开了一种识别用户评论的方法及装置,该方法包括:获取目标用户评论,对目标用户评论进行分词划分,得到N个目标分词;判断预设样本评论库是否包含目标分词,若是,计算目标用户评论在预设样本评论库的各样本类别中出现的后验概率,预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,根据目标用户评论在预设样本评论库的各样本类别中出现的后验概率,判断目标用户评论的类别;若预设样本评论库不包含目标分词,则输出目标用户评论以进行人工识别,根据人工识别结果,对预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及预设样本库中的、目标分词在该类别中的出现次数进行更新。

Description

一种识别用户评论的方法及装置
技术领域
本发明涉及互联网应用技术领域,特别涉及一种识别用户评论的方法及装置。
背景技术
随着互联网技术的发展,贴吧、论坛等极大丰富了人们的生活,用户可以在贴吧或论坛上发表自己的观点,与他人互动交流,也可以选择性地浏览贴吧或论坛上的信息。然而,一些恶意用户会在贴吧或论坛中发布广告、辱骂或纯表情等评论内容,影响其他用户的对贴吧或论坛中内容的正常浏览。
目前已经存在一种基于朴素贝叶斯分类器的识别用户评论内容的方法,该方法是将朴素贝叶斯分类器模型的分类类别的先验概率文件和每个分词在各个类别中的条件概率文件存储在内存中,在需要对贴吧或论坛中的评论内容进行识别时,将该评论内容划分为多个分词,之后在内存中查找该评论中内容中每个分词在各个类别中的条件概率和各个分类类别的先验概率,通过将每个分词在各个类别的条件概率乘以相应类别的先验概率得到该评论内容在相应类别的后验概率,比较该评论内容在各个类别中的后验概率,后验概率越大,则说明该评论内容在该后验概率对应类别中出现的几率越高,也就判断该评论内容为最大后验概率值对应的类别。
然而,由于该方法存储的是朴素贝叶斯分类器模型的概率文件,对于模型中不存在的分词,不能实现对含有该分词的用户评论的识别。
发明内容
为达到上述目的,本发明实施例公开了一种识别用户评论的方法及装置,以达到有效识别用户评论的目的。具体技术方案如下:
一种识别用户评论的方法,该方法包括:
获取目标用户评论,对所述目标用户评论进行分词划分,得到N个目标分词;
判断预设样本评论库是否包含所述目标分词,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为该a类别在所述预设样本评论库中出现的先验概率;
根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
若所述预设样本评论库不包含所述目标分词,则输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
一种识别用户评论的装置,该装置包括:
分词划分模块,用于获取目标用户评论,并对所述目标用户评论进行分词划分,得到N个目标分词;
判断模块,用于判断预设样本评论库是否包含所述目标分词,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,所述样本分词分属所述多个样本类别,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为a类别在所述预设样本评论库中出现的先验概率,并根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
学习模块,用于在预设样本评论库不包含所述目标分词的情况下,输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
上述技术方案中,与现有技术相比,如果遇到贝叶斯分类器存储模型中不存在的分词时,本发明通过人工干预的形式,将贝叶斯分类器存储模型进行修改,提高了贝叶斯分类器的动态适应性,从而在下一次遇到含有该分词的用户评论时,实现对该用户评论的有效识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种识别用户评论的方法的流程图;
图2为本发明实施例提供的一种识别用户评论的装置的结构示意图。
具体实施方式
首先对本发明实施例所提供的一种识别用户评论的方法进行说明,该方法可以包括以下步骤:
获取目标用户评论,对所述目标用户评论进行分词划分,得到N个目标分词;
判断预设样本评论库是否包含所述目标分词,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为该a类别在所述预设样本评论库中出现的先验概率;
根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
若所述预设样本评论库不包含所述目标分词,则输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
本发明实施例中,预设样本评论库中存储多个样本分词及其在各样本类别中出现的次数、该各样本类别的记录数。当预设样本评论库中不包含目标用户评论的目标分词时,通过接收人工反馈结果,更新预设样本评论库,下一次识别包含该目标分词的用户评论时,能根据更新后的预设样本评论库,计算得到该用户评论在各样本类别中出现的后验概率,进而确定该用户评论的类别,提高了本发明方法的动态适应能力。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面通过具体实施例,对本发明进行详细说明。
图1所示,为本发明实施例所提供的一种识别用户评论的方法的流程图,该方法可以包括以下步骤:
S101,获取目标用户评论,对所述目标用户评论进行分词划分,得到N个目标分词。
在本发明实施例中,“用户评论”是指来自用户或者机器的、对论坛上、社区上及视频等内容的回复和评价,例如,论坛上有一条内容是“林则徐在哪里销毁鸦片?”的帖子,一位热心用户的回复是“虎门镇”;对近期热播的亲子剧“爸爸去哪儿”的评价,来自一位用户的评价是“康福影院可以看电影高清的完整的呢。大家快去(康福影院)看。我刚看完。。太好看了”。
可以理解的是,用户评论可以是对论坛上、社区上及视频等内容的有价值回复和评价,或与主题内容毫无关联的回复和评价,本发明实施例对此不进行具体限制。
在本发明实施例中,首先对目标用户评论进行分词划分,其中,“分词划分”是指按照词语划分规则,将一条完整的用户评论分割成多个词语。例如,将“康福影院可以看电影高清的完整的呢。大家快去(康福影院)看。我刚看完。。太好看了”这一用户评论,划分成“康福”、“影院”、“可以”、“看”、“电影”、“高清”、“的”、“完整”、“的”、“呢”、“大家”、“快”、“去”、“康福”、“影院”、“看”、“我”、“刚”、“看”、“完”、“太”、“好”、“看”、“了”等23个词语;将“开发票找刘经理”这一用户评论,划分成“开”、“发票”、“找”、“刘经理”等4个词语。
本发明实施例可以采用任意一种能实现上述分词划分的方法,对此不进行具体限制。
S102,判断预设样本评论库是否包含所述目标分词,如果是,则转到S103,否则转到S104。
对目标用户评论做分词划分处理之后,判断预设样本评论库中是否包含分词划分所得到的各个目标分词。例如,对“康福影院可以看电影高清的完整的呢。大家快去(康福影院)看。我刚看完。。太好看了”这一用户评论做分词划分处理之后,判断预设样本评论库中是否包含“康福”、“影院”、“可以”、“看”、“电影”、“高清”、“的”、“完整”、“的”、“呢”、“大家”、“快”、“去”、“康福”、“影院”、“看”、“我”、“刚”、“看”、“完”、“太”、“好”、“看”、“了”等23个分词。
需要说明的是,本发明实施例的预设样本评论库是:通过对大量的样本评论进行线下训练得到的、包含多个样本分词及其在多个样本类别中出现次数和该多个样本类别的记录数的库。
在本发明实施例中,预设样本评论库中的样本类别是用户根据实际需要自行设定的类别,可以是根据评论用途设定的,例如,正常评论和垃圾评论;也可以是根据评论性质设定的,例如,广告评论、电视剧评论、音乐评论,等等,本发明实施例对此不进行具体限制。
样本类别的记录数是该样本类别中含有样本评论的数量,例如,用户设定预设样本评论库包含两个样本类别:正常评论和垃圾评论,该预设样本评论库中包含2504380条正常评论样本和376403条垃圾评论样本,因此,正常评论的记录数是2504380条,垃圾评论的记录数是376403条。
可以理解的是,预设样本评论库可以存储在内存中,以提高读写速度和处理速度。当接收到目标用户评论时,能快速的调用该库中的内容,从而实现对目标用户评论的识别。
S103,计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,根据所述后验概率,判断所述目标用户评论的类别。
本发明实施例根据公式
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率。
其中,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)=D/E,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为该a类别在所述预设样本评论库中出现的先验概率,D为第N个目标分词在a类别中出现的次数,E为a类别的记录数。
例如,用户设定预设样本评论库包含两个样本类别:正常评论和垃圾评论,正常评论的记录数是2504380条,垃圾评论的记录数是376403条,对于目标用户评论“康福影院可以看电影高清的完整的呢。大家快去(康福影院)看。我刚看完。。太好看了”,预设样本评论库中含有“康福”、“影院”、“可以”、“看”、“电影”、“高清”、“的”、“完整”、“的”、“呢”、“大家”、“快”、“去”、“康福”、“影院”、“看”、“我”、“刚”、“看”、“完”、“太”、“好”、“看”、“了”等23个分词,其中,“康福”在正常评论中出现的次数是3,在垃圾评论中出现的次数是74,“影院”在正常评论中出现的次数是1072,在垃圾评论中出现的次数是4746,“可以”在正常评论中出现的次数是115116,在垃圾评论中出现的次数是46587,“看”在正常评论中出现的次数是465481,在垃圾评论中出现的次数是90952,“电影”在正常评论中出现的次数是61888,在正常评论中出现的次数是11839,“高清”在正常评论中出现的次数是6185,在垃圾评论中出现的次数是6558,“的”在正常评论中出现的次数是3058366,在垃圾评论中出现的次数是657998,“完整”在正常评论中出现的次数是3756,在垃圾评论中出现的次数是568,“的”在正常评论中出现的次数是3058366,在垃圾评论中出现的次数是657998,“呢”在正常评论中出现的次数是115656,在垃圾评论中出现的次数是15106,“大家”在正常评论中出现的次数是59508,在垃圾评论中出现的次数是17401,“快”在正常评论中出现的次数是55847,在垃圾评论中出现的次数是10610,“去”在正常评论中出现的次数是178781,在垃圾评论中出现的次数是33790,“康福”在正常评论中出现的次数是3,在垃圾评论中出现的次数是74,“影院”在正常评论中出现的次数是1072,在垃圾评论中出现的次数是4746,“看”在正常评论中出现的次数是465481,在垃圾评论中出现的次数是90952,“我”在正常评论中出现的次数是977554,在垃圾评论中出现的次数是155242,“刚”在正常评论中出现的次数是18956,在垃圾评论中出现的次数是7294,“看”在正常评论中出现的次数是465481,在垃圾评论中出现的次数是90952,“完”在正常评论中出现的次数是33282,在垃圾评论中出现的次数是8979,“太”在正常评论中出现的次数是197362,在垃圾评论中出现的次数是37857,“好看”在正常评论中出现的次数是70410,在垃圾评论中出现的次数是23157,“了”在正常评论中出现的次数是1350457,在垃圾评论中出现的次数是242874。
其中,该目标用户评论在正常评论中出现的后验概率
P=P(康福∣正常评论)·P(影院∣正常评论)·P(可以∣正常评论)·P(看∣正常评论)·P(电影∣正常评论)·P(高清∣正常评论)·P(完整∣正常评论)·P(呢∣正常评论)·P(大家∣正常评论)·P(快∣正常评论)·P(去∣正常评论)·P(康福∣正常评论)·P(影院∣正常评论)·P(看∣正常评论)·P(我∣正常评论)·P(刚∣正常评论)·P(看∣正常评论)·P(完∣正常评论)·P(太∣正常评论)·P(好看∣正常评论)·P(了∣正常评论)·P(正常评论);
该目标用户评论在垃圾评论中出现的后验概率
P′=P(康福∣垃圾评论)·P(影院∣垃圾评论)·P(可以∣垃圾评论)·P(看∣垃圾评论)·P(电影∣垃圾评论)·P(高清∣垃圾评论)·P(完整∣垃圾评论)·P(呢∣垃圾评论)·P(大家∣垃圾评论)·P(快∣垃圾评论)·P(去∣垃圾评论)·P(康福∣垃圾评论)·P(影院∣垃圾评论)·P(看∣垃圾评论)·P(我∣垃圾评论)·P(刚∣垃圾评论)·P(看∣垃圾评论)·P(完∣垃圾评论)·P(太∣垃圾评论)·P(好看∣垃圾评论)·P(了∣垃圾评论)·P(垃圾评论)。
需要说明的是,“的”这类无意义的助词不会影响一条用户评论是否为垃圾评论的概率,为了保证数据计算的严谨性,在计算后验概率时,去掉“的”这类无意义的助词。
可以理解的是,由于上述概率都是小数,多个小数相乘会导致乘积结果非常小。为使比较结果更为直观,可以对上述概率取ln值,即P=s*t,lnP=ln(s*t)=ln(s)+ln(t)。
对该目标用户评论在正常评论中出现的后验概率取ln处理得到
lnP=lnP(康福∣正常评论)+lnP(影院∣正常评论)+lnP(可以∣正常评论)+lnP(看∣正常评论)+lnP(电影∣正常评论)+lnP(高清∣正常评论)+lnP(完整∣正常评论)+lnP(呢∣正常评论)+lnP(大家∣正常评论)+lnP(快∣正常评论)+lnP(去∣正常评论)+lnP(康福∣正常评论)+lnP(影院∣正常评论)+lnP(看∣正常评论)+lnP(我∣正常评论)+lnP(刚∣正常评论)+lnP(看∣正常评论)+lnP(完∣正常评论)+lnP(太∣正常评论)+lnP(好看∣正常评论)+lnP(了∣正常评论)+lnP(正常评论);
对该目标用户评论在垃圾评论中出现的后验概率取ln处理得到
lnP′=lnP(康福∣垃圾评论)+lnP(影院∣垃圾评论)+lnP(可以∣垃圾评论)+lnP(看∣垃圾评论)+lnP(电影∣垃圾评论)+lnP(高清∣垃圾评论)+lnP(完整∣正常评论)+lnP(呢∣垃圾评论)+lnP(大家∣垃圾评论)+lnP(快∣垃圾评论)+lnP(去∣垃圾评论)+lnP(康福∣垃圾评论)+lnP(影院∣垃圾评论)+lnP(看∣垃圾评论)+lnP(我∣垃圾评论)+lnP(刚∣垃圾评论)+lnP(看∣垃圾评论)+lnP(完∣垃圾评论)+lnP(太∣垃圾评论)+lnP(好看∣垃圾评论)+lnP(了∣垃圾评论)+lnP(垃圾评论)。
正常评论出现的先验概率的ln值
lnP(正常评论)=-0.1400209332841508,
垃圾评论出现的先验概率
lnP(垃圾评论)=-2.035157033254798;
“康福”在正常评论中出现的条件概率的ln值
P(康福∣正常评论)=ln(3/2504380)=-13.634939468208557,
“康福”在垃圾评论中出现的条件概率的ln值
P(康福∣垃圾评论)=ln(74/376403)=-8.534350563701851;
“影院”在正常评论中出现的条件概率的ln值
P(影院∣正常评论)=ln(1072/2504380)=-7.75627041524592,
“影院”在垃圾评论中出现的条件概率的ln值
P(影院∣垃圾评论)=ln(4746/376403)=-4.373358219910311;
“可以”在正常评论中出现的条件概率的ln值
P(可以∣正常评论)=ln(46587/376403)=-2.0893388456687214,
“可以”在垃圾评论中出现的条件概率的ln值
P(可以∣垃圾评论)=ln(115116/2504380)=-3.0798561622707195;
“看”在正常评论中出现的条件概率的ln值
P(看∣正常评论)=ln(90952/376403)=-1.4203284830970777,
“看”在垃圾评论中出现的条件概率的ln值
P(看∣垃圾评论)=ln(465481/2504380)=-1.682725198336948;
“电影”在正常评论中出现的条件概率的ln值
P(电影∣正常评论)=ln(11839/376403)=-3.459261211494384,
“电影”在垃圾评论中出现的条件概率的ln值
P(电影∣垃圾评论)=ln(61888/2504380)=-3.7004701780637013;
“高清”在正常评论中出现的条件概率的ln值
P(高清∣正常评论)=ln(6185/2504380)=-6.003669472050079,
“高清”在垃圾评论中出现的条件概率的ln值
P(高清∣垃圾评论)=ln(6558/376403)=-4.049974699501426;
“的”在正常评论中出现的条件概率的ln值
P(的∣正常评论)=ln(3058366/2504380)=0.1998395875019976,
“的”在垃圾评论中出现的条件概率的ln值
P(的∣垃圾评论)=ln(657998/376403)=0.5585415138831369;
“完整”在正常评论中出现的条件概率的ln值
P(完整∣正常评论)=ln(3756/2504380)=-6.502441916548514,
“完整”在垃圾评论中出现的条件概率的ln值
P(完整∣垃圾评论)=ln(568/376403)=-6.496294238184869;
“的”在正常评论中出现的条件概率的ln值
P(的∣正常评论)=ln(657998/376403)=0.5585415138831369,
“的”在垃圾评论中出现的条件概率的ln值
P(的∣垃圾评论)=ln(3058366/2504380)=0.1998395875019976;
“呢”在正常评论中出现的条件概率的ln值
P(呢∣正常评论)=ln(115656/2504380)=-3.075176209888389,
“呢”在垃圾评论中出现的条件概率的ln值
P(呢∣垃圾评论)=ln(15106/376403)=-3.215568362032627;
“大家”在正常评论中出现的条件概率的ln值
P(大家∣正常评论)=ln(59508/2504380)=-3.739685720599533,
“大家”在垃圾评论中出现的条件概率的ln值
P(大家∣垃圾评论)=ln(17401/376403)=-3.074132702090442;
“快”在正常评论中出现的条件概率的ln值
P(快∣正常评论)=ln(55847/2504380)=-3.8031806691309025,
“快”在垃圾评论中出现的条件概率的ln值
P(快∣垃圾评论)=ln(10610/376403)=-3.5688634252979914;
“去”在正常评论中出现的条件概率的ln值
P(去∣正常评论)=ln(178781/2504380)=-2.639634884783636,
“去”在垃圾评论中出现的条件概率的ln值
P(去∣垃圾评论)=ln(33790/376403)=-2.4104954771976845;
“康福”在正常评论中出现的条件概率的ln值
P(康福∣正常评论)=ln(3/2504380)=-13.634939468208557,
“康福”在垃圾评论中出现的条件概率的ln值
P(康福∣垃圾评论)=ln(74/376403)=-8.534350563701851;
“影院”在正常评论中出现的条件概率的ln值
P(影院∣正常评论)=ln(1072/2504380)=-7.75627041524592,
“影院”在垃圾评论中出现的条件概率的ln值
P(影院∣垃圾评论)=ln(4746/376403)=-4.373358219910311;
“看”在正常评论中出现的条件概率的ln值
P(看∣正常评论)=ln(90952/376403)=-1.4203284830970777,
“看”在垃圾评论中出现的条件概率的ln值
P(看∣垃圾评论)=ln(465481/2504380)=-1.682725198336948;
“我”在正常评论中出现的条件概率的ln值
P(我∣正常评论)=ln(977554/2504380)=-0.9407429445940939,
“我”在垃圾评论中出现的条件概率的ln值
P(我∣垃圾评论)=ln(155242/376403)=-0.8856751882286605;
“刚”在正常评论中出现的条件概率的ln值
P(刚∣正常评论)=ln(18956/2504380)=-4.883675973789188,
“刚”在垃圾评论中出现的条件概率的ln值
P(刚∣垃圾评论)=ln(7294/376403)=-3.943608285537395;
“看”在正常评论中出现的条件概率的ln值
P(看∣正常评论)=ln(90952/376403)=-1.4203284830970777,
“看”在垃圾评论中出现的条件概率的ln值
P(看∣垃圾评论)=ln(465481/2504380)=-1.682725198336948;
“完”在正常评论中出现的条件概率的ln值
P(完∣正常评论)=ln(33282/2504380)=-4.320779767593378,
“完”在垃圾评论中出现的条件概率的ln值
P(完∣垃圾评论)=ln(8979/376403)=-3.7357718603852117;
“太”在正常评论中出现的条件概率的ln值
P(太∣正常评论)=ln(197362/2504380)=-2.540756871959068,
“太”在垃圾评论中出现的条件概率的ln值
P(太∣垃圾评论)=ln(37857/376403)=-2.296844474585;
“好看”在正常评论中出现的条件概率的ln值
P(好看∣正常评论)=ln(70410/2504380)=-3.5714611793634883,
“好看”在垃圾评论中出现的条件概率的ln值
P(好看∣垃圾评论)=ln(23157/376403)=-2.7883632672880565;
“了”在正常评论中出现的条件概率的ln值
P(了∣正常评论)=ln(1350457/2504380)=-0.6175981452280028,
“了”在垃圾评论中出现的条件概率的ln值
P(了∣垃圾评论)=ln(242874/376403)=-0.43811758757906827。
lnP=(-13.634939468208557)+(-7.75627041524592)+(-3.0798561622707195)+(-1.682725198336948)+(-3.7004701780637013)+(-6.003669472050079)+(-6.502441916548514)+(-3.075176209888389)+(-3.739685720599533)+(-3.8031806691309025)+(-2.639634884783636)+(-13.634939468208557)+(-7.75627041524592)+(-1.682725198336948)+(-0.9407429445940939)+(-4.883675973789188)+(-1.682725198336948)+(-4.320779767593378)+(-2.540756871959068)+(-3.5714611793634883)+(-0.6175981452280028)=-96.5903880410586448;
lnP′=(-8.534350563701851)+(-4.373358219910311)+(-2.0893388456687214)+(-1.4203284830970777)+(-3.459261211494384)+(-4.049974699501426)+(-6.496294238184869)+(-3.215568362032627)+(-3.074132702090442)+(-3.5688634252979914)+(-2.4104954771976845)+(-8.534350563701851)+(-4.373358219910311)+(-1.4203284830970777)+(-0.8856751882286605)+(-3.943608285537395)+(-1.4203284830970777)+(-3.7357718603852117)+(-2.296844474585)+(-2.7883632672880565)+(-0.43811758757906827)=-72.32870361930935。
在本发明的一个具体实施方式中,根据所述后验概率,判断所述目标用户评论的类别,具体包括:比较所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率值,判断所述目标用户评论属于最大的后验概率值对应的样本类别。
例如,目标用户评论“康福影院可以看电影高清的完整的呢。大家快去(康福影院)看。我刚看完。。太好看了”在正常评论中出现的后验概率取ln处理得到lnP=-96.5903880410586448,在垃圾评论中出现的后验概率取ln处理得到lnP′=-72.32870361930935,由于ln函数是一个单调递增函数,lnP′>lnP,故P′>P,该目标用户评论在垃圾评论中出现的后验概率较高,因此判断该目标用户评论是垃圾评论。
S104,输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
在本发明的一个具体实施方式中,根据人工识别结果,对所述预设样本评论库中的样本分词出现次数以及样本类别记录数进行更新,具体包括:根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数,分别进行加1处理,实现了对预设样本评论库中内容的更新。
下一次识别包含该目标分词的用户评论时,能根据更新后的预设样本评论库,计算得到该用户评论在各样本类别中出现的后验概率,进而确定该用户评论的类别,提高了本发明方法的动态适应能力。
例如,对于目标用户评论“南通办假承兑汇票【电刘经理.15218884575】”,预设样本评论库中不包含“刘经理”这一分词,将该目标用户评论发送给审核员进行人工识别,人工识别确定该目标用户评论是垃圾评论,本发明装置实施例的学习模块接收人工识别结果,并对预设样本评论库中的垃圾评论记录数加1,对“南通”、“办”、“假”、“承兑”、“汇票”,“电”以及“刘经理”在垃圾评论中出现的次数分别加1。下一次识别包含“刘经理”的用户评论时,可以直接从更新后的预设样本评论库中调取“刘经理”这个词在各类别中出现的次数来进行后验概率的计算,从而实现对该用户评论的识别。
在预设样本评论库中只含有正常评论和垃圾评论两个样本类别的情况下,本发明实施例所提供的一种识别用户评论的优选实施方式中,S103可以包括:
计算C=A/B;
如果C满足第一预设范围,则判断所述目标用户评论为垃圾评论;
如果C满足第二预设范围,则判断所述目标用户评论为正常评论;
如果C满足第三预设范围,则将所述目标用户评论输出以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
例如,第一预设范围设置为低于0.76的范围,目标用户评论“康福影院可以看电影高清的完整的呢。大家快去(康福影院)看。我刚看完。。太好看了”在正常评论中出现的后验概率取ln处理得到lnP=-96.5903880410586448,在垃圾评论中出现的后验概率取ln处理得到lnP′=-72.32870361930935,lnP′/lnP=0.7572609108875018<0.76,因此判断该目标用户评论是垃圾评论。
需要说明的是,依据一般经验,预设范围通常取不高于0.76的范围,第二预设范围取高于0.95的范围,第三预设范围取0.76~0.95;当然用户也可以根据实际需求自行设定预设范围,本发明实施例对此不进行具体限制。
可以理解的是,与前一实施方式相比,本实施方式通过设定预设范围,提高了对用户评论进行识别的准确性。
相应于上面的方法实施例,本发明还提供一种识别用户评论的装置,参见图2所示,该装置可以包括:
分词划分模块201,用于获取目标用户评论,并对所述目标用户评论进行分词划分,得到N个目标分词;
判断模块202,用于判断所述目标分词是否包含在预设样本评论库中,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,所述样本分词分属所述多个样本类别,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为a类别在所述预设样本评论库中出现的先验概率,并根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
学习模块203,用于在所述目标分词不包含在预设样本评论库中的情况下,输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
在本发明的一个具体实施方式中,所述判断模块202根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别,具体包括:
比较所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率值,判断所述目标用户评论属于对应最高后验概率值的样本类别。
在预设样本评论库只含有正常评论和垃圾评论两个样本类别的情况下,在本发明的另一个具体实施方式中,所述判断模块202根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别,具体包括:
计算C=A/B;
如果C满足第一预设范围,则判断所述目标用户评论为垃圾评论;
如果C满足第二预设范围,则判断所述目标用户评论为正常评论;
如果C满足第三预设范围,则将所述目标用户评论输出以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
需要说明的是,依据一般经验,预设范围通常取不高于0.76的范围,第二预设范围取高于0.95的范围,第三预设范围取0.76~0.95;当然用户也可以根据实际需求自行设定预设范围,本发明实施例对此不进行具体限制。
在本发明的一个具体实施例中,所述学习模块S302根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新,具体包括:
根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数,分别进行加1处理。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种识别用户评论的方法,其特征在于,该方法包括:
获取目标用户评论,对所述目标用户评论进行分词划分,得到N个目标分词;
判断预设样本评论库是否包含所述目标分词,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为该a类别在所述预设样本评论库中出现的先验概率;
根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
若所述预设样本评论库不包含所述目标分词,则输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别,具体包括:
比较所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率值,判断所述目标用户评论属于最大的后验概率值对应的样本类别。
3.根据权利要求1所述的方法,其特征在于,所述样本类别包括:正常评论和垃圾评论。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别,具体包括:
计算C=A/B;
如果C满足第一预设范围,则判断所述目标用户评论为垃圾评论;
如果C满足第二预设范围,则判断所述目标用户评论为正常评论;
如果C满足第三预设范围,则将所述目标用户评论输出以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
5.根据权利要求1所述的方法,其特征在于,所述对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新,具体包括:
对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数,分别进行加1处理。
6.一种识别用户评论的装置,其特征在于,该装置包括:
分词划分模块,用于获取目标用户评论,并对所述目标用户评论进行分词划分,得到N个目标分词;
判断模块,用于判断预设样本评论库是否包含所述目标分词,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,所述样本分词分属所述多个样本类别,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为a类别在所述预设样本评论库中出现的先验概率,并根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
学习模块,用于在预设样本评论库不包含所述目标分词的情况下,输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
7.根据权利要求6所述的装置,其特征在于,所述判断模块根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别,具体包括:
比较所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率值,判断所述目标用户评论属于最大的后验概率值对应的样本类别。
8.根据权利要求6所述的装置,其特征在于,所述样本类别包括:正常评论和垃圾评论。
9.根据权利要求8所述的装置,其特征在于,所述判断模块根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别,具体包括:
计算C=A/B;
如果C满足第一预设范围,则判断所述目标用户评论为垃圾评论;
如果C满足第二预设范围,则判断所述目标用户评论为正常评论;
如果C满足第三预设范围,则将所述目标用户评论输出以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
10.根据权利要求6所述的装置,其特征在于,所述学习模块对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新,具体包括:
对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数,分别进行加1处理。
CN201410050343.9A 2014-02-13 2014-02-13 一种识别用户评论的方法及装置 Pending CN103778109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410050343.9A CN103778109A (zh) 2014-02-13 2014-02-13 一种识别用户评论的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410050343.9A CN103778109A (zh) 2014-02-13 2014-02-13 一种识别用户评论的方法及装置

Publications (1)

Publication Number Publication Date
CN103778109A true CN103778109A (zh) 2014-05-07

Family

ID=50570356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410050343.9A Pending CN103778109A (zh) 2014-02-13 2014-02-13 一种识别用户评论的方法及装置

Country Status (1)

Country Link
CN (1) CN103778109A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
CN105893432A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 视频评论分类方法、视频评论显示系统以及服务器
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN107885768A (zh) * 2017-09-27 2018-04-06 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN108108348A (zh) * 2017-11-17 2018-06-01 腾讯科技(成都)有限公司 信息的处理方法、服务器、存储介质和电子装置
CN108170738A (zh) * 2017-12-15 2018-06-15 北京奇艺世纪科技有限公司 一种视觉设计界面评估方法、装置及电子设备
CN110633351A (zh) * 2018-05-30 2019-12-31 北京百度网讯科技有限公司 用于处理评论的方法、装置、设备和计算机可读存储介质
CN112667886A (zh) * 2020-12-02 2021-04-16 浙江学海教育科技有限公司 不当评论检测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘星: "基于融合分类器的垃圾评论识别方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 7, 15 July 2012 (2012-07-15) *
陆青梅: "基于贝叶斯算法的垃圾邮件过滤研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 11, 15 November 2008 (2008-11-15), pages 48 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462509A (zh) * 2014-12-22 2015-03-25 北京奇虎科技有限公司 垃圾评论检测方法及装置
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
CN105183715B (zh) * 2015-08-31 2018-02-09 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
CN105893432A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 视频评论分类方法、视频评论显示系统以及服务器
CN107885768A (zh) * 2017-09-27 2018-04-06 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN107885768B (zh) * 2017-09-27 2021-08-20 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN108108348A (zh) * 2017-11-17 2018-06-01 腾讯科技(成都)有限公司 信息的处理方法、服务器、存储介质和电子装置
CN108170738A (zh) * 2017-12-15 2018-06-15 北京奇艺世纪科技有限公司 一种视觉设计界面评估方法、装置及电子设备
CN110633351A (zh) * 2018-05-30 2019-12-31 北京百度网讯科技有限公司 用于处理评论的方法、装置、设备和计算机可读存储介质
CN112667886A (zh) * 2020-12-02 2021-04-16 浙江学海教育科技有限公司 不当评论检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN103778109A (zh) 一种识别用户评论的方法及装置
KR102008000B1 (ko) 매체 프로그램들 사이의 유사성 계산
AU2012352903B2 (en) Video recommendation based on video co-occurrence statistics
CN106303675B (zh) 一种视频片段提取方法和装置
CN103064826B (zh) 一种用于表情输入的方法、装置与系统
US20180101614A1 (en) Machine Learning-Based Data Aggregation Using Social Media Content
CN107172454A (zh) 一种视频推荐方法、介质、装置和计算设备
US9529893B1 (en) Search engine analytics and optimization for media content in social networks
KR20120088650A (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
CN110851712B (zh) 书籍信息的推荐方法、设备以及计算机可读介质
CN109429103B (zh) 推荐信息的方法、装置及计算机可读存储介质、终端设备
US11599822B1 (en) Generation and use of literary work signatures reflective of entity relationships
Jin et al. MySpace video recommendation with map-reduce on qizmt
CN104102683A (zh) 用于增强视频显示的上下文查询
US20160147887A1 (en) Optimizing faceted classification
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
CN111107416A (zh) 一种弹幕屏蔽方法、装置及电子设备
US10699078B2 (en) Comment-centered news reader
CN102959539A (zh) 一种业务交叉时的项目推荐方法及系统
CN105930423A (zh) 多媒体相似度确定方法、装置以及多媒体推荐方法
Shikalgar et al. JIBCA: Jaccard index based clustering algorithm for mining online review
CN110430448A (zh) 一种弹幕处理方法、装置及电子设备
CN107369066B (zh) 一种评论对象之间的特征比较方法及装置
US20150227970A1 (en) System and method for providing movie file embedded with advertisement movie
CN103970813A (zh) 多媒体内容的搜寻方法与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140507

RJ01 Rejection of invention patent application after publication