发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种对互联网用户评论内容自动过滤的方法,其包括如下步骤:
步骤(1)如果评论内容审核未通过则将该评论内容放入样本库中,自动识别模块将与视频内容不相关的评论内容过滤到样本库中;
步骤(2)对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库;
步骤(3)对用户针对视频的评论内容按照指纹规则生成评论内容指纹,与样本指纹库中的样本指纹进行匹配,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个匹配分数值大于预定阈值时,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核。
进一步,指纹规则包括以下几种:
指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;
指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;
指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
进一步,指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。
进一步,还可添加其他指纹规则。
进一步,步骤(1)所述不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
进一步,还可以设立白名单,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
本发明还提供了一种对互联网用户评论内容自动过滤的装置,其包括如下单元:样本库,存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容;样本指纹库,存有对样本库中的评论内容根据指纹规则生成的样本指纹特征;评论内容指纹生成单元,对用户针对视频的评论内容按照指纹规则生成评论内容指纹;匹配单元,将评论内容指纹与样本指纹库中的样本指纹进行匹配;
匹配分析单元,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个匹配分数值大于预定阈值时,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核。
进一步,指纹规则包括以下几种:
指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;
指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;
指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
进一步,指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。
进一步,还可添加其他指纹规则。
进一步,所述自动识别模块过滤的不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
进一步,还可以在样本指纹库中设置作为白名单的样本指纹,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
本发明取得了以下技术效果:自动过滤需要屏蔽的内容,提高了系统效率。建立了基于内容的“白名单”“黑名单”机制,避免了重复审核的工作,提高了审核效率。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
这里的指纹是指从文本中提取的内容,本发明中把这个内容叫做评论的指纹特征,简称指纹。提取结果与指纹规则有关,本发明中可加入多种指纹规则,是可扩展的。比如一个评论内容为“昨天你吃晚饭了吗”,根据某个指纹规则可变为“昨天你吃晚饭”。(指纹规则实质就是把文本中主要汉字保留)指纹规则例如可以具体实现如下:设置一个专有的停用词词表,该词表列出来哪些字可以删除,例如“的”、“了”、“吗”等。去掉这些词不影响原句主要意思,能加快计算速度。
生成样本指纹特征是根据样本内容和后面所述的指纹规则生样本指纹特征(这里不设置指纹级别),保存在指纹存储库中。“生成样本指纹特征”实质就是把样本中的文本通过指纹规则生成新的文本,把新生成的文本叫做样本指纹特征。
评论样本内容。评论样本内容为大量的需要屏蔽的评论内容,这些样本内容主要来源于内容人工审核未通过和自动识别模块。
自动识别模块的功能实现如下a、如果发现大量相同内容,则推送至样本库,由于这些内容为需要屏蔽的内容,以后会重复出现所以加入到样本中,这里所述的大量相同内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值(例如可以设置为10-20条)时,可以判断为样本内容。b、以评论时用户登录的用户名或IP地址为维度,发现一个用户或IP在不同频道下发送多条相似内容(计算相似度的方法与背景技术中描述的本申请人的在先申请相同,当计算的相似度超过一定阈值时,可判定为相似内容,该阈值可人工设定),这些内容多数与视频内容不相关系,则判定为样本内容。后台运营人员可操作样本内容,如删除,新增等操作。后台有一个系统专门用于垃圾评论内容发现。
指纹规则。指纹规则是指生成指纹特征的方法,把这个方法叫做指纹规则。
本发明定义了多个指纹规则,所以一个评论样本或者一个评论内容可以生成多个样本指纹特征或评论内容指纹特征。
指纹规则1:评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符。设定指纹级别为1级(1级代表的意思是对原文意思的影响最小)。
优选地,指纹规则1还包括按照每个字符的计算机内码进行排序。
指纹规则2:按照分词词表对评论样本或评论内容文本分词(分词词表后台维护,可包括常用词语、地名、人名等),去掉停用词词表中列出的停用词(停用词词表后台维护,诸如包括“的”、“了”、“么”等),然后根据对剩余词进行排重。设定指纹级别为1级(也就是认为指纹规则2对原文意思的影响也最小,与指纹规则1一样,同样都设定为1级)。
优选地,指纹规则2还包括按照每个字符的计算机内码进行排序。
指纹规则3:按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理。设定指纹级别为2级。举例:“今天天气很不错”,根据分词词表进行分词处理后为:“今天天气不错”。
优选地,指纹规则3还包括对每个分词进行切字处理(切字处理指的是对每一分词切割为单个字)后对每个字符按照计算机内码进行排序,首先按照分词的首字符的计算机内码进行分词的排序,在首字符相同的情况下按照第二位置的字符的计算机内码进行排序,依此类推。
指纹规则N:还可添加其他指纹规则,本系统中指纹规则可以再次添加修改。
生成样本指纹。将所有评论样本内容通过上面所述的指纹规则生成多个样本指纹特征,再提取样本长度(即样本内容字符的个数,也即未经过处理的样本内容实际长度)保存这信息到数据存储引擎中。
评论内容。用户发表评论后,这些评论内容需要进入评论内容过滤服务(本系统)进行一次识别,标记内容是否为需要屏蔽的内容,如果是则过滤。
指纹匹配。新发表评论内容通过指纹规则生成多个指纹特征,将这些指纹特征与样本指纹存储库中的样本指纹进行匹配(即多个评论内容指纹特征与多个样本指纹之间的匹配,因此存在多次匹配成功的情况,也就是说可能出现后述的多个匹配分数值)。匹配从与指纹级别为1的样本指纹开始,指纹级别相同的随机选择,只要有一个匹配成功即可停止。这里的匹配采用背景技术中描述的本申请人在先申请的匹配技术,也就是说,采用计算的Dice系数作为相似度,当相似度超过预设值时,认定为匹配,Dice系统的具体计算过程如上所述。
如果匹配成功,说明该内容为与样本内容高度相似。指纹匹配分析:(1)获取匹配上的指纹级别,指纹级别是对匹配结果分析的一个重要因素。指纹级别是在设计指纹规则时设定,设定级别1、2、3等级别,数字越小,匹配结果的得分越大。指纹级别表示为level。(2)计算评论内容与样本内容的相似度,评论与样本匹配成功后,使用(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数)估算得出相似度sim(F)。(3)计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1。其中sim(F)为相似度得分,level为指纹级别,当score与预定阈值比较后判断为大于预定阈值,则认定该评论内容为需要屏蔽的内容,自动进行过滤处理。当score小于预定阈值时,继续后续的匹配,
也就是说,只要其中一个匹配分数值大于预定阈值,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核。
如果匹配不成功,则不作任何处理,也不进行后续的指纹匹配分析。
本发明所取得的技术效果有如下:
自动过滤需要屏蔽的内容,提高了系统效率。
建立内容“黑名单”“白名单”作为样本库,黑名单表示需要屏蔽的内容,白名单表示安全内容不需要再次审核。通过内容匹配,如果与“黑名单”内容匹配成功则可送去人工审核或直接删除,如果与白名单内容匹配成功,则可立即发布到评论中,减少人工审核工作量。
快速评论内容匹配,评论内容快速响应至评论区域或评论内容被屏蔽。
本发明建立了一种基于内容的“白名单”“黑名单”机制,尽量避免重复审核的工作,提高了审核效率。
如图1所示,本发明装置包括如下单元:样本库,存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容;样本指纹库,存有对样本库中的评论内容根据指纹规则生成的样本指纹特征;评论内容指纹生成单元,对用户针对视频的评论内容按照指纹规则生成评论内容指纹;匹配单元,将评论内容指纹与样本指纹库中的样本指纹进行匹配;匹配分析单元,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个恶匹配分数值大于预定阈值,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值,也就是说,没有任何一个匹配分数值大于预定阈值,则推送至人工进行审核。
指纹规则包括以下几种:指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
优选地,指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。还可添加其他指纹规则。
所述自动识别模块过滤的不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
还可以在样本指纹库中设置作为白名单的样本指纹,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,例如调整接口调用顺序、改变消息格式和内容、使用不同的编程语言(如C、C++、Java等)实现等。这些都在本发明的权利要求所限定的保护范围内。