CN103020140A

CN103020140A - 一种对互联网用户评论内容自动过滤的方法和装置

Info

Publication number: CN103020140A
Application number: CN2012104770675A
Authority: CN
Inventors: 陈学文; 张宇峰; 姚健; 潘柏宇; 卢述奇
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: Alibaba China Co Ltd; Youku Network Technology Beijing Co Ltd
Priority date: 2012-11-21
Filing date: 2012-11-21
Publication date: 2013-04-03
Anticipated expiration: 2032-11-21
Also published as: CN103020140B

Abstract

本发明提供了一种对互联网用户评论内容自动过滤的方法和装置，该方法包括：如果评论内容审核未通过则将该评论内容放入样本库中，自动识别模块将与视频内容不相关的评论内容过滤到样本库中；对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库；对用户针对视频的评论内容按照指纹规则生成评论内容指纹，与样本指纹库中的样本指纹进行匹配，匹配成功后计算匹配分数，其中一个的匹配分数大于预定阈值时，该评论内容可自动过滤，当最大的匹配分数值小于预定阈值时，送去人工审核。该装置包括：样本库、存有样本指纹特征的样本指纹库、将评论内容指纹与样本指纹进行匹配的匹配单元、计算匹配分数的匹配分析单元。

Description

一种对互联网用户评论内容自动过滤的方法和装置

技术领域

本发明属于互联网数据分析技术领域，尤其涉及一种对互联网用户评论内容自动过滤的方法和装置。

背景技术

随着互联网技术的发展，以WEB2.0技术为基础，各种互联网应用得以普遍应用，例如，BBS、社交平台等，在这些平台上，用户不再被动的接收信息，而是可以随时随地将自己的观点和想法通过互联网发布。然而，由于无法从技术上阻止用户发布不规范的内容，所以导致用户在互联网上所发布的言论不能围绕其所讨论的主题。例如，在视频网站上，网站通常为视频播放提供评论平台，以让观看用户发表自己的观看评论。然而，在视频评论中经常充斥着各种各样的评论行为，有些评论内容和视频内容无关。大量的重复评论会对视频评论产生消极的影响，影响整体评论质量，不利于建立优质的评论环境。比如：一个视频下的重复评论内容过多会影响自动精华评论的识别，所以需要有效的防止精华评论中出现这些内容。针对这种情况，现有技术中通常在热门视频区域的评论内容进行人工审核，去掉低俗、无关等需要屏蔽的评论信息，运营高质量评论内容。但重复性评论内容会多次引起审核，影响工作效率，增大了系统的处理负荷，需要人工干预，导致用户发表的评论内容不能尽快的呈现在评论区域。

本发明采用了正如本申请人申请的申请号为：201210132078X的发明专利申请中描述的一种快速计算评论相似度的方法，该方法包括了以下步骤：具体执行过程如下：S1、提取新评论关键字；具体提取过程如下：步骤S11，将评论原始文本转化为可用处理文本，如去掉内部标签、表情等信息；转化程序可以使用自身程序来进行文本处理，例如，可以将短文本中的内部标签、新浪微博标签、表情标签信息去掉，仅抽取评论的自身内容。步骤S12，接着使用分词程序对已处理的评论文本进行分词；该过程可以使用自身程序实现，也可以使用第三方中文分词程序，词典从互联网上抓取，从而可以不断丰富了本地分词词库；分词算法采用最大逆向匹配原则，根据词典中的词对文本进行分词。步骤S13，根据文本分词结果，抽取名词、动词等句子主干；抽取名词、动词、形容词等是根据程序进行词性标注得来的，使用外部程序完成。步骤S14，最后根据停用词词表进一步过滤步骤S13所得到特征关键字，最终提取得到有用的新的评论关键字。停用词词表中的词，表示这些词对文本意思的影响不大，可以忽略。停用词词表部分来源于互联网，少部分使用统计方法得出，比如统计大规模评论中发现后“沙发”这个关键字得分非常低，可以加入停用词词表。此外，更多的停用词，例如：似乎、的、当然等等。S2、为提取的每个关键字查倒排索引及文本信息，找出与新评论文本有相同关键字的文本；对每个关键字建立一个索引，索引文本为需要做相似度分析的文本。倒排索引的目的以便于快速查找文本及文本信息；倒排索引是搜索引擎中使用的一种技术方法。倒排索引实质是根据文本中的关键词建立一个查找机制，来查找文本的一种方法。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。建立倒排索引具体过程如下：定义两张表a和b；其中，表a的每一行存储评论的文本、抽取的特征关键字信息、以及一个代表文本的唯一id号；表b是每一行存储关键字及一组id序列。根据表a的文本所生成关键字对应一个文本的id序列。表b生成规则是：遍历表a中所有文本，对每一个文本中出现的关键字，将id号添加到表b关键字对应的id序列中，如果没有该关键字则加入一组新的关键字。倒排索引使用过程，例如，找出含有关键字“你好”的文档，可以根据表b快速定位到关键字“你好”，并获取到对应的id序列，根据id查找表a中id对应的文档。S3、计算新评论文本与索引文本间相同关键字的数量；具体过程如下：根据S2步骤中新评论文本与其他所有文本中包含相同的关键字的索引文本，计算新评论文本与所有文本的关键字个数，由于S2步骤已经找出了与新文本有相同关键字的文本，所以本步骤中“所有文本”是一个被简化的区间，所得到的结果为文本间相同关键字的个数，这个关键字个数就是下面相似度计算公式Dice方法中comm(s1，s2)值。统计各文本与新文本之间相同特征的信息，这一信息可以是关键字，文本特征只使用文本中的关键字来表示，所以计算相似度的时候只使用S1步骤中抽取出来的特征关键字。评论特征信息指公式中leng(s2)这个值，这个值表示使用特种关键字计算的一个文本信息值，在计算文本相似度时，该值为文本中特征关键字的个数。这个值可以保存在S2的表a中，以方便与其他文本进行相似度时使用。S4、根据新评论文本与索引文本间相同关键字的数量计算新文本与索引中文本的相似度；该步骤的具体实现过程如下：步骤S41，采用采用布尔权重的方法计算特征关键字权重；由于评论内容为短文本，文本包含的特征词数量较少，所以采用布尔权重的方法计算特征权重；常用的特征权重方法有：布尔权重、词频(tf)权重、tf-idf权重。步骤S42，根据步骤S41获得的各个关键字的权重，采用Dice系数计算文本相似度，以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度；Dice系数计算公式为：Dice(s1，s2)＝2×comm(s1，s2)/(leng(s1)+leng(s2))；其中，comm(s1，s2)是s1、s2中相同字符的个数，leng(s1)，leng(s2)是字符串s1、s2的长度。

发明内容

鉴于现有技术中存在的问题，本发明的目的在于提供一种对互联网用户评论内容自动过滤的方法，其包括如下步骤：

步骤（1）如果评论内容审核未通过则将该评论内容放入样本库中，自动识别模块将与视频内容不相关的评论内容过滤到样本库中；

步骤（2）对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库；

步骤（3）对用户针对视频的评论内容按照指纹规则生成评论内容指纹，与样本指纹库中的样本指纹进行匹配，匹配成功后计算匹配分数，根据指纹级别和相似度，计算匹配成功的评论内容的分数，score=sim(F)-level(F)×0.1，其中sim（F）为（样本指纹的字符个数×2）/（样本指纹的字符个数＋评论内容的字符个数），level（F）为指纹级别，当其中一个匹配分数值大于预定阈值时，该评论内容可自动过滤，当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时，推送至人工进行审核。

进一步，指纹规则包括以下几种：

指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词，然后对剩余字符进行排重处理，去掉相同的字符，设定指纹级别为1级；

指纹规则2为按照分词词表对评论样本或评论内容文本分词，去掉停用词词表中列出的停用词，然后根据对剩余词进行排重，设定指纹级别为1级；

指纹规则3为按照分词词表对评论样本或评论内容文本分词，对划分的词语进行排重处理，设定指纹级别为2级。

进一步，指纹规则1或2还包括按照每个字符的计算机内码进行排序；指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。

进一步，还可添加其他指纹规则。

进一步，步骤（1）所述不相关内容是指对评论内容按照指纹规则生成指纹，相互之间进行匹配，如果匹配相同则记为两条相同的评论，当超过阈值时，可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度，判断一个用户发送的N条评论内容相似，则判定为样本内容。

进一步，还可以设立白名单，当评论内容与白名单中的样本指纹特征匹配时，认定为与视频相关内容。

本发明还提供了一种对互联网用户评论内容自动过滤的装置，其包括如下单元：样本库，存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容；样本指纹库，存有对样本库中的评论内容根据指纹规则生成的样本指纹特征；评论内容指纹生成单元，对用户针对视频的评论内容按照指纹规则生成评论内容指纹；匹配单元，将评论内容指纹与样本指纹库中的样本指纹进行匹配；

匹配分析单元，匹配成功后计算匹配分数，根据指纹级别和相似度，计算匹配成功的评论内容的分数，score=sim(F)-level(F)×0.1，其中sim（F）为（样本指纹的字符个数×2）/（样本指纹的字符个数＋评论内容的字符个数），level（F）为指纹级别，当其中一个匹配分数值大于预定阈值时，该评论内容可自动过滤，当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时，推送至人工进行审核。

进一步，指纹规则包括以下几种：

进一步，还可添加其他指纹规则。

进一步，所述自动识别模块过滤的不相关内容是指对评论内容按照指纹规则生成指纹，相互之间进行匹配，如果匹配相同则记为两条相同的评论，当超过阈值时，可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度，判断一个用户发送的N条评论内容相似，则判定为样本内容。

进一步，还可以在样本指纹库中设置作为白名单的样本指纹，当评论内容与白名单中的样本指纹特征匹配时，认定为与视频相关内容。

本发明取得了以下技术效果：自动过滤需要屏蔽的内容，提高了系统效率。建立了基于内容的“白名单”“黑名单”机制，避免了重复审核的工作，提高了审核效率。

附图说明

图1是根据本发明装置的模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明：

这里的指纹是指从文本中提取的内容，本发明中把这个内容叫做评论的指纹特征，简称指纹。提取结果与指纹规则有关，本发明中可加入多种指纹规则，是可扩展的。比如一个评论内容为“昨天你吃晚饭了吗”，根据某个指纹规则可变为“昨天你吃晚饭”。(指纹规则实质就是把文本中主要汉字保留)指纹规则例如可以具体实现如下：设置一个专有的停用词词表，该词表列出来哪些字可以删除，例如“的”、“了”、“吗”等。去掉这些词不影响原句主要意思，能加快计算速度。

生成样本指纹特征是根据样本内容和后面所述的指纹规则生样本指纹特征（这里不设置指纹级别），保存在指纹存储库中。“生成样本指纹特征”实质就是把样本中的文本通过指纹规则生成新的文本，把新生成的文本叫做样本指纹特征。

评论样本内容。评论样本内容为大量的需要屏蔽的评论内容，这些样本内容主要来源于内容人工审核未通过和自动识别模块。

自动识别模块的功能实现如下a、如果发现大量相同内容，则推送至样本库，由于这些内容为需要屏蔽的内容，以后会重复出现所以加入到样本中，这里所述的大量相同内容是指对评论内容按照指纹规则生成指纹，相互之间进行匹配，如果匹配相同则记为两条相同的评论，当超过阈值（例如可以设置为10－20条）时，可以判断为样本内容。b、以评论时用户登录的用户名或IP地址为维度，发现一个用户或IP在不同频道下发送多条相似内容（计算相似度的方法与背景技术中描述的本申请人的在先申请相同，当计算的相似度超过一定阈值时，可判定为相似内容，该阈值可人工设定），这些内容多数与视频内容不相关系，则判定为样本内容。后台运营人员可操作样本内容，如删除，新增等操作。后台有一个系统专门用于垃圾评论内容发现。

指纹规则。指纹规则是指生成指纹特征的方法，把这个方法叫做指纹规则。

本发明定义了多个指纹规则，所以一个评论样本或者一个评论内容可以生成多个样本指纹特征或评论内容指纹特征。

指纹规则1：评论样本或评论内容去掉标点符号后提取汉字及英文单词，然后对剩余字符进行排重处理，去掉相同的字符。设定指纹级别为1级（1级代表的意思是对原文意思的影响最小）。

优选地，指纹规则1还包括按照每个字符的计算机内码进行排序。

指纹规则2：按照分词词表对评论样本或评论内容文本分词（分词词表后台维护，可包括常用词语、地名、人名等），去掉停用词词表中列出的停用词（停用词词表后台维护，诸如包括“的”、“了”、“么”等），然后根据对剩余词进行排重。设定指纹级别为1级（也就是认为指纹规则2对原文意思的影响也最小，与指纹规则1一样，同样都设定为1级）。

优选地，指纹规则2还包括按照每个字符的计算机内码进行排序。

指纹规则3：按照分词词表对评论样本或评论内容文本分词，对划分的词语进行排重处理。设定指纹级别为2级。举例：“今天天气很不错”，根据分词词表进行分词处理后为：“今天天气不错”。

优选地，指纹规则3还包括对每个分词进行切字处理（切字处理指的是对每一分词切割为单个字）后对每个字符按照计算机内码进行排序，首先按照分词的首字符的计算机内码进行分词的排序，在首字符相同的情况下按照第二位置的字符的计算机内码进行排序，依此类推。

指纹规则N：还可添加其他指纹规则，本系统中指纹规则可以再次添加修改。

生成样本指纹。将所有评论样本内容通过上面所述的指纹规则生成多个样本指纹特征，再提取样本长度（即样本内容字符的个数，也即未经过处理的样本内容实际长度）保存这信息到数据存储引擎中。

评论内容。用户发表评论后，这些评论内容需要进入评论内容过滤服务（本系统）进行一次识别，标记内容是否为需要屏蔽的内容，如果是则过滤。

指纹匹配。新发表评论内容通过指纹规则生成多个指纹特征，将这些指纹特征与样本指纹存储库中的样本指纹进行匹配（即多个评论内容指纹特征与多个样本指纹之间的匹配，因此存在多次匹配成功的情况，也就是说可能出现后述的多个匹配分数值）。匹配从与指纹级别为1的样本指纹开始，指纹级别相同的随机选择，只要有一个匹配成功即可停止。这里的匹配采用背景技术中描述的本申请人在先申请的匹配技术，也就是说，采用计算的Dice系数作为相似度，当相似度超过预设值时，认定为匹配，Dice系统的具体计算过程如上所述。

如果匹配成功，说明该内容为与样本内容高度相似。指纹匹配分析：(1)获取匹配上的指纹级别，指纹级别是对匹配结果分析的一个重要因素。指纹级别是在设计指纹规则时设定，设定级别1、2、3等级别，数字越小，匹配结果的得分越大。指纹级别表示为level。(2)计算评论内容与样本内容的相似度，评论与样本匹配成功后，使用（样本指纹的字符个数×2）/（样本指纹的字符个数＋评论内容的字符个数）估算得出相似度sim（F）。(3)计算匹配分数，根据指纹级别和相似度，计算匹配成功的评论内容的分数，score=sim(F)-level(F)×0.1。其中sim（F）为相似度得分，level为指纹级别，当score与预定阈值比较后判断为大于预定阈值，则认定该评论内容为需要屏蔽的内容，自动进行过滤处理。当score小于预定阈值时，继续后续的匹配，

也就是说，只要其中一个匹配分数值大于预定阈值，该评论内容可自动过滤，当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时，推送至人工进行审核。

如果匹配不成功，则不作任何处理，也不进行后续的指纹匹配分析。

本发明所取得的技术效果有如下：

自动过滤需要屏蔽的内容，提高了系统效率。

建立内容“黑名单”“白名单”作为样本库，黑名单表示需要屏蔽的内容，白名单表示安全内容不需要再次审核。通过内容匹配，如果与“黑名单”内容匹配成功则可送去人工审核或直接删除，如果与白名单内容匹配成功，则可立即发布到评论中，减少人工审核工作量。

快速评论内容匹配，评论内容快速响应至评论区域或评论内容被屏蔽。

本发明建立了一种基于内容的“白名单”“黑名单”机制，尽量避免重复审核的工作，提高了审核效率。

如图1所示，本发明装置包括如下单元：样本库，存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容；样本指纹库，存有对样本库中的评论内容根据指纹规则生成的样本指纹特征；评论内容指纹生成单元，对用户针对视频的评论内容按照指纹规则生成评论内容指纹；匹配单元，将评论内容指纹与样本指纹库中的样本指纹进行匹配；匹配分析单元，匹配成功后计算匹配分数，根据指纹级别和相似度，计算匹配成功的评论内容的分数，score=sim(F)-level(F)×0.1，其中sim（F）为（样本指纹的字符个数×2）/（样本指纹的字符个数＋评论内容的字符个数），level（F）为指纹级别，当其中一个恶匹配分数值大于预定阈值，该评论内容可自动过滤，当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值，也就是说，没有任何一个匹配分数值大于预定阈值，则推送至人工进行审核。

指纹规则包括以下几种：指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词，然后对剩余字符进行排重处理，去掉相同的字符，设定指纹级别为1级；指纹规则2为按照分词词表对评论样本或评论内容文本分词，去掉停用词词表中列出的停用词，然后根据对剩余词进行排重，设定指纹级别为1级；指纹规则3为按照分词词表对评论样本或评论内容文本分词，对划分的词语进行排重处理，设定指纹级别为2级。

优选地，指纹规则1或2还包括按照每个字符的计算机内码进行排序；指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。还可添加其他指纹规则。

所述自动识别模块过滤的不相关内容是指对评论内容按照指纹规则生成指纹，相互之间进行匹配，如果匹配相同则记为两条相同的评论，当超过阈值时，可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度，判断一个用户发送的N条评论内容相似，则判定为样本内容。

还可以在样本指纹库中设置作为白名单的样本指纹，当评论内容与白名单中的样本指纹特征匹配时，认定为与视频相关内容。

以上是对本发明的优选实施例进行的详细描述，但本领域的普通技术人员应该意识到，在本发明的范围内和精神指导下，各种改进、添加和替换都是可能的，例如调整接口调用顺序、改变消息格式和内容、使用不同的编程语言（如C、C++、Java等）实现等。这些都在本发明的权利要求所限定的保护范围内。

Claims

1.一种对互联网用户评论内容自动过滤的方法，其特征在于包括如下步骤：

2.根据权利要求1所述的方法，其特征在于指纹规则包括以下几种：

3.根据权利要求2所述的方法，其特征在于：

指纹规则1或2还包括按照每个字符的计算机内码进行排序；指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。

4.根据权利要求3所述的方法，其特征在于：

还可添加其他指纹规则。

5.根据权利要求1所述的方法，其特征在于：

步骤（1）所述不相关内容是指对评论内容按照指纹规则生成指纹，相互之间进行匹配，如果匹配相同则记为两条相同的评论，当超过阈值时，可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度，判断一个用户发送的N条评论内容相似，则判定为样本内容。

6.根据权利要求1所述的方法，其特征在于：

还可以设立白名单，当评论内容与白名单中的样本指纹特征匹配时，认定为与视频相关内容。

7.一种对互联网用户评论内容自动过滤的装置，其特征在于包括如下单元：

样本库，存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容；

样本指纹库，存有对样本库中的评论内容根据指纹规则生成的样本指纹特征；

评论内容指纹生成单元，对用户针对视频的评论内容按照指纹规则生成评论内容指纹；

匹配单元，将评论内容指纹与样本指纹库中的样本指纹进行匹配；

8.根据权利要求7所述的装置，其特征在于指纹规则包括以下几种：

9.根据权利要求8所述的装置，其特征在于：

10.根据权利要求9所述的装置，其特征在于：

还可添加其他指纹规则。

11.根据权利要求7所述的装置，其特征在于：

12.根据权利要求7所述的装置，其特征在于：