CN103020140B - 一种对互联网用户评论内容自动过滤的方法和装置 - Google Patents

一种对互联网用户评论内容自动过滤的方法和装置 Download PDF

Info

Publication number
CN103020140B
CN103020140B CN201210477067.5A CN201210477067A CN103020140B CN 103020140 B CN103020140 B CN 103020140B CN 201210477067 A CN201210477067 A CN 201210477067A CN 103020140 B CN103020140 B CN 103020140B
Authority
CN
China
Prior art keywords
fingerprint
content
sample
comment
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210477067.5A
Other languages
English (en)
Other versions
CN103020140A (zh
Inventor
陈学文
张宇峰
姚健
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201210477067.5A priority Critical patent/CN103020140B/zh
Publication of CN103020140A publication Critical patent/CN103020140A/zh
Application granted granted Critical
Publication of CN103020140B publication Critical patent/CN103020140B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种对互联网用户评论内容自动过滤的方法和装置,该方法包括:如果评论内容审核未通过则将该评论内容放入样本库中,自动识别模块将与视频内容不相关的评论内容过滤到样本库中;对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库;对用户针对视频的评论内容按照指纹规则生成评论内容指纹,与样本指纹库中的样本指纹进行匹配,匹配成功后计算匹配分数,其中一个的匹配分数大于预定阈值时,该评论内容可自动过滤,当最大的匹配分数值小于预定阈值时,送去人工审核。该装置包括:样本库、存有样本指纹特征的样本指纹库、将评论内容指纹与样本指纹进行匹配的匹配单元、计算匹配分数的匹配分析单元。

Description

一种对互联网用户评论内容自动过滤的方法和装置
技术领域
本发明属于互联网数据分析技术领域,尤其涉及一种对互联网用户评论内容自动过滤的方法和装置。
背景技术
随着互联网技术的发展,以WEB2.0技术为基础,各种互联网应用得以普遍应用,例如,BBS、社交平台等,在这些平台上,用户不再被动的接收信息,而是可以随时随地将自己的观点和想法通过互联网发布。然而,由于无法从技术上阻止用户发布不规范的内容,所以导致用户在互联网上所发布的言论不能围绕其所讨论的主题。例如,在视频网站上,网站通常为视频播放提供评论平台,以让观看用户发表自己的观看评论。然而,在视频评论中经常充斥着各种各样的评论行为,有些评论内容和视频内容无关。大量的重复评论会对视频评论产生消极的影响,影响整体评论质量,不利于建立优质的评论环境。比如:一个视频下的重复评论内容过多会影响自动精华评论的识别,所以需要有效的防止精华评论中出现这些内容。针对这种情况,现有技术中通常在热门视频区域的评论内容进行人工审核,去掉低俗、无关等需要屏蔽的评论信息,运营高质量评论内容。但重复性评论内容会多次引起审核,影响工作效率,增大了系统的处理负荷,需要人工干预,导致用户发表的评论内容不能尽快的呈现在评论区域。
本发明采用了正如本申请人申请的申请号为:201210132078X的发明专利申请中描述的一种快速计算评论相似度的方法,该方法包括了以下步骤:具体执行过程如下:S1、提取新评论关键字;具体提取过程如下:步骤S11,将评论原始文本转化为可用处理文本,如去掉内部标签、表情等信息;转化程序可以使用自身程序来进行文本处理,例如,可以将短文本中的内部标签、新浪微博标签、表情标签信息去掉,仅抽取评论的自身内容。步骤S12,接着使用分词程序对已处理的评论文本进行分词;该过程可以使用自身程序实现,也可以使用第三方中文分词程序,词典从互联网上抓取,从而可以不断丰富了本地分词词库;分词算法采用最大逆向匹配原则,根据词典中的词对文本进行分词。步骤S13,根据文本分词结果,抽取名词、动词等句子主干;抽取名词、动词、形容词等是根据程序进行词性标注得来的,使用外部程序完成。步骤S14,最后根据停用词词表进一步过滤步骤S13所得到特征关键字,最终提取得到有用的新的评论关键字。停用词词表中的词,表示这些词对文本意思的影响不大,可以忽略。停用词词表部分来源于互联网,少部分使用统计方法得出,比如统计大规模评论中发现后“沙发”这个关键字得分非常低,可以加入停用词词表。此外,更多的停用词,例如:似乎、的、当然等等。S2、为提取的每个关键字查倒排索引及文本信息,找出与新评论文本有相同关键字的文本;对每个关键字建立一个索引,索引文本为需要做相似度分析的文本。倒排索引的目的以便于快速查找文本及文本信息;倒排索引是搜索引擎中使用的一种技术方法。倒排索引实质是根据文本中的关键词建立一个查找机制,来查找文本的一种方法。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。建立倒排索引具体过程如下:定义两张表a和b;其中,表a的每一行存储评论的文本、抽取的特征关键字信息、以及一个代表文本的唯一id号;表b是每一行存储关键字及一组id序列。根据表a的文本所生成关键字对应一个文本的id序列。表b生成规则是:遍历表a中所有文本,对每一个文本中出现的关键字,将id号添加到表b关键字对应的id序列中,如果没有该关键字则加入一组新的关键字。倒排索引使用过程,例如,找出含有关键字“你好”的文档,可以根据表b快速定位到关键字“你好”,并获取到对应的id序列,根据id查找表a中id对应的文档。S3、计算新评论文本与索引文本间相同关键字的数量;具体过程如下:根据S2步骤中新评论文本与其他所有文本中包含相同的关键字的索引文本,计算新评论文本与所有文本的关键字个数,由于S2步骤已经找出了与新文本有相同关键字的文本,所以本步骤中“所有文本”是一个被简化的区间,所得到的结果为文本间相同关键字的个数,这个关键字个数就是下面相似度计算公式Dice方法中comm(s1,s2)值。统计各文本与新文本之间相同特征的信息,这一信息可以是关键字,文本特征只使用文本中的关键字来表示,所以计算相似度的时候只使用S1步骤中抽取出来的特征关键字。评论特征信息指公式中leng(s2)这个值,这个值表示使用特种关键字计算的一个文本信息值,在计算文本相似度时,该值为文本中特征关键字的个数。这个值可以保存在S2的表a中,以方便与其他文本进行相似度时使用。S4、根据新评论文本与索引文本间相同关键字的数量计算新文本与索引中文本的相似度;该步骤的具体实现过程如下:步骤S41,采用采用布尔权重的方法计算特征关键字权重;由于评论内容为短文本,文本包含的特征词数量较少,所以采用布尔权重的方法计算特征权重;常用的特征权重方法有:布尔权重、词频(tf)权重、tf-idf权重。步骤S42,根据步骤S41获得的各个关键字的权重,采用Dice系数计算文本相似度,以两个文本间相同关键字的个数以及各个关键字的权重来衡量文本间的相似程度;Dice系数计算公式为:Dice(s1,s2)=2×comm(s1,s2)/(leng(s1)+leng(s2));其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1),leng(s2)是字符串s1、s2的长度。
发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种对互联网用户评论内容自动过滤的方法,其包括如下步骤:
步骤(1)如果评论内容审核未通过则将该评论内容放入样本库中,自动识别模块将与视频内容不相关的评论内容过滤到样本库中;
步骤(2)对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库;
步骤(3)对用户针对视频的评论内容按照指纹规则生成评论内容指纹,与样本指纹库中的样本指纹进行匹配,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个匹配分数值大于预定阈值时,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核。
进一步,指纹规则包括以下几种:
指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;
指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;
指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
进一步,指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。
进一步,还可添加其他指纹规则。
进一步,步骤(1)所述不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
进一步,还可以设立白名单,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
本发明还提供了一种对互联网用户评论内容自动过滤的装置,其包括如下单元:样本库,存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容;样本指纹库,存有对样本库中的评论内容根据指纹规则生成的样本指纹特征;评论内容指纹生成单元,对用户针对视频的评论内容按照指纹规则生成评论内容指纹;匹配单元,将评论内容指纹与样本指纹库中的样本指纹进行匹配;
匹配分析单元,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个匹配分数值大于预定阈值时,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核。
进一步,指纹规则包括以下几种:
指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;
指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;
指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
进一步,指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。
进一步,还可添加其他指纹规则。
进一步,所述自动识别模块过滤的不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
进一步,还可以在样本指纹库中设置作为白名单的样本指纹,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
本发明取得了以下技术效果:自动过滤需要屏蔽的内容,提高了系统效率。建立了基于内容的“白名单”“黑名单”机制,避免了重复审核的工作,提高了审核效率。
附图说明
图1是根据本发明装置的模块示意图。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
这里的指纹是指从文本中提取的内容,本发明中把这个内容叫做评论的指纹特征,简称指纹。提取结果与指纹规则有关,本发明中可加入多种指纹规则,是可扩展的。比如一个评论内容为“昨天你吃晚饭了吗”,根据某个指纹规则可变为“昨天你吃晚饭”。(指纹规则实质就是把文本中主要汉字保留)指纹规则例如可以具体实现如下:设置一个专有的停用词词表,该词表列出来哪些字可以删除,例如“的”、“了”、“吗”等。去掉这些词不影响原句主要意思,能加快计算速度。
生成样本指纹特征是根据样本内容和后面所述的指纹规则生样本指纹特征(这里不设置指纹级别),保存在指纹存储库中。“生成样本指纹特征”实质就是把样本中的文本通过指纹规则生成新的文本,把新生成的文本叫做样本指纹特征。
评论样本内容。评论样本内容为大量的需要屏蔽的评论内容,这些样本内容主要来源于内容人工审核未通过和自动识别模块。
自动识别模块的功能实现如下a、如果发现大量相同内容,则推送至样本库,由于这些内容为需要屏蔽的内容,以后会重复出现所以加入到样本中,这里所述的大量相同内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值(例如可以设置为10-20条)时,可以判断为样本内容。b、以评论时用户登录的用户名或IP地址为维度,发现一个用户或IP在不同频道下发送多条相似内容(计算相似度的方法与背景技术中描述的本申请人的在先申请相同,当计算的相似度超过一定阈值时,可判定为相似内容,该阈值可人工设定),这些内容多数与视频内容不相关系,则判定为样本内容。后台运营人员可操作样本内容,如删除,新增等操作。后台有一个系统专门用于垃圾评论内容发现。
指纹规则。指纹规则是指生成指纹特征的方法,把这个方法叫做指纹规则。
本发明定义了多个指纹规则,所以一个评论样本或者一个评论内容可以生成多个样本指纹特征或评论内容指纹特征。
指纹规则1:评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符。设定指纹级别为1级(1级代表的意思是对原文意思的影响最小)。
优选地,指纹规则1还包括按照每个字符的计算机内码进行排序。
指纹规则2:按照分词词表对评论样本或评论内容文本分词(分词词表后台维护,可包括常用词语、地名、人名等),去掉停用词词表中列出的停用词(停用词词表后台维护,诸如包括“的”、“了”、“么”等),然后根据对剩余词进行排重。设定指纹级别为1级(也就是认为指纹规则2对原文意思的影响也最小,与指纹规则1一样,同样都设定为1级)。
优选地,指纹规则2还包括按照每个字符的计算机内码进行排序。
指纹规则3:按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理。设定指纹级别为2级。举例:“今天天气很不错”,根据分词词表进行分词处理后为:“今天天气不错”。
优选地,指纹规则3还包括对每个分词进行切字处理(切字处理指的是对每一分词切割为单个字)后对每个字符按照计算机内码进行排序,首先按照分词的首字符的计算机内码进行分词的排序,在首字符相同的情况下按照第二位置的字符的计算机内码进行排序,依此类推。
指纹规则N:还可添加其他指纹规则,本系统中指纹规则可以再次添加修改。
生成样本指纹。将所有评论样本内容通过上面所述的指纹规则生成多个样本指纹特征,再提取样本长度(即样本内容字符的个数,也即未经过处理的样本内容实际长度)保存这信息到数据存储引擎中。
评论内容。用户发表评论后,这些评论内容需要进入评论内容过滤服务(本系统)进行一次识别,标记内容是否为需要屏蔽的内容,如果是则过滤。
指纹匹配。新发表评论内容通过指纹规则生成多个指纹特征,将这些指纹特征与样本指纹存储库中的样本指纹进行匹配(即多个评论内容指纹特征与多个样本指纹之间的匹配,因此存在多次匹配成功的情况,也就是说可能出现后述的多个匹配分数值)。匹配从与指纹级别为1的样本指纹开始,指纹级别相同的随机选择,只要有一个匹配成功即可停止。这里的匹配采用背景技术中描述的本申请人在先申请的匹配技术,也就是说,采用计算的Dice系数作为相似度,当相似度超过预设值时,认定为匹配,Dice系统的具体计算过程如上所述。
如果匹配成功,说明该内容为与样本内容高度相似。指纹匹配分析:(1)获取匹配上的指纹级别,指纹级别是对匹配结果分析的一个重要因素。指纹级别是在设计指纹规则时设定,设定级别1、2、3等级别,数字越小,匹配结果的得分越大。指纹级别表示为level。(2)计算评论内容与样本内容的相似度,评论与样本匹配成功后,使用(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数)估算得出相似度sim(F)。(3)计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1。其中sim(F)为相似度得分,level为指纹级别,当score与预定阈值比较后判断为大于预定阈值,则认定该评论内容为需要屏蔽的内容,自动进行过滤处理。当score小于预定阈值时,继续后续的匹配,
也就是说,只要其中一个匹配分数值大于预定阈值,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核。
如果匹配不成功,则不作任何处理,也不进行后续的指纹匹配分析。
本发明所取得的技术效果有如下:
自动过滤需要屏蔽的内容,提高了系统效率。
建立内容“黑名单”“白名单”作为样本库,黑名单表示需要屏蔽的内容,白名单表示安全内容不需要再次审核。通过内容匹配,如果与“黑名单”内容匹配成功则可送去人工审核或直接删除,如果与白名单内容匹配成功,则可立即发布到评论中,减少人工审核工作量。
快速评论内容匹配,评论内容快速响应至评论区域或评论内容被屏蔽。
本发明建立了一种基于内容的“白名单”“黑名单”机制,尽量避免重复审核的工作,提高了审核效率。
如图1所示,本发明装置包括如下单元:样本库,存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容;样本指纹库,存有对样本库中的评论内容根据指纹规则生成的样本指纹特征;评论内容指纹生成单元,对用户针对视频的评论内容按照指纹规则生成评论内容指纹;匹配单元,将评论内容指纹与样本指纹库中的样本指纹进行匹配;匹配分析单元,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个恶匹配分数值大于预定阈值,该评论内容可自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值,也就是说,没有任何一个匹配分数值大于预定阈值,则推送至人工进行审核。
指纹规则包括以下几种:指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
优选地,指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。还可添加其他指纹规则。
所述自动识别模块过滤的不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,可以判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
还可以在样本指纹库中设置作为白名单的样本指纹,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,例如调整接口调用顺序、改变消息格式和内容、使用不同的编程语言(如C、C++、Java等)实现等。这些都在本发明的权利要求所限定的保护范围内。

Claims (10)

1.一种对互联网用户评论内容自动过滤的方法,其特征在于包括如下步骤:
步骤(1)如果评论内容审核未通过则将该评论内容放入样本库中,自动识别模块将与视频内容不相关的评论内容过滤到样本库中;
步骤(2)对样本库中的评论内容根据指纹规则生成样本指纹特征存入样本指纹库;
步骤(3)对用户针对视频的评论内容按照指纹规则生成评论内容指纹,与样本指纹库中的样本指纹进行匹配,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个匹配分数值大于预定阈值时,该评论内容自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核;
其中,指纹规则包括以下几种:
指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;
指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;
指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
2.根据权利要求1所述的方法,其特征在于:
指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。
3.根据权利要求2所述的方法,其特征在于:
还添加其他指纹规则。
4.根据权利要求1所述的方法,其特征在于:
步骤(1)与视频内容不相关的评论内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
5.根据权利要求1所述的方法,其特征在于:
还设立白名单,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
6.一种对互联网用户评论内容自动过滤的装置,其特征在于包括如下单元:
样本库,存有审核未通过的评论内容以及自动识别模块过滤的不相关评论内容;
样本指纹库,存有对样本库中的评论内容根据指纹规则生成的样本指纹特征;
评论内容指纹生成单元,对用户针对视频的评论内容按照指纹规则生成评论内容指纹;
匹配单元,将评论内容指纹与样本指纹库中的样本指纹进行匹配;
匹配分析单元,匹配成功后计算匹配分数,根据指纹级别和相似度,计算匹配成功的评论内容的分数,score=sim(F)-level(F)×0.1,其中sim(F)为(样本指纹的字符个数×2)/(样本指纹的字符个数+评论内容的字符个数),level(F)为指纹级别,当其中一个匹配分数值大于预定阈值时,该评论内容自动过滤,当score的最大值=MAX(sim(F)-level(F)×0.1)小于预定阈值时,推送至人工进行审核;
指纹规则包括以下几种:
指纹规则1为将评论样本或评论内容去掉标点符号后提取汉字及英文单词,然后对剩余字符进行排重处理,去掉相同的字符,设定指纹级别为1级;
指纹规则2为按照分词词表对评论样本或评论内容文本分词,去掉停用词词表中列出的停用词,然后根据对剩余词进行排重,设定指纹级别为1级;
指纹规则3为按照分词词表对评论样本或评论内容文本分词,对划分的词语进行排重处理,设定指纹级别为2级。
7.根据权利要求6所述的装置,其特征在于:
指纹规则1或2还包括按照每个字符的计算机内码进行排序;指纹规则3还包括对每个分词进行切字处理后对每个字符按照计算机内码进行排序。
8.根据权利要求7所述的装置,其特征在于:
还添加其他指纹规则。
9.根据权利要求6所述的装置,其特征在于:
所述自动识别模块过滤的不相关内容是指对评论内容按照指纹规则生成指纹,相互之间进行匹配,如果匹配相同则记为两条相同的评论,当超过阈值时,判断为样本内容或者以评论时用户登录的用户名或IP地址为维度,判断一个用户发送的N条评论内容相似,则判定为样本内容。
10.根据权利要求6所述的装置,其特征在于:
还在样本指纹库中设置作为白名单的样本指纹,当评论内容与白名单中的样本指纹特征匹配时,认定为与视频相关内容。
CN201210477067.5A 2012-11-21 2012-11-21 一种对互联网用户评论内容自动过滤的方法和装置 Expired - Fee Related CN103020140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210477067.5A CN103020140B (zh) 2012-11-21 2012-11-21 一种对互联网用户评论内容自动过滤的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210477067.5A CN103020140B (zh) 2012-11-21 2012-11-21 一种对互联网用户评论内容自动过滤的方法和装置

Publications (2)

Publication Number Publication Date
CN103020140A CN103020140A (zh) 2013-04-03
CN103020140B true CN103020140B (zh) 2016-01-20

Family

ID=47968744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210477067.5A Expired - Fee Related CN103020140B (zh) 2012-11-21 2012-11-21 一种对互联网用户评论内容自动过滤的方法和装置

Country Status (1)

Country Link
CN (1) CN103020140B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646029B (zh) * 2013-11-04 2017-03-15 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法
CN104281665B (zh) * 2014-09-25 2018-05-25 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置
CN105516820A (zh) * 2015-12-10 2016-04-20 腾讯科技(深圳)有限公司 一种弹幕交互方法和装置
CN106447239B (zh) * 2016-11-21 2020-09-29 北京字节跳动科技有限公司 一种数据发布的审核方法及装置
CN107274738A (zh) * 2017-06-23 2017-10-20 广东外语外贸大学 基于移动互联网的汉英翻译教学评分系统
CN107644108A (zh) * 2017-10-26 2018-01-30 山东浪潮商用系统有限公司 一种用于评论自动审核的实现方法
CN107943864A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种多媒体内容媒体下安全可控的智能推荐系统
US11068953B2 (en) 2018-05-23 2021-07-20 International Business Machines Corporation Fingerprint based address entry
CN108806132A (zh) * 2018-05-25 2018-11-13 合肥达户电线电缆科技有限公司 一种散装物品节能自动识别称重结算方法及系统
CN108833962B (zh) * 2018-05-25 2020-12-22 咪咕音乐有限公司 一种显示信息处理方法及装置和存储介质
CN109271768B (zh) * 2018-10-26 2021-02-05 Oppo广东移动通信有限公司 发布信息管理方法、装置、存储介质及终端
CN110334181A (zh) * 2019-06-05 2019-10-15 上海易点时空网络有限公司 基于相似度检测的原创内容申明方法及装置
CN110427577B (zh) * 2019-06-26 2022-04-19 五八有限公司 内容的影响评估方法、装置、电子设备和存储介质
CN110414251B (zh) * 2019-07-31 2021-01-05 北京明朝万达科技股份有限公司 数据监测方法和装置
CN110674256B (zh) * 2019-09-25 2023-05-12 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及系统
CN112364154A (zh) * 2020-11-10 2021-02-12 北京乐学帮网络技术有限公司 一种评论内容显示方法及装置
CN115062155A (zh) * 2022-08-18 2022-09-16 广州市千钧网络科技有限公司 一种直播间评论快速审核的方法、装置及相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123500A (zh) * 2006-08-11 2008-02-13 华为技术有限公司 一种生物验证方法及装置
CN101821734A (zh) * 2007-08-22 2010-09-01 谷歌公司 时基媒体之间的匹配的检测和分类

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313256B2 (en) * 2002-09-30 2007-12-25 Motorola, Inc. Progressive fingerprint matching system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123500A (zh) * 2006-08-11 2008-02-13 华为技术有限公司 一种生物验证方法及装置
CN101821734A (zh) * 2007-08-22 2010-09-01 谷歌公司 时基媒体之间的匹配的检测和分类

Also Published As

Publication number Publication date
CN103020140A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103020140B (zh) 一种对互联网用户评论内容自动过滤的方法和装置
US10559301B2 (en) Generating topic-specific language models
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
WO2012174637A1 (en) System and method for matching comment data to text data
JP2010181993A (ja) 絵文字を含む文章ファイルを評価する評価分析サーバ、方法及びプログラム
CN111104801B (zh) 基于网址域名的文本分词方法、系统、设备及介质
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN106874448B (zh) 一种从微博中挖掘地震主题词的方法和装置
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
Cotelo et al. A modular approach for lexical normalization applied to Spanish tweets
Gull et al. A comparative analysis of lexical/NLP method with WEKA’s bayes classifier
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
Li et al. Automatic extraction for product feature words from comments on the web
Andriotis et al. Smartphone message sentiment analysis
Jin et al. Filtering spam in Weibo using ensemble imbalanced classification and knowledge expansion
CN103092838B (zh) 一种获取英文词的方法及装置
Govilkar et al. Extraction of root words using morphological analyzer for devanagari script
CN104462439A (zh) 事件的识别方法和装置
Patil et al. Inflectional and derivational hybrid stemmer for sentiment analysis: a case study with Marathi tweets
CN107291952B (zh) 一种提取有意义串的方法及装置
JP5339628B2 (ja) 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Roy et al. A lexicon based algorithm for noisy text normalization as pre processing for sentiment analysis
TWI534640B (zh) Chinese network information monitoring and analysis system and its method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200716

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20191121