CN102098332B - 一种内容审核方法和装置 - Google Patents
一种内容审核方法和装置 Download PDFInfo
- Publication number
- CN102098332B CN102098332B CN201010615219.4A CN201010615219A CN102098332B CN 102098332 B CN102098332 B CN 102098332B CN 201010615219 A CN201010615219 A CN 201010615219A CN 102098332 B CN102098332 B CN 102098332B
- Authority
- CN
- China
- Prior art keywords
- content
- user
- submitted
- module
- score value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种内容审核方法和装置。在本发明依次通过前置过滤、用户分析、文本归类,不同类的文本采用不同的方式进行过滤,对词库采取分级计分的方式,最终采用人工审核方式对用户提交的内容进行审核,并进行反向培训。本发明的技术方案,能够准确、高效地完成内容审核工作。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种内容审核方法和装置。
背景技术
随着互联网的普及,网民数量越来越多,网络舆论热点层出不穷,基于Web2.0的用户交互便利带来了用户生成内容(UGC,UserGenerated Content)的飞速增长,同时也带来了敏感、色情、低俗、广告信息的增长。尤其对于目前流行的社会性网络服务(SNS,Social Networking Services)网站,具有用户发送信息的频率高、传播速度快、数据量大等特点。如何解决这类信息的过滤,为用户维护一个净化的空间成为了迫切的需求。
目前常用的一种方案是根据黑白名单及其对应的规则对网络用户上传的内容进行过滤。或者,基于大量的样本库,对网络用户上传的内容进行审核。
但是,对于前一方案来说,黑白名单的维护成本高,而且用户已经产生大量垃圾信息以后才能加入黑名单,比较被动。
对于后一方案来说:
1、表述同一种意图,用中文可以有多种语言组织方式,这样就带来了前期样本累积非常大;
2、互联网应用中经常在用户每次内容转载和发布后,内容长度都会有变化,尤其对于长文本的情况,针对字数和相似的验证并不是很有效;
3、没有针对内容热度的不同区分处理的优先级,大并发的应用中对大量信息的过滤会成为整个系统的瓶颈。
可见,当前迫切需要一种准确、高效的内容审核方案,以应对网络发展的现状。
发明内容
本发明提供了一种内容审核方法,该能够准确、高效地完成内容审核。
本发明还提供了一种内容审核装置,该装置能够准确、高效地完成内容审核。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种内容审核方法,对于用户所提交的内容,该审核方法包括以下步骤:
A、根据高危内容检测策略,对用户所提交的内容进行前置过滤处理,如命中,则拒绝上传该内容,否则执行步骤B;
B、根据所维护的用户信息,判断是否允许该用户上传所提交的内容,是则执行步骤C,否则拒绝上传该内容;
C、根据用户所提交的内容的长短,将其归类为长文本、短文本或昵称类;
D、如果用户所提交的内容为短文本或昵称类,则通过分词提取特征信息,对特征信息进行MD5计算后与已有的样本库进行对比,如命中,则拒绝上传该内容,否则执行步骤E;如果用户所提交的内容为长文本,则直接执行步骤E;
E、将用户所提交的内容与多级词库进行匹配,计算总分值,如果总分值大于或等于第一预设阀值,则拒绝上传该内容,如果总分值小于第一预设阀值且大于第二预设阀值,则执行步骤F,如果总分值小于或等于第二预设阀值,则上传该内容;
F、人工审核用户所提交的内容,判断是否允许该用户上传所提交的内容,是则上传该内容,否则拒绝上传该内容;反向培训所述多级词库。
本发明还提供了一种内容审核装置,该装置包括:前置过滤模块、用户分析模块、内容归类模块、短文本过滤模块、文本信息过滤模块、数据库模块和人机接口模块,其中:
前置过滤模块,用于接收用户所提交的内容,根据高危内容检测策略,对用户所提交的内容进行前置过滤处理,如命中,则拒绝上传该内容,否则将用户所提交的内容发送给用户分析模块;
用户分析模块,用于根据所维护的用户信息,判断是否允许该用户上传所提交的内容,是则将用户所提交的内容发送给内容归类模块,否则拒绝上传该内容;
内容归类模块,用于根据用户所提交的内容的长短,将其归类为长文本、短文本或昵称类;如果为短文本或昵称类,则将用户所提交的内容发送给短文本过滤模块,如果为长文本,则将用户所提交的内容发送给文本信息过滤模块;
短文本过滤摸块,用于通过分词提取用户所提交内容的特征信息,对特征信息进行MD5计算后与已有的样本库进行对比,如命中,则拒绝上传该内容,否则将用户所提交的内容发送给文本信息过滤模块;
文本信息过滤模块,用于将用户所提交的内容与多级词库进行匹配,计算总分值,如果总分值大于或等于第一预设阀值,则拒绝上传该内容,如果总分值小于第一预设阀值且大于第二预设阀值,则将用户所提交的内容发送给人机接口模块,如果总分值小于或等于第二预设阀值,则上传该内容;其中,将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。
数据库模块,用于保存多级词库中,不同级别的词库对应不同的分值;接收人工审核结果的反向培训;
人机接口模块,用于输出用户所提交的内容,由人工进行审核,并根据人工审核结果判断是否允许该用户上传所提交的内容,是则上传该内容,否则拒绝上传该内容。
由上述可见,本发明这种依次通过前置过滤、用户分析、文本归类,不同类的文本采用不同的方式进行过滤,最终采用人工审核并进行反向培训的技术方案,能够准确、高效地完成内容审核工作。
附图说明
图1是本发明实施例中的一种内容审核方法流程示意图;
图2是本发明实施例中的对词库进行分级的一个示例图;
图3是本发明实施例中的的Service Broker的队列示意图;
图4是本发明中一种内容审核装置的组成结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1是本发明实施例中的一种内容审核方法流程示意图。如图1所示,该内容审核方法包括:
1、根据高危内容检测策略,对用户所提交的内容进行前置过滤处理,如命中,则拒绝上传该内容,否则执行步骤2;
在本步骤中,在用户提交内容处对最敏感信息进行按拆词和精确匹配两种方式进行匹配检测,如果命中则直接返回并提示用户。这部分敏感词的设置相对少,主要控制重点时间段高危敏感的内容。
2、进行用户分析,即根据所维护的用户信息,判断是否允许该用户上传所提交的内容,是则执行步骤3,否则拒绝上传该内容;
在本步骤中,具体进行用户行为的记录,通过所记录的用户的违规行为,调整用户所提交内容的优先审核级别;根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户;对于频繁发送违规信息的用户,其违规记录次数达到预设阀值时,进行禁封并加入黑名单中。
本步骤中对用户进行分级,例如:黑白名单用户、发送过违规信息的用户、无好友信息档案的用户等。
3、根据所维护的用户关注热点信息,判断用户所提交的内容是否为用户所关注的热点,以及判断用户所提交的内容是否为推荐内容,并根据判断结果调整用户所提交的内容优先审核级别。
在本步骤中,对用户关注热点进行统计,记录每次用户提交内容关联的关键(key)值,以便对热点内容进行重点关注。另外对被推荐到用户关注区域的内容进行重点监控,适当提高该类信息的审核级别。该操作主要针对发送广告垃圾信息的用户。
在本发明的一个实施例中,可以按内容的热度进行分级,例如分为热点关注信息、推荐信息、普通信息等。针对不同热度级别的信息采用不同的审核优先级。
4、根据用户所提交的内容的长短,将其归类为长文本、短文本或昵称类;
在本步骤中,针对内容长度和来源特征,对各类信息进行分类,并根据不同分类应用不同的审核过滤策略。
在本发明的实施例中,分为长文本(200字以上)、短文本(200字以下)和昵称类(20字以下),其中:
长文本:有语义、政治黄色类信息为主,内容比较复杂包含如Html、图片、链接、视频等外站引用信息,内容审核时间长需要运用的相关审核模块也比较多;
短文本:语义比较单一,主要是广告、诈骗、灌水类信息,发送频度快,传播速度快
昵称类:火星文、形似字、多音字较多,以政治、色情信息为主。
5、对用户所提交的内容进行如下处理:转换形似字、清除忽略字词、繁简转换。
本步骤中是对待过滤内容进行文本净化处理。
6、如果用户所提交的内容为短文本或昵称类,则进行短文本过滤处理,即通过分词提取特征信息,对特征信息进行MD5计算后与已有的样本库进行对比,如命中,则拒绝上传该内容,否则执行步骤7;如果用户所提交的内容为长文本,则直接执行步骤7;
本步骤具体可以采用短文本指纹识别技术,由于发送广告和诈骗信息都是同一时段大批量发送相似的信息,因此这种方式可以高效地应对这种情况的发生。另外,由于昵称内容非常简短,而更新频度很高,基于昵称内容简短,无太多语义组织,直接基于简单关键词匹配和主副词即可达到较好的效果。
7、将用户所提交的内容与多级词库进行匹配,计算总分值,如果总分值大于或等于第一预设阀值,则拒绝上传该内容,如果总分值小于第一预设阀值且大于第二预设阀值,则执行步骤F,如果总分值小于或等于第二预设阀值,则上传该内容;其中,所述多级词库中,不同级别的词库对应不同的分值,将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。
在本发明实施例中对词库进行拆分,分为高危词库、敏感词库、嫌疑词库。所有词库统一运用主副词、形似词、多音词简繁体、特殊字符忽略策略。
图2是本发明实施例中的对词库进行分级的一个示例图。在图2中采取如下的分值策略:
1+2+3+4=色情粗口诈骗政治事件身体部位15分
2+3+4=色情粗口诈骗政治事件人物14分
1+3+4=色情粗口诈骗身体部位13分
1+2+4=色情政治事件人物身体部位12分
1+2+3=色情粗口身体部位11分
3+4=色情粗口诈骗10分
2+4=色情政治事件人物9分
1+3=粗口诈骗身体部位8分
2+3=粗口诈骗政治事件人物7分
1+4=色情身体部位6分
1+2=政治事件人物身体部位5分
色情4分
粗口诈骗3分
政治事件人物2分
身体部位1分
使用以上策略对文本内容进行过滤评分,分值到达第一设定阀值直接删除并备份,怀疑数据(分值在第一预设阀值和第二预设阀值之间)人工进行进一步审核,即执行步骤8。
8、人工审核用户所提交的内容,判断是否允许该用户上传所提交的内容,是则上传该内容,否则拒绝上传该内容;反向培训所述多级词库。
在本步骤中,人工审核完成提交结果并将结果内容反馈给审核系统,对系统敏感词库进行反向培训。
反馈培训流程,第一步是对误判内容进行分词,第二步分析词在系统中是否有对应内容,如果有调整对应词条分值。如果没有进入嫌疑词,为以后词的调整准备语料。
在本发明的一个实施例中,分级审核最终部署文本分类模块,该模块基于朴素贝叶斯文本分类算法,将一篇文档看作是一系列有序排列的词的集合。文档属于Cj类特征词wi出现一次的概率为P(wi/Cj),文档中出现xi次特征词wi的概率为出现一次这种次序排列的词的集合的概率为
为了具体实现上述的内容审核方法,本发明中采用结构化查询语言SQL Service Broker作为消息队列,采用Quartz.NET实现任务的调度。
即基于以上要求采用基于SQL Server Service Broker(为消息和队列应用程序提供SQL Server数据库引擎本机支持),内部传输格式采用XML。图3是本发明实施例中的的Service Broker的队列示意图。
Quartz.NET是一个开源的作业调度框架,是OpenSymphony的Quartz API的.NET移植,它用C#写成,可用于winform和asp.net应用中。它提供了巨大的灵活性而不牺牲简单性。能够用它来为执行一个作业而创建简单的或复杂的调度。用Quartz.NET实现所有任务调度,达到对队列数据的高效并行处理,并可实现任务的热插拔,单独任务单独管理和维护。
基于上述实施例给出本发明中的一种内容审核装置的组成结构。
图4是本发明中一种内容审核装置的组成结构示意图。如图4所示,该装置包括:前置过滤模块401、用户分析模块402、内容归类模块403、短文本过滤模块404、文本信息过滤模块405、数据库模块406和人机接口模块407,其中:
前置过滤模块401,用于接收用户所提交的内容,根据高危内容检测策略,对用户所提交的内容进行前置过滤处理,如命中,则拒绝上传该内容,否则将用户所提交的内容发送给用户分析模块402;
用户分析模块402,用于根据所维护的用户信息,判断是否允许该用户上传所提交的内容,是则将用户所提交的内容发送给内容归类模块403,否则拒绝上传该内容;
内容归类模块403,用于根据用户所提交的内容的长短,将其归类为长文本、短文本或昵称类;如果为短文本或昵称类,则将用户所提交的内容发送给短文本过滤模块404,如果为长文本,则将用户所提交的内容发送给文本信息过滤模块405;
短文本过滤摸块404,用于通过分词提取用户所提交内容的特征信息,对特征信息进行MD5计算后与已有的样本库进行对比,如命中,则拒绝上传该内容,否则将用户所提交的内容发送给文本信息过滤模块405;
文本信息过滤模块405,用于将用户所提交的内容与多级词库进行匹配,计算总分值,如果总分值大于或等于第一预设阀值,则拒绝上传该内容,如果总分值小于第一预设阀值且大于第二预设阀值,则将用户所提交的内容发送给人机接口模块,如果总分值小于或等于第二预设阀值,则上传该内容;其中,将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。
数据库模块406,用于保存多级词库中,不同级别的词库对应不同的分值;接收人工审核结果的反向培训;
人机接口模块407,用于输出用户所提交的内容,由人工进行审核,并根据人工审核结果判断是否允许该用户上传所提交的内容,是则上传该内容,否则拒绝上传该内容。
图4所示的装置还可以进一步包括:内容热度分析模块408,用于接收来自用户分析模块402的用户所提交的内容;用于根据所维护的用户关注热点信息,判断用户所提交的内容是否为用户所关注的热点,以及判断用户所提交的内容是否为推荐内容,并根据判断结果调整用户所提交的内容优先审核级别;将用户所提交的内容发送给内容归类模块403。
图4所示的装置还可以进一步包括:文字信息整理模块409,用于接收内容归类模块403发送的用户所提交的内容,对用户所提交的内容进行如下处理:转换形似字、清除忽略字词、繁简转换,然后将用户所提交的内容发送给短文本过滤模块404或文本信息过滤模块405。
在图4所示的装置中,所述用户分析模块402,用于进行用户行为的记录,通过所记录的用户的违规行为,调整用户所提交内容的优先审核级别;用于根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户;对于频繁发送违规信息的用户,其违规记录次数达到预设阀值时,进行禁封并加入黑名单中。
由上述可见,本发明这种依次通过前置过滤、用户分析、文本归类,不同类的文本采用不同的方式进行过滤,最终采用人工审核并进行反向培训的技术方案,能够准确、高效地完成内容审核工作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种内容审核方法,其特征在于,对于用户所提交的内容,该审核方法包括以下步骤:
A、根据高危内容检测策略,对用户所提交的内容进行前置过滤处理,如命中,则拒绝上传该内容,否则执行步骤B;
B、根据所维护的用户信息,判断是否允许该用户上传所提交的内容,是则执行步骤C,否则拒绝上传该内容;
C、根据用户所提交的内容的长短,将其归类为长文本、短文本或昵称类;
D、如果用户所提交的内容为短文本或昵称类,则通过分词提取特征信息,对特征信息进行MD5计算后与已有的样本库进行对比,如命中,则拒绝上传该内容,否则执行步骤E;如果用户所提交的内容为长文本,则直接执行步骤E;
E、将用户所提交的内容与多级词库进行匹配,计算总分值,如果总分值大于或等于第一预设阀值,则拒绝上传该内容,如果总分值小于第一预设阀值且大于第二预设阀值,则执行步骤F,如果总分值小于或等于第二预设阀值,则上传该内容;
F、人工审核用户所提交的内容,判断是否允许该用户上传所提交的内容,是则上传该内容,否则拒绝上传该内容;反向培训所述多级词库。
2.根据权利要求1所述的方法,其特征在于,在步骤B之后,并在步骤C之前,该方法进一步包括:
B1、根据所维护的用户关注热点信息,判断用户所提交的内容是否为用户所关注的热点,以及判断用户所提交的内容是否为推荐内容,并根据判断结果调整用户所提交的内容优先审核级别。
3.根据权利要求1所述的方法,其特征在于,在步骤C之后,并在步骤D之前,该方法进一步包括:
C1,对用户所提交的内容进行如下处理:转换形似字、清除忽略字词和繁简转换。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述步骤B包括:
进行用户行为的记录,通过所记录的用户的违规行为,调整用户所提交内容的优先审核级别;
根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户;
对于频繁发送违规信息的用户,其违规记录次数达到预设阀值时,进行禁封并加入黑名单中。
5.根据权利要求1至3中任一项所述的方法,其特征在于,在所述步骤E中,所述将用户所提交的内容与多级词库进行匹配,计算总分值包括:所述多级词库中,不同级别的词库对应不同的分值,将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。
6.根据权利要求1至3中任一项所述的方法,其特征在于,在实现该方法时,采用结构化查询语言SQL ServiceBroker作为消息队列,采用Quartz.NET实现任务的调度。
7.一种内容审核装置,其特征在于,该装置包括:前置过滤模块、用户分析模块、内容归类模块、短文本过滤模块、文本信息过滤模块、数据库模块和人机接口模块,其中:
前置过滤模块,用于接收用户所提交的内容,根据高危内容检测策略,对用户所提交的内容进行前置过滤处理,如命中,则拒绝上传该内容,否则将用户所提交的内容发送给用户分析模块;
用户分析模块,用于根据所维护的用户信息,判断是否允许该用户上传所提交的内容,是则将用户所提交的内容发送给内容归类模块,否则拒绝上传该内容;
内容归类模块,用于根据用户所提交的内容的长短,将其归类为长文本、短文本或昵称类;如果为短文本或昵称类,则将用户所提交的内容发送给短文本过滤模块,如果为长文本,则将用户所提交的内容发送给文本信息过滤模块;
短文本过滤模块,用于通过分词提取用户所提交内容的特征信息,对特征信息进行MD5计算后与已有的样本库进行对比,如命中,则拒绝上传该内容,否则将用户所提交的内容发送给文本信息过滤模块;
文本信息过滤模块,用于将用户所提交的内容与多级词库进行匹配,计算总分值,如果总分值大于或等于第一预设阀值,则拒绝上传该内容,如果总分值小于第一预设阀值且大于第二预设阀值,则将用户所提交的内容发送给人机接口模块,如果总分值小于或等于第二预设阀值,则上传该内容;其中,将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值;
数据库模块,用于保存多级词库中,不同级别的词库对应不同的分值;接收人工审核结果的反向培训;
人机接口模块,用于输出用户所提交的内容,由人工进行审核,并根据人工审核结果判断是否允许该用户上传所提交的内容,是则上传该内容,否则拒绝上传该内容。
8.根据权利要求7所述的装置,其特征在于,该装置进一步包括:
内容热度分析模块,用于接收来自用户分析模块的用户所提交的内容;用于根据所维护的用户关注热点信息,判断用户所提交的内容是否为用户所关注的热点,以及判断用户所提交的内容是否为推荐内容,并根据判断结果调整用户所提交的内容优先审核级别;将用户所提交的内容发送给内容归类模块。
9.根据权利要求7所述的装置,其特征在于,该装置进一步包括:
文字信息整理模块,用于接收内容归类模块发送的用户所提交的内容,对用户所提交的内容进行如下处理:转换形似字、清除忽略字词和繁简转换,然后将用户所提交的内容发送给短文本过滤模块或文本信息过滤模块。
10.根据权利要求7至9中任一项所述的装置,其特征在于,
所述用户分析模块,用于进行用户行为的记录,通过所记录的用户的违规行为,调整用户所提交内容的优先审核级别;用于根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户;对于频繁发送违规信息的用户,其违规记录次数达到预设阀值时,进行禁封并加入黑名单中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010615219.4A CN102098332B (zh) | 2010-12-30 | 2010-12-30 | 一种内容审核方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010615219.4A CN102098332B (zh) | 2010-12-30 | 2010-12-30 | 一种内容审核方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102098332A CN102098332A (zh) | 2011-06-15 |
CN102098332B true CN102098332B (zh) | 2014-04-16 |
Family
ID=44131191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010615219.4A Active CN102098332B (zh) | 2010-12-30 | 2010-12-30 | 一种内容审核方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102098332B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064850B (zh) * | 2011-10-20 | 2017-04-05 | 腾讯科技(深圳)有限公司 | 挖掘作弊数据的方法和系统 |
CN103186525B (zh) * | 2011-12-31 | 2016-07-06 | 腾讯科技(深圳)有限公司 | 一种控制用户生成内容传播的方法、系统和服务器 |
CN102880636A (zh) * | 2012-08-03 | 2013-01-16 | 深圳证券信息有限公司 | 不良信息检测方法及服务端 |
CN103810167B (zh) * | 2012-11-06 | 2018-09-18 | 腾讯科技(深圳)有限公司 | 获取信息的方法和装置 |
CN104050195B (zh) * | 2013-03-15 | 2017-11-03 | 暴风集团股份有限公司 | 一种广告贴处理方法和系统 |
CN104156365B (zh) * | 2013-05-14 | 2018-05-11 | 中国移动通信集团湖南有限公司 | 一种文件的监控方法、装置及系统 |
CN103345530B (zh) * | 2013-07-25 | 2017-07-14 | 南京邮电大学 | 一种基于语义网的社交网络黑名单自动过滤模型 |
CN104615608B (zh) * | 2014-04-28 | 2018-05-15 | 腾讯科技(深圳)有限公司 | 一种数据挖掘处理系统及方法 |
CN104462295A (zh) * | 2014-11-28 | 2015-03-25 | 步步高教育电子有限公司 | 一种教育应用添加标签的方法和装置 |
CN105843912A (zh) * | 2016-03-24 | 2016-08-10 | 新浪网技术(中国)有限公司 | 文件审核处理方法及装置 |
CN107346489A (zh) * | 2016-05-04 | 2017-11-14 | 湖南易分销电子商务有限公司 | Mec移动四合一电商解决处理系统及其方法 |
CN105915330A (zh) * | 2016-06-24 | 2016-08-31 | 武汉斗鱼网络科技有限公司 | 一种资料安全共享方法及系统 |
CN106202404A (zh) * | 2016-07-11 | 2016-12-07 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
CN106372057A (zh) * | 2016-08-25 | 2017-02-01 | 乐视控股(北京)有限公司 | 内容的审核方法及装置 |
CN106408334A (zh) * | 2016-08-31 | 2017-02-15 | 微梦创科网络科技(中国)有限公司 | 一种网络广告的审核方法及系统 |
CN106447239B (zh) * | 2016-11-21 | 2020-09-29 | 北京字节跳动科技有限公司 | 一种数据发布的审核方法及装置 |
CN107483420B (zh) * | 2017-07-31 | 2019-12-24 | 北京百悟科技有限公司 | 信息审核装置及方法 |
CN107578268A (zh) * | 2017-07-31 | 2018-01-12 | 上海与德科技有限公司 | 共享广告牌的投放内容审核方法及服务器及投放系统 |
CN107577751A (zh) * | 2017-08-30 | 2018-01-12 | 安徽天达网络科技有限公司 | 一种用于信息传输的文字过滤系统 |
CN107807966A (zh) * | 2017-10-13 | 2018-03-16 | 深圳市迅雷网络技术有限公司 | 一种敏感信息屏蔽方法和服务端 |
CN110019760B (zh) * | 2017-11-02 | 2022-05-06 | 中移(杭州)信息技术有限公司 | 一种文本信息的处理方法及系统 |
CN108304843B (zh) * | 2017-12-25 | 2022-02-22 | 山东浪潮云服务信息科技有限公司 | 一种图像审批方法及审批装置 |
CN109831682B (zh) * | 2018-12-28 | 2021-07-23 | 广州方硅信息技术有限公司 | 信息审核方法、装置、电子设备及存储介质 |
CN110377900A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
CN110309421B (zh) * | 2019-06-20 | 2021-10-22 | 北京奇艺世纪科技有限公司 | 一种ugc内容质量评估方法、装置及电子设备 |
CN110399361B (zh) * | 2019-07-31 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法以及信息处理装置 |
CN110781429A (zh) * | 2019-09-24 | 2020-02-11 | 支付宝(杭州)信息技术有限公司 | 互联网数据检测方法、装置、设备及计算机可读存储介质 |
CN110674255B (zh) * | 2019-09-24 | 2022-08-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 文本内容审核方法及装置 |
CN111698314A (zh) * | 2020-06-08 | 2020-09-22 | 上海敬贤信息科技有限公司 | 一种在线技术论坛资料下载方法 |
CN111698313A (zh) * | 2020-06-08 | 2020-09-22 | 上海敬贤信息科技有限公司 | 一种在线技术资料下载方法 |
CN111967245A (zh) * | 2020-07-09 | 2020-11-20 | 福建亿榕信息技术有限公司 | 一种自动审核校验文档的方法、装置、及计算机设备 |
CN112612880A (zh) * | 2020-12-17 | 2021-04-06 | 上海自古红蓝人工智能科技有限公司 | 用户主导的开放式智能ai语料提交审核系统及方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539430B1 (en) * | 1997-03-25 | 2003-03-25 | Symantec Corporation | System and method for filtering data received by a computer system |
CN1761203A (zh) * | 2005-11-03 | 2006-04-19 | 上海交通大学 | 网上信息安全综合分析与监控系统 |
CN100589453C (zh) * | 2006-01-16 | 2010-02-10 | 腾讯科技(深圳)有限公司 | 一种反垃圾邮件的处理装置和方法 |
CN101510879A (zh) * | 2009-03-26 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 一种垃圾内容过滤的方法及装置 |
CN101729542A (zh) * | 2009-11-26 | 2010-06-09 | 上海大学 | 基于网络数据包的多协议信息解析的系统 |
CN101719924B (zh) * | 2009-12-17 | 2013-04-03 | 上海交通大学 | 基于群件理解的不良彩信过滤方法 |
-
2010
- 2010-12-30 CN CN201010615219.4A patent/CN102098332B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102098332A (zh) | 2011-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102098332B (zh) | 一种内容审核方法和装置 | |
CN102208992B (zh) | 面向互联网的不良信息过滤系统及其方法 | |
JP4919515B2 (ja) | 重複する文書の検出および表示機能 | |
US8402036B2 (en) | Phrase based snippet generation | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN107220295A (zh) | 一种人民矛盾调解案例搜索和调解策略推荐方法 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
JP2002334106A (ja) | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
CN108647225A (zh) | 一种电商黑灰产舆情自动挖掘方法和系统 | |
CN102945246B (zh) | 网络信息数据的处理方法及装置 | |
CN109710825A (zh) | 一种基于机器学习的网页有害信息识别方法 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN103123634A (zh) | 一种版权资源识别方法及装置 | |
CN104809252A (zh) | 互联网数据提取系统 | |
US11651039B1 (en) | System, method, and user interface for a search engine based on multi-document summarization | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN112328857A (zh) | 一种产品知识聚合方法、装置、计算机设备及存储介质 | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN112579771B (zh) | 一种内容的标题检测方法及装置 | |
Liu et al. | Research on network public opinion analysis and monitor method based on big data technology | |
Avigdor-Elgrabli et al. | Structural clustering of machine-generated mail |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080 Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd. Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building A block 5 layer Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |