CN101257461A - 基于分类的内容过滤方法及其装置 - Google Patents
基于分类的内容过滤方法及其装置 Download PDFInfo
- Publication number
- CN101257461A CN101257461A CNA2007100796919A CN200710079691A CN101257461A CN 101257461 A CN101257461 A CN 101257461A CN A2007100796919 A CNA2007100796919 A CN A2007100796919A CN 200710079691 A CN200710079691 A CN 200710079691A CN 101257461 A CN101257461 A CN 101257461A
- Authority
- CN
- China
- Prior art keywords
- content
- classified
- credit grade
- cbcs
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于分类的内容过滤方法及其装置,所述方法包括:提取内容过滤请求中的内容标识;获取所述内容标识对应的分类信息;根据所述分类信息对所述内容进行过滤。所述装置包括:内容标识提取单元,用于提取接收到内容过滤请求中的内容标识;分类信息获取单元,用于根据提取到的所述内容标识获取对应的分类信息;内容过滤单元,用于根据所获取的分类信息对所述内容进行过滤。以解决现有技术中对内容过滤处理时分类资源过于浪费及其处理时间长的问题。
Description
技术领域
本发明涉及网络信息技术,特别是涉及一种基于分类的内容过滤方法及其装置
背景技术
随着网络技术和各项信息技术的飞速发展,网络内容“垃圾”已经开始侵入人们的生活,用户所能接触到的网络内容的范围逐渐脱离时间和空间的限制,像目前网络上大量的不良信息,以及垃圾邮件、病毒邮件、泄密邮件和网络聊天等问题,已经逐渐侵袭到人们的灵魂,从而用户暴露在色情、暴力、病毒等一系列不健康和对客户端有威胁的内容面前的机率大大增加,于是,对通信内容过滤的需求越来越强烈。一般来说,现有的过滤技术包括:名单过滤技术、关键词过滤技术、模板过滤技术、图像过滤技术、智能过滤技术和分类过滤技术等,其中基于分类的内容过滤技术由于其使用灵活、适应性广泛、可综合使用其它过滤技术而成为研究的热点。目前,由于模式识别能力的限制,真正能进行较准确识别的还是文本,普遍应用的内容过滤技术主要是根据关键词和黑白名单,基于分类的内容过滤主要是基于对热点网址主动爬取、提前分类的结果,存在分类信息不随内容实时更新、分类信息有限、智能化操作弱等问题。
现阶段,业界已经开始研究基于实时分类结果进行准确内容过滤的方式,希望形成统一的框架、模式、规则、流程和接口,让不断发展的模式识别技术简单集成其中。请参阅图1,为目前技术中提供基于分类的内容过滤方法的流程图。所述方法包括:
步骤101:基于分类的内容过滤服务器CBCS(Categorization-Based ContentScreening Server)收到内容过滤请求;
步骤102:所述CBCS对过滤的内容进行分类;
步骤103:若分类成功,则根据分类信息对所述内容进行过滤;
步骤104:若分类不成功,则根据默认规则(比如人工设定的黑白名单等)进行处理;
步骤105:所述CBCS发送过滤结果。
由此可见,所述方法基于分类的内容过滤技术关注的是执行内容过滤的单个服务器自身(如:框架、接口、具体的各种模式识别技术等),各个执行内容过滤操作的服务器之间缺乏分类信息的记录和共享,对于同一内容源的相同内容在每次经过任意一个基于分类的内容过滤服务器时,所述基于分类的内容过滤服务器都要对内容进行识别和分类,这样造成了分类资源的大量浪费,同时对于图片、声音、视频、多媒体等分类操作复杂、耗时多的内容,必然会造成用户等待时间过长,影响用户体验。另一方面,模式识别技术还不够先进,对于图片、声音、视频、多媒体等内容的识别和分类很困难,而目前对于分类失败的情况往往根据人工设定的内容源黑白名单、甚至更简单的其他默认规则作为评判根据,缺乏一套动态、准确的辅助评判机制。
发明内容
本发明实施例解决的技术问题是提供一种基于分类的内容过滤方法及其装置,以解决目前技术中对内容过滤处理时分类资源过于浪费及其处理时间长的问题。
为解决上述技术问题,本发明实施例提供一种基于分类的内容过滤方法,所述方法包括步骤:
提取内容过滤请求中的内容标识
获取所述内容标识对应的分类信息;
根据所述分类信息对所述内容进行过滤。
相应的,本发明实施例还提供一种基于分类的内容过滤装置,所述装置包括:
提取单元,用于提取接收到内容过滤请求中的内容标识;
获取单元,用于根据提取到的所述内容标识获取对应的分类信息;
过滤单元,用于根据所述分类信息对所述内容进行过滤。
本发明实施例通过记录来自各个基于分类的内容过滤服务器的分类信息,并在所有基于分类的内容过滤服务器间共享所有的分类信息,从而有效地利用了分类资源,改善了分类处理时间过长从而造成响应延迟的问题。
附图说明
图1为现有技术中基于分类的内容过滤方法的流程图;
图2为本发明第一实施例所述基于分类的内容过滤方法的流程图;
图3为图2所述基于分类的内容过滤方法的具体流程图;
图4为本发明第二实施例所述基于分类的内容过滤方法的具体流程图;
图5为本发明第三实施例所述基于分类的内容过滤方法的具体流程图;
图6为本发明第四实施例所述基于分类的内容过滤装置的结构示意图;
图7为本发明第五实施例所述基于分类的内容过滤装置的结构示意图;
图8为本发明第六实施例所述基于分类的内容过滤装置的结构示意图;
图9为本发明第七实施例所述基于分类的内容过滤装置的结构示意图;
图10为本发明第八实施例所述基于分类的内容过滤装置的结构示意图;
图11为本发明第九实施例所述基于分类的内容过滤装置的结构示意图;
图12为本发明第十实施例所述基于分类的内容过滤装置的应用示意图。
具体实施方式
下面我们将结合附图,对本发明的最佳实施方案进行详细描述。首先要指出的是,本发明实施例中用到的术语、字词及权利要求的含义不能仅仅限于其字面和普通的含义去理解,还包括进而与本发明实施例的技术相符的含义和概念,这是因为我们作为发明者,要适当地给出术语的定义,以便对我们的发明进行最恰当的描述。因此,本说明和附图中所给出的配置,只是本发明实施例的首选实施方案,而不是要列举本发明实施例的所有技术特性。
本发明实施例通过数据管理服务器(DMS,Data Management Server)记录来自各个基于分类的内容过滤服务器的分类信息,并在所有基于分类的内容过滤服务器(CBCS,Categorization-Based Content Screening Server)间共享所有的分类信息,以解决内容过滤处理时分类资源的浪费以及处理时间过长的问题,从而有效地利用了分类资源,同时,数据管理服务器根据收集的分类信息动态生成并持续更新信用等级,并提供给基于分类的内容过滤服务器在无法进行正确分类时使用,有助于提高过滤结果的准确性。本发明实施例特别适用于对通信网络内所有具有固定通信地址的内容源的内容过滤。其中所述内容源包括:超文本传输协议(HTTP,Hypertext Transfer Protocol)服务器、文件传输协议(FTP,File Transfer Protocol)服务器等,但并不限于此,还可以为其它的服务器或设备。
下面结合附图及具体的实施例对本发明作进一步的说明。
请参阅图2,为本发明第一实施例所述基于分类的内容过滤方法的流程图。所述方法包括:
步骤201:提取内容过滤请求中的内容标识;
步骤202:获取所述内容标识对应的分类信息;
步骤203:根据所述分类信息对所述内容进行过滤。
为了便于本领域技术人员的理解,请一并参阅图3,为图2所述基于分类的内容过滤方法的具体流程图。
在本实施例中,需要说明的是,所述内容标识与内容一一对应,所述内容标识至少包括统一资源标识符(URI,Uniform Resource Identifiers);此外,也可以包括URI和最新更新时间;URI和电子标签;URI、最新更新时间和电子标签的任意一种或多种,也可以是其它的内容标识。但所述内容标识必须共同来确定唯一一个具体的内容。
具体如图3所示,CBCS接收到内容过滤请求(即步骤301),是否能成功提取所述请求过滤内容的内容标识(步骤302);在步骤303中,如果所述CBCS成功提取到所述内容的内容标识,则将所述内容标识发送给DMS,请求对应的分类信息。即图2所述的步骤202、203,即获取所述内容标识对应的分类信息,并根据所述分类信息对所述内容进行过滤,其具体的实现过程为:所述DMS根据接收到的内容标识,与自身保存的所有分类信息记录进行匹配(即步骤304);如果匹配成功,则所述DMS将对应的分类信息发送给CBCS(即步骤305);所述CBCS根据接收到的分类信息对所述请求过滤的内容进行过滤(即步骤306);如果匹配失败,则所述DMS通知CBCS无分类信息(即步骤307)。当所述CBCS接收到DMS通知无分类信息时,则对所述等待过滤的内容进行分类(即步骤308);如果所述CBCS分类成功,则根据分类信息对所述内容进行过滤(即步骤309);如果所述CBCS分类失败,则判断是否能成功提取提供该内容的内容源标识(如URI中的主机地址或URI中主机地址下面的某一级)或从内容标识中分析出内容源标识(即步骤310);若成功,则将所述内容源标识发送给DMS请求其信用等级(即步骤311)。其中,本实施例所述信用等级是表示提供请求过滤内容的内容源的信用等级,是内容源标识下所有各级内容标识分类信息的一个统一表现,其具体表现形式可以是一个综合值,也可以是涉及多项类别的数据组合,或两者综合等形式。所述内容标识的初始值可以动态生成也可以人工根据经验、记录、类型等确定。所述DMS根据接收到的内容源标识,与自身保存的所有内容源的信用等级记录进行匹配(即步骤312)。如果匹配成功,则所述DMS将对应的信用等级发送给CBCS(即步骤313);所述CBCS根据接收到的信用等级对所述内容进行过滤(即步骤314);相应的,如果匹配失败,则通知CBCS无信用等级,所述CBCS根据默认规则对所述请求过滤的内容进行过滤(即步骤316)。其中,所述默认规则可以为人工设定的黑白名单等,也可以为其它的规则。
如果所述CBCS提取内容标识失败,则判断是否能直接对所述请求过滤的内容进行分类(即步骤317);如果所述CBCS对所述内容分类成功,则根据对应的分类信息进行对所述内容进行过滤(即步骤318)。如果分类失败,则所述CBCS是否能成功从内容过滤请求中或从内容标识中提取提供该内容的内容源标识(如URI中的主机地址或URI中主机地址下面的某一级)(即步骤310);若成功提取所述内容源标识,则将所述内容源标识发送给DMS请求信用等级(即步骤311);否则,同样执行步骤316,即所述CBCS根据默认规则对所述请求过滤的内容进行过滤。所述DMS根据接收到的信用等级,与自身存储的信用等级记录进行匹配(即步骤312);若匹配成功,则将所述信用等级发送给CBCS(即步骤313);所述CBCS根据接收到的信用等级对所述请求过滤的内容进行过滤(即步骤314);若匹配失败,则通知所述CBCS无该信用等级(即步骤315),所述CBCS则根据默认规则对所述请求过滤的内容进行过滤(即步骤316)。
当所述CBCS对所述请求过滤的内容进行过滤后,发送过滤结果(即步骤319);然后判断本次过滤操作中是否成功提取了所述请求过滤内容的内容标识,并成功进行了内容分类(即步骤320);如果任意过程失败,则结束本流程;如果操作成功,则所述CBCS将所述内容标识及分类信息发送给DMS(即步骤321)。所述DMS保存接收到的所述内容标识及分类信息(即步骤322);然后,根据所述内容标识及分类信息生成或更新对应内容源的信用等级,并保存(即步骤323)。
本实施例通过提取待过滤内容的内容标识或内容源标识,根据所述内容标识或内容源标识获取对应的分类信息或信用等级,对所述内容进行过滤,等过滤完成后发送过滤结果,当所述CBCS成功提取内容标识,并成功进行内容分类时,将所述内容标识和分类信息发送给所述DMS;所述DMS添加记录保存接收到的数据,并根据接收到的内容标识和分类信息生成或更新对应内容源的信用等级。以便于后续的流程直接调用该分类信息及信用等级。或者便于其它CBCS间共享所有更新后的分类信息,以解决内容过滤处理时分类资源的浪费以及处理时间过长的问题,从而有效地利用了分类资源,同时有助于提高过滤结果的准确性。
还请参阅图4,为本发明第二实施例所述基于分类的内容过滤方法的另一具体流程图。
本实施例的步骤401至406与所述第一实施例中的步骤301至306相同,以及本实施例中的步骤416-429与所述第一实施例中的步骤310-323也相同,其具体的实现过程详见第一实施例,在此不再赘述,其不同之处为:
在步骤404中所述DMS进行分类信息记录匹配失败时,则所述DMS直接根据内容标识提取出内容源标识(即步骤407),进行内容源的信用等级匹配(即步骤408)。
在步骤409中,若匹配成功,则所述DMS通知CBCS无分类信息,并将信用等级发送给CBCS;若匹配失败,则所述DMS通知CBCS无分类信息和信用等级(即步骤410)。
在步骤411中,所述CBCS对待过滤的内容进行分类;若分类成功,则根据分类信息进行过滤(即步骤412);若分类失败,则判断所述CBCS是否从DMS处收到了信用等级(即步骤413);若收到了信用等级,则所述CBCS根据接收到的信用等级对所述待过滤的内容进行过滤(即步骤414)。若没有收到信用等级,则CBCS根据默认规则进行处理(即步骤415)。
在步骤402中,所述CBCS提取内容标识时,也可以同时提取内容源标识,在步骤403中,CBCS将所述内容标识和内容源标识一起发送给DMS,以省略步骤407,即DMS从内容标识中提取内容源标识的操作。
还请参阅图5,为本发明第三实施例所述基于分类的内容过滤方法的又一具体流程图。
本实施例与图4所述实施例不同的是,若CBCS成功提取内容标识,CBCS还要进一步提取内容源标识(即步骤503),其中,所述内容源标识通过内容过滤请求或从提取的内容标识中得到;然后把所述内容标识和内容源标识发送给DMS请求分类信息(即步骤504);若CBCS提取内容标识失败,则CBCS可以从内容过滤请求中提取内容源标识(即步骤508),如果成功提取到内容源标识,则将所述内容源标识发送给DMS请求信用等级(即步骤509),否则CBCS对内容进行分类(即步骤514)。在DMS反馈信用等级时(信用等级匹配成功与否,可以不仅仅由信用等级是否存在来决定,还可以结合信用等级的成熟度,比如20次以内分类信息生成的信用等级认为成熟度不够,而不认为该信用等级匹配成功而可以反馈),直接根据信用等级进行过滤(即步骤512);在DMS既无法提供分类信息也无法提供信用等级时,或CBCS无法提取内容源标识时,CBCS对内容进行分类(即步骤514)。
在本实施例中,也可以采用类似图4的操作,即省略503步骤,仅发送内容标识给DMS,而由DMS在分类信息匹配失败时从内容标识中分析出内容源标识。
由此可知,本实施例先根据分类信息进行过滤,在无法获得分类信息但只能获得信用等级时根据信用等级过滤,在既不能获得分类信息又不能获得信用等级的情况下再进行分类。该实施例对于用户要求反馈速度快,对过滤结果要求不是太高的情况下能满足用户需求,特别适用于信用等级比较成熟的情况。
还请参阅图6,为本发明第四实施例所述基于分类的内容过滤装置的结构示意图,所述装置包括:过滤请求接收单元61、内容标识提取单元62、分类信息获取单元63、内容过滤单元64和过滤结果反馈单元65。其中,所述过滤请求接收单元61,用于接收内容过滤请求,并存储;所述内容标识提取单元62,与过滤请求接收单元61相连,用于提取接收到内容过滤请求中的内容标识;所述分类信息获取单元63,与内容标识提取单元62相连,用于根据提取到的所述内容标识获取对应的分类信息;所述内容过滤单元64,与分类信息获取单元63相连,用于根据所述分类信息对所述内容进行过滤;所述过滤结果反馈单元65,与内容过滤单元64相连,用于反馈过滤后的内容。
优选的,在图6的基础上可以增加内容源标识提取单元66、信用等级获取单元67,具体如图7所示,为本发明第五实施例所述基于分类的内容过滤装置的结构示意图。在该图7中,所述内容源标识提取单元66,与过滤请求接收单元61和内容标识提取单元62分别相连,用于提取接收到内容过滤请求中的内容源标识,或提取所述内容标识中的内容源标识;所述信用等级获取单元67,与内容源标识提取单元66和内容过滤单元64分别相连,用于获取所述内容源标识对应的信用等级以提供给内容过滤单元做过滤依据。
优选的,在图7的基础上所述装置还可以包括内容分类单元68,分别与过滤请求接收单元61、内容标识提取单元62和内容过滤单元64相连,用于对提取内容标识失败、获取分类信息失败或获取分类信息与信用等级都失败时对过滤内容进行分类,具体如图8所示,为本发明第六实施例所述基于分类的内容过滤装置的结构示意图。
优选的,在图8的基础上还可以增加分类信息提交单元69。如图9所示,为本发明第七实施例所述基于分类的内容过滤装置的结构示意图。在该图9中,所述分类信息提交单元69,与内容分类单元68相连,用于发送成功提取过滤内容的内容标识,并成功进行内容分类的分类信息。
优选的,在图9的基础上还可以增加信用等级生成或更新单元70,具体如图10所示,为本发明第八实施例所述基于分类的内容过滤装置的结构示意图,在该图10中,所述信用等级生成或更新单元70,与分类信息提交单元69相连,用于根据所接收到的内容标识和分类信息生成或更新对应内容源标识的信用等级。
优选的,在图10的基础上还可以增加,查询请求接收反馈单元73、数据读写单元74、信息接收单元75,以及分类信息存储单元71和/或信用等级存储单元72,具体如11所示,为本发明第九实施例所述基于分类的内容过滤装置的结构示意图。在该图11中,所述分类信息存储单元71,用于保存接收到的内容标识及其分类信息;所述信用等级存储单元72,用于保存接收到的内容源标识及其信用等级;所述查询请求接收反馈单元73,与分类信息获取单元63和信用等级获取单元67分别相连,用于通过数据读写单元74读写分类信息存储单元71或信用等级存储单元72中相应的分类信息或信用等级;并将其反馈给相应的分类信息获取单元63或信用等级获取单元67;所述信息接收单元75,与分类信息提交单元69相连,用于将接收到的分类信息(包括内容标识和分类信息等)直接发送给信用等级生成或更新单元70,或通过数据读写单元74分别将其存储到分类信息存储单元71和信用等级存储单元72。
在该实施中,所述过滤请求接收单元61、内容标识提取单元62、分类信息获取单元63、内容过滤单元64、过滤结果反馈单元65、内容分类单元68、分类信息提交单元69、内容源标识提取单元66和信用等级获取单元67可以集成于CBCS中;而所述信用等级生成或更新单元70、分类信息存储单元71、信用等级存储单元72、查询请求反馈单元73、数据读写单元74和信息接收单元75可以集成在DMS中。
上述装置中各个单元的功能和作用详见上述方法中各个步骤,在此不再赘述。
此外,在本发明实施例所述装置中,所述内容标识提取单元62、分类信息获取单元63、内容源标识提取单元66、信用等级获取单元67、内容分类单元68、内容过滤单元64和分类信息提交单元69可以集成于CBCS中;所述信用等级生成或更新单元70、分类信息存储单元71、信用等级存储单元72可以集成在DMS中。
优选的,所述内容标识提取单元62、分类信息获取单元63、信用等级获取单元67、内容分类单元68、内容过滤单元64和分类信息提交单元69可以集成于CBCS中;所述内容源标识提取单元66、信用等级生成或更新单元70、分类信息存储单元71、信用等级存储单元72可以集成在DMS中。
优选的,所述内容标识提取单元62、分类信息获取单元63、内容源标识提取单元66、信用等级获取单元67、内容分类单元68、内容过滤单元64、分类信息提交单元69、信用等级生成或更新单元70、分类信息存储单元71和信用等级存储单元72可以全部集成在CBCS中。
优选的,所述内容标识提取单元62、分类信息获取单元63、内容源标识提取单元66、信用等级获取单元67、内容分类单元68、内容过滤单元64、分类信息提交单元69、信用等级生成或更新单元70集成于CBCS中;所述分类信息存储单元71和信用等级存储单元72集成于DMS中。
优选的,所述内容标识提取单元62、分类信息获取单元63、信用等级获取单元67、内容分类单元68、内容过滤单元64、分类信息提交单元69、信用等级生成或更新单元70集成于CBCS中;所述内容源标识提取单元66、分类信息存储单元71和信用等级存储单元72集成于DMS中。
上述的优选实施例并不用于限定本发明,除此之外,还可以有其它的组合方式,本发明不再一一举例说明。
由此可见,本发明实施例所述基于分类的内容过滤装置,可以包括:内容源、CBCS、DMS和终端(即用户),所述CBCS位于内容源和用户之间对通信内容的进行过滤处理。当所述CBCS接收请求过滤的内容,根据内容的分类信息(不能得到分类信息时可以用信用等级为根据)执行过滤并返回过滤结果,并将内容标识和自身进行分类操作得到的分类信息发送给DMS,另一方面还可以向DMS请求分类信息和/或信用等级并接收数据管理服务器的反馈结果。所述DMS保存收到的内容标识和分类信息,并生成或更新提供该内容的内容源的信用等级,另一方面DMS可以根据收到的内容标识向CBCS提供分类信息和/或信用等级。逻辑上,基于分类的内容过滤服务器和数据管理服务器是独立的,物理上可以集成,也可以分开。
为了便于本领域技术人员的理解,下面结合具体实施例进一步来说明本发明。
还请参阅图12,为本发明第十实施例所述基于分类的内容过滤装置的应用示意图。包括:因特网内容提供商81、移动网络的CBCS82、因特网络的CBCS83、数据管理服务器84、移动用户85和因特网用户86。其中,所述因特网内容提供商81的内容一方面通过移动网络的CBCS82的过滤后到达移动用户85,另一方面通过因特网的CBCS83的过滤后到达因特网用户86,数据管理服务器84分别和移动网络CBCS82、因特网络的CBCS83进行交互,记录并共享它们提供的具体内容的分类信息,同时生成、更新提供该内容的内容源的信用等级的信息。在实际应用中,所述数据管理服务器可以是分布式实时更新数据库。
下面以用户通过移动网络或者因特网本身接入因特网进行内容浏览的场景为例来进行说明本装置。
当所述CBCS收到过滤请求,根据超文本传输协议(HTTP)头确定等待过滤的内容是用户给服务器的请求时,则按照分类和过滤的原流程进行处理。其中,如果HTTP头的方式(Method)为GET,则记录传输控制协议(TCP,Transfer Control Protocol)报头的源端口和目的端口、因特网协议(IP,InternetProtocol)包头的源地址和目的地址,同时记录HTTP头的统一资源标识符(URI)(即绝对URI;或者相对URI和Host字段)。
当所述CBCS收到过滤请求,根据HTTP头确定等待过滤的内容是服务器给用户的响应时,则根据TCP报头的源端口和目的端口、IP包头的源地址和目的地址,查找是否保存了对应的请求。如果没有找到对应的请求,则按照分类和过滤的原流程进行处理;否则,提取需要的字段并根据提取到的内容进行下一步处理,下面以HTTPl.1(RFC2616)为根据举例说明:
如果Status Code为200(即Reason Phrase为OK)且包括Last-Modified和/或ETag,则将Last-Modified和/或ETag的值和之前保存的URI一起作为内容标识发送给DMS。
如果Status Code为1XX(表示Informational)、3XX(表示Redirection)、4XX(表示Client Error)、5XX(表示Server Error)、201(即Reason Phrase为Created)、202(即Reason Phrase为Accepted)、204(即Reason Phrase为No Content)、205(即Reason Phrase为Reset Content)等,则不需过滤直接通过,并删除之前保存的对应请求的字段信息。
所述DMS根据收到的信息,与自身保存的分类信息记录进行匹配,如果找到了对应记录,则将分类信息发送给CBCS,否则,通知CBCS没有分类信息。
如果所述CBCS收到了分类信息,则根据收到的分类信息进行过滤,并返回过滤结果,删除之前保存的对应请求的字段信息;如果CBCS没有收到分类信息,则所述CBCS进行分类。
如果CBCS成功进行了分类,则根据分类信息进行过滤,并返回过滤结果,同时CBCS将URI、Last-Modified和/或ETag以及分类信息(如:URI为www.xxxx.com/news/20061129/amuse/international/1.jpg,Last-Modified为Wed,29 Nov 2006 01:44:23GMT,ETag为″a43256e55713c71:d76″,分类信息为Sex1)发送给DMS,由DMS进行保存并更新该URI对应内容源标识Host(内容源标识也可以为www.xxxx.com/news)的信用等级(对应到www.xxxx.com的信用等级的Sex项91,sex1说明要减1,则得到www.xxxx.com在Sex的最新信用等级为90),另外CBCS删除之前保存的对应请求的字段信息;如果CBCS不能成功分类,则将URI对应的Host信息发送给DMS,请求该Host的信用等级,所述DMS根据Host与自身保存的信用等级记录进行匹配,如果找到了对应记录,则将信用等级发给CBCS,否则,通知CBCS没有信用等级,如果所述CBCS收到了信用等级,则根据收到的信用等级进行过滤,并返回过滤结果,删除之前保存的对应请求的字段信息;如果没有收到信用等级,则根据默认规则(如:无法得到分类信息和信用等级就直接阻止该内容发送,或根据HOST黑白名单过滤)处理,并返回结果,删除之前保存的对应请求的字段信息。
由此可见,本发明实施例通过数据管理服务器记录来自各个基于分类的内容过滤服务器的分类信息,并在所有基于分类的内容过滤服务器间共享所有的分类信息,从而有效地利用了分类资源,改善了分类处理时间过长从而造成响应延迟的问题。同时,数据管理服务器根据收集的分类信息动态生成并持续更新信用等级,并提供给基于分类的内容过滤服务器在无法进行正确分类时使用,有助于提高过滤结果的准确性。本发明实施例对于图片、声音、视频、多媒体等识别困难、分类操作复杂、耗时多的内容特别有益。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (30)
1. 一种基于分类的内容过滤方法,其特征在于,包括步骤:
提取内容过滤请求中的内容标识;
获取所述内容标识对应的分类信息;
根据所述分类信息对所述内容进行过滤。
2. 根据权利要求1所述基于分类的内容过滤方法,其特征在于,所述内容标识包括:统一资源标识符。
3. 根据权利要求2所述基于分类的内容过滤方法,其特征在于,所述内容标识还包括下述任意一种或多种:
统一资源标识符和最近更新时间;统一资源标识符和电子标签;统一资源标识符、最近更新时间和电子标签。
4. 根据权利要求1所述基于分类的内容过滤方法,其特征在于,所述获取所述内容标识对应的分类信息的过程为:
基于分类的内容过滤服务器CBCS将所述内容标识发送给数据管理服务器DMS;
所述DMS将所述内容标识与存储的分类信息进行匹配,并反馈匹配成功的所述分类信息。
5. 根据权利要求4所述基于分类的内容过滤方法,其特征在于,若所述内容标识与存储的分类信息匹配失败,则所述CBCS对所述内容进行分类,根据分类结果对所述内容进行过滤。
6. 根据权利要求1所述基于分类的内容过滤方法,其特征在于,若提取所述内容标识失败,则所述CBCS对所述内容进行分类,根据分类结果对所述内容进行过滤。
7. 根据权利要求5或6所述基于分类的内容过滤方法,其特征在于,
若分类成功,则得到对应的分类信息,并根据所述分类信息对所述内容进行过滤;
若分类失败,则向DMS请求所述内容源的信用等级,并根据所述信用等级对所述内容进行过滤。
8. 根据权利要求7所述基于分类的内容过滤方法,其特征在于,所述向DMS请求所述内容源的信用等级的过程为:
所述CBCS提取内容源标识,并将所述内容源标识发送给DMS;
所述DMS将接收到的内容源标识与存储的信用等级进行匹配;
若匹配成功,则将所述信用等级发送给CBCS;否则,通知CBCS无所述内容源的信用等级。
9. 根据权利要求8所述基于分类的内容过滤方法,其特征在于,所述CBCS从内容过滤请求中提取内容源标识或从内容标识中分析出内容源标识。
10. 根据权利要求1所述基于分类的内容过滤方法,其特征在于,在提取内容过滤请求中的内容标识的同时,提取内容过滤请求中的内容源标识或从提取的内容标识中分析出内容源标识。
11. 根据权利要求10所述基于分类的内容过滤方法,其特征在于,所述获取所述内容标识对应的分类信息的过程为:
CBCS将所述内容标识和内容源标识发送给DMS;
所述DMS将所述内容标识与存储的分类信息进行匹配;
若匹配成功,则反馈所述分类信息;否则,所述DMS根据所述内容源标识进行信用等级匹配;
若信用等级匹配成功,则将所述内容源的信用等级反馈给CBCS,所述CBCS根据所述信用等级对所述内容进行过滤。
12. 根据权利要求10所述基于分类的内容过滤方法,其特征在于,所述获取所述内容标识对应的分类信息的过程为:
CBCS将所述内容标识发送给DMS;
所述DMS将所述内容标识与存储的分类信息进行匹配;
若匹配成功,则反馈所述分类信息;否则,所述DMS根据从内容标识中分析出的内容源标识进行信用等级匹配;
若信用等级匹配成功,则将所述内容源的信用等级反馈给CBCS,所述CBCS根据所述信用等级对所述内容进行过滤。
13. 根据权利要求11或12所述基于分类的内容过滤方法,其特征在于,
若信用等级匹配失败,则通知CBCS无分类信息和信用等级,所述CBCS根据默认规则对所述内容进行过滤。
14. 根据权利要求11或12所述基于分类的内容过滤方法,其特征在于,若提取所述内容标识失败,则所述CBCS对所述内容进行分类,根据分类结果对所述内容进行过滤。
15. 根据权利要求14所述基于分类的内容过滤方法,其特征在于,所述根据分类结果对所述内容进行过滤的具体过程为:
若分类成功,则得到对应的分类信息,并根据所述分类信息对所述内容进行过滤;
若分类失败,则判断所述CBCS是否收到信用等级;若是,则根据接收到的信用等级对该内容进行过滤。
16. 根据权利要求10所述基于分类的内容过滤方法,其特征在于,若提取所述内容标识失败,则
CBCS将所述内容源标识发送给DMS;
所述DMS将所述内容源标识与存储的信用等级进行匹配;
若匹配成功,则反馈所述信用等级;所述CBCS根据信用等级对所述内容进行过滤;否则,通知CBCS无信用等级。
17. 根据权利要求15所述基于分类的内容过滤方法,其特征在于,
若分类信息匹配失败且信用等级匹配成功,或提取所述内容标识失败且信用等级匹配成功,则所述CBCS根据信用等级对所述内容进行过滤;
若信用等级匹配失败,则CBCS对所述内容进行分类,根据分类结果对所述内容进行过滤。
18. 根据权利要求17所述基于分类的内容过滤方法,其特征在于,所述方法还包括:
当所述CBCS成功提取内容标识,并成功进行内容分类时,将所述内容标识和分类信息发送给所述DMS;
所述DMS添加记录保存接收到的数据,并根据接收到的内容标识和分类信息生成或更新对应内容源的信用等级。
19. 根据权利要求11、12或16任一项所述基于分类的内容过滤方法,其特征在于,所述信用等级为内容源标识下所有各级内容标识分类信息的统一表示,其初始值为动态生成或预先设置。
20. 一种基于分类的内容过滤装置,其特征在于,包括:
内容标识提取单元,用于提取接收到内容过滤请求中的内容标识;
分类信息获取单元,用于根据提取到的所述内容标识获取对应的分类信息;
内容过滤单元,用于根据所获取的分类信息对所述内容进行过滤。
21. 根据权利要求20所述基于分类的内容过滤装置,其特征在于,所述装置还包括:
内容源标识提取单元,用于提取接收到内容过滤请求中的内容源标识,或提取所述内容标识中的内容源标识;
信用等级获取单元,用于获取所述内容源标识对应的信用等级。
22. 根据权利要求20或21所述基于分类的内容过滤装置,其特征在于,所述装置还包括:
内容分类单元,用于对提取内容标识失败、获取分类信息失败或获取分类信息与信用等级都失败时对过滤内容进行分类。
23. 根据权利要求22所述基于分类的内容过滤装置,其特征在于,所述装置还包括:
分类信息提交单元,用于发送成功提取过滤内容的内容标识,并成功进行内容分类的分类信息。
24. 根据权利要求23所述基于分类的内容过滤装置,其特征在于,所述装置还包括:
信用等级生成或更新单元,用于根据所述内容标识及其分类信息生成或更新对应内容源标识的信用等级。
25. 根据权利要求24所述基于分类的内容过滤装置,其特征在于,所述系统至少还包括下述一个:
分类信息存储单元,用于保存接收到的内容标识及其分类信息;
信用等级存储单元,用于保存接收到的内容源标识及其信用等级。
26. 根据权利要求25所述基于分类的内容过滤装置,其特征在于,所述内容标识提取单元、分类信息获取单元、内容源标识提取单元、信用等级获取单元、内容分类单元、内容过滤单元和分类信息提交单元集成于CBCS中;所述信用等级生成或更新单元、分类信息存储单元、信用等级存储单元集成在DMS中。
27. 根据权利要求25所述基于分类的内容过滤装置,其特征在于,所述内容标识提取单元、分类信息获取单元、信用等级获取单元、内容分类单元、内容过滤单元和分类信息提交单元集成于CBCS中;所述内容源标识提取单元、信用等级生成或更新单元、分类信息存储单元、信用等级存储单元集成在DMS中。
28. 根据权利要求25所述基于分类的内容过滤装置,其特征在于,所述内容标识提取单元、分类信息获取单元、内容源标识提取单元、信用等级获取单元、内容分类单元、内容过滤单元、分类信息提交单元、信用等级生成或更新单元、分类信息存储单元和信用等级存储单元集成在CBCS中。
29. 根据权利要求25所述基于分类的内容过滤装置,其特征在于,所述内容标识提取单元、分类信息获取单元、内容源标识提取单元、信用等级获取单元、内容分类单元、内容过滤单元、分类信息提交单元、信用等级生成或更新单元集成于CBCS中;所述分类信息存储单元和信用等级存储单元集成于DMS中。
30. 根据权利要求25所述基于分类的内容过滤装置,其特征在于,所述内容标识提取单元、分类信息获取单元、信用等级获取单元、内容分类单元、内容过滤单元、分类信息提交单元、信用等级生成或更新单元集成于CBCS中;所述内容源标识提取单元、分类信息存储单元和信用等级存储单元集成于DMS中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100796919A CN101257461A (zh) | 2007-03-02 | 2007-03-02 | 基于分类的内容过滤方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100796919A CN101257461A (zh) | 2007-03-02 | 2007-03-02 | 基于分类的内容过滤方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101257461A true CN101257461A (zh) | 2008-09-03 |
Family
ID=39891941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007100796919A Pending CN101257461A (zh) | 2007-03-02 | 2007-03-02 | 基于分类的内容过滤方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101257461A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014000485A1 (zh) * | 2012-06-30 | 2014-01-03 | 华为技术有限公司 | 内容过滤方法和装置 |
WO2015014221A1 (zh) * | 2013-07-31 | 2015-02-05 | 华为技术有限公司 | 一种垃圾信息过滤方法和装置 |
CN104484351A (zh) * | 2014-11-28 | 2015-04-01 | 上海百事通信息技术股份有限公司 | 大数据量号码过滤装置及方法 |
CN104662562A (zh) * | 2012-09-26 | 2015-05-27 | 比葛露股份有限公司 | 信息显示系统、信息显示方法、服务器、服务器的控制方法以及程序 |
CN106663210A (zh) * | 2014-06-30 | 2017-05-10 | 杜比实验室特许公司 | 基于感受的多媒体处理 |
WO2018068660A1 (zh) * | 2016-10-12 | 2018-04-19 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置和设备 |
CN110717110A (zh) * | 2019-10-12 | 2020-01-21 | 北京达佳互联信息技术有限公司 | 多媒体资源过滤方法、装置、电子设备及存储介质 |
-
2007
- 2007-03-02 CN CNA2007100796919A patent/CN101257461A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014000485A1 (zh) * | 2012-06-30 | 2014-01-03 | 华为技术有限公司 | 内容过滤方法和装置 |
CN104662562A (zh) * | 2012-09-26 | 2015-05-27 | 比葛露股份有限公司 | 信息显示系统、信息显示方法、服务器、服务器的控制方法以及程序 |
US10079770B2 (en) | 2013-07-31 | 2018-09-18 | Huawei Technologies Co., Ltd. | Junk information filtering method and apparatus |
WO2015014221A1 (zh) * | 2013-07-31 | 2015-02-05 | 华为技术有限公司 | 一种垃圾信息过滤方法和装置 |
CN104348642A (zh) * | 2013-07-31 | 2015-02-11 | 华为技术有限公司 | 一种垃圾信息过滤方法和装置 |
CN104348642B (zh) * | 2013-07-31 | 2018-03-06 | 华为技术有限公司 | 一种垃圾信息过滤方法和装置 |
CN106663210A (zh) * | 2014-06-30 | 2017-05-10 | 杜比实验室特许公司 | 基于感受的多媒体处理 |
CN106663210B (zh) * | 2014-06-30 | 2021-08-20 | 杜比实验室特许公司 | 基于感受的多媒体处理 |
US10748555B2 (en) | 2014-06-30 | 2020-08-18 | Dolby Laboratories Licensing Corporation | Perception based multimedia processing |
CN104484351A (zh) * | 2014-11-28 | 2015-04-01 | 上海百事通信息技术股份有限公司 | 大数据量号码过滤装置及方法 |
CN104484351B (zh) * | 2014-11-28 | 2018-07-20 | 上海百事通信息技术股份有限公司 | 大数据量号码过滤装置及方法 |
CN107944461A (zh) * | 2016-10-12 | 2018-04-20 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置和设备 |
WO2018068660A1 (zh) * | 2016-10-12 | 2018-04-19 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置和设备 |
CN110717110A (zh) * | 2019-10-12 | 2020-01-21 | 北京达佳互联信息技术有限公司 | 多媒体资源过滤方法、装置、电子设备及存储介质 |
CN110717110B (zh) * | 2019-10-12 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 多媒体资源过滤方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102918534B (zh) | 查询管道 | |
US7668849B1 (en) | Method and system for processing structured data and unstructured data | |
CN106982150B (zh) | 一种基于Hadoop的移动互联网用户行为分析方法 | |
CN101257461A (zh) | 基于分类的内容过滤方法及其装置 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN109040252A (zh) | 文件传输方法、系统、计算机设备和存储介质 | |
CN106649496A (zh) | 一种政务数据采集共享系统与方法 | |
EP1944719A1 (en) | Systems and methods for protecting sensitive data | |
CN107092552A (zh) | 一种日志管理方法及装置 | |
CN110727643A (zh) | 一种基于机器学习的文件分类管理方法及系统 | |
CN101103331A (zh) | 在内容寻址的存储设备上实施应用程序特定管理策略 | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
JP4548184B2 (ja) | 圧縮規則生成方法、圧縮通信装置及びプログラム | |
CN114598597A (zh) | 多源日志解析方法、装置、计算机设备及介质 | |
US20220284045A1 (en) | Matching machine generated data entries to pattern clusters | |
JP6078485B2 (ja) | 運用履歴分析装置及び方法及びプログラム | |
US20180295145A1 (en) | Multicomputer Digital Data Processing to Provide Information Security Control | |
KR101855479B1 (ko) | 빅 데이터 기반 지식 콘텐츠 추천 방법 및 시스템 | |
CN115296892B (zh) | 数据信息服务系统 | |
CN106855888A (zh) | 基于Logstash分布式系统的日志监控系统 | |
US11275862B2 (en) | Data processing apparatus for assigning an access right to a file linked in a message | |
CN113704203A (zh) | 一种日志文件的处理方法及装置 | |
JP5959451B2 (ja) | リアルタイムデータ転送システム及びリアルタイムデータ転送方法 | |
CN105634841A (zh) | 一种减少网络审计系统冗余日志的方法与装置 | |
US20030167194A1 (en) | Apparatus and method for generating a process definition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080903 |