CN101296155B - 对内容分类的方法及系统 - Google Patents

对内容分类的方法及系统 Download PDF

Info

Publication number
CN101296155B
CN101296155B CN200710097952XA CN200710097952A CN101296155B CN 101296155 B CN101296155 B CN 101296155B CN 200710097952X A CN200710097952X A CN 200710097952XA CN 200710097952 A CN200710097952 A CN 200710097952A CN 101296155 B CN101296155 B CN 101296155B
Authority
CN
China
Prior art keywords
content
synopsis
classifying
categorised
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200710097952XA
Other languages
English (en)
Other versions
CN101296155A (zh
Inventor
柴晓前
彭锦
卓汉·祖依德维格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN200710097952XA priority Critical patent/CN101296155B/zh
Priority to PCT/CN2008/070001 priority patent/WO2008128445A1/zh
Priority to EP08700028A priority patent/EP2141612A4/en
Publication of CN101296155A publication Critical patent/CN101296155A/zh
Priority to US12/466,529 priority patent/US8286240B2/en
Application granted granted Critical
Publication of CN101296155B publication Critical patent/CN101296155B/zh
Priority to US13/630,564 priority patent/US8510832B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了对内容分类的方法及系统,以减小内容分类处理的负荷和网络传输流量。方法包括:内容分类请求方发送待分类内容的内容摘要给内容分类提供方;内容分类提供方根据所述内容摘要进行内容分类。内容分类请求装置,包括:摘要操作判断单元,用于判断是否需要获得待分类内容的内容摘要;摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要;第一发送单元,用于将摘要获得单元获得的内容摘要发出。

Description

对内容分类的方法及系统 
技术领域
本发明涉及网络及通信领域,特别是涉及对内容分类的方法及系统。 
背景技术
随着网络技术和各项信息技术的飞速发展,用户所能接触到的内容逐渐脱离时间和空间的限制,用户暴露在色情、暴力、病毒等一系列不健康和对客户端有威胁的内容面前的机率大大增加,于是对通信内容过滤的需求越来越强烈。现有的过滤技术包括:名单过滤技术、关键词过滤技术、模板过滤技术、分类过滤技术等,其中基于分类的内容过滤技术由于其使用灵活和适应性广泛而成为研究的热点。另一方面,自动文摘技术已经发展了50年左右,与其相关的基础技术(如:自动分词)也经历了长期的发展并形成了一些实用系统,尤其是西文自动文摘发展已经比较成熟。同时视频摘要技术的研究和成果也日新月异,越来越成熟。 
参见图1所示,目前基于分类的内容过滤框架从结构上主要分为2个部分:内容过滤单元和内容分类单元。内容分类单元提供一个接口CBCS-1,内容分类请求方(包括:框架内部的内容过滤单元,以及外部的其他请求者)均可以通过此接口获取待分类内容的内容类别。内容分类请求方可输入的参数包括:内容本身或内容标识(如URI)和/或其他与内容相关信息(如内容所有者)。 
参见图2所示,目前内容分类请求方获取待分类内容的内容类别的过程,包括下列步骤: 
1.内容分类请求方确定使用内容本身去请求内容类别,如:情况一,内容分类请求方为内容过滤单元,其收到的内容过滤请求中只带有内容本身,而没有其他内容标识和预分类信息;情况二,内容分类请求方为内容过滤单元, 其收到的内容过滤请求中的内容为预分类内容,但其预分类信息不可信任且没有其他内容标识;情况三,内容分类请求方为内容过滤单元,其收到的内容过滤请求中带有内容本身和内容标识,但是内容分类提供方(内容分类单元)无法提供其内容标识对应的类别信息;情况四,内容提供商作为内容分类请求方仅仅是为了请求类别,以生成预分类内容,供其提供的内容在以后被请求时使用该类别信息;情况五,内容分类请求方为内容过滤单元,其收到的内容过滤请求中带有内容本身和内容标识,由于内容过滤单元设置成不支持以内容标识去获取类别的模式,从而直接使用内容本身去请求内容类别。 
2.内容分类请求方构造内容类别请求消息,并向内容分类提供方发送该消息,其中携带了内容本身。 
3.内容分类提供方从内容类别请求消息中提取出内容本身,并对内容本身采用适当的算法进行分类。 
4.内容分类提供方构造响应消息,向内容分类请求方返回内容类别。 
在输入参数中,直接体现该内容的只有内容本身和内容对应的URI。URI不一定总是能获取,同时对于该URI对应的内容类别,内容分类提供方不一定能提供(如:未保存在内容分类单元中或者内容分类单元未能从外部获取得到对应的内容类别),这时内容分类请求方只能直接向内容分类提供方提供内容本身,而内容本身可能很大,需要承载在一个内容类别请求消息拆分成的多个数据包中,这时不仅需要内容分类提供方从该请求消息中解析出待分类的内容,而且需要大量缓存、重组内容,最后再根据分类算法进行分类处理。 
发明人在发明过程中发现,现有技术中,内容分类请求方在请求内容类别时提供给内容分类提供方的信息中,直接体现该信息的输入参数只有内容本身和URI两种。在向内容分类提供方提供内容本身时,缺乏一个高效的处理方式,不仅加重内容分类提供方分类处理的负荷,同时加大网络传输流量,特别是对于外部实体通过CBCS-1接口请求内容类别的情况。
发明内容
本发明实施例提供了一种请求内容分类的方法,以减小网络传输流量。本发明实施例还提供了一种内容分类的方法,以减小内容分类处理的负荷。本发明实施例还提供了对内容分类的方法及系统,以减小内容分类处理的负荷和网络传输流量。本发明实施例的一种请求内容分类的方法,包括以下步骤:内容分类请求方获得待分类内容的内容摘要,生成内容类别请求消息,并在所述的内容类别请求消息中携带所述的内容摘要;内容分类请求方将携带有所述内容摘要的内容类别请求消息发出,请求内容类别;内容分类请求方还指示内容分类提供方,以内容摘要对应的算法对所述内容摘要进行内容分类。本发明实施例的一种内容分类的方法,包括以下步骤:内容分类提供方收到内容类别请求消息,所述的内容类别请求消息中携带有待分类内容的内容摘要,内容分类提供方还收到内容分类请求方的指示,以内容摘要对应的算法对所述内容摘要进行内容分类;内容分类提供方根据所述的内容摘要以及指示以内容摘要对应的算法对所述内容摘要进行内容分类的指示信息对所述的待分类内容进行内容分类。本发明实施例的对内容分类的方法包括:内容分类请求方发送待分类内容的内容摘要以及指示以内容摘要对应的算法对所述内容摘要进行内容分类的指示信息给内容分类提供方;内容分类提供方根据所述内容摘要以及指示以内容摘要对应的算法对所述内容摘要进行内容分类的指示信息进行内容分类。 
本发明实施例的内容分类请求系统,包括:摘要操作判断单元,用于判断是否需要获得待分类内容的内容摘要;摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要;第一发送单元,用于将摘要获得单元获得的内容摘要发出;第一指示单元,用于通过第一发送单元指示内容分类提供方,以内容摘要对应的算法对所述内容摘要进行内容分类。本发明实施例的内容分类的系统,包括:内容分类请求方一侧和内容分类提供方一侧;所述内容分类请求方一侧包括:内容分类请求装置,其中进一步包括:摘要操作判断单元,用于判断是否需要获得待分类内容的内 容摘要;摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要;第一发送单元,用于将摘要获得单元获得的内容摘要发出;第一指示单元,用于通过第一发送单元指示内容分类提供装置,以内容摘要对应的算法对所述内容摘要进行内容分类;所述内容分类提供方一侧包括:内容分类提供装置,用于根据内容分类请求装置发来的所述内容摘要进行内容分类。由于本发明实施例以待分类内容的内容摘要向内容分类提供方请求内容类别,而所述内容摘要又远远小于内容本身,所以减小了内容分类处理的负荷和网络传输流量。 
附图说明
图1为现有基于分类的内容过滤框架示意图; 
图2为现有内容分类请求方获取待分类内容的内容类别的流程图; 
图3为本发明实施例的方法步骤流程图; 
图4为本发明实施例的内容分类请求系统结构示意图; 
图5为本发明实施例1的应用场景示意图; 
图6为本发明实施例2的应用场景示意图; 
图7为本发明实施例3的应用场景示意图; 
图8为本发明实施例3的流程图; 
图9为本发明实施例4的应用场景示意图; 
图10为本发明实施例4的流程图。 
具体实施方式
为了减小网络传输流量,本发明实施例提供了一种请求内容分类的方法,包括下列步骤:内容分类请求方获得待分类内容的内容摘要,生成内容类别请求消息,并在所述的内容类别请求消息中携带所述的内容摘要;内容分类请求方将携带有所述内容摘要的内容类别请求消息发出,请求内容类别。 
其中,内容分类请求方在确定需以待分类内容的内容本身请求内容类别时,再判断是否需要获得待分类内容的内容摘要。并且内容分类请求方判定需 要获得所述待分类内容的内容摘要时,再获得内容摘要。 
为了减小内容分类处理的负荷,本发明实施例提供了一种内容分类的方法,包括以下步骤:内容分类提供方收到内容类别请求消息,所述的内容类别请求消息中携带有待分类内容的内容摘要;内容分类提供方根据所述的内容摘要对所述的待分类内容进行内容分类。 
为了减小内容分类处理的负荷和网络传输流量。 
本发明实施例提供了一种对内容分类的方法,参见图3所示,包括下列步骤: 
S1.内容分类请求方确定使用待分类内容的内容本身去请求内容类别。(可选步骤) 
S2.内容分类请求方判断是否需要获得待分类内容的内容摘要。 
内容分类请求方可判断待分类内容的数据大小是否大于阈值,和/或待分类内容的数据格式是否为预设数据格式之一,和/或用户是否指定。这里阈值、预设数据格式和用户指定为:是否获得内容摘要并且在后续的内容类别请求消息中携带内容摘要的判断依据。对于不同的数据格式(所述数据格式是指文本、图片、音频、视频、多媒体甚至具体的格式(如视频的rm、avi、mpeg等格式))均可以设置不同的阈值,也可采用相同的阈值。 
如果判断结果为是,则转入步骤S3;否则转入步骤S6。 
S3.内容分类请求方获得该待分类内容的内容摘要。 
内容摘要准确全面地反映待分类内容的主要信息,且远远小于待分类内容的数据大小。所述获得该待分类内容的内容摘要可以包括从其他实体中获取所述待分类内容的内容摘要,例如内容分类请求方将待分类内容发送给独立其外的摘要处理服务器,由摘要处理服务器进行摘要操作判断,并生成满足摘要获得条件的待分类内容的内容摘要,以及将该内容摘要返回给内容分类请求方;此外,也可以由内容类别请求方自身生成待分类内容的内容摘要,所述生成内容摘要的过程,例如:文本的摘要可以是现有的自动文摘技术的输出,图片的 摘要可以是经转换采用其他格式、整体尺寸缩小但呈现画面相同的图片(如1024*7682.4M的BMP格式图片可以转换成133*10013k的GIF格式图片),视频的摘要是现有的视频摘要技术的输出。 
S4.内容分类请求方构造内容类别请求消息,并向内容分类提供方发送该消息。该消息中携带了上述步骤获得的内容摘要。 
在另外的实施例中,内容分类请求方还可以指示内容分类提供方,以内容摘要对应的算法对所述内容摘要进行内容分类。具体可以为通过在内容类别请求消息中携带类型信息,或者进一步携带摘要相关信息(如:摘要获得单元标识、数据大小、获得时间、使用的摘要生成算法等)、以及内容本身相关信息(内容提供者(这里是外部的内容过滤单元)标识、数据大小、创建时间等),以告知内容分类提供方本消息中携带的内容为内容摘要。 
S5.内容分类提供方从内容类别请求消息中提取出内容摘要,并对内容摘要进行分类。之后,转入步骤S8。 
在上述另外的实施例中,当内容分类请求方发送的内容类别请求消息中携带类型信息时,内容分类提供方根据所述的类型信息确定内容分类请求方发送的是内容摘要时,采取内容摘要相应的算法对所述的内容摘要进行内容分类。 
S6.内容分类请求方以该待分类内容的内容本身构造内容类别请求消息,并向内容分类提供方发送该消息。该消息中携带了待分类内容的内容本身。 
在实际应用中,内容分类请求方还可以指示内容分类提供方,以内容本身对应的算法对所述内容本身进行内容分类。具体可以为通过在内容类别请求消息中携带类型信息,以告知内容分类提供方本消息中携带的内容为内容本身。 
S7.内容分类提供方从内容类别请求消息中提取出内容本身,并对内容本身进行分类。 
当内容分类请求方发送的内容类别请求消息中携带类型信息时,内容分类提供方根据所述的类型信息确定内容分类请求方发送的是内容本身时,采取内容本身相应的算法对所述的内容摘要进行内容分类。
S8.内容分类提供方构造响应消息,向内容分类请求方返回内容类别。 
需要说明的是,现有技术中,在内容分类请求方为CBCS的内容过滤单元时,实际处理中可以先缓存收到的内容,待接收完成后再将其以CBCS-1接口内容分类请求的格式进行组包并发送,也可以接收、缓存的同时组包、发送。本发明实施例中,若需要生成内容摘要,则需要全部接收、缓存内容本身再依据缓存的内容生成内容摘要。 
本发明实施例还提供了一种内容分类请求系统,参见图4所示,包括:摘要操作判断单元、摘要获得单元和第一发送单元;进一步还包括:第二发送单元、第一指示单元和第二指示单元。 
摘要操作判断单元,用于判断是否需要获得待分类内容的内容摘要。 
摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要。 
第一发送单元,用于将摘要获得单元获得的内容摘要发出。 
第一指示单元,用于通过第一发送单元指示内容分类提供方,以内容摘要对应的算法对所述内容摘要进行内容分类。 
第二发送单元,用于在摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将待分类内容的内容本身发出。 
第二指示单元,用于通过第二发送单元指示内容分类提供方,以内容本身对应的算法对所述内容本身进行内容分类。 
本发明实施例还提了一种内容分类系统,包括:内容分类请求方一侧和内容分类提供方一侧。 
内容分类请求方一侧又包括:内容分类请求装置(即本发明实施例的内容分类请求装置);进一步还包括内容提供装置。 
内容提供装置,其中进一步包括:内容提供单元,用于提供待分类内容;确定单元,用于判断内容提供单元是否需提供待分类内容的内容本身,当确定需提供待分类内容的内容本身时,触发所述内容分类请求装置;第三发送单元, 用于在获知摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将待分类内容的内容本身发到内容分类提供装置;第三指示单元,用于通过第三发送单元指示内容分类提供装置,以内容本身对应的算法对所述内容本身进行内容分类。 
内容分类请求装置,其中进一步包括:摘要操作判断单元,用于判断是否需要获得待分类内容的内容摘要;摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要;第一发送单元,用于将摘要获得单元获得的内容摘要发出;第一指示单元,用于通过第一发送单元指示内容分类提供装置,以内容摘要对应的算法对所述内容摘要进行内容分类;第二发送单元(与内容提供装置中的第三发送单元不同时存在),用于在摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将待分类内容的内容本身发到内容分类提供装置;第二指示单元(与内容提供装置中的第三指示单元不同时存在),用于通过第二发送单元指示内容分类提供装置,以内容本身对应的算法对所述内容本身进行内容分类。 
所述内容分类提供方一侧包括:内容分类提供装置,用于根据内容分类请求装置发来的所述内容摘要进行内容分类。 
以下通过4个实施例具体描述。 
实施例1:对待过滤的内容进行内容分类并过滤。 
参见图5所示,本实施例应用场景由内容分类单元(即内容分类提供装置)和内容过滤单元(其内含有内容提供装置和内容分类请求装置)构成。 
本实施例具体处理流程如下:内容过滤单元收到来自外部内容过滤请求者的内容过滤请求,其内容是photojpg。内容过滤单元通过确定单元判定该内容过滤请求中携带的只有内容本身,没有类别信息,于是确定需要使用内容本身去请求内容类别。内容过滤单元通过其中的内容提供单元将内容本身提供给摘要操作判断单元。摘要操作判断单元预设的图片内容的摘要生成阈值为500KB,内容过滤单元通过其中的摘要操作判断单元检测到photo.jpg的大小为 2.71MB,大于该阈值,于是内容过滤单元中的摘要获得单元依据内容的类型和大小,采用直接全图整体缩小为原图10%的算法生成摘要photo1.jpg,其大小为26KB。内容过滤单元通过其中的第一发送单元将photo1.jpg封装在内容类别请求消息中,并通过CBCS-1接口发送给内容分类单元,该消息中还可以通过第一指示单元携带类型信息,以告知内容分类单元本消息中携带的内容为摘要,以及摘要相关信息(如:摘要获得单元标识、数据大小、生成时间、使用的摘要生成算法等)、以及内容本身相关信息(内容提供者(这里是外部的内容过滤单元)标识、数据大小、创建时间等)。 
类型信息的携带具体依赖于CBCS-1接口的实现,例如可以作为一个参数携带: 
Figure S07197952X20070427D000091
又例如:直接从内容格式上体现: 
Figure S07197952X20070427D000092
内容分类单元根据告知的类型信息,对photo1.jpg采用针对数据格式为JPG且类型为内容摘要的图像分类算法进行分类处理后,将得到的内容类别返回给内容过滤单元。 
本实施例在实际部署时,可能有多种情况,如:1)内容分类单元和内容过滤单元作为一个服务器部署;2)内容过滤单元作为一个单独的服务器A,内容分类单元和其它内容过滤单元一起作为服务器B,A通过CBCS-1接口向B的内容分类单元获取内容类别;3)单个内容过滤单元作为服务器C,单个内容分类单元作为服务器D,根据实际情况一个C对应多个D、一个D对应 多个C或多个C对应多个D。 
实施例2:对待过滤的内容进行内容分类并过滤。 
参见图6所示,本实施例应用场景由内容分类单元(即内容分类提供装置)和内容过滤单元(其内含有内容提供装置和内容分类请求装置)构成。 
本实施例具体处理流程如下:内容过滤单元收到来自外部内容过滤请求者的内容过滤请求,其内容是novel.txt。内容过滤单元通过确定单元判定内容过滤请求中携带有预分类信息,于是对该预分类信息进行信任验证,结果被确认为分类信息不可信,据此确定需要使用内容本身去请求内容类别。内容过滤单元通过其中的内容提供单元将内容本身提供给摘要操作判断单元。摘要操作判断单元预设的文本内容的摘要生成阈值为500KB,内容过滤单元通过其中的摘要操作判断子单元检测到novel.txt的大小为783KB,大于该阈值,于是内容过滤单元中的摘要获得单元使用自动文摘技术生成6KB的摘要。内容过滤单元通过其中的第一发送单元将6KB的摘要封装在内容类别请求消息中,并通过CBCS-1接口发送给内容分类单元。内容分类单元对上述摘要采用适当的算法进行分类处理后,将得到的内容类别返回给内容过滤单元。 
本实施例在实际部署时,可能有多种情况,如:1)内容分类单元和内容过滤单元作为一个服务器部署;2)内容过滤单元作为一个单独的服务器A,内容分类单元和其它内容过滤单元一起作为服务器B,A通过CBCS-1接口向B的内容分类单元请求内容类别;3)单个内容过滤单元作为服务器C,单个内容分类单元作为服务器D,根据实际情况一个C对应多个D、一个D对应多个C或多个C对应多个D。 
实施例3:内容提供单元向终端用户提供内容,为了使其提供的内容能够在内容过滤单元快速过滤,内容提供单元事先(无实时性)获取内容类别,并以元数据或水印的形式将其附加在内容中,从而生成预分类内容供用户下载,这样在实时性要求较高时,内容过滤单元可以直接依据预分类内容中预置的内容类别进行快速过滤。
参见图7所示,本实施例的应用场景由内容分类请求方一例的内容分类请求装置和内容提供装置,内容分类提供方一侧的内容分类单元(内容分类提供装置),以及在内容分类完成之后,直接根据预分类内容的内容类别进行过滤的内容过滤单元组成。 
参见图8所示,本实施例具体处理流程如下: 
1、内容提供装置对于自身提供的未分类的内容需要获取内容类别,以生成预分类内容,于是内容提供装置通过其中的内容提供单元将内容本身(可能还带有数据大小、数据类型、内容提供单元地址等其它信息)提供给内容分类请求装置中的摘要操作判断单元。 
2、摘要操作判断单元根据其收到内容的数据大小进行判断,若其大小大于预先设定的阈值,则转入步骤3;否则转入步骤6。 
3、摘要操作判断单元将该内容本身发送给摘要获得单元。 
4、摘要获得单元根据收到的内容生成摘要,将摘要(可携带数据大小、数据类型、内容提供单元地址)发送给第一发送单元。 
5、第一发送单元将该摘要封装在内容类别请求消息中,还可通过第一指示单元在该消息中携带类型信息,以告知内容分类单元本消息中携带的内容为摘要;之后将该内容类别请求消息发送给内容分类单元。并转入步骤8。 
6、摘要操作判断单元将该内容本身发送给通过第二发送单元。 
7、第二发送单元将内容本身封装在内容类别请求消息中,还可通过第二指示单元在该消息中携带类型信息,以告知内容分类单元本消息中携带有内容本身;之后将该内容类别请求消息发送给内容分类单元。 
8、内容分类单元从收到的内容类别请求消息中提取摘要或内容本身,并根据告知的类型信息以相应的算法进行分类处理。 
9、内容分类单元将得到的内容类别返回给内容提供装置中的内容提供单元。 
在具体实现中,例如:内容提供装置有时长为26:26的一段视频需要分 类,于是将其数据大小、数据类型和存放内容的内存地址发送给物理上位于同一实体的摘要操作判断单元。摘要操作判断单元将其数据大小和数据类型(视频)对应的阈值进行比较,因其大小大于预先设定的视频类数据阈值,摘要操作判断单元根据收到的内存地址读出内容,并将内容、内容提供装置的地址、数据类型、数据大小等信息发送给同位于一个机房的由运营商提供的摘要获得单元。摘要获得单元选择视频适用的算法生成时长为6:48(压缩比达3.89:1)的摘要。摘要获得单元将摘要、内容提供装置的地址发送给内容分类单元处理(可选的发送所提交内容的类型信息为摘要)。内容分类单元分类完成后将内容类别返回给内容提供装置。 
实际部署中,上述单元可以分属两大块,即提供内容的内容提供商,以及运营商或过滤服务提供商。作为运营商,提供互联网络接入、通信网络接入等网络接入服务,同时运营商自己经营内容过滤服务。另外还可以作为独立的过滤服务提供商为运营商提供内容过滤服务。考虑摘要的可信度,摘要获得单元只可能在运营商或过滤服务提供商。 
可能实际使用模式:i)内容提供装置属于内容提供商,其余单元属于运营商或过滤服务提供商,其中摘要操作判断单元和摘要获得单元可以直接组成摘要服务器,并邻近内容提供商同时享有高带宽;ii)内容提供装置和摘要操作判断单元均属于内容提供商,其余单元属于运营商或过滤服务提供商,摘要获得单元邻近内容提供装置、同时享有高带宽,内容提供商的摘要操作判断单元保存了和运营商/过滤服务提供商协商确定的阈值(可以由运营商/过滤服务提供商提供说明阈值的脚本文件,供摘要操作判断单元读取、执行)。如果内容提供装置和摘要服务器(摘要操作判断单元和摘要获得单元)/摘要获得单元一一对应,且内容分类单元保存有摘要服务器/摘要获得单元对应的内容提供装置的地址,则无需携带内容提供装置的地址,否则需要在消息中携带内容提供装置的地址。 
实施例4:内容提供单元向终端用户提供内容,为了使其提供的内容能够 在内容过滤单元快速过滤,内容提供单元事先(无实时性)获取内容类别,并以元数据或水印的形式将其附加在内容中,从而生成预分类内容供用户下载,这样在实时性要求较高时,内容过滤单元可以直接依据预分类内容中预置的内容类别进行快速过滤。 
参见图9所示,本实施例的应用场景由内容分类请求方一侧的内容分类请求装置和内容提供装置,内容分类提供方一侧的内容分类单元(内容分类提供装置),以及在内容分类完成之后,直接根据预分类内容的内容类别进行过滤的内容过滤单元组成。 
参见图10所示,本实施例具体处理流程如下: 
1、内容提供装置对于自身提供的未分类的内容需要获取内容类别,以生成预分类内容,于是内容提供装置通过其中的内容提供单元将该未分类内容的数据大小(可能还带有数据类型、内容提供单元地址等其它信息)提供给内容分类请求装置中的摘要操作判断单元。 
2、摘要操作判断单元将该未分类内容的数据大小与预先设定的阈值进行比较,并将比较结果告知内容提供单元。比较结果为该未分类内容的数据大小大于预先设定的阈值,则转入步骤3;否则转入步骤6。 
3、内容提供单元将该未分类内容的内容本身发送给内容分类请求装置中的摘要获得单元。 
4、摘要获得单元根据收到的内容生成摘要,将摘要(可携带数据大小、数据类型、内容提供单元地址)发送给第一发送单元。 
5、第一发送单元将该摘要封装在内容类别请求消息中,还可通过第一指示单元在该消息中携带类型信息,以告知内容分类单元本消息中携带的内容为摘要以及内容摘要相关信息又及依据的内容本身相关信息;之后将该内容类别请求消息发送给内容分类单元。并转入步骤8。 
6、内容提供单元将该未分类内容的内容本身发送给内容提供装置中的第三发送单元。
7、第三发送单元将内容本身封装在内容类别请求消息中,还可通过内容提供装置中的第三指示单元在该消息中携带类型信息,以告知内容分类单元本消息中携带有内容本身以及内容本身相关信息;之后将该内容类别请求消息发送给内容分类单元。 
8、内容分类单元从收到的内容类别请求消息中提取摘要或内容本身,并根据告知的类型信息以相应的算法进行分类处理。 
9、内容分类单元将得到的内容类别返回给内容提供装置中的内容提供单元。 
在具体实现中,例如:内容提供装置有时长为26:26的一段视频需要分类,于是将其数据大小、数据类型发送给运营商的摘要操作判断单元,摘要操作判断单元将其数据大小和数据类型(视频)对应的阈值进行比较,因其大小大于预先设定的视频类数据阈值,摘要操作判断单元通知内容提供装置将内容发送到摘要获得单元并带有其地址。内容提供装置将内容发送给同位于一个机房的由运营商提供的摘要获得单元,摘要获得单元选择视频适用的算法生成时长为6:48(压缩比达3.89:1)的摘要,摘要获得单元将摘要和内容提供装置的地址发送给内容分类单元处理(可选的发送所提交分类的内容的类型为摘要)。内容分类单元分类完成后将内容类别返回给内容提供装置。 
实际部署中,上述单元可以分属两大块:前者为内容提供商,提供内容;后者为运营商或过滤服务提供商。作为运营商,提供互联网络接入、通信网络接入等网络接入服务,同时运营商自己经营内容过滤服务。另外还可以作为独立的过滤服务提供商为运营商提供内容过滤服务。考虑摘要的可信度,摘要获得单元只可能在运营商或过滤服务提供商。 
可能实际使用模式:i)内容提供装置属于内容提供商,其余单元属于运营商或过滤服务提供商,其中摘要操作判断单元和摘要获得单元可以直接组成摘要服务器,并邻近内容提供商同时享有高带宽,也可以仅由摘要获得单元组成摘要服务器,并邻近内容提供商同时享有高带宽;ii)内容提供装置和摘要操 作判断单元均属于内容提供商,其余单元属于运营商或过滤服务提供商,摘要获得单元邻近内容提供装置、同时享有高带宽,内容提供商的摘要操作判断单元保存了和运营商/过滤服务提供商协商确定的阈值(可以由运营商/过滤服务提供商提供说明阈值的脚本文件,供摘要操作判断单元读取、执行)。如果内容提供装置和摘要服务器(摘要操作判断单元和摘要获得单元)/摘要获得单元一一对应,且内容分类单元保存有摘要服务器/摘要获得单元对应的内容提供装置的地址,则无需携带内容提供装置的地址,否则需要在消息中携带内容提供装置的地址。 
综上所述,本发明实施例中,内容分类请求方判定待分类内容的数据大小大于阈值时(也可根据待分类内容的数据格式是否为预设数据格式之一,和/或用户是否指定来判定),生成该待分类内容的内容摘要,并且以生成的内容摘要向内容分类提供方请求内容类别。所以本发明实施例扩充了用于向内容分类单元提供的直接体现该内容的输入参数,通过大大减小供分类操作的内容数据,为内容很大时提供了一个高效的处理方式,不仅能减轻内容分类单元处理的负荷,同时能有效降低网络传输流量,特别有利于外部实体请求类别信息的情况。 
进一步,还可在将待分类内容的数据大小与阈值比较之前,先确定是否需以内容本身来获取内容类别,这样可以兼容现有的以其它输入参数(如URI)来获取内容类别的方案,达到更好的效果。 
进一步,还可通过类型信息告知内容分类提供方,本次内容类别请求消息中携带的是内容摘要还是内容本身,从而可以使内容分类提供方以最为匹配的算法进行分类处理,达到更好的效果。 
进一步,对于流媒体等无法实时分类的业务,以及视频、多媒体、声音、图片、大文档等实时分类困难的媒体的过滤特别有好处。 
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (23)

1.一种请求内容分类的方法,其特征在于,包括下列步骤:
内容分类请求方获得待分类内容的内容摘要,生成内容类别请求消息,并在所述的内容类别请求消息中携带所述的内容摘要;
内容分类请求方将携带有所述内容摘要的内容类别请求消息发出,以该内容摘要请求内容类别;
内容分类请求方还指示内容分类提供方,以内容摘要对应的算法对所述内容摘要进行内容分类。
2.如权利要求1所述的方法,其特征在于,内容分类请求方判定需要获得所述待分类内容的内容摘要时,再获得内容摘要。
3.如权利要求2所述的方法,其特征在于,内容分类请求方在确定需以待分类内容的内容本身请求内容类别时,再判断是否需要获得待分类内容的内容摘要。
4.一种内容分类的方法,其特征在于,包括以下步骤:
内容分类提供方收到内容类别请求消息,所述的内容类别请求消息中携带有待分类内容的内容摘要以及指示以内容摘要对应的算法对所述内容摘要进行内容分类的指示信息;
内容分类提供方根据所述的内容摘要以及指示以内容摘要对应的算法对所述内容摘要进行内容分类的指示信息对所述的待分类内容进行内容分类。
5.一种对内容分类的方法,其特征在于,包括下列步骤:
内容分类请求方发送待分类内容的内容摘要以及指示以内容摘要对应的算法对所述内容摘要进行内容分类的指示信息给内容分类提供方;
内容分类提供方根据所述内容摘要以及指示以内容摘要对应的算法对所述内容摘要进行内容分类的指示信息进行内容分类。
6.如权利要求5所述的方法,其特征在于,内容分类请求方判定需要获得待分类内容的内容摘要时,获得内容摘要,并将该内容摘要发送给内容分类提供方。
7.如权利要求6所述的方法,其特征在于,内容分类请求方在确定需以待分类内容的内容本身请求内容类别时,再判断是否需要获得待分类内容的内容摘要。
8.如权利要求6或7所述的方法,其特征在于,所述待分类内容的数据大小大于阈值时,和/或所述待分类内容的数据格式为预设数据格式之一,和/或用户指定时,内容分类请求方判定需要获得待分类内容的内容摘要。
9.如权利要求8所述的方法,其特征在于,内容分类请求方判定不需要获得待分类内容的内容摘要时,将该待分类内容的内容本身发送给内容分类提供方;以及内容分类提供方根据所述内容本身进行内容分类。
10.如权利要求5所述的方法,其特征在于,内容分类请求方通过向内容分类提供方发送的内容类别请求消息携带待分类内容的内容摘要;
该内容类别请求消息中还携带有与内容摘要对应的类型信息;以及
内容分类提供方根据所述内容类别请求消息中携带的所述类型信息,以相应的算法对该消息中携带的内容摘要进行内容分类。
11.如权利要求9所述的方法,其特征在于,内容分类请求方还指示内容分类提供方,以内容本身对应的算法对所述内容本身进行内容分类。
12.如权利要求11所述的方法,其特征在于,内容分类请求方通过向内容分类提供方发送的内容类别请求消息携带待分类内容的内容本身;
该内容类别请求消息中还携带有与内容本身对应的类型信息;以及
内容分类提供方根据所述内容类别请求消息中携带的所述类型信息,以相应的算法对该消息中携带的内容本身进行内容分类。
13.如权利要求8所述的方法,其特征在于,对应所述待分类内容的不同数据格式,设置各不相同的阈值;或者对应所述待分类内容的不同数据格式设置相同的阈值。
14.一种内容分类请求系统,其特征在于,包括:
摘要操作判断单元,用于判断是否需要获得待分类内容的内容摘要;
摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要;
第一发送单元,用于将摘要获得单元获得的内容摘要发出;
第一指示单元,用于通过第一发送单元指示内容分类提供方,以内容摘要对应的算法对所述内容摘要进行内容分类。
15.如权利要求14所述的系统,其特征在于,所述系统还包括:
第二发送单元,用于在摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将待分类内容的内容本身发出。
16.如权利要求15所述的系统,其特征在于,所述系统还包括:
第二指示单元,用于通过第二发送单元指示内容分类提供方,以内容本身对应的算法对所述内容本身进行内容分类。
17.一种内容分类的系统,其特征在于,包括:
内容分类请求方一侧和内容分类提供方一侧;
所述内容分类请求方一侧包括:
内容分类请求装置,其中进一步包括:
摘要操作判断单元,用于判断是否需要获得待分类内容的内容摘要;
摘要获得单元,用于在摘要操作判断单元判定需要获得待分类内容的内容摘要时,获得该待分类内容的内容摘要;
第一发送单元,用于将摘要获得单元获得的内容摘要发出;
第一指示单元,用于通过第一发送单元指示内容分类提供装置,以内容摘要对应的算法对所述内容摘要进行内容分类;
所述内容分类提供方一侧包括:内容分类提供装置,用于根据内容分类请求装置发来的所述内容摘要进行内容分类。
18.如权利要求17所述的系统,其特征在于,所述内容分类请求方一侧还包括:内容提供装置,其中进一步包括:内容提供单元,用于提供待分类内容。
19.如权利要求18所述的系统,其特征在于,所述内容提供装置中还包括:
确定单元,用于判断内容提供单元是否需提供待分类内容的内容本身,当确定需提供待分类内容的内容本身时,触发所述内容分类请求装置。
20.如权利要求17、18或19所述的系统,其特征在于,所述内容分类请求装置还包括:第二发送单元,用于在摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将待分类内容的内容本身发到内容分类提供装置。
21.如权利要求20所述的系统,其特征在于,所述内容分类请求装置还包括:第二指示单元,用于通过第二发送单元指示内容分类提供装置,以内容本身对应的算法对所述内容本身进行内容分类。
22.如权利要求17、18或19所述的系统,其特征在于,所述内容提供装置中还包括:第三发送单元,用于在获知摘要操作判断单元判定不需要获得待分类内容的内容摘要时,将待分类内容的内容本身发到内容分类提供装置。
23.如权利要求22所述的系统,其特征在于,所述内容提供装置中还包括:第三指示单元,用于通过第三发送单元指示内容分类提供装置,以内容本身对应的算法对所述内容本身进行内容分类。
CN200710097952XA 2007-04-23 2007-04-23 对内容分类的方法及系统 Active CN101296155B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN200710097952XA CN101296155B (zh) 2007-04-23 2007-04-23 对内容分类的方法及系统
PCT/CN2008/070001 WO2008128445A1 (fr) 2007-04-23 2008-01-02 Procédé et système destinés à la classification de contenu
EP08700028A EP2141612A4 (en) 2007-04-23 2008-01-02 METHOD AND SYSTEM FOR CONTENT CLASSIFICATION
US12/466,529 US8286240B2 (en) 2007-04-23 2009-05-15 Method and system for content categorization
US13/630,564 US8510832B2 (en) 2007-04-23 2012-09-28 Method and system for content categorization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710097952XA CN101296155B (zh) 2007-04-23 2007-04-23 对内容分类的方法及系统

Publications (2)

Publication Number Publication Date
CN101296155A CN101296155A (zh) 2008-10-29
CN101296155B true CN101296155B (zh) 2011-02-16

Family

ID=39875083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710097952XA Active CN101296155B (zh) 2007-04-23 2007-04-23 对内容分类的方法及系统

Country Status (4)

Country Link
US (2) US8286240B2 (zh)
EP (1) EP2141612A4 (zh)
CN (1) CN101296155B (zh)
WO (1) WO2008128445A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296155B (zh) * 2007-04-23 2011-02-16 华为技术有限公司 对内容分类的方法及系统
CN101505295B (zh) * 2008-02-04 2013-01-30 华为技术有限公司 一种内容和类别的关联方法和设备
JP5906677B2 (ja) 2010-11-08 2016-04-20 ブラザー工業株式会社 通信システム、通信装置、中継装置の制御プログラム、および中継装置の制御方法
US9858330B2 (en) * 2013-10-21 2018-01-02 Agile Legal Technology Content categorization system
US11023606B2 (en) * 2016-10-02 2021-06-01 Vmware, Inc. Systems and methods for dynamically applying information rights management policies to documents
US11491272B2 (en) 2020-11-09 2022-11-08 Venova Medical, Inc. Endovascular implants and devices and methods for accurate placement

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494013A (zh) * 2002-11-01 2004-05-05 鸿富锦精密工业(深圳)有限公司 专利分析与展示系统及方法
CN1619531A (zh) * 2003-11-22 2005-05-25 鸿富锦精密工业(深圳)有限公司 专利分类系统及方法
CN1758245A (zh) * 2004-04-30 2006-04-12 微软公司 利用摘要来分类显示页的方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363278B2 (en) * 2001-04-05 2008-04-22 Audible Magic Corporation Copyright detection and protection system and method
US6915009B2 (en) * 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
TW200407736A (en) * 2002-11-08 2004-05-16 Hon Hai Prec Ind Co Ltd System and method for classifying patents and displaying patent classification
EP1549012A1 (en) * 2003-12-24 2005-06-29 DataCenterTechnologies N.V. Method and system for identifying the content of files in a network
CN101000603A (zh) * 2006-12-29 2007-07-18 上海汉光知识产权数据科技有限公司 一种专利分类方法
CN101296155B (zh) * 2007-04-23 2011-02-16 华为技术有限公司 对内容分类的方法及系统
US20090041294A1 (en) * 2007-06-02 2009-02-12 Newell Steven P System for Applying Content Categorizations of Images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494013A (zh) * 2002-11-01 2004-05-05 鸿富锦精密工业(深圳)有限公司 专利分析与展示系统及方法
CN1619531A (zh) * 2003-11-22 2005-05-25 鸿富锦精密工业(深圳)有限公司 专利分类系统及方法
CN1758245A (zh) * 2004-04-30 2006-04-12 微软公司 利用摘要来分类显示页的方法和系统

Also Published As

Publication number Publication date
US8510832B2 (en) 2013-08-13
EP2141612A4 (en) 2010-06-23
CN101296155A (zh) 2008-10-29
US20130031102A1 (en) 2013-01-31
WO2008128445A1 (fr) 2008-10-30
US8286240B2 (en) 2012-10-09
US20090222919A1 (en) 2009-09-03
EP2141612A1 (en) 2010-01-06

Similar Documents

Publication Publication Date Title
CN101296155B (zh) 对内容分类的方法及系统
CN102761627B (zh) 基于终端访问统计的云网址推荐方法及系统及相关设备
WO2019127832A1 (zh) 智能搜索方法、装置、终端及服务器、存储介质
US20050025064A1 (en) Adaptive QoS system and method
CN106453572B (zh) 基于云服务器同步图像的方法及系统
CN110213380B (zh) 一种消息推送方法、装置、计算机设备及存储介质
CN103246730A (zh) 文件存储方法和设备、文件发送方法和设备
CN107146623B (zh) 基于人工智能的语音识别方法、装置和系统
US10902049B2 (en) System and method for assigning multimedia content elements to users
CN113391973B (zh) 一种物联网云容器日志收集方法及装置
CN104462096A (zh) 舆情监测分析方法和装置
CN110134738A (zh) 分布式存储系统资源预估方法、装置
CN106686148A (zh) 一种用于提高对象存储系统中对象上传速度的方法和系统
JP4894253B2 (ja) メタデータ生成装置およびメタデータ生成方法
JP4031264B2 (ja) フィルタリング管理方法、フィルタリング管理プログラム、フィルタリング装置のフィルタリング管理方法、およびフィルタリング装置用フィルタリング管理プログラム
CN113687958A (zh) 数据处理方法、系统、计算机设备和存储介质
CN112883088B (zh) 一种数据处理方法、装置、设备及存储介质
CN101257501B (zh) 数据导入方法、系统及Web服务器
CN101505295B (zh) 一种内容和类别的关联方法和设备
CN114443595A (zh) 一种处理文件的方法及装置
WO2017054515A1 (zh) 一种色情图像检测方法和系统
CN1251716A (zh) 数字通信系统、发送装置和数据选择装置
CN101674493A (zh) 数字电视网络图像监控方法、监控终端及监控系统
CN109325174A (zh) 一种大数据信息管理系统
JP2003178009A (ja) メッセージ処理方法およびその処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant