CN101251881B - 一种内容识别的方法、系统和装置 - Google Patents

一种内容识别的方法、系统和装置 Download PDF

Info

Publication number
CN101251881B
CN101251881B CN200810089543XA CN200810089543A CN101251881B CN 101251881 B CN101251881 B CN 101251881B CN 200810089543X A CN200810089543X A CN 200810089543XA CN 200810089543 A CN200810089543 A CN 200810089543A CN 101251881 B CN101251881 B CN 101251881B
Authority
CN
China
Prior art keywords
content
characteristic values
contents attribute
business entity
query requests
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810089543XA
Other languages
English (en)
Other versions
CN101251881A (zh
Inventor
高洪涛
刘义俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN200810089543XA priority Critical patent/CN101251881B/zh
Publication of CN101251881A publication Critical patent/CN101251881A/zh
Priority to EP08873839A priority patent/EP2264634A4/en
Priority to PCT/CN2008/073001 priority patent/WO2009124440A1/zh
Application granted granted Critical
Publication of CN101251881B publication Critical patent/CN101251881B/zh
Priority to US12/900,273 priority patent/US20110029555A1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种内容识别的方法、系统和装置,所述内容识别的方法包括以下步骤:根据内容类型和业务实体对内容的控制目的选择特征提取算法提取内容特征值;根据所述内容特征值获取已注册内容的内容属性;根据所述获取的内容属性对所述业务实体的内容进行控制。通过本发明实施例,CIM实体根据不同的内容类型,选择合适的识别方法准确地识别内容,对注册主体提交的内容进行注册,在业务实体获取到已注册内容的内容属性之后,该业务实体根据该内容属性对该业务实体的内容进行控制,并且业务实体对内容的验证不必每次都连接CIM实体,降低了CIM实体的负荷。

Description

一种内容识别的方法、系统和装置
技术领域
本发明实施例涉及通信技术领域,特别涉及一种内容识别的方法、系统和装置。
背景技术
随着互联网的发展,与多媒体内容的相关应用已经非常丰富,例如:音乐、软件或电影下载、视频分享、短信和彩信等。与这些应用伴随而来的版权问题、垃圾和非法信息过滤问题,以及病毒和恶意插件问题也越来越严重。这些问题都对内容的正确识别提出了要求,通过正确识别一项内容,来判断该项内容是否版权保护内容,是否为垃圾信息等尤为重要。
现在,音乐、电影、软件、电子图书等电子内容的下载、分享已经是非常流行的互联网应用。随着这些应用的发展,在各个下载、分享网站上,存在着大量侵犯版权的内容,这些内容为网站吸引了大量的用户。这些内容一般是CP(Content Provider,内容提供商)发行的,未经允许免费自由地在网站上上载和传播,这些内容使CP的正当权益受到极大的损害。
为了解决这类版权问题,目前CI(Content Identification,内容识别技术)逐渐成为一些重要的内容提供商用于保护其内容版权的手段。内容识别技术是指利用内容特征提取技术,提取一项内容区别于其它内容的特征值。首先计算得到正版内容的特征值,再计算在网站上被传播的内容的特征值并与正版内容的特征值进行对比,从而判断该被传播内容是否与正版内容是同一项内容,或是否是正版内容的一部分。如果是,则根据正版内容的版权控制规则,控制被传播内容的传播和使用。
现有技术还有一种通过集中的第三方来建立内容的版权控制数据库,来屏蔽受保护内容的上传的方法,CIDF(Content Identifier Forum,内容标识论坛)制定了一个用于版权保护的应用框架,主要是采用标识符标识需要分发的内容,并将该标识符与相关的内容属性,例如内容本身所具备的属性(例如:大小、类型等)、创建者的属性、版权属性,以及为分发而定义的相关的规则所涉及的分发属性等进行绑定。
但是,本发明的发明人发现,该技术存在以下缺点:该方案对所有类型的内容都使用传统的哈希算法MD5(Message Digest Algorithm5,信息摘要算法5)来计算内容的特征值,只要内容有一个比特改变,就不能正确完成内容的验证和识别,所以采用该方案检测内容,很容易被检测内容规避。
发明内容
本发明实施例提供一种内容识别的方法、系统和装置,以实现根据不同的内容类型,选择合适的识别方法准确地识别内容。
为达到上述目的,本发明实施例一方面提供一种内容识别的方法,包括以下步骤:根据内容类型和业务实体对内容的控制目的选择特征提取算法提取内容特征值,所述内容特征值,包括:如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;根据所述内容特征值获取已注册内容的内容属性;根据所述获取的内容属性对所述业务实体的内容进行控制。
另一方面,本发明实施例还提供一种内容识别方法,包括:接收业务实体发送的内容属性查询请求,所述内容属性查询请求包括内容特征值和查询请求类型;根据所述内容属性查询请求中携带的内容特征值;在内容识别管理CIM实体的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,所述内容特征值,包括:如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法,在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述业务实体,以供所述业务实体对所述业务实体的内容进行控制。
再一方面,本发明实施例还提供一种用于内容识别的内容注册方法,包括:接收注册主体发送的内容注册请求;根据所述内容注册请求携带的内容类型和注册目的参数选择特征生成算法,生成内容特征值;存储所述生成的内容特征值和所述内容的内容属性,完成对所述注册主体提交的内容的注册,所述内容特征值,包括:如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法。
再一方面,本发明实施例还提供一种内容识别的系统,包括:业务实体,用于根据内容类型和所述业务实体对内容的控制目的选择特征提取算法提取内容特征值;根据所述内容特征值获取内容识别管理CIM实体上的已注册内容的内容属性,并根据所述获取的内容属性对所述业务实体的内容进行控制,所述内容特征值,包括:如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
内容识别管理CIM实体,用于接收所述业务实体发送的内容属性查询请求,所述内容属性查询请求包括所述内容特征值和查询请求类型,根据所述内容属性查询请求中携带的内容特征值,在所述CIM实体的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,并在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述业务实体,以供所述业务实体对所述业务实体的内容进行控制。
再一方面,本发明实施例还提供一种内容识别的业务实体装置,包括:特征值提取模块,用于根据内容类型和所述内容识别的业务实体装置对内容的控制目的选择特征提取算法提取内容特征值,所述内容特征值,包括:如果所述内容类型为文本,并且所述内容识别的业务实体装置对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,如果所述内容类型为文本,并且所述内容识别的业务实体装置对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;属性获取模块,用于根据所述特征值提取模块提取的内容特征值获取内容识别管理CIM实体装置上的已注册内容的内容属性;内容控制模块,用于根据所述属性获取模块获取的内容属性对所述内容识别的业务实体装置的内容进行控制。
再一方面,本发明实施例还提供一种内容识别管理CIM实体装置,包括:内容注册模块,用于接收内容识别的注册主体装置发送的内容注册请求,对所述内容识别的注册主体装置提交的内容进行注册;特征值生成子模块,用于根据内容类型和注册目的参数选择特征生成算法,生成内容特征值,并将所述生成的内容特征值和所述内容的内容属性存储到所述内容特征数据库中,所述内容特征值,包括:如果所述内容类型为文本,并且内容识别的业务实体装置对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,如果所述内容类型为文本,并且内容识别的业务实体装置对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;内容特征数据库,用于保存已注册内容的内容特征值和内容属性;验证和查询处理模块,用于接收内容识别的业务实体装置发送的内容属性查询请求,所述内容属性查询请求包括所述内容特征值和查询请求类型,根据所述内容属性查询请求中携带的内容特征值,在所述内容识别管理CIM实体装置的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述内容识别的业务实体装置,以供所述内容识别的业务实体装置对业务实体的内容进行控制。
再一方面,本发明实施例还提供一种内容识别的方法,包括以下步骤:
根据内容类型和业务实体对内容的控制目的选择特征提取算法提取内容特征值,所述内容特征值,包括:如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
根据所述内容特征值获取已注册内容的内容属性。
再一方面,本发明实施例还提供一种内容识别方法,包括:
接收业务实体发送的内容属性查询请求,所述内容属性查询请求包括内容特征值和查询请求类型;
根据所述内容特征值,在内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,所述内容特征值,包括:
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述业务实体。
与现有技术相比,本发明实施例具有以下优点:通过本发明实施例,业务实体根据所接收内容的内容类型和业务实体对内容的控制目的选择特征提取算法提取内容特征值,根据提取的内容特征值获取已注册内容的内容属性,并根据获取的内容属性对业务实体的内容进行控制。本发明实施例实现了由通用的CIM实体根据不同的内容类型,选择合适的识别方法准确地识别内容,对注册主体提交的内容进行注册,在业务实体获取到已注册内容的内容属性之后,该业务实体根据该内容属性对该业务实体的内容进行控制。
附图说明
图1为本发明一个实施例中内容识别的系统的结构图;
图2为本发明一个实施例中内容识别的方法的流程图;
图3为本发明另一实施例中内容识别的方法的流程图;
图4为本发明一个实施例中内容特征提取和证书生成的流程图;
图5为本发明一个实施例中内容证书的格式的示意图;
图6为本发明一个实施例中验证流程的示意图;
图7为本发明一个实施例中获取内容属性的流程图;
图8为本发明一个实施例中内容识别管理CIM实体11的结构图;
图9为本发明一个实施例中业务实体12的结构图。
具体实施方式
本发明一个实施例提供一种内容识别的方法,可以准确地识别各种类型的内容。本发明实施例建立了一个通用的内容识别的系统,可以用于业务实体对该业务实体涉及的内容进行版权控制、内容过滤、软件验证等操作,并且该内容识别的系统还可被灵活地扩展到其他应用领域。该业务实体指提供具体业务的实体,例如:网站、用户终端或业务网关等。本发明实施例针对不同内容类型的特点,选择最合适的识别方法准确识别内容,提高了鲁棒性,减少了错误率,也降低了业务实体的负担和成本。
如图1所示,为本发明一个实施例中内容识别的系统的结构图,包括:CIM(Content Identification Manager,内容识别管理)实体11、业务实体12和注册主体13。在本发明一个实施例中,可以通过可信第三方维护该CIM实体11,该可信第三方为业务实体12、用户和注册实体13均信任的机构,例如电信运营商、政府机构等。CIM实体11用于对注册主体的内容进行注册,负责生成和维护内容特征数据库,接收业务实体12的内容属性查询请求,该内容属性查询请求包括内容验证和内容属性查询请求,为业务实体12提供内容特征查询和验证、内容验证及内容属性查询等服务。CIM实体11根据内容属性查询请求中携带的内容特征值,在CIM实体11的内容特征数据库中查找与内容特征值最接近的已存内容的特征值,并在查找到与所述内容特征值最接近的已存内容的特征值之后,根据该内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将获取的内容属性返回所述业务实体12,以供业务实体12对业务实体12的内容进行控制。该内容属性查询请求包括内容特征值、特征值生成算法和查询请求类型。
业务实体12用于根据内容类型和业务实体12对内容的控制目的选择特征提取算法提取内容特征值,根据该内容特征值获取CIM实体11上的已注册内容的内容属性,并根据获取的内容属性对业务实体12的内容进行控制。
其中,注册主体13用于向CIM实体11发送内容注册请求,请求CIM实体11对该注册主体13提交的内容进行注册,并提供相应的内容属性。然后,由CIM实体11生成内容的特征值,并存入内容特征数据库。无论是对内容做版权保护、过滤还是出于防病毒目的的软件验证,都需要将受保护或要过滤的内容向CIM实体11进行注册。
根据应用目的的不同,注册主体13可以不同,注册的方式也可以不同。例如对于版权保护和软件验证,注册主体13一般为内容提供商或个体内容制造者,提交注册内容的方式可以为任何可能的传输方式,例如FTP(TransferProtocol,文件传输协议),通过CIM实体11的门户网站上传或SOAP(SimpleObject Access Protocol,简单对象访问协议)等;对于内容过滤,注册主体13可以是普通手机用户或运营商的客服人员等,提交注册内容的方式可以为SMS(Short Messaging Service,短消息服务)、彩信、通过CIM实体11的门户网站上传或SOAP等。
注册时,注册主体13必须提交的信息包括:内容本身和用于表示注册目的的参数。注册目的包括但不限于版权保护、过滤或软件验证。根据该表示注册目的的参数,本发明实施例选择不同的特征提取算法,以及不同的软件验证处理方法。
其中,注册主体13可选的提交信息包括:
(1)内容的类型和格式。其中,内容的类型包括但不限于:视频、音频、文本、软件或混合。内容的格式指文件格式,例如:mp3(Moving Picture ExpertsGroup Audio Layer III,运动图像专家组音频层3)格式、rmvb(Real MediaVariable Bitrate,可变比特速率实媒体)格式等。
(2)算法标识。注册主体可以通过该参数表示提取特征的算法的选择。
(3)当用于版权保护时,须提交版权声明和版权控制规则。其中,版权控制规则指内容版权所有者对内容如何使用和传播的控制规则。例如:可以为无限制使用和传播、点击相关广告即可上传。版权控制规则也可以与具体的用户或业务实体相关联,例如允许在某网站上上载、允许某用户下载某项内容N次等。
(4)当用于过滤时,可以提交过滤原因说明。
(5)其它内容属性,例如内容作者信息等。
在本发明的另一个实施方式中,网络上可能存在多个CIM实体11。不同的CIM实体11可以负责一个域的内容识别管理。注册主体13可以不需要向所有CIM实体11一一注册某项内容,只需向一个CIM实体11例如:CIM-A注册内容后,由CIM-A同步到其他CIM实体例如:CIM-B,以方便CIM-B所属域的业务实体针对该已注册内容对所述业务实体的内容进行控制,降低了注册主体13和业务实体12的负担和成本。
另外,使用CIM实体11对内容进行验证和查询的业务实体12可以为网站,网关或用户终端等。
如图2所示,为本发明一个实施例中内容识别的方法的流程图,具体包括以下步骤:
步骤S201,根据内容类型和业务实体12对内容的控制目的选择特征提取算法提取内容特征值。业务实体12提取内容特征值时采用的算法应该根据内容的类型和业务实体对内容的控制目的进行选择,具体的算法与CIM实体11在注册流程中使用的特征提取算法相同。
步骤S202,根据提取的内容特征值获取已注册内容的内容属性。
获取已注册内容的内容属性具体可以为:
业务实体12在该业务实体12上查找内容证书,根据内容证书获取所述内容属性。具体为:在查找到内容证书之后,验证查找到的内容证书的签名,在验证签名成功之后,从该内容证书中获取内容属性。
获取已注册内容的内容属性具体还可以为:
业务实体12向CIM实体11发送内容属性查询请求,接收CIM实体11返回的内容属性,该内容属性查询请求包括内容特征值、特征值生成算法和查询请求类型。
该查询请求类型包括:上传内容版权验证、下载内容版权验证、过滤控制和,或软件验证。
当查询请求类型为上传内容版权验证时,该内容属性查询请求还须包括业务实体标识;或者,
当查询请求类型为软件验证时,该内容属性查询请求还包括软件名称和版本信息;或者,
当查询请求类型为下载内容版权验证时,该内容属性查询请求还须包括用户标识。
步骤S203,根据获取的内容属性对业务实体12的内容进行控制。
如图3所示,为本发明另一实施例中内容识别的方法的流程图,具体包括以下步骤:
步骤S301,接收业务实体12发送的内容属性查询请求,该内容属性查询请求包括内容特征值和查询请求类型。该查询请求类型包括上传内容版权验证、下载内容版权验证、过滤控制和软件验证。
步骤S302,根据内容属性查询请求中携带的内容特征值,在CIM实体11的内容特征数据库中查找与内容特征值最接近的已存内容的特征值。
步骤S303,在查找到与内容特征值最接近的已存内容的特征值之后,根据内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将获取的内容属性返回业务实体12,以供业务实体12对业务实体12的内容进行控制。
CIM实体11根据内容属性查询请求中携带的查询请求类型获取内容属性具体为:
当查询请求类型为上传内容版权验证时,该内容属性查询请求还须包括业务实体标识,这时CIM实体11获取该业务实体标识对应的业务实体12的版权控制规则,因此该CIM实体11返回的内容属性还包括版权声明和该业务实体标识对应的业务实体12的版权控制规则;或者,
当查询请求类型为软件验证时,该内容属性查询请求还包括软件名称和版本信息,这时CIM实体11根据该内容属性查询请求中携带的软件名称和版本信息,在CIM实体11的内容特征数据库中查找与内容特征值最接近的已存内容的特征值,在查找到与所述内容特征值最接近的已存内容的特征值之后,该CIM实体11根据内容属性查询请求中携带的查询请求类型获取内容属性,并将获取的内容属性返回业务实体;或者,
当查询请求类型为下载内容版权验证时,该内容属性查询请求还须包括用户标识。
在注册流程中,CIM实体11接收注册主体13发送的内容注册请求,对注册主体13提交的内容进行注册。
CIM实体11对注册主体13提交的内容进行注册具体可以为:
CIM实体11根据内容类型和注册目的参数选择特征生成算法,生成内容特征值,并存储生成的内容特征值和该内容的内容属性。
例如,如果内容类型为文本,并且注册目的是过滤,这类内容一般为短消息、电子邮件或彩信等,则可以用传统哈希算法例如:SHA(Secure HashAlgorithm,安全哈希算法)-1、SHA-265或MD5(Message Digest Algorithm5,信息摘要算法5)计算内容的哈希值,也可以先提取文本信息的关键字,再计算关键字的哈希值。并以计算得到的哈希值作为内容的特征值。
例如,如果内容类型为文本,并且注册目的为版权保护,这类内容一般为小说、散文、新闻报道等内容,这时可以采用传统哈希算法例如:SHA-1、SHA-265或MD5计算内容的哈希值,并以计算得到的哈希值作为内容的特征值。计算内容特征值的粒度可以根据策略调整,可以针对整篇内容,也可以对每段或每句分别计算哈希值,将每段或每句的哈希值组成的数组作为整篇内容的特征值。
例如,如果内容类型为图片、音频或视频,则用基于内容的哈希算法提取内容的特征值。该基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法。
该CIM实体11进一步还可以为注册的内容生成内容证书,该内容证书包括注册内容的特征值、内容属性、注册主体和验证所述内容属性的真实性的方法。
当网络上存在多个CIM实体时,CIM实体11将注册主体13的内容的注册信息同步到除该CIM实体11之外的其他CIM实体,然后由其他CIM实体根据内容的注册信息为该注册主体13的内容生成内容证书,其他CIM实体生成的内容证书包括原CIM实体11的标识和原CIM实体11验证内容属性的真实性的方法。从而实现了注册主体13只向一个CIM实体11注册,而不需要向各个CIM实体一一注册,以方便其他CIM实体所属域的业务实体12针对该已注册内容对所述业务实体12的内容进行控制。
上述采用单独的CIM实体11的具体实施方式相对于现有技术至少有以下有益效果:现有技术采用音频识别技术来屏蔽受保护内容的上传,首先在网站内建立一个版权保护内容的特征值和版权控制规则数据库,数据库建好之后,可以对用户上传的内容进行控制。当用户通过其设备上传一项内容到网站时,由一个版权控制模块按同样的算法提取该内容的特征值FP1(Fingerprint,特征值),然后向数据库中搜索与该特征值最接近的已存特征值FP2,如果数据库中存在FP2,并且FP2和FP1的差别小于一个阈值,则可认为FP1对应的内容与FP2对应的内容属于同一内容。此时应用数据库中该内容的版权控制规则来处理用户上传的内容。
但是,本发明的发明人发现,上述现有技术存在以下缺点:由于音视频等内容数量巨大,因此维护管理内容特征数据库大大增加了网站的成本。并且网站作为业务实体,只能将该数据库用于与该网站业务有关的方面,而无法提供其它应用。一些实力较弱的网站没有能力建设这类数据库,CP也不可能跟所有的网站都协商实施该控制方案,因此大量网站未对版权内容做控制。然而,本实施方式通过采用一个或一个以上的单独的CIM实体11进行内容识别以便于网络中的业务实体都能能够对内容进行控制,CIM实体11中的用于识别的内容数据能够为所有业务实体使用,减少了业务实体的负担。
如图4所示,为本发明一个实施例中内容特征提取和证书生成的流程图,CIM实体11收到内容注册请求后,生成内容特征值,将内容特征值和其它数据存储于内容特征数据库中。具体可以包括以下几个步骤:
步骤S401,对注册主体13进行认证,确定注册主体13提交的内容的内容属性的真实性。
在注册主体13认证通过后,CIM实体11才为其进行内容注册。同时,CIM实体11需要验证注册主体13提供的内容属性的真实性。对于版权保护,内容属性中注册主体13对内容的所有权属性、版权声明是最需要验证的部分,注册主体13需要出示具有法律效力的所有权证明,CIM实体11才能接受注册主体13对内容的所有权属性。如果不能提供所有权证明,则CIM实体11可以拒绝用于版权保护目的的注册。对于其他属性如内容类型、作者等的真实性,在CIM实体11对注册主体13认证成功后就可以认为这些属性是真实的,也可以在经过一定的人工验证后,确定这些属性的真实性。
步骤S402,根据内容类型和注册目的参数生成内容的特征值。
在根据内容类型和注册目的参数生成内容的特征值之前,CIM实体11根据内容类型和注册目的参数选择特征生成算法。
例如,如果内容类型为文本,并且注册目的是过滤,这类内容一般为短消息、电子邮件或彩信等,则可以用传统哈希算法例如:MD5(Message DigestAlgorithm5,信息摘要算法5)计算内容的哈希值,也可以先提取文本信息的关键字,再计算关键字的哈希值。并以计算得到的哈希值作为内容的特征值。
例如,如果内容类型为文本,并且注册目的为版权保护,这类内容一般为小说、散文、新闻报道等内容,这时可以采用传统哈希算法例如:MD5计算内容的哈希值,并以计算得到的哈希值作为内容的特征值。计算内容特征值的粒度可以根据策略调整,可以针对整篇内容,也可以对每段或每句分别计算哈希值,将每段或每句的哈希值组成的数组作为整篇内容的特征值。
例如,如果内容类型为图片、音频或视频,则用基于内容的哈希算法提取内容的特征值。该基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法。
步骤S403,CIM实体11为内容分配ID(Identifier,标识)。分配ID的目的是方便CIM实体11对内容进行组织,和基于ID查找内容,例如在进行软件验证或广告触发时。但是在用于版权保护或过滤时,CIM实体11应依据内容特征值而不是ID来查找内容。
在本发明实施例中,ID的分配可以按照URN(Universal Resource Names,统一资源名)的格式。
另一实施方式中,还可以包括步骤S404,CIM实体11为内容生成内容证书。该内容证书生成后可以附加在内容文件的头部,和内容一起传播;也可以单独分发,例如定期同步到业务实体12中。内容证书的作用是使后续的内容验证过程可以不必连接CIM实体11,降低CIM实体11的负荷,提高验证的效率。
内容证书中可以包括内容ID、内容的特征值、内容的必要属性、注册主体13、CIM实体11判断内容属性真实性的方式和CIM实体11对这些信息的签名。一个内容证书的格式如图5所示,其中Verify means(验证方法)格式如下:CIMID-Auth-AttrVerify,即将CIMID(CIM标识)、CIM认证注册主体13的方法(Auth)和验证内容属性真实性的方法AttrVerify(Attribute Verify,属性验证)的联合体作为验证方法族。根据具体的认证和验证方法,需要定义具体的验证方法族,例如可以定义为:
CIMID-PKI-OwnerEvidwithManual
CIMID-Smartcard-OwnerEvidwithManual
CIMID-Kerberos-OwnerEvid
以上仅是定义具体的验证方法族的几种示例,本发明实施例并不局限于此。
在一个实际的内容证书中,CIMID需要设为具体的CIM实体11的标识。PKI(Public Key Infrastructure,公钥基础设施)、Smartcard(智能卡)、Kerberos(地狱守护者认证协议)分别标识三种认证方式。OwnerEvidwithManual标识CIM实体11验证内容属性真实性的方法是要求注册主体13提供了具有法律效力的所有权证明,并手工验证其他内容属性的真实性。OwnerEvid标识除了版权声明是通过所有权证明验证之外,其他属性是完成对注册主体13的认证后自动认为这些其它属性是真实的。
步骤S405,CIM实体11将上述内容ID、内容的特征值和内容属性存入内容特征数据库。
步骤S406,CIM实体11将注册结果返回给注册主体13。
在另一个实施方式中,网络中存在多个CIM实体,上述注册的过程还可以包括:注册主体13将内容向一个CIM实体11(以下以CIM-A表示)注册后,CIM-A应该将注册信息同步到其他CIM实体(以下以CIM-B为例进行说明)。这个具体实施方式中,可以实现注册主体13只向一个CIM实体11注册,而不需要向其他各个CIM实体一一注册,以方便其他CIM实体所属域的业务实体12针对该已注册内容对所述业务实体12的内容进行控制。
在同步流程中,CIM-A需要向CIM-B传递的注册信息包括:内容ID、内容的特征值、注册时提交的内容属性和注册主体信息、提交注册内容的方式和CIM-A判断注册内容以及内容属性真实性的方法。在将CIM-A判断内容属性真实性的方法传递给CIM-B之后,CIM-B可以根据该CIM-B自身的规则,以及CIM-A判断内容属性真实性的方法判断内容属性的真实性。
CIM-A将这些注册信息传递给CIM-B的方式可以采用以下多种方式:FTP,SOAP,SHTTP(Secure HyperText Transfer Protocal,安全超文本转换协议)等,但需要采用安全机制保证传递过程中的信息完整性。例如可以在CIM-A和CIM-B之间建立TLS(Transport Layer Security Protocol,安全传输层协议)安全连接,由CIM-A将每项注册内容的相关信息发送给CIM-B,可以在一个TLS连接内发送多项内容的注册信息;也可以将内容的注册信息以证书的方式发送,因为证书包含的CIM签名可以保证证书内信息的完整性,所以不需要其他安全措施。
CIM-B在收到CIM-A传递的各项内容的注册信息后,将其保存在数据库中。
CIM-B为每项内容的注册信息生成内容证书。
在生成的内容证书中的Verify Means字段中,应将CIMID设为CIM-A而不是CIM-B。这样业务实体12在验证证书时知道该内容是向CIM-A注册的,从而业务实体12可以根据该业务实体12的自身策略决定是否信任CIM-A。
CIM-B生成的证书包含内容注册信息的签名,并将签名加入证书。如果CIM-A是以内容证书的形式将内容注册信息发给CIM-B,则CIM-B可以将证书中CIM-A的签名去掉,然后加上该CIM-B的签名。内容证书中需要CIM-B的签名的目的是方便业务实体12对证书进行验证。因为一个CIM实体11往往负责一个域,该域内的业务实体12一般拥有该CIM实体11的证书,但一般不具有其他域CIM实体的证书,所以无法验证其他域的CIM实体对内容证书内注册信息所做的签名。所以每个CIM实体11收到其他CIM实体同步过来的内容注册信息后,需要利用自己的证书对内容注册信息做签名。
如图6所示,为本发明一个实施例中验证流程的示意图,业务实体12在收到内容后,由于各种应用需求,需要对内容的操作进行控制。该业务实体12可能为网站、用户终端或过滤网关等。业务实体12对内容操作的控制包括但不限于:版权验证和传播控制、垃圾或非法信息过滤或处于防病毒目的的软件验证。
具体包括以下几个步骤:
步骤S601,业务实体12接收内容。
步骤S602,业务实体12提取接收的内容的内容特征值。其中,提取内容特征值的算法应该根据内容的类型和业务实体12对内容的控制目的进行选择,选择的算法应与CIM实体11在注册流程中对注册主体13提交的内容进行注册时采用的特征提取算法相同。
业务实体12选择内容特征值提取算法的标准应该与CIM实体11选择内容特征值提取算法的标准一致。例如:二者可以通过遵从统一标准或提前约定的方法保持一致。
步骤S603,业务实体12向CIM实体11发送内容验证和内容属性查询请求。该内容属性查询请求中携带的必要参数包括:内容特征值、特征值生成算法和查询请求类型。该内容属性查询请求中携带的可选的参数包括根据不同查询请求类型所需要的其他参数。
查询请求类型表示业务实体12请求对内容进行验证和内容属性查询的目的,CIM实体11依据此参数进行相应处理。查询请求类型包括但不限于:
Upload copyright validate(上传版权验证)指用户上传内容到网站时根据版权对内容的上传进行控制;
Download copyright validate(下载版权验证)指用户从网上下载内容时,对内容的版权和用户下载权限进行控制;
Anti-spam filtering(垃圾信息过滤)指对垃圾信息和非法信息进行过滤控制;
Software verification(软件验证)指出于防病毒目的的软件验证。
当查询请求类型为Upload copyright validate时,查询请求还应携带业务实体12(往往是视频分享网站)的ID,用于CIM实体11查找与该业务实体12对应的版权控制信息。
当查询请求类型为Download copyright validate时,查询请求还应携带下载该内容的用户的ID,用于CIM实体11查找与该用户对应的安全控制规则。
当查询请求类型为Software verification时,查询请求还应携带软件的名称、版本号等信息。
步骤S604,CIM实体11在数据库中查找对应的已存注册内容信息。
CIM实体11在内容特征数据库中查找对应的已存注册内容信息时可以根据特征值来查找,也可以根据内容的标识ID和/或内容名称来查找。这主要是由于应用目的不同,其针对的实际问题也不同。
当需要对内容进行版权保护和过滤时,只要其视觉可感知的部分中,关键特征与受保护内容一致,就可以认为其侵权或属于需过滤信息。而这些内容为了规避控制,其内容名称和ID被修改是普遍情况。所以对这类内容,CIM实体11应该根据特征值检索内容特征数据库。
对于软件验证和其他一些应用例如:广告触发等,因为其应用场景中内容的名称一般不存在被恶意修改的情况,或者可以被用户或业务实体11检查到例如:用户下载一个软件后,自动触发软件验证的流程,因为用户一般都是看到软件的名称和版本是自己需要的才会下载,而软件下载网站一般也不会更改软件名称欺骗用户,所以软件验证要解决的问题主要是防止软件被嵌入病毒或恶意插件。对于这类内容,CIM实体11应该按照内容名称或ID检索内容特征数据库。
在本发明实施例中,根据内容标识查询,该内容标识可以是内容的名称及辅助信息例如:版本号、CIM实体11为内容分配的ID、或内容名称及辅助信息和ID的组合。
当根据特征值检索内容特征数据库时,如果查询请求中的特征值生成算法是传统哈希算法如MD5,则要求待验证内容的特征值和已存的特征值完全相同。如果特征值生成算法是基于内容的哈希算法,则当待验证内容的特征值和已存的特征值的差值小于一个阈值时,就认为是同一内容的特征值。阈值大小由具体的算法决定。
当根据内容标识检索内容特征数据库时,如果查找失败,CIM实体11可以按特征值再查找一遍,但是否再次查找应考虑成功的概率和消耗的平衡。对于软件验证,其场景一般是用户下载完软件后自动触发,或者软件在经过业务网关软件时,由业务网关触发,所以这时可以提示为“软件就是那个需要的软件”,也就是说软件名称、版本号等都没问题。所以如果按ID或名称查找完毕,但没查到相应的已存内容时,很可能是软件没在CIM实体注册过。如果该软件的ID或名称被更改过,那么使用ID会查不到。这时候再用FP查,如果查找到相应的已存内容,那么CIM实体11得到的结论是内容本身没问题,但名称或ID被更改过,把这个结论告诉用户还是有意义的;如果还是查不到,则说明内容中被插入了其他信息并且名字被更改过,或内容未被注册,CIM实体无法判断该内容到底是什么。CIM实体11是否将上述两种结果告知用户,可由CIM实体11的内部策略决定。
步骤S605,CIM实体11根据查询类型,获得内容的相关属性。
当查询类型为Upload copyright validate时,CIM实体11查询内容的版权声明和版权控制规则,并查找版权控制规则中是否包含与查询请求中携带的业务实体ID对应的业务实体12的特定控制规则。
当查询类型为Download copyright validate时,CIM实体11查询内容的版权声明和版权控制规则,并查找版权控制规则中是否包含与查询请求中携带的用户ID对应的业务实体12的特定控制规则。
当查询类型为anti-spam filtering时,则查询内容的类别和过滤要求。
当查询类型为software verification时,步骤S604中CIM实体11不根据查询请求中的特征值查找内容,而是根据software(软件)的名称和版本号查找对应的特征值,然后将两个特征值对比。并将对比结果放入响应消息中。
步骤S606,CIM实体11返回响应消息给业务实体12。响应消息中包含处理结果代码和相关的内容属性。业务实体12可以根据返回的内容属性对该业务实体12的内容进行相关控制操作。
另外,为使业务实体12下次再对相同内容进行控制而不再向CIM实体11查询,CIM实体11可以在响应消息中将该内容的内容证书带上,发给业务实体12。
在本发明的另一实施方式中,在步骤S602之后,业务实体12可以执行如图7所示的流程获取内容属性,具体包括以下几个步骤:
步骤S701,查找内容证书。如果业务实体12接收的内容携带了内容证书或业务实体12通过内容标识、名称或特征值在本地检索到了对应的内容证书,则业务实体12可以通过该内容证书来获得内容的属性。如果没有查找到内容证书,则直接执行步骤S603。如果查到内容证书,则执行步骤S702。
步骤S702,验证CIM实体11的签名。如果是业务实体12所属域的CIM实体11的签名,或该业务实体12能够获得对内容证书做签名的CIM实体11的证书,则可用CIM证书验证CIM实体11的签名。如果验证签名成功,则执行步骤S703;如果验证失败,则直接执行步骤S603。
步骤S703,对比提取的内容的特征值与内容证书中的特征值是否一致。
判断一致的标准是这两个特征值相等或这两个特征值的差值小于一个阈值。如果这两个特征值不一致,表示该内容所携带的内容证书不是该内容的内容证书,则业务实体12应该连接CIM实体11进行查询,执行步骤S603。如果这两个特征值一致,则执行步骤S704。
步骤S704,从内容证书中获取对内容进行控制需要的业务属性,并根据获取的业务属性执行相应的控制操作。
上述通过内容证书来获取内容属性的操作如果成功,则避免了业务实体12连接CIM实体11,从而降低了CIM实体11的负荷,也提高了业务实体12获取内容属性执行内容控制操作的效率。
上述内容识别的方法,通过集中式的CIM实体11,以及不同域的CIM实体11之间的同步,由CIM实体11提供基础服务,为版权控制、过滤、软件验证、广告触发等提供通用功能,降低了业务实体12的负担和成本。通过内容证书机制,使业务实体12对内容的验证不必每次都连接CIM实体11,降低了CIM实体11的负荷。
并且本发明实施例中,CIM实体11针对不同内容类型的特点,选择最合适的识别方法准确识别内容,业务实体12根据不同内容的内容属性对该业务实体12的内容进行控制,提高了鲁棒性、减少了错误率。
如图8所示,为本发明一个实施例中内容识别管理CIM实体11的结构图,包括:
内容注册模块111,用于接收注册主体13发送的内容注册请求,对注册主体13提交的内容进行注册。对注册主体13的内容进行注册包括特征提取、属性真实性检验和内容证书生成。
验证和查询处理模块112,用于接收业务实体12发送的内容属性查询请求,该内容属性查询请求包括内容特征值和查询请求类型,根据所述内容属性查询请求中携带的内容特征值,在CIM实体11的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,在查找到与所述内容特征值最接近的已存内容的特征值之后,根据该内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将获取的内容属性返回业务实体12,以供业务实体12对业务实体12的内容进行控制。
内容特征数据库113,用于保存已注册内容的内容特征值和内容属性。内容特征数据库113负责存储内容特征值、属性和证书,具体的存储形式可以是数据库的形式,也可以存储于文件系统中,如以XML(EXtensible MarkupLanguage,可扩展置标语言)格式的文件存储。
其中,内容注册模块111包括:特征值生成子模块1111,用于根据内容类型和注册目的参数选择特征生成算法,生成内容特征值,并将生成的内容特征值和内容的内容属性存储到内容特征数据库113中。
其中,内容注册模块111还包括:证书生成子模块1112,用于为注册内容生成内容证书,该内容证书包括注册内容的特征值、内容属性、注册主体和验证所述内容属性的真实性的方法。
其中,验证和查询处理模块112包括:
特征值查找子模块1121,用于根据内容属性查询请求中携带的内容特征值,在内容特征数据库113中查找与所述内容特征值最接近的已存内容的特征值;
属性获取子模块1122,用于在特征值查找子模块1121查找到与所述内容特征值最接近的已存内容的特征值之后,根据内容属性查询请求中携带的查询请求类型获取内容属性,并将获取的内容属性返回业务实体12。
CIM实体11还包括:同步模块114,用于将内容的注册信息同步到除所述CIM实体11之外的其他CIM实体。
如图9所示,为本发明一个实施例中业务实体12的结构图,包括:
特征值提取模块121,用于根据内容类型和业务实体12对内容的控制目的选择特征提取算法提取内容特征值;
属性获取模块122,用于根据特征值提取模块121提取的内容特征值获取CIM实体11上的已注册内容的内容属性;
内容控制模块123,用于根据属性获取模块122获取的内容属性对业务实体12的内容进行控制。
其中,属性获取模块122可以包括:查找获取子模块1221,用于查找内容证书,根据查找到的内容证书获取所述内容属性。
在本发明的另一实施例中,属性获取模块122可以包括:查询获取子模块,用于向CIM实体11发送内容属性查询请求,接收该CIM实体11返回的内容属性,该内容属性查询请求包括所述内容特征值、特征值生成算法和查询请求类型。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (25)

1.一种内容识别的方法,其特征在于,包括以下步骤:
根据内容类型和业务实体对内容的控制目的选择特征提取算法提取内容特征值,所述内容特征值,包括:
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
根据所述内容特征值获取已注册内容的内容属性;
根据所述获取的内容属性对所述业务实体的内容进行控制。
2.如权利要求1所述内容识别的方法,其特征在于,所述根据内容特征值获取已注册内容的内容属性包括:
查找内容证书,根据所述内容证书获取所述内容属性;或者,
向内容识别管理CIM实体发送内容属性查询请求,接收所述CIM实体返回的内容属性,所述内容属性查询请求包括所述内容特征值和查询请求类型。
3.如权利要求2所述内容识别的方法,其特征在于,所述查找内容证书,根据所述内容证书获取所述内容属性包括:
在查找到内容证书之后,验证所述查找到的内容证书的签名,在验证签名成功之后,从所述内容证书中获取所述内容属性。
4.如权利要求2所述内容识别的方法,其特征在于,所述查询请求类型包括:上传内容版权验证、下载内容版权验证、过滤控制和软件验证。
5.如权利要求4所述内容识别的方法,其特征在于,当所述查询请求类型为上传内容版权验证时,所述内容属性查询请求还包括业务实体标识;或者,
当所述查询请求类型为软件验证时,所述内容属性查询请求还包括软件名称和版本信息;或者,
当所述查询请求类型为下载内容版权验证时,所述内容属性查询请求还包括用户标识。
6.如权利要求1所述内容实别的方法,其特征在于,所述已注册内容是在CIM实体上注册的。
7.一种内容识别方法,其特征在于,包括:
接收业务实体发送的内容属性查询请求,所述内容属性查询请求包括内容特征值和查询请求类型;
根据所述内容属性查询请求中携带的内容特征值;
在内容识别管理CIM实体的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,所述内容特征值,包括:
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述业务实体,以供所述业务实体对所述业务实体的内容进行控制。
8.如权利要求7所述内容识别的方法,其特征在于,所述查询请求类型包括:上传内容版权验证、下载内容版权验证、过滤控制和软件验证。
9.如权利要求8所述内容识别的方法,其特征在于,当所述查询请求类型为上传内容版权验证时,所述内容属性查询请求还包括业务实体标识,所述获取的内容属性包括版权声明和所述业务实体标识对应的业务实体的版权控制规则。
10.如权利要求8所述内容识别的方法,其特征在于,当所述查询请求类型为软件验证时,所述内容属性查询请求还包括软件名称和版本信息,
所述根据内容属性查询请求中携带的内容特征值,在CIM实体的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值具体为:
根据所述内容属性查询请求中携带的软件名称和版本信息,在所述CIM实体的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值。
11.如权利要求8所述内容识别的方法,其特征在于,当所述查询请求类型为下载内容版权验证时,所述内容属性查询请求还包括用户标识。
12.一种用于内容识别的内容注册方法,其特征在于,包括:
接收注册主体发送的内容注册请求;
根据所述内容注册请求携带的内容类型和注册目的参数选择特征生成算法,生成内容特征值;
存储所述生成的内容特征值和所述内容的内容属性,完成对所述注册主体提交的内容的注册,所述内容特征值,包括:
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法。
13.如权利要求12所述用于内容识别的内容注册方法,其特征在于,所述对注册主体提交的内容进行注册还包括:
为所述注册的内容生成内容证书,所述内容证书包括注册内容的特征值、内容属性、注册主体和验证所述内容属性的真实性的方法。
14.如权利要求13所述用于内容识别的内容注册方法,其特征在于,所述验证内容属性的真实性的方法包括:CIM实体的标识、CIM实体认证注册主体的方法和属性验证的方法。
15.如权利要求12所述用于内容识别的内容注册方法,其特征在于,还包括:将所述内容的注册信息同步到除所述CIM实体之外的其他CIM实体,所述其他CIM实体根据所述内容的注册信息为所述内容生成内容证书,所述其他CIM实体生成的内容证书包括原CIM实体的标识和所述原CIM实体验证内容属性的真实性的方法。
16.一种内容识别的系统,其特征在于,包括:
业务实体,用于根据内容类型和所述业务实体对内容的控制目的选择特征提取算法提取内容特征值;
根据所述内容特征值获取内容识别管理CIM实体上的已注册内容的内容属性,并根据所述获取的内容属性对所述业务实体的内容进行控制,所述内容特征值,包括:
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
内容识别管理CIM实体,用于接收所述业务实体发送的内容属性查询请求,所述内容属性查询请求包括所述内容特征值和查询请求类型,根据所述内容属性查询请求中携带的内容特征值,在所述CIM实体的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,并在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述业务实体,以供所述业务实体对所述业务实体的内容进行控制。
17.如权利要求16所述内容识别的系统,其特征在于,还包括:
注册主体,用于向所述CIM实体发送内容注册请求,请求所述CIM实体对所述注册主体提交的内容进行注册。
18.一种内容识别的业务实体装置,其特征在于,包括:
特征值提取模块,用于根据内容类型和所述内容识别的业务实体装置对内容的控制目的选择特征提取算法提取内容特征值,所述内容特征值,包括:如果所述内容类型为文本,并且所述内容识别的业务实体装置对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述内容识别的业务实体装置对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
属性获取模块,用于根据所述特征值提取模块提取的内容特征值获取内容识别管理CIM实体装置上的已注册内容的内容属性;
内容控制模块,用于根据所述属性获取模块获取的内容属性对所述内容识别的业务实体装置中的内容进行控制。
19.如权利要求18所述内容识别的业务实体装置,其特征在于,所述属性获取模块包括:
查找获取子模块,用于查找内容证书,根据所述查找到的内容证书获取所述内容属性;或者,
查询获取子模块,用于向所述CIM实体装置发送内容属性查询请求,接收所述CIM实体装置返回的内容属性,所述内容属性查询请求包括所述内容特征值、特征值生成算法和查询请求类型。
20.一种内容识别管理CIM实体装置,其特征在于,包括:
内容注册模块,用于接收内容识别的注册主体装置发送的内容注册请求,对所述内容识别的注册主体装置提交的内容进行注册;
特征值生成子模块,用于根据内容类型和注册目的参数选择特征生成算法,生成内容特征值,并将所述生成的内容特征值和所述内容的内容属性存储到所述内容特征数据库中,所述内容特征值,包括:
如果所述内容类型为文本,并且内容识别的业务实体装置对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且内容识别的业务实体装置对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
内容特征数据库,用于保存已注册内容的内容特征值和内容属性;
验证和查询处理模块,用于接收内容识别的业务实体装置发送的内容属性查询请求,所述内容属性查询请求包括所述内容特征值和查询请求类型,根据所述内容属性查询请求中携带的内容特征值,在所述内容识别管理CIM实体装置的内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述内容属性查询请求中携带的查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述内容识别的业务实体装置,以供所述内容识别的业务实体装置对业务实体的内容进行控制。
21.如权利要求20所述内容识别管理CIM实体装置,其特征在于,所述内容注册模块还包括:
证书生成子模块,用于为所述注册内容生成内容证书,所述内容证书包括注册内容的特征值、内容属性、注册的内容识别的业务实体装置和验证所述内容属性的真实性的方法。
22.如权利要求20所述内容识别管理CIM实体装置,其特征在于,所述验证和查询处理模块包括:
特征值查找子模块,用于根据所述内容属性查询请求中携带的内容特征值,在所述内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值;
属性获取子模块,用于在所述特征值查找子模块查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述内容属性查询请求中携带的查询请求类型获取内容属性,并将所述获取的内容属性返回所述内容识别的业务实体装置。
23.如权利要求20所述内容识别管理CIM实体装置,其特征在于,还包括:
同步模块,用于将所述内容的注册信息同步到除所述内容识别管理CIM实体装置之外的其他CIM实体装置。
24.一种内容识别的方法,其特征在于,包括以下步骤:
根据内容类型和业务实体对内容的控制目的选择特征提取算法提取内容特征值,所述内容特征值,包括:
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
根据所述内容特征值获取已注册内容的内容属性。
25.一种内容识别方法,其特征在于,包括:
接收业务实体发送的内容属性查询请求,所述内容属性查询请求包括内容特征值和查询请求类型;
根据所述内容特征值,在内容特征数据库中查找与所述内容特征值最接近的已存内容的特征值,所述内容特征值,包括:
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为过滤,则采用传统哈希算法计算所述内容的哈希值,或者先提取所述文本内容的关键字,再计算所述关键字的哈希值,以所述计算得到的哈希值作为所述内容特征值;或者,
如果所述内容类型为文本,并且所述业务实体对内容的控制目的为版权保护,则采用传统哈希算法计算所述内容的哈希值,并以所述计算得到的哈希值作为所述内容的特征值;或者,
如果所述内容类型为图片、音频或视频,则采用基于内容的哈希算法提取所述内容特征值,所述基于内容的哈希算法包括内容特征提取算法和鲁棒性哈希算法;
在查找到与所述内容特征值最接近的已存内容的特征值之后,根据所述查询请求类型获取已注册内容的内容属性,并将所述获取的内容属性返回所述业务实体。
CN200810089543XA 2008-04-07 2008-04-07 一种内容识别的方法、系统和装置 Expired - Fee Related CN101251881B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200810089543XA CN101251881B (zh) 2008-04-07 2008-04-07 一种内容识别的方法、系统和装置
EP08873839A EP2264634A4 (en) 2008-04-07 2008-11-10 METHOD, SYSTEM AND DEVICE FOR CONTENT IDENTIFICATION
PCT/CN2008/073001 WO2009124440A1 (zh) 2008-04-07 2008-11-10 一种内容识别的方法、系统和装置
US12/900,273 US20110029555A1 (en) 2008-04-07 2010-10-07 Method, system and apparatus for content identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810089543XA CN101251881B (zh) 2008-04-07 2008-04-07 一种内容识别的方法、系统和装置

Publications (2)

Publication Number Publication Date
CN101251881A CN101251881A (zh) 2008-08-27
CN101251881B true CN101251881B (zh) 2010-04-14

Family

ID=39955267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810089543XA Expired - Fee Related CN101251881B (zh) 2008-04-07 2008-04-07 一种内容识别的方法、系统和装置

Country Status (4)

Country Link
US (1) US20110029555A1 (zh)
EP (1) EP2264634A4 (zh)
CN (1) CN101251881B (zh)
WO (1) WO2009124440A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251881B (zh) * 2008-04-07 2010-04-14 华为技术有限公司 一种内容识别的方法、系统和装置
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US9026668B2 (en) 2012-05-26 2015-05-05 Free Stream Media Corp. Real-time and retargeted advertising on multiple screens of a user watching television
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US9386356B2 (en) 2008-11-26 2016-07-05 Free Stream Media Corp. Targeting with television audience data across multiple screens
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
CN101788980A (zh) * 2009-01-23 2010-07-28 中兴通讯股份有限公司 一种实现内容注册、识别和检索的方法及系统
CN101989923B (zh) * 2009-07-31 2013-08-28 国际商业机器公司 将cim代理注册到管理代理的方法和系统以及管理系统
CN101997857B (zh) * 2009-08-27 2015-06-03 中兴通讯股份有限公司 基于内容id证书的注册与识别方法及内容离线识别系统
US10019741B2 (en) * 2010-08-09 2018-07-10 Western Digital Technologies, Inc. Methods and systems for a personal multimedia content archive
CN102480702A (zh) * 2010-11-24 2012-05-30 腾讯科技(深圳)有限公司 短信拦截方法和系统
US20130006951A1 (en) * 2011-05-30 2013-01-03 Lei Yu Video dna (vdna) method and system for multi-dimensional content matching
CN102761627B (zh) * 2012-06-27 2015-12-09 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及系统及相关设备
US20140041054A1 (en) * 2012-08-01 2014-02-06 Microsoft Corporation Attestation of possession of media content items using fingerprints
US9063544B2 (en) * 2012-09-19 2015-06-23 The Boeing Company Aerial forest inventory system
CN103491393B (zh) * 2013-09-23 2016-11-23 华为技术有限公司 一种视频业务处理方法及设备
CN104639517B (zh) * 2013-11-15 2019-09-17 阿里巴巴集团控股有限公司 利用人体生物特征进行身份验证的方法和装置
KR101627398B1 (ko) * 2013-12-27 2016-06-13 삼성전자주식회사 내용기반의 검색엔진을 이용한 개인 콘텐츠 저작권 관리 시스템 및 방법
CN104897051B (zh) * 2014-03-03 2019-01-11 卡尔蔡司显微镜有限责任公司 用于对数码显微镜进行测量校准的校准板及其使用方法
US10171437B2 (en) * 2015-04-24 2019-01-01 Oracle International Corporation Techniques for security artifacts management
US10395042B2 (en) 2015-07-02 2019-08-27 Oracle International Corporation Data encryption service
CN105185401B (zh) * 2015-08-28 2019-01-01 广州酷狗计算机科技有限公司 同步多媒体文件列表的方法及装置
CN106126574A (zh) * 2016-06-16 2016-11-16 深圳市矽伟智科技有限公司 图片的识别方法、系统及物联网摄像设备
CN108667881B (zh) * 2017-03-31 2020-08-18 中国科学院声学研究所 一种智能终端与云服务器的业务数据的同步方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379336A (zh) * 2001-03-29 2002-11-13 株式会社理光 内容信息管理方法及其装置
CN1604081A (zh) * 2003-07-29 2005-04-06 朗迅科技公司 内容标识系统
CN1858769A (zh) * 2006-02-17 2006-11-08 华为技术有限公司 一种对媒体内容的使用方进行限制的方法和系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6564253B1 (en) * 1999-05-07 2003-05-13 Recording Industry Association Of America Content authorization system over networks including searching and reporting for unauthorized content locations
US7185201B2 (en) * 1999-05-19 2007-02-27 Digimarc Corporation Content identifiers triggering corresponding responses
US20010041989A1 (en) * 2000-05-10 2001-11-15 Vilcauskas Andrew J. System for detecting and preventing distribution of intellectual property protected media
US7010808B1 (en) * 2000-08-25 2006-03-07 Microsoft Corporation Binding digital content to a portable storage device or the like in a digital rights management (DRM) system
EP1490767B1 (en) * 2001-04-05 2014-06-11 Audible Magic Corporation Copyright detection and protection system and method
US20030105739A1 (en) * 2001-10-12 2003-06-05 Hassane Essafi Method and a system for identifying and verifying the content of multimedia documents
KR100456618B1 (ko) * 2001-11-08 2004-11-10 한국전자통신연구원 인트라 도메인에서의 등록 정보 동기화 방법
US8332326B2 (en) * 2003-02-01 2012-12-11 Audible Magic Corporation Method and apparatus to identify a work received by a processing system
EP1599784A4 (en) * 2003-03-05 2011-10-19 Digimarc Corp CONTENT IDENTIFICATION, PERSONAL DOMAIN, COPIER NOTIFICATION, METADATA AND E-COMMERCE
KR100507809B1 (ko) * 2003-03-19 2005-08-17 학교법인 한국정보통신학원 네트워크상에서의 겹선형쌍 디피-헬만 문제를 이용한 익명핑거프린팅 방법
KR20040094098A (ko) * 2003-05-01 2004-11-09 삼성전자주식회사 인증 방법 및 그 장치
GB0317571D0 (en) * 2003-07-26 2003-08-27 Koninkl Philips Electronics Nv Content identification for broadcast media
US20070242880A1 (en) * 2005-05-18 2007-10-18 Stebbings David W System and method for the identification of motional media of widely varying picture content
DE102006011294A1 (de) * 2006-03-10 2007-09-13 Siemens Ag Verfahren und Kommunikationssystem zum rechnergestützten Auffinden und Identifizieren von urheberrechtlich geschützten Inhalten
GB0622149D0 (en) * 2006-11-07 2006-12-20 Singlepoint Holdings Ltd System and method to validate and authenticate digital data
CN101251881B (zh) * 2008-04-07 2010-04-14 华为技术有限公司 一种内容识别的方法、系统和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379336A (zh) * 2001-03-29 2002-11-13 株式会社理光 内容信息管理方法及其装置
CN1604081A (zh) * 2003-07-29 2005-04-06 朗迅科技公司 内容标识系统
CN1858769A (zh) * 2006-02-17 2006-11-08 华为技术有限公司 一种对媒体内容的使用方进行限制的方法和系统

Also Published As

Publication number Publication date
CN101251881A (zh) 2008-08-27
US20110029555A1 (en) 2011-02-03
WO2009124440A1 (zh) 2009-10-15
EP2264634A1 (en) 2010-12-22
EP2264634A4 (en) 2011-04-20

Similar Documents

Publication Publication Date Title
CN101251881B (zh) 一种内容识别的方法、系统和装置
JP7222036B2 (ja) モデルトレーニングシステムおよび方法および記憶媒体
US11934497B2 (en) Content anti-piracy management system and method
Lee et al. Blockchain based privacy preserving multimedia intelligent video surveillance using secure Merkle tree
CN111970129B (zh) 一种基于区块链的数据处理方法、设备以及可读存储介质
US20200084045A1 (en) Establishing provenance of digital assets using blockchain system
US20190139047A1 (en) Block chain based resource management
EP1698993B1 (en) Method and system for integrating multiple identities, identity mechanisms and identity providers in a single user paradigm
CN112291245B (zh) 一种身份授权方法、装置、存储介质及设备
EP3671518B1 (en) Metadata distribution and management via transactional blockchain technology
CN110597818B (zh) 基于区块链的卷宗查询方法、装置、设备及存储介质
CN110309197B (zh) 项目数据验证方法及其装置
KR102088346B1 (ko) 외부 스토리지와 연계된 블록체인의 정보변경장치 및 방법
CN112311538A (zh) 一种身份验证的方法、装置、存储介质及设备
CN115632798A (zh) 基于智能合约的电子证照认证溯源方法、系统及相关设备
CN101739522A (zh) Drm文件完整性的保护方法及装置
CN102299927A (zh) 内容安全监管系统及方法
CN114021196A (zh) 公平可搜索加密方法、公平可搜索加密系统
Drăgan et al. Bootstrapping online trust: Timeline activity proofs
CN114676449B (zh) 一种基于可验证数据库的物联网数据可搜索加密方法
Blazic Long term trusted archive services
EP4307153A1 (en) Tamper-evident storage of media streams
CN116938478A (zh) 一种权限确定方法、装置、设备及可读存储介质
CN117251859A (zh) 一种基于区块链地理信息数据共享系统及方法
KR100424663B1 (ko) 인터넷 웹사이트 선행기술 인증 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100414

Termination date: 20140407