CN102143120A - 一种实现多媒体文件分级的方法和装置 - Google Patents

一种实现多媒体文件分级的方法和装置 Download PDF

Info

Publication number
CN102143120A
CN102143120A CN201010103525XA CN201010103525A CN102143120A CN 102143120 A CN102143120 A CN 102143120A CN 201010103525X A CN201010103525X A CN 201010103525XA CN 201010103525 A CN201010103525 A CN 201010103525A CN 102143120 A CN102143120 A CN 102143120A
Authority
CN
China
Prior art keywords
file
database
dna
multimedia
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010103525XA
Other languages
English (en)
Other versions
CN102143120B (zh
Inventor
杨勇
许建国
王桥
蒋玖川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201010103525.XA priority Critical patent/CN102143120B/zh
Publication of CN102143120A publication Critical patent/CN102143120A/zh
Application granted granted Critical
Publication of CN102143120B publication Critical patent/CN102143120B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种实现多媒体文件分级的方法,建立多媒体文件DNA数据库和多媒体文件热度数据库;将捕获到的网络数据包解析成具有有效载荷的格式,提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度,实现对互联网中多媒体文件传播热度的分级;本发明同时还公开了一种实现多媒体文件分级的装置;在本发明的方案中,还可以建立盗版多媒体文件DNA数据库、多媒体网站热度数据库和P2P热度数据库,记录盗版多媒体文件信息、多媒体网站热度及多媒体文件的传播方式,为网络中非法传播的数据的监管提供有利帮助。

Description

一种实现多媒体文件分级的方法和装置
技术领域
本发明涉及网络监测技术和版权监管及保护技术,尤其涉及一种实现多媒体文件分级的方法和装置。
背景技术
近年来,随着互联网的飞速发展,无处不在的网络技术给社会带来了极大的便利,譬如多媒体文件共享和流媒体应用给予了网络前所未有的用户体验,而且网络下载成为用户获取多媒体文件的最重要渠道。然而,网络中传播的多媒体文件数量浩如烟海,如何监管这些多媒体文件日益成为一个十分棘手的问题。多媒体文件相对普通文件体积庞大,其传输严重占用了网络带宽资源。更为重要的是,因为对网络中多媒体文件内容缺乏有效的监管,使得多媒体文件盗版现象日益猖獗,成为版权侵犯的重灾区。因此,网络运营商与多媒体文件版权拥有者都迫切需要对互联网中传播的多媒体文件从内容上进行分级,以实现对多媒体文件的有效监管。
传统的方法主要通过关键词匹配和图像信息识别来进行内容分级。譬如内容分级审查就是根据互联网内容分级联盟(ICRA)提供的描述性关键词汇,来允许或禁止访问某些不良的网站。关键词匹配方法能在网页、文本等文件中对暴力、色情、赌博、毒品等不良信息进行部分识别,能够阻止网络用户对部分不良内容的访问。图像信息识别技术的应用主要集中于对色情图片的过滤,目前已有使用基于肤色侦测的图像识别算法可以部分实现这种功能。然而,这些方法只能阻止用户对部分非法内容的访问,而对在网络中非法传播的数据却没有任何监管措施,无法获悉多媒体文件在网络中的传播热度及传播行为方式;另外,也不能对盗版等非法多媒体文件进行任何处理。
发明内容
有鉴于此,本发明的主要目的在于提供一种实现多媒体文件分级的方法和装置,实现对互联网中多媒体文件传播热度的分级,为网络中非法传播的数据的监管提供有利帮助。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供的一种实现多媒体文件分级的方法,该方法包括:
建立多媒体文件DNA数据库和多媒体文件热度数据库;
将捕获到的网络数据包解析成具有有效载荷的格式;
提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。
上述方案中,所述建立多媒体文件DNA数据库和多媒体文件热度数据库具体为:设置多媒体文件DNA数据库和多媒体文件热度数据库,将捕获到的数据包解析成“到达时间+包头信息+有效载荷”的格式,根据数据包的到达时间和包头信息将数据包的有效载荷组合为多媒体文件,提取多媒体文件的文件DNA,与多媒体文件DNA数据库进行匹配,将匹配失败的文件DNA及文件名称添加到多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度。
上述方案中,该方法进一步包括建立盗版多媒体文件DNA数据库,具体为:预先设置盗版多媒体文件DNA的数据库,在提取多媒体文件的文件DNA之后,用户判断传输的多媒体文件为盗版文件时,将提取的文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;
该方法进一步包括建立盗版源地址数据库和盗版下载地址数据库,分别用于存储盗版多媒体文件中的数据包的源IP地址和目的IP地址。
上述方案中,该方法进一步包括:建立多媒体网站热度数据库和/或P2P热度数据库;在提取的数据包的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称,根据有效载荷中携带有URL地址和/或P2P特征字段,相应更新多媒体网站热度数据库和/或P2P热度数据库。
上述方案中,该方法进一步包括:在建立了盗版多媒体文件DNA数据库、且提取的数据包的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。
本发明提供的一种实现多媒体文件分级的装置,该装置包括:数据库建立模块、分级模块;其中,
数据库建立模块,用于建立多媒体文件DNA数据库和多媒体文件热度数据库;
分级模块,用于将捕获到的网络数据包解析成具有有效载荷的格式,提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。
上述方案中,所述数据库建立模块包括:数据库设置模块、第一数据包捕获模块、第一解析模块、第一多媒体格式检测模块、多媒体文件复原模块、第一文件DNA提取模块、第一匹配模块;其中,
数据库设置模块,用于设置用于存储文件DNA的多媒体文件DNA数据库和用于存储多媒体文件热度的多媒体文件热度数据库;
第一数据包捕获模块,用于在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络中的原始数据包;
第一解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式;
第一多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数据包时,通知多媒体文件复原模块;
多媒体文件复原模块,用于提取数据包包头信息中的源IP地址和目的IP地址,存储经过网关的与提取的源IP地址、目的IP地址相同的数据包,根据数据包的到达时间和包头信息将多媒体格式的数据包的有效载荷组合为多媒体文件;
第一文件DNA提取模块,用于提取多媒体文件的文件DNA;
第一匹配模块,用于将第一文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将文件DNA及文件名称添加到多媒体文件DNA数据库中,并将文件名称添加到多媒体文件热度数据库,设置初始热度;
所述分级模块包括:第二数据包捕获模块、第二解析模块、第二多媒体格式检测模块、第二文件DNA提取模块、第二匹配模块、更新热度模块;其中,
第二数据包捕获模块,用于从网卡捕获网络中的原始数据包;
第二解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式;
第二多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数据包时,通知第二文件DNA提取模块;
第二文件DNA提取模块,用于提取数据包有效载荷中的文件DNA;
第二匹配模块,用于将第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名称,通知更新热度模块按照文件名称更新多媒体文件热度数据库;
更新热度模块,用于根据匹配模块的按照文件名称更新多媒体文件热度数据库的通知,更新多媒体文件热度数据库中该文件的传播热度。
上述方案中,所述数据库设置模块进一步用于预先设置盗版多媒体文件DNA的数据库;
所述第一匹配模块进一步用于在用户判断传输的多媒体文件为盗版文件时,将第一文件DNA提取模块提取的文件DNA与盗版多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;
所述数据库设置模块进一步还用于建立盗版源地址数据库和盗版下载地址数据库,分别存储盗版多媒体文件中的数据包的源IP地址和目的IP地址。
上述方案中,所述第二匹配模块进一步用于在建立了盗版多媒体文件DNA数据库、且第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,读取文件名称,通知更新热度模块按照文件名称更新多媒体文件热度数据库。
上述方案中,所述数据库设置模块进一步还用于建立多媒体网站热度数据库和/或P2P热度数据库;
所述第二匹配模块,进一步还用于在第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称,根据有效载荷中携带有URL地址和/或P2P特征字段,相应通知更新热度模块更新多媒体网站热度数据库和/或P2P热度数据库;
相应的,所述更新热度模块进一步用于根据第二匹配模块的通知,更新多媒体网站热度数据库和/或P2P热度数据库。
本发明提供的一种实现多媒体文件分级的方法和装置,建立多媒体文件DNA数据库和多媒体文件热度数据库;将捕获到的网络数据包解析成具有有效载荷的格式,提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度,实现对互联网中多媒体文件传播热度的分级;同时还可以进一步建立盗版多媒体文件DNA数据库、盗版源地址数据库、盗版下载地址数据库、多媒体网站热度数据库和P2P热度数据库,记录盗版多媒体文件信息、多媒体网站热度及多媒体文件的传播方式,为网络中非法传播的数据的监管提供有利帮助。
附图说明
图1为本发明实现多媒体文件分级的方法的流程示意图;
图2为本发明建立多媒体文件DNA数据库和多媒体文件热度数据库的方法的流程示意图;
图3为本发明更新多媒体文件热度数据库的方法的流程示意图;
图4为本发明实现多媒体文件分级的装置的流程示意图。
具体实施方式
本发明的基本思想是:建立多媒体文件DNA数据库和多媒体文件热度数据库;将捕获到的网络数据包解析成具有有效载荷的格式,提取多媒体格式的数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。
下面通过附图及具体实施例对本发明做进一步的详细说明。
本发明实现多媒体文件分级的方法,如图1所示,包括以下几个步骤:
步骤101:建立多媒体文件DNA数据库和多媒体文件热度数据库;
具体的,设置用于存储文件DNA的多媒体文件DNA数据库和用于存储多媒体文件热度的多媒体文件热度数据库,将捕获到的网络数据包解析成“到达时间+包头信息+有效载荷”的格式,根据数据包的到达时间和包头信息将多媒体格式的数据包的有效载荷组合为多媒体文件,提取多媒体文件的文件DNA,与多媒体文件DNA数据库进行匹配,将匹配失败的文件DNA及文件名称添加到多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度。具体步骤如图2所示,包括:
步骤201:在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络中的原始数据包;
步骤202:按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式,从有效载荷中利用特征字段检测是否为多媒体格式数据包,如果是多媒体数据包则执行步骤203,否则结束本次流程;
所述特征字段是定位数据包格式为多媒体格式的字符串。
步骤203:提取该数据包包头信息中的源IP地址和目的IP地址;
所述包头信息主要为数据包的五元组信息,即源IP地址、目的IP地址、源端口号、目的端口号以及传输层协议类型。
步骤204:捕获经过网关的源IP地址、目的IP地址分别和步骤203中提取的IP地址相同的数据包;
步骤205:将捕获到的数据包写入到预先开辟的存储空间;
步骤206:当捕获到的源IP地址、目的IP地址之间数据包的包头信息携带TCP拆除连接信息时,根据数据包的到达时间和包头信息将所有数据包的有效载荷组合成多媒体文件;
步骤207:按照多媒体文件DNA提取方法,提取多媒体文件的文件DNA;
所述多媒体文件DNA提取方法包括均匀提取、随机提取等算法,具体参见申请号为200910180572.1的发明专利;文件DNA一般为几十字节,远小于一个网络数据包的大小。
步骤208:将该文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,匹配失败则执行步骤209;匹配成功则本次流程结束;
步骤209:将文件DNA及文件名称添加到多媒体文件DNA数据库中,并将文件名称添加到多媒体文件热度数据库,设置初始热度,实现多媒体文件DNA数据库和多媒体文件热度数据库的建立,本次流程结束。
上述方法中,进一步包括建立盗版多媒体文件DNA数据库,即预先设置用于存储盗版多媒体文件DNA的盗版多媒体文件DNA数据库,在提取多媒体文件的文件DNA之后,用户判断传输的多媒体文件为盗版文件时,将提取的文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;在匹配成功时,本次流程结束;
该方法进一步包括建立盗版源地址数据库和盗版下载地址数据库,分别用于将文件DNA及文件名称添加到盗版多媒体文件DNA数据库之后,存储盗版多媒体文件中的数据包的源IP地址和目的IP地址;
上述方法中,进一步包括建立多媒体网站热度数据库;
上述方法中,进一步包括建立P2P热度数据库。
步骤102:将捕获到的网络数据包解析成具有有效载荷的格式,提取多媒体格式的数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库相应文件的传播热度;
具体步骤如图3所示,包括:
步骤301:在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络中的原始数据包;
步骤302:按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式,从有效载荷中利用特征字段检测是否为多媒体格式数据包,如果是多媒体数据包则执行步骤303,否则结束本次流程;
步骤303:提取数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中相应文件的传播热度;
具体的,提取多媒体格式的数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,由于此时提取的文件DNA为一个数据包有效载荷中的文件DNA,在与多媒体文件DNA数据库中的文件DNA进行匹配时,按照提取的文件DNA的字符串长度与多媒体文件DNA数据库中的文件DNA逐段进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名称,更新多媒体文件热度数据库中该文件的传播热度;在匹配失败时,不更新多媒体文件热度数据库;
进一步的,本步骤还包括在建立了盗版多媒体文件DNA数据库、且提取的数据包的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将提取的数据包的文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度;在匹配失败时,不更新多媒体文件热度数据库;
进一步的,本步骤还包括在建立了多媒体网站热度数据库时,在提取的数据包的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取匹配成功的文件DNA的文件名称,检验有效载荷中是否携带URL地址,如果携带,则更新多媒体网站热度数据库中该文件名称对应的URL地址的热度,否则不进行更新。其中,当多媒体网站热度数据库中没有该文件名称时,将该文件名称及URL地址添加到多媒体网站热度数据库,并设置初始热度;
进一步的,本步骤还包括在建立了P2P热度数据库时,在提取的数据包的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取匹配成功的文件DNA的文件名称,检验有效载荷中是否携带P2P特征字段,如果携带,则更新P2P热度数据库中该文件名称对应的P2P的热度,否则不进行更新。其中,当P2P热度数据库中没有该文件名称时,将该文件名称及P2P类型添加到P2P热度数据库,并设置初始热度。所述P2P热度包括BitTorrent协议热度、Edonkey协议热度等,
基于上述方法,本发明还提供了一种多媒体文件分级的装置,如图4所示,该装置包括:数据库建立模块41、分级模块42;其中,
数据库建立模块41,用于建立多媒体文件DNA数据库和多媒体文件热度数据库;
分级模块42,用于将捕获到的网络数据包解析成具有有效载荷的格式,提取多媒体格式的数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度;所述具有有效载荷的格式具体可以为“到达时间+包头信息+有效载荷”的格式;
所述数据库建立模块41包括:数据库设置模块411、第一数据包捕获模块412、第一解析模块413、第一多媒体格式检测模块414、多媒体文件复原模块415、第一文件DNA提取模块416、第一匹配模块417;其中,
数据库设置模块411,用于设置用于存储文件DNA的多媒体文件DNA数据库和用于存储多媒体文件热度的多媒体文件热度数据库;
第一数据包捕获模块412,用于在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络中的原始数据包;
第一解析模块413,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式;
第一多媒体格式检测模块414,用于从有效载荷中利用特征字段检测是否为多媒体格式数据包,在为多媒体格式数据包时,通知多媒体文件复原模块415;在不为多媒体格式数据包时,结束本次流程;
多媒体文件复原模块415,用于提取数据包包头信息中的源IP地址和目的IP地址,存储经过网关的与提取的源IP地址、目的IP地址相同的数据包,当捕获到的源IP地址、目的IP地址之间数据包的包头信息携带TCP拆除连接信息时,根据数据包的到达时间和包头信息将多媒体格式的数据包的有效载荷组合为多媒体文件;
第一文件DNA提取模块416,用于提取多媒体文件的文件DNA;
第一匹配模块417,用于将第一文件DNA提取模块416提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将文件DNA及文件名称添加到多媒体文件DNA数据库中,并将文件名称添加到多媒体文件热度数据库,设置初始热度;在匹配成功时,结束本次流程;
所述数据库设置模块411进一步用于预先设置用于存储盗版多媒体文件DNA的盗版多媒体文件DNA的数据库;
所述第一匹配模块417进一步用于在用户判断传输的多媒体文件为盗版文件时,将第一文件DNA提取模块416提取的文件DNA与盗版多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;在匹配成功时,结束本次流程;
所述数据库设置模块411进一步还用于建立盗版源地址数据库和盗版下载地址数据库,分别在将文件DNA及文件名称添加到盗版多媒体文件DNA数据库之后,存储盗版多媒体文件中的数据包的源IP地址和目的IP地址;
所述数据库设置模块411进一步还用于建立多媒体网站热度数据库和/或P2P热度数据库;
所述分级模块42包括:第二数据包捕获模块421、第二解析模块422、第二多媒体格式检测模块423、第二文件DNA提取模块424、第二匹配模块425、更新热度模块426;其中,
第二数据包捕获模块421,用于在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络中的原始数据包;
第二解析模块422,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式;
第二多媒体格式检测模块423,用于从有效载荷中利用特征字段检测是否为多媒体格式数据包,在为多媒体格式数据包时,通知第二文件DNA提取模块424;在不为多媒体格式数据包时,结束本次流程;
第二文件DNA提取模块424,用于提取数据包有效载荷中的文件DNA;
第二匹配模块425,用于将第二文件DNA提取模块424提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名称,通知更新热度模块426按照文件名称更新多媒体文件热度数据库;在匹配失败时,不通知更新热度模块;
更新热度模块426,用于根据第二匹配模块425的按照文件名称更新多媒体文件热度数据库的通知,更新多媒体文件热度数据库中该文件的传播热度;
所述第二匹配模块425进一步用于在建立了盗版多媒体文件DNA数据库、且第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名称,通知更新热度模块426按照文件名称更新多媒体文件热度数据库;在匹配失败时,不通知更新热度模块426;
所述第二匹配模块425进一步还用于在建立了多媒体网站热度数据库时,在第二文件DNA提取模块424提取的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称,检验有效载荷中是否携带URL地址,如果携带,则通知更新热度模块426更新多媒体网站热度数据库中该文件名称对应的URL地址的热度,不通知更新热度模块426。
相应的,所述更新热度模块426进一步用于根据第二匹配模块425的通知,更新多媒体网站热度数据库中该文件名称对应的URL地址的热度;其中,当多媒体网站热度数据库中没有该文件名称时,将该文件名称及URL地址添加到多媒体网站热度数据库,并设置初始热度。
所述第二匹配模块425进一步还用于在建立了P2P热度数据库时,在第二文件DNA提取模块424提取的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称,检验有效载荷中是否携带P2P特征字段,如果携带,则通知更新热度模块426更新P2P热度数据库中该文件名称对应的P2P的热度,否则不通知更新热度模块426。
相应的,所述更新热度模块426进一步用于根据第二匹配模块425的通知,更新P2P热度数据库中该文件名称对应的P2P的热度;其中,当P2P热度数据库中没有该文件名称时,将该文件名称及P2P类型添加到P2P热度数据库,并设置初始热度。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种实现多媒体文件分级的方法,其特征在于,该方法包括:
建立多媒体文件DNA数据库和多媒体文件热度数据库;
将捕获到的网络数据包解析成具有有效载荷的格式;
提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。
2.根据权利要求1所述的方法,其特征在于,所述建立多媒体文件DNA数据库和多媒体文件热度数据库具体为:设置多媒体文件DNA数据库和多媒体文件热度数据库,将捕获到的数据包解析成“到达时间+包头信息+有效载荷”的格式,根据数据包的到达时间和包头信息将数据包的有效载荷组合为多媒体文件,提取多媒体文件的文件DNA,与多媒体文件DNA数据库进行匹配,将匹配失败的文件DNA及文件名称添加到多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度。
3.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立盗版多媒体文件DNA数据库,具体为:预先设置盗版多媒体文件DNA的数据库,在提取多媒体文件的文件DNA之后,用户判断传输的多媒体文件为盗版文件时,将提取的文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;
该方法进一步包括建立盗版源地址数据库和盗版下载地址数据库,分别用于存储盗版多媒体文件中的数据包的源IP地址和目的IP地址。
4.根据权利要求1至3任一所述的方法,其特征在于,该方法进一步包括:建立多媒体网站热度数据库和/或P2P热度数据库;在提取的数据包的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称,根据有效载荷中携带有URL地址和/或P2P特征字段,相应更新多媒体网站热度数据库和/或P2P热度数据库。
5.根据权利要求3所述的方法,其特征在于,该方法进一步包括:在建立了盗版多媒体文件DNA数据库、且提取的数据包的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。
6.一种实现多媒体文件分级的装置,其特征在于,该装置包括:数据库建立模块、分级模块;其中,
数据库建立模块,用于建立多媒体文件DNA数据库和多媒体文件热度数据库;
分级模块,用于将捕获到的网络数据包解析成具有有效载荷的格式,提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。
7.根据权利要求6所述的装置,其特征在于,所述数据库建立模块包括:数据库设置模块、第一数据包捕获模块、第一解析模块、第一多媒体格式检测模块、多媒体文件复原模块、第一文件DNA提取模块、第一匹配模块;其中,
数据库设置模块,用于设置用于存储文件DNA的多媒体文件DNA数据库和用于存储多媒体文件热度的多媒体文件热度数据库;
第一数据包捕获模块,用于在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络中的原始数据包;
第一解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式;
第一多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数据包时,通知多媒体文件复原模块;
多媒体文件复原模块,用于提取数据包包头信息中的源IP地址和目的IP地址,存储经过网关的与提取的源IP地址、目的IP地址相同的数据包,根据数据包的到达时间和包头信息将多媒体格式的数据包的有效载荷组合为多媒体文件;
第一文件DNA提取模块,用于提取多媒体文件的文件DNA;
第一匹配模块,用于将第一文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将文件DNA及文件名称添加到多媒体文件DNA数据库中,并将文件名称添加到多媒体文件热度数据库,设置初始热度;
所述分级模块包括:第二数据包捕获模块、第二解析模块、第二多媒体格式检测模块、第二文件DNA提取模块、第二匹配模块、更新热度模块;其中,
第二数据包捕获模块,用于从网卡捕获网络中的原始数据包;
第二解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+包头信息+有效载荷”的格式;
第二多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数据包时,通知第二文件DNA提取模块;
第二文件DNA提取模块,用于提取数据包有效载荷中的文件DNA;
第二匹配模块,用于将第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名称,通知更新热度模块按照文件名称更新多媒体文件热度数据库;
更新热度模块,用于根据匹配模块的按照文件名称更新多媒体文件热度数据库的通知,更新多媒体文件热度数据库中该文件的传播热度。
8.根据权利要求7所述的装置,其特征在于,所述数据库设置模块进一步用于预先设置盗版多媒体文件DNA的数据库;
所述第一匹配模块进一步用于在用户判断传输的多媒体文件为盗版文件时,将第一文件DNA提取模块提取的文件DNA与盗版多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;
所述数据库设置模块进一步还用于建立盗版源地址数据库和盗版下载地址数据库,分别存储盗版多媒体文件中的数据包的源IP地址和目的IP地址。
9.根据权利要求8所述的装置,其特征在于,所述第二匹配模块进一步用于在建立了盗版多媒体文件DNA数据库、且第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,读取文件名称,通知更新热度模块按照文件名称更新多媒体文件热度数据库。
10.根据权利要求7至9任一所述的装置,其特征在于,所述数据库设置模块进一步还用于建立多媒体网站热度数据库和/或P2P热度数据库;
所述第二匹配模块,进一步还用于在第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称,根据有效载荷中携带有URL地址和/或P2P特征字段,相应通知更新热度模块更新多媒体网站热度数据库和/或P2P热度数据库;
相应的,所述更新热度模块进一步用于根据第二匹配模块的通知,更新多媒体网站热度数据库和/或P2P热度数据库。
CN201010103525.XA 2010-02-01 2010-02-01 一种实现多媒体文件分级的方法和装置 Expired - Fee Related CN102143120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010103525.XA CN102143120B (zh) 2010-02-01 2010-02-01 一种实现多媒体文件分级的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010103525.XA CN102143120B (zh) 2010-02-01 2010-02-01 一种实现多媒体文件分级的方法和装置

Publications (2)

Publication Number Publication Date
CN102143120A true CN102143120A (zh) 2011-08-03
CN102143120B CN102143120B (zh) 2015-07-22

Family

ID=44410348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010103525.XA Expired - Fee Related CN102143120B (zh) 2010-02-01 2010-02-01 一种实现多媒体文件分级的方法和装置

Country Status (1)

Country Link
CN (1) CN102143120B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312770B (zh) * 2013-04-19 2017-05-03 无锡成电科大科技发展有限公司 一种云平台资源审核的方法
CN112633313A (zh) * 2020-10-13 2021-04-09 北京匠数科技有限公司 一种网络终端的不良信息识别方法及局域网终端设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129140A1 (en) * 2001-03-12 2002-09-12 Ariel Peled System and method for monitoring unauthorized transport of digital content
CN1484150A (zh) * 2002-09-17 2004-03-24 陈朝江 一种流媒体数据管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129140A1 (en) * 2001-03-12 2002-09-12 Ariel Peled System and method for monitoring unauthorized transport of digital content
CN1484150A (zh) * 2002-09-17 2004-03-24 陈朝江 一种流媒体数据管理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312770B (zh) * 2013-04-19 2017-05-03 无锡成电科大科技发展有限公司 一种云平台资源审核的方法
CN112633313A (zh) * 2020-10-13 2021-04-09 北京匠数科技有限公司 一种网络终端的不良信息识别方法及局域网终端设备
CN112633313B (zh) * 2020-10-13 2021-12-03 北京匠数科技有限公司 一种网络终端的不良信息识别方法及局域网终端设备

Also Published As

Publication number Publication date
CN102143120B (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN101977235B (zh) 一种针对https加密网站访问的网址过滤方法
CN103281213B (zh) 一种网络流量内容提取和分析检索方法
CN102045305B (zh) 一种多媒体资源传播的监测追踪方法和系统
CN103825887B (zh) 基于https加密的网站过滤方法和系统
Zhang et al. Breaking into the vault: Privacy, security and forensic analysis of Android vault applications
CN101895516B (zh) 一种跨站脚本攻击源的定位方法及装置
CN101639880A (zh) 一种文件检测方法和装置
CN103297270A (zh) 应用类型识别方法及网络设备
CN102129528A (zh) 一种web网页篡改识别方法及系统
CN102957705B (zh) 一种网页篡改防护的方法及装置
CN104253785B (zh) 危险网址识别方法、装置及系统
JP2012014667A (ja) ウェブアプリケーション攻撃の検知方法
CN103401850A (zh) 一种报文过滤方法及装置
CN103532944A (zh) 一种捕获未知攻击的方法和装置
CN103209170A (zh) 文件类型识别方法及识别系统
CN103093128A (zh) 一种嵌入式终端软件防复制抄袭的方法
CN109474485A (zh) 基于网络流量信息检测僵尸网络的方法、系统及存储介质
CN102801698A (zh) 一种基于url请求时序的恶意代码检测方法和系统
CN104320378B (zh) 拦截网页数据的方法及系统
CN103067389B (zh) 基于短网址的高安全性文件传输方法
CN101212485A (zh) 一种获取流媒体链接地址的方法
CN102143120B (zh) 一种实现多媒体文件分级的方法和装置
JP2009044665A (ja) 通信装置を制御するプログラム及び通信装置
CN111083307A (zh) 一种基于隐写术的文件检测和破解方法
CN103425930B (zh) 一种在线实时脚本检测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20180201

CF01 Termination of patent right due to non-payment of annual fee