CN101853300A - 一种视频下载服务网站的识别、评估方法及系统 - Google Patents

一种视频下载服务网站的识别、评估方法及系统 Download PDF

Info

Publication number
CN101853300A
CN101853300A CN201010186795A CN201010186795A CN101853300A CN 101853300 A CN101853300 A CN 101853300A CN 201010186795 A CN201010186795 A CN 201010186795A CN 201010186795 A CN201010186795 A CN 201010186795A CN 101853300 A CN101853300 A CN 101853300A
Authority
CN
China
Prior art keywords
video
website
url
information
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010186795A
Other languages
English (en)
Other versions
CN101853300B (zh
Inventor
刘锐
朱明�
易荣峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN2010101867951A priority Critical patent/CN101853300B/zh
Publication of CN101853300A publication Critical patent/CN101853300A/zh
Application granted granted Critical
Publication of CN101853300B publication Critical patent/CN101853300B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供了一种视频下载服务网站的识别、评估方法及系统,首先获取需要处理的目标网站首页的URL列表,并调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页;然后识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;若识别该网站为视频下载服务网站且为初次访问,则对该网站的评估;然后再抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,用来反馈指导网站识别和评估,同时更新规则数据库。这样就能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。

Description

一种视频下载服务网站的识别、评估方法及系统
技术领域
本发明涉及网络通信领域,尤其涉及一种视频下载服务网站的识别、评估方法及系统。
背景技术
目前,随着多媒体技术的发展,越来越多的网站开始提供视频下载服务,由于多媒体具有携带海量信息、版权特征明显、健康度对社会影响广泛等特点,如何自动识别出网络中提供视频下载服务的网站、跟踪该网站更新的内容,并对相应网站的健康度进行评估,对于保护多媒体版权和构建健康网络等都有着重要意义。
在现有的网络信息处理领域中,已有较为成熟的信息抽取和内容主题识别技术,所述的信息抽取技术主要包括:自适应的网页元数据抽取方法,结合加权树匹配与抽取模式的聚合;模板生成网页的数据自动抽取方法,利用检测出的模板自动地从实例网页中抽取数据;以及基于样本的互联网结构化数据抽取方法,用于实现快速自动抽取互联网结构化数据。
所述的内容主题识别技术主要是基于统计的方法、基于知识的方法或结合两者混合的方法。具体来说,基于统计的方法主要是利用特征项的频率、位置特征的共现信息等,其中没有利用额外的知识库,例如机器可读词典等;基于知识的方法主要依赖于句法/语义分析器,采用的知识库包括脚步机器可读词典等,其中没有利用任何语料库统计技术;而两者结合的方法可以综合表现出两者的优势。
但在现有技术方案中,信息抽取技术和内容主题识别技术是相互独立工作的,现有技术中也缺乏一个有效专用的对视频下载服务网站进行识别和评估的方法。
发明内容
本发明实施例提供了一种视频下载服务网站的识别、评估方法及系统,能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
本发明实施例提供了一种视频下载服务网站的识别、评估方法,所述方法包括:
获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页;
通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;
利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,同时更新所述规则数据库。
本发明还提供了一种视频下载服务网站的识别、评估系统,所述系统包括:
网页采集模块,用于获取需要处理的目标网站首页的统一资源定位符URL列表,并根据所获取的URL列表来采集所述目标网站的网页;
识别模块,用于通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
评估模块,用于在所述识别模块识别该网站为视频下载服务网站且为初次访问,利用所述视频信息数据库中的视频信息对所述网站进行关键词匹配,完成对该网站的评估;
信息抽取模块,用于利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中。
由上述所提供的技术方案可以看出,首先获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块根据所获取的URL列表来采集所述目标网站的网页;通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中。通过以上技术方案,就能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
附图说明
图1为本发明实施例所提供视频下载服务网站的识别、评估方法的流程示意图;
图2为本发明实施例所提供视频下载服务网站的识别、评估系统的结构示意图。
具体实施方式
本发明实施例提供了一种视频下载服务网站的识别、评估方法及系统,能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
为更好的描述本发明实施方式,现结合附图对本发明的具体实施例进行说明,如图1所示为本发明实施例所提供视频下载服务网站的识别、评估方法的流程示意图,图中包括:
步骤11:获取需要处理的目标网站首页的URL列表,即首页地址列表。
在该步骤中,首先获取需要处理的目标网站首页URL列表文件。在具体实现过程中,还可以进一步初始化系统各模块的阈值和视频信息数据库中的视频标题、评估关键词数据库等。
步骤12:调用网页采集模块,根据规则数据库中的采集规则采集所述目标网站的网页。
在该步骤中,在获取到需要处理的目标网站首页URL列表文件之后,就可以调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页。
在具体实现过程中,所述规则数据库所制定的采集规则具体为视频服务页面的URL特征,用于协助所述网页采集模块维护相应的URL列表。
所述网页采集模块根据所获取的URL列表来采集所述目标网站网页的具体过程如下所示,当然本领域技术人员还能够根据下述方案提出其他修改或变化,这些修改或变化均应包含在本发明的包含范围之内:
首先,访问目标网站首页,设定当前首页的深度值为0,其本身为父URL节点。
然后,获取所述首页中指向站内(即同域名)的所有网页地址,为方便说明,记其中任一网页地址为URL1,下标表示深度值为1,标记为所述首页的子URL节点,并存入队列中。
若预先制定的视频服务版块的定位规则非空,则将所述定位规则所对应的视频服务版块的URL集合加入到队列的尾部,并设置其深度值为0,且其本身为父URL节点;这里,所述预先制定的视频服务版块的定位规则包括一系列URL集合,用来定位当前网站的视频服务版块;其中,每个版块包括多个视频服务子页面,用于协助所述网页采集模块维护相应的URL列表。
记当前访问的深度为i,网页地址为URLi,若预先制定的网页采集规则非空,则根据所述网页采集规则调整所述URL列表,将当前访问网页中包含所述URL特征的所有网页地址(即由深度为i+1的网页地址URLi+1组成)优先加入到队列尾部,否则将所有的URLi+1按获取顺序加入到队列尾部。
再依次从队列首部取出深度值为i的网页地址URLi,下载相应的页面,获取该页面中指向站内的所有网页地址URLi+1(深度值为i+1),构建由对应页面及其父节点与子节点组成的链表<URLi-1,URLi,URLi+1>。
若有m个(m<=i)为视频服务页面,且非首页子节点,则标记父节点URLi-1(深度值为i-1的网页地址)的视频权系数为m,即<URLi-1,m>,表示网页地址为URLi-1的网页中包含m个视频服务页面URL。
循环访问直至到达预先指定的深度阈值,并存储所有视频权系数m大于预先指定阈值的URL列表到所述视频服务版块定位规则中。
步骤13:识别是否为提供视频下载服务的网站。
在该步骤中,具体可以通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中。
举例来说,识别是否为提供视频下载服务的网站的具体过程如下所示,当然本领域技术人员还能够根据下述方案提出其他修改或变化,这些修改或变化均应包含在本发明的包含范围之内:
首先,利用关联分析器,输入在评估关键词数据库中所设定的健康类关键词,进行所述目标网站网页与视频下载服务主题关联度的分析处理,若满足预先制定的阈值条件,则继续进行后继的处理。
然后通过调用深度URL探测器,识别视频下载地址的URL并对其进行深度URL探测,若探测得到所述目标网站网页存在与视频下载相关的关键字段,则标记所述目标网站网页为提供视频下载服务的页面。
再将解析获取的下载文件名(不含扩展名)作为视频标题存储至预先建立的视频信息数据库中,并更新所述视频最近发现的时间。
另外,在利用关联分析器的过程中,若关联分析器输入为视频信息数据库的评估关键词数据库中的健康类关键词,则其功能为统计分析目标页面所含信息与视频主题的关联度,识别出可能提供视频服务的页面;若输入视频信息数据库的评估关键词数据库中的不良类关键词,则其功能为统计分析目标页面所含信息与不良信息的关联度,识别出可能提供不良视频下载服务的页面,具体来说包括:
1)调用输入的所述评估关键词数据库,根据关键词出现频度Fi,赋予关键词Ki不同权值 W i = F i / &Sigma; 1 N F k ;
2)用关键词分别匹配目标页面,若目标页面出现关键词Kj,则记录Wj
3)统计页面包含的所有关键词所对应的权值和,即∑Wj,若在指定阈值范围内Vmin<∑Wj<Vmax,其中Vmin、Vmax分别为根据经验预先指定的最小最大常数阈值,则判定该页面分析成功,否则结束。
另外,深度URL探测器用于对URL进行深度探测,甄别出真实下载地址,探测视频相关信息如视频标题、视频格式等,具体可包含以下步骤:
a)获取分析对象,包括页面内所有URL,视频摘要信息的XML文档元素路径xpath内URL对应子页面内的所有URL;
b)若存在URL包含“thunder://”、“flashget://”、“ed2k://”、“bc://”等等类似关键字段,则判定URL为一类下载地址,调用相应下载工具解析该URL(或者利用base64编解码将其转换成其他类下载地址后解析)来获取视频标题等信息,若探测成功,则结束;否则执行c;
c)若存在URL包含“down”、“tid”、“aid”、“attachment”、“.torrent”等等类似关键字段,则判定URL为二类下载地址,将其存储至队列中,顺序取出并发起连接请求,解析HTTP响应消息的报头域,获取Content-Disposition中的filename键值,若发现键值包含“.torrent”则读取URL对应torrent种子文件,则执行d;否则尝试队列所有成员,若仍未发现,则执行e;
d)解析种子文件内容,利用视频常见扩展名如“.rmvb”、“.avi”、“.mkv”、“.wmv”等等定位下载文件名,截取英文冒号“:”和扩展名之间部分,获取视频标题等信息,探测成功,则结束;
e)若存在URL包含“hash”,且域名指向站外,则判定URL为三类下载地址,调用IE浏览器的COM(通信对象模型)接口打开网站并定位种子下载的提交表单,定位提交按钮并模拟点击,读取torrent种子文件,返回上一步;
f)若存在URL包含“.avi”、“.mkv”、“.rmvb”、“ftp://”等等类似关键字段,则判定URL为四类下载地址,截取最后一个位置分隔符“/”之后部分(不含分隔符与扩展名),获取视频标题等信息,探测成功,则结束;
g)若仍未获取视频标题信息,则获取页面标题TITLE,若包含目标站点名称,则除去站点名部分;若包含空格符,则由空格符将TITLE截成多段,从左至右合并分段直至字符串长超过TITLE长一半,将此合并部分作为视频标题。
通过上述的过程,就可以甄别出真实下载地址,探测视频相关信息如视频标题、视频格式等视频信息。
另外,在本发明实施例中,一类下载地址为关联P2P下载软件如迅雷、快车等的下载地址,可由P2P软件解析并完成下载任务;二类下载地址为种子下载地址,地址对应为位于目标网站后台服务器上的种子文件;三类下载地址也为种子下载地址,区别所述二类下载地址的是地址对应为第三方网站服务器上的种子文件;四类下载地址为视频文件下载地址,地址对应为位于目标网站或者第三方网站后台服务器上的视频文件。
步骤14:若识别该网站为视频下载服务网站且为初次访问,则对目标网站进行评估。
在该步骤中,具体可以先判断评估触发器是否触发,若触发则认为该网站为视频下载服务网站,然后再进入后续处理;否则若在网页采集模块到达指定深度或者URL数时仍未触发,则认为该网站不提供视频下载服务,则结束对该网站的后续处理过程。
若认为该网站为视频下载服务网站,则再进一步判断目标网站是否为初次访问,若为初次访问,则进入后续处理,对目标网站进行评估。
在具体实现过程中,可以利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估,具体过程包括:
利用关联分析器,输入在评估关键词数据库中所设定的不良类关键词,识别出提供不良视频下载服务的页面;利用随机相关匹配模块,检测所述目标网站所提供下载的视频与所述视频信息数据库中历史站点视频的相关度,并返回相匹配的视频标题数;利用综合判定模块,根据所述关联分析器和所述随机相关匹配模块所返回的结果来综合判定所述目标网站的性质,完成对该网站的评估。
举例来说,本发明实施例中的随机相关匹配模块,用来统计目标网站提供下载的视频与已有数据库中的健康/不良类视频匹配数量,为了提高匹配速度和效率,匹配时仅考虑与所述新站点视频标题的所述视频最近发现时间相差不超过时间阈值T(如一周或者一个月)的所述历史站点视频标题,具体包含以下执行步骤:
a)初始化健康视频标题匹配数AM=0,不良视频标题匹配数BM=0;
b)随机抽取N条(如10至100条)所述新站点视频标题,调用开源的字符串相关度分析算法,
c)分别依次将其与所述历史站点视频标题(健康类)进行相关度判断,若二者相关则该条匹配成功,AM++;
d)分别依次将其与所述历史站点视频标题(不良类)进行相关度判断,若二者相关则该条匹配成功,BM++;
e)返回AM值,BM值。
本发明实施例中的综合判定模块,根据关联分析器和随机相关匹配模块返回的结果来对网站进行评估,具体包含以下步骤:
a)首先若触发器触发,则判断该网站为提供视频下载服务网站,则定义等级为0;
b)等级为0时,对于输入为不良类评估关键词数据库的关联分析器,取各页面所有关键词所对应的权值和的最大值,即W=Max{∑Wj},若W大于指定阈值,则判断该网站为可能提供不良视频下载服务网站,则定义等级升为1;
c)等级大于等于0时,若随机相关匹配模块返回的AM值大于指定阈值,则判断该网站为提供不良视频下载服务网站,则定义等级升为2;
d)等级大于等于0时,若随机相关匹配模块返回的BM值大于指定阈值,则判断该网站为提供不良视频下载服务网站,则定义等级升为3;
e)重新标记该站点为历史站点,新站点视频信息数据库将对应重标记为所述历史站点视频信息数据库,若等级为0,则标记为健康类,若等级为2或3,则标记为不良类。
步骤15:抽取所述目标网站中视频的相关信息,更新视频信息数据库和规则数据库。
在该步骤中,所述预先制定的信息抽取规则为视频信息所在的XML文档元素路径xpath,用于指导视频信息的抽取。
在具体实现过程中,用于信息抽取的信息抽取模块可以包括xpath生成器、抽取器和校验器,具体可以包含下列处理过程:
首先,若所述目标网站对应的信息抽取规则为空,则调用XML文档元素路径xpath生成器,生成视频摘要信息所在xpath,同时添加该xpath到预先制定的信息抽取规则,更新所述规则数据库;
然后调用抽取器,按所述预先制定的信息抽取规则对所述目标网站的页面进行视频摘要信息抽取。
再调用校验器,校验所述抽取器所抽取的信息,若校验通过,则保存抽取的视频摘要信息和下载地址至所述视频信息数据库;否则,继续进行视频摘要信息抽取。本发明实施例中的校验器可用于校验所述抽取器抽取的视频摘要信息,若抽取信息过短(小于50字节)或者与视频主题的关联度不在指定阈值范围内,则校验不通过,否则称其为通过校验。
另外,若所有预先制定的信息抽取规则访问完毕时仍无信息通过校验,则调用所述xpath生成器获取视频摘要信息所在xpath,并抽取相应的视频摘要信息,再利用所述校验器进行校验,若校验不通过则放弃抽取过程并结束;否则添加该xpath至所述预先制定的信息抽取规则中,更新所述规则数据库。
下面以一个具体的例子来详细描述xpath生成器是如何生成视频摘要信息所在xpath的,本领域技术人员应理解以下所述仅仅是示意性的例子,并不限制本发明的范围:
利用开源程序DOM4J将页面源文件转换成DOM,清洗页面除去如字体等仅用于显示的无关节点,调用健康类评估关键词数据库,为叙述方便设数据库为四个词“译名、片名、年代、导演”;然后分别得到如“译名、片名、年代、导演”关键词对应的xpath,统计分析所有xpath,取路径最大公共部分的父节点,如下:
/HTML[1]/BODY[1]/DIV[3]/DIV[3]/FORM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/DIV[3]/DIV[3]/FONT[1]/text()[26]
/HTML[1]/BODY[1]/DIV[3]/DIV[3]/FORM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/DIV[3]/DIV[3]/FONT[1]/text()[30]
/HTML[1]/BODY[1]/DIV[3]/DIV[3]/FORM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/DIV[3]/DIV[3]/FONT[1]/text()[32]
/HTML[1]/BODY[1]/DIV[3]/DIV[3]/FORM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/DIV[3]/DIV[3]/FONT[3]/text()[30]
其中最大公共部分获取方法为将/…/中视为一个节点,统计各路径相同位置节点出现频率,若节点出现频率大于关键词数量一半以上,则取出,否则无节点满足条件在该处停止。故取出公共部分直到FONT[1],再取父节点DIV[3],则得到路径:
/HTML[1]/BODY[1]/DIV[3]/DIV[3]/FORM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/DIV[3]/DIV[3]
该路径下所有text节点内容即为所需信息,即成功生成视频摘要信息所在xpath。
这样,通过以上技术方案的实施,就可以准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
本发明实施例还提供了一种视频下载服务网站的识别、评估系统,如图2所示为本发明实施例所提供系统的结构示意图,所述系统包括:
网页采集模块201,用于获取需要处理的目标网站首页的URL列表,并根据所获取的URL列表来采集所述目标网站的网页;
识别模块202,用于通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
评估模块203,用于在所述识别模块202识别该网站为视频下载服务网站且为初次访问,利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;
信息抽取模块204,用于利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中。
所述系统还可包括:
系统调度模块205,用于调度系统的运行,协调所述系统各个模块的操作;
规则数据库206,用于指导所述网页采集模块201、所述信息抽取模块204和所述识别模块202的运作;
视频信息数据库207,用于存储利用所述信息抽取模块204所获取到的视频相关信息,实现内容跟踪,并指导所述评估模块203完成对网站的评估。
另外,所述视频信息数据库207中还可包括:
新站点视频信息数据库2071,用来描述初次访问的新站点,具体包括视频摘要信息、视频标题、视频最近发现时间和视频服务页面URL;
历史站点视频信息数据库2072,分为健康和不良两种类型,用来描述历史访问站点,具体包括视频摘要信息、视频标题、视频最近发现时间、视频服务页面URL;
评估关键词数据库2073,分为健康和不良两种类型,用来辅助识别视频下载服务网站,以及评估目标网站的健康度;其中,所述评估关键词数据库的初始化可采用手工生成,或由所述历史站点视频信息数据库来生成与更新。
值得注意的是,上述系统实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
综上所述,本发明具体实施例可以准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种视频下载服务网站的识别、评估方法,其特征在于,所述方法包括:
获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页;
通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;
利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,同时更新所述规则数据库。
2.如权利要求1所述的方法,其特征在于,所述调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页,具体过程为:
访问目标网站首页,设定当前首页的深度值为0,其父URL节点为本身;
获取所述首页中指向站内的所有URL1,标记为所述首页的子URL节点,深度值为1,并存入队列中;
若预先制定的视频服务版块的定位规则非空,则将所述定位规则所对应的视频服务版块的URL集合加入到队列的尾部,并设置其深度值为0,且其本身为父URL节点;
若预先制定的网页采集规则非空,则根据所述网页采集规则调整所述URL列表,将包含所述URL特征的URLi+1优先加入到队列尾部,否则将所有的URLi+1按获取顺序加入到队列尾部,其中,所述URL特征为URL字符串中去除数字与哈希HASH码后的剩余部分;
依次从队列首部取出URLi,设定其深度值为i,并下载相应的页面,获取该页面中指向站内的所有URLi+1,标记深度值为i+1,构建由对应页面及其父节点与子节点组成的链表<URLi-1,URLi,URLi+1>;
若有m个(m<=i)为视频服务页面,且为非首页子节点,则标记父节点URLi-1的视频权系数为m,即<URLi-1,m>;
循环访问直至到达预先指定的深度阈值,并存储所有视频权系数m大于预先指定阈值的URL列表到所述视频服务版块定位规则中。
3.如权利要求1所述的方法,其特征在于,所述通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,具体包括:
利用关联分析器,输入在评估关键词数据库中所设定的健康类关键词,进行所述目标网站网页与视频下载服务主题关联度的分析处理,若满足预先制定的阈值条件,则继续进行后继的处理;
通过调用深度URL探测器,识别视频下载地址的URL并对其进行深度URL探测,若探测得到所述目标网站网页存在与视频下载相关的关键字段,则标记所述目标网站网页为提供视频下载服务的页面。
4.如权利要求1所述的方法,其特征在于,所述利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估,具体包括:
利用关联分析器,输入在评估关键词数据库中所设定的不良类关键词,识别出提供不良视频下载服务的页面;
利用随机相关匹配模块,检测所述目标网站所提供下载的视频与所述视频信息数据库中历史站点视频的相关度,并返回相匹配的视频标题数;
利用综合判定模块,根据所述关联分析器和所述随机相关匹配模块所返回的结果来综合判定所述目标网站的性质,完成对该网站的评估。
5.如权利要求4所述的方法,其特征在于,所述根据所述关联分析器和所述随机相关匹配模块所返回的结果来综合判定所述目标网站的性质,完成对该网站的评估,具体包括:
若判断该网站为提供视频下载服务的网站,则定义等级为0;
当等级为0时,输入在评估关键词数据库中所设定的不良类关键词,若识别出该网站为提供不良视频下载服务的网站,则定义等级升为1;
当等级大于等于0时,若所述随机相关匹配模块返回的健康视频标题数大于预先指定的阈值,则进一步判断该网站为提供不良视频下载服务的网站,定义等级升为2;并且当所述随机相关匹配模块返回的不良视频标题数大于预先指定的另一阈值,则进一步判断该网站为提供不良视频下载服务网站,定义等级升为3。
6.如权利要求1所述的方法,其特征在于,所述利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,同时更新所述规则数据库,具体包括:
若所述目标网站对应的信息抽取规则为空,则调用XML文档元素路径xpath生成器,生成视频摘要信息所在xpath,同时添加该xpath到预先制定的信息抽取规则,更新所述规则数据库;
调用抽取器,按所述预先制定的信息抽取规则对所述目标网站的页面进行视频摘要信息抽取;
调用校验器,校验所述抽取器所抽取的信息,若校验通过,则保存抽取的视频摘要信息和下载地址至所述视频信息数据库;否则,继续进行视频摘要信息抽取;
若所有预先制定的信息抽取规则访问完毕时仍无信息通过校验,则调用所述xpath生成器获取视频摘要信息所在xpath,并抽取相应的视频摘要信息,再利用所述校验器进行校验,若校验不通过则放弃抽取过程并结束;否则添加该xpath至所述预先制定的信息抽取规则中,更新所述规则数据库。
7.如权利要求2所述的方法,其特征在于,
所述网页采集模块中包括的网页采集规则,具体为视频服务页面的URL特征,用于协助所述网页采集模块维护相应的URL列表;
所述预先制定的信息抽取规则为视频信息所在的XML文档元素路径xpath,用于指导视频信息的抽取;
所述预先制定的视频服务版块的定位规则包括一系列URL集合,用来定位当前网站的视频服务版块;其中,每个版块包括多个视频服务子页面,用于协助所述网页采集模块维护相应的URL列表。
8.一种视频下载服务网站的识别、评估系统,其特征在于,所述系统包括:
网页采集模块,用于获取需要处理的目标网站首页的统一资源定位符URL列表,并根据所获取的URL列表来采集所述目标网站的网页;
识别模块,用于通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
评估模块,用于在所述识别模块识别该网站为视频下载服务网站且为初次访问,利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;
信息抽取模块,用于利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中。
9.如权利要求8所述的系统,其特征在于,所述系统还包括:
系统调度模块,用于调度系统的运行,协调所述系统各个模块的操作;
规则数据库,包括网页采集规则,信息抽取规则和视频服务板块定位规则,用于指导所述网页采集模块、所述信息抽取模块和所述识别模块的运作;
视频信息数据库,用于存储利用所述信息抽取模块所获取到的视频相关信息,实现内容跟踪,并指导所述评估模块完成对网站的评估。
10.如权利要求9所述的系统,其特征在于,所述视频信息数据库中包括:
新站点视频信息数据库,用来描述初次访问的新站点,具体包括视频摘要信息、视频标题、视频最近发现时间和视频服务页面URL;
历史站点视频信息数据库,分为健康和不良两种类型,用来描述历史访问站点,具体包括视频摘要信息、视频标题、视频最近发现时间、视频服务页面URL;
评估关键词数据库,分为健康和不良两种类型,用来辅助识别视频下载服务网站,以及评估目标网站的健康度;其中,所述评估关键词数据库的初始化可采用手工生成,或由所述历史站点视频信息数据库来生成与更新。
CN2010101867951A 2010-05-26 2010-05-26 一种视频下载服务网站的识别、评估方法及系统 Expired - Fee Related CN101853300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101867951A CN101853300B (zh) 2010-05-26 2010-05-26 一种视频下载服务网站的识别、评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101867951A CN101853300B (zh) 2010-05-26 2010-05-26 一种视频下载服务网站的识别、评估方法及系统

Publications (2)

Publication Number Publication Date
CN101853300A true CN101853300A (zh) 2010-10-06
CN101853300B CN101853300B (zh) 2013-01-30

Family

ID=42804792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101867951A Expired - Fee Related CN101853300B (zh) 2010-05-26 2010-05-26 一种视频下载服务网站的识别、评估方法及系统

Country Status (1)

Country Link
CN (1) CN101853300B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102083100A (zh) * 2010-12-31 2011-06-01 百度在线网络技术(北京)有限公司 一种用于基于站点检测多个资源链接的状态的方法与设备
CN103473299A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN104811750A (zh) * 2014-01-23 2015-07-29 北京风行在线技术有限公司 一种在p2p的节点中用于播放视频的方法、装置和系统
CN104834639A (zh) * 2014-02-10 2015-08-12 腾讯科技(深圳)有限公司 一种数据交互方法、终端、服务器及数据交互系统
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置
CN105589945A (zh) * 2015-12-17 2016-05-18 华为技术有限公司 一种知识库构建方法、控制器
CN105635038A (zh) * 2014-10-27 2016-06-01 任子行网络技术股份有限公司 一种甄别音视频网站的方法及系统
CN105630942A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
WO2016095628A1 (zh) * 2014-12-18 2016-06-23 网宿科技股份有限公司 视频终端及其限制视频播放的方法和系统
CN105828189A (zh) * 2015-01-05 2016-08-03 任子行网络技术股份有限公司 一种多维度检测违规音视频节目的方法
CN105955980A (zh) * 2013-05-31 2016-09-21 北京奇虎科技有限公司 一种文件下载设备和方法
CN107766481A (zh) * 2017-10-13 2018-03-06 国家计算机网络与信息安全管理中心 一种发现互联网金融平台的方法和系统
CN108183831A (zh) * 2016-12-08 2018-06-19 中国移动通信有限公司研究院 一种p2p传输中的信息处理方法及装置
CN108664646A (zh) * 2018-05-16 2018-10-16 电子科技大学 一种基于关键字的音视频自动下载系统
CN109474847A (zh) * 2018-10-30 2019-03-15 百度在线网络技术(北京)有限公司 基于视频弹幕内容的搜索方法、装置、设备及存储介质
CN110020332A (zh) * 2017-07-25 2019-07-16 北京国双科技有限公司 一种基于圈选元素的事件生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042923A1 (en) * 1992-12-09 2002-04-11 Asmussen Michael L. Video and digital multimedia aggregator content suggestion engine
CN101025737A (zh) * 2006-02-22 2007-08-29 王东 基于关注度的同源信息搜索引擎聚合显示方法及相关系统
CN101599089A (zh) * 2009-07-17 2009-12-09 中国科学技术大学 视频服务网站内容更新信息的自动搜索与抽取系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042923A1 (en) * 1992-12-09 2002-04-11 Asmussen Michael L. Video and digital multimedia aggregator content suggestion engine
CN101025737A (zh) * 2006-02-22 2007-08-29 王东 基于关注度的同源信息搜索引擎聚合显示方法及相关系统
CN101599089A (zh) * 2009-07-17 2009-12-09 中国科学技术大学 视频服务网站内容更新信息的自动搜索与抽取系统及方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102083100B (zh) * 2010-12-31 2014-11-26 百度在线网络技术(北京)有限公司 一种用于基于站点检测多个资源链接的状态的方法与设备
CN102083100A (zh) * 2010-12-31 2011-06-01 百度在线网络技术(北京)有限公司 一种用于基于站点检测多个资源链接的状态的方法与设备
CN105955980A (zh) * 2013-05-31 2016-09-21 北京奇虎科技有限公司 一种文件下载设备和方法
CN103473299B (zh) * 2013-09-06 2017-02-08 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN103473299A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种网站不良似然度获取方法和装置
CN104811750A (zh) * 2014-01-23 2015-07-29 北京风行在线技术有限公司 一种在p2p的节点中用于播放视频的方法、装置和系统
CN104834639A (zh) * 2014-02-10 2015-08-12 腾讯科技(深圳)有限公司 一种数据交互方法、终端、服务器及数据交互系统
CN104834639B (zh) * 2014-02-10 2019-08-30 腾讯科技(深圳)有限公司 一种数据交互方法、终端、服务器及数据交互系统
CN105635038A (zh) * 2014-10-27 2016-06-01 任子行网络技术股份有限公司 一种甄别音视频网站的方法及系统
CN105635038B (zh) * 2014-10-27 2018-08-21 任子行网络技术股份有限公司 一种甄别音视频网站的方法及系统
WO2016095628A1 (zh) * 2014-12-18 2016-06-23 网宿科技股份有限公司 视频终端及其限制视频播放的方法和系统
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置
CN105828189A (zh) * 2015-01-05 2016-08-03 任子行网络技术股份有限公司 一种多维度检测违规音视频节目的方法
CN105828189B (zh) * 2015-01-05 2018-10-23 任子行网络技术股份有限公司 一种多维度检测违规音视频节目的方法
WO2017101591A1 (zh) * 2015-12-17 2017-06-22 华为技术有限公司 一种知识库构建方法、控制器
CN105589945A (zh) * 2015-12-17 2016-05-18 华为技术有限公司 一种知识库构建方法、控制器
CN105630942A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
CN105630942B (zh) * 2015-12-23 2019-05-21 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
CN108183831A (zh) * 2016-12-08 2018-06-19 中国移动通信有限公司研究院 一种p2p传输中的信息处理方法及装置
CN110020332A (zh) * 2017-07-25 2019-07-16 北京国双科技有限公司 一种基于圈选元素的事件生成方法及装置
CN107766481A (zh) * 2017-10-13 2018-03-06 国家计算机网络与信息安全管理中心 一种发现互联网金融平台的方法和系统
CN108664646A (zh) * 2018-05-16 2018-10-16 电子科技大学 一种基于关键字的音视频自动下载系统
CN109474847A (zh) * 2018-10-30 2019-03-15 百度在线网络技术(北京)有限公司 基于视频弹幕内容的搜索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101853300B (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
CN101853300B (zh) 一种视频下载服务网站的识别、评估方法及系统
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN106095979B (zh) Url合并处理方法和装置
CN1934569B (zh) 集成有用户注释的搜索系统和方法
CN105094890B (zh) 一种应用程序插件加载方法及装置
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN100514323C (zh) 用于自动提取副标题信息的系统和方法
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN107590169B (zh) 一种运营商网关数据的预处理方法及系统
CN104766014A (zh) 用于检测恶意网址的方法和系统
CN107257390B (zh) 一种url地址的解析方法和系统
CN102253937A (zh) 获取网页中的感兴趣信息的方法及相关装置
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN105577528B (zh) 一种基于虚拟机的微信公众号数据采集方法及装置
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
US11263062B2 (en) API mashup exploration and recommendation
CN104182412A (zh) 一种网页爬取方法及系统
CN103534696A (zh) 针对口语语言理解中的域检测利用查询点击记录
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN103294732A (zh) 网页抓取方法及爬虫
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN107862039A (zh) 网页数据获取方法、系统和数据匹配推送方法
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130130

Termination date: 20150526

EXPY Termination of patent right or utility model