CN101937469A - 视频网站的信息抓取方法 - Google Patents

视频网站的信息抓取方法 Download PDF

Info

Publication number
CN101937469A
CN101937469A CN 201010284859 CN201010284859A CN101937469A CN 101937469 A CN101937469 A CN 101937469A CN 201010284859 CN201010284859 CN 201010284859 CN 201010284859 A CN201010284859 A CN 201010284859A CN 101937469 A CN101937469 A CN 101937469A
Authority
CN
China
Prior art keywords
webpage
information
video website
asynchronous
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010284859
Other languages
English (en)
Other versions
CN101937469B (zh
Inventor
景晓军
沈智杰
殷廷圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN CITY RENZIXING NETWORK TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN CITY RENZIXING NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN CITY RENZIXING NETWORK TECHNOLOGY Co Ltd filed Critical SHENZHEN CITY RENZIXING NETWORK TECHNOLOGY Co Ltd
Priority to CN2010102848591A priority Critical patent/CN101937469B/zh
Publication of CN101937469A publication Critical patent/CN101937469A/zh
Application granted granted Critical
Publication of CN101937469B publication Critical patent/CN101937469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种视频网站的信息抓取方法,其中包括步骤:S1、抓取视频网站的网页的源文件;S2、针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;S3、根据所述定位结果,将所述网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;S4、根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中。采用本发明的视频网站的信息抓取方法可完整、方便的抓取视频网站中的全部视频信息,避免了现有的视频网站的信息抓取技术不能完整的获取视频网站节目的所有信息的缺陷。

Description

视频网站的信息抓取方法
技术领域
本发明涉及网络搜索技术领域,更具体地说,涉及一种用于获得视频网站中视频的详细信息的信息抓取方法。
背景技术
1994年基于WEB的搜索引擎出现以来,搜索引擎便得到了极大的发展。搜索引擎解决了海量互联网资源的快速定位和检索,在人们日常生活和工作中发挥了越来越大的作用。作为搜索引擎的重要一部分,网页信息抓取技术,即抓取技术的发展也是越来越成熟。在计算机领域,越来越多的网络抓取技术都以开源的方式提供给开发人员和企业应用,下面简要介绍几种目前比较流行的开源网络抓取技术。
Larbin:Larbin是一个开源的网络抓取技术,由法国人独立开发,目的是跟踪页面的URL进行扩展抓取,最后为搜索引擎提供数据来源。Larbin只抓取网页,不处理搜索引擎的其他解析、索引、检索工作。Larbin非常高效,一个简单的Larbin抓取每天可以获取500万网页。
Heritrix:Heritrix是SourceForge上的开源产品。Heritrix的特点是具有很好的扩展性,开发者可以根据自己的需要,扩展下载逻辑。抓取工具根据给定URL地址想网站提交HTTP请求,抓取网络资源,获取完整、及时的网站内容。通过分析已下载网页内的有效链接URL地址,进一步获取更多网络资源。Heritrix可以通过WEB用户界面方便地启动和管理下载过程,控制策略灵活。Heritrix也可以获取图像以及其他非文本内容。
Nutch:Nutch是一个完整的Java应用系统,以Lucene为基础实现了搜索引擎应用。Nutch提供了网页抓取和下载功能,并且把下载结果通过Lucene接口存储到数据库,并建立索引。
随着视频网站在国内的普及和蓬勃发展,人们的互联网生活几乎与视频网站已经密不可分。不仅人们十分喜欢视频这种直观的信息获取方式,爱浏览视频,而且很多人都亲自参与视频的拍摄和制作,并发布视频于视频站点与网友们共享和交流。视频网站信息抓取的运行任务就是抓取各个视频网站的视频的详细信息,包括视频发布人、视频名称、上传时间、标签、简介、图片、浏览次数、评论次数等。做到针对视频网站视频信息发布的整体监控。
目前基本所有的开源网络抓取技术的总体设计原理相同。即抓取过程从一个或若干初始网页开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前网页上抽取新的URL放入队列直到满足系统停止条件。由于需要对视频节目多维度的信息采集,抓取程序需要能够定位出网页中存在的多个属性(如点击数、回复数、所属类别、节目上传人)对应的具体信息。所以对于视频网站的节目抓取而言,普通的页面下载和URL抽取方式并不能满足视频搜索这种特殊搜索目标的信息采集。并且由于视频网站节目信息的特殊性,普通模式的网页抓取无法或者没有获取一些特殊信息,如节目对应图片、节目所在搜索层数等。此外,为了获取丰富的数据,针对视频网站的特点,抓取工具还需要做其他特殊操作。
发明内容
本发明要解决的技术问题在于,针对现有的视频网站的信息抓取技术不能完整的获取视频网站节目的所有信息的缺陷,提供一种完整、方便的抓取视频网站中的全部视频信息的信息抓取方法。
本发明解决其技术问题所采用的技术方案是:构造一种视频网站的信息抓取方法,其中包括步骤:S1、抓取视频网站的网页的源文件;S2、针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;S3、根据所述定位结果,将所述网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;S4、根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中。
在本发明所述的视频网站的信息抓取方法中,步骤S3包括步骤:S31、根据所述定位结果,对所述网页的源文件与本地标签库进行对比,产生对比结果;S32、根据所述对比结果,过滤所述网页的源文件;S33、将过滤后的网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果。
在本发明所述的视频网站的信息抓取方法中,步骤S1之前包括步骤:S01、解析所述网页的当层链接,得到下一层链接;S02、重复步骤S01直到最大抓取时间;S03、根据所述网页链接的解析结果得到待抓取的网页。
在本发明所述的视频网站的信息抓取方法中,所述步骤S03包括:S031、确定待抓取的域名范围和所述网页链接的过滤正则;S032、根据所述域名范围和过滤正则对所述网页进行过滤;S033、根据所过滤后的网页链接的解析结果得到待抓取的网页。
在本发明所述的视频网站的信息抓取方法中,步骤S01包括:S011、建立存放域名以及对应的字符集的域名字符集集合;S012、提取待解析链接中的子域名;S013、如果所述域名字符集集合中存在所述子域名,则直接提取相应的域名字符集进行解析,如果所述域名字符集集合中不存在所述子域名,则对所述子域名进行解析并将所述子域名以及对应的域名字符集存入所述域名字符集集合中。
在本发明所述的视频网站的信息抓取方法中,如待抓取的网页为跳转网页,则步骤S1之前包括步骤:S81、编写对应的所述跳转网页的URL规则以及所述跳转网页中的节目下载链接的URL规则的跳转正则;S82、根据所述跳转正则提取所述跳转网页;S83、解析所述跳转网页的链接;S84、根据所述跳转网页的链接的解析结果得到待抓取的网页。
在本发明所述的视频网站的信息抓取方法中,如待抓取的网页为包含异步信息的网页,则步骤S1之前包括步骤:S91、编写所述包含异步信息的网页中的节目id值以及异步请求URL规则的异步正则;S92、根据所述异步正则提取所述包含异步信息的网页的异步信息;并通过所述异步信息得到异步请求链接。S93、解析所述异步请求链接;S94、根据所述异步请求链接的解析结果得到待抓取的网页。
在本发明所述的视频网站的信息抓取方法中,如待抓取的网页需要使用代理访问,则步骤S1之前包括步骤:设置代理服务器的IP、代理端口以及代理用户名密码。
在本发明所述的视频网站的信息抓取方法中,如具有多个抓取出口IP,指定出口IP对所述网页的源文件进行抓取。
实施本发明的视频网站的信息抓取方法,具有以下有益效果:完整、方便的抓取视频网站中的全部视频信息,避免了现有的视频网站的信息抓取技术不能完整的获取视频网站节目的所有信息的缺陷。
通过本地标签库对下载的网页源文件进行过滤,很好的避免错误的视频信息。优化网页抓取方式,更加有效的解析链接、抓取页面。进行域名范围和网页链接的过滤,避免重复链接和超出域名范围。域名字符集集合的设置加快了信息抓取速度。跳转页面解析功能获取跳转页面中的下载路径。对异步请求进行拼接提取,并解析异步请求返回的数据信息,很好地解决了异步数据的抓取问题。代理的设置可以抓取需要代理访问的网页。根据用户需要指定出口IP进行网页的抓取。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的视频网站的信息抓取方法的第一优选实施例的流程图;
图2为本发明的视频网站的信息抓取方法的第二优选实施例的流程图;
图3为本发明的视频网站的信息抓取方法的第三优选实施例的流程图;
图4为本发明的视频网站的信息抓取方法的优选实施例的步骤S03的流程图;
图5为本发明的视频网站的信息抓取方法的优选实施例的步骤S01的流程图;
图6为本发明的视频网站的信息抓取方法的待抓取的网页为跳转网页的优选实施例的部分流程图;
图7为本发明的视频网站的信息抓取方法的待抓取的网页为包含异步信息的网页的优选实施例的部分流程图;
图8为本发明的视频网站的信息抓取方法的具体实施例的网页提取流程图;
图9为本发明的视频网站的信息抓取方法的具体实施例的节目层数设定流程图;
图10为本发明的视频网站的信息抓取方法的具体实施例的步骤S03的链接过滤以及节目生成流程图;
图11为本发明的视频网站的信息抓取方法的待抓取的网页为跳转网页的具体实施例的流程图;
图12为本发明的视频网站的信息抓取方法的待抓取的网页为包含异步信息的网页的具体实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在本发明的视频网站的信息抓取方法的第一优选实施例的流程图中,所述视频网站的信息抓取方法开始于步骤100;步骤100之后进行到步骤101,抓取视频网站的网页的源文件;随后,到下一步骤102,针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;随后,到下一步骤103,根据所述定位结果,将所述网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;随后,到下一步骤104,根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中;最后该方法结束于步骤105。本视频网站的信息抓取方法提取网页中的多处关键信息,提供用户多种查找维度和数据参考点。针对指定视频网站特定格式的网页,指定不同的正则表达式集合。不同的正则表达式对应页面中的各个不同属性相关的信息,如“节目名称”、“上传时间”等。同样的正则表达式所在的集合不同则其在抓取页面内容时所起的作用也不同。以正则编号区分和定位该正则表达式属于哪一类集合,动态的运用该正则表达式匹配页面元素或内容,使正则表达式可以动态复用,减少维护和部署难度。将网页的源文件与各集合中的正则表达式进行匹配,将匹配出来的信息按照集合类型即正则表达式的正则编号存入相应的页面节目对象与之相对应的属性域中进行入库。采用本发明的视频网站的信息抓取方法可完整、方便的抓取视频网站中的全部视频信息,避免了现有的视频网站的信息抓取技术不能完整的获取视频网站节目的所有信息的缺陷。在网页解析方面进行了很多处理,比如通过正则针对视频节目的各个属性进行信息提取,增强用户节目数据参考点。
如图2所示,在本发明的视频网站的信息抓取方法的第二优选实施例的流程图中,所述视频网站的信息抓取方法开始于步骤200;步骤200之后进行到步骤201,抓取视频网站的网页的源文件;随后,到下一步骤202,针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;随后,到下一步骤203,根据所述定位结果,对所述网页的源文件与本地标签库进行对比,产生对比结果;随后,到下一步骤204,根据所述对比结果,过滤所述网页的源文件;随后,到下一步骤205,将过滤后的网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;随后,到下一步骤206,根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中;最后该方法结束于步骤207。针对符合页面解析格式的网页,进行网页源文件下载。将网页的源文件与本地标签库进行对比,过滤掉如广告、弹窗等无用的垃圾标签和内容,提取页面中有价值的标签信息,并将这部分信息的网页标签过滤掉,提取其中的属性信息的文本信息,再将保留的去标签处理后的文本信息加入内存用于下一步骤网页的源文件与正则表达式的匹配。通过本地标签库对下载的网页源文件进行过滤,很好的避免错误的视频信息。通过进行网页标签过滤的方式,大大减小正则的编写难度和正则维护量。
如图3所示,在本发明的视频网站的信息抓取方法的第三优选实施例的流程图中,所述视频网站的信息抓取方法开始于步骤300;步骤300之后进行到步骤301,解析所述网页的当层链接,得到下一层链接;随后,到下一步骤302,重复步骤301直到最大抓取时间;随后,到下一步骤303,根据所述网页链接的解析结果得到待抓取的网页;随后,到下一步骤304,抓取视频网站的网页的源文件;随后,到下一步骤305,针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;随后,到下一步骤306,根据所述定位结果,将所述网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;随后,到下一步骤307,根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中;最后该方法结束于步骤308。本发明采用广度优先搜索策略进行网页源文件的抓取,提供视频节目相对入口所在搜索层数,给热点节目的分析予参考依据:1、抓取采用广度优先搜索策略,从抓取入口开始产生新的链接并解析,此为相对入口的第一层链接;2、解析第一层的所有链接,在解析第一层链接的过程中不断产生新的链接,此为第二层连接,在解析完第一层链接前不会解析第一层链接的子链接(即第二层链接);3、循环步骤2,解析当前层链接,并产生下一层链接。循环过程中,记录链接所在层数,直到最大的抓取时间,最大的抓取时间可以在配置文件中进行配置;4、程序按照解析、提取、过滤三个步骤进行循环运作。首先解析页面,再提取相关有价值的内容,最后通过正则表达式过滤出节目所需要的属性信息。优化网页抓取方式,更加有效的解析链接、抓取页面;并且节目和链接所在层数的标识丰富了节目信息,为热点节目的判断提供了依据。
如图4所示,在本发明的视频网站的信息抓取方法的优选实施例的步骤S03的流程图中,所述视频网站的信息抓取方法的步骤S03开始于步骤400;步骤400之后进行到步骤401,确定待抓取的域名范围和所述网页链接的过滤正则;到下一步骤402,根据所述域名范围和过滤正则对所述网页进行过滤;随后,到下一步骤403,根据所过滤后的网页链接的解析结果得到待抓取的网页;最后该方法结束于步骤404。对待解析链接进行过滤,过滤不仅仅进行域名控制,还要防止大量不同URL访问相同页面等问题:1、由于业务需求,待抓取的信息抓取范围应该处于特定的域名范围内,因此要在抓取信息前配置抓取域名搜索范围;2、由于个别网站的URL有垃圾参数,导致个别网站相同URL中的相同属性不同参数值的链接对应的页面相同,所以在入口对应信息中需要添加过滤正则;3、抓取程序运行产生新的链接;4、通过第二步的过滤正则,去掉链接中的无用属性信息;5、判断该新链接有效性,如协议名是否正确,是否符合URL格式;6、通过后缀名匹配、URL正则匹配和节目协议匹配的方式判断该URL是属于节目范围。如果是节目范围则进行排重和进行进一步节目分析;7、进行域名范围控制,判定该链接是否属于特定的域名范围;8、如果链接不属于域名控制范围,则该链接废除,如果属于域名控制范围,则进行待解析链接排重,如果链接不存在则添加到待解析链接库中。链接过滤策略的使用限定了网页搜索的范围,过滤了很多访问相同页面的不同URL链接和很多格式错误链接,避免网络和内存资源浪费,提高了抓取程序运行效率。
如图5所示,在本发明的视频网站的信息抓取方法的优选实施例的步骤S01的流程图中,所述视频网站的信息抓取方法的步骤S01开始于步骤500;步骤500之后进行到步骤501,建立存放域名以及对应的字符集的域名字符集集合;到下一步骤502,提取待解析链接中的子域名;随后,到下一步骤503,如果所述域名字符集集合中存在所述子域名,则直接提取相应的域名字符集进行解析,如果所述域名字符集集合中不存在所述子域名,则对所述子域名进行解析并将所述子域名以及对应的域名字符集存入所述域名字符集集合中;最后该方法结束于步骤504。域名字符集集合的添加减少了程序向网页服务器发送请求的次数,提高网页抓取和解析速度。
如图6所示,在本发明的视频网站的信息抓取方法的待抓取的网页为跳转网页的优选实施例的部分流程图中,所述视频网站的待抓取的网页为跳转网页的信息抓取方法开始于步骤600;步骤600之后进行到步骤601,编写对应的所述跳转网页的URL规则以及所述跳转网页中的节目下载链接的URL规则的跳转正则;到下一步骤602,根据所述跳转正则提取所述跳转网页;随后,到下一步骤603,解析所述跳转网页的链接;随后,到下一步骤604,根据所述跳转网页的链接的解析结果得到待抓取的网页;最后该方法结束于步骤605。后面的步骤与第一个优选实施例的步骤相同,具体参见上述优选实施例所述的步骤。如节目下载路径不在当前解析页面,而在弹出的跳转页面中:1、编写站点对应的跳转正则,跳转正则描述节目页面中跳转页面的URL规则以及跳转页面中的节目下载链接的URL规则;2、解析节目链接,产生该页面的链接集合;3、对节目链接集合进行正则匹配,提取出跳转页面链接;4、对跳转页面进行解析,产生该页面的链接集合;5、对跳转页面产生的链接集合通过正则进行链接过滤,提取出真正的节目网页。针对下载链接处于跳转页面的问题进行了处理,增强了节目下载路径的抓取功能,跳转页面解析能够方便的获取跳转页面中的下载路径。
如图7所示,在本发明的视频网站的信息抓取方法的待抓取的网页为包含异步信息的网页的优选实施例的部分流程图中,所述视频网站的待抓取的网页为包含异步信息的网页的信息抓取方法开始于步骤700;步骤700之后进行到步骤701编写所述包含异步信息的网页中的节目id值以及异步请求URL规则的异步正则;到下一步骤702,根据所述异步正则提取所述包含异步信息的网页的异步信息;并通过所述异步信息得到异步请求链接;随后,到下一步骤703,解析所述跳转网页的链接;随后,到下一步骤704,根据所述跳转网页的链接的解析结果得到待抓取的网页;最后该方法结束于步骤705。后面的步骤与第一个优选实施例的步骤相同,具体参见上述优选实施例所述的步骤。如要提取的节目的属性信息为异步信息:1、编写站点对应的正则,正则描述节目页面中位于JavaScript中的节目id值以及异步请求URL的格式,格式中保留节目id的占位符;2、编写正则,提取异步请求返回的文本信息的指定数据;3、对节目进行解析,通过正则表达式提取该节目对应的id信;4、用节目id值取代异步请求格式中的id占位符,组成完整的异步请求链接;5、对异步请求链接进行解析,通过正则提取出需要的属性信息。对异步请求进行拼接提取,并解析异步请求返回的数据信息,很好地解决了异步数据的抓取问题。针对异步信息的抓取,也可以用程序模拟浏览器解析节目链接的方式,执行JavaScript脚本和发送异步信息,完成对页面的整体渲染,然后对渲染后的页面进行信息抓取。
作为本发明的视频网站的信息抓取方法的优选实施例,如待抓取的网页需要使用代理访问,则步骤S1之前包括步骤:设置代理服务器的IP、代理端口以及代理用户名密码;如具有多个抓取出口IP,指定出口IP对所述网页的源文件进行抓取。代理的设置可以抓取需要代理访问的网页,并且可以根据用户需要指定出口IP进行网页的抓取。
如图8所示,在本发明的视频网站的信息抓取方法的具体实施例的网页提取流程图中,按照属性提取视频节目网页中的多方面数据,定位准确,提供用户丰富的数据参考点。对于通用的抓取方法,一般只做网页下载或进行简单的网页解析。但是对于网络音视频节目而言,用户需要的信息更加精确和丰富。用户在意节目点击数、回复数、上传人、上传时间、图片、节目标签、节目简介等。程序本身无法智能地将网页中的信息和节目属性对应,通过正则匹配的引入,音视频网络抓取程序同时抽取页面中的多个信息并与相关属性对应。举例:
  所属站点域名   正则表达式   正则类型id
  youku.com   标签:hum_of_counter   8
  youku.com   点击数:hum_of_counter   2
  youku.com   回复数:hum_of_counter   3
待解析的节目链接解析后通过所属站点域名找到节目对应的正则集合,如有对应的正则,则通过正则类型id,定位该正则匹配到的信息所对应的节目属性。最后根据正则进行解析匹配,将匹配到的信息保存到相应的属性库中;如无对应的正则,则只保存包括父页面链接、节目链接、图片、页面所在层数、发现时间、节目类型、节目名称等无需正则匹配就能自动抓取的节目基本属性值。
如图9所示,在本发明的视频网站的信息抓取方法的具体实施例的节目层数设定流程图中,本方法采用如下方法获得视频网页的源文件:从入口网页解析网页中的链接,如属于解析层数范围,则提取页面中的链接,处理当前层后,将连接层数相对父页面层数加一,再提取相应页面的链接,直到超出解析层数范围或达到最大抓取时间,然后根据提取的链接是否属于节目链接,如属于,则排重或解析所述节目链接,获取待抓取的网页。
如图10所示,在本发明的视频网站的信息抓取方法的具体实施例的步骤S03的链接过滤以及节目生成流程图中。对页面解析产生的下一层的待解析链接进行过滤。因为抓取的范围是音视频网站,所以对于大多数站点而言都是不必关心的,所以需要通过域名控制抓取的范围。相对于普通的抓取技术,视音频抓取在链接过滤这块还进行了特殊处理,比如电驴网站verycd总的链接http://www.verycd.com/members/@u1540113/。此类型链接的解析都会返回相同的注册页面,这时候对于抓取程序而言,这种实质上对相同页面的频繁解析显然是在做无用功。所以抓取程序在链接过滤上做了限制,可以在配置中指定某种格式的链接替换,即如以上情况,将所有URL格式为/members/@u1540113的链接全部更替为http://www.verycd.com,这样就避免了抓取操作的一些无用功。此外抓取程序还通过链接后缀、链接协议、链接是否符合节目链接正则匹配模式对于链接进行了过滤。
如图11所示,在本发明的视频网站的信息抓取方法的待抓取的网页为跳转网页的具体实施例的流程图中,对于节目下载链接抓取也只是在本页面中提取。但是考虑到很多下载链接在跳转页面的情况,视音频抓取添加了跳转页面解析功能,获取跳转页面中的下载路径。例如:
待解析的节目链接通过所属站点域名和正则类型id找到节目对应的节目下载链接正则。程序先解析节目链接,然后通过跳转页面链接正则提取出跳转页面的URL地址。对跳转URL进行进一步解析,通过跳转页面中的节目下载链接正则提取出节目对应的真正的下载链接,通过该下载链接获取视频节目的属性信息,并将该属性信息存储在相应的属性库中。
如图12所示,在发明的视频网站的信息抓取方法的待抓取的网页为包含异步信息的网页的具体实施例的流程图中,目前的开源抓取技术都没有做到对异步请求的支持,原因是模拟浏览器进行网页JavaScript方法调用和网页渲染难度大,并且速度慢消耗系统资源多。视频网站的节目考虑到一些信息统计的时间问题,很多的数值数据都采用异步处理,然而这些数据都是用户关心的,所以音视频抓取将异步请求进行拼接提取,并解析异步请求返回的数据信息,很好地解决了异步数据的抓取问题,同时也避免了模拟浏览器运行造成的速度影响和资源消耗。举例:
Figure BDA0000026485660000121
要获得异步数据首先就是要获取异步请求。待解析的节目链接通过所属站点域名和正则类型id找到节目对应的特征值正则。通过特征值正则获取需要传递给异步请求格式模板的特征值信息,并且将此特征值替换异步请求格式模板中的num of counter字符串,由此组成异步请求链接,并发送异步请求和进行解析。根据解析结果获得待抓取网页,并从该网页中获取视频节目的属性信息,并将该属性信息存储在相应的属性库中。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种视频网站的信息抓取方法,其特征在于,包括步骤:
S1、抓取视频网站的网页的源文件;
S2、针对不同格式的网页,指定不同的正则表达式集合对所述网页的源文件中视频节目的属性信息进行定位,产生定位结果;
S3、根据所述定位结果,将所述网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果;
S4、根据所述匹配结果,将所述网页的源文件中视频节目的属性信息存入相应的属性库中。
2.根据权利要求1所述的视频网站的信息抓取方法,其特征在于,步骤S3包括步骤:
S31、根据所述定位结果,对所述网页的源文件与本地标签库进行对比,产生对比结果;
S32、根据所述对比结果,过滤所述网页的源文件;
S33、将过滤后的网页的源文件与所述正则表达式集合中的正则表达式进行匹配,产生匹配结果。
3.根据权利要求1所述的视频网站的信息抓取方法,其特征在于,步骤S1之前包括步骤:
S01、解析所述网页的当层链接,得到下一层链接;
S02、重复步骤S01直到最大抓取时间;
S03、根据所述网页链接的解析结果得到待抓取的网页。
4.根据权利要求3所述的视频网站的信息抓取方法,其特征在于,所述步骤S03包括:
S031、确定待抓取的域名范围和所述网页链接的过滤正则;
S032、根据所述域名范围和过滤正则对所述网页进行过滤;
S033、根据所过滤后的网页链接的解析结果得到待抓取的网页。
5.根据权利要求3所述的视频网站的信息抓取方法,其特征在于,步骤S01包括:
S011、建立存放域名以及对应的字符集的域名字符集集合;
S012、提取待解析链接中的子域名;
S013、如果所述域名字符集集合中存在所述子域名,则直接提取相应的域名字符集进行解析,如果所述域名字符集集合中不存在所述子域名,则对所述子域名进行解析并将所述子域名以及对应的域名字符集存入所述域名字符集集合中。
6.根据权利要求1所述的视频网站的信息抓取方法,其特征在于,
如待抓取的网页为跳转网页,则步骤S1之前包括步骤:
S81、编写对应的所述跳转网页的URL规则以及所述跳转网页中的节目下载链接的URL规则的跳转正则;
S82、根据所述跳转正则提取所述跳转网页;
S83、解析所述跳转网页的链接;
S84、根据所述跳转网页的链接的解析结果得到待抓取的网页。
7.根据权利要求1所述的视频网站的信息抓取方法,其特征在于,
如待抓取的网页为包含异步信息的网页,则步骤S1之前包括步骤:
S91、编写所述包含异步信息的网页中的节目id值以及异步请求URL规则的异步正则;
S92、根据所述异步正则提取所述包含异步信息的网页的异步信息;并通过所述异步信息得到异步请求链接;
S93、解析所述异步请求链接;
S94、根据所述异步请求链接的解析结果得到待抓取的网页。
8.根据权利要求1所述的视频网站的信息抓取方法,其特征在于,
如待抓取的网页需要使用代理访问,则步骤S1之前包括步骤:
设置代理服务器的IP、代理端口以及代理用户名密码。
9.根据权利要求1所述的视频网站的信息抓取方法,其特征在于,如具有多个抓取出口IP,指定出口IP对所述网页的源文件进行抓取。
CN2010102848591A 2010-09-15 2010-09-15 视频网站的信息抓取方法 Active CN101937469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102848591A CN101937469B (zh) 2010-09-15 2010-09-15 视频网站的信息抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102848591A CN101937469B (zh) 2010-09-15 2010-09-15 视频网站的信息抓取方法

Publications (2)

Publication Number Publication Date
CN101937469A true CN101937469A (zh) 2011-01-05
CN101937469B CN101937469B (zh) 2012-09-05

Family

ID=43390798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102848591A Active CN101937469B (zh) 2010-09-15 2010-09-15 视频网站的信息抓取方法

Country Status (1)

Country Link
CN (1) CN101937469B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102348136A (zh) * 2011-05-13 2012-02-08 深圳市网合科技股份有限公司 获取节目源信息的装置及方法
CN102426589A (zh) * 2011-10-31 2012-04-25 合一网络技术(北京)有限公司 一种用于数据库信息检索的中间层系统及信息检索方法
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法
CN103020513A (zh) * 2012-11-16 2013-04-03 北京奇虎科技有限公司 收集文件的方法和系统
CN103248627A (zh) * 2013-05-06 2013-08-14 北京奇虎科技有限公司 实现访问网站资源的方法、正向代理服务器和系统
CN103377260A (zh) * 2012-04-28 2013-10-30 阿里巴巴集团控股有限公司 一种网络日志url 的分析方法及装置
CN104065504A (zh) * 2013-03-22 2014-09-24 腾讯科技(深圳)有限公司 信息的处理方法及装置
CN104284250A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 一种视频处理方法、装置、服务器和客户端设备
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN104731909A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于heritrix和htmlparser商品信息提取方法
CN105096147A (zh) * 2014-04-30 2015-11-25 广州市动景计算机科技有限公司 广告处理方法及装置
CN105407016A (zh) * 2015-11-26 2016-03-16 上海晶赞科技发展有限公司 流量数据中信息点的提取方法及装置
CN105631700A (zh) * 2014-11-26 2016-06-01 奥多比公司 内容创建、部署合作以及标记
CN105893559A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种数据推送方法及装置
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107122987A (zh) * 2017-06-20 2017-09-01 深圳安巽科技有限公司 一种通缉令诈骗的预警系统及方法
CN107368399A (zh) * 2017-06-28 2017-11-21 武汉斗鱼网络科技有限公司 一种线上网页监控方法及系统
WO2018027489A1 (zh) * 2016-08-08 2018-02-15 吕秋萍 文本路径打开文件位置的方法以及文件系统
WO2018027490A1 (zh) * 2016-08-08 2018-02-15 吕秋萍 文件打开技术的数据采集方法以及文件系统
CN108536788A (zh) * 2018-03-29 2018-09-14 合肥俊刚机械科技有限公司 一种基于分布式爬虫的数据获取方法及其系统
CN110401852A (zh) * 2019-07-17 2019-11-01 深圳育成教育科技有限公司 一种多媒体信息播放方法、系统及存储介质
CN110427264A (zh) * 2019-06-28 2019-11-08 中国科学院计算技术研究所 一种基于Kubernetes的JS解析方法及系统
CN110633400A (zh) * 2018-06-06 2019-12-31 腾讯科技(北京)有限公司 网页数据的抓取方法、装置、存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
CN101556592A (zh) * 2008-04-09 2009-10-14 北京闻言科技有限公司 一种智能解析互联网内容的方法
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101599089A (zh) * 2009-07-17 2009-12-09 中国科学技术大学 视频服务网站内容更新信息的自动搜索与抽取系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
CN101556592A (zh) * 2008-04-09 2009-10-14 北京闻言科技有限公司 一种智能解析互联网内容的方法
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101599089A (zh) * 2009-07-17 2009-12-09 中国科学技术大学 视频服务网站内容更新信息的自动搜索与抽取系统及方法

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102348136A (zh) * 2011-05-13 2012-02-08 深圳市网合科技股份有限公司 获取节目源信息的装置及方法
CN102426589A (zh) * 2011-10-31 2012-04-25 合一网络技术(北京)有限公司 一种用于数据库信息检索的中间层系统及信息检索方法
CN103377260A (zh) * 2012-04-28 2013-10-30 阿里巴巴集团控股有限公司 一种网络日志url 的分析方法及装置
CN103020513A (zh) * 2012-11-16 2013-04-03 北京奇虎科技有限公司 收集文件的方法和系统
CN103020513B (zh) * 2012-11-16 2015-11-25 北京奇虎科技有限公司 收集文件的方法和系统
CN102968495B (zh) * 2012-11-29 2015-11-18 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法
CN104065504A (zh) * 2013-03-22 2014-09-24 腾讯科技(深圳)有限公司 信息的处理方法及装置
CN103248627B (zh) * 2013-05-06 2017-02-08 北京奇虎科技有限公司 实现访问网站资源的方法、正向代理服务器和系统
CN103248627A (zh) * 2013-05-06 2013-08-14 北京奇虎科技有限公司 实现访问网站资源的方法、正向代理服务器和系统
CN104284250A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 一种视频处理方法、装置、服务器和客户端设备
CN105096147B (zh) * 2014-04-30 2019-03-26 广州市动景计算机科技有限公司 广告处理方法及装置
CN105096147A (zh) * 2014-04-30 2015-11-25 广州市动景计算机科技有限公司 广告处理方法及装置
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN105631700A (zh) * 2014-11-26 2016-06-01 奥多比公司 内容创建、部署合作以及标记
US11004036B2 (en) 2014-11-26 2021-05-11 Adobe Inc. Content creation, deployment collaboration, and tracking exposure
CN105631700B (zh) * 2014-11-26 2021-01-08 奥多比公司 内容创建、部署合作以及标记
US10776754B2 (en) 2014-11-26 2020-09-15 Adobe Inc. Content creation, deployment collaboration, and subsequent marketing activities
US10929812B2 (en) 2014-11-26 2021-02-23 Adobe Inc. Content creation, deployment collaboration, and subsequent marketing activities
US11087282B2 (en) 2014-11-26 2021-08-10 Adobe Inc. Content creation, deployment collaboration, and channel dependent content selection
US10936996B2 (en) 2014-11-26 2021-03-02 Adobe Inc. Content creation, deployment collaboration, activity stream, and task management
CN104731909A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于heritrix和htmlparser商品信息提取方法
CN105407016B (zh) * 2015-11-26 2019-03-26 上海晶赞科技发展有限公司 流量数据中信息点的提取方法及装置
CN105407016A (zh) * 2015-11-26 2016-03-16 上海晶赞科技发展有限公司 流量数据中信息点的提取方法及装置
CN105893559A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种数据推送方法及装置
WO2018027490A1 (zh) * 2016-08-08 2018-02-15 吕秋萍 文件打开技术的数据采集方法以及文件系统
WO2018027489A1 (zh) * 2016-08-08 2018-02-15 吕秋萍 文本路径打开文件位置的方法以及文件系统
CN106326363B (zh) * 2016-08-11 2019-09-17 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107122987A (zh) * 2017-06-20 2017-09-01 深圳安巽科技有限公司 一种通缉令诈骗的预警系统及方法
CN107368399A (zh) * 2017-06-28 2017-11-21 武汉斗鱼网络科技有限公司 一种线上网页监控方法及系统
CN108536788A (zh) * 2018-03-29 2018-09-14 合肥俊刚机械科技有限公司 一种基于分布式爬虫的数据获取方法及其系统
CN110633400A (zh) * 2018-06-06 2019-12-31 腾讯科技(北京)有限公司 网页数据的抓取方法、装置、存储介质及电子装置
CN110427264A (zh) * 2019-06-28 2019-11-08 中国科学院计算技术研究所 一种基于Kubernetes的JS解析方法及系统
CN110427264B (zh) * 2019-06-28 2021-11-30 中国科学院计算技术研究所 一种基于Kubernetes的JS解析方法及系统
CN110401852A (zh) * 2019-07-17 2019-11-01 深圳育成教育科技有限公司 一种多媒体信息播放方法、系统及存储介质

Also Published As

Publication number Publication date
CN101937469B (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
CN101937469B (zh) 视频网站的信息抓取方法
Abel et al. Cross-system user modeling and personalization on the social web
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
US20150341771A1 (en) Hotspot aggregation method and device
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN101329687B (zh) 一种新闻网页定位方法
CN104063448B (zh) 一种视频领域相关的分布式微博数据抓取系统
CN102724059A (zh) 基于MapReduce的网站运行状态监控与异常检测
Correa et al. Solutions to detect and analyze online radicalization: A survey
CN103297435A (zh) 一种基于web日志的异常访问行为检测方法与系统
CN101751458A (zh) 一种网络舆情监控系统及方法
CN106095979A (zh) Url合并处理方法和装置
CN101409690A (zh) 一种互联网用户行为的获取方法和系统
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN103067387B (zh) 一种反钓鱼监测系统和方法
CN111767443A (zh) 一种高效的网络爬虫分析平台
CN107832333A (zh) 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统
CN114328962A (zh) 一种基于知识图谱的web日志异常行为识别方法
CN103412940A (zh) 检测欺诈电话的方法
CN102571922A (zh) 一种数据流处理方法及装置
CN108549714A (zh) 一种数据处理方法及装置
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
Cao et al. Fake reviewer group detection in online review systems
JP2014096119A (ja) Webサイト利用状況解析装置及び方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant