CN104765766B - 一种监测视频更新的方法和装置 - Google Patents
一种监测视频更新的方法和装置 Download PDFInfo
- Publication number
- CN104765766B CN104765766B CN201510091880.2A CN201510091880A CN104765766B CN 104765766 B CN104765766 B CN 104765766B CN 201510091880 A CN201510091880 A CN 201510091880A CN 104765766 B CN104765766 B CN 104765766B
- Authority
- CN
- China
- Prior art keywords
- video
- url
- website
- information
- grabbed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种监测视频更新的方法和装置,以解决现有的监测方案监测效率低、监测结果不准确的问题。其中,方法包括:按照预设周期确定至少一个视频网站中待监测的视频的URL;从URL对应的网页中抓取视频的视频信息;根据视频信息监测视频是否更新;若更新,则获取视频的更新信息,并将视频的视频信息和更新信息保存至数据库中。本发明能够保证监测结果更加实时、准确,监测效率更高,根据各个视频网站中的视频的更新情况可以分析自身的视频网站中视频更新较慢的原因,从而为视频网站的改进提供有利的依据。
Description
技术领域
本发明涉及多媒体技术领域,特别是涉及一种监测视频更新的方法和一种监测视频更新的装置。
背景技术
随着互联网技术和多媒体技术的不断发展,越来越多的视频网站也随之出现。视频网站是指在完善的技术平台支持下,让互联网用户在线流畅发布、浏览和分享视频作品的网络媒体。
目前,各个视频网站中的很多视频都是共享版权的,例如对于《武媚娘传奇》这部电视剧来说,爱奇艺、优酷土豆、搜狐视频、腾讯视频、乐视网等视频网站都有播放权,而哪个视频网站中该视频更新的较早,该视频网站在搜索引擎里的排名就会靠前,从而就会有更多用户通过该视频网站观看,进而带来更多的流量。因此,为了提高视频网站的竞争力,各个视频网站都希望能够更早地更新其中的视频。
通过对各个视频网站中的视频的更新情况进行监测,可以为自身的视频网站的改进提供依据。目前的监测方法均是通过人为地收集视频网站的后台数据,进而分析视频的更新情况,但是该种方式不仅效率很低,而且监测的结果也不准确。
发明内容
本发明提供了一种监测视频更新的方法和一种监测视频更新的装置,以解决现有的监测方案监测效率低、监测结果不准确的问题。
为了解决上述问题,本发明公开了一种监测视频更新的方法,包括:
按照预设周期确定至少一个视频网站中待监测的视频的URL;
从所述URL对应的网页中抓取所述视频的视频信息;
根据所述视频信息监测所述视频是否更新;
若更新,则获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中。
优选地,所述按照预设周期确定至少一个视频网站中待监测的视频的URL的步骤包括:
按照预设周期根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL;
和/或,
按照预设周期分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL。
优选地,所述视频的视频信息包括视频的URL,所述更新信息包括视频的更新状态;
所述根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL的步骤包括:
针对每个已保存的视频网站,分别判断该视频网站中的视频的更新状态;
将更新状态为更新未完成的视频的URL确定为该视频网站中待监测的视频的URL。
优选地,所述视频网站的网站信息包括:该视频网站的预设频道中的视频的标识和视频的URL,
所述分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL的步骤包括:
针对每个视频网站,分别判断该视频网站的预设频道中的视频的标识中是否存在新增的标识;
如果存在,则将新增的标识对应的视频的URL确定为该视频网站中待监测的视频的URL。
优选地,在所述分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中的待监测视频的URL的步骤之前,还包括:
确定所述至少一个视频网站的入口地址;
调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息。
优选地,所述从所述URL对应的网页中抓取所述视频的视频信息的步骤包括:
将未抓取的网页对应的URL标记为待抓取URL;
调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息,并将已抓取的网页对应的URL标记为已抓取URL;
判断是否存在剩余的待抓取URL,若存在,则返回所述调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息的步骤。
优选地,所述获取所述视频的更新信息的步骤包括:
记录所述视频的更新时间;
判断所述视频是否更新完成,根据判断结果记录所述视频的更新状态;其中,所述更新状态包括更新未完成、更新已完成;
将所述视频的更新时间和更新状态作为所述视频的更新信息。
为了解决上述问题,本发明还公开了一种监测视频更新的装置,包括:
确定模块,用于按照预设周期确定至少一个视频网站中待监测的视频的URL;
抓取模块,用于从所述URL对应的网页中抓取所述视频的视频信息;
监测模块,用于根据所述视频信息监测所述视频是否更新;
保存模块,用于在所述监测模块监测出更新时,获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中。
优选地,所述确定模块包括:
第一确定子模块,用于按照预设周期根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL;
和/或,
第二确定子模块,用于按照预设周期分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL。
优选地,所述视频的视频信息包括视频的URL,所述更新信息包括视频的更新状态;
所述第一确定子模块包括:
状态判断子单元,用于针对每个已保存的视频网站,分别判断该视频网站中的视频的更新状态;
状态确定子单元,用于将更新状态为更新未完成的视频的URL确定为该视频网站中待监测的视频的URL。
优选地,所述视频网站的网站信息包括:该视频网站的预设频道中的视频的标识和视频的URL,
所述第二确定子模块包括:
标识判断子单元,用于针对每个视频网站,分别判断该视频网站的预设频道中的视频的标识中是否存在新增的标识;
标识确定子单元,用于在所述标识判断子单元判断出存在时,将新增的标识对应的视频的URL确定为该视频网站中待监测的视频的URL。
优选地,所述确定模块还包括:
信息获取子模块,用于在所述第二确定子模块分别对所述至少一个视频网站的网站信息进行分析之前,确定所述至少一个视频网站的入口地址,以及调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息。
优选地,所述抓取模块包括:
URL标记子模块,用于将未抓取的网页对应的URL标记为待抓取URL;
URL抓取子模块,用于调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息,并将已抓取的网页对应的URL标记为已抓取URL;
URL判断子模块,用于判断是否存在剩余的待抓取URL,若存在,则调用所述抓取子模块。
优选地,所述保存模块包括:
时间记录子模块,用于记录所述视频的更新时间;
状态记录子模块,用于判断所述视频是否更新完成,根据判断结果记录所述视频的更新状态;
其中,所述更新状态包括更新未完成、更新已完成;将所述视频的更新时间和更新状态作为所述视频的更新信息。
与现有技术相比,本发明包括以下优点:
本发明中按照预设周期确定至少一个视频网站中的待监测的视频的URL(UniformResource Locator,统一资源定位符),然后从这些URL对应的网页中抓取对应视频的视频信息,并根据视频信息监测该视频是否更新,若更新,则获取该视频的更新信息,并将该视频的视频信息和更新信息保存至数据库中。通过上述方式可以自动监测各个视频网站中的视频的更新情况,并且通过对各个视频网站的前台网页中的数据进行监测,能够保证监测结果更加实时、准确,监测效率更高,根据各个视频网站中的视频的更新情况可以分析自身的视频网站中视频更新较慢的原因,从而为视频网站的改进提供有利的依据。
附图说明
图1是本发明实施例一的一种监测视频更新的方法的步骤流程图;
图2是本发明实施例二的一种监测视频更新的方法的步骤流程图;
图3是本发明实施例二的一种监测系统的架构图;
图4是本发明实施例三的一种监测视频更新的装置的结构框图;
图5是本发明实施例四的一种监测视频更新的装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一:
参照图1,示出了本发明实施例一的一种监测视频更新的方法的步骤流程图。
本实施例中的监测视频更新的方法可以包括以下步骤:
步骤101,按照预设周期确定至少一个视频网站中待监测的视频的URL。
本实施例中,可以针对至少一个视频网站进行监测,以获知这些视频网站中的视频更新情况。为了进一步提高监测效率,在监测过程中并非对视频网站中的全部视频进行监测,而是对其中的部分真正需要监测的视频进行监测,因此首先确定视频网站中的待监测的视频的URL,根据这些URL即可对对应的视频进行监测。
对于预设周期的具体数值,本领域技术人员根据实际经验进行相关设定即可,例如可以设置为5分钟、2分钟、1分钟等等,本实施例对此并不加以限制。预设周期越短,监测的实时性和准确性越高。
步骤102,从所述URL对应的网页中抓取所述视频的视频信息。
在确定各个视频网站中的待监测的视频的URL之后,即可根据这些URL访问对应的网页,并在网页中抓取视频的视频信息。本实施例中,并非是对视频网站的后台数据进行获取、分析,而是通过对前台的网页进行访问,进而从网页中抓取对应的视频信息,从而能够进一步提高监测结果的准确性。
步骤103,根据所述视频信息监测所述视频是否更新。
步骤104,若更新,则获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中。
根据上述步骤102中抓取的视频的视频信息可以监测该视频是否更新,如果该视频更新,则进一步获取该视频的更新信息,并将该视频的视频信息和更新信息保存至数据库中。因此数据库中即保存了各个视频网站中的视频的视频信息和更新信息,通过将自身的视频网站中的视频的视频信息和更新信息与其他视频网站中的视频的视频信息和更新信息进行比较,即可得出自身的视频网站与其他的视频网站相比,视频更新速度的快慢,从而进一步分析自身的视频网站中视频更新较慢的原因,为视频网站的改进提供有利的依据。
本发明实施例中,可以自动监测各个视频网站中的视频的更新情况,并且通过对各个视频网站的前台网页中的数据进行监测,能够保证监测结果更加实时、准确,监测效率更高,根据各个视频网站中的视频的更新情况可以分析自身的视频网站中视频更新较慢的原因,从而为视频网站的改进提供有利的依据。
实施例二:
参照图2,示出了本发明实施例二的一种监测视频更新的方法的步骤流程图。
本实施例中的监测视频更新的方法可以包括以下步骤:
步骤201,按照预设周期确定至少一个视频网站中待监测的视频的URL。
本实施例中,该步骤201可以包括以下子步骤:
子步骤a1,按照预设周期根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL。
由于本实施例中按照预设周期对各个视频网站进行监测,在每次监测之后会将更新的视频的视频信息和更新信息保存至数据库中,因此在当前周期进行监测时,可以根据数据库中已保存的信息确定待监测的视频的URL,即确定哪些视频网站中的哪些视频在当前周期需要继续被监测。
其中,视频信息可以包括视频的URL、视频的标识(该标识可以为视频名称等)、视频所属的视频网站的标识、视频已更新的剧集数、视频的总剧集数等信息。视频的更新信息可以包括视频的更新时间、视频的更新状态等信息,其中,视频的更新状态可以包括更新未完成和更新已完成。
优选地,该子步骤a1根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中的待监测的视频的URL的过程可以包括以下子步骤a11~子步骤a12:
子步骤a11,针对每个已保存的视频网站,分别判断该视频网站中的视频的更新状态;
子步骤a12,将更新状态为更新未完成的视频的URL确定为该视频网站中待监测的视频的URL。
针对数据库中已保存的每个已保存的视频网站,可以保存该视频网站中的多个视频的视频信息和更新信息,分别对每个视频网站中的视频的更新状态进行检测,仅将更新状态为更新未完成的视频的URL确定为该视频网站中的待监测的视频的URL,对于更新状态为更新已完成的视频无需再监测其是否更新,因此不需要将这些视频的URL确定为该视频网站中的待监测的视频的URL。
子步骤a2,按照预设周期分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL。
本实施例中还可以对各个视频网站的实时状态(网站信息)进行分析,以确定该视频网站中是否有新的视频上线,对于这些新上线的视频也可以进行是否更新的监测。
在执行该子步骤a2分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中的待监测的视频的URL之前,分别获取上述至少一个视频网站的网站信息。优选地,本实施例中分别获取至少一个视频网站的网站信息的步骤可以包括:确定所述至少一个视频网站的入口地址;调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息。
本实施例中,可以将视频网站的导航页(即首页)的URL作为该视频网站的入口地址,通过调度爬虫进程访问该入口地址即可进入对应的视频网站的导航页。上述调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息的步骤具体可以包括:调度爬虫进程访问所述至少一个视频网站的入口地址,从所述视频网站的入口地址对应的网页中抓取所述视频网站的预设频道的入口地址(如预设频道的URL);调度爬虫进程访问所述预设频道的入口地址,从所述预设频道的入口地址对应的网页中抓取所述预设频道中的视频的标识和视频的URL;将该视频网站的预设频道中的视频的标识和视频的URL作为该视频网站的网站信息。
其中,调度爬虫进程访问入口地址(视频网站的入口地址或预设频道的入口地址),从该入口地址对应的网页中抓取相关信息时,可以采用分布式架构,同时调度多个爬虫进程。首先,将未抓取的网页对应的入口地址标记为待抓取入口地址;然后,调度爬虫进程访问待抓取入口地址,从该待抓取入口地址对应的网页中抓取相关信息,并将已抓取的网页对应的入口地址标记为已抓取入口地址;最后,判断是否存在剩余的待抓取入口地址,若存在,则返回调度爬虫进程访问待抓取入口地址的步骤,若不存在,则结束抓取过程。
其中,预设频道可以根据实际情况进行相关设定,可以将其中播放跟播剧的频道作为预设频道,例如将电视剧、综艺、动漫、电影、纪录片等频道作为预设频道,本实施例对此并不加以限制。
优选地,该子步骤a2分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中的待监测视频的URL的过程可以包括以下子步骤a21~子步骤a22:
子步骤a21,针对每个视频网站,分别判断该视频网站的预设频道中的视频的标识中是否存在新增的标识;
子步骤a22,如果存在,则将新增的标识对应的视频的URL确定为该视频网站中待监测的视频的URL。
其中,判断该视频网站的预设频道中的视频的标识中是否存在新增的标识的过程为:将当前周期获取的该视频网站的预设频道中的视频的标识与上一周期获取的该视频网站的预设频道中的视频的标识进行比较,判断当前周期相比于上一周期是否存在新增的视频的标识,若存在,则确定该视频网站的预设频道中的视频的标识中存在新增的标识。如果该视频网站的预设频道中的视频的标识中存在新增的标识,则说明该视频网站的该频道中存在新上线的视频,对于这些新上线的视频即可进行更新监测。
需要说明的是,本实施例中的步骤201可以仅包括上述子步骤a1,或者仅包括上述子步骤a2,也可以均包括上述子步骤a1和子步骤a2。在包括子步骤a1和子步骤a2时,可以先执行子步骤a1再执行子步骤a2,也可以先执行a2再执行子步骤a1,还可以同时执行子步骤a1和子步骤a2,本实施例对此并不加以限制。
步骤202,从所述URL对应的网页中抓取所述视频的视频信息。
上述步骤201中确定出的URL对应的视频即为本周期内需要监测其是否更新的视频,因此从这些URL对应的网页中抓取视频的视频信息。
优选地,本实施例中可以通过爬虫进程从URL对应的网页中抓取视频的视频信息。因此,该步骤202可以包括以下子步骤:
子步骤b1,将未抓取的网页对应的URL标记为待抓取URL;
子步骤b2,调度爬虫进程访问待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息,并将已抓取的网页对应的URL标记为已抓取URL;
子步骤b3,判断是否存在剩余的待抓取URL,若存在,则返回子步骤b2,若不存在,则结束抓取过程。
本实施例中采用分布式设计架构,采用分布式爬虫进程对网页信息进行抓取,能够进行灵活扩展,能够轻松地对更多的视频网站和更多频道进行监控。因此,为了避免不同的爬虫进程访问同一网页,对URL进行了标记,将未抓取的网页对应的URL标记为待抓取URL,调度爬虫进程只对待抓取URL进行访问,一个爬虫进程访问一个待抓取URL,可以同时调度多个爬虫进程访问多个待抓取URL,从而进一步提高效率,将已抓取的网页对应的URL标记为已抓取URL,保证其他爬虫进程不会再重复访问该已抓取URL,最后直至全部的URL全部为已抓取URL为止,网页抓取过程完成。
优选地,本实施例中从待抓取URL对应的网页中抓取视频的视频信息的过程可以包括:分析待抓取URL对应的网页,得到该网页对应的DOM(Document Object Model,文档对象模型)树结构信息;确定需要抓取的视频的视频信息在所述DOM树结构中的节点位置信息;从所述节点位置信息对应的节点抓取视频信息。其中,视频信息可以包括视频的URL、视频的名称、视频所属的视频网站的标识、视频已更新的剧集数、视频的总剧集数等信息。
DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。换句话说,这是表示和处理一个HTML(Hypertext Markup Language,超文本标记语言)或XML(Extensible Markup Language,可扩展标记语言)文档的方法。DOM技术使得用户页面可以动态地变化,如可以动态地显示或隐藏一个元素,改变它们的属性,增加一个元素等,DOM技术使得页面的交互性大大地增强。DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示,不过页面可能并不是以这种树的方式具体实现。DOM将整个页面映射为一个由层次节点组成的文件。根据DOM,HTML文档中的每个成分都是一个节点。DOM是这样规定的:整个文档是一个文档节点;每个HTML标签是一个元素节点;包含在HTML元素中的文本是文本节点;每一个HTML属性是一个属性节点;注释属于注释节点,等等。
对于分析网页的DOM树结构,并从DOM树结构中抓取视频信息的具体过程,本领域技术人员根据实际经验进行相关处理即可,本发明实施例对此并在详细论述。
步骤203,根据所述视频信息监测所述视频是否更新。
在本周期中抓取得到对应视频的视频信息后,即可根据该视频信息监测该视频是否更新。
本实施例中,该步骤203可以包括以下子步骤:
子步骤c1,针对同一视频,比较本周期抓取的该视频的视频信息中视频已更新的剧集数与上一周期抓取的该视频的视频信息中视频已更新的剧集数;
子步骤c2,如果本周期相比于上一周期,该视频已更新的剧集数增加,则确定该视频更新;否则,确定该视频未更新。
例如,对于某部电视剧来说,如果本周期抓取的视频信息中视频已更新的剧集数为22集,上一周期抓取的视频信息中视频已更新的剧集数为20集,则可以确定该电视剧从上一周期到本周期之间更新了两集。
步骤204,若更新,则获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中。
如果视频有更新,则进一步获取视频的更新信息,并将视频的视频信息和更新信息保存至数据库中。如果视频未更新,为了简化执行过程,无需保存视频的视频信息(由于视频没有更新,因此数据库中已保存的该视频的视频信息不发生改变),当然,该种情况下也可以将视频信息保存至数据库中,本实施例对此并不加以限制。
本实施例中获取视频的更新信息的步骤可以包括以下子步骤:
子步骤d1,记录所述视频的更新时间;
优选地,本实施例中,可以将当前时间作为所述视频的更新时间,或者将本周期到达时的时间作为所述视频的更新时间,或者将本周期与上一周期之间的某一时间作为所述视频的更新时间,等等。其中,更新时间的格式可以为年、月、日、时、分、秒的格式,也可以为月、日、时、分、秒的格式,等等。
子步骤d2,判断所述视频是否更新完成,根据判断结果记录所述视频的更新状态;其中,所述更新状态包括更新未完成、更新已完成;
其中,可以根据视频已更新的剧集数和视频的总剧集数判断视频是否更新完成,即判断视频已更新的剧集数和视频的总剧集数是否相同,若相同,则确定视频更新完成。如果更新完成,则将视频的更新状态记录为更新已完成,如果未更新完成,则将视频的更新状态记录为更新未完成。
子步骤d3,将所述视频的更新时间和更新状态作为所述视频的更新信息。
步骤205,展示数据库中保存的视频信息和更新信息。
本实施例中,还可以对上述数据库中保存的视频信息和更新信息进行直观地展示,如可以以图表等形式展示。例如,可以以每个视频网站为基础,展示每个视频网站中的视频的视频信息和更新信息;也可以以每个视频为基础,展示每个视频在各个视频网站中的视频信息和更新信息,等等。本实施例对具体的展示形式并不加以限制。对视频信息和更新信息的直观展示,提供给网站维护人员,以此可以查找哪些环节是可以优化的地方,从而缩短自身视频网站中的跟播剧视频整个流程的发布时间,让用户第一时间能够看到最新的视频,提供网站的核心竞争力。
下面,以一个具体的监测系统架构为例进行说明。
参照图3,示出了本发明实施例二的一种监测系统的架构图。该监测系统包括视频网站301、防火墙302(视频网站的防火墙)、爬虫调度服务器303、爬虫抓取服务器304、数据库服务器305、Web服务器306和用户307。结合上述的监测视频更新的方法,爬虫调度服务器负责调度爬虫进程抓取视频网站中的待监测视频对应的网页,哪些网页已经抓取过,哪些还没有抓取,当前应该抓取哪个网页,整个调度关系可以保存在数据库(如Redis数据库等)中;爬虫抓取服务器负责抓取各个网页的相关信息;数据库服务器负责保存视频的相关信息(视频信息、更新信息等),爬虫进程抓取网页得到这些信息后写入到数据库(如Mongo DB数据库等)中;Web服务器负责向用户展示各个视频的相关信息(如同一视频在各个视频网站的更新时间对比,等等);用户可以直观地得知视频在哪个视频网站最新更新,什么时候上线等,后续对自身的视频网站进行分析。
本实施例中,基于分布式爬虫进程自动监测各个视频网站的视频更新情况,能够不断地访问视频搜索导航页和跟播剧专辑页,一有最新的视频更新,就能第一时间感知,时间误差极小。分布式解决方案,具有灵活的可扩展性,能够通过加机器轻松实现对多个视频网站、多个频道进行监控。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
实施例三:
参照图4,示出了本发明实施例三的一种监测视频更新的装置的结构框图。
本实施例中的监测视频更新的装置可以包括以下模块:
确定模块401,用于按照预设周期确定至少一个视频网站中待监测的视频的URL;
抓取模块402,用于从所述URL对应的网页中抓取所述视频的视频信息;
监测模块403,用于根据所述视频信息监测所述视频是否更新;
保存模块404,用于在所述监测模块监测出更新时,获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中。
本发明实施例中按照预设周期确定至少一个视频网站中的待监测的视频的URL,然后从这些URL对应的网页中抓取对应视频的视频信息,并根据视频信息监测该视频是否更新,若更新,则获取该视频的更新信息,并将该视频的视频信息和更新信息保存至数据库中。通过上述方式可以自动监测各个视频网站中的视频的更新情况,并且通过对各个视频网站的前台网页中的数据进行监测,能够保证监测结果更加实时、准确,监测效率更高,根据各个视频网站中的视频的更新情况可以分析自身的视频网站中视频更新较慢的原因,从而为视频网站的改进提供有利的依据。
实施例四:
参照图5,示出了本发明实施例四的一种监测视频更新的装置的结构框图。
本实施例中的监测视频更新的装置可以包括以下模块:
确定模块501,用于按照预设周期确定至少一个视频网站中待监测的视频的URL;
抓取模块502,用于从所述URL对应的网页中抓取所述视频的视频信息;
监测模块503,用于根据所述视频信息监测所述视频是否更新;
保存模块504,用于在所述监测模块监测出更新时,获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中;
展示模块505,用于展示数据库中保存的视频信息和更新信息。
优选地,所述确定模块可以包括以下子模块:
第一确定子模块,用于按照预设周期根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL;
和/或,
第二确定子模块,用于按照预设周期分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL。
其中,所述第一确定子模块包括:
状态判断子单元,用于针对每个已保存的视频网站,分别判断该视频网站中的视频的更新状态;
状态确定子单元,用于将更新状态为更新未完成的视频的URL确定为该视频网站中待监测的视频的URL。
其中,所述第二确定子模块包括:
标识判断子单元,用于针对每个视频网站,分别判断该视频网站的预设频道中的视频的标识中是否存在新增的标识;
标识确定子单元,用于在所述标识判断子单元判断出存在时,将新增的标识对应的视频的URL确定为该视频网站中待监测的视频的URL。
优选地,所述确定模块还包括:
信息获取子模块,用于在所述第二确定子模块分别对所述至少一个视频网站的网站信息进行分析之前,确定所述至少一个视频网站的入口地址,以及调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息。
所述抓取模块可以包括以下子模块:
URL标记子模块,用于将未抓取的网页对应的URL标记为待抓取URL;
URL抓取子模块,用于调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息,并将已抓取的网页对应的URL标记为已抓取URL;
URL判断子模块,用于判断是否存在剩余的待抓取URL,若存在,则调用所述抓取子模块。
所述保存模块可以包括以下子模块:
时间记录子模块,用于记录所述视频的更新时间;
状态记录子模块,用于判断所述视频是否更新完成,根据判断结果记录所述视频的更新状态;
其中,所述更新状态包括更新未完成、更新已完成;将所述视频的更新时间和更新状态作为所述视频的更新信息。
本实施例中,基于分布式爬虫进程自动监测各个视频网站的视频更新情况,能够不断地访问视频搜索导航页和跟播剧专辑页,一有最新的视频更新,就能第一时间感知,时间误差极小。分布式解决方案,具有灵活的可扩展性,能够通过加机器轻松实现对多个视频网站、多个频道进行监控。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种监测视频更新的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种监测视频更新的方法,其特征在于,包括:
按照预设周期确定至少一个视频网站中待监测的视频的URL;
从所述URL对应的网页中抓取所述视频的视频信息,其中将未抓取的网页对应的URL标记为待抓取URL;调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息,并将已抓取的网页对应的URL标记为已抓取URL;判断是否存在剩余的待抓取URL,若存在,则返回所述调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息的步骤;其中,同时调度多个爬虫进程访问多个待抓取URL;所述从该待抓取URL对应的网页中抓取所述视频的视频信息包括:分析待抓取URL对应的网页,得到该网页对应的DOM树结构信息;确定需要抓取的视频的视频信息在所述DOM树结构中的节点位置信息;从所述节点位置信息对应的节点抓取视频信息;
根据所述视频信息监测所述视频是否更新;
若更新,则获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中;
其中,所述按照预设周期确定至少一个视频网站中待监测的视频的URL的步骤包括:
按照预设周期分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL;
其中,在所述分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中的待监测视频的URL的步骤之前,还包括:
确定所述至少一个视频网站的入口地址,所述入口地址为视频网站的导航页的URL;
调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息,包括:调度爬虫进程访问所述至少一个视频网站的入口地址,从所述视频网站的入口地址对应的网页中抓取所述视频网站的预设频道的入口地址;调度爬虫进程访问所述预设频道的入口地址,从所述预设频道的入口地址对应的网页中抓取所述预设频道中的视频的标识和视频的URL;将该视频网站的预设频道中的视频的标识和视频的URL作为该视频网站的网站信息。
2.根据权利要求1所述的方法,其特征在于,所述按照预设周期确定至少一个视频网站中待监测的视频的URL的步骤,还包括:
按照预设周期根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL。
3.根据权利要求2所述的方法,其特征在于,所述视频的视频信息包括视频的URL,所述更新信息包括视频的更新状态;
所述根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL的步骤包括:
针对每个已保存的视频网站,分别判断该视频网站中的视频的更新状态;
将更新状态为更新未完成的视频的URL确定为该视频网站中待监测的视频的URL。
4.根据权利要求2所述的方法,其特征在于,所述视频网站的网站信息包括:该视频网站的预设频道中的视频的标识和视频的URL,
所述分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL的步骤包括:
针对每个视频网站,分别判断该视频网站的预设频道中的视频的标识中是否存在新增的标识;
如果存在,则将新增的标识对应的视频的URL确定为该视频网站中待监测的视频的URL。
5.根据权利要求1所述的方法,其特征在于,所述获取所述视频的更新信息的步骤包括:
记录所述视频的更新时间;
判断所述视频是否更新完成,根据判断结果记录所述视频的更新状态;其中,所述更新状态包括更新未完成、更新已完成;
将所述视频的更新时间和更新状态作为所述视频的更新信息。
6.一种监测视频更新的装置,其特征在于,包括:
确定模块,用于按照预设周期确定至少一个视频网站中待监测的视频的URL;
抓取模块,用于从所述URL对应的网页中抓取所述视频的视频信息,其中包括:URL标记子模块,用于将未抓取的网页对应的URL标记为待抓取URL;URL抓取子模块,用于调度爬虫进程访问所述待抓取URL,从该待抓取URL对应的网页中抓取所述视频的视频信息,并将已抓取的网页对应的URL标记为已抓取URL;URL判断子模块,用于判断是否存在剩余的待抓取URL,若存在,则调用所述抓取子模块;其中,同时调度多个爬虫进程访问多个待抓取URL;所述从该待抓取URL对应的网页中抓取所述视频的视频信息包括:分析待抓取URL对应的网页,得到该网页对应的DOM树结构信息;确定需要抓取的视频的视频信息在所述DOM树结构中的节点位置信息;从所述节点位置信息对应的节点抓取视频信息;
监测模块,用于根据所述视频信息监测所述视频是否更新;
保存模块,用于在所述监测模块监测出更新时,获取所述视频的更新信息,并将所述视频的视频信息和更新信息保存至数据库中;
其中,所述确定模块包括:第二确定子模块,用于按照预设周期分别对所述至少一个视频网站的网站信息进行分析,得到所述至少一个视频网站中待监测的视频的URL;
所述确定模块还包括:
信息获取子模块,用于在所述第二确定子模块分别对所述至少一个视频网站的网站信息进行分析之前,确定所述至少一个视频网站的入口地址,所述入口地址为视频网站的导航页的URL,以及调度爬虫进程访问所述至少一个视频网站的入口地址,获取所述至少一个视频网站的网站信息,包括:调度爬虫进程访问所述至少一个视频网站的入口地址,从所述视频网站的入口地址对应的网页中抓取所述视频网站的预设频道的入口地址;调度爬虫进程访问所述预设频道的入口地址,从所述预设频道的入口地址对应的网页中抓取所述预设频道中的视频的标识和视频的URL;将该视频网站的预设频道中的视频的标识和视频的URL作为该视频网站的网站信息。
7.根据权利要求6所述的装置,其特征在于,所述确定模块还包括:
第一确定子模块,用于按照预设周期根据所述数据库中已保存的视频网站中的视频的视频信息和更新信息,从所述数据库中获取至少一个视频网站中待监测的视频的URL。
8.根据权利要求7所述的装置,其特征在于,所述视频的视频信息包括视频的URL,所述更新信息包括视频的更新状态;
所述第一确定子模块包括:
状态判断子单元,用于针对每个已保存的视频网站,分别判断该视频网站中的视频的更新状态;
状态确定子单元,用于将更新状态为更新未完成的视频的URL确定为该视频网站中待监测的视频的URL。
9.根据权利要求8所述的装置,其特征在于,所述视频网站的网站信息包括:该视频网站的预设频道中的视频的标识和视频的URL,
所述第二确定子模块包括:
标识判断子单元,用于针对每个视频网站,分别判断该视频网站的预设频道中的视频的标识中是否存在新增的标识;
标识确定子单元,用于在所述标识判断子单元判断出存在时,将新增的标识对应的视频的URL确定为该视频网站中待监测的视频的URL。
10.根据权利要求7所述的装置,其特征在于,所述保存模块包括:
时间记录子模块,用于记录所述视频的更新时间;
状态记录子模块,用于判断所述视频是否更新完成,根据判断结果记录所述视频的更新状态;
其中,所述更新状态包括更新未完成、更新已完成;将所述视频的更新时间和更新状态作为所述视频的更新信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510091880.2A CN104765766B (zh) | 2015-02-28 | 2015-02-28 | 一种监测视频更新的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510091880.2A CN104765766B (zh) | 2015-02-28 | 2015-02-28 | 一种监测视频更新的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104765766A CN104765766A (zh) | 2015-07-08 |
CN104765766B true CN104765766B (zh) | 2019-05-24 |
Family
ID=53647597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510091880.2A Active CN104765766B (zh) | 2015-02-28 | 2015-02-28 | 一种监测视频更新的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104765766B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105978845A (zh) * | 2015-11-23 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 影音文件的下载方法及系统 |
CN105574097B (zh) * | 2015-12-11 | 2019-05-28 | 北京奇虎科技有限公司 | 视频下载类搜索结果页的加载方法及装置 |
CN105912552A (zh) * | 2015-12-23 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 网页视频抓取的方法及网页视频抓取的终端设备 |
CN106897398B (zh) * | 2017-02-08 | 2020-07-10 | 北京奇艺世纪科技有限公司 | 一种视频展示方法及装置 |
CN112836087A (zh) * | 2021-01-26 | 2021-05-25 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频属性信息采集方法及装置 |
CN114915807B (zh) * | 2022-07-14 | 2022-12-13 | 飞狐信息技术(天津)有限公司 | 一种信息处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782913A (zh) * | 2009-06-23 | 2010-07-21 | 北京搜狗科技发展有限公司 | 一种更新提醒的方法及浏览器 |
CN101882162A (zh) * | 2010-06-29 | 2010-11-10 | 北京搜狗科技发展有限公司 | 一种网络信息推送方法及系统 |
CN102402538A (zh) * | 2010-09-13 | 2012-04-04 | 腾讯科技(深圳)有限公司 | 一种自动更新搜索网页的方法和装置 |
CN103310001A (zh) * | 2013-06-26 | 2013-09-18 | 北京小米科技有限责任公司 | 一种设置视频列表的方法和装置 |
-
2015
- 2015-02-28 CN CN201510091880.2A patent/CN104765766B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782913A (zh) * | 2009-06-23 | 2010-07-21 | 北京搜狗科技发展有限公司 | 一种更新提醒的方法及浏览器 |
CN101882162A (zh) * | 2010-06-29 | 2010-11-10 | 北京搜狗科技发展有限公司 | 一种网络信息推送方法及系统 |
CN102402538A (zh) * | 2010-09-13 | 2012-04-04 | 腾讯科技(深圳)有限公司 | 一种自动更新搜索网页的方法和装置 |
CN103310001A (zh) * | 2013-06-26 | 2013-09-18 | 北京小米科技有限责任公司 | 一种设置视频列表的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104765766A (zh) | 2015-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104765766B (zh) | 一种监测视频更新的方法和装置 | |
US11870558B1 (en) | Identification of related event groups for IT service monitoring system | |
US12120005B1 (en) | Managing event group definitions in service monitoring systems | |
US11200130B2 (en) | Automatic entity control in a machine data driven service monitoring system | |
US10547695B2 (en) | Automated service discovery in I.T. environments with entity associations | |
US10417108B2 (en) | Portable control modules in a machine data driven service monitoring system | |
US10209956B2 (en) | Automatic event group actions | |
CN107273409B (zh) | 一种网络数据采集、存储及处理方法及系统 | |
CN103631699B (zh) | 日志管理系统及日志监控、获取和查询方法 | |
US20170046374A1 (en) | Automatic event group action interface | |
US10198155B2 (en) | Interface for automated service discovery in I.T. environments | |
CN106096056A (zh) | 一种基于分布式的舆情数据实时采集方法和系统 | |
CN101443751A (zh) | 用于应用爬取器的方法和装置 | |
CN103678511B (zh) | 根据可视化模板进行网页内容抽取的方法及装置 | |
US11755559B1 (en) | Automatic entity control in a machine data driven service monitoring system | |
CN102880607A (zh) | 网络动态内容抓取方法及网络动态内容爬虫系统 | |
US20130347127A1 (en) | Database management by analyzing usage of database fields | |
US11347620B2 (en) | Parsing hierarchical session log data for search and analytics | |
US20130275453A1 (en) | Method and system for providing temporal search suggestions in real-time | |
US20140324518A1 (en) | Autotagging business processes | |
US20130191421A1 (en) | Generating views of subsets of nodes of a schema | |
CN104376066B (zh) | 一种网络特定内容挖掘方法和装置、及一种电子设备 | |
CN103593345A (zh) | 网页流程图编辑方法及系统 | |
CA2794763A1 (en) | System for use in editorial review of stored information | |
CN104281581B (zh) | 网页的推荐位内容曝光量的监测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |