CN105528376A - 多媒体信息更新方法及装置 - Google Patents
多媒体信息更新方法及装置 Download PDFInfo
- Publication number
- CN105528376A CN105528376A CN201410566788.2A CN201410566788A CN105528376A CN 105528376 A CN105528376 A CN 105528376A CN 201410566788 A CN201410566788 A CN 201410566788A CN 105528376 A CN105528376 A CN 105528376A
- Authority
- CN
- China
- Prior art keywords
- multimedia messages
- time
- update time
- update
- history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种多媒体信息更新方法及装置,属于网络技术领域。所述方法包括:对于每一个多媒体信息集合,当所述多媒体信息集合中包括历史多媒体信息时,判断所述历史多媒体信息的更新时间是否满足更新时间规则;当所述历史多媒体信息满足更新时间规则时,根据所述历史多媒体信息的更新时间,计算所述多媒体信息集合的第一预测更新时间;确定第一预测更新时间小于当前时间的指定多媒体信息集合;根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息。由于在每一轮的更新过程中,基于历史多媒体信息对多媒体信息集合的更新时间进行预测,并根据预测得到的更新时间对多媒体信息集合进行更新,可有效降低数据更新量和数据更新时间。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种多媒体信息更新方法及装置。
背景技术
随着网络技术的不断发展,人们通过网络观看视频或收听音频变得越来越普遍。由于视频和音频等多媒体文件每天都在不定时更新,为了增强用户体验度,还需在第一时间内抓取更新的多媒体信息。其中,多媒体信息可包括更新多媒体文件的简介信息和播放地址信息等等。然而,对于多媒体文件搜索引擎来说,由于对数据进行一轮全量更新需要花费较长时间,因此,如何在保证数据覆盖率的同时快速地对多媒体信息进行更新,成为了本领域技术人员较为关注的一个问题。
以视频文件为例,现有技术通常采取三种方式对视频文件的视频信息进行更新。第一种方式为全量更新方式。即,直接根据所有视频文件的URL(UniformResourceLocator,统一资源定位符)抓取新添加的视频信息,并根据新添加的视频信息对原始视频信息进行更新。第二种方式为站点更新方式。即,以站点为单位对新添加的视频信息进行抓取。首先,根据不同站点的质量为每个站点分配一定权重;在爬虫程序根据URL抓取数据之前,对各个站点进行打分;之后,基于打分数值的高低顺序,依次对各个站点下的视频信息进行更新。第三种方式为队列更新方式。即,以URL为单位对新添加的视频信息进行抓取。首先,在爬虫程序根据URL抓取数据之前,基于各个URL的因素(比如,站点质量、URL模式、页面质量、等待时间)对各个URL进行打分;之后,依据打分数值的高低顺序,将各个URL放入一个优先级队列中;最终,爬虫程序不断从该队列中取出URL,并根据取出的URL对视频信息进行更新。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
针对第一种方式,在一轮数据更新过程中很多视频文件可能暂无更新,但这些数据的URL也会被进行相应处理,甚至基于该URL进行数据抓取。而盲目的数据抓取不但增加了更新时间,而且存在因对对方服务器的访问量过大而被对方站点封禁的缺陷。针对第二种方式,由于目前互联网已经越来越重视版权管理,所以有很多多媒体文件是独家的,而该种方式对于独播多媒体文件不能及时进行更新。针对第三种方式,由于影响URL分数的因素较多,而打分方式不能做到对所有因素进行覆盖,所以同样存在数据更新量大、更新时间长的缺陷。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种多媒体信息更新方法及装置。所述技术方案如下:
一方面,提供了一种多媒体信息更新方法,所述方法包括:
对于每一个多媒体信息集合,当所述多媒体信息集合中包括历史多媒体信息时,判断所述历史多媒体信息的更新时间是否满足更新时间规则;
当所述历史多媒体信息满足更新时间规则时,根据所述历史多媒体信息的更新时间,计算所述多媒体信息集合的第一预测更新时间;
确定第一预测更新时间小于当前时间的指定多媒体信息集合;
根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息。
另一方面,提供了一种多媒体信息更新装置,所述装置包括:
更新时间规则判断模块,用于对于每一个多媒体信息集合,当所述多媒体信息集合中包括历史多媒体信息时,判断所述历史多媒体信息的更新时间是否满足更新时间规则;
预测更新时间计算模块,用于当所述历史多媒体信息满足更新时间规则时,根据所述历史多媒体信息的更新时间,计算所述多媒体信息集合的第一预测更新时间;
多媒体信息集合确定模块,用于确定第一预测更新时间小于当前时间的指定多媒体信息集合;
第一多媒体信息获取模块,用于根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息。
本发明实施例提供的技术方案带来的有益效果是:
对于每一个多媒体信息集合来说,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,并确定第一预测更新时间小于当前时间的指定多媒体信息集合;之后,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,由于在每一轮的更新过程中,基于历史多媒体信息对多媒体信息集合的更新时间进行预测,并根据预测得到的更新时间对多媒体信息集合进行更新,可有效降低数据更新量和数据更新时间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种多媒体信息更新方法所涉及的实施环境的结构示意图;
图2是本发明实施例提供的一种多媒体信息更新方法的流程图;
图3是本发明实施例提供的一种多媒体信息更新方法的流程图;
图4是本发明实施例提供的一种多媒体信息更新装置结构示意图;
图5是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例做详细地解释说明之前,先对本发明实施例的应用场景予以说明。
图1是本发明实施例提供的一种多媒体信息更新方法所涉及的实施环境的结构示意图。参见图1,以多媒体文件为视频文件为例,则一个视频文件被发布在视频网站后,如果能够被终端安装的爬虫程序快速抓取到,则可大幅增强用户的体验度,可为视频网站挽留大量的用户。
其中,终端可每隔一定时间通过爬虫程序自动对全网多媒体信息进行一轮更新,具体为对于每一个多媒体信息集合,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间;确定第一预测更新时间小于当前时间的指定多媒体信息集合;根据指定多媒体信息集合的地址信息,获取更新的多媒体信息。服务器中不断有更新的多媒体信息出现。终端从服务器上通过抓取网页的形式对本地的多媒体信息进行更新。
图2是本发明实施例提供的一种多媒体信息更新方法的流程图。参见图2,本发明实施例提供的方法流程包括:
201、对于每一个多媒体信息集合,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则。
202、当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间。
203、确定第一预测更新时间小于当前时间的指定多媒体信息集合。
204、根据指定多媒体信息集合的地址信息,获取更新的多媒体信息。
本发明实施例提供的方法,对于每一个多媒体信息集合来说,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,并确定第一预测更新时间小于当前时间的指定多媒体信息集合;之后,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,由于在每一轮的更新过程中,基于历史多媒体信息对多媒体信息集合的更新时间进行预测,并根据预测得到的更新时间对多媒体信息集合进行更新,可有效降低数据更新量和数据更新时间。
可选地,第一预测更新时间包括预测更新日期,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,包括:
获取每一项历史多媒体信息的更新日期;
统计更新日期坐落在第一预设时长中每一天的比例;
计算有多媒体信息更新的天数;
根据比例和天数,计算多媒体信息集合的预测更新日期。
可选地,第一预测更新时间包括第一预测更新时刻,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,包括:
获取每一项历史多媒体信息的更新时刻;
根据更新时刻,预测多媒体信息集合的第二预测更新时刻;
确定当前的更新时间修正值;
根据第二预测更新时刻和当前的更新时间修正值,计算第一预测更新时刻。
可选地,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息之后,该方法还包括:
获取修正时间步长和当前的更新时间修正值;
当第一预测更新时刻小于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之和,重置当前的更新时间修正值的大小,得到新的更新时间修正值;或,
当第一预测更新时刻等于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之差,重置当前的更新时间修正值的大小,得到新的更新时间修正值;
其中,指定更新时刻为指定多媒体信息集合的实际更新时刻。
可选地,判断历史多媒体信息的更新时间是否满足更新时间规则,包括:
根据历史多媒体信息的更新时间,判断历史多媒体信息之间的更新时间间隔是否大于预设时间阈值;
如果历史多媒体信息之间的更新时间间隔大于预设时间阈值,则判断历史多媒体信息的更新时间满足更新时间规则。
可选地,判断历史多媒体信息的更新时间是否满足更新时间规则之后,该方法还包括:
当历史多媒体信息的更新时间不满足更新时间规则时,每隔第二预设时长获取多媒体信息集合的更新数据;
在数据更新时长达到第三预设时长后,根据第三预设时长内每一个指定多媒体信息的更新时间,统计多媒体信息集合的第二预测更新时间;
根据第二预测更新时间,获取更新的多媒体信息。
可选地,判断历史多媒体信息的更新时间是否满足更新时间规则之前,该方法还包括:
当多媒体信息集合中不包括历史多媒体信息时,每隔第二预设时长获取多媒体信息集合的更新数据;
在数据更新时长达到第三预设时长后,根据第三预设时长内每一个指定多媒体信息的更新时间,统计多媒体信息集合的第二预测更新时间;
根据第二预测更新时间,获取更新的多媒体信息。
可选地,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,包括:
控制爬虫程序根据指定多媒体信息集合的地址信息,抓取指定多媒体信息集合对应的网页;
在网页中获取更新的多媒体信息。
可选地,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,包括:
当指定多媒体信息集合的多媒体信息来源于指定服务器时,根据指定多媒体信息集合的地址信息,通过指定服务器的数据接口,抓取指定多媒体信息集合对应的网页;在网页中获取更新的多媒体信息;或,
当指定多媒体信息集合的多媒体信息来源于除指定服务器之外的其他服务器时,根据指定多媒体信息集合的地址信息,获取发布在其他服务器的站点上与指定多媒体信息集合相关的网页;在网页中获取更新的多媒体信息,更新的多媒体信息中包括信息的来源标识。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图3是本发明实施例提供的一种多媒体信息更新方法的流程图。参见图3,本发明实施例提供的方法流程包括:
301、对于每一个多媒体信息集合,判断该多媒体信息集合中是否包括历史多媒体信息;如果该多媒体信息集合中包括历史多媒体信息,则执行步骤302;如果该多媒体信息集合中不包括历史多媒体信息,则执行步骤306。
在本发明实施例中,多媒体信息可包括剧集的集数标识、简介信息、海报图片、播放地址或下载地址等等,本发明实施例对多媒体信息包括的内容不进行具体限定。其中,一个多媒体文件(比如,一集电视剧、一期综艺节目或一期广播等等)对应一项多媒体信息。其中,多媒体信息集合具体可为一个剧集信息列表或文件夹。其既可包含至少一个多媒体文件的多媒体信息,也可不包含任何多媒体文件的多媒体信息,而仅为包括整个剧集的大体简介、海报图片、花絮等的文件夹。本发明实施例对多媒体信息集合形式和包含的内容同样不进行具体限定。
以电视剧为例,则对于已完结电视剧的多媒体信息集合来说,该多媒体信息集合中包括了全部剧集的多媒体信息。对于未完结电视剧的多媒体集合来说,该多媒体信息集合中包括了部分剧集的多媒体信息。该部分剧集的多媒体信息便为历史多媒体信息;在每一次剧集更新之后,历史多媒体信息的数量都会增加,增加的数量等同于剧集的更新集数。对于已发布预告片或片花,但一集未更的电视剧而言,其多媒体信息集合中便不包括任一集电视剧对应的多媒体信息,而仅包括该电视剧的完整预告片、完整片花或部分剧集的预告片等。
在判断该多媒体信息集合中是否包括历史多媒体信息时,可根据集数标识实现。比如,当多媒体信息集合中包括诸如“第**集_完整版”或“第1集”字样等信息时,便可确定该多媒体信息集合中包括历史多媒体信息。
当然,除上述判断历史多媒体信息的方式外,还可采取其他判断方式。比如,根据剧集的简介信息或播放地址等进行判断,本发明实施例对此不进行具体限定。
需要说明的是,若根据上述判断方式判断出该多媒体信息集合中包括历史多媒体信息,则继续执行判断历史多媒体信息的更新时间是否满足更新时间规则的步骤,详见下述步骤302;如果该多媒体信息集合中不包括历史多媒体信息,则本发明实施例提供了另一种更新时间的预测及更新多媒体信息的获取方式,详见下述步骤306至步骤308。
302、当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则。当历史多媒体信息的更新时间满足更新时间规则时,执行步骤303;当历史多媒体信息的更新时间不满足更新时间规则时,执行步骤306。
其中,更新时间规则用于约束多媒体信息集合每两次更新之间的时间间隔。通常情况下,对于大部分剧集和综艺节目来说,更新周期一般为周更(每周更新一次)或日更(每天更新一次)。所以,本发明实施例中更新时间规则所限制的更新时间间隔便以一周(7天)为基准。
在本发明实施例中,在判断历史多媒体信息的更新时间是否满足更新时间规则时,具体可采取下述方式实现:
根据历史多媒体信息的更新时间,判断历史多媒体信息之间的更新时间间隔是否大于预设时间阈值;如果历史多媒体信息之间的更新时间间隔大于预设时间阈值,则判断历史多媒体信息的更新时间满足更新时间规则。
其中,预设时间阈值通常为7天。当然,预设时间阈值除上述数值外,还可为其他数值,本发明实施例对此不进行具体限定。本发明实施例仅以预设时间阈值为7天进行举例说明。此外,历史多媒体信息的更新时间均会记录在存储介质上。在获取历史多媒体信息的更新时间时,可直接根据历史多媒体信息的集数标识等从存储介质中获取对应更新时间。其中,存储介质可为内存或闪存等等,本发明实施例对存储介质的类型不进行具体限定。
以电视剧A为例,假设电视剧A已更新了2次,每次更新2集,共更新4集,预设时间阈值为7天,则第1集至第4集的多媒体信息均为历史多媒体信息。如果第1集和第2集的多媒体信息在2014年10月1日更新,第3集和第4集的多媒体信息在2014年10月11日更新,则由于更新时间间隔为10天,大于7天,所以判断历史多媒体信息的更新时间间隔满足更新时间规则。
此外,如果历史多媒体数据的更新时间间隔不满足更新时间规则,则本发明实施例提供了另一种更新时间的预测及更新多媒体信息的获取方式,详见下述步骤306至步骤308。
303、当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间。
在本发明实施例中,第一预测更新时间既包括预测更新日期也包括预测更新时刻。其中,预测更新日期用于限定多媒体信息集合具体在哪一天有更新。也即预测更新日期的精确到天。预测更新时刻,用于限定多媒体信息集合具体在预测更新日期对应的那一天中的哪个时刻进行更新。也即预测更新时刻精确到几时几分。
需要说明的是,本发明实施例在计算多媒体信息集合的第一预测更新时间时,先对多媒体信息集合的预测更新日期进行计算。在得到预测更新日期之后,再对多媒体信息集合的预测更新时刻进行计算。在计算多媒体信息集合的预测更新日期时,具体可采取下述方式实现:
303a、获取每一项历史多媒体信息的更新日期。
针对该步骤,在每一个多媒体信息更新后,均会将其更新时间记录在存储介质上。其中,更新时间包括更新日期和更新时刻。在获取历史多媒体信息的更新日期时,可直接根据历史多媒体信息的集数标识等从存储介质中获取对应更新日期。其中,存储介质可为内存或闪存等等,本发明实施例对存储介质的类型不进行具体限定。
303b、统计更新日期坐落在第一预设时长中每一天的比例。
针对该步骤,第一预设时长的大小通常为7天。当然,第一预设时长除了上述数值外,还可为其他数值。比如,14天或21天等等,本发明实施例对此不进行具体限定。本发明实施例仅以第一预设时长的大小为7天进行举例说明。
以多媒体信息集合中各项历史多媒体信息在一周中每天出现的比例分别为A{a1,a2,a3,a4,a5,a6,a7}为例,则a1指代历史多媒体信息的更新时间在周一出现的比例,a2指代历史多媒体信息的更新时间在周二出现的比例,a3指代历史多媒体信息的更新时间在周三出现的比例,以此类推,则a7指代历史多媒体信息的更新时间在周日出现的比例。
303c、计算有多媒体信息更新的天数。
其中,有多媒体信息更新的天数,指代多媒体信息集合中历史多媒体信息的更新天数总和。
比如,电视剧A为周更剧,当前已经更新了6集,分别在2014年9月3号更新了第1集和第2集的多媒体信息,在2014年9月10号更新了第3集和第4集的多媒体信息,在2014年9月17号更新了第5集和第6集的多媒体信息,则有多媒体信息更新的天数便为3天。
303d、根据比例和天数,计算多媒体信息集合的预测更新日期。
针对该步骤,在得到历史多媒体信息在一周中每一天更新的比例和有多媒体信息更新的天数之后,便可根据下述公式(1)计算多媒体信息集合的预测更新日期:
ai≥1/2n(1)
其中,i的取值范围为1至7;ai指代上述a1至a7中的任一个;n指代有多媒体信息更新的天数。上述公式(1)的含义是:当a1至a7中的任一个大于1/2n时,该多媒体集合的预测更新日期便为下周的这一天。比如,a1大于1/2n,则该多媒体集合下一次的更新日期便为下周一。
下面以一个具体的例子对上述步骤303a至步骤303d进行详细地解释说明。
表1
日 | 一 | 二 | 三 | 四 | 五 | 六 |
1 | 2 | 3★ | 4 | 5 | 6 | |
7 | 8 | 9 | 10★ | 11 | 12 | 13 |
14 | 15 | 16 | 17★ | 18 | 19 | 20 |
参见上述表1,电视剧A为周更剧,当前已经更新了6集,分别在2014年9月3号更新了第1集和第2集的多媒体信息,在2014年9月10号更新了第3集和第4集的多媒体信息,在2014年9月17号更新了第5集和第6集的多媒体信息。以当前时间为18号为例,则在计算电视剧A的下一次更新日期时,先计算a1至a7的数值。由表1可知,a1=a2=a4=a5=a6=a7=0,a3=1,则由于则电视剧A的下一次更新日期便为下周三,也即24号。
其中,在计算多媒体信息集合的更新时刻时,具体可采取下述方式实现:
303e、获取每一项历史多媒体信息的更新时刻。
针对该步骤,在每一个多媒体信息更新后,均会将其更新时间记录在存储介质上。其中,更新时间包括更新日期和更新时刻。在获取历史多媒体信息的更新时刻时,可直接根据历史多媒体信息的集数标识等从存储介质中获取对应更新时刻。其中,存储介质可为内存或闪存等等,本发明实施例对存储介质的类型不进行具体限定。
303f、根据每一项历史多媒体信息的更新时刻,预测多媒体信息集合的第二预测更新时刻。
针对该步骤,在得到各项历史多媒体信息的更新时刻后,可根据各个更新时刻对该多媒体信息集合的下一次更新时刻(第二预测更新时刻)进行预测。比如,与上述步骤303a至步骤303d类似的方法对第二预测更新时刻进行预测。还可采取对各个更新时刻求均值等方式对第二预测更新时刻进行预测,本发明实施例对此不进行具体限定。
303g、确定当前的更新时间修正值。
在本发明实施例中,为了对多媒体信息集合的更新时间预测的更加准确,还引入了对初步预测出的更新时刻进行修正的概念。具体做法为:设置一个更新时间修正值T(初始值为0),一个修正时间步长n(可根据需要进行调整)。在每一轮的更新时刻计算过程中,根据更新时刻修正值T和修正时间步长n,对初步预测出的第二预测更新时刻进行修正。同时,也根据多媒体信息集合的实际更新时刻和第二预测更新时刻对更新时刻修正值T进行重新赋值。也即,每一轮更新时刻预测过程中,对当前预测出的更新时刻进行修正的更新时刻修正值都是不一样的,关于更新时刻修正值的详细解释说明请参见后续步骤。
由于每一轮更新过程都会对更新时刻修正值进行重新赋值并保存当前数值,所以可以直接获取到当前的更新时间修正值。
303h、根据第二预测更新时刻和当前的更新时间修正值,计算第一预测更新时刻。
针对该步骤,由于当前已经预测出多媒体信息集合的下一次更新时刻为第二预测更新时刻,因此可根据当前的更新时间修正值,对第二预测更新时刻进行修正,得到该多媒体信息集合的第一预测更新时刻。进而根据第一预测更新时刻获取该多媒体信息集合的更新多媒体信息。
在根据第二预测更新时刻和当前的更新时间修正值,计算第一预测更新时刻时,具体可采取下述方式实现:
计算第二预测更新时刻和当前的更新时间修正值之和,将二者之和确定为该多媒体信息集合的第一预测更新时刻。
当然,除上述计算第一预测更新时刻的方式外,还可采取其他计算方式,本发明实施例对此不进行具体限定。
304、确定第一预测更新时间小于当前时间的指定多媒体信息集合。
在本发明实施例中,在根据上述步骤301至步骤303得到每一个多媒体信息集合的第一预测更新时间后,便可根据当前时间与各个多媒体信息集合的第一预测更新时间的大小关系,确定可进行更新多媒体信息抓取的指定多媒体信息集合。
其中,之所以要确定第一预测更新时间小于当前时间的指定多媒体信息集合,是因为仅当前时间大于某一多媒体信息集合的第一预测更新时间时,才会抓取到更新的多媒体信息;如果当前时间小于某一多媒体信息集合的第一预测更新时间,则由于该多媒体信息集合此时还未更新,因此抓取不到更新的多媒体信息。
下面以一个小例子对上述情况进行说明。
假设电视剧A的第一预测更新时间为14:00:00,电视剧B的第一预测更新时间为13:55:00,当前时间为13:57:00为例,则在13:57:00进行更新多媒体信息的抓取时,应该抓取的是电视剧B的多媒体信息,因为电视剧B在13:55:00已经更新了。而不应该抓取的是电视剧A的多媒体信息,因为电视剧A在13:57:00还没有进行更新。
305、根据指定多媒体信息集合的地址信息,获取更新的多媒体信息。
在本发明实施例中,在根据上述步骤304确定指定多媒体信息集合后,便可获取指定多媒体信息集合的更新多媒体信息。由于在一轮更新过程中,仅抓取第一预测更新时间小于当前时间的多媒体信息集合的多媒体信息,所以避免了全量更新时更新周期长、对服务器的访问量过大而被封禁的缺陷。其中,在获取指定多媒体信息集合的更新多媒体信息时,具体可采取下述方式实现:
控制爬虫程序根据指定多媒体信息集合的地址信息,抓取指定多媒体信息集合对应的网页;在网页中获取更新的多媒体信息。
其中,爬虫程序可按照一定规则自动根据指定多媒体信息集合的地址信息抓取指定多媒体信息集合对应的网页,并下载到本地。在该网页中包括了更定的多媒体信息。比如,包括最新更新剧集的集数标识(比如,20141010,第*集)、播放地址或下载地址等等。因此,通过该网页便可获取到更新的多媒体信息。当然,除了采取上述方式获取更新的多媒体信息的方式外,还可采取其他获取方式,本发明实施例对此不进行具体限定。
需要说明的是,在抓取到更新的多媒体信息后,为了保证每一轮更新时抓取数据的精准性,本发明实施例提供的方法还包括重置更新时间修正值的步骤。对于任一指定多媒体信息集合来说,更新时间修正值的重置过程具体如下:
第一步、获取修正时间步长和当前的更新时间修正值。
针对该步,如前所示,修正时间步长n可根据需要进行调整,大小可为10分钟或15分钟等等,本发明实施例对修正时间步长的大小不进行具体限定。更新时间修正值在每一轮更新中均会发生变化。假设,当前的更新时间修正值为T(即在未根据更新时间修正值对第二预测更新时刻进行修正之前,也即得到第一预测更新时刻之前),则当前的更新时间修正值T便是在上一次更新后得到的。
第二步、当第一预测更新时刻小于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之和,重置当前的更新时间修正值的大小,得到新的更新时间修正值;其中,指定更新时刻为指定多媒体信息集合的实际更新时刻。
针对该步,以第二预测更新时刻为A,指定更新时刻为B为例,则第一预测更新时刻为A+T。当A+T<B时,则重置后的更新时间修正值为T'=T+n。也即,新的更新时间修正值为T'。在下一次对该指定多媒体信息集合进行更新时,在计算出第二预测更新时刻A'后,再加上新的更新时间修正值,便得到了第一预测更新时刻A'+T'。第一预测更新时刻此时为A'+T+n。
第三步、当第一预测更新时刻等于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之差,重置当前的更新时间修正值的大小,得到新的更新时间修正值。
针对该步,继续以第二预测更新时刻为A,指定更新时刻为B为例,当A+T=B时,则重置后的更新时间修正值为T'=T-2n。也即,新的更新时间修正值为T-2n。在下一次对该指定多媒体信息集合进行更新时,在计算出第二预测更新时刻A'后,再加上新的更新时间修正值,便得到了第一预测更新时刻A'+T'。第一预测更新时刻此时为A'+T-2n。
需要说明的是,在每一轮更新过程中根据上述第二步和第三步对更新时间修正值进行重置后,最终该指定多媒体信息集合的更新时刻将收敛在2n的时间范围内。
此外,上述步骤301至步骤305是针对多媒体信息集合中包括历史多媒体信息且历史多媒体信息满足更新时间规则时的多媒体信息更新方式。针对多媒体信息集合中不包括历史多媒体信息,或多媒体信息集合中包括历史多媒体信息但是历史多媒体信息不满足更新时间规则的情况,本发明实施例采取下述步骤306至步骤308的方式对多媒体信息进行更新。详细过程如下:
306、每隔第二预设时长获取多媒体信息集合的更新数据。
在本发明实施例中,以电视剧为例,没有历史多媒体信息的情况通常是指该电视剧已经预计要播放,但是还未在电视平台或网络平台上进行播放;当前可能仅出了片花或预告片;针对历史多媒体数据不满足更新时间规则来说,通常对应的情况是该电视剧为日更剧,那么该电视剧的更新日期便不用进行预测,仅需预测更新时刻即可。所以在执行完上述步骤302后,直接执行该步骤。
其中,第二预设时长通常为一天。当然,第二预设时长的大小除上述数值外,还可为其他数值。比如,两天或三天等等,本发明实施例对第二预设时长的大小不进行具体限定。
307、在数据更新时长达到第三预设时长后,根据第三预设时长内每一个指定多媒体信息的更新时间,统计多媒体信息集合的第二预测更新时间。
在本发明实施例中,由于每隔第二预设时长便获取一次多媒体信息集合的更新数据,所以在数据更新时长达到第三预设时长后,已更新的多媒体信息已经数量颇多了。对于一个多媒体信息集合而言,便可根据每一个指定多媒体信息的更新时间,统计该多媒体信息集合的第二预测更新时间。也即,对下一次数据更新时间进行预测。在对第二预测更新时间进行统计时,可通过对每一个更新时间进行分析统计,并且制作分析统计表,根据该分析统计表确定更新时间范围;之后,根据落入该更新时间范围内多个指定多媒体信息的更新时间均值,确定第二预测更新时间。当然,除上述统计第二预测更新时间的方式外,还可采取其他统计方式,本发明实施例对此不进行具体限定。
其中,第三预设时长的大小通常为7天。当然,第三预设时长除上述数值外,还可为其他数值,本发明实施例对此同样不进行具体限定。本发明实施例仅是以第三预设时长为7天进行举例说明。
308、根据第二预测更新时间,获取更新的多媒体信息。
该步骤同上述步骤305同理,此处不再赘述。
需要说明的是,在根据上述步骤306至步骤308抓取到更新的多媒体信息后,为了保证每一轮更新时抓取数据的精准性,本发明实施例提供的方法还包括重置更新时间修正值的步骤。该重置更新时间修正值的步骤详见上述步骤305中的重置更新时间修正值的详细说明过程。
此外,在根据上述步骤301至步骤308对多媒体信息集合进行更新后,为了防止预测出现遗漏,还可采取全量更新方式更新一次,即对还处于更新状态的全部多媒体信息集合进行一次更新,以保证数据覆盖率,全面抓取更新数据。
需要说明的是,无论针对上述获取更新多媒体信息方式中的哪一种,均会根据数据源的不同而出现下述几种情形:
第一种情形、指定多媒体信息集合的多媒体信息来源于指定服务器。
其中,指定服务器为与终端安装的多媒体应用相匹配的服务器。该种情形即指代多媒体信息存储在自家的服务器上。以指定服务器为视频服务器A、终端安装的多媒体应用为视频应用A为例,则视频应用A在获取数据时,便会首先从其自家的视频服务器A上进行获取。针对第一种情形,在获取更新的多媒体信息时,通常采取下述方式:根据指定多媒体信息集合的地址信息,通过指定服务器的数据接口,抓取指定多媒体信息集合对应的网页;在网页中获取更新的多媒体信息。也即,可直接从自家的服务器上抓取更新的多媒体信息。
第二种情形、指定多媒体信息集合的多媒体信息来源于除指定服务器之外的其他服务器。
其中,除指定服务器之外的其他服务器可为一个也可为多个。以指定多媒体信息集合为视频集合为例,当其他服务器为一个时,该视频为独播视频。针对于独播视频,更新的多媒体信息仅能从该对应的服务器获取。比如,当该独播视频在电视上首轮播放后,那么该对应的服务器在其后的几个小时甚至更短时间内,便会获取并存储最近更新的视频资源。之后,编辑包括更新多媒体信息的网页,以便爬虫程序进行拉取。
当其他服务器为多个时,该视频为非独播视频。针对于非独播视频,更新的多媒体信息可从多个服务器中获取。在视频应用A的网站上可提供该多个服务器在线播放或下载视频的链接等。比如,当该独播视频在电视上首轮播放后,那么该多个服务器在其后的一段时间内,将陆续获取并存储最近更新的视频资源。之后,每一个服务器均编辑包括更新多媒体信息的网页。由于每个服务器的获取视频资源时间不同,因此,可选取数据获取时间最少的服务器。相应地,指定多媒体信息集合的地址信息便指向该数据获取时间最少的服务器。当然,还可默认指定某一服务器,本发明实施例对此不进行具体限定。
针对第二种情形,在获取更新的多媒体信息时,通常采取下述方式:根据指定多媒体信息集合的地址信息,获取发布在其他服务器的站点上与指定多媒体信息集合相关的网页;在网页中获取更新的多媒体信息,更新的多媒体信息中包括信息的来源标识。其中,信息的来源标识用于标识更新的多媒体信息来源于上述其他服务器中的哪一个服务器。比如,来源标识可为某一视频网站的名称或logo。本发明实施例对此不进行具体限定。
本发明实施例提供的方法,对于每一个多媒体信息集合来说,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,并确定第一预测更新时间小于当前时间的指定多媒体信息集合;之后,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,由于在每一轮的更新过程中,基于历史多媒体信息对多媒体信息集合的更新时间进行预测,所以根据预测得到的更新时间对多媒体信息集合进行更新,可有效降低数据更新量和数据更新时间,节省了资源,降低了成本。此外,在一轮更新过后,还可根据多媒体信息集合的预测更新时间和实际更新时间,对当前的更新时间修正值进行修正,提高了数据抓取的精准性。
图4是本发明实施例提供的一种多媒体信息更新装置的结构示意图。参见图4,该装置包括:更新时间规则判断模块401、预测更新时间计算模块402、多媒体信息集合确定模块403、第一多媒体信息获取模块404。
其中,更新时间规则判断模块401,用于对于每一个多媒体信息集合,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;预测更新时间计算模块402与更新时间规则判断模块401连接,用于当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间;多媒体信息集合确定模块403与预测更新时间计算模块402连接,用于确定第一预测更新时间小于当前时间的指定多媒体信息集合;第一多媒体信息获取模块404与多媒体信息集合确定模块403连接,用于根据指定多媒体信息集合的地址信息,获取更新的多媒体信息。
可选地,第一预测更新时间包括预测更新日期,预测更新时间计算模块,用于获取每一项历史多媒体信息的更新日期;统计更新日期坐落在第一预设时长中每一天的比例;计算有多媒体信息更新的天数;根据比例和天数,计算多媒体信息集合的预测更新日期。
可选地,第一预测更新时间包括第一预测更新时刻,预测更新时间计算模块,用于获取每一项历史多媒体信息的更新时刻;根据更新时刻,预测多媒体信息集合的第二预测更新时刻;确定当前的更新时间修正值;根据第二预测更新时刻和当前的更新时间修正值,计算第一预测更新时刻。
可选地,该装置还包括:
修正时间获取模块,用于获取修正时间步长和当前的更新时间修正值;
更新时间修正值重置模块,用于当第一预测更新时刻小于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之和,重置当前的更新时间修正值的大小,得到新的更新时间修正值;或,当第一预测更新时刻等于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之差,重置当前的更新时间修正值的大小,得到新的更新时间修正值;
其中,指定更新时刻为多媒体信息集合的实际更新时刻。
可选地,更新时间规则判断模块,用于根据历史多媒体信息的更新时间,判断历史多媒体信息之间的更新时间间隔是否大于预设时间阈值;当历史多媒体信息之间的更新时间间隔大于预设时间阈值时,判断历史多媒体信息的更新时间满足更新时间规则。
可选地,该装置还包括:
第二多媒体信息获取模块,用于当历史多媒体信息的更新时间不满足更新时间规则时,每隔第二预设时长获取多媒体信息集合的更新数据;
预测更新时间统计模块,用于在数据更新时长达到第三预设时长后,根据第三预设时长内每一个指定多媒体信息的更新时间,统计多媒体信息集合的第二预测更新时间;
第二多媒体信息获取模块,还用于根据第二预测更新时间,获取更新的多媒体信息。
可选地,该装置还包括:
第二多媒体信息获取模块,用于当多媒体信息集合中不包括历史多媒体信息时,每隔第二预设时长获取多媒体信息集合的更新数据;
预测更新时间统计模块,用于在数据更新时长达到第三预设时长后,根据第三预设时长内每一个指定多媒体信息的更新时间,统计多媒体信息集合的第二预测更新时间;
第二多媒体信息获取模块,还用于根据第二预测更新时间,获取更新的多媒体信息。
可选地,第一多媒体信息获取模块,用于当指定多媒体信息集合的多媒体信息来源于指定服务器时,根据指定多媒体信息集合的地址信息,通过指定服务器的数据接口,抓取指定多媒体信息集合对应的网页;在网页中获取更新的多媒体信息;或,当指定多媒体信息集合的多媒体信息来源于除指定服务器之外的其他服务器时,根据指定多媒体信息集合的地址信息,获取发布在其他服务器的站点上与指定多媒体信息集合相关的网页;在网页中获取更新的多媒体信息,更新的多媒体信息中包括信息的来源标识。
本发明实施例提供的装置,对于每一个多媒体信息集合来说,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,并确定第一预测更新时间小于当前时间的指定多媒体信息集合;之后,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,由于在每一轮的更新过程中,基于历史多媒体信息对多媒体信息集合的更新时间进行预测,并根据预测得到的更新时间对多媒体信息集合进行更新,可有效降低数据更新量和数据更新时间。
需要说明的是:上述实施例提供的多媒体信息更新装置在更新多媒体信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多媒体信息更新装置与多媒体信息更新方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是根据一示例性实施例示出的一种终端,图5展示出了本发明示例性实施例所涉及的具有触敏表面的终端结构示意图,该终端可以用于实施上述任一示例性实施例所示出的多媒体数据推送方法中终端所执行的功能。具体来讲:
终端500可以包括RF(RadioFrequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoiseAmplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于GSM(GlobalSystemofMobilecommunication,全球移动通讯系统)、GPRS(GeneralPacketRadioService,通用分组无线服务)、CDMA(CodeDivisionMultipleAccess,码分多址)、WCDMA(WidebandCodeDivisionMultipleAccess,宽带码分多址)、LTE(LongTermEvolution,长期演进)、电子邮件、SMS(ShortMessagingService,短消息服务)等。
存储器120可用于存储软件程序以及模块,如上述示例性实施例所示出的终端所对应的软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理,如实现互动信息获取等。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端500的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的链接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端500的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(LiquidCrystalDisplay,液晶显示器)、OLED(OrganicLight-EmittingDiode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图5中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端500还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端500移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端500之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端500的通信。
终端500通过传输模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线或有线的宽带互联网访问。虽然图5示出了传输模块170,但是可以理解的是,其并不属于终端500的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端500的控制中心,利用各种接口和线路链接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端500的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端500还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端500还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令:
对于每一个多媒体信息集合,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;
当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间;
确定第一预测更新时间小于当前时间的指定多媒体信息集合;
根据指定多媒体信息集合的地址信息,获取更新的多媒体信息。
可选地,第一预测更新时间包括预测更新日期,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,包括:
获取每一项历史多媒体信息的更新日期;
统计更新日期坐落在第一预设时长中每一天的比例;
计算有多媒体信息更新的天数;
根据比例和天数,计算多媒体信息集合的预测更新日期。
可选地,第一预测更新时间包括第一预测更新时刻,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,包括:
获取每一项历史多媒体信息的更新时刻;
根据更新时刻,预测多媒体信息集合的第二预测更新时刻;
确定当前的更新时间修正值;
根据第二预测更新时刻和当前的更新时间修正值,计算第一预测更新时刻。
可选地,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息之后,该方法还包括:
获取修正时间步长和当前的更新时间修正值;
当第一预测更新时刻小于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之和,重置当前的更新时间修正值的大小,得到新的更新时间修正值;或,
当第一预测更新时刻等于指定更新时刻时,根据当前的更新时间修正值和修正时间步长之差,重置当前的更新时间修正值的大小,得到新的更新时间修正值;
其中,指定更新时刻为多媒体信息集合的实际更新时刻。
可选地,判断历史多媒体信息的更新时间是否满足更新时间规则,包括:
根据历史多媒体信息的更新时间,判断历史多媒体信息之间的更新时间间隔是否大于预设时间阈值;
如果历史多媒体信息之间的更新时间间隔大于预设时间阈值,则判断历史多媒体信息的更新时间满足更新时间规则。
可选地,判断历史多媒体信息的更新时间是否满足更新时间规则之后,该方法还包括:
当历史多媒体信息的更新时间不满足更新时间规则时,每隔第二预设时长获取多媒体信息集合的更新数据;
在数据更新时长达到第三预设时长后,根据第三预设时长内每一个指定多媒体信息的更新时间,统计多媒体信息集合的第二预测更新时间;
根据第二预测更新时间,获取更新的多媒体信息。
可选地,判断历史多媒体信息的更新时间是否满足更新时间规则之前,该方法还包括:
当多媒体信息集合中不包括历史多媒体信息时,每隔第二预设时长获取多媒体信息集合的更新数据;
在数据更新时长达到第三预设时长后,根据第三预设时长内每一个指定多媒体信息的更新时间,统计多媒体信息集合的第二预测更新时间;
根据第二预测更新时间,获取更新的多媒体信息。
可选地,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,包括:
控制爬虫程序根据指定多媒体信息集合的地址信息,抓取指定多媒体信息集合对应的网页;
在网页中获取更新的多媒体信息。
可选地,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,包括:
当指定多媒体信息集合的多媒体信息来源于指定服务器时,根据指定多媒体信息集合的地址信息,通过指定服务器的数据接口,抓取指定多媒体信息集合对应的网页;在网页中获取更新的多媒体信息;或,
当指定多媒体信息集合的多媒体信息来源于除指定服务器之外的其他服务器时,根据指定多媒体信息集合的地址信息,获取发布在其他服务器的站点上与指定多媒体信息集合相关的网页;在网页中获取更新的多媒体信息,更新的多媒体信息中包括信息的来源标识。
本发明实施例提供的终端,对于每一个多媒体信息集合来说,当多媒体信息集合中包括历史多媒体信息时,判断历史多媒体信息的更新时间是否满足更新时间规则;当历史多媒体信息满足更新时间规则时,根据历史多媒体信息的更新时间,计算多媒体信息集合的第一预测更新时间,并确定第一预测更新时间小于当前时间的指定多媒体信息集合;之后,根据指定多媒体信息集合的地址信息,获取更新的多媒体信息,由于在每一轮的更新过程中,基于历史多媒体信息对多媒体信息集合的更新时间进行预测,并根据预测得到的更新时间对多媒体信息集合进行更新,可有效降低数据更新量和数据更新时间。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (18)
1.一种多媒体信息更新方法,其特征在于,所述方法包括:
对于每一个多媒体信息集合,当所述多媒体信息集合中包括历史多媒体信息时,判断所述历史多媒体信息的更新时间是否满足更新时间规则;
当所述历史多媒体信息满足更新时间规则时,根据所述历史多媒体信息的更新时间,计算所述多媒体信息集合的第一预测更新时间;
确定第一预测更新时间小于当前时间的指定多媒体信息集合;
根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息。
2.根据权利要求1所述的方法,其特征在于,所述第一预测更新时间包括预测更新日期,所述根据所述历史多媒体信息的更新时间,计算所述多媒体信息集合的第一预测更新时间,包括:
获取每一项历史多媒体信息的更新日期;
统计所述更新日期坐落在第一预设时长中每一天的比例;
计算有多媒体信息更新的天数;
根据所述比例和所述天数,计算所述多媒体信息集合的预测更新日期。
3.根据权利要求1所述的方法,其特征在于,所述第一预测更新时间包括第一预测更新时刻,所述根据所述历史多媒体信息的更新时间,计算所述多媒体信息集合的第一预测更新时间,包括:
获取每一项历史多媒体信息的更新时刻;
根据所述更新时刻,预测所述多媒体信息集合的第二预测更新时刻;
确定当前的更新时间修正值;
根据所述第二预测更新时刻和所述当前的更新时间修正值,计算所述第一预测更新时刻。
4.根据权利要求1或3所述的方法,其特征在于,所述根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息之后,所述方法还包括:
获取修正时间步长和当前的更新时间修正值;
当所述第一预测更新时刻小于指定更新时刻时,根据所述当前的更新时间修正值和所述修正时间步长之和,重置所述当前的更新时间修正值的大小,得到新的更新时间修正值;或,
当所述第一预测更新时刻等于所述指定更新时刻时,根据所述当前的更新时间修正值和所述修正时间步长之差,重置所述当前的更新时间修正值的大小,得到新的更新时间修正值;
其中,所述指定更新时刻为所述指定多媒体信息集合的实际更新时刻。
5.根据权利要求1所述的方法,其特征在于,所述判断所述历史多媒体信息的更新时间是否满足更新时间规则,包括:
根据所述历史多媒体信息的更新时间,判断所述历史多媒体信息之间的更新时间间隔是否大于预设时间阈值;
如果所述历史多媒体信息之间的更新时间间隔大于所述预设时间阈值,则判断所述历史多媒体信息的更新时间满足更新时间规则。
6.根据权利要求1所述的方法,其特征在于,所述判断所述历史多媒体信息的更新时间是否满足更新时间规则之后,所述方法还包括:
当所述历史多媒体信息的更新时间不满足更新时间规则时,每隔第二预设时长获取所述多媒体信息集合的更新数据;
在数据更新时长达到第三预设时长后,根据所述第三预设时长内每一个指定多媒体信息的更新时间,统计所述多媒体信息集合的第二预测更新时间;
根据所述第二预测更新时间,获取更新的多媒体信息。
7.根据权利要求1所述的方法,其特征在于,所述判断所述历史多媒体信息的更新时间是否满足更新时间规则之前,所述方法还包括:
当所述多媒体信息集合中不包括历史多媒体信息时,每隔第二预设时长获取所述多媒体信息集合的更新数据;
在数据更新时长达到第三预设时长后,根据所述第三预设时长内每一个指定多媒体信息的更新时间,统计所述多媒体信息集合的第二预测更新时间;
根据所述第二预测更新时间,获取更新的多媒体信息。
8.根据权利要求1所述的方法,其特征在于,所述根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息,包括:
控制爬虫程序根据所述指定多媒体信息集合的地址信息,抓取所述指定多媒体信息集合对应的网页;
在所述网页中获取更新的多媒体信息。
9.根据权利要求1所述的方法,其特征在于,所述根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息,包括:
当所述指定多媒体信息集合的多媒体信息来源于指定服务器时,根据所述指定多媒体信息集合的地址信息,通过所述指定服务器的数据接口,抓取所述指定多媒体信息集合对应的网页;在所述网页中获取更新的多媒体信息;或,
当所述指定多媒体信息集合的多媒体信息来源于除所述指定服务器之外的其他服务器时,根据所述指定多媒体信息集合的地址信息,获取发布在所述其他服务器的站点上与所述指定多媒体信息集合相关的网页;在所述网页中获取更新的多媒体信息,所述更新的多媒体信息中包括信息的来源标识。
10.一种多媒体信息更新装置,其特征在于,所述装置包括:
更新时间规则判断模块,用于对于每一个多媒体信息集合,当所述多媒体信息集合中包括历史多媒体信息时,判断所述历史多媒体信息的更新时间是否满足更新时间规则;
预测更新时间计算模块,用于当所述历史多媒体信息满足更新时间规则时,根据所述历史多媒体信息的更新时间,计算所述多媒体信息集合的第一预测更新时间;
多媒体信息集合确定模块,用于确定第一预测更新时间小于当前时间的指定多媒体信息集合;
第一多媒体信息获取模块,用于根据所述指定多媒体信息集合的地址信息,获取更新的多媒体信息。
11.根据权利要求10所述的装置,其特征在于,所述第一预测更新时间包括预测更新日期,所述预测更新时间计算模块,用于获取每一项历史多媒体信息的更新日期;统计所述更新日期坐落在第一预设时长中每一天的比例;计算有多媒体信息更新的天数;根据所述比例和所述天数,计算所述多媒体信息集合的预测更新日期。
12.根据权利要求10所述的装置,其特征在于,所述第一预测更新时间包括第一预测更新时刻,所述预测更新时间计算模块,用于获取每一项历史多媒体信息的更新时刻;根据所述更新时刻,预测所述多媒体信息集合的第二预测更新时刻;确定当前的更新时间修正值;根据所述第二预测更新时刻和所述当前的更新时间修正值,计算所述第一预测更新时刻。
13.根据权利要求10或12所述的装置,其特征在于,所述装置还包括:
修正时间获取模块,用于获取修正时间步长和当前的更新时间修正值;
更新时间修正值重置模块,用于当所述第一预测更新时刻小于指定更新时刻时,根据所述当前的更新时间修正值和所述修正时间步长之和,重置所述当前的更新时间修正值的大小,得到新的更新时间修正值;或,当所述第一预测更新时刻等于所述指定更新时刻时,根据所述当前的更新时间修正值和所述修正时间步长之差,重置所述当前的更新时间修正值的大小,得到新的更新时间修正值;
其中,所述指定更新时刻为所述指定多媒体信息集合的实际更新时刻。
14.根据权利要求10所述的装置,其特征在于,所述更新时间规则判断模块,用于根据所述历史多媒体信息的更新时间,判断所述历史多媒体信息之间的更新时间间隔是否大于预设时间阈值;当所述历史多媒体信息之间的更新时间间隔大于所述预设时间阈值时,判断所述历史多媒体信息的更新时间满足更新时间规则。
15.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二多媒体信息获取模块,用于当所述历史多媒体信息的更新时间不满足更新时间规则时,每隔第二预设时长获取所述多媒体信息集合的更新数据;
预测更新时间统计模块,用于在数据更新时长达到第三预设时长后,根据所述第三预设时长内每一个指定多媒体信息的更新时间,统计所述多媒体信息集合的第二预测更新时间;
所述第二多媒体信息获取模块,还用于根据所述第二预测更新时间,获取更新的多媒体信息。
16.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二多媒体信息获取模块,用于当所述多媒体信息集合中不包括历史多媒体信息时,每隔第二预设时长获取所述多媒体信息集合的更新数据;
预测更新时间统计模块,用于在数据更新时长达到第三预设时长后,根据所述第三预设时长内每一个指定多媒体信息的更新时间,统计所述多媒体信息集合的第二预测更新时间;
所述第二多媒体信息获取模块,还用于根据所述第二预测更新时间,获取更新的多媒体信息。
17.根据权利要求10所述的装置,其特征在于,所述多媒体信息获取模块,用于控制爬虫程序根据所述指定多媒体信息集合的地址信息,抓取所述指定多媒体信息集合对应的网页;在所述网页中获取更新的多媒体信息。
18.根据权利要求10所述的装置,其特征在于,所述第一多媒体信息获取模块,用于当所述指定多媒体信息集合的多媒体信息来源于指定服务器时,根据所述指定多媒体信息集合的地址信息,通过所述指定服务器的数据接口,抓取所述指定多媒体信息集合对应的网页;在所述网页中获取更新的多媒体信息;或,当所述指定多媒体信息集合的多媒体信息来源于除所述指定服务器之外的其他服务器时,根据所述指定多媒体信息集合的地址信息,获取发布在所述其他服务器的站点上与所述指定多媒体信息集合相关的网页;在所述网页中获取更新的多媒体信息,所述更新的多媒体信息中包括信息的来源标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410566788.2A CN105528376B (zh) | 2014-10-22 | 2014-10-22 | 多媒体信息更新方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410566788.2A CN105528376B (zh) | 2014-10-22 | 2014-10-22 | 多媒体信息更新方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105528376A true CN105528376A (zh) | 2016-04-27 |
CN105528376B CN105528376B (zh) | 2019-11-15 |
Family
ID=55770602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410566788.2A Active CN105528376B (zh) | 2014-10-22 | 2014-10-22 | 多媒体信息更新方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105528376B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106534285A (zh) * | 2016-10-27 | 2017-03-22 | 杭州华三通信技术有限公司 | 一种访问方法及装置 |
WO2017107449A1 (zh) * | 2015-12-23 | 2017-06-29 | 乐视控股(北京)有限公司 | 网页视频抓取的方法及网页视频抓取的装置 |
CN108763537A (zh) * | 2018-05-31 | 2018-11-06 | 河南科技大学 | 一种基于时间感知的增量机器爬虫方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945576A (zh) * | 2006-10-31 | 2007-04-11 | 上海态格文化传播有限公司 | 自适应网页更新时间预测方法 |
CN103020313A (zh) * | 2013-01-08 | 2013-04-03 | 北京航空航天大学 | 一种基于探测网页更新周期的抓取方法 |
CN103873934A (zh) * | 2014-03-13 | 2014-06-18 | 深圳创维-Rgb电子有限公司 | 一种用于追剧的实时提醒方法及系统 |
CN103957229A (zh) * | 2013-12-31 | 2014-07-30 | 电子科技大学 | IaaS云系统中物理机的主动更新方法、装置及服务器 |
CN103984779A (zh) * | 2014-06-06 | 2014-08-13 | 北京联时空网络通信设备有限公司 | 一种数据更新方法及装置 |
-
2014
- 2014-10-22 CN CN201410566788.2A patent/CN105528376B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945576A (zh) * | 2006-10-31 | 2007-04-11 | 上海态格文化传播有限公司 | 自适应网页更新时间预测方法 |
CN103020313A (zh) * | 2013-01-08 | 2013-04-03 | 北京航空航天大学 | 一种基于探测网页更新周期的抓取方法 |
CN103957229A (zh) * | 2013-12-31 | 2014-07-30 | 电子科技大学 | IaaS云系统中物理机的主动更新方法、装置及服务器 |
CN103873934A (zh) * | 2014-03-13 | 2014-06-18 | 深圳创维-Rgb电子有限公司 | 一种用于追剧的实时提醒方法及系统 |
CN103984779A (zh) * | 2014-06-06 | 2014-08-13 | 北京联时空网络通信设备有限公司 | 一种数据更新方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107449A1 (zh) * | 2015-12-23 | 2017-06-29 | 乐视控股(北京)有限公司 | 网页视频抓取的方法及网页视频抓取的装置 |
CN106534285A (zh) * | 2016-10-27 | 2017-03-22 | 杭州华三通信技术有限公司 | 一种访问方法及装置 |
CN106534285B (zh) * | 2016-10-27 | 2020-10-20 | 新华三技术有限公司 | 一种访问方法及装置 |
CN108763537A (zh) * | 2018-05-31 | 2018-11-06 | 河南科技大学 | 一种基于时间感知的增量机器爬虫方法 |
CN108763537B (zh) * | 2018-05-31 | 2021-05-18 | 河南科技大学 | 一种基于时间感知的增量机器爬虫方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105528376B (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105005909A (zh) | 预测流失用户的方法及装置 | |
CN110147237B (zh) | 一种冗余资源去除方法和装置 | |
CN104850434A (zh) | 多媒体资源下载方法及装置 | |
CN104883610A (zh) | 贴片视频播放方法及装置 | |
CN105554550A (zh) | 视频播放方法及装置 | |
CN104967679A (zh) | 信息推荐系统、方法及装置 | |
CN107544842B (zh) | 应用程序处理方法和装置、计算机设备、存储介质 | |
CN105049423A (zh) | 权限管理系统、装置及方法 | |
CN104836783B (zh) | 数据传输的方法、装置及系统 | |
CN104965721A (zh) | 一种对应用程序进行更新的方法及装置 | |
CN104992342A (zh) | 推广信息投放有效性确定方法、监测服务器及终端 | |
CN104954402A (zh) | 一种应用推荐方法、系统及装置 | |
CN110008008A (zh) | 应用程序处理方法和装置、电子设备、计算机可读存储介质 | |
CN105224556A (zh) | 瀑布流界面显示方法及装置 | |
CN104618794A (zh) | 播放视频的方法和装置 | |
CN107368400A (zh) | Cpu监测方法、装置、计算机可读存储介质和移动终端 | |
CN105307242A (zh) | 一种Wi-Fi网络使用方法及终端 | |
CN105141458A (zh) | 剩余时长展示方法和装置 | |
CN103945241A (zh) | 一种流媒体数据的统计方法、系统及相关装置 | |
CN107562539A (zh) | 应用程序处理方法和装置、计算机设备、存储介质 | |
CN106528335A (zh) | 一种数据备份方法、装置和终端 | |
CN105163189A (zh) | 预约多媒体节目的方法、服务器及终端 | |
CN104253870A (zh) | 控制数据访问周期的方法和装置 | |
CN105550316A (zh) | 音频列表的推送方法及装置 | |
CN105227598A (zh) | 一种基于云存储的资源分享方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |