CN103823907B - 一种整合在线视频资源地址的方法、装置及引擎 - Google Patents

一种整合在线视频资源地址的方法、装置及引擎 Download PDF

Info

Publication number
CN103823907B
CN103823907B CN201410103371.2A CN201410103371A CN103823907B CN 103823907 B CN103823907 B CN 103823907B CN 201410103371 A CN201410103371 A CN 201410103371A CN 103823907 B CN103823907 B CN 103823907B
Authority
CN
China
Prior art keywords
video
resource locator
collection
pages
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410103371.2A
Other languages
English (en)
Other versions
CN103823907A (zh
Inventor
侯小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410103371.2A priority Critical patent/CN103823907B/zh
Publication of CN103823907A publication Critical patent/CN103823907A/zh
Application granted granted Critical
Publication of CN103823907B publication Critical patent/CN103823907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种整合在线视频资源地址的方法、装置及引擎,该方法包括抓取提供视频数据的视频网页,对该视频网页数据结构进行分析,获取对应的视频的数据信息,从而获取该视频数据的其他剧集信息,将该其他剧集信息对应的资源定位地址及该视频网页对应的资源定位地址进行整合并保存。由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。

Description

一种整合在线视频资源地址的方法、装置及引擎
技术领域
本发明涉及搜索领域,特别涉及一种整合在线视频资源地址的方法、装置及引擎。
背景技术
视频资源需求是用户在进行网页搜索中的最大需求之一,视频资源需求的总需求量达到网页搜索总量的10%以上。视频资源包括:微电影、电影、MTV、综艺节目、电视剧等等。当用户观看的视频资源为电视剧时,往往需要观看到电视剧的全集,或者能够及时了解电视剧的更新情况。
随着互联网技术的不断发展,更多的视频资源呈现在网络上供用户选择。对于电视剧,当其更新后会被更新到网络中,但是网络中的每一集的长度和电视上的每一集长度有时不同,并且由于在更新到网络上时电视剧被处理过,因此每个电视剧到底多少集,在每个网络中有不同的展示结果。
对于用户的视频全集的搜索需求,搜索引擎主要是通过对网页的标题和摘要进行计算,给出搜索结果,由于大量的视频页面为了获得用户的关注和点击,在标题和摘要方面做了很多关键词的堆砌,因此,基于网页标题和摘要进行搜索的结果,虽然显示都是全集,但实际上,这些视频全集的搜索结果中,有些可能确实包含视频全集,有些则不包含视频全集。
如图1A所示的对《天天有喜》的视频全集的搜索结果,根据搜索结果可知,不同的搜索结果展示的剧集信息不同,前面两个的搜索结果中显示的该电视剧的全集为91集,第三个搜索结果显示的该电视剧的全集为90集。
用户往往并不知道视频全集到底是多少集,对于搜索结果中在标题或者摘要中声称为全集的,其内容有时则不一定为全集,用户需要点击进入具体的页面才能知晓是否为视频全集,这样,如果用户点击某搜索结果的页面后无法观看到全部的视频剧情,则需要重新点击查看其他搜索结果项或者进行重新搜索,费时费力,搜索的准确性和效率较低。因此需要搜索引擎能够根据搜索到的结果对视频资源的信息进行整合,向用户提供准确的搜索结果。
发明内容
鉴于上述问题,提出了本发明以便提供一种整合在线视频资源地址的方法、装置及引擎,提高搜索的准确度。
依据本发明实施例提供了一种整合在线视频资源地址的方法,该方法包括:
抓取提供某一视频数据在线播放的视频网页;
分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息;
判断所述数据信息中是否包含所述视频数据当前所属剧集,及所述视频数据其他剧集的信息;
如果包含,提取所述其他剧集信息对应的资源定位地址;
将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合,保存到视频标准剧集库。
可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合包括:判断其他剧集对应的资源定位地址是否与所述视频网页对应的资源定位地址属于相同域名;如果属于相同域名,则将所述视频网页对应的资源定位地址与所述其他同类剧集对应资源定位地址进行整合。
可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合包括:判断其他剧集对应的资源定位地址对应的是否为无效链接,如果不是,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,按资源定位地址所属的域名,对整合后的在线视频地址集合按照优先级排序。
可选地,在根据本发明的实施例的整合在线视频资源地址的方法中,该方法还包括:访问所述视频标准剧集库中的所有资源定位地址,将无效链接对应的资源定位地址从所述视频标准剧集库中删除。
本发明实施例提供一种整合在线视频资源地址的装置,该装置包括:
网页抓取单元,适于抓取提供某一视频数据在线播放的视频网页;
数据分析单元,适于分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息;判断所述数据信息中是否包含所述视频数据当前所属剧集、及所述视频数据其他剧集的信息;如果包含,提取所述其他剧集信息对应的资源定位地址;
数据索引单元,适于将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合;
视频标准剧集库,适于保存整合后的视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址。
可选地,在根据本发明的实施例的整合在线视频资源地址的装置中,所述数据分析单元,适于判断其他剧集对应的资源定位地址是否与所述视频网页对应的地址属于相同域名;所述数据索引单元,适于当所述数据分析单元判断属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
可选地,在根据本发明的实施例的整合在线视频资源地址的装置中,所述数据分析单元,适于判断其他剧集对应的资源定位地址是否为无效链接;所述数据索引单元,适于当所述数据分析单元判断不是为无效链接,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
可选地,在根据本发明的实施例的整合在线视频资源地址的装置中,
所述网页抓取单元,还适于重新访问所述视频标准剧集库中的所有资源定位地址;
所述数据分析单元,还适于将所述网页抓取单元访问的无效链接对应的资源定位地址从所述视频标准剧集库中删除。
本发明实施例提供了一种搜索引擎,所述搜索引擎包括上述任一所述的装置。
本发明实施例提供了一种整合在线视频资源地址的方法、装置及引擎,该方法抓取提供视频数据的视频网页,对该视频网页数据结构进行分析,获取对应的视频的数据信息,从而获取该视频数据的其他剧集信息,将该其他剧集信息对应的资源定位地址及该视频网页对应的资源定位地址进行整合并保存。由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1A为现有技术中搜索引擎对《天天有喜》的搜索结果;
图1B为本发明实施例一提供的一种整合在线视频资源地址的方法的流程示意图;
图2为本发明实施例二提供的一种整合在线视频资源地址的过程;
图3为本发明实施例提供的一种整合在线视频资源地址的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
请参见图1B,本发明实施例一提供的一种整合在线视频资源地址的方法,该方法包括:
S110:抓取提供某一视频数据在线播放的视频网页。
具体的该视频数据包括:电视剧、综艺节目、系列电影等视频资源数据。
在本发明实施例中可以预先设定多个视频数据,采用网页抓取程序爬虫(spider)可以遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站,抓取视频数据在线播放的视频网页。
S120:分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息。
具体的,该网页对应的视频的数据信息包括:视频分集信息、剧情介绍信息、评论信息、演员信息、导演信息等等与视频相关的信息。
本发明实施例中,获取视频网页中对应的视频的数据信息时包括:对于抓取的视频网页进行数据结构分析,从而获取视频的数据信息,数据结构分析可以包括但不限于网页结构化、消噪和/或链接分析等。其中,网页结构化是指将网页中的html代码全部删掉,提取出html对应的内容。消噪是指将视频网页中的视频的数据信息保留,可以包括但不限于视频分集信息,例如视频分集的链接(资源定位地址)以及视频分集剧情信息等,例如,保留《天天有喜》第1集的资源定位地址和第1集的分集剧情;删除其他与视频的数据信息无关的信息,例如版权信息等。链接分析是指分析网页中的反向链接、导出链接以及内链等。
S130:判断所述数据信息中是否包含所述视频数据当前所属剧集,及所述视频数据其他剧集的信息,当判断结果为是时,进行步骤S140,否则,该整合在线视频资源地址的过程结束。
S140:提取所述其他剧集信息对应的资源定位地址。
具体的,该资源定位地址可以是视频数据的统一资源定位符(URL)。
S150:将所述视频网页对应的资源定位地址与所述其他剧集对应资源定位地址进行整合,保存到视频标准剧集库。
具体的在整合时,可以针对获取到的每个视频数据的资源定位地址,将其对应的相应剧集的资源定位地址进行整合并保存,即在视频标准剧集库中针对每个视频数据保存有其每一剧集的资源定位地址信息等。
由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。
实施例二
本实施例中,在对提取到的视频数据的资源定位地址进行整合时,可以根据视频数据的名称,将相同名称的视频数据的资源定位地址整合到一起。而为了提高整合的准确性,避免重复信息、噪声等干扰,提高后续搜索结果提供的准确性,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合包括:
判断其他剧集对应资源定位地址是否与所述视频网页对应的资源定位地址属于相同域名;
如果属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应资源定位地址进行整合。
具体的,网站可以按照按域名划分,也可以按照IP地址进行划分,在一个提供视频数据在线播放的视频网页中,往往含有多个指向其他页面的链接,这些链接中一部分可能是指向该视频数据的其他剧集的相关网页的,另一部分链接可能是指向广告等噪声链接的,还有部分可能会指向其他不相关视频信息的。一般噪声链接以及其他不相关视频信息的链接与该视频网页对应的资源定位地址的域名不相同,因此,通过判断资源定位地址的域名是否与该视频网页对应的资源定位地址的域名相同,就可以将所述视频网页对应的资源定位地址与该视频数据的其他剧集对应资源定位地址进行整合。
图2为本发明实施例二提供的一种整合在线视频资源地址的过程,该过程包括以下步骤:
S201:抓取提供某一视频数据在线播放的视频网页。
S202:分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息。
S203:判断所述数据信息中是否包含所述视频数据当前所属剧集,及所述视频数据其他剧集的信息,当判断结果为是时,进行步骤S204,否则,该整合在线视频资源地址的过程结束。
S204:提取所述其他剧集信息对应的资源定位地址。
S205:判断其他剧集对应的资源定位地址是否与所述视频网页对应的资源定位地址属于相同域名,当判断结果为是时,进行步骤S206,否则,进行步骤S207。
S206:将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合,保存到视频标准剧集库。
S207:将其他剧集对应的资源定位地址删除。
实施例三
为了进一步提高提供的搜索结果的准确性,对于网页中的链接,由于多种原因,包括但不限于某个文件或网页移动了位置,导致其原有的资源定位地址指向它时变成无效链接;或者网页内容更新并换成其他的链接,该网页内容原来的链接变成无效链接;和/或网站服务器设置错误,导致指向网页内容的链接变成无效链接。如果存在无效链接则需要将无效链接去除后整合视频标准剧集库,从而保证视频搜索的准确性。爬虫(spider)在抓取网页时,可以检查网页中所有链接的状态并提供链接状态报告,而在视频网页中爬虫不能抓取框架内的链接或JavaScript或Flash内的链接。
本发明实施例中所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合还可以包括:
判断其他剧集对应的资源定位地址对应的是否为无效链接;
如果不是,则将所述视频网页对应的资源定位地址与所述其他同类剧集对应资源定位地址进行整合。
可选地,对整合后的在线视频地址集合,可以按资源定位地址所属的不同域名进行优先级排序。
视频网页具有很强的动态性,会经常发生更新,更新包括增加、删除或者修改,为了保证视频标准剧集库实时的准确性,因此,可以定期或者不定期对视频标准剧集库中的资源定位地址进行检测,其检测方式为访问所述视频标准剧集库中的所有资源定位地址,将无效链接对应的资源定位地址从所述视频标准剧集库中删除。
在根据该视频标准剧集库进行视频资源的提供时包括:
1、搜索引擎接收到视频关键词查询query。
可通过浏览器向搜索引擎发送需要观看视频全集的视频关键词查询(query)例如,用户在浏览器的搜索框中输入视频关键词为“天天有喜全集观看”,那么,浏览器会将该视频关键词传送给搜索引擎进行相关视频全集的搜索。
2、根据视频关键词查询query返回的包含有与视频关键词匹配的视频全集信息的应用模板的搜索结果页。
搜索引擎根据视频关键词查询query在数据索引库中的视频标准数据库中进行分词匹配,将视频网页数据结构中与视频关键词匹配的搜索结果页反馈给浏览器,在每个搜索结果页中,通过加载应用模板的形式携带与视频关键词匹配的视频全集信息,其中,视频全集信息可以包括与视频关键词匹配的视频全集集数以及当前页面中与视频关键词匹配的视频集数的信息,还可以包括与视频关键词匹配的视频播放软件名称的信息,以及还可以包括当前页面中与视频关键词匹配的视频各集链接的信息等等。
基于本发明实施例中的视频标准剧集库,用户能够通过应用模板中记载的视频全集的相关信息来准确地了解该网页是否真实包含了视频全集的内容,而不必像现有技术那样,点击进入具体的搜索结果页去查看是否真的包含了视频全集的内容,提高了视频搜索的准确性和效率。
请参见图3,本发明实施例提供的一种整合在线视频资源地址的装置,该装置310包括:
网页抓取单元320,适于抓取提供某一视频数据在线播放的视频网页;提供某一视频数据在线播放的视频网页存储在网页服务器311中;
数据分析单元330,适于分析所述抓取到的视频网页数据结构,获取所述视频网页中对应的视频的数据信息;判断所述数据信息中是否包含所述视频数据当前所属剧集,及所述视频数据其他剧集的信息;如果包含,提取所述其他剧集信息对应的资源定位地址;
数据索引单元340,适于将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合;
视频标准剧集库350,适于保存整合后的视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址。
在本发明的一个实施例中,所述数据分析单元330,适于判断其他剧集对应的资源定位地址是否与所述视频网页对应的地址属于相同域名;
所述数据索引单元340,适于当所述数据分析单元判断属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
在本发明的一个实施例中,所述数据分析单元330,适于判断其他剧集对应的资源定位地址对应的是否为无效链接;
所述数据索引单元340,适于当所述数据分析单元判断不是为无效链接,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
在本发明的一个实施例中,还可以包括排序单元360,适于按资源定位地址所属的不同域名,对整合后的在线视频地址集合进行优先级排序。
在本发明的一个实施例中,所述网页抓取单元320,还适于重新访问所述视频标准剧集库中的所有资源定位地址;
所述数据分析单元330,还适于将所述网页抓取单元访问的无效链接对应的资源定位地址从所述视频标准剧集库中删除。
本发明实施例还提供了一种搜索引擎,所述搜索引擎包括上述任一所述的装置。
本发明实施例提供了一种整合在线视频资源地址的方法、装置及引擎,该方法抓取提供视频数据的视频网页,对该视频网页数据结构进行分析,获取对应的视频的数据信息,从而获取该视频数据的其他剧集信息,将该其他剧集信息对应的资源定位地址及该视频网页对应的资源定位地址进行整合并保存。由于在本发明实施例中针对每个视频数据,获取了该视频数据每个剧集的信息,并对其每个剧集的资源定位地址进行了整合,因此搜索引擎在根据整合后的信息向用户提供视频数据的搜索结果时,可以保证提供的搜索结果的准确性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种整合在线视频资源地址的方法,该方法包括:
抓取提供某一视频数据在线播放的视频网页;
分析所述抓取到的视频网页数据结构,对所述视频网页进行数据结构分析,获取所述视频网页中对应的视频的数据信息,所述数据结构分析包括网页结构化、消噪和/或链接分析;其中,所述网页对应的视频的数据信息包括以下信息中的至少一种:视频分集信息、剧情介绍信息、评论信息、演员信息、导演信息;
判断所述数据信息中是否包含所述视频数据当前所属剧集,及所述视频数据其他剧集的信息;
如果包含,提取所述其他剧集信息对应的资源定位地址;
将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合,保存到视频标准剧集库,搜索引擎根据整合后的信息向用户终端提供视频数据的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合包括:
判断其他剧集对应的资源定位地址是否与所述视频网页对应的资源定位地址属于相同域名;
如果属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按资源定位地址所属的域名,对整合后的在线视频地址集合按照优先级排序。
4.根据权利要求1所述的方法,其特征在于,所述将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合包括:
判断其他剧集对应的资源定位地址是否为无效链接,如果不是,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
5.根据权利要求1至4任一项所述的方法,其特征在于,该方法还包括:
访问所述视频标准剧集库中的所有资源定位地址,将无效链接对应的资源定位地址从所述视频标准剧集库中删除。
6.一种整合在线视频资源地址的装置,该装置包括:
网页抓取单元,适于抓取提供某一视频数据在线播放的视频网页;
数据分析单元,适于分析所述抓取到的视频网页数据结构,对所述视频网页进行数据结构分析,获取所述视频网页中对应的视频的数据信息,所述数据结构分析包括网页结构化、消噪和/或链接分析;其中,所述网页对应的视频的数据信息包括以下信息中的至少一种:视频分集信息、剧情介绍信息、评论信息、演员信息、导演信息;判断所述数据信息中是否包含所述视频数据当前所属剧集,及所述视频数据其他剧集的信息;如果包含,提取所述其他剧集信息对应的资源定位地址;
数据索引单元,适于将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合;
视频标准剧集库,适于保存整合后的视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址,搜索引擎根据整合后的信息向用户终端提供视频数据的搜索结果。
7.根据权利要求6所述的装置,其特征在于,
所述数据分析单元,适于判断其他剧集对应的资源定位地址是否与所述视频网页对应的地址属于相同域名;
所述数据索引单元,适于当所述数据分析单元判断属于相同域名,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
8.根据权利要求6所述的装置,其特征在于,
所述数据分析单元,适于判断其他剧集对应的资源定位地址是否为无效链接;
所述数据索引单元,适于当所述数据分析单元判断不是为无效链接,则将所述视频网页对应的资源定位地址与所述其他剧集对应的资源定位地址进行整合。
9.根据权利要求6至8任一项所述的装置,其特征在于,
所述网页抓取单元,还适于重新访问所述视频标准剧集库中的所有资源定位地址;
所述数据分析单元,还适于将所述网页抓取单元访问的无效链接对应的资源定位地址从所述视频标准剧集库中删除。
10.一种搜索引擎,其特征在于,所述搜索引擎包括如权利要求6~9任一所述的装置。
CN201410103371.2A 2014-03-19 2014-03-19 一种整合在线视频资源地址的方法、装置及引擎 Active CN103823907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410103371.2A CN103823907B (zh) 2014-03-19 2014-03-19 一种整合在线视频资源地址的方法、装置及引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410103371.2A CN103823907B (zh) 2014-03-19 2014-03-19 一种整合在线视频资源地址的方法、装置及引擎

Publications (2)

Publication Number Publication Date
CN103823907A CN103823907A (zh) 2014-05-28
CN103823907B true CN103823907B (zh) 2018-03-02

Family

ID=50758971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410103371.2A Active CN103823907B (zh) 2014-03-19 2014-03-19 一种整合在线视频资源地址的方法、装置及引擎

Country Status (1)

Country Link
CN (1) CN103823907B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108184138A (zh) * 2017-11-20 2018-06-19 腾讯科技(深圳)有限公司 视频播放方法、服务器、客户端、存储介质和电子装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021170B (zh) * 2014-05-30 2018-01-16 华为技术有限公司 一种信息获取方法及云端服务器
CN106470349A (zh) * 2015-08-21 2017-03-01 中国科学院声学研究所 一种智能电视中html5视频的提取和操控优化方法
CN105631044A (zh) * 2016-01-29 2016-06-01 四川长虹电器股份有限公司 网络视频资源的汇聚方法
CN107547912B (zh) * 2017-09-01 2020-10-13 深圳创维数字技术有限公司 一种全媒资的资源处理方法、系统和存储介质
CN107918657B (zh) * 2017-11-20 2021-10-08 腾讯科技(深圳)有限公司 一种数据源的匹配方法和装置
CN110290405B (zh) * 2018-03-19 2020-10-16 北大方正集团有限公司 视频地址的解析方法、装置、设备及可读存储介质
CN110909206B (zh) * 2019-12-03 2023-06-23 北京百度网讯科技有限公司 用于输出信息的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339560A (zh) * 2008-08-11 2009-01-07 北京搜狗科技发展有限公司 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN101719167A (zh) * 2010-01-15 2010-06-02 北京暴风网际科技有限公司 一种可互动的影视搜索方法
CN101854249A (zh) * 2010-02-01 2010-10-06 深圳市同洲电子股份有限公司 一种基于单向广播网的互联网信息应用方法、系统及终端
CN103024535A (zh) * 2012-12-25 2013-04-03 北京奇虎科技有限公司 一种视频的播放方法、服务器及视频的播放系统
CN103024608A (zh) * 2012-11-19 2013-04-03 Tcl集团股份有限公司 一种网络媒体播放的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339560A (zh) * 2008-08-11 2009-01-07 北京搜狗科技发展有限公司 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN101719167A (zh) * 2010-01-15 2010-06-02 北京暴风网际科技有限公司 一种可互动的影视搜索方法
CN101854249A (zh) * 2010-02-01 2010-10-06 深圳市同洲电子股份有限公司 一种基于单向广播网的互联网信息应用方法、系统及终端
CN103024608A (zh) * 2012-11-19 2013-04-03 Tcl集团股份有限公司 一种网络媒体播放的方法及装置
CN103024535A (zh) * 2012-12-25 2013-04-03 北京奇虎科技有限公司 一种视频的播放方法、服务器及视频的播放系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108184138A (zh) * 2017-11-20 2018-06-19 腾讯科技(深圳)有限公司 视频播放方法、服务器、客户端、存储介质和电子装置

Also Published As

Publication number Publication date
CN103823907A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823907B (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN108694223B (zh) 一种用户画像库的构建方法及装置
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
US20170257390A1 (en) System and methods for scalably identifying and characterizing structural differences between document object models
US20140015860A1 (en) Augmented reality service
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN103838862B (zh) 一种视频搜索的方法、装置及终端
US20090077065A1 (en) Method and system for information searching based on user interest awareness
CN103617241B (zh) 搜索信息处理方法、浏览器终端与服务器
CN108959595B (zh) 基于虚拟与现实的网站构建和体验方法及其装置
CN105095175B (zh) 获取截短的网页标题的方法及装置
CN106844486A (zh) 爬取动态网页的方法及装置
CN104284250A (zh) 一种视频处理方法、装置、服务器和客户端设备
JP4875911B2 (ja) コンテンツ特定方法及び装置
CN104133830A (zh) 一种数据获取方法
CN111224923B (zh) 一种仿冒网站的检测方法、装置及系统
CN103164423A (zh) 一种用于确定渲染网页的浏览器内核类型的方法与设备
CN105117482A (zh) 一种实现网站导航的方法和装置
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
CN104156458B (zh) 一种信息的提取方法及装置
CN102929948B (zh) 列表页识别系统及方法
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN104123337A (zh) 一种预测报考信息的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220725

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.