CN104572996A - 视频网页的处理方法和装置 - Google Patents
视频网页的处理方法和装置 Download PDFInfo
- Publication number
- CN104572996A CN104572996A CN201510006287.3A CN201510006287A CN104572996A CN 104572996 A CN104572996 A CN 104572996A CN 201510006287 A CN201510006287 A CN 201510006287A CN 104572996 A CN104572996 A CN 104572996A
- Authority
- CN
- China
- Prior art keywords
- picture
- information
- data
- video
- web data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提出一种视频网页的处理方法和系统,该视频网页的处理方法包括:获取最新的网页数据流,并从最新的网页数据流中筛选出目标站点的网页数据流,目标站点的网页数据流中包含目标网页数据;对目标网页数据进行解析,获取目标网页数据中包含的图片的信息和视频数据,并将图片的信息发送给图片处理系统,以使图片处理系统根据图片的信息获取图片并对图片进行处理,得到处理后的图片;接收图片处理系统发送的处理后的图片的信息,并根据处理后的图片的信息获取处理后的图片,以及根据处理后的图片和视频数据进行数据融合,得到用于线上展示的视频资源。该方法能够提高视频资源搜索和展示效果。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种视频网页的处理方法和装置。
背景技术
视频垂搜是专业化视频搜索引擎,用于满足用户对于视频资源的搜索。由于视频数据较为复杂,需要从视频列表页与视频播放页共同去解析结构化数据才能达到较好的数据覆盖。
目前,传统的视频结构化数据解析方案需要在网页数据库中对全量网页进行筛选并发送给客户端,在客户端本地进行数据结构化解析和图片处理,导致时效性和图片处理能力都较差,视频资源搜索和展示效果不佳。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种视频网页的处理方法,该方法可以提高视频资源搜索和展示效果。
本发明的另一个目的在于提出一种视频网页的处理装置。
为达到上述目的,本发明实施例提出的视频网页的处理方法,包括:获取最新的网页数据流,所述最新的网页数据流是指更新时间与当前时间的差值小于预设值的网页数据流,并从所述最新的网页数据流中筛选出目标站点的网页数据流,所述目标站点的网页数据流中包含目标网页数据;对所述目标网页数据进行解析,获取所述目标网页数据中包含的图片的信息和视频数据,并将所述图片的信息发送给图片处理系统,以使所述图片处理系统根据所述图片的信息获取图片并对所述图片进行处理,得到处理后的图片;接收所述图片处理系统发送的所述处理后的图片的信息,并根据所述处理后的图片的信息获取所述处理后的图片,以及根据所述处理后的图片和所述视频数据进行数据融合,得到用于线上展示的视频资源。
本发明实施例提出的视频网页的处理方法,通过获取最新的网页数据流,并筛选出目标站点的包含目标网页数据的网页数据流,对目标网页数据进行解析,可以提高时效性,通过将图片的信息发送给图片处理系统以对图片进行处理,可以由专门的图片处理系统进行图片处理,提高图片处理能力,从而可以提高视频资源搜索和展示效果,提高用户体验。
为达到上述目的,本发明实施例提出的视频网页的处理装置,包括:获取模块,用于获取最新的网页数据流,所述最新的网页数据流是指更新时间与当前时间的差值小于预设值的网页数据流;筛选模块,用于从所述最新的网页数据流中筛选出目标站点的网页数据流,所述目标站点的网页数据流中包含目标网页数据;解析模块,用于对所述目标网页数据进行解析,获取所述目标网页数据中包含的图片的信息和视频数据,并将所述图片的信息发送给图片处理系统,以使所述图片处理系统根据所述图片的信息获取图片并对所述图片进行处理,得到处理后的图片;融合模块,用于接收所述图片处理系统发送的所述处理后的图片的信息,并根据所述处理后的图片的信息获取所述处理后的图片,以及根据所述处理后的图片和所述视频数据进行数据融合,得到用于线上展示的视频资源。
本发明实施例提出的视频网页的处理装置,通过获取最新的网页数据流,并筛选出目标站点的包含目标网页数据的网页数据流,对目标网页数据进行解析,可以提高时效性,通过将图片的信息发送给图片处理系统以对图片进行处理,可以由专门的图片处理系统进行图片处理,提高图片处理能力,从而可以提高视频资源搜索和展示效果,提高用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例提出的视频网页的处理方法的流程示意图;
图2是本发明另一实施例提出的视频网页的处理方法的流程示意图;
图3是本发明另一实施例的视频网页的处理装置的结构示意图;
图4是本发明另一实施例的视频网页的处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
下面参考附图描述根据本发明实施例的视频网页的处理方法和装置。
图1是本发明一实施例提出的视频网页的处理方法的流程示意图,该方法包括:
S101:获取最新的网页数据流,并从最新的网页数据流中筛选出目标站点的网页数据流,目标站点的网页数据流中包含目标网页数据。
其中,最新的网页数据流是指更新时间与当前时间的差值小于预设值的网页数据流。
具体地,网页抓取器(Spider)可以抓取最新的网页数据流,目标站点资源筛选模块可以根据预先指定的视频站点即目标站点,例如根据网站的URL(Uniform ResoureLocator,统一资源定位符)地址,筛选出对应的网页数据流。
由于网页抓取器可以实时抓取最新的网页数据流,本实施例可以以较高的频率获取最新的网页数据流,以使整体过程具有更强的时效性。
S102:对目标网页数据进行解析,获取目标网页数据中包含的图片的信息和视频数据,并将图片的信息发送给图片处理系统,以使图片处理系统根据图片的信息获取图片并对图片进行处理,得到处理后的图片。
具体地,目标站点资源筛选模块在筛选出目标站点的网页数据流后,可以将该目标站点的网页数据流发送给网页解析服务器。
网页解析服务器可以对目标网页数据进行解析,获取目标网页数据中包含的图片的信息和视频数据。
其中,视频数据可以包括播放页数据和列表页数据。视频播放页例如加载视频播放器进行视频播放的网页,视频列表页例如包括多个视频信息如缩略图、名称、链接的视频搜索结果列表页等。
网页解析服务器载入解析策略并接收目标网页数据后,可以先对目标网页数据进行识别,确定目标网页数据对应的网页的类型,所述类型包括视频播放页或者视频列表页;然后根据网页的类型进行解析,获取对应的播放页数据或者列表页数据,并标记对应的类型标记。
图片的信息可以是图片的链接信息。通过链接信息可以加载对应的图片。网页解析服务器可以将图片的信息发送给图片处理系统,以使图片处理系统根据图片的信息获取图片并对图片进行处理,得到处理后的图片。
可选的,图片处理系统根据图片的信息获取图片并对图片进行处理可以是根据图片的链接信息获取图片;根据预设算法对获取的图片进行分析,获取图片的长度的信息和宽度的信息;根据长度的信息和宽度的信息以及预设的规则,对图片进行压缩和/或裁剪处理,使得处理后的图片满足预设的展示要求;保存处理后的图片,并生成处理后的图片的信息,例如对处理后的图片进行哈希运算得到的哈希地址信息,通过该哈希地址信息可以获取对应的处理后的图片。
S103:接收图片处理系统发送的处理后的图片的信息,并根据处理后的图片的信息获取处理后的图片,以及根据处理后的图片和视频数据进行数据融合,得到用于线上展示的视频资源。
具体地,可以根据处理后的图片和视频数据进行数据融合,例如将处理后的图片与视频的题目、摘要及链接进行融合,得到用于线上展示的具有预览图、标题、摘要和链接的视频资源。
可选的,可以先对播放页数据和列表页数据进行融合,得到结构化信息;再对处理后的图片和结构化信息进行融合,得到融合后的信息;然后对应融合后的信息建立索引,得到用于线上展示的视频资源,例如以索引形式展示的视频资源列表。
本实施例通过获取最新的网页数据流,并筛选出目标站点的包含目标网页数据的网页数据流,对目标网页数据进行解析,可以提高时效性,通过将图片的信息发送给图片处理系统以对图片进行处理,可以由专门的图片处理系统进行图片处理,提高图片处理能力,从而可以提高视频资源搜索和展示效果,提高用户体验。
图2是根据本发明另一实施例提出的视频网页的处理方法的流程示意图,该方法包括:
S201:网页抓取器(Spider)获取最新的网页数据流,并将最新的网页数据流发送给目标站点资源筛选模块。
其中,最新的网页数据流是指更新时间与当前时间的差值小于预设值的网页数据流。
具体地,网页抓取器(Spider)可以抓取最新的网页数据流,并将最新的网页数据流发送给目标站点资源筛选模块。
由于网页抓取器可以实时抓取最新的网页数据流,本实施例可以以较高的频率获取最新的网页数据流,即设置较小的更新时间差预设值,以使整体过程具有更强的时效性。
S202:目标站点资源筛选模块从最新的网页数据流中筛选出目标站点的网页数据流,目标站点的网页数据流中包含目标网页数据,并将目标站点的网页数据流发送给网页解析服务器。
具体地,目标站点资源筛选模块可以根据预先指定的视频站点即目标站点,例如,可以根据网站的URL地址,筛选出对应的网页数据流,视频站点如优酷视频、土豆视频、搜狐视频等。
其中,目标站点的网页数据流中包含目标网页数据,目标网页数据可以包含图片的信息和视频数据等,目标站点资源筛选模块可以将目标站点的网页数据流发送给网页解析服务器。
S203:网页解析服务器对目标网页数据进行解析,获取目标网页数据中包含的图片的信息和视频数据,并将图片的信息发送给图片处理系统,将视频数据发送给视频数据库。
网页解析服务器可以对目标网页数据进行解析,获取目标网页数据中包含的图片的信息和视频数据。
其中,视频数据可以包括播放页数据和列表页数据。
具体地,网页解析服务器载入解析策略并接收目标网页数据后,可以先对目标网页数据进行识别,确定目标网页数据对应的网页的类型,网页的类型包括视频播放页和视频列表页,视频播放页例如加载视频播放器进行视频播放的网页,视频列表页例如包括多个视频信息如缩略图、名称、链接的视频搜索结果列表页等;然后根据网页的类型进行解析,获取对应的播放页数据或者列表页数据,并标记对应的类型标记。
例如接收到的目标网页数据来自优酷网的视频播放页,则网页解析服务器可以根据视频播放页的解析策略对该数据进行解析,得到播放页数据,如视频中的图片,视频的名称、清晰度、时长等。
S204:图片处理系统中的图片抓取服务器根据接收的图片的信息抓取图片并发送给图片处理系统中的图片处理服务器。
具体地,图片的信息可以是图片的链接信息。图片抓取服务器可以根据图片的信息获取对应的图片,例如可以通过图片的链接信息进行图片文件的访问及抓取,并发送给图片处理系统中的图片处理服务器,以使图片处理服务器对图片进行处理。
S205:图片处理系统中的图片处理服务器对图片进行处理。
具体地,图片处理系统中的图片处理服务器可根据预设算法对获取的图片进行分析,获取到图片的长度和宽度等信息,根据长度的信息和宽度的信息以及预设的规则,对图片进行压缩和/或裁剪等处理,使得处理后的图片满足预设的展示要求,预设的展示要求例如图片的像素值小于预设值,图片尺寸小于预设的尺寸等。
S206:图片处理系统中的图片处理服务器将处理后的图片保存到图片处理系统中的图片数据库中。
具体地,图片处理服务器可以将处理后的图片保存在图片数据库中,图片数据库用于保存所有满足预设的展示要求的图片资源。同时,还可以对应处理后的图片保存图片的原地址链接信息等。
S207:图片数据库生成处理后的图片的地址信息,并将地址信息发送给视频数据库。
具体地,图片数据库可以对处理后的图片进行哈希运算,得到哈希地址信息,并将该哈希地址信息确定为处理后的图片的信息。其中,根据哈希地址信息可以获取到图片数据库中对应的处理后的图片。
图片处理系统可以将处理后的图片的地址信息发送到视频数据库中,以进行下一步的处理。
S208:视频数据库根据处理后的图片和视频数据进行数据融合,得到用于线上展示的视频资源。
视频数据库可以先对视频数据进行结构化处理,然后根据接收到的处理后的图片的地址信息获取与视频数据对应的图片,从而将处理后的图片与结构化的视频数据进行融合,得到用于线上展示的视频资源。
首先,视频数据库可以对播放页数据和列表页数据进行融合,得到结构化信息。
具体地,可根据网页解析服务器做出的类型标记确定出列表页数据,并对列表页数据进行分解与格式化,得到处理后的列表页数据;将处理后的列表页数据与具有相同URL的播放页数据进行结构化信息的融合,得到结构化信息。例如从列表数据中分解得到某视频的信息,该信息中应包含视频的名称、摘要、链接地址等,通过链接地址可获取该视频对应的播放页,因此可将该视频的信息格式化后与具有相同URL的播放页数据进行结构化信息的融合,得到结构化信息。
其次,对处理后的图片和结构化信息进行融合,得到融合后的信息。具体地,结构化信息可以包含视频的名称、摘要、链接地址等信息,可通过将处理后的图片与结构化信息进行融合,得到具有处理后的图片和视频信息的融合后的信息。
然后,对应融合后的信息建立索引,得到用于线上展示的视频资源。例如,可根据融合后的信息中的视频内容类型、名称、摘要等建立索引。
S209:线上展示。
可通过预设的展现形式对得到的视频资源进行展示,例如分类展示;还可以在用户搜索后展示相应的视频资源,具体地展示形式有多种,本发明对此不做限定。
本实施例通过获取最新的网页数据流,并筛选出目标站点的包含目标网页数据的网页数据流,对目标网页数据进行解析,可以提高时效性,通过将图片的信息发送给图片处理系统,由专门的图片处理系统进行图片处理,提高图片处理能力,从而可以提高视频资源搜索和展示效果,提高用户体验。另外,将处理后的图片与视频数据进行融合,加快了资源加载速度,有效提高视频资源搜索结果和展现效果。
为了实现上述实施例,本发明还提出一种视频网页的处理装置。
图3是本发明另一实施例的视频网页的处理装置的结构示意图。如图3所示,该视频网页的处理装置包括:获取模块100、筛选模块200、解析模块300和融合模块400。
具体地,获取模块100用于获取最新的网页数据流。其中,最新的网页数据流是指更新时间与当前时间的差值小于预设值的网页数据流。在本发明的具体实施例中,获取模块100可以是网页抓取器(Spider)。
更具体地,网页抓取器(Spider)可以抓取最新的网页数据流,并将最新的网页数据流发送给筛选模块200。
由于网页抓取器可以实时抓取最新的网页数据流,本实施例可以以较高的频率获取最新的网页数据流,即设置较小的更新时间差预设值,以使整体过程具有更强的时效性。
筛选模块200用于从所述最新的网页数据流中筛选出目标站点的网页数据流,所述目标站点的网页数据流中包含目标网页数据。在本发明的具体实施例中,筛选模块200可以根据预先指定的视频站点即目标站点,例如,可以根据网站的URL地址,筛选出对应的网页数据流,视频站点如优酷视频、土豆视频、搜狐视频等。
其中,目标站点的网页数据流中包含目标网页数据,目标网页数据可以包含图片的信息和视频数据等,筛选模块200可以将目标站点的网页数据流发送给网页解析服务器。
解析模块300用于对所述目标网页数据进行解析,获取所述目标网页数据中包含的图片的信息和视频数据,并将所述图片的信息发送给图片处理系统,以使所述图片处理系统根据所述图片的信息获取图片并对所述图片进行处理,得到处理后的图片。在本发明的具体实施例中,解析模块300可以是网页解析服务器。网页解析服务器可以对目标网页数据进行解析,获取目标网页数据中包含的图片的信息和视频数据。
其中,视频数据可以包括播放页数据和列表页数据。视频播放页例如加载视频播放器进行视频播放的网页,视频列表页例如包括多个视频信息如缩略图、名称、链接的视频搜索结果列表页等。
网页解析服务器载入解析策略并接收目标网页数据后,可以先对目标网页数据进行识别,确定目标网页数据对应的网页的类型,所述类型包括视频播放页或者视频列表页;然后根据网页的类型进行解析,获取对应的播放页数据或者列表页数据,并标记对应的类型标记。
图片的信息可以是图片的链接信息。通过链接信息可以加载对应的图片。网页解析服务器可以将图片的信息发送给图片处理系统,以使图片处理系统根据图片的信息获取图片并对图片进行处理,得到处理后的图片。
融合模块400用于接收所述图片处理系统发送的所述处理后的图片的信息,并根据所述处理后的图片的信息获取所述处理后的图片,以及根据所述处理后的图片和所述视频数据进行数据融合,得到用于线上展示的视频资源。更具体地,融合模块400可以根据处理后的图片和视频数据进行数据融合,例如将处理后的图片与视频的题目、摘要及链接进行融合,得到用于线上展示的具有预览图、标题、摘要和链接的视频资源。
本实施例通过获取最新的网页数据流,并筛选出目标站点的包含目标网页数据的网页数据流,对目标网页数据进行解析,可以提高时效性,通过将图片的信息发送给图片处理系统以对图片进行处理,可以由专门的图片处理系统进行图片处理,提高图片处理能力,从而可以提高视频资源搜索和展示效果,提高用户体验。
图4是本发明另一实施例的视频网页的处理装置的结构示意图。如图4所示,该视频网页的处理装置包括:获取模块100、筛选模块200、解析模块300、识别子模块310、获取子模块320、融合模块400、结构化子模块410、分解单元411、融合单元412、融合子模块420、建立子模块430、图片获取模块500、图片分析模块600、图片处理模块700、生成模块800、哈希子模块810和确定子模块820。其中,解析模块300包括:识别子模块310和获取子模块320;融合模块400包括:结构化子模块410、融合子模块420和建立子模块430;结构化子模块410包括:分解单元411和融合单元412;生成模块800包括:哈希子模块810和确定子模块820。
具体地,识别子模块310用于对目标网页数据进行识别,确定目标网页数据对应的网页的类型,类型包括视频播放页或者视频列表页。更具体地,网页解析服务器载入解析策略并接收目标网页数据后,识别子模块310可以对目标网页数据进行识别,确定目标网页数据对应的网页的类型,网页的类型包括视频播放页和视频列表页,视频播放页例如加载视频播放器进行视频播放的网页,视频列表页例如包括多个视频信息如缩略图、名称、链接的视频搜索结果列表页等。
获取子模块320用于根据网页的类型进行解析,获取对应的播放页数据或者列表页数据,并标记对应的类型标记。例如接收到的目标网页数据来自优酷网的视频播放页,则可以根据视频播放页的解析策略对该数据进行解析,得到播放页数据,如视频中的图片,视频的名称、清晰度、时长等。
解析模块300可以将获取到的图片的信息发送给图片处理系统,将视频数据发送给视频数据库。图片处理系统可以包括图片抓取服务器、图片处理服务器和图片数据库。
图片获取模块500用于根据图片的链接信息获取图片。图片获取模块500可以是图片抓取服务器。更具体地,图片的信息可以是图片的链接信息。图片抓取服务器可以根据图片的信息获取对应的图片,例如可以通过图片的链接信息进行图片文件的访问及抓取,并发送给图片处理系统中的图片处理服务器,以使图片处理服务器对图片进行处理。
图片分析模块600用于根据预设算法对获取的图片进行分析,获取图片的长度的信息和宽度的信息。图片处理服务器可以包括图片分析模块600。
图片处理模块700用于根据长度信息和宽度的信息以及预设的规则,对图片进行压缩和/或裁剪处理,使得处理后的图片满足预设的展示要求。图片处理服务器可以包括图片处理模块700。
更具体地,图片分析模块600可根据预设算法对获取的图片进行分析,获取到图片的长度和宽度等信息,图片处理模块700根据长度的信息和宽度的信息以及预设的规则,对图片进行压缩和/或裁剪等处理,使得处理后的图片满足预设的展示要求,预设的展示要求例如图片的像素值小于预设值,图片尺寸小于预设的尺寸等。
图片处理模块700可以将处理后的图片保存在图片数据库中,图片数据库用于保存所有满足预设的展示要求的图片资源。同时,还可以对应处理后的图片保存图片的原地址链接信息等。
生成模块800用于保存处理后的图片,并生成处理后的图片的信息。更具体地,生成模块800中的哈希子模块810可以对处理后的图片进行哈希运算,得到哈希地址信息,确定子模块820将该哈希地址信息确定为处理后的图片的信息。其中,根据哈希地址信息可以获取到图片数据库中对应的处理后的图片。
图片处理系统可以将处理后的图片的地址信息发送到视频数据库中,融合模块400可以先对视频数据进行结构化处理,然后根据接收到的处理后的图片的地址信息获取与视频数据对应的图片,从而将处理后的图片与结构化的视频数据进行融合,得到用于线上展示的视频资源。
结构化子模块410用于对播放页数据和列表页数据进行融合,得到结构化信息。更具体地,结构化子模块410中的分解单元411可根据网页解析服务器做出的类型标记确定出列表页数据,并对列表页数据进行分解与格式化,得到处理后的列表页数据;融合单元412用于将处理后的列表页数据与具有相同URL的播放页数据进行结构化信息的融合,得到结构化信息。例如从列表数据中分解得到某视频的信息,该信息中应包含视频的名称、摘要、链接地址等,通过链接地址可获取该视频对应的播放页,因此可将该视频的信息格式化后与具有相同URL的播放页数据进行结构化信息的融合,得到结构化信息。
融合子模块420用于对处理后的图片和结构化信息进行融合,得到融合后的信息。更具体地,结构化信息可以包含视频的名称、摘要、链接地址等信息,融合子模块420可通过将处理后的图片与结构化信息进行融合,得到具有处理后的图片和视频信息的融合后的信息。
建立子模块430用于对应融合后的信息建立索引,得到用于线上展示的视频资源。例如,可根据融合后的信息中的视频内容类型、名称、摘要等建立索引。
本实施例通过获取最新的网页数据流,并筛选出目标站点的包含目标网页数据的网页数据流,对目标网页数据进行解析,可以提高时效性,通过将图片的信息发送给图片处理系统,由专门的图片处理系统进行图片处理,提高图片处理能力,从而可以提高视频资源搜索和展示效果,提高用户体验。另外,将处理后的图片与视频数据进行融合,加快了资源加载速度,有效提高视频资源搜索结果和展现效果。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种视频网页的处理方法,其特征在于,包括:
获取最新的网页数据流,所述最新的网页数据流是指更新时间与当前时间的差值小于预设值的网页数据流,并从所述最新的网页数据流中筛选出目标站点的网页数据流,所述目标站点的网页数据流中包含目标网页数据;
对所述目标网页数据进行解析,获取所述目标网页数据中包含的图片的信息和视频数据,并将所述图片的信息发送给图片处理系统,以使所述图片处理系统根据所述图片的信息获取图片并对所述图片进行处理,得到处理后的图片;
接收所述图片处理系统发送的所述处理后的图片的信息,并根据所述处理后的图片的信息获取所述处理后的图片,以及根据所述处理后的图片和所述视频数据进行数据融合,得到用于线上展示的视频资源。
2.根据权利要求1所述的方法,其特征在于,所述图片的信息是图片的链接信息,所述方法还包括:
根据所述图片的链接信息获取图片;
根据预设算法对获取的图片进行分析,获取所述图片的长度的信息和宽度的信息;
根据所述长度的信息和宽度的信息以及预设的规则,对所述图片进行压缩和/或裁剪处理,使得处理后的图片满足预设的展示要求;
保存所述处理后的图片,并生成所述处理后的图片的信息。
3.根据权利要求1所述的方法,其特征在于,所述视频数据包括播放页数据和列表页数据,所述对所述目标网页数据进行解析,获取所述目标网页数据中包含的视频数据,包括:
对所述目标网页数据进行识别,确定所述目标网页数据对应的网页的类型,所述类型包括视频播放页或者视频列表页;
根据所述网页的类型进行解析,获取对应的播放页数据或者列表页数据,并标记对应的类型标记。
4.根据权利要求3所述的方法,其特征在于,所述根据所述处理后的图片和所述视频数据进行数据融合,得到用于线上展示的视频资源,包括:
对所述播放页数据和列表页数据进行融合,得到结构化信息;
对所述处理后的图片和所述结构化信息进行融合,得到融合后的信息;
对应所述融合后的信息建立索引,得到用于线上展示的视频资源。
5.根据权利要求4所述的方法,其特征在于,所述对所述播放页数据和列表页数据进行融合,得到结构化信息,包括:
根据所述类型标记确定出列表页数据,并对列表页数据进行分解与格式化,得到处理后的列表页数据;
将处理后的列表页数据与具有相同URL的播放页数据进行结构化信息的融合,得到结构化信息。
6.根据权利要求2所述的方法,其特征在于,所述生成所述处理后的图片的信息,包括:
对所述处理后的图片进行哈希运算,得到哈希地址信息;
将所述哈希地址信息确定为所述处理后的图片的信息。
7.一种视频网页的处理装置,其特征在于,包括:
获取模块,用于获取最新的网页数据流,所述最新的网页数据流是指更新时间与当前时间的差值小于预设值的网页数据流;
筛选模块,用于从所述最新的网页数据流中筛选出目标站点的网页数据流,所述目标站点的网页数据流中包含目标网页数据;
解析模块,用于对所述目标网页数据进行解析,获取所述目标网页数据中包含的图片的信息和视频数据,并将所述图片的信息发送给图片处理系统,以使所述图片处理系统根据所述图片的信息获取图片并对所述图片进行处理,得到处理后的图片;
融合模块,用于接收所述图片处理系统发送的所述处理后的图片的信息,并根据所述处理后的图片的信息获取所述处理后的图片,以及根据所述处理后的图片和所述视频数据进行数据融合,得到用于线上展示的视频资源。
8.根据权利要求7所述的装置,其特征在于,所述图片的信息是图片的链接信息,所述装置还包括:
图片获取模块,用于根据所述图片的链接信息获取图片;
图片分析模块,用于根据预设算法对获取的图片进行分析,获取所述图片的长度的信息和宽度的信息;
图片处理模块,用于根据所述长度信息和宽度的信息以及预设的规则,对所述图片进行压缩和/或裁剪处理,使得处理后的图片满足预设的展示要求;
生成模块,用于保存所述处理后的图片,并生成所述处理后的图片的信息。
9.根据权利要求7所述的装置,其特征在于,所述视频数据包括播放页数据和列表页数据,所述解析模块,包括:
识别子模块,用于对所述目标网页数据进行识别,确定所述目标网页数据对应的网页的类型,所述类型包括视频播放页或者视频列表页;
获取子模块,用于根据所述网页的类型进行解析,获取对应的播放页数据或者列表页数据,并标记对应的类型标记。
10.根据权利要求9所述的装置,其特征在于,所述融合模块,包括:
结构化子模块,用于对所述播放页数据和列表页数据进行融合,得到结构化信息;
融合子模块,用于对所述处理后的图片和所述结构化信息进行融合,得到融合后的信息;
建立子模块,用于对应所述融合后的信息建立索引,得到用于线上展示的视频资源。
11.根据权利要求10所述的装置,其特征在于,所述结构化子模块,包括:
分解单元,用于根据所述类型标记确定出列表页数据,并对列表页数据进行分解与格式化,得到处理后的列表页数据;
融合单元,用于将处理后的列表页数据与具有相同URL的播放页数据进行结构化信息的融合,得到结构化信息。
12.根据权利要求8所述的装置,其特征在于,所述生成模块,包括:
哈希子模块,用于对所述处理后的图片进行哈希运算,得到哈希地址信息;
确定子模块,用于将所述哈希地址信息确定为所述处理后的图片的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510006287.3A CN104572996B (zh) | 2015-01-06 | 2015-01-06 | 视频网页的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510006287.3A CN104572996B (zh) | 2015-01-06 | 2015-01-06 | 视频网页的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572996A true CN104572996A (zh) | 2015-04-29 |
CN104572996B CN104572996B (zh) | 2018-09-07 |
Family
ID=53089058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510006287.3A Active CN104572996B (zh) | 2015-01-06 | 2015-01-06 | 视频网页的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572996B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874165A (zh) * | 2015-12-14 | 2017-06-20 | 北京国双科技有限公司 | 网页检测方法和装置 |
CN108881928A (zh) * | 2018-06-29 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于发布信息的方法和装置、用于处理信息的方法和装置 |
CN110309397A (zh) * | 2018-03-19 | 2019-10-08 | 北京数码视讯软件技术发展有限公司 | 视频筛选方法及系统 |
CN111611476A (zh) * | 2020-04-13 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 专题页面的显示方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020103823A1 (en) * | 2001-02-01 | 2002-08-01 | International Business Machines Corporation | Method and system for extending the performance of a web crawler |
CN102929871A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种网页浏览方法、装置及移动终端 |
CN103699661A (zh) * | 2013-12-26 | 2014-04-02 | 乐视网信息技术(北京)股份有限公司 | 视频资源数据的获取方法及其系统 |
CN103793418A (zh) * | 2012-10-31 | 2014-05-14 | 珠海富讯网络科技有限公司 | 一种针对证券行业的实时垂直搜索引擎的搜索方法 |
CN103823841A (zh) * | 2013-12-31 | 2014-05-28 | 浙江宇天科技股份有限公司 | 提高移动终端客户端浏览速度的方法及其装置 |
-
2015
- 2015-01-06 CN CN201510006287.3A patent/CN104572996B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020103823A1 (en) * | 2001-02-01 | 2002-08-01 | International Business Machines Corporation | Method and system for extending the performance of a web crawler |
CN102929871A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种网页浏览方法、装置及移动终端 |
CN103793418A (zh) * | 2012-10-31 | 2014-05-14 | 珠海富讯网络科技有限公司 | 一种针对证券行业的实时垂直搜索引擎的搜索方法 |
CN103699661A (zh) * | 2013-12-26 | 2014-04-02 | 乐视网信息技术(北京)股份有限公司 | 视频资源数据的获取方法及其系统 |
CN103823841A (zh) * | 2013-12-31 | 2014-05-28 | 浙江宇天科技股份有限公司 | 提高移动终端客户端浏览速度的方法及其装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874165A (zh) * | 2015-12-14 | 2017-06-20 | 北京国双科技有限公司 | 网页检测方法和装置 |
CN106874165B (zh) * | 2015-12-14 | 2020-08-11 | 北京国双科技有限公司 | 网页检测方法和装置 |
CN110309397A (zh) * | 2018-03-19 | 2019-10-08 | 北京数码视讯软件技术发展有限公司 | 视频筛选方法及系统 |
CN108881928A (zh) * | 2018-06-29 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于发布信息的方法和装置、用于处理信息的方法和装置 |
US11095957B2 (en) | 2018-06-29 | 2021-08-17 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for publishing information, and method and apparatus for processing information |
CN111611476A (zh) * | 2020-04-13 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 专题页面的显示方法和装置 |
CN111611476B (zh) * | 2020-04-13 | 2023-08-29 | 百度在线网络技术(北京)有限公司 | 专题页面的显示方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104572996B (zh) | 2018-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345642B (zh) | 采用代理ip爬取网站数据的方法、存储介质和服务器 | |
JP6626843B2 (ja) | ビデオ内のテキスト検出 | |
CN103914550B (zh) | 展现推荐内容的方法和装置 | |
CN104699704B (zh) | 内容推送及接收方法、装置和系统 | |
CN104657423A (zh) | 应用间内容分享方法及其装置 | |
CN107977678B (zh) | 用于输出信息的方法和装置 | |
CN103823907B (zh) | 一种整合在线视频资源地址的方法、装置及引擎 | |
CN113407773A (zh) | 一种短视频智能推荐方法、系统、电子设备及存储介质 | |
CN105072465A (zh) | 一种视频播放控制方法及电子设备 | |
CN104572996A (zh) | 视频网页的处理方法和装置 | |
CN109327715B (zh) | 一种视频风险识别方法、装置及设备 | |
CN103605696B (zh) | 一种获取影音文件地址的方法和装置 | |
Wiegand et al. | Veracity and velocity of social media content during breaking news: Analysis of November 2015 Paris shootings | |
CN104636445A (zh) | 截屏图像的处理和分组操作方法及其装置 | |
RU2645150C2 (ru) | Способ и устройство для отображения постеров | |
CN107015986B (zh) | 一种爬虫爬取网页的方法及装置 | |
CN106899879B (zh) | 一种多媒体数据的处理方法和装置 | |
CN102902784B (zh) | 网页分类存储系统及方法 | |
CN110968314A (zh) | 一种页面生成方法及装置 | |
CN110909185B (zh) | 智能化广播电视节目制作方法及装置 | |
CN112015736B (zh) | 基于Spark Mllib实现的多功能推荐方法及装置 | |
CN104572707A (zh) | 一种用于提供优选对象信息的方法与设备 | |
CN104281680A (zh) | 用于获取网站资源的数据处理系统、方法及装置 | |
CN109389972B (zh) | 语义云功能的质量测试方法、装置、存储介质和设备 | |
CN114880458A (zh) | 书籍推荐信息的生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |