CN104021170A - 一种信息获取方法及云端服务器 - Google Patents
一种信息获取方法及云端服务器 Download PDFInfo
- Publication number
- CN104021170A CN104021170A CN201410238442.XA CN201410238442A CN104021170A CN 104021170 A CN104021170 A CN 104021170A CN 201410238442 A CN201410238442 A CN 201410238442A CN 104021170 A CN104021170 A CN 104021170A
- Authority
- CN
- China
- Prior art keywords
- metadata
- attribute
- meta
- url
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
Abstract
本发明的实施例提供了一种信息获取方法及云端服务器,涉及互联网领域,能够便于用户终端获取完整的多媒体资料信息,从而提升操作该用户终端的用户的体验性。该方法包括:根据多媒体元数据和至少两个目标网站地址生成至少两个URL;根据第一URL和第二URL,从因特网中分别获取其对应的第一网页内容和第二网页内容;解析第一网页内容,从中筛选出第一元属性集和第一元数据集;解析第二网页内容,从中筛选出第二元属性集和第二元数据集;将第一元属性集和第一元数据集以及第二元属性集和第二元数据集进行整合存储,得到第三元属性集和第三元数据集,以便用户终端从云端服务器下载所需元属性及对应的元数据。本发明应用于多媒体资料信息获取。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种信息获取方法及云端服务器。
背景技术
如今,在这个互联网高速发展的时代,人们对于视听方面的需求也越来越高。通常用户所使用的终端设备(如个人电脑、平板电脑和手机等)中,常常保存有大量的音乐或视频等类型的多媒体文件,但这些多媒体文件往往缺少与其相关的多媒体资料信息,其中,上述的多媒体资料信息通常是由多个媒体元信息组合而成的,而该多个媒体元信息可以是视频文件对应的视频名称、演员信息、海报信息等,也可以是音频文件对应的歌手信息、海报信息等。具体的,一个多媒体文件拥有详细的多媒体资料信息不仅有助于用户去了解该多媒体文件,也更能吸引用户去浏览该多媒体文件。但是,在这个庞大的互联网中,由于多媒体文件对应的多媒体资料信息中的媒体元信息分散在互联网之中,使得用户无法获取到完整的多媒体资料信息,从而降低了用户的体验度,因此,如何将这些分散着的媒体元信息整合成完整的多媒体资料信息就变得尤为重要。
针对上述问题,现有技术通常是根据多媒体文件的文件名称创建检索源,然后利用该检索源到指定网站中下载与该文件名称相关的网页,通过解析网页内容,获取与该文件对应的媒体元信息,最后将获取到的媒体元信息组合成多媒体资料信息。但是,发明人发现,这些多媒体资料信息通常只能从一些指定网站上去获取,由于这些网站的模板、内容和类型各不相同,使得用户获取到的多媒体资料信息不够完整,内容也存在偏差,从而导致用户不能通过多媒体资料信息去详细的了解对应的多媒体文件,进而降低了用户的体验度。
发明内容
本发明的实施例提供一种信息获取方法及云端服务器,能够便于用户终端获取完整的多媒体资料信息,从而提升操作该用户终端的用户的体验性。
本发明的实施例采用如下技术方案:
第一方面,提供一种信息获取方法,包括:
获取用于描述多媒体数据的多媒体元数据,并根据所述多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL;其中所述至少两个URL包括第一URL和第二URL;每个目标网站对应一个URL;
根据所述至少两个URL中的第一URL和第二URL,从因特网中分别获取所述第一URL对应的第一网页内容和所述第二URL对应的第二网页内容;
解析所述第一URL对应的第一网页内容,在所述第一网页内容中筛选出用于描述所述多媒体数据的第一元属性集和所述第一元属性集的第一元数据集;
解析所述第二URL对应的第二网页内容,在所述第二网页内容中筛选出用于描述所述多媒体数据的第二元属性集和所述第二元属性集的第二元数据集;
将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集;
将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
在第一方面的第一种可能的实现方式中,所述将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集具体包括:
根据所述第一URL和所述第二URL对应的目标网站的权重值,从所述第一URL对应的第一元属性集和第一元数据集以及所述第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集;
若所述目标元属性集和所述目标元数据集中包含部分用于描述所述多媒体数据的元属性和元数据时,则根据另一元属性集和另一元数据集将所述目标元属性集和所述目标元数据集中缺失数据补全,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
根据第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述第一URL和所述第二URL对应的目标网站的权重值,从所述第一URL对应的第一元属性集和第一元数据集以及所述第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集之后,所述方法还包括:
若所述目标元属性集和所述目标元数据集中包含所有用于描述所述多媒体数据的元属性和元数据时,则确定所述目标元属性集和所述目标元数据集为用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
在第一方面的第三种可能的实现方式中,所述将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集具体包括:
将所述第一元属性集和所述第二元属性集整合,得到用于描述所述多媒体数据的第三元属性集;
遍历所述第三元属性集中的每个元属性,从所述第一元数据集和所述第二元数据集中,为所述第三元属性集中的每个元属性提取一个最优元数据,以得到与所述第三元属性集对应的第三元数据集。
在第一方面的第四种可能的实现方式中,所述将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集之后,还包括:
根据关键字模版和所述第三元属性集,从所述第三元数据集的元数据中识别出至少一个动态关键字;所述至少一个动态关键字包括第一动态关键字;
根据所述至少两个目标网站地址,为所述至少一个动态关键字中的第一动态关键字生成至少两个新的URL;其中所述第一动态关键字的至少两个URL中包括第三URL和第四URL;所述第一动态关键字的每个URL对应一个目标网站;
根据所述第一动态关键字的第三URL和第四URL,从所述因特网中分别获取所述第三URL对应的第三网页内容和所述第四URL对应的第四网页内容;
解析所述第三URL对应的第三网页内容,在所述第三网页内容中筛选出所述第一动态关键字的第四元属性子集和所述第四元属性子集的第一元数据子集;
解析所述第四URL对应的第四网页内容,在所述第四网页内容中筛选出所述第一动态关键字的第五元属性子集和所述第五元属性子集的第五元数据子集;
将所述第四元属性子集和第一元数据子集,以及所述第五元属性子集和第五元数据子集进行整合,得到所述第一动态关键字的第六元属性子集和所述第六元属性子集的第六元数据子集。
根据第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据具体包括:
将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据、所述第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、所述每个动态关键字的第六元属性子集中的元属性与所述第六元数据子集中的与所述元属性对应的元数据均一一对应进行存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据,以及与所述第三元数据中的元数据具有关联关系的每个动态关键字的每个元属性与其对应的元数据。
根据第一方面或第一方面的第四种可能的实现方式,在第一方面的第六种可能的实现方式中,所述将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据之后,还包括:
向所述用户终端发送检索完成指令,以便所述用户终端在接收到所述检索完成指令后,从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
在第一方面的第七种可能的实现方式中,所述获取用于描述多媒体数据的多媒体元数据具体包括:
接收所述用户终端发送的检索指令;其中,所述检索指令中包含用于描述所述多媒体数据的多媒体元数据;
从所述检索指令中获取用于描述所述多媒体数据的多媒体元数据。
第二方面,提供一种云端服务器,包括:
生成单元,用于获取用于描述多媒体数据的多媒体元数据,并根据所述多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL;其中所述至少两个URL包括第一URL和第二URL;每个目标网站对应一个URL;
获取单元,用于根据所述生成单元生成的所述至少两个URL中的第一URL和第二URL,从因特网中分别获取所述第一URL对应的第一网页内容和所述第二URL对应的第二网页内容;
筛选单元,用于解析所述获取单元获取的所述第一URL对应的第一网页内容,在所述第一网页内容中筛选出用于描述所述多媒体数据的第一元属性集和所述第一元属性集的第一元数据集;
所述筛选单元,还用于解析所述获取单元获取的所述第二URL对应的第二网页内容,在所述第二网页内容中筛选出用于描述所述多媒体数据的第二元属性集和所述第二元属性集的第二元数据集;
整合单元,用于将所述筛选单元得到的所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集;
存储单元,用于将所述整合单元得到的所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
在第二方面的第一种可能的实现方式中,所述整合单元包括:
选择模块,用于根据所述第一URL和所述第二URL对应的目标网站的权重值,从所述第一URL对应的第一元属性集和第一元数据集以及所述第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集;
补全模块,用于若所述目标元属性集和所述目标元数据集中包含部分用于描述所述多媒体数据的元属性和元数据时,则根据另一元属性集和另一元数据集将所述目标元属性集和所述目标元数据集中缺失数据补全,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
根据第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述整合单元,还包括:
确定模块,用于若所述目标元属性集和所述目标元数据集中包含所有用于描述所述多媒体数据的元属性和元数据时,则确定所述目标元属性集和所述目标元数据集为用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
在第二方面的第三种可能的实现方式中,所述整合单元包括:
整合模块,用于将所述第一元属性集和所述第二元属性集整合,得到用于描述所述所媒体数据的第三元属性集;
优选模块,用于遍历所述第三元属性集中的每个元属性,从所述第一元数据集和所述第二元数据集中,为所述第三元属性集中的每个元属性提取一个最优元数据,以得到与所述第三元属性集对应的第三元数据集。
在第二方面的第四种可能的实现方式中,所述云端服务器,还包括:
识别单元,用于根据关键字模版,从所述第三元数据集的元数据中识别出至少一个动态关键字;所述至少一个动态关键字包括第一动态关键字;
所述生成单元,还用于根据所述至少两个目标网站地址,为所述识别单元识别出的所述至少一个动态关键字中的第一动态关键字生成至少两个新的URL;其中所述第一动态关键字的至少两个URL中包括第三URL和第四URL;所述第一动态关键字的每个URL对应一个目标网站;
所述获取单元,还用于根据所述生成单元生成的所述第一动态关键字的第三URL和第四URL,从所述因特网中分别获取所述第三URL对应的第三网页内容和所述第四URL对应的第四网页内容;
所述筛选单元,还用于解析所述获取单元获取的所述第三URL对应的第三网页内容,在所述第三网页内容中筛选出所述第一动态关键字的第四元属性子集和所述第四元属性子集的第一元数据子集;
所述筛选单元,还用于解析所述获取单元获取的所述第四URL对应的第四网页内容,在所述第四网页内容中筛选出所述第一动态关键字的第五元属性子集和所述第五元属性子集的第五元数据子集;
所述整合单元,还用于将所述筛选单元得到的所述第四元属性子集和第一元数据子集,以及所述第五元属性子集和第五元数据子集进行整合,得到所述第一动态关键字的第六元属性子集和所述第六元属性子集的第六元数据子集。
根据第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述存储单元具体用于:将所述整合单元得到的所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据、所述第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、所述每个动态关键字的第六元属性子集中的元属性与所述第六元数据子集中的与所述元属性对应的元数据均一一对应进行存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据,以及与所述第三元数据中的元数据具有关联关系的每个动态关键字的每个元属性与其对应的元数据。
根据第二方面或第二方面的第四种可能的实现方式,在第二方面的第六种可能的实现方式中,所述云端服务器,还包括:
发送单元,用于向所述用户终端发送检索完成指令,以便所述用户终端在接收到所述检索完成指令后,从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
在第二方面的第七种可能的实现方式中,在所述获取用于描述多媒体数据的多媒体元数据的方面,所述生成单元具体用于:
接收所述用户终端发送的检索指令;其中,所述检索指令中包含用于描述所述多媒体数据的多媒体元数据;从所述检索指令中获取用于描述所述多媒体数据的多媒体元数据。
本发明的实施例提供的信息获取方法及云端服务器,云端服务器通过获取多媒体数据的一个多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL,然后根据每个URL从因特网中获取每个URL对应的网页内容,解析每个URL对应的网页内容,分别从每个网页内容中获取一个元属性集及其对应的元数据集,然后将获取到的每个网页内容的元属性集及其对应的元数据集进行整合和存储,得到内容更为完善的用于描述该多媒体数据的第三元属性集和第三元数据集,其中,上述的该第三元属性集中的元属性与第三元数据集中的元属性对应的元数据是一一对应存储的,以便用户终端能够从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据,从而保证了用户可以获取到内容完整且优选的多媒体信息的文档信息,进而提升了操作该用户终端的用户的体验度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例提供的一种信息获取方法的流程示意图;
图2为本发明的实施例提供的一种多媒体数据的元属性及其对应的元数据的获取流程示意图;
图3为本发明的实施例提供的又一种信息获取方法的流程示意图;
图4为本发明的实施例提供的一种元数据筛选流程示意图;
图5为本发明的实施例提供的另一种元数据筛选流程示意图;
图6为本发明的实施例提供的另一种多媒体数据的元属性及其对应的元数据的获取流程示意图;
图7为本发明的实施例提供的一种云端服务器的结构示意图;
图8为本发明的实施例提供的另一种云端服务器的结构示意图;
图9为本发明的实施例提供的又一种云端服务器的结构示意图;
图10为本发明的实施例提供的再一种云端服务器的结构示意图;
图11为本发明的另一实施例提供的一种云端服务器的结构示意图;
图12为本发明实施例提供的执行数据获取方法的系统架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供一种信息获取方法,如图1所示,该信息获取方法具体包括如下步骤:
101、云端服务器获取用于描述多媒体数据的多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL。
示例性的,本发明中的多媒体数据为电影、音乐、文本文档等多媒体文件数据。而本发明中的用于描述该多媒体数据相关的文件属性名称(如,电影演员、发行时间、电影海报等),称为元属性,该多媒体数据相关的文件属性名称对应的数据信息,则称为元属性对应的元数据。示例性的,当该多媒体数据为电影时,则该电影的元属性与其对应的元数据的对应关系为:演员姓名-张某某、电影海报-图片1、发行时间-2014等。而上述的用于描述该多媒体数据的多媒体元数据可以为该多媒体数据的文件名称,也可以为该多媒体数据的某一元属性。
其中,上述的至少两个统一资源定位符(Uniform ResourceLocator,简称URL)包括第一URL和第二URL。具体的,上述的URL是根据目标网站网址和该多媒体元数据创建和组成的,而对于上述的用于描述多媒体数据的多媒体元数据来说,每个目标网站对应一个该多媒体元数据的URL。示例性的,本发明中的目标网站可以是该云端服务器所获取的市面上常用的几款门户网站,也可以是该用户通过用户终端配置在该云端服务器上的其认为可信度较高的几款门户网站。
102、云端服务器根据至少两个URL中的第一URL和第二URL,从因特网中分别获取第一URL对应的第一网页内容和第二URL对应的第二网页内容。
103、云端服务器解析第一URL对应的第一网页内容,在该第一网页内容中筛选出用于描述多媒体数据的第一元属性集和第一元属性集的第一元数据集。
104、云端服务器解析第二URL对应的第二网页内容,在该第二网页内容中筛选出用于描述多媒体数据的第二元属性集和第二元属性集的第二元数据集。
示例性的,云端服务器根据指定的解析规则分别解析该第一URL对应的第一网页内容和该第二URL对应的第二网页内容,并将该第一网页内容中所包含的所有用于描述该多媒体数据的元属性及该元属性对应的元数据筛选出来,组成第一元属性集和第一元数据集,将该第二网页内容中所包含的所有用于描述该多媒体数据的元属性及该元属性对应的元数据筛选出来,组成第二元属性集和第二元数据集。具体的,上述的解析规则可以是刮削规则,该刮削规则包括文档对象模型(Document Object Model,简称DOM)和正则表达式(RegularExpression)规则。
105、云端服务器将第一元属性集和第一元数据集,以及第二元属性集和第二元数据集进行整合,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集。
示例性的,参照图2所示的多媒体数据的元属性及其对应的元数据获取示意图所示,当该多媒体数据为电影a对应的视频数据,第一元属性集和第一元数据集中包含的该电影a的元属性和元数据如表1所示,第二元属性集和第二元数据集中包含的该电影a的元属性和元数据如表2所示时,由于表1中缺失了该电影a的发行时间和电影海报,表2缺失了该电影a的影片类型,因此,云端服务器通过将两表中的每项元属性对应的元数据进行整合,从而得到了相比表1与表2多媒体资料信息更为完整的表3,即第三元属性集和第三元数据集,提升了操作该用户终端的用户的体验度。
106、云端服务器将第三元属性集中的元属性与第三元数据集中的与该元属性对应的元数据一一对应存储,以便用户终端从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据。
示例性的,云端服务器在将第三元属性集中的元属性与第三元数据集中的与该元属性对应的元数据一一对应存储至该云端服务器的数据库中时,该云端服务器会将该第三元属性集中的元属性与第三元数据集中的元数据组成元属性与元数据信息映射表,来存储至该云端服务器的数据库中,以便不同用户今后在检索相同的多媒体数据对应的文档信息时,可以直接从该云端服务器指定的数据库中,提取用于描述多媒体数据的元属性与其对应的元数据,进而提高检索效率。
需要说明的是,本实施例所描述的通过对两个URL对应的元属性集和元数据集进行整合,来获取资料信息更为完善的第三元属性集和第三元数据集的过程,仅仅是一种示例,在实际应用中,该云端服务器通常是通过对更多的URL对应的元属性集和元数据集进行整合,来获取资料信息更全的第三元属性集和第三元数据集,这里不做限制。
本发明的实施例提供的信息获取方法及云端服务器,云端服务器通过获取多媒体数据的一个多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL,然后根据每个URL从因特网中获取每个URL对应的网页内容,解析每个URL对应的网页内容,分别从每个网页内容中获取一个元属性集及其对应的元数据集,然后将获取到的每个网页内容的元属性集及其对应的元数据集进行整合和存储,得到内容更为完善的用于描述该多媒体数据的第三元属性集和第三元数据集,其中,上述的该第三元属性集中的元属性与第三元数据集中的元属性对应的元数据是一一对应存储的,以便用户终端能够从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据,从而保证了用户可以获取到内容完整且优选的多媒体信息的文档信息,进而提升了操作该用户终端的用户的体验度。
本发明的实施例提供另一种信息获取方法,如图3所示,具体包括如下步骤:
201、云端服务器获取用于描述多媒体数据的多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL。
示例性的,本发明中的多媒体数据为电影、音乐、文本文档等多媒体文件数据。而本发明中的用于描述该多媒体数据相关的文件属性名称(如,电影演员、发行时间、电影海报等),称为元属性,该多媒体数据相关的文件属性名称对应的数据信息,则称为元属性对应的元数据。示例性的,当该多媒体数据为电影数据时,则该电影的元属性与其对应的元数据的对应关系为:演员姓名-张某某、电影海报-图片1、发行时间-2014等。而上述的用于描述该多媒体数据的多媒体元数据可以为该多媒体数据的文件名称,也可以为该多媒体数据的某一元属性。
其中,上述的至少两个URL包括第一URL和第二URL。具体的,上述的URL是根据目标网站网址和该多媒体元数据创建和组成的,而对于上述的用于描述多媒体数据的多媒体元数据来说,每个目标网站仅对应一个该多媒体元数据的URL。示例性的,本发明中的目标网站可以是该云端服务器所获取的市面上常用的几款门户网站,也可以是该用户通过用户终端配置在该云端服务器上的其认为可信度较高的几款门户网站。
可选的,步骤201中云端服务器获取用于描述多媒体数据的多媒体元数据具体包括:
201a、云端服务器接收用户终端发送的检索指令。
其中,上述的检索指令中包含用于描述多媒体数据的多媒体元数据。
201b、云端服务器从检索指令中获取用于描述多媒体数据的至少一个多媒体元数据。
示例性的,用户在用户终端上主动输入需要检索的多媒体元数据后,或者,该用户终端周期性获取本地存储的所有多媒体文件的文档信息时,首先该用户终端会在本地资源文件中进行检索,若未检索到用于描述该多媒体数据的每个元属性及其对应的元数据时,则将该多媒体数据文件名称或该多媒体数据的某个元属性作为该多媒体数据的多媒体元数据,并将生成的包含有用于描述该多媒体数据的至少一个多媒体元数据的检索指令发送至云端服务器,以便该云端服务器在获取到该检索指令后,生成相应的URL。
202、云端服务器根据至少两个URL中的第一URL和第二URL,从因特网中分别获取第一URL对应的第一网页内容和第二URL对应的第二网页内容。
203、云端服务器解析第一URL对应的第一网页内容,在该第一网页内容中筛选出用于描述多媒体数据的第一元属性集和第一元属性集的第一元数据集。
204、云端服务器解析第二URL对应的第二网页内容,在该第二网页内容中筛选出用于描述多媒体数据的第二元属性集和第二元属性集的第二元数据集。
示例性的,云端服务器根据指定的解析规则分别解析该第一URL对应的第一网页内容和该第二URL对应的第二网页内容,并将该第一网页内容中所包含的所有用于描述该多媒体数据的元属性及该元属性对应的元数据筛选出来,组成第一元属性集和第一元数据集,将该第二网页内容中所包含的所有用于描述该多媒体数据的元属性及该元属性对应的元数据筛选出来,组成第二元属性集和第二元数据集。具体的,上述的解析规则可以是刮削规则,该刮削规则包括文档对象模型DOM和正则表达式规则。
205、云端服务器将第一元属性集和第一元数据集,以及第二元属性集和第二元数据集进行整合,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集。
具体的,云端服务器在获取到步骤203与204中得到的第一元属性集和第一元数据集,以及第二元属性集和第二元数据集后,需要整合上述的第一元属性集和第一元数据集,以及第二元属性集和第二元数据集时,该步骤205可以通过以下两种具体的实现方式来实现。
在第一种实现方式中:
可选的,参照图4所示的该多媒体数据的元属性及其对应的元数据的整合流程示意图可知,步骤205具体包括如下步骤:
205a、云端服务器根据第一URL和第二URL对应的目标网站的权重值,从该第一URL对应的第一元属性集和第一元数据集以及该第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集。
其中,本发明中的目标网站的权重值可以是用户预先配置的,也可以是该云端服务器从因特网中获取的。具体的,上述的目标网站的权重值具体为该目标网站的可信度,可信度高的目标网站其权重值最大。
示例性的,在云端服务器的刮削模板中,每个URL对应的目标网站都分配有一个权重值,该目标网站的权重值的取值范围可以设定在0到1之间,例如,当三个目标网站A、B、C分别对应的权重值为1,0.7,0.3时,可以认为,目标网站A的可信度最高,目标网站B的可信度次之,目标网站C的可信度最低。
进一步,在步骤205a之后,还存在以下两种情况:若目标元属性集和目标元数据集中仅包含了部分用于描述多媒体数据的元属性和元数据时,则转向步骤205b1;若目标元属性集和目标元数据集中包含了所有用于描述多媒体数据的元属性和元数据时,转向步骤205b2。
205b1、云端服务器根据另一元属性集和另一元数据集将该目标元属性集和该目标元数据集中缺失数据补全,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集。
205b2、云端服务器确定该目标元属性集和该目标元数据集为用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集。
可选的,在第二种实现方式中,
可选的,参照图5所示的该多媒体数据的元属性及其对应的元数据的整合流程示意图可知,步骤205具体包括如下步骤:
205a、云端服务器将第一元属性集和第二元属性集整合,得到用于描述多媒体数据的第三元属性集。
205b、云端服务器遍历第三元属性集中的每个元属性,从第一元数据集和第二元数据集中,为该第三元属性集中的每个元属性提取一个最优元数据,以得到与该第三元属性集对应的第三元数据集。
示例性的,步骤205b中所描述的优选算法具体的应用流程为:选择该第三元属性集中的任一元属性,并获取该任一元属性在每个URL对应的元数据集中的元数据,将元数据相同的目标网站的权重值进行求和,作为该元数据的权重值,然后将该元数据的权重值与其他元数据对应的权重值进行比较,并将权重值结果最高的元数据优选为该任一元属性对应的最优元数据。此外,当该第三元属性集中的某一元属性对应的元数据为图片时,则云端服务器通过直接比较该某一元属性在每个目标网站中对应的图片的分辨率,从中选择分辨率最优(即分辨率最高的图片,或分辨率与用户终端显示屏尺寸最接近的图片)的图片作为该某一元属性对应的元数据。
可选的,在步骤205之后,还包括如下步骤:
206、云端服务器根据关键字模版和所述第三元属性集,从第三元数据集的元数据中识别出至少一个动态关键字。
其中,上述的至少一个动态关键字包括第一动态关键字;上述的关键字模版包括至少一个用于描述该多媒体数据的元属性,该关键字模版可以根据该多媒体数据的不同进行分类,如电影关键字模版、音乐关键字模版、文本文档关键字模版;而步骤206中云端服务器根据关键字模版在第三元数据中所识别出的关键字,由于是随着该关键字模版的不同而不同,因此这里将该关键字称为动态关键字。示例性的,当步骤206中的关键字模版为电影关键字模版时,则云端服务器从该电影关键字模版中获取导演、演员这两个可以进一步进行检索的元属性,然后根据上述的元属性从该第三元数据集中获取对应的元数据,并将该获取到的元数据作为动态关键字。
207、云端服务器根据至少两个目标网站地址,为至少一个动态关键字中的第一动态关键字生成至少两个新的URL。
其中,上述的第一动态关键字的至少两个URL中包括第三URL和第四URL;上述的第一动态关键字的每个URL对应一个目标网站。
208、云端服务器根据第一动态关键字的第三URL和第四URL,从因特网中分别获取第三URL对应的第三网页内容和第四URL对应的第四网页内容。
209、云端服务器解析第三URL对应的第三网页内容,在该第三网页内容中筛选出第一动态关键字的第四元属性子集和第四元属性子集的第一元数据子集。
210、云端服务器解析第四URL对应的第四网页内容,在该第四网页内容中筛选出第一动态关键字的第五元属性子集和第五元属性子集的第五元数据子集。
211、云端服务器将第四元属性子集和第一元数据子集,以及第五元属性子集和第五元数据子集进行整合,得到第一动态关键字的第六元属性子集和第六元属性子集的第六元数据子集。
具体的,由于步骤211中的整合方法与步骤205中所描述的整合方法相似,步骤211中的整合过程可以通过步骤205中所描述的两种整合方法进行实现,这里不再赘述。
示例性的,参照图6,当云端服务器从电影关键字模版中获取到导演、演员这两个可以进一步进行检索的元属性后,便会根据上述的元属性从该第三元数据集中识别出对应的元数据,即导演和演员的姓名,这样所识别出的动态关键字即为导演b和演员c。随后,云端服务器根据预先配置的2个目标网站地址,分别为导演b和演员c创建2个URL,若以导演b为例,则该云端服务器依次在因特网中访问该导演b的URL1和URL2,得到导演b的URL1对应的网页内容和URL2对应的网页内容,解析URL1对应的网页内容筛选出URL1对应的元属性集和元数据集,解析URL2对应的网页内容筛选出URL2对应的元属性集和元数据集,最后,将URL1对应的元属性集和元数据集和URL2对应的元属性集和元数据进行整合,从而得到用于描述该导演b的元属性和该元属性对应的元数据,具体如图6中表4所示。按照上述过程,用于描述该导演b的元属性和该元属性对应的元数据,具体如图6中表5所示。
212、云端服务器将第三元属性集中的元属性与第三元数据集中的与该元属性对应的元数据、第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、每个动态关键字的第六元属性子集中的元属性与第六元数据子集中的与该元属性对应的元数据均一一对应进行存储,以便用户终端从该云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据,以及与第三元数据中的元数据具有关联关系的每个动态关键字的每个元属性与其对应的元数据。
可选的,在步骤212之后,该方法还包括如下步骤:
213、云端服务器向用户终端发送检索完成指令,以便用户终端在接收到该检索完成指令后,从该云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据。
本发明的实施例提供的信息获取方法,云端服务器通过获取多媒体数据的一个多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL,然后根据每个URL从因特网中获取每个URL对应的网页内容,解析每个URL对应的网页内容,分别从每个网页内容中获取一个元属性集及其对应的元数据集,然后将获取到的每个网页内容的元属性集及其对应的元数据集进行整合和存储,得到内容更为完善的用于描述该多媒体数据的第三元属性集和第三元数据集,其中,上述的该第三元属性集中的元属性与第三元数据集中的元属性对应的元数据是一一对应存储的,以便用户终端能够从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据,从而保证了用户可以获取到内容完整且优选的多媒体信息的文档信息;
进一步的,云端服务器根据关键字模版和上述第三元属性集,从对应的第三元数据集中识别至少一个动态关键字,随后按照上述获取该云端服务器获取用于描述该多媒体数据的第三元属性集和第三元数据集的过程,来获取该至少一个动态关键字的每个动态关键字对应的元属性子集和元数据子集,并将第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、每个动态关键字的第六元属性子集中的元属性与第六元数据子集中的与该元属性对应的元数据均一一对应存储至该云端服务器的数据库中,进一步的完善了云端服务器中所存储的多媒体资料信息,从而保证了用户可以获取到内容更为完善且优选的多媒体资料信息,提升了操作该用户终端的用户的体验度。
本发明的实施例提供一种云端服务器,如图7所示,该云端服务器3包括:生成单元31、获取单元32、筛选单元33、整合单元34及存储单元35,其中:
生成单元31,用于获取用于描述多媒体数据的多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL。
其中,上述的至少两个URL包括第一URL和第二URL;每个目标网站对应一个URL。
获取单元32,用于根据上述的生成单元31生成的至少两个URL中的第一URL和第二URL,从因特网中分别获取该第一URL对应的第一网页内容和该第二URL对应的第二网页内容。
筛选单元33,用于解析上述的获取单元32获取的第一URL对应的第一网页内容,在该第一网页内容中筛选出用于描述多媒体数据的第一元属性集和第一元属性集的第一元数据集。
上述的筛选单元33,还用于解析获取单元32获取的第二URL对应的第二网页内容,在该第二网页内容中筛选出用于描述多媒体数据的第二元属性集和第二元属性集的第二元数据集。
整合单元34,用于将上述的筛选单元33得到的第一元属性集和第一元数据集,以及第二元属性集和第二元数据集进行整合,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集。
存储单元35,用于将上述的整合单元34得到的第三元属性集中的元属性与第三元数据集中的与元属性对应的元数据一一对应存储,以便所述用户终端从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据。
可选的,如图8所示,上述的整合单元34包括:选择模块341a及补全模块342a,其中:
选择模块341a,用于根据第一URL和第二URL对应的目标网站的权重值,从该第一URL对应的第一元属性集和第一元数据集以及该第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集。
补全模块342a,用于若目标元属性集和目标元数据集中仅包含了部分用于描述多媒体数据的元属性和元数据时,则根据另一元属性集和另一元数据集将该目标元属性集和该目标元数据集中缺失数据补全,得到用于描述该多媒体数据的第三元属性集和第三元属性集的第三元数据集。
可选的,如图8所示,上述的整合单元34还包括:确定模块343a,其中:
确定模块343a,用于若目标元属性集和目标元数据集中包含了所有用于描述多媒体数据的元属性和元数据时,则确定该目标元属性集和该目标元数据集为用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集。
可选的,如图9所示,上述的整合单元34包括:整合模块341b及优选模块342b,其中:
整合模块341b,用于将第一元属性集和第二元属性集整合,得到用于描述多媒体数据的第三元属性集;
优选模块342b,用于遍历第三元属性集中的每个元属性,从第一元数据集和第二元数据集中,为该第三元属性集中的每个元属性提取一个最优元数据,以得到与该第三元属性集对应的第三元数据集。
可选的,如图10所示,上述的云端服务器3还包括:识别单元36,其中:
识别单元36,用于根据关键字模版,从第三元数据集的元数据中识别出至少一个动态关键字。
其中,上述的至少一个动态关键字包括第一动态关键字。
生成单元31,还用于根据至少两个目标网站地址,为上述的识别单元36识别出的至少一个动态关键字中的第一动态关键字生成至少两个新的URL。
其中,上述的第一动态关键字的至少两个URL中包括第三URL和第四URL;上述的第一动态关键字的每个URL对应一个目标网站。
获取单元32,还用于根据生成单元31生成的第一动态关键字的第三URL和第四URL,从因特网中分别获取该第三URL对应的第三网页内容和该第四URL对应的第四网页内容。
筛选单元33,还用于解析获取单元32获取的第三URL对应的第三网页内容,在该第三网页内容中筛选出第一动态关键字的第四元属性子集和第四元属性子集的第一元数据子集。
筛选单元33,还用于解析获取单元32获取的第四URL对应的第四网页内容,在该第四网页内容中筛选出第一动态关键字的第五元属性子集和第五元属性子集的第五元数据子集。
整合单元34,还用于将筛选单元33得到的第四元属性子集和第四元数据子集,以及第五元属性子集和第五元数据子集进行整合,得到第一动态关键字的第六元属性子集和第六元属性子集的第六元数据子集。
可选的,存储单元35具体用于:将上述的整合单元34得到的第三元属性集中的元属性与第三元数据集中的与元属性对应的元数据、第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、每个动态关键字的第六元属性子集中的元属性与第六元数据子集中的与元属性对应的元数据均一一对应进行存储,以便用户终端从云端服务器3下载用于描述多媒体数据的每个元属性与其对应的元数据,以及与第三元数据中的元数据具有关联关系的每个动态关键字的每个元属性与其对应的元数据。
可选的,如图10所示,上述的云端服务器3还包括:发送单元37,其中:
发送单元37,用于向用户终端发送检索完成指令,以便用户终端在接收到该检索完成指令后,从云端服务器3下载用于描述多媒体数据的每个元属性与其对应的元数据。
可选的,上述的生成单元31在获取用于描述多媒体数据的多媒体元数据时,还具体用于:接收用户终端发送的检索指令;其中,上述的检索指令中包含用于描述多媒体数据的至少一个多媒体元数据;从该检索指令中获取用于描述该多媒体数据的至少一个多媒体元数据。
本发明的实施例提供的云端服务器,云端服务器通过获取多媒体数据的一个多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL,然后根据每个URL从因特网中获取每个URL对应的网页内容,解析每个URL对应的网页内容,分别从每个网页内容中获取一个元属性集及其对应的元数据集,然后将获取到的每个网页内容的元属性集及其对应的元数据集进行整合和存储,得到内容更为完善的用于描述该多媒体数据的第三元属性集和第三元数据集,其中,上述的该第三元属性集中的元属性与第三元数据集中的元属性对应的元数据是一一对应存储的,以便用户终端能够从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据,从而保证了用户可以获取到内容更为完善且优选的多媒体资料信息,进而提升了操作该用户终端的用户的体验度。
如图11所示的本发明又一实施例提供的云端服务器的结构示意图。该服务器可以嵌入或本身就是微处理计算机,比如:通用计算机、客户定制机、手机终端或平板机等便携设备。该服务器包括:处理器41、存储器42和通信接口43,处理器41各个组成部分通过总线系统耦合在一起。该总线可以是工业标准体系结构(Industry StandardArchitecture,简称ISA)总线、外部设备互连(Peripheral Component,简称PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中:
处理器41可以是:通用中央处理器(central procession unit,简称CPU)、专用集成电路(application specific integrated circuit,简称ASIC)、数字信号处理器(DSP)、现成可编程门阵列(FPGA)或其他可编程逻辑器件。
存储器42可以是计算机能够存取的任何可用介质,包括但不限于:只读存储器(read only memory,简称ROM)、随机存储器(random accessmemory,简称RAM)、或磁盘存储(disk storage)、闪存、可编程只读存储器或电可擦写可编程存储器、寄存器等本领域熟悉的存储介质。存储器42用于向处理器41提供指令和数据信息,和处理器41通过总线连接。
存储器42中存储:操作系统、应用程序及数据信息,用于实现本发明实施例的程序代码。操作系统用于控制和实现处理器41执行的处理功能。应用程序包含程序代码。
所述用于实现本发明实施例的程序代码和处理器41耦合,以实现本实施例提出的信息获取方法。
处理器41还包括:通信接口43,该通信接口43用于连接云端服务器和通信网络,该通信网络包括:以太网、无线接入网(radio accessnetwork,RAN)、无线局域网(wireless local area network,WLAN)或其他类似网络。
处理器41用于:通过通信接口43获取用于描述多媒体数据的多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL;其中,上述的至少两个URL包括第一URL和第二URL;每个目标网站对应一个URL;根据至少两个URL中的第一URL和第二URL,从因特网中分别获取第一URL对应的第一网页内容和第二URL对应的第二网页内容;解析第一URL对应的第一网页内容,在该第一网页内容中筛选出用于描述多媒体数据的第一元属性集和第一元属性集的第一元数据集;解析第二URL对应的第二网页内容,在该第二网页内容中筛选出用于描述多媒体数据的第二元属性集和第二元属性集的第二元数据集;将第一元属性集和第一元数据集,以及第二元属性集和第二元数据集进行整合,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集;将第三元属性集中的元属性与第三元数据集中的与该元属性对应的元数据一一对应存储于存储器42。
存储器42用于:存储有呈一一对应关系的元属性与元数据,以便用户终端从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据。
可选的,当需要将第一元属性集和第一元数据集,以及第二元属性集和第二元数据集进行整合,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集时,处理器41具体用于:根据第一URL和所述第二URL对应的目标网站的权重值,从该第一URL对应的第一元属性集和第一元数据集以及该第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集;若上述的目标元属性集和上述的目标元数据集中仅包含了部分用于描述多媒体数据的元属性和元数据时,则根据另一元属性集和另一元数据集将该目标元属性集和该目标元数据集中缺失数据补全,得到用于描述该多媒体数据的第三元属性集和第三元属性集的第三元数据集。若上述的目标元属性集和上述的目标元数据集中包含了所有用于描述多媒体数据的元属性和元数据时,则确定该目标元属性集和该目标元数据集为用于描述该多媒体数据的第三元属性集和第三元属性集的第三元数据集。
可选的,当需要将第一元属性集和第一元数据集,以及第二元属性集和第二元数据集进行整合,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集时,处理器41具体用于:将第一元属性集和第二元属性集整合,得到用于描述多媒体数据的第三元属性集;遍历第三元属性集中的每个元属性,从第一元数据集和第二元数据集中,为该第三元属性集中的每个元属性提取一个最优元数据,以生成与该第三元属性集对应的第三元数据集。
可选的,在将第一元属性集和第一元数据集,以及第二元属性集和第二元数据集进行整合,得到用于描述多媒体数据的第三元属性集和第三元属性集的第三元数据集之后,处理器41还用于:根据关键字模版,从第三元数据集的元数据中识别出至少一个动态关键字;其中,上述的至少一个动态关键字包括第一动态关键字;根据至少两个目标网站地址,为至少一个动态关键字中的第一动态关键字生成至少两个新的URL;其中,上述的第一动态关键字的至少两个URL中包括第三URL和第四URL;上述的第一动态关键字的每个URL对应一个目标网站;根据第一动态关键字的第三URL和第四URL,从因特网中分别获取第三URL对应的第三网页内容和第四URL对应的第四网页内容;解析第三URL对应的第三网页内容,在该第三网页内容中筛选出第一动态关键字的第四元属性子集和第四元属性子集的第一元数据子集;解析第四URL对应的第四网页内容,在该第四网页内容中筛选出第一动态关键字的第五元属性子集和第五元属性子集的第五元数据子集;将第四元属性子集和第四元数据子集,以及第五元属性子集和第五元数据子集进行整合,得到第一动态关键字的第六元属性子集和第六元属性子集的第六元数据子集。
可选的,当需要将多媒体数据的每个元数据与其对应的数据信息一一对应存储,以便用户终端通过通信接口43在云端服务器4下载该多媒体数据的每个元数据与其对应的数据信息时,存储器42具体用于:将第三元属性集中的元属性与第三元数据集中的与该元属性对应的元数据、第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、每个动态关键字的第六元属性子集中的元属性与第六元数据子集中的与该元属性对应的元数据均一一对应进行存储,以便用户终端通过通信接口43从该云端服务器4下载用于描述多媒体数据的每个元属性与其对应的元数据,以及与第三元数据中的元数据具有关联关系的每个动态关键字的每个元属性与其对应的元数据。
可选的,在将第三元属性集中的元属性与第三元数据集中的与元属性对应的元数据一一对应存储,以便用户终端通过通信接口43从云端服务器4下载用于描述该多媒体数据的每个元属性与其对应的元数据之后,处理器41还用于:通过通信接口43向用户终端发送检索完成指令,以便用户终端在接收到该检索完成指令后,通过通信接口43从云端服务器4下载用于描述多媒体数据的每个元属性与其对应的元数据。
可选的,当获取用于描述多媒体数据的多媒体元数据时,处理器41具体用于:通过通信接口43接收用户终端发送的检索指令;其中,该检索指令中包含用于描述多媒体数据的至少一个多媒体元数据;从上述的检索指令中获取用于描述多媒体数据的至少一个多媒体元数据。
本发明的实施例提供的云端服务器,云端服务器通过获取多媒体数据的一个多媒体元数据,并根据该多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL,然后根据每个URL从因特网中获取每个URL对应的网页内容,解析每个URL对应的网页内容,分别从每个网页内容中获取一个元属性集及其对应的元数据集,然后将获取到的每个网页内容的元属性集及其对应的元数据集进行整合和存储,得到内容更为完善的用于描述该多媒体数据的第三元属性集和第三元数据集,其中,上述的该第三元属性集中的元属性与第三元数据集中的元属性对应的元数据是一一对应存储的,以便用户终端能够从云端服务器下载用于描述多媒体数据的每个元属性与其对应的元数据,从而保证了用户可以获取到内容更为完善且优选的多媒体资料信息,进而提升了操作该用户终端的用户的体验度。
图12为是本发明实施例提供的执行数据获取方法的系统架构示意图,结合图12可知,该系统5是由云端服务器51和客户端52组成,且该云端服务器与Internet web site因特网网络连接,该客户端52可以为本发明中所述的用户终端,具体的,该系统5中的云端服务器51和客户端52内部的组成如下所示。
云端服务器51包括:scraper媒体刮削器511、fileSvr文件存储器512、MsgServer消息服务器513、metaPortal数据端口514和数据库515,其中:
scraper511,用于实现图1和图3对应实施例提供的信息获取方法,主要负责从因特网中获取的网页内容中刮削所需的多媒体资料信息,如用于描述多媒体数据对应的元属性与其对应的元数据。
fileSvr512,用于存储和管理scraper511刮削到的多媒体资料信息。
MsgServer513,主要负责处理与消息服务器交互的信息。
metaPortal514,一种通讯接口,负责为云端服务器的数据库中存储多媒体资料信息提供一个访问的端口,以便于客户端通过该端口能够请求下载某个多媒体数据对应的多媒体资料信息。
数据库515,用于存储用于描述多媒体数据的元属性及该元数据行对应的元数据。
客户端52包括:MetaSyncer数据同步单元521、MsgClient消息客户端522和fileSvr文件存储器523,其中:
MetaSyncer521:用于向云端服务器发出包含检索指令的下载请求,并从该云端服务器的数据库中获取某个多媒体数据对应的多媒体资料信息。
MsgClient522:消息客户端,处理与消息服务器交互的信息。
fileSvr523,用于存储和管理MetaSyncer521下载到的某个多媒体数据对应的多媒体资料信息。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的设备和系统中,各功能单元可以集成在一个处理器中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。且上述的各单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种信息获取方法,其特征在于,包括:
获取用于描述多媒体数据的多媒体元数据,并根据所述多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL;其中所述至少两个URL包括第一URL和第二URL;每个目标网站对应一个URL;
根据所述至少两个URL中的第一URL和第二URL,从因特网中分别获取所述第一URL对应的第一网页内容和所述第二URL对应的第二网页内容;
解析所述第一URL对应的第一网页内容,在所述第一网页内容中筛选出用于描述所述多媒体数据的第一元属性集和所述第一元属性集的第一元数据集;
解析所述第二URL对应的第二网页内容,在所述第二网页内容中筛选出用于描述所述多媒体数据的第二元属性集和所述第二元属性集的第二元数据集;
将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集;
将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集具体包括:
根据所述第一URL和所述第二URL对应的目标网站的权重值,从所述第一URL对应的第一元属性集和第一元数据集以及所述第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集;
若所述目标元属性集和所述目标元数据集中包含部分用于描述所述多媒体数据的元属性和元数据时,则根据另一元属性集和另一元数据集将所述目标元属性集和所述目标元数据集中缺失数据补全,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一URL和所述第二URL对应的目标网站的权重值,从所述第一URL对应的第一元属性集和第一元数据集以及所述第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集之后,所述方法还包括:
若所述目标元属性集和所述目标元数据集中包含所有用于描述所述多媒体数据的元属性和元数据时,则确定所述目标元属性集和所述目标元数据集为用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集具体包括:
将所述第一元属性集和所述第二元属性集整合,得到用于描述所述多媒体数据的第三元属性集;
遍历所述第三元属性集中的每个元属性,从所述第一元数据集和所述第二元数据集中,为所述第三元属性集中的每个元属性提取一个最优元数据,以得到与所述第三元属性集对应的第三元数据集。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集之后,还包括:
根据关键字模版和所述第三元属性集,从所述第三元数据集的元数据中识别出至少一个动态关键字;所述至少一个动态关键字包括第一动态关键字;
根据所述至少两个目标网站地址,为所述至少一个动态关键字中的第一动态关键字生成至少两个新的URL;其中所述第一动态关键字的至少两个URL中包括第三URL和第四URL;所述第一动态关键字的每个URL对应一个目标网站;
根据所述第一动态关键字的第三URL和第四URL,从所述因特网中分别获取所述第三URL对应的第三网页内容和所述第四URL对应的第四网页内容;
解析所述第三URL对应的第三网页内容,在所述第三网页内容中筛选出所述第一动态关键字的第四元属性子集和所述第四元属性子集的第四元数据子集;
解析所述第四URL对应的第四网页内容,在所述第四网页内容中筛选出所述第一动态关键字的第五元属性子集和所述第五元属性子集的第五元数据子集;
将所述第四元属性子集和第四元数据子集,以及所述第五元属性子集和第五元数据子集进行整合,得到所述第一动态关键字的第六元属性子集和所述第六元属性子集的第六元数据子集。
6.根据权利要求5所述的方法,其特征在于,所述将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据具体包括:
将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据、所述第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、所述每个动态关键字的第六元属性子集中的元属性与所述第六元数据子集中的与所述元属性对应的元数据均一一对应进行存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据,以及与所述第三元数据中的元数据具有关联关系的每个动态关键字的每个元属性与其对应的元数据。
7.根据权利要求1或5所述的方法,其特征在于,所述将所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据之后,还包括:
向所述用户终端发送检索完成指令,以便所述用户终端在接收到所述检索完成指令后,从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
8.根据权利要求1所述的方法,其特征在于,所述获取用于描述多媒体数据的多媒体元数据具体包括:
接收所述用户终端发送的检索指令;其中,所述检索指令中包含用于描述所述多媒体数据的多媒体元数据;
从所述检索指令中获取用于描述所述多媒体数据的多媒体元数据。
9.一种云端服务器,其特征在于,包括:
生成单元,用于获取用于描述多媒体数据的多媒体元数据,并根据所述多媒体元数据和至少两个目标网站地址生成至少两个统一资源定位符URL;其中所述至少两个URL包括第一URL和第二URL;每个目标网站对应一个URL;
获取单元,用于根据所述生成单元生成的所述至少两个URL中的第一URL和第二URL,从因特网中分别获取所述第一URL对应的第一网页内容和所述第二URL对应的第二网页内容;
筛选单元,用于解析所述获取单元获取的所述第一URL对应的第一网页内容,在所述第一网页内容中筛选出用于描述所述多媒体数据的第一元属性集和所述第一元属性集的第一元数据集;
所述筛选单元,还用于解析所述获取单元获取的所述第二URL对应的第二网页内容,在所述第二网页内容中筛选出用于描述所述多媒体数据的第二元属性集和所述第二元属性集的第二元数据集;
整合单元,用于将所述筛选单元得到的所述第一元属性集和第一元数据集,以及所述第二元属性集和第二元数据集进行整合,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集;
存储单元,用于将所述整合单元得到的所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据一一对应存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
10.根据权利要求9所述的云端服务器,其特征在于,所述整合单元包括:
选择模块,用于根据所述第一URL和所述第二URL对应的目标网站的权重值,从所述第一URL对应的第一元属性集和第一元数据集以及所述第二URL对应的第二元属性集和第二元数据集中选择权重值高的URL对应的元属性集和元数据集作为目标元属性集和目标元数据集;
补全模块,用于若所述目标元属性集和所述目标元数据集中包含部分用于描述所述多媒体数据的元属性和元数据时,则根据另一元属性集和另一元数据集将所述目标元属性集和所述目标元数据集中缺失数据补全,得到用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
11.根据权利要求10所述的云端服务器,其特征在于,所述整合单元,还包括:
确定模块,用于若所述目标元属性集和所述目标元数据集中包含所有用于描述所述多媒体数据的元属性和元数据时,则确定所述目标元属性集和所述目标元数据集为用于描述所述多媒体数据的第三元属性集和所述第三元属性集的第三元数据集。
12.根据权利要求9所述的云端服务器,其特征在于,所述整合单元包括:
整合模块,用于将所述第一元属性集和所述第二元属性集整合,得到用于描述所述所媒体数据的第三元属性集;
优选模块,用于遍历所述第三元属性集中的每个元属性,从所述第一元数据集和所述第二元数据集中,为所述第三元属性集中的每个元属性提取一个最优元数据,以得到与所述第三元属性集对应的第三元数据集。
13.根据权利要求9所述的云端服务器,其特征在于,所述云端服务区,还包括:
识别单元,用于根据关键字模版和所述第三元属性集,从所述第三元数据集的元数据中识别出至少一个动态关键字;所述至少一个动态关键字包括第一动态关键字;
所述生成单元,还用于根据所述至少两个目标网站地址,为所述识别单元识别出的所述至少一个动态关键字中的第一动态关键字生成至少两个新的URL;其中所述第一动态关键字的至少两个URL中包括第三URL和第四URL;所述第一动态关键字的每个URL对应一个目标网站;
所述获取单元,还用于根据所述生成单元生成的所述第一动态关键字的第三URL和第四URL,从所述因特网中分别获取所述第三URL对应的第三网页内容和所述第四URL对应的第四网页内容;
所述筛选单元,还用于解析所述获取单元获取的所述第三URL对应的第三网页内容,在所述第三网页内容中筛选出所述第一动态关键字的第四元属性子集和所述第四元属性子集的第四元数据子集;
所述筛选单元,还用于解析所述获取单元获取的所述第四URL对应的第四网页内容,在所述第四网页内容中筛选出所述第一动态关键字的第五元属性子集和所述第五元属性子集的第五元数据子集;
所述整合单元,还用于将所述筛选单元得到的所述第四元属性子集和第四元数据子集,以及所述第五元属性子集和第五元数据子集进行整合,得到所述第一动态关键字的第六元属性子集和所述第六元属性子集的第六元数据子集。
14.根据权利要求13所述的云端服务器,其特征在于,所述存储单元具体用于:将所述整合单元得到的所述第三元属性集中的元属性与所述第三元数据集中的与所述元属性对应的元数据、所述第三元数据集中的元数据与至少一个动态关键字中的每个动态关键字、所述每个动态关键字的第六元属性子集中的元属性与所述第六元数据子集中的与所述元属性对应的元数据均一一对应进行存储,以便所述用户终端从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据,以及与所述第三元数据中的元数据具有关联关系的每个动态关键字的每个元属性与其对应的元数据。
15.根据权利要求9或13所述的云端服务器,其特征在于,所述云端服务器,还包括:
发送单元,用于向所述用户终端发送检索完成指令,以便所述用户终端在接收到所述检索完成指令后,从所述云端服务器下载用于描述所述多媒体数据的每个元属性与其对应的元数据。
16.根据权利要求9所述的云端服务器,其特征在于,在所述获取用于描述多媒体数据的多媒体元数据的方面,所述生成单元具体用于:
接收所述用户终端发送的检索指令;其中,所述检索指令中包含用于描述所述多媒体数据的多媒体元数据;从所述检索指令中获取用于描述所述多媒体数据的多媒体元数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410238442.XA CN104021170B (zh) | 2014-05-30 | 2014-05-30 | 一种信息获取方法及云端服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410238442.XA CN104021170B (zh) | 2014-05-30 | 2014-05-30 | 一种信息获取方法及云端服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104021170A true CN104021170A (zh) | 2014-09-03 |
CN104021170B CN104021170B (zh) | 2018-01-16 |
Family
ID=51437924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410238442.XA Active CN104021170B (zh) | 2014-05-30 | 2014-05-30 | 一种信息获取方法及云端服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104021170B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519984A (zh) * | 2018-02-07 | 2018-09-11 | 平安科技(深圳)有限公司 | 天气数据处理方法、服务器及计算机可读存储介质 |
CN110362546A (zh) * | 2019-07-22 | 2019-10-22 | 网易(杭州)网络有限公司 | 转换文件的获取方法、装置及文件转换系统 |
CN111198852A (zh) * | 2019-12-30 | 2020-05-26 | 浪潮通用软件有限公司 | 微服务架构下知识图谱驱动的元数据关系推理方法 |
CN115278365A (zh) * | 2022-09-26 | 2022-11-01 | 成都华栖云科技有限公司 | 一种网站视频获取方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1708106A1 (en) * | 2005-03-30 | 2006-10-04 | Microsoft Corporation | Associating advertisement information with network-based content locations |
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
CN103098054A (zh) * | 2010-08-06 | 2013-05-08 | 诺基亚公司 | 用于聚合文档信息的方法和装置 |
CN103186670A (zh) * | 2013-03-27 | 2013-07-03 | 中金数据系统有限公司 | 一种完整采集网页信息的方法和系统 |
CN103377201A (zh) * | 2012-04-17 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 信息搜索方法及装置 |
CN103823907A (zh) * | 2014-03-19 | 2014-05-28 | 北京奇虎科技有限公司 | 一种整合在线视频资源地址的方法、装置及引擎 |
-
2014
- 2014-05-30 CN CN201410238442.XA patent/CN104021170B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1708106A1 (en) * | 2005-03-30 | 2006-10-04 | Microsoft Corporation | Associating advertisement information with network-based content locations |
CN103098054A (zh) * | 2010-08-06 | 2013-05-08 | 诺基亚公司 | 用于聚合文档信息的方法和装置 |
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
CN103377201A (zh) * | 2012-04-17 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 信息搜索方法及装置 |
CN103186670A (zh) * | 2013-03-27 | 2013-07-03 | 中金数据系统有限公司 | 一种完整采集网页信息的方法和系统 |
CN103823907A (zh) * | 2014-03-19 | 2014-05-28 | 北京奇虎科技有限公司 | 一种整合在线视频资源地址的方法、装置及引擎 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519984A (zh) * | 2018-02-07 | 2018-09-11 | 平安科技(深圳)有限公司 | 天气数据处理方法、服务器及计算机可读存储介质 |
CN110362546A (zh) * | 2019-07-22 | 2019-10-22 | 网易(杭州)网络有限公司 | 转换文件的获取方法、装置及文件转换系统 |
CN111198852A (zh) * | 2019-12-30 | 2020-05-26 | 浪潮通用软件有限公司 | 微服务架构下知识图谱驱动的元数据关系推理方法 |
CN115278365A (zh) * | 2022-09-26 | 2022-11-01 | 成都华栖云科技有限公司 | 一种网站视频获取方法及系统 |
CN115278365B (zh) * | 2022-09-26 | 2023-01-03 | 成都华栖云科技有限公司 | 一种网站视频获取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104021170B (zh) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016264965B2 (en) | Systems and methods for creating user-managed online pages (mappages) linked to locations on an interactive digital map | |
WO2018045750A1 (zh) | 用户的评论数据展现方法、系统、服务器和用户终端 | |
CN102200980B (zh) | 一种提供网络资源的方法及系统 | |
US20090043815A1 (en) | System and method for processing downloaded data | |
CN103744853A (zh) | 提供搜索引擎网页快照信息的方法及装置 | |
US9703763B1 (en) | Automatic document citations by utilizing copied content for candidate sources | |
KR102233867B1 (ko) | 유사 그룹 요소 추출 | |
CN103699597A (zh) | 通过浏览器进行文件下载的方法及浏览器 | |
CN103440243A (zh) | 一种教学资源推荐方法及其装置 | |
CN104021170A (zh) | 一种信息获取方法及云端服务器 | |
CN105528218A (zh) | 数据图表级联方法及数据图表级联系统 | |
CN103744896A (zh) | 一种数据处理方法和装置 | |
CN108900547B (zh) | 回源控制方法及装置 | |
US20200204688A1 (en) | Picture book sharing method and apparatus and system using the same | |
CN105808642B (zh) | 推荐方法及装置 | |
CN105450677A (zh) | 数据的处理方法、装置及系统 | |
CN105991722A (zh) | 一种下载器推荐方法、应用服务器、终端及系统 | |
CN103678535A (zh) | 浏览器进行下载的方法和浏览器 | |
US20160210335A1 (en) | Server and service searching method of the server | |
KR20160069402A (ko) | 이용자 반응형 웹페이지 제공 방법 | |
KR102455316B1 (ko) | 복수의 정보원에서 얻는 정보 및 도구를 통일화하는 방법 및 이를 응용한 컴퓨터 프로그램 제품과 장치 | |
CN104049831A (zh) | 输入颜文字的方法及装置 | |
US10503773B2 (en) | Tagging of documents and other resources to enhance their searchability | |
JP2020123321A (ja) | クリップボードデータに基づく検索処理方法および装置 | |
CN105095404A (zh) | 网页信息的处理方法、网页信息的推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |