CN104156458B

CN104156458B - 一种信息的提取方法及装置

Info

Publication number: CN104156458B
Application number: CN201410412587.7A
Authority: CN
Inventors: 马小龙
Original assignee: Beijing Small Mutual Entertainment Technology Co Ltd
Current assignee: Beijing small mutual Entertainment Technology Co., Ltd.
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2017-09-22
Anticipated expiration: 2034-08-20
Also published as: CN104156458A

Abstract

本发明实施例提供了一种信息的提取方法，包括：抓取网页，所述网页为用于显示至少一个多媒体资源的网页；获得所述网页的源代码中至少一个目标节点；利用每个所述目标节点，从所述源代码中获得目标代码，所述目标代码为所述网页的源代码中该目标节点所对应的多媒体资源的源代码；从所述目标代码中，提取所述多媒体资源的描述信息。本发明实施例还提供一种信息的提取装置。根据本发明实施例提供的技术方案，可以实现提高多媒体资源的描述信息的提取操作的可靠性。

Description

一种信息的提取方法及装置

【技术领域】

本发明涉及互联网应用技术，尤其涉及一种信息的提取方法及装置。

【背景技术】

多媒体网站能够向用户提供大量的多媒体资源，用户可以进行多媒体资源的检索、浏览等操作，例如，用户从视频网站检索和浏览视频。为了实现多媒体资源的检索和展现，需要预先存储多媒体资源的描述信息，如视频的标题、缩略图、时长和播放次数等。

现有技术中，利用网站的样式模板对该网站中的多媒体资源的描述信息进行提取，然后将提取出的多媒体资源的描述信息存储在数据库中，进行多媒体资源的检索时可以依据数据库中存储的多媒体资源的描述信息实现检索和推荐。

然而，利用样式模板实现提取操作，容易受到网站的样式改变的影响，一旦网站的样式改变，将无法实现多媒体资源的描述信息的提取操作，因此，多媒体资源的描述信息的提取操作的可靠性比较低。

【发明内容】

有鉴于此，本发明实施例提供了一种信息的提取方法及装置，可以实现提高多媒体资源的描述信息的提取操作的可靠性。

本发明实施例提供了一种信息的提取方法，包括：

抓取网页，所述网页为用于显示至少一个多媒体资源的网页；

获得所述网页的源代码中至少一个目标节点；

利用每个所述目标节点，从所述源代码中获得目标代码，所述目标代码为所述网页的源代码中该目标节点所对应的多媒体资源的源代码；

从所述目标代码中，提取所述多媒体资源的描述信息。

上述方法中，所述获得所述网页的源代码中至少一个目标节点，包括：

依据所述网页的源代码，构建文档对象模型DOM树；

对所述DOM树中的节点进行解析，以获得每个所述节点的标签名；

依据目标节点的标签名在所述每个所述节点的标签名中依次进行匹配，以获得所述至少一个目标节点；其中，所述目标节点包括图片节点或者链接节点。

上述方法中，所述利用每个所述目标节点，从所述源代码中获得目标代码，包括：

将所述DOM树中每个所述目标节点的所有上级节点的计数值加1；获得每个所述目标节点的所有上级节点中与该目标节点之间层级间隔最小，且计数值大于1的一个上级节点；或者，依据预设的数值N，获得所述DOM树中每个所述目标节点的所有上级节点中与该目标节点之间的层级间隔为N的一个上级节点；

获得所述一个上级节点的所有下级节点；

对所述一个上级节点的所有下级节点进行解析，以获得每个所述下级节点对应的源代码；

依据每个所述下级节点对应的源代码，获得所述目标代码。

上述方法中，所述目标节点为图片节点，所述多媒体资源为视频，所述从所述目标代码中，提取所述多媒体资源的描述信息，包括：

依据可播放链接的链接模式，判断所述目标代码中是否包含可播放链接；

若所述目标代码中包含可播放链接，从所述目标代码中，提取所述多媒体资源的描述信息；

其中，所述多媒体资源的描述信息包括以下信息中至少一个：图片信息、标题信息、可播放链接、时长信息和播放次数。

上述方法中，所述方法还包括：

若所述目标代码中不包含可播放链接，从所述目标代码中，获得候选播放链接；

获得所述候选播放链接的出现次数，将出现次数大于或者等于预设的次数阈值的候选播放链接作为目标播放链接；

利用所述目标播放链接的链接模式更新可播放链接的链接模式。

上述方法中，所述方法还包括：

获得具有相同所述可播放链接的至少一个所述多媒体资源的描述信息；

依据至少一个所述多媒体资源的描述信息，获得图片信息的像素，将像素最大的图片信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得标题信息的字符数目，将字符数目最大的标题信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得时长信息的出现次数，将出现次数最多的时长信息存储到数据库。

上述方法中，所述目标节点为图片节点，所述多媒体资源为图片，所述从所述目标代码中，提取所述多媒体资源的描述信息，包括：

依据所述目标节点，获得图片信息；

对所述目标节点进行解析，以获得所述目标节点的属性信息；

依据所述目标节点的属性信息，获得所述多媒体资源的可展现链接；

从所述目标代码中，提取所述多媒体资源的描述信息中除所述图片信息和所述可展现链接以外的其他信息，所述其他信息包括标题信息和/或尺寸信息。

上述方法中，所述方法还包括：

获得具有相同所述可展现链接的至少一个所述多媒体资源的描述信息；

依据至少一个所述多媒体资源的描述信息，获得图片信息的像素，将像素最大的图片信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得标题信息的字符数目，将字符数目最大的标题信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得尺寸信息的出现次数，将出现次数最多的尺寸信息存储到数据库。

本发明实施例还提供了一种信息的提取装置，包括：

网页抓取单元，用于抓取网页，所述网页为用于显示至少一个多媒体资源的网页；

节点处理单元，用于获得所述网页的源代码中至少一个目标节点；

代码处理单元，用于利用每个所述目标节点，从所述源代码中获得目标代码，所述目标代码为所述网页的源代码中该目标节点所对应的多媒体资源的源代码；

信息提取单元，用于从所述目标代码中，提取所述多媒体资源的描述信息。

上述装置中，所述节点处理单元具体用于：

依据所述网页的源代码，构建文档对象模型DOM树；

上述装置中，所述代码处理单元具体用于：

获得所述一个上级节点的所有下级节点；

依据每个所述下级节点对应的源代码，获得所述目标代码。

上述装置中，所述目标节点为图片节点，所述多媒体资源为视频，所述信息提取单元具体用于：

上述装置中，所述装置还包括：

链接处理单元，用于若所述目标代码中不包含可播放链接，从所述目标代码中，获得候选播放链接；获得所述候选播放链接的出现次数，将出现次数大于或者等于预设的次数阈值的候选播放链接作为目标播放链接；利用所述目标播放链接的链接模式更新可播放链接的链接模式。

上述装置中，所述装置还包括：

第一信息筛选单元，用于获得具有相同所述可播放链接的至少一个所述多媒体资源的描述信息；依据至少一个所述多媒体资源的描述信息，获得图片信息的像素，将像素最大的图片信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得标题信息的字符数目，将字符数目最大的标题信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得时长信息的出现次数，将出现次数最多的时长信息存储到数据库。

上述装置中，所述目标节点为图片节点，所述多媒体资源为图片，所述信息提取单元具体用于：

依据所述目标节点，获得图片信息；

上述装置中，所述装置还包括：

第二信息筛选单元，用于获得具有相同所述可展现链接的至少一个所述多媒体资源的描述信息；依据至少一个所述多媒体资源的描述信息，获得图片信息的像素，将像素最大的图片信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得标题信息的字符数目，将字符数目最大的标题信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得尺寸信息的出现次数，将出现次数最多的尺寸信息存储到数据库。

由以上技术方案可以看出，本发明实施例具有以下有益效果：

本发明实施例中，利用网页的源代码中的节点，从源代码中获得该节点所对应的多媒体资源的源代码，再从获得的源代码中提取描述信息，与现有技术中利用网站的样式模板对该网站中的多媒体资源的描述信息进行提取的方式相比，本发明实施例提供的技术方案，摆脱了提取操作对网站的样式模板的依赖，这样，即使网站的样式模板改变，也无法影响多媒体资源的描述信息的提取操作，能够提高多媒体资源的描述信息的提取操作的可靠性。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的信息的提取方法的流程示意图；

图2是本发明实施例中网页的DOM树示意图；

图3是本发明实施例所提供的网页的示意图；

图4是本发明实施例中S104的具体实现方法的实施例一的流程示意图；

图5是本发明实施例中S104的具体实现方法的实施例二的流程示意图；

图6是本发明实施例所提供的信息的提取装置的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明实施例给出一种信息的提取方法，请参考图1，其为本发明实施例所提供的信息的提取方法的流程示意图，如图所示，该方法包括以下步骤：

S101，抓取网页，所述网页为用于显示至少一个多媒体资源的网页。

具体的，利用网页爬虫工具，定向地从提供多媒体资源的网站上抓取网页，以抓取到能够显示至少一个多媒体资源的网页。或者，利用网页爬虫工具，从提供多媒体资源的网站上抓取大量网页，然后对抓取到的网页进行筛选，获得其中能够显示至少一个多媒体资源的网页。

其中，抓取到的能够显示至少一个多媒体资源的网页可以包括以下网页中至少一种：多媒体资源的网站首页、至少一个多媒体资源的列表页、至少一个多媒体资源的榜单页、至少一个多媒体资源的搜索页和至少一个多媒体资源的播放页。

例如，从视频网站，如优酷网、爱奇艺等网站上，抓取网页，该网页能够显示至少一个视频。

再例如，从图片网站，如无极图片网、百度图片上，抓取网页，该网页能够显示至少一个图片。

S102，获得所述网页的源代码中至少一个目标节点。

具体的，首先，利用网络爬虫工具，获得网页的源代码。依据所述网页的源代码，构建网页的文档对象模型(Document Object Model，DOM)树。

其中，所述网页的源代码可以为如下格式的文档：超级文本标记语言(Hyper TextMarkup language，HTML)、动态服务器页面(Active Server Page，ASP)或者超文本预处理器(Hypertext Preprocessor，PHP)等。

其中，可以利用文档分析技术对文本格式的网页的源代码进行扫描，建立该网页的DOM树。例如，HTML文档中包含有若干个标签，依据HTML文档的嵌套顺序，通过一个栈(HTML Element Stack m_open Elements)来保存当前打开的节点的标签。如HTML文档为：<div><p><a></a></p><br></br></div>，其中，div节点有两个子节点，p和br，而p节点又有一个子节点a，具体处理过程简单描述如下：首先处理<div>，遇到<div>时，将<div>作为DOM树的根节点。继续处理，遇到<p>标签，div就是p节点的父节点，建立好p和div的连接，在DOM树中加入节点p。继续处理，遇到<a>标签，当前节点是a，a的父节点是p，建立好父子关系，并将a加入DOM树。继续处理，遇到</a>标签，弹出a。继续处理，遇到</p>标签，弹出p。继续处理，遇到<br>标签，div是br节点的父节点，建立好br和div的连接，在DOM树中加入节点br。继续处理，遇到</br>标签，弹出br。继续处理，遇到</div>标签，弹出div，至此，DOM树建立完毕。

接着，对网页的DOM树中的每个节点进行解析，以获得每个节点的标签名。

最后，依据目标节点的标签名在所述每个所述节点的标签名中依次进行匹配，以获得所述至少一个目标节点。

其中，目标节点可以为图片节点，也可以为链接节点。若多媒体资源是视频，链接节点可以为可播放链接节点，若多媒体资源是图片，链接节点为可展现链接节点。

可以理解的，图片节点指的是包含多媒体资源的图片信息的节点，通过对图片节点进行解析，可以获得多媒体资源的图片信息。链接节点指的是包含多媒体资源的可播放链接的节点，通过对链接节点进行解析，可以获得多媒体资源的可播放链接。

例如，图片节点的标签名为img，利用该标签名在DOM树的节点中一次进行匹配，一旦发现某节点的标签名为img，则确定该节点为图片节点。

再例如，请参考图2，其为本发明实施例中网页的DOM树示意图，如图所示，图2中DOM树中的节点8、节点16和节点20为找到的图片节点。

S103，利用每个所述目标节点，从所述源代码中获得目标代码，所述目标代码为所述网页的源代码中该目标节点所对应的多媒体资源的源代码。

具体的，首先，对于DOM树中的每个目标节点，需要确定一个该目标节点的上级节点。

本发明实施例中，确定一个该目标节点的上级节点的方法可以包括以下两种：

第一种：在获得DOM数中的目标节点后，对于每个目标节点，将DOM树中该目标节点的所有上级节点的计数值加1。目标节点的上级节点指的是该目标节点的父节点、祖父节点等。

例如，如图2所示，对于图片节点，如节点8的上级节点包括节点4、节点2和节点1，将节点4的计数值加1，将节点2的计数值加1，将节点1的计数值加1。

再例如，如图2所示，对于图片节点，如节点16的上级节点包括节点12、节点6和节点3，节点20的上级节点包括节点14、节点7和节点3，这样节点3的计数值就等于2。

对与每个目标节点，遍历该目标节点的所有上级节点，按照层级由下往上的顺序，逐个遍历上级节点，直到某上级节点的计数值大于1时停止，这样，就可以获得该目标节点的所有上级节点中与该目标节点之间层级间隔最小，且计数值大于1的一个上级节点。

例如，对于图片节点，如节点16的上级节点依次遍历，先遍历节点12，节点12的计数值等于1，则向上遍历；遍历到节点6，发现节点6的计数值等于1，则继续向上遍历；遍历到节点3，发现节点3的计数值等于2，满足大于1的条件，停止遍历，则确定节点3为图片节点(节点16)的所有上级节点中与该图片节点(节点16)之间层级间隔最小，且计数值大于1的一个上级节点。

第二种：依据预设的数值N，从目标节点开始，向上遍历，当遍历了N个节点后，将第N个节点作为DOM树中每个目标节点的所有上级节点中与该目标节点之间的层级间隔为N的一个上级节点。

优选的，所述N的取值范围可以是大于或者等于4且小于或者等于8。

需要说明的是，第二种方法是优选的确定一个目标节点的上级节点的方法，因为第二种方法可以防止获得的目标代码中包含过多的节点。例如，若对每个上级节点都增加计数值，那么最终得到的目标代码会占源代码的比例较高，这样圈定出的目标代码的范围比较大，因此，利用第二种方法可以减少目标代码的范围，以提高提取出的描述信息的精确度和提取效率。

然后，在确定一个该目标节点的上级节点后，获得该上级节点的所有下级节点。

最后，对所述一个上级节点的所有下级节点进行解析，以获得每个所述下级节点对应的源代码；依据每个所述下级节点对应的源代码，获得所述目标代码。

例如，如图2所示，对于上级节点，如节点2，节点2的所有下级节点包括节点4、节点5、节点8、节点9和节点10。对节点4、节点5、节点8、节点9和节点10分别进行解析，获得每个节点对应的源代码，将节点4、节点5、节点8、节点9和节点10中每个节点对应的源代码进行汇总，以作为目标代码，该目标代码相当于图片节点，如节点8所对应的多媒体资源的信息块，该信息块中的描述信息时该多媒体资源的描述信息，获得的目标代码属于源代码的一部分，相当于在源代码中找到包含该多媒体资源的描述信息的源代码。

例如，请参考3，其为本发明实施例所提供的网页的示意图，如图所示，网页中包括三个多媒体资源的描述信息，即视频1的描述信息、视频2的描述信息和视频3的描述信息，图3所示的网页的源代码对应的DOM树如图2所示。

如图2所示，节点9、节点15和节点19都为标题节点，节点10、节点17和节点18都为其他描述信息的节点，如时长节点、播放次数节点等。

S104，从所述目标代码中，提取所述多媒体资源的描述信息。

请参考图4，其为本发明实施例中S104的具体实现方法的实施例一的流程示意图，本实施例中，所述目标节点为图片节点，所述多媒体资源为视频。如图所示，该方法包括以下步骤：

S401，依据可播放链接的链接模式，判断所述目标代码中是否包含可播放链接，若所述目标代码中包含可播放链接，执行S402，若所述目标代码中不包含可播放链接，执行S403。

具体的，在利用每个所述图片节点，从所述源代码中获得目标代码后，对于某图片节点，依据预设的可播放链接的链接模式，判断获得的目标代码中是否包含可播放链接。

其中，可播放链接的链接模式指的是可播放链接的格式。若目标代码中包含的链接的格式与该可播放链接的格式相符，说明该链接是可播放链接，则判断出目标代码中包含可播放链接，执行S402。反之，若目标代码中包含的链接的格式与该可播放链接的格式不相符，说明该链接不是可播放链接，则判断出目标代码中不包含可播放链接，执行S403。

可以理解的，可播放链接指的是通过访问该可播放链接可以展现对应的视频，可以认为可播放链接是视频的有效链接，通过访问该可播放链接才能展现该视频本身。

S402，从所述目标代码中，提取所述多媒体资源的描述信息；其中，所述多媒体资源的描述信息包括以下信息中至少一个：图片信息、标题信息、可播放链接、时长信息和播放次数。

具体的，由于所述目标代码为所述网页的源代码中该图片节点所对应的多媒体资源的源代码，因此，在获得目标代码后，可以从所述目标代码中，提取所述多媒体资源的描述信息。

本发明实施例中，多媒体资源的描述信息可以包括以下信息中至少一个：图片信息、标题信息、可播放链接、时长信息和播放次数。其中，图片信息指的是视频的预览图或者视频中某时刻的截图。

举例说明，从目标代码中提取图片信息的方法可以是：利用图片信息的标签在目标代码中进行匹配，以确定目标代码中该标签的位置，该标签后面对应的属性值就是图片信息。

举例说明，从目标代码中提取标题信息的方法可以是：依据标题信息的模式在目标代码中进行匹配，以从目标代码中识别出标签信息。例如，依据模式<a href＝可播放链接>标题</a>，可以获知目标代码中标题信息的位置，依据将目标代码中该位置上的信息获得标签信息。

举例说明，从目标代码中提取可播放链接的方法可以是：依据可播放链接的标签在目标代码中进行匹配，该标签后面对应的属性值就是可播放链接。例如，依据模式<ahref＝可播放链接>标题</a>，可以获知目标代码中标签ahref之后的信息就是可播放链接。

举例说明，从目标代码中提取其他描述信息，如时长信息和播放次数，的方法可以是：可以依据文本信息或者级联样式表(Cascading Style Sheets，CSS)信息，在目标代码中进行匹配，以提取出目标代码中的时长信息和/或播放次数等其他描述信息。例如，可以依据文本信息“时长”或者CSS信息“time”，从目标代码中获得时长信息。再例如，可以依据CSS信息“\d+分\d+秒”，从目标代码中获得时长信息。

S403，从所述目标代码中，获得候选播放链接；获得所述候选播放链接的出现次数，将出现次数大于或者等于预设的次数阈值的候选播放链接作为目标播放链接；利用所述目标播放链接的链接模式更新可播放链接的链接模式。

具体的，如果目标代码中不包含可播放链接，则说明目标代码中的链接很有可能是遗漏的可播放链接。由于遗漏的可播放链接的链接模式在链接模式库中没有存储，才无法从目标代码中找到可播放链接。因此，可以从所述目标代码中，获得候选播放链接，并将该候选播放链接存储到分布式文件系统(Hadoop Distributed File System，HDFS)，该HDFS中已经存入了若干候选播放链接，因此，依据HDFS中存储的候选播放链接，利用Hadoop方式，统计每个候选播放链接的出现次数。依据预设的次数阈值，找到出现次数大于或者等于次数阈值的候选播放链接，将这些候选播放链接作为目标播放链接；利用所述目标播放链接的链接模式更新可播放链接的链接模式。也就是说，目标播放链接相当于挖掘出的新的可播放链接，因此，需要将目标播放链接的链接模式存储到保存可播放链接的链接模式的数据库中，可以实现可播放链接的链接模式的自动更新和补充。

上述方法可以实现自动挖掘新的可播放链接，然后将新的可播放链接的链接模式存储到数据库中，实现对已有的可播放链接的连接模式的自动扩充，有利于此后发现更多的可播放链接。

可选的，S402之后，该方法还可以包括：

获得具有相同所述可播放链接的至少一个所述多媒体资源的描述信息；依据至少一个所述多媒体资源的描述信息，获得图片信息的像素，将像素最大的图片信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得标题信息的字符数目，将字符数目最大的标题信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得时长信息的出现次数，将出现次数最多的时长信息存储到数据库。

可以理解的，本发明实施例中可以并行地从视频网站上抓取不同的网页，因此，对于同一个可播放链接可以从不同来源获得不同的描述信息，因此，将不同来源的描述信息存储到HDFS中，然后利用Hadoop方式对具有相同可播放链接的不同描述信息进行统计，获得每个图片信息的像素、每个标题信息的字符数目、每种时长信息的出现次数等，然后将其中像素最大的图片信息作为该可播放链接对应的视频的图片信息，并被存储到多媒体资源数据库中；将其中字符数目最大的标题信息作为该可播放链接对应的视频的标题信息，并被存储到多媒体资源数据库中；将其中出现次数最多的时长信息作为该可播放链接对应的视频的时长信息，并被存储到多媒体资源数据库中。这样，就可以实现筛选出优质的描述信息，获得质量高的图片信息、信息量丰富的标题信息和准确的时长信息，将这些描述信息存入多媒体资源数据库中，可以提高多媒体资源数据库中描述信息的准确性和可靠性。

请参考图5，其为本发明实施例中S104的具体实现方法的实施例二的流程示意图，本实施例中，所述目标节点为图片节点，所述多媒体资源为图片。如图所示，该方法包括以下步骤：

S501，依据所述目标节点，获得图片信息。

可以理解的，对于是图片的多媒体资源，其网页的源代码对应的DOM树中的图片节点就是图片本身，因此，在获得图片节点后，就获得了图片信息，后续在获取多媒体资源的描述信息时不需要再提取的图片信息。

S502，对所述目标节点进行解析，以获得所述目标节点的属性信息；依据所述目标节点的属性信息，获得所述多媒体资源的可展现链接。

具体的，可以对目标节点进行解析，以获得目标节点的属性信息，然后在该属性信息中查找可展现链接。如果在属性信息中能够图片的可展现链接，则执行S502，如果在属性信息中没有找到图片的可展现链接，结束当前流程。

其中，图片的可展现链接指的是通过访问该链接可以展现该图片的完整版本，而不是能够只展现部分图片的链接。

S503，从所述目标代码中，提取所述多媒体资源的描述信息中除所述图片信息和所述可展现链接以外的其他信息，所述其他信息包括标题信息和/或尺寸信息。

可选的，S503之后，上述方法还可以包括：

获得具有相同所述可展现链接的至少一个所述多媒体资源的描述信息；依据至少一个所述多媒体资源的描述信息，获得图片信息的像素，将像素最大的图片信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得标题信息的字符数目，将字符数目最大的标题信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得尺寸信息的出现次数，将出现次数最多的尺寸信息存储到数据库。

S503的具体实现过程与图4所示的实施例相似，只是提取的描述信息不同，例如，图4所示的实施例中，需要提取视频的描述信息包括图片信息、可播放链接、标题信息、时长信息和播放次数，本实施例中，需要提取的图片的描述信息包括标题信息和尺寸信息。因此，本实施例中提取标题信息和尺寸信息的具体实现方法可以参考图4所示实施例中提取视频的描述信息的具体实现方法，这里不再赘述。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图6，其为本发明实施例所提供的信息的提取装置的功能方块图。如图所示，该装置包括：

网页抓取单元601，用于抓取网页，所述网页为用于显示至少一个多媒体资源的网页；

节点处理单元602，用于获得所述网页的源代码中至少一个目标节点；

代码处理单元603，用于利用每个所述目标节点，从所述源代码中获得目标代码，所述目标代码为所述网页的源代码中该目标节点所对应的多媒体资源的源代码；

信息提取单元604，用于从所述目标代码中，提取所述多媒体资源的描述信息。

优选的，所述节点处理单元602具体用于：

依据所述网页的源代码，构建文档对象模型DOM树；

优选的，所述代码处理单元603具体用于：

获得所述一个上级节点的所有下级节点；

依据每个所述下级节点对应的源代码，获得所述目标代码。

优选的，所述目标节点为图片节点，所述多媒体资源为视频，所述信息提取单元604具体用于：

可选的，所述装置还包括：

链接处理单元605，用于若所述目标代码中不包含可播放链接，从所述目标代码中，获得候选播放链接；获得所述候选播放链接的出现次数，将出现次数大于或者等于预设的次数阈值的候选播放链接作为目标播放链接；利用所述目标播放链接的链接模式更新可播放链接的链接模式。

可选的，所述装置还包括606：

优选的，所述目标节点为图片节点，所述多媒体资源为图片，所述信息提取单元604具体用于：

依据所述目标节点，获得图片信息；

可选的，所述装置还包括：

第二信息筛选单元607，用于获得具有相同所述可展现链接的至少一个所述多媒体资源的描述信息；依据至少一个所述多媒体资源的描述信息，获得图片信息的像素，将像素最大的图片信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得标题信息的字符数目，将字符数目最大的标题信息存储到数据库；和/或，依据至少一个所述多媒体资源的描述信息，获得尺寸信息的出现次数，将出现次数最多的尺寸信息存储到数据库。

由于本实施例中的各单元能够执行图1、图4和图5所示的方法，本实施例未详细描述的部分，可参考对图1、图4和图5的相关说明。

本发明实施例的技术方案具有以下有益效果：

1、本发明实施例中，利用网页的源代码中的节点，从源代码中获得该节点所对应的多媒体资源的源代码，再从获得的源代码中提取描述信息，与现有技术中利用网站的样式模板对该网站中的多媒体资源的描述信息进行提取的方式相比，本发明实施例提供的技术方案，摆脱了提取操作对网站的样式模板的依赖，这样，即使网站的样石模板改变，也无法影响多媒体资源的描述信息的提取操作，能够提高多媒体资源的描述信息的提取操作的可靠性。

2、本发明实施例中，摆脱了提取操作对样式模板的依赖，与现有技术中，当网站的样式改变后，为了是实现多媒体资源的描述信息的提取操作，也对网站的样式模板进行修改的技术方案相比，本发明实施例提供的技术方案不需要进行网站的样式模板的修改，可以降低多媒体资源的描述信息的提取成本。

3、本发明实施例中，先获取到多媒体资源的描述信息所属的部分源代码，再从这部分源代码中提取多媒体资源的描述信息，与现有技术中，从整个源代码中提取某多媒体资源的描述信息的方式相比，能够减少提取时的匹配操作次数，从而提高多媒体资源的描述信息的提取效率和准确度。

4、本发明实施例中，对提取的多媒体资源的描述信息进行筛选，以获得其中高质量的描述信息，并存储高质量的描述信息，与现有技术中利用先到先存储的存储方式或者后到覆盖先到的存储方式相比，能够提高存储的描述信息的质量度，提高描述信息的精准度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种信息的提取方法，其特征在于，所述方法包括：

获得所述网页的源代码中至少一个目标节点；

若所述目标代码中不包含可播放链接，从所述目标代码中，获得候选播放链接；获得所述候选播放链接的出现次数，将出现次数大于或者等于预设的次数阈值的候选播放链接作为目标播放链接；利用所述目标播放链接的链接模式更新可播放链接的链接模式。

2.根据权利要求1所述的方法，其特征在于，所述获得所述网页的源代码中至少一个目标节点，包括：

依据所述网页的源代码，构建文档对象模型DOM树；

3.根据权利要求2所述的方法，其特征在于，所述利用每个所述目标节点，从所述源代码中获得目标代码，包括：

获得所述一个上级节点的所有下级节点；

依据每个所述下级节点对应的源代码，获得所述目标代码。

4.根据权利要求1所述的方法，其特征在于，所述目标节点为图片节点，所述多媒体资源为视频，所述多媒体资源的描述信息包括以下信息中至少一个：图片信息、标题信息、可播放链接、时长信息和播放次数。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述目标节点为图片节点，所述多媒体资源为图片，所述从所述目标代码中，提取所述多媒体资源的描述信息，包括：

依据所述目标节点，获得图片信息；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种信息的提取装置，其特征在于，所述装置包括：

信息提取单元，用于：依据可播放链接的链接模式，判断所述目标代码中是否包含可播放链接，若所述目标代码中包含可播放链接，从所述目标代码中，提取所述多媒体资源的描述信息；

链接处理单元，用于：若所述目标代码中不包含可播放链接，从所述目标代码中，获得候选播放链接；获得所述候选播放链接的出现次数，将出现次数大于或者等于预设的次数阈值的候选播放链接作为目标播放链接；利用所述目标播放链接的链接模式更新可播放链接的链接模式。

9.根据权利要求8所述的装置，其特征在于，所述节点处理单元具体用于：

依据所述网页的源代码，构建文档对象模型DOM树；

10.根据权利要求9所述的装置，其特征在于，所述代码处理单元具体用于：

获得所述一个上级节点的所有下级节点；

依据每个所述下级节点对应的源代码，获得所述目标代码。

11.根据权利要求8所述的装置，其特征在于，所述目标节点为图片节点，所述多媒体资源为视频，所述多媒体资源的描述信息包括以下信息中至少一个：图片信息、标题信息、可播放链接、时长信息和播放次数。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求8所述的装置，其特征在于，所述目标节点为图片节点，所述多媒体资源为图片，所述信息提取单元具体用于：

依据所述目标节点，获得图片信息；

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：