CN108090104A

CN108090104A - 用于获取网页信息的方法和装置

Info

Publication number: CN108090104A
Application number: CN201611056317.2A
Authority: CN
Inventors: 陈鑫; 高建忠; 杨琳琳; 雷成军; 吴冬雪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2018-05-29
Anticipated expiration: 2036-11-23
Also published as: CN108090104B

Abstract

本申请公开了用于获取网页信息的方法和装置。所述方法的一具体实施方式包括：解析目标网站中的网页，生成所述网页的结构树，从所述结构树的节点中提取至少一个网页元素，生成网页元素集合；对所述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量；根据各个网页元素包含的关键词的数量，在所述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板；利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据，从所述结构化数据中获取所述网页的信息。该实施方法实现了自动提取网页的信息。

Description

用于获取网页信息的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及一种用于获取网页信息的方法和装置

背景技术

随着网络技术的发展，互联网中存在着大量的网页数据，如何快速、有效的从大量的网页数据中，取得有用的知识，或从互联网上提取出特定领域的知识，成为网络信息获取的关键的问题。目前，从互联网上的网页中提取出特定领域的知识(如，各个上市公司的主营产品是什么)时，一般先找出此类信息比较集中的大网站，然后人工观察网站、网页的规律，配置抽取模板，利用模板从网站中获取知识。上述方法对于同类型的网页数据，特别是相同网站的网页数据来说，由于网页上存在着很多相同或相似的网页数据内容，在信息抽取时，针对具体网页类型配置模板即可实现。但是，网站中处在大量的不同类型的网页数据，需要配置不同的模板才能从不同类型的网页把数据中获取到网页的信息。

发明内容

本申请的目的在于提出一种改进的用于获取网页信息的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种用于获取网页信息的方法，所述方法包括：解析目标网站中的网页，生成所述网页的结构树，从所述结构树的节点中提取至少一个网页元素，生成网页元素集合；对所述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量；根据各个网页元素包含的关键词的数量，在所述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板；利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据，从所述结构化数据中获取所述网页的信息。

在一些实施例中，所述解析目标网站中的网页，生成所述网页的结构树，包括：从所述目标网站的网页中解析出所述网页的页面代码；根据所述页面代码生成所述网页的结构树。

在一些实施例中，所述对所述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量，包括：对所述网页元素集合中的每个网页元素，将该网页元素包含的内容转换为文本信息，统计确定该文本信息中包含所述预设关键词库中关键词的数量。

在一些实施例中，所述根据各个网页元素包含的关键词的数量，在所述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板，包括：按照包含关键词数据量从多到少的顺序从所述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合；根据所述目标网页元素集合中各个目标网页元素在所述目标网站的网页内容中出现的次数，从所述目标元素集合中选出待提取网页元素；由所述待提取网页元素生成信息题模板。

在一些实施例中，所述根据所述目标网页元素在所述目标网站的网页内容中出现的次数，从所述目标网页元素中选出待提取网页元素，包括：统计所述目标网页元素在所述目标网站的网页内容中出现的次数；对所述目标网页元素集合中的每个目标网页元素，为该目标网页元素包含关键词的数量赋第一权重，为该目标网页元素在所述目标网站的网页内容中出现的次数赋第二权重；对所述目标网页元素集合中的每个目标网页元素，根据该目标网页元素的第一权重和所述目标网页元素包含关键词数量以及第二权重和所述目标网页元素在所述目标网站的网页内容中出现的次数计算该目标网页元素的总权重；在所述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。

在一些实施例中，所述利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据，从所述结构化数据中获取所述网页的信息，包括：获取所述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取所述结构化数据的路径；根据所述路径所指定的位置，利用所述信息提取模板从所述目标网站的网页内容中提取所述网页的结构化数据，将所述数结构化数据转换为文本信息；将所述文本信息作为所述网页的信息。

在一些实施例中，所述方法还包括：从所述网页的信息中提取至少一个关键词；统计所述至少一个关键词中每个关键词的词频；从所述至少一个关键词中按照关键词的词频由高到低的顺序选取第二预定数目个关键词添加到所述预设关键词库中。

第二方面，本申请提供了一种用于获取网页信息的装置，所述装置包括：解析单元，配置用于解析目标网站中的网页，生成所述网页的结构树，从所述结构树的节点中提取至少一个网页元素，生成网页元素集合；确定单元，配置用于对所述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量；模板生成单元，配置用于根据各个网页元素包含的关键词的数量，在所述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板；获取单元，配置用于利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据，从所述结构化数据中获取所述网页的信息。

在一些实施例中，所述解析单元进一步配置用于：从所述目标网站的网页中解析出所述网页的页面代码；根据所述页面代码生成所述网页的结构树。

在一些实施例中，所述确定单元进一步配置用于：对所述网页元素集合中的每个网页元素，将该网页元素包含的内容转换为文本信息，统计确定该文本信息中包含所述预设关键词库中关键词的数量。

在一些实施例中，所述模板生成单元包括：排序模块，配置用于按照包含关键词数据量从多到少的顺序从所述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合；选取模块，配置用于根据所述目标网页元素集合中各个目标网页元素在所述目标网站的网页内容中出现的次数，从所述目标元素集合中选出待提取网页元素；生成模块，配置用于由所述待提取网页元素生成信息题模板。

在一些实施例中，所述选取模块进一步配置用于：统计所述目标网页元素在所述目标网站的网页内容中出现的次数；对所述目标网页元素集合中的每个目标网页元素，为该目标网页元素包含关键词的数量赋第一权重，为该目标网页元素在所述目标网站的网页内容中出现的次数赋第二权重；对所述目标网页元素集合中的每个目标网页元素，根据该目标网页元素的第一权重和所述目标网页元素包含关键词数量以及第二权重和所述目标网页元素在所述目标网站的网页内容中出现的次数计算该目标网页元素的总权重；在所述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。

在一些实施例中，所述获取单元进一步配置用于：获取所述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取所述结构化数据的路径；根据所述路径所指定的位置，利用所述信息提取模板从所述目标网站的网页内容中提取所述网页的结构化数据，将所述数结构化数据转换为文本信息；将所述文本信息作为所述网页的信息。

在一些实施例中，所述装置还包括关键词库更新单元，所述关键词库更新单元配置用于：从所述网页的信息中提取至少一个关键词；统计所述至少一个关键词中每个关键词的词频；从所述至少一个关键词中按照关键词的词频由高到低的顺序选取第二预定数目个关键词添加到所述预设关键词库中。

本申请提供的用于获取网页信息的方法和装置，通过解析目标网站的网页内容，提取出网页元素，根据网页元素包含的关键词的数量生成信息提取模板，利用信息提取模板从目标网站的网页中获取网页的信息。从而可以有效利用关键词库中的关键词生成不同的信息提取模板，实现从不同的网站中自动获取网页的信息。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于获取网页信息的方法的一个实施例的流程图；

图3a是根据本申请的用于获取网页信息的方法的一个应用场景中建立关键词库的示意图；

图3b是根据本申请的用于获取网页信息的方法的一个应用场景中取得网页信息的示意图；

图4是根据本申请的用于获取网页信息的方法的又一个实施例的流程图；

图5是根据本申请的用于获取网页信息的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于获取网页信息的方法或用于获取网页信息的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以从服务器上获取网页的信息。终端设备101、102、103上可以安装各种服务应用类软件，如信息搜索类应用、网页浏览类应用、社交平台类应用等。

终端设备101、102、103可以是具有显示屏并且支持信息搜索或信息获取的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户通过终端设备101、102、103在网站的网页搜索某领域的信息，并将搜索得到的网页信息在终端设备101、102、103上显示提供支持的后台处理服务器，后台处理服务器可以根据预设的关键词库中的关键词从解析后的网站的网页中获取网页信息。

需要说明的是，本申请实施例所提供的用于获取网页信息的方法一般由服务器105执行，相应地，用于获取网页信息的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于获取网页信息的方法的一个实施例的流程200。所述的用于获取网页信息的方法，包括以下步骤：

步骤201，解析目标网站中的网页，生成上述网页的结构树，从上述结构树的节点中提取至少一个网页元素，生成网页元素集合。

在本实施例中，用于获取网页信息的方法运行于其上的电子设备(例如图1所示的服务器)解析目标网站中的网页，生成上述网页的树形结构的结构树，从上述结构树的节点中提取至少一个网页元素，生成网页元素集合。这里，上述目标网站中的网页可以是通过网页抓取工具抓取后经URL分组后得到的具有相似或相近特征的网页。上述网页抓取工具可以是网路爬虫等，上述URL分组可以是将具有相同的网段的网页分为一组，如将网站a.com中具有a.com/b*的网页分为一组。其中，目标网站的网页的解析过程就是网页的页面与代码的交互过程，可以通过词法分析获取新符号并匹配句法规则，如果匹配成功，就在句法的结构树上创建相应的节点，如果没有匹配的规则，解析器内部保存这个符号，并继续从词法分析器获取符号，直到内部保存的所有符号能够成功匹配一个规则。如果最终无法匹配，解析器抛出异常。根据上述创建的节点，生成句法的结构树，从上述结构树的节点中提取出至少一个网页元素，并生成网页元素集合。其中，上述结构树的每个节点以及该节点所包含的内容作为上述网页的一个网页元素。

在本实施例的一些可选的实现方式中，上述解析目标网站中的网页，生成上述网页的结构树，包括：从上述目标网站的网页中解析出上述网页的页面代码；根据上述页面代码生成上述网页的结构树。这里，可以首先解析出目标网站的网页的代码或编码，如，可以解析出网页的HTML(Hyper Text Mark-up Language，超文本标记语言)编码。上述网页的编码由多个编码标签嵌套而成，可以将每个编码标签作为树的一个节点，由上述树的节点生成网页树形结构的结构树。从上述结构树的节点中提取出至少一个网页元素，并生成网页元素集合。其中，上述结构树的每个节点以及该节点所包含的内容作为上述网页的一个网页元素。作为示例，可以将上述目标网站的一个网页解析为HTML编码，或DOM(DocumentObject Model，文档对象模型)编码，以HTML编码、或DOM编码的编码标签为节点生成该网页的结构树。

步骤202，对上述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量。

在本实施例中，用于获取网页信息的方法运行于其上的电子设备上可以存储由至少一条关键词组成的预设关键词库，该预设关键词库中的关键词可以用于与上述网页元素内容结合，从而确定出该网页元素中包含关键词的数量。

在本实施例中，基于步骤201中得到的网页元素集合，上述电子设备(例如图1所示的服务器)可以对上述网页元素集合中每个网页元素的内容进行筛选，从筛选后的内容中查找关键词，并确定出该网页元素包含关键词的数量。其中，上述预设关键词库是用户通过终端设备预先设置的关键词库，上述预设关键词库中的关键词可以是用户在进行信息查询或信息获取之前通过终端设备输入的关键词，还可以是在网页信息获取之后从网页信息中提取的关键词。

在本实施例的一些可选的实现方式中，对上述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量，包括：对上述网页元素集合中的每个网页元素，将该网页元素包含的内容转换为文本信息，统计该文本信息中包含上述预设关键词库中关键词的数量，并将统计所得的数量确定为该网页元素包含上述预设关键词库中关键词的数量。这里，可以将上述网页元素的属性内容转换为文本信息，将预设关键词库中的关键词与上述文本信息匹配，根据匹配结果确定出文本信息中包含的关键词，并统计出包含关键词的数量。

步骤203，根据各个网页元素包含的关键词的数量，在上述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板。

在本实施例中，基于步骤202中所确定出的网页元素集合中每个网页元素包含预设关键词库中的关键词的数量，根据上述网页元素包含关键词的数量的多少从上述网页元素集合中选取出至少一个网页元素作为待提取网页元素，并由所选取的网页元素生成信息提取模板。这里，可以通过统计网页元素中包含关键词的数量多少对网页元素进行排序，根据排序结果在网页元素集合中选取出至少一个网页元素作为待提取网页元素。

本实施例中，由上述待提取网页元素生成信息提取模板。其中，上述信息提取模板可以是由包括具有层次结构的结构树组成，将上述网页元素添加到上述结构树相应的节点上，生成信息提取模板。这里，信息提取模板可以是具有树形结构的信息提取结构树，其中，构成该信息提取结构树的各个节点为网页元素，该信息提取结构树可以包含一个或一个以上的节点，在进行信息抽取的时候，可以将该信息提取结构树的节点与网页的页面内容的编码比较，或与网页解析后所生成的结构树比较，如果，具有相同的节点，则获取该网页的信息。作为示例，上述信息提取模板可以是具有DOM层次结构的结构树的模板，将上述待提取网页元素添加到上述结构树的节点，如，上述待提取网页元素是：<title>关于北京市小学生入学资格审定的若干方案的征求意见稿–北京市教委网</title>。可以将上述网页元素添加到信息提取模板的<title>-</title>节点中，生成模板的<title>-</title>节点中包含关键词“北京市小学”、“入学资格”、“入学资格审定”、“北京小学入学”、“北京小学入学资格”的信息提取模板。上述信息提取模板的节点是<title>北京市小学”、“入学资格”、“入学资格审定”、“北京小学入学”、“北京小学入学资格</title>，与网页解析后生成的结构树进行匹配，将结构树中的节点具有<title>北京市小学北京小学入学资格审定</title>的网页的信息提取出。

步骤204，利用上述信息提取模板将目标网站中的网页的网页内容转换为结构化数据，从上述结构化数据中获取上述网页的信息。

在本实施例中，上述电子设备可以将上述网页页面的内容与信息提取模板相结合，并由此获得上述网页内容的结构化数据，上述网页内容的结构化数据可以用于标识上述页面的页面内容。这里，结构化数据可以包括办公文档、文本、图片、XML、HTML图像、音频以及各类报表等格式的数据。从上述结构化数据中获取网页的信息，如，上述网页内容的为HTML文本信息的数据，上述电子设备可以从上述HTML文本信息中提取出网页的信息。作为示例，上述信息提取模板为<title>-</title>节点中包含关键词“北京市小学”、“入学资格”、“入学资格审定”、“北京小学入学”、“北京小学入学资格”的信息提取模板。可以将上述信息提取模板与网页解析后生成的结构树进行匹配，将结构树中的节点具有<title>北京市小学北京小学入学资格审定</title>的网页的信息提取出。

在本实施例的一些可选的实现方式中，上述利用信息提取模板将上述目标网站中的网页的网页内容转换为结构化数据，从上述结构化数据中获取上述网页的信息，包括：获取上述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取上述结构化数据的路径；根据上述路径所指定的位置，利用上述信息提取模板从上述目标网站的网页内容中提取上述网页的结构化数据，并将上述数结构化数据转换为文本信息；将上述文本信息作为上述网页的信息。这里，可以从该网页的编码中获得上述网页元素的URL表达式和网页元素表达式，如，可以从标题为“北京奥运”的网页的编码中提取出网页元素表达式：/html/head/title；与上述网页元素表达式对应的URL表达式是a.com/b/*.html。提取上述结构化数据的路径可以是URL如a.com/b/*.html的所有网页的<title>-</title>元素下的所有包含北京奥运的网页地址。上述电子设备可以从上述路径取得该网页元素对应的页面的结构化数据。

在本实施例的一些可选的实现方式中，上述电子设备还可以从上述网页的信息中提取至少一个关键词；统计上述至少一个关键词中每个关键词的词频；从上述至少一个关键词中按照关键词的词频由高到低的顺序选取第二预定数目个关键词添加到上述预设关键词库中。这里，可以对从上述结构化数据中获取的网页的信息进行关键词的提取，将获取的关键词经过过滤处理后，选出词频高的关键词添加到上述预设关键词库中，完善上述预设关键词库。实现根据完善后的预设关键词库获得更精确的信息抽取模板，由上述更加精确的信息抽取模板抽取得到更丰富的网页信息，由更加丰富的网页信息中提取关键词继续完善预设关键词库。经过多次迭代，实现自动获得网页的正确信息。其中，对关键词过滤处理可以是将一些通用的高频词去掉，如将“的”“是”等去掉。

继续参见图3，图3是根据本实施例的用于获取网页信息的方法的应用场景的一个示意图。在图3的应用场景中，用户首先通过终端设备建立预设关键词库，并在上述预设关键词库中添加至少一个关键词。如图3a所示，用户在通过终端设备建立的预设关键词库中添加关键词，如图3a中手形所指，点击join(加入)按键，将在关键词输入框中输入的关键词加入到预设关键词库中。然后点击关键词库中的“确定”按键或“取消”按键，之后，后台处理服务器解析目标网站，生成网页元素集合，并根据网页元素集合中每个网页元素包含关键词的数量，从上述网页元素集合中选取出待提取网页元素，由上述待提取网页元素生成信息提取模板，将信息提取模板与上述网页页面的内容向结合，取得网页的网页信息。如图3b所示，将网页的信息返回给用户。用户可以在终端设备点击显示的标题信息，从中获取有用的信息；或可以点击“继续”按键，上述服务器会根据终端设备显示的标题信息的内容，更新预设关键词库，重新生成信息提取模板，取得网页信息。

本申请的上述实施例提供的方法通过将关键词库与目标网站结合获得待提取网页元素，并由待提取网页元素生成信息提取模板，根据信息提取模板从网站中取得网页的信息。实现了从不同的网站中自动获取网页信息。

进一步参考图4，其示出了用于获取网页信息的方法的又一个实施例的流程400。该用于获取网页信息的方法的流程400，包括以下步骤：

步骤401，解析目标网站中的网页，生成上述网页的结构树，从上述结构树的节点中提取至少一个网页元素，生成网页元素集合。

在本实施例中，用于获取网页信息的方法运行于其上的电子设备(例如图1所示的服务器)解析目标网站中的网页，生成上述网页的树形结构的结构树，从上述结构树的节点中提取至少一个网页元素，生成网页元素集合。

步骤402，对上述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量。

在本实施例中，基于步骤401中得到的网页元素集合，上述电子设备可以对上述网页元素集合中每个网页元素的内容进行筛选，从筛选后的内容中查找关键词，并确定出该网页元素包含关键词的数量。

步骤403，按照包含关键词数据量从多到少的顺序从上述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合。

在本实施例中，基于步骤402中所确定的网页元素集合中每个网页元素所包含的关键词的数量，根据所包含的关键词的数量的多少对上述网页元素进行排序，并从上述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合。这里，对上述网页元素进行排序是按照包含关键词从多到少进行排序。

步骤404，根据上述目标网页元素集合中各个目标网页元素在上述目标网站的网页内容中出现的次数，从上述目标元素集合中选出待提取网页元素，并由上述待提取网页元素生成信息提取模板。

在本实施例中，基于步骤403所确定的目标网页元素集合，上述电子设备可以对上述目标网页元素集合中的每个网页元素进行统计，统计每个网页元素在上述目标网站的网页内容中出现的次数。可以根据上述网页元素在上述目标网站的网页内容中出现的次数从上述目标网页元素集合中选出目标网页元素确定为待提取网页元素，并由该待提取网页元素生成信息提取模板。这里，可以选择在上述目标网站的网页内容中出现的次数最多的目标网页元素作为待提取网页元素。作为示例，网页元素<title>，是网页的标题，每个网页只有一个。如，在目标网站的网页中有200个网页的标题出现关键词“小学生入学”，则，包含关键词“小学生入学”的网页元素<title>在目标网站的网页内容中出现的次数是200次。上述从目标网页元素中选取待提取网页元素还可以是：从上述目标网站选出在上述目标网站的网页内容中出现的次数大于设定值的所有目标网页元素，统计出上述所选出的所有目标网页元素中包含种子词的数量，根据上述目标网页元素中包含种子词的数量与上述网页元素在上述目标网站的网页内容中出现的次数的比值确定出待提取网页元素。作为示例，可以从上述目标网站中含有种子词的数量大于100的所有网页元素中选出包含种子词的数量与在上述目标网站的网页内容中出现的次数的比值最大的网页元素为待识别网页元素，如，网页元素/html/head/title在上述目标网站中的网页内容中出现的次数是1000次，包含的种子词数量为200个，其比值为200/1000，而网页元素div[@class＝‘detail’]在上述目标网站中的网页内容中出现的次数是1500次，包含的注册数量为250个，其比值为250/1500；根据比值结果可以将网页元素/html/head/title确定为待识别网页元素。

本实施例中，由上述待提取网页元素生成信息提取模板。其中，上述信息提取模板可以是由包括具有层次结构的结构树组成，将上述网页元素添加到上述结构树相应的节点上，生成信息提取模板。

在本实施例的一些可选的实现方式中，上述从目标网页元素集合中选取待提取网页元素还可以通过如下步骤实现：统计目标网页元素在上述目标网站的网页内容中出现的次数；对上述目标网页元素集合中的每个目标网页元素，为该目标网页元素包含关键词的数量赋第一权重，为该目标网页元素在上述目标网站的网页内容中出现的次数赋第二权重；对上述目标网页元素集合中的每个目标网页元素，根据该目标网页元素的第一权重和上述目标网页元素包含关键词数量以及第二权重和上述目标网页元素在上述目标网站的网页内容中出现的次数计算该目标网页元素的总权重；在上述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。这里，可以通过调整上述第一权重和第二权重的值，从上述目标网页元素集合选取出包含关键词数量多以及在目标网站的网页内容中出现的次数多的目标网页元素作为待提取网页元素。作为示例，如，包含关键词“入学资格”、“小学生入学”的网页元素<title1>在目标网站的网页中出现200次；包含关键词“入学资格”、“小学生入学”、“北京小学生入学”的网页元素<title2>在目标网站的网页中出现150次。如，赋予第一权重的值为0.5，第二权重的值为0.003。网页元素<title1>包含的关键词是“入学资格”、“小学生入学”，则包含的关键词数量为2；网页元素<title2>包含的关键词是“入学资格”、“小学生入学”、“北京小学生入学”，则包含的关键词数量为3；根据目标网页元素出现的次数和包含关键词的数量，对上述网页元素做加权运算，网页元素<title1>的总权重值2*0.5+200*0.003，网页元素<title2>的总权重值3*0.5+150*0.003。上述网页元素<title1>的总权重值1.60，上述网页元素<title2>的总权重值1.95；可以确定出包含关键词“入学资格”、“小学生入学”、“北京小学生入学”的网页元素<title2>为待提取网页元素。

步骤405，利用上述信息提取模板将目标网站中的网页的网页内容转换为结构化数据，从上述结构化数据中获取上述网页的信息。

在本实施例中，上述电子设备可以将上述网页页面的内容与信息提取模板相结合，并由此获得上述网页内容的结构化数据，上述网页内容的结构化数据可以用于标识上述页面的页面内容。这里，结构化数据可以包括办公文档、文本、图片、XML、HTML图像、音频以及各类报表格式等的数据。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于获取网页信息的方法的流程400突出了对待提取网页元素的选择步骤。由此，本实施例描述的方案可以更加准确的获得待提取网页元素，从而实现准确获取包含需求信息的网页信息。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于获取网页信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的用于获取网页信息的装置500包括：解析单元501、确定单元502、模板生成单元503和获取单元504。其中，解析单元501，配置用于解析目标网站中的网页，生成上述网页的结构树，从上述结构树的节点中提取至少一个网页元素，生成网页元素集合；确定单元502，配置用于对上述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量；模板生成单元503，配置用于根据各个网页元素包含的关键词的数量，在上述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板；获取单元504，配置用于利用上述信息提取模板将上述目标网站中的网页的网页内容转换为结构化数据，从上述结构化数据中获取上述网页的信息。

在本实施例中，用于获取网页信息的装置500的解析单元501可以解析目标网站中的网页，生成上述网页的树形结构的结构树，从上述结构树的节点中提取至少一个网页元素，生成网页元素集合。

在本实施例中，基于解析单元501所得到的网页元素集合，上述确定单元502可以对上述网页元素集合中每个网页元素的内容进行筛选，从筛选后的内容中查找关键词，并确定出该网页元素包含关键词的数量。

在本实施例中，基于确定单元502所确定出的网页元素集合中每个网页元素包含预设关键词库中的关键词的数量，上述模板生成单元503根据上述网页元素包含关键词的数量的多少从上述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的网页元素生成信息提取模板。这里，可以通过统计网页元素中包含关键词的数量多少对网页元素进行排序，根据排序结果在网页元素集合中选取出网页元素作为待提取网页元素。上述信息提取模板可以是由包括具有层次结构的结构树组成，将上述网页元素添加到上述结构树相应的节点上，生成信息提取模板。

在本实施例中，上述获取单元504将上述网页页面的内容与信息提取模板相结合，并由此获得上述网页内容的结构化数据，上述网页内容的结构化数据可以用于标识上述页面的页面内容。这里，结构化数据可以包括办公文档、文本、图片、XML、HTML图像、音频以及各类报表格式等的数据。将上述结构化数据转换为文本信息，从上述文本信息中获得网页的信息。

在本实施例的一些可选的实现方式中，上述解析单元501进一步配置用于：从上述目标网站的网页中解析出上述网页的页面代码；根据上述页面代码生成上述网页的结构树。

在本实施例的一些可选的实现方式中，上述确定单元502进一步配置用于：对上述网页元素集合中的每个网页元素，将该网页元素包含的内容转换为文本信息，统计确定该文本信息中包含上述预设关键词库中关键词的数量。

在本实施例的一些可选的实现方式中，上述模板生成单元503包括：排序模块。选取模块和生成模块。其中，排序模块配置用于按照包含关键词数据量从多到少的顺序从上述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合；选取模块配置用于根据上述目标网页元素集合中各个目标网页元素在上述目标网站的网页内容中出现的次数，从上述目标元素集合中选出待提取网页元素；生成模块，配置用于由上述待提取网页元素生成信息题模板。

在本实施例的一些可选的实现方式中，上述选取模块进一步配置用于：统计上述目标网页元素在上述目标网站的网页内容中出现的次数；对上述目标网页元素集合中的每个目标网页元素，为该目标网页元素包含关键词的数量赋第一权重，为该目标网页元素在上述目标网站的网页内容中出现的次数赋第二权重；对上述目标网页元素集合中的每个目标网页元素，根据该目标网页元素的第一权重和上述目标网页元素包含关键词数量以及第二权重和上述目标网页元素在上述目标网站的网页内容中出现的次数计算该目标网页元素的总权重；在上述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。

在本实施例的一些可选的实现方式中，上述获取单元进一步配置用于：获取上述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取上述结构化数据的路径；根据上述路径所指定的位置，利用上述信息提取模板从上述目标网站的网页内容中提取上述网页的结构化数据，将上述数结构化数据转换为文本信息将上述文本信息作为上述网页的信息。

在本实施例的一些可选的实现方式中，上述装置还包括关键词库更新单元，上述关键词库更新单元配置用于：从上述网页的信息中提取至少一个关键词；统计上述至少一个关键词中每个关键词的词频；从上述至少一个关键词中按照关键词的词频由高到低的顺序选取第二预定数目个关键词添加到上述预设关键词库中。

本申请的上述实施例提供的装置通过将关键词库与目标网站结合获得待提取网页元素，并由待提取网页元素生成信息提取模板，根据信息提取模板从网站中取得网页的信息。实现了从不同的网站中自动获取网页的信息。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的

程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口604也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括解析单元、确定单元、模板生成单元和获取单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，解析单元、还可以被描述为“用于解析目标网站中的网页，生成网页元素集合的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：解析目标网站中的网页，生成上述网页的结构树，从上述结构树的节点中提取至少一个网页元素，生成网页元素集合；对上述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量；根据各个网页元素包含的关键词的数量，在上述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板；利用上述信息提取模板将上述目标网站中的网页的网页内容转换为结构化数据，从上述结构化数据中获取上述网页的信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于获取网页信息的方法，其特征在于，所述方法包括：

解析目标网站中的网页，生成所述网页的结构树，从所述结构树的节点中提取至少一个网页元素，生成网页元素集合；

对所述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量；

根据各个网页元素包含的关键词的数量，在所述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板；

利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据，从所述结构化数据中获取所述网页的信息。

2.根据权利要求1所述的用于获取网页信息的方法，其特征在于，所述解析目标网站中的网页，生成所述网页的结构树，包括：

从所述目标网站的网页中解析出所述网页的页面代码；

根据所述页面代码生成所述网页的结构树。

3.根据权利要求1所述的用于获取网页信息的方法，其特征在于，所述对所述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量，包括：

对所述网页元素集合中的每个网页元素，将该网页元素包含的内容转换为文本信息，统计确定该文本信息中包含所述预设关键词库中关键词的数量。

4.根据权利要求3所述的用于获取网页信息的方法，其特征在于，所述根据各个网页元素包含的关键词的数量，在所述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板，包括：

按照包含关键词数据量从多到少的顺序从所述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合；

根据所述目标网页元素集合中各个目标网页元素在所述目标网站的网页内容中出现的次数，从所述目标元素集合中选出待提取网页元素；

由所述待提取网页元素生成信息题模板。

5.根据权利要求4所述的用于获取网页信息的方法，其特征在于，所述根据所述目标网页元素在所述目标网站的网页内容中出现的次数，从所述目标网页元素中选出待提取网页元素，包括：

统计所述目标网页元素在所述目标网站的网页内容中出现的次数；

对所述目标网页元素集合中的每个目标网页元素，为该目标网页元素包含关键词的数量赋第一权重，为该目标网页元素在所述目标网站的网页内容中出现的次数赋第二权重；

对所述目标网页元素集合中的每个目标网页元素，根据该目标网页元素的第一权重和所述目标网页元素包含关键词数量以及第二权重和所述目标网页元素在所述目标网站的网页内容中出现的次数计算该目标网页元素的总权重；

在所述目标网页元素集合中选取总权重最大的目标网页元素作为待提取网页元素。

6.根据权利要求1所述的用于获取网页信息的方法，其特征在于，所述利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据，从所述结构化数据中获取所述网页的信息，包括：

获取所述待提取网页元素的统一资源定位符URL表达式和网页元素表达式作为提取所述结构化数据的路径；

根据所述路径所指定的位置，利用所述信息提取模板从所述目标网站的网页内容中提取所述网页的结构化数据，将所述数结构化数据转换为文本信息；

将所述文本信息作为所述网页的信息。

7.根据权利要求6所述的用于获取网页信息的方法，其特征在于，所述方法还包括：

从所述网页的信息中提取至少一个关键词；

统计所述至少一个关键词中每个关键词的词频；

从所述至少一个关键词中按照关键词的词频由高到低的顺序选取第二预定数目个关键词添加到所述预设关键词库中。

8.一种用于获取网页信息装置，其特征在于，所述装置包括：

解析单元，配置用于解析目标网站中的网页，生成所述网页的结构树，从所述结构树的节点中提取至少一个网页元素，生成网页元素集合；

确定单元，配置用于对所述网页元素集合中的每个网页元素，确定该网页元素包含预设关键词库中的关键词的数量；

模板生成单元，配置用于根据各个网页元素包含的关键词的数量，在所述网页元素集合中选取出网页元素作为待提取网页元素，并由所选取的待提取网页元素生成信息提取模板；

获取单元，配置用于利用所述信息提取模板将所述目标网站中的网页的网页内容转换为结构化数据，从所述结构化数据中获取所述网页的信息。

9.根据权利要求8所述的用于获取网页信息装置，其特征在于，所述解析单元进一步配置用于：

从所述目标网站的网页中解析出所述网页的页面代码；

根据所述页面代码生成所述网页的结构树。

10.根据权利要求8所述的用于获取网页信息装置，其特征在于，所述确定单元进一步配置用于：

11.根据权利要求10所述的用于获取网页信息装置，其特征在于，所述模板生成单元包括：

排序模块，配置用于按照包含关键词数据量从多到少的顺序从所述网页元素集合中选取第一预定数目个网页元素作为目标网页元素集合；

选取模块，配置用于根据所述目标网页元素集合中各个目标网页元素在所述目标网站的网页内容中出现的次数，从所述目标元素集合中选出待提取网页元素；

生成模块，配置用于由所述待提取网页元素生成信息题模板。

12.根据权利要求11所述的用于获取网页信息装置，其特征在于，所述选取模块进一步配置用于：

13.根据权利要求8所述的用于获取网页信息装置，其特征在于，所述获取单元进一步配置用于：

将所述文本信息作为所述网页的信息。

14.根据权利要求13所述的用于获取网页信息装置，其特征在于，所述装置还包括关键词库更新单元，所述关键词库更新单元配置用于：

从所述网页的信息中提取至少一个关键词；

统计所述至少一个关键词中每个关键词的词频；