CN104778246A

CN104778246A - 一种网页信息获取方法和装置

Info

Publication number: CN104778246A
Application number: CN201510169796.8A
Authority: CN
Inventors: 王贵友; 崔乐乐; 王传超
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-04-10
Filing date: 2015-04-10
Publication date: 2015-07-15

Abstract

本发明提供一种网页信息获取方法和装置，该方法包括：建立不规则匹配库，所述不规则匹配库包括：目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，通过遍历目标网页的源代码，根据所述匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从所述目标网页的源代码中获取目标信息，与现有技术相比，本发明实施例的方法也可对前标志和/或后标志无法确定的目标信息进行获取，有效地提高了获取目标信息的完整性和准确性。

Description

一种网页信息获取方法和装置

技术领域

本发明涉及计算机软件应用领域，特别涉及一种网页信息获取方法和装置。

背景技术

随着互联网的发展，每时每刻都在产生着海量的数据，这些数据可以为政府或公司了解一个行业的市场活跃度以及评价一个公司的综合实力提供很好的参考。

目前，网页中的数据主要通过网页源代码解析的方法自动化解析获取。在现有技术中，主要根据模式化的前后标志，进行目标信息获取，该方法将网页结构统一规范的网站中的目标信息获取比较完整，但是，对于网页结构多变、不一的网页来说，其前标志和/或后标志常常无法确定，导致了获取目标信息的完整性和准确性较低。

发明内容

本发明提供一种网页源代码解析方法和装置，以提高获取目标信息的完整性和准确性。

一种网页信息获取方法，包括：

建立不规则匹配库，所述不规则匹配库包括：目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个；

遍历目标网页的源代码，根据所述匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从所述目标网页的源代码中获取目标信息。

优选地，该方法进一步包括：建立关键字识别数据库，所述关键字识别数据库包括：目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个；

根据所述匹配库中的信息的属性、信息的格式以及信息包含的字符串中的任意一个或多个，从所述目标网页的源代码中获取目标信息之前，进一步包括：

根据所述关键字识别数据库中的目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个，截取所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个；

判断所述截取的含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中任意一个是否为空，如果是，则执行所述遍历目标网页的源代码；否则，通过清洗机制清洗所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获取目标信息，结束当前流程。

优选地，所述通过清洗机制清洗所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获取目标信息，包括：

根据目标信息的属性、格式或正则达表达式中的任意一个或多个，从所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获得目标信息。

优选地，在遍历目标网页的源代码之前，进一步包括：

整理目标网页，使同类目标信息具有统一格式；

所述遍历目标网页的源代码，包括：遍历所述整理后的目标网页的源代码。

优选地，所述网页为投标网页；

所述目标信息，包括：项目名称、项目编号、公告发布时间、招标人、代理机构、开标时间中的任意一个或多个；

所述目标信息的属性，包括：招标网页或投标网页的源代码中项目名称的字体或字号中的任意一个或两个；

所述目标信息的格式，包括：招标网页或投标网页的源代码中项目编号、公告发布时间或开标时间的输出格式中的任意一个或多个；

所述目标信息包含的字符串，包括：项目编号含有的大写或小写字符以及“-”、“[”或“]”符号。

一种网页信息获取装置，包括：

第一建立单元，用于建立不规则匹配库，所述不规则匹配库包括：目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个；

获取单元，用于遍历目标网页的源代码，根据所述匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从所述目标网页的源代码中获取目标信息。

优选地，该装置进一步包括：第二建立单元、截取单元、判断单元和清洗单元，其中，

所述第二建立单元，用于建立关键字识别数据库，所述关键字识别数据库包括：目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个；

所述截取单元，用于根据所述关键字识别数据库中的目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个，截取所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个；

所述判断单元，用于判断所述截取单元截取的含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中任意一个是否为空，如果是，则触发所述获取单元；否则，触发所述清洗单元；

所述清洗单元，用于通过清洗机制清洗所述截取单元截取的所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获取目标信息，结束当前流程。

优选地，所述清洗单元进一步包括：

用于根据目标信息的属性、格式或正则达表达式中的任意一个或多个，从所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获得目标信息。

优选地，该装置进一步包括：整理单元，其中，

所述整理单元，用于整理目标网页，使同类目标信息具有统一格式；

所述获取单元，进一步用于遍历所述整理后的目标网页的源代码，根据所述匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从所述整理后的目标网页的源代码中获取目标信息。

优选地，所述装置应用于招投标网页的目标信息获取，其中，

所述获取单元获取的目标信息，包括：项目名称、项目编号、公告发布时间、招标人、代理机构、开标时间中的任意一个或多个；

所述第一建立单元建立的不规则匹配库中所述目标信息的属性，包括：招标网页或投标网页的源代码中项目名称的字体或字号中的任意一个或两个；

所述第一建立单元建立的不规则匹配库中所述目标信息的格式，包括：招标网页或投标网页的源代码中项目编号、公告发布时间或开标时间的输出格式中的任意一个或多个；

所述第一建立单元建立的不规则匹配库中所述目标信息包含的字符串，包括：项目编号含有的大写或小写字符以及“-”、“[”或“]”符号。

本发明实施例提供了一种网页信息获取方法和装置，其通过建立的不规则匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个来获取目标信息，这是因为，对于同一领域的网页来说，不管目标信息在源代码中的前后标志是否一致，该目标信息在源代码中的属性、格式以及包含的字符串是相同或相近的。因此，与现有技术相比，本发明实施例的方法也可对前标志和/或后标志无法确定的目标信息进行获取，有效地提高了获取目标信息的完整性和准确性。

附图说明

图1本发明实施例提供的一种网页信息获取方法的流程图；

图2本发明另一实施例提供的一种网页信息获取方法的流程图；

图3本发明实施例提供的一种网页信息获取装置所在架构示意图；

图4本发明实施例提供的一种网页信息获取装置结构示意图；

图5本发明另一实施例提供的一种网页信息获取装置结构示意图；

图6本发明又一实施例提供的一种网页信息获取装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种网页信息获取方法，该方法可以包括以下步骤：

步骤101：建立不规则匹配库，所述不规则匹配库包括：目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个；

步骤102：遍历目标网页的源代码，根据所述匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从所述目标网页的源代码中获取目标信息。

根据上述方案，通过建立不规则匹配库，使得本发明实施例的方法也可对前标志和/或后标志无法确定的目标信息进行获取，有效地提高了获取目标信息的完整性和准确性。

在本发明一个实施例中，为了提高目标信息的获取效率，本发明实施例的方法，进一步包括：建立关键字识别数据库，所述关键字识别数据库包括：目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个，同时，在步骤102之前，可根据所述关键字识别数据库中的目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个，截取所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，通过这一过程可快速的截取含有目标信息的内容；然后，判断所述截取的含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中任意一个是否为空，如果是，则执行所述步骤102；否则，通过清洗机制清洗所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获取目标信息，结束当前流程。

在本发明一个实施例中，通过清洗机制清洗所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获取目标信息的具体实时方式为：根据目标信息的属性、格式或正则达表达式中的任意一个或多个，从所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获得目标信息。

在本发明一个实施例中，为了进一步提高获取目标信息的完整性，在步骤102之前，进一步包括：整理目标网页，使同类目标信息具有统一格式，如将网页内容中的二零一五年四月五日，修改为2015.04.05或2015-04-05等，那么，步骤102中所述遍历目标网页的源代码即为遍历所述整理后的目标网页的源代码。

在本发明一个实施例中，该网页信息获取方法应用于招投标网页的目标信息获取，其中，招投标网页获取的目标信息，包括：项目名称、项目编号、公告发布时间、招标人、代理机构、开标时间中的任意一个或多个；招投标网页的目标信息的属性，包括：招标网页或投标网页的源代码中项目名称的字体或字号中的任意一个或两个；招投标网页的目标信息的格式，包括：招标网页或投标网页的源代码中项目编号、公告发布时间或开标时间的输出格式中的任意一个或多个；招投标网页的目标信息包含的字符串，包括：项目编号含有的大写或小写字符以及“-”、“[”或“]”符号。

如图2所示，本发明实施例提供了一种网页信息获取方法，应用于获取招投标网页的目标信息，可以包括以下步骤：

步骤200：建立关键字识别数据库，所述关键字识别数据库包括：目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个；

通过网页源代码中目标信息的前后标志获取目标信息是较快捷的一种方式，例如：对于招投标网页来说，其目标信息一般为项目名称、项目编号、公告发布时间、招标人、代理机构、开标时间中的任意一个或多个；对于规范性网页如内蒙古政府采购网http://www.nmgzfcg.gov.cn，其里面所有招投标网页中关于项目名称的前标志均为<script type＝"text/javascript"defer＝"defer">try{parent.document.title＝'；后标志均为</script>，因此，可将<script type＝"text/javascript"defer＝"defer">try{parent.document.title＝'和</script>存入关键字识别数据库；而目标信息为招标人时，该目标信息一般含有“局”、“厅”、“大学”或“学院”等，那么，可对含有这些关键字的内容进行提取以获得招标人的信息，另外，招标人信息往往含有省或市等字符串，如“济南市国税局”。因此，在步骤200基础之上，还可以建立全国省、市、县(区)的级别关联表，即可在确定含有“局”、“厅”、“大学”或“学院”之后，根据关联表取前面最近的区域名称，截取中间的部分，即为招标人，即通过将“局”、“厅”、“大学”或“学院”和全国省、市、县(区)的级别关联表作为关键字存入关键字识别数据库；对于采购代理机构来说，其一般含有“采购中心”、“交易中心”、“项目”、“工程咨询”、“招标”或“招投标”等关键字，由于规范性网页中目标信息的前后标志相同，因此，该步骤所建立的关键字识别库是快速的获取规范性网页中目标信息的基础。

步骤201：建立不规则匹配库，所述不规则匹配库包括：目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个；

那么对于不规则的网页来说，如果分别将这些不规范网页的前标志或后标志写入关键字数据库，将带来超大工作量。

如：http://www.bjztb.gov.cn/zbgg/201503/t8821225.htm，其项目名称的前后标志分别为“<td align＝"center"class＝"biaoti">”和“</tr>”，其与规范性网页的前后标志不同，那么，如果在步骤200中，未将该前后标志写入官架子识别数据库，将导致该网页漏采。但是，对于所有招投标网页中，项目名称的属性如字体和字号有一定的格式，而且其与正文内容的字体和字号有明显的差异。不管是规范的还是不规范的招投标网页，其公告发布时间、开标时间、联系方式等主要为数字格式，而对于项目编号来说，其主要含有大写或小写字符、以及“-”、“[”或“]”符号，本步骤主要通过穷举招投标网页中目标信息的属性、格式以及字符串，以为更全面的获取非规范性网页中的目标信息提供参考。

步骤202：整理目标网页，使同类目标信息具有统一格式；

例如：在招投标网页中，对于时间来说，其表示方式可能为二零一五年四月五日、也可能为2015.4.5、还可能为2015-4-5或2015-04-05或2015/04/05，通过该步骤可以将所有关于时间的信息转换为同一种格式，使后面获取信息的更加完整。

步骤203：遍历整理后的目标网页的源代码；

步骤204：根据关键字识别数据库中的目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个，截取整理后的目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个；

例如：通过前标志<script type＝"text/javascript"defer＝"defer">try{parent.document.title＝'和后标志</script>，可获取到内蒙古政府采购网http://www.nmgzfcg.gov.cn中各个招投标网页的项目名称；以“发布时间”作为前标志，向后截取一定字符的内容，可将发布时间包括在内容里面；以联系电话为例，那么通过确定的前标志，向后截取300个字符的内容，基本可将电话号码包含在其中。

步骤205：判断截取的含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中任意一个是否为空，如果是，则执行步骤206；否则，执行步骤207；

该步骤主要为了确保目标信息提取更加完整，尤其对于非规范性的网页来说，如果其目标信息的前后标志不在关键字识别数据库中，将导致该类网页中的目标信息不能被获取到。

步骤206：根据匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从整理后的目标网页的源代码中获取目标信息；

例如：在招投标网页中，通过源代码中项目名称的字号和字体可以获取网页的标题，该标题一般即为项目名称；对于项目编号来说，一般含有含有的大写或小写字符以及“-”、“[”或“]”符号，具有一定的格式如字母加数字的格式，具有一定的郑则达表达方式如字母-8个数字-3个数字T-20140723-008这种表达方式，那么，该步骤通过匹配项目编号含有的字符串、格式和郑则达表达方式，即可获取到该招投标网页的项目编号，由于其通过多种方式交叉获取，因此，保证了该项目编号的清洁性。

步骤207：根据目标信息的属性、格式或正则达表达式中的任意一个或多个，从目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获得目标信息。

例如：对于招投标网页来说，其通过前后标志截取到关于项目编号的内容为T-20140723-008？？？2、项目名称····，其中，只有T-20140723-008为项目编号，在现有技术中，需要人工的方式将“？？？2、项目名称····”删除，而在本发明实施例中，可根据项目编号的属性如字体和字号、项目编号的格式如字母加数字以及项目编号的郑则达表达方式如字母-8个数字-3个数字，即可自动获取该项目编号T-20140723-008。例如：在联系电话提取过程中，其以前标志为起点向后截取300个字符，基本上可以确保联系方式包含在截取到的内容中，然后通过电话号码的郑则达表达式，即在所有截取的内容中，对于符合电话号码书写格式的如010-87654321等进行提取，然后将区号与全国区号库进行匹配，对于匹配上的即为联系电话，对于虽然与电话号码书写格式一致，但是分解出的区号并未在全国区号库内仍然不是联系电话，即将该信息舍去。另外，对于区号可被找到的数字字符串，如果含有“2015”、“2014”等特殊字符的项，进行标注，提示数据采集人员进行人工验证，以进一步确保获取目标信息的准确性。

在本发明实施例中，获取清洗后的采购代理机构名称的代码可以为：

在本发明实施例中，项目编号的清洗代码可以为：

如图3、图4所示，本发明实施例提供了一种网页信息获取的装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例网页信息获取的装置所在设备的一种硬件结构图，除了图3所示的CPU、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责整理网页内容的芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的网页信息获取的装置40包括：

第一建立单元401，用于建立不规则匹配库，所述不规则匹配库包括：目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个；

获取单元402，用于遍历目标网页的源代码，根据所述匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从所述目标网页的源代码中获取目标信息。

在本发明另一实施例中，如图5所示，网页信息获取装置可以进一步包括：第二建设单元、截取单元、判断单元和清洗单元，其中，

第二建立单元501，用于建立关键字识别数据库，所述关键字识别数据库包括：目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个；

截取单元502，用于根据所述关键字识别数据库中的目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个，截取所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个；

判断单元503，用于判断所述截取单元截取的含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中任意一个是否为空，如果是，则触发获取单元402；否则，触发清洗单元504；

清洗单元504，用于通过清洗机制清洗所述截取单元截取的所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获取目标信息，结束当前流程。

在本发明一个实施例中，清洗单元可以进一步用于：根据目标信息的属性、格式或正则达表达式中的任意一个或多个，从所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获得目标信息。

在本发明另一实施例中，如图6所示，网页信息获取装置可以进一步包括：

整理单元601，用于整理目标网页，使同类目标信息具有统一格式；

所述获取单元402，进一步用于遍历所述整理后的目标网页的源代码，根据所述匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个，从所述整理后的目标网页的源代码中获取目标信息。

在本发明一个实施例中，网页信息获取装置应用于招投标网页的目标信息获取，其中，所述获取单元402获取的目标信息，包括：项目名称、项目编号、公告发布时间、招标人、代理机构、开标时间中的任意一个或多个；所述第一建立单元401建立的不规则匹配库中所述目标信息的属性，包括：招标网页或投标网页的源代码中项目名称的字体或字号中的任意一个或两个；所述第一建立单元401建立的不规则匹配库中所述目标信息的格式，包括：招标网页或投标网页的源代码中项目编号、公告发布时间或开标时间的输出格式中的任意一个或多个；所述第一建立单元401建立的不规则匹配库中所述目标信息包含的字符串，包括：项目编号含有的大写或小写字符以及“-”、“[”或“]”符号。

本发明实施例至少能够达到如下有益效果：

1.通过建立的不规则匹配库中的目标信息的属性、目标信息的格式以及目标信息包含的字符串中的任意一个或多个来获取目标信息，这是因为，对于同一领域的网页来说，不管目标信息在源代码中的前后标志是否一致，该目标信息在源代码中的属性、格式以及包含的字符串是相同或相近的。因此，与现有技术相比，本发明实施例的方法也可对前标志和/或后标志无法确定的目标信息进行获取，有效地提高了获取目标信息的完整性和准确性。

2.通过建立关键字识别数据库，根据目标信息的前后标志截取含有目标信息的内容，可以有效地提高目标信息的获取速度，而通过清洗机制可进一步从所述截取内容中精确获取目标信息，进一步增加了目标信息获取的准确性。

3.通过整理目标网页，使同类目标信息具有统一格式，例如：使网页中时间二零一五年四月五日变为2015/04/05的形式，那么在关于时间提取时，可以使所有的时间均被获取到，进一步提高了获取目标信息的完整性。同时，与现有技术相比，本发明实施例主要通过装置自动完成获取目标信息的过程，而不需要人工清洗等人工操作，从而使网页信息获取过程具有更强的自动性。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种网页信息获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

进一步包括：建立关键字识别数据库，所述关键字识别数据库包括：目标信息关键字、各个目标信息源代码的前标志或后标志中任意一个或多个；

3.根据权利要求2所述的方法，其特征在于，所述通过清洗机制清洗所述目标网页中目标信息源代码中含有的目标信息关键字的内容、前标志之后的内容或后标志之前的内容中的任意一个或多个，获取目标信息，包括：

4.根据权利要求1或2所述的方法，其特征在于，在所述遍历目标网页的源代码之前，进一步包括：

整理目标网页，使同类目标信息具有统一格式；

5.根据权利要求1至4中任一所述的方法，其特征在于，所述网页为投标网页；

6.一种网页信息获取装置，其特征在于，包括：

7.根据权利要求6所述装置，其特征在于，进一步包括：第二建立单元、截取单元、判断单元和清洗单元，其中，

8.根据权利要求7所述装置，其特征在于，所述清洗单元进一步包括：

9.根据权利要求6所述装置，其特征在于，进一步包括：整理单元，其中，

10.根据权利要求6至9中任一所述的装置，其特征在于，所述装置用于招投标网页的目标信息获取，其中，