CN111506795A

CN111506795A - 一种招标信息获取方法及装置

Info

Publication number: CN111506795A
Application number: CN202010311011.7A
Authority: CN
Inventors: 陈亮; 邱菊; 杨延; 杨敬宏
Original assignee: Beijing China Power Information Technology Co Ltd
Current assignee: Beijing China Power Information Technology Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-07
Anticipated expiration: 2040-04-20
Also published as: CN111506795B

Abstract

本申请公开了一种招标信息获取方法及装置，从招标网站上获取招标公告页面中的页面信息，页面信息至少包括项目名称。使用预设规则表达式，获得项目名称的超链接。通过超链接，访问招标项目的明细页面，并从明细页面中抓取招标项目的招标信息，将招标信息存储至本地。可见，本申请通过网络爬虫工具，具体的网络爬虫工具可以是Python语言中的Requests库，获取招标公告页面中的页面信息，通过预设规则表达式，获取页面信息中项目名称的超链接，通过超链接访问招标项目的明细页面，并从明细页面中获取招标项目的招标信息，本申请提供的招标信息获取方案，效率高，并且能够实时监控招标网站的招标情况，即时记录招标网站提供的招标信息。

Description

一种招标信息获取方法及装置

技术领域

本申请涉及信息收集技术领域，尤其涉及一种招标信息获取方法及装置。

背景技术

在进行业务处理工作中，基于业务需求需要经常处理招标信息，因此，需要实时查看招标网站中招标公告页面的最新发布情况。由此需要安排专门的人员负责监控招标网站，但是受限于人工查看信息的低效率和工作时间，招标信息的获取工作效率十分低效，且具有较大时延。

发明内容

本申请提供了一种基于网络爬虫的招标信息获取方法及装置，目的在于提高招标信息获取工作的效率并降低招标信息的获取时延。

为了实现上述目的，本申请提供了以下技术方案：

一种招标信息获取方法，包括：

从招标网站上获取招标公告页面中的页面信息，所述页面信息至少包括项目名称；

使用预设规则表达式，获得所述项目名称的超链接；

通过所述超链接，访问招标项目的明细页面；

从所述明细页面中抓取所述招标项目的招标信息；

将所述招标信息存储至本地。

可选的，所述使用预设规则表达式，获得所述项目名称的超链接，包括：

使用第一规则表达式，过滤所述页面信息的原码中的空白字，得到目标原码；

使用第二规则表达式，过滤所述目标原码中不具备第一预设字符的字符串，得到所述项目名称的原码；

使用第三规则表达式，过滤所述项目名称的所述原码中不具备第二预设字符的原码，得到超链接的原码；

基于所述超链接的所述原码，还原得到所述超链接。

可选的，所述招标信息至少包括项目类型和项目公告文件的文件下载地址。

可选的，所述从所述明细页面中抓取所述招标项目的招标信息之后，还包括：

通过所述文件下载地址，下载所述项目公告文件；

将所述项目公告文件存储至本地。

判断所述项目类型是否与预设项目类型一致；

所述将所述招标信息存储至本地，包括：

在所述项目类型与所述预设项目类型一致的情况下，将所述项目类型所属的所述招标项目的所述招标信息存储至本地。

对所述招标信息进行关键词检索，得到检索结果；

比较所述检索结果与预设关键词之间的相似度；

所述将所述招标信息存储至本地，包括：

在所述相似度大于预设阈值的情况下，将所述招标信息存储至本地。

一种招标信息获取装置，包括：

第一获取单元，用于从招标网站上获取招标公告页面中的页面信息，所述页面信息至少包括项目名称；

第二获取单元，用于使用预设规则表达式，获得所述项目名称的超链接；

访问单元，用于通过所述超链接，访问招标项目的明细页面；

抓取单元，用于从所述明细页面中抓取所述招标项目的招标信息；

第一存储单元，用于将所述招标信息存储至本地。

可选的，还包括：

下载单元，用于通过所述招标信息中项目公告文件的文件下载地址，下载所述项目公告文件；

第二存储单元，用于将所述项目公告文件存储至本地。

一种计算机存储介质，所述计算机存储介质包括存储的程序，其中，所述程序执行所述的招标信息获取方法。

一种电子设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的招标信息获取方法。

本申请提供的技术方案，从招标网站上获取招标公告页面中的页面信息，页面信息至少包括项目名称。使用预设规则表达式，获得项目名称的超链接。通过超链接，访问招标项目的明细页面，并从明细页面中抓取招标项目的招标信息，将招标信息存储至本地。可见，本申请通过网络爬虫工具，具体的网络爬虫工具可以是Python语言中的Requests库，获取招标公告页面中的页面信息，通过预设规则表达式，获取页面信息中项目名称的超链接，通过超链接访问招标项目的明细页面，并从明细页面中获取招标项目的招标信息，本申请提供的招标信息获取方案，效率高，并且能够实时监控招标网站的招标情况，即时记录招标网站提供的招标信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种招标公告页面；

图1b为本申请实施例提供的一种招标项目的明细页面；

图1c为本申请实施例提供的一种招标信息获取方法的示意图；

图1d为本申请实施例提供的一种页面信息原码的示意图；

图2为本申请实施例提供的另一种招标信息获取方法的示意图；

图3为本申请实施例提供的一种招标信息获取装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的流程应用于信息收集系统，具体的，可由服务器执行，用于提高招标信息获取工作的效率并降低招标信息的获取时延。

需要说明的是，在招标网站中，招标公告页面如图1a所示，包括项目状态、项目编号、项目名称和创建时间(例如创建日期)等的页面信息。在招标公告页面中，通过项目名称的超链接，可以跳转至招标项目的明细页面，明细页面包括项目状态、项目编号、项目名称和报名截止日期等招标信息，具体的，可以参见图1b。

如图1c所示，为本申请实施例提供的一种招标信息获取方法的示意图，包括如下步骤：

S101：使用Python语言中Requests库的get()函数，从招标网站上获取招标公告页面中的页面信息。

其中，Python语言是一种跨平台的计算机程序设计语言，是一种面向对象的动态类型语言，用于编写自动化脚本。Requests库是基于Python语言编写的一种HTTP库。Requests库的get()函数的功能，具体是通过r＝request.get(url)构造一个向服务器请求资源的url。此外，url由Requests库内部生成，url具体指的是：通过http协议存取资源的一个路径，可以理解为是电脑中的一个文件的路径。此时，r返回的是一个包含服务器资源的Requests对象，Requests对象包含从服务器返回的所有的相关资源(即招标公告页面中的页面信息)。

具体的，使用Requests库的get()函数，从招标网站上获取招标公告页面中的页面信息的实现代码为：

import requests

r＝requests.get(url,timeout＝30)#根据url得到页面信息

需要说明的是，上述具体实现代码仅仅用于举例说明。

S102：使用预设规则表达式，获得项目名称的超链接。

其中，规则表达式(Regular Expression，RE)为计算机科学的一种逻辑，通常用于检索、替换符合预设规则的文本，具体原理是：对字符串操作的一种逻辑公式，就是用事先定义的各个特定字符、以及各个特定字符的组合，组成一个规则字符串，该规则字符串用于指示对字符串的一种过滤逻辑，即用于检索符合预设规则(例如，包含用于指示超链接的字符)的文本。

需要说明的是，使用预设规则表达式，获得项目名称的超链接的实现逻辑为：

1、使用第一规则表达式，过滤页面信息的原码中的空白字(具体指的是空格和回车)，得到目标原码。

以图1d示出的页面信息原码为例，在图1d中，“正在招标”的上一行和下一行均为空白字，故需过滤“正在招标”的上一行和下一行，保留“正在招标”。

2、使用第二规则表达式，过滤目标原码中不具备第一预设字符的字符串，得到项目名称的原码。

具体的，项目名称的原码中都具备“title”字符(即“title”字符为第一预设字符)，因此，目标原码中不具备“title”字符的字符串，都是非项目名称的原码，过滤非项目名称的原码，得到项目名称的原码。

3、使用第三规则表达式，过滤项目名称的原码中不具备第二预设字符的原码，得到超链接的原码。

具体的，超链接的原码中都具备“onclick”字符(即“onclick”字符为第二预设字符)，因此，项目名称的原码中不具备“onclick”字符的字符串，都是非超链接的原码，过滤非超链接的原码，得到超链接的原码。

4、基于超链接的原码，还原得到超链接。

具体的，在超链接的原码基础上，增加“.html”字符，从而得到完整的超链接。

具体的，使用预设规则表达式，获得项目名称的超链接的实现代码参见下述：

tdList＝re.findall(r'<td class＝"black40">(.*？)</td>',r.text,re.S|re.M)

rList＝[]

for iin tdList:

i＝re.sub(r'[\s]*',”,i)#使用第一规则表达式，过滤页面信息的原码中的空白字，得到目标原码

if"title"ini:

title＝re.findall(r'title＝"(.*？)"',i)#使用第二规则表达式，过滤目标原码中不具备第一预设字符的字符串，得到项目名称的原码

onclick＝re.findall(r'onclick＝"(.*？)"',i)#使用第三规则表达式，过滤项目名称的原码中不具备第二预设字符的原码，得到超链接的原码

project_detail＝re.findall(r'\'(.*？)\”,i)

detail_url＝project_detail[1]+".html"#基于超链接的原码，还原得到超链接rList.append(title[0])

rList.append(detail_url)

rList.extend(getZbgg_detail(detail_url))#getZbgg_detail(url)为用于访问超链接对应的明细页面的函数

else:

rList.append(i)

需要说明的是，上述具体实现代码仅仅用于举例说明。

S103：通过项目名称的超链接，访问招标项目的明细页面，并从明细页面中抓取招标项目的招标信息。

其中，从明细页面中获取17项招标信息，以图1b示出的明细页面为例，17项招标信息具体为：项目状态、项目编号、项目名称、报名截止日期、截标时间、开标时间、项目类型、标书费用形式、标书购买截止时间、项目介绍、项目公告文件的文件下载地址、招标人、代理机构、联系人、联系电话、传真、以及E-MAIL。

具体的，从明细页面中获取17项招标信息的实现代码为：

defgetZbgg_detail(url):#访问超链接对应的明细页面

try:

r＝requests.get(url,timeout＝30)

r.encoding＝'utf-8'

tdList＝re.findall(r'<td.*？>(.*？)</td>',r.text,re.S|re.M)

list17＝[]#从明细页面中获取17项招标信息

for j in range(7,len(tdList),2):

s＝tdList[j].replace("\r",”).replace("\n",”).replace("\t",”).strip()

if"href"in s:

zip_detail＝re.findall(r'\"(.*？)\"',s)

downfile＝zip_detail[0]#获取项目公告文件中的文件下载地址

list17.append(downfile)

else:

list17.append(s)

return list17

需要说明的是，上述具体实现代码仅仅用于举例说明。

S104：将招标信息存储至预设的excel表格。

其中，将招标信息存储至预设的excel表格的具体实现逻辑为：定义用于存储招标信息的写入函数，写入函数包括预设的文件写入路径，在写入函数的调用过程中，通过文件写入路径，将招标信息写入预设的存储空间。

具体的，将招标信息存储至预设的excel表格的实现代码为：

def write_excel(path,value):#write_excel(path,value)为写入函数，value为文件写入路径

index＝len(value)

workbook＝openpyxl.Workbook()

sheet＝workbook.active

for iin range(0,index):

for j in range(0,len(value[i])):

sheet.cell(row＝i+1,column＝j+1,value＝str(value[i][j]))

workbook.save(path)

需要说明的是，上述具体实现代码仅仅用于举例说明。

S105：通过项目公告文件的文件下载地址，下载项目公告文件，并将项目公告文件存储至本地。

其中，项目公告文件指示包括招标方提供的用于指示招标详情的文件。

具体的，通过项目公告文件的文件下载地址，下载项目公告文件的实现代码为：

def downloadzip(downfile):#downfile为文件下载地址

fzip＝downfile[12:]

path＝"d:/"+fzip

r＝requests.get(downfile)

with open(path,"wb")as f:

f.write(r.content)

f.close()

需要说明的是，上述具体实现代码仅仅用于举例说明。

综上所述，使用Python语言中Requests库的get()函数，从招标网站上获取招标公告页面中的页面信息。使用预设规则表达式，获得项目名称的超链接。通过项目名称的超链接，访问招标项目的明细页面，并从明细页面中抓取招标项目的招标信息。将招标信息存储至预设的excel表格，通过项目公告文件的文件下载地址，下载项目公告文件，并将项目公告文件存储至本地。可见，本实施例通过网络爬虫工具，具体的网络爬虫工具可以是Python语言中的Requests库，获取招标公告页面中的页面信息，通过预设规则表达式，获取页面信息中项目名称的超链接，通过超链接访问招标项目的明细页面，并从明细页面中获取招标项目的招标信息，本实施例提供的招标信息获取方案，效率高，并且能够实时监控招标网站的招标情况，即时记录招标网站提供的招标信息。

需要说明的是，上述实施例中，使用Python语言中Requests库的get()函数，从招标网站上获取招标公告页面中的页面信息，仅仅是获取页面信息的一种具体表现方式。此外，将招标信息存储至预设的escel表格，也仅仅是将招标信息存储至本地的一种具体表现方式。上述实施例中的招标信息获取方法，可以概括为图2所示的流程。

如图2所示，为本申请实施例提供的另一种招标信息获取方法的示意图，包括如下步骤：

S201：从招标网站上获取招标公告页面中的页面信息。

其中，页面信息至少包括项目名称。

需要说明的是，S201的具体执行过程和实现原理，与上述实施例中S101的具体执行过程和实现原理一致，这里不再赘述。

S202：使用预设规则表达式，获得项目名称的超链接。

其中，S202的具体执行过程和实现原理，与上述实施例中S102的具体执行过程和实现原理一致，这里不再赘述。

S203：通过超链接，访问招标项目的明细页面。

其中，通过超链接，访问招标项目的明细页面的具体实现过程为：调用预设的用于访问超链接对应的明细页面的函数，例如，上述实施例中提出的getZbgg_detail(url)。

S204：从明细页面中抓取招标项目的招标信息。

其中，招标信息至少包括项目类型和项目公告文件的文件下载地址。

需要说明的是，S204的具体执行过程和实现原理，与上述实施例中S103的具体执行过程和实现原理一致，这里不再赘述。

S205：将招标信息存储至本地。

其中，S205的具体执行过程和实现原理，与上述实施例中S104的具体执行过程和实现原理一致，这里不再赘述。

需要说明的是，由于招标网站上提供的招标信息种类繁杂，并不都是都需要，因此需要有针对性的筛选招标信息。

可选的，在从明细页面中抓取招标项目的招标信息之后，判断项目类型是否与预设项目类型一致。在项目类型与预设项目类型一致的情况下，将项目类型所属的招标项目的招标信息存储至本地。

具体的，如果只需要项目类型为道路维修的招标项目，则只将属于道路维修招标项目的招标信息存储至本地。

可选的，在从明细页面中抓取招标项目的招标信息之后，对招标信息进行关键词检索，得到检索结果。比较检索结果与预设关键词之间的相似度。在相似度大于预设阈值的情况下，将招标信息存储至本地。

需要说明的是，对招标信息进行关键词检索，依据检索结果与预设关键词之间的相似度，依据相似度存储招标信息，能够更有针对性的筛选招标项目。

综上所述，从招标网站上获取招标公告页面中的页面信息，页面信息至少包括项目名称。使用预设规则表达式，获得项目名称的超链接。通过超链接，访问招标项目的明细页面，并从明细页面中抓取招标项目的招标信息，将招标信息存储至本地。可见，本实施例通过网络爬虫工具，具体的网络爬虫工具可以是Python语言中的Requests库，获取招标公告页面中的页面信息，通过预设规则表达式，获取页面信息中项目名称的超链接，通过超链接访问招标项目的明细页面，并从明细页面中获取招标项目的招标信息，本实施例提供的招标信息获取方案，效率高，并且能够实时监控招标网站的招标情况，即时记录招标网站提供的招标信息。

与上述本申请实施例提供的招标信息获取方法相对应，如图3所示，为本申请实施例提供的一种招标信息获取装置的结构示意图，包括：

第一获取单元100，用于从招标网站上获取招标公告页面中的页面信息，页面信息至少包括项目名称。

第二获取单元200，用于使用预设规则表达式，获得项目名称的超链接。

其中，第二获取单元200使用预设规则表达式，获得项目名称的超链接的具体实现过程，包括：使用第一规则表达式，过滤页面信息的原码中的空白字，得到目标原码。使用第二规则表达式，过滤目标原码中不具备第一预设字符的字符串，得到项目名称的原码。使用第三规则表达式，过滤项目名称的原码中不具备第二预设字符的原码，得到超链接的原码。基于超链接的原码，还原得到超链接。

访问单元300，用于通过超链接，访问招标项目的明细页面。

抓取单元400，用于从明细页面中抓取招标项目的招标信息。

其中，抓取单元400从明细页面中抓取的招标信息至少包括项目类型和项目公告文件的文件下载地址。

第一存储单元500，用于将招标信息存储至本地。

其中，第一存储单元500将招标信息存储至本地的具体实现过程，包括：在项目类型与预设项目类型一致的情况下，将项目类型所属的招标项目的招标信息存储至本地。在相似度大于预设阈值的情况下，将招标信息存储至本地。

下载单元600，用于通过招标信息中项目公告文件的文件下载地址，下载项目公告文件。

第二存储单元700，用于将项目公告文件存储至本地。

判断单元800，用于判断招标信息中的项目类型是否与预设项目类型一致。

比较单元900，用于对招标信息进行关键词检索，得到检索结果，比较检索结果与预设关键词之间的相似度。

本申请还提供了一种计算机存储介质，计算机存储介质包括存储的程序，其中，程序执行上述本申请提供的招标信息获取方法。

本申请还提供了一种电子设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的招标信息获取方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种招标信息获取方法，其特征在于，包括：

使用预设规则表达式，获得所述项目名称的超链接；

通过所述超链接，访问招标项目的明细页面；

从所述明细页面中抓取所述招标项目的招标信息；

将所述招标信息存储至本地。

2.根据权利要求1所述的方法，其特征在于，所述使用预设规则表达式，获得所述项目名称的超链接，包括：

基于所述超链接的所述原码，还原得到所述超链接。

3.根据权利要求1所述的方法，其特征在于，所述招标信息至少包括项目类型和项目公告文件的文件下载地址。

4.根据权利要求3所述的方法，其特征在于，所述从所述明细页面中抓取所述招标项目的招标信息之后，还包括：

通过所述文件下载地址，下载所述项目公告文件；

将所述项目公告文件存储至本地。

5.根据权利要求3所述的方法，其特征在于，所述从所述明细页面中抓取所述招标项目的招标信息之后，还包括：

判断所述项目类型是否与预设项目类型一致；

所述将所述招标信息存储至本地，包括：

6.根据权利要求1所述的方法，其特征在于，所述从所述明细页面中抓取所述招标项目的招标信息之后，还包括：

对所述招标信息进行关键词检索，得到检索结果；

比较所述检索结果与预设关键词之间的相似度；

所述将所述招标信息存储至本地，包括：

7.一种招标信息获取装置，其特征在于，包括：

第一存储单元，用于将所述招标信息存储至本地。

8.根据权利要求7所述的装置，其特征在于，还包括：

第二存储单元，用于将所述项目公告文件存储至本地。

9.一种计算机存储介质，其特征在于，所述计算机存储介质包括存储的程序，其中，所述程序执行权利要求1-6任意一项所述的招标信息获取方法。

10.一种电子设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-6任意一项所述的招标信息获取方法。