CN111506795B - 一种招标信息获取方法及装置 - Google Patents

一种招标信息获取方法及装置 Download PDF

Info

Publication number
CN111506795B
CN111506795B CN202010311011.7A CN202010311011A CN111506795B CN 111506795 B CN111506795 B CN 111506795B CN 202010311011 A CN202010311011 A CN 202010311011A CN 111506795 B CN111506795 B CN 111506795B
Authority
CN
China
Prior art keywords
information
bid
project
page
bidding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010311011.7A
Other languages
English (en)
Other versions
CN111506795A (zh
Inventor
陈亮
邱菊
杨延
杨敬宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing China Power Information Technology Co Ltd
Original Assignee
Beijing China Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing China Power Information Technology Co Ltd filed Critical Beijing China Power Information Technology Co Ltd
Priority to CN202010311011.7A priority Critical patent/CN111506795B/zh
Publication of CN111506795A publication Critical patent/CN111506795A/zh
Application granted granted Critical
Publication of CN111506795B publication Critical patent/CN111506795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种招标信息获取方法及装置,从招标网站上获取招标公告页面中的页面信息,页面信息至少包括项目名称。使用预设规则表达式,获得项目名称的超链接。通过超链接,访问招标项目的明细页面,并从明细页面中抓取招标项目的招标信息,将招标信息存储至本地。可见,本申请通过网络爬虫工具,具体的网络爬虫工具可以是Python语言中的Requests库,获取招标公告页面中的页面信息,通过预设规则表达式,获取页面信息中项目名称的超链接,通过超链接访问招标项目的明细页面,并从明细页面中获取招标项目的招标信息,本申请提供的招标信息获取方案,效率高,并且能够实时监控招标网站的招标情况,即时记录招标网站提供的招标信息。

Description

一种招标信息获取方法及装置
技术领域
本申请涉及信息收集技术领域,尤其涉及一种招标信息获取方法及装置。
背景技术
在进行业务处理工作中,基于业务需求需要经常处理招标信息,因此,需要实时查看招标网站中招标公告页面的最新发布情况。由此需要安排专门的人员负责监控招标网站,但是受限于人工查看信息的低效率和工作时间,招标信息的获取工作效率十分低效,且具有较大时延。
发明内容
本申请提供了一种基于网络爬虫的招标信息获取方法及装置,目的在于提高招标信息获取工作的效率并降低招标信息的获取时延。
为了实现上述目的,本申请提供了以下技术方案:
一种招标信息获取方法,包括:
从招标网站上获取招标公告页面中的页面信息,所述页面信息至少包括项目名称;
使用预设规则表达式,获得所述项目名称的超链接;
通过所述超链接,访问招标项目的明细页面;
从所述明细页面中抓取所述招标项目的招标信息;
将所述招标信息存储至本地。
可选的,所述使用预设规则表达式,获得所述项目名称的超链接,包括:
使用第一规则表达式,过滤所述页面信息的原码中的空白字,得到目标原码;
使用第二规则表达式,过滤所述目标原码中不具备第一预设字符的字符串,得到所述项目名称的原码;
使用第三规则表达式,过滤所述项目名称的所述原码中不具备第二预设字符的原码,得到超链接的原码;
基于所述超链接的所述原码,还原得到所述超链接。
可选的,所述招标信息至少包括项目类型和项目公告文件的文件下载地址。
可选的,所述从所述明细页面中抓取所述招标项目的招标信息之后,还包括:
通过所述文件下载地址,下载所述项目公告文件;
将所述项目公告文件存储至本地。
可选的,所述从所述明细页面中抓取所述招标项目的招标信息之后,还包括:
判断所述项目类型是否与预设项目类型一致;
所述将所述招标信息存储至本地,包括:
在所述项目类型与所述预设项目类型一致的情况下,将所述项目类型所属的所述招标项目的所述招标信息存储至本地。
可选的,所述从所述明细页面中抓取所述招标项目的招标信息之后,还包括:
对所述招标信息进行关键词检索,得到检索结果;
比较所述检索结果与预设关键词之间的相似度;
所述将所述招标信息存储至本地,包括:
在所述相似度大于预设阈值的情况下,将所述招标信息存储至本地。
一种招标信息获取装置,包括:
第一获取单元,用于从招标网站上获取招标公告页面中的页面信息,所述页面信息至少包括项目名称;
第二获取单元,用于使用预设规则表达式,获得所述项目名称的超链接;
访问单元,用于通过所述超链接,访问招标项目的明细页面;
抓取单元,用于从所述明细页面中抓取所述招标项目的招标信息;
第一存储单元,用于将所述招标信息存储至本地。
可选的,还包括:
下载单元,用于通过所述招标信息中项目公告文件的文件下载地址,下载所述项目公告文件;
第二存储单元,用于将所述项目公告文件存储至本地。
一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,所述程序执行所述的招标信息获取方法。
一种电子设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的招标信息获取方法。
本申请提供的技术方案,从招标网站上获取招标公告页面中的页面信息,页面信息至少包括项目名称。使用预设规则表达式,获得项目名称的超链接。通过超链接,访问招标项目的明细页面,并从明细页面中抓取招标项目的招标信息,将招标信息存储至本地。可见,本申请通过网络爬虫工具,具体的网络爬虫工具可以是Python语言中的Requests库,获取招标公告页面中的页面信息,通过预设规则表达式,获取页面信息中项目名称的超链接,通过超链接访问招标项目的明细页面,并从明细页面中获取招标项目的招标信息,本申请提供的招标信息获取方案,效率高,并且能够实时监控招标网站的招标情况,即时记录招标网站提供的招标信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的一种招标公告页面;
图1b为本申请实施例提供的一种招标项目的明细页面;
图1c为本申请实施例提供的一种招标信息获取方法的示意图;
图1d为本申请实施例提供的一种页面信息原码的示意图;
图2为本申请实施例提供的另一种招标信息获取方法的示意图;
图3为本申请实施例提供的一种招标信息获取装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的流程应用于信息收集系统,具体的,可由服务器执行,用于提高招标信息获取工作的效率并降低招标信息的获取时延。
需要说明的是,在招标网站中,招标公告页面如图1a所示,包括项目状态、项目编号、项目名称和创建时间(例如创建日期)等的页面信息。在招标公告页面中,通过项目名称的超链接,可以跳转至招标项目的明细页面,明细页面包括项目状态、项目编号、项目名称和报名截止日期等招标信息,具体的,可以参见图1b。
如图1c所示,为本申请实施例提供的一种招标信息获取方法的示意图,包括如下步骤:
S101:使用Python语言中Requests库的get()函数,从招标网站上获取招标公告页面中的页面信息。
其中,Python语言是一种跨平台的计算机程序设计语言,是一种面向对象的动态类型语言,用于编写自动化脚本。Requests库是基于Python语言编写的一种HTTP库。Requests库的get()函数的功能,具体是通过r=request.get(url)构造一个向服务器请求资源的url。此外,url由Requests库内部生成,url具体指的是:通过http协议存取资源的一个路径,可以理解为是电脑中的一个文件的路径。此时,r返回的是一个包含服务器资源的Requests对象,Requests对象包含从服务器返回的所有的相关资源(即招标公告页面中的页面信息)。
具体的,使用Requests库的get()函数,从招标网站上获取招标公告页面中的页面信息的实现代码为:
import requests
r=requests.get(url,timeout=30)#根据url得到页面信息
需要说明的是,上述具体实现代码仅仅用于举例说明。
S102:使用预设规则表达式,获得项目名称的超链接。
其中,规则表达式(Regular Expression,RE)为计算机科学的一种逻辑,通常用于检索、替换符合预设规则的文本,具体原理是:对字符串操作的一种逻辑公式,就是用事先定义的各个特定字符、以及各个特定字符的组合,组成一个规则字符串,该规则字符串用于指示对字符串的一种过滤逻辑,即用于检索符合预设规则(例如,包含用于指示超链接的字符)的文本。
需要说明的是,使用预设规则表达式,获得项目名称的超链接的实现逻辑为:
1、使用第一规则表达式,过滤页面信息的原码中的空白字(具体指的是空格和回车),得到目标原码。
以图1d示出的页面信息原码为例,在图1d中,“正在招标”的上一行和下一行均为空白字,故需过滤“正在招标”的上一行和下一行,保留“正在招标”。
2、使用第二规则表达式,过滤目标原码中不具备第一预设字符的字符串,得到项目名称的原码。
具体的,项目名称的原码中都具备“title”字符(即“title”字符为第一预设字符),因此,目标原码中不具备“title”字符的字符串,都是非项目名称的原码,过滤非项目名称的原码,得到项目名称的原码。
3、使用第三规则表达式,过滤项目名称的原码中不具备第二预设字符的原码,得到超链接的原码。
具体的,超链接的原码中都具备“onclick”字符(即“onclick”字符为第二预设字符),因此,项目名称的原码中不具备“onclick”字符的字符串,都是非超链接的原码,过滤非超链接的原码,得到超链接的原码。
4、基于超链接的原码,还原得到超链接。
具体的,在超链接的原码基础上,增加“.html”字符,从而得到完整的超链接。
具体的,使用预设规则表达式,获得项目名称的超链接的实现代码参见下述:
tdList=re.findall(r'<td class="black40">(.*?)</td>',r.text,re.S|re.M)
rList=[]
for iin tdList:
i=re.sub(r'[\s]*',”,i)#使用第一规则表达式,过滤页面信息的原码中的空白字,得到目标原码
if"title"ini:
title=re.findall(r'title="(.*?)"',i)#使用第二规则表达式,过滤目标原码中不具备第一预设字符的字符串,得到项目名称的原码
onclick=re.findall(r'onclick="(.*?)"',i)#使用第三规则表达式,过滤项目名称的原码中不具备第二预设字符的原码,得到超链接的原码
project_detail=re.findall(r'\'(.*?)\”,i)
detail_url=project_detail[1]+".html"#基于超链接的原码,还原得到超链接rList.append(title[0])
rList.append(detail_url)
rList.extend(getZbgg_detail(detail_url))#getZbgg_detail(url)为用于访问超链接对应的明细页面的函数
else:
rList.append(i)
需要说明的是,上述具体实现代码仅仅用于举例说明。
S103:通过项目名称的超链接,访问招标项目的明细页面,并从明细页面中抓取招标项目的招标信息。
其中,从明细页面中获取17项招标信息,以图1b示出的明细页面为例,17项招标信息具体为:项目状态、项目编号、项目名称、报名截止日期、截标时间、开标时间、项目类型、标书费用形式、标书购买截止时间、项目介绍、项目公告文件的文件下载地址、招标人、代理机构、联系人、联系电话、传真、以及E-MAIL。
具体的,从明细页面中获取17项招标信息的实现代码为:
defgetZbgg_detail(url):#访问超链接对应的明细页面
try:
r=requests.get(url,timeout=30)
r.encoding='utf-8'
tdList=re.findall(r'<td.*?>(.*?)</td>',r.text,re.S|re.M)
list17=[]#从明细页面中获取17项招标信息
for j in range(7,len(tdList),2):
s=tdList[j].replace("\r",”).replace("\n",”).replace("\t",”).strip()
if"href"in s:
zip_detail=re.findall(r'\"(.*?)\"',s)
downfile=zip_detail[0]#获取项目公告文件中的文件下载地址
list17.append(downfile)
else:
list17.append(s)
return list17
需要说明的是,上述具体实现代码仅仅用于举例说明。
S104:将招标信息存储至预设的excel表格。
其中,将招标信息存储至预设的excel表格的具体实现逻辑为:定义用于存储招标信息的写入函数,写入函数包括预设的文件写入路径,在写入函数的调用过程中,通过文件写入路径,将招标信息写入预设的存储空间。
具体的,将招标信息存储至预设的excel表格的实现代码为:
def write_excel(path,value):#write_excel(path,value)为写入函数,value为文件写入路径
index=len(value)
workbook=openpyxl.Workbook()
sheet=workbook.active
for iin range(0,index):
for j in range(0,len(value[i])):
sheet.cell(row=i+1,column=j+1,value=str(value[i][j]))
workbook.save(path)
需要说明的是,上述具体实现代码仅仅用于举例说明。
S105:通过项目公告文件的文件下载地址,下载项目公告文件,并将项目公告文件存储至本地。
其中,项目公告文件指示包括招标方提供的用于指示招标详情的文件。
具体的,通过项目公告文件的文件下载地址,下载项目公告文件的实现代码为:
def downloadzip(downfile):#downfile为文件下载地址
fzip=downfile[12:]
path="d:/"+fzip
r=requests.get(downfile)
with open(path,"wb")as f:
f.write(r.content)
f.close()
需要说明的是,上述具体实现代码仅仅用于举例说明。
综上所述,使用Python语言中Requests库的get()函数,从招标网站上获取招标公告页面中的页面信息。使用预设规则表达式,获得项目名称的超链接。通过项目名称的超链接,访问招标项目的明细页面,并从明细页面中抓取招标项目的招标信息。将招标信息存储至预设的excel表格,通过项目公告文件的文件下载地址,下载项目公告文件,并将项目公告文件存储至本地。可见,本实施例通过网络爬虫工具,具体的网络爬虫工具可以是Python语言中的Requests库,获取招标公告页面中的页面信息,通过预设规则表达式,获取页面信息中项目名称的超链接,通过超链接访问招标项目的明细页面,并从明细页面中获取招标项目的招标信息,本实施例提供的招标信息获取方案,效率高,并且能够实时监控招标网站的招标情况,即时记录招标网站提供的招标信息。
需要说明的是,上述实施例中,使用Python语言中Requests库的get()函数,从招标网站上获取招标公告页面中的页面信息,仅仅是获取页面信息的一种具体表现方式。此外,将招标信息存储至预设的escel表格,也仅仅是将招标信息存储至本地的一种具体表现方式。上述实施例中的招标信息获取方法,可以概括为图2所示的流程。
如图2所示,为本申请实施例提供的另一种招标信息获取方法的示意图,包括如下步骤:
S201:从招标网站上获取招标公告页面中的页面信息。
其中,页面信息至少包括项目名称。
需要说明的是,S201的具体执行过程和实现原理,与上述实施例中S101的具体执行过程和实现原理一致,这里不再赘述。
S202:使用预设规则表达式,获得项目名称的超链接。
其中,S202的具体执行过程和实现原理,与上述实施例中S102的具体执行过程和实现原理一致,这里不再赘述。
S203:通过超链接,访问招标项目的明细页面。
其中,通过超链接,访问招标项目的明细页面的具体实现过程为:调用预设的用于访问超链接对应的明细页面的函数,例如,上述实施例中提出的getZbgg_detail(url)。
S204:从明细页面中抓取招标项目的招标信息。
其中,招标信息至少包括项目类型和项目公告文件的文件下载地址。
需要说明的是,S204的具体执行过程和实现原理,与上述实施例中S103的具体执行过程和实现原理一致,这里不再赘述。
S205:将招标信息存储至本地。
其中,S205的具体执行过程和实现原理,与上述实施例中S104的具体执行过程和实现原理一致,这里不再赘述。
需要说明的是,由于招标网站上提供的招标信息种类繁杂,并不都是都需要,因此需要有针对性的筛选招标信息。
可选的,在从明细页面中抓取招标项目的招标信息之后,判断项目类型是否与预设项目类型一致。在项目类型与预设项目类型一致的情况下,将项目类型所属的招标项目的招标信息存储至本地。
具体的,如果只需要项目类型为道路维修的招标项目,则只将属于道路维修招标项目的招标信息存储至本地。
可选的,在从明细页面中抓取招标项目的招标信息之后,对招标信息进行关键词检索,得到检索结果。比较检索结果与预设关键词之间的相似度。在相似度大于预设阈值的情况下,将招标信息存储至本地。
需要说明的是,对招标信息进行关键词检索,依据检索结果与预设关键词之间的相似度,依据相似度存储招标信息,能够更有针对性的筛选招标项目。
综上所述,从招标网站上获取招标公告页面中的页面信息,页面信息至少包括项目名称。使用预设规则表达式,获得项目名称的超链接。通过超链接,访问招标项目的明细页面,并从明细页面中抓取招标项目的招标信息,将招标信息存储至本地。可见,本实施例通过网络爬虫工具,具体的网络爬虫工具可以是Python语言中的Requests库,获取招标公告页面中的页面信息,通过预设规则表达式,获取页面信息中项目名称的超链接,通过超链接访问招标项目的明细页面,并从明细页面中获取招标项目的招标信息,本实施例提供的招标信息获取方案,效率高,并且能够实时监控招标网站的招标情况,即时记录招标网站提供的招标信息。
与上述本申请实施例提供的招标信息获取方法相对应,如图3所示,为本申请实施例提供的一种招标信息获取装置的结构示意图,包括:
第一获取单元100,用于从招标网站上获取招标公告页面中的页面信息,页面信息至少包括项目名称。
第二获取单元200,用于使用预设规则表达式,获得项目名称的超链接。
其中,第二获取单元200使用预设规则表达式,获得项目名称的超链接的具体实现过程,包括:使用第一规则表达式,过滤页面信息的原码中的空白字,得到目标原码。使用第二规则表达式,过滤目标原码中不具备第一预设字符的字符串,得到项目名称的原码。使用第三规则表达式,过滤项目名称的原码中不具备第二预设字符的原码,得到超链接的原码。基于超链接的原码,还原得到超链接。
访问单元300,用于通过超链接,访问招标项目的明细页面。
抓取单元400,用于从明细页面中抓取招标项目的招标信息。
其中,抓取单元400从明细页面中抓取的招标信息至少包括项目类型和项目公告文件的文件下载地址。
第一存储单元500,用于将招标信息存储至本地。
其中,第一存储单元500将招标信息存储至本地的具体实现过程,包括:在项目类型与预设项目类型一致的情况下,将项目类型所属的招标项目的招标信息存储至本地。在相似度大于预设阈值的情况下,将招标信息存储至本地。
下载单元600,用于通过招标信息中项目公告文件的文件下载地址,下载项目公告文件。
第二存储单元700,用于将项目公告文件存储至本地。
判断单元800,用于判断招标信息中的项目类型是否与预设项目类型一致。
比较单元900,用于对招标信息进行关键词检索,得到检索结果,比较检索结果与预设关键词之间的相似度。
综上所述,从招标网站上获取招标公告页面中的页面信息,页面信息至少包括项目名称。使用预设规则表达式,获得项目名称的超链接。通过超链接,访问招标项目的明细页面,并从明细页面中抓取招标项目的招标信息,将招标信息存储至本地。可见,本实施例通过网络爬虫工具,具体的网络爬虫工具可以是Python语言中的Requests库,获取招标公告页面中的页面信息,通过预设规则表达式,获取页面信息中项目名称的超链接,通过超链接访问招标项目的明细页面,并从明细页面中获取招标项目的招标信息,本实施例提供的招标信息获取方案,效率高,并且能够实时监控招标网站的招标情况,即时记录招标网站提供的招标信息。
本申请还提供了一种计算机存储介质,计算机存储介质包括存储的程序,其中,程序执行上述本申请提供的招标信息获取方法。
本申请还提供了一种电子设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本申请提供的招标信息获取方法。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种招标信息获取方法,其特征在于,包括:
使用Python语言中Requests库的get函数,从招标网站上获取招标公告页面中的页面信息,所述页面信息至少包括项目名称;
使用预设规则表达式,获得所述项目名称的超链接,包括:使用第一规则表达式,过滤所述页面信息的原码中的空白字,得到目标原码;使用第二规则表达式,过滤所述目标原码中不具备第一预设字符的字符串,得到所述项目名称的原码;使用第三规则表达式,过滤所述项目名称的所述原码中不具备第二预设字符的原码,得到超链接的原码;基于所述超链接的所述原码,还原得到所述超链接,其中,所述第一预设字符为title字符,所述第二预设字符为onclick字符;
通过所述超链接,访问招标项目的明细页面;
从所述明细页面中抓取所述招标项目的招标信息;
对所述招标信息进行关键词检索,得到检索结果;
比较所述检索结果与预设关键词之间的相似度;将所述招标信息存储至本地,包括:在所述相似度大于预设阈值的情况下,将所述招标信息存储至本地。
2.根据权利要求1所述的方法,其特征在于,所述招标信息至少包括项目类型和项目公告文件的文件下载地址。
3.根据权利要求2所述的方法,其特征在于,所述从所述明细页面中抓取所述招标项目的招标信息之后,还包括:
通过所述文件下载地址,下载所述项目公告文件;
将所述项目公告文件存储至本地。
4.根据权利要求2所述的方法,其特征在于,所述从所述明细页面中抓取所述招标项目的招标信息之后,还包括:
判断所述项目类型是否与预设项目类型一致;
所述将所述招标信息存储至本地,包括:
在所述项目类型与所述预设项目类型一致的情况下,将所述项目类型所属的所述招标项目的所述招标信息存储至本地。
5.一种招标信息获取装置,其特征在于,包括:
第一获取单元,用于通过Python语言中Requests库的get函数,从招标网站上获取招标公告页面中的页面信息,所述页面信息至少包括项目名称;
第二获取单元,用于使用预设规则表达式,获得所述项目名称的超链接;
所述第二获取单元,具体用于使用第一规则表达式,过滤所述页面信息的原码中的空白字,得到目标原码;使用第二规则表达式,过滤所述目标原码中不具备第一预设字符的字符串,得到所述项目名称的原码;使用第三规则表达式,过滤所述项目名称的所述原码中不具备第二预设字符的原码,得到超链接的原码;基于所述超链接的所述原码,还原得到所述超链接,其中,所述第一预设字符为title字符,所述第二预设字符为onclick字符;
访问单元,用于通过所述超链接,访问招标项目的明细页面;
抓取单元,用于从所述明细页面中抓取所述招标项目的招标信息;
检索单元,用于对所述招标信息进行关键词检索,得到检索结果;
比较单元,用于比较所述检索结果与预设关键词之间的相似度;
第一存储单元,用于在所述相似度大于预设阈值的情况下,将所述招标信息存储至本地。
6.根据权利要求5所述的装置,其特征在于,还包括:
下载单元,用于通过所述招标信息中项目公告文件的文件下载地址,下载所述项目公告文件;
第二存储单元,用于将所述项目公告文件存储至本地。
7.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,所述程序执行权利要求1-4任意一项所述的招标信息获取方法。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-4任意一项所述的招标信息获取方法。
CN202010311011.7A 2020-04-20 2020-04-20 一种招标信息获取方法及装置 Active CN111506795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010311011.7A CN111506795B (zh) 2020-04-20 2020-04-20 一种招标信息获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010311011.7A CN111506795B (zh) 2020-04-20 2020-04-20 一种招标信息获取方法及装置

Publications (2)

Publication Number Publication Date
CN111506795A CN111506795A (zh) 2020-08-07
CN111506795B true CN111506795B (zh) 2023-09-15

Family

ID=71864218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010311011.7A Active CN111506795B (zh) 2020-04-20 2020-04-20 一种招标信息获取方法及装置

Country Status (1)

Country Link
CN (1) CN111506795B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095051B (zh) * 2021-04-28 2024-03-19 企查查科技股份有限公司 应标企业报告生成方法、装置、计算机设备和存储介质
CN113409111A (zh) * 2021-06-15 2021-09-17 广州比地数据科技有限公司 一种招投标信息处理方法、系统和可读存储介质
CN113704667B (zh) * 2021-08-31 2023-06-27 北京百炼智能科技有限公司 一种招标公告的自动提取处理方法和装置
CN113836384A (zh) * 2021-09-09 2021-12-24 北京来也网络科技有限公司 结合rpa和ai的中标信息获取方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130089420A (ko) * 2012-02-02 2013-08-12 정진욱 도메인 광고 및 도메인 공유 방법 및 시스템
CN104915334A (zh) * 2015-05-29 2015-09-16 浪潮软件集团有限公司 一种基于语义分析的招投标项目关键信息自动化提取方法
CN105468664A (zh) * 2015-05-12 2016-04-06 北京众标网络科技有限公司 一种信息采集方法及装置
CN105718580A (zh) * 2016-01-25 2016-06-29 江苏国泰新点软件有限公司 一种提供招投标信息搜索服务的方法和装置
CN107239891A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 一种基于大数据的招投标审核方法
CN109670097A (zh) * 2018-12-05 2019-04-23 贵阳高新数通信息有限公司 招投标相关网页爬取任务调度方法及系统
CN109977282A (zh) * 2019-02-14 2019-07-05 广东省计算技术应用研究所 基于爬虫技术的信息系统监理价格库生成方法
CN110502680A (zh) * 2019-08-27 2019-11-26 重庆大司空信息科技有限公司 一种中标公告相关字段的抽取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130089420A (ko) * 2012-02-02 2013-08-12 정진욱 도메인 광고 및 도메인 공유 방법 및 시스템
CN105468664A (zh) * 2015-05-12 2016-04-06 北京众标网络科技有限公司 一种信息采集方法及装置
CN104915334A (zh) * 2015-05-29 2015-09-16 浪潮软件集团有限公司 一种基于语义分析的招投标项目关键信息自动化提取方法
CN105718580A (zh) * 2016-01-25 2016-06-29 江苏国泰新点软件有限公司 一种提供招投标信息搜索服务的方法和装置
CN107239891A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 一种基于大数据的招投标审核方法
CN109670097A (zh) * 2018-12-05 2019-04-23 贵阳高新数通信息有限公司 招投标相关网页爬取任务调度方法及系统
CN109977282A (zh) * 2019-02-14 2019-07-05 广东省计算技术应用研究所 基于爬虫技术的信息系统监理价格库生成方法
CN110502680A (zh) * 2019-08-27 2019-11-26 重庆大司空信息科技有限公司 一种中标公告相关字段的抽取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
招投标信息监测系统设计及实现;景丽芳;中国优秀硕士学位论文全文数据库(第03期);全文 *

Also Published As

Publication number Publication date
CN111506795A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111506795B (zh) 一种招标信息获取方法及装置
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN107590169B (zh) 一种运营商网关数据的预处理方法及系统
JP2007122732A (ja) ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム、およびサービス方法(ウェブドキュメントの集合において効率的に日付を検索するシステムおよび方法)
US20110029511A1 (en) Keyword assignment to a web page
CN1703696A (zh) 用于基于知识的数据挖掘系统的数据存储库
US10296622B1 (en) Item attribute generation using query and item data
US8560518B2 (en) Method and apparatus for building sales tools by mining data from websites
CN101676907A (zh) 一种互联网资源定向获取方法及系统
CN110377796B (zh) 基于dom树的正文抽取方法、装置、设备及存储介质
CN102710795A (zh) 热点聚合方法及装置
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
CN101231655A (zh) 用于处理搜索引擎结果的方法和系统
Sanjana Ad service detection-a comparative study using machine learning techniques
CN102214179A (zh) 网络信息抓取方法
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
US8996470B1 (en) System for ensuring the internal consistency of a fact repository
CN111339426A (zh) 定制潜在发生事件发生消息的实时搜索方法及系统
CN101504666A (zh) 在互联网上按照源内容进行搜索的方法
CN102541857A (zh) 一种网页排序方法和装置
CN111460307B (zh) 一种移动终端精确搜索方法和装置
CN109815411A (zh) 一种过滤无效电话号码搜索结果的方法
US20050216474A1 (en) Retrieving dynamically-generated and database-driven web pages using a search engine robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant