CN106250456A - 一种中标公告的抽取方法及装置 - Google Patents

一种中标公告的抽取方法及装置 Download PDF

Info

Publication number
CN106250456A
CN106250456A CN201610606331.9A CN201610606331A CN106250456A CN 106250456 A CN106250456 A CN 106250456A CN 201610606331 A CN201610606331 A CN 201610606331A CN 106250456 A CN106250456 A CN 106250456A
Authority
CN
China
Prior art keywords
bid
network address
acceptance
key word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610606331.9A
Other languages
English (en)
Inventor
刘全志
崔乐乐
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201610606331.9A priority Critical patent/CN106250456A/zh
Publication of CN106250456A publication Critical patent/CN106250456A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种中标公告的抽取方法及装置,中标公告抽取方法包括:将同一类型的多个网址确定为目标抽取网址;根据所述目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;根据所述至少一个关键词以及所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息;根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息;存储所述至少一个详情页信息中包括的中标公告。本发明能有效提高中标公告抽取效率。

Description

一种中标公告的抽取方法及装置
技术领域
本发明涉及互联网数据处理技术领域,特别涉及一种中标公告的抽取方法及装置。
背景技术
随着市场经济的蓬勃发展,招投标作为一种大额买卖的交易方式,在众多交易方式中占据着越来越重要的位置,随着互联网应用的发展,各网站发布招投标信息也愈加频繁。
现有技术中,在进行中标公告的抽取时,将所有互联网网页作为抽取目标,并在针对每一个当前互联网网页进行抽取时,首先判断该当前互联网网页结构和编码规则,然后利用该当前互联网网页相对应的抽取程序进行中标公告的抽取。
现有技术在进行中标公告的抽取时,每次均需要判断当前互联网网页结构和编码规则,在相邻两个互联网网页的结构和编码规则不相同时,则需要更换抽取程序进行抽取,从而影响抽取效率。
发明内容
本发明实施例提供了一种中标公告的抽取方法及装置,能够有效提高中标公告的抽取效率。
第一方面,本发明实施例提供了一种中标公告的抽取方法,
将同一类型的多个网址确定为目标抽取网址;
根据所述目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;
根据所述至少一个关键词以及所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息;
根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息;
存储所述至少一个详情页信息中包括的中标公告。
优选地,所述中标公告属性,包括:
招标人、招标代理机构、中标人、项目名称、中标时间和中标金额中的至少一个。
优选地,
所述将同一类型的多个网址确定为目标抽取网址,包括:将各个政府机构网站对应的网址确定为所述目标抽取网址;
进一步包括:确定工商系统对应的工商网址;
所述根据所述目标抽取网址构建词库,包括:采集所述目标抽取网址对应的政府机构信息,将该政府机构信息确定为所述招标人对应的关键词;
采集所述目标抽取网址对应的招标代理机构信息,将该招标代理机构信息确定为所述招标代理机构对应的关键词;
采集工商网址对应的各个注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词。
优选地,
进一步包括:根据存储的中标公告建立每一个所述关键词与其对应的中标公告的索引关系;
进一步包括:在获取到检索请求时,根据所述检索请求中携带的目标关键词和所述索引关系,确定所述目标关键词的目标索引,根据所述目标索引获取所述检索请求对应的目标中标公告。
优选地,
进一步包括:预设所述词库中每一个关键词获取频率的第一阈值;
进一步包括:设置第二阈值;
进一步包括:在获取到所述检索请求时,根据所述检索请求中携带的目标关键词,将所述目标关键词的获取频率加1;
进一步包括:确定所述词库中每一个关键词对应的当前获取频率以及相应的第一阈值,将当前获取频率低于其相应第一阈值的关键词,从所述词库中删除;
进一步包括:在所述目标关键词未在所述词库中、且所述目标关键词的获取频率不小于所述第二阈值时,将所述目标关键词增加到所述词库中。
第二方面,本发明实施例提供了一种中标公告的抽取装置,包括:
第一确定单元,用于将同一类型的多个网址确定为目标抽取网址,将所述目标抽取网址发送给第一构建单元;
所述第一构建单元,用于根据所述第一确定单元确定的目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;
第一获取单元,用于根据所述第一构建单元构建的词库中至少一个关键词以及所述第一确定单元确定的目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息,将所述至少一个列表页信息输出给第二获取单元;
所述第二获取单元,用于根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息,将所述至少一个详情页信息发送给存储单元;
所述存储单元,用于存储所述至少一个详情页信息中包括的中标公告。
优选地,所述中标公告属性,包括:
招标人、招标代理机构、中标人、项目名称、中标时间和中标金额中的至少一个。
优选地,
所述第一确定单元,具体用于将各个政府机构网站对应的网址确定为所述目标抽取网址;
进一步包括:第二确定单元,用于确定工商系统对应的工商网址;
所述第一构建单元,包括:
第一采集子单元,用于采集所述目标抽取网址对应的政府机构信息,将该政府机构信息确定为所述招标人对应的关键词;
第二采集子单元,用于采集所述目标抽取网址对应的招标代理机构信息,将该招标代理机构信息确定为所述招标代理机构对应的关键词;
第三采集子单元,用于采集工商网址对应的各个注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词。
优选地,该装置进一步包括:
第二构建单元,用于根据存储的中标公告建立每一个所述关键词与其对应的中标公告的索引关系;
检索单元,用于在获取到检索请求时,根据所述检索请求中携带的目标关键词和所述第二构建单元建立的索引关系,确定所述目标关键词的目标索引,根据所述目标索引获取所述检索请求对应的目标中标公告。
优选地,该装置进一步包括:
第一设置单元,用于预设所述词库中每一个关键词获取频率的第一阈值;
第二设置单元,用于设置第二阈值;
第三获取单元,用于在获取到所述检索请求时,根据所述检索请求中携带的目标关键词,将所述目标关键词的获取频率加1;
删除单元,用于确定所述词库中每一个关键词对应的当前获取频率以及相应的第一阈值,将当前获取频率低于其相应第一阈值的关键词,从所述词库中删除;
增加单元,用于在所述目标关键词未在所述词库中、且所述目标关键词的获取频率不小于所述第二阈值时,将所述目标关键词增加到所述词库中。
本发明实施例提供了一种中标公告的抽取方法及装置,通过将同一类型的多个网址确定为目标抽取网址,根据所述目标网址构建中标公告属性词库,每一个所述中标公告属性分别对应至少一个关键词,再根据所述至少一个关键词和所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息,然后根据所述至少一个列表页信息获取对应的至少一个详情页信息,最后将所述至少一个详情页信息中包括的中标公告存储下来;由于首先确定了同一类型的目标网站,从而无需在每次抽取时判断网页结构和编码规则,并且同一类型的目标网站使用同一种抽取程序,无需根据网页结构和编码规则的不同更换抽取程序,从而有效提高了中标公告的抽取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种中标公告抽取方法流程图;
图2是本发明一个实施例提供的另一种中标公告抽取方法流程图;
图3是本发明一个实施例提供的一种中标公告抽取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种中标公告的抽取方法,该方法可以包括以下步骤:
步骤101,将同一类型的多个网址确定为目标抽取网址;
步骤102,根据所述目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;
步骤103,根据所述至少一个关键词以及所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息;
步骤104,根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息;
步骤105,存储所述至少一个详情页信息中包括的中标公告。
上述实施例中,通过将同一类型的多个网址确定为目标抽取网址,根据所述目标网址构建中标公告属性词库,每一个所述中标公告属性分别对应至少一个关键词,再根据所述至少一个关键词和所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息,然后根据所述至少一个列表页信息获取对应的至少一个详情页信息,最后将所述至少一个详情页信息中包括的中标公告存储下来;由于首先确定了同一类型的目标网站,从而无需在每次抽取时判断网页结构和编码规则,并且同一类型的目标网站使用同一种抽取程序,无需根据网页结构和编码规则的不同更换抽取程序,从而有效提高了中标公告的抽取效率。
本发明一实施例中,所述中标公告属性,包括:
招标人、招标代理机构、中标人、项目名称、中标时间和中标金额中的至少一个。
上述实施例中,明确中标公告属性,有利于根据中标公告属性确定其对应的关键词,从而便于在相关网站中采集关键词信息,构建词库。
本发明一实施例中,确定工商系统对应的工商网址,步骤101的具体实施方式,包括:
采集所述目标抽取网址对应的政府机构信息,将该政府机构信息确定为所述招标人对应的关键词;
此步骤中,中标公告中的招标人绝大多数都是政府机构,并且相应政府机构网站上有对应的政府机构名单,因此可以通过采集此名单,将该名单内容作为招标人对应的关键词。
采集所述目标抽取网址对应的招标代理机构信息,将该招标代理机构信息确定为所述招标代理机构对应的关键词;
此步骤中,政府机构网站上提供了当地范围的招标代理机构名单,因此可以通过采集此名单,将名单内容作为招标代理机构对应的关键词。
采集工商网址对应的各个注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词。
此步骤中,中标人应该都在工商系统注册过,因此可以通过采集工商网址中的注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词。
上述实施例中,通过在政府机构网站和工商网站中采集中标公告属性对应的关键词,由于相关网站上已有统计好的名单,直接采集该名单,并将其内容作为相应关键词存入词库,有效减少了构建词库的工作量。
本发明一实施例中,根据存储的中标公告建立每一个所述关键词与其对应的中标公告的索引关系;
在获取到检索请求时,根据所述检索请求中携带的目标关键词和所述索引关系,确定所述目标关键词的目标索引,根据所述目标索引获取所述检索请求对应的目标中标公告。
上述实施例中,建立关键词与对应的中标公告文档之间的索引关系,在检索时,根据检索请求中携带的目标关键词和其对应的索引关系,直接调取相应中标公告,从而提高检索效率。
本发明另一实施例中,预设所述词库中每一个关键词获取频率的第一阈值;
设置第二阈值;
在获取到所述检索请求时,根据所述检索请求中携带的目标关键词,将所述目标关键词的获取频率加1;
本步骤中,获取检所请求中携带的目标关键词时,将目标关键词的检索频率加1,这样利于实时记录目标关键词的检索频率。
确定所述词库中每一个关键词对应的当前获取频率以及相应的第一阈值,将当前获取频率低于其相应第一阈值的关键词,从所述词库中删除;
本步骤中,当目标关键词检索频率低于对应的第一阈值时,将其从词库中删除;例如,某代理机构A由于自身原因在2005年之后即不再代理招投标活动,则其对应的中标公告也截至于2005年,若检索用户只检索近十年的中标公告,则该代理机构不会成为目标关键词,将其继续存储在词库中已没有意义,因此将其从词库中删除,有利于提高检索效率。
在所述目标关键词未在所述词库中、且所述目标关键词的获取频率不小于所述第二阈值时,将所述目标关键词增加到所述词库中。
本步骤中,当所述目标关键词未在词库中,而检索用户又需要根据此目标关键词进行检索时,在所述目标关键词的获取频率不小于第二阈值后,将此目标关键词增加到所述词库中;例如,某代理机构B是2016年才开始代理招投标活动,而词库建立于2015年,词库的第二阈值为10,则该代理机构B未存入词库中,而检索时,检索用户需要知道最近的中标公告,此代理机构B会成为目标关键词,当其作为目标关键词被检索10次后,将此代理机构B的名称存入词库中,利于后续检索,提高检索效率。
上述实施例中,删除词库中存有的且其检索频率低于第一阈值的关键词,增加未在词库中但检索频率高于第二阈值的关键词,通过更新词库中的关键词,有利于检索,提高检索效率。
下面以北京市各区的政府机构网站网址作为目标网址举例,对本发明的中标公告抽取方法进行详细说明,如图2所示,本发明实施例提供了另一种中标公告的抽取方法,包括:
步骤201,将各个政府机构网站对应的网址确定为所述目标抽取网址;
本步骤中,将北京市各区的政府机构网站网址作为目标抽取网址,由于政府机构网站大部分都采用相同的网页结构和编码规则,因此将各区政府机构网站的网址作为目标抽取网址进行数据抽取时,无需在抽取前判断网页结构和编码规则,也无需根据不同的网页结构和编码规则更改抽取程序,从而有利于提高抽取效率。
步骤202,确定工商系统对应的工商网址;
本步骤中,确定北京市工商系统中的工商网址,为采集中标公告属性做准备。
步骤203,采集所述目标抽取网址对应的政府机构信息,将该政府机构信息确定为所述招标人对应的关键词;
本步骤中,中标公告中的招标人绝大多数都是政府机构,并且相应政府机构网站上有对应的政府机构名单,因此可以通过采集此名单,将该名单内容作为招标人对应的关键词;例如,在北京市海淀区住房和城乡建设委员会网站上采集一个政府机构的名称:北京市南水北调工程拆迁办公室作为所述招标人对应的一个关键词。
步骤204,采集所述目标抽取网址对应的招标代理机构信息,将该招标代理机构信息确定为所述招标代理机构对应的关键词;
本步骤中,北京市各区政府机构网站上提供了当地范围的招标代理机构名单,因此可以通过采集此名单,将名单内容作为招标代理机构对应的关键词;例如,在北京住建委网站上采集一代理机构名称:北京北咨工程咨询有限公司作为所述招标人对应的一个关键词。
步骤205,采集工商网址对应的各个注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词;
本步骤中,中标人应该都在工商系统注册过,因此可以通过采集工商网址中的注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词;例如,在北京市金融工作局网站上采集一个注册用户名称:首都信息发展股份有限公司作为所述中标人对应的一个关键词。
步骤206,根据所述目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;
本步骤中,通过在各区网站上采集的对应的关键词,构建词库,为抽取各关键词对应的中标公告做准备。
步骤207,根据所述至少一个关键词以及所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息;
本步骤中,根据关键词在各区政府机构网站上采集对应的列表页,例如,关键词为代理机构C,目标网址为东城区政府机构网站,则进入东城区政府机构网站,采集对应代理机构C的列表页信息;
步骤208,根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息;
本步骤中,根据步骤207采集的代理机构C的列表页信息,分别采集列表页中每一条信息对应的详情页信息,即可获得代理机构C对应的中标公告;
步骤209,存储所述至少一个详情页信息中包括的中标公告;
本步骤中,采集的详情页信息里可能包含与中标公告无关的信息,例如广告信息等,在存储时,只针对有效信息即中标公告进行存储,有利于提高抽取效率。
步骤210,根据存储的中标公告建立每一个所述关键词与其对应的中标公告的索引关系;
本步骤中,建立代理机构C与其对应的中标公告之间的索引关系,利于检索;例如,代理机构C存放于词库的1区,代理机构C对应的中标公告存放于中标公告正文库的2区,建立代理机构C与其对应的中标公告之间的索引关系为“=&”,则当根据关键词“代理机构C”抽取中标公告时,根据索引关系“=&”即可直接得到代理机构C对应的中标公告。
步骤211,在获取到检索请求时,根据所述检索请求中携带的目标关键词和所述索引关系,确定所述目标关键词的目标索引,根据所述目标索引获取所述检索请求对应的目标中标公告;
本步骤中,用户检索中标公告时,检索请求中携带有关键词代理机构C,则根据步骤210建立的索引关系,可直接获取代理机构C对应的中标公告。
步骤212,预设所述词库中每一个关键词获取频率的第一阈值;
步骤213,设置第二阈值;
上述步骤中,为词库设置阈值,有利于根据阈值对关键词进行增加和删减,从而提高检索效率;其中,所述第一阈值用来判断是否需删除词库中原有的关键词;例如,关键词A的第一阈值为10,则当关键词A的检索频率小于10时,例如,关键词A的检索频率为8时,将关键词A从词库中删除;所述第二阈值用来判断是否需将未在词库中的关键词存入词库中,例如,所述第二阈值为15,关键词B未在词库中且其检索频率大于15,例如,关键词B的检索频率为20,则将关键词B增加入词库中。
步骤214,在获取到所述检索请求时,根据所述检索请求中携带的目标关键词,将所述目标关键词的获取频率加1;
本步骤中有利于实时记录目标关键词的检索频率,从而根据此检索频率对照词库阈值对该目标关键词进行删除或增加。
步骤215,确定所述词库中每一个关键词对应的当前获取频率以及相应的第一阈值,将当前获取频率低于其相应第一阈值的关键词,从所述词库中删除;
步骤216,在所述目标关键词未在所述词库中、且所述目标关键词的获取频率不小于所述第二阈值时,将所述目标关键词增加到所述词库中。
上述步骤通过删除词库中存有的且其检索频率低于第一阈值的关键词,增加未在词库中但检索频率高于第二阈值的关键词,更新词库中的关键词,有利于检索,提高检索效率。
本发明上述实施例中,通过确定目标网址为北京市各区的政府机构网站网址,在各区的网站内采集招标人和招标代理机构等属性的关键词,并建立词库,再采集各关键词分别对应的中标公告并存储,由于首先确定了同一类型的网址为目标网址,而无需在每次抽取前判断该网址的结构和编码规则,从而提高抽取效率;建立关键词与对应的中标公告的索引关系,在检索时,直接根据目标关键词调取对应的中标公告,并且对词库中的关键词进行实时更新,从而提高了中标公告的检索效率。
如图3所示,本发明实施例提供了一种中标公告抽取装置,包括:
第一确定单元301,用于将同一类型的多个网址确定为目标抽取网址,将所述目标抽取网址发送给第一构建单元;
所述第一构建单元302,用于根据所述第一确定单元确定的目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;
第一获取单元303,用于根据所述第一构建单元构建的词库中至少一个关键词以及所述第一确定单元确定的目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息,将所述至少一个列表页信息输出给第二获取单元;
所述第二获取单元304,用于根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息,将所述至少一个详情页信息发送给存储单元;
所述存储单元305,用于存储所述至少一个详情页信息中包括的中标公告。
本发明上述实施例中,通过将同一类型的多个网址确定为目标抽取网址,根据所述目标网址构建中标公告属性词库,每一个所述中标公告属性分别对应至少一个关键词,再根据所述至少一个关键词和所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息,然后根据所述至少一个列表页信息获取对应的至少一个详情页信息,最后将所述至少一个详情页信息中包括的中标公告存储下来;由于首先确定了同一类型的目标网站,从而无需在每次抽取时判断网页结构和编码规则,并且同一类型的目标网站使用同一种抽取程序,无需根据网页结构和编码规则的不同更换抽取程序,从而有效提高了中标公告的抽取效率。
本发明一实施例中,所述中标公告属性,包括:
招标人、招标代理机构、中标人、项目名称、中标时间和中标金额中的至少一个。
上述实施例中,明确中标公告属性,有利于根据中标公告属性确定其对应的关键词,从而便于在相关网站中采集关键词信息,构建词库。
本发明另一实施例中,所述第一确定单元,具体用于将各个政府机构网站对应的网址确定为所述目标抽取网址;
该装置进一步包括第二确定单元,用于确定工商系统对应的工商网址;
所述第一构建单元,包括:
第一采集子单元,用于采集所述目标抽取网址对应的政府机构信息,将该政府机构信息确定为所述招标人对应的关键词;
第二采集子单元,用于采集所述目标抽取网址对应的招标代理机构信息,将该招标代理机构信息确定为所述招标代理机构对应的关键词;
第三采集子单元,用于采集工商网址对应的各个注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词。
上述实施例中,通过在政府机构网站和工商网站中采集中标公告属性对应的关键词,由于相关网站上已有统计好的名单,直接采集该名单,并将其内容作为相应关键词存入词库,有效减少了构建词库的工作量。
本发明另一实施例中,该装置进一步包括:
第二构建单元,用于根据存储的中标公告建立每一个所述关键词与其对应的中标公告的索引关系;
检索单元,用于在获取到检索请求时,根据所述检索请求中携带的目标关键词和所述第二构建单元建立的索引关系,确定所述目标关键词的目标索引,根据所述目标索引获取所述检索请求对应的目标中标公告。
上述实施例中,建立关键词与对应的中标公告文档之间的索引关系,在检索时,根据检索请求中携带的目标关键词和其对应的索引关系,直接调取相应中标公告,从而提高检索效率。
本发明一实施例中,该装置进一步包括:
第一设置单元,用于预设所述词库中每一个关键词获取频率的第一阈值;
第二设置单元,用于设置第二阈值;
第三获取单元,用于在获取到所述检索请求时,根据所述检索请求中携带的目标关键词,将所述目标关键词的获取频率加1;
删除单元,用于确定所述词库中每一个关键词对应的当前获取频率以及相应的第一阈值,将当前获取频率低于其相应第一阈值的关键词,从所述词库中删除;
增加单元,用于在所述目标关键词未在所述词库中、且所述目标关键词的获取频率不小于所述第二阈值时,将所述目标关键词增加到所述词库中。
上述实施例中,删除词库中存有的且其检索频率低于第一阈值的关键词,增加未在词库中但检索频率高于第二阈值的关键词,通过更新词库中的关键词,有利于检索,提高检索效率。
本发明各个实施例至少具有如下有益效果:
1、通过将同一类型的多个网址确定为目标抽取网址,根据所述目标网址构建中标公告属性词库,每一个所述中标公告属性分别对应至少一个关键词,再根据所述至少一个关键词和所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息,然后根据所述至少一个列表页信息获取对应的至少一个详情页信息,最后将所述至少一个详情页信息中包括的中标公告存储下来;由于首先确定了同一类型的目标网站,从而无需在每次抽取时判断网页结构和编码规则,并且同一类型的目标网站使用同一种抽取程序,无需根据网页结构和编码规则的不同更换抽取程序,从而有效提高了中标公告的抽取效率。
2、建立关键词与对应的中标公告文档之间的索引关系,在检索时,根据检索请求中携带的目标关键词和其对应的索引关系,直接调取相应中标公告,从而提高检索效率。
3、删除词库中存有的且其检索频率低于第一阈值的关键词,增加未在词库中但检索频率高于第二阈值的关键词,通过更新词库中的关键词,有利于检索,提高检索效率。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种中标公告的抽取方法,其特征在于,包括:
将同一类型的多个网址确定为目标抽取网址;
根据所述目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;
根据所述至少一个关键词以及所述目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息;
根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息;
存储所述至少一个详情页信息中包括的中标公告。
2.根据权利要求1所述的方法,其特征在于,所述中标公告属性,包括:
招标人、招标代理机构、中标人、项目名称、中标时间和中标金额中的至少一个。
3.根据权利要求2所述的方法,其特征在于,
所述将同一类型的多个网址确定为目标抽取网址,包括:将各个政府机构网站对应的网址确定为所述目标抽取网址;
进一步包括:确定工商系统对应的工商网址;
所述根据所述目标抽取网址构建词库,包括:采集所述目标抽取网址对应的政府机构信息,将该政府机构信息确定为所述招标人对应的关键词;
采集所述目标抽取网址对应的招标代理机构信息,将该招标代理机构信息确定为所述招标代理机构对应的关键词;
采集工商网址对应的各个注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词。
4.根据权利要求2所述的方法,其特征在于,
进一步包括:根据存储的中标公告建立每一个所述关键词与其对应的中标公告的索引关系;
进一步包括:在获取到检索请求时,根据所述检索请求中携带的目标关键词和所述索引关系,确定所述目标关键词的目标索引,根据所述目标索引获取所述检索请求对应的目标中标公告。
5.根据权利要求4所述的方法,其特征在于,
进一步包括:预设所述词库中每一个关键词获取频率的第一阈值;
进一步包括:设置第二阈值;
进一步包括:在获取到所述检索请求时,根据所述检索请求中携带的目标关键词,将所述目标关键词的获取频率加1;
进一步包括:确定所述词库中每一个关键词对应的当前获取频率以及相应的第一阈值,将当前获取频率低于其相应第一阈值的关键词,从所述词库中删除;
进一步包括:在所述目标关键词未在所述词库中、且所述目标关键词的获取频率不小于所述第二阈值时,将所述目标关键词增加到所述词库中。
6.一种中标公告的抽取装置,其特征在于,包括:
第一确定单元,用于将同一类型的多个网址确定为目标抽取网址,将所述目标抽取网址发送给第一构建单元;
所述第一构建单元,用于根据所述第一确定单元确定的目标抽取网址构建词库,所述词库中包括至少一种中标公告属性以及每一个所述中标公告属性分别对应的至少一个关键词;
第一获取单元,用于根据所述第一构建单元构建的词库中至少一个关键词以及所述第一确定单元确定的目标抽取网址,获取每一个目标抽取网址中与所述至少一个关键词对应的至少一个列表页信息,将所述至少一个列表页信息输出给第二获取单元;
所述第二获取单元,用于根据所述至少一个列表页信息,获取每一个列表页信息对应的至少一个详情页信息,将所述至少一个详情页信息发送给存储单元;
所述存储单元,用于存储所述至少一个详情页信息中包括的中标公告。
7.根据权利要求6所述的装置,其特征在于,所述中标公告属性,包括:
招标人、招标代理机构、中标人、项目名称、中标时间和中标金额中的至少一个。
8.根据权利要求7所述的装置,其特征在于,
所述第一确定单元,具体用于将各个政府机构网站对应的网址确定为所述目标抽取网址;
进一步包括:第二确定单元,用于确定工商系统对应的工商网址;
所述第一构建单元,包括:
第一采集子单元,用于采集所述目标抽取网址对应的政府机构信息,将该政府机构信息确定为所述招标人对应的关键词;
第二采集子单元,用于采集所述目标抽取网址对应的招标代理机构信息,将该招标代理机构信息确定为所述招标代理机构对应的关键词;
第三采集子单元,用于采集工商网址对应的各个注册用户信息,将每一个注册用户信息确定为所述中标人对应的关键词。
9.根据权利要求7所述的装置,其特征在于,进一步包括:
第二构建单元,用于根据存储的中标公告建立每一个所述关键词与其对应的中标公告的索引关系;
检索单元,用于在获取到检索请求时,根据所述检索请求中携带的目标关键词和所述第二构建单元建立的索引关系,确定所述目标关键词的目标索引,根据所述目标索引获取所述检索请求对应的目标中标公告。
10.根据权利要求9所述的装置,其特征在于,进一步包括:
第一设置单元,用于预设所述词库中每一个关键词获取频率的第一阈值;
第二设置单元,用于设置第二阈值;
第三获取单元,用于在获取到所述检索请求时,根据所述检索请求中携带的目标关键词,将所述目标关键词的获取频率加1;
删除单元,用于确定所述词库中每一个关键词对应的当前获取频率以及相应的第一阈值,将当前获取频率低于其相应第一阈值的关键词,从所述词库中删除;
增加单元,用于在所述目标关键词未在所述词库中、且所述目标关键词的获取频率不小于所述第二阈值时,将所述目标关键词增加到所述词库中。
CN201610606331.9A 2016-07-28 2016-07-28 一种中标公告的抽取方法及装置 Pending CN106250456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610606331.9A CN106250456A (zh) 2016-07-28 2016-07-28 一种中标公告的抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610606331.9A CN106250456A (zh) 2016-07-28 2016-07-28 一种中标公告的抽取方法及装置

Publications (1)

Publication Number Publication Date
CN106250456A true CN106250456A (zh) 2016-12-21

Family

ID=57604508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610606331.9A Pending CN106250456A (zh) 2016-07-28 2016-07-28 一种中标公告的抽取方法及装置

Country Status (1)

Country Link
CN (1) CN106250456A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563729A (zh) * 2018-04-04 2018-09-21 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
CN110502680A (zh) * 2019-08-27 2019-11-26 重庆大司空信息科技有限公司 一种中标公告相关字段的抽取方法及装置
CN113779222A (zh) * 2021-09-14 2021-12-10 北京捷风数据技术有限公司 一种基于合同信息匹配中标信息的方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129633A (zh) * 2010-01-15 2011-07-20 马同新 利用互联网络远程招标采购的方法
CN102411579A (zh) * 2010-09-20 2012-04-11 腾讯科技(深圳)有限公司 一种搜索行业相关信息的方法及装置
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
US20120296865A1 (en) * 2010-05-11 2012-11-22 Zte Corporation Terminal device and word stock update method thereof
CN105389338A (zh) * 2015-10-20 2016-03-09 北京用友政务软件有限公司 一种采购中标数据的解析方法
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129633A (zh) * 2010-01-15 2011-07-20 马同新 利用互联网络远程招标采购的方法
US20120296865A1 (en) * 2010-05-11 2012-11-22 Zte Corporation Terminal device and word stock update method thereof
CN102411579A (zh) * 2010-09-20 2012-04-11 腾讯科技(深圳)有限公司 一种搜索行业相关信息的方法及装置
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
CN105389338A (zh) * 2015-10-20 2016-03-09 北京用友政务软件有限公司 一种采购中标数据的解析方法
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563729A (zh) * 2018-04-04 2018-09-21 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN108563729B (zh) * 2018-04-04 2022-04-01 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
CN110502680A (zh) * 2019-08-27 2019-11-26 重庆大司空信息科技有限公司 一种中标公告相关字段的抽取方法及装置
CN113779222A (zh) * 2021-09-14 2021-12-10 北京捷风数据技术有限公司 一种基于合同信息匹配中标信息的方法、系统及存储介质

Similar Documents

Publication Publication Date Title
WO2021032002A1 (zh) 基于异构分布式知识图谱的大数据处理方法、设备及介质
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN108038136A (zh) 基于图模型的企业知识图谱的建立方法和图形化查询方法
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN102622443A (zh) 一种面向微博的定制化筛选系统及方法
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
AU2005203239A1 (en) Phrase-based indexing in an information retrieval system
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN106250456A (zh) 一种中标公告的抽取方法及装置
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
WO2014210387A2 (en) Concept extraction
CN107391502A (zh) 时间间隔的数据查询方法、装置及索引构建方法、装置
CN106570140A (zh) 确定信息热点的方法及装置
CN110321446A (zh) 相关数据推荐方法、装置、计算机设备及存储介质
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN111143394B (zh) 知识数据处理方法、装置、介质及电子设备
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN101963993B (zh) 一种数据库单表记录快速查找的方法
An et al. A heuristic approach on metadata recommendation for search engine optimization
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN113377739A (zh) 知识图谱应用方法、平台、电子设备及存储介质
CN117763155A (zh) 配电网规划多源异构数据的知识图谱构建方法及相关设备
CN106777395A (zh) 一种基于社区文本数据的话题发现系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161221

RJ01 Rejection of invention patent application after publication