CN108427721A - 一种基于数据库的招标信息的标准化方法及系统 - Google Patents
一种基于数据库的招标信息的标准化方法及系统 Download PDFInfo
- Publication number
- CN108427721A CN108427721A CN201810127993.7A CN201810127993A CN108427721A CN 108427721 A CN108427721 A CN 108427721A CN 201810127993 A CN201810127993 A CN 201810127993A CN 108427721 A CN108427721 A CN 108427721A
- Authority
- CN
- China
- Prior art keywords
- standardized
- bidding
- information
- webpage
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于数据库的招标信息标准化方法,包括网页获取、表格提取、表格去噪、表格标准化、表格格式判断、键值序列提取等步骤。本发明的有益效果为:提供了一种基于数据库的招标信息的标准化方法和系统,通过将招标网页中的招标信息标准化,存入标准化数据库中,使得数据的后续处理变得更加方便,解决了现有技术招标网页都是一些非标准化的HTML代码块,各类数据分析算法无法处理的问题。
Description
技术领域
本发明涉及招投标领域,特别涉及一种基于数据库的招标信息的标准化方法及系统。
背景技术
招标与投标是一种国际上普遍应用的、有组织的市场交易行为,是工程、货物或服务贸易的买卖方式。通常是采购人事先提出条件和要求,邀请众多的交易对象参与竞争并按照规定的程序从中选择成交者。招投标活动对打破行业垄断和地区封锁、提高经济效益、保证项目质量、预防和减少腐败等发挥了重要作用,已经成为推进现代市场体系建设的重要手段。
现在招标网页都是一些非标准化的HTML代码块,而各类数据分析算法所处理的数据对象均是标准化数据,因此从非结构化的数据中准确提取标准化的数据是后续处理的前提。
发明内容
为了解决上述问题,本发明提供了一种基于数据库的招标信息标准化方法,包括步骤:
S100)网页获取:从网页数据库中获取招标网页;
S200)表格提取:从招标网页中提取表格,由于页面中可能存在多个表格的情形,通过能够标识表格属性的ID、CLASS在多个表格中提取记录招标信息的表格;
S300)表格去噪:将表格中的噪声标签去除,只保留与表格显示和控制相关的标签;
S400)表格标准化:将表格分割成多行多列的单元格,转化成简单表格,使得表格中的每个单元格只占一行一列且只有唯一确定值;
S500)表格格式判断:发布招标信息时既可采用将指标放到第一行的横表,也可采用将指标放到第一列的纵表,在抽取表格信息前需判断其是横表还是纵表;取表格的第一行单元格值和第一列单元格值,分别与各个指标进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
S600)键值序列提取:若表格为横表,则将第一行单元格的值映射到相应的指标,相应列单元格的值即为指标的值,将表格转化成标准化的键值对,进而存储到标准化数据库中;若表格为纵表,则将第一列单元格的值映射到指标,相应行单元格的值即为指标的值,提取键值对存储到标准化数据库中。
优选的,所述网页数据库至少包括各级政府采购网页、各学校采购网页以及各招标网站招标网页。
优选的,所述噪音标签包括控制页面显示格式的DIV、CSS以及与表格无关的标签。
优选的,所述与表格显示和控制相关的标签包括但不限于table、tr、td、colspan。
优选的,所述指标包括项目名称、项目编号、招标时间、投标时间、投标地点、开标时间、开标地点、预算金额、采购单位、采购单位联系人、采购单位联系方式、采购单位地址、代理机构、代理机构联系人、代理机构联系方式、代理机构地址、采购内容、附件文档中的的一种或多种。
本发明还提供了一种基于数据库的招标信息的标准化系统,其特征在于,包括网页数据库、标准化模块以及标准化数据库;其中网页数据库被配置用于存储招标网页;标准化数据库被配置用于从网页数据库中获取招标网页,并从网页中提取招标信息表格,然后将表格标准化,存入标准化数据库中;标准化数据库被配置用于存储标准化的招标信息。
本发明的有益效果为:提供了一种基于数据库的招标信息的标准化方法和系统,通过将招标网页中的招标信息标准化,存入标准化数据库中,使得数据的后续处理变得更加方便,解决了现有技术招标网页都是一些非标准化的HTML代码块,各类数据分析算法无法处理的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1所示为本发明提供的一种基于数据库的招标信息的标准化方法的方法流程图;
图2所示为本发明提供的一种基于数据库的招标信息的标准化系统的系统结构图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
图1所示为本发明提供的一种基于数据库的招标信息的标准化方法的方法流程图。根据本发明的一个实施例,一种基于数据库的招标信息的标准化方法,包括步骤:
S100)网页获取:从网页数据库中获取招标网页;
S200)表格提取:从招标网页中提取表格,由于页面中可能存在多个表格的情形,通过能够标识表格属性的ID、CLASS在多个表格中提取记录招标信息的表格;
S300)表格去噪:将表格中的噪声标签去除,只保留与表格显示和控制相关的标签;
S400)表格标准化:将表格分割成多行多列的单元格,转化成简单表格,使得表格中的每个单元格只占一行一列且只有唯一确定值;
S500)表格格式判断:发布招标信息时既可采用将指标放到第一行的横表,也可采用将指标放到第一列的纵表,在抽取表格信息前需判断其是横表还是纵表;取表格的第一行单元格值和第一列单元格值,分别与各个指标进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
S600)键值序列提取:若表格为横表,则将第一行单元格的值映射到相应的指标,相应列单元格的值即为指标的值,将表格转化成标准化的键值对,进而存储到标准化数据库中;若表格为纵表,则将第一列单元格的值映射到指标,相应行单元格的值即为指标的值,提取键值对存储到标准化数据库中。
根据本发明的一个实施例,所述网页数据库至少包括各级政府采购网页、各学校采购网页以及各招标网站招标网页。
根据本发明的一个实施例,获取的招标网页都是原始的非标准化网页,其中会杂陈诸多广告、友情链接、同类推荐等无关信息。因此需要过滤此类无关信息抽取有效信息,本发明采用DOM树的方法和基于行块分布函数方法抽取目标网页中的数据。
根据本发明的一个实施例,所述噪音标签包括控制页面显示格式的DIV、CSS以及与表格无关的标签。
根据本发明的一个实施例,其特征在于,所述与表格显示和控制相关的标签包括但不限于table、tr、td、colspan。
根据本发明的一个实施例,在剔除无关信息后所获得的网页仍是非标准化的HTML代码块,而各类数据分析算法所处理的数据对象均是标准化数据,因此从非标准化的数据中准确提取标准化的数据是后续处理的前提。
根据本发明的一个实施例,并非网页中的所有数据均是提取目标,结合招标分析目标,通过对各级政府采购网及各类招投标网的整理汇总,指标包括项目名称、项目编号、招标时间、投标时间、投标地点、开标时间、开标地点、预算金额、采购单位、采购单位联系人、采购单位联系方式、采购单位地址、代理机构、代理机构联系人、代理机构联系方式、代理机构地址、采购内容、附件文档中的的一种或多种。
图2所示为本发明提供的一种基于数据库的招标信息的标准化系统的系统结构图。根据本发明的一个实施例,一种基于数据库的招标信息的标准化系统,包括网页数据库、标准化模块以及标准化数据库;其中网页数据库被配置用于存储招标网页;标准化数据库被配置用于从网页数据库中获取招标网页,并从网页中提取招标信息表格,然后将表格标准化,存入标准化数据库中;标准化数据库被配置用于存储标准化的招标信息。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的提供招标新标准化方法的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。
此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
Claims (6)
1.一种基于数据库的招标信息标准化方法,其特征在于,包括步骤:
S100)网页获取:从网页数据库中获取招标网页;
S200)表格提取:从招标网页中提取表格,由于页面中可能存在多个表格的情形,通过能够标识表格属性的ID、CLASS在多个表格中提取记录招标信息的表格;
S300)表格去噪:将表格中的噪声标签去除,只保留与表格显示和控制相关的标签;
S400)表格标准化:将表格分割成多行多列的单元格,转化成简单表格,使得表格中的每个单元格只占一行一列且只有唯一确定值;
S500)表格格式判断:发布招标信息时既可采用将指标放到第一行的横表,也可采用将指标放到第一列的纵表,在抽取表格信息前需判断其是横表还是纵表;取表格的第一行单元格值和第一列单元格值,分别与各个指标进行匹配,比较第一行和第一列单元格值的命中率,若第一行单元格值的命中率高则为横表,否则为纵表;
S600)键值序列提取:若表格为横表,则将第一行单元格的值映射到相应的指标,相应列单元格的值即为指标的值,将表格转化成标准化的键值对,进而存储到标准化数据库中;若表格为纵表,则将第一列单元格的值映射到指标,相应行单元格的值即为指标的值,提取键值对存储到标准化数据库中。
2.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述网页数据库至少包括各级政府采购网页、各学校采购网页以及各招标网站招标网页。
3.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述噪音标签包括控制页面显示格式的DIV、CSS以及与表格无关的标签。
4.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述与表格显示和控制相关的标签包括但不限于table、tr、td、colspan。
5.根据权利要求1所述的一种基于数据库的招标信息标准化方法,其特征在于,所述指标包括项目名称、项目编号、招标时间、投标时间、投标地点、开标时间、开标地点、预算金额、采购单位、采购单位联系人、采购单位联系方式、采购单位地址、代理机构、代理机构联系人、代理机构联系方式、代理机构地址、采购内容、附件文档中的的一种或多种。
6.一种基于数据库的招标信息的标准化系统,其特征在于,包括网页数据库、标准化模块以及标准化数据库;其中网页数据库被配置用于存储招标网页;标准化数据库被配置用于从网页数据库中获取招标网页,并从网页中提取招标信息表格,然后将表格标准化,存入标准化数据库中;标准化数据库被配置用于存储标准化的招标信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810127993.7A CN108427721A (zh) | 2018-02-08 | 2018-02-08 | 一种基于数据库的招标信息的标准化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810127993.7A CN108427721A (zh) | 2018-02-08 | 2018-02-08 | 一种基于数据库的招标信息的标准化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108427721A true CN108427721A (zh) | 2018-08-21 |
Family
ID=63156579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810127993.7A Pending CN108427721A (zh) | 2018-02-08 | 2018-02-08 | 一种基于数据库的招标信息的标准化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427721A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008458A (zh) * | 2019-04-11 | 2019-07-12 | 国网河北省电力有限公司物资分公司 | 电力招投标文件的结构化编制方法 |
CN112685620A (zh) * | 2020-12-31 | 2021-04-20 | 山东奥邦交通设施工程有限公司 | 一种招投标信息处理方法、系统、可读存储介质及设备 |
CN113704667A (zh) * | 2021-08-31 | 2021-11-26 | 北京百炼智能科技有限公司 | 一种招标公告的自动提取处理方法和装置 |
CN113761202A (zh) * | 2021-08-30 | 2021-12-07 | 上海快确信息科技有限公司 | 一种将非结构金融Excel表格映射到数据库的优化系统 |
CN115203309A (zh) * | 2022-09-15 | 2022-10-18 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN116361594A (zh) * | 2023-06-01 | 2023-06-30 | 北京拓普丰联信息科技股份有限公司 | 一种招投标信息发布平台挖掘方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402591A (zh) * | 2011-11-01 | 2012-04-04 | 深圳市信游天下网络科技有限公司 | 一种用于网页制作的数据库系统 |
CN107239891A (zh) * | 2017-05-26 | 2017-10-10 | 山东省科学院情报研究所 | 一种基于大数据的招投标审核方法 |
-
2018
- 2018-02-08 CN CN201810127993.7A patent/CN108427721A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402591A (zh) * | 2011-11-01 | 2012-04-04 | 深圳市信游天下网络科技有限公司 | 一种用于网页制作的数据库系统 |
CN107239891A (zh) * | 2017-05-26 | 2017-10-10 | 山东省科学院情报研究所 | 一种基于大数据的招投标审核方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008458A (zh) * | 2019-04-11 | 2019-07-12 | 国网河北省电力有限公司物资分公司 | 电力招投标文件的结构化编制方法 |
CN110008458B (zh) * | 2019-04-11 | 2023-01-03 | 国网河北省电力有限公司物资分公司 | 电力招投标文件的结构化编制方法 |
CN112685620A (zh) * | 2020-12-31 | 2021-04-20 | 山东奥邦交通设施工程有限公司 | 一种招投标信息处理方法、系统、可读存储介质及设备 |
CN113761202A (zh) * | 2021-08-30 | 2021-12-07 | 上海快确信息科技有限公司 | 一种将非结构金融Excel表格映射到数据库的优化系统 |
CN113704667A (zh) * | 2021-08-31 | 2021-11-26 | 北京百炼智能科技有限公司 | 一种招标公告的自动提取处理方法和装置 |
CN115203309A (zh) * | 2022-09-15 | 2022-10-18 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN115203309B (zh) * | 2022-09-15 | 2022-11-29 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN116361594A (zh) * | 2023-06-01 | 2023-06-30 | 北京拓普丰联信息科技股份有限公司 | 一种招投标信息发布平台挖掘方法、装置、设备及介质 |
CN116361594B (zh) * | 2023-06-01 | 2023-08-25 | 北京拓普丰联信息科技股份有限公司 | 一种招投标信息发布平台挖掘方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427721A (zh) | 一种基于数据库的招标信息的标准化方法及系统 | |
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
Preston et al. | Community participation in rural primary health care: intervention or approach? | |
CN106886862A (zh) | 一种招标采购管理系统及方法 | |
CN109784779B (zh) | 财务风险预测方法、装置及存储介质 | |
Ufere et al. | Why is bribery pervasive among firms in sub-Saharan African countries? Multi-industry empirical evidence of organizational isomorphism | |
Sandiuk et al. | Special procedures for electronic public procurement | |
CN108415969A (zh) | 一种招标信息检索分析方法及系统 | |
KR102672533B1 (ko) | 퀸트 투자 기반의 금융 자산 자동 투자 시스템 및 방법 | |
CN110706096A (zh) | 基于捞回用户管理授信额度的方法、装置和电子设备 | |
CN110659985A (zh) | 一种捞回误拒潜在用户的方法、装置和电子设备 | |
CN106875595A (zh) | 一种pos终端使用地点的确定方法及装置 | |
Nikomaram et al. | The relationship between liquidity risk and credit risk in Islamic banking industry of Iran | |
CN108491426A (zh) | 一种招标信息推送系统 | |
CN108415968A (zh) | 一种招标信息的采集方法 | |
CN114303140A (zh) | 与产品和服务相关的知识产权数据分析 | |
CN116090867A (zh) | 指标规则生成方法、装置、电子设备及存储介质 | |
CN116308826A (zh) | 保险产品上线方法、装置、设备及存储介质 | |
CN108256667A (zh) | 资产数据处理方法、装置、存储介质和计算机设备 | |
CN106951273A (zh) | 一种动态配置生成业务工作台的方法和装置 | |
Szewieczek et al. | Behavioral Aspects in Obligatory Reports of Public Hospitals in Poland | |
Charmian | Agents as migration infrastructure: Circulating debt and channelling Indonesian domestic workers in Singapore | |
Ee | Configuring Internal Controls for Software as a Service: Between Fragility and Forgiveness | |
Owens et al. | Developments in the Use of Technologies in African Tax Administrations | |
CN116306547A (zh) | 资讯确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180821 |