CN104915334A - 一种基于语义分析的招投标项目关键信息自动化提取方法 - Google Patents

一种基于语义分析的招投标项目关键信息自动化提取方法 Download PDF

Info

Publication number
CN104915334A
CN104915334A CN201510285935.3A CN201510285935A CN104915334A CN 104915334 A CN104915334 A CN 104915334A CN 201510285935 A CN201510285935 A CN 201510285935A CN 104915334 A CN104915334 A CN 104915334A
Authority
CN
China
Prior art keywords
eigenwert
bid
project
semantic analysis
organization names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510285935.3A
Other languages
English (en)
Inventor
崔乐乐
王贵友
焦毓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201510285935.3A priority Critical patent/CN104915334A/zh
Publication of CN104915334A publication Critical patent/CN104915334A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于语义分析的招投标项目关键信息自动化提取方法,其具体实现过程为:首先获取招投标公告原文;进行特征值分析;正则提取特征值;将提取的信息存入数据库。该一种基于语义分析的招投标项目关键信息自动化提取方法与现有技术相比,减轻了基层税务人员的工作压力,提高了开具红字发票的速度和效率,通过特征值确定目标信息位置,通过语法树验证目标信息提取的准确性,大大提高中文文本信息处理效率和准确度,实用性强,适用范围广泛,易于推广。

Description

一种基于语义分析的招投标项目关键信息自动化提取方法
技术领域
本发明涉及大数据技术领域,具体地说是实用性强、基于语义分析的招投标项目关键信息自动化提取方法。
背景技术
在过去的几年中,随着互联网的普及,大数据凭借超强的数据处理分析能力,为各行各业的人员提供数据支持,为企业高管、政府人员等等提供数据参考,极大地增强了决策力、洞察力,以更加具有说服力的数据代替了以往的模糊印象,使得决策更加有理、有据。其中,招标和中标数据对于反映一个区域市场的活跃性以及对某个公司的综合示例提供了很好的参考价值。
据统计,全国各地省级以及地市级招中标网站多达600多个。通过监控采集这些网站,每天采集到的数据量很大。如何将非结构化的项目公告信息采集并进行结构化存储是我们所面临的最大问题。
在现有的正文文本关键信息提取的研究过程中,数据采集人员往往将文本信息处理的算法或程序作为重点研究方向以提高数据采集效率和准确度,却没有意识到目标信息特征值与目标信息之间的紧密联系。因此,在过去的研究中,研究人员往往只是通过对文本中的简单词频进行概率统计。
基于此,现提供一种基于语义分析的招投标项目关键信息自动化提取方法,该方法是伴随着大数据时代的来临提出的,在大数据时代,如何对海量数据进行采集、分析、提取并且产生价值,是不得不考虑的一个问题,尤其是提取招投标领域的关键信息。由于一个好的特征值库能够更好的体现目标信息的模式特征和属性,使得提取效率和准确度大大提高。故在本发明提供的方法中,通过目标信息的特征值进行目标信息提取的提取方式,并不是根据词频来确定目标信息的位置,而是根据目标信息的特征值确定目标信息的模式,根据这种模式识别并提取目标信息可以有效的提高定位精度并在很大程度上压缩正文文本的维数。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于语义分析的招投标项目关键信息自动化提取方法。
一种基于语义分析的招投标项目关键信息自动化提取方法,其具体实现过程为:
首先获取招投标公告原文;
进行特征值分析;
正则提取特征值;
将提取的信息存入数据库。
所述获取招投标公告原文的具体过程为:根据webclient和htmlunit 网络爬虫方法,获取对应页面的htmlPage,通过page.getBody方法获取相应页面的body 部分源码和正文。
所述特征值包括项目名称特征值、项目编号特征值、时间特征值、招标人特征值、代理机构提取、中标人特征值、中标金额特征值,其特征值分析内容包括:
项目名称特征值,为招标或中标项目的完整名称,该名称包括区域、单位机构、采购物品或服务、采购类型及公告类型;
项目编号特征值,由大小写字符、-、【、】符号组成的字符串;
时间特征值,包括公告发布时间、开标时间、中标时间,分析时采用模糊匹配的特征值模式,首先确定招标公告发布的年份,然后就近提取月份,随后是日期;
招标人特征值,其模式为区域+机构名称,该机构名称包括公司、交易中心、采购中心;
代理机构特征值,其模式为区域+机构名称,该机构名称包括厅、局、大学;
中标人特征值,其模式为区域+机构名称,该机构名称包括公司、集团、企业;
中标金额特征值,表达格式分为大写和小写两种。
所述正则获取特征值过程为:通过正则表达式的match()方法,根据特征值分析的结果,对原文使用正则,获取项目名称、项目编号信息。
本发明的一种基于语义分析的招投标项目关键信息自动化提取方法,具有以下优点:
该发明的一种基于语义分析的招投标项目关键信息自动化提取方法通过特征值确定目标信息位置,通过语法树验证目标信息提取的准确性,大大提高中文文本信息处理效率和准确度,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
本发明的提供一种基于语义分析的招投标项目关键信息自动化提取方法,该方法基于银联控件技术的手机纳税安全支付方法解决了缴税依赖电脑网上办税的地点局限性和大厅办税的繁琐性,而且还保证了手机缴税的安全可靠性。
如附图1所示,该方法的具体实现过程为:
首先获取招投标公告原文;
进行特征值分析;
正则提取特征值;
将提取的信息存入数据库。
所述获取招投标公告原文的具体过程为:根据webclient和htmlunit 网络爬虫方法,获取对应页面的htmlPage,通过page.getBody方法获取相应页面的body 部分源码和正文。
所述特征值包括项目名称特征值、项目编号特征值、时间特征值、招标人特征值、代理机构提取、中标人特征值、中标金额特征值,其特征值分析内容包括:
项目名称特征值,模式设计: 对于一则招标或者中标信息来说,一个完整的项目名称的模式应该是“区域+单位机构+‘采购’+采购物品或服务+‘的’+采购类型+公告类型”。当然,模式并非是唯一的,不同的区域和代理机构的项目名称命名方式不同,因此我们要对网站进行分类,并为其建立完整的特征值库。
项目编号特征值,模式设计:项目编号是由大小写字符、“-”、“【”、“】”等符号组成的字符串。在网页结构不规范的网页中,穷举项目编号可能出现的字符,对于不属于该范围之内的字符进行清空,过滤之后的字符串即为项目编号。
时间特征值,即公告发布时间、开标时间、中标时间提取,模式设计:由于招标公告具有较强的实时性,因此公告发布时间是确定该招标信息是否具有价值的重要因素。因此在几乎所有的招标公告中,都会有发布时间,只是格式不同,如“2015.3.2”、“2015-03-02”、“2015/3/2”等。因此,我们可以采用模糊匹配的特征值模式。首先确定招标公告发布的年份,然后就近提取月份,随后是日期。以此类推,将招标公告中所有符合日期模式的文本全部提取排序,一般最大的日期即开标日期,最小日期即公告发布日期,中间文本可能是获取标书日期等,需要根据上下文词频进行确定。
招标人特征值,模式设计:首先我们确定了招标项目为政府机构采购,所以采购人或者招标人一定属于政府机构。如税务局、财政厅、**大学等,因此我们建立了政府机构信息库,存储了所有的政府机构作为特征值。特征值模式:“区域+机构名称(公司/交易中心/采购中心)”。
代理机构提取,模式设计:在现有的招标法规定中,招标代理机构分为公营和私营两种。而且代理机构在命名上与其他的组织机构有着明显的不同。我们从代理机构的性质进行分析,从而确定了特征值,如“项目咨询”、“工程管理”、“招投标”等等,以此区分招标信息中可能出现的多个机构名称(采购人名称、供应商名称等)。特征值模式:“区域+机构名称(厅/局/大学···)”。
中标人特征值,模式设计:根据现有的招标法规定,参与竞标的机构为国营或私营企业。因此,中标人的特征值一般含有“企业”、“集团”、“公司”等标识。因此,建立可扩展的中标人特征值库,可以有效区分代理机构与中标人。特征值模式:“区域+机构名称(公司/集团/企业···)”。
中标金额特征值,模式设计:中标金额的表达格式分为大写和小写两种,标准的小写金额书写方式应为“整数+小数”,标准的大写金额应有十个大写数字和拾、佰、仟、万四个单位组成。
上述特征值通过语法树验证其信息描述的准确性,语法树是由若干个“枝点”组成的有限集合,在两个节点之间,总会有一条“有向链路”将二者进行链接。如相邻的两个节点A和B,由A→B,我们则成A为B的父节点,B则为A的子节点,同时,语法树的节点有如下性质:
语法树的各个节点有且仅有一个前驱节点;
语法树中有且仅有一个没有父节点的节点,称之为“根节点”;
语法树中的每一节点,都有一条从根节点到此节点的通路;
若一个节点有多个子节点,则按照自左向右的数序进行排序。
所述正则获取特征值过程为:通过正则表达式的match()方法,根据特征值分析的结果,对原文使用正则,获取项目名称、项目编号信息。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于语义分析的招投标项目关键信息自动化提取方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (4)

1.一种基于语义分析的招投标项目关键信息自动化提取方法,其特征在于,其具体实现过程为:
首先获取招投标公告原文;
进行特征值分析;
正则提取特征值;
将提取的信息存入数据库。
2.根据权利要求1所述的一种基于语义分析的招投标项目关键信息自动化提取方法,其特征在于,所述获取招投标公告原文的具体过程为:根据webclient和htmlunit 网络爬虫方法,获取对应页面的htmlPage ,通过page.getBody方法获取相应页面的body 部分源码和正文。
3.根据权利要求1所述的一种基于语义分析的招投标项目关键信息自动化提取方法,其特征在于,所述特征值包括项目名称特征值、项目编号特征值、时间特征值、招标人特征值、代理机构提取、中标人特征值、中标金额特征值,其特征值分析内容包括:
项目名称特征值,为招标或中标项目的完整名称,该名称包括区域、单位机构、采购物品或服务、采购类型及公告类型;
项目编号特征值,由大小写字符、-、【、】符号组成的字符串;
时间特征值,包括公告发布时间、开标时间、中标时间,分析时采用模糊匹配的特征值模式,首先确定招标公告发布的年份,然后就近提取月份,随后是日期;
招标人特征值,其模式为区域+机构名称,该机构名称包括公司、交易中心、采购中心;
代理机构特征值,其模式为区域+机构名称,该机构名称包括厅、局、大学;
中标人特征值,其模式为区域+机构名称,该机构名称包括公司、集团、企业;
中标金额特征值,表达格式分为大写和小写两种。
4.根据权利要求1所述的一种基于语义分析的招投标项目关键信息自动化提取方法,其特征在于,所述正则获取特征值过程为:通过正则表达式的match()方法,根据特征值分析的结果,对原文使用正则,获取项目名称、项目编号信息。
CN201510285935.3A 2015-05-29 2015-05-29 一种基于语义分析的招投标项目关键信息自动化提取方法 Pending CN104915334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510285935.3A CN104915334A (zh) 2015-05-29 2015-05-29 一种基于语义分析的招投标项目关键信息自动化提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510285935.3A CN104915334A (zh) 2015-05-29 2015-05-29 一种基于语义分析的招投标项目关键信息自动化提取方法

Publications (1)

Publication Number Publication Date
CN104915334A true CN104915334A (zh) 2015-09-16

Family

ID=54084406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510285935.3A Pending CN104915334A (zh) 2015-05-29 2015-05-29 一种基于语义分析的招投标项目关键信息自动化提取方法

Country Status (1)

Country Link
CN (1) CN104915334A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354762A (zh) * 2015-11-11 2016-02-24 国网山东省电力公司电力科学研究院 一种电力客服业务工单识别与分配系统及方法
CN105490848A (zh) * 2015-12-08 2016-04-13 北京齐尔布莱特科技有限公司 一种参数配置方法和系统
CN105718580A (zh) * 2016-01-25 2016-06-29 江苏国泰新点软件有限公司 一种提供招投标信息搜索服务的方法和装置
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN107239891A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 一种基于大数据的招投标审核方法
CN108399191A (zh) * 2018-01-25 2018-08-14 温州大学 一种招标信息的个性化推荐方法
CN109408825A (zh) * 2018-11-06 2019-03-01 杭州费尔斯通科技有限公司 一种基于命名实体识别的中标数据提取方法
CN110019704A (zh) * 2017-10-17 2019-07-16 阿里巴巴集团控股有限公司 语句分析及人机交互方法和装置、计算设备、存储介质
CN110502680A (zh) * 2019-08-27 2019-11-26 重庆大司空信息科技有限公司 一种中标公告相关字段的抽取方法及装置
CN111506795A (zh) * 2020-04-20 2020-08-07 北京中电普华信息技术有限公司 一种招标信息获取方法及装置
CN112017016A (zh) * 2019-10-29 2020-12-01 河南拓普计算机网络工程有限公司 招投标公告中标金额清洗方法
CN112016272A (zh) * 2019-10-29 2020-12-01 河南拓普计算机网络工程有限公司 招投标信息评审专家识别系统及方法
CN112241864A (zh) * 2019-07-16 2021-01-19 中移(苏州)软件技术有限公司 一种信息处理方法、装置和计算机可读存储介质
CN113761926A (zh) * 2021-08-02 2021-12-07 紫金诚征信有限公司 一种基于正则提取企业或政府中标公告中标金额的方法
CN116485190A (zh) * 2023-06-26 2023-07-25 中招联合信息股份有限公司 基于多文件对比分析的企业投标信息文件风险预测系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561802A (zh) * 2008-04-18 2009-10-21 上海复旦光华信息科技股份有限公司 网页结构化数据提取方法与系统
CN102129633A (zh) * 2010-01-15 2011-07-20 马同新 利用互联网络远程招标采购的方法
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN103838713A (zh) * 2014-03-27 2014-06-04 王峥嵘 一种基于正则表达式的语义分析方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN104462566A (zh) * 2014-12-26 2015-03-25 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN104504016A (zh) * 2014-12-10 2015-04-08 河海大学 一种面向用户的web信息自动提取方法
CN104536952A (zh) * 2014-12-29 2015-04-22 北京牡丹电子集团有限责任公司数字电视技术中心 一种时间信息抽取方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561802A (zh) * 2008-04-18 2009-10-21 上海复旦光华信息科技股份有限公司 网页结构化数据提取方法与系统
CN102129633A (zh) * 2010-01-15 2011-07-20 马同新 利用互联网络远程招标采购的方法
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN103838713A (zh) * 2014-03-27 2014-06-04 王峥嵘 一种基于正则表达式的语义分析方法
CN104504016A (zh) * 2014-12-10 2015-04-08 河海大学 一种面向用户的web信息自动提取方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统
CN104462566A (zh) * 2014-12-26 2015-03-25 中科宇图天下科技有限公司 一种环保信息网格抓取方法
CN104536952A (zh) * 2014-12-29 2015-04-22 北京牡丹电子集团有限责任公司数字电视技术中心 一种时间信息抽取方法及系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354762B (zh) * 2015-11-11 2021-04-27 国网山东省电力公司电力科学研究院 一种电力客服业务工单识别与分配系统及方法
CN105354762A (zh) * 2015-11-11 2016-02-24 国网山东省电力公司电力科学研究院 一种电力客服业务工单识别与分配系统及方法
CN105490848A (zh) * 2015-12-08 2016-04-13 北京齐尔布莱特科技有限公司 一种参数配置方法和系统
CN105718580A (zh) * 2016-01-25 2016-06-29 江苏国泰新点软件有限公司 一种提供招投标信息搜索服务的方法和装置
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN107239891A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 一种基于大数据的招投标审核方法
CN107239891B (zh) * 2017-05-26 2021-06-15 山东省科学院情报研究所 一种基于大数据的招投标审核方法
CN110019704B (zh) * 2017-10-17 2023-01-17 阿里巴巴集团控股有限公司 语句分析及人机交互方法和装置、计算设备、存储介质
CN110019704A (zh) * 2017-10-17 2019-07-16 阿里巴巴集团控股有限公司 语句分析及人机交互方法和装置、计算设备、存储介质
CN108399191A (zh) * 2018-01-25 2018-08-14 温州大学 一种招标信息的个性化推荐方法
CN108399191B (zh) * 2018-01-25 2021-06-15 广州大学 一种招标信息的个性化推荐方法
CN109408825A (zh) * 2018-11-06 2019-03-01 杭州费尔斯通科技有限公司 一种基于命名实体识别的中标数据提取方法
CN112241864A (zh) * 2019-07-16 2021-01-19 中移(苏州)软件技术有限公司 一种信息处理方法、装置和计算机可读存储介质
CN112241864B (zh) * 2019-07-16 2022-12-16 中移(苏州)软件技术有限公司 一种信息处理方法、装置和计算机可读存储介质
CN110502680A (zh) * 2019-08-27 2019-11-26 重庆大司空信息科技有限公司 一种中标公告相关字段的抽取方法及装置
CN112017016A (zh) * 2019-10-29 2020-12-01 河南拓普计算机网络工程有限公司 招投标公告中标金额清洗方法
CN112016272A (zh) * 2019-10-29 2020-12-01 河南拓普计算机网络工程有限公司 招投标信息评审专家识别系统及方法
CN111506795A (zh) * 2020-04-20 2020-08-07 北京中电普华信息技术有限公司 一种招标信息获取方法及装置
CN111506795B (zh) * 2020-04-20 2023-09-15 北京中电普华信息技术有限公司 一种招标信息获取方法及装置
CN113761926A (zh) * 2021-08-02 2021-12-07 紫金诚征信有限公司 一种基于正则提取企业或政府中标公告中标金额的方法
CN116485190A (zh) * 2023-06-26 2023-07-25 中招联合信息股份有限公司 基于多文件对比分析的企业投标信息文件风险预测系统
CN116485190B (zh) * 2023-06-26 2023-09-05 中招联合信息股份有限公司 基于多文件对比分析的企业投标信息文件风险预测系统

Similar Documents

Publication Publication Date Title
CN104915334A (zh) 一种基于语义分析的招投标项目关键信息自动化提取方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN106453357A (zh) 一种网络购票异常行为的识别方法、系统及设备
CN110597870A (zh) 一种企业关系挖掘方法
CN108595621A (zh) 一种虚开增值税发票的预警分析方法及系统
CN104636338B (zh) 一种用于增值税阴阳票监控的数据清洗存储方法
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN107944760B (zh) 一种企业投标竞争力分析方法与系统
CN105389341A (zh) 一种客服电话重复来电工单的文本聚类与分析方法
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN104636337B (zh) 一种用于增值税的数据清洗存储方法
CN108763496A (zh) 一种基于网格和密度的动静态数据融合客户分类算法
CN108804323A (zh) 代码质量监控方法、设备及存储介质
CN104077407A (zh) 一种智能数据搜索系统及方法
CN102081781A (zh) 基于信息自循环的金融建模优化方法
CN109359186A (zh) 一种确定地址信息的方法、装置和计算机可读存储介质
CN106095972A (zh) 一种信息分类方法及装置
CN104899602A (zh) 一种基于K-means算法的用户聚类分析系统
CN104636341B (zh) 一种用于增值税一号多名监控的数据清洗存储方法
CN104636971A (zh) 一种增值税发票一号多名的检测方法及其系统
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
CN110728570A (zh) 反诈资金分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150916