CN110162590A - 一种工程招标文本结合经济要素的数据库显示方法及其装置 - Google Patents

一种工程招标文本结合经济要素的数据库显示方法及其装置 Download PDF

Info

Publication number
CN110162590A
CN110162590A CN201910134335.5A CN201910134335A CN110162590A CN 110162590 A CN110162590 A CN 110162590A CN 201910134335 A CN201910134335 A CN 201910134335A CN 110162590 A CN110162590 A CN 110162590A
Authority
CN
China
Prior art keywords
text
bid
tenders
project
calling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910134335.5A
Other languages
English (en)
Inventor
付永晗
孔嘉明
宫勐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiefeng Data Technology Co Ltd
Original Assignee
Beijing Jiefeng Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiefeng Data Technology Co Ltd filed Critical Beijing Jiefeng Data Technology Co Ltd
Priority to CN201910134335.5A priority Critical patent/CN110162590A/zh
Publication of CN110162590A publication Critical patent/CN110162590A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种工程招标文本结合经济要素的数据库显示方法及其装置,其中的方法包括如下步骤:获取原始工程招标文本后,对文本予以分词后形成向量;将前述文本的向量与全部招标文本分词后的向量一一求交叉积,获得原始工程招标文本与全部招标文本的相关度;取大于预设的相关度阈值的招标文本,形成招标文本子集;提取前述招标文本子集中每个招标文本的公司名称、招标日期、招标标的、招标省市、行业类别,形成结构化数据库;以前述结构化数据库为基础,形成原始工程招标文本的用户索引及可视化统计图表。本发明提供的工程招标文本结合经济要素的数据库显示方法及其装置,给人们提供了查看相关的工程招标文本的途径,利于比较和得出趋势。

Description

一种工程招标文本结合经济要素的数据库显示方法及其装置
技术领域
本发明涉及电子文本处理领域,尤其涉及工程招标文本的显示处理。
背景技术
现有的招标文书比较单一,不能查看与目标招标文书相关的其他文书,也不能从时间维度上得出公司主体在相关行业的招投标倾向和偏好,当然也不能对标的趋势予以掌握了解。在浩如烟海的招标文书中,人们总倾向要去找到更相关的先例以作参考,特别是涉及经济要素的内容尤为重要。在比如千里马等招标文书网页中,并无此类功能或者装置的设置。
针对上述现有技术中的缺失或者不足,本发明提出工程招标文本结合经济要素的数据库显示方法及其装置。
发明内容
为了解决上述技术问题至少之一,本发明提供了一种工程招标文本结合经济要素的数据库显示方法。
该方法,包括如下步骤:(1)获取原始工程招标文本后,对文本予以分词后形成向量;
(2)将前述文本的向量与全部招标文本分词后的向量一一求交叉积,获得原始工程招标文本与全部招标文本的相关度;
(3)取大于预设的相关度阈值的招标文本,形成招标文本子集;
(4)提取前述招标文本子集中每个招标文本的公司名称、招标日期、招标标的、招标省市、行业类别,形成结构化数据库;
(5)以前述结构化数据库为基础,形成原始工程招标文本的用户索引及可视化统计图表。
优选的是,所述步骤(1)中,以预设的规则的对文本予以分词,包括自动匹配到招标主体、招标标的和招标日期。
优选的是,所述步骤(2)中,在计算相关度时,招标内容和投标人资格的权重比比招标文书其他部分的权重大。
优选的是,所述步骤(3)中,所述相关度阈值不小于80%。
优选的是,所述步骤(4)中,对公司名称中的母公司、子公司和平级公司予以统一公司名称,以所述招标文本与国民经济行业分类文本的相关度区分行业类别归属。
优选的是,所述步骤(5)中,所述可视化统计图表可以变更其维度的标签。
在本发明中也相应的提供一种实现前述的工程招标文本结合经济要素的数据库显示方法的装置,该装置内置于电子设备中,其特征在于,所述装置包括:
招标文本向量形成模块,用于在获取原始工程招标文本后,对文本予以分词后形成向量;
相关度计算模块,用于将前述文本的向量与全部招标文本分词后的向量一一求交叉积,获得原始工程招标文本与全部招标文本的相关度;
招标文本子集形成模块,用于取大于预设的相关度阈值的招标文本,形成招标文本子集;
结构化数据库形成模块,用于提取前述招标文本子集中每个招标文本的公司名称、招标日期、招标标的、招标省市、行业类别,形成结构化数据库;
显示模块,用于以前述结构化数据库为基础,形成原始工程招标文本的用户索引及可视化统计图表。
优选的是,所述招标文本向量形成模块以预设的规则的对文本予以分词,包括自动匹配到招标主体、招标标的和招标日期。
优选的是,所述相关度计算模块在计算相关度时,招标内容和投标人资格的权重比比招标文书其他部分的权重大;所述结构化数据库形成模块,对公司名称中的母公司、子公司和平级公司予以统一公司名称,以所述招标文本与国民经济行业分类文本的相关度区分行业类别归属。
优选的是,所述显示模块中,所述可视化统计图表可以变更其维度的标签。
本发明提供的工程招标文本结合经济要素的数据库显示方法及其装置,给人们提供了查看相关的工程招标文本的途径,利于比较和得出趋势。
附图说明
图1是本发明的工程招标文本结合经济要素的数据库显示方法步骤示意图;
图2是本发明的工程招标文本结合经济要素的数据库显示装置示意图;
其中,1-招标文本向量形成模块,2-相关度计算模块,3-招标文本子集形成模块,4-结构化数据库形成模块,5-显示模块。
具体实施方式
下面结合附图的图1和图2,对本发明予以解释和说明。
图1所描述的工程招标文本结合经济要素的数据库显示方法中,包括如下步骤:
(1)获取原始工程招标文本后,对文本予以分词后形成向量;分词针对了不同的词性,排除了无意义词语的干扰,形成有效的数学向量;
(2)将前述文本的向量与全部招标文本分词后的向量一一求交叉积,获得原始工程招标文本与全部招标文本的相关度;求交叉积有高等数学的向量领域有多种方式,在能改善这种相关度计算效率和准确性情况下均可;
(3)取大于预设的相关度阈值的招标文本,形成招标文本子集;显然地并非全部招标文本与当前的原始工程招标文本具有高度的相关性,设置阈值可以挑选出一定数量的子集;
(4)提取前述招标文本子集中每个招标文本的公司名称、招标日期、招标标的、招标省市、行业类别,形成结构化数据库;可以采用Python或者excel等表格方式呈现数据库;
(5)以前述结构化数据库为基础,形成原始工程招标文本的用户索引及可视化统计图表;不同的人员对于数据的视角不同,因此需要形成索引及可视化,便于数据库的显示,这在招标文本的便利性提取相关的知识图谱是有利的。
在一实施例中,所述步骤(1)中,以预设的规则的对文本予以分词,包括自动匹配到招标主体、招标标的和招标日期。
在一实施例中,所述步骤(2)中,在计算相关度时,招标内容和投标人资格的权重比比招标文书其他部分的权重大。
在一实施例中,所述步骤(3)中,所述相关度阈值不小于80%。
在一实施例中,所述步骤(4)中,对公司名称中的母公司、子公司和平级公司予以统一公司名称,以所述招标文本与国民经济行业分类文本的相关度区分行业类别归属。
在一实施例中,所述步骤(5)中,所述可视化统计图表可以变更其维度的标签。
图2所描述的一种实现前述的工程招标文本结合经济要素的数据库显示方法的装置,该装置内置于电子设备中,所述装置包括:
招标文本向量形成模块1,用于在获取原始工程招标文本后,对文本予以分词后形成向量;
相关度计算模块2,用于将前述文本的向量与全部招标文本分词后的向量一一求交叉积,获得原始工程招标文本与全部招标文本的相关度;
招标文本子集形成模块3,用于取大于预设的相关度阈值的招标文本,形成招标文本子集;
结构化数据库形成模块4,用于提取前述招标文本子集中每个招标文本的公司名称、招标日期、招标标的、招标省市、行业类别,形成结构化数据库;
显示模块5,用于以前述结构化数据库为基础,形成原始工程招标文本的用户索引及可视化统计图表。
在一实施例中,招标文本向量形成模块1以预设的规则的对文本予以分词,包括自动匹配到招标主体、招标标的和招标日期。
在一实施例中,相关度计算模块2在计算相关度时,招标内容和投标人资格的权重比比招标文书其他部分的权重大;结构化数据库形成模块4,对公司名称中的母公司、子公司和平级公司予以统一公司名称,以招标文本与国民经济行业分类文本的相关度区分行业类别归属。
在一实施例中,显示模块5中,可视化统计图表可以变更其维度的标签。
应当说明的是,在本申请中,术语“包括”或者其他其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还可以包括没有明确列出的其他要素,或者是还可以包括为这种过程、方法、物品或者装置所固有的要素。
上述实施方式或实施例仅仅是为了清楚地说明本发明所作的举例,而并非对本发明的限制。对于本领域技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或者改变;由此所引申出的显而易见的变化或改变仍处于本发明的保护范围之内。

Claims (10)

1.一种工程招标文本结合经济要素的数据库显示方法,其特征在于,所述方法包括如下步骤:(1)获取原始工程招标文本后,对文本予以分词后形成向量;(2)将前述文本的向量与全部招标文本分词后的向量一一求交叉积,获得原始工程招标文本与全部招标文本的相关度;(3)取大于预设的相关度阈值的招标文本,形成招标文本子集;(4)提取前述招标文本子集中每个招标文本的公司名称、招标日期、招标标的、招标省市、行业类别,形成结构化数据库;(5)以前述结构化数据库为基础,形成原始工程招标文本的用户索引及可视化统计图表。
2.根据权利要求1所述的招标文本结合经济要素的数据库显示方法,其特征在于,所述步骤(1)中,以预设的规则的对文本予以分词,包括自动匹配到招标主体、招标标的和招标日期。
3.根据权利要求2所述的招标文本结合经济要素的数据库显示方法,其特征在于,所述步骤(2)中,在计算相关度时,招标内容和投标人资格的权重比比招标文书其他部分的权重大。
4.根据权利要求3所述的招标文本结合经济要素的数据库显示方法,其特征在于,所述步骤(3)中,所述相关度阈值不小于80%。
5.根据权利要求1所述的招标文书结合经济要素的数据库显示方法,其特征在于,所述步骤(4)中,对公司名称中的母公司、子公司和平级公司予以统一公司名称,以所述招标文本与国民经济行业分类文本的相关度区分行业类别归属。
6.根据权利要求1所述的招标文书结合经济要素的数据库显示方法,其特征在于,所述步骤(5)中,所述可视化统计图表可以变更其维度的标签。
7.一种实现如权利要求1所述的工程招标文本结合经济要素的数据库显示方法的装置,该装置内置于电子设备中,其特征在于,所述装置包括:
招标文本向量形成模块,用于在获取原始工程招标文本后,对文本予以分词后形成向量;
相关度计算模块,用于将前述文本的向量与全部招标文本分词后的向量一一求交叉积,获得原始工程招标文本与全部招标文本的相关度;
招标文本子集形成模块,用于取大于预设的相关度阈值的招标文本,形成招标文本子集;
结构化数据库形成模块,用于提取前述招标文本子集中每个招标文本的公司名称、招标日期、招标标的、招标省市、行业类别,形成结构化数据库;
显示模块,用于以前述结构化数据库为基础,形成原始工程招标文本的用户索引及可视化统计图表。
8.根据权利要求7所述的装置,其特征在于,所述招标文本向量形成模块以预设的规则的对文本予以分词,包括自动匹配到招标主体、招标标的和招标日期。
9.根据权利要求8所述的装置,其特征在于,所述相关度计算模块在计算相关度时,招标内容和投标人资格的权重比比招标文书其他部分的权重大;所述结构化数据库形成模块,对公司名称中的母公司、子公司和平级公司予以统一公司名称,以所述招标文本与国民经济行业分类文本的相关度区分行业类别归属。
10.根据权利要求9所述的装置,其特征在于,所述显示模块中,所述可视化统计图表可以变更其维度的标签。
CN201910134335.5A 2019-02-22 2019-02-22 一种工程招标文本结合经济要素的数据库显示方法及其装置 Pending CN110162590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910134335.5A CN110162590A (zh) 2019-02-22 2019-02-22 一种工程招标文本结合经济要素的数据库显示方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910134335.5A CN110162590A (zh) 2019-02-22 2019-02-22 一种工程招标文本结合经济要素的数据库显示方法及其装置

Publications (1)

Publication Number Publication Date
CN110162590A true CN110162590A (zh) 2019-08-23

Family

ID=67645396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910134335.5A Pending CN110162590A (zh) 2019-02-22 2019-02-22 一种工程招标文本结合经济要素的数据库显示方法及其装置

Country Status (1)

Country Link
CN (1) CN110162590A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515629A (zh) * 2021-06-02 2021-10-19 中国神华国际工程有限公司 一种文档分类方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN108364124A (zh) * 2018-01-26 2018-08-03 天津中科智能识别产业技术研究院有限公司 基于大数据的国际产能合作风险评估与决策服务系统
CN109063744A (zh) * 2018-07-06 2018-12-21 龙马智芯(珠海横琴)科技有限公司 神经网络模型训练方法和商业文件相似度确定方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN108364124A (zh) * 2018-01-26 2018-08-03 天津中科智能识别产业技术研究院有限公司 基于大数据的国际产能合作风险评估与决策服务系统
CN109063744A (zh) * 2018-07-06 2018-12-21 龙马智芯(珠海横琴)科技有限公司 神经网络模型训练方法和商业文件相似度确定方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515629A (zh) * 2021-06-02 2021-10-19 中国神华国际工程有限公司 一种文档分类方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Pahwa et al. Sentiment analysis-strategy for text pre-processing
Xie et al. Review spam detection via time series pattern discovery
US20190050381A1 (en) Detecting the bounds of borderless tables in fixed-format structured documents using machine learning
CN109685052A (zh) 文本图像处理方法、装置、电子设备及计算机可读介质
Wang et al. Identification of fake reviews using semantic and behavioral features
CN110955690A (zh) 一种基于大数据技术的自助数据标签平台及自助数据标签方法
CN112131348B (zh) 基于文本和图像相似度防止项目重复申报的方法
Chumwatana Using sentiment analysis technique for analyzing Thai customer satisfaction from social media
JP2008293310A (ja) 消費者の嗜好動向を分析する方法、システムおよびプログラム
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN110162590A (zh) 一种工程招标文本结合经济要素的数据库显示方法及其装置
CN107038593B (zh) 一种基于防伪溯源系统的异常数据处理方法及系统
CN108846080A (zh) 知识图谱中实体相似度的计算方法及系统
CN111563168A (zh) 一种基于ai知识图谱算法用于通关商品智能归类的方法
CN110825896A (zh) 一种商标检索系统及检索方法
CN110765778B (zh) 一种标签实体处理方法、装置、计算机设备和存储介质
Hofmarcher et al. Do Media Sentiments Reflect Economic Indices?
CN114187448A (zh) 文档图像识别方法和装置、电子设备、计算机可读介质
CN111858717A (zh) 一种物料创建的实时智能推荐方法
CN113190679A (zh) 关系确定方法、装置、电子设备和存储介质
Jin-ping et al. Image data mining technology of multimedia
Kim et al. Detecting multiple outliers in linear regression using a cluster method combined with graphical visualization
CN113656486B (zh) 生成可视化对象的方法、装置、终端设备及存储介质
Johnson Does analytics have a role to play in Aluminium?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823

RJ01 Rejection of invention patent application after publication