CN116501896B - 基于使用习惯分析文件关键字关联性的预测系统 - Google Patents
基于使用习惯分析文件关键字关联性的预测系统 Download PDFInfo
- Publication number
- CN116501896B CN116501896B CN202310753457.9A CN202310753457A CN116501896B CN 116501896 B CN116501896 B CN 116501896B CN 202310753457 A CN202310753457 A CN 202310753457A CN 116501896 B CN116501896 B CN 116501896B
- Authority
- CN
- China
- Prior art keywords
- bidding
- file
- keyword
- document
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012098 association analyses Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 12
- 238000010606 normalization Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及文件关联性预测技术领域,具体地说,涉及基于使用习惯分析文件关键字关联性的预测系统。其包括文件关联性分析模块以及文件预测模块。本发明通过文件关联性分析模块结合筛分后的投标文件,确定其关键词信息,文件预测模块按照关键词信息比对各个筛分后的投标文件,确定相互关联的筛分后的投标文件,并标记为关联投标文件,最后结果反馈展示模块将各组关联投标文件进行绑定,并反馈至评估人员,评估人员对绑定后关联文件进行评估,从而减少重复数据的评估,提高评估人员评估效率,同时能够提前对不符合文件格式文件以及重复文件进行剔除,避免文件冗余现象的发生,减少系统存储空间负担。
Description
技术领域
本发明涉及文件关联性预测技术领域,具体地说,涉及基于使用习惯分析文件关键字关联性的预测系统。
背景技术
招标投标,是在市场经济条件下进行的大宗货物的买卖、工程建设项目有发包与承包,以及服务项目的采购与提供时,所采用的一种交易方式,在这种交易方式下,通常是由项目采购的采购方作为招标方,通过发布招标公告或者向一定数量的特定供应商、承包商发出招标邀请等方式发出招标采购的信息,提出所需采购项目的性质及其数量、质量、技术要求,交货期、竣工期或提供服务的时间,以及其他供应商、承包商的资格要求等招标采购条件,表明将选择最能够满足采购要求的供应商、承包商与之签订采购合同的意向,由各有意提供采购所需货物、工程或服务的报价及其他响应招标要求的条件,参加投标竞争。经招标方对各投标者的报价及其他的条件进行审查比较后,从中择优选定中标者,并与其签订采购合同。
由于在进行投标文件平谷过程中,各个投标者为了防止其投标文件投标失败,经常会进行多次投标,或者提交一份整体文件后又相继提交拆分文件(组合后为整体文件),导致评估人员经常需要进行重复文件评估,传统的投标文件筛选、分类需要人工操作,效率较低,而且易出现失误。
为了应对上述问题,现亟需基于使用习惯分析文件关键字关联性的预测系统。
发明内容
本发明的目的在于提供基于使用习惯分析文件关键字关联性的预测系统,以解决上述背景技术中提出的问题。
为实现上述目的,提供了基于使用习惯分析文件关键字关联性的预测系统,包括投标文件上传平台、文件关联性分析模块、文件预测模块以及结果反馈展示模块;
其中,所述投标文件上传平台用于获取投标文件,并根据投标文件格式对获取的投标文件进行筛分处理;
所述投标文件上传平台输出端与所述文件关联性分析模块输入端连接,所述文件关联性分析模块结合筛分后的投标文件,确定其关键词信息;
所述文件关联性分析模块输出端与所述文件预测模块输入端连接,所述文件预测模块与所述投标文件上传平台双向连接,所述文件预测模块按照关键词信息比对各个筛分后的投标文件,确定相互关联的筛分后的投标文件,并标记为关联投标文件;
所述文件预测模块输出端与所述结果反馈展示模块输入端连接,所述结果反馈展示模块将各组关联投标文件进行绑定,并反馈至评估人员。
作为本技术方案的进一步改进,所述投标文件上传平台包括投标文件获取模块以及投标文件筛分模块;
所述投标文件获取模块提供给投标人员进行投标的通道,获取投标文件;
所述投标文件获取模块输出端与所述投标文件筛分模块输入端连接,所述投标文件筛分模块规划投标文件投标格式,并比对各个获取的投标文件格式,对不符合规划的投标文件投标格式的投标文件进行剔除,对符合规划的投标文件投标格式的投标文件进行标号处理。
作为本技术方案的进一步改进,所述投标文件筛分模块中各个获取的投标文件格式的比对方法包括如下步骤:
步骤一、规划所述投标文件上传平台适配的投标文件,建立适配投标文件库;
步骤二、确定获取的投标文件格式;
步骤三、比对获取的投标文件格式与适配投标文件库,判断获取的投标文件格式是否适配。
作为本技术方案的进一步改进,所述文件关联性分析模块包括文件关键词提取单元以及文件关键词概率排序单元;
所述文件关键词提取单元规划关键词概率,对获取的投标文件的相同词组出现次数进行统计,将出现次数超过关键词概率的词组标记为关键词;
所述文件关键词提取单元输出端与所述文件关键词概率排序单元输入端连接,所述文件关键词概率排序单元结合各个关键词出现次数,计算出各个关键词出现概率,并按照概率大小对各个关键词进行排序。
作为本技术方案的进一步改进,所述文件关联性分析模块还包括常态化关键词存储库,所述常态化关键词存储库用于统计各个获取的投标文件均出现的超过关键词概率的词组。
作为本技术方案的进一步改进,所述常态化关键词存储库输入端连接有常态化关键词更新单元,所述常态化关键词更新单元结合投标文件主题,实时更新常态化关键词。
作为本技术方案的进一步改进,所述文件预测模块包括比对概率计算单元、概率阈值规划单元以及关联投标文件标记单元;
所述比对概率计算单元用于确定比对的获取的投标文件中均出现关键词,标记为重合关键词,并统计重合关键词概率;
所述比对概率计算单元输出端与所述概率阈值规划单元输入端连接,所述概率阈值规划单元规划重合关键词概率阈值;
所述概率阈值规划单元输出端与所述关联投标文件标记单元输入端连接,所述关联投标文件标记单元将重合关键词概率超过重合关键词概率阈值的比对的获取的投标文件标记关联投标文件。
作为本技术方案的进一步改进,所述文件预测模块采用阈值比对算法,其算法公式如下:
;
;
;
其中为第一个比对投标文件包含的各个关键词集合,/>至/>为该比对投标文件包含的各个关键词,/>为第二个比对投标文件包含的各个关键词集合,/>至为第二个投标文件包含的各个关键词,/>为重合关键词判断函数,W为比对的投标文件的重合关键词概率,/>为重合关键词概率阈值,当比对的投标文件的重合关键词概率W低于重合关键词概率阈值/>时,重合关键词判断函数/>输出为0,表明该比对的投标文件不为关联文件,当比对的投标文件的重合关键词概率W不低于重合关键词概率阈值/>时,重合关键词判断函数/>输出为1,表明该比对的投标文件为关联文件。
作为本技术方案的进一步改进,所述结果反馈展示模块输出端连接有数据库存储模块,所述数据库存储模块输入端与所述文件关联性分析模块输出端连接,所述数据库存储模块用于建立分类数据库,对不同数据进行分类存储。
与现有技术相比,本发明的有益效果:
1、该基于使用习惯分析文件关键字关联性的预测系统中,通过文件关联性分析模块结合筛分后的投标文件,确定其关键词信息,文件预测模块按照关键词信息比对各个筛分后的投标文件,确定相互关联的筛分后的投标文件,并标记为关联投标文件,最后结果反馈展示模块将各组关联投标文件进行绑定,并反馈至评估人员,评估人员对绑定后关联文件进行评估,从而减少重复数据的评估,提高评估人员评估效率,同时能够提前对不符合文件格式文件以及重复文件进行剔除,避免文件冗余现象的发生,减少系统存储空间负担。
2、该基于使用习惯分析文件关键字关联性的预测系统中,通过常态化关键词存储库统计各个获取的投标文件均出现的超过关键词概率的词组,并标记为常态化关键词,该常态化关键词不作为后期投标文件关联判断的关键词,从而能够避免常态化词组对比对结果产生的误差,提高投标文件关联准确度。
附图说明
图1为本发明的整体结构示意图;
图2为本发明的文件关联性分析模块结构示意图;
图3为本发明的文件预测模块结构示意图。
图中各个标号意义为:
10、投标文件获取模块;
20、投标文件筛分模块;
30、文件关联性分析模块;310、文件关键词提取单元;320、文件关键词概率排序单元;330、常态化关键词存储库;340、常态化关键词更新单元;
40、文件预测模块;410、比对概率计算单元;420、概率阈值规划单元;430、关联投标文件标记单元;
50、结果反馈展示模块;
60、数据库存储模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图3所示,提供了基于使用习惯分析文件关键字关联性的预测系统,包括投标文件上传平台、文件关联性分析模块30、文件预测模块40以及结果反馈展示模块50;
其中,投标文件上传平台用于获取投标文件,并根据投标文件格式对获取的投标文件进行筛分处理;
投标文件上传平台输出端与文件关联性分析模块30输入端连接,文件关联性分析模块30结合筛分后的投标文件,确定其关键词信息;
文件关联性分析模块30输出端与文件预测模块40输入端连接,文件预测模块40与投标文件上传平台双向连接,文件预测模块40按照关键词信息比对各个筛分后的投标文件,确定相互关联的筛分后的投标文件,并标记为关联投标文件;
文件预测模块40输出端与结果反馈展示模块50输入端连接,结果反馈展示模块50将各组关联投标文件进行绑定,并反馈至评估人员。
由于在进行投标文件平谷过程中,各个投标者为了防止其投标文件投标失败,经常会进行多次投标,或者提交一份整体文件后又相继提交拆分文件(组合后为整体文件),导致评估人员经常需要进行重复文件评估;
为了应对上述问题,首先通过投标文件上传平台获取投标文件,并根据投标文件格式对获取的投标文件进行筛分处理,对不符合文件格式规定的投标文件进行剔除,同时对完全一致的投标文件进行归一化处理,随后将筛分后的投标文件传输至文件关联性分析模块30,文件关联性分析模块30结合筛分后的投标文件,确定其关键词信息,文件预测模块40按照关键词信息比对各个筛分后的投标文件,确定相互关联的筛分后的投标文件,并标记为关联投标文件,最后结果反馈展示模块50将各组关联投标文件进行绑定,并反馈至评估人员,评估人员对绑定后关联文件进行评估,从而减少重复数据的评估,提高评估人员评估效率,同时能够提前对不符合文件格式文件以及重复文件进行剔除,避免文件冗余现象的发生,减少系统存储空间负担。
此外,投标文件上传平台包括投标文件获取模块10以及投标文件筛分模块20;
投标文件获取模块10提供给投标人员进行投标的通道,获取投标文件;
投标文件获取模块10输出端与投标文件筛分模块20输入端连接,投标文件筛分模块20规划投标文件投标格式,并比对各个获取的投标文件格式,对不符合规划的投标文件投标格式的投标文件进行剔除,对符合规划的投标文件投标格式的投标文件进行标号处理。
在进行投标文件获取过程中,首先通过投标文件获取模块10提供给投标人员进行投标的通道,获取投标文件,投标文件筛分模块20规划投标文件投标格式,并比对各个获取的投标文件格式,对不符合规划的投标文件投标格式的投标文件进行剔除,符合规划的投标文件投标格式的投标文件进行标号处理,防止投标文件格式范围过广,导致评估人员需要进行格式转换,影响评估效率,同时复杂的投标文件格式会影响系统保存质量,很容易出现文件缺失的现象。
进一步的,投标文件筛分模块20中各个获取的投标文件格式的比对方法包括如下步骤:
步骤一、规划投标文件上传平台适配的投标文件,建立适配投标文件库;
步骤二、确定获取的投标文件格式;
步骤三、比对获取的投标文件格式与适配投标文件库,判断获取的投标文件格式是否适配。
在对投标文件进行筛分过程中,首先规划投标文件上传平台适配的投标文件,建立适配投标文件库,确定获取的投标文件格式,随后比对获取的投标文件格式与适配投标文件库,判断获取的投标文件格式是否适配,将适配的获取的投标文件标记为合格投标文件,将不适配的获取的投标文件标记为不合格投标文件,并对其进行剔除,同时反馈至投标人员,帮助投标人员及时进行修改,例如当适配投标文件库中的文件格式为word、wps以及PDF等格式,此时投标人员投标的文件格式为visio,此时系统不能兼容该文件格式,导致评估人员无法打开或保存该文件格式,不仅影响评估人员评估效率,同时该投标文件经过多次文件传输,导致投标人员错过最佳提交时间。
再进一步的,文件关联性分析模块30包括文件关键词提取单元310以及文件关键词概率排序单元320;
文件关键词提取单元310规划关键词概率,对获取的投标文件的相同词组出现次数进行统计,将出现次数超过关键词概率的词组标记为关键词;
文件关键词提取单元310输出端与文件关键词概率排序单元320输入端连接,文件关键词概率排序单元320结合各个关键词出现次数,计算出各个关键词出现概率,并按照概率大小对各个关键词进行排序。
在进行关键词分析过程中,首先通过文件关键词提取单元310规划关键词概率,对获取的投标文件的相同词组出现次数进行统计,将出现次数超过关键词概率的词组标记为关键词,随后文件关键词概率排序单元320结合各个关键词出现次数,计算出各个关键词出现概率,并按照概率大小对各个关键词进行排序,以供后期进行关键词顺序比对,提高关联投标文件匹配效率。
由于在进行关键词统计过程中,获取到的投标文件的关键词很容易出现常态化关键词,例如“系统、数据或者模块”等,这些词组在获取的投标文件均出现过,且出现概率超过关键词概率,导致后期进行投标文件关联过程中出现误差,具体的,文件关联性分析模块30还包括常态化关键词存储库330,常态化关键词存储库330用于统计各个获取的投标文件均出现的超过关键词概率的词组,通过常态化关键词存储库330统计各个获取的投标文件均出现的超过关键词概率的词组,并标记为常态化关键词,该常态化关键词不作为后期投标文件关联判断的关键词,从而能够避免常态化词组对比对结果产生的误差,提高投标文件关联准确度。
由于不同的投标项目中,其投标主题经常需要进行更换,此时就会出现新型的常态化关键词与投标主题相关,例如建筑项目招标过程中,其投标文件中经常出现的词组有“面积、高度以及材料”等常态化关键词,此外,常态化关键词存储库330输入端连接有常态化关键词更新单元340,常态化关键词更新单元340结合投标文件主题,实时更新常态化关键词,通过常态化关键词更新单元340结合投标文件主题,实时更新常态化关键词,进一步提高投标文件关联准确度。
进一步的,文件预测模块40包括比对概率计算单元410、概率阈值规划单元420以及关联投标文件标记单元430;
比对概率计算单元410用于确定比对的获取的投标文件中均出现关键词,标记为重合关键词,并统计重合关键词概率;
比对概率计算单元410输出端与概率阈值规划单元420输入端连接,概率阈值规划单元420规划重合关键词概率阈值;
概率阈值规划单元420输出端与关联投标文件标记单元430输入端连接,关联投标文件标记单元430将重合关键词概率超过重合关键词概率阈值的比对的获取的投标文件标记关联投标文件。
在进行关联文件预测过程中,首先通过比对概率计算单元410确定比对的获取的投标文件中均出现关键词,标记为重合关键词,并统计重合关键词概率,统计完成后,通过概率阈值规划单元420规划重合关键词概率阈值,关联投标文件标记单元430将重合关键词概率超过重合关键词概率阈值的比对的获取的投标文件标记关联投标文件,以供评估人员进行投标文件区分,对关联的投标文件进行单份评估,从而避免重复评估。
再进一步的,文件预测模块40采用阈值比对算法,其算法公式如下:
;
;
;
其中为第一个比对投标文件包含的各个关键词集合,/>至/>为该比对投标文件包含的各个关键词,/>为第二个比对投标文件包含的各个关键词集合,/>至为第二个投标文件包含的各个关键词,/>为重合关键词判断函数,W为比对的投标文件的重合关键词概率,/>为重合关键词概率阈值,当比对的投标文件的重合关键词概率W低于重合关键词概率阈值/>时,重合关键词判断函数/>输出为0,表明该比对的投标文件不为关联文件,当比对的投标文件的重合关键词概率W不低于重合关键词概率阈值/>时,重合关键词判断函数/>输出为1,表明该比对的投标文件为关联文件。
此外,结果反馈展示模块50输出端连接有数据库存储模块60,数据库存储模块60输入端与文件关联性分析模块30输出端连接,数据库存储模块60用于建立分类数据库,对不同数据进行分类存储,当结果反馈展示模块50将各组关联投标文件进行绑定后,将绑定后的关联数据传输至数据库存储模块60,通过数据库存储模块60进行分类存储,随后文件关联性分析模块30结合筛分后的投标文件,确定其关键词信息,并将各个投标文件对应的关键词信息传输至至数据库存储模块60,通过数据库存储模块60进行分类存储,以供后期进行关联数据查询,实现数据有迹可查,便于后期进行数据检查。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.基于使用习惯分析文件关键字关联性的预测系统,其特征在于:包括投标文件上传平台、文件关联性分析模块(30)、文件预测模块(40)以及结果反馈展示模块(50);
其中,所述投标文件上传平台用于获取投标文件,并根据投标文件格式对获取的投标文件进行筛分处理;
所述投标文件上传平台输出端与所述文件关联性分析模块(30)输入端连接,所述文件关联性分析模块(30)结合筛分后的投标文件,确定其关键词信息;
所述文件关联性分析模块(30)输出端与所述文件预测模块(40)输入端连接,所述文件预测模块(40)与所述投标文件上传平台双向连接,所述文件预测模块(40)按照关键词信息比对各个筛分后的投标文件,确定相互关联的筛分后的投标文件,并标记为关联投标文件;
所述文件预测模块(40)包括比对概率计算单元(410)、概率阈值规划单元(420)以及关联投标文件标记单元(430);
所述比对概率计算单元(410)用于确定比对的获取的投标文件中均出现关键词,标记为重合关键词,并统计重合关键词概率;
所述比对概率计算单元(410)输出端与所述概率阈值规划单元(420)输入端连接,所述概率阈值规划单元(420)规划重合关键词概率阈值;
所述概率阈值规划单元(420)输出端与所述关联投标文件标记单元(430)输入端连接,所述关联投标文件标记单元(430)将重合关键词概率超过重合关键词概率阈值的比对的获取的投标文件标记关联投标文件;
所述文件预测模块(40)采用阈值比对算法,其算法公式如下:
;
;
;
其中为第一个比对投标文件包含的各个关键词集合,/>至/>为该比对投标文件包含的各个关键词,/>为第二个比对投标文件包含的各个关键词集合,/>至为第二个投标文件包含的各个关键词,/>为重合关键词判断函数,W为比对的投标文件的重合关键词概率,/>为重合关键词概率阈值,当比对的投标文件的重合关键词概率W低于重合关键词概率阈值/>时,重合关键词判断函数/>输出为0,表明该比对的投标文件不为关联文件,当比对的投标文件的重合关键词概率W不低于重合关键词概率阈值/>时,重合关键词判断函数/>输出为1,表明该比对的投标文件为关联文件;
所述文件预测模块(40)输出端与所述结果反馈展示模块(50)输入端连接,所述结果反馈展示模块(50)将各组关联投标文件进行绑定,并反馈至评估人员。
2.根据权利要求1所述的基于使用习惯分析文件关键字关联性的预测系统,其特征在于:所述投标文件上传平台包括投标文件获取模块(10)以及投标文件筛分模块(20);
所述投标文件获取模块(10)提供给投标人员进行投标的通道,获取投标文件;
所述投标文件获取模块(10)输出端与所述投标文件筛分模块(20)输入端连接,所述投标文件筛分模块(20)规划投标文件投标格式,并比对各个获取的投标文件格式,对不符合规划的投标文件投标格式的投标文件进行剔除,对符合规划的投标文件投标格式的投标文件进行标号处理。
3.根据权利要求2所述的基于使用习惯分析文件关键字关联性的预测系统,其特征在于:所述投标文件筛分模块(20)中各个获取的投标文件格式的比对方法包括如下步骤:
步骤一、规划所述投标文件上传平台适配的投标文件,建立适配投标文件库;
步骤二、确定获取的投标文件格式;
步骤三、比对获取的投标文件格式与适配投标文件库,判断获取的投标文件格式是否适配。
4.根据权利要求1所述的基于使用习惯分析文件关键字关联性的预测系统,其特征在于:所述文件关联性分析模块(30)包括文件关键词提取单元(310)以及文件关键词概率排序单元(320);
所述文件关键词提取单元(310)规划关键词概率,对获取的投标文件的相同词组出现次数进行统计,将出现次数超过关键词概率的词组标记为关键词;
所述文件关键词提取单元(310)输出端与所述文件关键词概率排序单元(320)输入端连接,所述文件关键词概率排序单元(320)结合各个关键词出现次数,计算出各个关键词出现概率,并按照概率大小对各个关键词进行排序。
5.根据权利要求4所述的基于使用习惯分析文件关键字关联性的预测系统,其特征在于:所述文件关联性分析模块(30)还包括常态化关键词存储库(330),所述常态化关键词存储库(330)用于统计各个获取的投标文件均出现的超过关键词概率的词组。
6.根据权利要求5所述的基于使用习惯分析文件关键字关联性的预测系统,其特征在于:所述常态化关键词存储库(330)输入端连接有常态化关键词更新单元(340),所述常态化关键词更新单元(340)结合投标文件主题,实时更新常态化关键词。
7.根据权利要求5所述的基于使用习惯分析文件关键字关联性的预测系统,其特征在于:所述结果反馈展示模块(50)输出端连接有数据库存储模块(60),所述数据库存储模块(60)输入端与所述文件关联性分析模块(30)输出端连接,所述数据库存储模块(60)用于建立分类数据库,对不同数据进行分类存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310753457.9A CN116501896B (zh) | 2023-06-26 | 2023-06-26 | 基于使用习惯分析文件关键字关联性的预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310753457.9A CN116501896B (zh) | 2023-06-26 | 2023-06-26 | 基于使用习惯分析文件关键字关联性的预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501896A CN116501896A (zh) | 2023-07-28 |
CN116501896B true CN116501896B (zh) | 2023-09-19 |
Family
ID=87316869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310753457.9A Active CN116501896B (zh) | 2023-06-26 | 2023-06-26 | 基于使用习惯分析文件关键字关联性的预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501896B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271520A (zh) * | 2018-10-25 | 2019-01-25 | 北京小度信息科技有限公司 | 数据提取方法、数据提取装置、存储介质和电子设备 |
CN110516037A (zh) * | 2019-07-29 | 2019-11-29 | 广东鼎义互联科技股份有限公司 | 一种政务领域的招标文件分析系统 |
CN112668838A (zh) * | 2020-12-11 | 2021-04-16 | 广东电网有限责任公司 | 一种基于自然语言解析的评分标准词库建立方法及装置 |
CN113688206A (zh) * | 2021-08-25 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 基于文本识别的趋势分析方法、装置、设备及介质 |
CN115730581A (zh) * | 2022-11-18 | 2023-03-03 | 华能招标有限公司 | 用于投标文档中项目和公司基础信息提取方法和装置 |
CN116010552A (zh) * | 2022-12-13 | 2023-04-25 | 中国人民解放军军事科学院国防工程研究院 | 一种基于关键词词库的工程造价数据解析系统及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10937058B2 (en) * | 2019-07-02 | 2021-03-02 | Capital One Services, Llc | Systems and methods for targeting bid and position for a keyword |
-
2023
- 2023-06-26 CN CN202310753457.9A patent/CN116501896B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271520A (zh) * | 2018-10-25 | 2019-01-25 | 北京小度信息科技有限公司 | 数据提取方法、数据提取装置、存储介质和电子设备 |
CN110516037A (zh) * | 2019-07-29 | 2019-11-29 | 广东鼎义互联科技股份有限公司 | 一种政务领域的招标文件分析系统 |
CN112668838A (zh) * | 2020-12-11 | 2021-04-16 | 广东电网有限责任公司 | 一种基于自然语言解析的评分标准词库建立方法及装置 |
CN113688206A (zh) * | 2021-08-25 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 基于文本识别的趋势分析方法、装置、设备及介质 |
CN115730581A (zh) * | 2022-11-18 | 2023-03-03 | 华能招标有限公司 | 用于投标文档中项目和公司基础信息提取方法和装置 |
CN116010552A (zh) * | 2022-12-13 | 2023-04-25 | 中国人民解放军军事科学院国防工程研究院 | 一种基于关键词词库的工程造价数据解析系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116501896A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11615093B2 (en) | Fuzzy data operations | |
US20160232630A1 (en) | System and method in support of digital document analysis | |
CN106021362A (zh) | 查询式的图片特征表示的生成、图片搜索方法和装置 | |
US20080208780A1 (en) | System and method for evaluating documents | |
CN116757808A (zh) | 一种基于大数据的投标文件自动生成方法及系统 | |
CN110689371A (zh) | 一种基于ai和大数据的智能营销云服务平台 | |
CN115905489A (zh) | 一种提供招投标信息搜索服务的方法 | |
CN115858731A (zh) | 一种法规库法规匹配方法、装置及系统 | |
CN114943462A (zh) | 酒店群数据处理方法、系统、设备及存储介质 | |
CN116501896B (zh) | 基于使用习惯分析文件关键字关联性的预测系统 | |
CN114022086B (zh) | 基于bom识别的采购方法、装置、设备及存储介质 | |
CN112182184B (zh) | 一种基于审计数据库的精准匹配搜索方法 | |
CN114818678A (zh) | 一种科技成果管理方法、平台及电子设备 | |
AU2017201787B2 (en) | Fuzzy data operations | |
CN116308158B (zh) | 一种国有资产监督管理系统 | |
CN116127105B (zh) | 一种大数据平台的数据汇集方法及装置 | |
CN113139106B (zh) | 一种保密检查的事件审核方法和装置 | |
CN117407726A (zh) | 一种业务数据智能匹配方法、系统及存储介质 | |
CN115905664A (zh) | 意图识别方法及装置 | |
CN117610526A (zh) | 一种识别文档敏感词汇并生成报告的方法、系统及装置 | |
CN115964550A (zh) | 资讯文本的生成方法及装置、设备、介质 | |
CN116361574A (zh) | 搜索结果排序方法、装置、设备及存储介质 | |
CN115687763A (zh) | 一种基于深度学习的平台管理系统 | |
CN115272011A (zh) | 一种基于多维度评价体系的专利价值评估及运营系统 | |
CN116756126A (zh) | 一种黑名单筛查方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |