CN115600574A - 一种投标文件自动对比方法、装置、设备及介质 - Google Patents
一种投标文件自动对比方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115600574A CN115600574A CN202211349168.4A CN202211349168A CN115600574A CN 115600574 A CN115600574 A CN 115600574A CN 202211349168 A CN202211349168 A CN 202211349168A CN 115600574 A CN115600574 A CN 115600574A
- Authority
- CN
- China
- Prior art keywords
- data
- bidding
- document data
- bid
- simplified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种投标文件自动对比方法,包括以下步骤:获取招标文件数据;获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据;根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据;对若干简化数据之间进行两两循环对比,计算每两个简化数据之间的相似度;根据每两个简化数据之间的相似度得到投标文件对比结果并展示。本发明通过在投标文件内容比对之前,通过首先招标文件数据对若干第一投标文件数据进行简化,减少比对误差。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种投标文件自动对比方法、装置、设备及介质。
背景技术
在传统招投标过程中,投标人需亲自到现场递交纸质投标文件,项目经理需逐一对投标文件进行线下唱标,评标专家需要阅读大批量投标文件,耗费评标专家大量的时间和精力依靠人工方式阅读、查找、比对、分析投标文件中的内容,以及人为分析围串标行为,效果却不明显。
发明内容
本发明的目的在于提供一种投标文件自动对比方法、装置、设备及介质,以解决现有招标文件依靠人工对比,难以分表围标串标等行为,浪费人力和时间的技术问题。
为实现上述目的,本发明采用如下技术方案予以实习:
第一方面,一种投标文件自动对比方法,包括以下步骤:
获取招标文件数据;
获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据;
根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据;
对若干简化数据之间进行两两循环对比,计算每两个简化数据之间的相似度;
根据每两个简化数据之间的相似度得到投标文件对比结果并展示。
本发明的进一步改进在于:所述招标文件数据包括,招标文字数据、招标图片数据、技术规范书文字数据和技术规范书图片数据。
本发明的进一步改进在于:所述获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据,具体包括以下步骤:
记录每个投标文件数据对应的IP地址和获取时间;
从每个投标文件数据中提取加盖电子签章的投标数据文件,记录每个加盖电子签章的投标数据文件中前5个电子签章的证书信息、签章时间、签章有效性存储;
将每个投标文件数据转换为可预览格式,从每个投标文件数据中提取投标文字数据和投标图片数据作为第一投标文件数据并存储。
本发明的进一步改进在于:对所述投标文件数据中的投标文字数据和投标图片数据进行提取时采用Apache POI技术。
本发明的进一步改进在于:所述根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据时,将招标文件数据中相同的数据从第一投标文件数据中去除。
本发明的进一步改进在于:所述相似度包括文本相似度、相同图片数量和相同错别字数量。
本发明的进一步改进在于:所述文本相似度计算时具体包括以下步骤:
分别对两个简化数据中的简化文字数据进行切词和分词,得到两个词集合;
通过行业词库去除两个词集合中的行业词汇;
求出去除行业词汇的两个词集合的并集;
计算两个去除行业词汇的词集合各自的词频;
根据并集对两个词频进行向量化,得到词频向量;
采用余弦相似度算法处理词频向量,得到文本相似度。
第二方面,一种投标文件自动对比装置,包括:
招标文件数据获取模块:用于获取招标文件数据;
投标文件数据获取模块:用于获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据;
简化模块:用于根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据;
相似度计算模块:用于对若干简化数据之间进行两两循环对比,计算每两个简化数据之间的相似度;
输出模块:用于根据每两个简化数据之间的相似度得到投标文件对比结果并展示。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种投标文件自动对比方法。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种投标文件自动对比方法。
与现有技术相比,本发明至少具有以下有益效果:
1、本发明通过在投标文件内容比对之前,通过首先招标文件数据对若干第一投标文件数据进行简化,减少比对误差。
2、本发明在投标过程中计算相似度,并通过相似度判断是否出现围标串标行为。
3、本发明通过采用相似度算法,提高了对比速度,两份1万字的文本相似度比对1秒钟内可以完成。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
在附图中:
图1为本发明一种投标文件自动对比方法的流程图;
图2为本发明一种投标文件自动对比装置的系统框图;
图3为本发明一种投标文件自动对比方法中简化数据时的示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
实施例1
一种投标文件自动对比方法,如图1所示,具体包括以下步骤:
S1、获取招标文件数据;
招标文件数据包括,招标文字数据、招标图片数据、技术规范书文字数据和技术规范书图片数据;
获取的招标文件数据存储在数据库中便于后续步骤调用;
S2、获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据;
在S2中具体包括以下步骤:
S21、记录每个投标文件数据对应的IP地址和获取时间;
S22、从每个投标文件数据中提取加盖电子签章的投标数据文件,记录每个加盖电子签章的投标数据文件中前5个电子签章的证书信息、签章时间、签章有效性存储;
S23、将每个投标文件数据转换为可预览格式,从每个投标文件数据中提取投标文字数据和投标图片数据得到第一投标文件数据并存储;第一投标文件数据包括投标文字数据和投标图片数据;
若干投标文件数据是若干单位针对招标内容进行投标时递交的文件,通过记录时间和IP地址为数据留底,便于后续核查,通过记录每个加盖电子签章的投标数据文件中前5个电子签章的证书信息、签章时间、签章有效性存储到数据库,便于后期核实电子文件的有效性。
对投标文件数据中的投标文字数据和投标图片数据进行提取时采用Apache POI技术。
S3、根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据;如图3所示;
简化数据包括简化图片数据和简化文字数据;
简化文字数据:将招标文字数据和技术规范书文字数据与每个投标文字数据进行比较,从投标文字数据中剔除与招标文字数据或技术规范书文字数据中相同的数据;
简化图片数据:将招标图片数据和技术规范书图片数据与每个投标图片数据进行比较,从投标图片数据中剔除与招标图片数据或技术规范书图片数据中相同的数据;
若干投标文件数据为同一标包中的同类文件。
由于投标人在编制投标文件时会引用招标文件的内容包括文字、图片。如果直接比对投标文件的内容,会造成比对结果值高的情况,相似度的值就不具备分析价值。所以预先简化招标文件数据中与招标文件数据相同的内容。
通过S3,使参与比对的投标文件内容平均降低20%~30%,物资类的投标文件内容最多可减少50%以上,这样就大大提高了比对效率与准确性。
S4、对若干简化数据之间进行两两循环对比,计算每两个简化数据之间的相似度;
在S4中相似度包括文本相似度、相同图片数量和相同错别字数量。
计算文本相似度时,具体包括以下步骤:
A1、分别对两个简化数据中的简化文字数据进行切词和分词,得到两个词集合;
A2、通过行业词库去除两个词集合中的行业词汇;
由于投标文件中会应用大量的专业词汇,会对算法进行干扰,所以可以通过预先采集了大量的投标文件词汇,建立了行业词汇库,并在使用算法前剔除掉行业词汇,使计算结果准确性大大提高;
A3、求出去除行业词汇的两个词集合的并集;
A4、计算两个去除行业词汇的词集合各自的词频;
A5、根据并集对两个词频进行向量化,得到词频向量;
A6、采用余弦相似度算法处理词频向量,得到文本相似度。
余弦相似度就是通过一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小。把1设为相同,0设为不同,那么相似度的值就是在0~1之间,所有的事物的相似度范围都应该是0~1。余弦相似度的特点是余弦值接近于1,夹角趋于0,表明两个向量越相似。
计算相同图片数量时,读取两个简化数据中简化图片数据相同的数量即为同图片数量。
计算相同错别字数量时,具体包括以下步骤:
B1、采用错别字识别算法处理简化数据中的简化文字数据,得到若干错别字集合;
B2、将若干错别字集合两两循环求交集;
B3、根据交集得到相同错别字数量。
S5、根据每两个简化数据之间的相似度得到投标文件对比结果并展示。
在S5中,采用方块矩阵对简化数据进行排序,每个简化数据都对应一份投标文件,排序结果展示时存在相似度大于阈值的一对简化数据会被标注出来,便于查看,每个投标文件对应的单位信息也可自动从互联网获取。
实施例2
如图2所示,一种投标文件自动对比装置,包括:
招标文件数据获取模块:用于获取招标文件数据;
投标文件数据获取模块:用于获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据;
简化模块:用于根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据;
相似度计算模块:用于对若干简化数据之间进行两两循环对比,计算每两个简化数据之间的相似度;
输出模块:用于根据每两个简化数据之间的相似度得到投标文件对比结果并展示。
实施例3:
一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现实施例1的一种投标文件自动对比方法。
实施例4:
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现实施例1的一种投标文件自动对比方法。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种投标文件自动对比方法,其特征在于,包括以下步骤:
获取招标文件数据;
获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据;
根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据;
对若干简化数据之间进行两两循环对比,计算每两个简化数据之间的相似度;
根据每两个简化数据之间的相似度得到投标文件对比结果并展示。
2.根据权利要求1所述的一种投标文件自动对比方法,其特征在于,所述招标文件数据包括,招标文字数据、招标图片数据、技术规范书文字数据和技术规范书图片数据。
3.根据权利要求1所述的一种投标文件自动对比方法,其特征在于,所述获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据,具体包括以下步骤:
将每个投标文件数据转换为可预览格式,从每个投标文件数据中提取投标文字数据和投标图片数据作为第一投标文件数据并存储。
4.根据权利要求3所述的一种投标文件自动对比方法,其特征在于,对所述投标文件数据中的投标文字数据和投标图片数据进行提取时采用Apache POI技术。
5.根据权利要求1所述的一种投标文件自动对比方法,其特征在于,所述根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据时,将招标文件数据中相同的数据从第一投标文件数据中去除。
6.根据权利要求1所述的一种投标文件自动对比方法,其特征在于,所述相似度包括文本相似度、相同图片数量和相同错别字数量。
7.根据权利要求6所述的一种投标文件自动对比方法,其特征在于,所述文本相似度计算时具体包括以下步骤:
分别对两个简化数据中的简化文字数据进行切词和分词,得到两个词集合;
通过行业词库去除两个词集合中的行业词汇;
求出去除行业词汇的两个词集合的并集;
计算两个去除行业词汇的词集合各自的词频;
根据并集对两个词频进行向量化,得到词频向量;
采用余弦相似度算法处理词频向量,得到文本相似度。
8.一种投标文件自动对比装置,其特征在于,包括:
招标文件数据获取模块:用于获取招标文件数据;
投标文件数据获取模块:用于获取若干投标文件数据,并对投标文件数据进行预处理得到第一投标文件数据;
简化模块:用于根据招标文件数据对若干第一投标文件数据进行简化,得到若干简化数据;
相似度计算模块:用于对若干简化数据之间进行两两循环对比,计算每两个简化数据之间的相似度;
输出模块:用于根据每两个简化数据之间的相似度得到投标文件对比结果并展示。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的一种投标文件自动对比方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的一种投标文件自动对比方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349168.4A CN115600574A (zh) | 2022-10-31 | 2022-10-31 | 一种投标文件自动对比方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349168.4A CN115600574A (zh) | 2022-10-31 | 2022-10-31 | 一种投标文件自动对比方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115600574A true CN115600574A (zh) | 2023-01-13 |
Family
ID=84851576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211349168.4A Pending CN115600574A (zh) | 2022-10-31 | 2022-10-31 | 一种投标文件自动对比方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600574A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
CN117808441A (zh) * | 2024-03-01 | 2024-04-02 | 江苏省港口集团有限公司 | 一种投标信息核查方法及系统 |
-
2022
- 2022-10-31 CN CN202211349168.4A patent/CN115600574A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795000A (zh) * | 2023-02-07 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于联合相似度算法对比的围标识别方法和装置 |
CN117808441A (zh) * | 2024-03-01 | 2024-04-02 | 江苏省港口集团有限公司 | 一种投标信息核查方法及系统 |
CN117808441B (zh) * | 2024-03-01 | 2024-05-10 | 江苏省港口集团有限公司 | 一种投标信息核查方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115600574A (zh) | 一种投标文件自动对比方法、装置、设备及介质 | |
RU2740702C2 (ru) | Автоматизация проверки достоверности изображения | |
CN112989826B (zh) | 基于人工智能的试题分数确定方法、装置、设备及介质 | |
CN111461164B (zh) | 样本数据集的扩容方法及模型的训练方法 | |
CN112541443B (zh) | 发票信息抽取方法、装置、计算机设备及存储介质 | |
WO2022156065A1 (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN112149663A (zh) | 结合rpa和ai的图像文字的提取方法、装置及电子设备 | |
CN107784321A (zh) | 数字绘本快速识别方法、系统及计算机可读存储介质 | |
JP2012043433A (ja) | 画像処理方法及び装置 | |
CN112328655B (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
CN111597309A (zh) | 相似企业推荐方法、装置、电子设备及介质 | |
CN110956166A (zh) | 票据标注方法及装置 | |
CN111160188A (zh) | 金融票据识别方法、装置、设备及存储介质 | |
CN111125443A (zh) | 一种基于自动去重的试题题库在线更新方法 | |
CN110490056A (zh) | 对包含算式的图像进行处理的方法和装置 | |
CN113283389A (zh) | 手写文字质量检测方法、装置、设备及存储介质 | |
CN113627576A (zh) | 扫码信息检测方法、装置、设备及存储介质 | |
CN117745398A (zh) | 一种电子招投标评分标准的自动化公式计算方法及系统 | |
CN111008655A (zh) | 辅助鉴定实物商品品牌真伪的方法、装置和电子设备 | |
CN114612919B (zh) | 一种票据信息处理系统及方法、装置 | |
CN113936286B (zh) | 图像文本识别方法、装置、计算机设备及存储介质 | |
CN113312482B (zh) | 问题分类方法、装置、电子设备及可读存储介质 | |
CN113111734B (zh) | 一种水印分类模型训练方法及装置 | |
CN113343968A (zh) | 多模板证书快速审证方法、系统、介质及装置 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |