CN116168406A - 一种多维度数据分析的围标串标检测方法及系统 - Google Patents
一种多维度数据分析的围标串标检测方法及系统 Download PDFInfo
- Publication number
- CN116168406A CN116168406A CN202211583039.1A CN202211583039A CN116168406A CN 116168406 A CN116168406 A CN 116168406A CN 202211583039 A CN202211583039 A CN 202211583039A CN 116168406 A CN116168406 A CN 116168406A
- Authority
- CN
- China
- Prior art keywords
- bidding
- text
- buoy
- unit
- bid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多维度数据分析的围标串标检测方法及系统,包括以下步骤:步骤一:获取招标文件的作者,并检查投标文件的作者是否相同;步骤二:将投标文件转换为图片,并通过文字检测以及文字识别技术,识别文字内容,提取处每张图片中的文字内容,并且存储、合并成完整的招标文字内容,对比招标范本文件,去除投标文件文字中与范本标书相同的部分;步骤三:计算投标文件之间的文本相似度。该种多维度数据分析的围标串标检测方法及系统,通过将投标文件统一转化成图片的模式,进行识别,统一获取投标文件内的字符信息,方便能对投标文件进行统一对比,建立相同的对比标准,对比后的结果更加的准确。
Description
技术领域
本发明涉及围标串标识别技术领域,具体为一种多维度数据分析的围标串标检测方法及系统。
背景技术
招投标制度在我国电力行业中具有非常重要的地位。
为了避免投标人之间采用不正当手段,对招标投标事项进行串通,通过限制竞争,排挤其他投标人,使某个利益相关者中标,从而谋取利益,扰乱市场秩序,相关审计单位会对投标文件进行审查,但现有的审查方式容易产生遗漏,不能有效的通过对比各个招投标文件进行识别去除.并且人工筛选效率极低,当招标项目较多时,该过程会耗费大量的人力物力,并且容易发生误判的可能.
由于投标文件格式难以统一,经常会出现文字在PDF文件以图片的形式存在的情况,无法提取投标文件内容进行进一步的分析及存储,使得历史数据的溯查以及数据的沉淀十分困难。因此我们对此做出改进,提出一种多维度数据分析的围标串标检测方法及系统。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种多维度数据分析的围标串标检测方法,包括以下步骤:
步骤一:获取招标文件的作者,并检查投标文件的作者是否相同;
步骤二:将投标文件转换为图片,并通过文字检测以及文字识别技术,识别文字内容,提取处每张图片中的文字内容,并且存储、合并成完整的招标文字内容,对比招标范本文件,去除投标文件文字中与范本标书相同的部分;
步骤三:计算投标文件之间的文本相似度;
步骤四:根据投标单位的公开数据,计算投标单位存在的投资关系;
步骤五:根据投标单位的公开数据,计算投标单位之间董监高的关系;
步骤六:计算投标报价与招标预算之间的关系;
步骤七:根据历史投标情况,计算投标单位之间存在的隐含关系。
作为本发明的一种优选技术方案,所述步骤一中,通过工具包,获取投标文件中的word以及pdf文件的作者信息、最后编辑人信息以及生成文件的软件名称,并查找是否存在相同信息的文件若存在,则当前项目的围串标概率值会增加,并标记具有相同信息的投标文件。
作为本发明的一种优选技术方案,所述步骤三中,通过特定符号或规则将文字内容分段,利用最短编辑距离算法,计算两个投标文件内容之间总体的相似度,计算每两个投标文件内容之间每一段文字的相似度,并记录超过特定阈值的字段.根据权重数值当前项目的围串标概率值会增加。
作为本发明的一种优选技术方案,所述步骤四中,通过投标人的企业工商信息,股权关系信息,判断投标单位是否属于同一集团、协会、商会等组织,或投标单位是否存在互相投资的关系,或投标单位是否存在同一出资单位,若存在,则根据权重增加当前项目串标围标的概率。
作为本发明的一种优选技术方案,所述步骤五中,通过投标单位的董事长,监理,高管信息,判断是否存在投标单位的董事长,监理,高管为同一人的情况,若存在,则根据权重数值增加当前项目串标围标的概率。
作为本发明的一种优选技术方案,所述步骤六中,通过投标单位的报价数值,与招标预算报价数值进行比较,若投标报价在招标报价的95%与招标报价的105%范围内,则根据权重数值增加当前项目串标围标的概率。
作为本发明的一种优选技术方案,所述步骤七中,通过招投标历史数据,以及公开的招投标历史数据,利用数据统计的方式,计算是否存在多家投标单位过去曾经多次同时投标的情况,若存在,则根据权重数值增加当前项目串标围标的概率。
一种多维度数据分析的围标串标检测系统,包括:
招标信息采集模块:用于获取招标文件的基本信息;
招标文件处理模块:用于将招标文件进行图片化处理,并且对图片表面其他无关图像进行处理,保留文字字符,用于文字识别;
招标文件对比模块:用于对多维度的对招标文件进行对比,作为本发明的一种优选技术方案包括文本对比单元、投标人对比单元、投标单位对比单元、投标报价数值对比单元和历史招标信息对比单元。
作为本发明的一种优选技术方案,所述招标文件处理模块包括转换单元和识别单元,转换单元用于将投标文件转换成图片,识别单元用于提取图片上的文字内容,并且进行合并,所述识别单元对图片的文字区域进行识别,根据文字区域矩形分割,拆分成不通的字符,根据字符分类,然后识别出文字,对识别后的文字进行后续处理和矫正,图片转化过程中,图片中的印章需要进行消除,印章消除包括以下步骤:
a、读取RGB图像,获得图像A;
b、将图像A中的三个通道拆分开,保留红色通道的图片数据,得到红色通道灰度值图像B;
c、计算图像B的统计值方图C,确定最佳的阈值threshold,以分离红色;
d、根据上一步得到的阈值,对图像B进行二值化,得到最终输出图片D。
作为本发明的一种优选技术方案,所述文字对比单元主要通过EditDistance算法识别。
本发明的有益效果是:
1、该种多维度数据分析的围标串标检测方法及系统,通过将投标文件统一转化成图片的模式,进行识别,统一获取投标文件内的字符信息,方便能对投标文件进行统一对比,建立相同的对比标准,对比后的结果更加的准确;
2、该种多维度数据分析的围标串标检测方法及系统,通过设置文本对比单元、投标人对比单元、投标单位对比单元、投标报价数值对比单元和历史招标信息对比单元,可多方面的对投标文件进行对比,多维度识别对比,更加准确的查找投标文件与其他有关投标影响条件之间的关系,保证投标工作的公平性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种多维度数据分析的围标串标检测方法及系统的方法流程图;
图2是本发明一种多维度数据分析的围标串标检测方法及系统的系统框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-2所示,本发明一种多维度数据分析的围标串标检测方法,包括以下步骤:
步骤一:获取招标文件的作者,并检查投标文件的作者是否相同;
步骤二:将投标文件转换为图片,并通过文字检测以及文字识别技术,识别文字内容,提取处每张图片中的文字内容,并且存储、合并成完整的招标文字内容,对比招标范本文件,去除投标文件文字中与范本标书相同的部分;
步骤三:计算投标文件之间的文本相似度;
步骤四:根据投标单位的公开数据,计算投标单位存在的投资关系;
步骤五:根据投标单位的公开数据,计算投标单位之间董监高的关系;
步骤六:计算投标报价与招标预算之间的关系;
步骤七:根据历史投标情况,计算投标单位之间存在的隐含关系。
其中,步骤一中,通过工具包,获取投标文件中的word以及pdf文件的作者信息、最后编辑人信息以及生成文件的软件名称,并查找是否存在相同信息的文件若存在,则当前项目的围串标概率值会增加,并标记具有相同信息的投标文件。
其中,步骤三中,通过特定符号或规则将文字内容分段,利用最短编辑距离算法,计算两个投标文件内容之间总体的相似度,计算每两个投标文件内容之间每一段文字的相似度,并记录超过特定阈值的字段.根据权重数值当前项目的围串标概率值会增加。
其中,步骤四中,通过投标人的企业工商信息,股权关系信息,判断投标单位是否属于同一集团、协会、商会等组织,或投标单位是否存在互相投资的关系,或投标单位是否存在同一出资单位,若存在,则根据权重增加当前项目串标围标的概率。
其中,步骤五中,通过投标单位的董事长,监理,高管信息,判断是否存在投标单位的董事长,监理,高管为同一人的情况,若存在,则根据权重数值增加当前项目串标围标的概率。
其中,步骤六中,通过投标单位的报价数值,与招标预算报价数值进行比较,若投标报价在招标报价的95%与招标报价的105%范围内,则根据权重数值增加当前项目串标围标的概率。
其中,步骤七中,通过招投标历史数据,以及公开的招投标历史数据,利用数据统计的方式,计算是否存在多家投标单位过去曾经多次同时投标的情况,若存在,则根据权重数值增加当前项目串标围标的概率。
一种多维度数据分析的围标串标检测系统,包括:
招标信息采集模块:用于获取招标文件的基本信息;
招标文件处理模块:用于将招标文件进行图片化处理,并且对图片表面其他无关图像进行处理,保留文字字符,用于文字识别;
招标文件对比模块:用于对多维度的对招标文件进行对比,其中包括文本对比单元、投标人对比单元、投标单位对比单元、投标报价数值对比单元和历史招标信息对比单元。
其中,招标文件处理模块包括转换单元和识别单元,转换单元用于将投标文件转换成图片,识别单元用于提取图片上的文字内容,并且进行合并,识别单元对图片的文字区域进行识别,根据文字区域矩形分割,拆分成不通的字符,根据字符分类,然后识别出文字,对识别后的文字进行后续处理和矫正,图片转化过程中,图片中的印章需要进行消除,印章消除包括以下步骤:
a、读取RGB图像,获得图像A;
b、将图像A中的三个通道拆分开,保留红色通道的图片数据,得到红色通道灰度值图像B;
c、计算图像B的统计值方图C,确定最佳的阈值threshold,以分离红色;
d、根据上一步得到的阈值,对图像B进行二值化,得到最终输出图片D。
其中,文字对比单元主要通过EditDistance算法识别。
该种多维度数据分析的围标串标检测方法及系统,通过将投标文件统一转化成图片的模式,进行识别,统一获取投标文件内的字符信息,方便能对投标文件进行统一对比,建立相同的对比标准,对比后的结果更加的准确,通过设置文本对比单元、投标人对比单元、投标单位对比单元、投标报价数值对比单元和历史招标信息对比单元,可多方面的对投标文件进行对比,多维度识别对比,更加准确的查找投标文件与其他有关投标影响条件之间的关系,保证投标工作的公平性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多维度数据分析的围标串标检测方法,其特征在于,包括以下步骤:
步骤一:获取招标文件的作者,并检查投标文件的作者是否相同;
步骤二:将投标文件转换为图片,并通过文字检测以及文字识别技术,识别文字内容,提取处每张图片中的文字内容,并且存储、合并成完整的招标文字内容,对比招标范本文件,去除投标文件文字中与范本标书相同的部分;
步骤三:计算投标文件之间的文本相似度;
步骤四:根据投标单位的公开数据,计算投标单位存在的投资关系;
步骤五:根据投标单位的公开数据,计算投标单位之间董监高的关系;
步骤六:计算投标报价与招标预算之间的关系;
步骤七:根据历史投标情况,计算投标单位之间存在的隐含关系。
2.根据权利要求1所述的一种多维度数据分析的围标串标检测方法,其特征在于,所述步骤一中,通过工具包,获取投标文件中的word以及pdf文件的作者信息、最后编辑人信息以及生成文件的软件名称,并查找是否存在相同信息的文件若存在,则当前项目的围串标概率值会增加,并标记具有相同信息的投标文件。
3.根据权利要求1所述的一种多维度数据分析的围标串标检测方法,其特征在于,所述步骤三中,通过特定符号或规则将文字内容分段,利用最短编辑距离算法,计算两个投标文件内容之间总体的相似度,计算每两个投标文件内容之间每一段文字的相似度,并记录超过特定阈值的字段.根据权重数值当前项目的围串标概率值会增加。
4.根据权利要求1所述的一种多维度数据分析的围标串标检测方法,其特征在于,所述步骤四中,通过投标人的企业工商信息,股权关系信息,判断投标单位是否属于同一集团、协会、商会等组织,或投标单位是否存在互相投资的关系,或投标单位是否存在同一出资单位,若存在,则根据权重增加当前项目串标围标的概率。
5.根据权利要求1所述的一种多维度数据分析的围标串标检测方法,其特征在于,所述步骤五中,通过投标单位的董事长,监理,高管信息,判断是否存在投标单位的董事长,监理,高管为同一人的情况,若存在,则根据权重数值增加当前项目串标围标的概率。
6.根据权利要求1所述的一种多维度数据分析的围标串标检测方法,其特征在于,所述步骤六中,通过投标单位的报价数值,与招标预算报价数值进行比较,若投标报价在招标报价的95%与招标报价的105%范围内,则根据权重数值增加当前项目串标围标的概率。
7.根据权利要求1所述的一种多维度数据分析的围标串标检测方法,其特征在于,所述步骤七中,通过招投标历史数据,以及公开的招投标历史数据,利用数据统计的方式,计算是否存在多家投标单位过去曾经多次同时投标的情况,若存在,则根据权重数值增加当前项目串标围标的概率。
8.一种多维度数据分析的围标串标检测系统,基于权利要求1-7中的多维度数据分析的围标串标检测方法,其特征在于,包括:
招标信息采集模块:用于获取招标文件的基本信息;
招标文件处理模块:用于将招标文件进行图片化处理,并且对图片表面其他无关图像进行处理,保留文字字符,用于文字识别;
招标文件对比模块:用于对多维度的对招标文件进行对比,其中包括文本对比单元、投标人对比单元、投标单位对比单元、投标报价数值对比单元和历史招标信息对比单元。
9.根据权利要求8所述的一种多维度数据分析的围标串标检测系统,其特征在于,所述招标文件处理模块包括转换单元和识别单元,转换单元用于将投标文件转换成图片,识别单元用于提取图片上的文字内容,并且进行合并,所述识别单元对图片的文字区域进行识别,根据文字区域矩形分割,拆分成不通的字符,根据字符分类,然后识别出文字,对识别后的文字进行后续处理和矫正,图片转化过程中,图片中的印章需要进行消除,印章消除包括以下步骤:
a、读取RGB图像,获得图像A;
b、将图像A中的三个通道拆分开,保留红色通道的图片数据,得到红色通道灰度值图像B;
c、计算图像B的统计值方图C,确定最佳的阈值threshold,以分离红色;
d、根据上一步得到的阈值,对图像B进行二值化,得到最终输出图片D。
10.根据权利要求8所述的一种多维度数据分析的围标串标检测系统,其特征在于,所述文字对比单元主要通过EditDistance算法识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211583039.1A CN116168406A (zh) | 2022-12-09 | 2022-12-09 | 一种多维度数据分析的围标串标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211583039.1A CN116168406A (zh) | 2022-12-09 | 2022-12-09 | 一种多维度数据分析的围标串标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116168406A true CN116168406A (zh) | 2023-05-26 |
Family
ID=86417246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211583039.1A Pending CN116168406A (zh) | 2022-12-09 | 2022-12-09 | 一种多维度数据分析的围标串标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116168406A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314602A (zh) * | 2023-11-29 | 2023-12-29 | 大文传媒集团(山东)有限公司 | 一种智能工程招标信息处理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129118A (zh) * | 2021-05-17 | 2021-07-16 | 政采云有限公司 | 一种基于自然语言处理的围标串标行为识别方法及装置 |
CN113344096A (zh) * | 2021-06-22 | 2021-09-03 | 郑州信源信息技术股份有限公司 | 一种基于ocr技术的投标文件自动解析方法及系统 |
CN113486675A (zh) * | 2021-06-21 | 2021-10-08 | 中国水利电力物资集团有限公司 | 一种识别围标串标行为的方法 |
-
2022
- 2022-12-09 CN CN202211583039.1A patent/CN116168406A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129118A (zh) * | 2021-05-17 | 2021-07-16 | 政采云有限公司 | 一种基于自然语言处理的围标串标行为识别方法及装置 |
CN113486675A (zh) * | 2021-06-21 | 2021-10-08 | 中国水利电力物资集团有限公司 | 一种识别围标串标行为的方法 |
CN113344096A (zh) * | 2021-06-22 | 2021-09-03 | 郑州信源信息技术股份有限公司 | 一种基于ocr技术的投标文件自动解析方法及系统 |
Non-Patent Citations (1)
Title |
---|
WL_HONEST: "Python OpenCV基于颜色通道分离法去除图片中的红色印章", pages 66 - 71, Retrieved from the Internet <URL:https://blog.csdn.net/wl_Honest/article/details/107569135> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314602A (zh) * | 2023-11-29 | 2023-12-29 | 大文传媒集团(山东)有限公司 | 一种智能工程招标信息处理系统 |
CN117314602B (zh) * | 2023-11-29 | 2024-03-22 | 大文传媒集团(山东)有限公司 | 一种智能工程招标信息处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context | |
US8965127B2 (en) | Method for segmenting text words in document images | |
Siddiqui et al. | Rethinking semantic segmentation for table structure recognition in documents | |
US9384409B1 (en) | Word segmentation for document image using recursive segmentation | |
EP0307111B1 (en) | Character recognition apparatus | |
WO2021164515A1 (zh) | 一种针对篡改图像的检测方法及装置 | |
CN116168406A (zh) | 一种多维度数据分析的围标串标检测方法及系统 | |
CN112418180A (zh) | 表格数据提取方法、装置、设备及计算机存储介质 | |
Rane et al. | Chartreader: Automatic parsing of bar-plots | |
CN113157918B (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN113269101A (zh) | 一种票据识别方法、装置和设备 | |
CN116127105B (zh) | 一种大数据平台的数据汇集方法及装置 | |
CN112784932A (zh) | 一种字体识别方法、装置和存储介质 | |
CN112329669B (zh) | 一种电子档案管理方法 | |
US20230030210A1 (en) | Tea impurity data annotation method based on supervised machine learning | |
CN113642291B (zh) | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 | |
CN116403233A (zh) | 一种基于数字化档案图像定位及识别方法 | |
CN114996500B (zh) | 一种商标图形检索方法 | |
US11900705B2 (en) | Intelligent engineering data digitization | |
CN109739981B (zh) | 一种pdf文件类别判定方法及文字提取方法 | |
CN111400606B (zh) | 一种基于全局和局部信息抽取的多标签分类方法 | |
Mishchenko et al. | Model-Based Recognition and Extraction of Information from Chart Images. | |
CN111783787A (zh) | 一种识别图像字符的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |