CN112800113B - 一种基于数据挖掘分析技术的招投标审计方法及系统 - Google Patents

一种基于数据挖掘分析技术的招投标审计方法及系统 Download PDF

Info

Publication number
CN112800113B
CN112800113B CN202110166523.3A CN202110166523A CN112800113B CN 112800113 B CN112800113 B CN 112800113B CN 202110166523 A CN202110166523 A CN 202110166523A CN 112800113 B CN112800113 B CN 112800113B
Authority
CN
China
Prior art keywords
bidding
technical
scheme
bid
audit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110166523.3A
Other languages
English (en)
Other versions
CN112800113A (zh
Inventor
张�成
衣秀
黄瑞
苏卫卫
张志浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Delta Technology Co ltd
Original Assignee
Tianjin Delta Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Delta Technology Co ltd filed Critical Tianjin Delta Technology Co ltd
Priority to CN202110166523.3A priority Critical patent/CN112800113B/zh
Publication of CN112800113A publication Critical patent/CN112800113A/zh
Application granted granted Critical
Publication of CN112800113B publication Critical patent/CN112800113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Multimedia (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据挖掘分析技术的招投标审计方法及系统,包括以下步骤:建立待审计的项目招投标文件的审计文件库;基于OCR和预训练的投标文件抽取模型,自动提取文件库中各投标商务文件、技术方案的投标关键信息;在数据库中建立投标信息表、投标技术方案数据表,将步骤S2中的投标关键信息存储在投标技术方案数据表中;基于关联分析算法,对各投标项目、投标企业、投标代理人之间关联关系进行挖掘,提取频繁交换投标代理人的企业列表;基于技术方案查重算法,对同一投标项目各投标企业技术方案进行分析,提取投标方案雷同的企业列表;基于步骤S4、S5分析结果,生成招投标异常项目的企业审计稽核报告。本发明提高了审计工作效率。

Description

一种基于数据挖掘分析技术的招投标审计方法及系统
技术领域
本发明属于招投标审计技术领域,尤其涉及一种基于数据挖掘分析技术的招投标审计方法及系统。
背景技术
随着企业信息化的发展,各大企业在项目招投标领域积累了海量的招投标数据,如何从这些海量招投标数据中发现潜藏的串标、围标等违规行为,已成为审计部门在招投标审计过程中最为关心的问题之一。
根据以往招投标审计经验,有些投标单位会通过注册多个子公司进行围标,不同的项目投标过程可能存在同一投标代理人在多个围标子公司中交叉出现,即多个围标公司之间存在着交换投标代理人情况。此外,多家围标公司经常会出现在投标同一项目时投标技术方案雷同的情况。
针对以上违规行为,传统的人工审计方法,需要人工收集各项目和投标单位的投标文件,逐个查阅各投标文件,手工查找和记录项目名称、投标企业名称、投标代理人、法人、技术方案等关键信息,整理成数据表格。手工计算或借助Excel数据表格等简单工具,结合大量人工筛选,汇总,统计、比对等复杂操作步骤,找出哪些企业存在审计疑点。整个审计过程,完全依赖审计人工经验进行线下分析和筛选,审计人员需要人工查阅大量投标材料,从中提取有价值的审计线索,审计工作量大。且审计人员多根据审计经验发现投标过程中的问题,招投标项目较多时,人工审核方式几乎无法对海量项目和投标企业之间复杂关联关系进行分析。
因此,急需一种基于数据挖掘分析技术的招投标审计方法及系统,通过OCR、文本抽取技术,自动从投标商务文件、技术方案文件中抽取投标审计关键信息,利用关联分析、文本挖掘等数据挖掘技术,从招投标关键信息中智能识别存在交换投标代理人、技术方案雷同等招标投违规行为的投标企业和项目,辅助审计人员快速定位审计疑点、提高审计工作效率。
发明内容
为了解决上述技术问题,本发明提供一种基于数据挖掘分析技术的招投标审计方法及系统,其特征在于,所述招投标审计方法包括以下步骤:
步骤S1:建立待审计的项目招投标文件的审计文件库;
步骤S2:基于OCR和预训练的投标文件抽取模型,自动提取文件库中各投标商务文件、技术方案的投标关键信息;
步骤S3:在数据库中建立投标信息表、投标技术方案数据表,将步骤S2中的投标关键信息存储在投标技术方案数据表中;
步骤S4:基于关联分析算法,对各投标项目、投标企业、投标代理人之间关联关系进行挖掘,提取频繁交换投标代理人的企业列表;
步骤S5:基于技术方案查重算法,对同一投标项目各投标企业技术方案进行分析,提取投标方案雷同的企业列表;
步骤S6:基于步骤S4、S5分析结果,生成招投标异常项目的企业审计稽核报告。
优选的,所述步骤S2包括以下步骤:
步骤S21:标注训练语料;
步骤S22:基于序列标注算法训练投标文件抽取模型;
步骤S23:基于OCR技术和预训练模型,自动抽取投标关键信息;
步骤S24:配置投标技术方案抽取规则;
步骤S25:基于OCR技术和规则抽取算法,自动抽取投标技术方案各章节内容。
优选的,所述步骤S4包括以下步骤:
步骤S41:批量加载全部投标项目、投标企业、投标代理人信息;
步骤S42:基于关联规则算法,提取长度大于1的频繁项,即在多个项目一起投标的单位组合,作为异常候选集,生成多组异常候选集;
步骤S43:选择一组异常候选集进行分析;
步骤S44:从该组候选集中选择一个投标单位和对应的投标代理人;
步骤S45:利用共现分析方法计算该投标代理人是否在同组的其它投标单位和项目中作为投标代理人出现过;
步骤S46:如步骤S45中未出现,从该组中移除该投标代理人记录;
步骤S47:如步骤S45中出现,提取该投标代理人、两个投标单位、两个投标项目作为一组交换代理人异常分析结果保存到数据库中;
步骤S48:检查是否已遍历该组所有投标单位和投标代理人,如未遍历完成,重复步骤S44至S47,直到遍历完成所有投标代理人,如果遍历完成,则跳转步骤S49;
步骤S49:检查是否已遍历所有异常候选集,如未遍历完成,刚重复步骤S43至S49,直到遍历完成所有异常候选集组,如遍历完成,则跳转S410步骤;
步骤S410:输出异常分析结果。
优选的,所述步骤S5包括以下步骤:
步骤S51:批量加载全部投标项目、投标企业、投标技术方案内容;
步骤S52:选择一个投标项目;
步骤S53:选择该投标项目下的任意两家投标单位;
步骤S54:采用基于编辑距离的文本相似度算法,计算两投标企业技术方案各章节相似度;
步骤S55:按照各章节权重对相似度进行加权平均,得到文档整体相似度;
步骤S56:整体相似度是否大于指定阈值;
步骤S57:将投标项目、两家投标企业、整体相似度、各章节相似度、相似文本段落作为一组技术方案雷同的疑点分析结果,存储到数据表;
步骤S58:检查是否已遍历该项目所有投标单位组合,如果未完成,则继续步骤S53至S57,直至全部完成后,继续步骤S59;
步骤S59:检查是否已遍历所有投标项目,如果未遍历完成,则继续步骤S52至S58步骤,直至全部遍历完成后,继续步骤S510;
步骤S510:输出异常分析结果。
优选的,所述招投标审计系统包括:投标文件采集模块、投标关键信息抽取模块、投标关键信息存储模块、智能审计稽核模块、审计稽核结果可视化展示模块、审计稽核报告生成模块,所述的投标文件采集模块用于采集投标商务文件和技术方案文件;所述的投标关键信息模块用于提取投标商务文件和技术方案文件中的投标企业、项目名称、投标代理人、技术方案各章节文本审计关键信息;所述投标关键信息存储模块用于结构存储投标关键审计信息,为智能审计稽核模块提供数据支撑。
优选的,所述智能审计稽核模块包括交换代理人异常行为分析模块、技术方案雷同异常行为分析模块;所述交换代理人异常行为分析模块利用关联分析算法从海量投标信息中识别存在交换代理人行为的企业;所述技术方案雷同异常行为分析模块利用文本挖掘技术智能分析和识别同一项目投标过程中存在技术方案雷同的企业;所述的审计稽核结果可视化展示模块用于以可视化方式查询异常投标项目、投标企业、投标代理人、雷同的技术方案章节信息,所述审计稽核报告生成模块用于审计项目实施后生成相应的审计问题报告。
与现有技术相比,本发明的有益效果为:
1、本发明的招投标文件采集、分析、审计结果比对和展示的全自动化,避免了手工查阅和比对的大量工作,操作简单快捷,节省审计工作量和成本;
2、本发明基于数据挖掘技术的智能稽核分析方法,更加全面和精准地识别交换投标代理人、技术方案雷同违规行为的疑似围标企业,避免人工审计导致的疏忽和遗漏,辅助审计人员发现项目招投标项目中的审计疑点。
附图说明
图1为本发明的总体流程图;
图2为本发明的招投标审计系统总体结构示意图;
图3为本发明的投标文件投标关键信息抽取方法处理流程图;
图4为本发明的交换代理人异常行为分析处理流程图;
图5为本发明的技术方案雷同异常行为分析处理流程图。
具体实施方式
以下结合附图对本发明做进一步描述:
实施例:
如附图1所示,一种基于数据挖掘技术的招投标审计系统,包括:投标文件采集模块M1、投标关键信息抽取模块M2、投标关键信息存储模块M3、智能审计稽核模块M4、审计稽核结果可视化展示模块M5、审计稽核报告生成模块M6。所述的投标文件采集模块M1用于采集投标商务文件和技术方案文件;所述的投标关键信息抽取模块M2用于提取投标商务文件和技术方案文件中的投标企业、项目名称、投标代理人、技术方案各章节文本审计关键信息;所述的投标关键信息存储模块M3用于结构化存储投标关键审计信息,为智能审计稽核模块提供数据支撑;所述的智能审计稽核模块M4包括交换代理人异常行为分析模块M41、技术方案雷同异常行为分析模块M42;所述的交换代理代异常分析模块M41利用关联分析算法从海量投标信息中识别存在交换代理人行为的企业;所述的技术方案雷同异常行为分析模块M42利用文本挖掘技术智能分析和识别同一项目投标过程中存在技术方案雷同的企业;所述的审计稽核结果可视化展示模块M5用于以可视化方式查询异常投标项目、投标企业、投标代理人、雷同的技术方案章节信息。所述的审计稽核报告生成模块M56用于审计项目实施后生成相应的审计问题报告,以便审计人员进行决策。
如附图2所示,本发明公开了一种基于数据挖掘技术的招投标审计方法及系统,所述招投标审计方法包含以下步骤:
步骤S1:建立待审计的项目招投标文件的审计文件库:归集待审计的招投标项目中各投标企业提交的投标商务文件、投标技术方案文件,所述的文件格式均为pdf、doc、docx格式中的任意一种,将文件存储到分布式文件系统,形成招投标审计文件库。
步骤S2:基于OCR和预训练的投标文件抽取模型,自动提取文件库中各投标商务文件、技术方案的投标关键信息,针对投标商务文件和技术方案文件的特点,采用基于机器学习的文本抽取方法,抽取投标商务文件,采用基于规则的文本抽取方法,抽取投标技术方案文件。如附图3所示,内容如下:
步骤S21:标注训练语料:从归集的投标文件中,筛选一部分具有代表性的投标文件,针对投标文件中需要提取的关键信息,如投标项目名称,投标单位名称、投标代理人,进行人工标注,为后续构建文本抽取模型提供训练数据。具体采用BIEO标注方法,进行对投标文件中的每个关键信息采用BIEO标注法进行标记,例如项目名称在文本中的首词标注为B,结尾词标注为E,,中间词标注为I,其余词标注为O。
步骤S22:基于S21步骤标注的训练语料数据,采用条件随机场CRF算法训练抽取模型,条件随机模型是一种判别式概率无向图学习模型,用于标注和切分有序数据,该方法解决了传统信息抽取算法只能找到局部的最优值以及标记偏见问题,通过对所有特征进行全局归一化,可以得到全局的最优值。
步骤S23:基于OCR技术自动识别投标商务文件中的文本信息,利用S22步骤训练的抽取模型,对审计文件库中的所有投标商务文件进行自动抽取,提取投标项目名称、投标项目编号、投标单位名称、投标代理人名称、投标代理人身份证号码、投标日期;
步骤S24:针对投标技术方案章节结构配置投标技术方案抽取规则,技术方案核心章节内容包括项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施五部分,针对以上章节模块定义抽取规则库本实施例制定的规则库定义和文本抓取方法采用正则表达式技术实现;
步骤S25:基于OCR技术识别技术方案文件中文本数据,利用步骤S24配置投标技术方案抽取规则,自动化抽取各技术方案文件中的项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施章节文本信息;
步骤S3:在数据库中建立投标信息表、投标技术方案数据表,将步骤S2中的投标关键信息存储在投标技术方案数据表中,具体内容包括投标项目名称、投标项目编号、投标单位名称、投标代理人名称、投标代理人身份证号投标时间、项目情况、服务方案介绍、服务过程及项目结束后的服务安排、进度控制措施、质量措施章节文本;
步骤S4:基于数据挖掘技术的关联分析算法,对各投标项目、投标企业、投标代理人之间关联关系进行挖掘分析,自动提取频繁交换投标代理人的企业列表,关联分析技术通过对数据的关联性进行分析和挖掘,为决策制定提供参考价值,本实施例采用Apriori算法进行关联挖掘,该算法使用一种称作逐层搜索的迭代方法,找出频繁共同投标的企业组合。如附图4所示,内容如下:
步骤S41:批量加载步骤S3中的投标信息表中所有项目和投标单位名称,以每个项目每个投标单位为一条记录,对投标单位进行分析;
步骤S42:基于Aprior算法提取长度大于1的频繁项,即在多个项目一起投标的单位组合,作为异常候选集,生成多组异常候选;
步骤S43:选择一组异常候选集,将该候选集中所有投标企业对应的投标项目和投标代理人加载到比对数据集;
步骤S44:从该组候选集中选择一个投标单位,以及该单位在一个投标项目中对应的投标代理人作为待比对数据;
步骤S45:利用共现分析方法,遍历该组其它候选单位以及投标代理人,计算该投标代理人是否在同组的其它投标单位和项目中作为投标代理人出现;
步骤S46:如果该投标代理人S45步骤计算结果中未出现,则从该组从移除从该组比对数据集中移除该投标代理人以及对应在投标项目记录,减少后续比对次数;
步骤S47:如果该投标代理人S45步骤计算结果中出现过,则表示该投标代理人在不同投标项目代理不同投标企业参与投标,提取该投标代理人、两个对应的和投标单位投标项目作为一组交换代理人异常分析结果保存到数据库,作为审计疑点;
步骤S48:检索是否已遍历该组所有投标单位和投标代理人,如未遍历完成,刚重复步骤S44至S47,直到遍历完成所有投标代理人。如遍历完成,则跳转S49步骤;
步骤S49:检索是否已遍历S42步骤提取的所有异常候选集组,如未遍历完成,刚重复步骤S43至S49,直到遍历完成所有异常候选集组。如遍历完成,则跳转S410步骤;
步骤S410:输出数据库所有提取的所有交换代理人异常分析结果组,作为交换代理人异常审计结果;
步骤S5:基于技术方案查重算法,对同一投标项目各投标企业技术方案进行分析,提取投标方案雷同的企业列表,本实施例以基于编辑距离的文本相似度算法为核心查重算法,筛选技术方案雷同企业,并提取技术方案相似度的章节文本段落,作为审计证据,如附图5所示,内容如下:
步骤S51:批量加载全部投标项目名称、投标企业名称、投标技术方案各章节内容文本,作为技术方案雷同行为分析基本数据;
步骤S52:选择一个投标项目作为待审计项目;
步骤S53:选择该投标项目下的任意两家投标单位组合作为查重比对对象
步骤S54:采用基于编辑距离的文本相似度算法计算两投标企业技术方案各章节相似度。文本的编辑距离是指两个文本串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离越小,两个文本的相似度越大。基于该算法,分别计算各章节相似度值并进行归一化,最终相似度值是范围在0~1的浮点数,越接近1,表示两段文本的相似程度越高,反之亦然;
步骤S55:按照各章节权重对相似度进行加权平均,计算文档整体相似度。阈值权重根据技术方案章节结构特性分别设置项目情况0.1,服务方案介绍0.4,服务过程及项目结束后的服务安排0.2,进度控制措施0.15,质量措施0.15;
步骤S56:判断整体相似度是否大于指定阈值,根据经验,阈值设置为0.4-0.6之间;
步骤S57:两个投标技术方案整体相似度大于指定阈值,认定存在雷同风险,将该投标项目、两家投标企业名称、整体相似度、各章节相似度、各章节相似文本段落存储到数据表,作为一组技术方案雷同的疑点分析结果;
步骤S58:检查是否已对该项目所有投标单位组合进行查重,如果未完成,则继续步骤S53-S57步骤,直至全部完成后,继续步骤S59;
步骤S59:检查是否已对所有投标项目进行遍历分析,如果未遍历完成,则继续步骤S52-S58步骤,直至全部遍历完成后,继续步骤S510;
步骤S510:输出数据库所有提取的所有技术方案高度相似的投标单位和对应投标项目,作为技术方案雷同行为分析审计结果。
步骤S6:基于步骤S4,S5输出分析结果,生成招投标异常项目的企业审计稽核报告;
综上所述,本实施例所提供的基于数据挖掘的招投标审计方法及系统,通过OCR、文本抽取技术,自动从投标商务文件、技术方案文件中抽取投标审计关键信息,利用数据挖掘和文本挖掘技术,从招投标关键信息中智能识别存在交换投标代理人、技术方案雷同招标投违规行为的投标企业和项目,辅助审计人员快速定位审计疑点、提高审计工作效率。
利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,设计出类似的技术方案,而达到上述技术效果的,均是落入本发明的保护范围。

Claims (6)

1.一种基于数据挖掘分析技术的招投标审计方法,其特征在于,所述招投标审计方法包括以下步骤:
步骤S1:建立待审计的项目招投标文件的审计文件库;
步骤S2:基于OCR和预训练的投标文件抽取模型,自动提取文件库中各投标商务文件、技术方案的投标关键信息;
步骤S3:在数据库中建立投标信息表、投标技术方案数据表,将步骤S2中的投标关键信息存储在投标技术方案数据表中;
步骤S4:基于关联分析算法,对各投标项目、投标企业、投标代理人之间关联关系进行挖掘,提取频繁交换投标代理人的企业列表;
步骤S5:基于技术方案查重算法,对同一投标项目各投标企业技术方案进行分析,提取投标方案雷同的企业列表;
步骤S6:基于步骤S4、S5分析结果,生成招投标异常项目的企业审计稽核报告。
2.如权利要求1所述的一种基于数据挖掘分析技术的招投标审计方法,其特征在于,所述步骤S2包括以下步骤:
步骤S21:标注训练语料;
步骤S22:基于序列标注算法训练投标文件抽取模型;
步骤S23:基于OCR技术和预训练模型,自动抽取投标关键信息;
步骤S24:配置投标技术方案抽取规则;
步骤S25:基于OCR技术和规则抽取算法,自动抽取投标技术方案各章节内容。
3.如权利要求1所述的一种基于数据挖掘分析技术的招投标审计方法,其特征在于,所述步骤S4包括以下步骤:
步骤S41:批量加载全部投标项目、投标企业、投标代理人信息;
步骤S42:基于关联规则算法,提取长度大于1的频繁项,即在多个项目一起投标的单位组合,作为异常候选集,生成多组异常候选集;
步骤S43:选择一组异常候选集进行分析;
步骤S44:从该组候选集中选择一个投标单位和对应的投标代理人;
步骤S45:利用共现分析方法计算该投标代理人是否在同组的其它投标单位和项目中作为投标代理人出现过;
步骤S46:如步骤S45中未出现,从该组中移除该投标代理人记录;
步骤S47:如步骤S45中出现,提取该投标代理人、两个投标单位、两个投标项目作为一组交换代理人异常分析结果保存到数据库中;
步骤S48:检查是否已遍历该组所有投标单位和投标代理人,如未遍历完成,重复步骤S44至S47,直到遍历完成所有投标代理人,如果遍历完成,则跳转步骤S49;
步骤S49:检查是否已遍历所有异常候选集,如未遍历完成,刚重复步骤S43至S49,直到遍历完成所有异常候选集组,如遍历完成,则跳转S410步骤;
步骤S410:输出异常分析结果。
4.如权利要求1所述的一种基于数据挖掘分析技术的招投标审计方法,其特征在于,所述步骤S5包括以下步骤:
步骤S51:批量加载全部投标项目、投标企业、投标技术方案内容;
步骤S52:选择一个投标项目;
步骤S53:选择该投标项目下的任意两家投标单位;
步骤S54:采用基于编辑距离的文本相似度算法,计算两投标企业技术方案各章节相似度;
步骤S55:按照各章节权重对相似度进行加权平均,得到文档整体相似度;
步骤S56:判断整体相似度是否大于指定阈值,阈值设置为0.4-0.6之间;
步骤S57:两个投标技术方案整体相似度大于指定阈值,认定存在雷同风险,将该投标项目、两家投标企业名称、整体相似度、各章节相似度、各章节相似文本段落存储到数据表,作为一组技术方案雷同的疑点分析结果;
步骤S58:检查是否已遍历该项目所有投标单位组合,如果未完成,则继续步骤S53至S57,直至全部完成后,继续步骤S59;
步骤S59:检查是否已遍历所有投标项目,如果未遍历完成,则继续步骤S52至S58步骤,直至全部遍历完成后,继续步骤S510;
步骤S510:输出异常分析结果。
5.如权利要求1所述的一种基于数据挖掘分析技术的招投标审计方法的系统,其特征在于,所述招投标审计系统包括:投标文件采集模块、投标关键信息抽取模块、投标关键信息存储模块、智能审计稽核模块、审计稽核结果可视化展示模块、审计稽核报告生成模块,所述的投标文件采集模块用于采集投标商务文件和技术方案文件;所述的投标关键信息模块用于提取投标商务文件和技术方案文件中的投标企业、项目名称、投标代理人、技术方案各章节文本审计关键信息;所述投标关键信息存储模块用于结构存储投标关键审计信息,为智能审计稽核模块提供数据支撑。
6.如权利要求5所述的一种基于数据挖掘分析技术的招投标审计方法的系统,其特征在于,所述智能审计稽核模块包括交换代理人异常行为分析模块、技术方案雷同异常行为分析模块;所述交换代理人异常行为分析模块利用关联分析算法从海量投标信息中识别存在交换代理人行为的企业;所述技术方案雷同异常行为分析模块利用文本挖掘技术智能分析和识别同一项目投标过程中存在技术方案雷同的企业;所述的审计稽核结果可视化展示模块用于以可视化方式查询异常投标项目、投标企业、投标代理人、雷同的技术方案章节信息,所述审计稽核报告生成模块用于审计项目实施后生成相应的审计问题报告。
CN202110166523.3A 2021-02-04 2021-02-04 一种基于数据挖掘分析技术的招投标审计方法及系统 Active CN112800113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110166523.3A CN112800113B (zh) 2021-02-04 2021-02-04 一种基于数据挖掘分析技术的招投标审计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110166523.3A CN112800113B (zh) 2021-02-04 2021-02-04 一种基于数据挖掘分析技术的招投标审计方法及系统

Publications (2)

Publication Number Publication Date
CN112800113A CN112800113A (zh) 2021-05-14
CN112800113B true CN112800113B (zh) 2023-01-10

Family

ID=75814606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110166523.3A Active CN112800113B (zh) 2021-02-04 2021-02-04 一种基于数据挖掘分析技术的招投标审计方法及系统

Country Status (1)

Country Link
CN (1) CN112800113B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762719A (zh) * 2021-08-03 2021-12-07 远光软件股份有限公司 文本相似度的计算方法、计算机设备及存储装置
CN113763143A (zh) * 2021-08-03 2021-12-07 远光软件股份有限公司 审计处理方法、计算机设备及存储装置
CN113626655A (zh) * 2021-08-03 2021-11-09 国网湖北省电力有限公司信息通信公司 提取文件中信息的方法、计算机设备及存储装置
CN113673849A (zh) * 2021-08-09 2021-11-19 唐山鑫正工程项目管理有限公司 一种工程招投标管理方法及系统
CN115080698A (zh) * 2022-07-01 2022-09-20 公诚管理咨询有限公司 基于大数据的招投标分析方法、系统、设备及存储介质
CN116485190B (zh) * 2023-06-26 2023-09-05 中招联合信息股份有限公司 基于多文件对比分析的企业投标信息文件风险预测系统
CN117057320B (zh) * 2023-09-04 2024-02-13 大唐电商技术有限公司 一种清标报告的自动生成方法、电子设备及存储介质
CN117093548B (zh) * 2023-10-20 2024-01-26 公诚管理咨询有限公司 一种招投标管理稽核系统
CN117114720B (zh) * 2023-10-25 2024-02-20 湖南华菱电子商务有限公司 基于互联网的电商平台管理系统
CN117252194B (zh) * 2023-11-17 2024-02-23 上海百通项目管理咨询有限公司 一种基于自然语义模型的投标文件检测方法及系统
CN117314602B (zh) * 2023-11-29 2024-03-22 大文传媒集团(山东)有限公司 一种智能工程招标信息处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886862A (zh) * 2017-04-15 2017-06-23 湖南新邦软件股份有限公司 一种招标采购管理系统及方法
CN112053061A (zh) * 2020-09-07 2020-12-08 讯飞智元信息科技有限公司 围串标行为识别方法、装置、电子设备和存储介质
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
CN112258303A (zh) * 2020-11-16 2021-01-22 北京筑龙信息技术有限责任公司 围串标预警分析方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222928A1 (en) * 2004-04-06 2005-10-06 Pricewaterhousecoopers Llp Systems and methods for investigation of financial reporting information
US20060149658A1 (en) * 2004-10-07 2006-07-06 Smith Harold B Construction contract bidding
US7752190B2 (en) * 2005-12-21 2010-07-06 Ebay Inc. Computer-implemented method and system for managing keyword bidding prices
CN110942155A (zh) * 2019-11-29 2020-03-31 广西电网有限责任公司 一种机器学习引擎的研究方法
CN111241230A (zh) * 2019-12-31 2020-06-05 中国南方电网有限责任公司 一种基于文本挖掘识别串标风险的方法及系统
CN112184401B (zh) * 2020-09-22 2021-05-14 筑客网络技术(上海)有限公司 一种用于建材招投标平台的智能匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886862A (zh) * 2017-04-15 2017-06-23 湖南新邦软件股份有限公司 一种招标采购管理系统及方法
CN112053061A (zh) * 2020-09-07 2020-12-08 讯飞智元信息科技有限公司 围串标行为识别方法、装置、电子设备和存储介质
CN112131275A (zh) * 2020-09-23 2020-12-25 中国科学技术大学智慧城市研究院(芜湖) 全息城市大数据模型和知识图谱的企业画像构建方法
CN112258303A (zh) * 2020-11-16 2021-01-22 北京筑龙信息技术有限责任公司 围串标预警分析方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大数据技术在工程项目招投标中的应用研究;凌阳明月,赵帆,凌阳明星;《武汉理工大学学报(信息与管理工程版)》;20160430;第38卷(第2期);全文 *

Also Published As

Publication number Publication date
CN112800113A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800113B (zh) 一种基于数据挖掘分析技术的招投标审计方法及系统
US20130097168A1 (en) Method to identify common structures in formatted text documents
CN108563783B (zh) 一种基于大数据的财务分析管理系统及方法
CN112732934A (zh) 电网设备分词词典和故障案例库构建方法
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN112632958A (zh) 一种基于合同知识库的合同文件审查分析方法
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
Heidari et al. Financial footnote analysis: developing a text mining approach
CN115329169B (zh) 一种基于深度神经模型的档案归档计算方法
CN111597806A (zh) 一种基于统计模型识别短信文本模版的方法、设备及介质
CN112800219B (zh) 客服日志反馈回流数据库的方法及系统
CN115760495A (zh) 一种实现法律案例自动标签化的方法及装置
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN115964457A (zh) 一种文档字符串编码模糊匹配方法
CN111814457A (zh) 一种电网工程合同文本生成方法
CN115858738B (zh) 一种企业舆情信息相似性识别方法
CN114492308B (zh) 一种结合知识发现与文本挖掘的产业信息标引方法和系统
CN112748951B (zh) 基于XGBoost的自承认技术债务多分类方法
Julian et al. Self-Operated and Efficient Recruitment Procedure Using Natural Language Toolkit
Fonner et al. Explainable machine learning models for evaluating government grantmaking
Zhang et al. Text mining-based identification model for urban rail transit system infrastructure fault analysis
Heidari et al. Impact of Text Mining Application on Financial Footnotes Analysis: Research in Progress

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant