CN117808441B - 一种投标信息核查方法及系统 - Google Patents
一种投标信息核查方法及系统 Download PDFInfo
- Publication number
- CN117808441B CN117808441B CN202410236928.3A CN202410236928A CN117808441B CN 117808441 B CN117808441 B CN 117808441B CN 202410236928 A CN202410236928 A CN 202410236928A CN 117808441 B CN117808441 B CN 117808441B
- Authority
- CN
- China
- Prior art keywords
- result
- clustering
- cluster
- target
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002159 abnormal effect Effects 0.000 claims abstract description 97
- 230000005856 abnormality Effects 0.000 claims abstract description 42
- 238000007621 cluster analysis Methods 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 230000006399 behavior Effects 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 91
- 238000004422 calculation algorithm Methods 0.000 claims description 55
- 238000012795 verification Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及招标投标技术领域,尤其涉及一种投标信息核查方法及系统。该方法包括:分别对多个投标方的第一历史投标信息和目标投标方的第二历史投标信息进行聚类分析,得到第一历史投标信息对应的第一聚类结果和第二历史投标信息对应的第二聚类结果;确定第一聚类结果和第二聚类结果的第一差异信息;对目标投标方的本次投标信息进行聚类分析,得到第三聚类结果,确定第三聚类结果和第一聚类结果的第二差异信息;确定第一差异信息和第二差异信息之间的差异度,若差异度大于预设差异度阈值,则将目标投标方标记为疑似异常。本申请可以及时发现和处理潜在的异常投标行为,保障招投标过程的公平、公正和规范性。
Description
技术领域
本申请涉及招标投标技术领域,尤其是涉及一种投标信息核查方法及系统。
背景技术
在投标过程中,对投标方的信息进行核查是非常重要的环节。传统的投标信息核查方法通常基于人工审查和比对,这种方法存在效率低下、易出错等问题。随着技术的发展,一些自动化方法被引入到投标信息核查中,相关技术通过比对单个投标方的历史投标信息确定当前投标信息是否存在异常,但是,单个投标方的投标习惯会随着时间和招标内容动态变化,仅基于单个投标方的历史投标信息,会导致对投标方的投标信息是否存在异常的核查准确度不够。
发明内容
为了解决现有技术投标信息核查准确度低的问题,本申请提供一种投标信息核查方法及系统。
第一方面,本申请提供了一种投标信息核查方法,采用如下技术方案:
一种投标信息核查方法,包括:
获取多个投标方的第一历史投标信息以及目标投标方的第二历史投标信息;
分别对所述第一历史投标信息和所述第二历史投标信息进行聚类分析,得到所述第一历史投标信息对应的第一聚类结果和所述第二历史投标信息对应的第二聚类结果;
将所述第一聚类结果和所述第二聚类结果进行比对,得到所述第一聚类结果和所述第二聚类结果的第一差异信息;
获取所述目标投标方的本次投标信息,对所述本次投标信息进行聚类分析,得到第三聚类结果,并将所述第三聚类结果和所述第一聚类结果进行比对,得到所述第三聚类结果和所述第一聚类结果的第二差异信息;
确定所述第一差异信息和所述第二差异信息之间的差异度,判断所述差异度是否大于预设差异度阈值,若所述差异度大于预设差异度阈值,则将所述目标投标方标记为疑似异常。
通过采用上述技术方案,分别对多个投标方的第一历史投标信息和目标投标方的第二历史信息进行聚类分析,并将多个投标方的第一聚类结果和目标投标方的第二聚类结果进行比对,得到第一差异信息,第一差异信息表示目标投标方的历史投标与多个投标方的历史投标之间的习惯差异信息,然后对目标投标方的本次投标信息进行聚类分析,并将本次投标信息的第三聚类结果和第一聚类结果进行比对,得到第二差异信息,第二差异信息表示目标投标方的本次投标与多个投标方的历史投标之间的习惯差异信息,若第一差异信息和第二差异信息之间的差异度超过预设差异阈值,表示目标投标方的投标习惯信息发生了较大改变,将目标投标方标记为疑似异常,本申请能够及时发现和处理潜在的异常投标行为,保障招投标过程的公平、公正和规范性。
本申请在一较佳示例中可以进一步配置为:对所述本次投标信息进行聚类分析,得到第三聚类结果,包括:
将所述本次投标信息划分为多个数据集,每一数据集对应一种数据类型;
根据预设对应关系确定所述多个数据集各自对应的聚类算法,所述预设对应关系为数据类型和聚类算法的对应关系;
根据目标数据集对应的聚类算法对所述目标数据集进行聚类分析,得到所述目标数据集对应的聚类结果,所述多个数据集各自对应的聚类结果构成所述第三聚类结果,所述目标数据集为所述多个数据集中任一个,目标数据集对应的聚类结果的数据类型与目标数据集的数据类型一致。
通过采用上述技术方案,考虑了不同数据类型的特点,将本次投标信息划分为多个数据集,能够使后续的聚类分析更加针对性和准确,根据预设对应关系确定多个数据集各自对应的聚类算法,能够确保所选的聚类算法和数据类型相匹配,提高了针对本次投标信息进行聚类分析的效率和准确性。
本申请在一较佳示例中可以进一步配置为:所述第一聚类结果和所述第二聚类结果均是通过多种数据类型各自对应的聚类算法得到的,所述第一聚类结果和所述第二聚类结果均包含多种数据类型的聚类结果,
将所述第一聚类结果和所述第二聚类结果进行比对,得到所述第一聚类结果和所述第二聚类结果的第一差异信息,包括:
计算所述第一聚类结果和所述第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度;
根据所述多种数据类型的聚类结果各自对应的差异度以及所述多种数据类型各自对应的预设权重,确定所述第一聚类结果和所述第二聚类结果的第一差异信息。
通过采用上述技术方案,计算相同数据类型的聚类结果的差异度,并结合数据类型的权重,实现了对第一聚类结果和第二聚类结果的全面评估,使得得到的第一差异信息更加精准。
本申请在一较佳示例中可以进一步配置为:计算所述第一聚类结果和所述第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度,包括:
获取所述第一聚类结果中目标数据类型的聚类结果的第一簇集合,以及所述第二聚类结果中目标数据类型的聚类结果的第二簇集合,所述目标数据类型为所述第一聚类结果和所述第二聚类结果中任一相同的数据类型;
计算所述第一簇集合和所述第二簇集合之间的距离,将所述距离作为所述目标数据类型对应的差异度,从而得到所述多种数据类型的聚类结果各自对应的差异度。
通过采用上述技术方案,提取对应的簇集合,计算簇集合之间的距离并确定差异度,实现了对相同数据类型聚类结果的深度比较,有助于发现聚类结果之间的细微差异,提高了整个投标信息核查方法的准确性和可靠性。
本申请在一较佳示例中可以进一步配置为:将所述目标投标方标记为疑似异常之后,所述方法还包括:
获取所述第二聚类结果中多种数据类型的聚类结果,以及所述第三聚类结果中多种数据类型的聚类结果,并为所述第二聚类结果中每一数据类型的聚类结果建立正常行为模型;
根据所述第二聚类结果中多个数据类型的聚类结果各自对应的正常行为模型,对所述第三聚类结果中多种数据类型的聚类结果进行异常检测,得到第一异常检测结果;
通过异常检测算法对所述第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果;
根据所述第一异常检测结果和所述第二异常检测结果,确定所述目标投标方是否为异常。
通过采用上述技术方案,根据第一异常检测结果和第二异常检测结果,综合判断目标投标方是否为异常,结合了基于模型的异常检测和基于算法的异常检测的优势,提高了异常检测的准确性和可靠性。
本申请在一较佳示例中可以进一步配置为:通过异常检测算法对所述第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果,包括:
计算目标簇的四分位数,根据所述四分位数得到所述目标簇对应的箱线图,所述目标簇为所述第三聚类结果中的多个簇中任一个;
确定所述目标簇中每一数据与所述箱线图的位置关系,若数据与箱线图的位置关系为所述数据超过所述箱线图的上限或低于所述箱线图的下限,则将所述数据标记为异常数据;
确定所述目标簇中异常数据的数量与所述目标簇中所有数据的数量的比值,得到所述目标簇的数据异常比例,判断所述数据异常比例是否超过预设数据异常比例阈值,若超过,则将所述目标簇标记为异常簇;
确定所述第三聚类结果中多个簇中异常簇的数量与所述第三聚类结果中多个簇的数量的比值,得到所述第三聚类结果的簇异常比例,判断所述簇异常比例是否超过预设簇异常比例阈值,若超过,则第二异常检测结果为异常。
通过采用上述技术方案,确定箱线图,能够直观了解数据的分布情况和异常数据,以及基于比例的异常判断机制,实现了对聚类结果中多个簇的异常检测,通过设置阈值,可以适应不同场景下的异常检测需求,同时,从数据层面和簇层面进行双重异常检测,提高了检测结果的准确性和可靠性。
本申请在一较佳示例中可以进一步配置为:根据所述第一异常检测结果和所述第二异常检测结果,确定所述目标投标方是否为异常,包括:
若所述第一异常检测结果和所述第二异常检测结果均为正常,则将所述目标投标方确定为正常;
若所述第一异常检测结果或所述第二异常检测结果为异常,则将所述目标投标方确定为异常。
通过采用上述技术方案,结合第一异常检测结果和第二异常检测结果,能够准确识别投标方的异常,提高了招标投标的公平性
第二方面,本申请提供一种投标信息核查系统,采用如下的技术方案:
一种投标信息核查系统,包括:
获取模块,用于获取多个投标方的第一历史投标信息以及目标投标方的第二历史投标信息;
分析模块,用于分别对所述第一历史投标信息和所述第二历史投标信息进行聚类分析,得到所述第一历史投标信息对应的第一聚类结果和所述第二历史投标信息对应的第二聚类结果;
第一比对模块,用于将所述第一聚类结果和所述第二聚类结果进行比对,得到所述第一聚类结果和所述第二聚类结果的第一差异信息;
第二比对模块,用于获取所述目标投标方的本次投标信息,对所述本次投标信息进行聚类分析,得到第三聚类结果,并将所述第三聚类结果和所述第一聚类结果进行比对,得到所述第三聚类结果和所述第一聚类结果的第二差异信息;
标记模块,用于确定所述第一差异信息和所述第二差异信息之间的差异度,判断所述差异度是否大于预设差异度阈值,若所述差异度大于预设差异度阈值,则将所述目标投标方标记为疑似异常。
第三方面,本申请提供一种电子设备,采用如下的技术方案:
一个或多个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行如第一方面任一项所述的投标信息核查方法。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行如第一方面任一项所述的投标信息核查方法。
综上所述,本申请包括以下有益技术效果:
本申请实通过分别对多个投标方的第一历史投标信息和目标投标方的第二历史信息进行聚类分析,并将多个投标方的第一聚类结果和目标投标方的第二聚类结果进行比对,得到第一差异信息,第一差异信息表示目标投标方的历史投标与多个投标方的历史投标之间的习惯差异信息,然后对目标投标方的本次投标信息进行聚类分析,并将本次投标信息的第三聚类结果和第一聚类结果进行比对,得到第二差异信息,第二差异信息表示目标投标方的本次投标与多个投标方的历史投标之间的习惯差异信息,若第一差异信息和第二差异信息之间的差异度超过预设差异阈值,表示目标投标方的投标习惯信息发生了较大改变,将目标投标方标记为疑似异常,本申请能够及时发现和处理潜在的异常投标行为,保障招投标过程的公平、公正和规范性。
附图说明
图1是本申请实施例提供的一种投标信息核查方法的流程示意图;
图2是本申请实施例提供的一种投标信息核查系统的结构示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图1-附图3对本申请作进一步详细说明。
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
本申请实施例提供一种投标信息核查方法,如图1所示,在本申请实施例中提供的方法由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制,该方法包括步骤S101-步骤S105,其中:
S101、获取多个投标方的第一历史投标信息以及目标投标方的第二历史投标信息。
在本实施例中,可以预先建立数据库,数据库中存储有多个投标方的第一历史投标信息以及目标投标方的第二历史投标信息,目标投标方为本次投标中任一投标方,多个投标方可以包括目标投标方,也可以不包括目标投标方,即第一历史投标信息中可以包括第二历史投标信息,也可以不包括第二历史投标信息,第一历史投标信息和第二历史投标信息可以包括投标时间、投标报价、竞标方案、技术规格、交付计划、投标方身份信息。
S102、分别对第一历史投标信息和第二历史投标信息进行聚类分析,得到第一历史投标信息对应的第一聚类结果和第二历史投标信息对应的第二聚类结果。
在本实施例中,第一历史投标信息和第二历史投标信息均包含多个数据类型的投标信息,多个数据类型可以包括文本类型、数值类型、结构化类型,进一步的,可以建立预设对应关系,预设对应关系表示数据类型和聚类算法的对应关系,可选的,本文类型数据可以包括竞标方案,对于文本类型,可以使用基于文本特征提取的聚类算法,如TF-IDF特征算法;数值类型数据可以包括投标时间、投标报价、技术规格、交付计划中的工期,对于数值类型,可以使用K-means算法;结构化类型数据可以包括投标方身份信息中的投标方名称以及对应的联系方式,对于结构化类型,可以使用层次聚类算法。
进一步的,对于第一历史投标信息和第二历史投标信息中包含的多个数据类型的投标信息,通过预设对应关系确定多个数据类型的投标信息各自对应的聚类算法,再利用对应的聚类算法对第一历史投标信息和第二历史投标信息进行聚类分析,得到第一历史投标信息对应的第一聚类结果,以及第二历史投标信息对应的第二聚类结果,其中,聚类结果可以表示为簇,第一聚类结果和第二聚类结果均包括多种数据类型对应的聚类结果,其中,每种数据类型对应的簇的数量可以为一个或多个。
S103、将第一聚类结果和第二聚类结果进行比对,得到第一聚类结果和第二聚类结果的第一差异信息。
在本实施例中,第一聚类结果和第二聚类结果可以均包含文本类型、数值类型和结构化类型的聚类结果,首先,为了保证第一聚类结果和第二聚类结果中相同数据类型进行比较,可以先将第一聚类结果和第二聚类结果进行数据类型的对齐,从而得到数据类型对齐的多对聚类结果,将三种数据类型中任一种作为目标数据类型,计算第一聚类结果对应的簇和第二聚类结果对应的簇之间的距离,将簇之间的距离作为第一聚类结果和第二聚类结果中目标数据类型对应的差异信息。其中,可以预先根据实际经验为每一数据类型设置对应的预设权重,在得到第一聚类结果和第二聚类结果中每一数据类型对应的差异信息之后,根据每一数据类型对应的预设权重,对第一聚类结果和第二聚类结果中多个数据类型各自对应的差异信息进行加权求和,将加权求和的结果作为第一聚类结果和第二聚类结果的第一差异信息。
S104、获取目标投标方的本次投标信息,对本次投标信息进行聚类分析,得到第三聚类结果,并将第三聚类结果和第一聚类结果进行比对,得到第三聚类结果和第一聚类结果的第二差异信息。
在本实施例中,目标投标方的本次投标信息可以包括多个数据类型的投标信息,包括文本类型、数值类型和结构化类型,通过预设对应关系可以确定多个数据类型的投标信息各自对应的聚类算法,再利用对应的聚类算法对本次投标信息进行聚类分析,得到本次投标信息对应的第三聚类结果,第三聚类结果中包括多个数据类型各自对应的聚类结果,聚类结果可以表示为簇。
进一步的,为了保证第一聚类结果和第三聚类中相同数据类型进行比较,可以先将第一聚类结果和第三聚类结果进行数据类型的对齐,从而得到数据类型对齐的多对聚类结果,分别计算每一对聚类结果的簇之间的距离,从而得到多个数据类型各自对应的差异信息,根据每一数据类型对应的权重,对第一聚类结果和第三聚类结果中多个数据类型各自对应的差异信息进行加权求和,得到第一聚类结果和第三聚类结果的第二差异信息。
S105、确定第一差异信息和第二差异信息之间的差异度,判断差异度是否大于预设差异度阈值,若差异度大于预设差异度阈值,则将目标投标方标记为疑似异常。
在本实施例中,可以将第一差异信息和第二差异信息的差值作为第一差异信息和第二差异信息之间的差异度,预设差异度阈值可以根据实际需求预先设置。
本申请实施例分别对多个投标方的第一历史投标信息和目标投标方的第二历史信息进行聚类分析,并将多个投标方的第一聚类结果和目标投标方的第二聚类结果进行比对,得到第一差异信息,第一差异信息表示目标投标方的历史投标与多个投标方的历史投标之间的习惯差异信息,然后对目标投标方的本次投标信息进行聚类分析,并将本次投标信息的第三聚类结果和第一聚类结果进行比对,得到第二差异信息,第二差异信息表示目标投标方的本次投标与多个投标方的历史投标之间的习惯差异信息,若第一差异信息和第二差异信息之间的差异度超过预设差异阈值,表示目标投标方的投标习惯信息发生了较大改变,将目标投标方标记为疑似异常,本申请能够及时发现和处理潜在的异常投标行为,保障招投标过程的公平、公正和规范性。
本申请实施例的一种可能的实现方式,对本次投标信息进行聚类分析,得到第三聚类结果,包括:
将本次投标信息划分为多个数据集,每一数据集对应一种数据类型;
根据预设对应关系确定多个数据集各自对应的聚类算法,预设对应关系为数据类型和聚类算法的对应关系;
根据目标数据集对应的聚类算法对目标数据集进行聚类分析,得到目标数据集对应的聚类结果,多个数据集各自对应的聚类结果构成第三聚类结果,目标数据集为多个数据集中任一个,目标数据集对应的聚类结果的数据类型与目标数据集的数据类型一致。
在本实施例中,可以将本次投标信息划分为三个数据集,三个数据集分别为文本类型数据、数值类型数据、结构化类型数据,文本类型数据对应的数据类型为文本类型,数值类型数据对应的数据类型为数值类型,结构化类型数据对应的数据类型为结构化类型,预设对应关系中文本类型对应的聚类算法可以为TF-IDF特征算法,数值类型对应的算法可以为K-means算法,结构化类型对应的算法可以为层次聚类算法。进一步的,根据目标数据集对应的聚类算法对目标数据集进行聚类分析,能够得到目标数据集对应的聚类结果,聚类结果可以表示为簇。
在一种可能的情况中,目标数据集为文本类型数据,目标数据集对应的聚类算法为TF-IDF特征算法,目标数据集中可以包含多个文档,通过TF-IDF特征算法对目标数据集进行聚类分析的过程可以为:对目标数据集进行分词处理、去除停用词和文本清洗,得到预处理后的多个词;计算每个词在目标数据集中的词频TF和逆文档频率IDF,将词频和逆文档频率的乘积作为该词的TF-IDF值;对于目标数据集中的每个当,计算每个词的TF-IDF值;构建一个TF-IDF矩阵,其中,矩阵的行表示文档,列表示词汇,矩阵中的值表示该词的TF-IDF;将TF-IDF矩阵作为输入特征,选择使用K-means、层次聚类、DBSCAN等聚类算法进行聚类,能够得到目标数据集对应的聚类结果,聚类结果可以表示为簇。
在另一种可能的情况中,目标数据集为数值类型数据,目标数据集对应的聚类算法为K-means算法,通过K-means算法对目标数据集进行聚类分析的过程可以为:步骤1:确定簇的数量K,再通过随机初始化方法,选择K个数据点作为初始聚类中心点;步骤2:对于目标数据集中的每个数据点,计算该数据点与每个初始聚类中心点之间的距离,并将该数据点分配给距离最小的初始聚类中心点,从而得到K个簇;步骤3:对于每个簇,计算该簇中所有数据点的平均值,并将该平均值作为新的聚类中心点;重复上述步骤2和步骤3,直到聚类中心点不再发生变化或者达到预设迭代次数,输出最终的聚类结果,即每个数据点所属的簇,其中,预设迭代次数可以根据实际需求设置。
在另一种可能的实现方式中,目标数据集为结构化类型数据,目标数据集对应的聚类算法为层次聚类算法,通过层次聚类算法对目标数据集进行聚类分析的过程可以为:步骤1:对目标数据集进行特征提取,将每一特征作为一个簇;步骤2:使用距离度量方法计算特征之间的距离,构建距离矩阵;步骤3:从距离矩阵中找到两个距离最小的簇,将这两个簇合并成一个新的簇,更新距离矩阵,以反映新的簇和其他簇之间的距离;重复上述步骤2和步骤3,直到达到预设簇数量,或,达到预设迭代次数。
本申请实施例考虑了不同数据类型的特点,将本次投标信息划分为多个数据集,能够使后续的聚类分析更加针对性和准确,根据预设对应关系确定多个数据集各自对应的聚类算法,能够确保所选的聚类算法和数据类型相匹配,提高了针对本次投标信息进行聚类分析的效率和准确性。
本申请实施例的一种可能的实现方式,第一聚类结果和第二聚类结果均是通过多种数据类型各自对应的聚类算法得到的,第一聚类结果和第二聚类结果均包含多种数据类型的聚类结果,
将第一聚类结果和第二聚类结果进行比对,得到第一聚类结果和第二聚类结果的第一差异信息,包括:
计算第一聚类结果和第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度;
根据多种数据类型的聚类结果各自对应的差异度以及多种数据类型各自对应的预设权重,确定第一聚类结果和第二聚类结果的第一差异信息。
本申请实施例通过计算相同数据类型的聚类结果的差异度,并结合数据类型的权重,实现了对第一聚类结果和第二聚类结果的全面评估,使得得到的第一差异信息更加精准。
本申请实施例的一种可能的实现方式,计算第一聚类结果和第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度,包括:
获取第一聚类结果中目标数据类型的聚类结果的第一簇集合,以及第二聚类结果中目标数据类型的聚类结果的第二簇集合,目标数据类型为第一聚类结果和第二聚类结果中任一相同的数据类型;
计算第一簇集合和第二簇集合之间的距离,将距离作为目标数据类型对应的差异度,从而得到多种数据类型的聚类结果各自对应的差异度。
在本实施例中,第一聚类结果和第二聚类结果中目标数据类型的聚类结果可以为簇,将第一聚类结果中目标数据类型的聚类结果作为第一簇集合,将第二聚类结果中目标数据类型的聚类结果作为第二簇集合,第一簇集合和第二簇集合中簇的数量可以相同或不同,从第一簇集合和第二簇集合中分别选取一个簇,组成一对,从而得到多对簇,对于多对簇中的任一对,计算两个簇之间的距离,得到多个距离,计算多个距离的平均距离/最大距离/最小距离/标准差,将平均距离/最大距离/最小距离/标准差作为第一簇集合和第二簇集合之间的距离,即目标数据类型对应的差异度。
其中,若目标数据类型为文本类型,可以通过余弦相似度或Jaccard相似度方法计算两个簇之间的距离;若目标数据类型为数值类型,可以通过欧氏距离或曼哈顿距离计算两个簇之间的距离;若目标数据类型为结构化类型,可以通过欧氏距离计算两个簇之间的距离。
本申请实施例通过提取对应的簇集合,计算簇集合之间的距离并确定差异度,实现了对相同数据类型聚类结果的深度比较,有助于发现聚类结果之间的细微差异,提高了整个投标信息核查方法的准确性和可靠性。
本申请实施例的一种可能的实现方式,将目标投标方标记为疑似异常之后,方法还包括:
获取第二聚类结果中多种数据类型的聚类结果,以及第三聚类结果中多种数据类型的聚类结果,并为第二聚类结果中每一数据类型的聚类结果建立正常行为模型;
根据第二聚类结果中多个数据类型的聚类结果各自对应的正常行为模型,对第三聚类结果中多种数据类型的聚类结果进行异常检测,得到第一异常检测结果;
通过异常检测算法对第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果;
根据第一异常检测结果和第二异常检测结果,确定目标投标方是否为异常。
在本实施例中,对第二聚类结果中的任一数据类型的聚类结果进行特征提取,根据提取的特征建立正常行为模型,可选择的模型可以为决策树模型、随机森林模型、支持向量机模型或神经网络模型,从而得到第二聚类结果中多个数据类型的聚类结果各自对应的正常行为模型。进一步的,将第三聚类结果中的多个簇按照数据类型划分,得到第三聚类结果中多个数据类型各自对应的簇,将第三聚类结果中任一数据类型对应的簇输入到该数据类型对应的正常行为模型中,能够得到该数据类型的聚类结果为正常还是异常。可以预先根据实际经验设置异常数量阈值,当第三聚类结果中异常聚类结果的数量超过异常数量阈值时,将第三聚类结果对应的第一异常检测结果确定为异常。
本申请实施例根据第一异常检测结果和第二异常检测结果,综合判断目标投标方是否为异常,结合了基于模型的异常检测和基于算法的异常检测的优势,提高了异常检测的准确性和可靠性。
本申请实施例的一种可能的实现方式,通过异常检测算法对第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果,包括:
计算目标簇的四分位数,根据四分位数得到目标簇对应的箱线图,目标簇为第三聚类结果中的多个簇中任一个;
确定目标簇中每一数据与箱线图的位置关系,若数据与箱线图的位置关系为数据超过箱线图的上限或低于箱线图的下限,则将数据标记为异常数据;
确定目标簇中异常数据的数量与目标簇中所有数据的数量的比值,得到目标簇的数据异常比例,判断数据异常比例是否超过预设数据异常比例阈值,若超过,则将目标簇标记为异常簇;
确定第三聚类结果中多个簇中异常簇的数量与第三聚类结果中多个簇的数量的比值,得到第三聚类结果的簇异常比例,判断簇异常比例是否超过预设簇异常比例阈值,若超过,则第二异常检测结果为异常。
在本实施例中,若目标簇的数据类型为数值类型,则可以直接计算目标簇的四分位数,若目标簇的数据类型为文本类型或结构化类型,可以先将目标簇的数据类型转化为数值类型,再计算目标簇的四分位数。具体的,计算目标簇的四分位数的过程可以为:将目标簇中所有数据按照由小到大排列,将排列好的数据分为四等份,其中每部分包含25%的数据,四分位数包括下四分位数、中四分位数和上四分位数,下四分位数为25%位置上的数据,小于下四分位数的数据占全部数据的25%;中四分位数为中位数;上四分位数为75%位置上的数据,小于上四分位数的数据占全部数据的75%。确定四分位数之后,可以根据四分位数绘制箱线图,根据箱线图的定义,箱线图的上限为上四分位数,箱线图的下限为下四分位数。预设数据异常比例阈值和预设簇异常比例阈值可以根据实际经验设置,本实施不作具体限定。
本申请实施例通过确定箱线图,能够直观了解数据的分布情况和异常数据,以及基于比例的异常判断机制,实现了对聚类结果中多个簇的异常检测,通过设置阈值,可以适应不同场景下的异常检测需求,同时,从数据层面和簇层面进行双重异常检测,提高了检测结果的准确性和可靠性。
本申请实施例的一种可能的实现方式,根据第一异常检测结果和第二异常检测结果,确定目标投标方是否为异常,包括:
若第一异常检测结果和第二异常检测结果均为正常,则将目标投标方确定为正常;
若第一异常检测结果或第二异常检测结果为异常,则将目标投标方确定为异常。
本申请实施例结合第一异常检测结果和第二异常检测结果,能够准确识别投标方的异常,提高了招标投标的公平性。
上述实施例从方法流程的角度介绍一种投标信息核查方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了一种投标信息核查系统,具体详见下述实施例。
本申请实施例提供一种投标信息核查系统,如图2所示,该系统可以包括:
获取模块201,用于获取多个投标方的第一历史投标信息以及目标投标方的第二历史投标信息;
分析模块202,用于分别对第一历史投标信息和第二历史投标信息进行聚类分析,得到第一历史投标信息对应的第一聚类结果和第二历史投标信息对应的第二聚类结果;
第一比对模块203,用于将第一聚类结果和第二聚类结果进行比对,得到第一聚类结果和第二聚类结果的第一差异信息;
第二比对模块204,用于获取目标投标方的本次投标信息,对本次投标信息进行聚类分析,得到第三聚类结果,并将第三聚类结果和第一聚类结果进行比对,得到第三聚类结果和第一聚类结果的第二差异信息;
标记模块205,用于确定第一差异信息和第二差异信息之间的差异度,判断差异度是否大于预设差异度阈值,若差异度大于预设差异度阈值,则将目标投标方标记为疑似异常。
本申请在一较佳示例中可以进一步配置为:第二比对模块204在执行对本次投标信息进行聚类分析,得到第三聚类结果时,具体用于:
将本次投标信息划分为多个数据集,每一数据集对应一种数据类型;
根据预设对应关系确定多个数据集各自对应的聚类算法,预设对应关系为数据类型和聚类算法的对应关系;
根据目标数据集对应的聚类算法对目标数据集进行聚类分析,得到目标数据集对应的聚类结果,多个数据集各自对应的聚类结果构成第三聚类结果,目标数据集为多个数据集中任一个,目标数据集对应的聚类结果的数据类型与目标数据集的数据类型一致。
本申请在一较佳示例中可以进一步配置为:第一比对模块203在执行将第一聚类结果和第二聚类结果进行比对,得到第一聚类结果和第二聚类结果的第一差异信息时,具体用于:
计算第一聚类结果和第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度;
根据多种数据类型的聚类结果各自对应的差异度以及多种数据类型各自对应的预设权重,确定第一聚类结果和第二聚类结果的第一差异信息。
本申请在一较佳示例中可以进一步配置为:第一比对模块203在执行计算第一聚类结果和第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度时,具体用于:
获取第一聚类结果中目标数据类型的聚类结果的第一簇集合,以及第二聚类结果中目标数据类型的聚类结果的第二簇集合,目标数据类型为第一聚类结果和第二聚类结果中任一相同的数据类型;
计算第一簇集合和第二簇集合之间的距离,将距离作为目标数据类型对应的差异度,从而得到多种数据类型的聚类结果各自对应的差异度。
本申请在一较佳示例中可以进一步配置为:系统还包括确定模块,具体用于:
获取第二聚类结果中多种数据类型的聚类结果,以及第三聚类结果中多种数据类型的聚类结果,并为第二聚类结果中每一数据类型的聚类结果建立正常行为模型;
根据第二聚类结果中多个数据类型的聚类结果各自对应的正常行为模型,对第三聚类结果中多种数据类型的聚类结果进行异常检测,得到第一异常检测结果;
通过异常检测算法对第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果;
根据第一异常检测结果和第二异常检测结果,确定目标投标方是否为异常。
本申请在一较佳示例中可以进一步配置为:确定模块在执行通过异常检测算法对第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果时,具体用于:
计算目标簇的四分位数,根据四分位数得到目标簇对应的箱线图,目标簇为第三聚类结果中的多个簇中任一个;
确定目标簇中每一数据与箱线图的位置关系,若数据与箱线图的位置关系为数据超过箱线图的上限或低于箱线图的下限,则将数据标记为异常数据;
确定目标簇中异常数据的数量与目标簇中所有数据的数量的比值,得到目标簇的数据异常比例,判断数据异常比例是否超过预设数据异常比例阈值,若超过,则将目标簇标记为异常簇;
确定第三聚类结果中多个簇中异常簇的数量与第三聚类结果中多个簇的数量的比值,得到第三聚类结果的簇异常比例,判断簇异常比例是否超过预设簇异常比例阈值,若超过,则第二异常检测结果为异常。
本申请在一较佳示例中可以进一步配置为:确定模块在执行根据第一异常检测结果和第二异常检测结果,确定目标投标方是否为异常时,具体用于:
若第一异常检测结果和第二异常检测结果均为正常,则将目标投标方确定为正常;
若第一异常检测结果或第二异常检测结果为异常,则将目标投标方确定为异常。
本申请实施例提供的一种投标信息核查系统适用于上述方法实施例,在此不再赘述。
本申请实施例中提供了一种电子设备,如图3所示,图3所示的电子设备300包括:处理器301和存储器303。其中,处理器301和存储器303相连,如通过总线302相连。可选地,电子设备300还可以包括收发器304。需要说明的是,实际应用中收发器304不限于一个,该电子设备300的结构并不构成对本申请实施例的限定。
处理器301可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器301也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线302可包括一通路,在上述组件之间传送信息。总线302可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一型的总线。
存储器303可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器303用于存储执行本申请方案的应用程序代码,并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码,以实现前述用于投标信息核查方法实施例所示的内容。
图3示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种投标信息核查方法,其特征在于,包括:
获取多个投标方的第一历史投标信息以及目标投标方的第二历史投标信息;
分别对所述第一历史投标信息和所述第二历史投标信息进行聚类分析,得到所述第一历史投标信息对应的第一聚类结果和所述第二历史投标信息对应的第二聚类结果,所述第一聚类结果和所述第二聚类结果均包含多个数据类型各自对应的聚类结果,每一聚类结果用簇表示,所述多个数据类型包括文本类型、数值类型以及结构化类型;
将所述第一聚类结果和所述第二聚类结果进行比对,得到所述第一聚类结果和所述第二聚类结果的第一差异信息,所述第一差异信息是通过确定所述第一聚类结果和所述第二聚类结果中目标数据类型对应的两个聚类结果之间的距离,将得到的距离作为所述第一聚类结果和所述第二聚类结果中所述目标数据类型的差异度,并对得到的多个数据类型各自对应的差异度进行加权求和得到的,其中,所述目标数据类型为所述多个数据类型中任一个;
获取所述目标投标方的本次投标信息,对所述本次投标信息进行聚类分析,得到第三聚类结果,并将所述第三聚类结果和所述第一聚类结果进行比对,得到所述第三聚类结果和所述第一聚类结果的第二差异信息,所述第三聚类结果包含多个数据类型各自对应的聚类结果,每一聚类结果用簇表示,所述第二差异信息是通过确定所述第三聚类结果和所述第一聚类结果中所述目标数据类型对应的两个聚类结果之间的距离,将得到的距离作为所述第三聚类结果和所述第一聚类结果中所述目标数据类型的差异度,并对得到的多个数据类型各自对应的差异度进行加权求和得到的;
确定所述第一差异信息和所述第二差异信息之间的差异度,判断所述差异度是否大于预设差异度阈值,若所述差异度大于预设差异度阈值,则将所述目标投标方标记为疑似异常。
2.根据权利要求1所述的投标信息核查方法,其特征在于,对所述本次投标信息进行聚类分析,得到第三聚类结果,包括:
将所述本次投标信息划分为多个数据集,每一数据集对应一种数据类型;
根据预设对应关系确定所述多个数据集各自对应的聚类算法,所述预设对应关系为数据类型和聚类算法的对应关系;
根据目标数据集对应的聚类算法对所述目标数据集进行聚类分析,得到所述目标数据集对应的聚类结果,所述多个数据集各自对应的聚类结果构成所述第三聚类结果,所述目标数据集为所述多个数据集中任一个,目标数据集对应的聚类结果的数据类型与目标数据集的数据类型一致。
3.根据权利要求2所述的投标信息核查方法,其特征在于,所述第一聚类结果和所述第二聚类结果均是通过多种数据类型各自对应的聚类算法得到的,所述第一聚类结果和所述第二聚类结果均包含多种数据类型的聚类结果,
将所述第一聚类结果和所述第二聚类结果进行比对,得到所述第一聚类结果和所述第二聚类结果的第一差异信息,包括:
计算所述第一聚类结果和所述第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度;
根据所述多种数据类型的聚类结果各自对应的差异度以及所述多种数据类型各自对应的预设权重,确定所述第一聚类结果和所述第二聚类结果的第一差异信息。
4.根据权利要求3所述的投标信息核查方法,其特征在于,计算所述第一聚类结果和所述第二聚类结果中相同数据类型的聚类结果的差异度,得到多种数据类型的聚类结果各自对应的差异度,包括:
获取所述第一聚类结果中目标数据类型的聚类结果的第一簇集合,以及所述第二聚类结果中目标数据类型的聚类结果的第二簇集合,所述目标数据类型为所述第一聚类结果和所述第二聚类结果中任一相同的数据类型;
计算所述第一簇集合和所述第二簇集合之间的距离,将所述距离作为所述目标数据类型对应的差异度,从而得到所述多种数据类型的聚类结果各自对应的差异度。
5.根据权利要求1所述的投标信息核查方法,其特征在于,将所述目标投标方标记为疑似异常之后,所述方法还包括:
获取所述第二聚类结果中多种数据类型的聚类结果,以及所述第三聚类结果中多种数据类型的聚类结果,并为所述第二聚类结果中每一数据类型的聚类结果建立正常行为模型;
根据所述第二聚类结果中多个数据类型的聚类结果各自对应的正常行为模型,对所述第三聚类结果中多种数据类型的聚类结果进行异常检测,得到第一异常检测结果;
通过异常检测算法对所述第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果;
根据所述第一异常检测结果和所述第二异常检测结果,确定所述目标投标方是否为异常。
6.根据权利要求5所述的投标信息核查方法,其特征在于,通过异常检测算法对所述第三聚类结果中的多个簇进行异常检测,得到第二异常检测结果,包括:
计算目标簇的四分位数,根据所述四分位数得到所述目标簇对应的箱线图,所述目标簇为所述第三聚类结果中的多个簇中任一个;
确定所述目标簇中每一数据与所述箱线图的位置关系,若数据与箱线图的位置关系为所述数据超过所述箱线图的上限或低于所述箱线图的下限,则将所述数据标记为异常数据;
确定所述目标簇中异常数据的数量与所述目标簇中所有数据的数量的比值,得到所述目标簇的数据异常比例,判断所述数据异常比例是否超过预设数据异常比例阈值,若超过,则将所述目标簇标记为异常簇;
确定所述第三聚类结果中多个簇中异常簇的数量与所述第三聚类结果中多个簇的数量的比值,得到所述第三聚类结果的簇异常比例,判断所述簇异常比例是否超过预设簇异常比例阈值,若超过,则第二异常检测结果为异常。
7.根据权利要求6所述的投标信息核查方法,其特征在于,根据所述第一异常检测结果和所述第二异常检测结果,确定所述目标投标方是否为异常,包括:
若所述第一异常检测结果和所述第二异常检测结果均为正常,则将所述目标投标方确定为正常;
若所述第一异常检测结果或所述第二异常检测结果为异常,则将所述目标投标方确定为异常。
8.一种投标信息核查系统,其特征在于,包括:
获取模块,用于获取多个投标方的第一历史投标信息以及目标投标方的第二历史投标信息;
分析模块,用于分别对所述第一历史投标信息和所述第二历史投标信息进行聚类分析,得到所述第一历史投标信息对应的第一聚类结果和所述第二历史投标信息对应的第二聚类结果,所述第一聚类结果和所述第二聚类结果均包含多个数据类型各自对应的聚类结果,每一聚类结果用簇表示,所述多个数据类型包括文本类型、数值类型以及结构化类型;
第一比对模块,用于将所述第一聚类结果和所述第二聚类结果进行比对,得到所述第一聚类结果和所述第二聚类结果的第一差异信息,所述第一差异信息是通过确定所述第一聚类结果和所述第二聚类结果中目标数据类型对应的两个聚类结果之间的距离,将得到的距离作为所述第一聚类结果和所述第二聚类结果中所述目标数据类型的差异度,并对得到的多个数据类型各自对应的差异度进行加权求和得到的,其中,所述目标数据类型为所述多个数据类型中任一个;
第二比对模块,用于获取所述目标投标方的本次投标信息,对所述本次投标信息进行聚类分析,得到第三聚类结果,并将所述第三聚类结果和所述第一聚类结果进行比对,得到所述第三聚类结果和所述第一聚类结果的第二差异信息,所述第三聚类结果包含多个数据类型各自对应的聚类结果,每一聚类结果用簇表示,所述第二差异信息是通过确定所述第三聚类结果和所述第一聚类结果中所述目标数据类型对应的两个聚类结果之间的距离,将得到的距离作为所述第三聚类结果和所述第一聚类结果中所述目标数据类型的差异度,并对得到的多个数据类型各自对应的差异度进行加权求和得到的;
标记模块,用于确定所述第一差异信息和所述第二差异信息之间的差异度,判断所述差异度是否大于预设差异度阈值,若所述差异度大于预设差异度阈值,则将所述目标投标方标记为疑似异常。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行权利要求1-7任一项所述的投标信息核查方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1-7任一项所述的投标信息核查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410236928.3A CN117808441B (zh) | 2024-03-01 | 2024-03-01 | 一种投标信息核查方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410236928.3A CN117808441B (zh) | 2024-03-01 | 2024-03-01 | 一种投标信息核查方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117808441A CN117808441A (zh) | 2024-04-02 |
CN117808441B true CN117808441B (zh) | 2024-05-10 |
Family
ID=90420454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410236928.3A Active CN117808441B (zh) | 2024-03-01 | 2024-03-01 | 一种投标信息核查方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117808441B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112053061A (zh) * | 2020-09-07 | 2020-12-08 | 讯飞智元信息科技有限公司 | 围串标行为识别方法、装置、电子设备和存储介质 |
KR102202584B1 (ko) * | 2020-08-10 | 2021-01-13 | (주) 에스와이소프트 | 순공사원가를 적용한 전자 입찰 분석 방법 및 시스템 |
KR20210059238A (ko) * | 2019-11-15 | 2021-05-25 | 한국전력공사 | 입찰 담합 판정 장치 및 그 방법 |
CN113626655A (zh) * | 2021-08-03 | 2021-11-09 | 国网湖北省电力有限公司信息通信公司 | 提取文件中信息的方法、计算机设备及存储装置 |
CN113806608A (zh) * | 2021-01-20 | 2021-12-17 | 国义招标股份有限公司 | 一种基于大数据的招投标处理系统 |
CN113836373A (zh) * | 2021-01-20 | 2021-12-24 | 国义招标股份有限公司 | 一种基于密度聚类的投标信息处理方法、设备及存储介质 |
CN115062148A (zh) * | 2022-06-23 | 2022-09-16 | 广东国义信息科技有限公司 | 一种基于数据库的风险控制方法 |
CN115600574A (zh) * | 2022-10-31 | 2023-01-13 | 国网北京市电力公司(Cn) | 一种投标文件自动对比方法、装置、设备及介质 |
CN115760258A (zh) * | 2022-11-04 | 2023-03-07 | 中铁一局集团建筑安装工程有限公司 | 投标文件智能生成方法、系统、计算机装置和存储介质 |
CN115759964A (zh) * | 2022-11-07 | 2023-03-07 | 贵州电网有限责任公司 | 一种投标文件通用资格验证的方法、系统及设备 |
KR102514993B1 (ko) * | 2022-08-31 | 2023-03-29 | (주)예람 | 클러스터링을 활용한 입찰 경쟁업체의 투찰금액 예측 방법 |
CN116956192A (zh) * | 2023-07-19 | 2023-10-27 | 中国电信股份有限公司技术创新中心 | 异常数据检测方法、装置、介质、设备 |
CN117011006A (zh) * | 2023-08-07 | 2023-11-07 | 陈涵 | 基于大数据挖掘的电子招标投标监督方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060149674A1 (en) * | 2004-12-30 | 2006-07-06 | Mike Cook | System and method for identity-based fraud detection for transactions using a plurality of historical identity records |
US8131722B2 (en) * | 2006-11-20 | 2012-03-06 | Ebay Inc. | Search clustering |
US20140006172A1 (en) * | 2012-06-29 | 2014-01-02 | Yahoo! Inc. | Method of calculating a reserve price for an auction and apparatus conducting the same |
US20140229307A1 (en) * | 2013-02-12 | 2014-08-14 | Ebay Inc. | Method of identifying outliers in item categories |
-
2024
- 2024-03-01 CN CN202410236928.3A patent/CN117808441B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210059238A (ko) * | 2019-11-15 | 2021-05-25 | 한국전력공사 | 입찰 담합 판정 장치 및 그 방법 |
KR102202584B1 (ko) * | 2020-08-10 | 2021-01-13 | (주) 에스와이소프트 | 순공사원가를 적용한 전자 입찰 분석 방법 및 시스템 |
CN112053061A (zh) * | 2020-09-07 | 2020-12-08 | 讯飞智元信息科技有限公司 | 围串标行为识别方法、装置、电子设备和存储介质 |
CN113806608A (zh) * | 2021-01-20 | 2021-12-17 | 国义招标股份有限公司 | 一种基于大数据的招投标处理系统 |
CN113836373A (zh) * | 2021-01-20 | 2021-12-24 | 国义招标股份有限公司 | 一种基于密度聚类的投标信息处理方法、设备及存储介质 |
CN113626655A (zh) * | 2021-08-03 | 2021-11-09 | 国网湖北省电力有限公司信息通信公司 | 提取文件中信息的方法、计算机设备及存储装置 |
CN115062148A (zh) * | 2022-06-23 | 2022-09-16 | 广东国义信息科技有限公司 | 一种基于数据库的风险控制方法 |
KR102514993B1 (ko) * | 2022-08-31 | 2023-03-29 | (주)예람 | 클러스터링을 활용한 입찰 경쟁업체의 투찰금액 예측 방법 |
CN115600574A (zh) * | 2022-10-31 | 2023-01-13 | 国网北京市电力公司(Cn) | 一种投标文件自动对比方法、装置、设备及介质 |
CN115760258A (zh) * | 2022-11-04 | 2023-03-07 | 中铁一局集团建筑安装工程有限公司 | 投标文件智能生成方法、系统、计算机装置和存储介质 |
CN115759964A (zh) * | 2022-11-07 | 2023-03-07 | 贵州电网有限责任公司 | 一种投标文件通用资格验证的方法、系统及设备 |
CN116956192A (zh) * | 2023-07-19 | 2023-10-27 | 中国电信股份有限公司技术创新中心 | 异常数据检测方法、装置、介质、设备 |
CN117011006A (zh) * | 2023-08-07 | 2023-11-07 | 陈涵 | 基于大数据挖掘的电子招标投标监督方法 |
Non-Patent Citations (2)
Title |
---|
Exiting the Public Scene and Becoming Private: The Magnitude of Bid Premiums in the U.S. Restaurant Industry.《Journal of Hospitality Marketing & Management》.第18卷(第6期),615-631. * |
自然语言处理在招投标文件管理平台中的应用;宋学武,等;《科技创新与应用》;20231231(第29期);189-192 * |
Also Published As
Publication number | Publication date |
---|---|
CN117808441A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
CN111080360B (zh) | 行为预测方法、模型训练方法、装置、服务器及存储介质 | |
CN111612039A (zh) | 异常用户识别的方法及装置、存储介质、电子设备 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN112950347B (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN112990386A (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN115879826B (zh) | 一种基于大数据的精细化工工艺质检方法、系统及介质 | |
CN113435900A (zh) | 交易风险确定方法、装置和服务器 | |
CN112148880A (zh) | 一种客服对话语料聚类方法、系统、设备及存储介质 | |
CN112464051A (zh) | 一种异常数据检测方法、装置及计算机可读存储介质 | |
CN114022270B (zh) | 资产数据处理方法、相关设备及介质 | |
CN112101024B (zh) | 基于app信息的目标对象识别系统 | |
CN117808441B (zh) | 一种投标信息核查方法及系统 | |
CN117235608B (zh) | 风险检测方法、装置、电子设备及存储介质 | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
CN114511409B (zh) | 用户样本处理方法、装置及电子设备 | |
CN114565452A (zh) | 转账风险识别方法、装置、计算机设备和存储介质 | |
Fang | Forecast of Foreclosure Property Market Trends during the Epidemic Based on GA‐BP Neural Network | |
CN114445122A (zh) | 一种用户流失率的预测方法、装置及电子设备 | |
CN113705920A (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
CN113052512A (zh) | 风险预测方法、装置和电子设备 | |
CN113159957B (zh) | 一种交易处理方法及装置 | |
CN111967541B (zh) | 基于多平台样本的数据分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |