CN113836373A

CN113836373A - 一种基于密度聚类的投标信息处理方法、设备及存储介质

Info

Publication number: CN113836373A
Application number: CN202110072560.8A
Authority: CN
Inventors: 徐丹丹; 张磊; 文辉
Original assignee: Guoyi Bidding Co ltd
Current assignee: Guoyi Bidding Co ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-12-24
Anticipated expiration: 2041-01-20
Also published as: CN113836373B; CN116028829B; CN116127346A; CN116028829A

Abstract

本发明公开了一种基于密度聚类的投标信息处理方法、设备及存储介质，方法包括：获取与用户对应的测量参数，根据所述测量参数采用基于密度的聚类算法对用户进行聚类分析，得到聚类结果；获取待分析的投标信息，所述投标信息包括当前招投标活动的参与用户；根据聚类结果判断当前招投标活动的参与用户中是否存在关联关系。本发明实施例通过结合基于密度的聚类算法，避免了传统社团检测算法中需要企业参与投标历史数据的问题，能够通过基于密度的聚类算法在没有投标历史数据的情况下仍能及时发现可能存在的围标串标情况，保证投标过程的公平性。

Description

一种基于密度聚类的投标信息处理方法、设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及基于密度聚类的投标信息处理方法、设备及存储介质。

背景技术

招标投标制度始于上世纪80年代，这项制度对提高工程质量、加强安全管理、控制项目成本等有着极其重要的意义。但是，在招标投标制度实施的30多年来，虚假招标、串通投标、弄虚作假骗取中标等问题一直制约招标投标制度的进一步发展。自2012年以来，“电子化”和“网络化”已成为招标投标的发展趋势。目前，在全国公共资源交易过程中每天能够产生海量的招标投标电子化“数据”，使得将“大数据”技术应用于招标投标提供了重要的前提条件。通过引入“大数据”技术，对招标投标过程中产生的各种“数据”进行有益的收集、整理、加工和利用，充分发挥“数据”在加强招标投标活动的监管中的基础性、预测性和指导性作用，将能够促进招标投标市场健康可持续发展。但是目前的大数据技术运用在招投标领域的应用并不成熟，仍存在诸多缺点，例如后台服务器进行大数据分析时对于围标串标的检测不及时、不准确。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种基于密度聚类的投标信息处理方法、设备及存储介质。

第一方面，本发明实施例提出一种基于密度聚类的投标信息处理方法，包括：

获取与用户对应的测量参数，根据所述测量参数采用基于密度的聚类算法对用户进行聚类分析，得到聚类结果；

获取待分析的投标信息，所述投标信息包括当前招投标活动的参与用户；

根据聚类结果判断当前招投标活动的参与用户中是否存在关联关系。

可选地，所述基于密度的聚类算法为具有噪声的基于密度的聚类方法，根据密度可达关系计算最大密度相连的样本集合，得到的样本集合作为聚类结果。

可选地，所述获取与用户身份特征对应的测量参数，根据所述测量参数采用基于密度的聚类算法对用户进行聚类分析，得到聚类结果，具体包括：

获取用户的测量参数作为样本，若样本数量大于设定阈值则根据 K空间树或球树搜索最近邻，根据所述最近邻采用欧式距离确定聚类算法中的样本距离，并根据所述样本距离和所述测量参数对用户进行聚类分析，得到聚类结果。

可选地，所述测量参数包括地区属性、企业注册资本、成立时间、行业分类、资本类型、企业类型、股东信息、员工人数和/或企业动产抵押信息。

可选地，所述聚类结果包括目标集合和噪音点，对于噪音点数据基于预定义数据集合进行修正，所述预定义数据集合包括已知的关联关系数据，所述已知的关联关系数据包括用于表征两个用户之间存在关联关系的第一关联关系数据和用于表征两个用户之间不存在关联关系的第二关联关系数据。

可选地，设定默认的传递步长，并根据默认的传递步长更新目标集合；所述传递步长为密度可达关系中两个密度可达样本之间的传递样本的数量。

可选地，根据预定义数据集合中的第一关联关系数据，增加传递步长，并根据传递步长更新目标集合。

可选地，根据预定义数据集合中的第二关联关系数据，减少传递步长，并根据改变后的传递步长更新目标集合。

第二方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述基于密度聚类的投标信息处理方法。

第三方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述基于密度聚类的投标信息处理方法。

由上述技术方案可知，本发明实施例通过结合基于密度的聚类算法，避免了传统社团检测算法中需要企业参与投标历史数据的问题，能够通过基于密度的聚类算法在没有投标历史数据的情况下仍能及时发现可能存在的围标串标情况，保证投标过程的公平性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为现有方案提供的一种社团检测算法过程的示意图；

图2为本发明方法一实施例的流程示意图；

图3为本发明一实施例提供的一种样本聚类过程的示意图；

图4为本发明一实施例对于噪音点数据基于用户预定义数据集合进行修正聚类结果的步骤流程图；

图5为本发明一实施例聚类结果修正前样本聚类示意图；

图6为本发明一实施例聚类结果修正后一样本聚类示意图；

图7为本发明一实施例聚类结果修正后另一样本聚类示意图；

图8为本发明一实施例根据预定义数据集合中的数据更新目标集合的步骤流程图；

图9为本发明一实施例聚类结果修正前样本聚类示意图；

图10为本发明一实施例中根据传递步长调整参数更新目标集合的步骤示意图；

图11为本发明一实施例提供的电子设备框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

首先，目前的大数据技术运用在招投标领域的应用并不成熟，例如对于围标串标的违法活动，主要是通过历史投标大数据进行分析来发现围标串标信息，因为围标串标的参与者自然地具备社团属性，因此传统方案通常会想到采用社团检测算法来实现，其主要思想是通过历史数据分析参与招投标的企业之间是否属于同一个社团，即是否存在关联关系。参照图1所示的一种社团检测算法过程，其算法本质是基于图的聚类，点和点之间靠边来进行联系；应用在招投标信息处理时，可以形象地理解为两个企业(点与点)之间需要先建立关联(边)，然后进一步地将由点与边组成的图作为输入，进行社团检测分析。反映在具体的算法上，即需要将企业间一同参与投标的次数作为两个顶点之间的权重，得到企业间的招标投标关系加权复杂网络(例如该网络表示的是企业间一同参加投标的频繁程度)。

然而，社团检测算法的问题在于，其输入数据严重依赖于历史招投标信息，通常需要企业间一同参加投标比较频繁才能检测到企业之间可能存在强关联。而实际存在围标串标，但次数并不频繁时难以检测，并且企业也可能通过不停变换、借助第三人身份进行围标串标的操作；并且即使企业间一同参加招投标比较频繁，被检测到时已经参与了多次违法活动，只能予以事后补救，而无法事先预防，这也是目前大数据检测围标串标信息存在的共同问题。

基于上述问题，本实施例提供的一种基于密度聚类的投标信息处理方法，参照图2的流程示意图，该方法包括：

S1、获取与用户对应的测量参数，根据所述测量参数采用基于密度的聚类算法对用户进行聚类分析，得到聚类结果；上述用户指的是样本数据库中所有的投标用户；

S2、获取待分析的投标信息，所述投标信息包括当前招投标活动的参与用户，此处的参与用户指投标用户；

S3、根据聚类结果判断当前招投标活动的参与用户中是否存在关联关系。

其中，所述测量参数包括地区属性、企业注册资本、成立时间、行业分类、资本类型、企业类型、股东信息、员工人数和/或企业动产抵押信息。

测量参数中包括与投标用户(即投标企业)相关的各种信息，不限于上述描述的内容。但值得注意的是，上述测量参数中没有提到招投标数据，即上文中的历史招投标信息。本实施例因为采用基于密度的聚类算法，不依赖历史招投标信息，因此测量参数中并不必然需要历史招投标信息。但在测量参数中也可加入招投标数据，从而使聚类结果更加精确，本发明中不对其进行限制。

所述聚类结果为根据测量参数对投标用户进行分析后，得到的符合预期的用户的目标集合具体地是根据用户地区属性、企业注册资本、成立时间等这些用户自身的测量参数进行分析，得到招投标活动中关联度高的集合。所述目标集合的用户特征为目标集合中的用户共有的相关特征。

举例来说，在招投标活动中的企业多种多样，各有不同特征，如果无法应用相应的用户(投标企业)信息，就无法准确分析企业之间的关联度。本实施例可采用例如征信机构数据平台来获取用户的一些基本数据，即上述提到的地区属性、企业注册资本、成立时间等。

最后根据聚类结果判断当前招投标活动的参与用户中是否存在两用户同时在一个目标集合中，若是，则当前投标活动中存在有关联度较高的用户，表明很可能存在异常情况。

进一步地，在上述方法实施例的基础上，所述基于密度的聚类算法为具有噪声的基于密度的聚类方法(DBSCAN，Density-Based Spatial Clustering ofApplicationswith Noise)，根据密度可达关系计算最大密度相连的样本集合，得到的样本集合作为聚类结果。

具体地，通过对测量参数的分析，可以将用户划分为不同的群体，每种群体对应一个集合，方便后续针对每个集合中的用户进行进一步分析。

其中，所述具有噪声的基于密度的聚类算法(DBSCAN， Density-Based SpatialClustering ofApplications with Noise)将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN基于一组邻域来描述样本集的紧密程度，反映不同地区属性、企业注册资本等维度和招投标信息的相关度，参数(∈,MinPts)用来描述邻域的样本分布紧密程度，例如在指定维度影响的招投标信息的相关度是否具备明显的聚集性(聚集性越高，证明参数相关性越大)。其中，∈描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为∈的邻域中样本个数的阈值。

举例来说，假设样本集是D＝(x₁,x₂,...,x_m)(等同于企业注册资本、成立时间、行业分类、资本类型、企业类型、股东信息等)，则DBSCAN 具体的密度描述定义如下：

∈-邻域：对于x_j∈D，其∈-邻域包含样本集D中与x_j的距离不大于∈的子样本集，如企业注册资本(以字母M表示)在50万和100 万之间的用户样本可表示为D中包含企业注册资本维度在N_∈(D)＝{M ∈D|distance(30.0,50.0)≤∈}，这个子样本集的个数记为|N_∈(M)|。

核心对象：对于任一样本x_j(M)∈D，如果其∈-邻域对应的N_∈(M) 至少包含MinPts个样本，即如果|N_∈(M)|≥MinPts，则M是核心对象。

密度直达：如果样本中单用户的数据X位于x_j(M)的∈-邻域中，且x_j(M)是核心对象，则称X由x_j(M)密度直达。反之不一定成立，此时不能说x_j(M)由X密度直达，除非且X也是核心对象。

密度可达：对于X和x_j(M)，如果存在样本序列p₁,p₂,...,p_T,满足p₁＝X,p_T＝x_j(M)，且p_t+1由p_t密度直达，则称x_j(M)由X密度可达，密度可达满足传递性。此时序列中的传递样本p₁,p₂,...,p_T-1均为核心对象，因为只有核心对象才能使其他样本密度直达。密度可达也不满足对称性，这个可以由密度直达的不对称性得出。其中样本p₁与p_T之间传递样本(p₁,p₂,...,p_T-1)个数记为T-1，定义两个样本之间最短传递路径中传递样本的个数为传递步长，则传递步长为T-1。

密度相连：对于X和x_j(M)，如果存在核心对象样本x_k(M)，使X和x_j(M)均由x_k(M)密度可达，则称X和x_j(M)密度相连。密度相连关系是满足对称性的。

举个直观的例子来阐述上述算法，如图3所示，图中MinPts＝5 箭头连接的点都是核心对象，因为其∈-的邻域至少有5个样本。除箭头连接的点以外的点是非核心对象。所有核心对象密度直达样本在以核心对象为中心的球体内，如果不在球体内则不能密度直达。图中用箭头连起的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的∈-邻域内所有的样本相互都是密度相连的。

具体地，DBSCAN的聚类很简单：由密度可达关系导出的最大密度相连的样本集合，得到最终聚类的一个类别或者说一个簇，作为聚类结果。一个DBSCAN的簇里面可以有一个或者多个核心对象。如果只存在一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的∈-邻域里；如果存在多个核心对象，则簇里的任意一个核心对象的∈-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达。这些核心对象的∈-邻域里所有的样本的集合组成的一个 DBSCAN聚类簇。

在聚类过程中，任意选择一个没有类别的核心维度作为种子，然后找到所有这个核心维度能够密度可达的样本集合，即为一个聚类簇 (一群特定维度的用户聚集)；接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇；一直运行到所有维度都找到自己的核心用户区，然后把偏远维度或者说少量游离于簇外的样本点，标记为噪音点。

DBSCAN聚类算法在维度权重中的具体应用如下：

输入：样本集D＝(地区属性、企业注册资本、成立时间、行业分类、资本类型、企业类型、股东信息、员工人数、企业动产抵押信息……)，邻域参数(∈,MinPts)，样本距离度量方式。

输出：簇划分C。

DBSCAN聚类算法在实际应用过程中，包括以下详细步骤：

(1)、初始化核心对象集合

初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D,簇划分

(2)、对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

通过距离度量方式，找到样本xj(M)的∈-邻域子样本集N_∈(M)；或，如果子样本集样本个数满足|N_∈(M)|≥MinPts，将样本M加入核心对象样本集合：Ω＝Ω∪{M}；

(3)、如果核心对象集合Ω＝□，则算法结束，否则转入步骤(4)；

(4)、在核心对象集合Ω中，随机选择下一个核心对象o(地区属性)，初始化当前簇核心对象队列Ωcur＝{o(地区属性)},初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o(地区属性)},更新未访问样本集合Γ＝Γ-{o(地区属性)}；

(5)、如果当前簇核心对象队列Ωcur＝□，则当前聚类簇C_k生成完毕,更新簇划分C＝{企业注册资本,地区属性,...},更新核心对象集合Ω＝Ω-C_k，转入步骤(3)；

(6)、在当前簇核心对象队列Ωcur中取出一个核心对象o′, 通过邻域距离阈值∈找出所有的∈-邻域子样本集N_∈(o′)，令Δ＝N_∈(o′) ∩Γ,更新当前簇样本集合C_k＝C_k∪Δ,更新未访问样本集合Γ＝Γ- Δ,更新Ωcur＝Ωcur∪(Δ∩Ω)-o′，转入步骤(5)。

输出结果为：簇划分C＝{C₁，C₂，…，C_k}

进一步地，在上述方法实施例的基础上，步骤S1所述获取与用户身份特征对应的测量参数，根据所述测量参数采用基于密度的聚类算法对用户进行聚类分析，得到聚类结果，具体包括：

获取用户的测量参数作为样本，若样本数量大于设定阈值则根据 K空间树或球树搜索最近邻，根据所述最近邻采用欧式距离确定聚类算法中的样本距离，并根据所述样本距离和所述测量参数对用户进行聚类分析，得到聚类结果，并且该聚类结果作为后续聚类结果进行修正的基础。相应地，下文中描述的对于噪音点数据基于预定义数据集合进行修正聚类结果、基于修改传递步长更新目标集合时，由于预定义数据集合的数据并非与投标用户直接关联，反映的只是当前招标用户所掌握的数据(不一定真实)或选择偏好，因此基于预定义数据集合进行目标集合的更新(包括噪音点的修正)不作为后续其他招投标活动中聚类结果进行修正的基础。。

与传统的K-Means算法相比，DBSCAN最大的不同就是不需要输入类别数k，优势在于可以发现任意形状的聚类簇。具体在解决 DBSCAN距离度量问题时，根据用户样本采用最近邻方法，采用某一种距离度量(例如欧式距离)来衡量样本距离。当用户样本量相对较少时，寻找最近邻可直接计算所有样本的距离；当用户样本量相对较大时，可采用K空间树或者球树来快速地搜索最近邻。

进一步地，所述聚类结果包括目标集合和噪音点，在上述方法实施例步骤S1得到聚类结果的基础上，对于噪音点数据基于预定义数据集合修正聚类结果，所述预定义数据集合包括已知的关联关系数据，所述已知的关联关系数据包括用于表征两个用户之间存在关联关系的第一关联关系数据和用于表征两个用户之间不存在关联关系的第二关联关系数据。

此处预定义数据集合指的是当前招投标活动的招标用户预定义的数据集合，由当前招标用户自定义，预定义数据集合的数据并非与投标用户直接关联，反映的只是当前招标用户所掌握的数据(不一定真实准确)或选择偏好。例如当前招投标活动的招标用户已知用户A 与B存在关联关系，则在预定义数据集合中存入用户A与B的信息，并标记A与B之间存在第一关联关系；例如已知用户A与B确定不存在关联关系，则在预定义数据集合中存入用户A与B的信息，并标记A与B之间存在第二关联关系。参照图4，若步骤S1中计算得到的聚类结果中表明某样本点(投标用户C)为噪音点时，可基于预定义数据集合对样本点进行再次验证，若某样本点(投标用户C)存在于预定义数据集合中，且与其他样本点(投标用户D)存在第一关联关系，则表示实际上该样本点应该归属于某一个簇样本集合C_j，因此通过预定义数据集合可防止因为大数据集的数据不完整而造成的对围标串标情况的遗漏检测，利用当前用户所掌握的信息对大数据聚类结果进行补充或修正。

进一步地，在上述方法实施例步骤S1得到聚类结果的基础上，设定默认的传递步长，并根据默认的传递步长更新目标集合；所述传递步长在上文中已定义，即为密度可达关系中两个密度可达样本之间的传递样本的数量。

对应到具体的关联关系检测上，由于围标串标认定的标准需要相对严格，以避免将实际上存在一定弱关联的用户误认为存在本发明中所要求的围标串标才具有的强关联关系，在具体实施例中可设定默认的传递步长，将聚类结果中的目标集合分解为多个目标集合，则其中原本存在于同一目标集合中的样本点在目标集合分解之后属于不同的目标集合，可以理解为需要更强的关联关系才能被认定为可能存在围标串标。以图5为例，若将其中默认的传递步长设置为3，由于原图中点p₁至点p₅的传递步长为4，则原来的一个簇中将分解为两个簇，如图6和图7所示。

进一步地，在上述方法实施例步骤S1得到聚类结果的基础上，根据预定义数据集合对聚类结果进行修正，参照图8，其修正方式可包括以下两种：

(1)根据预定义数据集合中的第一关联关系数据，增加传递步长，并根据传递步长更新目标集合。

参照图8，首先读取预定义数据集合中存在第一关联关系的数据，例如用户A与B之间存在第一关联关系；判断基于默认的传递步长分解后的某个目标集合中是否同时存在A和B；若同时存在A和B，则表示默认的传递步长设置未发现不合理，无需更新目标集合；若任一目标集合中都不同时存在A和B，则表示默认的传递步长设置不合理，需增加传递步长以扩大目标集合，使更新后的目标集合同时存在 A和B，此时目标集合中其他用户之间的关联关系才能够更准确。

假设在上述实施例的基础上，默认的传递步长设置为3，由于原图5中点p₁至点p₅的传递步长为4，则原来的一个簇中将分解为两个簇，如图6和图7所示。此时又在预定义数据集合中发现点p1与点p₅存在第一关联关系，则此时需要将传递步长增加至4使更新后的目标集合同时存在A和B，相当于需要将如图6和图7所示的两个簇合并为如图5所示一个簇。

特殊情况下，若最开始步骤S1计算的聚类结果(未设置传递步长)中不同时存在A和B，则此时无论如何增加传递步长都不能使更新后的目标集合同时存在A和B，此时需要将A所在的簇Cm与B 所在的簇Cn进行融合，其中A、B也可以是噪音点。

如图9所示，假设在上述实施例的基础上，默认的传递步长设置为3，图9中点p₁至点p₅的传递步长为4，则原来的一个簇中将分解为两个簇，这四个簇中的核心对象数据点(样本序列)分别为{p₁， p₂，p₃，p₄}，{p₂，p₃，p₄，p₅}，如图6和图7所示；同样的，图9 中点p₆至点p₁₂的传递步长为6，则原来的一个簇中将分解为四个簇，这四个簇中的核心点(样本序列)分别为{p₆，p₇，p₈，p₉}，{p₇，p₈， p₉，p₁₀}，{p₈，p₉，p₁₀，p₁₁}，{p₉，p₁₀，p₁₁，p₁₂}。同时，假设A 为图中点p₁₀，B为图中点p₃，分别将包含A的目标集合与包含B的目标集合合并，得到的目标集合中，对应簇中的核心对象数据点分别为{p₁，p₂，p₃，p₄，p₇，p₈，p₉，p₁₀}，{p₁，p₂，p₃，p₄，p₈，p₉，p₁₀，p₁₁}，{p₁，p₂，p₃，p₄，p₉，p₁₀，p₁₁，p₁₂}，{p₂，p₃，p₄，p₅， p₇，p₈，p₉，p₁₀}，{p₂，p₃，p₄，p₅，p₈，p₉，p₁₀，p₁₁}，{p₂，p₃，p₄， p₅，p₉，p₁₀，p₁₁，p₁₂}，{p₇，p₈，p₉，p₁₀，p₁，p₂，p₃，p₄}，{p₈， p₉，p₁₀，p₁₁，p₁，p₂，p₃，p₄}，{p₉，p₁₀，p₁₁，p₁₂，p₁，p₂，p₃，p₄}， {p₇，p₈，p₉，p₁₀，p₂，p₃，p₄，p₅}，{p₈，p₉，p₁₀，p₁₁，p₂，p₃，p₄， p₅}，{p₉，p₁₀，p₁₁，p₁₂，p₂，p₃，p₄，p₅}，目标集合合并后不需要增加传递步长即可使更新后的目标集合同时存在A和B，此时再根据当前设定的传递步长4对上述合并的目标集合进行分解，最后得到相应的更新后的目标集合。以其中一个合并的目标集合为例，其对应簇中的核心对象数据点为{p₁，p₂，p₃，p₄，p₇，p₈，p₉，p₁₀}，则分解后得到5个对应簇中的核心对象数据点分别为{p₁，p₂，p₃，p₄}，{p₂，p₃，p₄，p₇}，{p₃，p₄，p₇，p₈}，{p₄，p₇，p₈，p₉}，{p₇，p₈， p₉，p₁₀}，因此相对于更新前的目标集合，增加了3个新的目标集合。

(2)根据预定义数据集合中的第二关联关系数据，减少传递步长，并根据改变后的传递步长更新目标集合。

参照图7，首先读取预定义数据集合中存在第二关联关系的数据，例如用户A与B之间存在第二关联关系；判断基于默认的传递步长分解后的某个目标集合中是否同时存在A和B；若同时存在A和B，则表示默认的传递步长设置不合理，需减少传递步长以缩小目标集合，使更新后的目标集合不同时存在A和B，此时目标集合中其他用户之间的关联关系才能够更准确；则表示默认的传递步长设置未发现不合理，无需更新目标集合；若任一目标集合中都不同时存在A和B，则表示默认的传递步长设置合理，无需更新目标集合。

特殊情况下，若最开始步骤S1计算的聚类结果中同时存在A和 B，且传递步长为1(相当于A由B密度直达或者B由A密度直达)，则此时无法使更新后的任一目标集合中都不同时存在A和B；另一特殊情况下，若最开始步骤S1计算的聚类结果中同时存在A和B，且传递步长为2，则此时只有减少传递步长至1才能使更新后的任一目标集合中都不同时存在A和B，但减少传递步长至1也可能不合理。上述两种特殊情况下，需要设定一个传递步长的下限，例如将下限值设置为3，或者需要设定一个传递步长减少量的上限，例如限定传递步长最多减少2，再更新目标集合，此时传递步长的减少体现了对聚类结果的修正，但是仍可能存在某个目标集合中同时存在A和B，因此需要在步骤S3中添加例外情况，即使A与B存在第一关联关系，此时也不认为A与B代表的用户之间存在围标串标的关联关系。

对于DBSCAN聚类算法，其主要缺点在于调参相对于传统的 K-Means之类的聚类算法稍复杂，主要需要对距离阈值∈，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。上述实施例中采用设置传递步长的方式，在计算聚类结果之后不会因为需要修正数据再进行联合调参，避免了大量的重新计算，同时也提高聚类精度；特别是在本发明实施例中引入对噪音点的再次验证，避免每一次根据噪音点的修正都需要重新联合调参，同时也为招标用户的偏好设置提供便利，单个招标用户的偏好与其他招标用户不会相互影响。

上述实施例详细说明了根据预定义数据集合进行修正的步骤，其主要是根据招标用户所掌握的关联关系信息对聚类结果进行自动修正。然而在某些情况下采用上述自动修正的方式可能无法达到理想的结果，例如实际应用中发现，大多数公司在招标时为了避免舞弊，会要求参与投标的用户(企业)需要大于一定数量，否则无法启动招标流程，然而上述具体实施例得到的聚类结果可能得到符合要求的投标用户数量不足，因此除了让招标用户输入预定义数据之外，还可采用让招标用户输入传递步长调整参数。

进一步地，在上述实施例的基础上，还包括：

传递步长调整参数获取步骤，即获取当前招投标活动的招标用户输入的传递步长调整参数；

目标集合更新步骤，即根据传递步长调整参数计算新的传递步长，并根据传递步长更新目标集合；

推荐用户生成步骤，在更新后的目标集合中除去当前招投标活动的参与用户所在的目标集合，在剩下的每个目标集合中选取一个投标用户作为推荐用户。

招标用户输入预定义数据集合的数据后，根据具体情况修改传递步长从而实现对聚类结果的修正，但是预定义数据集合并不能直接控制传递步长的增加或减小。因此，在本发明一些实施例中，直接获取获取当前招投标活动的招标用户输入的传递步长调整参数进行调整，例如根据步骤S1得到的聚类结果对待分析的投标信息(包括参与用户)进行判断并删除存在关联关系的参与用户后，得到符合要求的参与(投标)用户数量不足时，根据传递步长调整参数减少传递步长，从而使修改后的目标集合数量增加，相应的符合要求的参与(投标) 用户数量增加。在更新后的目标集合中除去当前招投标活动的参与用户所在的目标集合，在剩下的每个目标集合中选取一个投标用户作为推荐用户，以此保证推荐用户中相互之间不存在关联关系。对于推荐用户，可由当前招投标活动的招标用户发送投标邀请信息(因为这部分推荐用户是新增的，因此不在当前招投标活动的参与投标用户名单中)。因此招标用户可根据上述步骤获取推荐信息，可用于解决符合要求的投标用户数量不足的问题。

所述传递步长调整参数可以是以下两种：(1)、具体的步长调整值；(2)、步长调整方向。

参照图10，第一种情况下，所述传递步长调整参数为具体的步长调整值时，直接根据传递步长调整参数进行调整，例如步长调整值为step＝1时表示传递步长加1，传递步长调整值为step＝-1时表示传递步长减1，此时根据具体的步长调整值更新目标集合。然后可以对符合招投标要求的参与用户的数量进行输出显示。此时若招标用户注意到投标用户的数量仍然不符合预期时，可再次输入传递步长调整参数，再次执行传递步长调整参数获取步骤以及目标集合更新步骤，直至结果符合预期。

参照图10，第二种情况下，所述传递步长调整参数为具体的长调整方向时，传递步长调整参数仅表示传递步长是增加(dir＝1)还是减小(dir＝-1)。以传递步长调整参数仅表示传递步长减小为例，参照前述实施例以及附图5-7可知，更新后的目标集合数量增加，一个目标集合中同时存在的数据点减少，因此表示有关联关系的数据点减少，对应地表示符合要求的投标用户数量增加。具体的更新方式可采用最小传递步长修改值step_min以及设定投标用户数量阈值user_th结合，例如设定传递步长调整参数dir＝-1，传递步长减小，最小传递步长修改值为step_min＝1，则每一次更新目标集合前将传递步长值减1，更新后判断符合条件的投标用户数量是否大于设定投标用户数量阈值，若是则完成修正，若否，则继续将传递步长值减1，更新后判断投标用户数量，如此循环直至更新后符合条件的投标用户数量大于设定投标用户数量阈值。

通常是步骤S1得到的聚类结果得到符合要求的投标用户数量不足时采用设定传递步长调整参数dir＝-1，传递步长减小的方式进行修正。极少数情况下也可能是步骤S1得到的聚类结果得到符合要求的投标用户数量过多而需要进行修正，此时的符合要求的投标用户数量显然是大于设定的投标用户数量阈值user_th，因此设定传递步长调整参数dir＝1，在具体计算过程中以最小传递步长修改值为step_min＝1进行计算，使符合要求的投标用户数量相应减少，但要保证计算结果能够大于阈值user_th。通常进行一次计算即可，因此为了避免计算过程陷入正反馈循环，符合要求的投标用户数量小于阈值user_th时，退回到根据传递步长更新目标集合之前的状态，并且直接设定为完成修正过程。例如步骤S1得到的聚类结果得到符合要求的投标用户数量为 50，而设定投标用户数量阈值user_th＝20，传递步长为4，因为设定传递步长调整参数dir＝1，且最小传递步长修改值为step_min＝1，则传递步长修正为5进行计算，假设计算结果得到符合要求的投标用户数量为15，此时符合要求的投标用户数量小于阈值20，需要退回到根据传递步长为5更新目标集合之前的状态，即回到根据传递步长为4更新目标集合的状态。

本发明具体实施例还可通过传递步长调整参数以及可视化显示的结合，可在网页客户端先获取招标用户输入的传递步长调整参数，然后根据传递步长调整参数直接实现符合招标用户需求的聚类结果的修正，不需要重新从头开始计算聚类结果，计算速度快，并且修正的结果可以仅仅用于当前招投标活动的计算，不影响之后其他招标用户招投标活动的判断，从而在增加计算速度的同时避免了单个用户偏好对其他用户的影响。

参照图11，所述电子设备，包括：处理器101、存储器102和总线103；所述处理器101和存储器102通过所述总线103完成相互间的通信；所述处理器101用于调用所述存储器102中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于密度聚类的投标信息处理方法，其特征在于，包括：

2.根据权利要求1所述的基于密度聚类的投标信息处理方法，其特征在于，所述基于密度的聚类算法为具有噪声的基于密度的聚类方法，根据密度可达关系计算最大密度相连的样本集合，得到的样本集合作为聚类结果。

3.根据权利要求2所述的基于密度聚类的投标信息处理方法，其特征在于，所述获取与用户身份特征对应的测量参数，根据所述测量参数采用基于密度的聚类算法对用户进行聚类分析，得到聚类结果，具体包括：

获取用户的测量参数作为样本，若样本数量大于设定阈值则根据K空间树或球树搜索最近邻，根据所述最近邻采用欧式距离确定聚类算法中的样本距离，并根据所述样本距离和所述测量参数对用户进行聚类分析，得到聚类结果。

4.根据权利要求1-3任一项所述的基于密度聚类的投标信息处理方法，其特征在于，所述测量参数包括地区属性、企业注册资本、成立时间、行业分类、资本类型、企业类型、股东信息、员工人数和/或企业动产抵押信息。

5.根据权利要求2所述的基于密度聚类的投标信息处理方法，其特征在于，还包括：

所述聚类结果包括目标集合和噪音点，对于噪音点数据基于预定义数据集合进行修正，所述预定义数据集合包括已知的关联关系数据，所述已知的关联关系数据包括用于表征两个用户之间存在关联关系的第一关联关系数据和用于表征两个用户之间不存在关联关系的第二关联关系数据。

6.根据权利要求5所述的基于密度聚类的投标信息处理方法，其特征在于，设定默认的传递步长，并根据默认的传递步长更新目标集合；所述传递步长为密度可达关系中两个密度可达样本之间的传递样本的数量。

7.根据权利要求6所述的基于密度聚类的投标信息处理方法，其特征在于，根据预定义数据集合中的第一关联关系数据，增加传递步长，并根据传递步长更新目标集合。

8.根据权利要求6所述的基于密度聚类的投标信息处理方法，其特征在于，根据预定义数据集合中的第二关联关系数据，减少传递步长，并根据改变后的传递步长更新目标集合。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的基于密度聚类的投标信息处理方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于密度聚类的投标信息处理方法。