CN117763382A

CN117763382A - 客户群体分群方法及装置

Info

Publication number: CN117763382A
Application number: CN202311532571.5A
Authority: CN
Inventors: 龙一帆
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-03-26

Abstract

本申请涉及大数据及人工智能技术领域，本发明提供了一种客户群体分群方法及装置，对应的方法包括：对所述客户群体的特征数据注入噪音，以生成含有噪音的特征数据；根据预先生成的密度聚类模型对所述含有噪音的特征数据进行一次聚类，以生成一次聚类结果；根据预先生成的K‑均值聚类模型对所述一次聚类结果进行二次聚类。本发明可以帮助企业更好地保护客户隐私，同时提高客户特征数据分析的效率和准确性，为企业提供更好的商业价值和竞争优势。

Description

客户群体分群方法及装置

技术领域

本申请涉及大数据及人工智能技术领域，可用于金融领域，具体涉及一种客户群体分群方法及装置。

背景技术

在大数据背景下，往往需要针对适合的客户群体制定对应的销售策略，现有技术中的分群方法是根据业务逻辑对客户特征和需求的理解，通过人工设定规则或标准来将客户分成不同的群组。由于根据业务逻辑分群通常需要事先定义好客户特征和规则，并收集相应的数据。其分群结果受到人为规则和主观判断的影响，极有可能存在个人偏见或局限性。并且当数据量很大时，手动设定规则和标准变得困难且耗时。

目前，业界人员一般是通过K-Means(k-means clustering algorithm)聚类算法对用户进行分群，该聚类算法是一种自动化聚类的方法，可以根据数据的变化自动更新聚类结果，具有较高的灵活性和可扩展性。K-Means聚类算法的特点便是自动化和高效、适用于大规模数据、无监督学习。但K-Means聚类算法对初始聚类中心的选择非常敏感，这可能会导致不同的初始值得到不同的聚类结果，会影响聚类结果的准确性。

发明内容

本发明可用于大数据及人工智能技术在金融方面应用的技术领域，也可用于除金融领域之外的任意领域。

本发明的一个目的在于提供一种客户群体分群方法，该方法首先基于密度的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法根据业务需求和数据特点，设置一个密度阈值，筛选出密度高于该阈值的簇作为初始的聚类中心候选。这样选出来的初始中心能够确保具有一定的代表性，再通过K-Means聚类算法进行二次迭代聚类，从而保证最后的聚类结果既去除了分群主观性，并具有代表性。

本发明的另一个目的在于提供一种客户群体分群装置。本发明的另一个目的在于提供一种电子设备，该电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述客户群体分群方法的步骤。本发明的还一个目的在于提供一种可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述客户群体分群方法的步骤。

为解决本申请背景技术中的技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种客户群体分群方法包括：

对所述客户群体的特征数据注入噪音，以生成含有噪音的特征数据；

根据预先生成的密度聚类模型对所述含有噪音的特征数据进行一次聚类，以生成一次聚类结果；

根据预先生成的K-均值聚类模型对所述一次聚类结果进行二次聚类。

在本发明的一实施例中，对所述客户群体的特征数据注入噪音，以生成含有噪音的特征数据，包括：

根据所述特征数据确定所述含有噪音的特征数据的敏感性参数；

根据预先确定的针对所述特征数据的隐私保护程度参数确定隐私预算；

根据所述敏感性参数以及所述隐私预算对所述特征数据注入噪音，以生成所述含有噪音的特征数据。

在本发明的一实施例中，根据所述敏感性参数以及所述隐私预算对所述特征数据注入噪音，以生成所述含有噪音的特征数据，包括：

根据所述敏感性参数以及所述隐私预算生成拉普拉斯噪音；

将所述拉普拉斯噪音注入至所述特征数据中，以生成所述含有噪音的特征数据。

在本发明的一实施例中，根据所述敏感性参数以及所述隐私预算生成拉普拉斯噪音，包括：

根据所述敏感性参数以及所述隐私预算生成尺度参数；

根据所述尺度参数以及随机变量生成具有拉普拉斯分布的概率密度函数；

根据所述概率密度函数生成所述拉普拉斯噪音。

在本发明的一实施例中，生成所述密度聚类模型的步骤包括：

进行以下迭代操作，直至所有训练数据满足预设的客户群体的第一分群目标，以生成所述密度聚类模型：

计算训练数据在数据空间上的点与预设点的第一距离；

根据所述第一距离以及预设的领域半径将对应的训练数据划分至对应预设点的空间域内；其中，所述预设点的初始值以及所述领域半径的初始值是由所述第一分群目标所确定的；

根据当前所述训练数据的划分结果以及所述第一分群目标对所述预设点进行更新。

在本发明的一实施例中，生成所述的K-均值聚类模型的步骤包括：

进行以下迭代操作，直至所述训练数据的划分结果满足预设的客户群体的第一分群目标，以生成所述K-均值聚类模型：

在划分结果中的每个簇中选出聚类中心；

在所述每个簇中，计算每个点与所述聚类中心的第二距离；

根据所述第二距离将所述每个点划分至距离所述每个点最近的簇中；

计算每个簇内所述点的距离均值，以更新所述聚类中心。

在本发明的一实施例中，在所述根据预先生成的K-均值聚类模型对所述一次聚类结果进行二次聚类之前，还包括：

根据所述特征数据以及所述客户群体的分群需求确定密度阈值；

根据所述密度阈值对所述一次聚类结果进行筛选。

第二方面，本发明提供一种客户群体分群装置，该装置包括：

噪音注入模块，用于对所述客户群体的特征数据注入噪音，以生成含有噪音的特征数据；

一次聚类模块，用于根据预先生成的密度聚类模型对所述含有噪音的特征数据进行一次聚类，以生成一次聚类结果；

二次聚类模块，用于根据预先生成的K-均值聚类模型对所述一次聚类结果进行二次聚类。

在本发明的一实施例中，噪音注入模块包括：

敏感性参数确定单元，用于根据所述特征数据确定所述含有噪音的特征数据的敏感性参数；

隐私预算确定单元，用于根据预先确定的针对所述特征数据的隐私保护程度参数确定隐私预算；

噪音注入单元，用于根据所述敏感性参数以及所述隐私预算对所述特征数据注入噪音，以生成所述含有噪音的特征数据。

在本发明的一实施例中，噪音注入单元包括：

拉普拉斯噪音生成单元，用于根据所述敏感性参数以及所述隐私预算生成拉普拉斯噪音；

噪音特征数据生成单元，用于将所述拉普拉斯噪音注入至所述特征数据中，以生成所述含有噪音的特征数据。

在本发明的一实施例中，拉普拉斯噪音生成单元包括：

尺度参数生成单元，用于根据所述敏感性参数以及所述隐私预算生成尺度参数；

概率密度函数生成单元，用于根据所述尺度参数以及随机变量生成具有拉普拉斯分布的概率密度函数；

拉普拉斯噪音生成子单元，用于根据所述概率密度函数生成所述拉普拉斯噪音。

在本发明的一实施例中，客户群体分群装置还包括：

密度聚类模型生成模块，用于生成所述密度聚类模型，密度聚类模型生成模块包括：

迭代操作第一单元，用于进行以下迭代操作，直至所有训练数据满足预设的客户群体的第一分群目标，以生成所述密度聚类模型：

第一距离确定单元，用于计算训练数据在数据空间上的点与预设点的第一距离；

训练数据划分单元，用于根据所述第一距离以及预设的领域半径将对应的训练数据划分至对应预设点的空间域内；其中，所述预设点的初始值以及所述领域半径的初始值是由所述第一分群目标所确定的；

预设点更新单元，用于根据当前所述训练数据的划分结果以及所述第一分群目标对所述预设点进行更新。

在本发明的一实施例中，客户群体分群装置还包括：

K-均值聚类模型生成模块，用于生成所述的K-均值聚类模型，K-均值聚类模型生成模块包括：

迭代操作第二单元，用于进行以下迭代操作，直至所述训练数据的划分结果满足预设的客户群体的第一分群目标，以生成所述K-均值聚类模型：

聚类中心选出单元，用于在划分结果中的每个簇中选出聚类中心；

第二距离计算单元，用于在所述每个簇中，计算每个点与所述聚类中心的第二距离；

点划分单元，用于根据所述第二距离将所述每个点划分至距离所述每个点最近的簇中；

聚类中心更新单元，用于计算每个簇内所述点的距离均值，以更新所述聚类中心。

在本发明的一实施例中，客户群体分群装置还包括：

密度阈值确定模块，用于根据所述特征数据以及所述客户群体的分群需求确定密度阈值；

一次聚类结果筛选模块，用于根据所述密度阈值对所述一次聚类结果进行筛选。

第三方面，本发明提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现一种客户群体分群方法的步骤。

第四方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现客户群体分群方法的步骤。

第五方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现客户群体分群方法的步骤。

从上述描述可知，本发明实施例提供一种客户群体分群方法及装置，对应的方法包括：首先对客户群体的特征数据注入噪音，以生成含有噪音的特征数据；接着，根据预先生成的密度聚类模型对含有噪音的特征数据进行一次聚类，以生成一次聚类结果；最后根据预先生成的K-均值聚类模型对一次聚类结果进行二次聚类。

本发明结合个人客户织网补网的需要，将“大客群”进一步切分为“小客群”，找到最有价值、最有空间的客户，实现重点客群“一群一策”的精细化运营。通过基于密度的DBSCAN聚类算法与K-Means聚类算法的结合使用，可以将大量的客户数据分成多个具有代表性的类别，从而帮助本行更好地理解客户需求和行为，并制定相应的营销策略和服务方案，提高经济效益和客户满意度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例中客户群体分群方法的流程示意图一；

图2为本发明的实施例中客户群体分群方法的步骤100的流程示意图；

图3为本发明的实施例中客户群体分群方法的步骤103的流程示意图；

图4为本发明的实施例中客户群体分群方法的步骤1031的流程示意图；

图5为本发明的实施例中客户群体分群方法的流程示意图二；

图6为本发明的实施例中客户群体分群方法的流程示意图三；

图7为本发明的实施例中客户群体分群方法的步骤400的流程示意图；

图8为本发明的实施例中客户群体分群方法的流程示意图四；

图9为本发明的实施例中客户群体分群方法的步骤500的流程示意图；

图10为本发明的实施例中客户群体分群方法的流程示意图五；

图11为本发明的具体实施方式中客户群体分群方法的流程示意图；

图12为本发明的具体实施方式中客户群体分群方法的思维导图；

图13为本发明的具体实施方式中客户群体分群装置的方块图一；

图14为本发明的实施例中客户群体分群装置的噪音注入模块10的方块图；

图15为本发明的实施例中客户群体分群装置的噪音注入单元10c的方块图；

图16为本发明的实施例中客户群体分群装置的拉普拉斯噪音生成单元10c1的方块图；

图17为本发明的具体实施方式中客户群体分群装置的方块图二；

图18为本发明的实施例中客户群体分群装置的密度聚类模型生成模块40的方块图；

图19为本发明的具体实施方式中客户群体分群装置的方块图三；

图20为本发明的实施例中客户群体分群装置的K-均值聚类模型生成模块50的方块图；

图21为本发明的具体实施方式中客户群体分群装置的方块图四；

图22为本发明的实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。

本发明的实施例提供一种客户群体分群方法的具体实施方式，参见图1，该方法具体包括如下内容：

步骤100：对所述客户群体的特征数据注入噪音，以生成含有噪音的特征数据；

步骤200：根据预先生成的密度聚类模型对所述含有噪音的特征数据进行一次聚类，以生成一次聚类结果；

步骤300：根据预先生成的K-均值聚类模型对所述一次聚类结果进行二次聚类。

从上述描述可知，本发明实施例提供一种客户群体分群方法，包括：首先对客户群体的特征数据注入噪音，以生成含有噪音的特征数据；接着，根据预先生成的密度聚类模型对含有噪音的特征数据进行一次聚类，以生成一次聚类结果；最后根据预先生成的K-均值聚类模型对一次聚类结果进行二次聚类。

本发明可以帮助企业更好地保护客户隐私，同时提高客户特征数据分析的效率和准确性，为企业提供更好的商业价值和竞争优势。

在本发明的一些实施例中，对于步骤100有，现有技术一般通过DSP(DigitalSignal Processing)加密方式为用户的隐私数据加密，但该加密方式在隐私保护上存在一定局限性，DSP加密主要关注数据的安全性，对于隐私保护的考虑相对较少。虽然数据加密可以防止未经授权的访问，但一旦数据被解密，可能会面临隐私泄露的风险。同时DSP加密也缺乏数学保证，其与差分隐私不同，DSP加密技术在数学上可能缺乏严格的隐私保护保证。它更依赖于加密算法的安全性和密钥管理的可靠性。

在本发明的一些实施例中，步骤200中的密度聚类模型优先选取DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法所生成，DBSCAN是一种基于密度的聚类算法，能够识别出不同密度的数据簇。

步骤200在实施时，通过应用DBSCAN算法对客户的特征数据进行聚类，以发现潜在的数据簇。具体地，根据特征数据对应的数据点的密度来划分聚类。以一个未访问的数据点作为起始点，找出其邻域内的所有密度可达点，如果该邻域内的数据点数量达到指定的阈值，则将这些点归为一个簇；如果该邻域内的数据点数量小于阈值，则将该点标记为噪声点。然后，继续遍历未访问的数据点，重复上述过程，直到所有的特征数据对应的数据点都被访问。

在本发明的一些实施例中，步骤300中的K-均值聚类模型由K-Means聚类算法所生成，可以理解的是，K-Means聚类是一种无监督学习算法，可以将数据集划分为多个不同的簇，每个簇内的数据点相似度较高，而簇与簇之间的相似度较低。将通过DBSCAN聚类筛选出的簇作为K-Means聚类的初始聚类中心进行二次迭代聚类，以实现高效个性化的客户分群。将两种算法结合起来应用于将“大客群”进一步切分为战术“小客群”，找到最有价值、最有空间的客户，从而制定“一群一策”的精细化营销策略。

步骤300在实施时，首先随机选择K个簇中心。然后，对于由步骤200中确定的每个簇中的每个数据点，计算其与每个簇中心的距离，并将其归属到距离最近的簇中心所对应的簇中。接下来，更新每个簇的中心，即将簇中所有数据点的均值作为新的簇中心。重复上述过程，直到簇中心不再发生变化或达到预定的迭代次数。

在本发明的一些实施例中，参见图2，步骤100包括：

步骤101：根据所述特征数据确定所述含有噪音的特征数据的敏感性参数；

具体地，敏感性参数S根据客户数据中的特征数据决定，优选地，将敏感度参数设置为客户资产额度的最大变化量。

敏感性参数用于衡量数据集中某个单个个体对于算法输出的影响程度。具体来说，敏感性参数来说，任意两个数据集D和D’，它们只在一个个体上存在不同，那么算法输出的结果在D和D’上的差异不会超过敏感性的限制。

优选地，敏感性通过特征参数数据集中的最大变化量来衡量。例如，在计算平均值时，敏感性定义为数据集中某个个体值的最大差值；在计算总和时，敏感性定义为数据集中某个个体值的最大绝对值。

步骤102：根据预先确定的针对所述特征数据的隐私保护程度参数确定隐私预算；

隐私预算用于表征在一系列数据查询或计算中，允许对个体隐私泄露的总量。隐私预算值越小，表示隐私保护级别越高。具体来说，对于一个给定的差分隐私算法，如果它满足差分隐私的定义，那么在算法执行的过程中，对于任意两个数据集D和D’，它们只在一个个体上存在不同，那么算法输出的结果在隐私预算内的概率将是相近的。

可以理解的是，隐私预算ε控制了噪声的大小和隐私保护程度，ε越小，则加入的噪声越强，隐私保护程度越高。通过控制ε的取值，可以平衡隐私保护和查询准确性之间的关系，本发明选取的隐私预算ε＝0.46。

隐私预算控制了在特征数据中对单个用户隐私的泄露程度。当多个查询或计算操作被执行时，隐私预算需要合理分配，以保证总体的隐私泄露不超过设定的限制。

步骤103：根据所述敏感性参数以及所述隐私预算对所述特征数据注入噪音，以生成所述含有噪音的特征数据。

为了实现客户隐私数据的保护，本申请将差分隐私技术的引入，旨在提供一种隐私保护的数据分析方法，以实现对银行客户数据的有效分析和利用，同时保护客户的隐私。该方法可以通过对聚类结果进行噪声处理，在数据发布过程中引入噪声或扰动来保护个体敏感信息，从而保证数据隐私不被泄露，同时仍然能够提供有用的数据分析结果。

由于差分隐私能够弥补DSP加密的缺陷，差分隐私不仅提供了严格的隐私保护，通过在数据发布过程中引入噪声或扰动，确保个体的敏感信息无法被推断出来。即使攻击者拥有其他辅助信息，也无法准确还原出原始数据。还拥有坚实的数学基础和理论支持，能够提供数学上可证明的隐私保护保证。除此之外，差分隐私允许根据隐私需求进行参数调节，可以在隐私保护和数据可用性之间进行权衡。通过调整噪声的强度，可以控制隐私保护级别和数据质量。

在本发明的一些实施例中，参见图3，步骤103包括：

步骤1031：根据所述敏感性参数以及所述隐私预算生成拉普拉斯噪音；

拉普拉斯噪音用于在特征数据中引入一定的随机性，以保护个体隐私。它是以拉普拉斯分布生成的噪声，具有轻尾和对称的特点。具体地，拉普拉斯噪声可以通过从拉普拉斯分布中随机采样得到。

步骤1032：将所述拉普拉斯噪音注入至所述特征数据中，以生成所述含有噪音的特征数据。

在本发明的一些实施例中，参见图4，步骤1031包括：

步骤10311：根据所述敏感性参数以及所述隐私预算生成尺度参数；

根据敏感性S和隐私预算ε，可以通过以下公式计算拉普拉斯分布的尺度参数b：b＝S/ε。

步骤10312：根据所述尺度参数以及随机变量生成具有拉普拉斯分布的概率密度函数；

步骤10313：根据所述概率密度函数生成所述拉普拉斯噪音。

在步骤10312以及步骤10313中，使用拉普拉斯分布的概率密度函数(PDF，Probability Density Function)来生成随机噪声。拉普拉斯分布的概率密度函数如下所示：

f(x)＝(1/(2b))*exp(-|x|/b)

其中，x是随机变量，b是尺度参数。可以使用随机数生成器来从拉普拉斯分布中抽取噪声值。

概率密度函数用来描述连续型随机变量的概率分布的函数。它定义了在某个取值范围内，随机变量落在该范围内的概率密度。概率密度函数具有以下特性：

非负性：概率密度函数对于所有的x值都是非负的，即f(x)≥0。

归一性：概率密度函数在整个取值范围内的积分等于1，即∫f(x)dx＝1。这表示随机变量在整个取值范围内的所有可能取值的概率之和为1。

在本发明的一些实施例中，参见图5，在步骤100之前，客户群体分群方法还包括：

步骤90：对客户群体的特征数据进行预处理以及标准化。

首先需要收集银行客户的特征数据，包括年龄、性别、收入、婚姻状况、教育程度、职业等，这些数据可以通过问卷调查、银行账户信息等方式获得。

接着，对于收集到的数据，需要进行对数据进行清洗，包括去除异常值、缺失值和重复值。以及选择所有特征中最具代表性的特征，以降低维度和提高聚类效果。以确保数据质量和准确性。由于不同特征的取值范围和单位不同，需要对数据进行标准化，以便在计算相似度时不会因为某些特征的权重过大而影响聚类效果。

在本发明的一些实施例中，参见图6，客户群体分群方法还包括：

步骤400：生成所述密度聚类模型，参见图7，步骤400包括：

步骤401：进行以下迭代操作，直至所有训练数据满足预设的客户群体的第一分群目标，以生成所述密度聚类模型：

步骤402：计算训练数据在数据空间上的点与预设点的第一距离；

步骤403：根据所述第一距离以及预设的领域半径将对应的训练数据划分至对应预设点的空间域内；其中，所述预设点的初始值以及所述领域半径的初始值是由所述第一分群目标所确定的；

步骤404：根据当前所述训练数据的划分结果以及所述第一分群目标对所述预设点进行更新。

在步骤401至步骤404中，输入：样本集D＝(x₁,x₂,...,x_m)，邻域参数(ε,MinPts),并采用样本距离度量方式计算输出。输出：簇划分C。具体包括如下步骤(步骤1)至步骤6))：

1)初始化核心对象集合Ω＝φ，初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D，簇划分C＝φ；

2)对于j＝1,2,...,m,按步骤a)以及b)找出所有的核心对象：

a)通过距离度量方式，找到样本x_j的ε-邻域子样本集N∈x_j；

b)如果子样本集样本个数满足|N∈(x_j)|≥MinPts，将样本x_j加入核心对象样本集合：Ω＝Ω∪{x_j}；

3)如果核心对象集合Ω＝φ，则算法结束，否则转入步骤4)。

4)在核心对象集合Ω中，随机选择一个核心对象p，初始化当前簇核心对象队列Ω_cur＝{p}，初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{p}，更新未访问样本集合Γ＝Γ-{p}；

5)如果当前簇核心对象队列Ω_cur＝φ，则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁,C₂,...,C_k}，更新核心对象集合Ω＝Ω-C_k，转入步骤3)。否则更新核心对象集合Ω＝Ω-C_k；

6)在当前簇核心对象队列Ω_cur中取出一个核心对象p'，通过邻域距离阈值∈找出所有的ε-邻域子样本集N∈(p')，令Δ＝N∈(p')∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-p'，转入步骤5)。

输出结果为：簇划分C＝{C₁,C₂,...,C_k}。

另外，第一分群目标是指将客户群体分为以下8个群体(即K为8)：

①青年高收入专业人士：这一类客户通常是年轻的高收入人群，可能是刚刚步入职场的专业人士，如医生、律师、工程师等。他们通常具有较高的教育程度和职业发展潜力。

②中年中收入家庭：这一类客户通常是中年阶段的家庭，他们具有稳定的收入来源，可能是双职工家庭或小企业主。他们可能对于房贷、子女教育和退休规划等方面的服务需求较大。

③老年低收入退休人群：这一类客户通常是已经退休的人群，他们依靠养老金或退休金生活。他们可能对于养老金管理、医疗保险和投资规划等方面的服务比较关注。

④青年低收入学生群体：这一类客户通常是在校学生或刚刚步入职场的年轻人，他们可能依靠家庭资助或兼职收入生活。他们对于学费贷款、信用卡和金融知识教育等方面的服务需求较大。

⑤高收入企业主：这一类客户是企业的所有者或高级管理人员，他们通常拥有较高的个人收入和财富积累。他们可能对于企业贷款、商业账户和财富管理等方面的服务需求较大。

⑥低收入劳动者：这一类客户通常是从事体力劳动的工人或服务行业的员工，他们的收入相对较低。他们可能对于基本银行服务、小额贷款和支付手段等方面的服务需求较大。

⑦高教育程度专业人士：这一类客户具有较高的教育程度，可能是博士、硕士或高级研究人员。他们可能对于投资理财、科研项目资金管理和学术交流等方面的服务需求较大。

⑧老年高收入人群：这一类客户群通常具有较为稳定的财务状况，通常具备一定的投资经验，并愿意接受一定的风险，更愿意进行投资以实现财富增值。同时他们对退休规划和养老需求会有较高的关注。

在本发明的一些实施例中，参见图8，客户群体分群方法还包括：

步骤500：生成所述的K-均值聚类模型，参见图9，步骤500包括：

步骤501：进行以下迭代操作，直至所述训练数据的划分结果满足预设的客户群体的第一分群目标，以生成所述K-均值聚类模型：

步骤502：在划分结果中的每个簇中选出聚类中心；

步骤503：在所述每个簇中，计算每个点与所述聚类中心的第二距离；

步骤504：根据所述第二距离将所述每个点划分至距离所述每个点最近的簇中；

步骤505：计算每个簇内所述点的距离均值，以更新所述聚类中心。

在步骤501至步骤505中，包括以下内容：根据选定的聚类数目和数据集，将DBSCAN聚类算法筛选出的8类簇作为初始的聚类中心候选。选定初始聚类中心，运行K-Means算法对带有噪声的特征数据进行二次迭代聚类分析。通过计算每个数据点与聚类中心的距离，将数据点分配到最近的簇中。计算步骤如下：

a)初始化：在DBSCAN聚类算法筛选出的初始聚类中心簇划分C＝{C₁,C₂,...,C_k}中选择8个初始中心点(质心)作为每个簇的中心。

b)分配数据点：对于每个数据点，计算其与各个中心点的距离，并将其分配到距离最近的簇中。

c)更新中心点：对于每个簇，计算该簇中所有数据点的均值，将其作为新的中心点。

d)重复步骤b)和步骤c)，直到满足停止条件，即成功完成客户的8大类分群。

优化目标是最小化数据点与所属簇中心点之间的距离平方和，即簇内平方和(within-cluster sum of squares，WCSS)。通过迭代优化过程，不断调整中心点的位置，使得簇内的样本相似度最大化，簇间的样本相似度最小化。

在本发明的一些实施例中，参见图10，客户群体分群方法在步骤300之前，还包括：

步骤210：根据所述特征数据以及所述客户群体的分群需求确定密度阈值；

步骤220：根据所述密度阈值对所述一次聚类结果进行筛选。

在步骤210以及步骤220中，由于DBSCAN算法可能会生成大量的簇，其中一些可能是噪声或无意义的。因此，需要对聚类结果进行筛选，根据业务需求和数据特点，设置一个密度阈值，筛选出密度高于该阈值的簇作为初始的聚类中心候选，去除不相关的簇，只保留具有实际意义的簇。即，分别将DBSCAN聚类算法筛选出的初始聚类中心簇划分C＝{C₁,C₂,...,C_k}中的各个簇。

本发明引入基于密度的DBSCAN聚类算法，根据业务需求和数据特点，设置一个密度阈值，筛选出密度高于该阈值的簇作为初始的聚类中心候选。这样选出来的初始中心能够确保具有一定的代表性，再通过K-Means聚类算法进行二次迭代聚类，保证最后的聚类结果既去除了分群主观性又具有代表性。

在一种具体实施方式中，本发明还以银行客户为例，提供一种客户群体分群方法的具体实施方式，参见图11以及图12，具体包括以下内容。

S1：收集银行客户的特征数据，包括年龄、性别、收入、婚姻状况、教育程度、职业。

S2：特征数据预处理。

对于收集到的特征数据，进行清洗，包括去除异常值、缺失值和重复值。以及选择所有特征中最具代表性的特征，以降低维度和提高聚类效果。以确保数据质量和准确性。

S3：特征数据标准化。

由于不同特征的取值范围和单位不同，需要对数据进行标准化，以便在计算相似度时不会因为某些特征的权重过大而影响聚类效果。步骤S3用于将不同特征的数据进行标准化处理，使其具有相同的尺度和范围。以消除不同特征之间的量纲差异。具体地，将特征数据除以一个固定的基数，通常选择10的幂，使得数据落在[-1,1]之间。

S4：生成差分隐私噪声。

对于每个特征数据，使用拉普拉斯机制生成噪声。噪声的大小可以通过差分隐私参数(如隐私预算)来控制，以平衡隐私保护和数据准确性之间的权衡。

S5：注入差分隐私噪声。

进行DBSCAN聚类之前，将生成的拉普拉斯噪声添加到标准化的特征数据中。通过差分隐私的噪声注入，银行客户的个人隐私可以得到一定程度的保护。这样可以在保护用户隐私的前提下，有效地进行银行客户分群分析。

S6：运用基于密度的DBSCAN聚类算法对注入差分隐私噪音的特征数据进行聚类。

DBSCAN是一种基于密度的聚类算法，它能够识别出不同密度的数据簇。应用DBSCAN算法对加噪后的客户数据进行聚类，以发现潜在的数据簇。

DBSCAN聚类算法需要调参的两个参数eps和MinPts，这两个值的组合对最终的聚类效果有较大的影响。

Eps(ε)：表示邻域半径，用来定义一个样本的邻域范围。具体来说，对于一个样本点p，如果存在至少MinPts个样本点在以p为中心、半径为ε的圆形邻域ε-内，那么p就被认为是核心点。eps过大，则更多的点会落在核心对象的ε-邻域，此时我们的类别数可能会减少，本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大，本来是一类的样本却被划分开。本发明选择的领域半径ε＝0.5；

MinPts：表示邻域内最小样本点数目的阈值。如果一个样本点的邻域内包含的样本点个数大于等于MinPts，则该样本点被认为是核心点。

S7：筛选一次聚类结果。

由于DBSCAN算法可能会生成大量的簇，其中一些可能是噪声或无意义的。因此，需要对聚类结果进行筛选，根据业务需求和数据特点，设置一个密度阈值，筛选出密度高于该阈值的簇作为初始的聚类中心候选，去除不相关的簇，只保留具有实际意义的簇。分别将DBSCAN聚类算法筛选出的初始聚类中心簇划分C＝{C₁,C₂,...,C_k}中的各个簇。

S8：运行K-Means算法进行二次聚类分析。

对于二次聚类结果，首先进行可视化和解释，以便更好地理解不同簇之间的差异和共性。优选地，使用散点图将聚类结果用二维坐标系表示，每个点代表一个样本，不同颜色或符号代表不同的簇。可以理解的是，散点图能够直观地展示聚类结果，同时也能发现一些异常点或离群值。接着，制定营销策略：根据聚类结果，制定针对不同客户群体的营销策略，包括针对高收入、高教育程度的客户制定高端理财产品，针对年轻客户推出移动支付等创新产品等。

本发明不仅可以弥补使用业务逻辑划分客群方式主观性强、处理规模有限的不足，也克服了K-Means聚类算法中的技术难题，同时还能进一步提升客户的隐私保护能力。具体效果与优点如下：

(1)提供更高的隐私保护：使用差分隐私机制可以在不泄露客户隐私的前提下，对客户数据进行分析和挖掘。这种方法可以减少敏感信息的泄露风险，同时保护客户的隐私权。

(2)保持数据的可用性：差分隐私噪声注入技术可以在一定程度上保持数据的可用性。通过合理设置隐私预算和噪声大小，可以实现隐私保护和数据分析的平衡，从而确保数据的有效性和准确性。

(3)改善聚类效果：该方法利用基于密度的DBSCAN聚类算法发现高密度的客户群体，并将其作为初始的聚类中心候选。然后，使用K-Means算法进行迭代聚类，以进一步优化分群效果。这样可以提高聚类精度和稳定性，更好地反映客户群体的特征。同时，在引入差分隐私的情况下，仍然能够得到准确的聚类结果。

(4)筛选无意义簇：该方法通过对DBSCAN聚类结果进行筛选，去除不相关的簇，只保留具有实际意义的簇，从而提高了聚类结果的可解释性和实用性。

(5)提高数据分析的效率：使用该算法可以快速对对大规模的银行客户数据进行聚类分析，从而提高数据分析的效率和精度。

(6)适用范围广：该方法适用于各种类型的银行客户数据集，可以用于分析客户的消费行为、信用评级、借贷记录等方面，有助于银行更好地了解客户需求和提供个性化的金融服务。

(7)可追溯性：由于差分隐私机制的特性，每个个体的隐私都得到了保护，使得数据分析过程可追溯。这对于监管机构和数据管理者来说是非常重要的，可以追踪和验证数据处理的合规性。这些优点使得该方法在银行客户分群分析中具有较高的效果和应用价值。它不仅能够保护客户隐私，降低数据共享风险，还能够提供准确、可解释的聚类结果，为银行业提供更好的决策支持和个性化服务。

基于同一发明构思，本申请实施例还提供了一种客户群体分群装置，可以用于实现上述实施例所描述的方法，如下面的实施例。由于客户群体分群装置解决问题的原理与客户群体分群方法相似，因此客户群体分群装置的实施可以参见客户群体分群方法实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明的实施例提供一种能够实现客户群体分群方法的客户群体分群装置的具体实施方式，参见图13，客户群体分群装置具体包括如下内容：

噪音注入模块10，用于对所述客户群体的特征数据注入噪音，以生成含有噪音的特征数据；

一次聚类模块20，用于根据预先生成的密度聚类模型对所述含有噪音的特征数据进行一次聚类，以生成一次聚类结果；

二次聚类模块30，用于根据预先生成的K-均值聚类模型对所述一次聚类结果进行二次聚类。

在本发明的一实施例中，参见图14，噪音注入模块10包括：

敏感性参数确定单元10a，用于根据所述特征数据确定所述含有噪音的特征数据的敏感性参数；

隐私预算确定单元10b，用于根据预先确定的针对所述特征数据的隐私保护程度参数确定隐私预算；

噪音注入单元10c，用于根据所述敏感性参数以及所述隐私预算对所述特征数据注入噪音，以生成所述含有噪音的特征数据。

在本发明的一实施例中，参见图15，噪音注入单元10c包括：

拉普拉斯噪音生成单元10c1，用于根据所述敏感性参数以及所述隐私预算生成拉普拉斯噪音；

噪音特征数据生成单元10c2，用于将所述拉普拉斯噪音注入至所述特征数据中，以生成所述含有噪音的特征数据。

在本发明的一实施例中，参见图16，拉普拉斯噪音生成单元10c1包括：

尺度参数生成单元10c11，用于根据所述敏感性参数以及所述隐私预算生成尺度参数；

概率密度函数生成单元10c12，用于根据所述尺度参数以及随机变量生成具有拉普拉斯分布的概率密度函数；

拉普拉斯噪音生成子单元10c13，用于根据所述概率密度函数生成所述拉普拉斯噪音。

在本发明的一实施例中，参见图17，客户群体分群装置还包括：

密度聚类模型生成模块40，用于生成所述密度聚类模型，参见图18，密度聚类模型生成模块40包括：

迭代操作第一单元40a，用于进行以下迭代操作，直至所有训练数据满足预设的客户群体的第一分群目标，以生成所述密度聚类模型：

第一距离确定单元40b，用于计算训练数据在数据空间上的点与预设点的第一距离；

训练数据划分单元40c，用于根据所述第一距离以及预设的领域半径将对应的训练数据划分至对应预设点的空间域内；其中，所述预设点的初始值以及所述领域半径的初始值是由所述第一分群目标所确定的；

预设点更新单元40d，用于根据当前所述训练数据的划分结果以及所述第一分群目标对所述预设点进行更新。

在本发明的一实施例中，参见图19，客户群体分群装置还包括：

K-均值聚类模型生成模块50，用于生成所述的K-均值聚类模型，参见图20，K-均值聚类模型生成模块50包括：

迭代操作第二单元50a，用于进行以下迭代操作，直至所述训练数据的划分结果满足预设的客户群体的第一分群目标，以生成所述K-均值聚类模型：

聚类中心选出单元50b，用于在划分结果中的每个簇中选出聚类中心；

第二距离计算单元50c，用于在所述每个簇中，计算每个点与所述聚类中心的第二距离；

点划分单元50d，用于根据所述第二距离将所述每个点划分至距离所述每个点最近的簇中；

聚类中心更新单元50e，用于计算每个簇内所述点的距离均值，以更新所述聚类中心。

在本发明的一实施例中，参见图21，客户群体分群装置还包括：

密度阈值确定模块60，用于根据所述特征数据以及所述客户群体的分群需求确定密度阈值；

一次聚类结果筛选模块70，用于根据所述密度阈值对所述一次聚类结果进行筛选。

从上述描述可知，本发明实施例提供一种客户群体分群装置，包括：噪音注入模块，用于对客户群体的特征数据注入噪音，以生成含有噪音的特征数据；一次聚类模块，用于根据预先生成的密度聚类模型对含有噪音的特征数据进行一次聚类，以生成一次聚类结果；二次聚类模块，用于根据预先生成的K-均值聚类模型对一次聚类结果进行二次聚类。

本申请的实施例还提供能够实现上述实施例中的客户群体分群方法中全部步骤的一种电子设备的具体实施方式，参见图22，电子设备具体包括如下内容：

处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204；

其中，处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信；通信接口1203用于实现服务器端设备以及客户端设备等相关设备之间的信息传输；

处理器1201用于调用存储器1202中的计算机程序，处理器执行计算机程序时实现上述实施例中的客户群体分群方法中的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

本申请的实施例还提供能够实现上述实施例中的客户群体分群方法中全部步骤的一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的客户群体分群方法的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种客户群体分群方法，其特征在于，包括：

2.根据权利要求1所述的客户群体分群方法，其特征在于，对所述客户群体的特征数据注入噪音，以生成含有噪音的特征数据，包括：

3.根据权利要求2所述的客户群体分群方法，其特征在于，根据所述敏感性参数以及所述隐私预算对所述特征数据注入噪音，以生成所述含有噪音的特征数据，包括：

根据所述敏感性参数以及所述隐私预算生成拉普拉斯噪音；

4.根据权利要求3所述的客户群体分群方法，其特征在于，根据所述敏感性参数以及所述隐私预算生成拉普拉斯噪音，包括：

根据所述敏感性参数以及所述隐私预算生成尺度参数；

根布局所述尺度参数以及随机变量生成具有拉普拉斯分布的概率密度函数；

根据所述概率密度函数生成所述拉普拉斯噪音。

5.根据权利要求1所述的客户群体分群方法，其特征在于，生成所述密度聚类模型的步骤包括：

计算训练数据在数据空间上的点与预设点的第一距离；

6.根据权利要求5所述的客户群体分群方法，其特征在于，生成所述的K-均值聚类模型的步骤包括：

在划分结果中的每个簇中选出聚类中心；

在所述每个簇中，计算每个点与所述聚类中心的第二距离；

计算每个簇内所述点的距离均值，以更新所述聚类中心。

7.根据权利要求1至6任一项所述的客户群体分群方法，其特征在于，在所述根据预先生成的K-均值聚类模型对所述一次聚类结果进行二次聚类之前，还包括：

根据所述密度阈值对所述一次聚类结果进行筛选。

8.一种客户群体分群装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述的客户群体分群方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的客户群体分群方法的步骤。