CN114820011A

CN114820011A - 用户群体聚类方法、装置、计算机设备和存储介质

Info

Publication number: CN114820011A
Application number: CN202110083954.3A
Authority: CN
Inventors: 顾立瑞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2022-07-29

Abstract

本申请涉及一种用户群体聚类方法、装置、计算机设备和存储介质，可应用于云服务器，方法包括：接收用户群体聚类请求，读取用户群体聚类请求中携带的初始用户群体数据；获取初始用户群体数据的初始特征数据；对初始特征数据进行特征变换，得到变换后特征数据；基于变换后特征数据对初始用户群体数据进行聚类，得到聚类结果。上述用户群体聚类方法，在获取用户群体的特征数据之后，进行特征变换的操作，仅保留与待聚类的初始用户群体更为相关的特征，最后利用这些特征对初始用户群体进行聚类，可以更好的对用户群体进行聚类划分，得到聚类结果后，各聚类结果中的用户具有相似的用户特征，对于广告投放具有一定的指导作用，减少广告资源的浪费。

Description

用户群体聚类方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种用户群体聚类方法、装置、计算机设备和存储介质。

背景技术

广告对于品牌形象的塑造可以起到关键的作用，帮助产品建立形象，培养消费者对产品的信任度与忠诚度，从而间接推动销售。广告投放是广告主营销的一种重要手段。

常见的广告投放通常是利用投放手段、投放位置的曝光量、投放成本、投放成本与收益的转化等等信息来决定投放的具体方案，然而这些方式都没有涉及到广告受众的因素，可能投放的广告对于接收者而言完全不感兴趣，将会导致广告资源的浪费。

发明内容

基于此，有必要针对上述技术问题，提供一种能够更好的对人群进行划分的用户群体聚类方法、装置、计算机设备和存储介质。

一种用户群体聚类方法，所述方法包括：

接收用户群体聚类请求，读取所述用户群体聚类请求中携带的初始用户群体数据；

获取所述初始用户群体数据的初始特征数据；

对所述初始特征数据进行特征变换，得到变换后特征数据；

基于所述变换后特征数据对所述初始用户群体数据进行聚类，得到聚类结果。

一种用户群体聚类方法，所述方法包括：

接收用户群体选择指令，获取并在界面展示所述用户群体选择指令对应的初始用户群体数据的特征数据；

在界面接收针对所述特征数据的选中指令，得到所述初始用户群体数据的初始特征数据；

接收任务开始请求，对所述初始特征数据进行特征变换，得到变换后特征数据，基于所述变换后特征数据对所述初始用户群体数据进行聚类，将得到的聚类结果展示在界面中。

一种用户群体聚类装置，所述装置包括：

请求接收模块，用于接收用户群体聚类请求，读取所述用户群体聚类请求中携带的初始用户群体数据；

特征获取模块，用于获取所述初始用户群体数据的初始特征数据；

特征变换模块，用于对所述初始特征数据进行特征变换，得到变换后特征数据；

聚类模块，用于基于所述变换后特征数据对所述初始用户群体数据进行聚类，得到聚类结果。

在其中的一个实施例中，上述装置还包括：洞察统计模块，用于根据所述聚类结果进行洞察统计，得到所述聚类结果对应的洞察统计结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取所述初始用户群体数据的初始特征数据；

对所述初始特征数据进行特征变换，得到变换后特征数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取所述初始用户群体数据的初始特征数据；

对所述初始特征数据进行特征变换，得到变换后特征数据；

上述用户群体聚类方法、装置、计算机设备和存储介质，根据接收到的用户群体聚类请求，读取请求中携带初始用户群体数据，并获取初始用户群体的初始特征数据，然后对初始特征数据进行特征变换，利用得到的变换后特征数据对初始用户群体进行聚类，得到聚类结果。在获取用户群体的特征数据之后，进行特征变换的操作，仅保留与待聚类的初始用户群体更为相关的特征，最后利用这些特征对初始用户群体进行聚类，可以更好的对用户群体进行聚类划分，得到聚类结果后，各聚类结果中的用户具有相似的用户特征，对于广告投放具有一定的指导作用，减少广告资源的浪费。

附图说明

图1为一个实施例中用户群体聚类方法的应用环境图；

图2为另一个实施例中用户群体聚类方法的流程示意图；

图3为一个具体实施例中用户群体聚类方法的流程示意图；

图4为一个具体实施例中用户群体聚类方法的流程示意图；

图5(1)为一个实施例中工具应用入口的界面示意图；

图5(2)为一个实施例中创建任务、选择任务类型的界面示意图的界面示意图；

图5(3)为一个实施例中新建智能圈层任务、父人群包选择的界面示意图；

图5(4)为一个实施例中设置圈层条件的界面示意图；

图5(5)为一个实施例中确定任务、设置参数和提交任务的界面示意图；

图5(6)为一个实施例中查看结果的界面示意图；

图6为一个实施例中用户群体聚类装置的结构框图；

图7为另一个实施例中用户群体聚类这种的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种用户群体聚类方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

在一个实施例中，用户群体聚类方法包括以下步骤S110至步骤S140。

步骤S110，接收用户群体聚类请求，读取用户群体聚类请求中携带的初始用户群体数据。

其中，用户群体聚类请求是用户发起的。在一个实施例中，在前端界面中展示交互界面，提供给用户选择发起用户群体聚类请求的功能，进一步地，用户发起用户群体聚类请求时，需提供或者选择需要进行聚类的用户群体；在一些实施例中，用户对于聚类有特定要求时，还可以在前端界面中设置聚类要求；例如指定对用户群体进行聚类得到n个聚类。其中。用户所选择的需要聚类的用户群体即为本实施例中的初始用户群体数据。

初始用户群体数据包括三个以上用户数据，每一用户数据均对应一位用户；在一个实施例中，初始用户群体数据包括用户群体的社交账号、手机号码，等等；一个手机号码、一个社交账号通常均只对应一个用户。其中，社交账号是用户在各类应用程序中的注册账号，例如QQ号、微信号、企业微信号等等。在进行用户群体聚类时，可以利用手机号码、社交账号来表征用户。可以理解地，在其它实施例中，初始用户群体数据中的用户数据也可以是其它数据。

在一个实施例中，用户群体数据中的用户数据还携带数据标识，数据标识用于表征用户数据对应的数据类别，例如数据标识为手机号码，则表示这一用户数据的数据类型为手机号码；又如数据标识为QQ号，则表示这一用户数据的数据类型为QQ号。

步骤S120，获取初始用户群体数据的初始特征数据。

其中，特征数据是指与用户关联的数据，例如性别、年龄、职业或者兴趣爱好等等。在一个实施例中，初始特征数据包括基础属性特征：教育状态，地理属性，工作状态等等；兴趣爱好特征：商业兴趣，资讯兴趣，视频浏览偏好等等。

在一个实施例中，初始特征数据包括用户选择的特征数据；在本实施例中，在交互界面提供给用户自行选择所需的特征，后台接收用户选择的特征作为初始特征数据。在另一个实施例中，初始特征数据包括与初始用户数据关联的所有特征。在另一个实施例中，初始特征数据是与初始用户群体数据关联的特征数据，如初始用户群体数据的类型为社交账号，初始特征数据包括社交账号的好友、在社交软件中花费时间、频繁使用社交软件的时间段等等信息。可以理解地，在其它实施例中，初始特征数据也可以是其它方式确定的特征数据。

进一步地，在一个实施例中，从特征仓库中获取初始用户群体的初始特征数据。在一个实施例中，特征仓库中存储的特征包括进行用户群体聚类的服务方的二方特征，和/或有用户群体聚类需求的用户上传的一方特征；例如在一个具体实施例中，腾讯方为广告主提供用户群体聚类服务，腾讯方的特征即为二方特征，广告主自主上传的特征即为一方特征。在一个具体实施例中，特征仓库为腾讯分布式数据仓库(Tencent distribution DataWarehouse简称TDW)，是一个基于share-nothing架构，具有高可用性和高可伸缩性，用于海量数据存储和海量数据分析的分布式数据处理系统。它向用户提供类似SQL的接口，可以提供PB级的存储和TB级的计算能力，来满足日益增长的海量数据分析需求，帮助发现更多用户价值。

步骤S130，对初始特征数据进行特征变换，得到变换后特征数据。

特征变换是指通过一定方式将初始数据进行变换后，得到所需的特征；在一个实施例中，特征变换包括对初始特征数据进行特征处理和过滤；其中，特征处理包括将原始资料(不容易数据化)转换为有意义的资料(能够数据化)，或者说是计算机能够处理的资料，便于后续步骤处理；特征过滤则是指从初始特征数据中进行一定筛选和过滤掉部分特征，仅保留所需的特征数据。

进一步地，在一个实施例中，特征变换包括以下具体方式：连续型变量转换、类别变量编码、日期型变量转换、缺失值处理以及特征组合。进一步地，针对连续型变脸转换包括连续型数据标准化处理、连续型数据变换或者连续型数据离散化处理等具体转换方式。针对类别变量编码包括类别性变量转换和日期型变量转换。

在一个实施例中，对初始特征数据进行特征变换包括：对于原始特征数据中的连续型特征，进行连续型数据变换处理。

连续型特征包括如年龄、身高等等不可数类型的特征。对连续型特征进行连续型数据变换处理包括：连续型数据标准化处理、连续型数据变换或连续型数据离散化处理。其中，连续型数据标准化处理是指将连续型变量转变成均值为0、标准差为1的变量。连续型数据变换是指通过函数变换改变原始数据的分布，目的是将数据从无关系转换为有关系，从呈偏态分布转换为变换后差异拉开，或者让数据符合模型理论所需要的假设，然后对其进行分析，例如变换后数据呈正态分布。在一个具体实施例中，数据变换的方法包括：①logX，Ine等对数函数变换x′＝ln(x)；②box-cox变换(是Box和Cox在1964年提出的一种广义幂变换方法)：自动寻找最佳正态分布变换函数的方法。连续型数据离散化处理的目的包括方便探索数据相关性，减少异常数据对模型的干扰，为模型引入非线性，提升模型预测能力，数据离散后，可进行特征交叉组合，如由M+N变成M*N；在一个具体实施例中，数据离散化方法包括：非监督离散方法、有监督离散方法(如决策树)、自定义规则、等宽方法或者等频/等深方法。

在另一个实施例中，对初始特征数据进行特征变换包括：对于初始特征数据中的类别型特征，进行编码处理。

在另一个实施例中，对初始特征数据进行特征变换包括：对于初始特征数据中存在缺失值的特征数据，进行缺失值替换处理。

在其中的一个实施例中，缺失值替换处理可以采用以下方式实现：用0替换、用平均数替换、用众数替换或者预测模型替换。进一步地，在一个实施例中，在进行缺失值替换处理之前，还包括：对于初始特征数据中各特征覆盖的数据量进行统计，基于统计结果确定是否需要进行缺失值替换。在一个具体实施例中，若初始特征数据中的特征对应的覆盖度高于20％，进入缺失值替换处理的步骤，选择上述任一替换处理方法(用0替换、用平均数替换、用众数替换或者预测模型替换)对缺失值进行填充；在另一个实施例中，若初始特征数据中的特征对应的覆盖度低于20％，就把这一维特征去掉。

在另一个实施例中，对初始特征数据进行特征变换，包括：基于初始特征数据中的各特征进行特征组合，得到组合后特征。

特征组合的目的是构造更多更好的特征，提升模型精度。在一个具体实施例中，特征组合的方法包括①多个连续变量：加减乘除运算；②多个类别型变量：所有值交叉组合。在一个实施例中，面对大量的高维稀疏特征，存在了大量的交叉组合方式，人工的设计特征交叉，不仅需要消耗大量的人力和尝试成本，而且容易遗漏部分重要的交叉特征，因此引入特征交叉处理模块进行特征交叉处理；在一个具体实施例中，针对显式的构造高阶交叉特征方面，可以采用DCN式交叉(Cross Network)方式实现特征交叉处理的过程。

在另一个实施例中，特征变换还包括特征提取。由于聚类模型不能很好的处理序列特征，如果需要引入序列数据，需要对序列数据进行人工的特征提取，做成离散型特征或者连续型特征。人工的特征提取往往带来了很多局限性，不同的序列数据中往往蕴含着不同的信息规律，人工提取的方式难以真正捕获到这些语义内涵。在一个实施例中，引入对序列数据进行特征提取的网络模块，使得模型能够自动的挖掘序列数据中蕴含的信息。在一个具体实施例中，通过Transformer实现特征提取的过程，Transformer能捕获序列数据中人与人之间的关联性。

步骤S140，基于变换后特征数据对初始用户群体数据进行聚类，得到聚类结果。

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。在本实施例中，基于变换后特征数据对初始用户群体进行聚类，即依据用户的特征，利用聚类算法，将目标用户集合分成不同用户簇。

在一个实施例中，聚类可采用以下方式实现：K-Means聚类、均值偏移聚类算法、DBSCAN聚类算法、使用高斯混合模型(GMM)的期望最大化(EM)聚类，以及层次聚类方法。

其中，在一个具体实施例中，采用K-Means聚类方法，根据变换后特征数据对初始用户群体数据进行聚类。K-Means聚类，即k均值聚类算法(k-means clusteringalgorithm)，是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

进一步地，在一个具体实施例中，基于k-means的multi-view clustering(多视图聚类，使用多个不同描述方式的数据进行聚类)，spectral clustering(谱聚类)等无监督机器学习算法对初始用户群体进行聚类。

对用户群体进行聚类实际上即是将整体人群聚类成不同的群体，对不同的群体刻画其人群特征，进而根据这些人群特征，可以确立对应的营销策略受众的细分市场。

在一个实施例中，在得到用户群体的聚类结果之后，还包括：将聚类结果进行展示。在本实施例中，在聚类完成得到聚类结果之后，将聚类结果传输至前端进行渲染并展示在交互界面中，以供用户查看。

在另一个实施例中，在得到用户群体的聚类结果之后，还包括：将聚类结果存储至预设存储路径。本实施例中，可以根据预设存储路径，将本次对用户群体的聚类结果进行存储，便于后续用户对本次聚类结果的查询。后续在接收到用户发起的聚类结果查询，可以从预设存储路径中读取对应的聚类结果进行展示。

上述用户群体聚类方法，根据接收到的用户群体聚类请求，读取请求中携带初始用户群体数据，并获取初始用户群体的初始特征数据，然后对初始特征数据进行特征变换，利用得到的变换后特征数据对初始用户群体进行聚类，得到聚类结果。在获取用户群体的特征数据之后，进行特征变换的操作，仅保留与待聚类的初始用户群体更为相关的特征，最后利用这些特征对初始用户群体进行聚类，可以更好的对用户群体进行聚类划分，得到聚类结果后，各聚类结果中的用户具有相似的用户特征，对于广告投放具有一定的指导作用，减少广告资源的浪费。

在一个实施例中，在基于变换后特征数据对初始用户群体数据进行聚类，得到聚类结果之后，还包括：根据聚类结果进行洞察统计，得到聚类结果对应的洞察统计结果。

洞察统计(insight statistics)：对不同的用户簇进行例如均值、直方图、浓度对比(群组均值/样本均值)等的统计计算，为用户洞察获得结论提供依据的操作。对用户群体数据进行洞察(customer insight)：通过观察目标用户集合的特征分布，发现用户属性与特点的过程。

在对用户群体进行聚类之后，将用户群体基于变换后的调整进行聚类，即将用户群体划分成了不同的用户簇，本实施例中对于每一用户簇进行分析，具体可以包括分析每一用户簇中的特征覆盖情况，以及基于特征覆盖情况生成统计分析结果，如以均值、直方图、浓度对比等统计形式进行展示统计分析结果，可为用户后续操作提供便于理解的数据分析结论。

在一个实施例中，洞察统计包括行业洞察、我的人群、内容洞察、投放分析、工具应用等不同功能的洞察分析，用户可在交互界面自行选择所需要进行洞察分析的类型。在本实施例中，在得到聚类结果之后，将聚类结果反馈至前端进行展示，并根据用户的选择再对聚类结果进行洞察统计分析，得到洞察统计分析结果，并传至前端进行展示。

在一个实施例中，如图2所示，在基于变换后特征数据对初始用户群体数据进行聚类，得到聚类结果之前，还包括S210：对变换后特征数据进行特征过滤，得到目标特征数据。

对特征进行过滤即通过一定的处理，从变换后特征数据中筛选出部分特征，本实施例中记为目标特征数据，最终以目标特征数据对用户群体数据进行聚类。

进一步地，在本实施例中，基于变换后特征数据对初始用户群体数据进行聚类，得到聚类结果，包括：基于目标特征数据对初始用户群体数据进行聚类，得到聚类结果。

在一个实施例中，对变换后特征数据进行特征过滤，得到目标特征数据，包括：计算目标特征数据中每一维特征的方差，以及每两维特征之间的相关系数；基于所有特征的方差、每两维特征之间的相关系数，对变换后特征数据中的所有特征进行特征过滤，得到目标特征数据。

在统计描述中，方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。在一个具体实施例中，总体方差计算公式：

其中，σ²为总体方差，X为变量，为总体均值，N为总体例数。

相关关系是一种非确定性的关系，相关系数是研究变量之间线性相关程度的量。由于研究对象的不同，相关系数有如下几种定义方式。简单相关系数：又叫相关系数或线性相关系数，一般用字母r表示，用来度量两个变量间的线性关系。在一个具体实施例中，相关系数的计算包括：

其中，Cov(X,Y)为X和Y的协方差，σ_X为X的标准差，σ_Y为Y的标准差。相关系数就是用X、Y的协方差除以X的标准差和Y的标准差。

在一个实施例中，相关系数也即剔除了两个变量量纲影响、标准化后的特殊协方差。

其中，协方差的计算包括：

Cov(X,Y)＝E[(X-μ_X)(Y-μ_Y)]

协方差的计算即：如果有两个变量，每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”。

标准差的计算包括：

标准差是离均差平方的算术平均数的平方根，用σ表示。标准差的方差的算术平方根。标准差能反映一个数据集的离散程度。

进一步地，在一个具体实施例中，基于所有特征的方差、每两维特征之间的相关系数，对变换后特征数据中的所有特征进行特征过滤，得到目标特征数据，包括：将相关系数大于预设相关系数阈值的两维特征中，对应方差大于预设方差阈值的特征保留，去除对应方差小于或等于预设方差阈值的特征。在另一个实施例中，也可以将相关系数大于预设相关系数阈值的两维所有特征，按照特征对应方差的大小进行排序，取前预设数值的特征保留。在另一个实施例中，对于相关系数小于预设相关系数阈值的两维特征，均从变换后特征数据中去除。

在本实施例中，通过计算特征与特征之间的相关系数，并结合特征本身的方差，确定是否需要去除这一特征，从而对变换后的特征数据中进行过滤，从而保留与用户群体更为相关的特征，这些特征可以更好的将初始用户群体进行多个用户簇的划分，从而得到更好的聚类结果。

在一个实施例中，请继续参照图2，在基于变换后特征数据对初始用户群体数据进行聚类，得到聚类结果之前，还包括S220：对目标特征数据进行格式转换，输出转换格式后的变换后特征数据。

在一个具体实施例中，对初始特征数据进行特征变换和/或特征过滤之后得到的特征数据的格式为libsvm格式(一种数据格式)，在对初始用户群体进行聚类时，需将特征数据的格式转换为dense格式(一种数据格式)。后续利用dense格式的特征数据对初始用户群体数据进行聚类得到聚类结果。

本申请还提供一种应用场景，该应用场景应用上述的用户群体聚类方法，如图3所示为本实施例中用户群体聚类方法的流程示意图。本实施例中以用户群体数据为号码包为例，包括手机号码、QQ号或者微信号等等号码。具体地，该用户群体聚类方法在该应用场景的应用如下：

1.MI(营销策略平台，面向用户增长专家的策略服务)前端展现层与用户交互，提供用户选择号码包(上述初始用户群体数据)，任务参数的功能。

2.MI前端服务层利用用户选择的结果生成用户群体聚类任务请求，并发送请求到后端系统。

3.后端接收用户群体聚类任务请求，将号码包，号码类型，特征列表，参数等记录下来，并启动后续任务。

4.特征仓库提取原始特征，记为初始特征数据，对初始特征数据进行特征变换，并输出变换后特征数据。

5.特征仓库统计特征相关系数，方差，输出结果。

6.EMP(Elastic modeling platform，弹性建模平台，自定义建模工具的集合)读取变换后特征数据，根据相关系数，方差进行特征过滤，得到目标特征数据。EMP输出的目标特征数据的数据格式为libsvm格式数据。

7.EMP将libsvm格式数据转成dense格式。

8.EMP调用聚类算法，输出聚类结果(用户所属簇，簇中心，聚类特征名)。

9.特征仓库进行洞察统计并输出聚类结果中每个用户簇的统计结果。

10.MI前端服务层获取聚类结果与洞察结果，并转换为前端展示所需的格式。

11.MI前端进行展示。

上述各步骤的归属如图4所示。其中，AMS为人群圈层。

以下按照不同阶段

1.触发任务(MI→任务管理器)

·传入：

种子号码包

特征列表

任务配置参数

·返回：状态或错误信息

2.特征提取与处理(任务管理器→特征仓库)

·传入：

wuid列表

特征列表

·输出：

目标特征数据

特征的统计信息

3.触发聚类计算(任务管理器→控制中心)

·传入：

模型配置信息

特征的统计信息

目标特征数据

·输出：聚类结果

4.触发任务洞察统计(任务管理器→特征仓库)

·传入：

聚类结果

特征列表用于洞察的特征数据

输出：洞察统计结果

上述实施例中的用户群体聚类方法，在前端展示给用户自行选择号码包和聚类任务参数的界面，用户可在界面中启动用户群体聚类任务，并选择需要聚类的用户群体的号码包，以及设定聚类任务的参数，如将用户群体聚类得到k各用户簇等等，用户还可以自行输入聚类所需要用到的特征。后台在接收到用户群体聚类请求之后，获取初始特征数据，对初始特征数据进行特征变换和特征过滤，得到目标特征数据，并进行格式转换，基于转换格式后的目标特征数据对号码包进行聚类，得到聚类结果；最后，对于聚类结果中的各用户簇进行洞察统计分析，输出洞察结果，并反馈给前端进行展示。该方法在对用户群体进行聚类时，利用用户选择的特征或者从特征仓库获取的特征，经过特征变换和特征过滤之后，再对号码包进行聚类，由于特征变换和特征过滤的过程中根据特征的覆盖度等进行了一定的处理，将特征覆盖度交底的特征去除，仅保留可以更好的区分号码包的特征，使的目标特征数据更贴合所需要聚类的号码包，从而得到更好的聚类结果。最后对于聚类结果中各用户簇还进行洞察分析，将洞察统计结果反馈给用户查看，可以为用户提供更为直观的聚类和分析结果。

进一步地，可以将上述用户群体聚类方法应用于广告投放中，在进行广告投放之前，先利用用户群体聚类方法对待投放的广告受众进行聚类和分析，进而可以根据聚类结果更加精准的设计广告投放方案，减少广告资源的浪费。

如图5(1)所示为一个实施例中工具应用入口的界面示意图。界面包括主菜单区、任务文件夹选择区域、导航区、工具应用任务明细&操作区。其中，主菜单区分为行业洞察、我的人群、内容洞察、投放分析、工具应用，用户群体聚类方法对应的智能圈层任务在工具应用模块下。

如图5(2)所示为一个实施例中创建任务、选择任务类型的界面示意图。在工具应用模块下选择智能圈层任务，即可进入智能圈层任务单元。

如图5(3)所示为一个实施例中新建智能圈层任务、父人群包选择的界面示意图。界面包括主菜单区、任务文件夹管理区域、导航区和主工作区。其中，任务文件夹管理区域复用当前MI文件管理机制，点击界面图所示箭头可隐藏。导航区右侧用于说明当前用户位置(工具应用)，以及返回主页面；左侧新建智能圈层任务工作步骤说明，图5(3)所示为step1。主工作区中的搜索框用于提供给用户根据任务名称进行模板搜索；主任务区的列表中人群包数据范围，用于获取当前用户权限范围下，任务状态为提取成功的人群包信息，列表中人群规模≥500W的人群包设置为可选，其余设置为不可选；列表中人群名称、创建时间、号码类型、人群类型、任务状态、人群规模，定义域当前MI产品原有定义保持一致即可。在主任务区的下一步可见限制为选择人群包后，下一步为可用状态，然后点击下一步进入圈层页面。对于主任务区的列表分页展示，单页列表设置上限为10条记录。

如图5(4)所示为一个实施例中设置圈层条件的界面示意图。界面包括主菜单区、父人群包记录区、圈层条件设置记录区、导航区和特征选择区。其中，导航区右侧用于说明当前用户位置(工具应用)，以及返回主页面，导航区左侧用于新建智能圈层任务工作步骤说明，图5(4)所示为step2。父人群包记录区包括：case1.单个人群，记录人群名称即可，用户点击人群名称后关闭icon后，直接返回上一步；case2.多个人群，记录多个人群名称，并默认取多个人群包的并集，记录并集规则；用户通过人群包名称对应的关闭按钮可删除指定人群包，删除最后一个后，返回上一步。特征选择区的搜索框可提供给用户根据标签(特征名称)名称进行模糊搜索；特征选择区的限制设置为最多选择10个特征，超过10个后其余特征不可选；特征选择区中返回上一步操作时，保留历史筛选记录；特征选择区的下一步进入任务确认界面。圈层条件设置记录区中可设置分包个数，默认选择建议个数，用户能够通过下来框选择预期分包个数，为单选。圈层条件设置记录区的特征记录用于记录当前用户所选的特征结果，以树形结构进行展示。

如图5(5)所示为一个实施例中确定任务、设置参数和提交任务的界面示意图。界面包括主菜单区、导航区和任务信息明细区域。其中，导航区的右侧用于说明当前用户位置(智能圈层＜工具应用)、以及返回主页面；导航区的左侧用于新建智能圈层任务工作步骤说明，图5(5)所示为step3。任务信息明细区域中的任务名称可提供给用户编辑任务名称；选择文件夹可提供给用户点击时展示当前用户已建文件夹，当前展示已建文件夹的层级关系为智能圈层-任务名称-任务包；父人群包不可编辑，用于记录父人群包逻辑，分类特征不可编辑，用于记录选择的特征信息；分包个数可编辑；提醒方式为任务完成后的提示渠道，可调用现有功能实现。在图5(5)所示界面中点击“开始任务”，显示任务执行提示。

如图5(6)所示为一个实施例中查看结果的界面示意图。界面包括主菜单区、导航区、任务信息明细区域和任务结果主界面。其中，导航区的右侧用于说明当前用户位置(任务名称-结果＜智能圈层＜工具应用)，以及返回主页面。任务信息明细区域包括：父人群包记录：case1.单人群包，保留原人群包名称；case2.多人群包，将任务名称复制给新生成的父人群包；父人群规模即当前人群包规模；分包特征即认为所选特征明细；分包个数即任务所选分包任务个数。

进一步地，任务结果主界面中的列表：a.子人群包名称的默认规则为任务名称+核心特征(主差异特征)+编号(01项次编号)，可编辑，用户可通过编辑按钮将文本框设置为编辑状态，编辑后保存。b.人群描述：描述当前人群包主要特征值。c.人群规模：当前子人群包实际规模。d.状态：枚举值，若状态为未提取则该人群包前台不可见，若状态为已提取则该人群包前台可见。e.类型：原始为任务执行后直接生成的人群包，组合为用户调整后人群包。f.更新时间：当前人群包最后操作时间。g.人群名称旁边勾选项，可全选当前所有子人群。任务结果主界面中的“人群合并”按钮：勾选>1个子人群后，功能按钮可用，点击进入合并界面展示界面。任务结果界面中的“提取勾选人群”按钮：勾选>1个子人群后，功能按钮可用，点击进入提示界面。任务结果主界面的“退出”按钮：点击返回工具应用页面。

在一个具体实施例中，提供一种用户群体聚类方法，方法包括：接收用户群体选择指令，获取并在界面展示用户群体选择指令对应的初始用户群体数据的特征数据；在界面接收针对特征数据的选中指令，得到初始用户群体数据的初始特征数据；接收任务开始请求，对初始特征数据进行特征变换，得到变换后特征数据，基于变换后特征数据对初始用户群体数据进行聚类，将得到的聚类结果展示在界面中。

其中，用户在界面中发出用户群体选择指令对应图5(3)所示，选择初始用户群体(父人群包)的步骤；选择初始用户群体(父人群包)之后，在界面展示特征数据对应图5(4)所示圈层设置的步骤，用户可在界面中选择所需的特征数据作为初始特征数据。接收用户对特征数据的选中指令(即用户点击下一步)，根据用户选中的特征生成初始用户特征数据。进入图5(5)所示的步骤任务确认，用户点击“开始任务”之后，后台接收到任务开始请求，根据初始特征数据进行特征变换，得到变换后特征数据，然后基于变换后特征数据对初始用户群体(父人群包)进行用户聚类，得到聚类结果。最后将聚类结果展示在界面中，对应图5(6)所示的界面。

应该理解的是，虽然上述实施例中所涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例中所涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种用户群体聚类装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：请求接收模块610、特征获取模块620、特征变换模块630和聚类模块640，其中：

请求接收模块610，用于接收用户群体聚类请求，读取用户群体聚类请求中携带的初始用户群体数据；

特征获取模块620，用于获取初始用户群体数据的初始特征数据；

特征变换模块630，用于对初始特征数据进行特征变换，得到变换后特征数据；

聚类模块640，用于基于变换后特征数据对初始用户群体数据进行聚类，得到聚类结果。

上述用户群体聚类装置，根据接收到的用户群体聚类请求，读取请求中携带初始用户群体数据，并获取初始用户群体的初始特征数据，然后对初始特征数据进行特征变换，利用得到的变换后特征数据对初始用户群体进行聚类，得到聚类结果。在获取用户群体的特征数据之后，进行特征变换的操作，仅保留与待聚类的初始用户群体更为相关的特征，最后利用这些特征对初始用户群体进行聚类，可以更好的对用户群体进行聚类划分，得到聚类结果后，各聚类结果中的用户具有相似的用户特征，对于广告投放具有一定的指导作用，减少广告资源的浪费。

在一个实施例中，如图7所示，上述装置还包括：洞察统计模块710，用于根据聚类结果进行洞察统计，得到聚类结果对应的洞察统计结果。

在一个实施例中，请继续参照图7，上述装置还包括：特征过滤模块720，用于对变换后特征数据进行特征过滤，得到目标特征数据；在本实施例中，聚类模块640具体用于基于目标特征数据对初始用户群体数据进行聚类，得到聚类结果。

在一个实施例中上述装置的特征过滤模块包括：计算单元，用于计算目标特征数据中每一维特征的方差，以及每两维特征之间的相关系数；过滤单元，用于基于所有特征的方差、每两维特征之间的相关系数，对变换后特征数据中的所有特征进行特征过滤，得到目标特征数据。

在一个实施例中，上述装置的特征变换模块630具体用于对于初始特征数据中的连续型特征，进行连续型数据变换处理。

在另一个实施例中，上述装置的特征变换模块630具体用于对于初始特征数据中的类别型特征，进行编码处理。

在另一个实施例中，上述装置的特征变换模块630具体用于对于初始特征数据中存在缺失值的特征数据，进行缺失值替换处理。

在另一个实施例中，上述装置的特征变换模块630具体用于基于初始特征数据中的各特征进行特征组合，得到组合后特征。

在一个实施例中，上述装置还包括：格式转换模块，用于对目标特征数据进行格式转换，输出转换格式后的变换后特征数据。

关于用户群体聚类装置的具体限定可以参见上文中对于用户群体聚类方法的限定，在此不再赘述。上述用户群体聚类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用户群体聚类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用户群体聚类方法，其特征在于，所述方法包括：

获取所述初始用户群体数据的初始特征数据；

对所述初始特征数据进行特征变换，得到变换后特征数据；

2.根据权利要求1所述的用户群体聚类方法，其特征在于，在基于所述变换后特征数据对所述初始用户群体数据进行聚类，得到聚类结果之后，还包括：

根据所述聚类结果进行洞察统计，得到所述聚类结果对应的洞察统计结果。

3.根据权利要求1所述的用户群体聚类方法，其特征在于，在基于所述变换后特征数据对所述初始用户群体数据进行聚类，得到聚类结果之前，还包括：

对所述变换后特征数据进行特征过滤，得到目标特征数据；

所述基于所述变换后特征数据对所述初始用户群体数据进行聚类，得到聚类结果，包括：

基于所述目标特征数据对所述初始用户群体数据进行聚类，得到聚类结果。

4.根据权利要求3所述的用户群体聚类方法，其特征在于，所述对所述变换后特征数据进行特征过滤，得到目标特征数据，包括：

计算所述目标特征数据中每一维特征的方差，以及每两维特征之间的相关系数；

基于所有特征的方差、每两维特征之间的相关系数，对所述变换后特征数据中的所有特征进行特征过滤，得到所述目标特征数据。

5.根据权利要求1所述的用户群体聚类方法，其特征在于，所述对所述初始特征数据进行特征变换，得到变换后特征数据，包括以下至少一项：

第一项，对于所述初始特征数据中的连续型特征，进行连续型数据变换处理；

第二项，对于所述初始特征数据中的类别型特征，进行编码处理；

第三项，对于所述初始特征数据中存在缺失值的特征数据，进行缺失值替换处理；

第四项，基于所述初始特征数据中的各特征进行特征组合，得到组合后特征。

6.根据权利要求3至5任意一项所述的用户群体聚类方法，其特征在于，在基于所述变换后特征数据对所述初始用户群体数据进行聚类，得到聚类结果之前，还包括：

对所述目标特征数据进行格式转换，输出转换格式后的变换后特征数据。

7.一种用户群体聚类方法，其特征在于，所述方法包括：

8.一种用户群体聚类装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。