CN107944931A

CN107944931A - 种子用户拓展方法、电子设备及计算机可读存储介质

Info

Publication number: CN107944931A
Application number: CN201711364792.0A
Authority: CN
Inventors: 安欣; 许开河; 王建明; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-04-20
Also published as: WO2019119635A1

Abstract

本发明公开了一种种子用户拓展方法，该方法包括步骤：通过预设的聚类方法针对预定数量的种子用户进行聚类分析，将所述种子用户分为若干具有特定特征的种子用户群落；通过预设的相似度计算方法，计算待拓展用户与每个种子用户群落的相似度；若待拓展用户与特定种子用户群落的相似度大于或等于第一预设阈值，则将该待拓展用户划分入该特定种子用户群落；统计每个待拓展用户划分入特定种子用户群落的个数并进行排序，并根据排序结果确定将待拓展用户拓展为种子用户的拓展规则。本发明可以减少种子用户拓展的计算复杂度、提高拓展的准确度。

Description

种子用户拓展方法、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种种子用户拓展方法、电子设备及计算机可读存储介质。

背景技术

目前，对于种子用户拓展通常是通过寻找相似用户的方法，该方法通过计算每个用户间的相似程度进行用户拓展。然而，如果用户数据为大数据量级，则计算复杂度成指数增长，如何减少计算复杂度并高效进行种子用户拓展是目前急需解决的技术问题。故，现有技术中的种子用户拓展方法设计不够合理，亟需改进。

发明内容

有鉴于此，本发明提出一种种子用户拓展方法、电子设备及计算机可读存储介质，通过无监督学习聚类方法与距离相似度算法相结合，减少了种子用户拓展的计算复杂度，并提高了拓展的准确度。

首先，为实现上述目的，本发明提出一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的种子用户拓展系统，所述种子用户拓展系统被所述处理器执行时实现如下步骤：

通过预设的聚类方法针对预定数量的种子用户进行聚类分析，将所述种子用户分为若干具有特定特征的种子用户群落；

通过预设的相似度计算方法，计算待拓展用户与每个种子用户群落的相似度；

若待拓展用户与特定种子用户群落的相似度大于或等于第一预设阈值，则将该待拓展用户划分入该特定种子用户群落；及

统计每个待拓展用户划分入特定种子用户群落的个数并进行排序，并根据排序结果确定将待拓展用户拓展为种子用户的拓展规则。

优选地，所述特定特征包括用户的地理位置、是否为注册用户、是否购买过特定产品。

优选地，所述计算待拓展用户与每个种子用户群落的相似度包括：计算待拓展用户与每个种子用户群落中心点的相似度，作为待拓展用户与每个种子用户群落的相似度。

优选地，所述拓展规则设置为：根据个数从高到低的顺序，选取指定数量的待拓展用户，将选取的待拓展用户拓展为种子用户。

优选地，所述拓展规则设置为：若待拓展用户划分入特定种子用户群落的个数大于或等于第二预设阈值，则将该待拓展用户拓展为种子用户，其中，所述第二预设阈值设置为所有种子用户群落总个数的预定比例。

此外，为实现上述目的，本发明还提供一种种子用户拓展方法，该方法应用于电子设备，所述方法包括：

优选地，所述特定特征包括用户的地理位置、是否为注册用户、是否购买过特定产品；及

所述计算待拓展用户与每个种子用户群落的相似度包括：

计算待拓展用户与每个种子用户群落中心点的相似度，作为待拓展用户与每个种子用户群落的相似度。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有种子用户拓展系统，所述种子用户拓展系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的种子用户拓展方法的步骤。

相较于现有技术，本发明所提出的电子设备、种子用户拓展方法及计算机可读存储介质，通过无监督学习聚类方法与距离相似度算法相结合，减少了种子用户拓展的计算复杂度，并提高了拓展的准确度。

附图说明

图1是本发明电子设备一可选的硬件架构的示意图；

图2是本发明电子设备中种子用户拓展系统一实施例的程序模块示意图；

图3为本发明种子用户拓展方法一实施例的实施流程示意图。

附图标记：

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

进一步需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

首先，本发明提出一种电子设备2。

参阅图1所示，是本发明电子设备2一可选的硬件架构的示意图。本实施例中，所述电子设备2可包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是，图1仅示出了具有组件21-23的电子设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该电子设备2可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器21至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器21可以是所述电子设备2的内部存储单元，例如该电子设备2的硬盘或内存。在另一些实施例中，所述存储器21也可以是所述电子设备2的外部存储设备，例如该电子设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件，例如所述种子用户拓展系统20的程序代码等。此外，所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作，例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的种子用户拓展系统20等。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如，所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连，在所述电子设备2与外部数据平台之间建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

至此，己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施例。

参阅图2所示，是本发明电子设备2中种子用户拓展系统20一实施例的程序模块图。本实施例中，所述的种子用户拓展系统20可以被分割成一个或多个程序模块，所述一个或者多个程序模块被存储于所述存储器21中，并由一个或多个处理器(本实施例中为所述处理器22)所执行，以完成本发明。例如，在图2中，所述的种子用户拓展系统20可以被分割成分析模块201、计算模块202、以及拓展模块203。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述种子用户拓展系统20在所述电子设备2中的执行过程。以下将就各程序模块201-203的功能进行详细描述。

所述分析模块201，用于通过预设的聚类方法(如无监督学习K-means聚类方法)针对预定数量(可以是大数据量级)的种子用户进行聚类分析，将所述种子用户分为若干具有特定特征(或显著特征)的种子用户群落。其中，所述特定特征包括，但不限于，用户的地理位置、是否为注册用户、是否购买过特定产品(如产险)等。

举例而言，假设聚类个数为k(即种子用户群落的个数)，所有种子用户的预定数量为N，则K-means聚类方法包括如下步骤：

(A1)首先从N个数据对象(即N个种子用户)中任意选择k个数据对象作为聚类中心(即初始聚类中心)；

(A2)针对剩余的数据对象，计算每个剩余的数据对象到每个聚类中心的相似度(如欧式距离，距离越小代表相似度越高)，并根据相似度的大小分别将每个剩余的数据对象分配给与其最相似的聚类中心所代表的聚类；

(A3)重新计算已经得到的每个聚类的聚类中心(即每个聚类中所有数据对象的均值)；

(A4)迭代A2至A3步骤，直至预设的标准测度函数开始收敛为止。在本实施例中，可以采用均方差作为预设的标准测度函数。

所述计算模块202，用于通过预设的相似度计算方法，计算待拓展用户(一个或多个)与每个种子用户群落(即具有特定特征的种子用户群落)的相似度。其中，所述预设的相似度计算方法可以是：欧氏距离、夹角余弦、汉明距离等相似度计算方法。

优选地，在本实施例中，所述计算待拓展用户与每个种子用户群落的相似度包括：计算待拓展用户与每个种子用户群落中心点的相似度(计算方法与用户之间相似度计算方法一致)，作为待拓展用户与每个种子用户群落的相似度。其中，种子用户群落是多个具有相似特征的用户集合，每个集合向一个中心点聚合，该中心点即种子用户群落的中心点。由于无需与种子用户群落中的每个用户计算相似度，从而可以大幅降低计算复杂度。

举例而言，采用夹角余弦方法计算待拓展用户与某个种子用户群落中心点的相似度可以采用如下公式1所示。

其中，代表待拓展用户a和某个种子用户群落中心点b的余弦相似度，代表待拓展用户a的评分向量，代表某个种子用户群落中心点b的评分向量。

所述拓展模块203，用于若待拓展用户与特定种子用户群落的相似度大于或等于第一预设阈值(如80％)，则将该待拓展用户划分入该特定种子用户群落。

举例而言，假设聚类分析后得到的种子用户群落包括三个：B1、B2、B3，待拓展用户A与种子用户群落B1的相似度S1为60％、与种子用户群落B2的相似度S2为85％(大于第一预设阈值)、与种子用户群落B3的相似度S3为90％(大于第一预设阈值)，则将待拓展用户A划分入特定种子用户群落B2和B3。

所述拓展模块203，还用于统计每个待拓展用户划分入特定种子用户群落的个数并进行排序，并根据排序结果确定将待拓展用户拓展为种子用户的拓展规则。其中，排序越高代表相似度越高。

优选地，在本实施例中，所述拓展规则设置为：根据个数从高到低的顺序，选取指定数量(如前2位)的待拓展用户，将选取的待拓展用户拓展为种子用户。例如，假设待拓展用户A同时划分入5个种子用户群落，待拓展用户B同时划分入3个种子用户群落，待拓展用户C同时划分入2个种子用户群落，则将待拓展用户A和B拓展为种子用户。

优选地，在其它实施例中，所述拓展规则还可以设置为：若待拓展用户划分入特定种子用户群落的个数大于或等于第二预设阈值，则将该待拓展用户拓展为种子用户，其中，所述第二预设阈值可以设置为所有种子用户群落(即具有特定特征的种子用户群落)总个数的预定比例(如50％)。例如，假设所有种子用户群落总个数为4，预定比例为50％，则所述第二预设阈值为2。

通过上述程序模块201-203，本发明所提出的种子用户拓展系统20，通过无监督学习聚类方法与距离相似度算法相结合，减少了种子用户拓展的计算复杂度，并提高了拓展的准确度。

此外，本发明还提出一种种子用户拓展方法。

参阅图3所示，是本发明种子用户拓展方法一实施例的实施流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S31，通过预设的聚类方法(如无监督学习K-means聚类方法)针对预定数量(可以是大数据量级)的种子用户进行聚类分析，将所述种子用户分为若干具有特定特征(或显著特征)的种子用户群落。其中，所述特定特征包括，但不限于，用户的地理位置、是否为注册用户、是否购买过特定产品(如产险)等。

步骤S32，通过预设的相似度计算方法，计算待拓展用户(一个或多个)与每个种子用户群落(即具有特定特征的种子用户群落)的相似度。其中，所述预设的相似度计算方法可以是：欧氏距离、夹角余弦、汉明距离等相似度计算方法。

步骤S33，若待拓展用户与特定种子用户群落的相似度大于或等于第一预设阈值(如80％)，则将该待拓展用户划分入该特定种子用户群落。

步骤S34，统计每个待拓展用户划分入特定种子用户群落的个数并进行排序，并根据排序结果确定将待拓展用户拓展为种子用户的拓展规则。其中，排序越高代表相似度越高。

通过上述步骤S31-S34，本发明所提出的种子用户拓展方法，通过无监督学习聚类方法与距离相似度算法相结合，减少了种子用户拓展的计算复杂度，并提高了拓展的准确度。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘)，所述计算机可读存储介质存储有种子用户拓展系统20，所述种子用户拓展系统20可被至少一个处理器22执行，以使所述至少一个处理器22执行如下所述的种子用户拓展方法的步骤。

(1)通过预设的聚类方法(如无监督学习K-means聚类方法)针对预定数量(可以是大数据量级)的种子用户进行聚类分析，将所述种子用户分为若干具有特定特征(或显著特征)的种子用户群落。其中，所述特定特征包括，但不限于，用户的地理位置、是否为注册用户、是否购买过特定产品(如产险)等。

(2)通过预设的相似度计算方法，计算待拓展用户(一个或多个)与每个种子用户群落(即具有特定特征的种子用户群落)的相似度。其中，所述预设的相似度计算方法可以是：欧氏距离、夹角余弦、汉明距离等相似度计算方法。

(3)若待拓展用户与特定种子用户群落的相似度大于或等于第一预设阈值(如80％)，则将该待拓展用户划分入该特定种子用户群落。

(4)统计每个待拓展用户划分入特定种子用户群落的个数并进行排序，并根据排序结果确定将待拓展用户拓展为种子用户的拓展规则。其中，排序越高代表相似度越高。

通过上述步骤(1)-(4)，本发明所提出的计算机可读存储介质，通过无监督学习聚类方法与距离相似度算法相结合，减少了种子用户拓展的计算复杂度，并提高了拓展的准确度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的种子用户拓展系统，所述种子用户拓展系统被所述处理器执行时实现如下步骤：

2.如权利要求1所述的电子设备，其特征在于，所述特定特征包括用户的地理位置、是否为注册用户、是否购买过特定产品。

3.如权利要求1所述的电子设备，其特征在于，所述计算待拓展用户与每个种子用户群落的相似度包括：计算待拓展用户与每个种子用户群落中心点的相似度，作为待拓展用户与每个种子用户群落的相似度。

4.如权利要求2或3所述的电子设备，其特征在于，所述拓展规则设置为：根据个数从高到低的顺序，选取指定数量的待拓展用户，将选取的待拓展用户拓展为种子用户。

5.如权利要求2或3所述的电子设备，其特征在于，所述拓展规则设置为：若待拓展用户划分入特定种子用户群落的个数大于或等于第二预设阈值，则将该待拓展用户拓展为种子用户，其中，所述第二预设阈值设置为所有种子用户群落总个数的预定比例。

6.一种种子用户拓展方法，应用于电子设备，其特征在于，所述方法包括：

7.如权利要求6所述的种子用户拓展方法，其特征在于，所述特定特征包括用户的地理位置、是否为注册用户、是否购买过特定产品；及

所述计算待拓展用户与每个种子用户群落的相似度包括：

8.如权利要求7所述的种子用户拓展方法，其特征在于，所述拓展规则设置为：根据个数从高到低的顺序，选取指定数量的待拓展用户，将选取的待拓展用户拓展为种子用户。

9.如权利要求7所述的种子用户拓展方法，其特征在于，所述拓展规则设置为：若待拓展用户划分入特定种子用户群落的个数大于或等于第二预设阈值，则将该待拓展用户拓展为种子用户，其中，所述第二预设阈值设置为所有种子用户群落总个数的预定比例。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有种子用户拓展系统，所述种子用户拓展系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求6-9中任一项所述的种子用户拓展方法的步骤。