CN116860981A

CN116860981A - 潜在客户挖掘方法及装置

Info

Publication number: CN116860981A
Application number: CN202210305344.8A
Authority: CN
Inventors: 王琼; 唐崔巍; 夏敬侃; 初瑞; 舒敏根
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2023-10-10

Abstract

本发明提供一种潜在客户挖掘方法及装置，所述方法包括：对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的；利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱；对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱；利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。本发明通过利用知识图谱提供的用户与用户之间的特征相似性和逻辑相关性，使用节点双重聚类和部分关系边删除实现知识图谱结构优化，删除冗余和不相关关系，提升了数据利用率，提高了计算效率，更高效的挖掘用户间的隐藏信息和潜在关系，更精准的挖掘潜在客户名单。

Description

潜在客户挖掘方法及装置

技术领域

本发明涉及数据分析技术领域，尤其涉及一种潜在客户挖掘方法及装置。

背景技术

在竞争日益激烈的环境下，对潜在客户的挖掘能给企业带来更多效益以及市场竞争优势。

现有技术中的潜在客户挖掘方法，通常是先利用用户数据构建知识图谱，再对知识图谱进行数据挖掘，得到挖掘结果，最后对挖掘结果进行潜在客户识别。

然而这种潜在客户挖掘方法缺乏挖掘深度用户关联信息和隐藏信息的能力，挖掘出的潜在客户与现有用户只是共有很多浅层联系，如与现有用户的用户标签相似等，并不能深度挖掘所需要的实际潜在客户，潜在客户挖掘的精准性不高。

发明内容

本发明提供一种潜在客户挖掘方法及装置，用以解决现有技术中潜在客户挖掘的精准性不高的缺陷，实现精准的潜在客户挖掘。

本发明提供一种潜在客户挖掘方法，包括：

对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的；

利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱；

对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱；

利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。

可选地，所述利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱，包括：

利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取图群组；

基于所述图群组，获取所述第三知识图谱。

可选地，基于所述图群组，获取所述第三知识图谱，包括：

对所述图群组进行层次编码，获取编码后的图群组；

根据所述编码后的图群组和随机转移序列，获取平均编码长度；

对所述平均编码长度进行优化，获取最小的平均编码长度；

基于所述最小的平均编码长度，获取所述第三知识图谱。

可选地，对所述图群组进行层次编码，获取编码后的图群组，包括：

对所述图群组、所述图群组的内部图节点、所述图群组的外部关系边进行编码，获取所述编码后的图群组。

可选地，根据所述编码后的图群组和随机转移序列，获取编码长度之前，包括：

获取所述第二知识图谱中图节点的转移概率；

根据所述转移概率在所述第二知识图谱中生成随机转移序列。

可选地，对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱，包括：

根据关系边的权重对所述第三知识图谱中的部分关系边进行删除，获取第五知识图谱；

对所述第五知识图谱中的关系边进行随机删除，获取所述第四知识图谱。

本发明还提供一种潜在客户挖掘装置，包括：

第一获取模块，用于对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的；

第二获取模块，用于利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱；

第三获取模块，用于对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱；

第四获取模块，用于利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述中的任一项所述潜在客户挖掘方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述中的任一项所述潜在客户挖掘方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述中的任一项所述潜在客户挖掘方法。

本发明提供的潜在客户挖掘方法及装置，通过利用知识图谱提供的用户与用户之间的特征相似性和逻辑相关性，使用节点双重聚类和部分关系边删除实现知识图谱结构优化，删除冗余和不相关关系，提升了数据利用率，提高了计算效率，实现了更高效的挖掘用户间的隐藏信息和潜在关系，实现了更精准的潜在客户名单挖掘。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的潜在客户挖掘方法的流程示意图；

图2是本发明提供的图节点一次聚类的原理图；

图3是本发明提供的图节点二次聚类的原理图；

图4是本发明提供的图节点二次聚类的流程示意图；

图5是本发明提供的部分关系边删除的原理图；

图6是本发明提供的潜在客户挖掘装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的潜在客户挖掘方法的流程示意图，如图1所示，本发明提供一种潜在客户挖掘方法，该方法包括：

步骤101，对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的。

具体地，知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图。知识图谱中的节点表示实体或概念，边则由属性或关系构成。三元组是知识图谱的一种通用表示方式，知识图谱中三元组的本质结构为(节点1-边-节点2)，基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)两种。知识图谱中的数据全部为图数据。

在构建知识图谱之前，需要采集大量真实用户信息数据，用户信息数据包括用户行为数据、用户购买数据和用户浏览记录等。

对所有原始用户信息数据进行预处理，通过句法解析，关键词挖掘，要素识别和实体对齐等步骤对实体、关系和属性进行抽取。将不同来源的结构化，半结构化和非结构化数据转化为以三元组为基本单位的图数据。也就是将所有原始用户信息数据全部由三元组表示，每个节点都代表一个用户，节点间的边代表两用户间的关系，从而构建了基于用户信息数据的第一知识图谱。以图数据库Neo4j为载体进行图数据存储。

对第一知识图谱中任何两个三元组包含的节点和关系边进行统计，并将节点和关系边分别进行聚类，若多个三元组中的头节点、尾节点以及它们之间的边各自存在高度相似性，则可采用聚类算法将头节点归为一类，尾节点归为一类，边合并为一条，将多个三元组认定为一类三元组。

图2是本发明提供的图节点一次聚类的原理图，如图2所示，第一知识图谱中有节点1至节点8的8个节点以及8个节点之间的关系边，使用聚类算法将具有高度相似性的节点进行聚类，图2中矩形框中的节点之间具有高度相似性，可以将它们进行聚类，将节点1和节点2聚类为节点A，将节点3和节点4聚类为节点B，将节点5、节点6和节点7聚类为节点C，将节点8作为节点D，并将节点间的关系边进行合并优化，从而得到了图节点一次聚类后的第二知识图谱。

通过对头节点、尾节点以及它们之间的关系边进行高度融合,使得图数据结构更加简单，实现对图节点和关系边的初步结构优化，并为下文社区算法二次聚类的实施提供数据基础，实现多维度，多角度的知识图谱结构优化。

步骤102，利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱。

具体地，社区发现算法的基本思想是由于社区结构内部的高紧密性、高连通性，一个"随机漫步者"总是会在某个社区内部行走很长时间。因此，从一个节点出发，"随机漫步者"会在较少的步数内到达同一社区内的节点，或者可以以此定义某种相似度来进一步做社区发现。

利用社区发现算法将具有高度相似特征的图节点划为一组，从而完成图数据结构的再次优化，获得第三知识图谱。

可选地，利用社区发现算法对第二知识图谱中的图节点进行聚类，获取第三知识图谱，包括：

利用社区发现算法对第二知识图谱中的图节点进行聚类，获取图群组；

基于图群组，获取第三知识图谱。

具体地，社区发现算法使用随机游走作为网络上信息传播的代理，侧重于压缩随机游走运动所需的信息。

通过社区发现算法对第二知识图谱中的图节点进行聚类，将具有高度相似特征的图节点组成一个图群组。

在获得图群组之后，再基于图群组对第二知识图谱进行结构优化，从而获取第三知识图谱。

可选地，基于图群组，获取第三知识图谱，包括：

对图群组进行层次编码，获取编码后的图群组；

根据编码后的图群组和随机转移序列，获取平均编码长度；

对平均编码长度进行优化，获取最小的平均编码长度；

基于最小的平均编码长度，获取第三知识图谱。

具体地，采用突出网络社区结构的双层编码对图群组进行编码，获取编码后的图群组。

可选地，对图群组进行层次编码，获取编码后的图群组，包括：

对图群组、图群组的内部图节点、图群组的外部关系边进行编码，获取编码后的图群组。

具体地，除了对图群组的名字和图群组的内部图节点赋予编码外，为了区分每次随机游走跨越不同的群组，还需要对每个图群组的外部关系边也进行编码。

图3是本发明提供的图节点二次聚类的原理图，如图3所示，四个不同图群组的编码分别为111，0，10，110；图群组的外部关系边的编码分别为20，21，22，23。图群组内部节点的编码互不相同，但不同图群组内的节点编码可以相同，依靠图群组编码区分。图群组111的内部图节点的编码为11，01，101，100。图群组0的内部图节点的编码为111，00，010。图群组10的内部图节点的编码为000，001，111，110。图群组110的内部图节点的编码为00，11。

通过对图群组、图群组的内部图节点、图群组的外部关系边进行编码，实现了对图群组的层次编码，有利于对随机转移序列的编码长度的计算。

可选地，根据编码后的图群组和随机转移序列，获取编码长度之前，包括：

获取第二知识图谱中图节点的转移概率；

根据转移概率在第二知识图谱中生成随机转移序列。

具体地，转移概率是马尔可夫链中的重要概念，若马氏链分为m个状态组成，历史资料转化为由这m个状态所组成的序列。从任意一个状态出发，经过任意一次转移，必然出现状态1、2、……，m中的一个，这种状态之间的转移称为转移概率。

图4是本发明提供的图节点二次聚类的流程示意图，如图4所示，对第二知识图谱中图节点的转移概率计算，也就是任一图节点经过任意一下转换，转换到其他任意一个图节点的概率。

例如，图节点A有三条关系边，这三条关系边分别连接图节点B、图节点C和图节点D。图节点A到图节点B的转移概率为30％，图节点A到图节点C的转移概率为50％，图节点A到图节点D的转移概率为20％。转移概率大表示随机游走时，从图节点A出发，游走到图节点C的可能性是最大的。

根据转移概率在第二知识图谱中随机游走，从而生成随机转移序列。转移概率越大，图节点被游走的概率也越大。

通过先获取图节点的转移概率，再根据转移概率生成随机转移序列，

将编码后的图群组和随机转移序列进行结合，可以知道随机转移序列途经的不同群组。如图3所示，图3中的箭头方向为产生的一条随机游走路径，从图群组111的内部图节点101到图节点100，再经图群组0的内部图节点00，再经图群组10的内部图节点000，最后到达图群组110的内部图节点00。

平均编码长度为衡量随机游走产生信息量的单位，平均编码长度为随机游走者在图群组内部游走时的编码长度和跨越图群组时图群组的编码长度两部分的加权和，权值是各自的占比。

一个好的图群组划分，可以带来更短的编码。意味着随机游走者在某个图群组内部游走的转移概率将较大，跨越群组的转移概率将较小，因此，使用图群组编码和图群组的外部关系边编码的概率将较小。

对随机游走产生的平均编码长度进行优化，寻找图数据结构的最优划分，使无线随机游走的平均编码长度最小。

基于最小的平均编码长度对第二知识图谱中的关系边进行删除，从而获取第三知识图谱。

步骤103，对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱。

具体地，对第三知识图谱中的部分关系边进行删除，精简知识图谱中用户间的联系。

可选地，对第三知识图谱中的部分关系边进行删除，获取第四知识图谱，包括：

根据关系边的权重对第三知识图谱中的部分关系边进行删除，获取第五知识图谱；

对第五知识图谱中的关系边进行随机删除，获取第四知识图谱。

具体地，先对第三知识图谱中非必要图节点间的边进行删除，非必要图节点间的边是指权重较小的关系边，也即关联性较低的两节点间的边，关联性高低的标准可根据数据复杂程度等实际情况灵活设定。预设一个权重阈值，将权重小于预设权重阈值的关系边从第三知识图谱中删除。

权重删边之后，再进行小规模的随机删边。根据关系边的条数，预设一个比例，比例可以根据实际情况灵活设定，随机删除预设比例的关系边，从而获取第四知识图谱。

图5是本发明提供的部分关系边删除的原理图，如图5所示，关系边删除前，图节点为节点1至节点6，关系边数为13条，关系优化去除冗余关系后，图节点数不变，还节点1至节点6，但是关系边数减少为8条。权重删边和随机删边不对知识图谱的整体结构造影响，也就是必须保证任一图节点至少有一条关系边。

通过权重删边和随机删的组合删边技术可以去除冗余结构，加速模型计算，降低模型内存消耗，深度优化知识图谱结构，有助于更高效的挖掘用户间的隐藏信息和潜在关系，更加精准的推送潜在客户名单。

步骤104，利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。

具体地，利用优化完成的第四知识图谱作为训练数据对图卷积神经网络进行训练，获取训练好的图卷积神经网络。

利用训练好的图卷积神经网络对图节点进行深度特征提取，获取用户间的相关性，在知识图谱中挖掘与当前用户特征相近的排名靠前的用户名单，从而生成潜在客户名单。

本发明提供的潜在客户挖掘方法，通过利用知识图谱提供的用户与用户之间的特征相似性和逻辑相关性，使用节点双重聚类和部分关系边删除实现知识图谱结构优化，删除冗余和不相关关系，提升了数据利用率，提高了计算效率，实现了更高效的挖掘用户间的隐藏信息和潜在关系，实现了更精准的潜在客户名单挖掘。

下面对本发明提供的潜在客户挖掘装置进行描述，下文描述的潜在客户挖掘装置与上文描述的潜在客户挖掘方法可相互对应参照。

图6是本发明提供的潜在客户挖掘装置的结构示意图，如图6所示，本发明还提供一种潜在客户挖掘装置，包括：第一获取模块601、第二获取模块602、第三获取模块603和第四获取模块604，其中：

第一获取模块601用于对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的；

第二获取模块602用于利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱；

第三获取模块603用于对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱；

第四获取模块604用于利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。

具体来说，本申请实施例提供的潜在客户挖掘装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图7是本发明提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行潜在客户挖掘方法，该方法包括：对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的；利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱；对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱；利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的潜在客户挖掘方法，该方法包括：对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的；利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱；对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱；利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的潜在客户挖掘方法，该方法包括：对第一知识图谱中的图节点进行聚类，获取第二知识图谱；所述第一知识图谱是基于用户信息数据构建的；利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱；对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱；利用训练好的图卷积神经网络对所述第四知识图谱进行挖掘，获取潜在客户名单。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

本申请实施例中术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种潜在客户挖掘方法，其特征在于，包括：

2.根据权利要求1所述的潜在客户挖掘方法，其特征在于，所述利用社区发现算法对所述第二知识图谱中的图节点进行聚类，获取第三知识图谱，包括：

基于所述图群组，获取所述第三知识图谱。

3.根据权利要求2所述的潜在客户挖掘方法，其特征在于，基于所述图群组，获取所述第三知识图谱，包括：

对所述图群组进行层次编码，获取编码后的图群组；

对所述平均编码长度进行优化，获取最小的平均编码长度；

基于所述最小的平均编码长度，获取所述第三知识图谱。

4.根据权利要求3所述的潜在客户挖掘方法，其特征在于，对所述图群组进行层次编码，获取编码后的图群组，包括：

5.根据权利要求3所述的潜在客户挖掘方法，其特征在于，根据所述编码后的图群组和随机转移序列，获取编码长度之前，包括：

获取所述第二知识图谱中图节点的转移概率；

6.根据权利要求1所述的潜在客户挖掘方法，其特征在于，对所述第三知识图谱中的部分关系边进行删除，获取第四知识图谱，包括：

7.一种潜在客户挖掘装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中的任一项所述潜在客户挖掘方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述潜在客户挖掘方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中的任一项所述潜在客户挖掘方法。