CN112488138A

CN112488138A - 用户类别识别方法、装置、电子设备及存储介质

Info

Publication number: CN112488138A
Application number: CN201910860278.9A
Authority: CN
Inventors: 赵俊; 王丹弘; 李启文; 刘钢庭
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2021-03-12

Abstract

本申请公开了一种用户类别识别方法、装置、电子设备及存储介质，涉及通信技术领域。用户类别识别方法包括：对采集到的用户通信数据进行预处理，得到数据样本集；根据与数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数；根据扫描半径和最小包含点数，对数据样本集进行分簇，得到目标簇；根据用户行为特征和目标簇确定出用户的类别。本申请公开的用户类别识别方法、装置、电子设备及存储介质能够更加准确的识别出用户的类别，为运营商进行用户通信分析及黑灰产识别提供可靠的依据，提升用户体验。

Description

用户类别识别方法、装置、电子设备及存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种用户类别识别方法、装置、电子设备及存储介质。

背景技术

在未经授权的情况下，利用传统电信网络在协议和监管机制上的缺陷伪造移动或固定网络电话号码实施欺诈和信息窃取的行为，是目前通信网络中常见的违法行为之一。通过伪造成移动或固定网络电话号码进行虚假主叫实施诈骗的方式有很多，诈骗场景多种多样，而已有的监控或识别技术能够生效的场景却是十分有限的。

现有技术的技术方案中对黑灰产等不良号码的识别主要采用特征匹配的方式进行识别，通过总结不良电话的普遍呼叫行为，统计呼叫特征，设定阈值以此区别正常电话和不良电话的通话行为，当某一呼叫特征超过阈值时，则认为该号码是不良号码，加入黑名单库。特征匹配虽然减轻了人工审核投诉的压力并且能够主动发现不良号码，但是由于规矩较为简单，指标体系不够完善，容易出现误拦、漏拦等现象。

发明内容

本申请实施例采用下述技术方案：

本申请实施例提供一种用户类别识别方法，包括：

对采集到的用户通信数据进行预处理，得到数据样本集；

根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数；

根据所述扫描半径和所述最小包含点数，对所述数据样本集进行分簇，得到目标簇；

根据用户行为特征和所述目标簇确定出用户的类别。

可选的，所述方法还包括：

对所述目标簇进行聚类分析；

所述根据用户行为特征和所述目标簇确定出用户的类别，包括：

根据所述聚类分析的结果和所述用户行为特征确定出用户的类别。

可选的，所述对所述目标簇进行聚类分析，包括：

通过谱聚类算法对所述目标簇进行聚类分析。

可选的，所述对采集到的用户通信数据进行预处理，包括：

对采集到的同一基站的用户通信数据进行异常值剔除、空值处理、去重、聚合统计以及归一化处理。

可选的，所述方法还包括：

根据所述用户行为特征对归一化处理后得到的数据进行数据特征扩展，得到所述得到数据样本集。

可选的，所述根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数，包括：

根据所述数据样本集计算出对应的所述距离分布矩阵；

对所述距离分布矩阵中的每行数据以及所述所述距离分布矩阵中的每列数据进行升序排列或降序排列，得到数据点距离分布图；

根据所述数据点距离分布图中的数据点距离的密集分布程度，确定出所述扫描半径；

根据所述扫描半径确定出所述距离分布矩阵中的数据的邻域的对象数量；

计算所述对象数量的数学期望值，得到所述最小包含点数。

可选的，所述对所述数据样本集进行分簇，包括：

通过基于密度的聚类算法对所述数据样本集进行分簇。

本申请实施例还提供一种用户类别识别装置，所述用户类别识别装置包括：

预处理模块，用于对采集到的用户通信数据进行预处理，得到数据样本集；

第一确定模块，用于根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数；

分簇模块，用于根据所述扫描半径和所述最小包含点数，对所述数据样本集进行分簇，得到目标簇；

第二确定模块，用于根据用户行为特征和所述目标簇确定出用户的类别。

本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现上述任一所述的方法步骤。。

本申请实施例还提供一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的方法步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

本申请提供的方案通过根据数据样本集对应的距离分布矩阵中的数据点距离分布情况对数据样本集进行分簇，并根据用户行为特征和分簇的结果确定出所有用户的类别，从而能够更加准确的识别出用户的类别，为运营商进行用户通信分析及黑灰产识别提供可靠的依据，进而改善互联网商业环境，挽回电商企业损失，提升用户体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种用户类别识别方法的流程图。

图2为图1中步骤S103的子步骤的流程图。

图3为本申请实施例提供的另一种用户类别识别方法的流程图。

图4为本申请实施例提供的电子设备的结构示意图。

图5为本申请实施例提供的用户类别识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

请参阅图1，本申请实施例提供了一种用户类别识别方法，用于对黑灰产等不良号码进行识别，下面将对本申请提供的用户类别识别方法进行详细说明。

本申请实施例提供的方法可以应用于服务器，所述服务器可以是网络服务器、数据库服务器等。该方法也可以应用于用户终端，所述用户终端可以是，但不限于个人电脑、智能手机、平板电脑、膝上型便携计算机、车载电脑、人数字助理等。

为了便于描述，除特别说明外，本申请实施例均以服务器为执行主体进行说明。可以理解，所述执行主体并不构成对本申请实施例的限定。

具体的，该用户类别识别方法的流程如图1所示，可以包括如下步骤：

步骤S101，对采集到的用户通信数据进行预处理，得到数据样本集。

本申请实施例中，用户通信数据包含用户的信令数据和网络数据，可以包括，但不限于用户的位置轨迹、通话记录、短信记录、上网日志、应用程序(APP)的使用记录等多项数据。

进行预处理时，可以将采集到的用户通信数据进行剔除异常值、空值处理、去重、聚合统计以及归一化处理，得到用户的多维度数据，然后将数据以基站位置分组，将同一基站所对应用户的多维度数据划分为同一数据集，得到数据样本集。

其中，剔除异常值可以是根据统计角度和实际业务合理性的角度来进行剔除，可以将用户通信数据中部分明显偏离正常分布的数据作为异常数据进行剔除。包括网络信令和话单数据中一些比较离散的数据，比如通话较少的老年卡的通信数据，或者一些未开通上网功能的用户数据等。如此，可以避免在后续过程中将一些特殊的用户(如老年卡用户)误划分为异常的用户，确保用户类别识别的准确性。

例如，用户通信数据包括用户的位置轨迹、通话记录、短信记录、上网日志和APP使用记录等共计5项数据，那么得到的数据样本集中的数据包含5个维度的数值，每个维度的数值的取值在0到1之间。

本申请的一个或多个实施例中，在对采集到的用户通信数据进行预处理后，还可以对预处理后的数据进行数据特征扩展，得到所述数据样本集。

数据特征扩展可以是对一段时间内用户号码的通话记录进行特征统计，或以一段时间内用户的上网行为日志进行特征统计，然后用统计的特征的归一化值来扩展数据的维度。其中，一段时间可以是，但不限于一个月、一周等。用户号码的通话记录可以是，但不限于用户号码的通话次数、通话时长以及通话时间段分布等。上网行为日志可以是，但不限于访问电商应用程序及网站占比、访问即时聊天应用程序占比、访问新闻类应用程序及网站占比以及访问常用打码平台网站占比等。

例如，原来的数据中有5个维度的数值，数据特征扩展又扩展了3个维度的数值，那么扩展后的数据样本集的每个数据就包含了8个维度的数值。

通过数据特征扩展，可使数据样本集中数据的特征更加丰富，进一步确保用户类别识别的准确性。

步骤S103，根据与数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数。

请参阅图2，步骤S103可以包括如下子步骤：

子步骤S1031，根据数据样本集计算出对应的距离分布矩阵。

本申请实施例中，首先可根据数据样本集计算出对应的距离分布矩阵DIST_n×n，DIST_n×n＝{dist(i，j)|1≤i≤n，1≤j≤n}，其中DIST_n×n是一个n行和n列的实对称矩阵，其中n为数据样本集D中数据的对象数目，其中每个元素表示数据集D中对象i和对象j之间的距离。

子步骤S1033，对距离分布矩阵中的每行数据以及距离分布矩阵中的每列数据进行升序排列，得到数据点距离分布图。

计算DIST_n×n中每个元素的值，然后逐行按照升序排列，用于DIST_n×i表示DIST_n×n中第i列的值，对DIST_n×i中每一个元素进行升序排列得到数据点距离分布图，即KNN分布图。

本申请实施例中，对距离分布矩阵中的每行数据以及距离分布矩阵中的每列数据进行升序排列。可以理解，在其他的一些实施例中，也可对距离分布矩阵中的每行数据以及距离分布矩阵中的每列数据进行降序排列。

子步骤S1035，根据数据点距离分布图中的数据点距离的密集分布程度，确定出扫描半径。

为了确定合适的扫描半径，首先计算数据点距离分布图中任意对象(数据)与之多个临近对象之间的距离，然后根据求得的距离由小到大排序，得到k-dist分布曲线。然后通过数学方法找出k-dist分布曲线中从平缓变化到急剧上升的点，该点所对应的对象的数量即为扫描半径Eps。

由于该点所对应的对象的数量之间的距离分布变换较平缓，因此对象之间的特征比较接近，因此在后续分簇时，属于同一簇用户通信数据特征相似度高，即特征相似度高的用户能够划分到同一簇，进而可提高后续过程中用户类别识别的准确性。

子步骤S1037，根据扫描半径确定出距离分布矩阵中的数据的邻域的对象数量。

在确定出扫描半径Eps后，可根据每个数据的邻域数据点的统计分布特性，依次计算出每个数据的邻域的对象数量。

子步骤S1039，计算对象数量的数学期望值，得到最小包含点数。

步骤S105，根据扫描半径和最小包含点数，对数据样本集进行分簇，得到目标簇。

在确定出扫描半径和最小包含点数后，可通过基于密度的聚类算法对所述数据样本集进行分簇，得到多个目标簇。

其中，不属于该多个目标簇中的数据则被划分为异常点，做过滤处理。

基于密度的聚类算法为较为现有的技术，本申请实施例中不再具体进行说明。

步骤S107，根据用户行为特征和目标簇确定出用户的类别。

本申请实施例中，在确定用户的类别时，可选取目标簇中一个或多个用户，根据被选取用户的行为特征确定出被选取用户的类别，并可将该类别作为被选取的目标簇中所有用户的类别。

确定用户的类别时，对于通话次数少、通话时长较短、时间段分布离散，且访问电商应用程序及网站占比高、访问即时聊天应用程序占比低、访问新闻类应用程序及网站占比低、访问常用打码平台网站占比高的用户，其可以划为为黑灰产用户。反之，则可划分为正常用户。而信令数据和网络数据刚好位于正常用户与黑灰产用户之间的则可以划分为待定用户。

对于黑灰产用户可以直接或在确认后对其采取相应的措施，例如限制其部分功能或在通话时在其来电提示中加入提醒信息等待。对于待定用户则可以进一步做周期性观察，再作出相应的处理。

请参阅图3，是本申请实施例提供的另一用户类别识别方法的流程，该用户类别识别方法包括如下步骤：

步骤S301，对采集到的用户通信数据进行预处理，得到数据样本集。

步骤S303，根据与数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数。

步骤S305，根据扫描半径和最小包含点数，对数据样本集进行分簇，得到目标簇。

步骤S307，对目标簇进行聚类分析。

本申请实施例中，对目标簇聚类分析可以采用谱聚类算法。

采用谱聚类算法对目标簇进行聚类分析可包括如下步骤：

1、输入每个簇的数据并构造对应的相似矩阵。

2、根据相似矩阵构造规对应的规范化相似矩阵S。

3、根据规范化相似矩阵S构造对应的对角矩阵D。

4、根据范化相似矩阵S和对角矩阵D构造与每个簇对应的拉普拉斯矩阵P，其中，P＝D^-1/2SD^-1/2。

5、计算每个规范化相似矩阵S的特征值，并按照大小顺序进行排列，记为λ₁≥λ₂≥···≥λ_n，计算特征值的特征间隙序列{g₁，g₂，···，g_n-1|g_i＝λ_i-λ_i-1}，求特征间隙的最大值，记为g_k，那么类的个数即为k个。

6、求拉普拉斯矩阵P的k个最大特征值所对应的特征向量v₁，v₂，...，v_k，构造新矩阵V＝[v₁，v₂，...，v_k]，其中v_l(l＝1，2，...，k)为列向量。

7、规范化V的行向量，记为矩阵Y，其中

8、将矩阵Y中的每一行元素看着空间R^k中的一个点，通过K均值算法将这些点进行分类。

谱聚类算法为现有技术，因此本申请实施例中仅简要说明。

步骤S109，根据聚类分析的结果和用户行为特征确定出用户的类别。

最后，根据分类得到的每类用户的用户行为特征，确定出所有用户的类别。

综上所述，本申请提供的方案通过根据数据样本集对应的距离分布矩阵中的数据点距离分布情况对数据样本集进行分簇，并根据用户行为特征和分簇的结果确定出所有用户的类别。由于在分簇时，扫描半径和最小包含点数是根据离分布矩阵中距离分布变换较平缓的数据点确定，因此在分簇时，属于同一簇用户通信数据特征相似度很高，即特征相似度高的用户能够划分到同一簇，进而提高后续过程中用户类别识别的准确性，为运营商进行用户通信分析及黑灰产识别提供可靠的依据，进而改善互联网商业环境，挽回电商企业损失，提升用户体验。同时，避免了传统的基于规则的“一刀切”方式带来的弊端，分类模型能够根据现实数据自动调整参数，适应性强。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

图4是本申请的一个实施例电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成用户类别识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

对采集到的用户通信数据进行预处理，得到数据样本集；

根据用户行为特征和所述目标簇确定出用户的类别。

上述如本申请图1-3所示实施例揭示的用户类别识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1-3的方法，并实现用户类别识别装置在图1-3所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1-3所示实施例的方法，并具体用于执行以下操作：

对采集到的用户通信数据进行预处理，得到数据样本集；

根据用户行为特征和所述目标簇确定出用户的类别。

图5是本申请的一个实施例用户类别识别装置的结构示意图。请参考图5，在一种软件实施方式中，用户类别识别装置可包括：

预处理模块501，用于对采集到的用户通信数据进行预处理，得到数据样本集；

第一确定模块503，用于根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数；

分簇模块505，用于根据所述扫描半径和所述最小包含点数，对所述数据样本集进行分簇，得到目标簇；

第二确定模块507，用于根据用户行为特征和所述目标簇确定出用户的类别。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种用户类别识别方法，其特征在于，包括：

对采集到的用户通信数据进行预处理，得到数据样本集；

根据用户行为特征和所述目标簇确定出用户的类别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述目标簇进行聚类分析；

3.根据权利要求2所述的方法，其特征在于，所述对所述目标簇进行聚类分析，包括：

通过谱聚类算法对所述目标簇进行聚类分析。

4.根据权利要求1所述的方法，其特征在于，所述对采集到的用户通信数据进行预处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况，确定出扫描半径和最小包含点数，包括：

根据所述数据样本集计算出对应的所述距离分布矩阵；

计算所述对象数量的数学期望值，得到所述最小包含点数。

7.根据权利要求1所述的方法，其特征在于，所述对所述数据样本集进行分簇，包括：

通过基于密度的聚类算法对所述数据样本集进行分簇。

8.一种用户类别识别装置，其特征在于，所述用户类别识别装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现权利要求1至7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一所述的方法步骤。