CN112488138A - 用户类别识别方法、装置、电子设备及存储介质 - Google Patents
用户类别识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112488138A CN112488138A CN201910860278.9A CN201910860278A CN112488138A CN 112488138 A CN112488138 A CN 112488138A CN 201910860278 A CN201910860278 A CN 201910860278A CN 112488138 A CN112488138 A CN 112488138A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- distance distribution
- sample set
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/66—Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
- H04M1/663—Preventing unauthorised calls to a telephone set
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种用户类别识别方法、装置、电子设备及存储介质,涉及通信技术领域。用户类别识别方法包括:对采集到的用户通信数据进行预处理,得到数据样本集;根据与数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;根据扫描半径和最小包含点数,对数据样本集进行分簇,得到目标簇;根据用户行为特征和目标簇确定出用户的类别。本申请公开的用户类别识别方法、装置、电子设备及存储介质能够更加准确的识别出用户的类别,为运营商进行用户通信分析及黑灰产识别提供可靠的依据,提升用户体验。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种用户类别识别方法、装置、电子设备及存储介质。
背景技术
在未经授权的情况下,利用传统电信网络在协议和监管机制上的缺陷伪造移动或固定网络电话号码实施欺诈和信息窃取的行为,是目前通信网络中常见的违法行为之一。通过伪造成移动或固定网络电话号码进行虚假主叫实施诈骗的方式有很多,诈骗场景多种多样,而已有的监控或识别技术能够生效的场景却是十分有限的。
现有技术的技术方案中对黑灰产等不良号码的识别主要采用特征匹配的方式进行识别,通过总结不良电话的普遍呼叫行为,统计呼叫特征,设定阈值以此区别正常电话和不良电话的通话行为,当某一呼叫特征超过阈值时,则认为该号码是不良号码,加入黑名单库。特征匹配虽然减轻了人工审核投诉的压力并且能够主动发现不良号码,但是由于规矩较为简单,指标体系不够完善,容易出现误拦、漏拦等现象。
发明内容
本申请实施例采用下述技术方案:
本申请实施例提供一种用户类别识别方法,包括:
对采集到的用户通信数据进行预处理,得到数据样本集;
根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
根据用户行为特征和所述目标簇确定出用户的类别。
可选的,所述方法还包括:
对所述目标簇进行聚类分析;
所述根据用户行为特征和所述目标簇确定出用户的类别,包括:
根据所述聚类分析的结果和所述用户行为特征确定出用户的类别。
可选的,所述对所述目标簇进行聚类分析,包括:
通过谱聚类算法对所述目标簇进行聚类分析。
可选的,所述对采集到的用户通信数据进行预处理,包括:
对采集到的同一基站的用户通信数据进行异常值剔除、空值处理、去重、聚合统计以及归一化处理。
可选的,所述方法还包括:
根据所述用户行为特征对归一化处理后得到的数据进行数据特征扩展,得到所述得到数据样本集。
可选的,所述根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数,包括:
根据所述数据样本集计算出对应的所述距离分布矩阵;
对所述距离分布矩阵中的每行数据以及所述所述距离分布矩阵中的每列数据进行升序排列或降序排列,得到数据点距离分布图;
根据所述数据点距离分布图中的数据点距离的密集分布程度,确定出所述扫描半径;
根据所述扫描半径确定出所述距离分布矩阵中的数据的邻域的对象数量;
计算所述对象数量的数学期望值,得到所述最小包含点数。
可选的,所述对所述数据样本集进行分簇,包括:
通过基于密度的聚类算法对所述数据样本集进行分簇。
本申请实施例还提供一种用户类别识别装置,所述用户类别识别装置包括:
预处理模块,用于对采集到的用户通信数据进行预处理,得到数据样本集;
第一确定模块,用于根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
分簇模块,用于根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
第二确定模块,用于根据用户行为特征和所述目标簇确定出用户的类别。
本申请实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序,实现上述任一所述的方法步骤。。
本申请实施例还提供一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的方法步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请提供的方案通过根据数据样本集对应的距离分布矩阵中的数据点距离分布情况对数据样本集进行分簇,并根据用户行为特征和分簇的结果确定出所有用户的类别,从而能够更加准确的识别出用户的类别,为运营商进行用户通信分析及黑灰产识别提供可靠的依据,进而改善互联网商业环境,挽回电商企业损失,提升用户体验。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种用户类别识别方法的流程图。
图2为图1中步骤S103的子步骤的流程图。
图3为本申请实施例提供的另一种用户类别识别方法的流程图。
图4为本申请实施例提供的电子设备的结构示意图。
图5为本申请实施例提供的用户类别识别装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
请参阅图1,本申请实施例提供了一种用户类别识别方法,用于对黑灰产等不良号码进行识别,下面将对本申请提供的用户类别识别方法进行详细说明。
本申请实施例提供的方法可以应用于服务器,所述服务器可以是网络服务器、数据库服务器等。该方法也可以应用于用户终端,所述用户终端可以是,但不限于个人电脑、智能手机、平板电脑、膝上型便携计算机、车载电脑、人数字助理等。
为了便于描述,除特别说明外,本申请实施例均以服务器为执行主体进行说明。可以理解,所述执行主体并不构成对本申请实施例的限定。
具体的,该用户类别识别方法的流程如图1所示,可以包括如下步骤:
步骤S101,对采集到的用户通信数据进行预处理,得到数据样本集。
本申请实施例中,用户通信数据包含用户的信令数据和网络数据,可以包括,但不限于用户的位置轨迹、通话记录、短信记录、上网日志、应用程序(APP)的使用记录等多项数据。
进行预处理时,可以将采集到的用户通信数据进行剔除异常值、空值处理、去重、聚合统计以及归一化处理,得到用户的多维度数据,然后将数据以基站位置分组,将同一基站所对应用户的多维度数据划分为同一数据集,得到数据样本集。
其中,剔除异常值可以是根据统计角度和实际业务合理性的角度来进行剔除,可以将用户通信数据中部分明显偏离正常分布的数据作为异常数据进行剔除。包括网络信令和话单数据中一些比较离散的数据,比如通话较少的老年卡的通信数据,或者一些未开通上网功能的用户数据等。如此,可以避免在后续过程中将一些特殊的用户(如老年卡用户)误划分为异常的用户,确保用户类别识别的准确性。
例如,用户通信数据包括用户的位置轨迹、通话记录、短信记录、上网日志和APP使用记录等共计5项数据,那么得到的数据样本集中的数据包含5个维度的数值,每个维度的数值的取值在0到1之间。
本申请的一个或多个实施例中,在对采集到的用户通信数据进行预处理后,还可以对预处理后的数据进行数据特征扩展,得到所述数据样本集。
数据特征扩展可以是对一段时间内用户号码的通话记录进行特征统计,或以一段时间内用户的上网行为日志进行特征统计,然后用统计的特征的归一化值来扩展数据的维度。其中,一段时间可以是,但不限于一个月、一周等。用户号码的通话记录可以是,但不限于用户号码的通话次数、通话时长以及通话时间段分布等。上网行为日志可以是,但不限于访问电商应用程序及网站占比、访问即时聊天应用程序占比、访问新闻类应用程序及网站占比以及访问常用打码平台网站占比等。
例如,原来的数据中有5个维度的数值,数据特征扩展又扩展了3个维度的数值,那么扩展后的数据样本集的每个数据就包含了8个维度的数值。
通过数据特征扩展,可使数据样本集中数据的特征更加丰富,进一步确保用户类别识别的准确性。
步骤S103,根据与数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数。
请参阅图2,步骤S103可以包括如下子步骤:
子步骤S1031,根据数据样本集计算出对应的距离分布矩阵。
本申请实施例中,首先可根据数据样本集计算出对应的距离分布矩阵DISTn×n,DISTn×n={dist(i,j)|1≤i≤n,1≤j≤n},其中DISTn×n是一个n行和n列的实对称矩阵,其中n为数据样本集D中数据的对象数目,其中每个元素表示数据集D中对象i和对象j之间的距离。
子步骤S1033,对距离分布矩阵中的每行数据以及距离分布矩阵中的每列数据进行升序排列,得到数据点距离分布图。
计算DISTn×n中每个元素的值,然后逐行按照升序排列,用于DISTn×i表示DISTn×n中第i列的值,对DISTn×i中每一个元素进行升序排列得到数据点距离分布图,即KNN分布图。
本申请实施例中,对距离分布矩阵中的每行数据以及距离分布矩阵中的每列数据进行升序排列。可以理解,在其他的一些实施例中,也可对距离分布矩阵中的每行数据以及距离分布矩阵中的每列数据进行降序排列。
子步骤S1035,根据数据点距离分布图中的数据点距离的密集分布程度,确定出扫描半径。
为了确定合适的扫描半径,首先计算数据点距离分布图中任意对象(数据)与之多个临近对象之间的距离,然后根据求得的距离由小到大排序,得到k-dist分布曲线。然后通过数学方法找出k-dist分布曲线中从平缓变化到急剧上升的点,该点所对应的对象的数量即为扫描半径Eps。
由于该点所对应的对象的数量之间的距离分布变换较平缓,因此对象之间的特征比较接近,因此在后续分簇时,属于同一簇用户通信数据特征相似度高,即特征相似度高的用户能够划分到同一簇,进而可提高后续过程中用户类别识别的准确性。
子步骤S1037,根据扫描半径确定出距离分布矩阵中的数据的邻域的对象数量。
在确定出扫描半径Eps后,可根据每个数据的邻域数据点的统计分布特性,依次计算出每个数据的邻域的对象数量。
子步骤S1039,计算对象数量的数学期望值,得到最小包含点数。
步骤S105,根据扫描半径和最小包含点数,对数据样本集进行分簇,得到目标簇。
在确定出扫描半径和最小包含点数后,可通过基于密度的聚类算法对所述数据样本集进行分簇,得到多个目标簇。
其中,不属于该多个目标簇中的数据则被划分为异常点,做过滤处理。
基于密度的聚类算法为较为现有的技术,本申请实施例中不再具体进行说明。
步骤S107,根据用户行为特征和目标簇确定出用户的类别。
本申请实施例中,在确定用户的类别时,可选取目标簇中一个或多个用户,根据被选取用户的行为特征确定出被选取用户的类别,并可将该类别作为被选取的目标簇中所有用户的类别。
确定用户的类别时,对于通话次数少、通话时长较短、时间段分布离散,且访问电商应用程序及网站占比高、访问即时聊天应用程序占比低、访问新闻类应用程序及网站占比低、访问常用打码平台网站占比高的用户,其可以划为为黑灰产用户。反之,则可划分为正常用户。而信令数据和网络数据刚好位于正常用户与黑灰产用户之间的则可以划分为待定用户。
对于黑灰产用户可以直接或在确认后对其采取相应的措施,例如限制其部分功能或在通话时在其来电提示中加入提醒信息等待。对于待定用户则可以进一步做周期性观察,再作出相应的处理。
请参阅图3,是本申请实施例提供的另一用户类别识别方法的流程,该用户类别识别方法包括如下步骤:
步骤S301,对采集到的用户通信数据进行预处理,得到数据样本集。
步骤S303,根据与数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数。
步骤S305,根据扫描半径和最小包含点数,对数据样本集进行分簇,得到目标簇。
步骤S307,对目标簇进行聚类分析。
本申请实施例中,对目标簇聚类分析可以采用谱聚类算法。
采用谱聚类算法对目标簇进行聚类分析可包括如下步骤:
1、输入每个簇的数据并构造对应的相似矩阵。
2、根据相似矩阵构造规对应的规范化相似矩阵S。
3、根据规范化相似矩阵S构造对应的对角矩阵D。
4、根据范化相似矩阵S和对角矩阵D构造与每个簇对应的拉普拉斯矩阵P,其中,P=D-1/2SD-1/2。
5、计算每个规范化相似矩阵S的特征值,并按照大小顺序进行排列,记为λ1≥λ2≥···≥λn,计算特征值的特征间隙序列{g1,g2,···,gn-1|gi=λi-λi-1},求特征间隙的最大值,记为gk,那么类的个数即为k个。
6、求拉普拉斯矩阵P的k个最大特征值所对应的特征向量v1,v2,...,vk,构造新矩阵V=[v1,v2,...,vk],其中vl(l=1,2,...,k)为列向量。
8、将矩阵Y中的每一行元素看着空间Rk中的一个点,通过K均值算法将这些点进行分类。
谱聚类算法为现有技术,因此本申请实施例中仅简要说明。
步骤S109,根据聚类分析的结果和用户行为特征确定出用户的类别。
最后,根据分类得到的每类用户的用户行为特征,确定出所有用户的类别。
确定用户的类别时,对于通话次数少、通话时长较短、时间段分布离散,且访问电商应用程序及网站占比高、访问即时聊天应用程序占比低、访问新闻类应用程序及网站占比低、访问常用打码平台网站占比高的用户,其可以划为为黑灰产用户。反之,则可划分为正常用户。而信令数据和网络数据刚好位于正常用户与黑灰产用户之间的则可以划分为待定用户。
对于黑灰产用户可以直接或在确认后对其采取相应的措施,例如限制其部分功能或在通话时在其来电提示中加入提醒信息等待。对于待定用户则可以进一步做周期性观察,再作出相应的处理。
综上所述,本申请提供的方案通过根据数据样本集对应的距离分布矩阵中的数据点距离分布情况对数据样本集进行分簇,并根据用户行为特征和分簇的结果确定出所有用户的类别。由于在分簇时,扫描半径和最小包含点数是根据离分布矩阵中距离分布变换较平缓的数据点确定,因此在分簇时,属于同一簇用户通信数据特征相似度很高,即特征相似度高的用户能够划分到同一簇,进而提高后续过程中用户类别识别的准确性,为运营商进行用户通信分析及黑灰产识别提供可靠的依据,进而改善互联网商业环境,挽回电商企业损失,提升用户体验。同时,避免了传统的基于规则的“一刀切”方式带来的弊端,分类模型能够根据现实数据自动调整参数,适应性强。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图4是本申请的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成用户类别识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对采集到的用户通信数据进行预处理,得到数据样本集;
根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
根据用户行为特征和所述目标簇确定出用户的类别。
上述如本申请图1-3所示实施例揭示的用户类别识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1-3的方法,并实现用户类别识别装置在图1-3所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1-3所示实施例的方法,并具体用于执行以下操作:
对采集到的用户通信数据进行预处理,得到数据样本集;
根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
根据用户行为特征和所述目标簇确定出用户的类别。
图5是本申请的一个实施例用户类别识别装置的结构示意图。请参考图5,在一种软件实施方式中,用户类别识别装置可包括:
预处理模块501,用于对采集到的用户通信数据进行预处理,得到数据样本集;
第一确定模块503,用于根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
分簇模块505,用于根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
第二确定模块507,用于根据用户行为特征和所述目标簇确定出用户的类别。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种用户类别识别方法,其特征在于,包括:
对采集到的用户通信数据进行预处理,得到数据样本集;
根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
根据用户行为特征和所述目标簇确定出用户的类别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标簇进行聚类分析;
所述根据用户行为特征和所述目标簇确定出用户的类别,包括:
根据所述聚类分析的结果和所述用户行为特征确定出用户的类别。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标簇进行聚类分析,包括:
通过谱聚类算法对所述目标簇进行聚类分析。
4.根据权利要求1所述的方法,其特征在于,所述对采集到的用户通信数据进行预处理,包括:
对采集到的同一基站的用户通信数据进行异常值剔除、空值处理、去重、聚合统计以及归一化处理。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述用户行为特征对归一化处理后得到的数据进行数据特征扩展,得到所述得到数据样本集。
6.根据权利要求1所述的方法,其特征在于,所述根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数,包括:
根据所述数据样本集计算出对应的所述距离分布矩阵;
对所述距离分布矩阵中的每行数据以及所述所述距离分布矩阵中的每列数据进行升序排列或降序排列,得到数据点距离分布图;
根据所述数据点距离分布图中的数据点距离的密集分布程度,确定出所述扫描半径;
根据所述扫描半径确定出所述距离分布矩阵中的数据的邻域的对象数量;
计算所述对象数量的数学期望值,得到所述最小包含点数。
7.根据权利要求1所述的方法,其特征在于,所述对所述数据样本集进行分簇,包括:
通过基于密度的聚类算法对所述数据样本集进行分簇。
8.一种用户类别识别装置,其特征在于,所述用户类别识别装置包括:
预处理模块,用于对采集到的用户通信数据进行预处理,得到数据样本集;
第一确定模块,用于根据与所述数据样本集对应的距离分布矩阵中的数据点距离分布情况,确定出扫描半径和最小包含点数;
分簇模块,用于根据所述扫描半径和所述最小包含点数,对所述数据样本集进行分簇,得到目标簇;
第二确定模块,用于根据用户行为特征和所述目标簇确定出用户的类别。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序,实现权利要求1至7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910860278.9A CN112488138A (zh) | 2019-09-11 | 2019-09-11 | 用户类别识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910860278.9A CN112488138A (zh) | 2019-09-11 | 2019-09-11 | 用户类别识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112488138A true CN112488138A (zh) | 2021-03-12 |
Family
ID=74920342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910860278.9A Pending CN112488138A (zh) | 2019-09-11 | 2019-09-11 | 用户类别识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488138A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837303A (zh) * | 2021-09-29 | 2021-12-24 | 中国联合网络通信集团有限公司 | 一种黑产用户识别方法、tee节点及计算机可读存储介质 |
CN114296826A (zh) * | 2021-12-29 | 2022-04-08 | 中国电信股份有限公司 | 数据加载方法、装置、电子设备及非易失性存储介质 |
CN115809942A (zh) * | 2023-02-06 | 2023-03-17 | 四川智源能诚售电有限公司 | 用电量数据预测方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081774A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 养卡识别方法及系统 |
CN107248082A (zh) * | 2017-05-23 | 2017-10-13 | 北京道隆华尔软件股份有限公司 | 养卡识别方法及装置 |
CN107563443A (zh) * | 2017-09-05 | 2018-01-09 | 云南大学 | 一种自适应的半监督密度聚类方法及系统 |
CN108921395A (zh) * | 2018-06-11 | 2018-11-30 | 中国电力科学研究院有限公司 | 一种面向电力通信系统仿真的网络性能增量优化评估方法及系统 |
CN109819126A (zh) * | 2017-11-21 | 2019-05-28 | 中移(杭州)信息技术有限公司 | 一种异常号码识别方法及装置 |
-
2019
- 2019-09-11 CN CN201910860278.9A patent/CN112488138A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081774A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 养卡识别方法及系统 |
CN107248082A (zh) * | 2017-05-23 | 2017-10-13 | 北京道隆华尔软件股份有限公司 | 养卡识别方法及装置 |
CN107563443A (zh) * | 2017-09-05 | 2018-01-09 | 云南大学 | 一种自适应的半监督密度聚类方法及系统 |
CN109819126A (zh) * | 2017-11-21 | 2019-05-28 | 中移(杭州)信息技术有限公司 | 一种异常号码识别方法及装置 |
CN108921395A (zh) * | 2018-06-11 | 2018-11-30 | 中国电力科学研究院有限公司 | 一种面向电力通信系统仿真的网络性能增量优化评估方法及系统 |
Non-Patent Citations (2)
Title |
---|
周治平等: "一种改进的自适应快速AF-DBSCAN聚类算法", 《智能系统学报》, vol. 11, no. 1, pages 1 * |
张亚平等: "一种基于密度敏感的自适应谱聚类算法", 《数学的实践与认识》, vol. 43, no. 20, pages 150 - 156 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837303A (zh) * | 2021-09-29 | 2021-12-24 | 中国联合网络通信集团有限公司 | 一种黑产用户识别方法、tee节点及计算机可读存储介质 |
CN114296826A (zh) * | 2021-12-29 | 2022-04-08 | 中国电信股份有限公司 | 数据加载方法、装置、电子设备及非易失性存储介质 |
CN115809942A (zh) * | 2023-02-06 | 2023-03-17 | 四川智源能诚售电有限公司 | 用电量数据预测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763952B (zh) | 一种数据分类方法、装置及电子设备 | |
CN106850346B (zh) | 用于监控节点变化及辅助识别黑名单的方法、装置及电子设备 | |
CN110166991B (zh) | 用于定位电子设备的方法、设备、装置以及存储介质 | |
CN112488138A (zh) | 用户类别识别方法、装置、电子设备及存储介质 | |
CN110826006A (zh) | 基于隐私数据保护的异常采集行为识别方法和装置 | |
CN110930218B (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN111353850A (zh) | 一种风险识别策略的更新、风险商户的识别方法和装置 | |
CN111126623A (zh) | 一种模型更新方法、装置及设备 | |
CN113206909A (zh) | 骚扰电话拦截方法及装置 | |
CN110008986B (zh) | 批量风险案件识别方法、装置及电子设备 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN110889009A (zh) | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 | |
CN112818868B (zh) | 基于行为序列特征数据的违规用户识别方法和装置 | |
CN111275071B (zh) | 预测模型训练、预测方法、装置及电子设备 | |
CN110929285B (zh) | 一种隐私数据的处理方法及装置 | |
CN116823428A (zh) | 一种反欺诈检测方法、装置、设备及存储介质 | |
CN111277465A (zh) | 一种异常数据报文检测方法、装置及电子设备 | |
CN114840762A (zh) | 推荐内容确定方法、装置和电子设备 | |
CN113962276A (zh) | 异常信息确定方法、装置及电子设备、存储介质 | |
US10902106B2 (en) | Authentication and authentication mode determination method, apparatus, and electronic device | |
CN114189585A (zh) | 骚扰电话异常检测方法、装置及计算设备 | |
CN112417007A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN111311372A (zh) | 一种用户识别方法和装置 | |
CN112085526A (zh) | 基于用户群的信息匹配方法、装置、计算机设备及存储介质 | |
CN112183951A (zh) | 基于审核质量评价的监管处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |