CN111382754B - 用户聚类方法、装置、设备和介质 - Google Patents
用户聚类方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111382754B CN111382754B CN201811612655.9A CN201811612655A CN111382754B CN 111382754 B CN111382754 B CN 111382754B CN 201811612655 A CN201811612655 A CN 201811612655A CN 111382754 B CN111382754 B CN 111382754B
- Authority
- CN
- China
- Prior art keywords
- user
- clustered
- service data
- users
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004891 communication Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000006185 dispersion Substances 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了用户聚类方法、装置、设备和介质。该方法包括:获取指定历史时间段内多个待聚类用户的业务数据;针对每个待聚类用户,构建该待聚类用户的业务数据的时间序列,并根据业务时间序列计算该待聚类用户的赫斯特指数;根据多个待聚类用户的赫斯特指数,对多个待聚类用户进行聚类,得到多个用户簇。根据本发明实施例提供的方案,可以提高用户聚类的精准度。
Description
技术领域
本发明涉及通信领域,尤其涉及用户聚类方法、装置、设备和介质。
背景技术
随着通信技术的发展,通信网络中包含着海量数据。相应地,大数据分析逐渐成为近年来通信运营商关注的热门话题。
为了实现对用户的精准化管理,需要对用户进行聚类。然后,用户的需求往往是多维度的。如何依据用户的需求,将庞大的用户群体进行精准聚类,成为通信运营商关注的焦点。
现有技术中,通常使用人工手段对用户群体进行聚类,精准度不高。
发明内容
本发明实施例提供用户聚类方法、装置、设备和介质,可以提高用户聚类的精准度。
根据本发明实施例的一方面,提供一种用户聚类方法,包括:
获取指定历史时间段内多个待聚类用户的业务数据;
针对每个待聚类用户,构建该待聚类用户的业务数据的时间序列,并根据业务时间序列计算该待聚类用户的赫斯特指数;
根据所述多个待聚类用户的赫斯特指数,对所述多个待聚类用户进行聚类,得到多个用户簇。
其中,每个用户簇中待聚类用户的赫斯特指数与该用户簇的基准赫斯特指数的差值小于等于预设的指数阈值。
在一种可选的实施方式中,业务数据包括以下一种或多种:
办理的语音业务数据、办理的流量业务数据、办理的交互式网络电视IPTV业务数据和办理的增值业务数据。
在一种可选的实施方式中,每个待聚类用户的业务数据的时间序列包括:按照时间先后顺序排列的、由指定历史时间段划分的多个子时间段内的业务数据;多个子时间段内的业务数据符合正态分布。
在一种可选的实施方式中,根据业务时间序列计算该待聚类用户的赫斯特指数,具体包括:
针对每个待聚类用户,基于该待聚类用户的业务数据的时间序列的正态分布,业务数据的时间序列的协方差矩阵;
基于所述协方差矩阵和所述待聚类用户的业务数据的时间序列的极差,计算所述待聚类用户的赫斯特指数。
在一种可选的实施方式中,待聚类用户的业务数据的时间序列的极差表示业务数据的时间序列的累计离差中的最大值和最小值的差值。
在一种可选的实施方式中,方法还包括:
基于指定历史时间段内多个用户的业务数据,计算每个用户的李雅普诺夫指数;
将李雅普诺夫指数小于等于零的用户作为待聚类用户。
在一种可选的实施方式中,每个用户簇的基准赫斯特指数可以是通信运营商提供的通信套餐的赫斯特指数。
根据本发明实施例的另一方面,提供一种用户聚类装置,包括:
获取处理模块,用于获取指定历史时间段内多个待聚类用户的业务数据;
第一计算模块,用于针对每个待聚类用户,构建该待聚类用户的业务数据的时间序列,并根据业务时间序列计算该待聚类用户的赫斯特指数;
聚类处理模块,用于根据所述多个待聚类用户的赫斯特指数,对所述多个待聚类用户进行聚类,得到多个用户簇,
其中,每个用户簇中待聚类用户的赫斯特指数与该用户簇的基准赫斯特指数的差值小于等于预设的指数阈值。
在一种可选的实施方式中,业务数据包括以下一种或多种:
办理的语音业务数据、办理的流量业务数据、IPTV业务数据和办理的增值业务数据。
在一种可选的实施方式中,,每个待聚类用户的业务数据的时间序列包括:按照时间先后顺序排列的、由指定历史时间段划分的多个子时间段内的业务数据;
多个子时间段内的业务数据符合正态分布。
在一种可选的实施方式中,第一计算模块,具体用于:
针对每个待聚类用户,基于该待聚类用户的业务数据的时间序列的正态分布,确定所述该待聚类用户的业务数据的时间序列的协方差矩阵;
基于所述协方差矩阵和所述待聚类用户的业务数据的时间序列的极差,计算所述待聚类用户的赫斯特指数。
根据本发明实施例的又一方面,提供一种用户聚类设备,其特征在于,设备包括:
存储器,用于存储程序;
处理器,用于运行存储器中存储的程序,以执行本发明实施例提供的用户聚类方法。
根据本发明实施例的再一方面,提供一种一种计算机存储介质,其特征在于,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现本发明实施例提供的用户聚类方法。
根据本发明实施例中的用户聚类方法、装置、设备和介质,可以指定时间段内的待聚类用户的业务数据,计算待聚类用户的赫斯特指数,并利用待聚类用户的赫斯特指数进行聚类。利用本发明实施例中的方案,相较于人工聚类,能够利用赫斯特指数进行聚类,由于赫斯特指数是根据待聚类用户的业务数据计算的,用户的赫斯特指数能够客观地反映待聚类用户的业务数据偏好,因此,提高了用户聚类精准度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出根据本发明实施例的用户聚类方法的示意流程图;
图2示出了本发明实施例的示例中的用户聚类示意图;
图3示出了根据本发明另一实施例提供的用户聚类装置的结构示意图;
图4是本发明实施例中用户聚类设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
不同的用户有着不同的消费水平,并且对移动通信有着不同的要求。因此,不同用户对通信套餐的选择不同,且不同用户与通信运营商有着不同的合约期。
然而用户的需求并非一成不变的。从用户的消费水平层面反映,在不同时期,用户的消费水平是变化的,有时会发生需求波动(如世界杯期间对流量需要的激增,出差期间对语音需求的变化),属于非平稳随机序列。
因此,若人为选用一些统计学算法进行聚类,可能面临着下述问题:
(1)、某些算法的选择具有主观性,不同的算法聚类结果不同。例如,基于度量聚类分析极易受极端值影响。
(2)、大多数聚类算法具有静态特性,不能够动态反映用户需求的变化,聚类有一定的马尔科夫效应,忽略用户某一时期或者某一历史时期需求的波动效应,不具有记忆性。
(3)、算法时间复杂度和空间复杂度较高。
(4)、假设条件过于简单,忽略了市场复杂多变的各种因素。
本发明实施例通过统计通信运营商的大量使用用户、在不同时期办理的业务数据后,分析得出用户在运营商办理的业务数据服从多元正态分布。
为了更好的理解本发明,下面将结合附图,详细描述根据本发明实施例的用户聚类方法、装置、设备和介质,应注意,这些实施例并不用来限制本发明公开的范围。
图1是示出根据本发明实施例的用户聚类方法的示意流程图。如图1所示,本实施例中的用户聚类方法100可以包括以下步骤S120至S140:
S120,获取指定历史时间段内多个待聚类用户的业务数据。
在本发明的一些实施例中,待聚类用户的业务数据表示用户办理的业务数据。示例性的,用户办理的通信套餐中所包括的各种业务的数据量。
在一些实施例中,业务数据包括以下一种或多种:
办理的语音业务数据、办理的流量业务数据、办理的交互式网络电视(Interactive Personality TV,IPTV)业务数据和办理的增值业务数据等业务。
需要说明的是,当业务数据包括上述多个业务数据时,可以同时获取多维度的业务数据。
还需要说明的是,获取的业务数据用以作为分类的依据,本发明实施例中还可以将别的业务数据作为分类数据,例如,用户使用的业务数据量。
在本发明的一些实施例中,由于需要利用待聚类用户办理的业务数据的历史信息作为聚类依据,因此,可以取指定历史时间段内的业务数据作为聚类依据。例如,指定历史时间段可以近3年,或者近3个月。
S130,针对每个待聚类用户,构建该待聚类用户的业务数据的时间序列,并根据业务时间序列计算该待聚类用户的赫斯特指数。
在本发明的一些实施例中,每个待聚类用户的业务数据的时间序列包括:按照时间先后顺序排列的、由指定历史时间段划分的多个子时间段内的业务数据。其中,多个子时间段内的业务数据符合正态分布。
在本发明的一些实施例中,构建待聚类用户的业务数据的时间序列的方法包括:
第一步、将指定历史时间段T平均划分为N个子时间段ΔT1至ΔTN。其中,每个子时间段的时间长度为T/N。N为正整数i,为不小于N的正整数。其中,ΔT1<ΔT2<……<ΔTN。
第二步、将每个子时间段对应的业务数据,按照其所对应的子时间段从小到大的顺序,依次排序后组成待聚类用户的业务数据的时间序列。
例如,在指定历史时间段T内待聚类用户的业务数据总量X的时间序列包括:x1、x2、……、xN。其中,x1表示在子时间段ΔT1内办理的业务数据总量,x2表示在子时间段ΔT2内办理的业务数据总量,……,xN表示在子时间段ΔTN内办理的业务数据总量。
需要说明的是,当业务数据为多维时,业务数据的时间序列也为多维的。
在本发明的一些实施例中,S130具体包括S131和S132:
S131,针对每个待聚类用户,基于该待聚类用户的业务数据的时间序列的正态分布,确定所述该待聚类用户的业务数据的时间序列的协方差矩阵;
在一些实施例中,通过对海量用户业务数据分析,可知用户的业务数据满足正态分布。
相应地,若业务数据为p维时,待聚类用户的业务数据的时间序列满足概率密度公式(1)、分布函数(2)、多元正态分布函数(3)
R~Np(μ,Σ) (3)
其中,μ表示待聚类用户的业务数据的时间序列的期望值,Σ表示待聚类用户的业务数据的时间序列对应的协方差矩阵。
需要说明的是,由于待聚类用户的业务数据满足正态分布,因此可相应地求出该待聚类用户的业务数据的时间序列的协方差矩阵。
S132,基于协方差矩阵和待聚类用户的业务数据的时间序列的极差,计算待聚类用户的赫斯特指数。
在一些实施例中,待聚类用户的赫斯特指数H的计算公式(4):
其中,Σ表示待聚类用户的业务数据的时间序列的协方差矩阵,N表示时间序列的总数,ρ表示待聚类用户的业务数据的时间序列的极差。
在一些实施例中,待聚类用户的业务数据的时间序列的极差表示业务数据的时间序列的累计离差中的最大值和最小值的差值。
在一个实施例中,待聚类用户的业务数据的时间序列的极差ρ满足公式
ρ=sup[MaxR(t,τ)-MinR(t,τ)] (5)
其中,1≤t≤τ,τ=1,2,…,N。R(t,τ)为业务数据的时间序列的累计离差,满足公式(6):
其中,xi为待聚类用户的业务数据的时间序列中第i个子时间段对应的业务数据值。为均值序列,满足公式(7):
在本发明的一些实施例中,还可以采用盒维数的方式确定待聚类用户的赫斯特指数,具体地,待聚类用户的上盒维数满足公式(8)、下盒维数dimB F满足公式(9):
其中,δ为格子边长,共分为N个格子,根据分形几何理论,实际场景中时,将该分形维数值确定为用户的赫斯特指数。
S140,根据所述多个待聚类用户的赫斯特指数,对所述多个待聚类用户从分形几何维数的角度进行聚类,得到多个用户簇,
在S140中,每个用户簇中待聚类用户的赫斯特指数与该用户簇的基准赫斯特指数的差值小于等于预设的指数阈值。
根据本发明实施例中的用户聚类方法,可以指定时间段内的待聚类用户的业务数据,计算待聚类用户的赫斯特指数,并利用待聚类用户的赫斯特指数进行聚类。利用本发明实施例中的方案,相较于人工聚类,能够利用赫斯特指数进行聚类,由于赫斯特指数是根据待聚类用户的业务数据计算的,用户的赫斯特指数能够客观地反映待聚类用户的业务数据偏好,因此,提高了用户聚类精准度和客观度。
在本发明的一些实施例中,S140中的聚类公式为公式(10)
Nδ(i)={‖Πi-H‖<δ} (10)
其中,第i个用户簇Nδ(i)的δ为预设的指数阈值(在勒贝格测度覆盖意义下),Πi为第i个用户簇的基准赫斯特指数,H为待聚类用户的赫斯特指数。
公式(10)的含义为,当待聚类用户的赫斯特指数与第i个用户簇的基准赫斯特指数的欧式距离小于预设的指数阈值时,该待聚类用户属于该用户簇。
作一个示例,图2示出了本发明实施例的示例中的用户簇示意图。如图2所示,若共有4个用户簇,4个用户簇的基准赫斯特指数分别为0.52,0.61,0.73和0.81。可以按照待聚类用户的赫斯特指数,将待聚类用户划分入4个用户簇中。例如,基准赫斯特指数0.52的用户簇包括待聚类用户A1和待聚类用户A2。
在本发明的一些实施例中,预设的指数阈值是在勒贝格测度覆盖意义下计算的。
在本发明的一些实施例中,基准赫斯特指数和指数阈值,可以是根据聚类结果确定的。
作一个可选的示例,可以统计分析,可以根据办理了相同通信套餐的用户的赫斯特指数的分布规律,确定用户簇的基准赫斯特指数和指数阈值,以尽量使该用户簇能够将办理了该相同通信套餐的用户聚类在一起。
在本发明的一些实施例中,为了进一步保证聚类的准确性,用户聚类方法100还包括S111和S112:
S111,基于指定历史时间段内多个用户的业务数据,计算每个用户的李雅普诺夫指数λR。
在一些实施例中,
其中,表示对时间序列第k次迭代沿着相空间不同特征向量的不同方向计算协变微分。
S112,将李雅普诺夫指数小于等于零的用户作为待聚类用户。
其中,李雅普诺夫指数稳定性条件为李雅普诺夫指数小于等于零,通过S112使得满足李雅普诺夫指数稳定性条件的用户计算出的结论聚类有效。
需要说明的是,在本发明的实施例中,李雅普诺夫指数反映了待聚类用户办理的业务数据的渐进稳定性。当该值为正时,意味着该待聚类用户办理业务数据混沌行为的发生,该用户不能进行聚类;当该值不大于零时,意味该用户的业务数据的渐进稳定,聚类有效。
还需要说明的是,S111和S112的执行顺序可以在S140之前,可以在计算每个用户的赫斯特指数后,再计算该用户的李雅普诺夫指数。李雅普诺夫指数小于等于零的用户继续执行S140。
针对李雅普诺夫指数大于零的用户,由于其业务数据不具有渐进稳定性,需要使用其它方法进行分析。
在本发明的一些实施例中,由于通信运行商提供的、可供用户办理的业务套餐种类有限。可以根据办理了每一个业务套餐的用户的赫斯特指数确定该业务套餐的赫斯特指数。
例如,若共有4个待聚类用户办理了业务套餐A,可以将4个待聚类用户的赫斯特指数的平均值,作为该业务套餐的赫斯特指数。
需要说明的是,可以将业务套餐的赫斯特指数作为基准赫斯特指数。例如,通信运营商共提供了4个通信套餐:A、B、C、D,可以一共提供4个用户簇,4个用户簇的基准赫斯特指数分别为4个通信套餐的赫斯特指数。
在本发明的一些实施例中,用户聚类方法100还包括:
在确定通信套餐的赫斯特指数之后,向与该通信套餐的赫斯特指数的差值小于预设的指数阈值的用户,推荐该通信套餐。
示例性的,某一用户的赫斯特指数为0.67,通信运营商推广通信套餐A、B、C,3个通信套餐的赫斯特指数分别为0.12、0.12、0.168。则可以将该用户推荐C套餐。
在本发明一些实施例中,为了能够直观的体现用户的业务数据的变化趋势,S130之后,可以输出以下信息中的一个或多个:
用户的标识信息、用户的赫斯特指数、与用户的业务数据的多维正态分布相应的分布信息、用户的业务数据的稳定性信息。
需要说明的是,具体编程实现是可以根据实际需要输出。
其中,用户的标识信息可以为用户的手机号码,稳定性信息用以反映用户的业务数据是否可聚类的李雅普诺夫指数。例如,用户的李雅普诺夫指数的正负。
需要说明的是,与用户的业务数据的多维正态分布相应的分布信息为多维正态分布对应的张量,可以直观展示用户的业务数据的变化趋势。
下面结合附图,详细介绍根据本发明实施例的装置。
基于相同的发明构思,本发明另一实施例提供了用户聚类装置。图3示出了根据本发明另一实施例提供的用户聚类装置的结构示意图。如图3所示,用户聚类装置300包括获取处理模块310、计第一计算模块320和聚类处理模块330:
获取处理模块310,用于获取指定历史时间段内多个待聚类用户的业务数据。
第一计算模块320,用于针对每个待聚类用户,构建该待聚类用户的业务数据的时间序列,并根据业务时间序列计算该待聚类用户的赫斯特指数。
聚类处理模块330,用于根据多个待聚类用户的赫斯特指数,对多个待聚类用户进行聚类,得到多个用户簇。
其中,每个用户簇中待聚类用户的赫斯特指数与该用户簇的基准赫斯特指数的差值小于等于预设的指数阈值,可以是根据聚类结果确定的。
在本发明的一些实施例中,业务数据包括以下一种或多种:
办理的语音业务数据、办理的流量业务数据、IPTV业务数据和办理的增值业务数据等业务。
在本发明的一些实施例中,每个待聚类用户的业务数据的时间序列包括:按照时间先后顺序排列的、由指定历史时间段划分的多个子时间段内的业务数据。其中,多个子时间段内的业务数据符合正态分布
在本发明的一些实施例中,第一计算模块320,具体用于:
根据所述多个待聚类用户的赫斯特指数,对所述多个待聚类用户进行聚类得到多个用户簇。
其中,每个用户簇中待聚类用户的赫斯特指数与该用户簇的基准赫斯特指数的差值小于等于预设的指数阈值。
在本发明的一些实施例中,待聚类用户的业务数据的时间序列的极差表示业务数据的时间序列的累计离差中的最大值和最小值的差值。
在本发明的一些实施例中,用户聚类装置300还包括:
第二计算模块,用于基于指定历史时间段内多个用户的业务数据,计算每个用户的李雅普诺夫指数。
确定处理模块,用于将李雅普诺夫指数小于等于零的用户作为待聚类用户。
在本发明的一些实施例中,每个用户簇的基准赫斯特指数可以是通信运营商提供的通信套餐的赫斯特指数。
根据本发明实施例的用户聚类装置的其他细节与以上结合图1至图2描述的根据本发明实施例的方法类似,在此不再赘述。
图4是本发明实施例中用户聚类设备的示例性硬件架构的结构图。
如图4所示,用户聚类设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。其中,输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接,输入设备401和输出设备406分别通过输入接口402和输出接口405与总线410连接,进而与用户聚类设备400的其他组件连接。
具体地,输入设备401接收来自外部的输入信息,并通过输入接口402将输入信息传送到中央处理器403;中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器404中,然后通过输出接口405将输出信息传送到输出设备406;输出设备406将输出信息输出到用户聚类设备400的外部供用户使用。
也就是说,图4所示的用户聚类设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图2描述的用户聚类设备的方法和装置。
在一个实施例中,图4所示的用户聚类设备400可以被实现为一种设备,该设备可以包括:存储器,用于存储程序;处理器,用于运行所述存储器中存储的所述程序,以执行本发明实施例的用户聚类方法。
本发明实施例还提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现本发明实施例的用户聚类方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,根据实际应用需求作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
Claims (10)
1.一种用户聚类方法,其特征在于,所述方法包括:
获取指定历史时间段内多个待聚类用户的业务数据,所述业务数据包括以下一种或多种:
办理的语音业务数据、办理的流量业务数据、办理的交互式网络电视IPTV业务数据和办理的增值业务数据;
针对每个待聚类用户,构建该待聚类用户的业务数据的时间序列,并根据所述业务时间序列计算该待聚类用户的赫斯特指数,所述每个待聚类用户的业务数据的时间序列包括:按照时间先后顺序排列的、由所述指定历史时间段划分的多个子时间段内的业务数据;所述多个子时间段内的业务数据符合正态分布;
根据所述多个待聚类用户的赫斯特指数,对所述多个待聚类用户进行聚类,得到多个用户簇;
其中,每个用户簇中待聚类用户的赫斯特指数与该用户簇的基准赫斯特指数的差值小于等于预设的指数阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述业务时间序列计算该待聚类用户的赫斯特指数,具体包括:
针对每个待聚类用户,基于该待聚类用户的业务数据的时间序列的正态分布,确定所述该待聚类用户的业务数据的时间序列的协方差矩阵;
基于所述协方差矩阵和所述待聚类用户的业务数据的时间序列的极差,计算所述待聚类用户的赫斯特指数。
3.根据权利要求1或权利要求2所述的方法,其特征在于,所述待聚类用户的业务数据的时间序列的极差表示所述业务数据的时间序列的累计离差中的最大值和最小值的差值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于指定历史时间段内多个用户的业务数据,计算每个用户的李雅普诺夫指数;
将李雅普诺夫指数小于等于零的用户作为待聚类用户。
5.根据权利要求1所述的方法,其特征在于,所述每个用户簇的基准赫斯特指数是通信运营商提供的通信套餐的赫斯特指数。
6.一种用户聚类装置,其特征在于,所述装置包括:
获取处理模块,用于获取指定历史时间段内多个待聚类用户的业务数据,所述业务数据包括以下一种或多种:
办理的语音业务数据、办理的流量业务数据、办理的交互式网络电视IPTV业务数据和办理的增值业务数据;
第一计算模块,用于针对每个待聚类用户,构建该待聚类用户的业务数据的时间序列,并根据所述业务时间序列计算该待聚类用户的赫斯特指数,所述每个待聚类用户的业务数据的时间序列包括:按照时间先后顺序排列的、由所述指定历史时间段划分的多个子时间段内的业务数据;所述多个子时间段内的业务数据符合正态分布;
聚类处理模块,用于根据所述多个待聚类用户的赫斯特指数,对所述多个待聚类用户进行聚类,得到多个用户簇,
其中,每个用户簇中待聚类用户的赫斯特指数与该用户簇的基准赫斯特指数的差值小于等于预设的指数阈值。
7.根据权利要求6所述的装置,其特征在于,所述每个待聚类用户的业务数据的时间序列包括:按照时间先后顺序排列的、由所述指定历史时间段划分的多个子时间段内的业务数据;
所述多个子时间段内的业务数据符合正态分布。
8.根据权利要求6所述的装置,其特征在于,所述第一计算模块,具体用于:
针对每个待聚类用户,基于该待聚类用户的业务数据的时间序列的正态分布,确定所述该待聚类用户的业务数据的时间序列的协方差矩阵;
基于所述协方差矩阵和所述待聚类用户的业务数据的时间序列的极差,计算所述待聚类用户的赫斯特指数。
9.一种用户聚类设备,其特征在于,所述设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求1-5任一权利要求所述的用户聚类方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-5任一权利要求所述的用户聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811612655.9A CN111382754B (zh) | 2018-12-27 | 2018-12-27 | 用户聚类方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811612655.9A CN111382754B (zh) | 2018-12-27 | 2018-12-27 | 用户聚类方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382754A CN111382754A (zh) | 2020-07-07 |
CN111382754B true CN111382754B (zh) | 2024-03-01 |
Family
ID=71220933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811612655.9A Active CN111382754B (zh) | 2018-12-27 | 2018-12-27 | 用户聚类方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382754B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163326A (zh) * | 2015-09-30 | 2015-12-16 | 南京华苏科技股份有限公司 | 一种基于无线网络话务特征的小区聚类方法和系统 |
CN107358268A (zh) * | 2017-07-20 | 2017-11-17 | 北京京东尚科信息技术有限公司 | 用于数据聚类分组的方法、装置、电子设备及可读介质 |
CN107784118A (zh) * | 2017-11-14 | 2018-03-09 | 北京林业大学 | 一种针对用户兴趣语义的视频关键信息提取系统 |
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100235313A1 (en) * | 2009-03-16 | 2010-09-16 | Tim Rea | Media information analysis and recommendation platform |
KR101663426B1 (ko) * | 2015-07-10 | 2016-10-07 | 한양대학교 산학협력단 | 대형 운용 시스템의 상태 기반 예방정비 장치 및 방법 |
US20180101591A1 (en) * | 2016-10-06 | 2018-04-12 | Capital One Services, LLC. | Methods and Systems for Cluster-Based Historical Data |
-
2018
- 2018-12-27 CN CN201811612655.9A patent/CN111382754B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163326A (zh) * | 2015-09-30 | 2015-12-16 | 南京华苏科技股份有限公司 | 一种基于无线网络话务特征的小区聚类方法和系统 |
CN107358268A (zh) * | 2017-07-20 | 2017-11-17 | 北京京东尚科信息技术有限公司 | 用于数据聚类分组的方法、装置、电子设备及可读介质 |
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
CN107784118A (zh) * | 2017-11-14 | 2018-03-09 | 北京林业大学 | 一种针对用户兴趣语义的视频关键信息提取系统 |
Non-Patent Citations (12)
Title |
---|
Adaptive Fuzzy Consensus Clustering Framework for Clustering Analysis of Cancer Data;Zhiwen Yu 等;IEEE/ACM Transactions on Computational Biology and Bioinformatics(第4期);887 - 901 * |
Cluster Analysis Based Arc Detection in Pantograph-Catenary System;Shizhe Huang 等;Journal of Advanced Transportation;1-13 * |
Hurst指数估计法中的修正方法研究;姚远程 等;电子技术应用(第07期);103-106 * |
一种面向自相似业务的新型主动队列管理算法;杨晗 等;计算机应用研究(第04期);1217-1219 * |
分段Hurst指数感知的流级别分类;汤萍萍 等;计算机工程与应用(第24期);11-18 * |
基于结构特征的时序聚类方法研究;孟志浩 等;中兴通讯技术(第03期);61-66 * |
基于聚类HMM模型的QAR数据趋势分析;毛好好;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑(第1期);C031-92 * |
孟志浩 ; 刘建伟 ; 韩静 ; .基于结构特征的时序聚类方法研究.中兴通讯技术.(第03期),61-64. * |
应用R/S方法分析NDVI时间序列;王新明 等;地理与地理信息科学(第05期);20-23 * |
朱灵蕾 ; 姚远程 ; 姜军 ; 秦明伟 ; .Hurst指数估计法中的修正方法研究.电子技术应用.(第07期),103-106. * |
朱灵蕾 ; 姚远程 ; 秦明伟 ; .自相似业务量生成方法研究及改进.计算机工程.(第07期),54-58. * |
自相似业务量生成方法研究及改进;朱灵蕾 等;计算机工程(第07期);54-58 * |
Also Published As
Publication number | Publication date |
---|---|
CN111382754A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Fair resource allocation in federated learning | |
CN108287864B (zh) | 一种兴趣群组划分方法、装置、介质及计算设备 | |
US8229866B2 (en) | Method and system for detecting correlation in data sets | |
CA3097449A1 (en) | Method and system for model auto-selection using an ensemble of machine learning models | |
CN109934301B (zh) | 一种电力负荷聚类分析方法、装置和设备 | |
CN106296270A (zh) | 商品推荐方法及装置 | |
US11734312B2 (en) | Feature transformation and missing values | |
CN112418258A (zh) | 一种特征离散化方法和装置 | |
US10366088B2 (en) | Method and system for mining frequent and in-frequent items from a large transaction database | |
CN111382754B (zh) | 用户聚类方法、装置、设备和介质 | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN111510473B (zh) | 访问请求处理方法、装置、电子设备和计算机可读介质 | |
CN109145207B (zh) | 一种基于分类指标预测的信息个性化推荐方法及装置 | |
CN116226628A (zh) | 一种特征优化方法、装置、设备及介质 | |
Wang et al. | Using incremental clustering technique in collaborative filtering data update | |
CN115860856A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN110968773A (zh) | 应用推荐方法、装置、设备及存储介质 | |
CN108429865B (zh) | 一种产品推荐处理方法及装置 | |
CN113763080A (zh) | 推荐物品的确定方法、装置、电子设备和存储介质 | |
CN111738790A (zh) | 业务推送方法和推送系统 | |
CN111026863A (zh) | 客户行为预测方法、装置、设备及介质 | |
CN111209105A (zh) | 扩容处理方法、装置、设备及可读存储介质 | |
CN117056663B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN112291622B (zh) | 用户的喜好上网时间段的确定方法及装置 | |
CN108985900B (zh) | 基于运营业务的分时推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |