CN113852845A - 一种基于粒度聚类的数据处理方法和装置 - Google Patents
一种基于粒度聚类的数据处理方法和装置 Download PDFInfo
- Publication number
- CN113852845A CN113852845A CN202110160712.XA CN202110160712A CN113852845A CN 113852845 A CN113852845 A CN 113852845A CN 202110160712 A CN202110160712 A CN 202110160712A CN 113852845 A CN113852845 A CN 113852845A
- Authority
- CN
- China
- Prior art keywords
- clustering
- original sample
- grid
- sample set
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 30
- 238000003064 k means clustering Methods 0.000 claims description 10
- 238000000638 solvent extraction Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于粒度聚类的数据处理方法和装置。装置包括:数据采集模块,所述数据采集模块被配置成实时采集用户行为数据作为原始样本集;粒度处理模块,所述粒度处理模块被配置成:基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;以及基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;数据聚类模块,所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类;以及数据推送模块,所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
Description
技术领域
本发明涉及大数据领域,更具体地,涉及基于粒度聚类的数据处理方法和装置。
背景技术
随着IPTV技术的高速发展,人们在收看IPTV节目时接收到的信息量猛增,对节目内容的选择也提出了更高的要求,目前存在一些基于数据挖掘和机器学习的数据处理方法,但面对不断增长的海量用户行为数据,这些方法处理时间长,处理效率低,如何实现大数据场景下的实时精准推送成为亟待解决的问题。
为了对海量数据进行处理,需要进行聚类,在传统的K-means聚类方法中,K值对最终结果的影响至关重要,需要先验知识给定合适的K值,凭空估计导致聚类效果很差。随机选取K个样本作为簇的中心,其中心簇的初值敏感,选择不同的初始值可能导致不同的簇划分规则以及收敛速度慢。此外,K-means算法在迭代的过程中使用所有点的均值作为新的中心点,如果簇中存在异常点,将导致均值偏差比较严重。
中国专利申请“一种基于密度峰值的网格聚类算法”(CN201710502536.7)中提出了一种基于密度峰值的网格聚类算法,然而其中K值无法快速确定且对噪音敏感。
中国专利申请“一种基于网格的密度峰值聚类方法及系统”(CN201610515319.7)中提出了一种基于网格的密度峰值聚类方法,然而其中无法快速找到合适K值,并且无法预估初始化类簇中心。
因此,为了在大数据场景下快速去除噪音,提高聚类精度并且大大提高聚类速度,希望提供一种改进的数据处理方法。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明提出了一种基于粒度聚类的数据处理方法和装置。该方法可根据用户行为数据快速生成用户分组标签,并针对不同用户组实时推送感兴趣的内容。相比传统的数据处理方法,大大提高了处理的速度和精度。更具体地,本发明的方法首先使用网格划分对原始样本集进行粗粒化,通过密度峰值聚类方式,剔除噪音样本,快速确定K值及预估原始样本类簇中心。接着,对原始样本集进行细粒度化,并将先前预估的类簇中心映射至细粒度空间中,最后,对细粒度化转变的新样本集进行聚类。
根据本发明的一个方面,提供了一种基于粒度聚类的数据处理方法,所述方法包括:
实时采集用户行为数据作为原始样本集;
基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;
基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;
基于所确定的新样本集和新类簇中心来进行聚类;以及
基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
根据本发明的一个实施例,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:
确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及
确定所述网格单元的集合中的各个网格单元的密度ρi和相对距离δi以进行密度峰值聚类,其中所述密度ρi为所述网格单元中的样本点个数,ρi=|x3i|,所述相对距离δi为所述网格单元与其他网格单元的相对距离,其中dij表示网格单元x3i和x3j的曼哈顿距离,dij=|x3i (1)-x3j (1)|+|x3i (2)-x3j (2)|+…+|x3i (T)-x3j (T)|。
根据本发明的进一步实施例,所述密度峰值聚类进一步包括:
将所述网格单元的集合中的相对距离δi较大但密度ρi较小的网格单元看作异常网格单元并剔除;
选择所述网格单元的集合中的适合的相对距离δi较大且密度ρi较大的网格单元作为中心网格单元;以及
确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。
根据本发明的进一步实施例,所述原始样本类簇中心映射进一步包括:
通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。
根据本发明的进一步实施例,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:
根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K-means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。
根据本发明的另一方面,提供了一种基于粒度聚类的数据处理装置,所述装置包括:
数据采集模块,所述数据采集模块被配置成实时采集用户行为数据作为原始样本集;
粒度处理模块,所述粒度处理模块被配置成:
基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;以及
基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射
来确定新样本集和新类簇中心;
数据聚类模块,所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类;以及
数据推送模块,所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
根据本发明的一个实施例,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:
确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及
确定所述网格单元的集合中的各个网格单元的密度ρi和相对距离δi以进行密度峰值聚类,其中所述密度ρi为所述网格单元中的样本点个数,ρi=|x3i|,所述相对距离δi为所述网格单元与其他网格单元的相对距离,其中dij表示网格单元x3i和x3j的曼哈顿距离,dij=|x3i (1)-x3j (1)|+|x3i (2)-x3j (2)|+…+|x3i (T)-x3j (T)|。
根据本发明的进一步实施例,所述密度峰值聚类进一步包括:
将所述网格单元的集合中的相对距离δi较大但密度ρi较小的网格单元看作异常网格单元并剔除;
选择所述网格单元的集合中的适合的相对距离δi较大且密度ρi较大的网格单元作为中心网格单元;以及
确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。
根据本发明的进一步实施例,所述原始样本类簇中心映射进一步包括:
通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。
根据本发明的进一步实施例,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:
根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K-means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。
与现有技术中的方案相比,本发明所提供的基于粒度聚类的数据处理方法和装置至少具有以下优点:
(1)去除异常点,减少迭代过程中求取类簇中心的偏差;
(2)根据数据分布确定合适K值,并预估K个类簇中心位置,使其快速收敛,减少迭代次数;以及
(3)通过网格细粒化原始样本,减少每次迭代的计算量。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1示出了根据本发明的一个实施例的基于粒度聚类的数据处理装置的示例架构图。
图2示出了根据本发明的一个实施例的基于粒度聚类的数据处理方法的流程图。
图3示出了根据本发明的一个实施例的基于网格的粒度K-means聚类算法的流程图。
图4示出了根据本发明的一个实施例的STING网格结构的示例。
图5a-5b示出了根据本发明的一个实施例的中心点选取的示例。
图6示出了根据本发明的一个实施例的STING网格粗粒度划分的示例。
图7示出了根据本发明的一个实施例的网格单元的决策图的示例。
图8示出了根据本发明的一个实施例的STING网格细粒度划分的示例。
图9示出了根据本发明的一个实施例的原始样本类簇中心到经细粒度划分的网格空间的映射的示例。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
图1是根据本发明的一个实施例的基于粒度聚类的数据处理装置100的示例架构图。如图1所示,本发明的装置100包括:数据采集模块101、粒度处理模块102、数据聚类模块103和数据推送模块104。
数据采集模块101可实时采集用户行为数据作为原始样本集。作为一个示例,数据采集模块101可实时采集用户观看电视节目的行为数据作为原始样本集,其中首先对所有的节目按照类型分类,例如电视新闻资讯节目、电视谈话节目、电视文艺节目、电视娱乐节目、电视纪录片、电视剧、电视电影和电视特别节目等T个类型。同时,一个电视节目可以存在多种类型。数据采集模块101每天统计用户i前30天观看的电视节目历史记录,针对每一个节目类型,根据其相应收看的时间进行累加,并归一化度量为一种评分,即timet/(time1+time2+…+timeT)。为此,关于N个用户,构成如下表所示的一个矩阵,即为原始样本集D1。
粒度处理模块102可对从数据采集模块101获取的原始样本集D1进行粗粒度化划分,通过密度峰值聚类方式,剔除噪音样本,快速确定原始样本类簇个数(例如,K值)及预估原始样本类簇中心。粒度处理模块102还可对原始样本集D1进行细粒度化划分,并且将先前预估的类簇中心映射至细粒度空间中,形成新的样本格式。粗粒度化划分和细粒度化划分可以是利用STING网格(统计信息网格)来进行的。图4示出了根据本发明的一个实施例的STING网格结构400的示例。STING是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元,针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构,其中高层的每个单元被划分为多个低一层的单元。
数据聚类模块103可基于细粒度化后的新的样本集以及新类簇中心来进行聚类。在一些情形中,可利用例如K-means聚类算法来进行聚类。
数据推送模块104可根据聚类结果来向各用户组实时推送相关数据。在一个示例中,可通过聚类算法自动将电视用户分成K组,然后对各组类簇中心T个属性(节目类型)进行排序,后台依据各自Top-N属性(节目类型)对各组定向推送相关的节目。
为了解说方便,以下将以基于STING网格的粒度K-means聚类算法为例来描述本发明的实施方式,但本领域技术人员可以理解,本发明同样适用于其他的聚类算法。
图2是根据本发明的一个实施例的基于粒度聚类的数据处理方法200的流程图。方法开始于步骤201,数据采集模块101实时采集用户行为数据作为原始样本集D1。
在步骤202,粒度处理模块102对所采集的原始样本集D1进行粗粒度化划分,剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心,其中可通过密度峰值聚类方式来快速确定原始样本类簇个数(在K-means聚类算法的情形中为K值)并预估原始样本类簇中心。具体而言,粒度处理模块102首先使用STING网格划分对原始样本集D1进行粗粒化,尺度参数为ε1,得到网格空间GS1。通俗地说,假设原始样本x1存在T个属性,即{a11,a12,...,a1T},则对每个a1t维度进行归一化并均分ε1等份随后,将当前网格空间GS1中含有原始样本的网格单元的集合定义为样本集D2,扫描整个样本集D2,并且将网格单元中原始样本点的数目作为网格单元的密度,利用聚类中心网格单元与其他聚类中心网格单元的距离大,而与其网格单元类簇中其他网格单元的距离小的思路,求出各个网格单元的相对距离。算法步骤如下:
(1)计算网格单元的密度ρi,即网格单元i中的数据点个数,其中:
ρi=|x3i|
(2)计算网格单元的距离δi。将网格单元按照频度的大小降序排序,其中δi为样本点i的相对距离:
dij=|x3i (1)-x3j (1)|+|x3i (2)-x3j (2)|+…+|x3i (T)-x3j (T)|
随后,根据所计算得出的网格单元的密度ρi和距离δi来得出决策图。具体地,可将相对距离δi较大但密度ρi较小的网格单元看作异常网格单元并剔除,选择适合的相对距离δi较大且密度ρi较大的网格单元作为中心网格单元,记为c2k。分别查询各个中心网格单元中原始样本点的均值,作为原始样本的类簇中心c1k。关于粗粒度的划分,相比较原始样本数目大大减少,其次,无论原始数据规模再大,网格单元的数目是保持不变的。如在图5a-5b可见,基于关于原始样本x1的散点图,通过传统密度峰值聚类算法来构建决策图,得到K值2、类簇中心x11、x110、以及要去除的噪音样本x128。与利用传统密度峰值聚类算法构建决策图的过程(如图5a-5b)相比,该算法尤其在大数据场景下可以大幅降低计算量。这种做法获取类簇中心没有传统密度峰值聚类算法获取相应的中心精确度高,但能快速确定K值及预估类簇中心大概位置。
在步骤203,粒度处理模块102对原始样本集D1进行细粒度化划分,并且将剔除噪音样本后的原始样本集D1和所预估的原始样本类簇中心映射至细粒度空间中,形成新样本集D3和新类簇中心。具体而言,粒度处理模块102可使用STING网格划分对原始样本集D1进行细粒化,其划分过程与粗粒化一致,但尺度参数变为ε2(ε1<<ε2),最终得到网格空间GS2。每个原始样本映射至网格空间GS2所对应的网格单元的集合称为样本集D3。在样本集D3中,原始样本归属于同一个网格单元,视为相同属性的新样本x3。此外,样本集D3中存在不同样本x3的数目记为M。由于网格空间是固定的,其数目记为L且M<=L,随着原始数据规模N增大,M最多为上,但上<<N。也就是说,后期无论原始样本集D1规模增长多大,待聚类的样本集D3每次迭代求取样本x3与类簇中心距离可减少O(N-M)重复计算。随后可找到原始样本的K个类簇中心点c1k在网格空间GS2中对应的网格单元,作为新的K个类簇中心c3k。
在步骤204,数据聚类模块103基于细粒度化后的新的样本集以及新类簇中心来进行聚类。具体而言,数据聚类模块103可根据新样本集D3中每个样本x3i以及预估的K个类簇中心c3k进行K-means聚类,使得每个样本点至其最近的类簇中心的距离平方和最小,并将此类距离平方和作为目标函数,记为J。该目标函数表达式如下:
在图3中进一步详细描述了基于网格的粒度聚类算法300的示例。如图3所示,在获取包括N个原始样本x1的原始样本集D1之后,基于经粗粒化的网格和密度峰值聚类方式来剔除噪音数据并预估K值及类簇中心c1k。随后基于经细粒化的网格来将剔除噪音后的各个原样本x1重新转换为新的样本x3,并且将原样本K个类簇中心c1k转换为新的类簇中心c3k。随后利用K-means聚类算法来将新的样本x3划分至最近的类簇中,重新计算各个类簇的中心,重复该过程直至收敛以得到各个类簇的聚类结果。
返回图2,在得到聚类结果之后,在步骤205,数据推送模块104可根据聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
图6-9进一步描述了根据一个实施例的粒度K-means算法关键部分的实现。基于图5a所示的关于原始样本x1的散点图,首先进行粗粒化处理,如图6所示,尺度参数ε1为4,STING网格被划分为16个网格单元(即,样本x2),例如,x21是坐标为(1,1)的网格单元,x22是坐标为(1,2)的网格单元,以此类推,x216是坐标为(4,4)的网格单元。通过粗粒度划分的网格单元,依据改进后设定的规则,构建的决策图如图7所示,并基于该图,剔除噪音网格单元x215,确定K值为2以及x26、x28为中心网格单元,分别查询各个中心网格单元中原始样本点的均值,作为原始样本类簇的中心(灰色实心),如图6所示。由于网格单元x23、网格单元x211、网格单元x212、网格单元x213、网格单元x214、网格单元x216不存在原始样本,无需计算相应的ρ和δ,最终需要处理的x2样本数目为10个。
在粗粒化处理之后对原始样本集进行细粒化处理,如图8所示,将剔除噪音样本后的原始样本集映射到尺度参数ε2为16的经细粒化的网格空间中,随后如图9所示将先前确定的2个原始样本类簇中心点映射至该经细粒化的网格空间中。在图9中示出了最终待聚类的新样本集D3以及初始化的类簇中心c31、c32。
以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。
Claims (10)
1.一种基于粒度聚类的数据处理方法,其特征在于,所述方法包括:
实时采集用户行为数据作为原始样本集;
基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;
基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;
基于所确定的新样本集和新类簇中心来进行聚类;以及
基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
3.如权利要求2所述的方法,其特征在于,所述密度峰值聚类进一步包括:
将所述网格单元的集合中的相对距离δi较大但密度ρi较小的网格单元看作异常网格单元并剔除;
选择所述网格单元的集合中的适合的相对距离δi较大且密度ρi较大的网格单元作为中心网格单元;以及
确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。
4.如权利要求1所述的方法,其特征在于,所述原始样本类簇中心映射进一步包括:
通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。
5.如权利要求1所述的方法,其特征在于,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:
根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K-means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。
6.一种基于粒度聚类的数据处理装置,其特征在于,所述装置包括:
数据采集模块,所述数据采集模块被配置成实时采集用户行为数据作为原始样本集;
粒度处理模块,所述粒度处理模块被配置成:
基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;以及
基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;
数据聚类模块,所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类;以及
数据推送模块,所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。
8.如权利要求7所述的装置,其特征在于,所述密度峰值聚类进一步包括:
将所述网格单元的集合中的相对距离δi较大但密度ρi较小的网格单元看作异常网格单元并剔除;
选择所述网格单元的集合中的适合的相对距离δi较大且密度ρi较大的网格单元作为中心网格单元;以及
确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。
9.如权利要求6所述的装置,其特征在于,所述原始样本类簇中心映射进一步包括:
通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。
10.如权利要求6所述的装置,其特征在于,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:
根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K-means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110160712.XA CN113852845A (zh) | 2021-02-05 | 2021-02-05 | 一种基于粒度聚类的数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110160712.XA CN113852845A (zh) | 2021-02-05 | 2021-02-05 | 一种基于粒度聚类的数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113852845A true CN113852845A (zh) | 2021-12-28 |
Family
ID=78972867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110160712.XA Pending CN113852845A (zh) | 2021-02-05 | 2021-02-05 | 一种基于粒度聚类的数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113852845A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392239A (zh) * | 2017-07-11 | 2017-11-24 | 南京邮电大学 | 一种基于Spark计算模型的K‑Means算法优化方法 |
CN107491779A (zh) * | 2017-06-27 | 2017-12-19 | 重庆邮电大学 | 一种基于密度峰值的网格聚类算法 |
CN110222782A (zh) * | 2019-06-13 | 2019-09-10 | 齐鲁工业大学 | 基于密度聚类的有监督二分类数据分析方法及系统 |
CN111079788A (zh) * | 2019-11-18 | 2020-04-28 | 重庆邮电大学 | 一种基于密度Canopy的K-means聚类方法 |
CN111275099A (zh) * | 2020-01-17 | 2020-06-12 | 湖北工业大学 | 一种基于网格粒度计算的聚类方法及聚类系统 |
CN111476270A (zh) * | 2020-03-04 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 基于K-means算法的课程信息确定方法、装置、设备及存储介质 |
-
2021
- 2021-02-05 CN CN202110160712.XA patent/CN113852845A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491779A (zh) * | 2017-06-27 | 2017-12-19 | 重庆邮电大学 | 一种基于密度峰值的网格聚类算法 |
CN107392239A (zh) * | 2017-07-11 | 2017-11-24 | 南京邮电大学 | 一种基于Spark计算模型的K‑Means算法优化方法 |
CN110222782A (zh) * | 2019-06-13 | 2019-09-10 | 齐鲁工业大学 | 基于密度聚类的有监督二分类数据分析方法及系统 |
CN111079788A (zh) * | 2019-11-18 | 2020-04-28 | 重庆邮电大学 | 一种基于密度Canopy的K-means聚类方法 |
CN111275099A (zh) * | 2020-01-17 | 2020-06-12 | 湖北工业大学 | 一种基于网格粒度计算的聚类方法及聚类系统 |
CN111476270A (zh) * | 2020-03-04 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 基于K-means算法的课程信息确定方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
Wan et al. | Density-based clustering of data streams at multiple resolutions | |
CN113850281B (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
CN109376940B (zh) | 获取降雨过程中的降雨时空分布规律的方法和装置 | |
CN109189876B (zh) | 一种数据处理方法及装置 | |
CN102693299A (zh) | 一种并行视频拷贝检测系统和方法 | |
CN107609105B (zh) | 大数据加速结构的构建方法 | |
CN113076437B (zh) | 一种基于标签重分配的小样本图像分类方法及系统 | |
CN110991527B (zh) | 一种考虑电压曲线平均波动率的相似度阈值确定方法 | |
CN117034043A (zh) | 基于多能源物联网的智慧建筑综合能耗监测方法及系统 | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN1666518A (zh) | 使用群紧密度作为产生用于分类tv节目的附加群的量度的方法和装置 | |
CN107122395B (zh) | 数据抽样方法和装置 | |
CN114186518A (zh) | 一种集成电路良率估算方法及存储器 | |
CN109389172A (zh) | 一种基于无参数网格的无线电信号数据聚类方法 | |
CN113852845A (zh) | 一种基于粒度聚类的数据处理方法和装置 | |
CN113378682A (zh) | 基于改进型聚类算法的毫米波雷达跌倒检测方法及系统 | |
CN113094448A (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
CN111506624A (zh) | 一种电力缺失数据辨识方法和相关装置 | |
CN108415958B (zh) | 指数权重vlad特征的权重处理方法及装置 | |
Bruneau et al. | Aggregation of probabilistic PCA mixtures with a variational-bayes technique over parameters | |
CN114004989A (zh) | 一种基于改进K-means算法的电力安全预警数据聚类处理方法 | |
CN114186110A (zh) | 一种数据聚类方法、装置、设备及可读存储介质 | |
CN108154162A (zh) | 一种聚类分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220209 Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200072 Applicant after: Tianyi Digital Life Technology Co.,Ltd. Address before: 201702 3rd floor, 158 Shuanglian Road, Qingpu District, Shanghai Applicant before: Tianyi Smart Family Technology Co.,Ltd. |