CN113852845A

CN113852845A - 一种基于粒度聚类的数据处理方法和装置

Info

Publication number: CN113852845A
Application number: CN202110160712.XA
Authority: CN
Inventors: 吕超; 张继东; 沈志平; 李金珅; 姜承祥
Original assignee: Tianyi Smart Family Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-12-28

Abstract

本发明提供了一种基于粒度聚类的数据处理方法和装置。装置包括：数据采集模块，所述数据采集模块被配置成实时采集用户行为数据作为原始样本集；粒度处理模块，所述粒度处理模块被配置成：基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本，确定原始样本类簇个数并且预估原始样本类簇中心；以及基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心；数据聚类模块，所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类；以及数据推送模块，所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。

Description

一种基于粒度聚类的数据处理方法和装置

技术领域

本发明涉及大数据领域，更具体地，涉及基于粒度聚类的数据处理方法和装置。

背景技术

随着IPTV技术的高速发展，人们在收看IPTV节目时接收到的信息量猛增，对节目内容的选择也提出了更高的要求，目前存在一些基于数据挖掘和机器学习的数据处理方法，但面对不断增长的海量用户行为数据，这些方法处理时间长，处理效率低，如何实现大数据场景下的实时精准推送成为亟待解决的问题。

为了对海量数据进行处理，需要进行聚类，在传统的K-means聚类方法中，K值对最终结果的影响至关重要，需要先验知识给定合适的K值，凭空估计导致聚类效果很差。随机选取K个样本作为簇的中心，其中心簇的初值敏感，选择不同的初始值可能导致不同的簇划分规则以及收敛速度慢。此外，K-means算法在迭代的过程中使用所有点的均值作为新的中心点，如果簇中存在异常点，将导致均值偏差比较严重。

中国专利申请“一种基于密度峰值的网格聚类算法”(CN201710502536.7)中提出了一种基于密度峰值的网格聚类算法，然而其中K值无法快速确定且对噪音敏感。

中国专利申请“一种基于网格的密度峰值聚类方法及系统”(CN201610515319.7)中提出了一种基于网格的密度峰值聚类方法，然而其中无法快速找到合适K值，并且无法预估初始化类簇中心。

因此，为了在大数据场景下快速去除噪音，提高聚类精度并且大大提高聚类速度，希望提供一种改进的数据处理方法。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

本发明提出了一种基于粒度聚类的数据处理方法和装置。该方法可根据用户行为数据快速生成用户分组标签，并针对不同用户组实时推送感兴趣的内容。相比传统的数据处理方法，大大提高了处理的速度和精度。更具体地，本发明的方法首先使用网格划分对原始样本集进行粗粒化，通过密度峰值聚类方式，剔除噪音样本，快速确定K值及预估原始样本类簇中心。接着，对原始样本集进行细粒度化，并将先前预估的类簇中心映射至细粒度空间中，最后，对细粒度化转变的新样本集进行聚类。

根据本发明的一个方面，提供了一种基于粒度聚类的数据处理方法，所述方法包括：

实时采集用户行为数据作为原始样本集；

基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本，确定原始样本类簇个数并且预估原始样本类簇中心；

基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心；

基于所确定的新样本集和新类簇中心来进行聚类；以及

基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。

根据本发明的一个实施例，对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括：

确定经粗粒度化的网格空间中含有原始样本的网格单元的集合；以及

确定所述网格单元的集合中的各个网格单元的密度ρ_i和相对距离δ_i以进行密度峰值聚类，其中所述密度ρ_i为所述网格单元中的样本点个数，ρ_i＝|x_3i|，所述相对距离δ_i为所述网格单元与其他网格单元的相对距离，

其中

d_ij表示网格单元x_3i和x_3j的曼哈顿距离，d_ij＝|x_3i ⁽¹⁾-x_3j ⁽¹⁾|+|x_3i ⁽²⁾-x_3j ⁽²⁾|+…+|x_3i ^(T)-x_3j ^(T)|。

根据本发明的进一步实施例，所述密度峰值聚类进一步包括：

将所述网格单元的集合中的相对距离δ_i较大但密度ρ_i较小的网格单元看作异常网格单元并剔除；

选择所述网格单元的集合中的适合的相对距离δ_i较大且密度ρ_i较大的网格单元作为中心网格单元；以及

确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。

根据本发明的进一步实施例，所述原始样本类簇中心映射进一步包括：

通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。

根据本发明的进一步实施例，基于所确定的新样本集和新类簇中心来进行聚类进一步包括：

根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K-means聚类，使得每个样本至其最近的类簇中心的距离平方和最小。

根据本发明的另一方面，提供了一种基于粒度聚类的数据处理装置，所述装置包括：

数据采集模块，所述数据采集模块被配置成实时采集用户行为数据作为原始样本集；

粒度处理模块，所述粒度处理模块被配置成：

基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本，确定原始样本类簇个数并且预估原始样本类簇中心；以及

基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射

来确定新样本集和新类簇中心；

数据聚类模块，所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类；以及

数据推送模块，所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。

其中

与现有技术中的方案相比，本发明所提供的基于粒度聚类的数据处理方法和装置至少具有以下优点：

(1)去除异常点，减少迭代过程中求取类簇中心的偏差；

(2)根据数据分布确定合适K值，并预估K个类簇中心位置，使其快速收敛，减少迭代次数；以及

(3)通过网格细粒化原始样本，减少每次迭代的计算量。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例的基于粒度聚类的数据处理装置的示例架构图。

图2示出了根据本发明的一个实施例的基于粒度聚类的数据处理方法的流程图。

图3示出了根据本发明的一个实施例的基于网格的粒度K-means聚类算法的流程图。

图4示出了根据本发明的一个实施例的STING网格结构的示例。

图5a-5b示出了根据本发明的一个实施例的中心点选取的示例。

图6示出了根据本发明的一个实施例的STING网格粗粒度划分的示例。

图7示出了根据本发明的一个实施例的网格单元的决策图的示例。

图8示出了根据本发明的一个实施例的STING网格细粒度划分的示例。

图9示出了根据本发明的一个实施例的原始样本类簇中心到经细粒度划分的网格空间的映射的示例。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

图1是根据本发明的一个实施例的基于粒度聚类的数据处理装置100的示例架构图。如图1所示，本发明的装置100包括：数据采集模块101、粒度处理模块102、数据聚类模块103和数据推送模块104。

数据采集模块101可实时采集用户行为数据作为原始样本集。作为一个示例，数据采集模块101可实时采集用户观看电视节目的行为数据作为原始样本集，其中首先对所有的节目按照类型分类，例如电视新闻资讯节目、电视谈话节目、电视文艺节目、电视娱乐节目、电视纪录片、电视剧、电视电影和电视特别节目等T个类型。同时，一个电视节目可以存在多种类型。数据采集模块101每天统计用户i前30天观看的电视节目历史记录，针对每一个节目类型，根据其相应收看的时间进行累加，并归一化度量为一种评分，即time_t/(time₁+time₂+…+time_T)。为此，关于N个用户，构成如下表所示的一个矩阵，即为原始样本集D₁。

粒度处理模块102可对从数据采集模块101获取的原始样本集D₁进行粗粒度化划分，通过密度峰值聚类方式，剔除噪音样本，快速确定原始样本类簇个数(例如，K值)及预估原始样本类簇中心。粒度处理模块102还可对原始样本集D₁进行细粒度化划分，并且将先前预估的类簇中心映射至细粒度空间中，形成新的样本格式。粗粒度化划分和细粒度化划分可以是利用STING网格(统计信息网格)来进行的。图4示出了根据本发明的一个实施例的STING网格结构400的示例。STING是一种基于网格的多分辨率聚类技术，它将空间区域划分为矩形单元，针对不同级别的分辨率，通常存在多个级别的矩形单元，这些单元形成了一个层次结构，其中高层的每个单元被划分为多个低一层的单元。

数据聚类模块103可基于细粒度化后的新的样本集以及新类簇中心来进行聚类。在一些情形中，可利用例如K-means聚类算法来进行聚类。

数据推送模块104可根据聚类结果来向各用户组实时推送相关数据。在一个示例中，可通过聚类算法自动将电视用户分成K组，然后对各组类簇中心T个属性(节目类型)进行排序，后台依据各自Top-N属性(节目类型)对各组定向推送相关的节目。

为了解说方便，以下将以基于STING网格的粒度K-means聚类算法为例来描述本发明的实施方式，但本领域技术人员可以理解，本发明同样适用于其他的聚类算法。

图2是根据本发明的一个实施例的基于粒度聚类的数据处理方法200的流程图。方法开始于步骤201，数据采集模块101实时采集用户行为数据作为原始样本集D₁。

在步骤202，粒度处理模块102对所采集的原始样本集D₁进行粗粒度化划分，剔除噪音样本，确定原始样本类簇个数并且预估原始样本类簇中心，其中可通过密度峰值聚类方式来快速确定原始样本类簇个数(在K-means聚类算法的情形中为K值)并预估原始样本类簇中心。具体而言，粒度处理模块102首先使用STING网格划分对原始样本集D₁进行粗粒化，尺度参数为ε₁，得到网格空间GS₁。通俗地说，假设原始样本x₁存在T个属性，即{a₁₁，a₁₂，...，a_1T}，则对每个a_1t维度进行归一化并均分ε₁等份

随后，将当前网格空间GS₁中含有原始样本的网格单元的集合定义为样本集D₂，扫描整个样本集D₂，并且将网格单元中原始样本点的数目作为网格单元的密度，利用聚类中心网格单元与其他聚类中心网格单元的距离大，而与其网格单元类簇中其他网格单元的距离小的思路，求出各个网格单元的相对距离。算法步骤如下：

(1)计算网格单元的密度ρ_i，即网格单元i中的数据点个数，其中：

ρ_i＝|x_3i|

(2)计算网格单元的距离δ_i。将网格单元按照频度的大小降序排序，其中δ_i为样本点i的相对距离：

其中，指标集

显然当

时，有

d_ij代表网格单元x_3i和x_3j的曼哈顿距离，d_ij通过下式来计算得出：

d_ij＝|x_3i ⁽¹⁾-x_3j ⁽¹⁾|+|x_3i ⁽²⁾-x_3j ⁽²⁾|+…+|x_3i ^(T)-x_3j ^(T)|

随后，根据所计算得出的网格单元的密度ρ_i和距离δ_i来得出决策图。具体地，可将相对距离δ_i较大但密度ρ_i较小的网格单元看作异常网格单元并剔除，选择适合的相对距离δ_i较大且密度ρ_i较大的网格单元作为中心网格单元，记为c_2k。分别查询各个中心网格单元中原始样本点的均值，作为原始样本的类簇中心c_1k。关于粗粒度的划分，相比较原始样本数目大大减少，其次，无论原始数据规模再大，网格单元的数目是保持不变的。如在图5a-5b可见，基于关于原始样本x₁的散点图，通过传统密度峰值聚类算法来构建决策图，得到K值2、类簇中心x₁₁、x₁₁₀、以及要去除的噪音样本x₁₂₈。与利用传统密度峰值聚类算法构建决策图的过程(如图5a-5b)相比，该算法尤其在大数据场景下可以大幅降低计算量。这种做法获取类簇中心没有传统密度峰值聚类算法获取相应的中心精确度高，但能快速确定K值及预估类簇中心大概位置。

在步骤203，粒度处理模块102对原始样本集D₁进行细粒度化划分，并且将剔除噪音样本后的原始样本集D₁和所预估的原始样本类簇中心映射至细粒度空间中，形成新样本集D₃和新类簇中心。具体而言，粒度处理模块102可使用STING网格划分对原始样本集D₁进行细粒化，其划分过程与粗粒化一致，但尺度参数变为ε₂(ε₁＜＜ε₂)，最终得到网格空间GS₂。每个原始样本映射至网格空间GS₂所对应的网格单元的集合称为样本集D₃。在样本集D₃中，原始样本归属于同一个网格单元，视为相同属性的新样本x₃。此外，样本集D₃中存在不同样本x₃的数目记为M。由于网格空间是固定的，其数目记为L且M＜＝L，随着原始数据规模N增大，M最多为上，但上＜＜N。也就是说，后期无论原始样本集D₁规模增长多大，待聚类的样本集D₃每次迭代求取样本x₃与类簇中心距离可减少O(N-M)重复计算。随后可找到原始样本的K个类簇中心点c_1k在网格空间GS₂中对应的网格单元，作为新的K个类簇中心c_3k。

在步骤204，数据聚类模块103基于细粒度化后的新的样本集以及新类簇中心来进行聚类。具体而言，数据聚类模块103可根据新样本集D₃中每个样本x_3i以及预估的K个类簇中心c_3k进行K-means聚类，使得每个样本点至其最近的类簇中心的距离平方和最小，并将此类距离平方和作为目标函数，记为J。该目标函数表达式如下：

在图3中进一步详细描述了基于网格的粒度聚类算法300的示例。如图3所示，在获取包括N个原始样本x₁的原始样本集D₁之后，基于经粗粒化的网格和密度峰值聚类方式来剔除噪音数据并预估K值及类簇中心c_1k。随后基于经细粒化的网格来将剔除噪音后的各个原样本x₁重新转换为新的样本x₃，并且将原样本K个类簇中心c_1k转换为新的类簇中心c_3k。随后利用K-means聚类算法来将新的样本x₃划分至最近的类簇中，重新计算各个类簇的中心，重复该过程直至收敛以得到各个类簇的聚类结果。

返回图2，在得到聚类结果之后，在步骤205，数据推送模块104可根据聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。

图6-9进一步描述了根据一个实施例的粒度K-means算法关键部分的实现。基于图5a所示的关于原始样本x₁的散点图，首先进行粗粒化处理，如图6所示，尺度参数ε₁为4，STING网格被划分为16个网格单元(即，样本x₂)，例如，x₂₁是坐标为(1，1)的网格单元，x₂₂是坐标为(1，2)的网格单元，以此类推，x₂₁₆是坐标为(4，4)的网格单元。通过粗粒度划分的网格单元，依据改进后设定的规则，构建的决策图如图7所示，并基于该图，剔除噪音网格单元x₂₁₅，确定K值为2以及x₂₆、x₂₈为中心网格单元，分别查询各个中心网格单元中原始样本点的均值，作为原始样本类簇的中心(灰色实心)，如图6所示。由于网格单元x₂₃、网格单元x₂₁₁、网格单元x₂₁₂、网格单元x₂₁₃、网格单元x₂₁₄、网格单元x₂₁₆不存在原始样本，无需计算相应的ρ和δ，最终需要处理的x₂样本数目为10个。

在粗粒化处理之后对原始样本集进行细粒化处理，如图8所示，将剔除噪音样本后的原始样本集映射到尺度参数ε₂为16的经细粒化的网格空间中，随后如图9所示将先前确定的2个原始样本类簇中心点映射至该经细粒化的网格空间中。在图9中示出了最终待聚类的新样本集D₃以及初始化的类簇中心c₃₁、c₃₂。

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。