CN105139021A

CN105139021A - 一种基于粗糙集理论实现电视用户快速分类的方法及系统

Info

Publication number: CN105139021A
Application number: CN201510400672.6A
Authority: CN
Inventors: 冯研
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2015-12-09
Anticipated expiration: 2035-07-08
Also published as: CN105139021B

Abstract

本发明公开一种基于粗糙集理论实现电视用户快速分类的方法及系统。本发明通过对电视用户行为数据的离散化处理，使用属性约简的方法对多属性数据进行降维度处理，获得最佳属性约简集，基于属性约简集和规则库实现对用户活跃度进行快速判别，进而实现了对用户分类，本发明的方法准确度高，实时性高，无需海量数据的存储，可应用于后续的营销及市场推广活动。

Description

一种基于粗糙集理论实现电视用户快速分类的方法及系统

技术领域

本发明涉及电视用户分类领域，尤其涉及一种基于粗糙集理论实现电视用户快速分类的方法及系统。

背景技术

随着现代通信技术的飞速发展以及多媒体电视的逐步普及，数字电视已经成为广大家庭获取信息的主要途径。技术的变革使得我们每天可以获取大量属性的电视用户行为数据，如何基于高维度的电视用户行为数据对用户进行分类，并基于此进行相应的营销与市场推广活动也成为亟待解决的问题。传统的聚类算法在分析此类数据时存在着以下的缺陷：

1、高维用户行为数据需要较大的存储空间，会增加存储成本，不利于海量数据的高效存储；

2、数据点在高维空间中聚类有可能存在无法完成聚类的情况，大量不关键属性的干扰会直接导致无法实现用户的类别划分；

3、基于高维数据的聚类算法，受制于高维、海量数据的影响，算法的准确性、及时性会大打折扣。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于粗糙集理论实现电视用户快速分类的方法及系统，旨在解决现有方法准确性、及时性差等问题。

本发明的技术方案如下：

一种基于粗糙集理论实现电视用户快速分类的方法，其中，包括步骤：

A、通过Spark大数据平台对样本期内的原始数据进行整合处理，生成电视用户的行为决策表；

B、采用算法对行为决策表中每一列属性进行离散化处理；

C、通过属性简约算法对行为决策表进行属性约简操作，获得最佳属性约简集；

D、根据所述最佳属性约简集建立过滤筛选后的规则库；

E、通过测试集测试离散化效果与规则库完备性得到准确度阈值；

F、根据最佳属性约简集和规则库实现对用户的分类。

所述的基于粗糙集理论实现电视用户快速分类的方法，其中，所述步骤B具体包括：

B1、对行为决策表中每一列属性的数据从小到大进行排列，所述行为决策表中包含N列条件属性和M列决策属性，M和N为大于0的自然数；

B2、对每一列属性的数据从上到下进行扫描；

B3、若每一列属性中相邻的数据相同，则继续扫描，若相邻的数据不同则得到断点c，c的值为相邻数据的平均值，然后继续扫描；

B4、对离散后的每一列属性进行编码。

所述的基于粗糙集理论实现电视用户快速分类的方法，其中，所述步骤C具体包括：

C1、定义电视节目的因素集合B＝φ；

C2、根据因素集合中各个因素计算行为决策表中每条记录的等价关系，划分相应的等价类；

C3、根据差别函数计算各条记录对应的电视节目因素的组合，得到差别集合S′；

C4、选取差别集合S′中∑w(S′)中值最大的质量因素a，w(S′)为1；

C5、将质量因素a加入因素集合B中；

C6、移除差别集合S′中包含质量因素a的所有组合；

C7、若S′＝φ，返回电视节目的因素集合B；否则，返回C4继续执行。

所述的基于粗糙集理论实现电视用户快速分类的方法，其中，所述步骤D具体包括：

D1、根据最佳属性约简集，得到基于核心属性的行为决策表；

D2、根据基于核心属性的行为决策表，得到完全规则集，并根据规则的支持度、精确度以及覆盖度的公式计算出每条规则的上述三项的指标值：支持度s′,精确度a′,覆盖度c′；

D3、输入不同实例的支持度s、精确度a、覆盖度c，对所有规则进行过滤筛选，不断累加得到最终的规则库R。

所述的基于粗糙集理论实现电视用户快速分类的方法，其中，所述步骤E具体包括：

E1、通过测试集M以及规则库R，得出该测试集M的决策属性表S2；

E2、将决策属性表S2与测试集M的真实决策属性表S1进行匹配对比，根据对比结果设定准确度阈值，使规则库R满足准确度阈值。

一种基于粗糙集理论实现电视用户快速分类的系统，其中，包括：

整合模块，用于通过Spark大数据平台对样本期内的原始数据进行整合处理，生成电视用户的行为决策表；

离散化模块，用于采用算法对行为决策表中每一列属性进行离散化处理；

约简模块，用于通过属性简约算法对行为决策表进行属性约简操作，获得最佳属性约简集；

规则库建立模块，用于根据所述最佳属性约简集建立过滤筛选后的规则库；

测试模块，用于通过测试集测试离散化效果与规则库完备性得到准确度阈值；

分类模块，用于根据最佳属性约简集和规则库实现对用户的分类。

所述的基于粗糙集理论实现电视用户快速分类的系统，其中，所述离散化模块具体包括：

排列单元，用于对行为决策表中每一列属性的数据从小到大进行排列，所述行为决策表中包含N列条件属性和M列决策属性，M和N为大于0的自然数；

扫描单元，用于对每一列属性的数据从上到下进行扫描；

离散单元，用于若每一列属性中相邻的数据相同，则继续扫描，若相邻的数据不同则得到断点c，c的值为相邻数据的平均值，然后继续扫描；

编码单元，用于对离散后的每一列属性进行编码。

所述的基于粗糙集理论实现电视用户快速分类的系统，其中，所述约简模块具体包括：

定义单元，用于定义电视节目的因素集合B＝φ；

等价单元，用于根据因素集合中各个因素计算行为决策表中每条记录的等价关系，划分相应的等价类；

第一计算单元，用于根据差别函数计算各条记录对应的电视节目因素的组合，得到差别集合S′；

选取单元，用于选取差别集合S′中∑w(S′)中值最大的质量因素a，w(S′)为1；

添加单元，用于将质量因素a加入因素集合B中；

移除单元，用于移除差别集合S′中包含质量因素a的所有组合；

返回单元，用于若S′＝φ，返回电视节目的因素集合B；否则，返回选取单元继续执行。

所述的基于粗糙集理论实现电视用户快速分类的系统，其中，所述规则库建立模块具体包括：

第二计算单元，用于根据最佳属性约简集，得到基于核心属性的行为决策表；

第三计算单元，用于根据基于核心属性的行为决策表，得到完全规则集，并根据规则的支持度、精确度以及覆盖度的公式计算出每条规则的上述三项的指标值：支持度s′,精确度a′,覆盖度c′；

过滤筛选单元，用于输入不同实例的支持度s、精确度a、覆盖度c，对所有规则进行过滤筛选，不断累加得到最终的规则库R。

所述的基于粗糙集理论实现电视用户快速分类的系统，其中，所述测试模块具体包括：

第四计算单元，用于通过测试集M以及规则库R，得出该测试集M的决策属性表S2；

匹配对比单元，用于将决策属性表S2与测试集M的真实决策属性表S1进行匹配对比，根据对比结果设定准确度阈值，使规则库R满足准确度阈值。

有益效果：本发明通过对电视用户行为数据的离散化处理，使用属性约简的方法对多属性数据进行降维度处理，获得最佳属性约简集，基于属性约简集和规则库实现对用户活跃度进行快速判别，进而实现了对用户分类，本发明的方法准确度高，实时性高，无需海量数据的存储，可应用于后续的营销及市场推广活动。

附图说明

图1为本发明一种基于粗糙集理论实现电视用户快速分类的方法较佳实施例的流程图。

图2为本发明通过属性约简之后得到的属性约简结果。

图3为本发明一种基于粗糙集理论实现电视用户快速分类的系统较佳实施例的结构框图。

具体实施方式

本发明提供一种基于粗糙集理论实现电视用户快速分类的方法及系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1为本发明一种基于粗糙集理论实现电视用户快速分类的方法较佳实施例的流程图，其包括步骤：

S101、通过Spark大数据平台对样本期内的原始数据进行整合处理，生成电视用户的行为决策表；

S102、采用算法对行为决策表中每一列属性进行离散化处理；

S103、通过属性简约算法对行为决策表进行属性约简操作，获得最佳属性约简集；

S104、根据所述最佳属性约简集建立过滤筛选后的规则库；

S105、通过测试集测试离散化效果与规则库完备性得到准确度阈值；

S106、根据最佳属性约简集和规则库实现对用户的分类。

首先，在步骤S101中，通过Spark大数据平台处理样本期(如15天)内的原始数据，对其进行ETL处理，生成该样本期的行为决策表。该行为决策表包含了用户ID信息，观看的各属性(如影视、新闻、科技等)节目的时长，通过打分之后，在行为决策表中添加用户活跃度属性的字段信息(例如标识为1、2、3、4、5,1代表基本不看电视，2代表偶尔观看，3代表正常观看，4代表电视偏好者，5代表电视爱好者)

进一步，所述步骤S102采用算法进行离散化处理，具体包括：

S201、对行为决策表中每一列属性的数据从小到大进行排列，所述行为决策表中包含N列条件属性和M列决策属性，M和N为大于0的自然数，本实施例中M为1；

行为决策表中，根据节目属性进行了分类，如娱乐节目、科技节目、体育节目等，这样的属性为条件属性。而用户活跃度属性则作为决策属性。

读取行为决策表，然后对行为决策表中每一列属性的数据从小到大进行排列，包括对条件属性和决策属性中每一列数据的排列。

S202、对每一列属性的数据从上到下进行扫描；

S203、若每一列属性中相邻的数据相同，则继续扫描，若相邻的数据不同则得到断点c，c的值为相邻数据的平均值，然后继续扫描；

假设a(X_i)和a(X_j)为第a列中相邻的两个数据，如果a(X_i)＝a(X_j)，则继续扫描第a列余下的数据，如果a(X_i)≠a(X_j)，那么得到一个断点c(插入到X_i和X_j之间)，c＝(a(X_i)+a(X_j))/2。

S204、对离散后的每一列属性进行编码。例如用0，1，2，，，来表示。

在所述步骤S203中，采用Johnson’salgorithm属性约简算法进行属性约简操作，

对于电视用户活跃度与对应的各个影响因素组成的信息系统S＝(U,A,V,f)，其中，论域U＝{x₁,x₂,…,x_n}(用户数量为n，x₁，x₂…x_n分别为用户ID号)，|U|＝n，A＝C∪D，C为用户观看节目类别的集合，D为活跃程度的集合，f：U×A→V是信息函数，为每个对象的每个属性赋予一个信息值。

差别矩阵为一个n×n的矩阵，矩阵中各个元素定义为：

a^*(x,y)＝{a∈C|f(x,a)≠f(y,a)∧w(x,y)}

对于每一个x,y∈U，w(x,y)满足或者或者

令信息系统中对象x_i,x_j相对于某个影响因素α的差别变量

然后再令

则定义差别函数如下：

\begin{matrix} Δ = \underset{&ForAll; (x_{i}, x_{j}) &Element; U \times U}{Π} Σ α (x_{i}, x_{j}), & i, j = 1, 2, ..., n . \end{matrix}

根据节目属性的因素，对行为决策表中的数据进行分类，得到相应的等价类，为区分等价类中各条记录的不可分辨关系，需运用差别函数进行计算区分。对于信息系统中的每一条记录，根据差别函数计算出该记录与系统中其他记录相对于所有影响因素的差别，定义为f(i)，i为该记录在信息系统中的顺序，从0开始计数。定义待求的节目属性的因素集合为B，S′为信息系统S中根据差别函数Δ得出的影响因素组合的集合。对于S′中的每一个组合，定义其w(S′)＝1，用于计算集合中各因素的重要性。

具体来说，所述的步骤S103具体包括：

S301、定义电视节目的因素集合B＝φ；

S302、根据因素集合中各个因素计算行为决策表中每条记录的等价关系，划分相应的等价类；

S303、根据差别函数计算各条记录对应的电视节目因素的组合，得到差别集合S′；S′包含了各条记录与其他记录进行区分的因素的集合，以表示各条记录的不可分辨关系；

S304、选取差别集合S′中∑w(S′)中值最大的质量因素a，w(S′)为1；

S305、将质量因素a加入因素集合B中；

S306、移除差别集合S′中包含质量因素a的所有组合；

S307、若S′＝φ，返回电视节目的因素集合B；否则，返回S304继续执行。

如果S′＝φ，表明所得因素集合即能将用户活跃度进行分类预测，返回电视节目的因素集合B；否则，表明求得的因素集合还不能完全区分行为决策表中的各条记录，需要返回S304继续执行。

采用上述方法对经过离散化后的行为决策表进行属性约简，系统默认最后一列属性为决策属性，其它属性则为输入的条件属性，得到影响用户观看活跃度的核心属性如图2所示。其中Reduct表示进行约简后得到的电视节目的核心属性，Support表示对应的约简的支持度，为100％，Length即为Reduct中核心属性的个数。

从该图的约简结果可发现，判定用户是否活跃的最主要的7个属性(核心属性)是娱乐、体育、动画、综合、财经、电视剧、电影，其它因素影响较小可忽略。

在所述步骤S104中建立规则库：

系统可以通过定义规则的支持度、精确度以及覆盖度来表示规则的可测性。定义条件概率即当前条件属性值在整个规则库中所占的比例。定义决策概率即当前决策属性值在整个规则库中所占的比例。

(1)规则的支持度

规则的绝对支持度sup_x(C,D)＝|A(x)|＝|C(x)∩D(x)|，相对支持度为规则的强度

σ_{x} (C, D) = \frac{\sup_{x} (C, D)}{| U |} .

(2)规则的精确度

规则的精确度把规则的强度公式代入精确度公式中，可得

{acc}_{x} (C, D) = \frac{\sup_{x} (C, D)}{| C (x) |} = \frac{σ_{x} (C, D) | U |}{| C (x) |} = \frac{σ_{x} (C, D)}{π (C (x))} .

(3)规则的覆盖度

规则的覆盖度把规则的强度公式代入覆盖度公式中，可得

{cov}_{x} (C, D) = \frac{\sup_{x} (C, D)}{| D (x) |} = \frac{σ_{x} (C, D) | U |}{| D (x) |} = \frac{σ_{x} (C, D)}{π (D (x))} .

由上述定义可知，规则的支持度和强度描述了规则在论域中有多大的代表性，精确度为规则相对于条件属性的准确程度，覆盖度则是规则相对于决策属性的准确程度。

具体来说，所述步骤S104具体包括：

S401、根据最佳属性约简集，得到基于核心属性的行为决策表；

S402、根据基于核心属性的行为决策表，得到完全规则集R′，并根据规则的支持度、精确度以及覆盖度的公式计算出每条规则的上述三项的指标值：支持度s′,精确度a′，覆盖度c′；

S403、输入不同实例的参数值s、a、c，对所有规则进行过滤筛选，不断累加得到最终的规则库R。

上述步骤是根据精确度、覆盖度、支持度等条件进行过滤，使具备普遍性。选取精确度高于75％(即a>0.75)，覆盖度大于0.01(c>0.01)的过滤条件，参数设定好，导出筛选后的规则，用support记录该类条件组合所示情况在整个挖掘数据库中出现的次数，即该类条件组合的绝对支持度；用coverage记录相应的比例，为对应规则的support值与挖掘数据记录总和的比值，即该类条件组合的相对支持度。对条件组合进行过滤，需针对对应组合的绝对支持度和相对支持度进行分析后进行相应的操作。

考虑到数据样本的有限性，记录数分布较为分散，对coverage设定值偏低，然后进行过滤操作，过滤后的规则，过滤后的规则不断积累从而形成规则集R。

所述步骤S105具体包括：

S501、通过测试集M以及规则库R，得出该测试集M的决策属性表S2；

S502、将决策属性表S2与测试集M的真实决策属性表S1进行匹配对比，根据对比结果设定准确度阈值，使规则库R满足准确度阈值。例如设定准确度阈值为95％，当S2的准确度高于该准确度阈值时，则接受生成的规则库R，否则重复上述过程直至达到准确度阈值。

最后，累计一段样本期(可根据业务需求设为N天)的用户直播数据，通过spark大数据平台处理，只需提取因素集合B的属性信息并结合之前形成的规则集R，即可以对新用户的活跃度进行判别分类，并在其后标注出相对应的标签，归类完成。

基于上述方法，本发明还提供一种基于粗糙集理论实现电视用户快速分类的系统较佳实施例，如图3所示，其包括：

整合模块100，用于通过Spark大数据平台对样本期内的原始数据进行整合处理，生成电视用户的行为决策表；

离散化模块200，用于采用算法对行为决策表中每一列属性进行离散化处理；

约简模块300，用于通过属性简约算法对行为决策表进行属性约简操作，获得最佳属性约简集；

规则库建立模块400，用于根据所述最佳属性约简集建立过滤筛选后的规则库；

测试模块500，用于通过测试集测试离散化效果与规则库完备性得到准确度阈值；

分类模块600，用于根据最佳属性约简集和规则库实现对用户的分类。

进一步，所述离散化模块200具体包括：

扫描单元，用于对每一列属性的数据从上到下进行扫描；

编码单元，用于对离散后的每一列属性进行编码。

进一步，所述约简模块300具体包括：

定义单元，用于定义电视节目的因素集合B＝φ；

添加单元，用于将质量因素a加入因素集合B中；

进一步，所述规则库建立模块400具体包括：

进一步，所述测试模块500具体包括：

关于上述模块单元的技术细节在前面的方法中已有详述，故不再赘述。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于粗糙集理论实现电视用户快速分类的方法，其特征在于，包括步骤：

B、采用算法对行为决策表中每一列属性进行离散化处理；

D、根据所述最佳属性约简集建立过滤筛选后的规则库；

F、根据最佳属性约简集和规则库实现对用户的分类。

2.根据权利要求1所述的基于粗糙集理论实现电视用户快速分类的方法，其特征在于，所述步骤B具体包括：

B2、对每一列属性的数据从上到下进行扫描；

B4、对离散后的每一列属性进行编码。

3.根据权利要求1所述的基于粗糙集理论实现电视用户快速分类的方法，其特征在于，所述步骤C具体包括：

C1、定义电视节目的因素集合B＝φ；

C5、将质量因素a加入因素集合B中；

C6、移除差别集合S′中包含质量因素a的所有组合；

4.根据权利要求1所述的基于粗糙集理论实现电视用户快速分类的方法，其特征在于，所述步骤D具体包括：

5.根据权利要求1所述的基于粗糙集理论实现电视用户快速分类的方法，其特征在于，所述步骤E具体包括：

6.一种基于粗糙集理论实现电视用户快速分类的系统，其特征在于，包括：

7.根据权利要求6所述的基于粗糙集理论实现电视用户快速分类的系统，其特征在于，所述离散化模块具体包括：

扫描单元，用于对每一列属性的数据从上到下进行扫描；

编码单元，用于对离散后的每一列属性进行编码。

8.根据权利要求6所述的基于粗糙集理论实现电视用户快速分类的系统，其特征在于，所述约简模块具体包括：

定义单元，用于定义电视节目的因素集合B＝φ；

添加单元，用于将质量因素a加入因素集合B中；

9.根据权利要求6所述的基于粗糙集理论实现电视用户快速分类的系统，其特征在于，所述规则库建立模块具体包括：

10.根据权利要求6所述的基于粗糙集理论实现电视用户快速分类的系统，其特征在于，所述测试模块具体包括：