CN103345473B

CN103345473B - 一种识别iptv用户是家庭用户的方法

Info

Publication number: CN103345473B
Application number: CN201310222532.5A
Authority: CN
Inventors: 杨燕; 范娜; 潘云; 杜泽宇; 杨河彬; 王伟杰
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-06-06
Filing date: 2013-06-06
Publication date: 2016-12-28
Anticipated expiration: 2033-06-06
Also published as: CN103345473A

Abstract

本发明公开了一种识别IPTV用户是家庭用户的方法，该方法包括：a.用户对单个节目的隐式评分值，映射到用户对一类节目的评分区间上，从高度上把握数据的整体性；b.定义区间之间的距离的计算公式，并计算区间距离；c.发现离群点：提出基于区间距离的离群点发现方法，若离群点存在，则当前分析的用户为家庭用户。本发明的优点：将用户对单个节目的评分转化到用户对一类节目的评分区间并计算区间之间的距离，避免了单个隐式评分点中的数据信息丢失；方法复杂度低，能够有效的挖掘出家庭用户存在。

Description

一种识别IPTV用户是家庭用户的方法

技术领域

本发明涉及IPTV推荐系统领域，具体地说是一种通过离群检测，计算用户评分区间与区间之间距离，来确定当前用户是家庭用户还是个体用户的方法。

背景技术

IPTV是多个用户共同操控的终端，多人的访问数据，会存储于同一个IPTV机顶盒中。应用传统的推荐算法，虽然会产生推荐，却不能产生诸如对“这个用户是不是多个人组成的家庭用户？”“这个家庭喜欢什么类型的节目？”“这个家庭大概由几个人组成”等这些问题的分析，在此基础上所提供的个性化服务是不能满足所有的要求的。

IPTV数据来源有两种：第一种是全家人的观看记录都包含在同一个机顶盒中；另外一种是IPTV的使用者只是一位用户，机顶盒的数据就是这一个用户单独产生的。区分当前使用IPTV的用户是家庭用户还是个体用户对提高推荐的准确性非常重要。因此需要通过对IPTV中家庭用户的群组识别，来解决这个问题。

目前来讲，在数据挖掘领域对群组的发掘工作可以从两方面进行——聚类和离群。聚类方法的目的是将数据分类，在已知分类标准的前提下，将众多数据分为满足不同规律的群组；而离群，是挖掘数据的过程，整个数据集是一个整体，要找到在整个对象中有明显差异的个体，这样就自然的将一个大的群组分为互相独立的两个部分。预测和发现离群点具有非常重要的意义，IPTV中的家庭用户满足离群的特点，因此可以使用离群方法进行家庭用户的挖掘。

目前离群数据挖掘的方法主要有以下三种：

1、基于统计的离群数据发现方法

这种方法要求事先要知道数据集合参数（例如假定的数据分布)、分布参数( 例如均值、标准差)和预期的离群数据的个数，而这些信息在应用中一般是不可知的，这类方法的绝大多数的应用是针对数值型数据，较难对高维数据、分类数据、周期性数据进行发掘。

2、基于距离的离群数据发现方法

基于距离的离群数据(distance-based)，它是指需要知道对象之间的距离，观察对象之间距离的大小，试图找到一些在距离上远于其他对象的点集。这种方法适用于在海量数据中进行离群的检验，由于可以用抽样的方法来计算对象间的距离，因此复杂度较低。

3、基于偏移的离群数据发现方法

这种方法可以对各种情况下的数据进行检验，但要事先知道数据的特征并确定互斥度函数，所以在实际问题中较难使用。

发明内容

本发明的目的是针对IPTV中家庭用户无法确定的问题而提供的一种高效率识别当前用户是家庭还是个体用户的方法。通过此方法挖掘出的家庭用户，应该更贴近实际情况，并较其他群组发现方法的准确度更高。所谓高效率是指在家庭用户发现的过程中，挖掘结果更准确，所需的时间空间代价更低。

实现本发明目的的具体技术方案是：

一种识别IPTV用户是家庭用户的方法，首先通过用户对节目的隐式评分来代表用户对节目的喜好程度。由于节目众多，需要把用户对单一节目的评分扩展到用户对一类节目的评分区间，这样可以从一定高度上表达用户的整体喜好。然后定义区间之间的距离的计算公式，并计算区间距离；最后发现离群点：提出基于区间距离的离群点发现方法，若离群点存在，则当前分析的用户为家庭用户。其具体方法描述如下：

第一步：从IPTV数据集中，计算“用户浏览节目时长“与”节目总时长”的比值，得到用户对节目的隐式评分，代表用户对单个节目的喜好程度；

第二步：对30天（一个月）的IPTV数据进行周期数据划分，3天为一个周期，得到Period=10个周期的数据；

第三步：统计IPTV数据集中的节目类别，得到节目类别数目Type；结合第二步，得到当前用户在Period=10个周期中，对所有Type类节目的评分矩阵X，如下式：

其中，代表在第Period周期中，用户对所有类别节目的评分矩阵，代表在第Period周期中，用户对第Type类节目的评分矩阵，代表用户在第Period周期中，用户对第Type类节目评分的最小值，代表用户在第Period周期中，用户对第Type类节目评分的最大值。

第四步：定义任意两个区间向量之间的距离公式，其中X和Y分别代表任意两个类型的区间向量：

；

第五步：从矩阵X中，随机抽取NUM个评分子集（也叫做RateSubSet），每一个维度的评分叫做周期类别评分（CTR）；

第六步：根据公式，计算评分子集RateSubSet中每一维周期类别评分，与原始评分矩阵X中周期类别评分的区间向量距离；

第七步：记录距离最大的前k个周期类别评分在原始评分矩阵X中的行编号，并计入IPTV中家庭用户候选集合Candidate中；

第八步：对评分子集RateSubSet中评分维度数NUM进行减1操作；之后，若NUM>0，则转到第五步；否则，转到第九步；

第九步：对NUM次循环之后的候选集合Candidate求交集，若交集不为空，则挖掘出群组中的异常点，说明此用户是家庭用户；若交集为空，则不能挖掘出异常点的存在，说明IPTV中用户是以个体的方式存在，此用户不是家庭用户。

与背景技术相比，本发明有以下优点：

该方法通过将用户对单个节目的评分值转化到用户对一类节目的评分区间上，并计算区间之间的距离，避免了单个数据的信息丢失，以此确定家庭用户的存在。实验证明方法复杂度低，能够有效的挖掘出家庭用户存在。

本发明提出一种有效的计算区间评分数据距离的方法，能够将传统的评分值转化为对类别的评分区间，把握数据整体特性。

附图说明

图1为本发明流程示意图。

具体实施方式

通过附图及对以下非限制性实施例所作的详细描述，本发明的特征、目的和优点将会变得更明显：

本发明公开了一种将每个待分析的用户都假设为家庭用户，通过将用户兴趣进行区间符号描述，并挖掘用户行为中的异常点，最后得到了判断用户是否为家庭的方法。本领域技术人员可以参考图1示出的流程。下面描述本发明的详细过程：

（1）计算“用户浏览节目时长“与”节目总时长”的比值，得到用户对节目的隐式评分。例如节目A的总时长为40分30秒，用户观看了30分钟，则用户对这个节目的隐式评分为30/40.5=0.74。

（2）对30（一个月）的IPTV数据进行周期数据划分，3天为一个周期，总共得到Period=10个周期的数据。

（3）IPTV中的节目，可以分类为：电视剧、电影、新闻、体育、娱乐等大类，对节目类别进行统计，得到类别数Type。因此用户在不同周期内对不同类别节目隐式评分的区间可以表示为以下的表：

	剧集	电影	娱乐	新闻
					周期1
周期2		…	…	…
					周期3	…	…	…	…
周期4	…	…	…	…
					周期5	…	…	…	…
周期6

表中的数据可以认为是评分矩阵X，每一行是一个周期，每一列是一个类别。由于篇幅有限，周期和类别并没有完全列出。

（4）定义距离公式：其中X和Y分别代表任意两个类型的区间向量，则这两个区间向量之间距离为：

其中

分别代表评分的均值和标准差。

（5）由步骤（3）中，抽取出的评分子集RateSubSet为

这时，NUM=3.

（6）根据公式计算评分子集中每一维“周期类别评分”与原始评分矩阵X中“周期类别评分”的距离。共有3组CTR，分别对应RateSubSet1, RateSubSet5, RateSubSet6，共有6组X行向量，分别对应X1，X2，X3，X4，X5，X6。第一次的循环，是计算与的距离，接着计算与的距离…以此类推，此次循环，总共计算3*6=18次向量距离。

（7）经过向量距离的计算，与RateSubSet1距离最大的前k(k=3)个评分向量区间为X2，X3，X6；RateSubSet5距离最大的前k个评分向量区间为X2，X3，X1；RateSubSet6距离最大的前k的评分向量区间为X3，X2，X4。则这一次循环之后，Candidate1={X2,X3}。

（8）评分子集数NUM减1，若NUM >0，则转到步骤（5）；否则，转到步骤（9）；

（9）循环之后，离群点的集合为：

此时集合不为空，当前用户的浏览记录存在异常点，说明当前用户是一个家庭用户而不只是一个个体用户。

Claims

1.一种识别IPTV用户是家庭用户的方法，该方法包括以下具体步骤：

第一步：从IPTV数据集中，计算“用户浏览节目时长”与“节目总时长”的比值，得到用户对节目的隐式评分，代表用户对单个节目的喜好程度；

第二步：对30天的IPTV数据进行周期数据划分，3天为一个周期，得到Period＝10个周期的数据；

第三步：统计IPTV数据集中的节目类别，得到节目类别数目Type；结合第二步，得到当前用户在Period＝10个周期中，对Type类所有节目的评分矩阵X，如下式：

其中，x_Period代表在第Period周期中，用户对类别所有节目的评分矩阵，x_Period,Type代表在第Period周期中，用户对第Type类节目的评分矩阵，a_Period,Type代表用户在第Period周期中，用户对第Type类节目评分的最小值，b_Period,Type代表用户在第Period周期中，用户对第Type类节目评分的最大值；

第四步：定义任意两个区间向量之间的距离公式d(X,Y)，其中X和Y分别代表任意两个X＝[[x₁,y₁],[x₂,y₂]...[x_n,y_n]]类型的区间向量：

d (X, Y) = \sqrt{Σ_{i = 1}^{p} d {(x_{i}, y_{i})}^{2}} = \sqrt{Σ_{i = 1}^{p} {[| \overset{&OverBar;}{x_{i}} - \overset{&OverBar;}{y_{i}} | + \sqrt{3} | S_{x_{i}} - S_{y_{i}} |]}^{2}};

第五步：从矩阵X中，随机抽取NUM个评分子集，叫做RateSubSet，每一个维度的评分叫做周期类别评分CTR；

第六步：根据公式d(X,Y)，计算评分子集RateSubSet中每一维周期类别评分，与原始评分矩阵X中周期类别评分的区间向量距离；