CN105868243A

CN105868243A - 信息处理方法及装置

Info

Publication number: CN105868243A
Application number: CN201510925734.5A
Authority: CN
Inventors: 刘恋
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2016-08-17
Also published as: WO2017101506A1

Abstract

本公开实施例提供了一种信息处理方法及装置，所示方法包括以下步骤：提取多个用户浏览的媒体内容中的用户特征信息；根据用户特征信息将多个用户划分为至少一个聚类类别；训练与每个聚类类别对应的分类模型；判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型；当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，确定分类准确度大于预设准确度阈值的分类模型为目标分类模型，以及，与每个所述目标分类模型对应的用类为目标聚类类别。本公开提供的方法，能够构建用于对未知类别的用户进行分类目标聚类类别和目标分类模型，先聚类再建模，有效过滤掉难以区别类别的用户，减少噪音，分类准确度高。

Description

信息处理方法及装置

技术领域

本公开涉及大数据技术领域，尤其涉及一种信息处理方法及装置。

背景技术

当前的用户属性类别提取一般采用调查问卷、或者注册用户、或者数据交换等方式获得部分样本数据，在提取到用户特征后，会通过有监督的分类算法训练数据模型，数据模型训练完后，可以通过构建的数据模型预测未知属性的用户的用户属性类别。

然而，互联网的用户数据非常繁杂，可能会存在不同类别的用户具有极为相似的特征，比如某些视频用户，虽然有男有女，但他们共同喜好某几个类型的视频，这样可能会造成分类不准确；在有些用户的特征极为稀疏、而所有用户总的特征维度很大的情况时，对于一个用户可能大部分都是缺失特征，这也可能会影响分类的准确率。

发明内容

为克服相关技术中存在的问题，本公开提供一种信息处理方法及装置。

根据本公开实施例的第一方面，提供一种信息处理方法，包括：

提取多个用户浏览的媒体内容中的用户特征信息；

根据用户特征信息将多个用户划分为至少一个聚类类别；

训练与每个聚类类别对应的分类模型；

判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型；

当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，确定分类准确度大于预设准确度阈值的分类模型为目标分类模型，以及，与每个所述目标分类模型对应的用类为目标聚类类别。

可选地，所述方法还包括：

当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时，调整在将多个用户划分聚类类别时划分的聚类类别的数量，直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。

可选地，所述方法还包括：

当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。

可选地，所述方法还包括：

获取网络中多个用户的用户特征信息，以及，每个用户的标注属性信息；

利用多个用户的用户特征信息训练分类模型；

利用多个用户的标注属性信息测试每个分类模型；

根据测试结果，确定分类模型的分类准确度；

将所有分类模型准确度的平均值确定为预设准确度阈值。

根据本公开实施例的第二方面，提供一种信息处理方法，包括：

获取待分类用户浏览的媒体内容中的用户特征信息；

根据所述用户特征信息，将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别；

利用与目标聚类类别对应的预设分类模型对目标用户进行分类。

根据本公开实施例的第三方面，提供一种信息处理装置，包括：

第一获取模块，用于提取多个用户浏览的媒体内容中的用户特征信息；

划分模块，用于根据用户特征信息将多个用户划分为至少一个聚类类别；

第一训练模块，用于训练与每个聚类类别对应的分类模型；

判断模块，用于判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型；

第一确定模块，用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，确定分类准确度大于预设准确度阈值的分类模型为目标分类模型，以及，与每个所述目标分类模型对应的用类为目标聚类类别。

可选地，所述装置还包括：

调整模块，用于当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时，调整在将多个用户划分聚类类别时划分的聚类类别的数量，直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。

可选地，所述装置还包括：

第二确定模块，用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。

可选地，所述装置还包括：

第二获取模块，用于获取网络中多个用户的用户特征信息，以及，每个用户的标注属性信息；

第二训练模块，用于利用多个用户的用户特征信息训练分类模型；

测试模块，用于利用多个用户的标注属性信息测试每个分类模型；

第三确定模块，用于根据测试结果，确定分类模型的分类准确度；

第四确定模块，用于将所有分类模型准确度的平均值确定为预设准确度阈值。

根据本公开实施例的第四方面，提供一种信息处理装置，包括：

第三获取模块，用于获取待分类用户浏览的媒体内容中的用户特征信息；

第五确定模块，用于根据所述用户特征信息，将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别；

分类模块，用于利用与目标聚类类别对应的预设分类模型对目标用户进行分类。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开通过提取多个用户浏览的媒体内容中的用户特征信息；根据用户特征信息将多个用户划分为至少一个聚类类别；训练与每个聚类类别对应的分类模型；判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型；当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，确定分类准确度大于预设准确度阈值的分类模型为目标分类模型，以及，与每个所述目标分类模型对应的用类为目标聚类类别。

本公开提供的该方法，能够利用多个用户的用户特征信息训练分类模型，并在训练得到的多个分类模型中选择满足准确度要求和数量要求的分类模型作为目标分类模型，以及将与每个目标分类模型对应的聚类类别作为目标聚类类别，以便利用目标聚类类别和目标分类模型可以对未知类别的用户进行分类，先聚类再建模，有效过滤掉难以区别类别的用户，减少噪音，分类准确度高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种信息处理方法的一种流程图；

图2是根据一示例性实施例示出的一种信息处理方法的另一种流程图；

图3是根据一示例性实施例示出的一种信息处理方法的另一种流程图；

图4是根据一示例性实施例示出的一种信息处理方法的另一种流程图；

图5是根据一示例性实施例示出的一种信息处理方法的另一种流程图；

图6是根据一示例性实施例示出的一种信息处理装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示，在本公开的一个实施例中，提供一种信息处理方法，包括以下步骤。

在步骤S101中，提取多个用户浏览的媒体内容中的用户特征信息。

在该步骤中，可以提取预设数量个用户利用终端应用浏览媒体内容的记录，由于每个媒体内容一般会预先设置有一些标签信息，如导演、演员、年份、类型和剧情等等，因此可以获取媒体内容的标签信息作为用户特征，每个用户特征信息中可以包括多个用户特征，根据用户特征信息可以确定用户画像，用户画像包括基本的用户兴趣行为标签(比如喜欢的明星，喜欢的品牌等)，也包括用户属性(比如地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等)等。

在步骤S102中，根据用户特征信息将多个用户划分为至少一个聚类类别。

在该步骤中，可以利用K-means聚类算法、根据用户特征信息对用户进行聚类，将存在交集的用户特征信息对应的用户划分为一个聚类类别，例如，用户A的用户特征信息A中包括张艺谋和胡歌，用户B的用户特征信息B中包括霍建华和胡歌，用户C的用户特征信息C中包括樱桃小丸子和水冰月，那么可以将用户A和用户B划分到一个聚类类别中，这里的聚类类别是将用户进行粗粒度的分类得到的分类类别。

在步骤S103中，训练与每个聚类类别对应的分类模型。

在该步骤中，可以分别利用每个聚类类别中的用户特征信息训练至少一个分类模型，这里的分类模型可以为SVM分类模型，训练得到的分类模型可以进一步对用户进行分类，例如：聚类类别为70年代和80年代时，则训练出的分类模型可以分别对70年代的男和女进行分类，或者对80年代的本科以上学历或本科以下学历进行分类等等。

在步骤S104中，判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型。

在该步骤中，可以判断是否存在分类准确度大于预设准确度阈值的分类模型，但存在时，可以进一步判断分类准确度大于预设准确度阈值的分类模型的数量是否为预设数量个，预设数量个可以根据需要设定，如5个、10个等等。

当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，在步骤S105中，确定分类准确度大于预设准确度阈值的分类模型为目标分类模型，以及，与每个所述目标分类模型对应的用类为目标聚类类别。

本公开实施例提供的该方法，可以利用多个用户的用户特征信息训练分类模型，并在训练得到的多个分类模型中选择满足准确度要求和数量要求的分类模型作为目标分类模型，以及将与每个目标分类模型对应的聚类类别作为目标聚类类别，利用目标聚类类别和目标分类模型可以对未知类别的用户进行分类，先聚类再建模，有效过滤掉难以区别类别的用户，减少噪音，分类准确度高。

如图2所示，在本公开的一个实施例中，所述方法包括以下步骤。

在步骤S103中，训练与每个聚类类别对应的分类模型。

当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时，在步骤S201中，调整在将多个用户划分聚类类别时划分的聚类类别的数量，直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。

在该步骤中，可以在不存在分类准确度大于预设准确度阈值的分类模型，或者数量较少时，调整划分聚类类别时的聚类类别的数量，例如，当划分的聚类类别的数量为5个时，不存在分类准确度大于预设准确度阈值的分类模型，则可以增加分类类别的数量，如增加到10个等，当划分的聚类类别的数量为5个，预设数量个为3个时，至存在1个分类准确度大于预设准确度阈值的分类模型，则也可以增加分类类别的数量，如增加到8个等。

本公开实施例提供的该方法，能够在得到的分类模型的数量不满足数量要求或者准确度要求时，可以调整划分的聚类类别的数量，保证训练处的分类模型满足预设条件，保证用户分类正常进行。

如图3所示，在本公开的一个实施例中，所述方法还包括：

在步骤S103中，训练与每个聚类类别对应的分类模型。

当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，在步骤S105中，确定分类准确度大于预设准确度阈值的分类模型为目标分类模型，以及，与每个所述目标分类模型对应的用类为目标聚类类别；

在步骤S301中，将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。

在该步骤中，由于在实际应用中可能会存在一些用户特征信息中的每个用户特征可以归属于不同的聚类类型中，或者已被分到不同的聚类类别中，但是其他特征极为相似的用户特征的用户，对于这种情况，可以过滤掉这些用户，将这些用户确定为我们不感兴趣的无效用户。

本公开实施例提供的该方法，能够滤除噪音用户，增加分类准确度。

如图4所示，在本公开的又一实施例中，所述方法还包括以下步骤。

在步骤S401中，获取网络中多个用户的用户特征信息，以及，每个用户的标注属性信息。

在该步骤中，可以获取网络中的多个用户样本用户，获取这些样本用户的用户特征信息，并可以获取人为为这些样本用户设置的标注属性信息。

在步骤S402中，利用多个用户的用户特征信息训练分类模型。

在该步骤中，可以将多个用户的用户特征信息首先进行聚类，再分别对每个聚类类别训练分类模型，也可以直接根据多个用户的用户特征信息训练分类模型。

在步骤S403中，利用多个用户的标注属性信息测试每个分类模型。

在该步骤中，由于标注属性信息可以为准确的参考实例，所以可以利用标注属性信息测试每个分类模型，具体地，可以将用户的用户特征信息输入到训练好的分类模型中，之后看分类模型得到的分类结果是否与标注属性信息一致。

在步骤S404中，根据测试结果，确定分类模型的分类准确度。

在该步骤中，可以统计每个分类模型得到的分类结果与标注属性信息一致的测试结果占所有测试结果的比率，可以将这个比率作为分类模型的分类准确度。

在步骤S405中，将所有分类模型准确度的平均值确定为预设准确度阈值。

本公开实施例提供的该方法，能够精确的确定预设准确度阈值，便于将预设准确度阈值确定为分类模型是否满足预设条件的参照标准。

如图5所示，在本公开的又一实施例中，提供一种信息处理方法，包括以下步骤。

在步骤S501中，获取待分类用户浏览的媒体内容中的用户特征信息。

在该步骤中，待分类用户即为未知类别的用户，可以获取待分类用户利用终端应用浏览媒体内容的记录，可以获取媒体内容的标签信息作为用户特征，每个用户特征信息中可以包括多个用户特征。

在步骤S502中，根据所述用户特征信息，将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别。

在该步骤中，可以采用将用户特征信息与目标聚类类别进行比对等方式，再根据比对结果将用户分类到一个目标聚类类别中。

在步骤S503中，利用与目标聚类类别对应的预设分类模型对目标用户进行分类。

在该步骤中，可以将待分类用户的用户特征信息输入到与目标聚类类别对应的预设分类模型中，将预设分类模型输入的分类结果确定为用户的分类。

本公开实施例提供的该方法，能够对未知分类的用户进行分类，便于根据未知分类的用户的用户特征信息对用户进行分类，进而便于向用户推荐可能感兴趣的媒体内容等。

如图6所示，在本公开的又一实施例中，提供一种信息处理装置，包括：第一获取模块601、划分模块602、第一训练模块603、判断模块604和第一确定模块605。

第一获取模块601，用于提取多个用户浏览的媒体内容中的用户特征信息；

划分模块602，用于根据用户特征信息将多个用户划分为至少一个聚类类别；

第一训练模块603，用于训练与每个聚类类别对应的分类模型；

判断模块604，用于判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型；

第一确定模块605，用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时，确定分类准确度大于预设准确度阈值的分类模型为目标分类模型，以及，与每个所述目标分类模型对应的用类为目标聚类类别。

在本公开的又一实施例中，所述装置还包括：

在本公开的又一实施例中，提供一种信息处理装置，包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种信息处理方法，其特征在于，包括：

提取多个用户浏览的媒体内容中的用户特征信息；

根据用户特征信息将多个用户划分为至少一个聚类类别；

训练与每个聚类类别对应的分类模型；

2.根据权利要求1所述的信息处理方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的信息处理方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的信息处理方法，其特征在于，所述方法还包括：

利用多个用户的用户特征信息训练分类模型；

利用多个用户的标注属性信息测试每个分类模型；

根据测试结果，确定分类模型的分类准确度；

将所有分类模型准确度的平均值确定为预设准确度阈值。

5.一种信息处理方法，其特征在于，包括：

获取待分类用户浏览的媒体内容中的用户特征信息；

6.一种信息处理装置，其特征在于，包括：

第一训练模块，用于训练与每个聚类类别对应的分类模型；

7.根据权利要求6所述的信息处理装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的信息处理装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的信息处理装置，其特征在于，所述装置还包括：

10.一种信息处理装置，其特征在于，包括：