CN106503745A

CN106503745A - 基于社交图片sift特征的上下文信息预测方法

Info

Publication number: CN106503745A
Application number: CN201610944511.8A
Authority: CN
Inventors: 王永
Original assignee: Zhengzhou Evan Computer Technology Co Ltd
Current assignee: Zhengzhou Evan Computer Technology Co Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-15

Abstract

本发明提供了一种基于社交图片SIFT特征的上下文信息预测方法，通过分析用户上传到移动互联网上的图片，预测用户的性别、发图习惯、影响力、活跃度以及使用终端等上下文信息。本发明预测准确度高，计算量少，能够在海量数据中提取有效实用的信息。

Description

基于社交图片SIFT特征的上下文信息预测方法

技术领域

本发明涉及一种移动互联网领域，具体的说是一种基于社交图片SIFT特征的上下文信息预测方法。

背景技术

在飞速发展的移动互联网时代，图像简明形象的时代特性，使其成为人们表达情感的重要载体。用户的上下文信息在移动互联网应用中扮演着重要角色，它反映了用户的各种基本信息。在移动互联网时代，图像与用户上下文信息关系密切，能够在一定程度上反映发图用户的基本特征。用户上下文信息预测就是通过分析用户上传到移动互联网上的图片来预测用户的性别、发图习惯、影响力、活跃度以及使用终端等上下文信息。

目前根据图像特征进行预测的技术多是从全局特征出发，通过灰度矩阵、颜色矩阵等得到数字特征来进行预测。如果是对图像的整体进行研究，而不太关注图片隐含的背景信息，使用全局特征比较合适。但是如果要预测用户的上下文信息，需要辨识图片的前景和背景，使用全局特征得到的预测准确率不高，因此提取图片的局部特征更为合适。而且之前的技术研究的图像多是人工分类过或标记过的，但是大数据背景下社交网络上的图片更多是没有被标记的。因此本发明主要通过对用户上传到移动互联网的未处理的社交图片的局部特征进行研究，提取图片的SIFT特征，对提取的特征进行聚类，采用的聚类算法是K-Means++算法；然后对用户的上下文信息进行分类预测，采取的分类方法是GBDT（GradientBoosting Decision Tree）算法和SVM（Support Vector Machine）算法。

发明内容

本发明的目的在于克服上述不足，提供一种基于社交图片SIFT特征的上下文信息预测方法，通过分析用户上传到移动互联网上的图片，预测用户的性别、发图习惯、影响力、活跃度以及使用终端等上下文信息。

本发明的目的是这样实现的：基于社交图片SIFT特征的上下文信息预测方法，

从OSNs（Online Social Networks）和移动互联网获取用户在移动互联网上传的图片数据，记录每张图片的相关信息；

对获取到的图片进行预处理，然后提取图片的局部特征SIFT特征：分别检测、精确定位每张图片的尺度空间极值点、确定关键点的位置和尺度，指定关键点方向参数，生成图片SIFT特征向量由于不同用户发表的图片一般具有不同的局部特征，同一类型的用户发表的图片具有相似的局部特征，故本发明以此为依据来预测用户的上下文信息；

构建SIFT特征向量池，并对SIFT特征池中的特征向量进行聚类，得到相似特征的聚类中心，通过特征原型和聚类中心，计算得到用户级别的特征向量；

学习用户级别特征向量建立训练数据，采用SVM和GBDT模型实现对用户的上下文信息的分类预测，本发明将用户的性别（男/女）、发图习惯（高峰期/平常期）、影响力（高/低）、活跃度（活跃/不活跃）、使用终端（手机/电脑）等作为二分类问题处理。

本发明的优点在于：

本发明研究的图片是未标记的，符合当前大数据下信息量大、杂的特征，有助于在海量数据中提取有效实用的信息；

本发明提取的是图片的局部特征，降低了图片携带的信息，减少了计算量。预测准确度较高；

通过特征原型和聚类中心（分类原型），计算得到描述用户的特征向量，生成数据集，使得预测速度和性能得到提升。

附图说明

图1为本发明的基于社交图片SIFT特征的上下文信息预测方法的流程图；

图2为本发明的数据集预测用户上下文信息的算法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

本发明为基于社交图片SIFT特征的上下文信息预测方法，包括以下步骤：

步骤1、获取用户上下文信息和图片特征数据集，；

步骤2、采用十字交叉验证法将数据集分为训练集和测试集；

步骤3、将训练集训练SVM和GBDT分类模型，以供预测时使用，其中SVM采用RBF核函数；

步骤4、用训练好的SVM模型和GBDT模型分别预测测试集的数据，对于用SVM训练出的分类模型，使用SVM预测算法测试测试集，对于用GBDT训练出的分类模型，使用GBDT预测算法测试测试集，分类模型包括性别分类模型、活跃度分类模型、影响力分类模型和使用终端分类模型；

步骤5、对测试样本的预测测试结果进行输出，并比较得出最终预测结果。

其中，获取用户上下文信息和图片特征数据集的方法包括以下步骤：

步骤101、获取用户上传到移动互联网上的图片，获取发图用户的基本信息，用户基本信息包括用户的ID、性别、活跃度、发图习惯、影响力和使用终端类型；

步骤102、收集并记录所述图片的相关信息和图片对应的用户上下文信息；

步骤103、图片预处理，提取图片的SIFT特征：将下载到的图片进行预处理操作，构建尺度空间，使用高斯核和高斯微分建立高斯金字塔，检测尺度空间的极值点，精确定位极值点，确定关键点的位置、尺度和主方向，生成128维的SIFT特征向量；

步骤104、构建SIFT特征池：对每张图片的SIFT特征向量进行统计分析：总共有n个用户，每个用户发p张图片，将提取的所有图片的SIFT特征向量拼接构成SIFT特征池P；

步骤105、聚类：对SIFT特征池中的特征向量采用K-Means++算法进行聚类，得到C个聚类中心，C_i对应一个用户分类原型；

步骤106、构建特征向量，生成数据集：对于给定的一个用户，f_j表示从图片中提取的第j个SIFT特征，若与f_j最接近的分类原型是Ci，则用户对应的该分类原型增加1。由此计算得到描述用户的特征向量，生成数据集。

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本申请所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本申请型的保护范围之中。

Claims

1.基于社交图片SIFT特征的上下文信息预测方法，其特征在于，包括以下步骤：

步骤1、获取用户上下文信息和图片特征数据集；

步骤2、采用十字交叉验证法将数据集分为训练集和测试集；

步骤3、将训练集训练SVM和GBDT分类模型，以供预测时使用；

步骤4、用训练好的SVM模型和GBDT模型分别预测测试集的数据，对于用SVM训练出的分类模型，使用SVM预测算法测试测试集，对于用GBDT训练出的分类模型，使用GBDT预测算法测试测试集；

2.根据权利要求1所述的基于社交图片SIFT特征的上下文信息预测方法，其特征在于，所述获取用户上下文信息和图片特征数据集的方法包括以下步骤：

步骤101、获取用户上传到移动互联网上的图片，获取发图用户的基本信息；

步骤106、构建特征向量，生成数据集：对于给定的一个用户，f_j表示从图片中提取的第j个SIFT特征，若与f_j最接近的分类原型是Ci，则用户对应的该分类原型增加1；由此计算得到描述用户的特征向量，生成数据集。

3.根据权利要求1所述的基于社交图片SIFT特征的上下文信息预测方法，其特征在于，所述SVM采用RBF核函数。

4.根据权利要求2所述的基于社交图片SIFT特征的上下文信息预测方法，其特征在于，所述用户基本信息包括用户的ID、性别、活跃度、发图习惯、影响力和使用终端类型。

5.根据权利要求4所述的基于社交图片SIFT特征的上下文信息预测方法，其特征在于，所述分类模型包括性别分类模型、活跃度分类模型、影响力分类模型和使用终端分类模型。