CN106503745A - 基于社交图片sift特征的上下文信息预测方法 - Google Patents

基于社交图片sift特征的上下文信息预测方法 Download PDF

Info

Publication number
CN106503745A
CN106503745A CN201610944511.8A CN201610944511A CN106503745A CN 106503745 A CN106503745 A CN 106503745A CN 201610944511 A CN201610944511 A CN 201610944511A CN 106503745 A CN106503745 A CN 106503745A
Authority
CN
China
Prior art keywords
picture
sift feature
user
forecasting methodology
contextual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610944511.8A
Other languages
English (en)
Inventor
王永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Evan Computer Technology Co Ltd
Original Assignee
Zhengzhou Evan Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Evan Computer Technology Co Ltd filed Critical Zhengzhou Evan Computer Technology Co Ltd
Priority to CN201610944511.8A priority Critical patent/CN106503745A/zh
Publication of CN106503745A publication Critical patent/CN106503745A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于社交图片SIFT特征的上下文信息预测方法,通过分析用户上传到移动互联网上的图片,预测用户的性别、发图习惯、影响力、活跃度以及使用终端等上下文信息。本发明预测准确度高,计算量少,能够在海量数据中提取有效实用的信息。

Description

基于社交图片SIFT特征的上下文信息预测方法
技术领域
本发明涉及一种移动互联网领域,具体的说是一种基于社交图片SIFT特征的上下文信息预测方法。
背景技术
在飞速发展的移动互联网时代,图像简明形象的时代特性,使其成为人们表达情感的重要载体。用户的上下文信息在移动互联网应用中扮演着重要角色,它反映了用户的各种基本信息。在移动互联网时代,图像与用户上下文信息关系密切,能够在一定程度上反映发图用户的基本特征。用户上下文信息预测就是通过分析用户上传到移动互联网上的图片来预测用户的性别、发图习惯、影响力、活跃度以及使用终端等上下文信息。
目前根据图像特征进行预测的技术多是从全局特征出发,通过灰度矩阵、颜色矩阵等得到数字特征来进行预测。如果是对图像的整体进行研究,而不太关注图片隐含的背景信息,使用全局特征比较合适。但是如果要预测用户的上下文信息,需要辨识图片的前景和背景,使用全局特征得到的预测准确率不高,因此提取图片的局部特征更为合适。而且之前的技术研究的图像多是人工分类过或标记过的,但是大数据背景下社交网络上的图片更多是没有被标记的。因此本发明主要通过对用户上传到移动互联网的未处理的社交图片的局部特征进行研究,提取图片的SIFT特征,对提取的特征进行聚类,采用的聚类算法是K-Means++算法;然后对用户的上下文信息进行分类预测,采取的分类方法是GBDT(GradientBoosting Decision Tree)算法和SVM(Support Vector Machine)算法。
发明内容
本发明的目的在于克服上述不足,提供一种基于社交图片SIFT特征的上下文信息预测方法,通过分析用户上传到移动互联网上的图片,预测用户的性别、发图习惯、影响力、活跃度以及使用终端等上下文信息。
本发明的目的是这样实现的:基于社交图片SIFT特征的上下文信息预测方法,
从OSNs(Online Social Networks)和移动互联网获取用户在移动互联网上传的图片数据,记录每张图片的相关信息;
对获取到的图片进行预处理,然后提取图片的局部特征SIFT特征:分别检测、精确定位每张图片的尺度空间极值点、确定关键点的位置和尺度,指定关键点方向参数,生成图片SIFT特征向量由于不同用户发表的图片一般具有不同的局部特征,同一类型的用户发表的图片具有相似的局部特征,故本发明以此为依据来预测用户的上下文信息;
构建SIFT特征向量池,并对SIFT特征池中的特征向量进行聚类,得到相似特征的聚类中心,通过特征原型和聚类中心,计算得到用户级别的特征向量;
学习用户级别特征向量建立训练数据,采用SVM和GBDT模型实现对用户的上下文信息的分类预测,本发明将用户的性别(男/女)、发图习惯(高峰期/平常期)、影响力(高/低)、活跃度(活跃/不活跃)、使用终端(手机/电脑)等作为二分类问题处理。
本发明的优点在于:
本发明研究的图片是未标记的,符合当前大数据下信息量大、杂的特征,有助于在海量数据中提取有效实用的信息;
本发明提取的是图片的局部特征,降低了图片携带的信息,减少了计算量。预测准确度较高;
通过特征原型和聚类中心(分类原型),计算得到描述用户的特征向量,生成数据集,使得预测速度和性能得到提升。
附图说明
图1为本发明的基于社交图片SIFT特征的上下文信息预测方法的流程图;
图2为本发明的数据集预测用户上下文信息的算法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
本发明为基于社交图片SIFT特征的上下文信息预测方法,包括以下步骤:
步骤1、获取用户上下文信息和图片特征数据集,;
步骤2、采用十字交叉验证法将数据集分为训练集和测试集;
步骤3、将训练集训练SVM和GBDT分类模型,以供预测时使用,其中SVM采用RBF核函数;
步骤4、用训练好的SVM模型和GBDT模型分别预测测试集的数据,对于用SVM训练出的分类模型,使用SVM预测算法测试测试集,对于用GBDT训练出的分类模型,使用GBDT预测算法测试测试集,分类模型包括性别分类模型、活跃度分类模型、影响力分类模型和使用终端分类模型;
步骤5、对测试样本的预测测试结果进行输出,并比较得出最终预测结果。
其中,获取用户上下文信息和图片特征数据集的方法包括以下步骤:
步骤101、获取用户上传到移动互联网上的图片,获取发图用户的基本信息,用户基本信息包括用户的ID、性别、活跃度、发图习惯、影响力和使用终端类型;
步骤102、收集并记录所述图片的相关信息和图片对应的用户上下文信息;
步骤103、图片预处理,提取图片的SIFT特征:将下载到的图片进行预处理操作,构建尺度空间,使用高斯核和高斯微分建立高斯金字塔,检测尺度空间的极值点,精确定位极值点,确定关键点的位置、尺度和主方向,生成128维的SIFT特征向量;
步骤104、构建SIFT特征池:对每张图片的SIFT特征向量进行统计分析:总共有n个用户,每个用户发p张图片,将提取的所有图片的SIFT特征向量拼接构成SIFT特征池P;
步骤105、聚类:对SIFT特征池中的特征向量采用K-Means++算法进行聚类,得到C个聚类中心,Ci对应一个用户分类原型;
步骤106、构建特征向量,生成数据集:对于给定的一个用户,fj表示从图片中提取的第j个SIFT特征,若与fj最接近的分类原型是Ci,则用户对应的该分类原型增加1。由此计算得到描述用户的特征向量,生成数据集。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本申请所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本申请型的保护范围之中。

Claims (5)

1.基于社交图片SIFT特征的上下文信息预测方法,其特征在于,包括以下步骤:
步骤1、获取用户上下文信息和图片特征数据集;
步骤2、采用十字交叉验证法将数据集分为训练集和测试集;
步骤3、将训练集训练SVM和GBDT分类模型,以供预测时使用;
步骤4、用训练好的SVM模型和GBDT模型分别预测测试集的数据,对于用SVM训练出的分类模型,使用SVM预测算法测试测试集,对于用GBDT训练出的分类模型,使用GBDT预测算法测试测试集;
步骤5、对测试样本的预测测试结果进行输出,并比较得出最终预测结果。
2.根据权利要求1所述的基于社交图片SIFT特征的上下文信息预测方法,其特征在于,所述获取用户上下文信息和图片特征数据集的方法包括以下步骤:
步骤101、获取用户上传到移动互联网上的图片,获取发图用户的基本信息;
步骤102、收集并记录所述图片的相关信息和图片对应的用户上下文信息;
步骤103、图片预处理,提取图片的SIFT特征:将下载到的图片进行预处理操作,构建尺度空间,使用高斯核和高斯微分建立高斯金字塔,检测尺度空间的极值点,精确定位极值点,确定关键点的位置、尺度和主方向,生成128维的SIFT特征向量;
步骤104、构建SIFT特征池:对每张图片的SIFT特征向量进行统计分析:总共有n个用户,每个用户发p张图片,将提取的所有图片的SIFT特征向量拼接构成SIFT特征池P;
步骤105、聚类:对SIFT特征池中的特征向量采用K-Means++算法进行聚类,得到C个聚类中心,Ci对应一个用户分类原型;
步骤106、构建特征向量,生成数据集:对于给定的一个用户,fj表示从图片中提取的第j个SIFT特征,若与fj最接近的分类原型是Ci,则用户对应的该分类原型增加1;由此计算得到描述用户的特征向量,生成数据集。
3.根据权利要求1所述的基于社交图片SIFT特征的上下文信息预测方法,其特征在于,所述SVM采用RBF核函数。
4.根据权利要求2所述的基于社交图片SIFT特征的上下文信息预测方法,其特征在于,所述用户基本信息包括用户的ID、性别、活跃度、发图习惯、影响力和使用终端类型。
5.根据权利要求4所述的基于社交图片SIFT特征的上下文信息预测方法,其特征在于,所述分类模型包括性别分类模型、活跃度分类模型、影响力分类模型和使用终端分类模型。
CN201610944511.8A 2016-10-26 2016-10-26 基于社交图片sift特征的上下文信息预测方法 Pending CN106503745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610944511.8A CN106503745A (zh) 2016-10-26 2016-10-26 基于社交图片sift特征的上下文信息预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610944511.8A CN106503745A (zh) 2016-10-26 2016-10-26 基于社交图片sift特征的上下文信息预测方法

Publications (1)

Publication Number Publication Date
CN106503745A true CN106503745A (zh) 2017-03-15

Family

ID=58320960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610944511.8A Pending CN106503745A (zh) 2016-10-26 2016-10-26 基于社交图片sift特征的上下文信息预测方法

Country Status (1)

Country Link
CN (1) CN106503745A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111024557A (zh) * 2019-12-20 2020-04-17 广州博依特智能信息科技有限公司 一种纸页吸水性软测量方法
WO2020118554A1 (en) * 2018-12-12 2020-06-18 Paypal, Inc. Binning for nonlinear modeling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140072182A1 (en) * 2008-03-20 2014-03-13 Facebook, Inc. Relationship Mapping Employing Multi-Dimensional Context Including Facial Recognition
CN104392007A (zh) * 2014-12-18 2015-03-04 西安电子科技大学宁波信息技术研究院 一种智能移动终端的街景检索与识别方法
CN104573048A (zh) * 2015-01-20 2015-04-29 电子科技大学 一种基于智能手机流量数据的用户基础属性预测方法
CN105279266A (zh) * 2015-10-26 2016-01-27 电子科技大学 一种基于移动互联网社交图片预测用户上下文信息的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140072182A1 (en) * 2008-03-20 2014-03-13 Facebook, Inc. Relationship Mapping Employing Multi-Dimensional Context Including Facial Recognition
CN104392007A (zh) * 2014-12-18 2015-03-04 西安电子科技大学宁波信息技术研究院 一种智能移动终端的街景检索与识别方法
CN104573048A (zh) * 2015-01-20 2015-04-29 电子科技大学 一种基于智能手机流量数据的用户基础属性预测方法
CN105279266A (zh) * 2015-10-26 2016-01-27 电子科技大学 一种基于移动互联网社交图片预测用户上下文信息的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YILEI WANG ET AL.: "User Context Information Prediction Based on the Mobile Internet Social Pictures", 《2016 2ND IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATION》 *
姜小会: "基于特征点的图像拼接技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020118554A1 (en) * 2018-12-12 2020-06-18 Paypal, Inc. Binning for nonlinear modeling
US11755959B2 (en) 2018-12-12 2023-09-12 Paypal, Inc. Binning for nonlinear modeling
CN111024557A (zh) * 2019-12-20 2020-04-17 广州博依特智能信息科技有限公司 一种纸页吸水性软测量方法

Similar Documents

Publication Publication Date Title
US12079696B2 (en) Machine learning model training method and device, and expression image classification method and device
Zhou et al. Personalized learning full-path recommendation model based on LSTM neural networks
US10936906B2 (en) Training data acquisition method and device, server and storage medium
CN109389037B (zh) 一种基于深度森林和迁移学习的情感分类方法
CN112765480B (zh) 一种信息推送方法、装置及计算机可读存储介质
WO2019062414A1 (zh) 应用程序管控方法、装置、存储介质及电子设备
Katakis et al. An ensemble of classifiers for coping with recurring contexts in data streams
CN110119477B (zh) 一种信息推送方法、装置和存储介质
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN111973996B (zh) 一种游戏资源投放方法和装置
Mo et al. Image feature learning for cold start problem in display advertising
CN113536922A (zh) 一种加权融合多种图像任务的视频行为识别方法
CN107609147A (zh) 一种从日志流中自动提取特征的方法和系统
Lin et al. Rumor detection with hierarchical recurrent convolutional neural network
CN109086794A (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN107392311A (zh) 序列切分的方法和装置
Zhang et al. Group sparse-based mid-level representation for action recognition
CN113435335A (zh) 微观表情识别方法、装置、电子设备及存储介质
Alotaibi et al. Performance comparison and analysis for large-scale crowd counting based on convolutional neural networks
Kong et al. Real‐time facial expression recognition based on iterative transfer learning and efficient attention network
CN106503745A (zh) 基于社交图片sift特征的上下文信息预测方法
Zhang et al. Application of gesture recognition based on simulated annealing bp neural network
CN112862021B (zh) 一种内容标注方法和相关装置
Xu et al. Research on context-aware group recommendation based on deep learning
CN109933741B (zh) 用户网络行为特征提取方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315

RJ01 Rejection of invention patent application after publication