CN107368534B - 一种预测社交网络用户属性的方法 - Google Patents
一种预测社交网络用户属性的方法 Download PDFInfo
- Publication number
- CN107368534B CN107368534B CN201710475429.XA CN201710475429A CN107368534B CN 107368534 B CN107368534 B CN 107368534B CN 201710475429 A CN201710475429 A CN 201710475429A CN 107368534 B CN107368534 B CN 107368534B
- Authority
- CN
- China
- Prior art keywords
- user
- attributes
- social network
- attribute
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种预测社交网络用户属性的方法,包括以下步骤:步骤1)采集社交网络信息数据,并对数据进行清洗,获得社交网络清洗后的数据,步骤2)定义社交网络图模型;步骤3)对数据进行分析,步骤4)对数据进行特征提取,步骤5)采用局部全局一致性算法预测隐藏属性,步骤6)获得预测结果。本发明提高了社会网络用户的属性的预测准确性,使用通用的半监督学习框架,来推断用户的属性。根据用户的数据类型建立训练模型,使用基于图的协同训练模型,推断用户的属性。本发明能够让社交网络用户拥有更好的使用体验,帮助系统更精准地自动为用户进行分组、内容共享和推荐朋友。
Description
技术领域
本发明涉及社交网络用户属性预测方法,主要是从全局角度建立一个机器学习模型来优化推测模型的准确性,属于计算机技术、信息技术、人工智能技术交叉技术应用领域。
背景技术
半监督预测模型是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的意义。半监督学习算法利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。
发明内容
本发明目的是提供一种预测社交网络用户属性的方法,以解决社会网络用户的属性的预测问题,使用通用的半监督学习框架,根据用户的数据类型建立训练模型,使用基于图的协同训练模型,推断用户的属性。
本发明为解决上述技术问题采用以下技术方案:
一种预测社交网络用户属性的方法,包括以下步骤:
步骤1)采集社交网络信息数据,并对数据进行清洗,获得社交网络清洗后的数据,具体步骤如下:
步骤11)将同一用户的属性封装成一个类,将值为字符串的,每个字符串分配一个唯一的数字ID,将包含地点的转化为经纬度表示;
步骤12)去除不具备分类能力的属性;
步骤13)将属性少于60个的用户删除,选择一个用户的属性有多个值的,提取排在其最前面的值;
步骤2)定义社交网络图模型,具体步骤如下:
步骤21)定义社交网络图G=(V,E),其中,V为节点,表示用户;E为边,表示用户间的关系;
步骤23)定义Dc为标记过的数据集,定义Lc为标记过的数据集Dc对应的标签集,其中,Dc=(d1,d2,...,dl),di∈D,i∈(1,2,...,l),Lc=(L1,L2,...,Ll),Li∈τ,i∈(1,2,...,l),D为数据集,τ为标签集,l为标记过的标签集;
步骤24)定义Du为未标记过的数据集,定义Lu为未标记过的标签集,其中,Du=(d1+l,d2+l,...,dq),Lu=(L1+l,L2+l,...,Lq),q为标签的数量;
步骤3)对数据进行分析,具体步骤如下:
步骤31)计算用户属性相同时成为朋友的概率Sa,其中,ai,ak∈A,i,k∈(1,2,...,n),A为所有用户的属性的集和;E为用户间关系的集合,s.t.表示受约束于,是subjectto的缩写;
步骤4)对数据进行特征提取,具体步骤如下:
其中,M为属性集合的大小;Si为用户i属性相同时为朋友的概率,Pi为属性值的第i个相同时成为朋友的经验概率Pi,S为要预测的属性,|Sx|为属性为x的用户成为朋友的概率;
步骤42)选取增益比的值最大的三个属性作为用来预测的训练属性;
步骤5)采用局部全局一致性算法预测隐藏属性,具体步骤如下:
步骤51)对于每个Vi,Vj∈V,i,j={1,2,...,n},计算相似度d(i,j),其中,为属性相似度,为组相似度,为关系相似度,Ai和Aj为用户i和j的属性集,为Ai的逆矩阵,Gi和Gj为用户i和j所在的组,r为用户i和j建立联系所经过的用户数;
步骤52)初始化相似W矩阵为0,对于所有i,j=(1,2,...,n),如果i不等于j,计算wij,当vi,vj∈V且Li=Lj,i,j={1,2,...,l}时,wij=0;当vi,vj∈V且Li≠Lj,i,j={1,2,...l}时,wij=1;其他情况Li和Lj用户i和j的标签,vi和vj便是用户i和j的节点,d(i,j)为用户i和j的相似度,σ为相似度的平均值,n为用户的个数;
步骤56)判断是否收敛,如果收敛,结束循环,否则,t=t+1,执行步骤55);
步骤6)获得预测结果,步骤如下:
步骤62)将得到的集合V添加到最终解空间Solution,集合V是预测结果。
步骤11)中,采集社交网络信息数据时,忽略人数少于30的社交网络组织。
步骤12)中,不具备分类能力的属性是指具有特殊或唯一的值。
有益效果:本发明将用户已知属性定义成图结构,使用一个机器学习方法来预测用户的属性,选择一个局部全局一致性算法作为分类器,通过迭代来提高准确度。本发明提高了社会网络用户的属性的预测准确性,使用通用的半监督学习框架,来推断用户的属性。根据用户的数据类型建立训练模型,使用基于图的协同训练模型,推断用户的属性。本发明能够让社交网络用户拥有更好的使用体验,帮助系统更精准地自动为用户进行分组、内容共享和推荐朋友。
本发明与现有技术相比,具有以下有益效果:
1)本发明通过分析已有数据,能够预测出隐藏属性的值。
2)本发明采用了半监督学习算法来预测社交网络用户的隐藏属性,能够不断的进行学习,使用潜在的数据信息。
附图说明
图1是预测社交网络用户属性方法流程。
具体实施方式
下面对本发明使用的预测社交网络用户属性方法具体实施例作更详细的描述。
根据附图1所示预测社交网络用户属性方法流程,发明具体实施方式为:
采用爬虫或API来采集社交网络信息,采集的策略一般采用广度优先。将采集的数据封装好,保存为便于处理的格式,将同一用户的属性封装成一个类,将值为字符串的,每个字符串分配一个唯一的数字ID,将包含地点的转化为经纬度表示,忽略人比较少的组织,一般忽略人数少于30的组织。在具体实施中,删除不具备分类能力的属性。每个用户都有一个唯一的“QQ”号码、移动电话号码等,这些属性只分配特殊(或唯一)的值,因此不具备分类能力,所以不选择这些属性。将属性少于60个的用户删除,选择一个用户的属性有多个值的,提取排在其最前面的值。
在上述获取数据并对数据进行清理之后,定义社交网络图G=(V,E)、建立标记过的数据集Dc和标记过的标签集Lc和未标记过的数据集Du和未标记过的标签集Lu。V为节点,表示用户;E为边,表示用户间存在关系;对于表示用户i的节点Vi,Vi∈V,i={1,2,3....,n},用一个向量Ai表示用户i的属性,m为用户i的属性数,为用户i的第j个属性,所述Dc=(d1,d2,...,dl),di∈D,i∈(1,2,...,l),所述Lc=(L1,L2,...,Ll),Li∈τ,i∈(1,2,...,l),D为数据集,τ为标签集,l为标记过的标签集里标签的数量。建立未标记过的数据集Du和未标记过的标签集Lu,Du=(d1+l,d2+l,...,dn),Lu=(L1+l,L2+l,...,Ln),n为标签的数量。
现在给定图G=(V,E)和标签集Dc=(d1,d2,...,dl),需要预测未标记过的数据集V为节点,表示用户;E为边,表示用户间存在关系;L1+l,L2+l,...,Ln∈τ,di∈D,i∈(1,2,...,l),D为数据集,τ为标签集,l为标记过的标签集里标签的数量,n为标签的数量。
下面对数据进行分析。在具体实施中,计算用户属性相同时成为朋友的概率Sa、属性值相同时成为朋友的经验概率Pa和属性的密切度Ca, 这里E为用户间关系的集合,s.t.表示受约束于,Ti为在属性a中,值为第i个值的个数,k为属性a的值的个数,a∈A,Sa为用户属性相同时为朋友的概率,Pa为属性值相同时成为朋友的经验概率。
在数据进行分析之后,对数据进行特征提取,计算数据的信息熵Entropy(S)、信息增益Gain(S,a)、分裂情Split(S,a)和增益比GainRatio(S,a),通过这些评价值,来选取需要的特征和需要预测的特征, 所述这里M为属性集合的大小,Si为用户i属性相同时为朋友的概率,Pi为属性值的第i个相同时成为朋友的经验概率Pi,S为要预测的属性,|Sx|为属性为x的用户成为朋友的概率。在具体实施中,选取增益比的值最大的三个属性作为用来预测的训练属性。
下面采用局部全局一致性算法预测隐藏属性,具体实施过程如下:
(1)对于每个Vi,Vj∈V,i,j={1,2,...,n},计算相似度d(i,j), 为属性相似度;为组相似度;为关系相似度;述Ai和Aj为用户i和j的属性集,为Ai的逆矩阵,Gi和Gj为用户i和j所在的组,r为用户i和j建立联系所经过的用户数。
(2)初始化相似W矩阵为0,对于所有i,j=(1,2,...,n),如果i不等于j,计算wij,当vi,vj∈V且Li=Lj,i,j={1,2,...,l}时,wij=0;当vi,vj∈V且Li≠Lj,i,j={1,2,...l}时,wij=1;其他情况Li和Lj用户i和j的标签,vi和vj便是用户i和j的节点,d(i,j)为用户i和j的相似度,σ为相似度的平均值。接着初始化对角矩阵D,计算要预测的矩阵S,并初始化初始化迭代次数t=0,选择α∈[0,1),l为标记过的标签集。
Claims (5)
1.一种预测社交网络用户属性的方法,其特征在于:包括以下步骤:
步骤1)采集社交网络信息数据,并对数据进行清洗,获得社交网络清洗后的数据,具体步骤如下:
步骤11)将同一用户的属性封装成一个类,将值为字符串的,每个字符串分配一个唯一的数字ID,将包含地点的转化为经纬度表示;
步骤12)去除不具备分类能力的属性;
步骤13)将属性少于60个的用户删除,选择一个用户的属性有多个值的,提取排在其最前面的值;
步骤2)定义社交网络图模型,具体步骤如下:
步骤21)定义社交网络图G=(V,E),其中,V为节点,表示用户;E为边,表示用户间的关系;
步骤23)定义Dc为标记过的数据集,定义Lc为标记过的数据集Dc对应的标签集,其中,Dc=(d1,d2,...,dl),di∈D,i∈(1,2,...,l),Lc=(L1,L2,...,Ll),Li∈τ,i∈(1,2,...,l),D为数据集,τ为标签集,l为标记过的标签集;
步骤24)定义Du为未标记过的数据集,定义Lu为未标记过的标签集,其中,Du=(d1+l,d2+l,...,dq),Lu=(L1+l,L2+l,...,Lq),q为标签的数量;
步骤3)对数据进行分析,具体步骤如下:
步骤31)计算用户属性相同时成为朋友的概率Sa,其中,ai,ak∈A,i,k∈(1,2,...,n),A为所有用户的属性的集和;E为用户间关系的集合,s.t.表示受约束于,是subject to的缩写;
步骤4)对数据进行特征提取,具体步骤如下:
步骤41)计算数据的信息熵Entropy(S)、信息增益Gain(S,a)、分裂情况Split(S,a)和增益比GainRatio(S,a),通过这些评价值,来选取需要的特征和需要预测的特征,
其中,M为属性集合的大小;Si为与用户i属性相同时为朋友的预测结果,Pi为属性值的第i个相同时成为朋友的经验概率Pi,S为预测结果;|Qx|为属性的值为x的用户成为朋友的概率;
步骤42)选取增益比的值最大的三个属性作为用来预测的训练属性;
步骤5)采用局部全局一致性算法预测隐藏属性,具体步骤如下:
步骤51)对于每个Vi,Vj∈V,i,j={1,2,...,n},计算相似度d(i,j),其中,为属性相似度,为组相似度,为关系相似度,Ai和Aj为用户i和j的属性集,为Ai的逆矩阵,Gi和Gj为用户i和j所在的组,r为用户i和j建立联系所经过的用户数;
步骤52)初始化相似-矩阵W为0,对于所有i,j=(1,2,...,n),如果i不等于j,计算wij,当vi,vj∈V且Li=Lj,i,j={1,2,...,l}时,wij=0;当vi,vj∈V且Li≠Lj,i,j={1,2,...l}时,wij=1;其他情况Li和Lj分别为用户i和j的标签,vi和vj便是用户i和j的节点,d(i,j)为用户i和j的相似度,σ为相似度的平均值,n为用户的个数;
步骤56)判断是否收敛,如果收敛,结束循环,否则,t=t+1,执行步骤55);
步骤6)获得预测结果,步骤如下:
步骤62)将得到的集合S添加到最终解空间Solution,集合S是预测结果。
2.根据权利要求1所述的预测社交网络用户属性的方法,其特征在于:步骤1)中,采用爬虫或API来采集社交网络信息,采集的策略为广度优先。
3.根据权利要求1所述的预测社交网络用户属性的方法,其特征在于:步骤11)中,采集社交网络信息数据时,忽略人数少于30的社交网络组织。
4.根据权利要求1所述的预测社交网络用户属性的方法,其特征在于:步骤12)中,不具备分类能力的属性是指具有特殊或唯一的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475429.XA CN107368534B (zh) | 2017-06-21 | 2017-06-21 | 一种预测社交网络用户属性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475429.XA CN107368534B (zh) | 2017-06-21 | 2017-06-21 | 一种预测社交网络用户属性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107368534A CN107368534A (zh) | 2017-11-21 |
CN107368534B true CN107368534B (zh) | 2020-06-12 |
Family
ID=60305601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710475429.XA Active CN107368534B (zh) | 2017-06-21 | 2017-06-21 | 一种预测社交网络用户属性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368534B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943943B (zh) * | 2017-11-23 | 2020-11-03 | 北京小度信息科技有限公司 | 用户相似度的确定方法、装置、电子设备及存储介质 |
CN108628967B (zh) * | 2018-04-23 | 2020-07-28 | 西安交通大学 | 一种基于学习生成网络相似度的网络学习群组划分方法 |
CN108921189B (zh) * | 2018-05-23 | 2021-05-18 | 北京航空航天大学 | 针对社交网络用户属性的推演方法及装置 |
CN109710917B (zh) * | 2018-11-19 | 2020-05-12 | 南京财经大学 | 一种基于印象矩阵的朋友圈隐藏情感分析方法 |
CN110162692B (zh) * | 2018-12-10 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备和存储介质 |
CN109902216A (zh) * | 2019-03-04 | 2019-06-18 | 桂林电子科技大学 | 一种基于社交网络的数据采集与分析方法 |
CN111738447B (zh) * | 2020-06-22 | 2022-07-29 | 东华大学 | 基于时空关系学习的移动社交网络用户关系推断方法 |
CN112507247B (zh) * | 2020-12-15 | 2022-09-23 | 重庆邮电大学 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
CN116992494B (zh) * | 2023-09-27 | 2023-12-08 | 四川启明芯智能科技有限公司 | 一种用于景区数据流通的安全保护方法、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103795613A (zh) * | 2014-01-16 | 2014-05-14 | 西北工业大学 | 一种在线社交网络中朋友关系预测的方法 |
CN104081385A (zh) * | 2011-04-29 | 2014-10-01 | 汤姆森路透社全球资源公司 | 从文档表示信息 |
CN105653518A (zh) * | 2015-12-25 | 2016-06-08 | 北京理工大学 | 一种基于微博数据的特定群体发现及扩充方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149177A1 (en) * | 2012-11-23 | 2014-05-29 | Ari M. Frank | Responding to uncertainty of a user regarding an experience by presenting a prior experience |
US9946798B2 (en) * | 2015-06-18 | 2018-04-17 | International Business Machines Corporation | Identification of target audience for content delivery in social networks by quantifying semantic relations and crowdsourcing |
-
2017
- 2017-06-21 CN CN201710475429.XA patent/CN107368534B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104081385A (zh) * | 2011-04-29 | 2014-10-01 | 汤姆森路透社全球资源公司 | 从文档表示信息 |
CN103795613A (zh) * | 2014-01-16 | 2014-05-14 | 西北工业大学 | 一种在线社交网络中朋友关系预测的方法 |
CN105653518A (zh) * | 2015-12-25 | 2016-06-08 | 北京理工大学 | 一种基于微博数据的特定群体发现及扩充方法 |
Non-Patent Citations (3)
Title |
---|
LinkProbe: Probabilistic inference on large-scale social networks;Chen H, Ku W S, Wang H;《IEEE 29th International Conference on Data Engineering (ICDE), 2013》;20130625;第290-301页 * |
社交网络中朋友推荐技术研究;张斌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150115;全文 * |
社会网络用户关系分析与预测;李德民;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107368534A (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368534B (zh) | 一种预测社交网络用户属性的方法 | |
Shi et al. | From semantic communication to semantic-aware networking: Model, architecture, and open problems | |
CN110263280B (zh) | 一种基于多视图的动态链路预测深度模型及应用 | |
CN108960409B (zh) | 标注数据生成方法、设备及计算机可读存储介质 | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及系统 | |
Guo et al. | Density-aware feature embedding for face clustering | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
Goh et al. | Food-image Classification Using Neural Network Model | |
Díaz-Morales | Cross-device tracking: Matching devices and cookies | |
CN110751072B (zh) | 基于知识嵌入图卷积网络的双人交互识别方法 | |
CN104700100A (zh) | 面向高空间分辨率遥感大数据的特征提取方法 | |
Ebrahimi et al. | Minimax active learning | |
CN113554100B (zh) | 异构图注意力网络增强的Web服务分类方法 | |
Wang et al. | Time-variant graph classification | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN107392311A (zh) | 序列切分的方法和装置 | |
Selvarajah et al. | Dynamic network link prediction by learning effective subgraphs using CNN-LSTM | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN112541010B (zh) | 一种基于逻辑回归的用户性别预测方法 | |
CN104200222B (zh) | 一种基于因子图模型的图片中对象识别方法 | |
CN116633589A (zh) | 社交网络中恶意账户检测方法、设备及存储介质 | |
Dhoot et al. | Efficient Dimensionality Reduction for Big Data Using Clustering Technique | |
CN110633394A (zh) | 基于特征加强的图压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201214 Address after: 609, 6 / F, block a, China Merchants high speed rail Plaza, No. 9 Jiangnan Road, Jiangning District, Nanjing City, Jiangsu Province Patentee after: NANJING WISHARE INFORMATION TECHNOLOGY Co.,Ltd. Address before: 210023 9 Wen Yuan Road, Ya Dong new town, Nanjing, Jiangsu. Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
TR01 | Transfer of patent right |