CN105868267A - 一种移动社交网络用户兴趣的建模方法 - Google Patents

一种移动社交网络用户兴趣的建模方法 Download PDF

Info

Publication number
CN105868267A
CN105868267A CN201610124887.4A CN201610124887A CN105868267A CN 105868267 A CN105868267 A CN 105868267A CN 201610124887 A CN201610124887 A CN 201610124887A CN 105868267 A CN105868267 A CN 105868267A
Authority
CN
China
Prior art keywords
interest
user
item
information
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610124887.4A
Other languages
English (en)
Other versions
CN105868267B (zh
Inventor
季莉
杨中秋
蔡彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Textile Vocational Technology College
Original Assignee
Nantong Textile Vocational Technology College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Textile Vocational Technology College filed Critical Nantong Textile Vocational Technology College
Priority to CN201610124887.4A priority Critical patent/CN105868267B/zh
Publication of CN105868267A publication Critical patent/CN105868267A/zh
Application granted granted Critical
Publication of CN105868267B publication Critical patent/CN105868267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种移动社交网络用户兴趣的建模方法,总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法。本发明能够更加准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广。采用的建模表示方法,一方面,该表示方法能直观表示用户的兴趣项目和感兴趣的程度;另一方面,该表示方法的优点是用户兴趣表达的长度是一样的,有利于动态模型的建立和用户相似度的计算,该模型能为内容提供商实施个性化内容推荐提供依据。

Description

一种移动社交网络用户兴趣的建模方法
技术领域
本发明涉及一种移动社交网络用户的兴趣建模方法,属于移动信息技术领域。
背景技术
随着手机等移动智能终端、无线技术和4G网络的迅猛发展,人们之间越来越多的通过手持移动设备进行相互通信,进而逐步形成了移动社交网络(Mobile Social Network,MSN)。许多基于社交网络服务的应用吸引了大量的用户,例如现在的微博、微信等。用户可通过移动社交网络平台浏览各渠道的信息,企业也可以营销产品和发布信息,移动社交网络已经深刻的渗入日常生活和商业活动。
随着移动社交网络用户规模和信息量的爆炸式增长,一方面,日益增长的信息使得人们难以快速准确的获取真正所需要的内容,另一方面,对内容提供商而言,不加区分的为所有用户推送相同的商品活动信息不仅花费较高,而且容易引起用户反感,带来信息骚扰。因此,对于商家和移动平台而言,基于用户的兴趣推送其喜爱的内容,可以提升用户体验,提高信息的接受程度,增加盈利。基于此,本文的目标即建立移动社交网络用户兴趣模型,从而准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广。
发明内容
本发明的目的是提供一种能够更加准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广的移动社交网络用户 兴趣的建模方法。
本发明采用的技术方案为:
一种移动社交网络用户兴趣的建模方法,其创新点在于:总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法,其具体步骤如下:
1)兴趣信息的选择和获取:通过挖掘用户在使用移动社交网络过程中产生的行为和资源来获取和选择信息,具体包括通过用户自身发布的信息,这些信息是挖掘用户兴趣信息的重要来源;通过用户的个人标签,标签以关键词描述了自己喜好和关注的领域,可直接显性获得用户兴趣;通过用户评论与转发的其他用户推送内容;
2)用户兴趣模型的表示形式:用户兴趣信息的来源文本集表示成文本D,建立用于分词和统计词频的Hash词典,提取特征词,用向量空间法表示用户兴趣构成特征向量,将用户的兴趣项和权重表示成向量空间中的向量;将用户的兴趣项按照一定的分类或聚类的原则进行区分,兴趣项数目不宜庞大,以免在存储时造成维度过高,引发矩阵的高维稀疏问题;
3)用户兴趣度权重的计算:兴趣度权重的计算采用改进的TF-IDF算法,该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,改进是基于考虑到移动社交网络的特性,某些事件客观上在短时间内被大量的转发,造成网民的围观,该情形并不属于用户真实的兴趣表露,在权重 的算法设计上要给与识别与纠正;
假设某用户,其在某时间内发布和转发的信息集合为m,则该用户的某兴趣项权重计算公式为:
w i = Σ j = 1 m Count i j ( Msg j ) m × lg k a l l k j , ( i = 1 , 2 , ... ... , n )
其中,Msgj表示用户发表的第j条信息,Countij(Msgj)是该条信息中提到兴趣项i的次数,兴趣项共有n项;kall是用户关注的好友总数;kj是转发该信息的用户数;将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度;
4)兴趣模型的存储以及与之相关的算法:采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容,确定用户的兴趣项及其相关特征相,这关系到兴趣度的大小和兴趣模型的大小,然后建立兴趣项词典和文本数据清理词典,编写和存储计算兴趣项词频和兴趣度权重计算的算法,总体上,数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表;
算法伪代码为:
输入:信息文本集合(如微博)WB
输出:用户的兴趣度向量模型
(1)FOR j=1TO m
(2)SW=Segment(WBj)//分词处理
(3)END FOR
(4)T=Statistics(SWS)//抽取和统计得到特征项
(5)FOR i=1TO n
(6)FOR j=1TO m
(7)Countij=Statistics(Ti,WBj)//统计各个微博中包含的特征项的词频
(8)wij=Weight(Countij,m,kall,kj)//计算某条微博中包含的兴趣项的权重
(9)//得到用户的各兴趣项权重
(10)//归一化处理得到兴趣度
(11)END FOR
(12)END FOR
(13)W={(T1,W1),(T2,W2),...,(Tn,Wn)}//得到用户的兴趣向量模型。
本发明的有益效果如下:
本发明能够更加准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广。采用的建模表示方法,一方面,该表示方法能直观表示用户的兴趣项目和感兴趣的程度;另一方面,该表示方法的优点是用户兴趣表达的长度是一样的,有利于动态模型的建立和用户相似度的计算,该模型能为内容提供商实施个性化内容推荐提供依据。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细说明。
图1为本发明移动社交网络用户兴趣建模的总体流程图。
图2为本发明移动社交网络用户兴趣建模的数据流程图。
具体实施方式
如图1、图2所述的一种移动社交网络用户兴趣,总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法,其具体步骤如下:
1)兴趣信息的选择和获取:用户的行为体现用户的兴趣,挖掘用户在使用移动社交网络过程中产生的行为和资源,以微博为例,用户发表微博、关注用户、转发和评论微博等行为是挖掘用户兴趣的来源。用户自身发布的微博收集后会很大程度的涉及到自身兴趣领域,是挖掘用户兴趣信息的重要来源;如果用户的个人标签以关键词描述了自己喜好和关注的领域,如旅行、汽车、摄影、美食等,则可直接显性获得用户兴趣;用户关注其他的微博用户,则可浏览到其他用户的微博推送内容,还可以评论与转发。转发是最具社交网络特征的用户行为,正因为用户关注微博文本信息才会转发;
2)将用户的兴趣项按照一定的分类或聚类的原则进行区分,兴趣项数目不宜庞大,以免在存储时造成维度过高,引发矩阵的高维稀疏问题。依据现实中用户活动自然产生的主题兴趣群,在此主题群中的用户都属于一个大类兴趣,例如体育,而该大类兴趣下又存在很多的小项目,例如足球、篮球、游泳等;
3)用户兴趣模型的建模采用向量空间表示法,思路是将用户的兴趣项和权重表示成向量空间中的向量,用户兴趣信息的来源文本集 表示成文本D,建立用于分词和统计词频的Hash词典,提取特征词,用户兴趣构成特征向量W={(t1,w1),(t2,w2),...,(tn,wn)},ti是文本集D中的第i个兴趣特征项,wi是该特征项的权值。一方面,该表示方法能直观表示用户的兴趣项目和感兴趣的程度;另一方面,该表示方法的优点是用户兴趣表达的长度是一样的,有利于动态模型的建立和用户相似度的计算。该模型能为内容提供商实施个性化内容推荐提供依据;
4)兴趣模型的存储以及与之相关的算法:兴趣度权重的计算采用改进的TF-IDF算法,该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,改进是基于考虑到移动社交网络的特性,某些事件客观上在短时间内被大量的转发,造成网民的围观,该情形并不属于用户真实的兴趣表露,在权重的算法设计上要给与识别与纠正;
假设某用户,其在某时间内发布和转发的信息集合为m,则该用户的某兴趣项权重计算公式为
w i = Σ j = 1 m Count i j ( Msg j ) m × lg k a l l k j , ( i = 1 , 2 , ... ... , n )
其中,Msgj表示用户发表的第j条信息,Countij(Msgj)是该条信息中提到兴趣项i的次数,兴趣项共有n项;kall是用户关注的好友总数;kj是转发该信息的用户数;兴趣项共有n项。将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度。
采用关系型数据库存储移动网络用户及其关注好友所发布和转 发的信息内容,确定用户的兴趣项及其相关特征,这关系到兴趣度的大小和兴趣模型的大小,然后建立兴趣项词典和文本数据清理词典,编写和存储计算兴趣项词频和兴趣度权重计算的算法,总体上,数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表等。
以上所述是本发明的优选实施方式,不能以此来限定本发明之权利范围。应当指出,对于本技术领域的普通技术人员来说,对本发明的技术方案进行修改或者等同替换,都不脱离本发明的保护范围。

Claims (1)

1.一种移动社交网络用户兴趣的建模方法,其特征在于:总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法,其具体步骤如下:
1)兴趣信息的选择和获取:通过挖掘用户在使用移动社交网络过程中产生的行为和资源来获取和选择信息,具体包括通过用户自身发布的信息,这些信息是挖掘用户兴趣信息的重要来源;通过用户的个人标签,标签以关键词描述了自己喜好和关注的领域,可直接显性获得用户兴趣;通过用户评论与转发的其他用户推送内容;
2)用户兴趣模型的表示形式:用户兴趣信息的来源文本集表示成文本D,建立用于分词和统计词频的Hash词典,提取特征词,用向量空间法表示用户兴趣构成特征向量,将用户的兴趣项和权重表示成向量空间中的向量;将用户的兴趣项按照一定的分类或聚类的原则进行区分,兴趣项数目不宜庞大,以免在存储时造成维度过高,引发矩阵的高维稀疏问题;
3)用户兴趣度权重的计算:兴趣度权重的计算采用改进的TF-IDF算法,该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,改进是基于考虑到移动社交网络的特性,某些事件客观上在短时间内被大量的转发,造成网民的围观,该情形并不属于用户真实的兴趣表露,在权重的算法设计上要给与识别与纠正;
假设某用户,其在某时间内发布和转发的信息集合为m,则该用 户的某兴趣项权重计算公式为:
其中,Msgj表示用户发表的第j条信息,Countij(Msgj)是该条信息中提到兴趣项i的次数,兴趣项共有n项;kall是用户关注的好友总数;kj是转发该信息的用户数;将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度;
4)兴趣模型的存储以及与之相关的算法:采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容,确定用户的兴趣项及其相关特征相,这关系到兴趣度的大小和兴趣模型的大小,然后建立兴趣项词典和文本数据清理词典,编写和存储计算兴趣项词频和兴趣度权重计算的算法,总体上,数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表;
算法伪代码为:
输入:信息文本集合(如微博)WB
输出:用户的兴趣度向量模型
(1)FOR j=1 TO m
(2)SW=Segment(WBj)//分词处理
(3)END FOR
(4)T=Statistics(SWS)//抽取和统计得到特征项
(5)FOR i=1 TO n
(6)FOR j=1 TO m
(7)Countij=Statistics(Ti,WBj)//统计各个微博中包含的特征项的词频
(8)wij=Weight(Countij,m,kall,kj)//计算某条微博中包含的兴趣项的权重
(9)//得到用户的各兴趣项权重
(10)//归一化处理得到兴趣度
(11)END FOR
(12)END FOR
(13)W={(T1,W1),(T2,W2),...,(Tn,Wn)}//得到用户的兴趣向量模型。
CN201610124887.4A 2016-03-04 2016-03-04 一种移动社交网络用户兴趣的建模方法 Active CN105868267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610124887.4A CN105868267B (zh) 2016-03-04 2016-03-04 一种移动社交网络用户兴趣的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610124887.4A CN105868267B (zh) 2016-03-04 2016-03-04 一种移动社交网络用户兴趣的建模方法

Publications (2)

Publication Number Publication Date
CN105868267A true CN105868267A (zh) 2016-08-17
CN105868267B CN105868267B (zh) 2019-04-12

Family

ID=56625253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610124887.4A Active CN105868267B (zh) 2016-03-04 2016-03-04 一种移动社交网络用户兴趣的建模方法

Country Status (1)

Country Link
CN (1) CN105868267B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453348A (zh) * 2016-10-31 2017-02-22 南京邮电大学 社交网络中基于用户兴趣的登录认证方法
CN106878392A (zh) * 2017-01-11 2017-06-20 浙江工商大学 一种基于学生成果的在线服务方法和装置
CN107491491A (zh) * 2017-07-20 2017-12-19 西南财经大学 一种适应用户兴趣变化的媒体文章推荐方法
CN108038097A (zh) * 2017-11-20 2018-05-15 西安电子科技大学 基于nlp社交问答网络用户兴趣能力模型构建系统及方法
CN108205682A (zh) * 2016-12-19 2018-06-26 同济大学 一种用于个性化推荐的融合内容和行为的协同过滤方法
CN108595630A (zh) * 2018-04-24 2018-09-28 中译语通科技股份有限公司 一种用户行为数据分析模型及其构建方法
CN109325175A (zh) * 2018-08-23 2019-02-12 广东工业大学 融合微博兴趣挖掘的新闻推送方法、装置及设备
CN111241821A (zh) * 2018-11-28 2020-06-05 杭州海康威视数字技术股份有限公司 确定用户的行为特征的方法和装置
CN111415328A (zh) * 2020-02-20 2020-07-14 北京三快在线科技有限公司 物品分析数据确定方法、装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216563A1 (en) * 2008-02-25 2009-08-27 Michael Sandoval Electronic profile development, storage, use and systems for taking action based thereon
CN103136309A (zh) * 2011-11-21 2013-06-05 微软公司 通过基于核的学习对社交强度进行建模
CN103544623A (zh) * 2013-11-06 2014-01-29 武汉大学 一种基于用户偏好特征建模的Web 服务推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090216563A1 (en) * 2008-02-25 2009-08-27 Michael Sandoval Electronic profile development, storage, use and systems for taking action based thereon
CN103136309A (zh) * 2011-11-21 2013-06-05 微软公司 通过基于核的学习对社交强度进行建模
CN103544623A (zh) * 2013-11-06 2014-01-29 武汉大学 一种基于用户偏好特征建模的Web 服务推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡银珊等: "基于用户兴趣建模中加权关键词的表示", 《广西民族师范学院学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453348A (zh) * 2016-10-31 2017-02-22 南京邮电大学 社交网络中基于用户兴趣的登录认证方法
CN106453348B (zh) * 2016-10-31 2019-11-15 南京邮电大学 社交网络中基于用户兴趣的登录认证方法
CN108205682A (zh) * 2016-12-19 2018-06-26 同济大学 一种用于个性化推荐的融合内容和行为的协同过滤方法
CN108205682B (zh) * 2016-12-19 2021-10-08 同济大学 一种用于个性化推荐的融合内容和行为的协同过滤方法
CN106878392A (zh) * 2017-01-11 2017-06-20 浙江工商大学 一种基于学生成果的在线服务方法和装置
CN107491491A (zh) * 2017-07-20 2017-12-19 西南财经大学 一种适应用户兴趣变化的媒体文章推荐方法
CN108038097A (zh) * 2017-11-20 2018-05-15 西安电子科技大学 基于nlp社交问答网络用户兴趣能力模型构建系统及方法
CN108595630A (zh) * 2018-04-24 2018-09-28 中译语通科技股份有限公司 一种用户行为数据分析模型及其构建方法
CN109325175A (zh) * 2018-08-23 2019-02-12 广东工业大学 融合微博兴趣挖掘的新闻推送方法、装置及设备
CN111241821A (zh) * 2018-11-28 2020-06-05 杭州海康威视数字技术股份有限公司 确定用户的行为特征的方法和装置
CN111241821B (zh) * 2018-11-28 2023-04-28 杭州海康威视数字技术股份有限公司 确定用户的行为特征的方法和装置
CN111415328A (zh) * 2020-02-20 2020-07-14 北京三快在线科技有限公司 物品分析数据确定方法、装置、电子设备

Also Published As

Publication number Publication date
CN105868267B (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN105868267A (zh) 一种移动社交网络用户兴趣的建模方法
US10726446B2 (en) Method and apparatus for pushing information
US9210540B2 (en) Method and apparatus for geographic document retrieval
US20160071162A1 (en) Systems and Methods for Continuous Analysis and Procurement of Advertisement Campaigns
Logesh et al. Learning recency and inferring associations in location based social network for emotion induced point-of-interest recommendation.
US20130085745A1 (en) Semantic-based approach for identifying topics in a corpus of text-based items
CA2924667A1 (en) System and method for actively obtaining social data
US20140129324A1 (en) System and method for dynamically placing and scheduling of promotional items or content based on momentum of activities of a targeted audience in a network environment
US20100082427A1 (en) System and Method for Context Enhanced Ad Creation
WO2015066805A1 (en) Systems and methods for behavioral segmentation of users in a social data network
CN106033415A (zh) 文本内容推荐方法及装置
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN103793489A (zh) 一种在线社交网络中社群话题的发现方法
CN104298767A (zh) 一种微博网络中用户影响力度量的方法
Na et al. Sensibility and response keywords of users according to posting types of fashion Instagram: Focused on Koreans’ fashion brands
Ju et al. Relationship strength estimation based on Wechat Friends Circle
Pham et al. Sentiment analysis and user similarity for social recommender system: An experimental study
Yang et al. Comparison and modelling of country-level microblog user and activity in cyber-physical-social systems using Weibo and Twitter data
CN103262079B (zh) 检索装置及检索方法
CN106257449B (zh) 一种信息确定方法和装置
Kang et al. Analysing diffusion pattern of mobile application services in Korea using the competitive Bass model and Herfindahl index
US20170004531A1 (en) Advertisement selection using information retrieval systems
CN103164522A (zh) 一种社交软件终端用户获取联系人的方法
Heravi et al. Tweet location detection
CN102750288A (zh) 一种互联网内容推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant