CN105868267B - 一种移动社交网络用户兴趣的建模方法 - Google Patents
一种移动社交网络用户兴趣的建模方法 Download PDFInfo
- Publication number
- CN105868267B CN105868267B CN201610124887.4A CN201610124887A CN105868267B CN 105868267 B CN105868267 B CN 105868267B CN 201610124887 A CN201610124887 A CN 201610124887A CN 105868267 B CN105868267 B CN 105868267B
- Authority
- CN
- China
- Prior art keywords
- interest
- user
- item
- information
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000006855 networking Effects 0.000 title claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000032258 transport Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种移动社交网络用户兴趣的建模方法,总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法。本发明能够更加准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广。采用的建模表示方法,一方面,该表示方法能直观表示用户的兴趣项目和感兴趣的程度;另一方面,该表示方法的优点是用户兴趣表达的长度是一样的,有利于动态模型的建立和用户相似度的计算,该模型能为内容提供商实施个性化内容推荐提供依据。
Description
技术领域
本发明涉及一种移动社交网络用户的兴趣建模方法,属于移动信息技术领域。
背景技术
随着手机等移动智能终端、无线技术和4G网络的迅猛发展,人们之间越来越多的通过手持移动设备进行相互通信,进而逐步形成了移动社交网络(Mobile SocialNetwork,MSN)。许多基于社交网络服务的应用吸引了大量的用户,例如现在的微博、微信等。用户可通过移动社交网络平台浏览各渠道的信息,企业也可以营销产品和发布信息,移动社交网络已经深刻的渗入日常生活和商业活动。
随着移动社交网络用户规模和信息量的爆炸式增长,一方面,日益增长的信息使得人们难以快速准确的获取真正所需要的内容,另一方面,对内容提供商而言,不加区分的为所有用户推送相同的商品活动信息不仅花费较高,而且容易引起用户反感,带来信息骚扰。因此,对于商家和移动平台而言,基于用户的兴趣推送其喜爱的内容,可以提升用户体验,提高信息的接受程度,增加盈利。基于此,本文的目标即建立移动社交网络用户兴趣模型,从而准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广。
发明内容
本发明的目的是提供一种能够更加准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广的移动社交网络用户兴趣的建模方法。
本发明采用的技术方案为:
一种移动社交网络用户兴趣的建模方法,其创新点在于:总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法,其具体步骤如下:
1)兴趣信息的选择和获取:通过挖掘用户在使用移动社交网络过程中产生的行为和资源来获取和选择信息,具体包括通过用户自身发布的信息,这些信息是挖掘用户兴趣信息的重要来源;通过用户的个人标签,标签以关键词描述了自己喜好和关注的领域,可直接显性获得用户兴趣;通过用户评论与转发的其他用户推送内容;
2)用户兴趣模型的表示形式:用户兴趣信息的来源文本集表示成文本D,建立用于分词和统计词频的Hash词典,提取特征词,用向量空间法表示用户兴趣构成特征向量,将用户的兴趣项和权重表示成向量空间中的向量;将用户的兴趣项按照一定的分类或聚类的原则进行区分,兴趣项数目不宜庞大,以免在存储时造成维度过高,引发矩阵的高维稀疏问题;
3)用户兴趣度权重的计算:兴趣度权重的计算采用改进的TF-IDF算法,该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,改进是基于考虑到移动社交网络的特性,某些事件客观上在短时间内被大量的转发,造成网民的围观,该情形并不属于用户真实的兴趣表露,在权重的算法设计上要给与识别与纠正;
假设某用户,其在某时间内发布和转发的信息集合为m,则该用户的某兴趣项权重计算公式为:
其中,Msgj表示用户发表的第j条信息,Countij(Msgj)是该条信息中提到兴趣项i的次数,兴趣项共有n项;kall是用户关注的好友总数;kj是转发该信息的用户数;将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度;
4)兴趣模型的存储以及与之相关的算法:采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容,确定用户的兴趣项及其相关特征项,这关系到兴趣度的大小和兴趣模型的大小,然后建立兴趣项词典和文本数据清理词典,编写和存储计算兴趣项词频和兴趣度权重计算的算法,总体上,数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表;
算法伪代码为:
输入:信息文本集合(如微博)WB
输出:用户的兴趣度向量模型
(1)FOR j=1TO m
(2)SW=Segment(WBj)//分词处理
(3)END FOR
(4)T=Statistics(SWS)//抽取和统计得到特征项
(5)FOR i=1TO n
(6)FOR j=1TO m
(7)Countij=Statistics(Ti,WBj)//统计各个微博中包含的特征项的词频
(8)wij=Weight(Countij,m,kall,kj)//计算某条微博中包含的兴趣项的权重
(9)//得到用户的各兴趣项权重
(10)//归一化处理得到兴趣度
(11)END FOR
(12)END FOR
(13)W={(T1,W1),(T2,W2),...,(Tn,Wn)}//得到用户的兴趣向量模型。
本发明的有益效果如下:
本发明能够更加准确把握用户兴趣,提高用户体验,实现用户的个性化服务和内容的精准推广。采用的建模表示方法,一方面,该表示方法能直观表示用户的兴趣项目和感兴趣的程度;另一方面,该表示方法的优点是用户兴趣表达的长度是一样的,有利于动态模型的建立和用户相似度的计算,该模型能为内容提供商实施个性化内容推荐提供依据。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细说明。
图1为本发明移动社交网络用户兴趣建模的总体流程图。
图2为本发明移动社交网络用户兴趣建模的数据流程图。
具体实施方式
如图1、图2所述的一种移动社交网络用户兴趣,总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法,其具体步骤如下:
1)兴趣信息的选择和获取:用户的行为体现用户的兴趣,挖掘用户在使用移动社交网络过程中产生的行为和资源,以微博为例,用户发表微博、关注用户、转发和评论微博等行为是挖掘用户兴趣的来源。用户自身发布的微博收集后会很大程度的涉及到自身兴趣领域,是挖掘用户兴趣信息的重要来源;如果用户的个人标签以关键词描述了自己喜好和关注的领域,如旅行、汽车、摄影、美食等,则可直接显性获得用户兴趣;用户关注其他的微博用户,则可浏览到其他用户的微博推送内容,还可以评论与转发。转发是最具社交网络特征的用户行为,正因为用户关注微博文本信息才会转发;
2)将用户的兴趣项按照一定的分类或聚类的原则进行区分,兴趣项数目不宜庞大,以免在存储时造成维度过高,引发矩阵的高维稀疏问题。依据现实中用户活动自然产生的主题兴趣群,在此主题群中的用户都属于一个大类兴趣,例如体育,而该大类兴趣下又存在很多的小项目,例如足球、篮球、游泳等;
3)用户兴趣模型的建模采用向量空间表示法,思路是将用户的兴趣项和权重表示成向量空间中的向量,用户兴趣信息的来源文本集表示成文本D,建立用于分词和统计词频的Hash词典,提取特征词,用户兴趣构成特征向量W={(t1,w1),(t2,w2),...,(tn,wn)},ti是文本集D中的第i个兴趣特征项,wi是该特征项的权值。一方面,该表示方法能直观表示用户的兴趣项目和感兴趣的程度;另一方面,该表示方法的优点是用户兴趣表达的长度是一样的,有利于动态模型的建立和用户相似度的计算。该模型能为内容提供商实施个性化内容推荐提供依据;
4)兴趣模型的存储以及与之相关的算法:兴趣度权重的计算采用改进的TF-IDF算法,该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,改进是基于考虑到移动社交网络的特性,某些事件客观上在短时间内被大量的转发,造成网民的围观,该情形并不属于用户真实的兴趣表露,在权重的算法设计上要给与识别与纠正;
假设某用户,其在某时间内发布和转发的信息集合为m,则该用户的某兴趣项权重计算公式为
其中,Msgj表示用户发表的第j条信息,Countij(Msgj)是该条信息中提到兴趣项i的次数,兴趣项共有n项;kall是用户关注的好友总数;kj是转发该信息的用户数;兴趣项共有n项。将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度。
采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容,确定用户的兴趣项及其相关特征,这关系到兴趣度的大小和兴趣模型的大小,然后建立兴趣项词典和文本数据清理词典,编写和存储计算兴趣项词频和兴趣度权重计算的算法,总体上,数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表等。
以上所述是本发明的优选实施方式,不能以此来限定本发明之权利范围。应当指出,对于本技术领域的普通技术人员来说,对本发明的技术方案进行修改或者等同替换,都不脱离本发明的保护范围。
Claims (1)
1.一种移动社交网络用户兴趣的建模方法,其特征在于:总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法,其具体步骤如下:
1)兴趣信息的选择和获取:通过挖掘用户在使用移动社交网络过程中产生的行为和资源来获取和选择信息,具体包括通过用户自身发布的信息,这些信息是挖掘用户兴趣信息的重要来源;通过用户的个人标签,标签以关键词描述了自己喜好和关注的领域,可直接显性获得用户兴趣;通过用户评论与转发的其他用户推送内容;
2)用户兴趣模型的表示形式:用户兴趣信息的来源文本集表示成文本D,建立用于分词和统计词频的Hash词典,提取特征词,用向量空间法表示用户兴趣构成特征向量,将用户的兴趣项和权重表示成向量空间中的向量;将用户的兴趣项按照一定的分类或聚类的原则进行区分,兴趣项数目不宜庞大,以免在存储时造成维度过高,引发矩阵的高维稀疏问题;
3)用户兴趣度权重的计算:兴趣度权重的计算采用改进的TF-IDF算法,该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,改进是基于考虑到移动社交网络的特性,某些事件客观上在短时间内被大量的转发,造成网民的围观,该情形并不属于用户真实的兴趣表露,在权重的算法设计上要给与识别与纠正;
假设某用户,其在某时间内发布和转发的信息条数为m,则该用户的某兴趣项权重计算公式为:
其中,Msgj表示用户发表的第j条信息,Countij(Msgj)是该条信息中提到兴趣项i的次数,兴趣项共有n项;kall是用户关注的好友总数;kj是转发该信息的用户数;将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度;
4)兴趣模型的存储以及与之相关的算法:采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容,确定用户的兴趣项及其相关特征项,这关系到兴趣度的大小和兴趣模型的大小,然后建立兴趣项词典和文本数据清理词典,编写和存储计算兴趣项词频和兴趣度权重计算的算法,总体上,数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表;
算法伪代码为:
输入:信息文本集合(如微博)WB
输出:用户的兴趣度向量模型
(1)FOR j=1 TO m
(2)SW=Segment(WBj)//分词处理
(3)END FOR
(4)T=Statistics(SWS)//抽取和统计得到特征项
(5)FOR i=1 TO n
(6)FOR j=1 TO m
(7)Countij=Statistics(Ti,WBj)//统计各个微博中包含的特征项的词频
(8)wij=Weight(Countij,m,kall,kj)//计算某条微博中包含的兴趣项的权重
(9)//得到用户的各兴趣项权重
(10)//归一化处理得到兴趣度
(11)END FOR
(12)END FOR
(13)W={(T1,W1),(T2,W2),...,(Tn,Wn)}//得到用户的兴趣向量模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610124887.4A CN105868267B (zh) | 2016-03-04 | 2016-03-04 | 一种移动社交网络用户兴趣的建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610124887.4A CN105868267B (zh) | 2016-03-04 | 2016-03-04 | 一种移动社交网络用户兴趣的建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105868267A CN105868267A (zh) | 2016-08-17 |
CN105868267B true CN105868267B (zh) | 2019-04-12 |
Family
ID=56625253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610124887.4A Active CN105868267B (zh) | 2016-03-04 | 2016-03-04 | 一种移动社交网络用户兴趣的建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105868267B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106453348B (zh) * | 2016-10-31 | 2019-11-15 | 南京邮电大学 | 社交网络中基于用户兴趣的登录认证方法 |
CN108205682B (zh) * | 2016-12-19 | 2021-10-08 | 同济大学 | 一种用于个性化推荐的融合内容和行为的协同过滤方法 |
CN106878392B (zh) * | 2017-01-11 | 2021-09-07 | 浙江工商大学 | 一种基于学生成果的在线服务方法和装置 |
CN107491491A (zh) * | 2017-07-20 | 2017-12-19 | 西南财经大学 | 一种适应用户兴趣变化的媒体文章推荐方法 |
CN108038097A (zh) * | 2017-11-20 | 2018-05-15 | 西安电子科技大学 | 基于nlp社交问答网络用户兴趣能力模型构建系统及方法 |
CN108595630A (zh) * | 2018-04-24 | 2018-09-28 | 中译语通科技股份有限公司 | 一种用户行为数据分析模型及其构建方法 |
CN109325175A (zh) * | 2018-08-23 | 2019-02-12 | 广东工业大学 | 融合微博兴趣挖掘的新闻推送方法、装置及设备 |
CN111241821B (zh) * | 2018-11-28 | 2023-04-28 | 杭州海康威视数字技术股份有限公司 | 确定用户的行为特征的方法和装置 |
CN111415328B (zh) * | 2020-02-20 | 2023-07-11 | 北京三快在线科技有限公司 | 物品分析数据确定方法、装置、电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136309A (zh) * | 2011-11-21 | 2013-06-05 | 微软公司 | 通过基于核的学习对社交强度进行建模 |
CN103544623A (zh) * | 2013-11-06 | 2014-01-29 | 武汉大学 | 一种基于用户偏好特征建模的Web 服务推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216563A1 (en) * | 2008-02-25 | 2009-08-27 | Michael Sandoval | Electronic profile development, storage, use and systems for taking action based thereon |
-
2016
- 2016-03-04 CN CN201610124887.4A patent/CN105868267B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136309A (zh) * | 2011-11-21 | 2013-06-05 | 微软公司 | 通过基于核的学习对社交强度进行建模 |
CN103544623A (zh) * | 2013-11-06 | 2014-01-29 | 武汉大学 | 一种基于用户偏好特征建模的Web 服务推荐方法 |
Non-Patent Citations (1)
Title |
---|
基于用户兴趣建模中加权关键词的表示;蔡银珊等;《广西民族师范学院学报》;20110304;第4-7页 |
Also Published As
Publication number | Publication date |
---|---|
CN105868267A (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868267B (zh) | 一种移动社交网络用户兴趣的建模方法 | |
WO2017186054A1 (zh) | 表情推荐方法及装置 | |
CN110942337A (zh) | 一种基于互联网大数据的精准旅游营销方法 | |
US20160071162A1 (en) | Systems and Methods for Continuous Analysis and Procurement of Advertisement Campaigns | |
CN103902697B (zh) | 组合搜索方法、客户端和服务器 | |
US20130297694A1 (en) | Systems and methods for interactive presentation and analysis of social media content collection over social networks | |
US20100082427A1 (en) | System and Method for Context Enhanced Ad Creation | |
CN108241667A (zh) | 用于推送信息的方法和装置 | |
CA2924667A1 (en) | System and method for actively obtaining social data | |
CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
CN103778260A (zh) | 一种个性化微博信息推荐系统和方法 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
GB2507667A (en) | Targeted advertising based on momentum of activities | |
CN103714130A (zh) | 视频推荐系统及方法 | |
CN101937547A (zh) | 软件和/或软件信息推送方法、系统、获取装置、软件商店服务系统及移动终端 | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
Alamsyah et al. | Sentiment analysis based on appraisal theory for marketing intelligence in Indonesia's mobile phone market | |
CN110209810A (zh) | 相似文本识别方法以及装置 | |
CN107862004A (zh) | 智能排序方法及装置、存储介质、电子设备 | |
KR101664941B1 (ko) | 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법 | |
CN107729946A (zh) | 图片分类方法、装置、终端及存储介质 | |
CN110737845A (zh) | 一种实现信息分析的方法、计算机存储介质及系统 | |
Farseev et al. | Somin. ai: Social multimedia influencer discovery marketplace | |
CN106886296A (zh) | 输入法的词库的处理方法和装置 | |
Fiallos et al. | Detecting topics and locations on Instagram photos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |