CN108717445A - 一种基于历史数据的在线社交平台用户兴趣推荐方法 - Google Patents

一种基于历史数据的在线社交平台用户兴趣推荐方法 Download PDF

Info

Publication number
CN108717445A
CN108717445A CN201810472084.7A CN201810472084A CN108717445A CN 108717445 A CN108717445 A CN 108717445A CN 201810472084 A CN201810472084 A CN 201810472084A CN 108717445 A CN108717445 A CN 108717445A
Authority
CN
China
Prior art keywords
user
interest
data
distribution
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810472084.7A
Other languages
English (en)
Inventor
张雷
王咏乾
宋岳
朱恺
徐鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201810472084.7A priority Critical patent/CN108717445A/zh
Publication of CN108717445A publication Critical patent/CN108717445A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明公开了一种基于历史数据并采用数据挖掘分析技术的社交平台用户兴趣推荐方法,包括以下步骤:1)用户数据预处理阶段;2)用户兴趣发现阶段;3)用户推荐阶段;本发明是利用数据挖掘技术为网络社交平台用户提供符合其实时兴趣的个性化推荐服务方案,利用动态主题追踪提高对用户的实时兴趣的发现准确性。与传统推荐方法相比,本发明更加准确高效,并具有实现简单、复杂度低的优点。

Description

一种基于历史数据的在线社交平台用户兴趣推荐方法
技术领域
本发明涉及一种在线社交平台用户兴趣推荐方法,具体是一种利用用户发布的历史数据通过数据挖掘技术根据用户兴趣进行分类,利用聚类算法向拥有共同兴趣的用户推荐相关内容的方法。
背景技术
随着移动网络的快速发展,互联网社交平台获得了长足的发展。在线社交平台用户通过发布文本内容表达个人的观点态度,进而反映其个人兴趣。分析社交平台用户数据,对挖掘社会信息、舆情分析、定制推荐有重要意义。
传统对用户兴趣推荐算法对用户所有文本进行静态分析,对在线社交平台中主题的动态变化不敏感,并且由于社交平台用户文本短小,使传统算法对用户的兴趣预测不不精确。本发明利用主题追踪模型对用户动态兴趣变化进行追踪,挖掘具有类似兴趣的用户群体并进行相关推荐,达到精准营销的目的。
发明内容
本发明目的在于,对于社交平台中用户发布内容的数据集,在时序上进行数据内容的切分,根据用户文本利用主题追踪模型和词对模型对社交平台用户的兴趣进行实时挖掘分析,并根据K-means算法将具有相同兴趣的用户聚类,对同一个兴趣主题下的用户实现定制化的推荐服务。本发明针对目前互联网社交平台用户根据用户兴趣进行定制化推荐提出了一种解决方案。
为解决以上问题,本发明的技术方案是:基于历史数据并采用主题追踪模型技术的在线社交平台用户兴趣推荐方法,包括如下步骤:
1)用户数据预处理阶段:
a获取社交平台中用户发布的所有文本数据;
b指定时间片长度,将用户文本数据按照时间片长度划分为不同文本集合;
c结束;
2)用户兴趣发现阶段:
a对用户文本数据进行词对采样;
b利用BTM生成历史时间上的用户兴趣分布;
c根据用户历史兴趣分布和当前时间内文本内容利用主题追踪模型生成用户最新兴趣分布;
d保存当前用户兴趣分布情况作为未来预测的历史数据;
e结束;
3)用户推荐阶段:
a利用K-means聚类算法得到兴趣类似用户群体;
b利用TopN推荐算法为同一簇中的兴趣相似用户提供推荐;
c结束。
步骤1)-a中获取用户数据构造过程如下:
1)调用公开社交平台API编写网络爬虫,选择种子用户之后,在抓取种子用户所有文本数据的同时,获取种子用户的所有关注用户,并将其作为新的种子用户进行文本数据获取。
2)对于每一名用户设置唯一的user_id,且每一篇用户发布的文本(包括原创和转发)均记录其发布的时间戳timestamp,最后得到的是具有用户标识user_id和发布时间timestamp的每一条独立文本内容。
3)对文本进行数据预处理,通过HanLP进行分词操作,去除常用词语,并将词语数量小于等于2的文本剔除。
步骤1)-b中时间片长度选择根据数据集大小以一个自然月或一个自然季度为长度进行划分,从基准时间开始用户的文本数据按照时间片划分为不同的文档集合。
步骤2)-a中利用BTM模型分析某时间片上用户兴趣情况过程如下:
1)设置社交平台主题数目K,并跟设置方法的参数β=0.01。
2)根据多项分布选取主题z~Multi(θ),其中θ满足参数α的狄利克雷分布。
3)从用户文档中采样两个词wi,wj且均满足与主题z的多项分布,将这两个词作为一个词对采样。
4)根据3)中采样中采样结果和1)中设置的参数得到初始时间(即t=0)的用户兴趣分布θ0,u和词语主题分布计算公式为 其中主题z的词对个数为nz,词对总数为|B|,采样得到的词语总数为M、主题z中词语w被采样的频次为nw|z,K、α和β在1)中设置。
步骤2)-b中利用主题追踪模型生成用户最新兴趣分布构造过程如下:
1)获取用户u的前一时间片的兴趣分布θt-1,u和词语主题分布
2)根据当前时间片中新增用户文本设置当前时间的参数βt=0.01。
3)根据主题追踪模型,由θt-1,u和αt的狄利克雷分布可以得到当前的用户兴趣分布结果θt,u,并根据和βt计算得到当前词语主题分布结果计算公式为其中当前主题z的词对个数nt,z,当前主题z中词语w被采样的频次nt,w|z
步骤2)-c中对之前得到的分布结果情况θt,u结果进行保存,作为步骤3)中进行用户兴趣推荐的依据,也作为下一时间段t+1的历史数据。
步骤3)-a中K-means聚类算法具体过程如下(K为社交平台主题数目):
1)在预测集数据集中随机选取K个数据作为每个类别的初始聚簇中心。
2)根据欧氏公式将以用户分布结果θt,u作为用户兴趣数据分配在距离其最近的类簇,d(i,c)是数据i到中心点c的距离,Xi,k为数据i的属性k的值,n为属性个数。并重新计算类簇中心点的值。
3)重复2)直到收敛,收敛函数为
步骤3)-b中为同一簇中的兴趣相似用户提供推荐过程如下:
1)规定在同一个类簇中的用户为当前具有相同兴趣的用户群体,在K(K为社交平台主题数目)个社交平台主题中选择每个用户在其对应主题中的TopN词语,其中N为选择的词语总数,预先设定。
2)根据同一类簇中所有用户的TopN词语,取其中在主题追踪模型中所属最多的主题,可以得到当前类簇对应的相关主题关键词,对同一类簇中用户进行相关主题的兴趣内容推荐。
本发明的有益效果:本发明是利用数据挖掘技术为网络社交平台用户提供符合其实时兴趣的个性化推荐服务方案,利用动态主题追踪提高对用户的实时兴趣的发现准确性。与传统推荐方法相比,本发明更加准确高效,并具有实现简单、复杂度低的优点。
附图说明
图1为基于用户历史数据的社交平台用户兴趣推荐方法的流程图;
图2为用户数据预处理阶段的流程图;
图3为用户兴趣发现的流程图;
图4为用户推荐的流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实例并配合附图说明如下。
图1是本发明实施例的用于基于历史数据进行社交平台兴趣推荐方法的流程图,包括三个阶段:用户数据预处理、用户兴趣发现、用户推荐。
步骤0为本发明的起始状态;
在用户数据预处理阶段(步骤1-2),步骤1是用户文本数据获取部分,对社交平台中用户发布的文本数据内容进行获取和文本预处理;
步骤2定义社交平台时间片长度,将得到的用户文档数据分别分割为不同时间片中的文档集合;
在用户兴趣发现阶段(步骤3-5),步骤3通过BTM主题模型对历史时间片中的用户兴趣根据其在同一时间片下的文档集合内容进行计算挖掘;
步骤4根据步骤3中计算得到的历史时间片的用户兴趣分布情况和当前时间片的用户文档集合内容,通过主题追踪模型对当前用户的兴趣情况进行计算;
步骤5将当前的用户兴趣情况保存,并作为计算未来用户兴趣分布的历史分布数据;
在用户推荐阶段(步骤6-7),步骤6根据在步骤5中计算得到的当前用户兴趣数据,利用K-means算法对拥有相同兴趣分布的用户进行聚类;
步骤7对每一个类簇中的用户通过TopN算法计算类中与主题最相关的词语,分析该类簇中用户关注主题,进行相关的定制化推荐;
步骤8是本发明的结束步骤。
图2是对图1中用户数据预处理阶段的具体描述:
步骤1-0是起始步骤;
步骤1-1选择社交平台中一部分用户作为种子用户,用于数据采集和发现其他用户信息;
步骤1-2根据种子用户的关注和被关注,发掘尚未被作为种子的新用户,加入到种子用户中,作为步骤1-1的准备;
步骤1-3对种子用户利用网络爬虫获取其发布的原创与转发本文内容和用户标识user_id、文本发布时间戳timestamp;
步骤1-4对获得的文本内容进行预处理,包括HanLP进行中文分词、去除常见词、剔除词语总数小于3的文本,得到处理完成后的用户文本及其对应user_id、timestamp;
步骤1-5根据数据集合大小和总时间划分时间片长度,通常为一个自然月或季度;
步骤1-6将步骤1-4中获得的用户文本根据其时间戳timestamp在不同时间片下进行划分,得到每个user_id对应于每个时间片中的文本集合;
步骤1-7是结束步骤。
图3是对图1中用户兴趣发现阶段的具体描述:
步骤2-0是起始步骤;
步骤2-1对根据时间由远及近的根据user_id判断的每名用户最远时间片中的文档集合,通过BTM模型分析其在初始时间片中的兴趣情况。根据社交平台数据集设置社交平台主题数目K,并跟设置方法的参数β=0.01。根据多项分布选取主题z~Multi(θ),其中θ满足参数α的狄利克雷分布。从用户文档中采样两个词wi,wj且均满足与主题z的多项分布,将这两个词作为一个词对采样;
步骤2-2根据步骤2-1中分析得到初始时间片中社交平台中的词语主题分布计算公式为其中采样得到的词语总数为M、主题z中词语w被采样的频次为nw|z,β是在步骤2-1中设置的参数;
步骤2-3根据步骤2-1中分析得到历史时间片中用户u的兴趣分布情况θ0,计算公式为其中主题z的词对个数为nz,词对总数为|B|,K和α是在步骤2-1中设置的参数;
步骤2-4利用之前计算得到的历史时间t-1中兴趣分布情况加上在当前时间t用户的文本内容通过主题追踪模型计算当前时间t上用户的兴趣分布情况。由θt-1,u和α的狄利克雷分布可以得到当前的用户兴趣分布结果θt,u,并根据和β计算得到当前词语主题分布结果计算公式为 其中当前主题z的词对个数nt,z,当前主题z中词语w被采样的频次nt,w|z
步骤2-5保存在步骤2-4中计算得到的时间t用户的兴趣主题θt,u和词语主题分布为在t+1时间用户的兴趣分布计算作为历史数据;
步骤2-6为结束阶段。
图4是对图1中用户推荐阶段的具体描述:
步骤3-0是起始步骤;
步骤3-1从步骤2-5中获得保存计算得到的当前时间片中的用户兴趣θt,u,z
步骤3-2随机选取K(K为社交平台主题数目)个数据点作为每个类别的初始聚簇中心,其中K预先设定,为聚类簇的个数;
步骤3-3根据欧氏公式把用户兴趣数据分配到离它最近的聚簇中,d(i,c)是数据i到中心点c的距离,Xi,k为数据i的属性k的值,n为属性个数;
步骤3-4中根据每个类簇中用户兴趣数据集合计算当前类簇中新的中心值;
步骤3-5首先根据收敛函数计算公式计算收敛函数值,其中E是所有数据到聚簇中心的距离平方之和,p是其中的一个数据,mi是所属第i个类别中的聚簇中心点,k是聚簇的个数。判断当前E是否小于阈值Et,如果不小于即未收敛返回步骤3-3,如果收敛则进入下一步骤;
步骤3-6对每一类簇中的每一名用户选择每个用户在其对应主题中的TopN词语,其中N为选择的词语总数,预先设定;
步骤3-7根据同一类簇中所有用户的TopN词语,取其中在主题追踪模型中所属最多的主题,可以得到当前类簇对应的相关主题关键词,即作为对当前类簇中所有用户进行定制化推荐的依据;
步骤3-8是结束步骤。
综上所述,本发明利用BTM和主题追踪模型等数据挖掘方法对在线社交平台用户兴趣的动态变化进行分析,采用K-means算法、TopN方法对拥有相同兴趣的用户进行相关主题内容的推荐,能够敏感地对社交平台中主题的实时变化做出反馈,不仅能够准确高效地对用户和社交平台主题兴趣情况进行分析,更能够有针对性地挖掘相同兴趣的用户群体提供适当的定制化推荐服务。
本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (8)

1.基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,其特征是,包括以下步骤:
1)用户数据预处理阶段:
a)获取社交平台中用户发布的所有文本数据;
b)指定时间片长度,将用户的文本数据按照时间片划分为不同的文本集合;
c)结束;
2)用户兴趣发现阶段:
a)利用BTM生成历史时间上的用户兴趣分布;
b)根据用户历史兴趣分布和当前时间内文本内容利用主题追踪模型生成用户最新兴趣分布;
c)保存当前用户兴趣分布情况作为未来预测的历史数据;
d)结束;
3)用户推荐阶段:
a)利用K-means聚类算法得到兴趣类似用户群体;
b)利用TopN推荐算法为同一簇中的兴趣相似用户提供推荐;
c)结束。
2.根据权利要求1所述的基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,其特征在于,步骤1)-a中获取用户数据构造过程如下:
1)调用公开社交平台API编写网络爬虫,选择种子用户之后,在抓取种子用户所有文本数据的同时,获取种子用户的所有关注用户,并将其作为新的种子用户进行文本数据获取;
2)对于每一名用户设置唯一的user_id,且每一篇用户发布的文本(包括原创和转发)均记录其发布的时间戳timestamp,最后得到的是具有用户标识user_id和发布时间timestamp的每一条独立文本内容;
3)对文本进行数据预处理,通过HanLP进行分词操作,去除常用词语,并将词语数量小于等于2的文本剔除。
3.根据权利要求1所述的基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,其特征在于,步骤1)-b中时间片长度选择根据数据集大小以一个自然月或一个自然季度为长度进行划分,从基准时间开始用户的文本数据按照时间片划分为不同的文档集合。
4.根据权利要求1所述的基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,其特征在于,步骤2)-a中利用BTM模型分析某时间片上用户兴趣情况过程如下:
1)设置社交平台主题数目K,并跟设置方法的参数β=0.01;
2)根据多项分布选取主题z~Multi(θ),其中θ满足参数α的狄利克雷分布;
3)从用户文档中采样两个词wi,wj;且均满足与主题z的多项分布,将这两个词作为一个词对采样;
4)根据3)中采样结果和1)中设置的参数得到初始时间(即t=0)的用户兴趣分布θ0,u和词语主题分布计算公式为其中主题z的词对个数为nz,词对总数为|B|,采样得到的词语总数为M、主题z中词语w被采样的频次为nw|z,K、α和β在1)中设置。
5.根据权利要求1所述的基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,其特征在于,步骤2)-b中利用主题追踪模型生成用户最新兴趣分布构造过程如下:
1)获取2)-b中得到的用户u的前一个时间片t-1(t=1,2…)的兴趣分布θt-1,u和词语主题分布
2)根据当前时间片中新增的用户文本设置当前时间片的参数βt=0.01;
3)根据主题追踪模型,由θt-1,u和α的狄利克雷分布可以得到当前的用户兴趣分布结果θt,u,并根据和β计算得到当前词语主题分布结果计算公式为其中当前主题z的词对个数nt,z,当前主题z中词语w被采样的频次nt,w|z
6.根据权利要求1所述的基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,其特征在于,步骤2)-c中对之前得到的分布结果情况θt,u结果进行保存,作为步骤3)中进行用户兴趣推荐的依据,也作为下一时间段t+1的历史数据。
7.根据权利要求1所述的基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,步骤3)-a中K-means聚类算法具体过程如下(K为社交平台主题数目):
1)在预测集数据集中随机选取K个数据作为每个类别的初始聚簇中心;
2)以用户分布结果θt,u作为用户兴趣,根据欧氏公式数据分配在距离其最近的类簇,d(i,c)是数据i到中心点c的距离,Xi,k为数据i的属性k的值,n为属性个数并重新计算类簇中心点的值;
3)重复2)直到收敛,收敛函数为
8.根据权利要求1所述的基于历史文本数据并采用数据挖掘分析技术的社交用户兴趣推荐方法,步骤3)-b中为同一簇中的兴趣相似用户提供推荐过程如下:
1)规定在同一个类簇中的用户为当前具有相同兴趣的用户群体,在K个社交平台主题中选择每个用户在其对应主题中的TopN词语,K是社交平台主题数目其中N为选择的词语总数,预先设定;
2)根据同一类簇中所有用户的TopN词语,取其中在主题追踪模型中所属最多的主题,可以得到当前类簇对应的相关主题关键词,对同一类簇中用户进行相关主题的兴趣内容推荐。
CN201810472084.7A 2018-05-17 2018-05-17 一种基于历史数据的在线社交平台用户兴趣推荐方法 Withdrawn CN108717445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810472084.7A CN108717445A (zh) 2018-05-17 2018-05-17 一种基于历史数据的在线社交平台用户兴趣推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810472084.7A CN108717445A (zh) 2018-05-17 2018-05-17 一种基于历史数据的在线社交平台用户兴趣推荐方法

Publications (1)

Publication Number Publication Date
CN108717445A true CN108717445A (zh) 2018-10-30

Family

ID=63899814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810472084.7A Withdrawn CN108717445A (zh) 2018-05-17 2018-05-17 一种基于历史数据的在线社交平台用户兴趣推荐方法

Country Status (1)

Country Link
CN (1) CN108717445A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475638A (zh) * 2020-06-02 2020-07-31 北京邮电大学 一种兴趣挖掘方法及装置
CN111651675A (zh) * 2020-06-09 2020-09-11 杨鹏 一种基于ucl的用户兴趣主题挖掘方法及装置
CN112860883A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 电力工单短文本热点话题识别方法、装置及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447179A (zh) * 2015-12-14 2016-03-30 清华大学 基于微博社交网络的话题自动推荐方法及其系统
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447179A (zh) * 2015-12-14 2016-03-30 清华大学 基于微博社交网络的话题自动推荐方法及其系统
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOHUI YAN 等: "A Biterm Topic Model for Short Texts", 《ACM 》 *
赵玉琨: "短文本流中主题模型及其应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475638A (zh) * 2020-06-02 2020-07-31 北京邮电大学 一种兴趣挖掘方法及装置
CN111651675A (zh) * 2020-06-09 2020-09-11 杨鹏 一种基于ucl的用户兴趣主题挖掘方法及装置
CN111651675B (zh) * 2020-06-09 2023-07-04 杨鹏 一种基于ucl的用户兴趣主题挖掘方法及装置
CN112860883A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 电力工单短文本热点话题识别方法、装置及终端

Similar Documents

Publication Publication Date Title
CN104731954B (zh) 基于群透视音乐推荐方法与系统
CN107644089B (zh) 一种基于网络媒体的热门事件提取方法
CN102495872B (zh) 对移动设备用户进行个性化新闻推荐的方法和装置
CN108509534B (zh) 基于深度学习的个性化音乐推荐系统及其实现方法
CN104462560B (zh) 一种个性化推荐系统的推荐方法
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
CN104008138B (zh) 一种基于社交网络的音乐推荐方法
CN104166668B (zh) 基于folfm模型的新闻推荐系统及方法
CN105335491B (zh) 基于用户点击行为来向用户推荐图书的方法和系统
US20120174006A1 (en) System, method, apparatus and computer program for generating and modeling a scene
CN102654859A (zh) 一种歌曲推荐方法及系统
CN106846061A (zh) 潜在用户挖掘方法以及装置
CN105868267B (zh) 一种移动社交网络用户兴趣的建模方法
CN109710851A (zh) 基于互联网模式下多源数据分析的就业推荐方法及系统
CN105426514A (zh) 个性化的移动应用app推荐方法
CN106326413A (zh) 一种个性化视频推荐系统及方法
CN105843860B (zh) 一种基于并行item-based协同过滤算法的微博关注推荐方法
CN108717445A (zh) 一种基于历史数据的在线社交平台用户兴趣推荐方法
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN105740448B (zh) 面向话题的多微博时序文摘方法
CN106202073A (zh) 音乐推荐方法及系统
CN104899229A (zh) 基于群体智能的行为聚类系统
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN108710609A (zh) 一种基于多特征融合的社交平台用户信息的分析方法
CN105279289B (zh) 基于指数衰减窗口的个性化音乐推荐排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181030

WW01 Invention patent application withdrawn after publication