CN109902214B - 一种基于改进PageRank算法的用户偏好挖掘方法 - Google Patents
一种基于改进PageRank算法的用户偏好挖掘方法 Download PDFInfo
- Publication number
- CN109902214B CN109902214B CN201910118231.5A CN201910118231A CN109902214B CN 109902214 B CN109902214 B CN 109902214B CN 201910118231 A CN201910118231 A CN 201910118231A CN 109902214 B CN109902214 B CN 109902214B
- Authority
- CN
- China
- Prior art keywords
- interest
- point
- user
- points
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于改进PageRank算法的用户偏好挖掘方法,利用用户的历史上网日志数据,通过改进的PageRank算法挖掘用户的偏好,能够提高用户偏好挖掘的准确率与召回率。该方法包括以下步骤:检查输入数据格式,提取用户上网过程中的兴趣点集合和上网时长集合;分析兴趣点集合和上网时长集合,确定用户访问兴趣点的频次、时长以及自转移参数;以兴趣点的频次、时长以及自转移参数为输入,通过自定义函数计算用户对兴趣点的关注度;将用户对兴趣点的关注度引入到PageRank算法中,计算每个兴趣点的IR值(兴趣点重要性得分,值域为0‑1);对兴趣点的IR值进行迭代计算,当满足迭代终止条件时,输出所有兴趣点的IR值;最后选取IR值靠前的Top‑K个兴趣点作为用户偏好。
Description
技术领域
本发明属于用户偏好挖掘技术领域,涉及一种基于改进PageRank算法的用户偏好挖掘方法。
背景技术
用户偏好挖掘是用户画像领域的重要研究内容。用户画像是用户真实数据的虚拟代表,是具有相似背景、兴趣、行为的用户群在使用某一产品或者服务时所呈现出的共同特征集合。用户偏好挖掘是用户画像中不可缺少的一部分,通过挖掘用户偏好能使用户画像更加完善与饱满,能为行业进行精准营销、产品的设计、规划发展以及制定发展策略提供数据支撑。
目前用户偏好挖掘主要是通过分析用户的上网日志数据,寻找用户的关注点,从而实现偏好的挖掘。挖掘的方法有频次分析法、基于关联规则的Apriori算法等。其中频次分析法,是通过统计用户上网过程中访问兴趣点的频次,筛选频次高的兴趣点作为用户偏好,这种分析方法很简单,但是没有考虑兴趣点之间的可能存在的关系;基于关联规则的Apriori算法是通过在大规模的兴趣点中,通过建立频繁项集和关联规则,频繁项集是指经常一并出现的兴趣点集合,关联规则可利用频繁项集通过可信度筛选获得,最终根据用户经常访问的兴趣点和关联规则挖掘用户的偏好,该算法基于大规模数据集构建关联规则,但是由于用户是独立的个体,一项规则不能适用于所有用户,具有局限性。
对此,本发明提供了一种基于改进PageRank算法的用户偏好挖掘方法。在经典的PageRank算法中,融入了用户访问兴趣点的频次、时长以及兴趣点自转移三个因子,既考虑了用户上网过程中兴趣点的转移过程,又考虑了用户对兴趣点的关注度,能提高用户偏好挖掘的准确率和召回率。
发明内容
针对现有方法的缺陷和不足,本发明提出了一种基于改进PageRank算法的用户偏好挖掘方法,利用用户的上网日志数据,进行用户偏好的挖掘,能提高用户偏好挖掘的准确率和召回率。
为达到上述目的,本发明提供如下技术方案:
一种基于改进PageRank算法的用户偏好挖掘方法,包括如下步骤:
步骤S1:检查输入数据格式:将用户上网日志数据按照产生的时间顺序,解析为兴趣点集合[P1,P2,P3……Pm]和上网时长集合[T1,T2,T3……Tm],上网日志数据中的一条URL对应一个兴趣点以及上网时长;
步骤S2:分析兴趣点集合,获取用户上网过程中访问不同兴趣点的频次fi,对每个兴趣点的频次利用最大最小值归一化方法进行归一化,得到兴趣点的访问频次参数Fi;
步骤S3:分析兴趣点集合,获取用户上网过程中不同兴趣点的自转移参数Ki,自转移是指用户从兴趣点A转移到兴趣点A,即用户在访问兴趣点A时发生了一次自转移;
步骤S4:分析上网时长集合,统计用户访问不同兴趣点的时长gi,对每个兴趣点的时长利用最大最小值归一化方法进行归一化,得到兴趣点的访问时长参数Gi;
步骤S5:利用兴趣点的访问频次参数Fi、兴趣点的访问时长参数Gi、兴趣点的自转移参数Ki,计算兴趣点关注度UA值;
步骤S6:兴趣点IR值的初始化:以兴趣点Pi为例,设置链接值IR_L(Pi)的初始值为1/N,其中N表示上网过程中不同兴趣点的个数,并计算兴趣点IR值;
步骤S7:兴趣点IR值的迭代:更新兴趣点链接值IR_L(Pi),并依据步骤S6重新计算兴趣点IR值;
步骤S8:对比迭代前后两次IR值,判断是否满足迭代终止条件,如满足条件则输出不同兴趣点的IR值,不满足则继续迭代;
步骤S9:按照兴趣点的IR值对兴趣点排序,选取前Top-K个兴趣点作为用户的偏好。
进一步,步骤S3所述的自转移参数Ki,计算公式如下:
其中α为设置的参数,x表示兴趣点Pi最大连续自转移次数。
进一步,步骤S5所述的UA值,其计算公式如下:
UA(Pi)=max(Fi,Gi,Ki)
其中Fi为步骤S2所述的兴趣点访问频次参数,Gi为步骤S4所述的兴趣点访问时长参数,Ki为步骤S3所述的兴趣点自转移参数。
进一步,步骤S6所述的IR值,其计算公式如下:
IR(Pi)=δ×IR_L(Pi)+ε×UA(Pi)
其中δ和ε为设置的参数,IR_L(Pi)为步骤S7所述的兴趣点链接值,UA(Pi)为步骤S5所述的兴趣点关注度。
进一步,步骤S7更新兴趣点链接值IR_L(Pi),公式如下:
其中d是阻尼系数,Z(Pi)表示转移到兴趣点Pi的兴趣点集合,Link(Pj)表示集合Z(Pi)的大小;
并依据步骤S6中的公式重新计算兴趣点IR值。
进一步,步骤S8中迭代终止条件为:
1)迭代前后每个兴趣点的IR值误差小于自定义误差阈值б;
2)迭代次数超过了自定义的迭代次数阈值。
本发明的有益效果在于:用户的上网过程中产生的连续地多条上网日志数据并不是完全不相关的,前后访问的兴趣点的关系可能为属种关系、交叉关系、全异关系等,同时用户对每个兴趣点的访问时长、频次都不相同。本发明提供的基于改进PageRank算法的用户偏好挖掘方法,利用PageRank算法在排序时考虑被排序内容之间存在的相互链接关系的特性,并融入了用户访问兴趣点的时长、频次、自转移三个因子,挖掘用户的偏好,提高了用户偏好挖掘的准确率和召回率。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为基于改进PageRank算法的用户偏好挖掘方法流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
参照图1,一种基于改进PageRank算法的用户偏好挖掘方法,包括以下步骤:
步骤S1:检查输入数据格式:将用户上网日志数据按照产生的时间顺序,解析为兴趣点(Points of Interest)集合[P1,P2,P3……Pm]和上网时长集合[T1,T2,T3……Tm],上网日志数据中的一条URL对应一个兴趣点以及上网时长;
步骤S2:分析兴趣点集合,获取用户上网过程中访问不同兴趣点的频次fi,对每个兴趣点的频次利用最大最小值归一化方法进行归一化,得到兴趣点的访问频次参数Fi,计算公式如下:
其中fi表示上网过程中访问兴趣点Pi的频次,min(f)表示所有兴趣点被访问的最少频次,max(f)表示所有兴趣点被访问的最多频次。
步骤S3:分析兴趣点集合,获取用户上网过程中不同兴趣点的自转移参数Ki,自转移是指用户从兴趣点A转移到兴趣点A,即用户在访问兴趣点A时发生了一次自转移,其计算公式如下:
其中α为设置的参数,x表示兴趣点Pi最大连续自转移次数;
步骤S4:分析上网时长集合,统计用户访问不同兴趣点的时长gi,对每个兴趣点的时长利用最大最小值归一化方法进行归一化,得到兴趣点的访问时长参数Gi,其计算公式如下:
其中gi表示上网过程中访问兴趣点Pi的时长,min(g)表示所有兴趣点被访问的最短时长,max(g)表示所有兴趣点被访问的最长时长;
步骤S5:利用兴趣点的访问频次参数Fi、兴趣点的访问时长参数Gi、兴趣点的自转移参数Ki,计算兴趣点关注度UA值,计算公式如下:
UA(Pi)=max(Fi,Gi,Ki)
步骤S6:兴趣点IR值的初始化:以兴趣点Pi为例,设置链接值IR_L(Pi)的初始值为1/N,其中N表示上网过程中不同兴趣点的个数,并计算兴趣点IR值,其计算公式如下:
IR(Pi)=δ×IR_L(Pi)+ε×UA(Pi)
其中δ和ε为设置的参数。
步骤S7:兴趣点IR值的迭代:更新兴趣点链接值IR_L(Pi),公式如下:
其中d是阻尼系数,Z(Pi)表示转移到兴趣点Pi的兴趣点集合,Link(Pj)表示集合Z(Pi)的大小。
并依据步骤S6中的公式重新计算兴趣点IR值。
步骤S8:对比迭代前后两次IR值,判断是否满足迭代终止条件,如满足条件则输出不同兴趣点的IR值,不满足则继续迭代。迭代终止条件为:
1)迭代前后每个兴趣点的IR值误差小于自定义误差阈值б;
2)迭代次数超过了自定义的迭代次数阈值。
步骤S9:按照兴趣点的IR值对兴趣点排序,选取前Top-K个兴趣点作为用户的偏好。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (4)
1.一种基于改进PageRank算法的用户偏好挖掘方法,其特征在于:包括如下步骤:
步骤S1:检查输入数据格式:将用户上网日志数据按照产生的时间顺序,解析为兴趣点集合[P1,P2,P3……Pm]和上网时长集合[T1,T2,T3……Tm],上网日志数据中的一条URL对应一个兴趣点以及上网时长;
步骤S2:分析兴趣点集合,获取用户上网过程中访问不同兴趣点的频次fi,对每个兴趣点的频次利用最大最小值归一化方法进行归一化,得到兴趣点的访问频次参数Fi;
步骤S3:分析兴趣点集合,获取用户上网过程中不同兴趣点的自转移参数Ki,自转移是指用户从兴趣点A转移到兴趣点A,即用户在访问兴趣点A时发生了一次自转移;
步骤S4:分析上网时长集合,统计用户访问不同兴趣点的时长gi,对每个兴趣点的时长利用最大最小值归一化方法进行归一化,得到兴趣点的访问时长参数Gi;
步骤S5:利用兴趣点的访问频次参数Fi、兴趣点的访问时长参数Gi、兴趣点的自转移参数Ki,计算兴趣点关注度UA值;
步骤S6:兴趣点IR值的初始化:以兴趣点Pi为例,设置链接值IR_L(Pi)的初始值为1/N,其中N表示上网过程中不同兴趣点的个数,并计算兴趣点IR值,其计算公式如下:
IR(Pi)=δ×IR_L(Pi)+ε×UA(Pi)
其中δ和ε为设置的参数,IR_L(Pi)为步骤S7所述的兴趣点链接值,UA(Pi)为步骤S5所述的兴趣点关注度;
步骤S7:兴趣点IR值的迭代:更新兴趣点链接值IR_L(Pi),公式如下:
其中d是阻尼系数,Z(Pi)表示转移到兴趣点Pi的兴趣点集合,Link(Pj)表示集合Z(Pi)的大小;
并依据步骤S6的公式重新计算兴趣点IR值;
步骤S8:对比迭代前后两次IR值,判断是否满足迭代终止条件,如满足条件则输出不同兴趣点的IR值,不满足则继续迭代;
步骤S9:按照兴趣点的IR值对兴趣点排序,选取前Top-K个兴趣点作为用户的偏好。
3.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法,其特征在于:步骤S5所述的UA值,其计算公式如下:
UA(Pi)=max(Fi,Gi,Ki)
其中Fi为步骤S2所述的兴趣点访问频次参数,Gi为步骤S4所述的兴趣点访问时长参数,Ki为步骤S3所述的兴趣点自转移参数。
4.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法,其特征在于:步骤S8中迭代终止条件为:
1)迭代前后每个兴趣点的IR值误差小于自定义误差阈值б;
2)迭代次数超过了自定义的迭代次数阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910118231.5A CN109902214B (zh) | 2019-02-15 | 2019-02-15 | 一种基于改进PageRank算法的用户偏好挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910118231.5A CN109902214B (zh) | 2019-02-15 | 2019-02-15 | 一种基于改进PageRank算法的用户偏好挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902214A CN109902214A (zh) | 2019-06-18 |
CN109902214B true CN109902214B (zh) | 2021-06-08 |
Family
ID=66944772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910118231.5A Active CN109902214B (zh) | 2019-02-15 | 2019-02-15 | 一种基于改进PageRank算法的用户偏好挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902214B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190585A (zh) * | 2021-04-12 | 2021-07-30 | 郑州轻工业大学 | 一种服装设计的大数据采集分析系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1710560A (zh) * | 2005-06-22 | 2005-12-21 | 浙江大学 | 基于链接分析的个性化搜索引擎方法 |
CN102651005A (zh) * | 2011-02-24 | 2012-08-29 | 北京千橡网景科技发展有限公司 | 兴趣点搜索方法以及设备 |
CN108228593A (zh) * | 2016-12-13 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 兴趣点重要度测量方法和装置 |
CN108664552A (zh) * | 2018-04-02 | 2018-10-16 | 拉扎斯网络科技(上海)有限公司 | 一种用户偏好挖掘方法及装置 |
CN109190053A (zh) * | 2018-07-04 | 2019-01-11 | 南京邮电大学 | 一种基于兴趣点重要性和用户权威性的兴趣点推荐方法 |
CN109271584A (zh) * | 2018-08-29 | 2019-01-25 | 杭州电子科技大学 | 基于改进版PageRank以及综合影响力的推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9355227B2 (en) * | 2014-06-30 | 2016-05-31 | Konica Minolta Laboratory U.S.A., Inc. | Dynamic document display personalization implemented in a digital rights management system |
-
2019
- 2019-02-15 CN CN201910118231.5A patent/CN109902214B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1710560A (zh) * | 2005-06-22 | 2005-12-21 | 浙江大学 | 基于链接分析的个性化搜索引擎方法 |
CN102651005A (zh) * | 2011-02-24 | 2012-08-29 | 北京千橡网景科技发展有限公司 | 兴趣点搜索方法以及设备 |
CN108228593A (zh) * | 2016-12-13 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 兴趣点重要度测量方法和装置 |
CN108664552A (zh) * | 2018-04-02 | 2018-10-16 | 拉扎斯网络科技(上海)有限公司 | 一种用户偏好挖掘方法及装置 |
CN109190053A (zh) * | 2018-07-04 | 2019-01-11 | 南京邮电大学 | 一种基于兴趣点重要性和用户权威性的兴趣点推荐方法 |
CN109271584A (zh) * | 2018-08-29 | 2019-01-25 | 杭州电子科技大学 | 基于改进版PageRank以及综合影响力的推荐方法 |
Non-Patent Citations (1)
Title |
---|
基于个人兴趣和反馈技术的PageRank算法研究;王小玲等;《合肥工业大学学报(自然科学版)》;20060331;第29卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109902214A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019085275A1 (zh) | 一种字符串分类方法、系统及一种字符串分类设备 | |
US7827025B2 (en) | Efficient capitalization through user modeling | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN104778256B (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN111444298B (zh) | 一种基于兴趣点知识图谱预训练的地址匹配算法 | |
CN111222976B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN111400612B (zh) | 一种融合社交影响和项目关联的个性化推荐方法 | |
CN111797321A (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
CN105809473A (zh) | 匹配模型参数的训练方法、服务推荐方法及对应装置 | |
CN105069072A (zh) | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 | |
CN106557777A (zh) | 一种基于SimHash改进的Kmeans聚类方法 | |
CN112102029B (zh) | 一种基于知识图谱的长尾推荐计算方法 | |
CN113011194B (zh) | 融合关键词特征和多粒度语义特征的文本相似度计算方法 | |
CN109902214B (zh) | 一种基于改进PageRank算法的用户偏好挖掘方法 | |
CN112396492A (zh) | 基于图注意力网络和双向长短期记忆网络的会话推荐方法 | |
CN115062732A (zh) | 基于大数据用户标签信息的资源共享合作推荐方法及系统 | |
CN107844580A (zh) | 一种搜索词匹配方法 | |
CN111026868A (zh) | 一种多维度舆情危机预测方法、终端设备及存储介质 | |
CN112800207A (zh) | 一种商品信息推荐方法、装置及存储介质 | |
CN105426382B (zh) | 一种基于Personal Rank的情绪上下文感知的音乐推荐方法 | |
US20220261406A1 (en) | Methods and apparatus for improving search retrieval | |
CN108595515A (zh) | 一种结合微博弱关系的微博情感分析方法 | |
CN115063604B (zh) | 特征提取模型训练、目标重识别方法及装置 | |
CN110837845A (zh) | 一种基于改进网格搜索算法的svm参数优化方法 | |
CN116127178A (zh) | 基于属性多重异构信息网络的网络文章影响力评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |