CN107357835B

CN107357835B - 一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统

Info

Publication number: CN107357835B
Application number: CN201710480529.1A
Authority: CN
Inventors: 张可; 王鹏; 谢文
Original assignee: Dongguan Huiyan Digital Technology Co ltd; University of Electronic Science and Technology of China
Current assignee: Dongguan Huiyan Digital Technology Co ltd; University of Electronic Science and Technology of China
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2020-11-03
Anticipated expiration: 2037-06-22
Also published as: CN107357835A

Abstract

本发明公开了一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统，涉及社交用户的兴趣预测领域；其方法包括：用户的兴趣周期性发现、用户的兴趣预测；一种基于主题模型和遗忘规律的兴趣预测挖掘系统，包括：兴趣周期性发现模块、用户的兴趣预测模块和数据显示模块。本发明实现社交网络中用户信息文本主旨的挖掘和用户兴趣的挖掘预测，并能够发现和预测用户兴趣爱好的走势，这对于网站的推荐效果将会有很大的提升，具有极高的商业应用价值。

Description

一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统

技术领域

本发明涉及社交用户的兴趣预测领域，尤其是一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统。

背景技术

LDA(Latent Dirichlet Allocation)是一种文档主题模型，它是一种发掘文档表达思想的主题模型，这个模型最终将文章所包含的多个语义以概率分布的形式呈现在结果中。艾宾浩斯遗忘曲线是由德国心理学家艾宾浩斯(H.Ebbinghaus)研究发现的，曲线表示了人记忆的规律，人们可以利用这个曲线，提升自己的记忆能力。

社交网络(Social Network)是人寄托和表达自己情感的地方，同时通过社交网络可以结交很多朋友。人们在社交网络上进行着内容的产生，同时也结交着兴趣相投的朋友。由于人们在社交网络中发掘朋友的能力有限，目前在社交网络中，进行好友推荐是由社交网站负责，并且如何更好的提升推荐准确度一直是社交网站的工作重点。此外，社交网站由于盈利的需要，也需要向用户推荐他可能感兴趣的事物，因此，获得用户的兴趣所在也是社交网络的关注点。

LDA(Latent Dirichlet Allocation)作为一个主题发掘模型可以很好的发现用户所要表达的主旨。

艾宾浩斯遗忘曲线作为一个记忆遗忘规律曲线，由于用户的兴趣可以作为用户的一个记忆，因此可以利用艾宾浩斯遗忘曲线很好的发现用户某时刻很感兴趣的兴趣爱好。

由于记忆有着记忆的周期。因此，获得用户的兴趣周期，并在此基础上进行用户兴趣的挖掘，对接下来进行的好友推荐和兴趣针对推荐有着重要意义。

但在现在的社交网络中，在给用户推荐好友时，多是依靠用户之间的联系(即共同好友)和用户提及的关键字。由于用户文本信息的内容多样性，可能文本的主旨和关键字有着偏差。并且现在的推荐算法在向用户推荐感兴趣的事物时过多的在意用户当前关注的点，而忽视了用户一直存在的兴趣爱好和可能潜在的兴趣爱好。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于主题模型和遗忘规律的兴趣预测挖掘方法及系统，实现社交网络中用户信息文本主旨的挖掘和用户兴趣的挖掘预测，并能够发现和预测用户兴趣爱好的走势，这对于网站的推荐效果将会有很大的提升，具有极高的商业应用价值。

本发明的目的是通过以下技术方案来实现的：一种基于主题模型和遗忘规律的兴趣预测挖掘方法，它具体包括如下步骤：

S001用户的兴趣周期性发现：确定待测事件，通过该事件发生后的关注度的走势曲线得到兴趣周期，即用户兴趣的产生周期天数；

S002用户的兴趣预测：将用户最近的用户文档以兴趣周期为分段间隔分为N个周期文档，以最近一个兴趣周期的用户文档为数据基础建立LDA主题模型，将N个兴趣周期的用户文档输入已建立的主题模型，并获得主题模型上的概率分布，对N个兴趣周期的概率分布进行加权处理，对最终结果进行加权并得到最终预测的兴趣概率。

进一步的，所述的步骤S002具体包括如下子步骤：

S201确定用户兴趣周期的天数；

S202确定遗忘曲线记忆时间为N个阶段；

S203判断是否存在兴趣召回，若存在兴趣召回，则在用户文档中和主题模型概率分布中有明确周期性显示，不考虑用户兴趣召回会带来的影响；若不存在兴趣召回，则在其余周期的主题模型概率分布中，主题概率将会特别低，容易判定兴趣为突发兴趣；

进一步的，所述的突发兴趣由于无法预知用户未来时间内的兴趣是否会跟随突发兴趣改变，且用户的兴趣中一直包含着长期兴趣，故不考虑突发兴趣带来的影响；

S204将用户最近的用户文档以艾宾浩斯遗忘曲线记忆时间的阶段数为分段间隔，分为N个周期文档；

S205将所有的周期文档去除停用词；

S206将距离当前时间最近的一个用户周期文档作为LDA主题模型的输入文档，建立LDA主题模型；

S207其余N-1个周期的文档输入已建好的主题模型，并获得在这个主题模型上的兴趣概率分布；

S208对兴趣进行类别判定；

S209对N个兴趣周期的概率分布进行加权处理，由于在艾宾浩斯遗忘曲线中，第六阶段和第五阶段的时间间隔很大，但记忆量比例差别很小，故可以认为第五阶段之后用户的记忆不会发生衰减，实际过程中可以取N值为5，最终获得加权后的概率分布；

S210对最终结果进行加权，由于预测的是下一周期，所以兴趣也会按照艾宾浩斯遗忘曲线进行迭代，并得到最终预测的兴趣概率。

进一步的，所述的S208对兴趣进行类别判定，是对比距离当前时间最近的两个周期的文档体现出的概率分布，获得相同兴趣的概率分布差绝对值，在两个周期的相同兴趣概率分布中，若获得的概率分布差绝对值是两个周期兴趣概率分布值中较小值的两倍及以上，则这个兴趣为新兴兴趣或突发兴趣。

一种基于主题模型和遗忘规律的兴趣预测挖掘系统，它包括用户的兴趣周期性发现模块、用户的兴趣预测模块和数据显示模块；

所述的兴趣周期性发现模块，确定待测事件，通过该事件发生后的关注度的走势曲线得到兴趣周期，即用户兴趣的产生周期天数；

所述的用户的兴趣预测模块，将用户最近的用户文档以兴趣周期为分段间隔分为N个周期文档，以最近一个兴趣周期的用户文档为数据基础建立LDA主题模型，将N个兴趣周期的用户文档输入已建立的主题模型，并获得主题模型上的概率分布，对N个兴趣周期的概率分布进行加权处理，对最终结果进行加权并得到最终预测的兴趣概率；

所述的数据显示模块，将处理后的数据进行呈现。

一种终端电子设备，包括：

处理器，用于执行程序；

存储器，用于存储由处理器执行的程序，其中所述程序在执行时包括以下步骤：

S002用户的兴趣预测：将用户最近的用户文档以兴趣周期为分段间隔分为N个周期文档，以最近一个兴趣周期的用户文档为数据基础建立LDA主题模型，将N个兴趣周期的用户文档输入已建立的主题模型，并获得主题模型上的概率分布，对N个兴趣周期的概率分布进行加权处理，对最终结果进行加权并得到最终预测的兴趣概率；

所述的步骤S002具体包括如下子步骤：

S201确定用户兴趣周期的天数；

S202确定遗忘曲线记忆时间为N个阶段；

S205将所有的周期文档去除停用词；

S208对兴趣进行类别判定；

一种计算机可读存储介质，所述的计算机可读存储介质存储有计算机程序，它具体包括如下步骤：

所述的步骤S002具体包括如下子步骤：

S201确定用户兴趣周期的天数；

S202确定遗忘曲线记忆时间为N个阶段；

S205将所有的周期文档去除停用词；

S208对兴趣进行类别判定；

本发明的有益效果是：本发明实现社交网络中用户信息文本主旨的挖掘和用户兴趣的挖掘预测，并能够发现和预测用户兴趣爱好的走势，这对于网站的推荐效果将会有很大的提升，具有极高的商业应用价值。

附图说明

图1为用户的兴趣周期性发现一个实施例中关注度的走势曲线示意图；

图2为用户的兴趣周期性发现一个实施例中关注度的走势曲线示意图；

图3为一种基于主题模型和遗忘规律的兴趣预测挖掘方法一个实施例的流程图；

图4为一种基于主题模型和遗忘规律的兴趣预测挖掘系统一个实施例的系统框架图。

具体实施方式

下面将详细描述本发明的具体实施例，应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。在以下描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的电路，软件或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。

如图1和2所示，用户的兴趣周期发现：

用户的兴趣产生过程和记忆的过程十分的相似，用户发现一个新的兴趣就如同用户记忆一个事物，用户接下来遗忘这个兴趣将会和记忆遗忘有着相同的规律。因为兴趣本来就是一个记忆。

所以发现用户的兴趣产生周期是进行用户爱好程度掌控的关键，由于应用的场景是社交网络，所有探究的兴趣产生是基于网络的。当某个非炒作性突发事件产生时，这个事件的发展轨迹就是用户兴趣的产生轨迹，因为这个事件只要出现在用户眼前就代表它在主动加深用户的印象。

以“顺丰上市”这个突发性事件为例，它发生后便在网络上产生了极大的关注度，它在发生后引发关注至关注下降的走势曲线可以清楚的从下图中显示出来。

通过图可以得出，前三天是关注的上升期，且第三天的时候达到了关注的最高点。之后的三天关注度下降，第三天关注度近乎平常。

所以得出网络用户兴趣的产生周期为6天。

如图3所示，用户的兴趣预测：

在艾宾浩斯遗忘曲线中，总共分为了7个时间段，每个时间段的记忆比重有着对应的权重。用户每个时段的兴趣存在于用户那个时段产生的文本中。因此，本算法采取的策略步骤如下：

(1)由于百度指数曲线中体现出的第五第六个时间段记忆量接近，所以确定用户兴趣周期为6天。

(2)由于艾宾浩斯遗忘曲线中，第六和第七阶段记忆比例非常接近，并且两个阶段的时间差也很大，所以认为这一阶段的记忆比例趋于稳定，且第一个阶段为刚记忆完，所以确定遗忘曲线记忆时间为5个阶段。

(3)用户兴趣召回属于突发事件，如果兴趣召回，则会在用户文档中有明确周期性显示。所以，不考虑用户兴趣召回会带来的影响。

(4)用户最近的用户文档以兴趣周期为分段间隔，分为5个周期文档。

(5)所有的周期文档进行自然语言处理，去除停用词。

(6)离当前时间最近的用户周期文档作为LDA主题模型的输入文档，进行LDA主题模型的建立。

(7)其余四个周期的文档输入建立好的主题模型，获得在这个主题模型上的兴趣概率分布。

(8)对比离当前时间最近的两个周期的文档体现出的概率分布，若相同兴趣的概率分布差别较大，则这个兴趣为新兴兴趣或突发兴趣。

(9)按照艾宾浩斯遗忘曲线遗忘规律，对5个兴趣周期的概率分布进行加权处理，获得加权后的概率分布，计算公式如下：

P＝P₁*0.278+P₂*0.337+P₃*0.358

+P₄*0.442+P₅*0.582

其中，P₁、P₂、P₃、P₄、P₅分别为五个周期的用户兴趣概率，按离主题模型文档的时间由远及近进行编号。

(10)用户的兴趣也会随着艾宾浩斯遗忘曲线进行迭代，所以需要对最终结果进行加权，加权公式为：

P`＝P*0.582

加权后的概率即为最终预测的兴趣概率。

本文按照上述策略进行概率预测，获得的结果可以很好的得到用户的下一阶段的兴趣概率分布，并发现用户的新的兴趣和兴趣集中点。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于主题模型和遗忘规律的兴趣预测挖掘方法，其特征在于，它具体包括如下步骤：

所述的步骤S002具体包括如下子步骤：

S201确定用户兴趣周期的天数；

S202确定遗忘曲线记忆时间为N个阶段；

S203判断是否存在兴趣召回，若存在兴趣召回，则在用户文档中和主题模型概率分布中有明确周期性显示，不考虑用户兴趣召回会带来的影响；若不存在兴趣召回，则在其余周期的主题模型概率分布中，判定兴趣为突发兴趣；

S205将所有的周期文档去除停用词；

S208对兴趣进行类别判定；

2.根据权利要求1所述的一种基于主题模型和遗忘规律的兴趣预测挖掘方法，其特征在于：所述的S208对兴趣进行类别判定，是对比距离当前时间最近的两个周期的文档体现出的概率分布，获得相同兴趣的概率分布差绝对值，在两个周期的相同兴趣概率分布中，若获得的概率分布差绝对值是两个周期兴趣概率分布值中较小值的两倍及以上，则这个兴趣为新兴兴趣或突发兴趣。

3.一种基于主题模型和遗忘规律的兴趣预测挖掘系统，采用如权利要求1-2任意一项所述的基于主题模型和遗忘规律的兴趣预测挖掘方法，其特征在于，它包括用户的兴趣周期性发现模块、用户的兴趣预测模块和数据显示模块；

所述的数据显示模块，将处理后的数据进行呈现。

4.一种终端电子设备，包括：

处理器，用于执行程序；

所述的步骤S002具体包括如下子步骤：

S201确定用户兴趣周期的天数；

S202确定遗忘曲线记忆时间为N个阶段；

S205将所有的周期文档去除停用词；

S208对兴趣进行类别判定；

5.一种计算机可读存储介质，所述的计算机可读存储介质存储有计算机程序，其特征在于，该程序被执行时实现以下步骤：

S201确定用户兴趣周期的天数；

S202确定遗忘曲线记忆时间为N个阶段；

S205将所有的周期文档去除停用词；

S208对兴趣进行类别判定；