CN110874441B - 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 - Google Patents
结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 Download PDFInfo
- Publication number
- CN110874441B CN110874441B CN202010056736.6A CN202010056736A CN110874441B CN 110874441 B CN110874441 B CN 110874441B CN 202010056736 A CN202010056736 A CN 202010056736A CN 110874441 B CN110874441 B CN 110874441B
- Authority
- CN
- China
- Prior art keywords
- interest
- user
- time
- forgetting
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 25
- 230000006993 memory improvement Effects 0.000 title claims abstract description 18
- 230000006399 behavior Effects 0.000 claims abstract description 109
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 238000010276 construction Methods 0.000 claims description 68
- 238000012937 correction Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000011161 development Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 230000006883 memory enhancing effect Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 11
- 238000011160 research Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 5
- 239000013589 supplement Substances 0.000 description 5
- 230000000630 rising effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000003989 repetitive behavior Effects 0.000 description 2
- 208000013406 repetitive behavior Diseases 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种结合记忆遗忘和记忆增强的用户兴趣分析方法及系统,包括:通过遗忘系数和增强系数结合收视行为指标构建兴趣模型;采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;通过用户收视行为指标在设定时间段内的衰减规律获得遗忘系数;通过用户收视行为指标在设定时间段内的重复获得增强系数;将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。上述方法及系统将记忆遗忘和记忆增强过程相融合,能够更加精准地获得用户兴趣。
Description
技术领域
本发明涉及用户兴趣分析技术领域,更具体地,涉及一种结合记忆遗忘和记忆增强的用户兴趣分析方法及系统。
背景技术
随着互联网和新媒体的快速发展,媒体资源日益丰富,观众的选择也越来越多,用户的行为背后隐藏着用户的收视习惯,基于此的用户兴趣研究对于深入了解用户并继而为用户提供个性化的媒体服务有着重要价值,其中基于用户行为分析的兴趣模型构建是该领域最主要的研究方法。
兴趣模型建模的研究最早始于信息检索领域,通过对用户在某个时间周期内相对稳定的信息需求进行形式化描述以表征用户兴趣。根据这一时间周期的长短,用户兴趣分析可分为短期兴趣建模和长期兴趣建模两类。其中前者主要集中于对时间窗口的研究,如固定时间窗口的兴趣漂移和自适应时间窗口算法等,由于短期兴趣的研究受到时间因素的限制无法描述长时间内用户的兴趣变化,因此后来大量的科研精力都被投入到长期兴趣建模中,这个过程中记忆理论受到了学者的大量关注。德国心理学家艾宾浩斯通过实验提出的遗忘曲线反映了人类记忆随时间推移先快后慢衰减的规律,这一规律常常被应用于对用户的兴趣研究中,通过拟合不同形式的遗忘函数,这一理论在教育、交通、生物医学、推荐系统等各个领域都取得了良好的应用效果。然而人类记忆也会随着重复行为产生兴趣增强,针对这一领域目前少有学者研究,因此如何提炼记忆增强规律,并将之与记忆遗忘规律结合以实现基于用户行为的更合理的用户兴趣描述研究是十分有必要的。
发明内容
鉴于上述问题,本发明提供一种通过分步累积增强的方式将记忆遗忘和记忆增强过程相融合,以更精准地获得用户兴趣的结合记忆遗忘和记忆增强的用户兴趣分析方法及系统。
根据本发明的一个方面,提供一种结合记忆遗忘和记忆增强的用户兴趣分析方法,包括:
通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
通过用户收视行为在设定时间段内的重复行为获得增强系数;
将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
优选地,所述通过用户收视行为在设定时间段内的衰减规律获得遗忘系数的步骤包括:通过记忆遗忘曲线获得遗忘系数。
进一步,优选地,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:
通过下式获得遗忘系数
此外,优选地,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:
通过下式获得遗忘系数
优选地,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:
通过下式获得增强系数
优选地,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:
通过下式获得增强系数
优选地,所述通过遗忘系数和增强系数结合收视行为指标构建兴趣模型的步骤还包括:
设置有效时间窗口,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
优选地,还包括:
进一步,优选地,还包括:
根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低。
此外,优选地,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间,其中,
所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括以下一种或两种,其中,第一种获取方法包括:
根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期;
根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗;
其中,第二种获取方法包括:
通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
此外,优选地,还包括:
采用用户历史收视数据一部分作为训练集,一部分作为测试集;
通过训练集获得最佳兴趣构建期和最佳记忆时间窗;
通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。
优选地,所述最佳兴趣构建期不小于15倍的单位时间,所述最佳记忆时间窗不小于6倍的单位时间。
优选地,所述采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标的步骤包括:
采集用户设定时间段的收视数据:
筛选出收视数据为零对应的单位时间;
对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
根据本发明的另一个方面,提供一种结合记忆遗忘和记忆增强的用户兴趣分析系统,包括:
模型构建模块,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
采集模块,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
遗忘系数获得模块,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
增强系数获得模块,通过用户收视行为在设定时间段内的重复行为获得增强系数;
兴趣值获得模块,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
优选地,所述遗忘系数获得模块通过下式获得遗忘系数
优选地,所述增强系数获得模块通过下式获得增强系数
优选地,所述模型构建模块包括:
窗口设置单元,设置有效时间窗口,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间;
模型构建单元,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
优选地,还包括以下模块中的一个或多个:
参数估计模块,采用最小二乘法对兴趣模型中的参数进行参数估计;
预测模块,根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低;
校正模块,对采集模块采集的数据进行零值校正,包括筛选单元以及均值补充单元或/和顺延补位单元,其中,所述筛选单元筛选出收视数据为零对应的单位时间;所述均值补充单元将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;所述顺延补位单元对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
上述用户兴趣的结合记忆遗忘和记忆增强的用户兴趣分析方法及系统结合记忆遗忘和记忆增强,实现对用户兴趣更精准的描述,从而对用户行为进行预测,为用户的节目推荐、广告投放等个性化服务提供决策的理论依据。
附图说明
图1是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析方法的流程图的示意图;
图2是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析系统构成框图的示意图;
图3是最佳兴趣构建期与平均相对误差的关系图;
图4a和4b是兴趣构建期和最佳记忆时间窗的关系图;
图5a和5b是类用户的遗忘曲线和增强曲线的坐标图;
图6a和6b是本发明零值校正方法的示意图。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
下面将参照附图来对根据本发明的各个实施例进行详细描述。
图1是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析方法的流程图的示意图,如图1所示,所述用户兴趣分析方法包括:
步骤S1,通过遗忘系数和增强系数结合收视行为指标通过下式(1)构建兴趣模型
步骤S2,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻,可以以天为单位,也可以以小时或几个小时或几天或秒为单位,所述收视指标可以是收视时长、收视频次等评价用户收视偏好的收视指标;
步骤S3,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
步骤S4,通过用户收视行为在设定时间段内的重复行为获得增强系数;
步骤S5,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
在步骤S2中,优选地,还包括:
采集用户设定时间段的收视数据:
筛选出收视数据为零对应的单位时间;
对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法是对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
在步骤S3中,通过用户收视行为在设定时间段内的衰减规律获得用户记忆遗忘曲线,从而获得遗忘系数,例如,通过艾宾浩斯给出的经典记忆遗忘曲线获得遗忘系数。
在一个可选实施例中,通过下式(2)获得遗忘系数
在一个优选实施例中,通过下式(3)获得遗忘系数
在一个实施例中,在步骤S4中,通过下式(4)获得增强系数
在一个优选实施例中,通过下式(5)获得增强系数
上述由遗忘系数给出的遗忘模型和由增强系数给出的增强模型是相互独立的。
在增强模型方面,领域内少有学者进行相关研究且并无成熟的增强理论可供直接引用,因此本发明通过将艾宾浩斯实验中字母间距的概念转换为收视行为的时间间隔,再结合已有的遗忘衰减规律,可以得到一组反映不同时间间隔下重复行为所产生的不同兴趣增强程度的数据如表1所示:
表1
从上表中可知,增强数据结合记忆衰减规律后的计算结果和真实数据的误差在3%以下,因此可认为该数据在反映用户重复行为的兴趣增强方面是可靠的,基于此,可以得到一个线型分段形式的增强模型如公式(4)所示。
为方便增强模型在兴趣模型中的应用,根据公式(4),进一步拟合(例如最小二乘法拟合)出一个形式更为简洁、描述更为细致的指数形式增强函数如公式(5)所示。
在步骤S5中,还包括:
设置有效时间窗口,通过遗忘系数和增强系数结合收视行为指标通过下式(6)构建兴趣模型
上述有效时间窗口表示经过多长时间的用户收视数据的积累才能准确预测用户的兴趣值,优选地,有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间。
(7)
上述兴趣模型将用户的每一次收视行为视为互不影响的独立行为,分别给出用户在有效时间窗口内随时间衰减的兴趣曲线,当需要计算某一天的用户兴趣时,将有效时间窗口内所有收视行为到这一天产生的兴趣遗留按照增强函数给出的增强系数按比例叠加,从而得到最终的用户兴趣结果。由于艾宾浩斯实验给出的参数经验值是基于无意义音节实验得到的,这一人类记忆规律并不一定符合用户有意义的兴趣规律,因此进一步对兴趣模型中的参数进行了参数估计,以得到更符合用户兴趣特征的参数值,从而实现更精准的用户行为预测,例如,采用最小二乘法根据下式(8)
在一个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:
根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期,所述降低趋势可以是,随着兴趣构建期窗口的长度增加,预测误差的变化范围在设定误差范围内,还可以是随着兴趣构建期窗口的长度增加,预测误差小于设定阈值,也可以是达到最低预测误差,因此最佳兴趣构建期可以是一段时间也可以是一个时间点;
根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗,所述最佳记忆时间窗对应的降低趋势和上述最佳兴趣构建期对应的降低趋势相同。
在另一个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:
通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
在第三个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:
采用用户历史收视数据一部分作为训练集,一部分作为测试集;
通过训练集获得最佳兴趣构建期和最佳记忆时间窗;
通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。
在上述各实施例中,优选地,所述最佳兴趣构建期不小于15倍的单位时间,所述最佳记忆时间窗不小于6倍的单位时间。
图2是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析系统构成框图的示意图,如图2所示,所述用户兴趣分析系统包括:
模型构建模块1,通过遗忘系数和增强系数结合收视行为指标通过公式(1)构建兴趣模型;
采集模块2,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
遗忘系数获得模块3,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
增强系数获得模块4,通过用户收视行为在设定时间段内的重复行为获得增强系数;
兴趣值获得模块5,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
在一个实施例中,所述模型构建模块1包括:
窗口设置单元11,设置有效时间窗口,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示对预测用户下一时刻收视行为所需的历史收视行为的时间;
模型构建单元17,通过遗忘系数和增强系数结合收视行为指标通过公式(6)构建兴趣模型。
优选地,所述模型构建模块1还包括:
最佳兴趣构建期获得单元12,获得兴趣构建期窗口的最佳长度,即最佳兴趣构建期;
最佳记忆时间窗获得单元13,获得记忆时间窗口的最佳长度,即最佳记忆时间窗。
在一个可选实施例中,最佳兴趣构建期获得单元12根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期;最佳记忆时间窗获得单元13根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗。
在另一个可选实施例中,最佳兴趣构建期获得单元12和最佳记忆时间窗获得单元13通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
在上述两个实施例中,还可以包括数据划分单元14、训练单元15和测试单元16,所述数据划分单元14将用户历史收视数据一部分作为训练集,一部分作为测试集;所述训练单元15通过训练集获得最佳兴趣构建期和最佳记忆时间窗;所述测试单元16通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。
优选地,所述遗忘系数获得模块3通过公式(3)获得遗忘系数。
优选地,所述增强系数获得模块4通过公式(5)获得增强系数。
优选地,还包括以下模块中的一个或多个:
参数估计模块,采用最小二乘法对兴趣模型中的参数进行参数估计;
预测模块,根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低;
校正模块,对采集模块采集的数据进行零值校正,包括筛选单元以及均值补充单元或/和顺延补位单元,其中,所述筛选单元筛选出收视数据为零对应的单位时间;所述均值补充单元将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;所述顺延补位单元对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
在本发明的一个具体实施例中,传统的仅考虑记忆遗忘的兴趣模型通过下式(9)构建
传统的仅考虑简单完全增强的兴趣模型通过下式(10)构建
为比较传统模型与本发明提出的结合记忆遗忘和增强规律的兴趣模型的性能,需要基于一定的用户行为指标根据不同兴趣模型的预测用户行为,通过各个兴趣模型模型得出的预测值与真实值的误差来对比模型之间的优劣。本实例中选用的用户行为指标为用户的每日收看时长,该指标从由北京歌华有线提供的北京地区用户真实收视数据中提取。
这里各个兴趣模型的预测值可分别由公式 (9)、(10)、(7)计算得到,其中本发明提出的兴趣模型(公式(7))还可进一步在参数估计(公式(8))后的基础上进行预测。各模型预测值与真实值的平均相对误差通过下式(11)获得,
在本实施例中,采用每日收视时长作为收视行为指标,采集10名用户的收视数据,通过公式(7)和公式(8)获得的兴趣模型的参数数值,如下表2所示
表2
如表2所示的10名用户为例的模型对比实验误差结果如下表3所示
表3
从上表中可以看出,相比于误差水平在0.7左右的传统仅遗忘模型和误差水平在0.55左右的传统简单完全增强模型,本发明提出的兴趣模型在很大程度上(超50%)降低了预测误差,而经过参数估计后的模型更是进一步提高了预测准确率,使得误差基本维持在0.2以下。由该实验可知本发明提出的结合记忆遗忘和增强规律的兴趣模型在参数估计后可以更好地拟合用户兴趣,实现更精准的用户行为预测。
在本发明提出的结合记忆遗忘和增强规律的兴趣模型中有两个重要的时间窗:一个是兴趣构建期窗口iwindow,它反映了模型需要用多少天的收视数据来进行参数估计,即使用多少天的用户历史行为基础上掌握用户兴趣;一个是记忆时间窗口twindow,它反映了根据模型对用户行为进行预测时使用多少天的历史行为去预测下一天。这两个时间窗分别通过影响模型参数和历史行为的使用量来影响模型的预测效果,本实例对两个时间窗进行了协同的影响实验,通过同时改变两个时间窗的大小来计算不同时间窗组合下的模型预测误差,以查看两个时间窗对模型预测效果的影响,如图3、图4a和图4b所示,图中兴趣构建期窗口iwindow取值范围[5,31],记忆时间窗窗口twindow亦同,同时twindow≤iwindow,兴趣构建期窗口对模型预测效果的影响要大于记忆时间窗口对模型参数的影响,即在提高预测准确率上,使用合适天数的历史数据来掌握用户兴趣要比使用合适天数的历史数据来预测用户行为更重要。
图3是最佳兴趣构建期与平均相对误差的关系图,从图3中可以看出随着兴趣构建期窗口的增长,预测误差呈下降趋势,即当使用越多天数的历史数据去掌握用户兴趣,对用户兴趣的描述就越准确,但同时,当兴趣构建期窗口长度达到一定程度后,其对预测误差的降低作用也会随之减弱,优选地,最佳兴趣构建期基本在7至15天左右便可达到稳定。
图4a和4b的横坐标为兴趣构建期窗口长度,纵坐标为最佳记忆时间窗,图4a是采用先验训练方法获得最佳记忆时间窗,也就是说将用户在训练前已经发生的收视数据作为训练集和验证集对兴趣模型进行训练,获得最佳记忆窗,图4b采用的是后验训练方法获得最佳记忆时间窗,也就是说,将用户在训练前已经发生的收视数据作为训练集,训练兴趣模型,采用训练后发生的收视数据作为验证集,获得最佳记忆窗。由图4a和4b可知广电用户的先验最佳记忆时间窗基本为5或8天,而后验最佳记忆时间窗在兴趣构建期窗口长度较短时(18天之内)亦基本稳定为5天左右,而当兴趣构建期窗口长度较长时(18天以上)则会随着兴趣构建期窗口长度的增大而增大。结合兴趣构建期窗口实验和记忆时间窗口实验的结论可知,当在数据量不足或追求计算效率的情况下,最少通过15天的历史数据我们就可以对用户兴趣进行描述建模,而在预测时,最少使用6天的历史数据我们就可以预测用户下一天的行为。
在一个实施例中,还包括:根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,对用户进行分群,例如,兴趣上升期用户UP、兴趣稳定期用户STEADY和兴趣下降期用户DOWN三类,随时间变化的速度超过设定值且随时间变化的程度小于设定值的用户属于兴趣上升期用户,随时间变化的速度小于设定值且随时间变化的程度超过设定值的用户属于兴趣下降期用户,兴趣稳定期的用户介于两者之间。
在本发明提出的结合记忆遗忘和增强规律的兴趣模型中,描述遗忘和增强过程的两个函数中的参数对遗忘的衰减速度和重复行为带来的增强程度有着重要影响。根据用户真实收视行为进行参数估计得到的兴趣模型是因人而异的,因此不同的参数在一定程度上也能反映用户的行为特点。根据用户的真实收视记录将用户按照每日收看时长作为收视行为指标对上述根据用户的兴趣模型的参数值随时间的变化趋势对用户进行分群进行了验证。
根据用户的真实收视记录将用户按照每日收看时长的走势分为兴趣上升期用户、兴趣稳定期用户和兴趣下降期用户三类,再分别对这三类用户进行参数估计,得到每类用户兴趣模型参数的平均值如表4所示:
表4
将这些参数分别带入遗忘模型(公式(3))和增强模型(公式(5)),可以得到三类用户的遗忘曲线和增强曲线如图5a和5b所示。结合图4a和4b可以看到,随着用户的兴趣沿上升期到稳定期到下降期这一趋势发展,模型的四个参数都呈减小趋势,当表现在兴趣曲线上,即兴趣上升期的用户遗忘速度最快同时重复行为带来的增强程度最大,而兴趣下降期的用户遗忘速度较慢但重复行为带来的增强程度最小,兴趣稳定期的用户介于两者之间。由此可知,当根据用户的收视记录对兴趣模型进行实时迭代的参数估计时,可以从参数值的大小变化上推测用户未来的兴趣发展趋势。
在本发明的一个实施例中,在广电用户的真实收视数据中常常会出现收视行为指标为零的情况,即用户当天并未收看电视,这一用户的收视中断有长有短,但无疑都会影响对用户兴趣模型的构建,为了降低用户收视中断对模型参数的影响,需要对收视为零的天数进行零值校正,从而保证模型的预测能力。
本发明提出了两种零值校正方法如图6a和6b所示:一是均值补充法,即对于收视为零的天数,取兴趣构建期内所有有效收视行为指标的平均值进行替换;一是顺延补位法,即对于收视为零的天数,顺序用其后有效的收视行为指标进行补位填充。
表5
从上表中,可以看出两种方法都在一定程度上降低了模型的预测误差,且整体而言顺延补位法效果更佳。通过结合不同用户收视中断类型可知,对于那些存在长期收视中断的用户,零值校正对模型预测准确率的提高有着更明显的改善效果。
针对基于用户行为分析的用户兴趣建模问题,本发明提出结合记忆遗忘和增强规律的用户兴趣模型,其中遗忘模型反映用户一次行为产生的兴趣在一定时间范围内的衰减规律,而增强模型反映用户一次重复行为在一定时间范围内带来的兴趣增强程度。本发明首次给出了独立于记忆遗忘模型的记忆增强模型,并通过分步累积增强的方式将记忆遗忘和记忆增强过程相融合,以更精准地理解用户兴趣实现用户行为预测。最终通过基于广电用户真实收视数据的实验,验证了本发明提出的兴趣模型明显优于传统模型的结论。
尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权利要求限定的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明的元素可以以个体形式描述或要求,但是也可以设想具有多个元素,除非明确限制为单个元素。
Claims (8)
1.一种结合记忆遗忘和记忆增强的用户兴趣分析方法,其特征在于,包括:
通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
通过用户收视行为在设定时间段内的重复行为获得增强系数;
将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值,
其中,所述通过用户收视行为在设定时间段内的衰减规律获得遗忘系数的步骤包括:通过记忆遗忘曲线获得遗忘系数,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:
通过下式获得遗忘系数
其中,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:
通过下式获得增强系数
4.根据权利要求3所述的用户兴趣分析方法,其特征在于,还包括:
根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低。
5.根据权利要求2所述的用户兴趣分析方法,其特征在于,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间,其中,
所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括以下一种或两种,其中,第一种获取方法包括:
根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣期构建窗口的长度,即最佳兴趣构建期;
根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗;
其中,第二种获取方法包括:
通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
6.根据权利要求1所述的用户兴趣分析方法,其特征在于,所述采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标的步骤包括:
采集用户设定时间段的收视数据:
筛选出收视数据为零对应的单位时间;
对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
7.一种结合记忆遗忘和记忆增强的用户兴趣分析系统,其特征在于,包括:
模型构建模块,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
采集模块,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
遗忘系数获得模块,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
增强系数获得模块,通过用户收视行为在设定时间段内的重复行为获得增强系数;
兴趣值获得模块,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值,
其中,所述遗忘系数获得模块通过下式获得遗忘系数
其中,所述增强系数获得模块通过下式获得增强系数
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010056736.6A CN110874441B (zh) | 2020-01-19 | 2020-01-19 | 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010056736.6A CN110874441B (zh) | 2020-01-19 | 2020-01-19 | 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110874441A CN110874441A (zh) | 2020-03-10 |
CN110874441B true CN110874441B (zh) | 2020-05-19 |
Family
ID=69718503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010056736.6A Active CN110874441B (zh) | 2020-01-19 | 2020-01-19 | 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874441B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443944A (zh) * | 2020-11-05 | 2022-05-06 | 北京多点在线科技有限公司 | 辅助记忆的方法、装置以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693502A (zh) * | 2012-06-04 | 2012-09-26 | 南京中兴软创科技股份有限公司 | 面向用户消费行为的时间推移数据分析模型的建立方法 |
CN106604026A (zh) * | 2016-12-16 | 2017-04-26 | 浙江工业大学 | 一种移动流媒体用户体验质量QoE评估方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9178959B2 (en) * | 2008-07-02 | 2015-11-03 | Alcatel Lucent | Method and apparatus for predicting value of caching content items |
CN107992478A (zh) * | 2017-11-30 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 确定热点事件的方法和装置 |
-
2020
- 2020-01-19 CN CN202010056736.6A patent/CN110874441B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693502A (zh) * | 2012-06-04 | 2012-09-26 | 南京中兴软创科技股份有限公司 | 面向用户消费行为的时间推移数据分析模型的建立方法 |
CN106604026A (zh) * | 2016-12-16 | 2017-04-26 | 浙江工业大学 | 一种移动流媒体用户体验质量QoE评估方法 |
Non-Patent Citations (1)
Title |
---|
Spark框架下的受众分群及矩阵分解的推荐算法研究;周虹君 等;《中国新通信》;20161231(第11期);第139-141页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110874441A (zh) | 2020-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meinshausen et al. | Emulating atmosphere-ocean and carbon cycle models with a simpler model, MAGICC6–Part 2: Applications | |
Collins et al. | What makes a blockbuster? Economic analysis of film success in the United Kingdom | |
CN111367961A (zh) | 基于图卷积神经网络的时序数据事件预测方法、系统及其应用 | |
Wheatland | A Bayesian approach to solar flare prediction | |
CN106371155B (zh) | 基于大数据和分析场的气象预报方法及系统 | |
CN106203679A (zh) | 一种用户流失预测方法及系统 | |
CN112054943B (zh) | 一种移动网络基站流量预测方法 | |
CN103647800A (zh) | 推荐应用资源的方法及系统 | |
CN109525865B (zh) | 基于区块链的收视率监测方法和计算机可读存储介质 | |
CN103544351A (zh) | 一种对仿真模型调整参数的方法及装置 | |
CN108304399A (zh) | 网络内容的推荐方法及装置 | |
Mergos et al. | Selection of earthquake ground motions for multiple objectives using genetic algorithms | |
CN110874441B (zh) | 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 | |
CN107018408A (zh) | 移动端http视频流的体验质量评估方法 | |
CN107194721A (zh) | 基于声誉记录分析的服务推荐者发现方法 | |
Bowman et al. | The Sacramento activity-based travel demand model: estimation and validation results | |
CN115659807A (zh) | 一种基于贝叶斯优化模型融合算法对人才表现预测的方法 | |
CN103632051A (zh) | 基于模糊粗糙集条件熵属性约简的数据分析方法 | |
Wisse et al. | Relieving the elicitation burden of Bayesian belief networks. | |
CN110362789B (zh) | 一种基于gpr模型的自适应声掩蔽系统及方法 | |
CN115795535A (zh) | 一种提供自适应梯度的差分私有联邦学习方法及装置 | |
CN106604068B (zh) | 一种更新媒体节目的方法及其系统 | |
CN103281555B (zh) | 基于半参考评估的视频流业务QoE客观评估方法 | |
CN107135125A (zh) | 视频idc带宽流量预测方法及装置 | |
CN106056254B (zh) | 一种计及出力水平影响的风电预测误差模拟方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |