CN110874441B - 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 - Google Patents

结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 Download PDF

Info

Publication number
CN110874441B
CN110874441B CN202010056736.6A CN202010056736A CN110874441B CN 110874441 B CN110874441 B CN 110874441B CN 202010056736 A CN202010056736 A CN 202010056736A CN 110874441 B CN110874441 B CN 110874441B
Authority
CN
China
Prior art keywords
interest
user
time
forgetting
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010056736.6A
Other languages
English (en)
Other versions
CN110874441A (zh
Inventor
殷复莲
苏沛
夏欣雨
冀美琪
王颜颜
李思彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202010056736.6A priority Critical patent/CN110874441B/zh
Publication of CN110874441A publication Critical patent/CN110874441A/zh
Application granted granted Critical
Publication of CN110874441B publication Critical patent/CN110874441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种结合记忆遗忘和记忆增强的用户兴趣分析方法及系统,包括:通过遗忘系数和增强系数结合收视行为指标构建兴趣模型;采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;通过用户收视行为指标在设定时间段内的衰减规律获得遗忘系数;通过用户收视行为指标在设定时间段内的重复获得增强系数;将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。上述方法及系统将记忆遗忘和记忆增强过程相融合,能够更加精准地获得用户兴趣。

Description

结合记忆遗忘和记忆增强的用户兴趣分析方法及系统
技术领域
本发明涉及用户兴趣分析技术领域,更具体地,涉及一种结合记忆遗忘和记忆增强的用户兴趣分析方法及系统。
背景技术
随着互联网和新媒体的快速发展,媒体资源日益丰富,观众的选择也越来越多,用户的行为背后隐藏着用户的收视习惯,基于此的用户兴趣研究对于深入了解用户并继而为用户提供个性化的媒体服务有着重要价值,其中基于用户行为分析的兴趣模型构建是该领域最主要的研究方法。
兴趣模型建模的研究最早始于信息检索领域,通过对用户在某个时间周期内相对稳定的信息需求进行形式化描述以表征用户兴趣。根据这一时间周期的长短,用户兴趣分析可分为短期兴趣建模和长期兴趣建模两类。其中前者主要集中于对时间窗口的研究,如固定时间窗口的兴趣漂移和自适应时间窗口算法等,由于短期兴趣的研究受到时间因素的限制无法描述长时间内用户的兴趣变化,因此后来大量的科研精力都被投入到长期兴趣建模中,这个过程中记忆理论受到了学者的大量关注。德国心理学家艾宾浩斯通过实验提出的遗忘曲线反映了人类记忆随时间推移先快后慢衰减的规律,这一规律常常被应用于对用户的兴趣研究中,通过拟合不同形式的遗忘函数,这一理论在教育、交通、生物医学、推荐系统等各个领域都取得了良好的应用效果。然而人类记忆也会随着重复行为产生兴趣增强,针对这一领域目前少有学者研究,因此如何提炼记忆增强规律,并将之与记忆遗忘规律结合以实现基于用户行为的更合理的用户兴趣描述研究是十分有必要的。
发明内容
鉴于上述问题,本发明提供一种通过分步累积增强的方式将记忆遗忘和记忆增强过程相融合,以更精准地获得用户兴趣的结合记忆遗忘和记忆增强的用户兴趣分析方法及系统。
根据本发明的一个方面,提供一种结合记忆遗忘和记忆增强的用户兴趣分析方法,包括:
通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure 898110DEST_PATH_IMAGE001
其中,
Figure 481538DEST_PATH_IMAGE002
为时刻
Figure 668937DEST_PATH_IMAGE003
的用户兴趣值,
Figure 588964DEST_PATH_IMAGE004
Figure 836406DEST_PATH_IMAGE005
是遗忘系数,
Figure 907130DEST_PATH_IMAGE006
Figure 898220DEST_PATH_IMAGE007
是增强系数,
Figure 675683DEST_PATH_IMAGE008
Figure 156343DEST_PATH_IMAGE009
Figure 386467DEST_PATH_IMAGE010
时刻的用户的收视行为指标;
采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
通过用户收视行为在设定时间段内的重复行为获得增强系数;
将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
优选地,所述通过用户收视行为在设定时间段内的衰减规律获得遗忘系数的步骤包括:通过记忆遗忘曲线获得遗忘系数。
进一步,优选地,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:
通过下式获得遗忘系数
Figure 181248DEST_PATH_IMAGE011
其中,
Figure 813217DEST_PATH_IMAGE012
Figure 402462DEST_PATH_IMAGE013
为遗忘参数。
此外,优选地,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:
通过下式获得遗忘系数
Figure 447778DEST_PATH_IMAGE014
其中,
Figure 108567DEST_PATH_IMAGE012
Figure 264217DEST_PATH_IMAGE013
为遗忘参数。
优选地,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:
通过下式获得增强系数
Figure 289942DEST_PATH_IMAGE015
其中,
Figure 556975DEST_PATH_IMAGE016
是自然常数,
Figure 693558DEST_PATH_IMAGE017
Figure 34541DEST_PATH_IMAGE018
为增强参数。
优选地,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:
通过下式获得增强系数
Figure 293484DEST_PATH_IMAGE019
优选地,所述通过遗忘系数和增强系数结合收视行为指标构建兴趣模型的步骤还包括:
设置有效时间窗口,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure 313392DEST_PATH_IMAGE020
其中,
Figure 660191DEST_PATH_IMAGE021
为有效时间窗口的长度。
优选地,还包括:
采用最小二乘法对兴趣模型中的参数进行参数估计,所述参数包括遗忘参数
Figure 183577DEST_PATH_IMAGE012
Figure 551104DEST_PATH_IMAGE013
以及增强参数
Figure 527150DEST_PATH_IMAGE017
Figure 333432DEST_PATH_IMAGE018
进一步,优选地,还包括:
根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低。
此外,优选地,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间,其中,
所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括以下一种或两种,其中,第一种获取方法包括:
根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期;
根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗;
其中,第二种获取方法包括:
通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
此外,优选地,还包括:
采用用户历史收视数据一部分作为训练集,一部分作为测试集;
通过训练集获得最佳兴趣构建期和最佳记忆时间窗;
通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。
优选地,所述最佳兴趣构建期不小于15倍的单位时间,所述最佳记忆时间窗不小于6倍的单位时间。
优选地,所述采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标的步骤包括:
采集用户设定时间段的收视数据:
筛选出收视数据为零对应的单位时间;
对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
根据本发明的另一个方面,提供一种结合记忆遗忘和记忆增强的用户兴趣分析系统,包括:
模型构建模块,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure 583760DEST_PATH_IMAGE001
其中,为时刻的用户兴趣值,,是遗忘系数,,
Figure 759975DEST_PATH_IMAGE007
是增 强系数,
Figure 908060DEST_PATH_IMAGE008
,是时刻的用户的收视行为指标;
采集模块,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
遗忘系数获得模块,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
增强系数获得模块,通过用户收视行为在设定时间段内的重复行为获得增强系数;
兴趣值获得模块,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
优选地,所述遗忘系数获得模块通过下式获得遗忘系数
Figure 250813DEST_PATH_IMAGE014
其中,
Figure 937010DEST_PATH_IMAGE012
Figure 347262DEST_PATH_IMAGE013
为遗忘参数。
优选地,所述增强系数获得模块通过下式获得增强系数
Figure 195133DEST_PATH_IMAGE015
其中,
Figure 727221DEST_PATH_IMAGE016
是自然常数,
Figure 951529DEST_PATH_IMAGE017
Figure 544184DEST_PATH_IMAGE018
为增强参数。
优选地,所述模型构建模块包括:
窗口设置单元,设置有效时间窗口,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间;
模型构建单元,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure 828535DEST_PATH_IMAGE020
其中,
Figure 850848DEST_PATH_IMAGE021
为有效时间窗口的长度。
优选地,还包括以下模块中的一个或多个:
参数估计模块,采用最小二乘法对兴趣模型中的参数进行参数估计;
预测模块,根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低;
校正模块,对采集模块采集的数据进行零值校正,包括筛选单元以及均值补充单元或/和顺延补位单元,其中,所述筛选单元筛选出收视数据为零对应的单位时间;所述均值补充单元将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;所述顺延补位单元对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
上述用户兴趣的结合记忆遗忘和记忆增强的用户兴趣分析方法及系统结合记忆遗忘和记忆增强,实现对用户兴趣更精准的描述,从而对用户行为进行预测,为用户的节目推荐、广告投放等个性化服务提供决策的理论依据。
附图说明
图1是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析方法的流程图的示意图;
图2是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析系统构成框图的示意图;
图3是最佳兴趣构建期与平均相对误差的关系图;
图4a和4b是兴趣构建期和最佳记忆时间窗的关系图;
图5a和5b是类用户的遗忘曲线和增强曲线的坐标图;
图6a和6b是本发明零值校正方法的示意图。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
下面将参照附图来对根据本发明的各个实施例进行详细描述。
图1是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析方法的流程图的示意图,如图1所示,所述用户兴趣分析方法包括:
步骤S1,通过遗忘系数和增强系数结合收视行为指标通过下式(1)构建兴趣模型
Figure 878847DEST_PATH_IMAGE001
(1)
其中,为时刻的用户兴趣值,,是遗忘系数,,
Figure 456907DEST_PATH_IMAGE007
是增 强系数,
Figure 844026DEST_PATH_IMAGE008
,是时刻的用户的收视行为指标;
步骤S2,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻,可以以天为单位,也可以以小时或几个小时或几天或秒为单位,所述收视指标可以是收视时长、收视频次等评价用户收视偏好的收视指标;
步骤S3,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
步骤S4,通过用户收视行为在设定时间段内的重复行为获得增强系数;
步骤S5,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
在步骤S2中,优选地,还包括:
采集用户设定时间段的收视数据:
筛选出收视数据为零对应的单位时间;
对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法是对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
在步骤S3中,通过用户收视行为在设定时间段内的衰减规律获得用户记忆遗忘曲线,从而获得遗忘系数,例如,通过艾宾浩斯给出的经典记忆遗忘曲线获得遗忘系数。
在一个可选实施例中,通过下式(2)获得遗忘系数
Figure 773915DEST_PATH_IMAGE011
(2)
其中,
Figure 320434DEST_PATH_IMAGE012
Figure 493926DEST_PATH_IMAGE013
为遗忘参数。
在一个优选实施例中,通过下式(3)获得遗忘系数
Figure 114394DEST_PATH_IMAGE014
(3)
其中,
Figure 82350DEST_PATH_IMAGE012
Figure 444062DEST_PATH_IMAGE013
为遗忘参数。
在一个实施例中,在步骤S4中,通过下式(4)获得增强系数
Figure 827770DEST_PATH_IMAGE019
(4)
在一个优选实施例中,通过下式(5)获得增强系数
Figure 958537DEST_PATH_IMAGE015
(5)
其中,
Figure 35077DEST_PATH_IMAGE016
是自然常数,
Figure 618505DEST_PATH_IMAGE017
Figure 805904DEST_PATH_IMAGE018
为增强参数。
上述由遗忘系数给出的遗忘模型和由增强系数给出的增强模型是相互独立的。
在增强模型方面,领域内少有学者进行相关研究且并无成熟的增强理论可供直接引用,因此本发明通过将艾宾浩斯实验中字母间距的概念转换为收视行为的时间间隔,再结合已有的遗忘衰减规律,可以得到一组反映不同时间间隔下重复行为所产生的不同兴趣增强程度的数据如表1所示:
表1
Figure 791177DEST_PATH_IMAGE022
从上表中可知,增强数据结合记忆衰减规律后的计算结果和真实数据的误差在3%以下,因此可认为该数据在反映用户重复行为的兴趣增强方面是可靠的,基于此,可以得到一个线型分段形式的增强模型如公式(4)所示。
为方便增强模型在兴趣模型中的应用,根据公式(4),进一步拟合(例如最小二乘法拟合)出一个形式更为简洁、描述更为细致的指数形式增强函数如公式(5)所示。
在步骤S5中,还包括:
设置有效时间窗口,通过遗忘系数和增强系数结合收视行为指标通过下式(6)构建兴趣模型
Figure 38619DEST_PATH_IMAGE020
(6)
其中,
Figure 109343DEST_PATH_IMAGE021
为有效时间窗口的长度。
上述有效时间窗口表示经过多长时间的用户收视数据的积累才能准确预测用户的兴趣值,优选地,有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间。
根据遗忘系数
Figure 97503DEST_PATH_IMAGE023
(公式(3))和增强系数
Figure 874967DEST_PATH_IMAGE024
(公式(5)),上述兴趣模型可进一步细化为下式(7):
Figure 355626DEST_PATH_IMAGE025
(7)
优选地,根据艾宾浩斯人类记忆实验实验获得遗忘参数
Figure 585751DEST_PATH_IMAGE012
Figure 442848DEST_PATH_IMAGE013
以及增强参数
Figure 74818DEST_PATH_IMAGE017
Figure 726379DEST_PATH_IMAGE026
,如表1的例子中,
Figure 709379DEST_PATH_IMAGE013
=1.84和
Figure 104588DEST_PATH_IMAGE012
=1.25,
Figure 591064DEST_PATH_IMAGE017
=0.908和
Figure 616789DEST_PATH_IMAGE026
=0.068。
上述兴趣模型将用户的每一次收视行为视为互不影响的独立行为,分别给出用户在有效时间窗口内随时间衰减的兴趣曲线,当需要计算某一天的用户兴趣
Figure 883822DEST_PATH_IMAGE027
时,将有效时间窗口
Figure 754826DEST_PATH_IMAGE028
内所有收视行为
Figure 423705DEST_PATH_IMAGE029
到这一天产生的兴趣遗留按照增强函数给出的增强系数按比例叠加,从而得到最终的用户兴趣结果。由于艾宾浩斯实验给出的参数经验值是基于无意义音节实验得到的,这一人类记忆规律并不一定符合用户有意义的兴趣规律,因此进一步对兴趣模型中的参数进行了参数估计,以得到更符合用户兴趣特征的参数值,从而实现更精准的用户行为预测,例如,采用最小二乘法根据下式(8)
Figure 617401DEST_PATH_IMAGE030
(8)
其中,
Figure 106151DEST_PATH_IMAGE031
是根据用户兴趣模型得到的兴趣计算值,
Figure 46426DEST_PATH_IMAGE032
是用户的兴趣的真实值,
Figure 569811DEST_PATH_IMAGE033
是用户有效收视天数。
在一个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:
根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期,所述降低趋势可以是,随着兴趣构建期窗口的长度增加,预测误差的变化范围在设定误差范围内,还可以是随着兴趣构建期窗口的长度增加,预测误差小于设定阈值,也可以是达到最低预测误差,因此最佳兴趣构建期可以是一段时间也可以是一个时间点;
根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗,所述最佳记忆时间窗对应的降低趋势和上述最佳兴趣构建期对应的降低趋势相同。
在另一个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:
通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
在第三个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:
采用用户历史收视数据一部分作为训练集,一部分作为测试集;
通过训练集获得最佳兴趣构建期和最佳记忆时间窗;
通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。
在上述各实施例中,优选地,所述最佳兴趣构建期不小于15倍的单位时间,所述最佳记忆时间窗不小于6倍的单位时间。
图2是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析系统构成框图的示意图,如图2所示,所述用户兴趣分析系统包括:
模型构建模块1,通过遗忘系数和增强系数结合收视行为指标通过公式(1)构建兴趣模型;
采集模块2,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
遗忘系数获得模块3,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
增强系数获得模块4,通过用户收视行为在设定时间段内的重复行为获得增强系数;
兴趣值获得模块5,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。
在一个实施例中,所述模型构建模块1包括:
窗口设置单元11,设置有效时间窗口,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示对预测用户下一时刻收视行为所需的历史收视行为的时间;
模型构建单元17,通过遗忘系数和增强系数结合收视行为指标通过公式(6)构建兴趣模型。
优选地,所述模型构建模块1还包括:
最佳兴趣构建期获得单元12,获得兴趣构建期窗口的最佳长度,即最佳兴趣构建期;
最佳记忆时间窗获得单元13,获得记忆时间窗口的最佳长度,即最佳记忆时间窗。
在一个可选实施例中,最佳兴趣构建期获得单元12根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期;最佳记忆时间窗获得单元13根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗。
在另一个可选实施例中,最佳兴趣构建期获得单元12和最佳记忆时间窗获得单元13通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
在上述两个实施例中,还可以包括数据划分单元14、训练单元15和测试单元16,所述数据划分单元14将用户历史收视数据一部分作为训练集,一部分作为测试集;所述训练单元15通过训练集获得最佳兴趣构建期和最佳记忆时间窗;所述测试单元16通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。
优选地,所述遗忘系数获得模块3通过公式(3)获得遗忘系数。
优选地,所述增强系数获得模块4通过公式(5)获得增强系数。
优选地,还包括以下模块中的一个或多个:
参数估计模块,采用最小二乘法对兴趣模型中的参数进行参数估计;
预测模块,根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低;
校正模块,对采集模块采集的数据进行零值校正,包括筛选单元以及均值补充单元或/和顺延补位单元,其中,所述筛选单元筛选出收视数据为零对应的单位时间;所述均值补充单元将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;所述顺延补位单元对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
在本发明的一个具体实施例中,传统的仅考虑记忆遗忘的兴趣模型通过下式(9)构建
Figure 671759DEST_PATH_IMAGE034
(9)
传统的仅考虑简单完全增强的兴趣模型通过下式(10)构建
Figure 851068DEST_PATH_IMAGE035
(10)
为比较传统模型与本发明提出的结合记忆遗忘和增强规律的兴趣模型的性能,需要基于一定的用户行为指标根据不同兴趣模型的预测用户行为,通过各个兴趣模型模型得出的预测值与真实值的误差来对比模型之间的优劣。本实例中选用的用户行为指标为用户的每日收看时长,该指标从由北京歌华有线提供的北京地区用户真实收视数据中提取。
这里各个兴趣模型的预测值可分别由公式 (9)、(10)、(7)计算得到,其中本发明提出的兴趣模型(公式(7))还可进一步在参数估计(公式(8))后的基础上进行预测。各模型预测值与真实值的平均相对误差通过下式(11)获得,
Figure 391770DEST_PATH_IMAGE036
(11)
其中,
Figure 707345DEST_PATH_IMAGE037
表示预测值,
Figure 308091DEST_PATH_IMAGE038
表示真实值,
Figure 709116DEST_PATH_IMAGE033
为计算总天数。
在本实施例中,采用每日收视时长作为收视行为指标,采集10名用户的收视数据,通过公式(7)和公式(8)获得的兴趣模型的参数数值,如下表2所示
表2
Figure 53510DEST_PATH_IMAGE039
如表2所示的10名用户为例的模型对比实验误差结果如下表3所示
表3
Figure 489170DEST_PATH_IMAGE040
从上表中可以看出,相比于误差水平在0.7左右的传统仅遗忘模型和误差水平在0.55左右的传统简单完全增强模型,本发明提出的兴趣模型在很大程度上(超50%)降低了预测误差,而经过参数估计后的模型更是进一步提高了预测准确率,使得误差基本维持在0.2以下。由该实验可知本发明提出的结合记忆遗忘和增强规律的兴趣模型在参数估计后可以更好地拟合用户兴趣,实现更精准的用户行为预测。
在本发明提出的结合记忆遗忘和增强规律的兴趣模型中有两个重要的时间窗:一个是兴趣构建期窗口iwindow,它反映了模型需要用多少天的收视数据来进行参数估计,即使用多少天的用户历史行为基础上掌握用户兴趣;一个是记忆时间窗口twindow,它反映了根据模型对用户行为进行预测时使用多少天的历史行为去预测下一天。这两个时间窗分别通过影响模型参数和历史行为的使用量来影响模型的预测效果,本实例对两个时间窗进行了协同的影响实验,通过同时改变两个时间窗的大小来计算不同时间窗组合下的模型预测误差,以查看两个时间窗对模型预测效果的影响,如图3、图4a和图4b所示,图中兴趣构建期窗口iwindow取值范围[5,31],记忆时间窗窗口twindow亦同,同时twindow≤iwindow,兴趣构建期窗口对模型预测效果的影响要大于记忆时间窗口对模型参数的影响,即在提高预测准确率上,使用合适天数的历史数据来掌握用户兴趣要比使用合适天数的历史数据来预测用户行为更重要。
图3是最佳兴趣构建期与平均相对误差的关系图,从图3中可以看出随着兴趣构建期窗口的增长,预测误差呈下降趋势,即当使用越多天数的历史数据去掌握用户兴趣,对用户兴趣的描述就越准确,但同时,当兴趣构建期窗口长度达到一定程度后,其对预测误差的降低作用也会随之减弱,优选地,最佳兴趣构建期基本在7至15天左右便可达到稳定。
图4a和4b的横坐标为兴趣构建期窗口长度,纵坐标为最佳记忆时间窗,图4a是采用先验训练方法获得最佳记忆时间窗,也就是说将用户在训练前已经发生的收视数据作为训练集和验证集对兴趣模型进行训练,获得最佳记忆窗,图4b采用的是后验训练方法获得最佳记忆时间窗,也就是说,将用户在训练前已经发生的收视数据作为训练集,训练兴趣模型,采用训练后发生的收视数据作为验证集,获得最佳记忆窗。由图4a和4b可知广电用户的先验最佳记忆时间窗基本为5或8天,而后验最佳记忆时间窗在兴趣构建期窗口长度较短时(18天之内)亦基本稳定为5天左右,而当兴趣构建期窗口长度较长时(18天以上)则会随着兴趣构建期窗口长度的增大而增大。结合兴趣构建期窗口实验和记忆时间窗口实验的结论可知,当在数据量不足或追求计算效率的情况下,最少通过15天的历史数据我们就可以对用户兴趣进行描述建模,而在预测时,最少使用6天的历史数据我们就可以预测用户下一天的行为。
在一个实施例中,还包括:根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,对用户进行分群,例如,兴趣上升期用户UP、兴趣稳定期用户STEADY和兴趣下降期用户DOWN三类,
Figure 995238DEST_PATH_IMAGE023
随时间变化的速度超过设定值且
Figure 149139DEST_PATH_IMAGE024
随时间变化的程度小于设定值的用户属于兴趣上升期用户,
Figure 802335DEST_PATH_IMAGE023
随时间变化的速度小于设定值且
Figure 154819DEST_PATH_IMAGE024
随时间变化的程度超过设定值的用户属于兴趣下降期用户,兴趣稳定期的用户介于两者之间。
在本发明提出的结合记忆遗忘和增强规律的兴趣模型中,描述遗忘和增强过程的两个函数中的参数对遗忘的衰减速度和重复行为带来的增强程度有着重要影响。根据用户真实收视行为进行参数估计得到的兴趣模型是因人而异的,因此不同的参数在一定程度上也能反映用户的行为特点。根据用户的真实收视记录将用户按照每日收看时长作为收视行为指标对上述根据用户的兴趣模型的参数值随时间的变化趋势对用户进行分群进行了验证。
根据用户的真实收视记录将用户按照每日收看时长的走势分为兴趣上升期用户、兴趣稳定期用户和兴趣下降期用户三类,再分别对这三类用户进行参数估计,得到每类用户兴趣模型参数的平均值如表4所示:
表4
Figure 769471DEST_PATH_IMAGE041
将这些参数分别带入遗忘模型(公式(3))和增强模型(公式(5)),可以得到三类用户的遗忘曲线和增强曲线如图5a和5b所示。结合图4a和4b可以看到,随着用户的兴趣沿上升期到稳定期到下降期这一趋势发展,模型的四个参数都呈减小趋势,当表现在兴趣曲线上,即兴趣上升期的用户遗忘速度最快同时重复行为带来的增强程度最大,而兴趣下降期的用户遗忘速度较慢但重复行为带来的增强程度最小,兴趣稳定期的用户介于两者之间。由此可知,当根据用户的收视记录对兴趣模型进行实时迭代的参数估计时,可以从参数值的大小变化上推测用户未来的兴趣发展趋势。
在本发明的一个实施例中,在广电用户的真实收视数据中常常会出现收视行为指标为零的情况,即用户当天并未收看电视,这一用户的收视中断有长有短,但无疑都会影响对用户兴趣模型的构建,为了降低用户收视中断对模型参数的影响,需要对收视为零的天数进行零值校正,从而保证模型的预测能力。
本发明提出了两种零值校正方法如图6a和6b所示:一是均值补充法,即对于收视为零的天数,取兴趣构建期内所有有效收视行为指标的平均值进行替换;一是顺延补位法,即对于收视为零的天数,顺序用其后有效的收视行为指标进行补位填充。
从采集的多个用户的收视数据中,随机筛选出10个用户对上述两种零值校正方法进行验证,如表5所示给出的是无校正和两种零值校正方法下的模型预测误差
Figure 145089DEST_PATH_IMAGE042
表5
Figure 831285DEST_PATH_IMAGE043
从上表中,可以看出两种方法都在一定程度上降低了模型的预测误差,且整体而言顺延补位法效果更佳。通过结合不同用户收视中断类型可知,对于那些存在长期收视中断的用户,零值校正对模型预测准确率的提高有着更明显的改善效果。
针对基于用户行为分析的用户兴趣建模问题,本发明提出结合记忆遗忘和增强规律的用户兴趣模型,其中遗忘模型反映用户一次行为产生的兴趣在一定时间范围内的衰减规律,而增强模型反映用户一次重复行为在一定时间范围内带来的兴趣增强程度。本发明首次给出了独立于记忆遗忘模型的记忆增强模型,并通过分步累积增强的方式将记忆遗忘和记忆增强过程相融合,以更精准地理解用户兴趣实现用户行为预测。最终通过基于广电用户真实收视数据的实验,验证了本发明提出的兴趣模型明显优于传统模型的结论。
尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权利要求限定的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明的元素可以以个体形式描述或要求,但是也可以设想具有多个元素,除非明确限制为单个元素。

Claims (8)

1.一种结合记忆遗忘和记忆增强的用户兴趣分析方法,其特征在于,包括:
通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
为时刻
Figure DEST_PATH_IMAGE003
的用户兴趣值,
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
是遗忘系数,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
是增强系数,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
时刻的用户的收视行为指标;
采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
通过用户收视行为在设定时间段内的重复行为获得增强系数;
将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值,
其中,所述通过用户收视行为在设定时间段内的衰减规律获得遗忘系数的步骤包括:通过记忆遗忘曲线获得遗忘系数,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:
通过下式获得遗忘系数
Figure DEST_PATH_IMAGE011
其中,
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
为遗忘参数;
其中,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:
通过下式获得增强系数
Figure DEST_PATH_IMAGE014
其中,底数部分的
Figure DEST_PATH_IMAGE015
是自然常数,
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
为增强参数。
2.根据权利要求1所述的用户兴趣分析方法,其特征在于,所述通过遗忘系数和增强系数结合收视行为指标构建兴趣模型的步骤还包括:
设置有效时间窗口,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
为有效时间窗口的长度。
3.根据权利要求1或2所述的用户兴趣分析方法,其特征在于,还包括:
采用最小二乘法对兴趣模型中的参数进行参数估计,所述参数包括遗忘参数
Figure 467129DEST_PATH_IMAGE012
Figure 316093DEST_PATH_IMAGE013
以及 增强参数
Figure 95830DEST_PATH_IMAGE016
Figure 491040DEST_PATH_IMAGE017
4.根据权利要求3所述的用户兴趣分析方法,其特征在于,还包括:
根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低。
5.根据权利要求2所述的用户兴趣分析方法,其特征在于,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间,其中,
所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括以下一种或两种,其中,第一种获取方法包括:
根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣期构建窗口的长度,即最佳兴趣构建期;
根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗;
其中,第二种获取方法包括:
通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。
6.根据权利要求1所述的用户兴趣分析方法,其特征在于,所述采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标的步骤包括:
采集用户设定时间段的收视数据:
筛选出收视数据为零对应的单位时间;
对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。
7.一种结合记忆遗忘和记忆增强的用户兴趣分析系统,其特征在于,包括:
模型构建模块,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure 243095DEST_PATH_IMAGE001
其中,
Figure 65557DEST_PATH_IMAGE002
为时刻
Figure 332591DEST_PATH_IMAGE003
的用户兴趣值,
Figure 469174DEST_PATH_IMAGE004
Figure 138053DEST_PATH_IMAGE005
是遗忘系数,
Figure 131416DEST_PATH_IMAGE006
Figure 823429DEST_PATH_IMAGE007
是增强系数,
Figure 560441DEST_PATH_IMAGE008
Figure 83826DEST_PATH_IMAGE009
Figure 451353DEST_PATH_IMAGE010
时刻的用户的收视行为指标;
采集模块,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;
遗忘系数获得模块,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;
增强系数获得模块,通过用户收视行为在设定时间段内的重复行为获得增强系数;
兴趣值获得模块,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值,
其中,所述遗忘系数获得模块通过下式获得遗忘系数
Figure 692979DEST_PATH_IMAGE011
其中,
Figure 968102DEST_PATH_IMAGE012
Figure 549257DEST_PATH_IMAGE013
为遗忘参数;
其中,所述增强系数获得模块通过下式获得增强系数
Figure 884423DEST_PATH_IMAGE014
其中,底数部分的
Figure 613344DEST_PATH_IMAGE015
是自然常数,
Figure 629842DEST_PATH_IMAGE016
Figure 127819DEST_PATH_IMAGE017
为增强参数。
8.根据权利要求7所述的用户兴趣分析系统,其特征在于,所述模型构建模块包括:
窗口设置单元,设置有效时间窗口,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间;
模型构建单元,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型
Figure 899466DEST_PATH_IMAGE018
其中,
Figure 787788DEST_PATH_IMAGE019
为有效时间窗口的长度。
CN202010056736.6A 2020-01-19 2020-01-19 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统 Active CN110874441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010056736.6A CN110874441B (zh) 2020-01-19 2020-01-19 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010056736.6A CN110874441B (zh) 2020-01-19 2020-01-19 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统

Publications (2)

Publication Number Publication Date
CN110874441A CN110874441A (zh) 2020-03-10
CN110874441B true CN110874441B (zh) 2020-05-19

Family

ID=69718503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010056736.6A Active CN110874441B (zh) 2020-01-19 2020-01-19 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统

Country Status (1)

Country Link
CN (1) CN110874441B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443944A (zh) * 2020-11-05 2022-05-06 北京多点在线科技有限公司 辅助记忆的方法、装置以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693502A (zh) * 2012-06-04 2012-09-26 南京中兴软创科技股份有限公司 面向用户消费行为的时间推移数据分析模型的建立方法
CN106604026A (zh) * 2016-12-16 2017-04-26 浙江工业大学 一种移动流媒体用户体验质量QoE评估方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9178959B2 (en) * 2008-07-02 2015-11-03 Alcatel Lucent Method and apparatus for predicting value of caching content items
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693502A (zh) * 2012-06-04 2012-09-26 南京中兴软创科技股份有限公司 面向用户消费行为的时间推移数据分析模型的建立方法
CN106604026A (zh) * 2016-12-16 2017-04-26 浙江工业大学 一种移动流媒体用户体验质量QoE评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Spark框架下的受众分群及矩阵分解的推荐算法研究;周虹君 等;《中国新通信》;20161231(第11期);第139-141页 *

Also Published As

Publication number Publication date
CN110874441A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
Meinshausen et al. Emulating atmosphere-ocean and carbon cycle models with a simpler model, MAGICC6–Part 2: Applications
Collins et al. What makes a blockbuster? Economic analysis of film success in the United Kingdom
CN111367961A (zh) 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
Wheatland A Bayesian approach to solar flare prediction
CN106371155B (zh) 基于大数据和分析场的气象预报方法及系统
CN106203679A (zh) 一种用户流失预测方法及系统
CN112054943B (zh) 一种移动网络基站流量预测方法
CN103647800A (zh) 推荐应用资源的方法及系统
CN109525865B (zh) 基于区块链的收视率监测方法和计算机可读存储介质
CN103544351A (zh) 一种对仿真模型调整参数的方法及装置
CN108304399A (zh) 网络内容的推荐方法及装置
Mergos et al. Selection of earthquake ground motions for multiple objectives using genetic algorithms
CN110874441B (zh) 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统
CN107018408A (zh) 移动端http视频流的体验质量评估方法
CN107194721A (zh) 基于声誉记录分析的服务推荐者发现方法
Bowman et al. The Sacramento activity-based travel demand model: estimation and validation results
CN115659807A (zh) 一种基于贝叶斯优化模型融合算法对人才表现预测的方法
CN103632051A (zh) 基于模糊粗糙集条件熵属性约简的数据分析方法
Wisse et al. Relieving the elicitation burden of Bayesian belief networks.
CN110362789B (zh) 一种基于gpr模型的自适应声掩蔽系统及方法
CN115795535A (zh) 一种提供自适应梯度的差分私有联邦学习方法及装置
CN106604068B (zh) 一种更新媒体节目的方法及其系统
CN103281555B (zh) 基于半参考评估的视频流业务QoE客观评估方法
CN107135125A (zh) 视频idc带宽流量预测方法及装置
CN106056254B (zh) 一种计及出力水平影响的风电预测误差模拟方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant