CN107862022A

CN107862022A - 文化资源推荐系统

Info

Publication number: CN107862022A
Application number: CN201711047386.1A
Authority: CN
Inventors: 张桂刚; 杨颐; 黄卫星; 王健
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-03-30
Anticipated expiration: 2037-10-31
Also published as: CN107862022B

Abstract

本发明涉及计算机技术领域，具体提供了一种文化资源推荐系统，旨在解决如何解决在高维稀疏用户行为的情况下无法实现文化资源的有效推荐的技术问题。为此目的，本发明中文化资源推荐系统的行为数据采集模块可以采集预设文化资源平台中不同类型的用户行为数据；行为数据处理模块可以获取用户行为特征；行为权重评估模块可以获取用户行为权重值；文化资源聚类模块可以获取预设文化资源平台中的文化资源类别；行为特征计算模块可以依据上述数据对用户行为进行深度学习；文化资源推荐模块可以采用最近邻协同过滤算法，并依据深度学习结果，确定推荐文化资源。通过本发明可以在高维稀疏用户行为的情况下实现文化资源的有效推荐。

Description

文化资源推荐系统

技术领域

本发明涉及计算机技术领域，具体涉及一种文化资源推荐系统。

背景技术

随着互联网规模的不断扩大，公共文化资源的种类和数量也不断快速增长，公众可以通过网站和手机app等渠道获取影视、音乐、图文、图片等形式的公共文化资源，有时候用户需要花费大量的时间才能找到自己感兴趣的文化资源，浏览大量无关信息的过程会造成信息过载，使用户不断流失。

针对上述信息过载造成的用户无法快速找到自己感兴趣的文化资源的技术问题，面向公共文化资源领域的个性化推荐系统应运而生。文化资源推荐系统结合了数据分析、机器学习、人机交互等技术，根据用户浏览网络文化资源时的各种行为，自动向用户推荐其可能感兴趣的公共文化资源。目前最常用的推荐方法包括基于协同过滤算法的推荐方法和基于内容的推荐方法。

基于内容的推荐方法具有资源内容难以分析的问题；基于协同过滤算法的推荐方法能够有效解决资源内容难以分析的问题，效果好、实用性强，但是该方法是以用户行为数据分析为基础，当用户行为数据稀疏度过高时，推荐效果不佳。而公共文化资源领域因为数字资源数据量大、类型繁多，用户群体大，用户行为呈现高维稀疏性，现有的协同过滤方法推荐效果不佳。

发明内容

为了解决现有技术中的上述问题，即为了解决无法在高维稀疏用户行为的情况下实现文化资源的有效推荐的技术问题，本发明提供了一种文化资源推荐系统。

本发明中的文化资源推荐系统，包括：行为数据采集模块、行为数据处理模块、行为权重评估模块、文化资源聚类模块、行为特征计算模块和文化资源推荐模块；

所述行为数据采集模块，配置为采集预设文化资源平台中不同类型的用户行为数据；

所述行为数据处理模块，配置为对所述行为数据采集模块所采集的用户行为数据进行特征分析，得到所述各类型用户行为数据的用户行为特征；

所述行为权重评估模块，配置为对所述行为数据处理模块分析得到的各用户行为特征进行权重评估，得到所述各用户行为特征对应的用户行为权重值；

所述文化资源聚类模块，配置为对所述预设文化资源平台中的文化资源进行聚类分析，得到文化资源类别；

所述行为特征计算模块，配置为采用深度学习算法，依据所述文化资源类别、用户行为特征及其用户行为权重值，对预设行为特征计算模型进行训练，进而依据所述训练后的行为特征计算模型获取用户特征向量集和资源类别向量集；

所述文化资源推荐模块，配置为采用最近邻协同过滤算法，并依据所述行为特征计算模块的计算结果，确定推荐文化资源。

优选地，所述行为数据采集模块包括采集单元，配置为从预设文化资源平台的用户访问日志中获取用户行为数据。

优选地，所述行为数据处理模块包括行为数据排序单元和行为数据标准化单元；

所述行为数据排序单元，配置为对各用户行为数据按照时间顺序进行升序排列；

所述行为数据标准化单元，配置为将排序后的各用户行为量化在预设的实数数值区间内，以得到用户行为特征。

优选地，所述行为权重评估模块包括权重计算单元；所述权重计算单元，配置为使用TF-IDF算法，计算出各用户行为数据对应的用户行为权重值。

优选地，所述文化资源聚类模块包括数据抽取单元和数据聚类单元；

所述数据抽取单元，配置为抽取预设文化资源平台中的文化资源元数据；

所述数据聚类单元，配置为使用预设的聚类算法，对所述数据抽取单元抽取的文化资源元数据进行分析计算，获得文化资源类别。

优选地，所述行为特征计算模块包括用户资源类矩阵构建单元；

所述用户资源类矩阵构建单元，配置依据所述文化资源聚类模块获取的文化资源类别，匹配用户行为特征对应的文化资源类别，并依据所述用户行为特征和所匹配出的文化资源类别构建用户资源类矩阵；

所述预设行为特征计算模型的输入数据为所述用户资源类矩阵构建单元所构建的用户资源类矩阵和所述行为权重评估模块获取的用户行为权重值；所述预设行为特征计算模型的输出数据为所述用户特征向量集和资源类别向量集。

优选地，所述文化资源推荐模块包括用户相似度计算单元和协同过滤单元；

所述用户相似度计算单元，配置为采用预设相似度算法计算不同用户之间的相似度；

所述协同过滤单元，配置为执行下述操作：

采用最近邻协同过滤算法，并依据所述用户相似度计算单元所计算的不同用户之间的相似度，并根据相似用户所访问过的资源，计算不同文化资源的推荐分值；

按照所述推荐分值由高到低的顺序对各类别文化资源进行排序，并选取第1～N类文化资源作为推荐文化资源，N≥1。

优选地，所述系统还包括推荐反馈模块，所述推荐反馈模块包括排序单元和推荐单元；

所述排序单元，配置为采集用户对推荐文化资源的意见，依据预设反馈条件对所述推荐文化资源的推荐分值进行动态调整，并对动态调整后的推荐文化资源按照推荐分值由高到低的顺序进行重新排序；

所述推荐单元，配置为选取所述排序单元重新排序后的推荐文化资源中的第1～N个文化资源作为新的推荐文化资源，N≥1。

优选地，所述预设反馈条件为：

若所述用户访问所述推荐文化资源，则增加所述文化资源推荐模块获取的推荐文化资源对应的推荐分值，并将其从所述用户的推荐列表中移除；

若所述用户对所述推荐文化资源的进行正面评价，则增加所述文化资源推荐模块获取的推荐文化资源对应的推荐分值；

若所述用户对所述推荐文化资源的进行负面评价，则减小所述增加所述文化资源推荐模块获取的推荐文化资源对应的推荐分值，并将其从所述用户的推荐列表中移除；

若所述用户对所述推荐文化资源没有反馈，则不进行调整。

推荐文化资源与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

1.本发明的文化资源推荐系统中，通过在文化资源推荐系统中设置行为数据采集模块、行为数据处理模块、行为权重评估模块、文化资源聚类模块、行为特征计算模块和文化资源推荐模块，可以在高维稀疏用户行为的情况下实现文化资源的有效推荐。

2.本发明的文化资源推荐系统中，通过设立推荐反馈模块，可以采集用户对推荐文化资源的意见，并根据该意见动态调整推荐文化资源的推荐分值以及对动态调整后的推荐文化资源的重新排序，可以使推荐的文化资源更为精准。

附图说明

图1是本发明实施例的文化资源推荐系统的主要工作流程示意图；

图2是本发明实施例的行为特征计算模型的主要优化训练方法的示意图；

附图中标记为：100-文化资源推荐系统，110-行为数据采集模块，111-采集单元，120-行为数据处理模块，121-行为数据排序单元，122-行为数据标准化单元，130-行为权重评估模块，131-权重计算单元，140-文化资源聚类模块，141-数据抽取单元，142-数据聚类单元，150-行为特征计算模块，151-用户资源类矩阵构建单元，152-行为特征计算模型，160-文化资源推荐模块，161用户相似度计算单元，162-协同过滤单元，170-推荐反馈模块，171-排序单元，172-推荐单元，200-文化资源管理系统，201-用户访问日志，202-文化资源元数据库。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

下面结合附图，对本发明实施例中的文化资源推荐系统的主要框架和主要工作流程进行说明。

参阅附图1，图1示例性的示出了本发明实施例的文化资源推荐系统的工作流程。如图1所示，本实施例中文化资源推荐系统100包括行为数据采集模块110、行为数据处理模块120、行为权重评估模块130、文化资源聚类模块140、行为特征计算模块150和文化资源推荐模块160。

行为数据采集模块110可以配置为采集预设文化资源平台200中不同类型的用户行为数据。

进一步地，本实施例中行为数据采集模块110还可以包括采集单元111，采集单元111可以配置为从预设文化资源平台200的用户访问日志中获取用户行为数据。

具体地，预设文化资源平台200还可以包括用户访问日志201和文化资源元数据库202，其中，预设文化资源平台200可以为文化资源管理系统。行为数据采集模块从文化资源管理系统中的用户访问日志中获取文化资源推荐系统100所需要的用户行为数据。

行为数据处理模块120可以配置为对行为数据采集模块110所采集的用户行为数据进行特征分析，得到各类型用户行为数据的用户行为特征。

进一步地，本实施例中行为数据处理模块120还可以包括行为数据排序单元121和行为数据标准化单元122。

行为数据排序单元121可以配置为对各用户行为数据按照时间顺序进行升序排列。

行为数据标准化单元122可以配置为将排序后的各用户行为数据量化在预设的实数数值区间内，以得到用户行为特征。

具体地，对用户行为数据进行数据标准化处理可以包括布尔型、数值型和文本型。其中，(1)布尔型，如浏览/未浏览、收藏/取消等行为，标准化行为值为整数“0”或者“1”。(2)数值型，如评分数据，标准化行为值定义为值域为[1,2]的实数。(3)文本型，如用户留言、点评。本发明的实施例中不进行该类用户行为的内容文本挖掘，而是关注该行为内容的文字数量指标。该标准化行为值定义为值域为[1,2]的实数。行为数据标准化单元122将文本型的用户行为数据进行字数统计，字数越多，其数值越高。

行为权重评估模块130可以配置为对行为数据处理模块120分析得到的各用户行为特征进行权重评估，得到各用户行为特征对应的用户行为权重值。

进一步地，本实施例中行为权重评估模块130还可以包括权重计算单元131；权重计算单元131可以配置为使用TF-IDF算法，计算出各用户行为数据对应的用户行为权重值。

文化资源聚类模块140可以配置对预设文化资源平台200中的文化资源进行聚类分析，得到文化资源类别。

进一步地，本实施例中文化资源聚类模块140还可以包括数据抽取单元141和数据聚类单元142。

数据抽取单元141可以配置为抽取预设文化资源平台中的文化资源元数据。

具体地，本实施例中数据抽取单元141抽取文化资源管理系统中的文化资源元数据库202中的文化资源元数据。

数据聚类单元142可以配置为使用预设的聚类算法，对数据抽取单元141抽取的文化资源元数据进行分析计算，获得文化资源类别。

具体地，本实施例中可以采用K-Means聚类算法对数据抽取单元141抽取的文化资源元数据进行分析和计算，得到文化资源聚类结果。

行为特征计算模块150可以配置为依据文化资源类别、用户行为特征及其用户行为权重值，对预设行为特征计算模型进行训练，进而依据训练后的行为特征计算模型获取用户特征向量集和资源类别向量集。

进一步地，本实施例中行为特征计算模块150还可以包括用户资源类矩阵构建单元151和行为特征计算模型152。

用户资源类矩阵构建单元151可以配置为依据文化资源聚类模块140获取的文化资源类别，匹配用户行为特征对应的文化资源类别，并依据用户行为特征和所匹配出的文化资源类别构建用户资源类矩阵。

具体地，本实施例中，用户资源类矩阵构建单元151从行为数据处理模块120中获取的用户行为特征进行文化资源矩阵的构建，再依据从文化资源聚类模块140中获取的文化资源类别对文化资源矩阵进行归类，映射成文化资源类矩阵。

进一步地，本实施例中行为特征计算模型152可以配置为采用深度学习算法，并依据用户资源类矩阵构建单元151所构建的用户资源类矩阵和行为权重评估模块130获取的用户行为权重值，获取用户特征向量集和资源类别向量集。

具体地，本实施例中行为特征计算模型152是依据神经网络模型构建的，该模型依次包括输入层、定义层、加权层、投影层以及输出层。

其中，输入层用于输入用户和用户访问过的文化资源类别序列；

定义层用于预先定义用户和对应的资源类别维度的随机向量，获得参数向量、用户特征向量和资源类别向量；

加权层用于按照预设加权方法对资源类别向量进行加权；其中，预设加权方法为用户特征向量保持不变，将资源类别向量进行加权，将资源类别向量、用户行为权重值和用户行为特征的乘积作加权后的资源类别向量；

投影层用于将用户特征向量和加权后的资源类别向量相加；

输出层用于使用sigmoid函数计算向量，然后，通过深度学习参数评估算法估算参数向量集、用户特征向量集以及资源类别向量集。

通过参数更新和各向量更新，进行多轮迭代，直至收敛。

本实施例中在使用行为特征计算模型之前还需要对该模型进行优化训练。

下面结合附图，对本发明实施例中的行为特征计算模型的优化训练方法进行详细说明。

参阅附图2，图2示例性的示出了本发明实施例的文化资源推荐系统中的行为特征计算模型优化训练方法的主要流程。如图2所示，本实施例中行为特征计算模型优化训练方法包括步骤S1、步骤S2和步骤S3。

步骤S1，对输入数据进行处理和采样获得训练样本；输入数据包括参数集θ中的每个参数和用户资源聚类矩阵。

进一步地，步骤S1还可以包括步骤S11、步骤S12、步骤S13和步骤S14。

步骤S11，将输入数据初始化为d-维随机向量，获得用户特征向量、资源类别向量和参数向量。

步骤S12，组合用户特征向量和资源类别向量。

具体地，本实施例中输入数据为(userid,f1,f2,…,fn)，其中userid是用户id，f1是该用户访问的第一个文化资源所属的资源类别，f2是该用户访问的第二个文化资源所属类别，以此类推直至第n个用户访问的文化资源类别。

步骤S13，随机选择一个用户以及该用户访问过的一个资源类别。

步骤S14，以所选取的资源类别为中心，选择访问数量为S的有序上下文资源类别。

具体地，本实施例中S为预设的移动窗口尺寸。

步骤S2，采用随机梯度下降法进行每轮迭代的参数值估算。

具体地，步骤S2还可以包括步骤S21、步骤S22和步骤S23。

步骤S21，对资源类别向量进行加权；权重包括用户行为特征数据中的对应值和资源类别对于当前用户的权重值；

步骤S22，将用户特征向量和加权后的资源向量进行求和；

步骤S23，通过求偏导的方法，分别计算参数向量、用户特征向量和资源类别向量的梯度。

步骤S3，依据参数值更新网络参数直至完成收敛，输出用户特征向量集和资源类别向量集。

具体地，步骤S3还可以包括步骤S31、步骤S32和步骤S33。

步骤S31，依据参数向量梯度更新网络参数向量；

步骤S32，依据用户特征向量梯度更新用户特征向量；

步骤S33，依据资源类别向量更新资源类别向量。

经过多轮迭代直至收敛，得到最优的参数向量集、用户特征向量集以及资源类别向量集。其中的用户特征向量集是本发明方法的后续步骤所需要的。

文化资源推荐模块160可以配置为采用最近邻协同过滤算法，并依据行为特征计算模块150得到的深度学习结果，确定推荐文化资源。

进一步地，本实施例中文化资源推荐模块160还可以包括用户相似度计算单元161和协同过滤单元162。

用户相似度计算单元161可以配置为采用预设相似度算法计算不同用户之间的相似度。

协同过滤单元162可以配置为执行下述操作：

采用最近邻协同过滤算法，并依据用户相似度计算单元所计算的不同用户之间的相似度，计算不同文化资源的推荐分值；

按照推荐分值由高到低的顺序对各文化资源进行排序，并选取第1～N个文化资源作为推荐文化资源，N≥1。

具体地，上述最近邻协同过滤算法可以使用公开的基于用户的协同过滤算法，此处不再赘述。

进一步地，本实施例中文化资源推荐系统100还可以包括推荐反馈模块170，推荐反馈模块还可以包括排序单元171和推荐单元172。

排序单元171可以配置为采集用户对推荐文化资源的意见，依据预设反馈条件对推荐文化资源的推荐分值进行动态调整，并对动态调整后的推荐文化资源按照推荐分值由高到低的顺序进行重新排序。

推荐单元171可以配置为选取排序单元重新排序后的推荐文化资源中的第1～N个文化资源作为新的推荐文化资源，N≥1。

进一步地，本实施例中预设反馈条件为：

若用户访问推荐文化资源，则增加文化资源推荐模块获取的推荐文化资源对应的推荐分值，并将其从该用户的推荐列表中移除；

若用户对推荐文化资源的进行正面评价，则增加文化资源推荐模块获取的推荐文化资源对应的推荐分值；

若用户对推荐文化资源的进行负面评价，则减小文化资源推荐模块获取的推荐文化资源对应的推荐分值，并将其从用户的推荐列表中移除；

若用户对推荐文化资源没有反馈，则不进行调整。

具体地，本实施例中，当用户访问了对推荐系统推荐的文化资源则该推荐文化资源的推荐分值增加10％，并将其从该用户的推荐列表中移除；当用户对该推荐文化资源进行了正面评价，则将该推荐文化资源的推荐分值增加10％，并在该用户的推荐列表中保留该推荐文化资源；当用户对该推荐文化资源进行了负面评价，则将该推荐文化资源的推荐分值减少10％，并将其从该用户的推荐列表中移除；当用户对该推荐文化资源没有任何反馈，则不进行调整。

当用户没有访问对推荐系统推荐的文化资源类别，即用户的反馈意见为负反馈，则该项推荐文化资源类别的推荐分值减少10％。

本领域技术人员可以理解，上述文化资源推荐系统还包括一些其他公知结构，例如处理器、控制器、存储器等，其中，存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等，处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等，为了不必要地模糊本公开的实施例，这些公知的结构未在示出。

本领域技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种文化资源推荐系统，其特征在于，所述文化资源推荐系统包括行为数据采集模块、行为数据处理模块、行为权重评估模块、文化资源聚类模块、行为特征计算模块和文化资源推荐模块；

所述行为特征计算模块，配置为采用深度学习算法，依据所述文化资源类别、用户行为特征及其用户行为权重值，对预设行为特征计算模型进行训练，行为特征计算模型进而依据所述训练后的行为特征计算模型获取用户特征向量集和资源类别向量集；

2.根据权利要求1所述的系统，其特征在于，所述行为数据采集模块包括采集单元，配置为从预设文化资源平台的用户访问日志中获取用户行为数据。

3.根据权利要求1所述的系统，其特征在于，所述行为数据处理模块包括行为数据排序单元和行为数据标准化单元；

所述行为数据标准化单元，配置为将排序后的各用户行为数据量化在预设的实数数值区间内，以得到用户行为特征。

4.根据权利要求1所述的系统，其特征在于，所述行为权重评估模块包括权重计算单元；所述权重计算单元，配置为使用TF-IDF算法，计算出各用户行为数据对应的用户行为权重值。

5.根据权利要求1所述的系统，其特征在于，所述文化资源聚类模块包括数据抽取单元和数据聚类单元；

6.根据权利要求1所述的系统，其特征在于，所述行为特征计算模块包括用户资源类矩阵构建单元；

7.根据权利要求1所述的系统，其特征在于，所述文化资源推荐模块包括用户相似度计算单元和协同过滤单元；

所述协同过滤单元，配置为执行下述操作：

按照所述推荐分值由高到低的顺序对各文化资源进行排序，并选取第1～N个文化资源作为推荐文化资源，N≥1。

8.根据权利要求1-7任意一项所述的系统，其特征在于，所述系统还包括推荐反馈模块，所述推荐反馈模块包括排序单元和推荐单元；

9.根据权利要求8所述的系统，其特征在于，所述预设反馈条件为：

若所述用户访问所述推荐文化资源，则增大所述推荐文化资源对应的推荐分值，并将其从所述用户的推荐列表中移除；

若所述用户对所述推荐文化资源的进行正面评价，则增大所述推荐文化资源对应的推荐分值；

若所述用户对所述推荐文化资源的进行负面评价，则减小所述推荐文化资源对应的推荐分值，并将其从所述用户的推荐列表中移除；

若所述用户对所述推荐文化资源没有反馈，则不进行调整。