CN110489640A

CN110489640A - 内容推荐方法及系统

Info

Publication number: CN110489640A
Application number: CN201910639024.4A
Authority: CN
Inventors: 范锋
Original assignee: Beijing Fast Network Technology Co Ltd
Current assignee: Beijing Fast Network Technology Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-11-22

Abstract

本发明实施例提供了一种内容推荐方法及系统，在指定时间段内采集终端设备的用户数据，对各用户数据进行预处理，得出能够与指定模型相匹配的各数据集；当用户数据的数据量达到预设值，提取各所述数据集的特征向量，并基于各特征向量进行层次聚类得出各用户的标签分布；根据各标签分布，通过隐含狄利克雷划分模型划分出多个分类群组，并确定各分类群组的标签分布以及各用户属于各分类群组的概率分布；计算各用户在各个风格标签上的得分，根据得分向用户推送得分所属范围内的对应内容。本发明实施例的方法针对用户数据量不同选择不同的推荐方法，保证了推荐内容的准确性。

Description

内容推荐方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种内容推荐方法及系统。

背景技术

现有技术的推荐方法中，应用最为广泛的是协同过滤算法，其包括基于用户和基于物品两种方法。基于用户的协同过滤算法首先查找有相似属性的用户，然后收集分析相似用户的数据为目标用户推荐感兴趣的物品；基于物品的协同过滤算法则是计算属性相似的物品然后推荐给目标用户。但是协同过滤算法在用户数量和物品数量很大的时候计算相似度矩阵的代价很大，耗费大量的计算资源。

发明内容

有鉴于此，本发明实施例提供了一种内容推荐方法及系统。

第一方面，本发明实施例提供了一种内容推荐方法，包括：

S1、在指定时间段内采集终端设备的用户数据，对各所述用户数据进行预处理，得出能够与指定模型相匹配的各数据集；

S2、当所述用户数据的数据量达到预设值，提取各所述数据集的特征向量，并基于各所述特征向量进行层次聚类得出各用户的标签分布；

S3、根据各所述标签分布，通过隐含狄利克雷划分模型划分出多个分类群组，并确定各所述分类群组的标签分布以及各所述用户属于各分类群组的概率分布；

S4、计算各所述用户在各个风格标签上的得分，根据所述得分向用户推送得分所属范围内的对应内容。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括，当所述用户数据的数据量未达到预设值，则将该用户数据输入推荐算法，通过所述推荐算法向用户推送对应内容。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述推荐算法为由基于用户的协同过滤算法和分类算法组成的混合推荐算法。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，S3包括：

S31、建立用户数据集合的概率密度函数：

S32、计算标签分布属于分类群组特征的概率；

S33、对用户的所属分类群组进行不断迭代计算，直至满足预设收敛条件；

S34、输出用户属于各分类群组的概率分布。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述用户数据包括在所述指定时间段使用该终端设备的用户的个人数据和行为数据。

第二方面，本发明实施例提供了一种内容推荐系统，包括：

预处理模块，用于在指定时间段内采集终端设备的用户数据，对各所述用户数据进行预处理，得出能够与指定模型相匹配的各数据集；

聚类模块，用于当所述用户数据的数据量达到预设值，提取各所述数据集的特征向量，并基于各所述特征向量进行层次聚类得出各用户的标签分布；

处理模块，用于根据各所述标签分布，通过隐含狄利克雷划分模型划分出多个分类群组，并确定各所述分类群组的标签分布以及各所述用户属于各分类群组的概率分布；

计算模块，用于计算各所述用户在各个风格标签上的得分，根据所述得分向用户推送得分所属范围内的对应内容。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述系统还包括，推荐模块，用于当所述用户数据的数据量未达到预设值，则将该用户数据输入推荐算法，通过所述推荐算法向用户推送对应内容。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述处理模块具体用于执行：

S31、建立用户数据集合的概率密度函数：

S32、计算标签分布属于分类群组特征的概率；

S34、输出用户属于各分类群组的概率分布。

上述技术方案中的一个技术方案具有如下有益效果：

本发明实施例的方法中，在指定时间段内采集终端设备的用户数据，对各所述用户数据进行预处理，得出能够与指定模型相匹配的各数据集；当所述用户数据的数据量达到预设值，提取各所述数据集的特征向量，并基于各所述特征向量进行层次聚类得出各用户的标签分布；根据各所述标签分布，通过隐含狄利克雷划分模型划分出多个分类群组，并确定各所述分类群组的标签分布以及各所述用户属于各分类群组的概率分布；计算各所述用户在各个风格标签上的得分，根据所述得分向用户推送得分所属范围内的对应内容。本发明实施例的方法针对用户数据量不同选择不同的推荐方法，保证了推荐内容的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例所提供的内容推荐方法的一种流程示意图；

图2为本发明实施例所提供的内容推荐系统的功能方块图；

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种内容推荐方法，如图1所示，该方法包括以下步骤：

具体实施时，S1中需要解决对要进行预测的原始用户数据根据要求进行必要的预处理，获得没有缺失值和错误值的数据集，并生成能够输入分类器的正确格式。S1中所提及的用户数据包括用户行为数据和用户个人数据。其中，用户行为数据包含有关终端设备的用户在终端设备上的操作行为的信息，比如，用户的使用频率、用户的使用时间段、应用程序操作习惯等；用户个人数据包含用户的位置信息、检索信息、用户在本地存储的包括图片、文本、视频、应用程序等在内的各项内容的信息。

需要说明的是，S2中只处理数据里达到预设值的用户数据，数据量特别少的用户数据情况下，仍通过后续的步骤进行推荐，会导致准确率较低，同时会浪费计算资源。

故在本发明中，当所述用户数据的数据量未达到预设值，则将该用户数据输入推荐算法，通过所述推荐算法向用户推送对应内容。推荐算法为由基于用户的协同过滤算法和分类算法组成的混合推荐算法。

具体的，协同过滤推荐分为三种类型。第一种是基于用户的协同过滤，第二种是基于项目的协同过滤，第三种是基于模型的协同过滤。

基于用户的协同过滤主要考虑的是用户和用户之间的相似度，只要找出相似用户喜欢的物品，并预测目标用户对对应物品的评分，就可以找到评分最高的若干个物品推荐给用户。而基于项目的协同过滤和基于用户的协同过滤类似，只不过这时需要找到物品和物品之间的相似度，找到了目标用户对某些物品的评分，才可以对相似度高的类似物品进行预测，将评分最高的若干个相似物品推荐给用户。

基于模型的协同过滤作为目前最主流的协同过滤类型，问题可以描述为：m个物品，m个用户的数据，只有部分用户和部分数据之间是有评分数据的，其它部分评分是空白，此时需要要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系，找到最高评分的物品推荐给用户。

具体的，针对数据量较少的新增用户，本发明可以根据历史用户行为日志建立用户群体及商品类别，建立推荐矩阵，通过协同过滤算法和分类算法组成的混合推荐算法进行内容推荐。当新增用户的数据量达到设定值以后，则开始提取各所述数据集的特征向量，并基于各所述特征向量进行层次聚类得出各用户的标签分布。

需要说明的是，提取的数据集的特征向量作为Kmeans算法的输入，Kmeans将特征相似的用户数据归为一类，赋予类别标签。下面对Kmeans对用户数据进行聚类的具体步骤进行说明：随机选取k个中心点；遍历所有数据，并计算其到各个中心的距离，将每个数据划分到最近的中心点；计算每个簇的平均值，并作为新的中心点；重复步骤2-3，直到中心点不再改变。

在本发明的实施例中，S3包括：

S31、建立用户数据集合的概率密度函数：

S32、计算标签分布属于分类群组特征的概率；

S34、输出用户属于各分类群组的概率分布。

其中，S31的步骤具体可以为：先设置超参数α和β，先验参数λ和ω，初始K值，以及迭代次数；然后建立用户数据集合的概率密度函数可通过如下的公式进行表示：

其中，

S32的步骤具体可以为：通过公式计算标签分布l属于分类群组特征的概率。

S33的步骤具体可以为：根据采样结果更新通过如下公式进行计算：

根据采样结果更新通过如下公式进行计算：

根据采样结果更新θ，θ通过如下公式进行计算：

然后，判断θ的计算结果是否满足预设收敛条件，若是，计算标签分布属于分类群组特征的概率，否则根据采样结果更新和θ，直到θ的计算结果是否满足预设收敛条件。

S34的步骤具体可以为：更新用户所属分类群组、第i个用户属于第k个分类群组的概率以及第i个用户属于第k+1个分类群组的概率。分别通过如下公式进行计算：

然后通过轮盘赌选择用户i所属的分类群组，若出现用户属于新的分类群组情形，则更新K值。

S34的步骤具体可以为：输出用户i属于各分类群组的概率分布

以及，分类群组k的标签分布

下面对以上出现的符号进行解释。

c_i为第i个用户所属的分类群组的索引；

τ为二元变量且τ＝{τ₁,τ₂,...,τ_L}，Ω表示属于分类群组的标签分布；

L为标签数量，l为标签，l＝1,2,...,L，l的值表示其对应的标签在标签分布{1,2,...,L}中的索引；

I是用户数量，i＝1,2,...,I，|x_i|为第i个用户的用户数据量的总数，x_iL为第l个标签在x_i中出现的次数，x_i＝{x_i1,x_i2,...,x_iL}为第i个用户的标签分布文档，X＝{x₁,x₂,...,x_I}为用户数据量集合；

K为当前潜在群组的数量，k＝1,2,...,K；

β_l为分类群组中的标签l的概率，θ为潜在群组的概率分布；

为第i个用户所属分类群组的多项式，为用户数据中不属于分类群组的标签分布，为分类群组k的标签分布；

H(c_i＝k)为指示函数，当c_i＝k时，H(c_i＝k)＝1，否则，H(c_i＝k)＝0；

f(τ|X,c₁,c₂,...,c_I)∝f(X|c₁,c₂,...,c_I,τ)p(τ)；

且

S4具体为，通过公式计算出用户i在标签上l的得分，其中，为第i个用户属于分类群组k的概率，为分类群组k中标签l的分布；然后根据所述得分向用户推送得分所属范围内的对应内容。

本发明实施例提供的技术方案具有以下有益效果：

基于相同的构思，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的系统实施例。

请参考图2，其为本发明实施例所提供的一种内容推荐系统，如图2所示，该装置包括：

预处理模块210，用于在指定时间段内采集终端设备的用户数据，对各所述用户数据进行预处理，得出能够与指定模型相匹配的各数据集；

聚类模块220，用于当所述用户数据的数据量达到预设值，提取各所述数据集的特征向量，并基于各所述特征向量进行层次聚类得出各用户的标签分布；

处理模块230，用于根据各所述标签分布，通过隐含狄利克雷划分模型划分出多个分类群组，并确定各所述分类群组的标签分布以及各所述用户属于各分类群组的概率分布；

计算模块240，用于计算各所述用户在各个风格标签上的得分，根据所述得分向用户推送得分所属范围内的对应内容。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述系统还包括：

推荐模块，用于当所述用户数据的数据量未达到预设值，则将该用户数据输入推荐算法，通过所述推荐算法向用户推送对应内容。

S31、建立用户数据集合的概率密度函数：

S32、计算标签分布属于分类群组特征的概率；

S34、输出用户属于各分类群组的概率分布。

由于本实施例中的各单元模块能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。

图3是本发明的一个实施例电子设备的结构示意图。请参考图3，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Per-ipheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended I-ndustryStandard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，也可从其它设备上获取相应的计算机程序，以在逻辑层面上形成内容推荐系统。处理器，执行存储器所存放的程序，以通过执行的程序实现本发明任一实施例中提供的内容推荐方法。

本发明实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行本发明任一实施例中提供的内容推荐方法。

上述如本发明图3所示实施例提供的内容推荐系统执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元或模块分别描述。当然，在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种内容推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括，当所述用户数据的数据量未达到预设值，则将该用户数据输入推荐算法，通过所述推荐算法向用户推送对应内容。

3.根据权利要求2所述的方法，其特征在于，所述推荐算法为由基于用户的协同过滤算法和分类算法组成的混合推荐算法。

4.根据权利要求1所述的方法，其特征在于，S3包括：

S31、建立用户数据集合的概率密度函数：

S32、计算标签分布属于分类群组特征的概率；

S34、输出用户属于各分类群组的概率分布。

5.根据权利要求1所述的方法，其特征在于，所述用户数据包括在所述指定时间段使用该终端设备的用户的个人数据和行为数据。

6.一种内容推荐系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述系统还包括，推荐模块，用于当所述用户数据的数据量未达到预设值，则将该用户数据输入推荐算法，通过所述推荐算法向用户推送对应内容。

8.根据权利要求7所述的系统，其特征在于，所述推荐算法为由基于用户的协同过滤算法和分类算法组成的混合推荐算法。

9.根据权利要求6所述的系统，其特征在于，所述处理模块具体用于执行：

S31、建立用户数据集合的概率密度函数：

S32、计算标签分布属于分类群组特征的概率；

S34、输出用户属于各分类群组的概率分布。

10.根据权利要求6所述的系统，其特征在于，所述用户数据包括在所述指定时间段使用该终端设备的用户的个人数据和行为数据。