CN109558533B

CN109558533B - 一种基于多重聚类的个性化内容推荐方法及装置

Info

Publication number: CN109558533B
Application number: CN201811268858.0A
Authority: CN
Inventors: 罗云; 陈远存; 刘国文
Original assignee: Guangdong Oking Information Industry Co ltd
Current assignee: Guangdong Oking Information Industry Co ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2022-11-29
Anticipated expiration: 2038-10-29
Also published as: CN109558533A

Abstract

本发明公开了一种基于多重聚类的个性化内容推荐方法及装置一种基于多重聚类的个性化内容推荐方法及装置，对内容聚类、对用户聚类、将用户与内容一起聚类的方式，使用决策树算法给用户贴标签，优点一是将推荐内容和用户信息相联系起来，而不是仅仅对内容聚类或者用户聚类，在数据量不够或者有新内容出现而没有历史参考数据的时候，推荐也可以顺利进行，可以减少人工干预，优点二是自动化程度高，初期将决策树算法确定下来后，整个算法过程是自动自主进行的，不需要太多其他人工的干预，维护成本低，同时对内容、用户、内容和用户进行聚类，以减少人工干预的情况，使得推荐过程更为智能和准确。

Description

一种基于多重聚类的个性化内容推荐方法及装置

技术领域

本公开涉及计算机数据处理技术领域，具体涉及一种基于多重聚类的个性化内容推荐方法及装置。

背景技术

随着网络信息化技术的发展，人们越来越普及了通过推送网络信息来及时了解自己想要的信息。传统的方法是对用户进行聚类，当有新用户出现时，将新用户也放入到聚类算法中，查找其具有相同或者相近兴趣偏好的用户，通过这个来推荐产品或者内容。现有发明的缺点在于，将用户进行聚类之后，虽然可以知道相似或者相同兴趣偏好的用户有哪些，但是内容和用户之间的关系不太确定，如果用户没有对推荐内容进行反馈，无法通过已有用户的信息来决定是否给新用户推荐内容。

发明内容

本公开提供一种基于多重聚类的个性化内容推荐方法及装置，对内容聚类、对用户聚类、将用户与内容一起聚类的方式，使用决策树算法给用户贴标签，通过对内容、用户、内容的用户的三重聚类，自动向用户推荐个性化的内容。

为了实现上述目的，根据本公开的一方面，提供一种基于多重聚类的个性化内容推荐方法，所述方法包括以下步骤：

步骤A，将待推送的新内容进行分词并使用LDA算法得出内容主题；

步骤B，将新内容的主题和以往内容的主题进行向量化得到主题向量，向量化即当主题出现作为1，否则为0；

步骤C，将用户的初始信息放入决策树算法贴上标签并将其向量化，每个决策树的节点就是一个标签，当新用户通过某个节点时，就贴上相应的标签，形成新用户信息向量；

步骤D，通过聚类算法将新内容的主题向量与以往内容的主题向量进行聚类：以往内容的主题向量与新内容的主题向量一并放入聚类算法中，若新内容主题向量距离任意聚类中心大于阈值距离，则将新内容主题向量与用户信息向量进行聚类：将主题向量和用户信息向量都放入聚类算法中，否则将新内容推荐到同一聚类中心且经过协同过滤推荐算法过滤后的用户：将主题向量所对应的新内容推送给与主题向量相同聚类中心的用户；

步骤E，将新内容推送至同类的以往内容的所推送过的用户：新内容的主题向量与的以往内容的主题向量聚类后，若所推送用户初始信息未变化，则进入步骤E，否则进入步骤H；

步骤F，推送消息给当前用户；

步骤G，将用户信息向量进行聚类：将用户信息的向量放入聚类算法；

步骤H，同类收到此新内容的用户数：若聚类后，初始信息发生变化的用户的同类用户有收到此新内容，若收到此新内容的同类用户数超过用户阈值，则推送消息给当前用户，否则不推送消息给当前用户。

进一步地，在步骤A中，将待推送的新内容进行分词的分词方法为最小匹配算法、最大匹配算法、逐字匹配算法、神经网络分词算法、联想—回溯法、N-最短路径分词算法、基于词频统计的切词法、基于期望的切词法、有穷多级列举法的任意一种。

进一步地，在步骤C中，所述决策树算法为朴素贝叶斯分类算法、贝叶斯网络算法、ID3算法和C4.5算法中任意一种。

进一步地，在步骤D中，所述聚类算法包括K-means算法、层次聚类算法、SOM算法、FCM算法、WAVECLUSTER算法、ROCK算法、BIRCH算法、CURE算法、K-PROTOTYPES算法、DENCLUE算法、OPTIGRID算法、CLIQUE算法、DBSCAN算法、CLARANS算法其中任意一种。

进一步地，在步骤D中，所述以往内容的主题为前3次推送的内容，所述阈值距离为所有的主题向量距离任意聚类中心最长距离的三分之一。

进一步地，在步骤F中，所述消息为新内容,即新收到的内容信息。

进一步地，在步骤H中，所述用户阈值的取值范围为总人数的1/5到1/2，默认值为总人数的1/5。

本发明还提供了一种基于多重聚类的个性化内容推荐装置，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

内容主题抽取单元，用于将待推送的新内容进行分词并使用LDA算法得出内容主题；

主题向量转化单元，用于将主题进行向量化得到主题向量，即当主题出现作为1，否则为0；

决策树向量化单元，用于将用户的初始信息放入决策树算法贴上标签并将其向量化，每个决策树的节点就是一个标签，当新用户通过某个节点时，就贴上相应的标签，形成新用户信息向量；

向量聚类过滤单元，用于通过聚类算法将新内容的主题向量与以往内容的主题向量进行聚类：以往内容的主题向量与新内容的主题向量一并放入聚类算法中，若新内容主题向量距离任意聚类中心大于阈值距离，则将新内容主题向量与用户信息向量进行聚类：将主题向量和用户信息向量都放入聚类算法中，否则将新内容推荐到同一聚类中心且经过协同过滤推荐算法过滤后的用户：将主题向量所对应的新内容推送给与主题向量相同聚类中心的用户；

用户信息判断单元，用于将新内容推送至同类的以往内容的所推送过的用户：新内容的主题向量与的以往内容的主题向量聚类后，若所推送用户初始信息未变化，则进入老用户推送单元，否则进入新用户推送单元；

老用户推送单元，用于推送消息给当前用户；

用户信息聚类单元，用于将用户信息向量进行聚类：将用户信息的向量放入聚类算法；

新用户推送单元，用于同类收到此新内容的用户数：若聚类后，初始信息发生变化的用户的同类用户有收到此新内容，若收到此新内容的同类用户数超过用户阈值，则推送消息给当前用户，否则不推送消息给当前用户。

本公开的有益效果为：本发明提供一种基于多重聚类的个性化内容推荐方法及装置，优点一是将推荐内容和用户信息相联系起来，而不是仅仅对内容聚类或者用户聚类，在数据量不够或者有新内容出现而没有历史参考数据的时候，推荐也可以顺利进行，这样可以减少人工干预，优点二是自动化程度高，初期将决策树算法确定下来后，整个算法过程是自动自主进行的，不需要太多其他人工的干预，维护成本低，同时对内容、用户、内容和用户进行聚类，以减少人工干预的情况，使得推荐过程更为智能和准确。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种基于多重聚类的个性化内容推荐方法的流程图；

图2所示为一种基于多重聚类的个性化内容推荐装置图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种基于多重聚类的个性化内容推荐方法的流程图，下面结合图1来阐述根据本公开的实施方式的一种基于多重聚类的个性化内容推荐方法。

本公开提出一种基于多重聚类的个性化内容推荐方法，具体包括以下步骤：

步骤A，将待推送的新内容进行分词并使用LDA算法得出内容主题：分词是指将一个汉字序列切分成一个一个单独的词，LDA算法全称是隐含狄利克雷分布(LatentDirichlet Allocation)，其作用是将分词中的主题提取出来；

步骤B，将新内容的主题和以往内容的主题进行向量化得到主题向量，向量化即当主题出现作为1，否则为0，由此将重要性最高的若干个主题变为向量；

步骤C，将用户的初始信息放入决策树算法贴上标签并将其向量化：用户的初始信息，通过人为的观察和推送内容的历史规律，制定一个决策树算法，每个决策树的节点就是一个标签，当新用户通过某个节点时，就贴上相应的标签，形成新用户信息向量；

步骤E，将新内容推送至同类的以往内容的所推送过的用户：新内容的主题向量与的以往内容的主题向量聚类后，若所推送用户初始信息未变化则进入步骤E，否则进入步骤H；

步骤F，推送消息给当前用户：用户初始信息未变化，即用户的信息与之前相同；

本公开提供的技术方案并非在所有类型的内容推荐上都适用，其针对的是用户信息与推送信息具有较强关联性的情况。

衡量个性化推荐系统的重要标准是评分预测，通常使用平均绝对误差(MAE)和均方根误差(RMSE)来计算推荐系统的准确度。MAE和RMSE的定义如下：

其中Rui表示用户的实际评分，

表示用户的预测评分，|T|表示用户集合数量。若算法的精确度越高，MAE和RMSE的数值越小。

实验数据来自于Hyunchul Ann教授收集的移动用户数据，数据包含3419个用户的99803条搜索字段。

在用户/内容因子矩阵维度为30、聚类簇数为10、平衡参数μ为0.6的条件下，在多次迭代之后，基础矩阵分解算法(Basic MF)、协同过滤推荐算法(CF)、规则化矩阵分解推荐算法(Regularized MF)以及本专利提出的多重聚类算法进行了仿真实验，经过仿真测试，如下表所示，现有的方法的技术与本公开提供的技术方案模型的实验对比结果对比如下：

本公开的实施例提供的一种基于多重聚类的个性化内容推荐装置，如图2所示为本公开的一种基于多重聚类的个性化内容推荐装置图，该实施例的一种基于多重聚类的个性化内容推荐装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于多重聚类的个性化内容推荐装置实施例中的步骤。

所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

老用户推送单元，用于推送消息给当前用户；

所述一种基于多重聚类的个性化内容推荐装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于多重聚类的个性化内容推荐装置，可运行的装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于多重聚类的个性化内容推荐装置的示例，并不构成对一种基于多重聚类的个性化内容推荐装置的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于多重聚类的个性化内容推荐装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于多重聚类的个性化内容推荐装置运行装置的控制中心，利用各种接口和线路连接整个一种基于多重聚类的个性化内容推荐装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于多重聚类的个性化内容推荐装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种基于多重聚类的个性化内容推荐方法，其特征在于，所述方法包括以下步骤：

步骤F，推送消息给当前用户；

2.根据权利要求1所述的一种基于多重聚类的个性化内容推荐方法，其特征在于，在步骤A中，将待推送的新内容进行分词的分词方法为最小匹配算法、最大匹配算法、逐字匹配算法、神经网络分词算法、联想—回溯法、N-最短路径分词算法、基于词频统计的切词法、基于期望的切词法、有穷多级列举法的任意一种。

3.根据权利要求1所述的一种基于多重聚类的个性化内容推荐方法，其特征在于，在步骤C中，所述决策树算法为朴素贝叶斯分类算法、贝叶斯网络算法、ID3算法和C4.5算法中任意一种。

4.根据权利要求1所述的一种基于多重聚类的个性化内容推荐方法，其特征在于，在步骤D中，所述聚类算法包括K-means算法、层次聚类算法、SOM算法、FCM算法、WAVECLUSTER算法、ROCK算法、BIRCH算法、CURE算法、K-PROTOTYPES算法、DENCLUE算法、OPTIGRID算法、CLIQUE算法、DBSCAN算法、CLARANS算法其中任意一种。

5.根据权利要求1所述的一种基于多重聚类的个性化内容推荐方法，其特征在于，在步骤D中，所述以往内容的主题为前3次推送的内容，所述阈值距离为所有的主题向量距离任意聚类中心最长距离的三分之一。

6.根据权利要求1所述的一种基于多重聚类的个性化内容推荐方法，其特征在于，在步骤H中，所述用户阈值的取值范围为总人数的1/5到1/2，默认值为总人数的1/5。

7.一种基于多重聚类的个性化内容推荐装置，其特征在于，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

老用户推送单元，用于推送消息给当前用户；