CN117312542A

CN117312542A - 基于人工智能的阅读推荐方法及系统

Info

Publication number: CN117312542A
Application number: CN202311610984.0A
Authority: CN
Inventors: 苏志; 李圣爱; 李雪萌; 荣梓露; 李梓璇; 白小玉; 周小祥; 徐瑞齐; 苏一朔
Original assignee: Taishan University
Current assignee: Taishan University
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2023-12-29
Anticipated expiration: 2043-11-29
Also published as: CN117312542B

Abstract

本发明涉及人工智能技术领域，尤其涉及基于人工智能的阅读推荐方法及系统，上述方法包括数据收集、数据预处理、特征提取、阅读推荐、模型训练和优化、推荐结果生成与展示、解决冷启动问题和隐私和安全保护，本发明采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，通过使用嵌入表示，更好地理解文档之间的关联性，从而提供更准确的推荐；本发明通过采用图神经网络模型和自监督学习的方法，使用GCN模型从图结构中提取出更丰富的特征表示，从而更好地理解用户和文章之间的关系，提供更个性化、精准的推荐结果，提升用户满意度和系统效果，全面地理解用户和文章之间的关系，提高推荐的多样性和覆盖范围。

Description

基于人工智能的阅读推荐方法及系统

技术领域

本发明涉及人工智能技术领域，具体是指基于人工智能的阅读推荐方法及系统。

背景技术

阅读推荐通常存在推送不准确和难以抓取新用户的情况，严重影响阅读推荐的用户体验感，传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题，推荐结果单一和重复，无法满足用户的多样化需求，推送的文章与用户的实际需求不匹配，导致用户对推荐结果的满意度降低，推荐结果变得单一和重复，无法满足用户的多样化需求；一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题，只能提供通用的热门推荐，无法满足新用户的个性化需求，同时用户可能会得到与他们兴趣不符的推荐，从而降低了用户体验和阅读推荐的效果，从而导致用户的流失。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了一种基于人工智能的阅读推荐方法及系统，针对传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题，推荐结果单一和重复，无法满足用户的多样化需求，推送的文章与用户的实际需求不匹配，导致用户对推荐结果的满意度降低，推荐结果变得单一和重复，无法满足用户的多样化需求，本方案采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，通过学习用户和物品的嵌入向量来解决这个问题，即使用户与某些物品没有直接的交互记录，系统仍然通过学习嵌入向量之间的关系来进行推荐，通过使用嵌入表示，更好地理解文档之间的关联性，从而提供更准确的推荐；针对一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题，只能提供通用的热门推荐，无法满足新用户的个性化需求，同时用户可能会得到与他们兴趣不符的推荐，从而降低了用户体验和阅读推荐的效果，从而导致用户的流失，本方案通过采用图神经网络模型和自监督学习的方法，使用GCN模型从图结构中提取出更丰富的特征表示，从而更好地理解用户和文章之间的关系，通过自监督学习从大量未标记的数据中学习到有用的特征，这些特征用于冷启动情况下的推荐，有助于提供更个性化、精准的推荐结果，提升用户满意度和系统效果，全面地理解用户和文章之间的关系，提高推荐的多样性和覆盖范围。

本发明采取的技术方案如下：本发明提供的基于人工智能的阅读推荐方法，该方法包括以下步骤：

步骤S1：数据收集，收集用户阅读历史数据和物品的特征数据，用户阅读历史数据包括用户阅读过的文章、书籍和博客，物品的特征数据包括标题、作者、标签和描述；

步骤S2：数据预处理，对用户阅读历史数据和物品的特征数据进行数据预处理，包括数据清洗、整理和标准化，得到经过预处理后的用户阅读历史数据和物品的特征数据；

步骤S3：特征提取，根据预处理后的用户阅读历史数据和物品的特征数据，进行特征提取，得到经过特征提取后的用户阅读历史数据和物品的特征数据；

步骤S4：阅读推荐，使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，创建Doc2Vec模型；

步骤S5：模型训练和优化，使用经过特征提取后的用户阅读历史数据和物品的特征数据对Doc2Vec模型进行训练和优化，使用深度学习的方法，通过迭代训练和调整参数，提高模型的准确性和效果；

步骤S6：推荐结果生成与展示，为用户生成个性化的推荐结果，推荐结果通过网页和应用程序展示给用户，以便用户选择感兴趣的文章或内容；

步骤S7：解决冷启动问题，对于新用户和没有阅读历史数据的用户，采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题；

步骤S8：隐私和安全保护，采取数据匿名化保护用户个人信息。

进一步的，在步骤S4中，使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，具体包括以下步骤：

步骤S41：构建标记化文档，使用标记化工具库将经过特征提取后的用户阅读历史数据和物品的特征数据转换为标记化的形式，得到标记化的文档；

步骤S42：创建Doc2Vec模型，使用Gensim框架创建一个Doc2Vec模型，同时设置参数，包括向量维度、窗口大小和最小计数；

步骤S43：构建词汇表，将标记化的文档作为输入，构建一个词汇表，其中包含标记化的文档中出现的所有词汇；

步骤S44：构建训练语料库，将标记化的文档转化为TaggedDocument对象，其中每个对象包含一个标记化的文档和一个唯一的标签，标签是用户或物品的ID，所有的TaggedDocument对象集成为训练语料库，定义一个标签空间并输入所有的标签；

步骤S45：训练模型，使用构建好的训练语料库对Doc2Vec模型进行训练，Doc2Vec模型学习将标记化的文档映射到固定长度的向量空间中，得到用户向量和物品向量；

步骤S46：模型评估和优化，通过计算准确率、召回率和F1值对Doc2Vec模型进行评估，得到评估结果后，调整Doc2Vec模型的超参数，包括向量维度、窗口大小和最小计数。

进一步的，在步骤S6中，为用户生成个性化的推荐结果，具体包括以下步骤：

步骤S61：计算向量之间的距离，使用欧式距离计算用户向量和物品向量之间的距离，距离越小，用户和物品之间的相似度越高，所用公式如下：

；

其中，和是用户向量和物品向量；

步骤S62：计算相似度，使用余弦相似度将向量之间的距离转换为相似度，所用公式如下：

；

步骤S63：相似度排序，选择最相似度最高的用户向量或物品向量，根据与其他用户向量或物品向量的相似度，使用相似度排序的方法来选择最近向量；

步骤S64：寻找向量，对于目标用户u，找到其最相近的k个向量，记为N(u)；

步骤S65：进行遍历，在相近的k个向量中，找到目标用户u没有阅读过的物品，将这些物品加入推荐列表；

步骤S66：个性化推荐，制定推荐规则，根据推荐规则对推荐列表进行排序，得到个性化推荐结果。

进一步的，在步骤S7中，采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题，具体包括以下步骤：

步骤S71：收集用户行为数据，包括点击、购买、收藏、评分和评论，对用户行为数据进行预处理，包括清洗、去除噪声和填充缺失值，得到预处理后的用户行为数据；

步骤S72：构建用户-物品图，根据用户行为数据构建一个用户-物品图，每个用户和物品都作为用户-物品图的一个节点，用户行为作为用户-物品图的边；

步骤S73：定义自监督学习任务，选择节点重构任务作为自监督学习任务，在节点重构任务中将一部分节点的特征作为输入，通过GNN模型预测这些节点的特征，将这些被预测的节点称为目标节点；

步骤S74：构建训练样本，为节点重构任务构建训练样本，训练样本包括正样本和负样本，通过在用户-物品图中随机选择节点，并将其邻居节点作为正样本，邻居节点指的是与目标节点直接连接的节点，从用户-物品图中选择其他节点为负样本；

步骤S75：构建GCN模型，选择使用GNN模型中的GCN模型，并对GCN模型进行构建；

进一步的，在步骤S75中，对GCN模型进行构建，具体包括以下步骤：

步骤S751：定义节点和边的特征表示方式，对于目标节点，使用目标节点的属性信息作为初始特征表示，根据目标节点之间的关系定义特征表示，包括边的权重类型；

步骤S752：定义消息传递函数，GCN模型中的消息传递函数负责在用户-物品图中传递和更新节点的信息，消息传递函数通过聚合邻居节点的特征来更新当前目标节点的特征表示，聚合方式是使用邻居节点的平均值或加权平均值进行聚合；

步骤S753：定义聚合函数，GCN模型中的聚合函数对节点的特征进行聚合，以得到整个用户-物品图的表示；

步骤S754：定义输出层，在GCN模型的顶部添加输出层，预测节点的标签，将GCN模型的输出映射到所需的标签空间，并使用交叉熵损失函数进行训练和优化；

步骤S76：进行预训练，使用训练样本和节点重构任务对GCN模型进行预训练；

步骤S77：模型优化，通过最大化正样本的相似度和最小化负样本的相似度来优化GCN模型的参数；

步骤S78：模型评估，通过计算准确率、召回率和F1值对GCN模型进行评估，得到评估结果；

步骤S79：模型调优和迭代，根据评估结果对GCN模型进行调优和迭代。

本发明提供的基于人工智能的阅读推荐系统，包括数据收集和预处理模块、特征提取模块、推荐算法模块、模型训练和优化模块、推荐结果生成与展示模块、冷启动问题模块和隐私安全保护模块：

所述数据收集和预处理模块收集用户阅读历史数据和物品的特征数据，用户阅读历史数据包括用户阅读过的文章、书籍和博客，物品特征数据包括标题、作者、标签和描述，同时进行预处理操作并传输至特征提取模块；

所述特征提取模块使用预处理后的用户阅读历史数据和物品的特征数据，进行特征提取操作，得到经过特征提取后的用户阅读历史数据和物品的特征数据；

所述推荐算法模块使用基于嵌入表示的协同过滤推荐算法，根据特征提取后的用户的阅读历史数据和物品的特征数据，计算物品之间的相似度并生成个性化的阅读推荐结果；

所述模型训练和优化模块使用训练样本对GCN模型进行训练和优化，并且对GCN模型进行迭代训练和调整参数；

所述推荐结果生成与展示模块发送的数据，根据用户的个性化需求和推荐算法的结果，生成针对目标用户的推荐结果，并通过网页和应用程序的方式展示给用户；

所述冷启动问题模块针对新用户和没有阅读行为数据的用户，采用基于内容的推荐、热门推荐和人工干预的策略解决冷启动问题，为上述用户提供个性化推荐结果；

所述隐私安全保护模块采取相应的措施保护用户个人信息的隐私和安全，包括数据匿名化、加密传输和权限控制，确保用户的数据安全性和隐私性。

采用上述方案本发明取得的有益效果如下：

（1）针对传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题，推荐结果单一和重复，无法满足用户的多样化需求，推送的文章与用户的实际需求不匹配，导致用户对推荐结果的满意度降低，推荐结果变得单一和重复，无法满足用户的多样化需求，本方案采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，通过学习用户和物品的嵌入向量来解决这个问题，即使用户与某些物品没有直接的交互记录，系统仍然通过学习嵌入向量之间的关系来进行推荐，通过使用嵌入表示，更好地理解文档之间的关联性，从而提供更准确的推荐。

（2）针对一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题，只能提供通用的热门推荐，无法满足新用户的个性化需求，同时用户可能会得到与他们兴趣不符的推荐，从而降低了用户体验和阅读推荐的效果，从而导致用户的流失，本方案通过采用图神经网络模型和自监督学习的方法，使用GCN模型从图结构中提取出更丰富的特征表示，从而更好地理解用户和文章之间的关系，通过自监督学习从大量未标记的数据中学习到有用的特征，这些特征用于冷启动情况下的推荐，有助于提供更个性化、精准的推荐结果，提升用户满意度和系统效果，全面地理解用户和文章之间的关系，提高推荐的多样性和覆盖范围。

附图说明

图1为本发明提供的基于人工智能的阅读推荐方法的流程示意图；

图2为步骤S4的流程示意图；

图3为步骤S6的流程示意图；

图4为步骤S7的流程示意图；

图5为本发明提供的基于人工智能的阅读推荐系统的模块示意图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一，参阅图1，本发明提供的基于人工智能的阅读推荐方法，该方法包括以下步骤：

实施例二，参阅图1和图2，该实施例基于上述实施例，在步骤S4中，使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，具体包括以下步骤：

通过执行上述操作，针对传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题，推荐结果单一和重复，无法满足用户的多样化需求，推送的文章与用户的实际需求不匹配，导致用户对推荐结果的满意度降低，推荐结果变得单一和重复，无法满足用户的多样化需求，本方案采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，通过学习用户和物品的嵌入向量来解决这个问题，即使用户与某些物品没有直接的交互记录，系统仍然通过学习嵌入向量之间的关系来进行推荐，通过使用嵌入表示，更好地理解文档之间的关联性，从而提供更准确的推荐。

实施例三，参阅图1和图3，该实施例基于上述实施例，在步骤S6中，为用户生成个性化的推荐结果，具体包括以下步骤：

；

其中，和是用户向量和物品向量；

步骤S62：计算相似度，使用余弦相似度将向量之间的距离转换为相似度值，所用公式如下：

；

实施例四，参阅图1和图4，该实施例基于上述实施例，在步骤S7中，采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题，具体包括以下步骤：

在步骤S75中，对GCN模型进行构建，具体包括以下步骤：

通过执行上述操作，针对一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题，只能提供通用的热门推荐，无法满足新用户的个性化需求，同时用户可能会得到与他们兴趣不符的推荐，从而降低了用户体验和阅读推荐的效果，从而导致用户的流失，本方案通过采用图神经网络模型和自监督学习的方法，使用GCN模型从图结构中提取出更丰富的特征表示，从而更好地理解用户和文章之间的关系，通过自监督学习从大量未标记的数据中学习到有用的特征，这些特征用于冷启动情况下的推荐，有助于提供更个性化、精准的推荐结果，提升用户满意度和系统效果，全面地理解用户和文章之间的关系，提高推荐的多样性和覆盖范围。

实施例五，参阅图5，该实施例基于上述实施例，本发明提供的基于人工智能的阅读推荐系统，包括数据收集和预处理模块、特征提取模块、推荐算法模块、模型训练和优化模块、推荐结果生成与展示模块、冷启动问题模块和隐私安全保护模块：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于人工智能的阅读推荐方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于人工智能的阅读推荐方法，其特征在于：在步骤S4中，使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐，具体包括以下步骤：

3.根据权利要求1所述的基于人工智能的阅读推荐方法，其特征在于：在步骤S6中，为用户生成个性化的推荐结果，具体包括以下步骤：

；

其中，和/>是用户向量和物品向量；

；

4.根据权利要求1所述的基于人工智能的阅读推荐方法，其特征在于：在步骤S7中，采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题，具体包括以下步骤：

5.根据权利要求4所述的基于人工智能的阅读推荐方法，其特征在于：在步骤S75中，对GCN模型进行构建，具体包括以下步骤：

步骤S754：定义输出层，在GCN模型的顶部添加输出层，预测节点的标签，将GCN模型的输出映射到所需的标签空间，并使用交叉熵损失函数进行训练和优化。

6.基于人工智能的阅读推荐系统，用于实现权利要求1-5任一项所述的基于人工智能的阅读推荐方法，其特征在于：包括数据收集和预处理模块、特征提取模块、推荐算法模块、模型训练和优化模块、推荐结果生成与展示模块、冷启动问题模块和隐私安全保护模块：