CN117312542A - 基于人工智能的阅读推荐方法及系统 - Google Patents

基于人工智能的阅读推荐方法及系统 Download PDF

Info

Publication number
CN117312542A
CN117312542A CN202311610984.0A CN202311610984A CN117312542A CN 117312542 A CN117312542 A CN 117312542A CN 202311610984 A CN202311610984 A CN 202311610984A CN 117312542 A CN117312542 A CN 117312542A
Authority
CN
China
Prior art keywords
user
recommendation
model
data
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311610984.0A
Other languages
English (en)
Other versions
CN117312542B (zh
Inventor
苏志
李圣爱
李雪萌
荣梓露
李梓璇
白小玉
周小祥
徐瑞齐
苏一朔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taishan University
Original Assignee
Taishan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taishan University filed Critical Taishan University
Priority to CN202311610984.0A priority Critical patent/CN117312542B/zh
Publication of CN117312542A publication Critical patent/CN117312542A/zh
Application granted granted Critical
Publication of CN117312542B publication Critical patent/CN117312542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及基于人工智能的阅读推荐方法及系统,上述方法包括数据收集、数据预处理、特征提取、阅读推荐、模型训练和优化、推荐结果生成与展示、解决冷启动问题和隐私和安全保护,本发明采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,通过使用嵌入表示,更好地理解文档之间的关联性,从而提供更准确的推荐;本发明通过采用图神经网络模型和自监督学习的方法,使用GCN模型从图结构中提取出更丰富的特征表示,从而更好地理解用户和文章之间的关系,提供更个性化、精准的推荐结果,提升用户满意度和系统效果,全面地理解用户和文章之间的关系,提高推荐的多样性和覆盖范围。

Description

基于人工智能的阅读推荐方法及系统
技术领域
本发明涉及人工智能技术领域,具体是指基于人工智能的阅读推荐方法及系统。
背景技术
阅读推荐通常存在推送不准确和难以抓取新用户的情况,严重影响阅读推荐的用户体验感,传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题,推荐结果单一和重复,无法满足用户的多样化需求,推送的文章与用户的实际需求不匹配,导致用户对推荐结果的满意度降低,推荐结果变得单一和重复,无法满足用户的多样化需求;一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题,只能提供通用的热门推荐,无法满足新用户的个性化需求,同时用户可能会得到与他们兴趣不符的推荐,从而降低了用户体验和阅读推荐的效果,从而导致用户的流失。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于人工智能的阅读推荐方法及系统,针对传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题,推荐结果单一和重复,无法满足用户的多样化需求,推送的文章与用户的实际需求不匹配,导致用户对推荐结果的满意度降低,推荐结果变得单一和重复,无法满足用户的多样化需求,本方案采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,通过学习用户和物品的嵌入向量来解决这个问题,即使用户与某些物品没有直接的交互记录,系统仍然通过学习嵌入向量之间的关系来进行推荐,通过使用嵌入表示,更好地理解文档之间的关联性,从而提供更准确的推荐;针对一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题,只能提供通用的热门推荐,无法满足新用户的个性化需求,同时用户可能会得到与他们兴趣不符的推荐,从而降低了用户体验和阅读推荐的效果,从而导致用户的流失,本方案通过采用图神经网络模型和自监督学习的方法,使用GCN模型从图结构中提取出更丰富的特征表示,从而更好地理解用户和文章之间的关系,通过自监督学习从大量未标记的数据中学习到有用的特征,这些特征用于冷启动情况下的推荐,有助于提供更个性化、精准的推荐结果,提升用户满意度和系统效果,全面地理解用户和文章之间的关系,提高推荐的多样性和覆盖范围。
本发明采取的技术方案如下:本发明提供的基于人工智能的阅读推荐方法,该方法包括以下步骤:
步骤S1:数据收集,收集用户阅读历史数据和物品的特征数据,用户阅读历史数据包括用户阅读过的文章、书籍和博客,物品的特征数据包括标题、作者、标签和描述;
步骤S2:数据预处理,对用户阅读历史数据和物品的特征数据进行数据预处理,包括数据清洗、整理和标准化,得到经过预处理后的用户阅读历史数据和物品的特征数据;
步骤S3:特征提取,根据预处理后的用户阅读历史数据和物品的特征数据,进行特征提取,得到经过特征提取后的用户阅读历史数据和物品的特征数据;
步骤S4:阅读推荐,使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,创建Doc2Vec模型;
步骤S5:模型训练和优化,使用经过特征提取后的用户阅读历史数据和物品的特征数据对Doc2Vec模型进行训练和优化,使用深度学习的方法,通过迭代训练和调整参数,提高模型的准确性和效果;
步骤S6:推荐结果生成与展示,为用户生成个性化的推荐结果,推荐结果通过网页和应用程序展示给用户,以便用户选择感兴趣的文章或内容;
步骤S7:解决冷启动问题,对于新用户和没有阅读历史数据的用户,采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题;
步骤S8:隐私和安全保护,采取数据匿名化保护用户个人信息。
进一步的,在步骤S4中,使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,具体包括以下步骤:
步骤S41:构建标记化文档,使用标记化工具库将经过特征提取后的用户阅读历史数据和物品的特征数据转换为标记化的形式,得到标记化的文档;
步骤S42:创建Doc2Vec模型,使用Gensim框架创建一个Doc2Vec模型,同时设置参数,包括向量维度、窗口大小和最小计数;
步骤S43:构建词汇表,将标记化的文档作为输入,构建一个词汇表,其中包含标记化的文档中出现的所有词汇;
步骤S44:构建训练语料库,将标记化的文档转化为TaggedDocument对象,其中每个对象包含一个标记化的文档和一个唯一的标签,标签是用户或物品的ID,所有的TaggedDocument对象集成为训练语料库,定义一个标签空间并输入所有的标签;
步骤S45:训练模型,使用构建好的训练语料库对Doc2Vec模型进行训练,Doc2Vec模型学习将标记化的文档映射到固定长度的向量空间中,得到用户向量和物品向量;
步骤S46:模型评估和优化,通过计算准确率、召回率和F1值对Doc2Vec模型进行评估,得到评估结果后,调整Doc2Vec模型的超参数,包括向量维度、窗口大小和最小计数。
进一步的,在步骤S6中,为用户生成个性化的推荐结果,具体包括以下步骤:
步骤S61:计算向量之间的距离,使用欧式距离计算用户向量和物品向量之间的距离,距离越小,用户和物品之间的相似度越高,所用公式如下:
其中,是用户向量和物品向量;
步骤S62:计算相似度,使用余弦相似度将向量之间的距离转换为相似 度,所用公式如下:
步骤S63:相似度排序,选择最相似度最高的用户向量或物品向量,根据与其他用户向量或物品向量的相似度,使用相似度排序的方法来选择最近向量;
步骤S64:寻找向量,对于目标用户u,找到其最相近的k个向量,记为N(u);
步骤S65:进行遍历,在相近的k个向量中,找到目标用户u没有阅读过的物品,将这些物品加入推荐列表;
步骤S66:个性化推荐,制定推荐规则,根据推荐规则对推荐列表进行排序,得到个性化推荐结果。
进一步的,在步骤S7中,采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题,具体包括以下步骤:
步骤S71:收集用户行为数据,包括点击、购买、收藏、评分和评论,对用户行为数据进行预处理,包括清洗、去除噪声和填充缺失值,得到预处理后的用户行为数据;
步骤S72:构建用户-物品图,根据用户行为数据构建一个用户-物品图,每个用户和物品都作为用户-物品图的一个节点,用户行为作为用户-物品图的边;
步骤S73:定义自监督学习任务,选择节点重构任务作为自监督学习任务,在节点重构任务中将一部分节点的特征作为输入,通过GNN模型预测这些节点的特征,将这些被预测的节点称为目标节点;
步骤S74:构建训练样本,为节点重构任务构建训练样本,训练样本包括正样本和负样本,通过在用户-物品图中随机选择节点,并将其邻居节点作为正样本,邻居节点指的是与目标节点直接连接的节点,从用户-物品图中选择其他节点为负样本;
步骤S75:构建GCN模型,选择使用GNN模型中的GCN模型,并对GCN模型进行构建;
进一步的,在步骤S75中,对GCN模型进行构建,具体包括以下步骤:
步骤S751:定义节点和边的特征表示方式,对于目标节点,使用目标节点的属性信息作为初始特征表示,根据目标节点之间的关系定义特征表示,包括边的权重类型;
步骤S752:定义消息传递函数,GCN模型中的消息传递函数负责在用户-物品图中传递和更新节点的信息,消息传递函数通过聚合邻居节点的特征来更新当前目标节点的特征表示,聚合方式是使用邻居节点的平均值或加权平均值进行聚合;
步骤S753:定义聚合函数,GCN模型中的聚合函数对节点的特征进行聚合,以得到整个用户-物品图的表示;
步骤S754:定义输出层,在GCN模型的顶部添加输出层,预测节点的标签,将GCN模型的输出映射到所需的标签空间,并使用交叉熵损失函数进行训练和优化;
步骤S76:进行预训练,使用训练样本和节点重构任务对GCN模型进行预训练;
步骤S77:模型优化,通过最大化正样本的相似度和最小化负样本的相似度来优化GCN模型的参数;
步骤S78:模型评估,通过计算准确率、召回率和F1值对GCN模型进行评估,得到评估结果;
步骤S79:模型调优和迭代,根据评估结果对GCN模型进行调优和迭代。
本发明提供的基于人工智能的阅读推荐系统,包括数据收集和预处理模块、特征提取模块、推荐算法模块、模型训练和优化模块、推荐结果生成与展示模块、冷启动问题模块和隐私安全保护模块:
所述数据收集和预处理模块收集用户阅读历史数据和物品的特征数据,用户阅读历史数据包括用户阅读过的文章、书籍和博客,物品特征数据包括标题、作者、标签和描述,同时进行预处理操作并传输至特征提取模块;
所述特征提取模块使用预处理后的用户阅读历史数据和物品的特征数据,进行特征提取操作,得到经过特征提取后的用户阅读历史数据和物品的特征数据;
所述推荐算法模块使用基于嵌入表示的协同过滤推荐算法,根据特征提取后的用户的阅读历史数据和物品的特征数据,计算物品之间的相似度并生成个性化的阅读推荐结果;
所述模型训练和优化模块使用训练样本对GCN模型进行训练和优化,并且对GCN模型进行迭代训练和调整参数;
所述推荐结果生成与展示模块发送的数据,根据用户的个性化需求和推荐算法的结果,生成针对目标用户的推荐结果,并通过网页和应用程序的方式展示给用户;
所述冷启动问题模块针对新用户和没有阅读行为数据的用户,采用基于内容的推荐、热门推荐和人工干预的策略解决冷启动问题,为上述用户提供个性化推荐结果;
所述隐私安全保护模块采取相应的措施保护用户个人信息的隐私和安全,包括数据匿名化、加密传输和权限控制,确保用户的数据安全性和隐私性。
采用上述方案本发明取得的有益效果如下:
(1)针对传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题,推荐结果单一和重复,无法满足用户的多样化需求,推送的文章与用户的实际需求不匹配,导致用户对推荐结果的满意度降低,推荐结果变得单一和重复,无法满足用户的多样化需求,本方案采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,通过学习用户和物品的嵌入向量来解决这个问题,即使用户与某些物品没有直接的交互记录,系统仍然通过学习嵌入向量之间的关系来进行推荐,通过使用嵌入表示,更好地理解文档之间的关联性,从而提供更准确的推荐。
(2)针对一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题,只能提供通用的热门推荐,无法满足新用户的个性化需求,同时用户可能会得到与他们兴趣不符的推荐,从而降低了用户体验和阅读推荐的效果,从而导致用户的流失,本方案通过采用图神经网络模型和自监督学习的方法,使用GCN模型从图结构中提取出更丰富的特征表示,从而更好地理解用户和文章之间的关系,通过自监督学习从大量未标记的数据中学习到有用的特征,这些特征用于冷启动情况下的推荐,有助于提供更个性化、精准的推荐结果,提升用户满意度和系统效果,全面地理解用户和文章之间的关系,提高推荐的多样性和覆盖范围。
附图说明
图1为本发明提供的基于人工智能的阅读推荐方法的流程示意图;
图2为步骤S4的流程示意图;
图3为步骤S6的流程示意图;
图4为步骤S7的流程示意图;
图5为本发明提供的基于人工智能的阅读推荐系统的模块示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的基于人工智能的阅读推荐方法,该方法包括以下步骤:
步骤S1:数据收集,收集用户阅读历史数据和物品的特征数据,用户阅读历史数据包括用户阅读过的文章、书籍和博客,物品的特征数据包括标题、作者、标签和描述;
步骤S2:数据预处理,对用户阅读历史数据和物品的特征数据进行数据预处理,包括数据清洗、整理和标准化,得到经过预处理后的用户阅读历史数据和物品的特征数据;
步骤S3:特征提取,根据预处理后的用户阅读历史数据和物品的特征数据,进行特征提取,得到经过特征提取后的用户阅读历史数据和物品的特征数据;
步骤S4:阅读推荐,使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,创建Doc2Vec模型;
步骤S5:模型训练和优化,使用经过特征提取后的用户阅读历史数据和物品的特征数据对Doc2Vec模型进行训练和优化,使用深度学习的方法,通过迭代训练和调整参数,提高模型的准确性和效果;
步骤S6:推荐结果生成与展示,为用户生成个性化的推荐结果,推荐结果通过网页和应用程序展示给用户,以便用户选择感兴趣的文章或内容;
步骤S7:解决冷启动问题,对于新用户和没有阅读历史数据的用户,采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题;
步骤S8:隐私和安全保护,采取数据匿名化保护用户个人信息。
实施例二,参阅图1和图2,该实施例基于上述实施例,在步骤S4中,使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,具体包括以下步骤:
步骤S41:构建标记化文档,使用标记化工具库将经过特征提取后的用户阅读历史数据和物品的特征数据转换为标记化的形式,得到标记化的文档;
步骤S42:创建Doc2Vec模型,使用Gensim框架创建一个Doc2Vec模型,同时设置参数,包括向量维度、窗口大小和最小计数;
步骤S43:构建词汇表,将标记化的文档作为输入,构建一个词汇表,其中包含标记化的文档中出现的所有词汇;
步骤S44:构建训练语料库,将标记化的文档转化为TaggedDocument对象,其中每个对象包含一个标记化的文档和一个唯一的标签,标签是用户或物品的ID,所有的TaggedDocument对象集成为训练语料库,定义一个标签空间并输入所有的标签;
步骤S45:训练模型,使用构建好的训练语料库对Doc2Vec模型进行训练,Doc2Vec模型学习将标记化的文档映射到固定长度的向量空间中,得到用户向量和物品向量;
步骤S46:模型评估和优化,通过计算准确率、召回率和F1值对Doc2Vec模型进行评估,得到评估结果后,调整Doc2Vec模型的超参数,包括向量维度、窗口大小和最小计数。
通过执行上述操作,针对传统的阅读推荐方法及系统存在用户兴趣不匹配、推送信息过载和数据稀疏性高的问题,推荐结果单一和重复,无法满足用户的多样化需求,推送的文章与用户的实际需求不匹配,导致用户对推荐结果的满意度降低,推荐结果变得单一和重复,无法满足用户的多样化需求,本方案采用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,通过学习用户和物品的嵌入向量来解决这个问题,即使用户与某些物品没有直接的交互记录,系统仍然通过学习嵌入向量之间的关系来进行推荐,通过使用嵌入表示,更好地理解文档之间的关联性,从而提供更准确的推荐。
实施例三,参阅图1和图3,该实施例基于上述实施例,在步骤S6中,为用户生成个性化的推荐结果,具体包括以下步骤:
步骤S61:计算向量之间的距离,使用欧式距离计算用户向量和物品向量之间的距离,距离越小,用户和物品之间的相似度越高,所用公式如下:
其中,是用户向量和物品向量;
步骤S62:计算相似度,使用余弦相似度将向量之间的距离转换为相似 度值,所用公式如下:
步骤S63:相似度排序,选择最相似度最高的用户向量或物品向量,根据与其他用户向量或物品向量的相似度,使用相似度排序的方法来选择最近向量;
步骤S64:寻找向量,对于目标用户u,找到其最相近的k个向量,记为N(u);
步骤S65:进行遍历,在相近的k个向量中,找到目标用户u没有阅读过的物品,将这些物品加入推荐列表;
步骤S66:个性化推荐,制定推荐规则,根据推荐规则对推荐列表进行排序,得到个性化推荐结果。
实施例四,参阅图1和图4,该实施例基于上述实施例,在步骤S7中,采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题,具体包括以下步骤:
步骤S71:收集用户行为数据,包括点击、购买、收藏、评分和评论,对用户行为数据进行预处理,包括清洗、去除噪声和填充缺失值,得到预处理后的用户行为数据;
步骤S72:构建用户-物品图,根 据用户行为数据构建一个用户-物品图,每个用户和物品都作为用户-物品图的一个节点,用户行为作为用户-物品图的边;
步骤S73:定义自监督学习任务,选择节点重构任务作为自监督学习任务,在节点重构任务中将一部分节点的特征作为输入,通过GNN模型预测这些节点的特征,将这些被预测的节点称为目标节点;
步骤S74:构建训练样本,为节点重构任务构建训练样本,训练样本包括正样本和负样本,通过在用户-物品图中随机选择节点,并将其邻居节点作为正样本,邻居节点指的是与目标节点直接连接的节点,从用户-物品图中选择其他节点为负样本;
步骤S75:构建GCN模型,选择使用GNN模型中的GCN模型,并对GCN模型进行构建;
在步骤S75中,对GCN模型进行构建,具体包括以下步骤:
步骤S751:定义节点和边的特征表示方式,对于目标节点,使用目标节点的属性信息作为初始特征表示,根据目标节点之间的关系定义特征表示,包括边的权重类型;
步骤S752:定义消息传递函数,GCN模型中的消息传递函数负责在用户-物品图中传递和更新节点的信息,消息传递函数通过聚合邻居节点的特征来更新当前目标节点的特征表示,聚合方式是使用邻居节点的平均值或加权平均值进行聚合;
步骤S753:定义聚合函数,GCN模型中的聚合函数对节点的特征进行聚合,以得到整个用户-物品图的表示;
步骤S754:定义输出层,在GCN模型的顶部添加输出层,预测节点的标签,将GCN模型的输出映射到所需的标签空间,并使用交叉熵损失函数进行训练和优化;
步骤S76:进行预训练,使用训练样本和节点重构任务对GCN模型进行预训练;
步骤S77:模型优化,通过最大化正样本的相似度和最小化负样本的相似度来优化GCN模型的参数;
步骤S78:模型评估,通过计算准确率、召回率和F1值对GCN模型进行评估,得到评估结果;
步骤S79:模型调优和迭代,根据评估结果对GCN模型进行调优和迭代。
通过执行上述操作,针对一般的阅读推荐方法及系统存在无法进行准确推荐、对于新用户的抓取率低的问题,只能提供通用的热门推荐,无法满足新用户的个性化需求,同时用户可能会得到与他们兴趣不符的推荐,从而降低了用户体验和阅读推荐的效果,从而导致用户的流失,本方案通过采用图神经网络模型和自监督学习的方法,使用GCN模型从图结构中提取出更丰富的特征表示,从而更好地理解用户和文章之间的关系,通过自监督学习从大量未标记的数据中学习到有用的特征,这些特征用于冷启动情况下的推荐,有助于提供更个性化、精准的推荐结果,提升用户满意度和系统效果,全面地理解用户和文章之间的关系,提高推荐的多样性和覆盖范围。
实施例五,参阅图5,该实施例基于上述实施例,本发明提供的基于人工智能的阅读推荐系统,包括数据收集和预处理模块、特征提取模块、推荐算法模块、模型训练和优化模块、推荐结果生成与展示模块、冷启动问题模块和隐私安全保护模块:
所述数据收集和预处理模块收集用户阅读历史数据和物品的特征数据,用户阅读历史数据包括用户阅读过的文章、书籍和博客,物品特征数据包括标题、作者、标签和描述,同时进行预处理操作并传输至特征提取模块;
所述特征提取模块使用预处理后的用户阅读历史数据和物品的特征数据,进行特征提取操作,得到经过特征提取后的用户阅读历史数据和物品的特征数据;
所述推荐算法模块使用基于嵌入表示的协同过滤推荐算法,根据特征提取后的用户的阅读历史数据和物品的特征数据,计算物品之间的相似度并生成个性化的阅读推荐结果;
所述模型训练和优化模块使用训练样本对GCN模型进行训练和优化,并且对GCN模型进行迭代训练和调整参数;
所述推荐结果生成与展示模块发送的数据,根据用户的个性化需求和推荐算法的结果,生成针对目标用户的推荐结果,并通过网页和应用程序的方式展示给用户;
所述冷启动问题模块针对新用户和没有阅读行为数据的用户,采用基于内容的推荐、热门推荐和人工干预的策略解决冷启动问题,为上述用户提供个性化推荐结果;
所述隐私安全保护模块采取相应的措施保护用户个人信息的隐私和安全,包括数据匿名化、加密传输和权限控制,确保用户的数据安全性和隐私性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.基于人工智能的阅读推荐方法,其特征在于:该方法包括以下步骤:
步骤S1:数据收集,收集用户阅读历史数据和物品的特征数据,用户阅读历史数据包括用户阅读过的文章、书籍和博客,物品的特征数据包括标题、作者、标签和描述;
步骤S2:数据预处理,对用户阅读历史数据和物品的特征数据进行数据预处理,包括数据清洗、整理和标准化,得到经过预处理后的用户阅读历史数据和物品的特征数据;
步骤S3:特征提取,根据预处理后的用户阅读历史数据和物品的特征数据,进行特征提取,得到经过特征提取后的用户阅读历史数据和物品的特征数据;
步骤S4:阅读推荐,使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,创建Doc2Vec模型;
步骤S5:模型训练和优化,使用经过特征提取后的用户阅读历史数据和物品的特征数据对Doc2Vec模型进行训练和优化,使用深度学习的方法,通过迭代训练和调整参数,提高模型的准确性和效果;
步骤S6:推荐结果生成与展示,为用户生成个性化的推荐结果,推荐结果通过网页和应用程序展示给用户,以便用户选择感兴趣的文章或内容;
步骤S7:解决冷启动问题,对于新用户和没有阅读历史数据的用户,采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题;
步骤S8:隐私和安全保护,采取数据匿名化保护用户个人信息。
2.根据权利要求1所述的基于人工智能的阅读推荐方法,其特征在于:在步骤S4中,使用一种基于嵌入表示的协同过滤推荐算法进行阅读推荐,具体包括以下步骤:
步骤S41:构建标记化文档,使用标记化工具库将经过特征提取后的用户阅读历史数据和物品的特征数据转换为标记化的形式,得到标记化的文档;
步骤S42:创建Doc2Vec模型,使用Gensim框架创建一个Doc2Vec模型,同时设置参数,包括向量维度、窗口大小和最小计数;
步骤S43:构建词汇表,将标记化的文档作为输入,构建一个词汇表,其中包含标记化的文档中出现的所有词汇;
步骤S44:构建训练语料库,将标记化的文档转化为TaggedDocument对象,其中每个对象包含一个标记化的文档和一个唯一的标签,标签是用户或物品的ID,所有的TaggedDocument对象集成为训练语料库,定义一个标签空间并输入所有的标签;
步骤S45:训练模型,使用构建好的训练语料库对Doc2Vec模型进行训练,Doc2Vec模型学习将标记化的文档映射到固定长度的向量空间中,得到用户向量和物品向量;
步骤S46:模型评估和优化,通过计算准确率、召回率和F1值对Doc2Vec模型进行评估,得到评估结果后,调整Doc2Vec模型的超参数,包括向量维度、窗口大小和最小计数。
3.根据权利要求1所述的基于人工智能的阅读推荐方法,其特征在于:在步骤S6中,为用户生成个性化的推荐结果,具体包括以下步骤:
步骤S61:计算向量之间的距离,使用欧式距离计算用户向量和物品向量之间的距离,距离越小,用户和物品之间的相似度越高,所用公式如下:
其中,和/>是用户向量和物品向量;
步骤S62:计算相似度,使用余弦相似度将向量之间的距离转换为相似度,所用公式如下:
步骤S63:相似度排序,选择最相似度最高的用户向量或物品向量,根据与其他用户向量或物品向量的相似度,使用相似度排序的方法来选择最近向量;
步骤S64:寻找向量,对于目标用户u,找到其最相近的k个向量,记为N(u);
步骤S65:进行遍历,在相近的k个向量中,找到目标用户u没有阅读过的物品,将这些物品加入推荐列表;
步骤S66:个性化推荐,制定推荐规则,根据推荐规则对推荐列表进行排序,得到个性化推荐结果。
4.根据权利要求1所述的基于人工智能的阅读推荐方法,其特征在于:在步骤S7中,采用图神经网络模型GNN和自监督学习SSL的方法解决冷启动问题,具体包括以下步骤:
步骤S71:收集用户行为数据,包括点击、购买、收藏、评分和评论,对用户行为数据进行预处理,包括清洗、去除噪声和填充缺失值,得到预处理后的用户行为数据;
步骤S72:构建用户-物品图,根据用户行为数据构建一个用户-物品图,每个用户和物品都作为用户-物品图的一个节点,用户行为作为用户-物品图的边;
步骤S73:定义自监督学习任务,选择节点重构任务作为自监督学习任务,在节点重构任务中将一部分节点的特征作为输入,通过GNN模型预测这些节点的特征,将这些被预测的节点称为目标节点;
步骤S74:构建训练样本,为节点重构任务构建训练样本,训练样本包括正样本和负样本,通过在用户-物品图中随机选择节点,并将其邻居节点作为正样本,邻居节点指的是与目标节点直接连接的节点,从用户-物品图中选择其他节点为负样本;
步骤S75:构建GCN模型,选择使用GNN模型中的GCN模型,并对GCN模型进行构建;
步骤S76:进行预训练,使用训练样本和节点重构任务对GCN模型进行预训练;
步骤S77:模型优化,通过最大化正样本的相似度和最小化负样本的相似度来优化GCN模型的参数;
步骤S78:模型评估,通过计算准确率、召回率和F1值对GCN模型进行评估,得到评估结果;
步骤S79:模型调优和迭代,根据评估结果对GCN模型进行调优和迭代。
5.根据权利要求4所述的基于人工智能的阅读推荐方法,其特征在于:在步骤S75中,对GCN模型进行构建,具体包括以下步骤:
步骤S751:定义节点和边的特征表示方式,对于目标节点,使用目标节点的属性信息作为初始特征表示,根据目标节点之间的关系定义特征表示,包括边的权重类型;
步骤S752:定义消息传递函数,GCN模型中的消息传递函数负责在用户-物品图中传递和更新节点的信息,消息传递函数通过聚合邻居节点的特征来更新当前目标节点的特征表示,聚合方式是使用邻居节点的平均值或加权平均值进行聚合;
步骤S753:定义聚合函数,GCN模型中的聚合函数对节点的特征进行聚合,以得到整个用户-物品图的表示;
步骤S754:定义输出层,在GCN模型的顶部添加输出层,预测节点的标签,将GCN模型的输出映射到所需的标签空间,并使用交叉熵损失函数进行训练和优化。
6.基于人工智能的阅读推荐系统,用于实现权利要求1-5任一项所述的基于人工智能的阅读推荐方法,其特征在于:包括数据收集和预处理模块、特征提取模块、推荐算法模块、模型训练和优化模块、推荐结果生成与展示模块、冷启动问题模块和隐私安全保护模块:
所述数据收集和预处理模块收集用户阅读历史数据和物品的特征数据,用户阅读历史数据包括用户阅读过的文章、书籍和博客,物品特征数据包括标题、作者、标签和描述,同时进行预处理操作并传输至特征提取模块;
所述特征提取模块使用预处理后的用户阅读历史数据和物品的特征数据,进行特征提取操作,得到经过特征提取后的用户阅读历史数据和物品的特征数据;
所述推荐算法模块使用基于嵌入表示的协同过滤推荐算法,根据特征提取后的用户的阅读历史数据和物品的特征数据,计算物品之间的相似度并生成个性化的阅读推荐结果;
所述模型训练和优化模块使用训练样本对GCN模型进行训练和优化,并且对GCN模型进行迭代训练和调整参数;
所述推荐结果生成与展示模块发送的数据,根据用户的个性化需求和推荐算法的结果,生成针对目标用户的推荐结果,并通过网页和应用程序的方式展示给用户;
所述冷启动问题模块针对新用户和没有阅读行为数据的用户,采用基于内容的推荐、热门推荐和人工干预的策略解决冷启动问题,为上述用户提供个性化推荐结果;
所述隐私安全保护模块采取相应的措施保护用户个人信息的隐私和安全,包括数据匿名化、加密传输和权限控制,确保用户的数据安全性和隐私性。
CN202311610984.0A 2023-11-29 2023-11-29 基于人工智能的阅读推荐方法及系统 Active CN117312542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311610984.0A CN117312542B (zh) 2023-11-29 2023-11-29 基于人工智能的阅读推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311610984.0A CN117312542B (zh) 2023-11-29 2023-11-29 基于人工智能的阅读推荐方法及系统

Publications (2)

Publication Number Publication Date
CN117312542A true CN117312542A (zh) 2023-12-29
CN117312542B CN117312542B (zh) 2024-02-13

Family

ID=89274090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311610984.0A Active CN117312542B (zh) 2023-11-29 2023-11-29 基于人工智能的阅读推荐方法及系统

Country Status (1)

Country Link
CN (1) CN117312542B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020055940A1 (en) * 2000-11-07 2002-05-09 Charles Elkan Method and system for selecting documents by measuring document quality
CN104156450A (zh) * 2014-08-15 2014-11-19 同济大学 一种基于用户网络数据的物品信息推荐方法
US20140379618A1 (en) * 2013-06-21 2014-12-25 Emc Corporation Document recommendation
CN111737427A (zh) * 2020-05-11 2020-10-02 华南理工大学 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法
CN112633478A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于本体语义的图卷积网络学习模型的构建
CN112732995A (zh) * 2021-01-08 2021-04-30 云浮市物联网研究院有限公司 一种畜牧业新闻资讯推荐系统
CN112884551A (zh) * 2021-02-19 2021-06-01 武汉大学 一种基于近邻用户和评论信息的商品推荐方法
WO2021103789A1 (zh) * 2019-11-27 2021-06-03 西北工业大学 一种知识图谱驱动的个性化精准推荐方法
CN113705792A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN113704615A (zh) * 2021-08-30 2021-11-26 万汇互联(深圳)科技有限公司 一种基于多模态的深度兴趣网络推荐方法
CN114036406A (zh) * 2021-11-04 2022-02-11 南京大学 一种基于图对比学习和社交网络增强的推荐方法及系统
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114496165A (zh) * 2022-01-27 2022-05-13 国家食品安全风险评估中心 一种基于异构图的食品膳食推荐方法
CN114510630A (zh) * 2021-12-31 2022-05-17 中南财经政法大学 一种基于异质图卷积神经网络的学术论文推荐方法及系统
CN114764479A (zh) * 2022-03-24 2022-07-19 中山大学 一种基于新闻场景下用户行为的个性化新闻推荐方法
CN115481313A (zh) * 2021-06-16 2022-12-16 南京邮电大学 一种基于文本语义挖掘的新闻推荐方法
WO2023065618A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 基于多头自注意神经机制的多模态新闻推荐方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020055940A1 (en) * 2000-11-07 2002-05-09 Charles Elkan Method and system for selecting documents by measuring document quality
US20140379618A1 (en) * 2013-06-21 2014-12-25 Emc Corporation Document recommendation
CN104156450A (zh) * 2014-08-15 2014-11-19 同济大学 一种基于用户网络数据的物品信息推荐方法
WO2021103789A1 (zh) * 2019-11-27 2021-06-03 西北工业大学 一种知识图谱驱动的个性化精准推荐方法
CN111737427A (zh) * 2020-05-11 2020-10-02 华南理工大学 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法
CN112633478A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于本体语义的图卷积网络学习模型的构建
CN112732995A (zh) * 2021-01-08 2021-04-30 云浮市物联网研究院有限公司 一种畜牧业新闻资讯推荐系统
CN112884551A (zh) * 2021-02-19 2021-06-01 武汉大学 一种基于近邻用户和评论信息的商品推荐方法
CN115481313A (zh) * 2021-06-16 2022-12-16 南京邮电大学 一种基于文本语义挖掘的新闻推荐方法
CN113704615A (zh) * 2021-08-30 2021-11-26 万汇互联(深圳)科技有限公司 一种基于多模态的深度兴趣网络推荐方法
CN113705792A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于深度学习模型的个性化推荐方法、装置、设备及介质
WO2023065618A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 基于多头自注意神经机制的多模态新闻推荐方法及装置
CN114036406A (zh) * 2021-11-04 2022-02-11 南京大学 一种基于图对比学习和社交网络增强的推荐方法及系统
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114510630A (zh) * 2021-12-31 2022-05-17 中南财经政法大学 一种基于异质图卷积神经网络的学术论文推荐方法及系统
CN114496165A (zh) * 2022-01-27 2022-05-13 国家食品安全风险评估中心 一种基于异构图的食品膳食推荐方法
CN114764479A (zh) * 2022-03-24 2022-07-19 中山大学 一种基于新闻场景下用户行为的个性化新闻推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李恒超 等: "一种用于构建用户画像的二级融合算法框架", 计算机科学, vol. 45, no. 1, pages 157 - 161 *
黄立威 等: "基于深度学习的推荐系统研究综述", 计算机学报, vol. 41, no. 07, 31 July 2018 (2018-07-31), pages 1619 - 1647 *

Also Published As

Publication number Publication date
CN117312542B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN107220365B (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN111444394B (zh) 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111444395B (zh) 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111310063B (zh) 基于神经网络的记忆感知门控因子分解机物品推荐方法
CN103810162B (zh) 推荐网络信息的方法和系统
Jiao et al. A novel learning rate function and its application on the SVD++ recommendation algorithm
CN104239496B (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
CN107357793A (zh) 信息推荐方法和装置
CN105138653A (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
CN106294859A (zh) 一种基于属性耦合矩阵分解的项目推荐方法
CN106960354A (zh) 一种基于客户生命周期的精准化推荐方法及装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN104899246A (zh) 基于模糊机制用户评分邻域信息的协同过滤推荐方法
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN106204053A (zh) 信息类目错放识别方法和装置
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
CN108389113B (zh) 一种协同过滤推荐方法和系统
CN118069927A (zh) 基于知识感知和用户多兴趣特征表示的新闻推荐方法及系统
CN118071400A (zh) 基于图计算技术在信息消费领域的应用方法及系统
CN117312542B (zh) 基于人工智能的阅读推荐方法及系统
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN114329167A (zh) 超参数学习、智能推荐、关键词和多媒体推荐方法及装置
CN110727867A (zh) 一种基于模糊机制的语义实体推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant