CN117951390B

CN117951390B - 一种基于大语言模型的个性化内容推荐方法及系统

Info

Publication number: CN117951390B
Application number: CN202410339236.1A
Authority: CN
Inventors: 潘贤真; 马骎骎; 于兴亮
Original assignee: Sinotrans Innovation Technology Co ltd
Current assignee: Sinotrans Innovation Technology Co ltd
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-06-11
Anticipated expiration: 2044-03-25
Also published as: CN117951390A

Abstract

本发明属于人工智能技术领域，公开了一种基于大语言模型的个性化内容推荐方法及系统。所述的方法包括如下步骤：采用若干历史文本内容数据和若干历史行为数据；构建用户标签提取模型、内容关键词提取模型、内容主题提取模型以及推荐内容生成模型；进行内容关键词提取；进行内容主题提取；进行用户标签提取；进行内容主题词筛选；进行推荐内容生成；进行文本内容跳转。所述的系统包括依次连接的数据预处理单元、模型构建单元、内容关键词提取单元、内容主题提取单元、用户标签提取单元、内容主题词筛选单元、推荐内容生成单元以及文本内容跳转单元。本发明解决了现有技术存在的推荐效果差、无法满足个性化需求、模型训练效率低的问题。

Description

一种基于大语言模型的个性化内容推荐方法及系统

技术领域

本发明属于人工智能技术领域，具体涉及一种基于大语言模型的个性化内容推荐方法及系统。

背景技术

随着互联网技术的快速发展，网络上的内容日益丰富，用户在浏览信息时，往往需要花费大量的时间和精力去筛选对自己有价值的内容。为了解决这个问题，个性化推荐系统应运而生。目前，大多数个性化推荐系统采用协同过滤、内容相似度计算等方法，这些方法在一定程度上了提高了推荐的准确性，但仍然存在一定的局限性。

现有技术的个性化内容推荐方法，往往忽略了用户的主观意愿，导致推荐结果与用户的实际需求存在偏差，推荐效果差；推荐内容和方式过于单一，无法满足用户多样化的需求；推荐效果受到数据稀疏性和冷启动问题的影响，推荐模型训练效率低。

发明内容

为了解决现有技术存在的推荐效果差、无法满足个性化需求、模型训练效率低的问题，本发明目的在于提供一种基于大语言模型的个性化内容推荐方法及系统。

本发明所采用的技术方案为：

一种基于大语言模型的个性化内容推荐方法，包括如下步骤：

采用内容推荐平台的若干历史文本内容数据和注册用户的若干历史行为数据，并对若干历史文本内容数据和若干历史行为数据进行预处理，得到预处理后历史文本内容数据集和预处理后历史行为数据集；

根据预处理后历史文本内容数据集和预处理后历史行为数据集，构建用户标签提取模型、内容关键词提取模型、内容主题提取模型以及推荐内容生成模型；推荐内容生成模型基于大语言模型构建；

采集内容推荐平台的若干实时文本内容数据，并根据若干实时文本内容数据，使用内容关键词提取模型，进行内容关键词提取，得到对应的若干实时内容关键词组；

根据若干实时内容关键词组，使用内容主题提取模型，进行内容主题提取，得到对应的若干实时内容主题词；

采集当前用户在内容推荐平台的实时行为数据，并根据实时行为数据，使用用户标签提取模型，进行用户标签提取，得到当前用户的实时用户标签；

根据当前用户的实时用户标签与实时内容主题词的相似度，对若干实时内容主题词进行筛选，得到若干关注实时内容主题词；

根据若干关注实时内容主题词和对应的若干实时内容关键词组，使用大语言模型，进行推荐内容生成，得到对应的由若干短内容推荐数据构成的短内容推荐列表；

若当前用户点击短内容推荐列表中任一短内容推荐数据，则跳转至内容推荐平台对应的实时文本内容数据。

进一步地，预处理包括依次进行的重复数据筛选、错误数据剔除以及预设标签添加。

进一步地，根据预处理后历史文本内容数据集和预处理后历史行为数据集，构建用户标签提取模型、内容关键词提取模型、内容主题提取模型以及推荐内容生成模型，包括如下步骤：

根据预处理后历史行为数据集，使用机器学习算法，进行优化训练，构建用户标签提取模型，并生成对应的若干历史用户标签；

根据预处理后历史文本内容数据集，使用自然语言处理算法，构建内容关键词提取模型，并生成对应的若干历史内容关键词组；

根据若干历史内容关键词组，使用短文本分类算法，构建内容主题提取模型，并生成对应的若干历史内容主题词；

根据若干历史内容主题词和对应的若干历史内容关键词组，使用大语言模型算法，构建推荐内容生成模型。

进一步地，用户标签提取模型基于随机森林算法构建。

进一步地，内容关键词提取模型基于TF-IDF-CI算法构建。

进一步地，内容主题提取模型基于BTM算法构建。

进一步地，推荐内容生成模型基于ChatGPT3.5算法构建。

进一步地，采集内容推荐平台的若干实时文本内容数据，并根据若干实时文本内容数据，使用内容关键词提取模型，进行内容关键词提取，得到对应的若干实时内容关键词组，包括如下步骤：

采集内容推荐平台的若干实时文本内容数据，并对每一实时文本内容数据进行分词、词性筛选、去重以及去除停用词，得到对应的若干特征词；

将每一实时文本内容数据对应的输入若干特征词内容关键词提取模型；

基于内容关键词提取模型，使用TF-IDF-CI算法，提取若干特征词的类间离散因子、类内离散因子、词频以及逆向文本频率；

根据若干特征词的类间离散因子、类内离散因子、词频以及逆向文本频率，获取对应的特征词的TF-IDF-CI权重；

根据TF-IDF-CI权重，对若干特征词进行降幂排序，并选取前N个特征词作为实时内容关键词，得到对应的实时内容关键词组；

遍历所有实时文本内容数据，得到对应的若干实时内容关键词组。

进一步地，采集当前用户在内容推荐平台的实时行为数据，并根据实时行为数据，使用用户标签提取模型，进行用户标签提取，得到当前用户的实时用户标签，包括如下步骤：

采集当前用户在内容推荐平台的实时行为数据，并将实时行为数据输入用户标签提取模型；

使用用户标签提取模型，获取实时行为数据每种特征的基尼系数，并将基尼系数作为对应的特征贡献度；

对每种特征的特征贡献度进行归一化处理，得到归一化处理后特征贡献度，并根据归一化处理后特征贡献度，获取实时行为数据每种特征的特征选择标准值；

根据特征选择标准值，对实时行为数据的所有特征进行筛选，得到若干实时关键特；

根据实时关键特征，使用用户标签提取模型的若干决策树，进行用户标签提取，得到当前用户的实时用户标签。

一种基于大语言模型的个性化内容推荐系统，用于实现个性化内容推荐方法，系统包括依次连接的数据预处理单元、模型构建单元、内容关键词提取单元、内容主题提取单元、用户标签提取单元、内容主题词筛选单元、推荐内容生成单元以及文本内容跳转单元；

数据预处理单元，用于采用内容推荐平台的若干历史文本内容数据和注册用户的若干历史行为数据，并对若干历史文本内容数据和若干历史行为数据进行预处理，得到预处理后历史文本内容数据集和预处理后历史行为数据集；

模型构建单元，用于根据预处理后历史文本内容数据集和预处理后历史行为数据集，构建用户标签提取模型、内容关键词提取模型、内容主题提取模型以及推荐内容生成模型；推荐内容生成模型基于大语言模型构建；

内容关键词提取单元，用于采集内容推荐平台的若干实时文本内容数据，并根据若干实时文本内容数据，使用内容关键词提取模型，进行内容关键词提取，得到对应的若干实时内容关键词组；

内容主题提取单元，用于根据若干实时内容关键词组，使用内容主题提取模型，进行内容主题提取，得到对应的若干实时内容主题词；

用户标签提取单元，用于采集当前用户在内容推荐平台的实时行为数据，并根据实时行为数据，使用用户标签提取模型，进行用户标签提取，得到当前用户的实时用户标签；

内容主题词筛选单元，用于根据当前用户的实时用户标签与实时内容主题词的相似度，对若干实时内容主题词进行筛选，得到若干关注实时内容主题词；

推荐内容生成单元，用于根据若干关注实时内容主题词和对应的若干实时内容关键词组，使用大语言模型，进行推荐内容生成，得到对应的由若干短内容推荐数据构成的短内容推荐列表；

文本内容跳转单元，用于实时采集用户的点击信息，若当前用户点击短内容推荐列表中任一短内容推荐数据，则跳转至内容推荐平台对应的实时文本内容数据。

本发明的有益效果为：

本发明提供的一种基于大语言模型的个性化内容推荐方法及系统，通过根据用户的行为数据为其分配用户标签，并根据用户标签匹配用户感兴趣的内容主题，实现了个性化定制推荐，提高了推荐效果；采用人工智能领域的相关算法，充分挖掘和学习用户数据和文本内容数据的深层数据特征与信息，有效缓解了推荐方法冷启动现象，同时提高了模型训练效率；采用大语言模型根据内容关键词、内容主题词对实时文本内容数据进行精简处理，产生的短内容推荐列表能够清楚、明白的提现内容的关键信息和主题内容，节省用户的浏览时间的同时，提高了用户对于推荐内容的使用体验度。

基于大语言模型，对内容推荐平台的实时文本内容数据，

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于大语言模型的个性化内容推荐方法的流程框图。

图2是本发明中基于大语言模型的个性化内容推荐系统的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，本实施例提供一种基于大语言模型的个性化内容推荐方法，包括如下步骤：

采用内容推荐平台的若干历史文本内容数据和注册用户的若干历史行为数据，并对若干历史文本内容数据和若干历史行为数据进行预处理，得到预处理后历史文本内容数据集和预处理后历史行为数据集，包括如下步骤：

采用内容推荐平台的若干历史文本内容数据和注册用户的若干历史行为数据；

对若干历史文本内容数据进行依次的重复数据筛选、错误数据剔除、预设关键词标签标注以及预设主题词添加，得到预处理后历史文本内容数据集；

对若干历史行为数据进行依次的重复数据筛选、错误数据剔除以及预设用户标签添加，得到预处理后历史行为数据集；

包括如下步骤：

根据预处理后历史行为数据集，使用机器学习算法，进行优化训练，构建用户标签提取模型，并生成对应的若干历史用户标签，包括如下步骤：

对预处理后历史行为数据集中每一预处理后历史行为数据的所有特征进行筛选，得到对应的若干历史关键特征；

根据历史关键特征，构建随机森林对应的决策树；

使用预处理后历史行为数据集的若干历史关键特征，对随机森林的若干决策树进行优化训练，构建初始的用户标签提取模型，并生成对应的若干历史用户标签；

根据若干历史用户标签与对应的若干预处理后历史行为数据的预设用户标签，得到初始的用户标签提取模型的第一提取准确率；

若第一提取准确率大于第一准确率阈值，则输出最优的用户标签提取模型，否则，继续进行优化训练；

根据预处理后历史文本内容数据集，使用自然语言处理算法，构建内容关键词提取模型，并生成对应的若干历史内容关键词组，包括如下步骤：

根据预处理后历史文本内容数据集，使用词频-逆向文本频率-类信息（TF-IDF-CI，Term Frequency-Inverse Document Frequency-Critical Information）算法，构建初始的内容关键词提取模型，并生成对应的若干历史内容关键词组；

获取若干历史内容关键词组与对应的若干预处理后历史行为数据的预设关键词标签组，得到初始的内容关键词提取模型的第二提取准确率；

若第二提取准确率大于第二准确率阈值，则输出最优的内容关键词提取模型，否则，继续进行优化训练；

根据若干历史内容关键词组，使用短文本分类算法，构建内容主题提取模型，并生成对应的若干历史内容主题词，包括如下步骤：

根据若干历史内容关键词组，使用Biterm主题模型（BTM，Biterm Topic Model）算法，构建初始的内容主题提取模型，并生成对应的若干历史内容主题词；

获取若干历史内容主题词与对应的若干预处理后历史行为数据的预设内容主题标签，得到初始的内容主题提取模型的第三提取准确率；

若第三提取准确率大于第三准确率阈值，则输出最优的内容主题提取模型，否则，继续进行优化训练；

根据若干历史内容主题词和对应的若干历史内容关键词组，使用大语言模型算法，构建推荐内容生成模型，包括如下步骤：

采集若干历史短文本内容数据，并对若干历史短文本内容数据进行预处理，得到历史短文本内容训练数据集；

根据历史短文本内容训练数据集，使用ChatGPT3.5算法，进行预训练，构建预训练的大语言模型；

基于ChatGPT3.5算法构建的大语言模型，可以根据输入的文本关键词，根据预设的模板和学习到的短文本内容数据特征，生成类似的短文本内容，并且对短文本内容进行语法、词性、词语的自动修正；

将历史内容主题词和对应的内容关键词组进行拼接，得到历史短内容推荐训练数据集；

根据历史短内容推荐训练数据集，对预训练的大语言模型，进行优化训练，得到优化的大语言模型；

使用低秩自适应（LoRA，Low-Rank Adaptation）微调方法，对优化的大语言模型进行微调，得到推荐内容生成模型；

使用LoRA方法对优化的大语言模型进行微调，冻结了优化的大语言模型的权重，并将可训练的秩分解矩阵注入到大语言模型Transformer架构的每一层，大大减少了下游任务的可训练参数的数量，实现更优的模型性能，并且避免了模型早熟；

采集内容推荐平台的若干实时文本内容数据，并根据若干实时文本内容数据，使用内容关键词提取模型，进行内容关键词提取，得到对应的若干实时内容关键词组，包括如下步骤：

类间离散因子的公式为：

式中，为类间标准差/>的类间离散因子；/>为特征词/>在所有特征词类型的类间标准差；/>为特征词/>所在的特征词类型；/>为特征词类型的总数；/>为特征词/>在特征词类型/>出现的特定频率；/>为特征词/>在所有特征词类型中出现的平均频率；/>为特征词类型的指示量；/>为特征词的指示量；

类内离散因子的公式为：

式中，为类内标准差/>的类内离散因子；/>为特征词/>在特征词类型/>的类内标准差；/>为特征词类型/>的数据集合中包括特征词/>的数据个数；为特征词类型/>的数据集合的数据总数；

词频TF的公式为：

式中，为特征词/>在第/>数据中出现的频率，即词频；/>均为特征词/>在第/>数据中出现的次数；/>均为数据的指示量；/>为数据总数；/>为特征词的指示量；

逆向文本频率IDF的公式为：

式中，为特征词/>在数据出现的逆向文本频率；/>均为数据总数；/>为包括特征词/>的数据的总数；/>为特征词的指示量；

根据若干特征词的类间离散因子、类内离散因子、词频以及逆向文本频率，获取对应的特征词的权重，公式为：

式中，为特征词/>的TF-IDF-CI权重；/>为词频；/>为逆向文本频率；/>为离散因子，包括类间离散因子/>和类内离散因子/>；

遍历所有实时文本内容数据，得到对应的若干实时内容关键词组；

Biterm主题模型算法（BTM），BTM模型直接将共现词建模为主题的语义迁移单元，比单个关键词更能揭示主题，每个双关键词都是在短上下文中同时出现的一对无序关键词，每个biterm词对b= (,/>)的联合概率可以写为：

式中，为关键词对b的联合概率；b为关键词对；z为实时内容主题；Z为随机采样内容主题；/>和/>均为无序单词；/>为关键词对b属于实时内容主题z的概率；分别为/>和/>属于随机采样主题Z的概率；

BTM基于联合概率从历史内容主题词中选择个内容主题词，然后基于联合概率从每个内容主题词/>中选择最终的实时内容主题词，d为实时内容关键词组，/>为实时内容关键词组中每个内容主题词生成的概率：i和j均为无序单词的指示量；

式中，为实时内容关键词组d中选择选择内容主题词/>的概率；分别为关键词对b中选择内容主题词/>的概率、实时内容关键词组d中选择关键词对b的概率；

式中，分别为内容主题词z的分布参数、内容主题z为无序单词/>的分布参数、内容主题词/>为无序单词/>的分布参数；i和j均为无序单词的指示量；

式中，为实时内容关键词组d中关键词对b的频率；

采集当前用户在内容推荐平台的实时行为数据，并根据实时行为数据，使用用户标签提取模型，进行用户标签提取，得到当前用户的实时用户标签，包括如下步骤：

式中，为第/>特征的特征贡献度；/>为第/>特征在随机森林第/>棵决策树的特征贡献度；/>为决策树的指示量；/>为特征的指示量；/>为决策树总数；

式中，为第/>决策树节点分枝前后的基尼指数变化量；/>为决策树节点的指示量；/>为决策树节点总数；

式中，为第/>、/>以及/>决策树节点的基尼指数；/>为第/>决策树节点中第/>类别所占的比例；/>为决策树类别的指示量；/>为决策树类别总数；

式中，为第/>特征的归一化处理后特征贡献度；/>为特征总数；/>为第特征的特征贡献度；

式中，为第/>特征的特征选择标准值；/>为第/>特征的归一化处理后特征贡献度；/>为特征指示量；

根据实时关键特征，使用用户标签提取模型的若干决策树，进行用户标签提取，得到当前用户的实时用户标签；

实施例2：

如图2所示，本实施例提供一种基于大语言模型的个性化内容推荐系统，用于实现个性化内容推荐方法，系统包括依次连接的数据预处理单元、模型构建单元、内容关键词提取单元、内容主题提取单元、用户标签提取单元、内容主题词筛选单元、推荐内容生成单元以及文本内容跳转单元；

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于大语言模型的个性化内容推荐方法，其特征在于：包括如下步骤：

根据预处理后历史文本内容数据集和预处理后历史行为数据集，构建用户标签提取模型、内容关键词提取模型、内容主题提取模型以及推荐内容生成模型；所述的推荐内容生成模型基于大语言模型构建；

所述的用户标签提取模型基于随机森林算法构建；

2.根据权利要求1所述的一种基于大语言模型的个性化内容推荐方法，其特征在于：所述的预处理包括依次进行的重复数据筛选、错误数据剔除以及预设标签添加。

3.根据权利要求2所述的一种基于大语言模型的个性化内容推荐方法，其特征在于：根据预处理后历史文本内容数据集和预处理后历史行为数据集，构建用户标签提取模型、内容关键词提取模型、内容主题提取模型以及推荐内容生成模型，包括如下步骤：

4.根据权利要求3所述的一种基于大语言模型的个性化内容推荐方法，其特征在于：所述的内容关键词提取模型基于TF-IDF-CI算法构建。

5.根据权利要求3所述的一种基于大语言模型的个性化内容推荐方法，其特征在于：所述的内容主题提取模型基于BTM算法构建。

6.根据权利要求3所述的一种基于大语言模型的个性化内容推荐方法，其特征在于：所述的推荐内容生成模型基于ChatGPT3.5算法构建。

7.根据权利要求4所述的一种基于大语言模型的个性化内容推荐方法，其特征在于：采集内容推荐平台的若干实时文本内容数据，并根据若干实时文本内容数据，使用内容关键词提取模型，进行内容关键词提取，得到对应的若干实时内容关键词组，包括如下步骤：

8.一种基于大语言模型的个性化内容推荐系统，用于实现如权利要求1-7任一所述的个性化内容推荐方法，其特征在于：所述的系统包括依次连接的数据预处理单元、模型构建单元、内容关键词提取单元、内容主题提取单元、用户标签提取单元、内容主题词筛选单元、推荐内容生成单元以及文本内容跳转单元；

模型构建单元，用于根据预处理后历史文本内容数据集和预处理后历史行为数据集，构建用户标签提取模型、内容关键词提取模型、内容主题提取模型以及推荐内容生成模型；所述的推荐内容生成模型基于大语言模型构建；