CN117494786A

CN117494786A - 一种基于微调的大语言模型热搜生成方法及装置

Info

Publication number: CN117494786A
Application number: CN202311470867.9A
Authority: CN
Inventors: 庄文英; 肖朔晨; 李卓松; 马晓洋
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-02-02

Abstract

本发明提供了一种基于微调的大语言模型热搜生成方法，包括：收集热搜数据，对热搜数据进行预处理；基于预处理后的数据，进行热点事件抽取，得到抽取后的数据；根据抽取后的数据确定模型输入和模型输出，构建训练集和验证集；利用训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型；将微调后的大语言模型进行应用。通过有监督算法微调大语言模型，使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。

Description

一种基于微调的大语言模型热搜生成方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于微调的大语言模型热搜生成方法及装置。

背景技术

社交媒体时代，热搜词条广泛受到用户关注且对网络舆情影响较大，但传统的热搜词条生成方式往往只是原文截取，缺乏吸引力和深度。还有部分热搜词条是内容生产者自己编写，质量参差不齐，与微博内容完全不相关，甚至产生严重负面影响。

利用人工智能技术，特别是大语言模型((Large Language Model,LLM)，可以提供更灵活的热搜内容。然而大语言模型生成的热搜词条仅仅是类似标题和摘要，无法引入入胜，也无法形成讨论度。因此，基于现有的大语言模型生成的数据不够准确，需要设计一种能够提升数据生成准确性的大语言模型。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于微调的大语言模型热搜生成方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种基于微调的大语言模型热搜生成方法，包括：收集热搜数据，对所述热搜数据进行预处理；基于预处理后的数据，进行热点事件抽取，得到抽取后的数据；根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集；利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型；将微调后的大语言模型进行应用。

其中，所述收集热搜数据，对所述热搜数据进行预处理包括：收集爬取热搜以及与热搜词条相关的微博列表；对不符合条件的热搜事件进行过滤。

其中，所述基于预处理后的数据，进行热点事件抽取，得到抽取后的数据包括：根据所述热搜词条抽取出热搜词条事件中的各要素；根据热搜下微博文本抽取微博文本事件中的各要素；将每个所述微博文本事件与所述热搜词条事件对比要素重合度，计算重合度分数；根据所述重合度分数、微博热度选取与所述热搜词条相关度最高的一条微博。

其中，所述根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集包括：选择热度最高的微博作为输入，以所述热度最高的微博相关的热搜词条作为期望输出，构建训练集和验证集。

其中，所述利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型包括：利用所述训练集和验证集，采用预设微调技术对预训练的大语言模型进行调整，得到微调后的大语言模型。

其中，所述预设微调技术包括：有监督算法、p-tuning，p-tuning-v2以及LoRA。

其中，所述有监督算法中包括优化策略，所述优化策略包括：学习率调整、批次归一化、随机梯度下降和Adam。

其中，所述将微调后的大语言模型进行应用包括：将所述微调后的大语言模型利用后端服务技术，将所述微调后的大语言模型加载到显存，包装成接口形式供热搜生成产品调用。

其中，所述大语言模型包括：ChatGPT、LLaMA和ChatGLM。

本发明的另一个方面提供了一种基于微调的大语言模型热搜生成装置，包括：收集模块，用于收集热搜数据，对所述热搜数据进行预处理；抽取模块，用于基于预处理后的数据，进行热点事件抽取，得到抽取后的数据；构建模块，用于根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集；调整模块，用于利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型；应用模块，用于将微调后的大语言模型进行应用。

其中，所述收集模块通过如下方式收集热搜数据，对所述热搜数据进行预处理：收集爬取热搜以及与热搜词条相关的微博列表；对不符合条件的热搜事件进行过滤。

其中，所述抽取模块通过如下方式基于预处理后的数据，进行热点事件抽取，得到抽取后的数据：根据所述热搜词条抽取出热搜词条事件中的各要素；根据热搜下微博文本抽取微博文本事件中的各要素；将每个所述微博文本事件与所述热搜词条事件对比要素重合度，计算重合度分数；根据所述重合度分数、微博热度选取与所述热搜词条相关度最高的一条微博。

其中，所述构建模块通过如下方式根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集：选择热度最高的微博作为输入，以所述热度最高的微博相关的热搜词条作为期望输出，构建训练集和验证集。

其中，所述调整模块通过如下方式利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型：利用所述训练集和验证集，采用预设微调技术对预训练的大语言模型进行调整，得到微调后的大语言模型。

其中，所述应用模块通过如下方式将微调后的大语言模型进行应用：将所述微调后的大语言模型利用后端服务技术，将所述微调后的大语言模型加载到显存，包装成接口形式供热搜生成产品调用。

其中，所述大语言模型包括：ChatGPT、LLaMA和ChatGLM。

由此可见，通过本发明提供的基于微调的大语言模型热搜生成方法及装置，通过有监督算法微调大语言模型，使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。与传统的截取方式相比，本发明生成的热搜词条更具创意和深度，降低无关信息的影响，从而有效提升用户体验，一定程度规避舆情风险。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于微调的大语言模型热搜生成方法的流程图；

图2为本发明实施例提供的基于微调的大语言模型热搜生成装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的基于微调的大语言模型热搜生成方法的流程图，参见图1，本发明实施例提供的基于微调的大语言模型热搜生成方法，包括：

S1，收集热搜数据，对热搜数据进行预处理。

本步骤为数据收集和预处理步骤。

作为本发明实施例的一个可选实施方式，收集热搜数据，对热搜数据进行预处理包括：收集爬取热搜以及与热搜词条相关的微博列表；对不符合条件的热搜事件进行过滤。

具体实现时，本步骤主要收集爬取热搜以及与热搜词条相关的微博列表。在本步骤中，可以使用Selenium模拟浏览器界面，进入微博热搜界面。对于热搜列表中的每个词条，模拟点击进入话题相关讨论。获取话题相关微博并且统计热搜相关最早微博时间以及相关微博数量。过滤掉持续时间过短和讨论话题少的热搜事件，保证热搜词条的话题讨论度足够。

S2，基于预处理后的数据，进行热点事件抽取，得到抽取后的数据。

本步骤为热点事件抽取步骤。

作为本发明实施例的一个可选实施方式，基于预处理后的数据，进行热点事件抽取，得到抽取后的数据包括：根据热搜词条抽取出热搜词条事件中的各要素；根据热搜下微博文本抽取微博文本事件中的各要素；将每个微博文本事件与热搜词条事件对比要素重合度，计算重合度分数；根据重合度分数、微博热度选取与热搜词条相关度最高的一条微博。

具体实现时，本步骤主要通过事件抽取技术，判断微博与词条的相关程度。在热搜词条之下，部分微博并非讲述原始事件，此时需要借助事件抽取技术。保证原始微博数据在时间、地点、人物、事件等维度上保持一致。具体做法为：

a)对热搜词条抽取出事件各要素。

b)对热搜下微博文本抽取事件要素。

c)每个微博文本事件与热搜词条事件对比要素重合度，计算重合度分数。

d)根据重合度、微博热度来选取与词条相关度最高的一条微博。

S3，根据抽取后的数据确定模型输入和模型输出，构建训练集和验证集。

本步骤为微调数据构建步骤。

作为本发明实施例的一个可选实施方式，根据抽取后的数据确定模型输入和模型输出，构建训练集和验证集包括：选择热度最高的微博作为输入，以热度最高的微博相关的热搜词条作为期望输出，构建训练集和验证集。

具体实现时，本步骤构建完整的热搜微调数据。选择热度最高的微博作为输入，并以与之相关的热搜词条作为期望输出。构建训练集和验证集，为后续的大语言模型微调提供数据基础。

S4，利用训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型。

本步骤为大语言模型微调步骤。

作为本发明实施例的一个可选实施方式，利用训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型包括：利用训练集和验证集，采用预设微调技术对预训练的大语言模型进行调整，得到微调后的大语言模型。预设微调技术包括：有监督算法、p-tuning，p-tuning-v2以及LoRA。有监督算法中包括优化策略，优化策略包括：学习率调整、批次归一化、随机梯度下降和Adam。

具体实现时，本步骤利用收集的训练集和验证集，对预训练的大语言模型进行微调。微调过程中，使用有监督学习，将高热度微博作为输入，期望的热搜词条作为输出，引导模型生成更相关、信息丰富的文本。在微调过程中，可以采用各种优化策略，如学习率调整、批次归一化等，以提升微调效果。

本发明中的大语言模型包括但不限于：ChatGPT、LLaMA和ChatGLM。

以下提供一种具体的微调大模型的详细过程，但本发明并不局限于此：

a)数据表示。输入数据表示为微博文本序列X＝[x₁，x₂，…，x_i]，其中每个x_i是一个词向量或标记。输出数据表示为期望的热搜词条序列Y＝[y₁，y₂，…，y_i]，其中每个y_i是一个词汇表中的词汇。

b)模型表示。使用预训练的大语言模型(例如ChatGPT)作为基础模型，表示为LLM(X)＝[g₁，g₂，…，g_i]，其中g_i表示模型生成的词向量或标记。

c)损失函数。使用一个适当的损失函数来衡量模型生成的输出与期望输出Y之间的差异。一种常用的选择是交叉熵损失(Cross-Entropy Loss)：

其中y_i是期望输出Y中第i个序列位置的one-hot编码，是模型生成的概率分布(通过softmax函数获得)。

d)优化策略。在微调过程中，可以采用各种优化策略来更新模型参数，以减小损失函数。常见的优化算法包括随机梯度下降(SGD)、Adam等。

综合以上步骤，微调的目标是最小化损失函数以优化模型的参数，从而使模型在给定高热度微博输入时能够生成更相关、信息丰富的热搜词条输出。

S5，将微调后的大语言模型进行应用。

本步骤为热搜生成模型应用步骤。

作为本发明实施例的一个可选实施方式，将微调后的大语言模型进行应用包括：将微调后的大语言模型利用后端服务技术，将微调后的大语言模型加载到显存，包装成接口形式供热搜生成产品调用。

由此可见，通过本发明实施例提供的基于微调的大语言模型热搜生成方法，通过有监督算法微调大语言模型，使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。与传统的截取方式相比，本发明生成的热搜词条更具创意和深度，降低无关信息的影响，从而有效提升用户体验，一定程度规避舆情风险。

图2示出了本发明实施例提供的基于微调的大语言模型热搜生成装置的结构示意图，该基于微调的大语言模型热搜生成装置应用上述方法，以下仅对基于微调的大语言模型热搜生成装置的结构进行简单说明，其他未尽事宜，请参照上述基于微调的大语言模型热搜生成方法中的相关描述，参见图2，本发明实施例提供的基于微调的大语言模型热搜生成装置，包括：

收集模块，用于收集热搜数据，对热搜数据进行预处理；

抽取模块，用于基于预处理后的数据，进行热点事件抽取，得到抽取后的数据；

构建模块，用于根据抽取后的数据确定模型输入和模型输出，构建训练集和验证集；

调整模块，用于利用训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型；

应用模块，用于将微调后的大语言模型进行应用。

作为本发明实施例的一个可选实施方式，收集模块通过如下方式收集热搜数据，对热搜数据进行预处理：收集爬取热搜以及与热搜词条相关的微博列表；对不符合条件的热搜事件进行过滤。

作为本发明实施例的一个可选实施方式，抽取模块通过如下方式基于预处理后的数据，进行热点事件抽取，得到抽取后的数据：根据热搜词条抽取出热搜词条事件中的各要素；根据热搜下微博文本抽取微博文本事件中的各要素；将每个微博文本事件与热搜词条事件对比要素重合度，计算重合度分数；根据重合度分数、微博热度选取与热搜词条相关度最高的一条微博。

作为本发明实施例的一个可选实施方式，构建模块通过如下方式根据抽取后的数据确定模型输入和模型输出，构建训练集和验证集：选择热度最高的微博作为输入，以热度最高的微博相关的热搜词条作为期望输出，构建训练集和验证集。

作为本发明实施例的一个可选实施方式，调整模块通过如下方式利用训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型：利用训练集和验证集，采用预设微调技术对预训练的大语言模型进行调整，得到微调后的大语言模型。

作为本发明实施例的一个可选实施方式，预设微调技术包括：有监督算法、p-tuning，p-tuning-v2以及LoRA。

作为本发明实施例的一个可选实施方式，有监督算法中包括优化策略，优化策略包括：学习率调整、批次归一化、随机梯度下降和Adam。

作为本发明实施例的一个可选实施方式，应用模块通过如下方式将微调后的大语言模型进行应用：将微调后的大语言模型利用后端服务技术，将微调后的大语言模型加载到显存，包装成接口形式供热搜生成产品调用。

作为本发明实施例的一个可选实施方式，大语言模型包括：ChatGPT、LLaMA和ChatGLM。

由此可见，通过本发明实施例提供的基于微调的大语言模型热搜生成装置，通过有监督算法微调大语言模型，使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。与传统的截取方式相比，本发明生成的热搜词条更具创意和深度，降低无关信息的影响，从而有效提升用户体验，一定程度规避舆情风险。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于微调的大语言模型热搜生成方法，其特征在于，包括：

收集热搜数据，对所述热搜数据进行预处理；

基于预处理后的数据，进行热点事件抽取，得到抽取后的数据；

根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集；

利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型；

将微调后的大语言模型进行应用。

2.根据权利要求1所述的方法，其特征在于，所述收集热搜数据，对所述热搜数据进行预处理包括：

收集爬取热搜以及与热搜词条相关的微博列表；

对不符合条件的热搜事件进行过滤。

3.根据权利要求2所述的方法，其特征在于，所述基于预处理后的数据，进行热点事件抽取，得到抽取后的数据包括：

根据所述热搜词条抽取出热搜词条事件中的各要素；

根据热搜下微博文本抽取微博文本事件中的各要素；

将每个所述微博文本事件与所述热搜词条事件对比要素重合度，计算重合度分数；

根据所述重合度分数、微博热度选取与所述热搜词条相关度最高的一条微博。

4.根据权利要求3所述的方法，其特征在于，所述根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集包括：

选择热度最高的微博作为输入，以所述热度最高的微博相关的热搜词条作为期望输出，构建训练集和验证集。

5.根据权利要求4所述的方法，其特征在于，所述利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型包括：

利用所述训练集和验证集，采用预设微调技术对预训练的大语言模型进行调整，得到微调后的大语言模型。

6.根据权利要求5所述的方法，其特征在于，所述预设微调技术包括：有监督算法、p-tuning，p-tuning-v2以及LoRA。

7.根据权利要求6所述的方法，其特征在于，所述有监督算法中包括优化策略，所述优化策略包括：学习率调整、批次归一化、随机梯度下降和Adam。

8.根据权利要求1所述的方法，其特征在于，所述将微调后的大语言模型进行应用包括：

将所述微调后的大语言模型利用后端服务技术，将所述微调后的大语言模型加载到显存，包装成接口形式供热搜生成产品调用。

9.根据权利要求1所述的方法，其特征在于，所述大语言模型包括：ChatGPT、LLaMA和ChatGLM。

10.一种基于微调的大语言模型热搜生成装置，其特征在于，包括：

收集模块，用于收集热搜数据，对所述热搜数据进行预处理；

构建模块，用于根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集；

调整模块，用于利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型；

应用模块，用于将微调后的大语言模型进行应用。

11.根据权利要求10所述的装置，其特征在于，所述收集模块通过如下方式收集热搜数据，对所述热搜数据进行预处理：

收集爬取热搜以及与热搜词条相关的微博列表；

对不符合条件的热搜事件进行过滤。

12.根据权利要求11所述的装置，其特征在于，所述抽取模块通过如下方式基于预处理后的数据，进行热点事件抽取，得到抽取后的数据：

根据所述热搜词条抽取出热搜词条事件中的各要素；

根据热搜下微博文本抽取微博文本事件中的各要素；

13.根据权利要求12所述的装置，其特征在于，所述构建模块通过如下方式根据所述抽取后的数据确定模型输入和模型输出，构建训练集和验证集：

14.根据权利要求13所述的装置，其特征在于，所述调整模块通过如下方式利用所述训练集和验证集，对预训练的大语言模型进行调整，得到微调后的大语言模型：

15.根据权利要求14所述的装置，其特征在于，所述预设微调技术包括：有监督算法、p-tuning，p-tuning-v2以及LoRA；

16.根据权利要求15所述的装置，其特征在于，所述有监督算法中包括优化策略，所述优化策略包括：学习率调整、批次归一化、随机梯度下降和Adam。

17.根据权利要求10所述的装置，其特征在于，所述应用模块通过如下方式将微调后的大语言模型进行应用：

18.根据权利要求10所述的装置，其特征在于，所述大语言模型包括：ChatGPT、LLaMA和ChatGLM。