CN117494786A - 一种基于微调的大语言模型热搜生成方法及装置 - Google Patents
一种基于微调的大语言模型热搜生成方法及装置 Download PDFInfo
- Publication number
- CN117494786A CN117494786A CN202311470867.9A CN202311470867A CN117494786A CN 117494786 A CN117494786 A CN 117494786A CN 202311470867 A CN202311470867 A CN 202311470867A CN 117494786 A CN117494786 A CN 117494786A
- Authority
- CN
- China
- Prior art keywords
- language model
- hot
- large language
- hot search
- microblog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012795 verification Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 13
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 235000002198 Annona diversifolia Nutrition 0.000 claims description 6
- 241000282842 Lama glama Species 0.000 claims description 6
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000009966 trimming Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims 4
- 230000008569 process Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于微调的大语言模型热搜生成方法,包括:收集热搜数据,对热搜数据进行预处理;基于预处理后的数据,进行热点事件抽取,得到抽取后的数据;根据抽取后的数据确定模型输入和模型输出,构建训练集和验证集;利用训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型;将微调后的大语言模型进行应用。通过有监督算法微调大语言模型,使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于微调的大语言模型热搜生成方法及装置。
背景技术
社交媒体时代,热搜词条广泛受到用户关注且对网络舆情影响较大,但传统的热搜词条生成方式往往只是原文截取,缺乏吸引力和深度。还有部分热搜词条是内容生产者自己编写,质量参差不齐,与微博内容完全不相关,甚至产生严重负面影响。
利用人工智能技术,特别是大语言模型((Large Language Model,LLM),可以提供更灵活的热搜内容。然而大语言模型生成的热搜词条仅仅是类似标题和摘要,无法引入入胜,也无法形成讨论度。因此,基于现有的大语言模型生成的数据不够准确,需要设计一种能够提升数据生成准确性的大语言模型。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于微调的大语言模型热搜生成方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于微调的大语言模型热搜生成方法,包括:收集热搜数据,对所述热搜数据进行预处理;基于预处理后的数据,进行热点事件抽取,得到抽取后的数据;根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集;利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型;将微调后的大语言模型进行应用。
其中,所述收集热搜数据,对所述热搜数据进行预处理包括:收集爬取热搜以及与热搜词条相关的微博列表;对不符合条件的热搜事件进行过滤。
其中,所述基于预处理后的数据,进行热点事件抽取,得到抽取后的数据包括:根据所述热搜词条抽取出热搜词条事件中的各要素;根据热搜下微博文本抽取微博文本事件中的各要素;将每个所述微博文本事件与所述热搜词条事件对比要素重合度,计算重合度分数;根据所述重合度分数、微博热度选取与所述热搜词条相关度最高的一条微博。
其中,所述根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集包括:选择热度最高的微博作为输入,以所述热度最高的微博相关的热搜词条作为期望输出,构建训练集和验证集。
其中,所述利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型包括:利用所述训练集和验证集,采用预设微调技术对预训练的大语言模型进行调整,得到微调后的大语言模型。
其中,所述预设微调技术包括:有监督算法、p-tuning,p-tuning-v2以及LoRA。
其中,所述有监督算法中包括优化策略,所述优化策略包括:学习率调整、批次归一化、随机梯度下降和Adam。
其中,所述将微调后的大语言模型进行应用包括:将所述微调后的大语言模型利用后端服务技术,将所述微调后的大语言模型加载到显存,包装成接口形式供热搜生成产品调用。
其中,所述大语言模型包括:ChatGPT、LLaMA和ChatGLM。
本发明的另一个方面提供了一种基于微调的大语言模型热搜生成装置,包括:收集模块,用于收集热搜数据,对所述热搜数据进行预处理;抽取模块,用于基于预处理后的数据,进行热点事件抽取,得到抽取后的数据;构建模块,用于根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集;调整模块,用于利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型;应用模块,用于将微调后的大语言模型进行应用。
其中,所述收集模块通过如下方式收集热搜数据,对所述热搜数据进行预处理:收集爬取热搜以及与热搜词条相关的微博列表;对不符合条件的热搜事件进行过滤。
其中,所述抽取模块通过如下方式基于预处理后的数据,进行热点事件抽取,得到抽取后的数据:根据所述热搜词条抽取出热搜词条事件中的各要素;根据热搜下微博文本抽取微博文本事件中的各要素;将每个所述微博文本事件与所述热搜词条事件对比要素重合度,计算重合度分数;根据所述重合度分数、微博热度选取与所述热搜词条相关度最高的一条微博。
其中,所述构建模块通过如下方式根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集:选择热度最高的微博作为输入,以所述热度最高的微博相关的热搜词条作为期望输出,构建训练集和验证集。
其中,所述调整模块通过如下方式利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型:利用所述训练集和验证集,采用预设微调技术对预训练的大语言模型进行调整,得到微调后的大语言模型。
其中,所述预设微调技术包括:有监督算法、p-tuning,p-tuning-v2以及LoRA。
其中,所述有监督算法中包括优化策略,所述优化策略包括:学习率调整、批次归一化、随机梯度下降和Adam。
其中,所述应用模块通过如下方式将微调后的大语言模型进行应用:将所述微调后的大语言模型利用后端服务技术,将所述微调后的大语言模型加载到显存,包装成接口形式供热搜生成产品调用。
其中,所述大语言模型包括:ChatGPT、LLaMA和ChatGLM。
由此可见,通过本发明提供的基于微调的大语言模型热搜生成方法及装置,通过有监督算法微调大语言模型,使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。与传统的截取方式相比,本发明生成的热搜词条更具创意和深度,降低无关信息的影响,从而有效提升用户体验,一定程度规避舆情风险。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于微调的大语言模型热搜生成方法的流程图;
图2为本发明实施例提供的基于微调的大语言模型热搜生成装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的基于微调的大语言模型热搜生成方法的流程图,参见图1,本发明实施例提供的基于微调的大语言模型热搜生成方法,包括:
S1,收集热搜数据,对热搜数据进行预处理。
本步骤为数据收集和预处理步骤。
作为本发明实施例的一个可选实施方式,收集热搜数据,对热搜数据进行预处理包括:收集爬取热搜以及与热搜词条相关的微博列表;对不符合条件的热搜事件进行过滤。
具体实现时,本步骤主要收集爬取热搜以及与热搜词条相关的微博列表。在本步骤中,可以使用Selenium模拟浏览器界面,进入微博热搜界面。对于热搜列表中的每个词条,模拟点击进入话题相关讨论。获取话题相关微博并且统计热搜相关最早微博时间以及相关微博数量。过滤掉持续时间过短和讨论话题少的热搜事件,保证热搜词条的话题讨论度足够。
S2,基于预处理后的数据,进行热点事件抽取,得到抽取后的数据。
本步骤为热点事件抽取步骤。
作为本发明实施例的一个可选实施方式,基于预处理后的数据,进行热点事件抽取,得到抽取后的数据包括:根据热搜词条抽取出热搜词条事件中的各要素;根据热搜下微博文本抽取微博文本事件中的各要素;将每个微博文本事件与热搜词条事件对比要素重合度,计算重合度分数;根据重合度分数、微博热度选取与热搜词条相关度最高的一条微博。
具体实现时,本步骤主要通过事件抽取技术,判断微博与词条的相关程度。在热搜词条之下,部分微博并非讲述原始事件,此时需要借助事件抽取技术。保证原始微博数据在时间、地点、人物、事件等维度上保持一致。具体做法为:
a)对热搜词条抽取出事件各要素。
b)对热搜下微博文本抽取事件要素。
c)每个微博文本事件与热搜词条事件对比要素重合度,计算重合度分数。
d)根据重合度、微博热度来选取与词条相关度最高的一条微博。
S3,根据抽取后的数据确定模型输入和模型输出,构建训练集和验证集。
本步骤为微调数据构建步骤。
作为本发明实施例的一个可选实施方式,根据抽取后的数据确定模型输入和模型输出,构建训练集和验证集包括:选择热度最高的微博作为输入,以热度最高的微博相关的热搜词条作为期望输出,构建训练集和验证集。
具体实现时,本步骤构建完整的热搜微调数据。选择热度最高的微博作为输入,并以与之相关的热搜词条作为期望输出。构建训练集和验证集,为后续的大语言模型微调提供数据基础。
S4,利用训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型。
本步骤为大语言模型微调步骤。
作为本发明实施例的一个可选实施方式,利用训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型包括:利用训练集和验证集,采用预设微调技术对预训练的大语言模型进行调整,得到微调后的大语言模型。预设微调技术包括:有监督算法、p-tuning,p-tuning-v2以及LoRA。有监督算法中包括优化策略,优化策略包括:学习率调整、批次归一化、随机梯度下降和Adam。
具体实现时,本步骤利用收集的训练集和验证集,对预训练的大语言模型进行微调。微调过程中,使用有监督学习,将高热度微博作为输入,期望的热搜词条作为输出,引导模型生成更相关、信息丰富的文本。在微调过程中,可以采用各种优化策略,如学习率调整、批次归一化等,以提升微调效果。
本发明中的大语言模型包括但不限于:ChatGPT、LLaMA和ChatGLM。
以下提供一种具体的微调大模型的详细过程,但本发明并不局限于此:
a)数据表示。输入数据表示为微博文本序列X=[x1,x2,…,xi],其中每个xi是一个词向量或标记。输出数据表示为期望的热搜词条序列Y=[y1,y2,…,yi],其中每个yi是一个词汇表中的词汇。
b)模型表示。使用预训练的大语言模型(例如ChatGPT)作为基础模型,表示为LLM(X)=[g1,g2,…,gi],其中gi表示模型生成的词向量或标记。
c)损失函数。使用一个适当的损失函数来衡量模型生成的输出与期望输出Y之间的差异。一种常用的选择是交叉熵损失(Cross-Entropy Loss):
其中yi是期望输出Y中第i个序列位置的one-hot编码,是模型生成的概率分布(通过softmax函数获得)。
d)优化策略。在微调过程中,可以采用各种优化策略来更新模型参数,以减小损失函数。常见的优化算法包括随机梯度下降(SGD)、Adam等。
综合以上步骤,微调的目标是最小化损失函数以优化模型的参数,从而使模型在给定高热度微博输入时能够生成更相关、信息丰富的热搜词条输出。
S5,将微调后的大语言模型进行应用。
本步骤为热搜生成模型应用步骤。
作为本发明实施例的一个可选实施方式,将微调后的大语言模型进行应用包括:将微调后的大语言模型利用后端服务技术,将微调后的大语言模型加载到显存,包装成接口形式供热搜生成产品调用。
由此可见,通过本发明实施例提供的基于微调的大语言模型热搜生成方法,通过有监督算法微调大语言模型,使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。与传统的截取方式相比,本发明生成的热搜词条更具创意和深度,降低无关信息的影响,从而有效提升用户体验,一定程度规避舆情风险。
图2示出了本发明实施例提供的基于微调的大语言模型热搜生成装置的结构示意图,该基于微调的大语言模型热搜生成装置应用上述方法,以下仅对基于微调的大语言模型热搜生成装置的结构进行简单说明,其他未尽事宜,请参照上述基于微调的大语言模型热搜生成方法中的相关描述,参见图2,本发明实施例提供的基于微调的大语言模型热搜生成装置,包括:
收集模块,用于收集热搜数据,对热搜数据进行预处理;
抽取模块,用于基于预处理后的数据,进行热点事件抽取,得到抽取后的数据;
构建模块,用于根据抽取后的数据确定模型输入和模型输出,构建训练集和验证集;
调整模块,用于利用训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型;
应用模块,用于将微调后的大语言模型进行应用。
作为本发明实施例的一个可选实施方式,收集模块通过如下方式收集热搜数据,对热搜数据进行预处理:收集爬取热搜以及与热搜词条相关的微博列表;对不符合条件的热搜事件进行过滤。
作为本发明实施例的一个可选实施方式,抽取模块通过如下方式基于预处理后的数据,进行热点事件抽取,得到抽取后的数据:根据热搜词条抽取出热搜词条事件中的各要素;根据热搜下微博文本抽取微博文本事件中的各要素;将每个微博文本事件与热搜词条事件对比要素重合度,计算重合度分数;根据重合度分数、微博热度选取与热搜词条相关度最高的一条微博。
作为本发明实施例的一个可选实施方式,构建模块通过如下方式根据抽取后的数据确定模型输入和模型输出,构建训练集和验证集:选择热度最高的微博作为输入,以热度最高的微博相关的热搜词条作为期望输出,构建训练集和验证集。
作为本发明实施例的一个可选实施方式,调整模块通过如下方式利用训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型:利用训练集和验证集,采用预设微调技术对预训练的大语言模型进行调整,得到微调后的大语言模型。
作为本发明实施例的一个可选实施方式,预设微调技术包括:有监督算法、p-tuning,p-tuning-v2以及LoRA。
作为本发明实施例的一个可选实施方式,有监督算法中包括优化策略,优化策略包括:学习率调整、批次归一化、随机梯度下降和Adam。
作为本发明实施例的一个可选实施方式,应用模块通过如下方式将微调后的大语言模型进行应用:将微调后的大语言模型利用后端服务技术,将微调后的大语言模型加载到显存,包装成接口形式供热搜生成产品调用。
作为本发明实施例的一个可选实施方式,大语言模型包括:ChatGPT、LLaMA和ChatGLM。
由此可见,通过本发明实施例提供的基于微调的大语言模型热搜生成装置,通过有监督算法微调大语言模型,使其在生成热搜词条时的准确性提高。进而使其生成的热搜词条更具信息量、吸引力和相关性。与传统的截取方式相比,本发明生成的热搜词条更具创意和深度,降低无关信息的影响,从而有效提升用户体验,一定程度规避舆情风险。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (18)
1.一种基于微调的大语言模型热搜生成方法,其特征在于,包括:
收集热搜数据,对所述热搜数据进行预处理;
基于预处理后的数据,进行热点事件抽取,得到抽取后的数据;
根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集;
利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型;
将微调后的大语言模型进行应用。
2.根据权利要求1所述的方法,其特征在于,所述收集热搜数据,对所述热搜数据进行预处理包括:
收集爬取热搜以及与热搜词条相关的微博列表;
对不符合条件的热搜事件进行过滤。
3.根据权利要求2所述的方法,其特征在于,所述基于预处理后的数据,进行热点事件抽取,得到抽取后的数据包括:
根据所述热搜词条抽取出热搜词条事件中的各要素;
根据热搜下微博文本抽取微博文本事件中的各要素;
将每个所述微博文本事件与所述热搜词条事件对比要素重合度,计算重合度分数;
根据所述重合度分数、微博热度选取与所述热搜词条相关度最高的一条微博。
4.根据权利要求3所述的方法,其特征在于,所述根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集包括:
选择热度最高的微博作为输入,以所述热度最高的微博相关的热搜词条作为期望输出,构建训练集和验证集。
5.根据权利要求4所述的方法,其特征在于,所述利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型包括:
利用所述训练集和验证集,采用预设微调技术对预训练的大语言模型进行调整,得到微调后的大语言模型。
6.根据权利要求5所述的方法,其特征在于,所述预设微调技术包括:有监督算法、p-tuning,p-tuning-v2以及LoRA。
7.根据权利要求6所述的方法,其特征在于,所述有监督算法中包括优化策略,所述优化策略包括:学习率调整、批次归一化、随机梯度下降和Adam。
8.根据权利要求1所述的方法,其特征在于,所述将微调后的大语言模型进行应用包括:
将所述微调后的大语言模型利用后端服务技术,将所述微调后的大语言模型加载到显存,包装成接口形式供热搜生成产品调用。
9.根据权利要求1所述的方法,其特征在于,所述大语言模型包括:ChatGPT、LLaMA和ChatGLM。
10.一种基于微调的大语言模型热搜生成装置,其特征在于,包括:
收集模块,用于收集热搜数据,对所述热搜数据进行预处理;
抽取模块,用于基于预处理后的数据,进行热点事件抽取,得到抽取后的数据;
构建模块,用于根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集;
调整模块,用于利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型;
应用模块,用于将微调后的大语言模型进行应用。
11.根据权利要求10所述的装置,其特征在于,所述收集模块通过如下方式收集热搜数据,对所述热搜数据进行预处理:
收集爬取热搜以及与热搜词条相关的微博列表;
对不符合条件的热搜事件进行过滤。
12.根据权利要求11所述的装置,其特征在于,所述抽取模块通过如下方式基于预处理后的数据,进行热点事件抽取,得到抽取后的数据:
根据所述热搜词条抽取出热搜词条事件中的各要素;
根据热搜下微博文本抽取微博文本事件中的各要素;
将每个所述微博文本事件与所述热搜词条事件对比要素重合度,计算重合度分数;
根据所述重合度分数、微博热度选取与所述热搜词条相关度最高的一条微博。
13.根据权利要求12所述的装置,其特征在于,所述构建模块通过如下方式根据所述抽取后的数据确定模型输入和模型输出,构建训练集和验证集:
选择热度最高的微博作为输入,以所述热度最高的微博相关的热搜词条作为期望输出,构建训练集和验证集。
14.根据权利要求13所述的装置,其特征在于,所述调整模块通过如下方式利用所述训练集和验证集,对预训练的大语言模型进行调整,得到微调后的大语言模型:
利用所述训练集和验证集,采用预设微调技术对预训练的大语言模型进行调整,得到微调后的大语言模型。
15.根据权利要求14所述的装置,其特征在于,所述预设微调技术包括:有监督算法、p-tuning,p-tuning-v2以及LoRA;
16.根据权利要求15所述的装置,其特征在于,所述有监督算法中包括优化策略,所述优化策略包括:学习率调整、批次归一化、随机梯度下降和Adam。
17.根据权利要求10所述的装置,其特征在于,所述应用模块通过如下方式将微调后的大语言模型进行应用:
将所述微调后的大语言模型利用后端服务技术,将所述微调后的大语言模型加载到显存,包装成接口形式供热搜生成产品调用。
18.根据权利要求10所述的装置,其特征在于,所述大语言模型包括:ChatGPT、LLaMA和ChatGLM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470867.9A CN117494786A (zh) | 2023-11-07 | 2023-11-07 | 一种基于微调的大语言模型热搜生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470867.9A CN117494786A (zh) | 2023-11-07 | 2023-11-07 | 一种基于微调的大语言模型热搜生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117494786A true CN117494786A (zh) | 2024-02-02 |
Family
ID=89668573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311470867.9A Pending CN117494786A (zh) | 2023-11-07 | 2023-11-07 | 一种基于微调的大语言模型热搜生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117494786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808124A (zh) * | 2024-02-29 | 2024-04-02 | 云南师范大学 | 一种基于Llama2的文本简化方法 |
-
2023
- 2023-11-07 CN CN202311470867.9A patent/CN117494786A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808124A (zh) * | 2024-02-29 | 2024-04-02 | 云南师范大学 | 一种基于Llama2的文本简化方法 |
CN117808124B (zh) * | 2024-02-29 | 2024-05-03 | 云南师范大学 | 一种基于Llama2的文本简化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN109635083B (zh) | 一种用于搜索ted演讲中话题式查询的文档检索方法 | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
CN117494786A (zh) | 一种基于微调的大语言模型热搜生成方法及装置 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN112052326A (zh) | 一种基于长短文本匹配的智能问答方法及系统 | |
CN108536572B (zh) | 基于AppUsage2Vec模型的智能手机App使用预测方法 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
WO2020135642A1 (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN112700768B (zh) | 语音识别方法以及电子设备、存储装置 | |
CN116150306A (zh) | 问答机器人的训练方法、问答方法及装置 | |
CN117034921B (zh) | 一种基于用户数据的提示学习训练方法、装置和介质 | |
CN112182155B (zh) | 一种基于生成式对抗网络的搜索结果多样化方法 | |
CN116821297A (zh) | 一种风格化法律咨询问答方法、系统、存储介质和设备 | |
He et al. | Interest HD: An interest frame model for recommendation based on HD image generation | |
CN110442759B (zh) | 一种知识检索方法及其系统、计算机设备和可读存储介质 | |
CN113590797A (zh) | 一种智能运维客服系统及实现方法 | |
CN113268657A (zh) | 基于评论和物品描述的深度学习推荐方法及系统 | |
Du et al. | Employ multimodal machine learning for content quality analysis | |
Ren et al. | News recommendation model based on long-term and short-term interests | |
CN118035711B (zh) | 一种针对大模型内容安全能力的评测方法及系统 | |
CN113836295B (zh) | 一种文本摘要提取方法、系统、终端及存储介质 | |
CN117951390B (zh) | 一种基于大语言模型的个性化内容推荐方法及系统 | |
CN114117022B (zh) | 一种faq相似问题生成方法及系统 | |
CN117312511A (zh) | 一种基于生成式大模型的智能问答学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |