CN117892799B

CN117892799B - 以多层次任务为导向的金融智能分析模型训练方法及系统

Info

Publication number: CN117892799B
Application number: CN202410297587.0A
Authority: CN
Inventors: 周熠; 石旺华; 雷懿
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-06-04
Anticipated expiration: 2044-03-15
Also published as: CN117892799A

Abstract

本发明公开了以多层次任务为导向的金融智能分析模型训练方法及系统，涉及金融领域，该方法包括以下步骤：从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据；将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次；采用直接偏好优化法对划分后的数据进行逐层训练；根据训练结果，判断层次是否需要回溯调整，最终得到目标金融智能分析模型。本发明通过引入多层次任务，充分地利用金融数据中的层次结构和相关性，提高训练效率和模型性能，减轻了对大量人类反馈的依赖，实现了更加自适应和高效的金融大模型训练，改进使得模型在处理多任务和多层次的金融问题时更为灵活、全面，并且能够更好地适应市场变化。

Description

以多层次任务为导向的金融智能分析模型训练方法及系统

技术领域

本发明涉及金融领域，具体来说，涉及以多层次任务为导向的金融智能分析模型训练方法及系统。

背景技术

随着金融领域的快速发展，金融智能分析系统已经成为了金融行业的核心工具，在这一趋势的推动下，金融分析人员的数量却始终难以满足市场需求，因此AI智能分析已经成为填补这一空缺的重要手段。基于海量金融数据训练的金融大模型能够快速、准确地完成领域内的多种任务，例如金融数据分析，风险管理，研报读取和生成等，极大加快了金融行业的智能化水平。

目前专业领域的大模型大多是基于事件驱动的，因此它的丰富度和准确度与训练数据的数量和质量密切相关。目前市面上已经出现了一些自然语言生成模型，但这些模型在专业领域的训练通常受限于单一任务，导致模型在面对复杂多变的金融领域时表现不尽如人意；另一方面，这些现有的语言模型很多都基于RLHF框架训练，不仅极大受限于人工反馈标注，并在训练过程中引入多个中间模型也会导致巨大的成本开销。

大规模生成式语言模型的训练主要采用了强化学习ReinforcementLearning，RL和基于预训练模型的方法。典型的强化学习算法PPOProximal PolicyOptimization，其核心结构包括两个神经网络，分别是Actor和Critic，这两个网络的协同作用旨在不断优化智能系统的行为策略，在这个过程中，Actor神经网络负责生成智能系统的下一个动作，而Critic神经网络则专注于评估每个动作的质量，通过训练，智能系统通过尝试不同的行为，并根据所获得的奖励对行为质量进行评估，逐步精进自己的行为策略。

基于PPO算法的强化学习训练范式：人类反馈强化学习ReinforcementLearningfrom HumanFeedback，RLHF框架目前已经取得了一定的成功。RLHF主要分为以下三个阶段。

预训练语言模型微调SFT：基于预训练好的通用语言模型如GPT-3等LM，通过在高质量数据集上进行有监督学习，专注于感兴趣的下游任务，如对话、指令遵循和摘要生成等，从而得到一个SFT模型π^SFT。

整合人工标注的数据训练奖励模型(RewardModel，RM)：通过对SFT模型输入大量的prompts，使其生成两两一组的答案对(y₁，y₂)，然后用人工的方法对这些答案对进行标注，对给出每组答案的偏好，表示为y_w>y_l|x，其中x表示输入的某一条prompt，y_w表示更符合人类偏好的答案。根据标注完的偏好数据使用Bradley-TerryBT模型将偏好建模成二分类问题，使用负对数似然损失函数：

其中，为sigmoid函数，/>为奖励模型，可以由SFT模型训练得到，为了获取奖励值的一个预测标量，通常是在SFT模型最后添加一个线性层。

用强化学习PPO算法微调LM：在强化学习阶段，利用所学的奖励模型进行打分，为语言模型提供反馈，RLHF定义了以下优化问题：

其中，是基于π^SFT初始化的策略模型，是一个超参数，决定了参考策略和优化的策略/>的偏离程度，能够保持模型输出的多样性，同时也防止了策略模型过于偏离奖励模型。使用PPO算法优化的标准奖励函数如下：

RLHF通过将强化学习与人类反馈结合，使得语言模型能给更好的符合人类的需求和价值观，提高了模型在真实世界的可用性，OpenAI的InstructGPT项目便是使用这种方法的典例。

尽管RLHF在常规的问答任务中已经取得了很好的效果，但是在金融行业这样专业化的领域，RLHF还是存在较大的局限性，首先是高度依赖人类反馈，RLHF方法通常需要大量的人类专家反馈，这导致了训练过程的高度依赖于人类标注数据，这不仅增加了成本，还可能受限于标注数据的质量和数量；其次训练效率低下，传统的RLHF框架使用PPO算法进行强化学习，但PPO算法依赖于显示的奖励建模，在大规模金融数据上的训练效率相对较低，由于金融领域数据的多样性和复杂性，训练过程可能需要大量的时间和计算资源，这也导致了训练过程中较大的不稳定性。此外，常规RLHF训练缺乏多层次任务引导：现有技术主要侧重在单一任务上进行训练，缺乏对金融领域多层次任务关系的有效利用，这导致模型在处理复杂金融场景时可能缺乏全局性的理解和决策能力，模型在应对金融市场动态变化时可能缺乏自适应性，难以快速调整策略以适应新的市场趋势和变化。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出以多层次任务为导向的金融智能分析模型训练方法及系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了以多层次任务为导向的金融智能分析模型训练方法，该以多层次任务为导向的金融智能分析模型训练方法包括以下步骤：

S1、从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据；

S2、将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次；

S3、采用直接偏好优化法对划分后的数据进行逐层训练；

S4、根据训练结果，判断层次是否需要回溯调整，最终得到目标金融智能分析模型。

可选地，从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据包括以下步骤：

S11、确定通用和金融数据源，并收集相应的原始数据；

S12、对原始数据进行清洗，获取特征数据；

S13、将特征数据转换为标准化训练格式，得到训练数据。

可选地，将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次以下步骤：

S21、通过人工智能技术驱动的自然语言处理工具对训练数据进行标注，并将标注后的训练数据作为训练样本；

S22、使用BERT模型构建数据层级分类器，并将训练样本输入数据层级分类器中；

S23、根据数据层级分类器的输出结果，获取三个类别的概率分布；

S24、对概率分布进行解码，获取三个层次的分类结果。

可选地，数据层级分类器，采用交叉熵损失作为训练的目标，设定训练集中每个样本的真实标签为，对应于其层级分类，模型的输出概率分布为/>，则损失函数为：

式中，L为损失函数；

N为训练样本数量；

3为类别数目；

为第i个样本属于第j个类别的真实标签；

为模型在第i个样本上对第j个类别的预测概率。

可选地，采用直接偏好优化法对划分后的数据进行逐层训练包括以下步骤：

S31、将三个层次的训练数据输入Policy模型和Reference模型，利用Policy模型生成对话回复数据集；

S32、从对话回复数据集中获取人类回复作为正样本，通过Policy模型和Reference模型分别计算正样本的概率；

S33、从对话回复中数据集获取其他回复作为负样本，通过Policy模型和Reference模型分别计算负样本的概率；

S34、利用直接偏好优化法对损失函数进行优化；

S35、根据优化结果，对Policy模型进行逐层训练。

可选地，直接偏好优化法优化后的损失函数公式为：

式中，为损失函数；

为模型对偏好数据中好的回复；

为模型对偏好数据中差的回复；

为待优化策略；

为参考策略；

为给定输入x的情况下，Policy模型生成好的回复的累积概率；

为给定输入x的情况下，Reference模型生成好的回复的累积概率；

为给定输入x的情况下，Policy模型生成差的回复的累积概率；

为给定输入x的情况下，Reference模型生成差的回复的累积概率；

D为偏好数据集；

为sigmoid函数；

为一个取值在0.1-0.5之间的超参数；

x为模型输入的prompt；

E为数学期望。

根据本发明的另一个方面，还提供了以多层次任务为导向的金融智能分析模型训练系统，该系统包括数据处理模块、数据划分模块、层次训练模块及层次回溯判断模块；

数据处理模块，用于从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据；

数据划分模块，用于将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次；

层次训练模块，用于采用直接偏好优化法对划分后的数据进行逐层训练；

层次回溯判断模块，用于根据训练结果，判断层次是否需要回溯调整，最终得到目标金融智能分析模型。

可选地，数据处理模块包括原始数据采集模块、原始数据清洗模块及训练数据获取模块；

原始数据采集模块，用于确定通用和金融数据源，并收集相应的原始数据，

原始数据清洗模块，用于对原始数据进行清洗，获取特征数据，

训练数据获取模块，用于将特征数据转换为标准化训练格式，得到训练数据。

可选地，数据划分模块包括训练数据标注模块、训练样本输入模块、层次概率分布模块及层次分类获取模块；

训练数据标注模块，用于通过人工智能技术驱动的自然语言处理工具对训练数据进行标注，并将标注后的训练数据作为训练样本；

训练样本输入模块，用于使用BERT模型构建数据层级分类器，并将训练样本输入数据层级分类器中；

层次概率分布模块，用于根据数据层级分类器的输出结果，获取三个类别的概率分布；

层次分类获取模块，用于对概率分布进行解码，获取三个层次的分类结果。

可选地，层次训练模块包括对话回复生成模块、正样本计算模块、负样本计算模块、函数优化模块及逐层训练模块；

对话回复生成模块，用于将三个层次的训练数据输入Policy模型和Reference模型，利用Policy模型生成对话回复数据集；

正样本计算模块，用于从对话回复数据集中获取人类回复作为正样本，通过Policy模型和Reference模型分别计算正样本的概率；

负样本计算模块，用于从对话回复中数据集获取其他回复作为负样本，通过Policy模型和Reference模型分别计算负样本的概率；

函数优化模块，用于利用直接偏好优化法对损失函数进行优化；

逐层训练模块，用于根据优化结果，对Policy模型进行逐层训练。

本发明的有益效果为：

1、本发明通过创新性的引入多层次任务，该技术可以更充分地利用金融数据中的层次结构和相关性，从而提高训练效率和模型性能，同时，本发明采用新的训练范式，减轻了对大量人类反馈的依赖，实现了更加自适应和高效的金融大模型训练，这一技术改进使得模型在处理多任务和多层次的金融问题时更为灵活、全面，并且能够更好地适应市场变化。

2、本发明通过引入不同层次的任务，实现了模型从通用能力到领域专业化的渐进学习，从通用能力到特定领域的深入理解和处理，为模型的知识层次化学习提供了有效的方法，通过直接偏好训练范式对金融模型进行逐层训练，模型在不同层次任务中学到的知识逐渐融合，使得模型的整体表现更为鲁棒，在每个层次的任务微调过程中，能够根据具体需求对数据进行精细处理，确保每个阶段的训练都充分考虑了金融领域的特殊性。

3、本发明通过直接偏好训练模块采用简单的二元交叉熵损失，摆脱了对奖励函数的明确建模和强化学习过程，从而省略了奖励模型，直接偏好训练只需训练一个SFT模型，这彻底解决了训练过程中波动过高引起的不稳定性问题，显著提高了训练的稳定性和成功率，同时减轻了对标注数据质量的依赖，由于去除了奖励模型，训练速度得到显著提升，且大幅降低了对GPU内存的需求，更为重要的是，训练和迭代过程中减少了一个奖励模型，进一步降低了对GPU内存的开销。

4、本发明在训练效果出现问题时，可以灵活地逐层回溯微调，这种逐层回溯的机制使得模型的学习过程更具可塑性，能够更细致地调整模型在特定任务和场景中的性能，从而提升其整体泛化能力，这一策略也为应对金融领域复杂性提供了一种灵活而可控的训练方法；通过在不同层次上迭代训练，能够更好地捕捉金融数据的多样性和变化特征，确保模型在实际应用中具备更强大的适应性和预测能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的以多层次任务为导向的金融智能分析模型训练方法的流程图；

图2是根据本发明实施例的以多层次任务为导向的金融智能分析模型训练系统的原理框图；

图3是根据本发明实施例的以多层次任务为导向的金融智能分析模型训练系统中数据处理模块的原理框图；

图4是根据本发明实施例的以多层次任务为导向的金融智能分析模型训练系统中数据划分模块的原理框图；

图5是根据本发明实施例的以多层次任务为导向的金融智能分析模型训练系统中层次训练模块的原理框图。

图中：

1、数据处理模块；101、原始数据采集模块；102、原始数据清洗模块；103、训练数据获取模块；2、数据划分模块；201、训练数据标注模块；202、训练样本输入模块；203、层次概率分布模块；204、层次分类获取模块；3、层次训练模块；301、对话回复生成模块；302、正样本计算模块；303、负样本计算模块；304、函数优化模块；305、逐层训练模块；4、层次回溯判断模块；

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了以多层次任务为导向的金融智能分析模型训练方法及系统。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的以多层次任务为导向的金融智能分析模型训练方法，该以多层次任务为导向的金融智能分析模型训练方法包括以下步骤：

其中，从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据包括以下步骤：

S11、确定通用和金融数据源，并收集相应的原始数据；

S12、对原始数据进行清洗，获取特征数据；

S13、将特征数据转换为标准化训练格式，得到训练数据。

S2、将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层级；

需要补充说明的是，L0层：通用能力对齐；在第一层L0任务中，目标是通过微调模型来提升模型在通用领域的能力，使用分类好的通用指令数据，使模型能够更好地具备常规能力，如数学能力、代码能力、问答和多轮对话能力等，以及使用工具插件的能力，通过这一层次的微调，模型具备很强的泛化性。

L1层：基础金融任务对齐；在第二层L1任务中，模型将接受基础金融知识材料的问答、摘要生成，以及对研报进行分析与总结的任务数据，这一层次的微调旨在让模型更好地理解和处理金融领域的基础知识，能够回答常见金融问题，生成简要摘要，并对研报进行有效的分析。

L2层：复杂金融问题处理；在第三层L2任务中，模型将面对更为复杂和抽象的金融问题，包括但不限于研报生成、辅助决策和市场趋势预测，这一层次的微调旨在培养模型处理高度复杂、具有挑战性的金融任务的能力，使其能够更深入地理解并回应金融市场中的各种变化和趋势。

通过这三个层次的任务微调，模型将逐渐提升其在通用和专业金融领域的能力，使其更为全面地应对不同层次的金融问题，这种逐层微调的方法有效地建立了模型的深度理解和学习能力，使其在金融领域具备更高水平的应用价值。

S2、将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次。

其中，将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次以下步骤：

S24、对概率分布进行解码，获取三个层次的分类结果。

数据层级分类器，采用交叉熵损失作为训练的目标，设定训练集中每个样本的真实标签为，对应于其层级分类，模型的输出概率分布为/>，则损失函数为：

式中，L为损失函数；

N为训练样本数量；

3为类别数目L0、L1、L2；

为第i个样本属于第j个类别的真实标签；

为模型在第i个样本上对第j个类别的预测概率。

需要补充说明的是，通过最小化损失函数，数据层级分类器模块能够有效地对原始训练数据进行分类，为不同层次的任务微调提供有针对性的数据支持。

此外，需要补充说明的是，本发明的目标是将数据分为三个层次，引入特殊标记来表示不同的层次，对于每个文本序列，在其开头添加【CLS】标记表示分类的开始，并在不同层次的任务之间使用【SEP】标记进行分隔。

在BERT的输出中，取【CLS】标记对应的隐藏状态作为整个句子的表示，这个表示将被送入一个简单的线性分类器，该分类器的输出是三个类别L0、L1、L2的概率分布，通过对概率分布进行解码，可以得到对每个文本属于哪个层次的分类结果。

S3、采用直接偏好优化法对划分后的数据进行逐层训练；

其中，采用直接偏好优化法对划分后的数据进行逐层训练包括以下步骤：

S31、将三个层次的训练数据输入Policy模型和Reference模型，利用Policy模型生成对话回复；

S32、从对话回复中获取人类回复作为正样本，通过Policy模型和Reference模型分别计算正样本的概率；

S33、从对话回复中获取其他回复作为负样本，通过Policy模型和Reference模型分别计算负样本的概率；

S34、利用直接偏好优化法对损失函数进行优化；

S35、根据优化结果，对Policy模型进行逐层训练。

需要补充说明的是，Policy模型：是需要训练的对话生成模型，由每一层级的初始模型逐步调整训练参数，该模型负责生成对话回复，目标是通过训练使其生成的回复更符合人类偏好，比如专业性、客观性、准确性等方面。

Reference模型：这是一个给定的预训练模型或者是人工构建的模型，选择每一层级的初始模型用作参考，Reference模型在当前层没有训练的情况下提供了一种初始的对话生成能力，目标是通过DPO训练将Policy模型优化到超越或匹敌Reference模型。

此外，需要补充说明的是，Policy模型选择一个在专业领域数据集上微调过的sft模型，如llama、GPT3等，通过人工标注的方法构建偏好数据集，对sft模型的输出进行采样标注，因为偏好数据集是使用/>采样得到，可以用/>来初始化Reference模型。

可选地，直接偏好优化法优化后的损失函数公式为：

式中，为损失函数；

为模型对偏好数据中好的回复；

为模型对偏好数据中差的回复；

为待优化策略；

为参考策略；

为给定输入x的情况下，Policy模型生成好的回复的累积概率；

为给定输入x的情况下，Policy模型生成差的回复的累积概率；

D为偏好数据集；

为sigmoid函数；

为一个取值在0.1-0.5之间的超参数，避免模型迭代过程中/>和偏差太大；

x为模型输入的prompt；

E为数学期望。

需要补充说明的是，使用梯度下降算法最小化DPO损失函数，直观来说，当模型处理一个被认定为好的回答时，目标是更新模型参数从而最大化Policy模型生成该回答的概率，且该概率应该大于Reference模型生成的概率；当涉及差的回答时同理。

需要补充说明的是，使用直接偏好训练模块对的金融模型进行逐层训练，低层训练好的模型作为下一层的初始模型进行迭代，并在训练效果出现突发问题时可以逐层回溯微调，L3层训练结束最终可以达到适应任务需求的金融智能分析模型。

此外，需要补充说明的是，判断是否需要回溯调整包括：性能评估，定期评估模型在Fin_eval等开源测试集上的性能，如果在某个层次的测试集上的性能下降或未达到预期标准，这可能表明需要回溯调整；错误分析，检查模型的错误类型和频率，如果错误与特定层次的训练数据或目标任务相关联，可能需要回溯重训练；人工反馈，对训练过程中不同断点的模型做人工评测，看模型输出是否专业且符合人类偏好，从而判断是否需要回溯训练。

若需要回溯调整时：重新微调，针对表现不佳的层次，重新进行微调，可能需要调整学习率、批量大小或其他超参数；数据质量检查，检查用于该层次训练的数据质量，确保没有错误或偏差；增加或优化数据，可能需要增加更多高质量、多样性的训练数据，或对现有数据进行清洗和优化。

若不需要回溯调整时：持续监控，即使当前性能良好，也应持续监控模型表现，以便快速响应任何未来的下降；增强弹性，可以通过增加数据多样性或进行正则化等技术来增强模型的泛化能力。

如图2所示，根据本发明的另一个方面，还提供了以多层次任务为导向的金融智能分析模型训练系统，该系统包括数据处理模块1、数据划分模块2、层次训练模块3及层次回溯判断模块4；

数据处理模块1，用于从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据；

数据划分模块2，用于将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次；

层次训练模块3，用于采用直接偏好优化法对划分后的数据进行逐层训练；

层次回溯判断模块4，用于根据训练结果，判断层次是否需要回溯调整，最终得到目标金融智能分析模型。

如图3所示，可选地，数据处理模块1包括原始数据采集模块101、原始数据清洗模块102及训练数据获取模块103；

原始数据采集模块101，用于确定通用和金融数据源，并收集相应的原始数据，

原始数据清洗模块102，用于对原始数据进行清洗，获取特征数据，

训练数据获取模块103，用于将特征数据转换为标准化训练格式，得到训练数据。

如图4所示，可选地，数据划分模块2包括训练数据标注模块201、训练样本输入模块202、层次概率分布模块203及层次分类获取模块204；

训练数据标注模块201，用于通过人工智能技术驱动的自然语言处理工具对训练数据进行标注，并将标注后的训练数据作为训练样本；

训练样本输入模块202，用于使用BERT模型构建数据层级分类器，并将训练样本输入数据层级分类器中；

层次概率分布模块203，用于根据数据层级分类器的输出结果，获取三个类别的概率分布；

层次分类获取模块204，用于对概率分布进行解码，获取三个层次的分类结果。

如图5所示，可选地，层次训练模块3包括对话回复生成模块301、正样本计算模块302、负样本计算模块303、函数优化模块304及逐层训练模块305；

对话回复生成模块301，用于将三个层次的训练数据输入Policy模型和Reference模型，利用Policy模型生成对话回复数据集；

正样本计算模块302，用于从对话回复数据集中获取人类回复作为正样本，通过Policy模型和Reference模型分别计算正样本的概率；

负样本计算模块303，用于从对话回复中数据集获取其他回复作为负样本，通过Policy模型和Reference模型分别计算负样本的概率；

函数优化模块304，用于利用直接偏好优化法对损失函数进行优化；

逐层训练模块305，用于根据优化结果，对Policy模型进行逐层训练。

综上所述，借助于本发明的上述技术方案，通过创新性的引入多层次任务，该技术可以更充分地利用金融数据中的层次结构和相关性，从而提高训练效率和模型性能，同时，本发明采用新的训练范式，减轻了对大量人类反馈的依赖，实现了更加自适应和高效的金融大模型训练，这一技术改进使得模型在处理多任务和多层次的金融问题时更为灵活、全面，并且能够更好地适应市场变化。通过引入不同层次的任务，实现了模型从通用能力到领域专业化的渐进学习，从通用能力到特定领域的深入理解和处理，为模型的知识层次化学习提供了有效的方法，通过直接偏好训练范式对的金融模型进行逐层训练，模型在不同层次任务中学到的知识逐渐融合，使得模型的整体表现更为鲁棒，在每个层次的任务微调过程中，能够根据具体需求对数据进行精细处理，确保每个阶段的训练都充分考虑了金融领域的特殊性。通过直接偏好训练模块采用简单的二元交叉熵损失，摆脱了对奖励函数的明确建模和强化学习过程，从而省略了奖励模型，直接偏好训练只需训练一个SFT模型，这彻底解决了训练过程中波动过高引起的不稳定性问题，显著提高了训练的稳定性和成功率，同时减轻了对标注数据质量的依赖，由于去除了奖励模型，训练速度得到显著提升，且大幅降低了对GPU内存的需求，更为重要的是，训练和迭代过程中减少了一个奖励模型，进一步降低了对GPU内存的开销。在训练效果出现问题时，可以灵活地逐层回溯微调，这种逐层回溯的机制使得模型的学习过程更具可塑性，能够更细致地调整模型在特定任务和场景中的性能，从而提升其整体泛化能力，这一策略也为应对金融领域复杂性提供了一种灵活而可控的训练方法；通过在不同层次上迭代训练，能够更好地捕捉金融数据的多样性和变化特征，确保模型在实际应用中具备更强大的适应性和预测能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.以多层次任务为导向的金融智能分析模型训练方法，其特征在于，该以多层次任务为导向的金融智能分析模型训练方法包括以下步骤：

S3、采用直接偏好优化法对划分后的数据进行逐层训练；

S4、根据训练结果，判断层次是否需要回溯调整，最终得到目标金融智能分析模型；

所述将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次以下步骤：

S24、对概率分布进行解码，获取三个层次的分类结果；

其中，三个层次包括L0层、L1层及L2层；

L0层用于通用能力对齐；在第一层L0任务中，使用分类好的通用指令数据，调整BERT模型；

L1层用于基础金融任务对齐；在第二层L1任务中，BERT模型将接受基础金融知识材料的问答、摘要生成，以及对研报进行分析与总结的任务数据；

L2层用于金融问题处理；在第三层L2任务中，BERT模型将面对金融问题，包括研报生成、辅助决策和市场趋势预测；

所述采用直接偏好优化法对划分后的数据进行逐层训练包括以下步骤：

S34、利用直接偏好优化法对损失函数进行优化；

S35、根据优化结果，对Policy模型进行逐层训练；

所述直接偏好优化法优化后的损失函数公式为：

式中，L_DPO为损失函数；

y_w为模型对偏好数据中好的回复；

y_l为模型对偏好数据中差的回复；

π_θ为待优化策略；

π_ref为参考策略；

π_θ(y_w|x)为给定输入x的情况下，Policy模型生成好的回复的累积概率；

π_ref(y_w|x)为给定输入x的情况下，Reference模型生成好的回复的累积概率；

π_θ(y_l|x)为给定输入x的情况下，Policy模型生成差的回复的累积概率；

π_ref(y_l|x)为给定输入x的情况下，Reference模型生成差的回复的累积概率；

D为偏好数据集；

σ为sigmoid函数；

β为取值在0.1-0.5之间的超参数；

x为模型输入的prompt；

E为数学期望。

2.根据权利要求1所述的以多层次任务为导向的金融智能分析模型训练方法，其特征在于，所述从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据包括以下步骤：

S11、确定通用和金融数据源，并收集相应的原始数据；

S12、对原始数据进行清洗，获取特征数据；

S13、将特征数据转换为标准化训练格式，得到训练数据。

3.根据权利要求1所述的以多层次任务为导向的金融智能分析模型训练方法，其特征在于，所述数据层级分类器，采用交叉熵损失作为训练的目标，设定训练集中每个样本的真实标签为y_i，对应于其层级分类，模型的输出概率分布为y_pred，则损失函数为：

式中，L为损失函数；

N为训练样本数量；

3为类别数目；

y_i,j为第i个样本属于第j个类别的真实标签；

y_pred,i,j为模型在第i个样本上对第j个类别的预测概率。

4.以多层次任务为导向的金融智能分析模型训练系统，用于实现权利要求1-3中任意一项所述的金融智能分析模型训练方法，其特征在于，该系统包括数据处理模块、数据划分模块、层次训练模块及层次回溯判断模块；

所述数据处理模块，用于从数据源中收集原始数据，并对原始数据进行预处理，得到训练数据；

所述数据划分模块，用于将训练数据输入BERT模型，并将BERT模型处理后训练数据划分为三个层次；

所述层次训练模块，用于采用直接偏好优化法对划分后的数据进行逐层训练；

所述层次回溯判断模块，用于根据训练结果，判断层次是否需要回溯调整，最终得到目标金融智能分析模型。

5.根据权利要求4所述的以多层次任务为导向的金融智能分析模型训练系统，其特征在于，所述数据处理模块包括原始数据采集模块、原始数据清洗模块及训练数据获取模块；

所述原始数据采集模块，用于确定通用和金融数据源，并收集相应的原始数据，

所述原始数据清洗模块，用于对原始数据进行清洗，获取特征数据，

所述训练数据获取模块，用于将特征数据转换为标准化训练格式，得到训练数据。

6.根据权利要求4所述的以多层次任务为导向的金融智能分析模型训练系统，其特征在于，所述数据划分模块包括训练数据标注模块、训练样本输入模块、层次概率分布模块及层次分类获取模块；

所述训练数据标注模块，用于通过人工智能技术驱动的自然语言处理工具对训练数据进行标注，并将标注后的训练数据作为训练样本；

所述训练样本输入模块，用于使用BERT模型构建数据层级分类器，并将训练样本输入数据层级分类器中；

所述层次概率分布模块，用于根据数据层级分类器的输出结果，获取三个类别的概率分布；

所述层次分类获取模块，用于对概率分布进行解码，获取三个层次的分类结果。

7.根据权利要求4所述的以多层次任务为导向的金融智能分析模型训练系统，其特征在于，所述层次训练模块包括对话回复生成模块、正样本计算模块、负样本计算模块、函数优化模块及逐层训练模块；

所述对话回复生成模块，用于将三个层次的训练数据输入Policy模型和Reference模型，利用Policy模型生成对话回复数据集；

所述正样本计算模块，用于从对话回复数据集中获取人类回复作为正样本，通过Policy模型和Reference模型分别计算正样本的概率；

所述负样本计算模块，用于从对话回复中数据集获取其他回复作为负样本，通过Policy模型和Reference模型分别计算负样本的概率；

所述函数优化模块，用于利用直接偏好优化法对损失函数进行优化；

所述逐层训练模块，用于根据优化结果，对Policy模型进行逐层训练。