CN117952185A

CN117952185A - 基于多维度数据评估的金融领域大模型训练方法及系统

Info

Publication number: CN117952185A
Application number: CN202410297532.XA
Authority: CN
Inventors: 周熠; 潘浩淼; 李欣和; 钟成莉
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-04-30

Abstract

本发明公开了基于多维度数据评估的金融领域大模型训练方法及系统，涉及自然语言处理和生成式大语言模型领域，该基于多维度数据评估的金融领域大模型训练方法包括以下步骤：S1、将金融领域大模型通过监督学习处理历史金融数据，并获取金融领域的核心概念和数据模式；S2、将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测；S3、根据初步预测结果进行多维度分析，并根据多维度分析结果设置多个由评估模型构成的评估模型组；S4、将多维度分析结果代入评估模型组进行模型训练，作为奖励分析模型输出。本发明通过不断地学习和调整，能够在金融服务的各项任务中做出更合理的预测和决策，提高其在实际应用中的性能。

Description

基于多维度数据评估的金融领域大模型训练方法及系统

技术领域

本发明涉及自然语言处理和生成式大语言模型领域，具体来说，涉及基于多维度数据评估的金融领域大模型训练方法及系统。

背景技术

目前，在生成式大模型的发展过程中，尤其是在后期能力的调整阶段，主流的方法依然是通过微调来实现，而这种方法在处理模型偏见和所谓的“模型幻觉”问题时尤为关键，同时在大模型的发展过程中出现的挑战应对策略中，最为普遍且有效的手段之一是利用人类对模型输出的直接反馈进行调整。

"Retrieval-AugmentedGeneration"（检索增强生成，简称RAG）是一种结合了检索和生成的自然语言处理技术，这种方法主要用于提高语言模型在回答问题、撰写文章等任务中的性能，特别是在需要外部知识或特定信息时。

在RAG任务中，系统首先执行一个检索步骤，从一个大型的文档集合，如维基百科或其他专业数据库等，检索出与输入查询最相关的文档或文档片段，将检索到的文档被用作生成步骤的输入，辅助语言模型生成更准确、更丰富的回答或内容。

且RAG任务在金融领域的应用可以非常广泛和深入，能显著提升信息处理的效率和质量，可以用于金融市场分析与预测，通过检索大量的金融新闻、市场报告和历史交易数据来生成准确的市场分析和趋势预测，在风险评估方面，RAG能够通过分析类似历史案例和市场环境变化来生成全面的风险评估报告，并在合规性检查中通过检索最新法规和历史合规案例来提供合规性建议，在个性化金融建议中结合客户的财务状况和投资偏好来生成定制化建议。

在这方面，OpenAI的InstructGPT项目是一个典型的例子，该项目采用了RLHF（ReinforcementLearning from HumanFeedback）方法，结合了监督学习的准确性和强化学习的适应能力，并通过人类反馈来引导模型学习，训练模型理解并响应人类指令，同时在多轮交互中提升输出质量。

而InstructGPT项目中的RLHF技术利用人工评估校准模型行为，以符合使用者意图，依靠大量的预训练数据和大规模参数配置，在多任务和场景中实现广泛适用性，并监督学习让模型掌握具体任务，而强化学习则通过奖励函数的优化，提升模型基于人类反馈的表现。

虽然RLHF是一种多领域模型训练的有效途径，但在面对如金融行业这样的复杂领域，原始的RLHF方法还是呈现出一定的局限性，如现有开源预训练模型的参数量限制了其理解金融问题高级别复杂性的能力，且随着训练的深入模型需要对特定领域细节有更深刻理解，单一的评估方法无法提供足够的灵活性和深度，同时原始的RLHF缺乏领域特定的有效评估，在金融应用中这一点尤为明显，导致模型在适应性和准确性上未能达到理想状态，此外，原始的RLHF方法在训练奖励模型时使用大量不区分重要性的人工标注数据，所耗费的人力成本巨大，而实际上并不是所有的标注数据在训练过程中都会起到相同重要的作用，在成本受限的条件下，使用原始的RLHF方法，将会造成资源的浪费。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出基于多维度数据评估的金融领域大模型训练方法及系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了基于多维度数据评估的金融领域大模型训练方法及系统，包括以下步骤：

S1、将金融领域大模型通过监督学习处理历史金融数据，并获取金融领域的核心概念和数据模式；

S2、将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测；

S3、根据初步预测结果进行多维度分析，并根据多维度分析结果设置多个由评估模型构成的评估模型组；

S4、将多维度分析结果代入评估模型组进行模型训练，并对训练完成后的评估模型组调校优化，作为奖励分析模型输出。

作为优选方案，根据初步预测结果进行多维度分析，并根据多维度分析结果设置多个由评估模型构成的评估模型组包括以下步骤：

S31、根据金融领域大模型评估的关键维度，并对初步预测结果的响应质量进行评估；

S32、对预训练模型进行初始化调整，获取评估模型，并将获取的评估模型进行整合得到评估模型组；

S33、根据专业信息检测结果对评估模型组进行训练，并进行优化输出。

作为优选方案，对预训练模型进行初始化调整，获取评估模型，并将获取的评估模型进行整合得到评估模型组包括以下步骤：

S311、对金融大模型的输出结果进行专业性判断和客观性评判，并对输出结果是否为准确应用专业术语进行判断，再从多元数据源提取关键信息的能力；

S312、对金融大模型的输出结果进行信息抽取准确性判断和关键性评判，并判断输出结果是否可以对财务报表、市场分析和新闻报道内容中的数据和趋势进行精确的识别和解析；

S313、对金融大模型的输出结果进行市场趋势预测合理性判断和风险评估精准性评判，并根据分析输出结果对未来市场变动进行预测、潜在风险识别及捕捉微妙市场信号制定策略的效果；

S314、对金融大模型的输出结果进行客户服务领域合规性评判，并根据输出结果对客户服务领域合规性进行调整。

作为优选方案，根据专业信息检测结果对评估模型组进行训练，并进行优化输出包括以下步骤：

S331、采用预训练大模型，作为评估模型的基底模型，使评估模型具备理解文本信息的能力；

S332、使用评估模型时，将一个全连接层代替预训练大模型的最后一层输出层，并作为评估模型的输出层进行输出；

S333、评估模型的输入为待评估的金融大模型的输出结果，评估模型的输出为一个数值，表示在该评估模型对应的评估维度下输入的评分。

作为优选方案，使用评估模型时，将一个全连接层代替预训练大模型的最后一层输出层，并作为评估模型的输出层进行输出包括以下步骤：

S3321、将指令响应对输入评估模块中的所有评估模型，得到对应维度下评估模型对该指令响应对的评分；

S3322、将指令响应对的指令输入评估模块中的所有评估模型，得到对应维度下评估模型对该指令的评分；

S3323、将指令响应对评分与对应指令的评分进行匹配，其差值作为对应响应的评分，响应评分作为响应的质量评估结果。

作为优选方案，评估模型训练时的损失函数公式为：

；

其中r _θ为待训练评估模型的函数表示；

为sigmoid函数，定义为/>；

(promptresponse)为输入评估模型的指令响应对；

response1为评估下较优的响应；

response2为评估下较差的响应；

为评估模型对指令响应对的评分；

为评估模型对指令响应对的指令的评分。

作为优选方案，将多维度分析结果代入评估模型组进行模型训练，并对训练完成后的评估模型组调校优化，作为奖励分析模型输出包括以下步骤：

S41、根据各维度评估模型对指令响应对和对指令的评分，结合对响应质量响应维度的评估，使用损失函数对评估模型进行训练；

S42、通过评估模型组对金融大模型进行的训练，并预设好坏指标将行为状态评估结果与好坏指标进行比对；

S43、根据实时反馈和外部环境变化的需要，通过评估模型组对金融大模型进行动态调整优化。

作为优选方案，根据各维度评估模型对指令响应对和对指令的评分，结合对响应质量响应维度的评估，使用损失函数对评估模型进行训练包括以下步骤：

S411、将相同指令下未标注的不同响应组成的指令响应对输入待训练的评估模型，得到不同的评分；

S412、根据评估模型的评分进行评估能力判断；

S413、根据评估标注对评估模型进行匹配损失函数，并根据匹配的损失函数对评估模型进行训练。

作为优选方案，根据评估标注对评估模型进行匹配损失函数，并根据匹配的损失函数对评估模型进行训练包括以下步骤：

标注结果对应评估下的响应，而评估模型的评分为评估模型对指令响应对的评分和评估模型对指令响应对的指令的评分，并使用梯度下降法调整模型参数，最小化损失函数进行优化模型。

根据本发明的另一个方面，提供了基于多维度数据评估的金融领域大模型训练系统，该系统包括：

数据获取模块，用于将金融领域大模型通过监督学习处理历史金融数据，并获取金融领域的核心概念和数据模式；

数据预测模块，用于将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测；

多维度分析模块，用于根据初步预测结果进行多维度分析，并根据多维度分析结果设置多个由评估模型构成的评估模型组；

模型训练模块，用于将多维度分析结果代入评估模型组进行模型训练，并对训练完成后的评估模型组调校优化，作为奖励分析模型输出。

本发明的有益效果为：

1、本发明通过不断地学习和调整，能够在金融服务的各项任务中做出更合理的预测和决策，提高其在实际应用中的性能，使得金融领域大模型能在多维度评估的指导下，进行有效地学习和进步，从而在金融技术应用中发挥更大的潜力。

2、本发明通过构建和应用多维度评分模型，不仅全面提升了金融领域大模型的整体性能，还加强了金融领域大模型在特定金融任务中的专业适用性，确保模型输出的高质量和行业标准的符合性，使模型能在未来的学习中更加聚焦于提高那些表现不足的领域，从而在金融技术的应用中发挥更大的潜能。

3、本发明通过多维度数据评估金融领域大模型并进行训练，使得金融领域大模型在训练中更准确地理解和处理金融数据的特性，提高了专业性和可靠性，在金融特定任务中展现出优异的性能，满足了高准确性和强适应性的行业需求。

4、本发明通过精确挑选训练数据，提升了评估模型在处理复杂数据时的判别能力，通过分析评分接近的数据对，精准地识别出评估模型在哪些方面缺乏评估能力，从而针对性地进行训练，且训练策略使得模型在处理类似数据时更加高效和准确，极大提高了模型的整体性能和适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于多维度数据评估的金融领域大模型训练方法的方法流程图；

图2是根据本发明实施例的基于多维度数据评估的金融领域大模型训练系统的系统框图。

图中：

1、数据获取模块；2、数据预测模块；3、多维度分析模块；4、模型训练模块。

具体实施方式

为下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了基于多维度数据评估的金融领域大模型训练方法及系统。

现结合附图和具体实施方式对本发明进一步说明，根据本发明的一个实施例，如图1所示，根据本发明实施例的基于多维度数据评估的金融领域大模型训练方法，包括以下步骤：

具体的，根据初步预测结果进行多维度分析，并根据多维度分析结果设置评估模型包括以下步骤：

S31、根据金融领域大模型评估的关键维度，并通过人类专家对初步预测结果的响应质量进行评估；

具体的，根据金融领域大模型评估的关键维度，并通过人类专家对初步预测结果的响应质量进行评估包括以下步骤：

S311、通过人类专家对金融大模型的输出结果进行专业性判断和客观性评判，并对输出结果是否为准确应用专业术语进行判断，再从多元数据源提取关键信息的能力；

具体的，在评估研究报告生成的专业性和客观性方面，特别关注模型能否准确运用专业术语，并从多元数据源中提取和平衡信息，以保证输出内容的行业相关性及观点中立性。

S312、人类专家对金融大模型的输出结果进行信息抽取准确性判断和关键性评判，并判断输出结果是否可以对财务报表、市场分析和新闻报道内容中的数据和趋势进行精确的识别和解析；

S313、人类专家对金融大模型的输出结果进行市场趋势预测合理性判断和风险评估精准性评判，并根据分析输出结果对未来市场变动进行预测、潜在风险识别及捕捉微妙市场信号制定策略的效果；

具体的，在信息抽取的准确性方面，将模型对复杂金融文档中关键信息抽取能力进行验证，重点是对财务报表、市场分析和新闻报道内容中的数据点和趋势进行精确识别和解析；

S314、人类专家对金融大模型的输出结果进行客户服务领域合规性评判，并根据输出结果对客户服务领域合规性进行调整。

具体的，在市场趋势的预测能力和风险评估的精准性方面，评估机制会严格审视模型对未来市场变动的预测准确度和潜在风险的识别能力，特别是模型捕捉微妙市场信号并据此制定策略的效能。

具体的，根据专业信息检测结果对多维度评估模型进行训练，并进行优化输出包括以下步骤：

具体的，预训练模型在预训练阶段使用了海量的文本数据，且数据涵盖了广泛的主题和领域，使得模型能够学习到大量的事实、概念和知识，故使用预训练模型作为基底的评估模型具备理解文本信息的能力。

具体的，对信息抽取结果进行趋势预测，并附加全连接层进行因果模型训练包括以下步骤：

具体的，将奖励得分与指令评分进行匹配进行响应质量评估的评估公式为：

；

其中r _θ为待训练评估模型的函数表示；

为sigmoid函数，定义为/>；

(promptresponse)为输入评估模型的指令响应对；

response1为人类专家评估下较优的响应；

response2为人类专家评估下较差的响应；

为评估模型对指令响应对的评分；

为评估模型对指令响应对的指令的评分。

而指令响应评估的分数和指令本身的评分之差将体现响应的优劣，过对指令响应对和对应的指令在某维度评估模型上的评分之差，得到指令响应对中的响应的评分。根据此评分结合人类专家的判断，训练该维度评估模型的评估能力。经过适量的训练过程后，评估模型具备人类专家的评估能力，可以辨别响应质量的优劣，并据此调整Actor模型的行为，以在未来的训练迭代在中得到评分高的决策。

具体的，多维度评估主要聚焦于精细评估奖励分析模型在金融服务关键维度的表现，而多维度评估由多个评估模型构成，分别专注于不同的性能维度，通过选择更优的指令响应数据，调整评估模型，通过使用近端策略优化方法，优化决策策略，并根据实时反馈和市场环境变化调整奖励函数，适应市场变化并生成相应策略，再通过多维度评估和强化学习来提升金融服务模型性能的框架，提升奖励分析模型的整体性能，还确保了模型输出的高质量和行业标准的符合性，使得奖励分析模型在金融技术应用中具有更大的潜力和适应性。

具体的，首先采用一个生成预训练模型作为基础，通过深入理解金融领域的因果关系来提升信息抽取和趋势预测的能力，然后在此模型之上附加一个全连接层，这一层将作为评估模型的输出层，负责根据预先设定的奖励函数对模型的行为进行评估和反馈。

具体的，将多维度分析结果代入奖励分析模型进行模型训练，并对训练完成后的奖励分析模型调校优化包括以下步骤：

S41、根据各维度评估模型对指令响应对和对指令的评分，结合人类专家对响应质量的响应维度的评估，使用损失函数对评估模型进行训练；

具体的，运用近端策略优化的强化学习方法，通过细致地评价和反馈主模型的行为来指导其学习过程，在奖励分析模型中接受指令并生成响应，响应随后进行多维度评估评分，且每个维度的评分不仅考量当前的输出质量，如当模型生成一个市场分析研究报告时，评估从专业度、客观性、信息的准确性等多个角度对其进行评分，而评分结果反映了模型当前输出的质量，并通过评估转化为对未来行为的预测价值。

具体的，根据各维度评估模型对指令响应对和对指令的评分，结合人类专家对响应质量的响应维度的评估，使用损失函数对评估模型进行训练包括以下步骤：

S411、将相同指令下不同响应组成的指令响应对输入待训练的评估模型，得到不同的评分；

S412、根据评估模型的评分进行评估能力判断；

具体的，挑选评估模型的评分之差前50%的响应，并由人类专家进行标注。

具体的，根据评估标注对评估模型进行匹配损失函数，并根据匹配的损失函数对评估模型进行训练包括以下步骤：

人类专家的标注结果对应人类专家评估下较优的响应和人类专家评估下较差的响应，而评估模型的评分为评估模型对指令响应对的评分和评估模型对指令响应对的指令的评分，并使用梯度下降法调整模型参数，最小化损失函数进行优化模型。

评估模型估计Actor模型每个输出的评分，根据评分高低评价输出质量，引导Actor模型在未来做出更高质量的决策，通过这种方式不断调整Actor模型的策略，以期在各项金融任务上实现最佳的表现。

具体的，如果市场出现新的变化，奖励分析模型需要迅速适应这些变化并生成相应的策略，在这种情况下，评估机制会相应调整，以促进模型生成更适应当前市场条件的预测和决策，在训练过程中，评估模型将通过与多维度评估的交互，不断接收到来自不同业务场景的反馈，这些反馈信息将被用来更新评估模型，使评估模型在每一次迭代中都能更好地对准业务目标和风险参数，评估模型通过这种方式进行训练，不仅可以在不断变化的市场环境中保持其预测和策略的相关性和精确性，而且还能在保持数据安全性和模型公平性的前提下，优化其决策过程。

具体的，强化学习的核心算法为近端策略优化算法，在中执行多次迭代来收集数据，且包括将指令响应数据传入生成的logits和reward，且Logtis为Actor模型生成对应响应的概率分布，reward为评估模型的评分，随后算法调整评估模型以更偏向于选择带来更高回报的动作，同时通过限制更新幅度来保持学习的稳定性。

根据本发明另一个实施例，如图2所示基于多维度数据评估的金融领域大模型训练系统，该系统包括：

数据获取模块1，用于将金融领域大模型通过监督学习处理历史金融数据，并获取金融领域的核心概念和数据模式；

数据预测模块2，用于将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测；

多维度分析模块3，用于根据初步预测结果进行多维度分析，并根据多维度分析结果设置多个由评估模型构成的评估模型组；

模型训练模块4，用于将多维度分析结果代入评估模型组进行模型训练，并对训练完成后的评估模型组调校优化，作为奖励分析模型输出。

具体的，在使用多维度数据评估的金融领域大模型训练框架下，首先需要采集涉及获取金融领域的文献及相关问题，作为奖励分析模型的输入。随后，该过程涉及以下几个关键步骤：

文档和问题被输入到奖励分析模型中，奖励分析模型经过推理处理，产生多样化的答案，再由金融领域专家从多个维度对生成的答案进行评估，其结果被用作训练数据，输入到不同的奖励分析模型中进行训练，训练完善的评估模型能够独立完成对回答质量的评分，通过应用强化学习方法，对奖励分析模型进行调整，以使其更倾向于产生评分较高的答案，而在奖励分析模型的后期应用中，若发现在某些方面存在不足，可以通过相应的奖励分析模型进行持续调整，以实现长期的在线学习目标，训练过程的细致设计和迭代执行。

综上所述，借助于本发明的上述技术方案，本发明通过不断地学习和调整，能够在金融服务的各项任务中做出更合理的预测和决策，提高其在实际应用中的性能，使得金融领域大模型能在多维度评估的指导下，进行有效地学习和进步，从而在金融技术应用中发挥更大的潜力。

此外，本发明通过构建和应用多维度评分模型，不仅全面提升了金融领域大模型的整体性能，还加强了金融领域大模型在特定金融任务中的专业适用性，确保模型输出的高质量和行业标准的符合性，使模型能在未来的学习中更加聚焦于提高那些表现不足的领域，从而在金融技术的应用中发挥更大的潜能。

此外，本发明通过多维度数据评估金融领域大模型并进行训练，使得金融领域大模型在训练中更准确地理解和处理金融数据的特性，提高了专业性和可靠性，在金融特定任务中展现出优异的性能，满足了高准确性和强适应性的行业需求。

此外，本发明通过精确挑选训练数据，提升了评估模型在处理复杂数据时的判别能力，通过分析评分接近的数据对，精准地识别出评估模型在哪些方面缺乏评估能力，从而针对性地进行训练，且训练策略使得模型在处理类似数据时更加高效和准确，极大提高了模型的整体性能和适应性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多维度数据评估的金融领域大模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述根据初步预测结果进行多维度分析，并根据多维度分析结果设置多个由评估模型构成的评估模型组包括以下步骤：

3.根据权利要求2所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述根据金融领域大模型评估的关键维度，并对初步预测结果的响应质量进行评估包括以下步骤：

4.根据权利要求2所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述根据专业信息检测结果对评估模型组进行训练，并进行优化输出包括以下步骤：

5.根据权利要求4所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述使用评估模型时，将一个全连接层代替预训练大模型的最后一层输出层，并作为评估模型的输出层进行输出包括以下步骤：

6.根据权利要求5所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述评估模型训练时的损失函数公式为：

；

其中r _θ为待训练评估模型的函数表示；

为sigmoid函数，定义为/>；

(promptresponse)为输入评估模型的指令响应对；

response1为评估下较优的响应；

response2为评估下较差的响应；

为评估模型对指令响应对的评分；

为评估模型对指令响应对的指令的评分。

7.根据权利要求1所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述将多维度分析结果代入评估模型组进行模型训练，并对训练完成后的评估模型组调校优化，作为奖励分析模型输出包括以下步骤：

S42、通过评估模型组挑选评分高的指令响应对使用近端策略优化算法对金融大模型进行训练；

8.根据权利要求7所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述根据各维度评估模型对指令响应对和对指令的评分，结合对响应质量响应维度的评估，使用损失函数对评估模型进行训练包括以下步骤：

S412、根据评估模型的评分进行评估能力判断；

9.根据权利要求8所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，所述根据评估标注对评估模型进行匹配损失函数，并根据匹配的损失函数对评估模型进行训练包括以下步骤：

10.基于多维度数据评估的金融领域大模型训练系统，用于实现权利要求1-9中任一项所述的基于多维度数据评估的金融领域大模型训练方法，其特征在于，该系统包括：