CN117952185A - 基于多维度数据评估的金融领域大模型训练方法及系统 - Google Patents
基于多维度数据评估的金融领域大模型训练方法及系统 Download PDFInfo
- Publication number
- CN117952185A CN117952185A CN202410297532.XA CN202410297532A CN117952185A CN 117952185 A CN117952185 A CN 117952185A CN 202410297532 A CN202410297532 A CN 202410297532A CN 117952185 A CN117952185 A CN 117952185A
- Authority
- CN
- China
- Prior art keywords
- model
- evaluation
- financial
- training
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000011157 data evaluation Methods 0.000 title claims abstract description 15
- 238000013210 evaluation model Methods 0.000 claims abstract description 149
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000004044 response Effects 0.000 claims description 90
- 238000011156 evaluation Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 29
- 238000005457 optimization Methods 0.000 claims description 19
- 238000004141 dimensional analysis Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012502 risk assessment Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013441 quality evaluation Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000009472 formulation Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 241000282414 Homo sapiens Species 0.000 description 20
- 230000008569 process Effects 0.000 description 11
- 230000006399 behavior Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了基于多维度数据评估的金融领域大模型训练方法及系统,涉及自然语言处理和生成式大语言模型领域,该基于多维度数据评估的金融领域大模型训练方法包括以下步骤:S1、将金融领域大模型通过监督学习处理历史金融数据,并获取金融领域的核心概念和数据模式;S2、将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测;S3、根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组;S4、将多维度分析结果代入评估模型组进行模型训练,作为奖励分析模型输出。本发明通过不断地学习和调整,能够在金融服务的各项任务中做出更合理的预测和决策,提高其在实际应用中的性能。
Description
技术领域
本发明涉及自然语言处理和生成式大语言模型领域,具体来说,涉及基于多维度数据评估的金融领域大模型训练方法及系统。
背景技术
目前,在生成式大模型的发展过程中,尤其是在后期能力的调整阶段,主流的方法依然是通过微调来实现,而这种方法在处理模型偏见和所谓的“模型幻觉”问题时尤为关键,同时在大模型的发展过程中出现的挑战应对策略中,最为普遍且有效的手段之一是利用人类对模型输出的直接反馈进行调整。
"Retrieval-AugmentedGeneration"(检索增强生成,简称RAG)是一种结合了检索和生成的自然语言处理技术,这种方法主要用于提高语言模型在回答问题、撰写文章等任务中的性能,特别是在需要外部知识或特定信息时。
在RAG任务中,系统首先执行一个检索步骤,从一个大型的文档集合,如维基百科或其他专业数据库等,检索出与输入查询最相关的文档或文档片段,将检索到的文档被用作生成步骤的输入,辅助语言模型生成更准确、更丰富的回答或内容。
且RAG任务在金融领域的应用可以非常广泛和深入,能显著提升信息处理的效率和质量,可以用于金融市场分析与预测,通过检索大量的金融新闻、市场报告和历史交易数据来生成准确的市场分析和趋势预测,在风险评估方面,RAG能够通过分析类似历史案例和市场环境变化来生成全面的风险评估报告,并在合规性检查中通过检索最新法规和历史合规案例来提供合规性建议,在个性化金融建议中结合客户的财务状况和投资偏好来生成定制化建议。
在这方面,OpenAI的InstructGPT项目是一个典型的例子,该项目采用了RLHF(ReinforcementLearning from HumanFeedback)方法,结合了监督学习的准确性和强化学习的适应能力,并通过人类反馈来引导模型学习,训练模型理解并响应人类指令,同时在多轮交互中提升输出质量。
而InstructGPT项目中的RLHF技术利用人工评估校准模型行为,以符合使用者意图,依靠大量的预训练数据和大规模参数配置,在多任务和场景中实现广泛适用性,并监督学习让模型掌握具体任务,而强化学习则通过奖励函数的优化,提升模型基于人类反馈的表现。
虽然RLHF是一种多领域模型训练的有效途径,但在面对如金融行业这样的复杂领域,原始的RLHF方法还是呈现出一定的局限性,如现有开源预训练模型的参数量限制了其理解金融问题高级别复杂性的能力,且随着训练的深入模型需要对特定领域细节有更深刻理解,单一的评估方法无法提供足够的灵活性和深度,同时原始的RLHF缺乏领域特定的有效评估,在金融应用中这一点尤为明显,导致模型在适应性和准确性上未能达到理想状态,此外,原始的RLHF方法在训练奖励模型时使用大量不区分重要性的人工标注数据,所耗费的人力成本巨大,而实际上并不是所有的标注数据在训练过程中都会起到相同重要的作用,在成本受限的条件下,使用原始的RLHF方法,将会造成资源的浪费。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出基于多维度数据评估的金融领域大模型训练方法及系统,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
根据本发明的一个方面,提供了基于多维度数据评估的金融领域大模型训练方法及系统,包括以下步骤:
S1、将金融领域大模型通过监督学习处理历史金融数据,并获取金融领域的核心概念和数据模式;
S2、将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测;
S3、根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组;
S4、将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出。
作为优选方案,根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组包括以下步骤:
S31、根据金融领域大模型评估的关键维度,并对初步预测结果的响应质量进行评估;
S32、对预训练模型进行初始化调整,获取评估模型,并将获取的评估模型进行整合得到评估模型组;
S33、根据专业信息检测结果对评估模型组进行训练,并进行优化输出。
作为优选方案,对预训练模型进行初始化调整,获取评估模型,并将获取的评估模型进行整合得到评估模型组包括以下步骤:
S311、对金融大模型的输出结果进行专业性判断和客观性评判,并对输出结果是否为准确应用专业术语进行判断,再从多元数据源提取关键信息的能力;
S312、对金融大模型的输出结果进行信息抽取准确性判断和关键性评判,并判断输出结果是否可以对财务报表、市场分析和新闻报道内容中的数据和趋势进行精确的识别和解析;
S313、对金融大模型的输出结果进行市场趋势预测合理性判断和风险评估精准性评判,并根据分析输出结果对未来市场变动进行预测、潜在风险识别及捕捉微妙市场信号制定策略的效果;
S314、对金融大模型的输出结果进行客户服务领域合规性评判,并根据输出结果对客户服务领域合规性进行调整。
作为优选方案,根据专业信息检测结果对评估模型组进行训练,并进行优化输出包括以下步骤:
S331、采用预训练大模型,作为评估模型的基底模型,使评估模型具备理解文本信息的能力;
S332、使用评估模型时,将一个全连接层代替预训练大模型的最后一层输出层,并作为评估模型的输出层进行输出;
S333、评估模型的输入为待评估的金融大模型的输出结果,评估模型的输出为一个数值,表示在该评估模型对应的评估维度下输入的评分。
作为优选方案,使用评估模型时,将一个全连接层代替预训练大模型的最后一层输出层,并作为评估模型的输出层进行输出包括以下步骤:
S3321、将指令响应对输入评估模块中的所有评估模型,得到对应维度下评估模型对该指令响应对的评分;
S3322、将指令响应对的指令输入评估模块中的所有评估模型,得到对应维度下评估模型对该指令的评分;
S3323、将指令响应对评分与对应指令的评分进行匹配,其差值作为对应响应的评分,响应评分作为响应的质量评估结果。
作为优选方案,评估模型训练时的损失函数公式为:
;
其中r θ 为待训练评估模型的函数表示;
为sigmoid函数,定义为/>;
(promptresponse)为输入评估模型的指令响应对;
response1为评估下较优的响应;
response2为评估下较差的响应;
为评估模型对指令响应对的评分;
为评估模型对指令响应对的指令的评分。
作为优选方案,将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出包括以下步骤:
S41、根据各维度评估模型对指令响应对和对指令的评分,结合对响应质量响应维度的评估,使用损失函数对评估模型进行训练;
S42、通过评估模型组对金融大模型进行的训练,并预设好坏指标将行为状态评估结果与好坏指标进行比对;
S43、根据实时反馈和外部环境变化的需要,通过评估模型组对金融大模型进行动态调整优化。
作为优选方案,根据各维度评估模型对指令响应对和对指令的评分,结合对响应质量响应维度的评估,使用损失函数对评估模型进行训练包括以下步骤:
S411、将相同指令下未标注的不同响应组成的指令响应对输入待训练的评估模型,得到不同的评分;
S412、根据评估模型的评分进行评估能力判断;
S413、根据评估标注对评估模型进行匹配损失函数,并根据匹配的损失函数对评估模型进行训练。
作为优选方案,根据评估标注对评估模型进行匹配损失函数,并根据匹配的损失函数对评估模型进行训练包括以下步骤:
标注结果对应评估下的响应,而评估模型的评分为评估模型对指令响应对的评分和评估模型对指令响应对的指令的评分,并使用梯度下降法调整模型参数,最小化损失函数进行优化模型。
根据本发明的另一个方面,提供了基于多维度数据评估的金融领域大模型训练系统,该系统包括:
数据获取模块,用于将金融领域大模型通过监督学习处理历史金融数据,并获取金融领域的核心概念和数据模式;
数据预测模块,用于将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测;
多维度分析模块,用于根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组;
模型训练模块,用于将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出。
本发明的有益效果为:
1、本发明通过不断地学习和调整,能够在金融服务的各项任务中做出更合理的预测和决策,提高其在实际应用中的性能,使得金融领域大模型能在多维度评估的指导下,进行有效地学习和进步,从而在金融技术应用中发挥更大的潜力。
2、本发明通过构建和应用多维度评分模型,不仅全面提升了金融领域大模型的整体性能,还加强了金融领域大模型在特定金融任务中的专业适用性,确保模型输出的高质量和行业标准的符合性,使模型能在未来的学习中更加聚焦于提高那些表现不足的领域,从而在金融技术的应用中发挥更大的潜能。
3、本发明通过多维度数据评估金融领域大模型并进行训练,使得金融领域大模型在训练中更准确地理解和处理金融数据的特性,提高了专业性和可靠性,在金融特定任务中展现出优异的性能,满足了高准确性和强适应性的行业需求。
4、本发明通过精确挑选训练数据,提升了评估模型在处理复杂数据时的判别能力,通过分析评分接近的数据对,精准地识别出评估模型在哪些方面缺乏评估能力,从而针对性地进行训练,且训练策略使得模型在处理类似数据时更加高效和准确,极大提高了模型的整体性能和适应性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于多维度数据评估的金融领域大模型训练方法的方法流程图;
图2是根据本发明实施例的基于多维度数据评估的金融领域大模型训练系统的系统框图。
图中:
1、数据获取模块;2、数据预测模块;3、多维度分析模块;4、模型训练模块。
具体实施方式
为下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了基于多维度数据评估的金融领域大模型训练方法及系统。
现结合附图和具体实施方式对本发明进一步说明,根据本发明的一个实施例,如图1所示,根据本发明实施例的基于多维度数据评估的金融领域大模型训练方法,包括以下步骤:
S1、将金融领域大模型通过监督学习处理历史金融数据,并获取金融领域的核心概念和数据模式;
S2、将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测;
S3、根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组;
具体的,根据初步预测结果进行多维度分析,并根据多维度分析结果设置评估模型包括以下步骤:
S31、根据金融领域大模型评估的关键维度,并通过人类专家对初步预测结果的响应质量进行评估;
具体的,根据金融领域大模型评估的关键维度,并通过人类专家对初步预测结果的响应质量进行评估包括以下步骤:
S311、通过人类专家对金融大模型的输出结果进行专业性判断和客观性评判,并对输出结果是否为准确应用专业术语进行判断,再从多元数据源提取关键信息的能力;
具体的,在评估研究报告生成的专业性和客观性方面,特别关注模型能否准确运用专业术语,并从多元数据源中提取和平衡信息,以保证输出内容的行业相关性及观点中立性。
S312、人类专家对金融大模型的输出结果进行信息抽取准确性判断和关键性评判,并判断输出结果是否可以对财务报表、市场分析和新闻报道内容中的数据和趋势进行精确的识别和解析;
S313、人类专家对金融大模型的输出结果进行市场趋势预测合理性判断和风险评估精准性评判,并根据分析输出结果对未来市场变动进行预测、潜在风险识别及捕捉微妙市场信号制定策略的效果;
具体的,在信息抽取的准确性方面,将模型对复杂金融文档中关键信息抽取能力进行验证,重点是对财务报表、市场分析和新闻报道内容中的数据点和趋势进行精确识别和解析;
S314、人类专家对金融大模型的输出结果进行客户服务领域合规性评判,并根据输出结果对客户服务领域合规性进行调整。
具体的,在市场趋势的预测能力和风险评估的精准性方面,评估机制会严格审视模型对未来市场变动的预测准确度和潜在风险的识别能力,特别是模型捕捉微妙市场信号并据此制定策略的效能。
S32、对预训练模型进行初始化调整,获取评估模型,并将获取的评估模型进行整合得到评估模型组;
S33、根据专业信息检测结果对评估模型组进行训练,并进行优化输出。
具体的,根据专业信息检测结果对多维度评估模型进行训练,并进行优化输出包括以下步骤:
S331、采用预训练大模型,作为评估模型的基底模型,使评估模型具备理解文本信息的能力;
具体的,预训练模型在预训练阶段使用了海量的文本数据,且数据涵盖了广泛的主题和领域,使得模型能够学习到大量的事实、概念和知识,故使用预训练模型作为基底的评估模型具备理解文本信息的能力。
S332、使用评估模型时,将一个全连接层代替预训练大模型的最后一层输出层,并作为评估模型的输出层进行输出;
具体的,对信息抽取结果进行趋势预测,并附加全连接层进行因果模型训练包括以下步骤:
S3321、将指令响应对输入评估模块中的所有评估模型,得到对应维度下评估模型对该指令响应对的评分;
S3322、将指令响应对的指令输入评估模块中的所有评估模型,得到对应维度下评估模型对该指令的评分;
S3323、将指令响应对评分与对应指令的评分进行匹配,其差值作为对应响应的评分,响应评分作为响应的质量评估结果。
具体的,将奖励得分与指令评分进行匹配进行响应质量评估的评估公式为:
;
其中r θ 为待训练评估模型的函数表示;
为sigmoid函数,定义为/>;
(promptresponse)为输入评估模型的指令响应对;
response1为人类专家评估下较优的响应;
response2为人类专家评估下较差的响应;
为评估模型对指令响应对的评分;
为评估模型对指令响应对的指令的评分。
而指令响应评估的分数和指令本身的评分之差将体现响应的优劣,过对指令响应对和对应的指令在某维度评估模型上的评分之差,得到指令响应对中的响应的评分。根据此评分结合人类专家的判断,训练该维度评估模型的评估能力。经过适量的训练过程后,评估模型具备人类专家的评估能力,可以辨别响应质量的优劣,并据此调整Actor模型的行为,以在未来的训练迭代在中得到评分高的决策。
具体的,多维度评估主要聚焦于精细评估奖励分析模型在金融服务关键维度的表现,而多维度评估由多个评估模型构成,分别专注于不同的性能维度,通过选择更优的指令响应数据,调整评估模型,通过使用近端策略优化方法,优化决策策略,并根据实时反馈和市场环境变化调整奖励函数,适应市场变化并生成相应策略,再通过多维度评估和强化学习来提升金融服务模型性能的框架,提升奖励分析模型的整体性能,还确保了模型输出的高质量和行业标准的符合性,使得奖励分析模型在金融技术应用中具有更大的潜力和适应性。
具体的,首先采用一个生成预训练模型作为基础,通过深入理解金融领域的因果关系来提升信息抽取和趋势预测的能力,然后在此模型之上附加一个全连接层,这一层将作为评估模型的输出层,负责根据预先设定的奖励函数对模型的行为进行评估和反馈。
S4、将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出。
具体的,将多维度分析结果代入奖励分析模型进行模型训练,并对训练完成后的奖励分析模型调校优化包括以下步骤:
S41、根据各维度评估模型对指令响应对和对指令的评分,结合人类专家对响应质量的响应维度的评估,使用损失函数对评估模型进行训练;
具体的,运用近端策略优化的强化学习方法,通过细致地评价和反馈主模型的行为来指导其学习过程,在奖励分析模型中接受指令并生成响应,响应随后进行多维度评估评分,且每个维度的评分不仅考量当前的输出质量,如当模型生成一个市场分析研究报告时,评估从专业度、客观性、信息的准确性等多个角度对其进行评分,而评分结果反映了模型当前输出的质量,并通过评估转化为对未来行为的预测价值。
具体的,根据各维度评估模型对指令响应对和对指令的评分,结合人类专家对响应质量的响应维度的评估,使用损失函数对评估模型进行训练包括以下步骤:
S411、将相同指令下不同响应组成的指令响应对输入待训练的评估模型,得到不同的评分;
S412、根据评估模型的评分进行评估能力判断;
具体的,挑选评估模型的评分之差前50%的响应,并由人类专家进行标注。
S413、根据评估标注对评估模型进行匹配损失函数,并根据匹配的损失函数对评估模型进行训练。
具体的,根据评估标注对评估模型进行匹配损失函数,并根据匹配的损失函数对评估模型进行训练包括以下步骤:
人类专家的标注结果对应人类专家评估下较优的响应和人类专家评估下较差的响应,而评估模型的评分为评估模型对指令响应对的评分和评估模型对指令响应对的指令的评分,并使用梯度下降法调整模型参数,最小化损失函数进行优化模型。
S42、通过评估模型组对金融大模型进行的训练,并预设好坏指标将行为状态评估结果与好坏指标进行比对;
评估模型估计Actor模型每个输出的评分,根据评分高低评价输出质量,引导Actor模型在未来做出更高质量的决策,通过这种方式不断调整Actor模型的策略,以期在各项金融任务上实现最佳的表现。
S43、根据实时反馈和外部环境变化的需要,通过评估模型组对金融大模型进行动态调整优化。
具体的,如果市场出现新的变化,奖励分析模型需要迅速适应这些变化并生成相应的策略,在这种情况下,评估机制会相应调整,以促进模型生成更适应当前市场条件的预测和决策,在训练过程中,评估模型将通过与多维度评估的交互,不断接收到来自不同业务场景的反馈,这些反馈信息将被用来更新评估模型,使评估模型在每一次迭代中都能更好地对准业务目标和风险参数,评估模型通过这种方式进行训练,不仅可以在不断变化的市场环境中保持其预测和策略的相关性和精确性,而且还能在保持数据安全性和模型公平性的前提下,优化其决策过程。
具体的,强化学习的核心算法为近端策略优化算法,在中执行多次迭代来收集数据,且包括将指令响应数据传入生成的logits和reward,且Logtis为Actor模型生成对应响应的概率分布,reward为评估模型的评分,随后算法调整评估模型以更偏向于选择带来更高回报的动作,同时通过限制更新幅度来保持学习的稳定性。
根据本发明另一个实施例,如图2所示基于多维度数据评估的金融领域大模型训练系统,该系统包括:
数据获取模块1,用于将金融领域大模型通过监督学习处理历史金融数据,并获取金融领域的核心概念和数据模式;
数据预测模块2,用于将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测;
多维度分析模块3,用于根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组;
模型训练模块4,用于将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出。
具体的,在使用多维度数据评估的金融领域大模型训练框架下,首先需要采集涉及获取金融领域的文献及相关问题,作为奖励分析模型的输入。随后,该过程涉及以下几个关键步骤:
文档和问题被输入到奖励分析模型中,奖励分析模型经过推理处理,产生多样化的答案,再由金融领域专家从多个维度对生成的答案进行评估,其结果被用作训练数据,输入到不同的奖励分析模型中进行训练,训练完善的评估模型能够独立完成对回答质量的评分,通过应用强化学习方法,对奖励分析模型进行调整,以使其更倾向于产生评分较高的答案,而在奖励分析模型的后期应用中,若发现在某些方面存在不足,可以通过相应的奖励分析模型进行持续调整,以实现长期的在线学习目标,训练过程的细致设计和迭代执行。
综上所述,借助于本发明的上述技术方案,本发明通过不断地学习和调整,能够在金融服务的各项任务中做出更合理的预测和决策,提高其在实际应用中的性能,使得金融领域大模型能在多维度评估的指导下,进行有效地学习和进步,从而在金融技术应用中发挥更大的潜力。
此外,本发明通过构建和应用多维度评分模型,不仅全面提升了金融领域大模型的整体性能,还加强了金融领域大模型在特定金融任务中的专业适用性,确保模型输出的高质量和行业标准的符合性,使模型能在未来的学习中更加聚焦于提高那些表现不足的领域,从而在金融技术的应用中发挥更大的潜能。
此外,本发明通过多维度数据评估金融领域大模型并进行训练,使得金融领域大模型在训练中更准确地理解和处理金融数据的特性,提高了专业性和可靠性,在金融特定任务中展现出优异的性能,满足了高准确性和强适应性的行业需求。
此外,本发明通过精确挑选训练数据,提升了评估模型在处理复杂数据时的判别能力,通过分析评分接近的数据对,精准地识别出评估模型在哪些方面缺乏评估能力,从而针对性地进行训练,且训练策略使得模型在处理类似数据时更加高效和准确,极大提高了模型的整体性能和适应性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于多维度数据评估的金融领域大模型训练方法,其特征在于,包括以下步骤:
S1、将金融领域大模型通过监督学习处理历史金融数据,并获取金融领域的核心概念和数据模式;
S2、将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测;
S3、根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组;
S4、将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出。
2.根据权利要求1所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组包括以下步骤:
S31、根据金融领域大模型评估的关键维度,并对初步预测结果的响应质量进行评估;
S32、对预训练模型进行初始化调整,获取评估模型,并将获取的评估模型进行整合得到评估模型组;
S33、根据专业信息检测结果对评估模型组进行训练,并进行优化输出。
3.根据权利要求2所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述根据金融领域大模型评估的关键维度,并对初步预测结果的响应质量进行评估包括以下步骤:
S311、对金融大模型的输出结果进行专业性判断和客观性评判,并对输出结果是否为准确应用专业术语进行判断,再从多元数据源提取关键信息的能力;
S312、对金融大模型的输出结果进行信息抽取准确性判断和关键性评判,并判断输出结果是否可以对财务报表、市场分析和新闻报道内容中的数据和趋势进行精确的识别和解析;
S313、对金融大模型的输出结果进行市场趋势预测合理性判断和风险评估精准性评判,并根据分析输出结果对未来市场变动进行预测、潜在风险识别及捕捉微妙市场信号制定策略的效果;
S314、对金融大模型的输出结果进行客户服务领域合规性评判,并根据输出结果对客户服务领域合规性进行调整。
4.根据权利要求2所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述根据专业信息检测结果对评估模型组进行训练,并进行优化输出包括以下步骤:
S331、采用预训练大模型,作为评估模型的基底模型,使评估模型具备理解文本信息的能力;
S332、使用评估模型时,将一个全连接层代替预训练大模型的最后一层输出层,并作为评估模型的输出层进行输出;
S333、评估模型的输入为待评估的金融大模型的输出结果,评估模型的输出为一个数值,表示在该评估模型对应的评估维度下输入的评分。
5.根据权利要求4所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述使用评估模型时,将一个全连接层代替预训练大模型的最后一层输出层,并作为评估模型的输出层进行输出包括以下步骤:
S3321、将指令响应对输入评估模块中的所有评估模型,得到对应维度下评估模型对该指令响应对的评分;
S3322、将指令响应对的指令输入评估模块中的所有评估模型,得到对应维度下评估模型对该指令的评分;
S3323、将指令响应对评分与对应指令的评分进行匹配,其差值作为对应响应的评分,响应评分作为响应的质量评估结果。
6.根据权利要求5所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述评估模型训练时的损失函数公式为:
;
其中r θ 为待训练评估模型的函数表示;
为sigmoid函数,定义为/>;
(promptresponse)为输入评估模型的指令响应对;
response1为评估下较优的响应;
response2为评估下较差的响应;
为评估模型对指令响应对的评分;
为评估模型对指令响应对的指令的评分。
7.根据权利要求1所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出包括以下步骤:
S41、根据各维度评估模型对指令响应对和对指令的评分,结合对响应质量响应维度的评估,使用损失函数对评估模型进行训练;
S42、通过评估模型组挑选评分高的指令响应对使用近端策略优化算法对金融大模型进行训练;
S43、根据实时反馈和外部环境变化的需要,通过评估模型组对金融大模型进行动态调整优化。
8.根据权利要求7所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述根据各维度评估模型对指令响应对和对指令的评分,结合对响应质量响应维度的评估,使用损失函数对评估模型进行训练包括以下步骤:
S411、将相同指令下未标注的不同响应组成的指令响应对输入待训练的评估模型,得到不同的评分;
S412、根据评估模型的评分进行评估能力判断;
S413、根据评估标注对评估模型进行匹配损失函数,并根据匹配的损失函数对评估模型进行训练。
9.根据权利要求8所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,所述根据评估标注对评估模型进行匹配损失函数,并根据匹配的损失函数对评估模型进行训练包括以下步骤:
标注结果对应评估下的响应,而评估模型的评分为评估模型对指令响应对的评分和评估模型对指令响应对的指令的评分,并使用梯度下降法调整模型参数,最小化损失函数进行优化模型。
10.基于多维度数据评估的金融领域大模型训练系统,用于实现权利要求1-9中任一项所述的基于多维度数据评估的金融领域大模型训练方法,其特征在于,该系统包括:
数据获取模块,用于将金融领域大模型通过监督学习处理历史金融数据,并获取金融领域的核心概念和数据模式;
数据预测模块,用于将获取金融领域的核心概念和数据模式后的金融领域大模型进行初步预测;
多维度分析模块,用于根据初步预测结果进行多维度分析,并根据多维度分析结果设置多个由评估模型构成的评估模型组;
模型训练模块,用于将多维度分析结果代入评估模型组进行模型训练,并对训练完成后的评估模型组调校优化,作为奖励分析模型输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410297532.XA CN117952185A (zh) | 2024-03-15 | 2024-03-15 | 基于多维度数据评估的金融领域大模型训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410297532.XA CN117952185A (zh) | 2024-03-15 | 2024-03-15 | 基于多维度数据评估的金融领域大模型训练方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117952185A true CN117952185A (zh) | 2024-04-30 |
Family
ID=90805374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410297532.XA Pending CN117952185A (zh) | 2024-03-15 | 2024-03-15 | 基于多维度数据评估的金融领域大模型训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117952185A (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6859788B1 (en) * | 1998-12-10 | 2005-02-22 | Finametrica Limited | Automated assessment of personal financial risk tolerance |
US20110065074A1 (en) * | 2009-09-16 | 2011-03-17 | Duffy Charles J | Method and system for quantitative assessment of verbal memory |
US20170169501A1 (en) * | 2015-12-14 | 2017-06-15 | Essilor International (Compagnie Générale d'Optique) | Method and system for evaluating fitness between wearer and eyeglasses |
CN110322060A (zh) * | 2019-06-26 | 2019-10-11 | 复旦大学 | 基于深度强化学习的金融市场最优交易方法 |
CN111563662A (zh) * | 2020-04-16 | 2020-08-21 | 南京邮电大学 | 基于分时间窗深度强化学习的服务质量评估系统及方法 |
CN111583018A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 一种基于用户金融表现分析的授信策略管理方法、装置和电子设备 |
WO2021208720A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 基于强化学习的业务分配方法、装置、设备及存储介质 |
US20220215467A1 (en) * | 2021-01-06 | 2022-07-07 | Capital One Services, Llc | Systems and methods for determining financial security risks using self-supervised natural language extraction |
WO2022161470A1 (zh) * | 2021-01-29 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 内容的评价方法、装置、设备及介质 |
CN115640410A (zh) * | 2022-12-06 | 2023-01-24 | 南京航空航天大学 | 基于强化学习路径推理的知识图谱多跳问答方法 |
CN115905691A (zh) * | 2022-11-11 | 2023-04-04 | 云南师范大学 | 一种基于深度强化学习的偏好感知推荐方法 |
CN116501843A (zh) * | 2023-02-21 | 2023-07-28 | 清华大学 | 一种面向人类偏好的高效网络检索增强回答方法及系统 |
WO2023155460A1 (zh) * | 2022-02-16 | 2023-08-24 | 南京邮电大学 | 一种基于强化学习的情绪化图像描述方法及系统 |
CN116681078A (zh) * | 2023-05-06 | 2023-09-01 | 浙江华巽科技有限公司 | 一种基于强化学习的关键词生成方法 |
CN116796765A (zh) * | 2023-07-13 | 2023-09-22 | 沈阳雅译网络技术有限公司 | 一种用于机器翻译的从大语言模型学习的评估方法 |
CN117095827A (zh) * | 2023-08-15 | 2023-11-21 | 中国科学技术大学 | 麻醉大模型训练方法和设备 |
CN117172210A (zh) * | 2023-10-14 | 2023-12-05 | 上海极目银河数字科技有限公司 | 一种异步混合rlhf标注方法及装置、存储介质及电子装置 |
CN117391216A (zh) * | 2023-09-17 | 2024-01-12 | 复旦大学 | 大规模语言模型自适应提示增强方法 |
US20240037585A1 (en) * | 2022-07-27 | 2024-02-01 | Truist Bank | Using machine learning model to automatically predict updated assessment score |
-
2024
- 2024-03-15 CN CN202410297532.XA patent/CN117952185A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6859788B1 (en) * | 1998-12-10 | 2005-02-22 | Finametrica Limited | Automated assessment of personal financial risk tolerance |
US20110065074A1 (en) * | 2009-09-16 | 2011-03-17 | Duffy Charles J | Method and system for quantitative assessment of verbal memory |
US20170169501A1 (en) * | 2015-12-14 | 2017-06-15 | Essilor International (Compagnie Générale d'Optique) | Method and system for evaluating fitness between wearer and eyeglasses |
CN110322060A (zh) * | 2019-06-26 | 2019-10-11 | 复旦大学 | 基于深度强化学习的金融市场最优交易方法 |
CN111583018A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 一种基于用户金融表现分析的授信策略管理方法、装置和电子设备 |
CN111563662A (zh) * | 2020-04-16 | 2020-08-21 | 南京邮电大学 | 基于分时间窗深度强化学习的服务质量评估系统及方法 |
WO2021208720A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 基于强化学习的业务分配方法、装置、设备及存储介质 |
US20220215467A1 (en) * | 2021-01-06 | 2022-07-07 | Capital One Services, Llc | Systems and methods for determining financial security risks using self-supervised natural language extraction |
WO2022161470A1 (zh) * | 2021-01-29 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 内容的评价方法、装置、设备及介质 |
WO2023155460A1 (zh) * | 2022-02-16 | 2023-08-24 | 南京邮电大学 | 一种基于强化学习的情绪化图像描述方法及系统 |
US20240037585A1 (en) * | 2022-07-27 | 2024-02-01 | Truist Bank | Using machine learning model to automatically predict updated assessment score |
CN115905691A (zh) * | 2022-11-11 | 2023-04-04 | 云南师范大学 | 一种基于深度强化学习的偏好感知推荐方法 |
CN115640410A (zh) * | 2022-12-06 | 2023-01-24 | 南京航空航天大学 | 基于强化学习路径推理的知识图谱多跳问答方法 |
CN116501843A (zh) * | 2023-02-21 | 2023-07-28 | 清华大学 | 一种面向人类偏好的高效网络检索增强回答方法及系统 |
CN116681078A (zh) * | 2023-05-06 | 2023-09-01 | 浙江华巽科技有限公司 | 一种基于强化学习的关键词生成方法 |
CN116796765A (zh) * | 2023-07-13 | 2023-09-22 | 沈阳雅译网络技术有限公司 | 一种用于机器翻译的从大语言模型学习的评估方法 |
CN117095827A (zh) * | 2023-08-15 | 2023-11-21 | 中国科学技术大学 | 麻醉大模型训练方法和设备 |
CN117391216A (zh) * | 2023-09-17 | 2024-01-12 | 复旦大学 | 大规模语言模型自适应提示增强方法 |
CN117172210A (zh) * | 2023-10-14 | 2023-12-05 | 上海极目银河数字科技有限公司 | 一种异步混合rlhf标注方法及装置、存储介质及电子装置 |
Non-Patent Citations (3)
Title |
---|
ARASH AHMADIAN 等: "Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs", 《ARXIV.ORG》, 26 February 2024 (2024-02-26), pages 1 - 28 * |
张旭中;翟道远;陈俊;: "基于深度强化学习的木材缺陷图像重构及质量评价模型研究", 湖北农业科学, no. 13, 10 July 2020 (2020-07-10), pages 142 - 147 * |
陶建华 等: "语言大模型的演进与启示", 《中国科学基金 》, vol. 37, no. 05, 31 October 2023 (2023-10-31), pages 767 - 775 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508334A (zh) | 融合认知特性及试题文本信息的个性化组卷方法及系统 | |
CN112836025A (zh) | 一种意图识别方法及装置 | |
CN116644167A (zh) | 目标答案的生成方法和装置、存储介质及电子装置 | |
CN116484042A (zh) | 一种结合自相关与交互引导式注意力机制的视觉问答方法 | |
CN117235233B (zh) | 一种基于大模型的财报自动化问答方法和装置 | |
CN117688158A (zh) | 奖励模型的训练方法、答案评价方法、装置和设备 | |
CN116842263A (zh) | 一种智能问答式理财顾问模型的训练处理方法及装置 | |
CN117438047A (zh) | 心理咨询模型训练和心理咨询处理方法、装置及电子设备 | |
CN111523604A (zh) | 一种用户分类的方法和相关装置 | |
CN117952185A (zh) | 基于多维度数据评估的金融领域大模型训练方法及系统 | |
CN107506461A (zh) | 一种关于影视剧本的智能分析与风险评估的方法 | |
CN118035711B (zh) | 一种针对大模型内容安全能力的评测方法及系统 | |
CN117056519B (zh) | 面向跨领域的立法意见综合报告自动生成方法 | |
CN116523225B (zh) | 一种基于数据挖掘的翻转课堂混合教学方法 | |
CN111538843B (zh) | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 | |
CN116955642A (zh) | 一种基于深度强化学习的知识图谱构建方法 | |
CN115640377A (zh) | 报告问答方法、系统及存储介质 | |
CN117669726A (zh) | 自然语言问题处理方法、电子设备及计算机可读存储介质 | |
CN117972044A (zh) | 基于知识增强的视觉问答方法及平台 | |
CN115034804A (zh) | 运营商营业厅场景下风控数据模型的构建及应用方法 | |
CN117909477A (zh) | 一种基于情感分析的工商政务对话管理方法和系统 | |
CN117436825A (zh) | 一种智能面试方法、装置、设备和计算机存储介质 | |
CN117493689A (zh) | 一种基于知识图谱的自适应学习方法及系统 | |
Aymerich Moreno | Integration of trained AI models as a decision support system for age rating | |
Lauha | Improving Template-Based Bird Sound Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |