CN117290819A - 一种模型训练系统、方法及计算设备 - Google Patents

一种模型训练系统、方法及计算设备 Download PDF

Info

Publication number
CN117290819A
CN117290819A CN202210689789.0A CN202210689789A CN117290819A CN 117290819 A CN117290819 A CN 117290819A CN 202210689789 A CN202210689789 A CN 202210689789A CN 117290819 A CN117290819 A CN 117290819A
Authority
CN
China
Prior art keywords
data
model
target
module
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210689789.0A
Other languages
English (en)
Inventor
李哲宇
罗玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to CN202210689789.0A priority Critical patent/CN117290819A/zh
Publication of CN117290819A publication Critical patent/CN117290819A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种模型训练系统,包括:参数配置器,用于基于参数配置文件输出参数字典;数据读取器,用于基于参数字典中的数据类型,读取多种类型的目标数据,并将读取的数据组合成目标格式的数据;模型库,用于基于参数字典中的模型配置参数,输出待训练的模型;训练器,用于基于参数字典中的数据集的划分范围,从目标格式的数据中获取到训练数据,基于训练数据,对待训练的模型进行训练;推理器,用于基于参数字典中的数据集的划分范围,从目标格式的数据中获取到测试数据,基于测试数据对训练得到的模型进行测试,输出测试结果;评估器,用于对测试结果进行评估。由此通过目标格式的数据每个模块均可以独立运行,降低了各个模块间的数据依赖性。

Description

一种模型训练系统、方法及计算设备
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,尤其涉及一种模型训练系统、方法及计算设备。
背景技术
金融量化分析(financial quantative analysis)主要是指利用数学和统计建模、测量和研究理解金融事件的模式与行为,并对此进行数学建模替代人为的主观判断,以及,利用计算机技术从庞大的历史收据当中选出能够带来超额手的“大概率”事件并以此来制定策略。
目前,金融量化分析主要涉及基础数据抓取及处理、量化交易策略编写及回测、实盘程序化交易、衍生品定价、机器学习、高频交易等模块的内容。如果能够采用深度神经网络等AI技术完成金融量化分析,则可以大幅提升金融量化分析效率。但将深度学习应用在金融量化分析领域具有较高的技术门槛,每一个量化金融分析师都面临着“金融”、“编程”、“建模”的三个壁垒,从量化理论到实践再到结果分析,每一步都需要大量的技术、行业积累与学习。
发明内容
本申请提供了一种模型训练系统、方法、计算设备、计算设备集群、计算机存储介质、计算机产品及芯片,能够降低进入量化分析的技术门槛,提升金融量化分析的效率。
第一方面,本申请提供一种模型训练系统,包括:参数配置器、数据读取器、模型库、训练器、推理器和评估器。其中,参数配置器用于基于参数配置文件,输出参数字典,参数字典中包括:所需分析的数据的数据类型,数据集的划分范围,和,模型配置参数。数据读取器用于获取参数字典,以及基于数据类型,读取多种类型的目标数据,并将多种类型的目标数据组合成目标格式的数据。模型库用于获取参数字典,以及基于模型配置参数,输出待训练的模型。训练器用于获取参数字典和目标格式的数据,以及基于数据集的划分范围,从目标格式的数据中获取到训练数据,并基于训练数据,对待训练的模型进行训练,以得到目标模型。推理器用于获取参数字典和目标格式的数据,以及基于数据集的划分范围,从目标格式的数据中获取到测试数据,并基于测试数据,对目标模型进行测试,以输出测试结果。评估器,用于对测试结果进行评估,以输出评估结果。
由此,将所需的数据构建成目标格式的数据,使得在后续的流程中,每个模块均可以依据它们各自的配置参数和由数据读取模块输出的目标格式的数据运行,降低了各个模块间的数据的依赖性,从而使得系统中的各个模块均相互独立且数据间不具备依赖性。这样,用户可任意对单个模块进行继承或修改,无需关注其他模块,即可完成整个AI工作流的构建与分析。另外,当用户需要处理更复杂的分析需求时,用户只需要自定义对应接口统一的模块,将其对象化并串联至工作流中,即可完成定制工作流的构建。在该过程中,用户无需关注或修改其他模块,因此极大提高了系统的可扩展性。
在一种可能的实现方式中,数据读取器,具体用于:并行读取多种类型的目标数据,并将不同类型的数据存放至不同的缓存区;并行从不同的缓存区中读取数据,并将读取到的数据组合成目标格式的数据。由此以实现多种类数据的高并发读取,大幅提高了数据读取速度,进而通过缓存机制达到低内存,处理高频数据的效果。其中,目标数据可以为用于描述金融资产的结构化数据。
在一种可能的实现方式中,目标格式的数据中包括:第一数据列至第N数据列,N≥2,以及标签列。其中,第一数据列用于放置第一种类型的数据,第N数据列用于放置第N种类型的数据,标签列用于放置各个数据对应的标签。
在一种可能的实现方式中,模型库还用于:响应于针对模型库中多个算子的组合指令,输出由多个算子组合形成的模型;或者,响应于针对模型库中第一模型的修改指令,输出修改后的第一模型。由此,使得用户可以自行定义模型,或者,对模型进行修改,增加系统的可扩展性,提升用户体验。
第二方面,本申请提供一种模型训练方法,该方法包括:基于参数配置文件,输出参数字典,参数字典中包括:所需分析的数据的数据类型,数据集的划分范围,和,模型配置参数;基于参数字典中的数据类型,读取多种类型的目标数据,并将多种类型的目标数据组合成目标格式的数据;基于参数字典中数据集的划分范围,从目标格式的数据中分别获取到训练数据和测试数据;基于训练数据,对待训练的模型进行训练,以得到目标模型,待训练的模型基于参数字典中的模型配置参数得到;基于测试数据,对目标模型进行测试,以得到测试结果;对测试结果进行评估,并输出评估结果。
在一种可能的实现方式中,基于参数字典中的数据类型,读取多种类型的目标数据,并将多种类型的目标数据组合成目标格式的数据,具体包括:并行读取多种类型的目标数据,以及,将不同类型的数据存放至不同的缓存区;并行从不同的缓存区中读取数据,以及,将读取到的数据组合成目标格式的数据。其中,目标数据为用于描述金融资产的结构化数据。
在一种可能的实现方式中,目标格式的数据中包括:第一数据列至第N数据列,N≥2,以及标签列;其中,第一数据列用于放置第一种类型的数据,第N数据列用于放置第N种类型的数据,标签列用于放置各个数据对应的标签。
在一种可能的实现方式中,该方法还包括:响应于针对模型库中多个算子的组合指令,输出由多个算子组合形成的模型,以及将由多个算子组合形成的模型作为待训练的模型;或者,响应于针对模型库中第一模型的修改指令,输出修改后的第一模型,以及将修改后的第一模型作为待训练的模型。
第三方面,本申请提供一种计算设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序;其中,当存储器存储的程序被执行时,处理器用于执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
第四方面,本申请提供一种计算设备集群,包括至少一个计算设备,每个计算设备均包括处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
第五方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
第六方面,本申请提供一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行第二方面或第二方面的任一种可能的实现方式所描述的方法。
可以理解的是,上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
图1是本申请实施例提供的一种模型训练系统的示意图;
图2是本申请实施例提供的另一种模型训练系统的示意图;
图3是图2中所示的数据读取模块的工作过程示意图;
图4是本申请实施例提供的一种模型训练方法的示意图;
图5是本申请实施例提供的一种模型训练装置的结构示意图;
图6是本申请实施例提供的一种计算设备的结构示意图;
图7是本申请实施例提供的一种计算设备集群的结构示意图。
具体实施方式
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
首先,对本申请中涉及的技术术语进行介绍。
(1)量化交易(quantitative trading)
量化交易是指借助现代统计学和数学的方法,利用计算机技术来进行交易的证券投资方式。量化交易可以从庞大的历史数据中海选出能带来超额收益的多种“大概率”事件,以制定策略,并可以用数量模型验证及固化这些规律和策略,然后严格执行已固化的策略来指导投资,以求获得可以持续的、稳定且高于平均收益的超额回报。
(2)截面数据
截面数据是不同主体在同一时间点的数据,即在某一个时间点上所有样本数据集构成的数据。例如,某一天市场中所有股票的开盘价、收盘价、最高价、最低价等。
(3)时间序列数据
时间序列数据(以下简称“时序数据”)是在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度,其可以是一种带有时间先后顺序信息的数据,例如,某支股票在某一时间区间内每一天的涨跌幅等。
(4)图关系数据
图关系数据是指不同主体之间关联关系的数据。例如,N个主体属于同一行业,这N个主体可以组成一个(N*N)且数值为0或1的矩阵,0代表两个主体无关联(即不属于同一行业),1代表两个主体间有关联(即属于同一行业)。
接着,对本申请涉及的技术方案进行介绍。
一般的,在构建金融量化分析所需的神经网络模型时,如图1所示,可以基于不同的业务,先使用参数配置器110分别配置数据模块120和深度学习模块130所需的参数。比如,数据模块120所需获取的数据类型,深度学习模块130需要构建的模型的初始参数等等。接着,可以通过数据模块120获取到所需的业务数据,比如:某个业务的截面数据、时序数据等。然后,在由数据模块120将业务数据输入至深度学习模块130中。深度学习模块130可以通过其内的模型模块构建出与业务适配的模型,并通过训练模块,以及结合数据模块120输入的数据对构建出的模型进行训练,从而得到与业务适配的模型。最后,深度学习模块130可以通过其内的推理与评估模块对训练得到的模型进行评估。这种方式虽然能够获取到业务适配的模型,但其模型构建阶段、训练阶段和评估阶段均是由深度学习模块130执行,这使得这三个阶段高度耦合,进而导致用户为实现某一类型任务或传递新数据时,往往需要更改整个深度学习模块130中的配置,极大增加了任务构建的难度,使得整体构建成本高,易用性变差。另外,其也缺少对多类量化数据的支撑,如图关系数据的支撑,而在量化分析中,各股票之间的关系可以作为一个重要的因素用来指导预测信号。同时,往往需要将全部数据一次性加载到内存后再进行后续处理与训练,这种方式具有高内存消耗,无法应用在高频量化数据的分析场景中。
总体来说,量化分析的场景是复杂多样的,而构建完整的AI分析流程具有较高的门槛与构建成本,要求用户同时具备“量化”、“AI”、“建模”等多领域的行业或技术知识。因此对于构建AI分析工作流的易用性也提出了巨大的挑战。一方面,量化分析场景的数据种类多,不仅包括常见量价的时序数据,截面数据,还包括行业图、产业链图数据等等。对于不同类型的数据,往往每一类数据都需要对应一套数据读取方法与模型库,因此难以同时支持模型对多类数据的同时使用。另一方面,量化分析场景通常的数据集跨度时间长,因子数量多,数据频次高,这使得整体数据量较大,而普通的数据读取方法均为一次性读取到内存,读取方法速度慢,且内存消耗大。因此对于数据读取方法的内存消耗与读取性能要求极高。
有鉴于此,本申请实施例提供了一种适配金融量化分析场景的AI模型训练与分析系统,该系统支持易用性和扩展性强的AI构建与分析工作流。另外,其不仅提供了同时对多类金融数据的支持,还提供了高效率的数据读取方法。
示例性的,图2示出了本申请实施例提供的一种适配金融量化分析场景的AI分析系统。如图2所示,该系统主要包括:工作流构建模块210,参数配置模块220,数据读取模块230,模型库模块240,训练模块250,推理模块260,和评估模块270。
其中,工作流构建模块210主要是提供AI构建与分析的工作流功能。将该模块对象化可以形成一个管道对象。同时,在将其他模块进行对象化后,通过该管道可以将其他模块对象串联,以形成分析工作流。其中,每个模块对象均为解耦式,即各个模块对象间不相互依赖。该分析工作流获取用户配置的参数文件和自定义模块,通过该工作流分析,输出评估指标。
参数配置模块220主要提供参数配置功能与参数解析功能。通过该模块可以用户输入参数配置文件。另外,通过参数配置模块也可以对用户输入的参数配置文件进行解析和配置,以及输出其他的各个模块可应用的参数字典。其中,参数字典可以理解各个模块所需的参数的集合。其中,将该模块对象化后可以形成一个参数配置器。
数据读取模块230可以读取到由参数配置模块220输出的参数字典,以及,基于参数字典中与其相关的参数,获知到其所需读取的数据的类型等。另外,数据读取模块230还可以从硬盘中读取用户在参数配置模块220中配置的所需的数据,并对读取到的数据进行处理,以及,输出目标格式的数据。其中,目标格式的数据可以理解为是将多种不同类型的数据进行组合所得到的数据。由于目标格式的数据是将多种不同类型的数据进行整合得到,因此,在后续的工作流中每个模块均可以利用这一目标格式的数据对模型进行训练分析等,由此以实现后续模型构建和训练的可扩展性。示例性的,目标格式的数据可以为FinData。其中,将该模块对象化后可以形成一个数据读取器。示例性的,数据读取模块230读取到的数据可以为用于描述金融资产的结构化数据。其中,结构化数据可以是指可以使用关系型数据库表示和存储,并可以用二维表来逻辑表达实现的数据。结构化数据可以以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的,并存储在数据库中。
在一些实施例中,数据读取模块230可以通过两个阶段输出目标格式的数据。其中,在第一阶段,数据读取模块230可以先从内存中并行读取多个不同类型的数据,比如:截面数据,时序数据,图关系等其他结构化数据等,以及将不同类型的数据分别置于不同的缓存区中。然后,在第二阶段,数据读取模块230可以基于目标格式,从各个缓存区中将不同的数据取出,并整合形成目标格式的数据。示例性的,目标格式的数据可以如表1所示,截面数据列所属的一列可以放置截面数据;图关系数据列所属的一列可以放置图关系数据,比如:行业链的图关系等;标签列所属的一列可以放置各个数据对应的标签;其他信息列所属的一列可以放置其他的数据,比如时序信息、日期、主体标识(比如股票代码等)等等。当然,表1中的各列也可以替换为其他的数据列,替换后的方案仍在本申请的保护范围内。
表1
截面数据列 图关系数据列 标签列 其他信息列
可以理解的是,在第一阶段和第二阶段,数据读取模块230均可以通过并行读取多种类数据,由此以实现多种类数据的高并发读取,大幅提高了数据读取速度,进而通过缓存机制达到低内存,处理高频数据的效果。
示例性的,图3示出了数据读取模块的工作过程。如图3所示,数据读取模块230可以包括多头数据并行读取器、截面指针、序列滚动器和图结构过滤器。其中,在第一阶段,多头数据读取器可以根据参数字典中配置的数据类型分配不同的“数据读取头”,每种“数据读取头”均并行化从硬盘(即图中所示的Disk)中读取相应的数据到缓存区(即图中所示的Memory)。在第二阶段,针对不同类型的数据缓存区,截面指针、序列滚动器和/或图结构过滤器可以并行将缓存区中的数据取出,并最终整合形成通用的目标格式的数据,即FinData。
模型库模块240主要用于提供丰富的AI模型与算法,比如,其可以提供深度学习神经网络模型、机器学习模型、图神经网络模型等等。另外,模型库模块240可以读取到由参数配置模块220输出的参数字典,以及,基于参数字典中与其相关的模型参数,输出待训练的模型对象,以对该模型对象进行训练,或者,基于参数字典中用户设置的模型路径,加载出用户所需的已完成训练的模型对象,以便后续对该模型对象进行优化。其中,将该模块对象化后可以形成一个模型库。
训练模块250主要是提供多种模型的训练方法,以及,基于参数配置模块220输出的参数字典,获知到数据集的划分范围、训练方法等,进而确定出训练数据的范围和所需的训练方法。接着,训练模块250可以由确定出的训练数据的范围,从数据读取模块230输出的数据中获取到相应的训练数据。接着,其可以利用训练数据,并由确定出的训练方法,对由模型库240输出的模型进行训练,从而得到训练完毕的模型。其中,将该模块对象化后可以形成一个训练器。
推理模块260主要是提供多种模型的预测方法,以及,基于参数配置模块220输出的参数字典,获知到数据集的划分范围、预测方法等,进而确定出预测数据的范围和所需的预测方法。接着,推理模块260可以由确定出的预测数据的范围,从数据读取模块230输出的数据中获取到相应的预测数据。接着,其可以利用由训练模块250训练好的模型,以及采用确定出的预测方法,对由预测数据进行预测,并输出预测结果。推理模块260可以支持由训练模块250训练好的模型中任意层的表征输出,以及注意力权值输出,以便训练模块250可以基于推理模块260输出的结果,进一步对由模型库240输出的模型进行训练,提升模型训练的精准度。其中,将该模块对象化后可以形成一个推理器。
评估模块270主要提供多种模型的评估方法,以及,基于参数配置模块220输出的参数字典,获知到评估方法等,进而确定出所需的评估方法。接着,评估模块270可以基于确定出的评估方法,对由推理模块260输出的预测结果进行评估计算,并输出评估分析指标或图例等,由此使得用户可以获知到其所需的业务与由训练模块250训练完毕的模型间的适配度。其中,将该模块对象化后可以形成一个评估器。
可以理解的是,该系统中的各个模块均相互独立且数据间不具备依赖性,每个模块均可以依据它们各自的配置参数和由数据读取模块输出的数据运行,因此,用户可任意对单个模块进行继承或修改,无需关注其他模块,即可完成整个AI工作流的构建与分析。当用户需要处理更复杂的分析需求时,用户只需要自定义对应接口统一的模块,将其对象化并串联至工作流中,即可完成定制工作流的构建。在该过程中,用户无需关注或修改其他模块,因此极大提高了系统的可扩展性。
在一些实施例中,为了便于用户操作,还可以将上述系统所包含的各个模型进行可视化处理,以便于用户根据具体需求对各个模块进行调整。
示例性的,可以将模型库模块240进行可视化处理,这样用户就可以根据其具体需求,修改或创建新的模型或训练方式等。例如,用户可以通过调用模型库模块240中的算子,以完成模型的自定义或修改。
以上即是对本申请实施例提供的适配金融量化分析场景的AI分析系统的相关介绍。为便于理解,下面对该系统的实施流程进行说明。
首先,用户可以根据其量化场景分析任务需求,通过系统提供的参数配置模板,配置任务参数。在用户配置完成后,该系统可以输出一份yaml配置文件。该文件中包含数据读取模块230、模型库模块240、训练模块250、推理模块260和评估模块270的全部配置参数。
接着,用户可以在通过前述的参数配置模块220输入配置文件的路径。这样,参数配置模块220可以初始化参数配置器,并对该路径下的配置文件进行解析,输出参数字典。
接着,数据读取模块230可以获取到参数字典,以及由参数字典确定出其所需读取的数据类型,比如:截面数据和图数据等。然后,数据读取模块230可以先并行读取各个数据,并将它们分别缓存至相应的数据缓存区。最后,再通过截面指针与图结构过滤器等,对缓存区数据获取相应数据,组合构成通用数据对象FinData。
模型库模块240也可以获取到参数字典,以及,由参数字典中配置的模型参数,输出相应的待训练模型。
训练模块240也可以获取到参数字典,以及基于参数字典中配置的训练参数,获取到训练方法,以及从数据读取模块230输出的数据中确定出训练数据。接着,训练模块240可以对模型库模块240输出的待训练模型进行训练,并输出训练完毕的模型。
推理模块260也可以获取到参数字典,以及基于参数字典中配置的推理参数,获取到预测方法,以及从由数据读取模块230输出的数据中获取到测试数据等。接着,推理模块260可以对训练模块240输出的模型进行预测,以及输出预测结果,比如输出meta文件等。
评估模块270也可以获取到参数字典,以及基于参数字典中配置的评估参数,对由推理模块260输出的预测结果进行评估分析,并输出评估分析报告。
由此,将AI模型分析流程抽象映射到金融量化分析场景中,以模块对象化串联的方式整合参数配置解析、数据读取、模型构建、模型训练、模型推理、模型评估等各模块,从而使得用户无需在基础设施与架构上耗费构建成本,进而使得用户可以更专注于业务本身,只需根据其需求,串联依次调用已有的模块对象,平台易用性极高。
接下来,基于上文所描述的内容,对本申请实施例提供的一种模型训练方法进行介绍。该方法是基于上文所描述的模型训练系统提出,该方法中的部分或全部内容可以参见上文中的相关描述。
请参阅图4,图4是本申请实施例提供的一种模型训练方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图4所示,该模型训练方法包括:
S401、基于参数配置文件,输出参数字典,参数字典中包括:所需分析的数据的数据类型,数据集的划分范围,和,模型配置参数。
在一些实施例中,用户可以通过前述的模型训练系统中的参数配置模块220输入参数配置文件。这样,参数配置模块220可以对该参数配置文件进行解析,得到参数字典,并输出该参数字典。示例性的,该参数字典中可以包括:所需分析的数据的数据类型,数据集的划分范围,和,模型配置参数等。
S402、基于参数字典中的数据类型,读取多种类型的目标数据,并将多种类型的目标数据组合成目标格式的数据。
本实施例中,前述的模型训练系统中的数据读取模块230可以基于参数字典中的数据类型,读取多种类型的目标数据,并将多种类型的目标数据组合成目标格式的数据。其中,目标数据为用于描述金融资产的结构化数据。示例性的,目标格式可以为前述表1中的格式。
在一些实施例中,可以并行读取多种类型的目标数据,以及,将不同类型的数据存放至不同的缓存区。另外,还可以并行从不同的缓存区中读取数据,以及,将读取到的数据组合成目标格式的数据。由此以实现多种类数据的高并发读取,大幅提高了数据读取速度,进而通过缓存机制达到低内存,处理高频数据的效果。示例性的,目标数据可以为用于描述金融资产的结构化数据。
在一些实施例中,目标格式的数据中可以包括:第一数据列至第N数据列,N≥2,以及标签列;其中,第一数据列用于放置第一种类型的数据,第N数据列用于放置第N种类型的数据,标签列用于放置各个数据对应的标签。
S403、基于参数字典中数据集的划分范围,从目标格式的数据中分别获取到训练数据和测试数据。
本实施例中,前述的模型训练系统中的训练模块250可以基于参数字典中数据集的划分范围,从目标格式的数据中获取到训练数据。前述的模型训练系统中的推理模块260可以基于参数字典中数据集的划分范围,从目标格式的数据中获取到测试数据。
S404、基于训练数据,对待训练的模型进行训练,以得到目标模型,待训练的模型基于参数字典中的模型配置参数得到。
本实施例中,前述的模型训练系统中的训练模块250获取到训练数据后,可以基于训练数据,对待训练的模型进行训练,以得到目标模型。其中,该待训练的模型可以是前述的模型训练系统中的模型库模块240基于参数字典中的模型配置参数得到。
S405、基于测试数据,对目标模型进行测试,以得到测试结果。
本实施例中,前述的模型训练系统中的推理模块260可以基于其获取到的测试数据,对目标模型进行测试,以得到测试结果。
S406、对测试结果进行评估,并输出评估结果。
本实施例中,前述的模型训练系统中的评估模块270可以对推理模块260输出的测试结果进行评估,并输出评估结果。
这样,在金融量化分析过程中,将所需的数据构建成目标格式的数据,使得在后续的流程中,均可以由该目标格式的数据获取到在相应的步骤中所需的数据,降低了各个步骤间的依赖性。
在一种可能的实现方式中,该方法还包括:响应于针对模型库中多个算子的组合指令,输出由多个算子组合形成的模型,以及将由多个算子组合形成的模型作为待训练的模型;或者,响应于针对模型库中第一模型的修改指令,输出修改后的第一模型,以及将修改后的第一模型作为待训练的模型。由此,使得用户可以自行定义模型,或者,对模型进行修改,提升用户体验。
基于上述实施例中的方法,本申请还提供一种模型训练装置。示例性的,如图5所示,该模型训练装置500可以包括:
参数配置模块501,用于基于参数配置文件,输出参数字典,参数字典中包括:所需分析的数据的数据类型,数据集的划分范围,和,模型配置参数;
数据读取模块502,用于基于参数字典中的数据类型,读取多种类型的目标数据,并将多种类型的目标数据组合成目标格式的数据;
数据划分模块503,用于基于参数字典中数据集的划分范围,从目标格式的数据中分别获取到训练数据和测试数据;
模型训练模块504,用于基于训练数据,对待训练的模型进行训练,以得到目标模型,待训练的模型基于参数字典中的模型配置参数得到;
模型测试模块505,用于基于测试数据,对目标模型进行测试,以得到测试结果;
模型评估模块506,用于对测试结果进行评估,并输出评估结果。示例性的,目标数据可以为用于描述金融资产的结构化数据
其中,参数配置模块501、数据读取模块502、数据划分模块503、模型训练模块504、模型测试模块505和模型评估模块506均可以通过软件实现,或者可以通过硬件实现。示例性的,接下来以参数配置模块501为例,介绍参数配置模块501的实现方式。类似的,数据读取模块502、数据划分模块503、模型训练模块504、模型测试模块505和模型评估模块506的实现方式可以参考参数配置模块501的实现方式。
模块作为软件功能单元的一种举例,参数配置模块501可以包括运行在计算实例上的代码。其中,计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地,上述计算实例可以是一台或者多台。例如,参数配置模块501可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中,也可以分布在不同的region中。进一步地,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone,AZ)中,也可以分布在不同的AZ中,每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中,通常一个region可以包括多个AZ。
同样,用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud,VPC)中,也可以分布在多个VPC中。其中,通常一个VPC设置在一个region内,同一region内两个VPC之间,以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关,经通信网关实现VPC之间的互连。
模块作为硬件功能单元的一种举例,参数配置模块501可以包括至少一个计算设备,如服务器等。或者,参数配置模块501也可以是利用专用集成电路(application-specific integrated circuit,ASIC)实现、或可编程逻辑器件(programmable logicdevice,PLD)实现的设备等。其中,上述PLD可以是复杂程序逻辑器件(complexprogrammable logical device,CPLD)、现场可编程门阵列(field-programmable gatearray,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合实现。
参数配置模块501包括的多个计算设备可以分布在相同的region中,也可以分布在不同的region中。参数配置模块501包括的多个计算设备可以分布在相同的AZ中,也可以分布在不同的AZ中。同样,参数配置模块501包括的多个计算设备可以分布在同一个VPC中,也可以分布在多个VPC中。其中,所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。
需要说明的是,在其他实施例中,参数配置模块501可以用于执行图4中所示的方法中的任意步骤,数据读取模块502可以用于执行图4中所示的方法中的任意步骤,数据划分模块503可以用于执行图4中所示的方法中的任意步骤,模型训练模块504可以用于执行图4中所示的方法中的任意步骤,模型测试模块505可以用于执行图4中所示的方法中的任意步骤,模型评估模块506可以用于执行图4中所示的方法中的任意步骤。参数配置模块501、数据读取模块502、数据划分模块503、模型训练模块504、模型测试模块505和模型评估模块506负责实现的步骤可根据需要指定,通过参数配置模块501、数据读取模块502、数据划分模块503、模型训练模块504、模型测试模块505和模型评估模块506分别实现图4中所示的方法中不同的步骤来实现模型训练装置的全部功能。
基于上述实施例中的方法,本申请还提供一种计算设备。示例性的,如图6所示,计算设备600包括:总线602、处理器604、存储器606和通信接口608。处理器604、存储器606和通信接口608之间通过总线602通信。计算设备600可以是服务器或终端设备。应理解,本申请不限定计算设备600中的处理器、存储器的个数。
总线602可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。总线604可包括在计算设备600各个部件(例如,存储器606、处理器604、通信接口608)之间传送信息的通路。
处理器604可以包括中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
存储器606可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。处理器604还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard diskdrive,HDD)或固态硬盘(solid state drive,SSD)。
存储器606中存储有可执行的程序代码,处理器604执行该可执行的程序代码以分别实现前述参数配置模块501、数据读取模块502、数据划分模块503、模型训练模块504、模型测试模块505和模型评估模块506的功能,从而实现图4中所描述的方法。也即,存储器606上存有用于执行图4中所描述的方法的指令。
或者,存储器606中存储有可执行的代码,处理器604执行该可执行的代码以分别实现前述模型训练装置500的功能,从而实现图4中所描述的方法。也即,存储器606上存有用于执行图4中所描述的方法的指令。
通信接口608使用例如但不限于网络接口卡、收发器一类的收发模块,来实现计算设备600与其他设备或通信网络之间的通信。
基于上述实施例中的方法,本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备。该计算设备可以是服务器,例如是中心服务器、边缘服务器,或者是本地数据中心中的本地服务器。在一些实施例中,计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。
如图7所示,所述计算设备集群包括至少一个计算设备600。计算设备集群中的一个或多个计算设备600中的存储器606中可以存有相同的用于执行图4中所描述的方法的指令。
在一些可能的实现方式中,该计算设备集群中的一个或多个计算设备600的存储器606中也可以分别存有用于执行图4中所描述的方法的部分指令。换言之,一个或多个计算设备600的组合可以共同执行用于执行图4中所描述的方法的指令。
需要说明的是,计算设备集群中的不同的计算设备600中的存储器606可以存储不同的指令,分别用于执行模型训练装置500的部分功能。也即,不同的计算设备600中的存储器606存储的指令可以实现前述参数配置模块501、数据读取模块502、数据划分模块503、模型训练模块504、模型测试模块505和模型评估模块506中的一个或多个模块的功能。
在一些可能的实现方式中,计算设备集群中的一个或多个计算设备可以通过网络连接。其中,所述网络可以是广域网或局域网等等。
基于上述实施例中的方法,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
基于上述实施例中的方法,本申请实施例提供了一种计算机程序产品,其特征在于,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。此外,在一些可能的实现方式中,上述实施例中的各步骤可以根据实际情况选择性执行,可以部分执行,也可以全部执行,此处不做限定。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。

Claims (12)

1.一种模型训练系统,其特征在于,包括:
参数配置器,用于基于参数配置文件,输出参数字典,所述参数字典中包括:所需分析的数据的数据类型,数据集的划分范围,和,模型配置参数;
数据读取器,用于获取所述参数字典,以及基于所述数据类型,读取多种类型的目标数据,并将所述多种类型的目标数据组合成目标格式的数据;
模型库,用于获取所述参数字典,以及基于所述模型配置参数,输出待训练的模型;
训练器,用于获取所述参数字典和所述目标格式的数据,以及基于所述数据集的划分范围,从所述目标格式的数据中获取到训练数据,并基于所述训练数据,对所述待训练的模型进行训练,以得到目标模型;
推理器,用于获取所述参数字典和所述目标格式的数据,以及基于所述数据集的划分范围,从所述目标格式的数据中获取到测试数据,并基于所述测试数据,对所述目标模型进行测试,以输出测试结果;
评估器,用于对所述测试结果进行评估,以输出评估结果。
2.根据权利要求1所述的系统,其特征在于,所述数据读取器,具体用于:
并行读取所述多种类型的目标数据,并将不同类型的数据存放至不同的缓存区,所述目标数据为用于描述金融资产的结构化数据;
并行从不同的缓存区中读取数据,并将读取到的数据组合成所述目标格式的数据。
3.根据权利要求1或2所述的系统,其特征在于,所述目标格式的数据中包括:第一数据列至第N数据列,N≥2,以及标签列;
其中,所述第一数据列用于放置第一种类型的数据,所述第N数据列用于放置第N种类型的数据,所述标签列用于放置各个数据对应的标签。
4.根据权利要求1-3任一所述的系统,其特征在于,所述模型库还用于:
响应于针对所述模型库中多个算子的组合指令,输出由所述多个算子组合形成的模型;
或者,
响应于针对所述模型库中第一模型的修改指令,输出修改后的所述第一模型。
5.一种模型训练方法,其特征在于,所述方法包括:
基于参数配置文件,输出参数字典,所述参数字典中包括:所需分析的数据的数据类型,数据集的划分范围,和,模型配置参数;
基于所述参数字典中的数据类型,读取多种类型的目标数据,并将所述多种类型的目标数据组合成目标格式的数据;
基于所述参数字典中数据集的划分范围,从所述目标格式的数据中分别获取到训练数据和测试数据;
基于所述训练数据,对待训练的模型进行训练,以得到目标模型,所述待训练的模型基于所述参数字典中的模型配置参数得到;
基于所述测试数据,对所述目标模型进行测试,以得到测试结果;
对所述测试结果进行评估,并输出评估结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述参数字典中的数据类型,读取多种类型的目标数据,并将所述多种类型的目标数据组合成目标格式的数据,具体包括:
并行读取所述多种类型的目标数据,以及,将不同类型的数据存放至不同的缓存区,所述目标数据为用于描述金融资产的结构化数据;
并行从不同的缓存区中读取数据,以及,将读取到的数据组合成所述目标格式的数据。
7.根据权利要求5或6所述的方法,其特征在于,所述目标格式的数据中包括:第一数据列至第N数据列,N≥2,以及标签列;
其中,所述第一数据列用于放置第一种类型的数据,所述第N数据列用于放置第N种类型的数据,所述标签列用于放置各个数据对应的标签。
8.根据权利要求5-7任一所述的方法,其特征在于,所述方法还包括:
响应于针对所述模型库中多个算子的组合指令,输出由所述多个算子组合形成的模型,以及将由所述多个算子组合形成的模型作为所述待训练的模型;
或者,
响应于针对所述模型库中第一模型的修改指令,输出修改后的所述第一模型,以及将修改后的所述第一模型作为所述待训练的模型。
9.一种计算设备,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序;
其中,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求5-8任一所述的方法。
10.一种计算设备集群,其特征在于,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;
所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行如权利要求5-8任一所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求5-8任一所述的方法。
12.一种计算机程序产品,其特征在于,当所述计算机程序产品在处理器上运行时,使得所述处理器执行如权利要求5-8任一所述的方法。
CN202210689789.0A 2022-06-17 2022-06-17 一种模型训练系统、方法及计算设备 Pending CN117290819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210689789.0A CN117290819A (zh) 2022-06-17 2022-06-17 一种模型训练系统、方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210689789.0A CN117290819A (zh) 2022-06-17 2022-06-17 一种模型训练系统、方法及计算设备

Publications (1)

Publication Number Publication Date
CN117290819A true CN117290819A (zh) 2023-12-26

Family

ID=89252314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210689789.0A Pending CN117290819A (zh) 2022-06-17 2022-06-17 一种模型训练系统、方法及计算设备

Country Status (1)

Country Link
CN (1) CN117290819A (zh)

Similar Documents

Publication Publication Date Title
CN110378786B (zh) 模型训练方法、违约传导风险识别方法、装置及存储介质
CN107220217A (zh) 基于逻辑回归的特征系数训练方法和装置
US20070226099A1 (en) System and method for predicting the financial health of a business entity
CN106095942B (zh) 强变量提取方法及装置
CN112734559A (zh) 企业信用风险评价方法、装置及电子设备
Shukla et al. Comparative analysis of ml algorithms & stream lit web application
KR20190134934A (ko) 딥 러닝과 부스티드 디시즌 트리를 활용한 고객이탈 예측장치 및 이를 이용한 고객이탈 예측방법
CN113934851A (zh) 用于文本分类的数据增强方法、装置及电子设备
CN112102006A (zh) 基于大数据分析的目标客户获取方法、搜索方法及装置
CN115983900A (zh) 用户营销策略的构建方法、装置、设备、介质和程序产品
Adamko et al. Company bankruptcy and its prediction in conditions of globalization
CN110782339A (zh) 一种违约概率预测方法、系统和可读存储介质
CN118134652A (zh) 一种资产配置方案生成方法、装置、电子设备及介质
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
Prata et al. Lob-based deep learning models for stock price trend prediction: a benchmark study
Tasgetiren et al. On the distributed software architecture of a data analysis workflow: A case study
Bonello et al. Machine learning models for predicting financial distress
CN116385151A (zh) 基于大数据进行风险评级预测的方法及计算设备
CN107844874A (zh) 企业营运问题分析系统及其方法
Cheng et al. A quarterly time-series classifier based on a reduced-dimension generated rules method for identifying financial distress
CN110544166A (zh) 样本生成方法、装置及存储介质
Kumar et al. A comprehensive analysis of LSTM techniques for predicting financial market
CN117290819A (zh) 一种模型训练系统、方法及计算设备
CN112860652A (zh) 作业状态预测方法、装置和电子设备
CN112347102A (zh) 多表拼接方法和多表拼接装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication