CN117114830A - 一种应用于风险控制模型的参数优化方法及其相关设备 - Google Patents

一种应用于风险控制模型的参数优化方法及其相关设备 Download PDF

Info

Publication number
CN117114830A
CN117114830A CN202311358577.5A CN202311358577A CN117114830A CN 117114830 A CN117114830 A CN 117114830A CN 202311358577 A CN202311358577 A CN 202311358577A CN 117114830 A CN117114830 A CN 117114830A
Authority
CN
China
Prior art keywords
risk control
control model
data
parameter optimization
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311358577.5A
Other languages
English (en)
Inventor
冷万
刘刚健
聂萼辉
齐雪
刘璨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Caixin Digital Technology Co ltd
Original Assignee
Hunan Caixin Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Caixin Digital Technology Co ltd filed Critical Hunan Caixin Digital Technology Co ltd
Priority to CN202311358577.5A priority Critical patent/CN117114830A/zh
Publication of CN117114830A publication Critical patent/CN117114830A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例属于人工智能的金融风险管理技术领域,涉及一种应用于风险控制模型的参数优化方法及其相关设备,该方法包括:接收用户终端发送的参数优化请求;根据待操作对象标识获取待操作的原始数据;根据主成分分析法对原始数据进行特征提取操作,得到预训练数据;调用构建好的初始风险控制模型,并根据预训练数据对初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;根据Adam算法对风险控制策略进行策略评价操作,得到策略评价结果;根据策略评价结果对中间风险控制模型进行参数优化操作,得到目标风险控制模型。本申请能够大大简化风险管理流程,提高风险控制的效率。

Description

一种应用于风险控制模型的参数优化方法及其相关设备
技术领域
本申请涉及人工智能的金融风险管理技术领域,尤其涉及一种应用于风险控制模型的参数优化方法及其相关设备。
背景技术
风险管理技术指的是基于预定义的风险模型和固定阈值进行工作,例如VaR(Value at Risk)模型、ES(Expected Shortfall)模型等。这些模型需要依赖历史数据进行训练,并设定一定的风险阈值。然而,由于金融市场的复杂性和动态性,这些模型往往难以实时捕捉到市场的风险变化,因此在实际应用中可能存在较大的风险。
现有一种风险管理方法,首先,根据历史交易数据构建风险模型;其次,通过模型计算出预期的风险值并设定相应的风险阈值;然后,通过实时监控市场情况,与预设的风险阈值进行比较,如果超过预设阈值,则触发相应的风控措施。
然而,申请人发现,传统的风险管理方法普遍不智能,尽管这个方法在一定程度上能够管理风险,但它们无法充分利用市场的动态信息,也无法主动适应市场的变化,因此在处理复杂和动态的金融市场风险时,效率和准确性都有待提高,由此可见,传统的风险管理方法存在准确性较低的问题。
发明内容
本申请实施例的目的在于提出一种应用于风险控制模型的参数优化方法、装置、计算机设备及存储介质,以解决传统的风险管理方法存在准确性较低的问题。
为了解决上述技术问题,本申请实施例提供一种应用于风险控制模型的参数优化方法,采用了如下所述的技术方案:
接收用户终端发送的参数优化请求,其中,所述参数优化请求包括待操作对象标识;
根据所述待操作对象标识获取待操作的原始数据;
根据主成分分析法对所述原始数据进行特征提取操作,得到预训练数据;
调用构建好的初始风险控制模型,并根据所述预训练数据对所述初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;
根据Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果;
根据所述策略评价结果对所述中间风险控制模型进行参数优化操作,得到目标风险控制模型。
进一步的,在所述根据所述待操作对象标识获取待操作的原始数据的步骤之后,还包括下述步骤:
对所述原始数据进行数据清洗操作。
进一步的,所述根据主成分分析法对所述原始数据进行特征提取操作,得到预训练数据的步骤,具体包括下述步骤:
根据时间序列对所述原始数据进行排序操作,得到时间排序数据;
根据预设的窗口配置对所述时间排序数据进行滑动切割操作,得到N组时序切割数据,其中,所述N为大于或者等于1的整数;
分别对所述N组时序切割数据进行向量转化操作,得到N个时序切割向量;
根据所述主成分分析法分别对所述N个时序切割向量进行主成分分析操作,得到N组市场行情特征、历史交易特征以及风控指标特征,其中,所述主成分分析法的分析维度包括市场行情维度、历史交易维度以及风控指标维度;
分别对各组的市场行情特征、历史交易特征以及风控指标特征进行特征合并操作,得到N组时序合并特征;
将所述N组时序合并特征进行向量集成操作,得到所述预训练数据。
进一步的,在所述调用构建好的初始风险控制模型,并根据所述预训练数据对所述初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略的步骤之前,还包括下述步骤:
构建原始风险控制模型的环境参数,其中,所述环境参数包括状态数据、与所述状态相对应的行动数据、对所述状态数据以及所述行动数据进行评价的价值评价函数以及动作选择策略,所述状态数据为所述预训练数据,所述行动数据为风险控制策略,所述动作选择策略根据算法以自适应调整所述动作选择策略的贪婪激活因子,所述算法表示为:
其中,表示所述贪婪激活因子的最大值;/>表示所述贪婪激活因子的初始值;/>为整数,表示所述/>算法的当前迭代次数;/>表示所述算法的最大迭代次数;
在所述原始风险控制模型中引入注意力机制;
定义所述原始风险控制模型的奖励函数,所述奖励函数表示为:
其中,表示折扣率;/>表示上一个任务的奖励累积;/>表示扰动系数,取值为[0,1];C表示奖励值;
根据基于博弈均衡策略的DRL-OM建模方法构建所述原始风险控制模型;
对所述原始风险控制模型进行模型训练操作,并根据策略梯度深度强化学习算法对所述原始风险控制模型进行参数调整;
当完成所述模型训练操作以及所述参数调整,得到所述初始风险控制模型。
进一步的,所述根据Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果的步骤,具体包括下述步骤:
构建所述策略评价操作的评价指标;
收集真实场景的市场交易数据;
以所述市场交易数据为基准,根据所述评价指标以及所述Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果。
为了解决上述技术问题,本申请实施例还提供一种应用于风险控制模型的参数优化装置,采用了如下所述的技术方案:
请求接收模块,用于接收用户终端发送的参数优化请求,其中,所述参数优化请求包括待操作对象标识;
数据获取模块,用于根据所述待操作对象标识获取待操作的原始数据;
特征提取模块,用于根据主成分分析法对所述原始数据进行特征提取操作,得到预训练数据;
强化学习模块,用于调用构建好的初始风险控制模型,并根据所述预训练数据对所述初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;
策略评价模块,用于根据Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果;
参数优化模块,用于根据所述策略评价结果对所述中间风险控制模型进行参数优化操作,得到目标风险控制模型。
进一步的,所述装置还包括:
数据清洗模块,用于对所述原始数据进行数据清洗操作。
进一步的,所述特征提取模块包括:
排序子模块,用于根据时间序列对所述原始数据进行排序操作,得到时间排序数据;
滑动切割子模块,用于根据预设的窗口配置对所述时间排序数据进行滑动切割操作,得到N组时序切割数据,其中,所述N为大于或者等于1的整数;
向量转化子模块,用于分别对所述N组时序切割数据进行向量转化操作,得到N个时序切割向量;
主成分分析子模块,用于根据所述主成分分析法分别对所述N个时序切割向量进行主成分分析操作,得到N组市场行情特征、历史交易特征以及风控指标特征,其中,所述主成分分析法的分析维度包括市场行情维度、历史交易维度以及风控指标维度;
特征合并子模块,用于分别对各组的市场行情特征、历史交易特征以及风控指标特征进行特征合并操作,得到N组时序合并特征;
向量集成子模块,用于将所述N组时序合并特征进行向量集成操作,得到所述预训练数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的应用于风险控制模型的参数优化方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的应用于风险控制模型的参数优化方法的步骤。
本申请提供了一种应用于风险控制模型的参数优化方法,包括:接收用户终端发送的参数优化请求,其中,所述参数优化请求包括待操作对象标识;根据所述待操作对象标识获取待操作的原始数据;根据主成分分析法对所述原始数据进行特征提取操作,得到预训练数据;调用构建好的初始风险控制模型,并根据所述预训练数据对所述初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;根据Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果;根据所述策略评价结果对所述中间风险控制模型进行参数优化操作,得到目标风险控制模型。与现有技术相比,本申请利用深度强化学习算法与注意力机制结合交易数据,构建一个能自我学习和自我调整的智能模型,根据市场的实时变化自适应地调整风险阈值,来实现风控阈值的动态管理和交易所个性化风险监测,不需要依赖专家经验型固定阈值或单一指标,能够大大简化风险管理流程,提高风险控制的效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请实施例一提供的应用于风险控制模型的参数优化方法的实现流程图;
图3是本申请实施例二提供的应用于风险控制模型的参数优化装置的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的应用于风险控制模型的参数优化方法一般由服务器/终端设备执行,相应地,应用于风险控制模型的参数优化装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的应用于风险控制模型的参数优化方法的一个实施例的流程图。所述的应用于风险控制模型的参数优化方法,包括:步骤S201、步骤S202、步骤S203、步骤S204、步骤S205以及步骤S206。
在步骤S201中,接收用户终端发送的参数优化请求,其中,参数优化请求包括待操作对象标识。
在本申请实施例中,用户终端指的是用于执行本申请提供的预防证件滥用的图像处理方法的终端设备,该用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本申请。
在步骤S202中,根据待操作对象标识获取待操作的原始数据。
在本申请实施例中,原始数据指的是账户数据、产品数据、委托记录、撤单记录、成交记录、资金变更记录、资金余额记录、持仓变更、产品持仓记录。
在步骤S203中,根据主成分分析法对原始数据进行特征提取操作,得到预训练数据。
在本申请实施例中,主成分分析法(Principal Component Analysis,PCA)是一种常用的数据降维技术,用于将高维数据转换为低维数据,同时保留数据的主要特征。PCA可以帮助减少数据中的噪声、噪声。
在本申请实施例中,该特征提取操作可以是根据时间序列对原始数据进行排序操作,得到时间排序数据;根据预设的窗口配置对时间排序数据进行滑动切割操作,得到N组时序切割数据,其中,N为大于或者等于1的整数;分别对N组时序切割数据进行向量转化操作,得到N个时序切割向量;根据主成分分析法分别对N个时序切割向量进行主成分分析操作,得到N组市场行情特征、历史交易特征以及风控指标特征,其中,主成分分析法的分析维度包括市场行情维度、历史交易维度以及风控指标维度;分别对各组的市场行情特征、历史交易特征以及风控指标特征进行特征合并操作,得到N组时序合并特征;将N组时序合并特征进行向量集成操作,得到预训练数据。
在步骤S204中,调用构建好的初始风险控制模型,并根据预训练数据对初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略。
在步骤S205中,根据Adam算法对风险控制策略进行策略评价操作,得到策略评价结果。
在本申请实施例中,Adam算法是一种优化算法,它结合了梯度下降和动量优化的特点。具体来说,Adam算法使用了梯度的一阶矩估计和二阶矩估计来调整学习率,使得学习率在训练的不同阶段自适应地变化。在Adam算法迭代过程中,动态调整风控阈值。该阈值将根据历史数据中的波动性自适应地调整,以便更好地反映当前市场情况和变化。
在实际应用中,根据实时监测信息,及时采取相应的措施来降低交易风险,包括减少杠杆比率、暂停特定产品的交易、限制单笔成交金额等。总之,基于交易所风控动态阈值改进的Adam算法可以更加精确、实时地评估交易风险,并在风险高发时采取合适的措施,以保障交易安全和交易所运营稳定。
在本申请实施例中,策略评价操作可以是构建策略评价操作的评价指标;收集真实场景的市场交易数据;以市场交易数据为基准,根据评价指标以及Adam算法对风险控制策略进行策略评价操作,得到策略评价结果。
在步骤S206中,根据策略评价结果对中间风险控制模型进行参数优化操作,得到目标风险控制模型。
在本申请实施例中,通过评价策略表现得到的反馈信息将被送回模型,自动调整深度强化学习的方向,达到不断优化的目标。这个过程中需要注意数据的质量和稳定性,以避免过拟合和其他问题。
在本申请实施例中,提供了一种应用于风险控制模型的参数优化方法,包括:接收用户终端发送的参数优化请求,其中,参数优化请求包括待操作对象标识;根据待操作对象标识获取待操作的原始数据;根据主成分分析法对原始数据进行特征提取操作,得到预训练数据;调用构建好的初始风险控制模型,并根据预训练数据对初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;根据Adam算法对风险控制策略进行策略评价操作,得到策略评价结果;根据策略评价结果对中间风险控制模型进行参数优化操作,得到目标风险控制模型。与现有技术相比,本申请利用深度强化学习算法与注意力机制结合交易数据,构建一个能自我学习和自我调整的智能模型,根据市场的实时变化自适应地调整风险阈值,来实现风控阈值的动态管理和交易所个性化风险监测,不需要依赖专家经验型固定阈值或单一指标,能够大大简化风险管理流程,提高风险控制的效率。
在本实施例的一些可选的实现方式中,在步骤S202之后,步骤S203之前,还包括以下步骤:
对原始数据进行数据清洗操作。
在本申请实施例中,数据清洗操作指的是对于缺失值,采取删除或用其他有效数据替换;对于异常值,使用统计方法(如3σ原则)进行检测并处理;由于上述各类数据的量纲和数量级不同,直接输入到模型可能会造成模型难以学习。我们采用最大-最小归一化的方式对数据进行标准化。具体来说,就是将数据通过(原数据-最小值)/(最大值-最小值)这个公式转换为0到1之间的值。这样做有助于改善模型的收敛速度,提高模型性能。
在本实施例的一些可选的实现方式中,步骤S203具体包括下述步骤:
根据时间序列对原始数据进行排序操作,得到时间排序数据;
根据预设的窗口配置对时间排序数据进行滑动切割操作,得到N组时序切割数据,其中,N为大于或者等于1的整数;
分别对N组时序切割数据进行向量转化操作,得到N个时序切割向量;
根据主成分分析法分别对N个时序切割向量进行主成分分析操作,得到N组市场行情特征、历史交易特征以及风控指标特征,其中,主成分分析法的分析维度包括市场行情维度、历史交易维度以及风控指标维度;
分别对各组的市场行情特征、历史交易特征以及风控指标特征进行特征合并操作,得到N组时序合并特征;
将N组时序合并特征进行向量集成操作,得到预训练数据。
在本申请实施例中,滑动窗口是针对时序数据进行处理的一种方法。在滑动窗口中,我们将原始数据分成多个子序列,并采用窗口大小和步长来进行划分。首先,可以将账户数据、产品数据、委托记录、撤单记录、成交记录、资金变更记录、资金余额记录、持仓变更和产品持仓记录等原始数据按照时间(以月为时间单位)序列进行切割,每个子序列包含相应的时间范围内的数据,然后,可以采用滑动窗口的方式,将每个子序列进一步划分为多个窗口,以提取更多的特征信息。在滑动窗口过程中,我们需要设置窗口大小为一周,步长为一天,以便对每个窗口进行单独的分析和处理并以此减弱环境周期因素的影响。
在本申请实施例中,主成分分析(PCA)是一种常用的降维技术,可以将高维数据转换为低维数据,并保留最大方差的主要信息。在本专利中,我们可以使用PCA方法对每个子序列进行特征提取,以便得到高维数据的低维表达,具体的,在每个窗口内,我们可以将原始数据转换为一个向量,并将其作为输入进行PCA分析。通过计算协方差矩阵和特征值分解,可以得到主成分,并将其作为该子序列的特征表示;在进行PCA分析时,我们需要确定降维后的维度数量。一般来说,我们可以根据保留的方差比例来设定新的维度数量,以使得保留的信息量最大化。在这里,我们保留每个时间序列的市场行情特征F1、历史交易特征F2和风控指标特征F3三种特征。
在本申请实施例中,集成是将多个特征合并为一个特征向量的过程。在本专利中,我们可以将每个子序列的主成分特征进行集成,以便得到最终的特征向量,具体的,在滑动窗口过程中,我们可以计算每个子序列的主成分特征,并将其放入一个特征向量中。然后,我们可以对所有特征向量进行集成,以得到完整的特征表示。
在本实施例的一些可选的实现方式中,在向量集成时,我们需要注意避免数据冗余,并确保每个特征能够有效地表达原始数据的信息。我们采用特征选择和特征融合技术,优化特征集成效果。
在本实施例的一些可选的实现方式中,在步骤S304之前,还包括下述步骤:
构建原始风险控制模型的环境参数,其中,环境参数包括状态数据、与状态相对应的行动数据、对状态数据以及行动数据进行评价的价值评价函数以及动作选择策略,状态数据为预训练数据,行动数据为风险控制策略,动作选择策略根据算法以自适应调整动作选择策略的贪婪激活因子,/>算法表示为:
其中,表示贪婪激活因子的最大值;/>表示贪婪激活因子的初始值;/>为整数,表示/>算法的当前迭代次数;/>表示/>算法的最大迭代次数;
在原始风险控制模型中引入注意力机制;
定义原始风险控制模型的奖励函数,奖励函数表示为:
其中,表示折扣率;/>表示上一个任务的奖励累积;/>表示扰动系数,取值为[0,1];C表示奖励值;
根据基于博弈均衡策略的DRL-OM建模方法构建原始风险控制模型;
对原始风险控制模型进行模型训练操作,并根据策略梯度深度强化学习算法对原始风险控制模型进行参数调整;
当完成模型训练操作以及参数调整,得到初始风险控制模型。
在本申请实施例中,我们可以通过Transformer结构引入注意力机制。Transformer可以帮助网络关注重要的信息,并忽略不重要的部分。例如,如果市场价格发生大幅波动,注意力机制就会让网络更加关注这些信息。
在本申请实施例中,利用历史数据进行模型的训练,并通过策略梯度(DeepDeterministic Policy Gradient,DDPG)深度强化学习算法调整模型的参数以最大化总奖励。这个过程可能需要多次迭代,直到模型的表现达到满意的水平为止。
在本申请实施例中,策略梯度是强化学习领域中一种常用的优化方法,用于训练能够优化特定任务的策略函数。在强化学习中,策略是指从状态到动作的映射,它决定在不同的状态下应该采取哪个动作。梯度策略方法的目标是通过优化策略函数来最大化(或最小化)累积奖励。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种应用于风险控制模型的参数优化装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的应用于风险控制模型的参数优化装置200包括:请求接收模块210、数据获取模块220、特征提取模块230、强化学习模块240、策略评价模块250以及参数优化模块260,其中:
请求接收模块210,用于接收用户终端发送的参数优化请求,其中,参数优化请求包括待操作对象标识;
数据获取模块220,用于根据待操作对象标识获取待操作的原始数据;
特征提取模块230,用于根据主成分分析法对原始数据进行特征提取操作,得到预训练数据;
强化学习模块240,用于调用构建好的初始风险控制模型,并根据预训练数据对初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;
策略评价模块250,用于根据Adam算法对风险控制策略进行策略评价操作,得到策略评价结果;
参数优化模块260,用于根据策略评价结果对中间风险控制模型进行参数优化操作,得到目标风险控制模型。
在本实施例中,提供了一种应用于风险控制模型的参数优化装置200,包括:请求接收模块210,用于接收用户终端发送的参数优化请求,其中,参数优化请求包括待操作对象标识;数据获取模块220,用于根据待操作对象标识获取待操作的原始数据;特征提取模块230,用于根据主成分分析法对原始数据进行特征提取操作,得到预训练数据;强化学习模块240,用于调用构建好的初始风险控制模型,并根据预训练数据对初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;策略评价模块250,用于根据Adam算法对风险控制策略进行策略评价操作,得到策略评价结果;参数优化模块260,用于根据策略评价结果对中间风险控制模型进行参数优化操作,得到目标风险控制模型。与现有技术相比,本申请利用深度强化学习算法与注意力机制结合交易数据,构建一个能自我学习和自我调整的智能模型,根据市场的实时变化自适应地调整风险阈值,来实现风控阈值的动态管理和交易所个性化风险监测,不需要依赖专家经验型固定阈值或单一指标,能够大大简化风险管理流程,提高风险控制的效率。
在本实施例的一些可选的实现方式中,上述应用于风险控制模型的参数优化装置200还包括:数据清洗模块,其中:
数据清洗模块,用于对原始数据进行数据清洗操作。
在本实施例的一些可选的实现方式中,上述特征提取模块230包括:排序子模块、滑动切割子模块、向量转化子模块、主成分分析子模块、特征合并子模块以及向量集成子模块,其中:
排序子模块,用于根据时间序列对原始数据进行排序操作,得到时间排序数据;
滑动切割子模块,用于根据预设的窗口配置对时间排序数据进行滑动切割操作,得到N组时序切割数据,其中,N为大于或者等于1的整数;
向量转化子模块,用于分别对N组时序切割数据进行向量转化操作,得到N个时序切割向量;
主成分分析子模块,用于根据主成分分析法分别对N个时序切割向量进行主成分分析操作,得到N组市场行情特征、历史交易特征以及风控指标特征,其中,主成分分析法的分析维度包括市场行情维度、历史交易维度以及风控指标维度;
特征合并子模块,用于分别对各组的市场行情特征、历史交易特征以及风控指标特征进行特征合并操作,得到N组时序合并特征;
向量集成子模块,用于将N组时序合并特征进行向量集成操作,得到预训练数据。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备300包括通过系统总线相互通信连接存储器310、处理器320、网络接口330。需要指出的是,图中仅示出了具有组件310-330的计算机设备300,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器310至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器310可以是所述计算机设备300的内部存储单元,例如该计算机设备300的硬盘或内存。在另一些实施例中,所述存储器310也可以是所述计算机设备300的外部存储设备,例如该计算机设备300上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器310还可以既包括所述计算机设备300的内部存储单元也包括其外部存储设备。本实施例中,所述存储器310通常用于存储安装于所述计算机设备300的操作系统和各类应用软件,例如应用于风险控制模型的参数优化方法的计算机可读指令等。此外,所述存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器320在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制所述计算机设备300的总体操作。本实施例中,所述处理器320用于运行所述存储器310中存储的计算机可读指令或者处理数据,例如运行所述应用于风险控制模型的参数优化方法的计算机可读指令。
所述网络接口330可包括无线网络接口或有线网络接口,该网络接口330通常用于在所述计算机设备300与其他电子设备之间建立通信连接。
本申请提供的计算机设备,利用深度强化学习算法与注意力机制结合交易数据,构建一个能自我学习和自我调整的智能模型,根据市场的实时变化自适应地调整风险阈值,来实现风控阈值的动态管理和交易所个性化风险监测,不需要依赖专家经验型固定阈值或单一指标,能够大大简化风险管理流程,提高风险控制的效率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的应用于风险控制模型的参数优化方法的步骤。
本申请提供的计算机可读存储介质,利用深度强化学习算法与注意力机制结合交易数据,构建一个能自我学习和自我调整的智能模型,根据市场的实时变化自适应地调整风险阈值,来实现风控阈值的动态管理和交易所个性化风险监测,不需要依赖专家经验型固定阈值或单一指标,能够大大简化风险管理流程,提高风险控制的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种应用于风险控制模型的参数优化方法,其特征在于,包括下述步骤:
接收用户终端发送的参数优化请求,其中,所述参数优化请求包括待操作对象标识;
根据所述待操作对象标识获取待操作的原始数据;
根据主成分分析法对所述原始数据进行特征提取操作,得到预训练数据;
调用构建好的初始风险控制模型,并根据所述预训练数据对所述初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;
根据Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果;
根据所述策略评价结果对所述中间风险控制模型进行参数优化操作,得到目标风险控制模型。
2.根据权利要求1所述的应用于风险控制模型的参数优化方法,其特征在于,在所述根据所述待操作对象标识获取待操作的原始数据的步骤之后,还包括下述步骤:
对所述原始数据进行数据清洗操作。
3.根据权利要求1所述的应用于风险控制模型的参数优化方法,其特征在于,所述根据主成分分析法对所述原始数据进行特征提取操作,得到预训练数据的步骤,具体包括下述步骤:
根据时间序列对所述原始数据进行排序操作,得到时间排序数据;
根据预设的窗口配置对所述时间排序数据进行滑动切割操作,得到N组时序切割数据,其中,N为大于或者等于1的整数;
分别对所述N组时序切割数据进行向量转化操作,得到N个时序切割向量;
根据所述主成分分析法分别对所述N个时序切割向量进行主成分分析操作,得到N组市场行情特征、历史交易特征以及风控指标特征,其中,所述主成分分析法的分析维度包括市场行情维度、历史交易维度以及风控指标维度;
分别对各组的市场行情特征、历史交易特征以及风控指标特征进行特征合并操作,得到N组时序合并特征;
将所述N组时序合并特征进行向量集成操作,得到所述预训练数据。
4.根据权利要求1所述的应用于风险控制模型的参数优化方法,其特征在于,在所述调用构建好的初始风险控制模型,并根据所述预训练数据对所述初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略的步骤之前,还包括下述步骤:
构建原始风险控制模型的环境参数,其中,所述环境参数包括状态数据、与所述状态相对应的行动数据、对所述状态数据以及所述行动数据进行评价的价值评价函数以及动作选择策略,所述状态数据为所述预训练数据,所述行动数据为风险控制策略,所述动作选择策略根据算法以自适应调整所述动作选择策略的贪婪激活因子,所述算法表示为:
其中,表示所述贪婪激活因子的最大值;/>表示所述贪婪激活因子的初始值;为整数,表示所述/>算法的当前迭代次数;/>表示所述/>算法的最大迭代次数;
在所述原始风险控制模型中引入注意力机制;
定义所述原始风险控制模型的奖励函数,所述奖励函数表示为:
其中,表示折扣率;/>表示上一个任务的奖励累积;/>表示扰动系数,取值为[0,1];C表示奖励值;
根据基于博弈均衡策略的DRL-OM建模方法构建所述原始风险控制模型;
对所述原始风险控制模型进行模型训练操作,并根据策略梯度深度强化学习算法对所述原始风险控制模型进行参数调整;
当完成所述模型训练操作以及所述参数调整,得到所述初始风险控制模型。
5.根据权利要求1所述的应用于风险控制模型的参数优化方法,其特征在于,所述根据Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果的步骤,具体包括下述步骤:
构建所述策略评价操作的评价指标;
收集真实场景的市场交易数据;
以所述市场交易数据为基准,根据所述评价指标以及所述Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果。
6.一种应用于风险控制模型的参数优化装置,其特征在于,包括:
请求接收模块,用于接收用户终端发送的参数优化请求,其中,所述参数优化请求包括待操作对象标识;
数据获取模块,用于根据所述待操作对象标识获取待操作的原始数据;
特征提取模块,用于根据主成分分析法对所述原始数据进行特征提取操作,得到预训练数据;
强化学习模块,用于调用构建好的初始风险控制模型,并根据所述预训练数据对所述初始风险控制模型进行深度强化学习操作,得到中间风险控制模型以及风险控制策略;
策略评价模块,用于根据Adam算法对所述风险控制策略进行策略评价操作,得到策略评价结果;
参数优化模块,用于根据所述策略评价结果对所述中间风险控制模型进行参数优化操作,得到目标风险控制模型。
7.根据权利要求6所述的应用于风险控制模型的参数优化装置,其特征在于,所述装置还包括:
数据清洗模块,用于对所述原始数据进行数据清洗操作。
8.根据权利要求6所述的应用于风险控制模型的参数优化装置,其特征在于,所述特征提取模块包括:
排序子模块,用于根据时间序列对所述原始数据进行排序操作,得到时间排序数据;
滑动切割子模块,用于根据预设的窗口配置对所述时间排序数据进行滑动切割操作,得到N组时序切割数据,其中,N为大于或者等于1的整数;
向量转化子模块,用于分别对所述N组时序切割数据进行向量转化操作,得到N个时序切割向量;
主成分分析子模块,用于根据所述主成分分析法分别对所述N个时序切割向量进行主成分分析操作,得到N组市场行情特征、历史交易特征以及风控指标特征,其中,所述主成分分析法的分析维度包括市场行情维度、历史交易维度以及风控指标维度;
特征合并子模块,用于分别对各组的市场行情特征、历史交易特征以及风控指标特征进行特征合并操作,得到N组时序合并特征;
向量集成子模块,用于将所述N组时序合并特征进行向量集成操作,得到所述预训练数据。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的应用于风险控制模型的参数优化方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的应用于风险控制模型的参数优化方法的步骤。
CN202311358577.5A 2023-10-19 2023-10-19 一种应用于风险控制模型的参数优化方法及其相关设备 Pending CN117114830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311358577.5A CN117114830A (zh) 2023-10-19 2023-10-19 一种应用于风险控制模型的参数优化方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311358577.5A CN117114830A (zh) 2023-10-19 2023-10-19 一种应用于风险控制模型的参数优化方法及其相关设备

Publications (1)

Publication Number Publication Date
CN117114830A true CN117114830A (zh) 2023-11-24

Family

ID=88805783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311358577.5A Pending CN117114830A (zh) 2023-10-19 2023-10-19 一种应用于风险控制模型的参数优化方法及其相关设备

Country Status (1)

Country Link
CN (1) CN117114830A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488826A (zh) * 2020-12-16 2021-03-12 北京逸风金科软件有限公司 基于深度强化学习对银行风险定价的优化方法和装置
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN115062328A (zh) * 2022-07-12 2022-09-16 中国科学院大学 一种基于跨模态数据融合的信息智能解析方法
CN116048028A (zh) * 2023-02-24 2023-05-02 大连理工大学 一种基于强化学习的工艺参数优化方法
CN116224799A (zh) * 2023-03-16 2023-06-06 中国电子科技集团公司电子科学研究院 一种多智能体博弈的控制策略优化方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488826A (zh) * 2020-12-16 2021-03-12 北京逸风金科软件有限公司 基于深度强化学习对银行风险定价的优化方法和装置
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN115062328A (zh) * 2022-07-12 2022-09-16 中国科学院大学 一种基于跨模态数据融合的信息智能解析方法
CN116048028A (zh) * 2023-02-24 2023-05-02 大连理工大学 一种基于强化学习的工艺参数优化方法
CN116224799A (zh) * 2023-03-16 2023-06-06 中国电子科技集团公司电子科学研究院 一种多智能体博弈的控制策略优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚雪 等: "基于深度强化学习的任务分析方法", 《系统仿真学报》, pages 1 - 14 *

Similar Documents

Publication Publication Date Title
CN113326764B (zh) 训练图像识别模型和图像识别的方法和装置
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112418059B (zh) 一种情绪识别的方法、装置、计算机设备及存储介质
CN114492831B (zh) 联邦学习模型的生成方法及其装置
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN114358023B (zh) 智能问答召回方法、装置、计算机设备及存储介质
CN112417886B (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质
CN116612745A (zh) 一种语音情感识别方法、装置、设备及其存储介质
CN116777646A (zh) 基于人工智能的风险识别方法、装置、设备及存储介质
CN116644298A (zh) 一种对网络攻击检测模型性能检测的方法及其相关设备
CN116796840A (zh) 医疗实体信息抽取方法、装置、计算机设备及存储介质
CN113139490B (zh) 一种图像特征匹配方法、装置、计算机设备及存储介质
CN113781247B (zh) 协议数据推荐方法、装置、计算机设备及存储介质
CN113361621B (zh) 用于训练模型的方法和装置
CN117114830A (zh) 一种应用于风险控制模型的参数优化方法及其相关设备
CN113204973B (zh) 答非所问识别模型的训练方法、装置、设备和存储介质
CN111414474B (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN116340864B (zh) 一种模型漂移检测方法、装置、设备及其存储介质
CN116541766B (zh) 脑电数据修复模型的训练方法、脑电数据修复方法及装置
CN117709801A (zh) 客户数据处理方法、装置、计算机设备及存储介质
CN118505326A (zh) 佣金额度确定方法、装置、计算机设备和存储介质
CN118212074A (zh) 数据推荐方法、装置、计算机设备及存储介质
CN118334713A (zh) 一种掌静脉识别方法、装置、计算机设备及存储介质
CN116798623A (zh) 基于人工智能的睡眠评估方法、装置、设备及存储介质
CN117252712A (zh) 基于迁移学习的产品理赔方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20231124