CN114399224A - 数据处理方法、装置、设备、介质及产品 - Google Patents

数据处理方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN114399224A
CN114399224A CN202210074904.3A CN202210074904A CN114399224A CN 114399224 A CN114399224 A CN 114399224A CN 202210074904 A CN202210074904 A CN 202210074904A CN 114399224 A CN114399224 A CN 114399224A
Authority
CN
China
Prior art keywords
preset
genetic algorithm
character strings
individuals
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210074904.3A
Other languages
English (en)
Inventor
刘之灵
马吉甫
陈曦
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210074904.3A priority Critical patent/CN114399224A/zh
Publication of CN114399224A publication Critical patent/CN114399224A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备、介质及产品。该方法包括:获取多个第一预设特征,多个第一预设特征用于评估债券违约风险;根据遗传算法确定多个第一预设特征中的目标特征;获取与第一对象对应的目标特征的目标特征向量;基于目标特征向量和预设违约风险评估模型,确定第一对象的违约概率,其中,预设违规风险评估模型包括遗传算法的适应度函数。根据本申请实施例,能够准确预测债券主体是否会违约,确定债券主体的违约概率。

Description

数据处理方法、装置、设备、介质及产品
技术领域
本申请属于投资和风险管理技术领域,尤其涉及一种数据处理方法、装置、设备、介质及产品。
背景技术
为了建立科学有效的债券违约应对与处置机制,在信用风险管理方面,需要预测债券主体是否会违约,确定债券主体的违约概率。
相关技术中,传统违约概率计算模型通常采用专家打分的方式,凭借业务人员的经验结合统计分析方法,得到变量及其权重,转化计算债券主体的违约概率,但该违约概率计算方式无法准确评估债券主体的违约概率。因此,如何准确预测评估债券主体违约概率,是当前亟需解决的问题。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、介质及产品,能够准确预测评估债券主体违约概率。
第一方面,本申请实施例提供一种数据处理方法,该方法包括:获取多个第一预设特征,多个第一预设特征用于评估债券违约风险;根据遗传算法确定多个第一预设特征中的目标特征;获取与第一对象对应的目标特征的目标特征向量;基于目标特征向量和预设违约风险评估模型,确定第一对象的违约概率,其中,预设违规风险评估模型包括遗传算法的适应度函数。
在第一方面的一些可实现方式中,第一预设特征的数量为N,N为大于零的整数,根据遗传算法确定多个第一预设特征中的目标特征,包括:对N个第一预设特征进行编码,得到N个第一预设特征对应的N个字符串;基于N个字符串进行种群初始化,得到第一预设数量的个体,其中,每个个体包括M个字符串,M为大于零的整数;基于遗传算法中的选择算子,从第一预设数量的个体中随机选取两个个体作为父体;基于遗传算法中的交叉算子,确定父体的子代个体;基于遗传算法的适应度函数,计算子代个体对应的适应度,并返回基于遗传算法中的选择算子,从第一预设数量的个体中随机选取两个个体作为父体的步骤,直至子代个体对应的适应度大于预设适应度阈值,或者返回次数大于预设次数阈值,得到目标子代个体;对目标子代个体进行解码,得到M个目标特征。
在第一方面的一些可实现方式中,在基于遗传算法中的交叉算子,确定父体的子代个体之后,基于遗传算法的适应度函数,计算子代个体对应的适应度之前,方法还包括:基于遗传算法中的变异算子,对子代个体对应的字符串进行反转变异操作。
在第一方面的一些可实现方式中,基于遗传算法中的交叉算子,确定父体的子代个体,包括:确定两个父体对应的2M个字符串中重复出现的S个第一字符串;在S小于M的情况下,从第二字符串中随机选取M-S个第二字符串,其中,第二字符串为2M个字符串中除S个第一字符串以外的字符串;根据S个第一字符串和M-S个第二字符串,确定子代个体。
在第一方面的一些可实现方式中,第一预设数量为预设数值与第二数量的乘积,第二数量为第一对象的数量。
在第一方面的一些可实现方式中,预设违约风险评估模型还包括预设回归模型,基于目标特征向量和预设违约风险评估模型,确定第一对象的违约概率,包括:向预设回归模型输入目标特征向量,输出第一对象对应的第一波动率;基于第一波动率和遗传算法的适应度函数,计算第一对象的违约概率。
在第一方面的一些可实现方式中,基于第一波动率和遗传算法的适应度函数,计算第一对象的违约概率,包括:获取第一对象的金融数据,金融数据包括第一对象对应的资产值、无风险利率、负债到期时长;基于第一波动率、金融数据和遗传算法的适应度函数,计算得到第一对象的违约概率。
第二方面,本申请实施例提供了一种数据处理装置,该装置包括:获取模块,用于获取多个第一预设特征,多个第一预设特征用于评估债券违约风险;确定模块,用于根据遗传算法确定多个第一预设特征中的目标特征;获取模块,用于获取与第一对象对应的目标特征的目标特征向量;确定模块,还用于基于目标特征向量和预设违约风险评估模型,确定第一对象的违约概率,其中,预设违规风险评估模型包括遗传算法的适应度函数。
在第二方面的一些可实现方式中,确定模块包括:编码单元,用于对N个第一预设特征进行编码,得到N个第一预设特征对应的N个字符串;初始化单元,用于基于N个字符串进行种群初始化,得到第一预设数量的个体,其中,每个个体包括M个字符串,M为大于零的整数;选取单元,用于基于遗传算法中的选择算子,从第一预设数量的个体中随机选取两个个体作为父体;确定单元,用于基于遗传算法中的交叉算子,确定父体的子代个体;计算单元,用于基于遗传算法的适应度函数,计算子代个体对应的适应度,并返回基于遗传算法中的选择算子,从第一预设数量的个体中随机选取两个个体作为父体的步骤,直至子代个体对应的适应度大于预设适应度阈值,或者返回次数大于预设次数阈值,得到目标子代个体;解码单元,用于对目标子代个体进行解码,得到M个目标特征。
在第二方面的一些可实现方式中,确定模块,还用于在基于遗传算法中的交叉算子,确定父体的子代个体之后,基于遗传算法的适应度函数,计算子代个体对应的适应度之前,基于遗传算法中的变异算子,对子代个体对应的字符串进行反转变异操作。
在第二方面的一些可实现方式中,确定单元具体用于:确定两个父体对应的2M个字符串中重复出现的S个第一字符串;在S小于M的情况下,从第二字符串中随机选取M-S个第二字符串,其中,第二字符串为2M个字符串中除S个第一字符串以外的字符串;根据S个第一字符串和M-S个第二字符串,确定子代个体。
在第二方面的一些可实现方式中,第一预设数量为预设数值与第二数量的乘积,第二数量为第一对象的数量。
在第二方面的一些可实现方式中,预设违约风险评估模型还包括预设回归模型,确定模块包括:输入输出单元,用于向预设回归模型输入目标特征向量,输出第一对象对应的第一波动率;计算单元,用于基于第一波动率和遗传算法的适应度函数,计算第一对象的违约概率。
在第二方面的一些可实现方式中,计算单元具体用于:获取第一对象的金融数据,金融数据包括第一对象对应的资产值、无风险利率、负债到期时长;基于第一波动率、金融数据和遗传算法的适应度函数,计算得到第一对象的违约概率。
第三方面,本申请实施例提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如第一方面的任一项实施例中所示的数据处理方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面的任一项实施例中所示的数据处理方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,所述程序产品被存储在非易失的存储介质中,所述程序产品被至少一个处理器执行以实现如第一方面的任一项实施例中所示的数据处理方法的步骤。
本申请实施例的数据处理方法、装置、设备、介质及产品,可以获取用于评估债券违约风险的多个第一预设特征,并根据遗传算法确定多个第一预设特征中的目标特征。在此基础上,可以获取与第一对象,即与债券主体对应的目标特征的目标特征向量,并基于目标特征向量和预设违约风险评估模型中遗传算法的适应度函数,确定债券主体的债券违约概率。如此,能够准确预测债券主体是否会违约,确定债券主体的违约概率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据处理方法的流程示意图之一;
图2是本申请实施例提供的数据处理方法的流程示意图之二;
图3是本申请实施例提供的数据处理方法的流程示意图之三;
图4是本申请实施例提供的一种数据处理装置的结构示意图;
图5是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
首先,对本申请实施例所提供技术方案所涉及的技术术语进行介绍:
违约概率(Probability of Default,PD),是指借款人在未来一段时间内不能按合同要求偿还贷款本息或履行相关义务的可能性。
刚性兑付,是指信托产品到期后,信托公司必须分配给投资者本金以及利益,当信托计划出现不能如期兑付或兑付困难时,信托公司通过发行新产品兜底处理。
遗传算法(Genetic Algorithm,GA),是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。
如背景技术,为了建立科学有效的债券违约应对与处置机制,在信用风险管理方面,需要预测债券主体是否会违约,确定债券主体的违约概率。
但是,在对债券主体的违约概率进行计算时,仍存在一些问题。传统违约概率计算模型包括以逻辑回归为代表的传统简约模型,逻辑回归多为专家打分的方式,凭借业务人员的经验结合统计分析方法,得到变量及其权重,转化计算企业的违约概率,但该违约概率计算方式无法准确评估债券主体的违约概率。同时,通过逻辑回归模型仅能对当下静态时间点的债券主体状态进行评估,不能及时反映企业信用状况的动态变化,无法预测债券主体未来是否会违约。
针对相关技术中出现的问题,本申请实施例提供了一种数据处理方法,可以获取用于评估债券违约风险的多个第一预设特征,并根据遗传算法确定多个第一预设特征中的目标特征。在此基础上,可以获取与第一对象,即与债券主体对应的目标特征的目标特征向量,并基于目标特征向量和预设违约风险评估模型中遗传算法的适应度函数,确定债券主体的债券违约概率。如此,能够准确预测债券主体是否会违约,确定债券主体的违约概率,解决了相关技术中无法准确评估债券主体的违约概率的问题。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据处理方法进行详细地说明。
需要说明的是,本申请实施例中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
图1是本申请实施例提供的一种数据处理方法的流程示意图,该数据处理方法的执行主体可以为电子设备。需要说明的是,上述执行主体并不构成对本申请的限定。
在这里,电子设备可以是手机、平板电脑、一体机等具有通讯功能的设备,也可以是虚拟机或模拟器模拟的设备,当然,还可以是云服务器或者服务器集群等具有存储以及计算功能的设备。
如图1所示,本申请实施例提供的数据处理方法可以包括步骤110-步骤140。
步骤110,获取多个第一预设特征。
其中,多个第一预设特征用于评估债券违约风险,第一预设特征的数量可以根据具体需求进行设置,本申请在此不做具体限定。
需要说明的是,本申请实施例中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
在本申请的一些实施例中,第一预设特征可以由业务人员从多维度企业数据中筛选得到,该多维度企业数据可以包括但不限于:交易数据、财报数据、外部数据、宏观经济数据、工商数据、司法数据、舆情信息、企业发票数据。
示例性地,第一预设特征可以为现金流量、偿债能力、盈利能力、资产负债、营运能力、成长能力、企业性质、股东实力、舆情信息等指标。
在本申请实施例中,可以从企业多维度数据进行筛选,挖掘可以反映企业真实经营状态的评估指标,即第一预设特征,利用第一预设特征对企业进行客观公正的评估,提升评估结果的真实性和准确性。
步骤120,根据遗传算法确定多个第一预设特征中的目标特征。
具体地,电子设备可以利用遗传算法的搜索效率从海量的第一预设特征中完成“优势特征”,即目标特征的选择。
步骤130,获取与第一对象对应的目标特征的目标特征向量。
示例性地,第一对象为债券主体A,目标特征可以包括盈利能力、资产负债,则目标特征向量可以为债券主体A的营业毛利率、资产负债率对应的特征向量。
步骤140,基于目标特征向量和预设违约风险评估模型,确定第一对象的违约概率。
其中,预设违规风险评估模型包括遗传算法的适应度函数。
具体地,电子设备可以在第一对象的目标特征向量的基础上,利用遗传算法的适应度函数进行评估,得到第一对象的评估结果,即违约概率。
本申请实施例提供的数据处理方法,可以获取用于评估债券违约风险的多个第一预设特征,并根据遗传算法确定多个第一预设特征中的目标特征。在此基础上,可以获取与第一对象,即与债券主体对应的目标特征的目标特征向量,并基于目标特征向量和预设违约风险评估模型中遗传算法的适应度函数,确定债券主体的债券违约概率。如此,能够准确预测债券主体是否会违约,确定债券主体的违约概率,解决了相关技术中无法准确评估债券主体的违约概率的问题。
涉及步骤120,根据遗传算法确定多个第一预设特征中的目标特征。
在本申请的一些实施例中,第一预设特征的数量为可以N,N为大于零的整数,图2是本申请实施例提供的另一种数据处理方法的流程示意图,步骤120可以包括图2所示的步骤210-步骤270。
步骤210,对N个第一预设特征进行编码,得到N个第一预设特征对应的N个字符串。
具体地,电子设备对所有特征进行{0,1}初始化编码,根据第一预设特征的总数量(N)与目标特征数量(M),让二进制数{0,1}以不等概率出现,即N位字符串(即二进制串)中1出现的概率为M/N。
步骤220,基于N个字符串进行种群初始化,得到第一预设数量的个体。
其中,每个个体包括M个字符串,M为目标特征的预设数量,M为大于零的整数;第一预设数量可以根据具体需求进行设置,本申请在此不做具体限定。
在一个实施例中,第一预设数量可以为预设数值与第二数量的乘积,第二数量为第一对象的数量。
示例性地,预设数值可以为0.3,第一对象的数量可以为100,则第一预设数量可以为30,电子设备可以建立包括30个个体的种群,其中每个个体可以包括M个第一预设特征对应的M个字符串。
步骤230,基于遗传算法中的选择算子,从第一预设数量的个体中随机选取两个个体作为父体。
具体地,通过遗传算法可以从种群的第一预设数量的个体中选择优势个体(父体),淘汰劣势个体。
在一个实施例中,选择算子可以为轮盘赌选择方法、随机遍历抽样方法等。
示例性地,选择算子可以为轮盘赌选择方法,种群中的个体被选中的概率与个体对应的适应度值成正比,设计轮盘完成对优势个体的选择,作为父体。
在另一个实施例中,后续优化迭代过程中可以尝试不同选择算子,根据实际应用效果选择最适合的遗传算子。
步骤240,基于遗传算法中的交叉算子,确定父体的子代个体。
在一些实施例中,步骤240可以具体包括:
步骤1,确定两个父体对应的2M个字符串中重复出现的S个第一字符串。
在一个示例中,M为5,父体1对应字符串A1、B1、C1、D1、E1,父体2对应字符串A1、C1、G1、P1、Q1,则重复出现的S个第一字符串包括A1和B1,S为2。
步骤2,在S小于M的情况下,从第二字符串中随机选取M-S个第二字符串。
其中,第二字符串为2M个字符串中除S个第一字符串以外的字符串。
步骤3,根据S个第一字符串和M-S个第二字符串,确定子代个体。
参照上述示例,S为2,M为5,第二字符串为10个字符串中除A1和B1的字符串,即B1、D1、E1、G1、P1、Q1,则可以在B1、D1、E1、G1、P1、Q1中随机选取3个第二字符串,例如选取D1、E1、G1。如此,可以根据2个第一字符串和3个第二字符串确定子代个体,该子代个体对应A1、B1、D1、E1、G1。
在一个实施例中,对比随机选择出的两个父体,共同选择的特征(即特征所在位置同为“1”的基因位)记为“优势特征”,其中一个父体选择的特征(即只有一个父体在该基因位表现为“1”)记为“非优势特征”。子代个体中,保留“优势特征”,选择“非优势特征”,在此过程中应保证父代个体与子代个体的特征数相同。
步骤250,基于遗传算法的适应度函数,计算子代个体对应的适应度,并返回步骤230,直至子代个体对应的适应度大于预设适应度阈值,或者返回次数大于预设次数阈值,得到目标子代个体。
具体地,可以对子代个体进行解码,得到M个字符串对应的M个第一预设特征,向预设回归模型输入M个第一预设特征对应的特征向量,输出子代个体对应的第二波动率;基于第二波动率和遗传算法的适应度函数,计算得到子代个体的适应度。在子代个体的适应度不大于预设适应度阈值的情况下,需返回重新执行步骤230-步骤250,直至子代个体的适应度大于预设适应度阈值,或者,返回次数大于预设次数阈值,此时可以将最终得到的子代个体作为目标子代个体。
其中,预设适应度阈值和预设次数阈值可以根据具体需求进行设置,本申请在此不做具体限定。
示例性地,预设适应度阈值为0.8,预设次数阈值为50。
步骤260,对目标子代个体进行解码,得到M个目标特征。
具体地,可以对目标子代个体进行解码,得到M个字符串对应的M个第一预设特征,该目标子代个体对应的M个第一预设特征即为目标特征。
在本申请实施例中,遗传算法是一种智能式搜索算法,适合于解决各种非线性、多变量、多目标的复杂的自适应问题,且相比于传统违约概率计算模型如逻辑回归、KMV模型等,遗传算法具有智能式搜索、通用性强、可并行式运算等优点。因此,通过遗传算法可以对传统违约概率计算模型的违约概率计算过程进行有效优化,提升债券主体违约概率计算的准确度和效率。同时,遗传算法具有很强的鲁棒性,当数据源丰富,当具有大量可选择的多个第一预设特征时,通过遗传算法可以有效确定出多个第一预设特征中的优势特征,即目标特征。
在本申请的一些实施例中,在步骤230之后,步骤240之前,该方法还可以包括下述步骤:基于遗传算法中的变异算子,对子代个体对应的字符串进行反转变异操作。
具体地,在变异算子过程中,可以对子代个体对应的字符串(即特征编码)进行反转变异操作,利用变异算子的局部随机搜索能力加速遗传算法向最优解收敛,在父代中表现为“0”与“1”的基因位交换,即得到变异后的子个体。
在本申请实施例中,遗传算法可以利用进化过程中的信息进行搜索,具有自组织、自适应、和自学习性,因此电子设备可以通过变异算子,提升搜索效率,快速查找到两个父体中重复出现的字符串。
涉及步骤140,基于目标特征向量和预设违约风险评估模型,确定第一对象的违约概率。
在本申请的一些实施例中,预设违约风险评估模型还可以包括预设回归模型,图3是本申请实施例提供的再一种数据处理方法的流程示意图,步骤140可以包括图3所示的步骤310和步骤320。
步骤310,向预设回归模型输入目标特征向量,输出第一对象对应的第一波动率。
在一个实施例中,该预设回归模型可以为公式(1)所示:
Figure BDA0003483499760000111
其中,
Figure BDA0003483499760000112
为第一波动率,X为目标特征向量,
Figure BDA0003483499760000113
Figure BDA0003483499760000114
为常量。
步骤320,基于第一波动率和遗传算法的适应度函数,计算第一对象的违约概率。
在一个实施例中,步骤320可以具体包括:获取第一对象的金融数据;基于第一波动率、金融数据和遗传算法的适应度函数,计算得到第一对象的违约概率。
其中,该金融数据可以包括第一对象对应的资产值、无风险利率、负债到期时长。
在一个实施例中,该遗传算法的适应度函数可以为公式(2)所示:
Figure BDA0003483499760000115
其中,PD为违约概率,N为标准正态分布的累计概率分布函数,VA为企业资产价值,L为交割时的账面价值,r为无风险利率,τ为负债的到期时间,
Figure BDA0003483499760000116
为第一波动率。
需要说明的是,本申请实施例提供的遗传算法的适应度函数,既可以用于计算第一对象的违约概率,还可以用于计算子代个体的适应度,适应度越大的个体即为违约概率越高的债券主体。
在一个实施例中,预设违约风险评估模型可以为基于遗传算法的违规概率模型,该预设违约风险评估模型包括遗传算法、预设回归模型以及遗传算法的适应度函数,电子设备可以通过该模型执行步骤120和步骤140。
适应度函数(Fitness Function)计算出的适应度是遗传算法评价一个个体好坏的依据,并以此体现遗传算法“优胜劣汰”的规则。适应度函数的设计关乎个体的评价规则且会直接影响到遗传算法的收敛速度,是遗传算法的重要组成部分。
在基于遗传算法的违约概率模型中,适应度的计算即为对主体违约概率的计算。因此在设计适应度函数时,可以结合业务人员的经验与传统违约概率模型的设计思路,设计动态且具有前瞻性的预测模型,完成对主体初步评估。具体可以为以结构模型为基础的参数调优,参数即为来源于各方数据的特征组合,这样使得模型不失动态预测的同时可以充分挖掘企业各方面的特征。
下面对遗传算法的适应度函数的确定过程进行说明:
在本申请实施例中,以结构模型为基本框架,在结构模型中融合回归模型。
a.以该结构模型为莫顿(Merton)模型为例,假设企业资产价值VA服从几何布朗运动,则根据Black-Scholes期权定价模型,可以确定企业在时间点t的权益价值VE
其中,Black-Scholes期权定价模型可以包括公式(3)-公式(5):
VE=VAN(d1)+e-rτLN(d2) (3)
Figure BDA0003483499760000121
Figure BDA0003483499760000122
其中,N为标准正态分布的累计概率分布函数,VA为企业资产价值,L为交割时的账面价值,r为无风险利率,τ为负债的到期时间,σ为年度化方差,d1为第一概率参数,d2为第二概率参数。
在莫顿模型中,N(-d2)即为企业主体的违约概率。
b.在结构模型中融合公式(1)所示的预设回归模型,加入更多主体相关特征。
需要说明的是,本申请实施例中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
在莫顿模型中,σ参数可以表征为资产的波动性,在设计回归模型时,“资产的波动性”可以被引申为企业在某段时间的整体表现情况。入模型的特征由业务人员筛选,可从财报(现金流量、偿债能力、盈利能力、营运能力、成长能力等),外部数据(企业性质、股东实力、舆情信息等)等各方面挑选指标,拟合回归模型,得到预设回归模型,通过该预设回归模型可以确定企业主体的波动率,即
Figure BDA0003483499760000131
因此,将预设回归模型融合至结构模型中,可以得到公式(6):
Figure BDA0003483499760000132
将公式(3)-(5)带入公式(6),即可得到公式(2)所示的适应度函数表达式,确定出遗传算法的适应度函数。
需要说明的是,莫顿模型仅为结构模型的一种示例,在确定适应度函数时,本申请实施例也可以采用其他结构模型作为框架,替换莫顿模型。具体采用的回归方法,可根据实际情况进行调整,并且得到的拟合结果可以结合专家经验进行调整,对公司波动性进行评估。
在本申请实施例中,以结构模型为基本框架,在结构模型中融合回归模型,可以使得到的自适应度函数集成结构模型与简约模型的优势,得到动态全面的评估函数。同时,债券主体的违约概率计算,需针对不同行业、地区,结合主体的财务数据与多方外部数据,可使用数据繁多。随着时间推移,存在着数据更新、政策变化等诸多不确定因素,需及时进行模型迭代。本申请基于遗传算法的可扩展性,通过将遗传算法与传统违约概率模型相结合,可以利用遗传算法和机器学习,实现对传统违约概率模型的优化,有效地完成基于遗传算法的违规概率模型的建设。基于该优化后的违规概率模型,可以反映企业信用状况的动态变化,预测债券主体未来是否会违约,准确计算债券主体在未来一段时间内的违约概率。
在本申请的一些实施例中,针对不同行业的债券主体违约情况,业务人员可根据行业特征选择关注更具有此行业特性的指标进入模型。比如钢铁行业中该企业的人均粗钢产量、该企业的产品结构等,房地产行业的土地储备建筑面积等。由业务人员根据不同行业的特性进行入模变量的选择,使模型更准确。若在遗传算法的运行过程中,出现早熟的情况,应结合具体情况进行分析,可能是出现了违约特征很明显的个体也可能是算法设计不佳,此时将当对适应度函数的结构调优或通过混合遗传算法、协同进化算法等进行算法优化。
需要说明的是,本申请实施例提供的数据处理方法,执行主体可以为数据处理装置,或者该数据处理装置中的用于执行数据处理方法的控制模块。本申请实施例中以数据处理装置执行数据处理方法为例,说明本申请实施例提供的数据处理装置。下面对数据处理装置进行详细介绍。
图4是本申请实施例提供的一种数据处理装置的结构示意图。如图4所示,该数据处理装置400可以包括:获取模块410、确定模块420。
其中,获取模块,用于获取多个第一预设特征,多个第一预设特征用于评估债券违约风险;确定模块,用于根据遗传算法确定多个第一预设特征中的目标特征;获取模块,用于获取与第一对象对应的目标特征的目标特征向量;确定模块,还用于基于目标特征向量和预设违约风险评估模型,确定第一对象的违约概率,其中,预设违规风险评估模型包括遗传算法的适应度函数。
在本申请的一些实施例中,确定模块420包括:编码单元,用于对N个第一预设特征进行编码,得到N个第一预设特征对应的N个字符串;初始化单元,用于基于N个字符串进行种群初始化,得到第一预设数量的个体,其中,每个个体包括M个字符串,M为大于零的整数;选取单元,用于基于遗传算法中的选择算子,从第一预设数量的个体中随机选取两个个体作为父体;确定单元,用于基于遗传算法中的交叉算子,确定父体的子代个体;计算单元,用于基于遗传算法的适应度函数,计算子代个体对应的适应度,并返回基于遗传算法中的选择算子,从第一预设数量的个体中随机选取两个个体作为父体的步骤,直至子代个体对应的适应度大于预设适应度阈值,或者返回次数大于预设次数阈值,得到目标子代个体;解码单元,用于对目标子代个体进行解码,得到M个目标特征。
在本申请的一些实施例中,确定模块420,还用于在基于遗传算法中的交叉算子,确定父体的子代个体之后,基于遗传算法的适应度函数,计算子代个体对应的适应度之前,基于遗传算法中的变异算子,对子代个体对应的字符串进行反转变异操作。
在本申请的一些实施例中,确定单元具体用于:确定两个父体对应的2M个字符串中重复出现的S个第一字符串;在S小于M的情况下,从第二字符串中随机选取M-S个第二字符串,其中,第二字符串为2M个字符串中除S个第一字符串以外的字符串;根据S个第一字符串和M-S个第二字符串,确定子代个体。
在本申请的一些实施例中,第一预设数量为预设数值与第二数量的乘积,第二数量为第一对象的数量。
在本申请的一些实施例中,预设违约风险评估模型还包括预设回归模型,确定模块420包括:输入输出单元,用于向预设回归模型输入目标特征向量,输出第一对象对应的第一波动率;计算单元,用于基于第一波动率和遗传算法的适应度函数,计算第一对象的违约概率。
在本申请的一些实施例中,计算单元具体用于:获取第一对象的金融数据,金融数据包括第一对象对应的资产值、无风险利率、负债到期时长;基于第一波动率、金融数据和遗传算法的适应度函数,计算得到第一对象的违约概率。
本申请实施例的数据处理装置,可以获取用于评估债券违约风险的多个第一预设特征,并根据遗传算法确定多个第一预设特征中的目标特征。在此基础上,可以获取与第一对象,即与债券主体对应的目标特征的目标特征向量,并基于目标特征向量和预设违约风险评估模型中遗传算法的适应度函数,确定债券主体的债券违约概率。如此,能够准确预测债券主体是否会违约,确定债券主体的违约概率。
本申请实施例提供的数据处理装置能够实现图1-图3的方法实施例中电子设备所实现的各个过程,为避免重复,这里不再赘述。
本申请实施例中的数据处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的数据处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
图5是本申请实施例提供的一种电子设备的硬件结构示意图。
如图5所示,本实施例中的电子设备500可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。存储器可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请实施例的方法所描述的操作。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种数据处理方法。
在一个示例中,电子设备500还可以包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本申请实施例提供的电子设备,能够实现图1-图3的方法实施例中电子设备所实现的各个过程,为避免重复,在此不再赘述。
结合上述实施例中的数据处理方法,本申请实施例可提供一种数据处理系统,该数据处理系统包括上述实施例中的电子设备。电子设备的具体内容可参见上述实施例中的相关说明,在此不再赘述。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法的步骤。
结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机程序产品来实现。该(计算机)程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行时实现上述实施例中的任意一种数据处理方法的步骤。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取多个第一预设特征,所述多个第一预设特征用于评估债券违约风险;
根据遗传算法确定所述多个第一预设特征中的目标特征;
获取与第一对象对应的目标特征的目标特征向量;
基于所述目标特征向量和预设违约风险评估模型,确定所述第一对象的违约概率,其中,所述预设违规风险评估模型包括所述遗传算法的适应度函数。
2.根据权利要求1所述的方法,其特征在于,所述第一预设特征的数量为N,N为大于零的整数,所述根据遗传算法确定所述多个第一预设特征中的目标特征,包括:
对N个第一预设特征进行编码,得到所述N个第一预设特征对应的N个字符串;
基于所述N个字符串进行种群初始化,得到第一预设数量的个体,其中,每个个体包括M个字符串,M为大于零的整数;
基于所述遗传算法中的选择算子,从所述第一预设数量的个体中随机选取两个个体作为父体;
基于所述遗传算法中的交叉算子,确定所述父体的子代个体;
基于所述遗传算法的适应度函数,计算所述子代个体对应的适应度,并返回所述基于所述遗传算法中的选择算子,从所述第一预设数量的个体中随机选取两个个体作为父体的步骤,直至所述子代个体对应的适应度大于预设适应度阈值,或者返回次数大于预设次数阈值,得到目标子代个体;
对所述目标子代个体进行解码,得到M个所述目标特征。
3.根据权利要求2所述的方法,其特征在于,在所述基于所述遗传算法中的交叉算子,确定所述父体的子代个体之后,所述基于所述遗传算法的适应度函数,计算所述子代个体对应的适应度之前,所述方法还包括:
基于所述遗传算法中的变异算子,对子代个体对应的字符串进行反转变异操作。
4.根据权利要求2所述的方法,其特征在于,所述基于所述遗传算法中的交叉算子,确定所述父体的子代个体,包括:
确定两个父体对应的2M个字符串中重复出现的S个第一字符串;
在S小于M的情况下,从第二字符串中随机选取M-S个第二字符串,其中,所述第二字符串为所述2M个字符串中除S个第一字符串以外的字符串;
根据S个第一字符串和所述M-S个第二字符串,确定所述子代个体。
5.根据权利要求2所述的方法,其特征在于,所述第一预设数量为预设数值与第二数量的乘积,所述第二数量为所述第一对象的数量。
6.根据权利要求1所述的方法,其特征在于,所述预设违约风险评估模型还包括预设回归模型,所述基于所述目标特征向量和预设违约风险评估模型,确定所述第一对象的违约概率,包括:
向所述预设回归模型输入所述目标特征向量,输出所述第一对象对应的第一波动率;
基于所述第一波动率和所述遗传算法的适应度函数,计算所述第一对象的违约概率。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一波动率和所述遗传算法的适应度函数,计算所述第一对象的违约概率,包括:
获取所述第一对象的金融数据,所述金融数据包括所述第一对象对应的资产值、无风险利率、负债到期时长;
基于所述第一波动率、所述金融数据和所述遗传算法的适应度函数,计算得到所述第一对象的违约概率。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取多个第一预设特征,所述多个第一预设特征用于评估债券违约风险;
确定模块,用于根据遗传算法确定所述多个第一预设特征中的目标特征;
获取模块,用于获取与第一对象对应的目标特征的目标特征向量;
所述确定模块,还用于基于所述目标特征向量和预设违约风险评估模型,确定所述第一对象的违约概率,其中,所述预设违规风险评估模型包括所述遗传算法的适应度函数。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的数据处理方法的步骤。
11.一种计算机程序产品,其特征在于,所述程序产品被存储在非易失的存储介质中,所述程序产品被至少一个处理器执行以实现如权利要求1-7任一项所述的数据处理方法的步骤。
CN202210074904.3A 2022-01-21 2022-01-21 数据处理方法、装置、设备、介质及产品 Pending CN114399224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210074904.3A CN114399224A (zh) 2022-01-21 2022-01-21 数据处理方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210074904.3A CN114399224A (zh) 2022-01-21 2022-01-21 数据处理方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN114399224A true CN114399224A (zh) 2022-04-26

Family

ID=81232492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210074904.3A Pending CN114399224A (zh) 2022-01-21 2022-01-21 数据处理方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN114399224A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151851A (zh) * 2023-09-12 2023-12-01 浪潮数字(山东)建设运营有限公司 基于遗传算法的银行风险预测方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151851A (zh) * 2023-09-12 2023-12-01 浪潮数字(山东)建设运营有限公司 基于遗传算法的银行风险预测方法、装置和电子设备
CN117151851B (zh) * 2023-09-12 2024-04-30 浪潮数字(山东)建设运营有限公司 基于遗传算法的银行风险预测方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
TW202011285A (zh) 樣本屬性評估模型訓練方法、裝置及伺服器
CN112734559B (zh) 企业信用风险评价方法、装置及电子设备
CN112561320A (zh) 机构风险预测模型的训练方法、机构风险预测方法和装置
CN112750029A (zh) 信用风险预测方法、装置、电子设备及存储介质
CN114549136A (zh) 供应链用户信用评价方法、装置、设备及计算机存储介质
CN114399224A (zh) 数据处理方法、装置、设备、介质及产品
CN114662926A (zh) 科技企业评价方法及其装置、设备、介质
CN110213239B (zh) 可疑交易报文生成方法、装置及服务器
CN111382909A (zh) 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备
CN114757497A (zh) 科技企业技术增信方法及其装置、设备、介质
CN114581209A (zh) 财务分析模型的训练方法、装置、设备及存储介质
CN114240210A (zh) 信用评价方法、装置、设备及计算机可读存储介质
CN114677139A (zh) 确定贷款额度的方法及装置、设备、产品及可读存储介质
CN114493200A (zh) 企业品牌价值的在线评估方法、装置、设备及存储介质
CN115545533A (zh) 数据处理方法、装置、设备、介质及产品
CN112529303A (zh) 基于模糊决策的风险预测方法、装置、设备和存储介质
CN113627730A (zh) 一种企业评估方法、装置、设备及计算机存储介质
Xu et al. Research on Multistage Dynamic Trading Model Based on Gray Model and Auto-Regressive Integrated Moving Average Model
CN112906765A (zh) 一种基于rbf神经网络的客户洗钱风险等级划分方法及系统
CN110610320A (zh) 金融风险等级预测方法、装置、电子设备、存储介质
CN111179070A (zh) 一种基于lstm的借贷风险时效性预测系统及方法
KR101927317B1 (ko) 부채 관리 능력 평가 방법 및 장치
Kuznietsova et al. Adaptive Approach to Building Risk Models of Financial Systems.
CN115170179B (zh) 贸易政策不确定性指数确定方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination