风险评估方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种风险评估方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,人工智能(Artificial Intelligence,简称:AI)逐渐广泛应用于智能生活的各个方面,例如对数据的预测分类和风险评估。而作为AI的核心技术-机器学习,在以训练数据对初始模型进行训练得到最后的处理模型之前,首先需要对所选择的机器学习模型进行超参数的配置和优化得到初始模型。处理模型在特定数据集上的处理性能,较大依赖于初始模型训练时所使用的超参数设置。因此,超参数的配置是影响处理模型对特定数据集处理性能的重要因素之一。
现有风险评估方法所应用的处理模型中,一种方式是依靠开发人员自身经验对超参数人工调整进行配置,另一种方式是采用随机值作为初始超参数进行优化搜索得到最优超参数。
然而,人工配置超参数对操作经验过于依赖,可靠性不够高,且配置效率也不够高;优化搜索方法在所需训练数据较大时,计算开销交到,并存在局部最优值的问题。可见,现有的风险评估方法存在处理性能不够高的问题。
发明内容
本申请实施例提供一种风险评估方法、装置、设备及计算机可读存储介质,通过提高超参数的可靠性及与待处理数据的匹配性,进一步提高风险评估的可靠性和准确性。
根据本申请的第一方面,提供一种风险评估方法,包括:
获取待评估对象的目标监测数据;
以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果;
其中,所述风险评估模型是用第一风险监测数据对初始模型进行参数训练学习得到的;所述初始模型的超参数是根据第二风险监测数据在预设的多个历史超参数中确定初始超参数,并对所述初始超参数优化得到的最优超参数;所述第一风险监测数据包括所述第二风险监测数据。
可选地,在所述以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果之前,还包括:
获取用于描述所述第二风险监测数据的第一元特征;
在预设的元知识库中确定与所述第一元特征相匹配的第二元特征,其中,所述元知识库中包括多个历史元特征,以及各所述历史元特征对应的历史超参数,所述第二元特征是与所述第一元特征相似度最高的一个或多个历史元特征;
将所述第二元特征对应的历史超参数作为初始超参数进行优化处理,得到最优超参数;
根据所述最优超参数,得到初始模型;
根据所述第一风险监测数据对所述初始模型进行参数训练,得到所述风险评估模型。
根据本申请的第二方面,提供一种风险评估装置,包括:
获取模块,用于获取待评估对象的目标监测数据;
处理模块,用于以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果;
其中,所述风险评估模型是用第一风险监测数据对初始模型进行参数训练学习得到的;所述初始模型的超参数是根据第二风险监测数据在预设的多个历史超参数中确定初始超参数,并对所述初始超参数优化得到的最优超参数;所述第一风险监测数据包括所述第二风险监测数据,且所述第一风险监测数据是对所述待评估对象获取的历史监测数据。
可选地,还包括:
元学习模块,用于在所述以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果之前,获取用于描述所述第二风险监测数据的第一元特征;
近似查找模块,用于在预设的元知识库中确定与所述第一元特征相匹配的第二元特征,其中,所述元知识库中包括多个历史元特征,以及各所述历史元特征对应的历史超参数,所述第二元特征是与所述第一元特征相似度最高的一个或多个历史元特征;
优化模块,用于将所述第二元特征对应的历史超参数作为初始超参数进行优化处理,得到最优超参数;
配置模块,用于根据所述最优超参数,得到初始模型;
训练模块,用于根据所述第一风险监测数据对所述初始模型进行参数训练,得到所述风险评估模型。
根据本申请的第三方面,提供一种风险评估设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序时用于执行本申请第一方面任一所述风险评估方法。
根据本申请的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本申请第一方面任一所述风险评估方法。
本申请实施例提供的一种风险评估方法、装置、设备及计算机可读存储介质,通过获取待评估对象的目标监测数据;以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果;其中,所述风险评估模型是用第一风险监测数据对初始模型进行参数训练学习得到的;所述初始模型的超参数是根据第二风险监测数据在预设的多个历史超参数中确定初始超参数,并对所述初始超参数优化得到的最优超参数,从而避免因优化初值随机选择导致的局部最优值,且初始超参数是根据第二风险监测数据在历史超参数中选择的,从而在超参数的优化初始引入了历史经验,对于目标监测数据具有更佳的模型性能,提高风险评估模型对目标监测数据处理的准确性和可靠性;所述第一风险监测数据包括所述第二风险监测数据。
附图说明
图1是本申请实施例提供的一种应用场景示意图;
图2是本申请实施例提供的一种风险评估方法流程示意图;
图3是本申请实施例提供的一种风险评估模型获取方法的流程示意图;
图4是本申请实施例提供的一种风险评估装置结构示意图;
图5是本申请实施例提供的另一种风险评估装置结构示意图;
图6是本申请实施例提供的一种风险评估设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应当理解,在本申请中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本申请中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
应当理解,超参数(hyperparameter),是指在机器学习的上下文中,在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常是定义关于模型的更高层次的概念(如复杂性或学习能力),而不能直接从标准模型培训过程中的数据中学习,超参数需要预先定义。超参数例如是树的数量或树的深度、矩阵分解中潜在因素的数量、学习率(多种模式)、k均值聚类中的簇数等。
应当理解,元特征(meta feature),是用来描述学习问题(训练数据、待测数据)的特征信息。元特征例如有种类数量、缺值数量、缺值位置、数据长度、最大值、最小值、数据类型、数值型数据的数量、符号性数据的数量等等。通过不同数据可以用相应的元特征来表示。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
参见图1,是本申请实施例提供的一种应用场景示意图。图1所示的目标监测数据例如可以是用户行为数据、商品销售数据和/或仓库货物进出记录数据等,相应的风险评估模型可以是用于用户信誉风险评估、单类型商品销售风险预估、整体销售额预测或者仓库风险评估等等。
在现有技术中,初始模型的超参数配置需要花费大量人力,或者容易陷入局部最优化而导致所设置的超参数与待评估对象的目标监测数据匹配性不佳,进而存在训练出来的风险评估模型对目标监测数据的评估不够准确的问题。
为了解决现有技术中存在的上述问题,本申请提供的风险评估方法、装置、设备及计算机可读存储介质,通过在超参数设置阶段引入图1所示的第二风险监测数据和历史超参数,在超参数的优化初始阶段引入了历史经验,使优化的初值更加接近最终的最优超参数,缩短超参数的优化时间,减少计算开销,提高风险评估模型对目标监测数据处理的准确性和可靠性。
参见图2,是本申请实施例提供的一种风险评估方法流程示意图,图2所示方法的执行主体为风险评估装置,具体可以是软件和/或硬件装置。图2所示方法包括步骤S101至步骤S102,具体如下:
S101,获取待评估对象的目标监测数据。
待评估对象可以理解为商品销售额、用户信誉度、仓库采购量等需要进行风险评估的对象。
若是对商品销售额进行风险评估时,目标监测数据例如是商品销售额分布数据。若是对用户信誉度进行风险评估时,目标监测数据例如是用户的购物数据、还贷数据、售后评价数据等。若是对仓库采购量进行风险评估时,目标监测数据例如是仓库对各类货物的入库、出库数据。实际应用中,目标监测数据可以理解为从日志中采集到的一组数值矩阵。
S102,以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果;其中,所述风险评估模型是用第一风险监测数据对初始模型进行参数训练学习得到的;所述初始模型的超参数是根据第二风险监测数据在预设的多个历史超参数中确定初始超参数,并对所述初始超参数优化得到的最优超参数;所述第一风险监测数据包括所述第二风险监测数据,且所述第一风险监测数据是对所述待评估对象获取的历史监测数据。
例如,风险评估模型是用历史18个月里门店销售额监测数据作为训练数据,训练的模型,专用于解决对同类门店销售额数据进行风险评估,从而适用于对目标门店销售额数据进行风险评估。
进一步地,风险评估模型中的超参数是根据上述训练数据中的部分数据,在历史超参数中选定的初始超参数,基于用于解决类似问题的历史超参数,以使初始超参数更接近于上述训练数据的最优超参数。现有的超参数优化方法,是以随机值作为初始值进行优化迭代,存在陷入局部最优值的风险,导致现有技术中的最优超参数稳定性和可靠性不够高。本实施例利用了以外模型的训练经验,通过在历史超参数中确定初始超参数,缩短了由初始超参数优化得到最优超参数的优化时间,减少了计算开销,也提高了最优超参数稳定性和可靠性。
本实施例提供的一种风险评估方法,通过获取待评估对象的目标监测数据;以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果;其中,所述风险评估模型是用第一风险监测数据对初始模型进行参数训练学习得到的;所述初始模型的超参数是根据第二风险监测数据在预设的多个历史超参数中确定初始超参数,并对所述初始超参数优化得到的最优超参数,从而避免因优化初值随机选择导致的局部最优值,且初始超参数是根据第二风险监测数据在历史超参数中选择的,从而在超参数的优化初始引入了历史经验,对于目标监测数据具有更佳的模型性能,提高风险评估模型对目标监测数据处理的准确性和可靠性;所述第一风险监测数据包括所述第二风险监测数据,且所述第一风险监测数据是对所述待评估对象获取的历史监测数据。
在上述实施例的基础上,在步骤S102(以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果)之前,还可以包括构建和训练风险评估模型的过程。本实施例在风险评估模型的获取过程中,引入元特征和元知识库,基于元知识库中用于类似模型的历史超参数,缩短风险评估模型的最优超参数的优化过程,减少计算开销,提高风险评估模型对目标监测数据的处理性能。具体可以参见图3,是本申请实施例提供的一种风险评估模型获取方法的流程示意图。图3所示的过程,具体包括步骤S201至步骤S205,具体如下:
S201,获取用于描述所述第二风险监测数据的第一元特征。
第二风险监测数据可以全部或者部分的第一风险监测数据。通过对第二风险监测数据的特征提取,得到第一元特征fi。第一元特征fi可以理解为是用于描述第二风险监测数据的多项元特征所构成的数组或向量。
S202,在预设的元知识库中确定与所述第一元特征相匹配的第二元特征,其中,所述元知识库中包括多个历史元特征,以及各所述历史元特征对应的历史超参数,所述第二元特征是与所述第一元特征相似度最高的一个或多个历史元特征。
示例性地,元知识库D内包含有用于描述n个问题(即n种待测数据)的历史元特征f
1,…,f
n,以及与历史元特征一一对应的历史超参数
具体可以用集合来表示:
元知识库D中包含的历史超参数都是对历史元特征所对应处理模型中已验证的最优超参数。元知识库所表征的是各种问题处理模型中对于设置超参数的历史经验。这里对问题的描述,就是对待处理数据的描述。因此,在元知识库中查找到与第一元特征相近的历史元特征,就是查找到曾经解决过的类似问题的经验数据(历史元特征)。
在预设的元知识库中确定与所述第一元特征相匹配的第二元特征的具体方法有多种,例如根据下面公式计算各历史元特征对应的dp的从小到大排序,然后将排序前K名的历史元特征作为第二元特征,其中,K为正整数,p例如可以取值为2。
dp=||fi-fj||p,fj∈D
在p为2时,即以欧氏距离(欧几里得距离)作为衡量元特征匹配程度的标准。那么,步骤S202可以是获取预设的元知识库中各历史特征与所述第一元特征的欧氏距离,然后将所述欧氏距离最小的一个或多个所述历史元特征,或者所述欧氏距离小于预设匹配阈值的一个或多个所述历史元特征,确定为第二元特征。
S203,将所述第二元特征对应的历史超参数作为初始超参数进行优化处理,得到最优超参数。
应当理解地,第二元特征所描述的数据是与第二风险监测数据相似的数据。那么,利用第二元特征所描述数据的处理模型训练经验,就很可能促进和优化风险评估模型的确定。例如,第二风险监测数据是超市门店的销售额数据,第二元特征描述的是网络电子商务的销售额数据,两种数据具有一定的相似程度,可以将用于对网络电子商务的销售额数据进行风险评估的模型历史超参数,作为本实施例的初始超参数,即:将所述第二元特征对应的历史超参数作为初始超参数。由此,确定初始超参数时就引入了相似的历史经验,相对于现有技术中直接取随机值而言,本实施例中的初始超参数更加接近最优超参数,从而能够降低最优超参数是局部最优值的可能性。
在确定了初始超参数之后,可以开始对初始超参数进行超参数优化。可用的超参数优化例如是基于贝叶斯优化或遗传算法的各种超参数优化方法,具体可以是利用机器学习算法的超参数迭代优化。在一些实施例总,例如可以获取用于确定初始模型的机器学习模型,以及所述机器学习模型的超参数取值范围;以所述初始超参数为迭代初值,在所述超参数取值范围内搜索确定使所述机器学习模型符合预设评价条件的最优超参数。例如,设定待优化的机器学习模型的超参数搜索空间C,以及用于在C内验证超参数性能的评价函数O,然后采用迭代计算,不断从初始超参数开始对机器学习模型进行迭代处理,以评价函数O为约束,逐渐逼近最优值,得到最优超参数。
现有的优化方法通常是在搜索空间内随机取初始超参数,而本实施例是基于相似数据的历史经验确定初始超参数,因而本实施例的优化初值更接近于目标值,实现了在更少的迭代次数后搜索到最优超参数、缩短计算时间、降低计算开销。而且,又因为初始超参数是在相似数据处理中验证过的历史超参数(对于第二元特征而言是最优超参数),据此优化得到的最优超参数也将具有较高的可靠性,模型稳定性也更高。
在一些实施例中,得到最优超参数之后,还可以将所述第一元特征,以及所述第一元特征对应的最优超参数,存储入所述元知识库,从而对元知识库进行更新和优化。不断更新的元知识库将积累越来越多的经验知识,从而在后续风险评估模型获取过程中,提供更加合适的初始超参数。
S204,根据所述最优超参数,得到初始模型。
在一些实施例中,用于确定最优超参数的第二风险监测数据是全部的第一风险监测数据,本步骤中得到的最优超参数直接作为初始模型的超参数,接着就可以进行其余参数的训练学习过程。
在另一些实施例中,为了加快超参数优化过程,用于确定最优超参数的第二风险监测数据是第一风险监测数据的一部分数据,第一风险监测数据还包括第三风险监测数据,那么,还可以进行追加训练。例如,根据所述最优超参数和预设的用于确定初始模型的机器学习模型,得到具有所述最优超参数的机器学习模型;根据所述第三风险监测数据,对具有所述最优超参数的机器学习模型中的最优超参数进行追加训练,得到所述初始模型。
S205,根据所述第一风险监测数据对所述初始模型进行参数训练,得到所述风险评估模型。
可以理解为,本步骤是以第一风险监测数据对初始模型进行除了超参数以外的参数训练,完成风险评估模型的学习。
参见图4,是本申请实施例提供的一种风险评估装置结构示意图。图4所示的风险评估装置40包括:
获取模块41,用于获取待评估对象的目标监测数据。
处理模块42,用于以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果。
其中,所述风险评估模型是用第一风险监测数据对初始模型进行参数训练学习得到的;所述初始模型的超参数是根据第二风险监测数据在预设的多个历史超参数中确定初始超参数,并对所述初始超参数优化得到的最优超参数;所述第一风险监测数据包括所述第二风险监测数据,且所述第一风险监测数据是对所述待评估对象获取的历史监测数据。
图4所示实施例的风险评估装置对应地可用于执行图2所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
参见图5,是本申请实施例提供的另一种风险评估装置结构示意图。图5所示的风险评估装置40还包括:
元学习模块51,用于在所述以预设的风险评估模型对所述目标监测数据进行处理,得到风险评估结果之前,获取用于描述所述第二风险监测数据的第一元特征;
近似查找模块52,用于在预设的元知识库中确定与所述第一元特征相匹配的第二元特征,其中,所述元知识库中包括多个历史元特征,以及各所述历史元特征对应的历史超参数,所述第二元特征是与所述第一元特征相似度最高的一个或多个历史元特征;
优化模块53,用于将所述第二元特征对应的历史超参数作为初始超参数进行优化处理,得到最优超参数;
配置模块54,用于根据所述最优超参数,得到初始模型;
训练模块55,用于根据所述第一风险监测数据对所述初始模型进行参数训练,得到所述风险评估模型。
图5所示实施例的风险评估装置对应地可用于执行图3所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
可选地,近似查找模块52,用于获取预设的元知识库中各历史特征与所述第一元特征的欧氏距离;将所述欧氏距离最小的一个或多个所述历史元特征,或者所述欧氏距离小于预设匹配阈值的一个或多个所述历史元特征,确定为第二元特征。
可选地,在所述优化模块53将所述第二元特征对应的历史超参数作为初始超参数进行优化处理,得到最优超参数之后,近似查找模块52还用于将所述第一元特征,以及所述第一元特征对应的最优超参数,存储入所述元知识库。
可选地,优化模块53,用于将所述第二元特征对应的历史超参数作为初始超参数;获取用于确定初始模型的机器学习模型,以及所述机器学习模型的超参数取值范围;以所述初始超参数为迭代初值,在所述超参数取值范围内搜索确定使所述机器学习模型符合预设评价条件的最优超参数。
可选地,所述第一风险监测数据还包括第三风险监测数据。
相应地,配置模块54,用于根据所述最优超参数和预设的用于确定初始模型的机器学习模型,得到具有所述最优超参数的机器学习模型;根据所述第三风险监测数据,对具有所述最优超参数的机器学习模型中的最优超参数进行追加训练,得到所述初始模型。
参见图6,是本申请实施例提供的一种风险评估设备的硬件结构示意图,该风险评估设备60包括:处理器61、存储器62和计算机程序;其中
存储器62,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
处理器61,用于执行所述存储器存储的计算机程序,以实现上述方法中风险评估装置执行的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器62既可以是独立的,也可以跟处理器61集成在一起。
当所述存储器62是独立于处理器61之外的器件时,所述风险评估设备还可以包括:
总线63,用于连接所述存储器62和处理器61。图6的风险评估设备还可以进一步包括发送器(图中未画出),用于向外发送处理器61生成的风险评估结果。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的风险评估方法。
其中,计算机可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,计算机可读存储介质耦合至处理器,从而使处理器能够从该计算机可读存储介质读取信息,且可向该计算机可读存储介质写入信息。当然,计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和计算机可读存储介质也可以作为分立组件存在于通信设备中。计算机可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本申请还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在计算机可读存储介质中。设备的至少一个处理器可以从计算机可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的风险评估方法。
在上述风险评估设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。