CN111881008B - 一种数据评测、模型训练方法、装置、设备及存储介质 - Google Patents
一种数据评测、模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111881008B CN111881008B CN201911309432.XA CN201911309432A CN111881008B CN 111881008 B CN111881008 B CN 111881008B CN 201911309432 A CN201911309432 A CN 201911309432A CN 111881008 B CN111881008 B CN 111881008B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- variables
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Abstract
本发明公开了一种数据评测、模型训练方法、装置、设备及存储介质,涉及通信技术领域,以解决数据评测结果不准确的问题。该包括:根据第一样本和第二样本获取对应样本的候选数据集作为训练样本,所述训练样本中所包括的变量的数量大于1;从所述训练样本的变量中选择候选变量;确定模型算法;将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。本发明实施例可提高获得的评测结果的准确性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据评测、模型训练方法、装置、设备及存储介质。
背景技术
随着金融业务的发展,对用户个人信用的把控愈加迫切。目前仅靠征信数据不足以覆盖全部人群,因此,在现有征信数据的基础上,需借助其他公司提供的数据服务,更全面的评价用户的个人信用,同时完善现有征信体系。
在新接入数据源前,需合理评估该数据源的效果。目前的评测方案大多是单一的从单变量或模型的角度考虑数据源的评测效果,从而导致对数据的评测结果不准确。
发明内容
本发明实施例提供一种数据评测、模型训练方法、装置、设备及存储介质,以解决数据评测结果不准确的问题。
第一方面,本发明实施例提供了一种数据评测模型训练方法,包括:
根据第一样本和第二样本获取对应样本的候选数据集作为训练样本,所述训练样本中所包括的变量的数量大于1;
从所述训练样本的变量中选择候选变量;
确定模型算法;
将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
第二方面,本发明实施例还提供一种数据评测方法,包括:
利用如第一方面所述的数据评测模型训练方法,得到数据评测模型,所述数据评测模型的训练样本包括测试集,且所述训练样本为待评测数据;
将所述测试集输入到所述数据评测模型中,得到数据评测结果。
第三方面,本发明实施例还提供一种数据评测模型训练装置,包括:
获取模块,用于根据第一样本和第二样本获取对应样本的候选数据集作为训练样本,所述训练样本中所包括的变量的数量大于1;
选择模块,用于从所述训练样本的变量中选择候选变量;
确定模块,用于确定模型算法;
训练模块,用于将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
第四方面,本发明实施例还提供一种数据评测装置,包括:
模型获取模块,用于利用如第一方面所述的数据评测模型训练方法,得到数据评测模型,所述数据评测模型的训练样本包括测试集,且所述训练样本为待评测数据;
数据评测模块,用于将所述测试集输入到所述数据评测模型中,得到数据评测结果。
第五方面,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的第一方面或者第二方面方法中的步骤。
第六方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的第一方面或者第二方面方法中的步骤。
在本发明实施例中,根据第一样本和第二样本获取训练样本,并从所述训练样本的变量中选择候选变量,确定模型算法;将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型,并根据数据评测模型得到训练样本的评测结果,所述训练样本为待评测数据。因此,利用本发明实施例的方案,通过综合考虑变量和模型算法来对待评测数据进行模型训练及数据评测,增加了模型训练的维度,使得评测结果更加准确。
进一步地,在针对不同数据源,可以选择不同的变量及模型算法进行模型训练,也可以选择相同的变量及模型算法,进行模型训练;使得训练得到对应数据源的评测模型,从而可以根据相同变量维度的模型来评测不同数据源的优劣,这样不仅能提高评测结果的准确性,而且能用同一个标准评测不同的数据源,使得在分析不同数据源的数据时,能够更加客观、准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据评测模型训练方法的流程图;
图2是本发明实施例提供的数据评测方法的流程图;
图3是本发明实施例提供的数据评测装置的结构图;
图4是本发明实施例提供的数据评测模型训练装置的结构图;
图5是本发明实施例提供的电子设备的结构图之一;
图6是本发明实施例提供的电子设备的结构图之二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的数据评测模型训练方法的流程图,如图1所示,包括以下步骤:
步骤101、根据第一样本和第二样本获取对应样本的候选数据集作为训练样本。
在本发明实施例中,根据应用场景的不同,可获得不同形式的样本。在选取样本时,主要考虑的因素包括:样本总量、产品分布、客群分布、正负样本比例等。在此,可将选取的样本分为第一样本和第二样本。第一样本也可称为正常样本,是历史上经过风险决策后的数据。而实际上,还可有一些数据未经过风险决策,而这些数据,也可组成对应的样本。第二样本可以理解为为了测试目标场景(可根据实际需要指定目标场景)而随机选择的原始数据样本,且将该原始数据样本标注为预设标签,所述预设标签例如可为表征该样本未能通过审批的标签。因此,也可称为随机样本。这些随机样本可包括历史上未经过风险决策的数据。
因此,通过在确保每类产品、每个客群有足够样本的基础上,增加随机样本作为训练样本,可以更好的在更多样本上评测数据源的效果,从而提高数据评测的准确性。
在确定了样本后,根据确定的样本信息,从外部数据源获取对应样本的候选数据集,作为训练样本。也即,对应样本的候选数据集指的是,获取的候选数据集是符合第一样本和第二样本要求的数据集。例如,候选数据集的数据源覆盖率是符合第一样本和第二样本要求的数据源覆盖率的数据集。
其中,所述训练样本中所包括的变量的数量大于1。可以将训练样本中的一部分作为测试集,用于进行评测,将训练样本中除所述测试集之外的数据的一部分或者全部作为训练集,用于训练数据评测模型。
步骤102、从所述训练样本的变量中选择候选变量。
具体的,在此步骤中,根据变量选择参数从所述训练集中选择用于构建数据评测模型的候选变量;其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项。
步骤103、确定模型算法。
其中,所述模型算法例如可以是逻辑回归、决策树、支持向量机等。
步骤104、将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
其中,所述候选变量对应的数据集可以是训练集,还可以是训练集的一部分。
通过以上描述可以看出,在本发明实施例中,根据第一样本和第二样本获取训练样本,并从所述训练样本的变量中选择候选变量,确定模型算法;将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型,并根据数据评测模型得到训练样本的评测结果,所述训练样本为待评测数据。因此,利用本发明实施例的方案,通过综合考虑变量和模型算法来对待评测数据进行模型训练及数据评测,增加了模型训练的维度,使得评测结果更加准确。
此外,在针对不同数据源,可以选择不同的变量及模型算法进行模型训练,也可以选择相同的变量及模型算法,进行模型训练。通过这种方式,使得训练得到对应数据源的评测模型,从而可以根据相同维度的模型来评测不同数据源的优劣,这样不仅能提高评测结果的准确性,而且能用同一个标准评测不同的数据源,使得在分析不同数据源的数据时,能够更加客观、准确。
参见图2,图2是本发明实施例提供的数据评测方法的流程图,如图2所示,包括以下步骤:
步骤201、得到数据评测模型。
在此,可利用如图1所述的数据评测模型训练方法得到数据评测模型。所述数据评测模型的训练样本包括测试集,且所述训练样本为待评测数据。
可选的,在步骤201之前,所述方法还可包括:
步骤200a、获取所述待评测数据的数据源覆盖率。
所述数据源覆盖率指的是待测评数据对用户的覆盖程度。待评测数据是某些用户对应的数据,这些用户数据是否覆盖了后续开展业务所需的用户数据,或者,这些用户数据占后续开展业务所需的用户数据比例,即可认为是在此的数据源覆盖率。其中,所述预设条件可以根据需要设置。不同数据源对客群的覆盖程度不一致,在业务最终使用时,通过对数据源的覆盖率进行分析,可以将未覆盖到的人群需考虑其他方式评估其信用,从而提高评测结果的准确性。
步骤200b、在所述数据源覆盖率满足预设条件的情况下,对所述待评测数据进行分析,获得所述待评测数据所包括的目标参数,所述目标参数包括变量的数量和变量的类型中的至少一个。
数据源提供的待评测数据的变量,从数量上可分为仅提供一个变量或多个变量两类。其中,所述变量可以理解为待评测数据中所包括的参数,例如,年龄,性别等。变量的类型包括数值,字符等等。
步骤200c、根据所述目标参数确定用于数据评测的模型算法。
其中,所述模型算法例如可以是逻辑回归、决策树、支持向量机等。在实际应用中,需在综合考虑变量和应用场景之后选择合适的算法。在本实施例中,至少需要确定一种模型算法。
在目标参数是变量的数量的情况下,如果所述待评测数据所包括的变量的数量为1,也即是单变量,那么可获得单变量的数据评测模型,并对单变量的数据源从缺失率、变量与风险的关系等之一或者组合进行评测。
在所述变量的数量大于1的情况下,在得到数据评测模型的过程中,可获取所述待评测数据中的训练集包括的N个变量,其中N为大于1的整数。然后,将所述N个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
具体的,根据变量选择参数从所述N个变量中选择M个变量,其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项,M≤N,M为大于1的整数。然后,将所述M个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。通过这种方式,可使得选择的M个变量更为贴近实际需求,从而提高获得的模型的准确性。
在目标参数是变量的类型的情况下,也可按照上述方式获取数据评测模型。当然,在实际应用中,也可综合考虑变量的数量和变量的类型来获取数据评测模型。
步骤202、将所述测试集输入到所述数据评测模型中,得到数据评测结果。
其中,所述数据评测模型可以是利用第一样本和/或第二样本训练得到。也就是说,在本发明实施例中,可训练三种类型的数据评测模型:一种是通过第一样本训练得到,另一种是通过第二样本训练得到,再一种是利用第一样本和第二样本数据训练得到。在实际应用中,可选择任意一种数据评测模型作为步骤202中的数据评测模型,还可同时使用两种数据评测模型作为步骤202中数据评测模型。
在本发明实施例中,在训练数据评测模型时,通过综合考虑变量和模型算法来对待评测数据进行模型训练及数据评测,增加了模型训练的维度,使得评测结果更加准确。此外,在针对不同数据源,可以选择不同的变量及模型算法进行模型训练,也可以选择相同的变量及模型算法,进行模型训练。通过这种方式,使得训练得到对应数据源的评测模型,从而可以根据相同维度的模型来评测不同数据源的优劣,这样不仅能提高评测结果的准确性,而且能用同一个标准评测不同的数据源,使得在分析不同数据源的数据时,能够更加客观、准确。
在实际应用中,数据源公司离线返回的数据或者调用对方的数据之后,需要对数据进行评测,并输出最终的评测结果,以便应用于不同的业务类型。具体的数据评测方法可包括以下过程:
首先,选取合理的待评测样本。
在实际应用中,可主要从样本总量、产品分布、客群分布、正负样本比例等方面考虑样本的选取。在确保每类产品、每个客群有足够第一样本的基础上,在本发明实施例中,还可增加第二样本作为待评测样本,从而更好的在所有样本上评测数据源的效果。
选用第一样本、第二样本作为效果评估的数据,可更接近真实的数据源效果,同时在和其他数据源进行比较时,能更好的统一衡量基准。
通过选取的待评测样本,从数据源获得对应的待评测数据。
第二,对待评测数据进行分析。
在此主要是对数据源的覆盖率继续进行分析。不同数据源对客群的覆盖程度不一致,在业务最终使用时,未覆盖到的人群需考虑其他方式评估其信用。
第三,对数据源包含的变量进行分析。
不同的数据源提供的变量存在差异,从数量上可分为仅提供一个变量或多个变量两类。
单变量的数据源从缺失率、变量与风险的关系两方面进行分析。
多变量数据源分析需构建模型,通过模型综合评估其效果。数据源提供多个变量时,单一的变量维度分析不能满足覆盖所有的信息,因此,需通过构建模型进一步评估模型的效果。
构建模型主要包括变量筛选、选择算法、模型训练。在进行变量筛选时,可根据变量的缺失率、有效性(IV(Information value,信息值)、WOE(Weight of Evidence,证据权重)等)、稳定性(psi)综合考虑后进行筛选,同时根据选择的算法不同,还需考虑变量的相关性、共线性等。算法的选择也会影响最终的模型效果,因此,需在综合考虑变量和目标之后选择合适的算法。常用的算法可包括逻辑回归、决策树、支持向量机等。确定变量和算法之后,进行模型训练,同时对模型调参优化,最近完成模型构建。
第四,获得评测结果,并显示。
评测结果的显示形式不限,简单的图表、文档、PPT均可直观的展示数据源的评测结果,也可将结果生成网页展示,或者直接在可视化系统中展示。
第五,根据评测结果确定数据源的具体应用场景。
例如,可将数据源的评测结果提供给业务方,并应用到具体的场景中,进行风险决策。如:和风险强相关的变量可用于反欺诈场景中作为前置规则;有效评估用户个人信用的数据源可用在贷前审批场景中作为审批策略;评估用户收入水平或负债相关的数据源可用在授信场景中。
假设,以某个应用场景为例:第一公司和某公司有合作意向后,某公司提供样本数据给第一公司,通过对返回的数据进行充分的评测分析,最终决策数据所应用的场景。该过程可具体包括:
选取一定量的样本数据并提供给第一公司,以由第一公司匹配待评测数据。在样本的抽取时,需考虑样本总量、不同产品比例、正负样本比例、正常样本和随机样本比例等。
对返回的待评测数据的正负样本比例、覆盖率(查得率)进行分析,以及对于未覆盖人群可进行客群分析。
对待评测数据的变量进行缺失率分析、单变量IV值计算。经过变量处理、变量筛选等分别构建第一样本的数据评测模型和第二样本的数据评测模型,并评估模型效果。
之后,将待评测数据分别输入到不同的数据评测模型中,得到数据评测结果。综合两个模型的数据评测结果,可获得最终的数据评测结果,并确定待评测数据的应用场景等。
通过以上描述可以看出,在本发明实施例中,在针对数据源的评测时,以更细粒度、多维度的评测其效果,从而可将数据合理的应用到相应的业务场景中。样本采集的合理性、评测方案的有效性均能使数据源更好的应用到业务场景中,同时根据数据源的定价方式、不同业务的需求、业务所带来的收益,综合评估之后能更好的进行业务应用。
本发明实施例还提供了一种数据评测装置。参见图3,图3是本发明实施例提供的数据评测装置的结构图。由于数据评测装置解决问题的原理与本发明实施例中数据评测方法相似,因此该数据评测装置的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,数据评测装置300包括:
模型获取模块301,用于利用前述的数据评测模型训练方法,得到数据评测模型,所述数据评测模型的训练样本包括测试集,且所述训练样本为待评测数据;数据评测模块302,用于将所述测试集输入到所述数据评测模型中,得到数据评测结果。
可选的,所述装置还可包括:第一获取模块,用于获取所述待评测数据的数据源覆盖率;第二获取模块,用于在所述数据源覆盖率满足预设条件的情况下,对所述待评测数据进行分析,获得所述待评测数据所包括的目标参数,所述目标参数包括变量的数量和变量的类型中的至少一个;确定模块,用于根据所述目标参数确定用于数据评测的模型算法。
可选的,所述数据评测模型的第二样本是为测试目标场景而随机选择的原始数据样本,且所述原始数据样本被标注为预设标签。
可选的,所述模型获取模块301可包括:第一获取子模块,用于在所述变量的数量大于1的情况下,获取所述待评测数据中的训练集包括的N个变量,其中N为大于1的整数;训练子模块,用于将所述N个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型;所述训练子模块具体用于,根据变量选择参数从所述N个变量中选择M个变量,其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项,M≤N,M为大于1的整数;将所述M个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例还提供了一种数据评测模型训练装置。参见图4,图4是本发明实施例提供的数据评测模型训练装置的结构图。由于数据评测模型训练装置解决问题的原理与本发明实施例中数据评测模型训练方法相似,因此该数据评测模型训练装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,数据评测模型训练装置400包括:
获取模块401,用于根据第一样本和第二样本获取对应样本的候选数据集作为训练样本,所述训练样本中所包括的变量的数量大于1;选择模块402,用于从所述训练样本的变量中选择候选变量;确定模块403,用于确定模型算法;训练模块404,用于将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
可选的,所述选择模块402可用于根据变量选择参数从所述训练样本的变量中选择候选变量;其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
如图5所示,本发明实施例的电子设备,包括:处理器500,用于读取存储器520中的程序,执行下列过程:
利用如前所述的数据评测模型训练方法得到数据评测模型,所述数据评测模型的训练样本包括测试集,且所述训练样本为待评测数据;
将所述测试集输入到所述数据评测模型中,得到数据评测结果。
收发机510,用于在处理器500的控制下接收和发送数据。
其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机510可以是多个元件,即包括发送机和收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器500负责管理总线架构和通常的处理,存储器520可以存储处理器500在执行操作时所使用的数据。
处理器500负责管理总线架构和通常的处理,存储器520可以存储处理器500在执行操作时所使用的数据。
处理器500还用于读取所述程序,执行如下步骤:
获取所述待评测数据的数据源覆盖率;
在所述数据源覆盖率满足预设条件的情况下,对所述待评测数据进行分析,获得所述待评测数据所包括的目标参数,所述目标参数包括变量的数量和变量的类型中的至少一个;
根据所述目标参数确定用于数据评测的模型算法。
其中,所述数据评测模型的第二样本是为测试目标场景而随机选择的原始数据样本,且所述原始数据样本被标注为预设标签。
处理器500还用于读取所述程序,执行如下步骤:
在所述变量的数量大于1的情况下,获取所述待评测数据中的训练集包括的N个变量,其中N为大于1的整数;
将所述N个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型,具体包括:
根据变量选择参数从所述N个变量中选择M个变量,其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项,M≤N,M为大于1的整数;
将所述M个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
如图6所示,本发明实施例的电子设备,包括:处理器600,用于读取存储器620中的程序,执行下列过程:
根据第一样本和第二样本获取对应样本的候选数据集作为训练样本,所述训练样本中所包括的变量的数量大于1;
从所述训练样本的变量中选择候选变量;
确定模型算法;
将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
收发机610,用于在处理器600的控制下接收和发送数据。
其中,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件,即包括发送机和收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器600负责管理总线架构和通常的处理,存储器620可以存储处理器600在执行操作时所使用的数据。
处理器600负责管理总线架构和通常的处理,存储器620可以存储处理器600在执行操作时所使用的数据。
处理器600还用于读取所述程序,执行如下步骤:
根据变量选择参数从所述训练样本的变量中选择候选变量;其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据评测方法或数据评测模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (9)
1.一种数据评测模型训练方法,其特征在于,包括:
根据第一样本和第二样本获取对应样本的候选数据集作为训练样本,所述训练样本中所包括的变量的数量大于1;
从所述训练样本的变量中选择候选变量;
确定模型算法;
将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型;
其中,所述第一样本包括历史上经过风险决策后的数据;所述第二样本包括历史上未经过风险决策的数据;
其中,所述确定模型算法包括:
获取所述训练样本的数据源覆盖率;
在所述数据源覆盖率满足预设条件的情况下,对所述训练样本进行分析,获得所述训练样本所包括的目标参数,所述目标参数包括变量的数量和变量的类型中的至少一个;
根据所述目标参数确定用于数据评测的模型算法。
2.根据权利要求1所述的方法,其特征在于,所述从所述训练样本的变量中选择候选变量,包括:
根据变量选择参数从所述训练样本的变量中选择候选变量;其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项。
3.一种数据评测方法,其特征在于,包括:
利用如权利要求1-2任一项所述的数据评测模型训练方法,得到数据评测模型,所述数据评测模型的训练样本包括测试集,且所述训练样本为待评测数据;
将所述测试集输入到所述数据评测模型中,得到数据评测结果。
4.根据权利要求3所述的方法,其特征在于,所述数据评测模型的第二样本是为测试目标场景而随机选择的原始数据样本,且所述原始数据样本被标注为预设标签。
5.根据权利要求3所述的方法,其特征在于,所述得到数据评测模型包括:
在所述变量的数量大于1的情况下,获取所述待评测数据中的训练集包括的N个变量,其中N为大于1的整数;
将所述N个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型,具体包括:
根据变量选择参数从所述N个变量中选择M个变量,其中,所述变量选择参数包括变量缺失率、变量有效性、变量稳定性、变量相关性、变量共线性中的一项或者多项,M≤N,M为大于1的整数;
将所述M个变量对应的数据集输入所述模型算法,训练得到所述数据评测模型。
6.一种数据评测模型训练装置,其特征在于,包括:
获取模块,用于根据第一样本和第二样本获取对应样本的候选数据集作为训练样本,所述训练样本中所包括的变量的数量大于1;
选择模块,用于从所述训练样本的变量中选择候选变量;
确定模块,用于确定模型算法;
训练模块,用于将所述候选变量对应的数据集输入所述模型算法,训练得到所述数据评测模型;
其中,所述第一样本包括历史上经过风险决策后的数据;所述第二样本包括历史上未经过风险决策的数据;
其中,所述确定模块用于:
获取所述训练样本的数据源覆盖率;
在所述数据源覆盖率满足预设条件的情况下,对所述训练样本进行分析,获得所述训练样本所包括的目标参数,所述目标参数包括变量的数量和变量的类型中的至少一个;
根据所述目标参数确定用于数据评测的模型算法。
7.一种数据评测装置,其特征在于,包括:
模型获取模块,用于利用如权利要求1-2任一项所述的数据评测模型训练方法,得到数据评测模型,所述数据评测模型的训练样本包括测试集,且所述训练样本为待评测数据;
数据评测模块,用于将所述测试集输入到所述数据评测模型中,得到数据评测结果。
8.一种电子设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,
所述处理器,用于读取存储器中的程序实现如权利要求1至2中任一项所述的方法中的步骤;或者实现如权利要求3至5中任一项所述的方法中的步骤。
9.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的方法中的步骤;或者实现如权利要求3至5中任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309432.XA CN111881008B (zh) | 2019-12-18 | 2019-12-18 | 一种数据评测、模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309432.XA CN111881008B (zh) | 2019-12-18 | 2019-12-18 | 一种数据评测、模型训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881008A CN111881008A (zh) | 2020-11-03 |
CN111881008B true CN111881008B (zh) | 2021-12-24 |
Family
ID=73153886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911309432.XA Active CN111881008B (zh) | 2019-12-18 | 2019-12-18 | 一种数据评测、模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881008B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117608997B (zh) * | 2024-01-15 | 2024-04-30 | 阿里云计算有限公司 | 评测方法、分类评测方法、排序评测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379424A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Machine learning service |
US9280740B1 (en) * | 2015-01-12 | 2016-03-08 | Bank Of America Corporation | Transforming predictive models |
CN107316531A (zh) * | 2017-08-15 | 2017-11-03 | 科盾科技股份有限公司北京分公司 | 一种模拟训练系统及其客户端 |
CN109273023A (zh) * | 2018-09-20 | 2019-01-25 | 科大讯飞股份有限公司 | 一种数据评测方法、装置、设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665166A (zh) * | 2018-05-10 | 2018-10-16 | 易联支付有限公司 | 一种风险控制模型的训练方法及装置 |
-
2019
- 2019-12-18 CN CN201911309432.XA patent/CN111881008B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379424A1 (en) * | 2014-06-30 | 2015-12-31 | Amazon Technologies, Inc. | Machine learning service |
US9280740B1 (en) * | 2015-01-12 | 2016-03-08 | Bank Of America Corporation | Transforming predictive models |
CN107316531A (zh) * | 2017-08-15 | 2017-11-03 | 科盾科技股份有限公司北京分公司 | 一种模拟训练系统及其客户端 |
CN109273023A (zh) * | 2018-09-20 | 2019-01-25 | 科大讯飞股份有限公司 | 一种数据评测方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111881008A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648074B (zh) | 基于支持向量机的贷款评估方法、装置及设备 | |
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
CN108133013A (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
WO2020073727A1 (zh) | 风险预测方法、装置、计算机设备和存储介质 | |
CN112529716B (zh) | 额度预测方法、设备及计算机可读存储介质 | |
CN113742492B (zh) | 保险方案生成方法、装置、电子设备及存储介质 | |
CN110738527A (zh) | 一种特征重要性排序方法、装置、设备和存储介质 | |
CN108734296A (zh) | 优化监督学习的训练数据的方法、装置、电子设备和介质 | |
Nyahokwe et al. | The impact of exchange rate volatility on South African exports | |
CN111815169A (zh) | 业务审批参数配置方法及装置 | |
CN111881008B (zh) | 一种数据评测、模型训练方法、装置、设备及存储介质 | |
US8065174B2 (en) | Systems and methods for evaluating business-critical criteria relating to exploring entity mobility/productivity opportunities | |
CN113011961B (zh) | 公司关联信息风险监测方法、装置、设备及存储介质 | |
Rolfe | Theoretical issues in using choice modelling data for benefit transfer | |
CN110910241A (zh) | 现金流评估方法、装置、服务器设备及存储介质 | |
KR101478935B1 (ko) | 리스크-프로파일 생성 장치 | |
CN112699168B (zh) | 基于互联网金融和大数据的业务推荐方法及系统 | |
CN115293867A (zh) | 财务报销用户画像优化方法、装置、设备及存储介质 | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN114119107A (zh) | 一种钢贸企业交易测评方法、装置、设备及存储介质 | |
Rosslyn-Smith et al. | Establishing turnaround potential before commencement of formal turnaround proceedings | |
CN111445139A (zh) | 业务流程模拟方法及装置、存储介质、电子设备 | |
CN115760185A (zh) | 优质用户确定方法、筛选模型的训练方法和相关设备 | |
CN115688998A (zh) | 房租收入预测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |