CN110956303A

CN110956303A - 信息预测方法、装置、终端及可读存储介质

Info

Publication number: CN110956303A
Application number: CN201910968690.2A
Authority: CN
Inventors: 常青
Original assignee: Weikun Shanghai Technology Service Co Ltd
Current assignee: Weikun Shanghai Technology Service Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-04-03

Abstract

本发明提供一种信息预测方法、装置、终端及可读存储介质。信息预测方法包括接收用户画像信息和模型构建指令；根据模型构建指令对用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据；对所述预处理数据中的字符数据进行WOE编码转换，生成与各字符数据对应的转换值，将所述预处理数据中的字符数据更新为对应的转换值，得到输入数据；根据输入数据和预设模型体系进行模型训练，生成目标模型；获取待预测样本输入目标模型中，生成预测结果。本发明构建的模型输出的预测结果准确性高。

Description

信息预测方法、装置、终端及可读存储介质

技术领域

本发明涉及模型构建技术领域，尤其涉及一种信息预测方法、装置、终端及可读存储介质。

背景技术

现有技术中，可基于人工智能，通过对基础数据进行分析，获得可进行预测特定用户群、指标的模型。由于基础数据不断更新、业务需求多变，导致人工建立上述模型的效率满足不了实际需求。而现有的自动化建模平台主要应用于图像识别和自然语言处理等场景，但是对用户画像、市场分析等特征工程的预测不够准确。

因此，有必要提供了一种新的信息预测方法以解决上述技术问题。

发明内容

本发明的主要目的在于提供一种信息预测方法、装置、终端及可读存储介质，旨在解决现有技术中预测模型预测结果不够准确的技术问题。

为实现上述目的，本发明提供一种信息预测方法，所述识别方法包括以下步骤：

接收用户画像信息和模型构建指令，所述用户画像信息包括多个特征标签和特征数据，所述特征标签包括多个数值标签和多个字符标签，所述特征数据包括与各所述数值标签对应的多个数值数据和与各所述字符标签对应的多个字符数据；

根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据；

对所述预处理数据中的字符数据进行WOE编码转换，生成与各所述字符数据对应的转换值，将所述预处理数据中的字符数据更新为对应的转换值，生成输入数据；

根据所述输入数据和预设模型体系进行模型训练，生成目标模型；

将待预测样本输入所述目标模型中，生成预测结果。

优选地，所述对所述预处理数据中的字符数据进行WOE编码转换，生成与各所述字符数据对应的转换值，将所述预处理数据中的字符数据更新为对应的转换值，生成输入数据的步骤包括：

根据预设分组表对所述预处理数据中各所述字符标签对应的字符数据进行分组处理，生成多个与各所述字符标签对应的自变量组；

根据以下公式计算各自变量组转换值：

其中，WOE_i为第i自变量组的转换值，py_i是第i自变量组中响应样本占所述字符标签对应的字符数据中所有响应样本的比例，pn_i是第i自变量组中未响应样本占所述字符标签对应的字符数据中所有未响应样本的比例；

将所述预处理数据中的字符数据更新为对应的转换值，生成所述输入数据。

优选地，所述将所述预处理数据中的字符数据更新为对应的转换值，生成所述输入数据的步骤包括：

将所述预处理数据中的字符数据更新为对应的转换值；

根据以下公式，计算各所述自变量组对应的分组信息指标：

IVi＝(Py_i-Pn_i)*WOE_i，

其中，IV_i为第i自变量组的分组信息指标，WOE_i为第i自变量组的转换值，py_i是第i自变量组中响应样本占所述字符标签对应的字符数据中所有响应样本的比例，pn_i是第i自变量组中未响应样本占所述字符标签对应的字符数据中所有未响应样本的比例；

根据以下公式，计算各所述字符标签对应的标签信息指标：

其中，IV_i为第i自变量组的分组信息指标，IV为标签信息指标；

判断所述标签信息指标是否在预设范围内；

若所述标签信息指标不在所述预设范围内，则在所述预处理数据中删除与所述标签信息指标对应的特征标签、以及与该特征标签对应的特征数据，生成所述输入数据。

优选地，所述根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据的步骤包括：

计算各所述数值标签对应的数值数据的缺失率，所述缺失率为各所述数值标签对应的数值数据中缺失项与各所述数值标签对应的数值数据所有项数的比例，判断所述缺失率是否大于第一预设阈值；

若所述缺失率大于所述第一预设阈值，则在所述用户画像信息中删除与所述缺失率对应的数值标签、以及与该数值标签对应的数值数据；

若所述缺失率小于或等于所述第一预设阈值，则获取并判断所述数值标签对应的项目类型是否为金额类项目；

若所述数值标签的项目类型为所述金额类项目，则更新所述数值标签对应的缺失项为0，以生成所述预处理数据；

若所述数值标签的项目类型不是所述金额类项目，则计算该数值标签对应的数值数据的平均值，更新所述数值标签对应的缺失项为所述平均值，以生成所述预处理数据。

计算各所述数值标签对应的数值数据的标准差和平均值，计算所述标准差和所述平均值的比值，生成变异系数；

判断所述变异系数是否小于第二预设阈值；

若所述变异系数小于所述第二预设阈值，则在所述用户画像信息中删除与所述变异系数对应的数值标签、以及与该数值标签对应的数值数据，以生成所述预处理数据。

根据以下公式计算各所述数值标签之间的相关性系数：

其中，r(X,Y)为相关性系数，x和y分别为不同的数值标签对应的数值数据，cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差；

判断所述相关性系数是否大于第三预设阈值；

若所述相关性系数大于所述第三预设阈值，则在所述用户画像信息中删除与所述相关性系数对应的二个所述数值标签中的任意一个、以及与删除的该特征标签对应的数值数据，以生成所述预处理数据。

优选地，所述根据所述输入数据和预设模型体系进行模型训练，生成目标模型的步骤包括：

根据所述输入数据和预设模型体系进行模型训，输出预测结果、以及与各所述特征标签对应的重要性参数；

根据所述重要性参数的高低对所述输入数据中的所述特征标签进行排序，生成排序结果；

设置所述排序结果中的后预设数量的所述特征标签中的任意一个和所述排序结果中的前预设数量的所述特征标签为所述输入数据，判断预测结果是否符合预设要求；

若所述预测结果符合预设要求，生成目标模型；

若所述预测结果不符合预设要求，则执行：所述根据所述输入数据和预设模型体系进行模型训练，输出预测结果、以及与各所述特征标签对应的重要性参数的步骤。

此外，为实现上述目的，本发明还提供一种信息预测装置，包括：

获取模块，用于接收用户画像信息和模型构建指令，所述用户画像信息包括多个特征标签和与各所述特征标签对应的特征数据，所述特征标签包括数值标签和字符标签，所述特征数据包括与所述数值标签对应的多个数值数据和与所述字符标签对应的多个字符数据；

清洗模块，用于根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据；

转换模块，用于对所述预处理数据中的字符数据进行WOE编码转换，生成与各所述字符数据对应的转换值，将所述预处理数据中的字符数据更新为对应的转换值，得到输入数据；

训练模块，用于根据所述输入数据和预设模型体系进行模型训练，生成目标模型。

此外，为实现上述目的，本发明还提供一种终端，包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的信息预测程序，其中所述信息预测程序被所述处理器执行时，实现如上述所述的信息预测方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有信息预测程序，其中所述信息预测程序被处理器执行时，实现如上述所述的信息预测方法的步骤。

本发明通过对数值数据进行清洗处理，并对字符数据进行WOE转换，从而实现了对原始数据自动化处理，提高数据处理的效率；通过对数值数据和字符数据分别处理，特别是对字符数据进行WOE转换，从而避免了现有技术中通过哑变量编码和one-hot编码带来的数据稀疏性增加的技术问题，通过WOE转换可对字符数据中具体的各个特征枚举值进行解释，有效实现了字符数据向数值型数据的转化，有利于模型训练，提高预测结果的准确性；通过对数值数据进行清理，降低了模型训练的难度，提高计算速度。

附图说明

图1为本发明实施例方案中涉及的终端的硬件结构示意图；

图2为本发明信息预测方法第一实施例的流程示意图；

图3为本发明信息预测方法第二实施例的流程示意图；

图4为图3所示实施例涉及的步骤S330的细化流程示意图；

图5为图2所示实施例涉及的步骤S200的一细化流程示意图；

图6为图2所示实施例涉及的步骤S200的另一细化流程示意图；

图7为图2所示实施例涉及的步骤S200的又一细化流程示意图；

图8为图2所示实施例涉及的步骤S200的再一细化流程示意图；

图9为图2所示实施例涉及的步骤S400的一细化流程示意图；

图10为本发明信息预测装置一实施例的模块结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例涉及的信息预测方法主要应用于终端，该终端可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。

参照图1，图1为本发明实施例方案中涉及的终端结构示意图。本发明实施例中，终端可以包括处理器1001(例如CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块以及信息预测程序。

在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的信息预测程序，并执行信息预测方法的步骤。

本发明实施例提供了一种信息预测方法。

请参阅图2，本发明实施例中，信息预测方法包括步骤：

步骤S100，接收用户画像信息和模型构建指令，所述用户画像信息包括特征标签和与特征数据，所述特征标签包括多个数值标签和多个字符标签，所述特征数据包括与各所述数值标签对应的多个数值数据和与各所述字符标签对应的多个字符数据；

具体地，用户可通过客户端上传用户画像信息，也可以根据预存原始数据选择不同的应用场景，以将存储在存储器中的与应用场景对应的用户画像信息发送至处理器中，以进行处理。

用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户数据。用户画像信息包括多个对应各个用户的用户画像。本领域技术人员从多个维度预先设置与不同场景对应的特征标签，针对不同应用场景，提取原始数据中的数据与场景中的对应特征标签关联。例如：应用场景为机票预定，则与机票预定对应的标签有：出发地、到达地、乘机人属性、历史下单时间、历史下单金额等；应用场景为意外险推送，则与意外险推送对应的标签有：主要交通工具、出发地、到达地、乘机人属性、历史出发时间等。

每个应用场景对应的特征标签中至少包括根据最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)3个维度设置的特征标签，多个特征标签形成用户画像信息。通过RFM使得新衍生的特征标签解释性得以保障，且使得原来的特征维度得以扩展，形成全方位的用户画像。

例如：应用场景为机票预定，则至少包括与最近一次消费对应的最近一次机票预定时间；与消费频率对应的预设时间内的机票预定次数；与消费金额对应的预设时间内的机票预定金额。

用户画像信息中特征标签的数量、种类越多，越能全面、多维度的还原用户的喜好，以对用户的选择进行预测。每一个特征标签对应多个用户的特征数据，该特征数据可以是通过字符形式、或数值形式体现。例如：性别特征标签通过“男”、“女”字符体现，年龄特征标签通过数值体现。在本发明中，通过字符形式体现的数据为字符数据，通过数值形式体现的数据为数值数据。

步骤S200，根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据；

模型构建指令中可包含不同清洗处理标识，本领域技术人员可以根据需求设置不同的预设规则与清洗处理标识对应，从而根据模型构建指令对数值数据的清洗处理，以使得数值数据满足模型训练的需求。例如对数值数据做缺失值处理、集中度处理、相关性处理和极值处理。当然，模型构建指令也可以只是构建启动指令，以指示处理模块按照预存清理规则对用户画像信息进行处理。

步骤S300，对所述预处理数据中的字符数据进行WOE编码转换，生成与各所述字符数据对应的转换值，将所述预处理数据中的字符数据更新为对应的转换值，生成输入数据；

WOE(Weight of Evidence)即证据权重，对所述预处理数据中的字符数据进行WOE编码转换，即对字符数据为原始变量进行编码，从而使得字符数据可转换为对应的WOE转换值，方便后续模型训练。

步骤S400，根据所述输入数据和预设模型体系进行模型训练，生成目标模型。

预设模型体系可以是逻辑回归模型、决策树模型等，例如：随机森林和XgBoost中，将输入数据输入预设模型体系进行训练，直至损失函数满足预设要求或迭代次数满足预设要求，生成目标模型。

步骤S500，将待预测样本输入所述目标模型中，生成预测结果。

待预测样本为需要针对某一用户群、或某一产品等应用场景的原始数据。目标模型为与用户画像信息对应的预测模型，预测结果为对应目标模型的输出结果，具体可以是基于用户购买数据预测各个产品的潜在用户，提高投资转化率；基于用户基本资料预测用户画像，对用户分群运营；基于用户历史数据预测流失性原因。

本发明通过对数值数据进行清洗处理，并对字符数据进行WOE转换，从而实现了对原始数据自动化处理，提高数据处理的效率；通过对数值数据和字符数据分别处理，特别是字符数据通过WOE编码转换，从而避免了现有技术中通过哑变量编码和one-hot编码带来的数据稀疏性增加的技术问题，通过WOE转换可对字符数据中具体的各个特征枚举值进行解释，有效实现了字符数据向数值型数据的转化，有利于模型训练，提高预测结果的准确性；通过对数值数据进行清理，降低了模型训练的难度，提高计算速度。

参照图3，图3为本发明信息预测方法第二实施例的流程图，步骤S300包括：

步骤S310，根据预设分组表对所述预处理数据中各所述字符标签对应的字符数据进行分组处理，生成多个各所述字符标签对应的自变量组；

具体的，预设分组表可以是本领域技术人员根据特征标签预先设置的分组规则，也可以是用户自定义的分组规则，还可以通过统计与该字符标签对应的字符数据种类，进行自动分组，例如：当字符标签为性别，即对应字符数据有两种“男”和“女”，即可将男和女设置为两组自变量组。

步骤S320，根据以下公式计算各所述自变量组的转换值：

例如：字符型数据为“购买基金种类”，其中包含“股票型基金”、“债券型基金”、“指数型基金”和“货币型基金”等四个枚举值，若采用数值1,2,3,4来代替枚举值的话，会存在枚举值之间的大小关系比较，或者用0和1等常用的one hot编码的话对于枚举值多的数据会造成稀疏性，不利于后期的模型训练。在本实施例中，例如：针对“购买基金种类”设立4个自变量组，假设具体数值如下表，统计每个自变量组对应的数值多少，通过上述公式计算转换值，将各个字符数据修改为对应的转换值，其中响应为购买，未响应为未购买。

购买基金种类	响应	未响应	合计	响应比例
					股票型基金	2500	47500	50000	5％
债券型基金	3000	27000	30000	10％
					指数型基金	3000	12000	15000	20％
货币型基金	1500	3500	5000	30％
					合计	10000	90000	100000	10％

股票型基金WOE＝In[(2500/47500)/(10000/90000)]＝-0.74；

债券型基金WOE＝In[(3000/27000)/(10000/90000)]＝0；

指数型基金WOE＝In[(3000/12000)/(10000/90000)]＝0.81；

货币型基金WOE＝In[(1500/3500)/(10000/90000)]＝1.34。

步骤S330，将所述预处理数据中的字符数据更新为对应的转换值，生成所述输入数据。

在本实施例中，通过步骤S320不仅可以将字符数据转化为数值型变量，还能通过转换值的大小来窥见特征标签中各自变量组的区分程度，转换值越大相关性越大。从而提高字符数据对于后续目标模型预测功能实现的准确性。

参照图4，图4为本发明第二实施例中步骤S330的细化流程图，步骤S330包括：

步骤S331，将所述预处理数据中的字符数据更新为对应的转换值；

步骤S332，根据以下公式，计算各所述自变量组对应的分组信息指标：

IV_i＝(Py_i-Pn_i)*WOE_i，

IV值(Information Value)可用于衡量变量的预测能力，即各个特征标签对应的特征数据的预测能力。

步骤S333，根据以下公式，计算各所述字符标签对应的标签信息指标：

步骤S334，判断所述标签信息指标是否在预设范围内；

步骤S335，若所述标签信息指标不在所述预设范围内，则在所述预处理数据中删除与所述标签信息指标对应的特征标签、以及与该特征标签对应的特征数据，生成所述输入数据。

若所述标签信息指标在所述预设范围内，则不做处理。

在本实施例中，预设范围为0.02≤标签信息指标≤1，当特征标签对应的IV值不在预设范围内，则证明该特征标签预测性不强，通过删除该特征标签及对应的特征数据，从而达到降维的目的，减小后期模型训练的难度。

参照图5，图5为本发明第一实施例中步骤S200的细化流程图，步骤S200包括：

步骤S211，计算各所述数值标签对应的数值数据的缺失率，所述缺失率为各所述数值标签对应的数值数据中缺失项与各所述数值标签对应的数值数据所有项数的比例，判断所述缺失率是否大于第一预设阈值；

第一预设阈值为本领域技术人员根据实际需求自行设置。缺失项为数值标签中没有对应的数值数据的项，缺失率即是数值标签对应的数值数据中，没有数值数据的项占整个数值数据项数的比例。

步骤S212，若所述缺失率大于所述第一预设阈值，则在所述用户画像信息中删除与所述缺失率对应的数值标签、以及与该数值标签对应的数值数据；

若所述缺失率大于所述第一预设阈值，则证明该数值标签对应的数值标签获得数据较少，用于模型序列预测性不强。

步骤S213，若所述缺失率小于或等于所述第一预设阈值，则获取并判断所述数值标签对应的项目类型是否为金额类项目；

数值标签对应不同的项目类型，具体包括金额类项目和非金额类项目。例如：近6个月的消费金额为金额类项目，用户年龄为非金额类项目。

步骤S214，若所述数值标签的项目类型为所述金额类项目，则更新所述数值标签对应的缺失项为0，以生成所述预处理数据；

步骤S215，若所述数值标签的项目类型不是所述金额类项目，则计算该数值标签对应的数值数据的平均值，更新所述数值标签对应的缺失项为所述平均值，以生成所述预处理数据。

通过删除缺失率过高的特征标签，对后续参与模型序列的输入数据进行降维，降低训练难度。通过针对不同的项目类型的缺失项进行补充，从而有利于提高该标签的预测性。

参照图6，图6为本发明第一实施例中步骤S200的细化流程图，步骤S200包括：

步骤S221，计算各所述数值标签对应的数值数据的标准差和平均值，计算所述标准差和所述平均值的比值，生成变异系数；

步骤S222，判断所述变异系数是否小于第二预设阈值；

步骤S223，若所述变异系数小于所述第二预设阈值，则在所述用户画像信息中删除与所述变异系数对应的数值标签、以及与该数值标签对应的数值数据，以生成所述预处理数据。

若所述变异系数大于或等于所述第二预设阈值，则不做处理。

第二预设阈值为本领域技术人员根据实际需求自行设置。变异系数过小，则证明该特征标签对应的特征数据差别不大，可预测性差，通过删除变异系数过小的特征标签，对后续参与模型序列的输入数据进行降维，降低训练难度。

参照图7，图7为本发明第一实施例中步骤S200的细化流程图，步骤S200包括：

步骤S231，根据以下公式计算各所述数值标签之间的相关性系数：

步骤S232，判断所述相关性系数是否大于第三预设阈值；

步骤S233，若所述相关性系数大于所述第三预设阈值，则在所述用户画像信息中删除与所述相关性系数对应的二个所述数值标签中的任意一个、以及与删除的该特征标签对应的数值数据，以生成所述预处理数据。

若所述相关性系数小于或等于所述第三预设阈值，则不做处理。

例如，特征标签X和特征标签Y的相关性系数大于第三预设阈值，则删除特征标签X或特征标签Y，并删除被删除的特征标签对应的特征数据。从而排出相似度高的特征标签，减小模型训练的计算量。

参照图8，图8为本发明第第一实施例中步骤S200的细化流程图，步骤S200包括：

步骤S241，计算各所述数值标签对应的数值数据的标准差；

步骤S242，判断各所述数值数据是否小于-3倍所述标准差，并判断各所述数值数据是否大于3倍所述标准差；

步骤S243，若所述标准差小于-3倍所述标准差，将该数值数据更新为-3倍所述标准差，以生成所述预处理数据；

步骤S244，若所述标准差大于3倍所述标准差，将该数值数据更新为3倍所述标准差，以生成所述预处理数据。

判断各所述数值数据大于或等于-3倍所述标准差，并小于或等于3倍所述标准差，则不做处理。

通过3sigma策略判断数值数据是否在置信区间，以将异常值修正为在置信区间的值，从而增加输入数据的准确性。

优选地，上述步骤步骤S211～步骤S215；步骤S221～步骤S223；步骤S231～步骤S233；步骤S241～步骤S244依次进行，生成所述预处理数据。由浅入深、由粗到细地对特征数据进行处理，提高目标模型的预测性。例如：步骤S221～步骤S223对特征进行集中处理在步骤S231～步骤S233相关性之前，可以更精准得排出到常数对相关性的干扰。

参照图9，图9为本发明第一实施例中步骤S400的细化流程图，步骤S400包括：

步骤S410，根据所述输入数据和预设模型体系进行模型训，输出预测结果、以及与各所述特征标签对应的重要性参数；

重要性参数(importance)为评估各个特征标签对预测结果的重要性的参数。本领域技术人员可根据具体需要、预测模型体系的种类，设置不同计算方法和参数作为的重要性参数。例如：当预测模型体系为随机森林算法(Random Forest，RF)，可输出重要性参数变量，重要性参数具体可以采用Variable importance和Gini importance两种不同的算法。

步骤S420，根据所述重要性参数的高低对所述输入数据中的所述特征标签进行排序，生成排序结果；

重要性参数越高，对应特征标签在排序结果中排序越靠前，说明与预测结果的关联性越大。

步骤S430，设置所述排序结果中的后预设数量的所述特征标签中的任意一个和所述排序结果中的前预设数量的所述特征标签为所述输入数据，判断预测结果是否符合预设要求；

本领域技术人员可根据实际情况设置后预设数量和前预设数量。在本实施例中，前预设数量为所有特征标签数量的10％，后预设数量为所有特征标签数量的90％，例如：100个特征标签按重要性参数进行排序，将排序后90的特征标签中的一个，以及排序前10的特征标签重新作为输入数据。

步骤S440，若预测结果符合预设要求，生成目标模型。

步骤S450，若预测结果不符合预设要求，执行：步骤S410。

现有技术中，由于python没有筛选机制，使得所有的特征标签均用于模型训练，造成计算量大、预测不准确的技术问题。本发明通过输出的重要性参数，对特征标签进行排序并降维，从而降低了计算的难度，提高效率。

本领域技术人员可根据采用不同的预设模型体系设置预设要求，例如构建损失函数是否符合预设值，迭代次数是否符合预设值等。

在一实施例中，步骤S410包括：

根据所述输入数据和至少两个不同的预设模型体系进行模型训，输出预测结果、以及与各所述特征标签对应的重要性参数；

步骤S440包括：

直至预测结果符合预设要求，不同的预设模型体系生成对应的预备模型，并输出多个评价参数；

根据以下公式计算综合评价值：

其中，A为评价参数；a为权重；

比较各所述预备模型的综合评价值，设置最高所述综合评价值对应的所述预备模型为所述目标模型。

具体地，评价参数具体可以是洛伦兹曲线(ks)、AUC值、F1 Score、准确率(Precision)、召回率(Recall)中的一种或多种。

此外，本发明实施例还提供一种信息预测装置。请参阅图10，信息预测装置包括：

获取模块10，用于接收用户画像信息和模型构建指令，所述用户画像信息包括特征标签和特征数据，所述特征标签包括多个数值标签和个字符标签，所述特征数据包括与各所述数值标签对应的多个数值数据和与各所述字符标签对应的多个字符数据；

清洗模块20，用于根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据；

转换模块30，用于对所述预处理数据中的字符数据进行WOE编码转换，生成与各所述字符数据对应的转换值，将所述预处理数据中的字符数据更新为对应的转换值，得到输入数据；

训练模块40，用于根据所述输入数据和预设模型体系进行模型训练，生成目标模型；

预测模块50，用于将待预测样本输入所述目标模型中，生成预测结果。

进一步地，所述转换模块30包括：

分组单元，用于根据预设分组表对所述预处理数据中各所述字符标签对应的字符数据进行分组处理，生成多个与各所述字符标签对应的自变量组；

第一转换单元，用于根据以下公式计算各自变量组转换值：

第一设置单元，用于将所述预处理数据中的字符数据更新为对应的转换值，生成所述输入数据。

进一步地，所述第一设置单元还用于：

将所述预处理数据中的字符数据更新为对应的转换值；

根据以下公式，计算各所述自变量组对应的分组信息指标；

IVi＝(Py_i-Pn_i)*WOE_i，

根据以下公式，计算各所述字符标签对应的标签信息指标：

判断所述标签信息指标是否在预设范围内；

进一步地，所述清洗模块20包括：

第一计算单元，用于计算各所述数值标签对应的数值数据的缺失率，所述缺失率为各所述数值标签对应的数值数据中缺失项与各所述数值标签对应的数值数据所有项数的比例，判断所述缺失率是否大于第一预设阈值；

第一删除单元，用于若所述缺失率大于所述第一预设阈值，则在所述用户画像信息中删除与所述缺失率对应的数值标签、以及与该数值标签对应的数值数据；

第一判断单元，用于若所述缺失率小于或等于所述第一预设阈值，则获取并判断所述数值标签对应的项目类型是否为金额类项目；

第二设置单元，用于若所述数值标签的项目类型为所述金额类项目，则更新所述数值标签对应的缺失项为0，以生成所述预处理数据；

进一步地，所述清洗模块20包括：

第二计算单元，用于计算各所述数值标签对应的数值数据的标准差和平均值，计算所述标准差和所述平均值的比值，生成变异系数；

第二判断单元，用于判断所述变异系数是否小于第二预设阈值；

第二删除单元，用于若所述变异系数小于所述第二预设阈值，则在所述用户画像信息中删除与所述变异系数对应的数值标签、以及与该数值标签对应的数值数据，以生成所述预处理数据。

进一步地，所述清洗模块20包括：

第三计算单元，用于根据以下公式计算各所述数值标签之间的相关性系数：

第三判断单元，用于判断所述相关性系数是否大于第三预设阈值；

第三删除单元，用于若所述相关性系数大于所述第三预设阈值，则在所述用户画像信息中删除与所述相关性系数对应的二个所述数值标签中的任意一个、以及与删除的该特征标签对应的数值数据，以生成所述预处理数据。

进一步地，所述训练模块40包括：

训练单元，用于根据所述输入数据和预设模型体系进行模型训，输出预测结果、以及与各所述特征标签对应的重要性参数；

排序单元，用于根据所述重要性参数的高低对所述输入数据中的所述特征标签进行排序，生成排序结果；

筛选单元，用于设置所述排序结果中的后预设数量的所述特征标签中的任意一个和所述排序结果中的前预设数量的所述特征标签为所述输入数据，判断预测结果是否符合预设要求；

生成单元，若所述预测结果符合预设要求，则生成目标模型；

训练单元，用于若所述预测结果不符合预设要求，则执行：所述根据所述输入数据和预设模型体系进行模型训练，输出预测结果、以及与各所述特征标签对应的重要性参数的步骤。

其中，上述信息预测装置中各个模块的功能实现与上述信息预测方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

此外，本发明实施例还提供一种可读存储介质。可读存储介质上存储有信息预测程序，其中信息预测程序被处理器执行时，实现上述任一实施例的信息预测方法的步骤。

其中，信息预测程序被执行时所实现的方法可参照本发明多信息预测方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息预测方法，其特征在于，包括以下步骤：

接收用户画像信息和模型构建指令，所述用户画像信息包括特征标签和与特征数据，所述特征标签包括多个数值标签和多个字符标签，所述特征数据包括与各所述数值标签对应的多个数值数据和与各所述字符标签对应的多个字符数据；

根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成预处理数据；

将待预测样本输入所述目标模型中，生成预测结果。

2.如权利要求1所述的信息预测方法，其特征在于，所述对所述预处理数据中的字符数据进行WOE编码转换，生成与各所述字符数据对应的转换值，将所述预处理数据中的字符数据更新为对应的转换值，生成输入数据的步骤包括：

根据以下公式计算各所述自变量组的转换值：

3.如权利要求2所述的信息预测方法，其特征在于，所述将所述预处理数据中的字符数据更新为对应的转换值，生成所述输入数据的步骤包括：

将所述预处理数据中的字符数据更新为对应的转换值；

根据以下公式，计算各所述自变量组对应的分组信息指标：

IVi＝(Py_i-Pn_i)*WOE_i，

根据以下公式，计算各所述字符标签对应的标签信息指标：

判断所述标签信息指标是否在预设范围内；

4.如权利要求1所述的信息预测方法，其特征在于，所述根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据的步骤包括：

5.如权利要求1所述的信息预测方法，其特征在于，所述根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据的步骤包括：

判断所述变异系数是否小于第二预设阈值；

6.如权利要求1所述的信息预测方法，其特征在于，所述根据所述模型构建指令对所述用户画像信息中的数值数据进行清洗处理，以生成所述预处理数据的步骤包括：

根据以下公式计算各所述数值标签之间的相关性系数：

判断所述相关性系数是否大于第三预设阈值；

7.如权利要求1至6中任一项所述的信息预测方法，其特征在于，所述根据所述输入数据和预设模型体系进行模型训练，生成目标模型的步骤包括：

若所述预测结果符合预设要求，则生成目标模型；

8.一种信息预测装置，其特征在于，包括：

训练模块，用于根据所述输入数据和预设模型体系进行模型训练，生成目标模型；

预测模块，用于将待预测样本输入所述目标模型中，生成预测结果。

9.一种终端，其特征在于，包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的信息预测程序，其中所述信息预测程序被所述处理器执行时，实现如权利要求1至7中任一项所述的信息预测方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有信息预测程序，其中所述信息预测程序被处理器执行时，实现权利要求1至7中任一项所述的信息预测方法的步骤。