CN110751347A

CN110751347A - 特征数据处理方法、终端、装置及可读存储介质

Info

Publication number: CN110751347A
Application number: CN201911072209.8A
Authority: CN
Inventors: 唐兴兴; 黄启军; 陈瑞钦; 林冰垠; 李诗琦
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-04

Abstract

本发明公开了一种特征数据处理方法，包括以下步骤：对待验证数据集进行分块处理，利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值，基于各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值，将所述总体分布值和所述总体似然值输入到预设的评分卡方公式，得到卡方值，并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。本发明还公开了一种装置、终端及可读存储介质。通过卡方公式计算特征值的卡方值并进行特征数据的评价时，与单机处理相比，本申请的分布式计算方式提升了计算速度，尤其是样本集较大时，进一步提升了特征数据的评价效率。

Description

特征数据处理方法、终端、装置及可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种特征数据处理方法、终端、装置及可读存储介质。

背景技术

当前越来越多的领域开始使用机器学习技术，机器学习模型的准确性和鲁棒性至关重要，这需要大量优质数据集进行训练。

由于逻辑回归模型具有良好的可解释，金融风控、医疗模型等要求可解释的场景通常会使用逻辑回归模型建模。训练数据集包括特征值和目标值，其中，特征值的评分卡方值是评价未进入逻辑回归模型的特征的重要量化指标，目前，评分卡方值主要是单机数据处理。然而，单机内存有限，若样本集较大，采用单机确定评分卡方值，会造成评分卡方值的处理速度较慢，从而导致特征数据的处理效率较低。

发明内容

本发明的主要目的在于提供一种特征数据处理方法、终端、装置及可读存储介质，旨在解决样本数量较大时，使用评分卡方值对未进入逻辑回归模型的特征进行评价，评价效率不高的技术问题。

为实现上述目的，本发明提供一种特征数据处理方法，所述的特征数据处理方法包括以下步骤：

对待验证数据集进行分块处理，得到预设数量的数据块；

利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值；

基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值；

将所述总体分布值和所述总体似然值输入到预设的评分卡方公式，得到卡方值，并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。

进一步地，在一实施方式中，所述对待验证数据集进行分块处理，得到预设数量的数据块的步骤之前，还包括：

将预设的样本集输入预测模型，生成所述样本集对应的预测概率；

将所述样本集和所述预测概率作为所述待验证数据集。

进一步地，在一实施方式中，所述利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值的步骤包括：

利用所述分布式线程分别获取各个数据块中数据对，并将所述数据对输入所述分布式计算公式和所述似然函数，得到各个数据块各自对应的分布值和似然值，其中，所述数据对为所述待验证数据集中的特征数据、目标数据和预测概率的组合。

进一步地，在一实施方式中，所述数据块包括多组数据对，所述将所述数据对输入所述分布式计算公式和所述似然函数，得到各个数据块各自对应的分布值和似然值的步骤包括：

将数据块的所有数据对输入所述分布式计算公式，得到各个数据对各自对应的子分布值，并分别累加各个数据块内所有数据对对应的子分布值，得到各个数据块各自对应的分布值；

将数据块的所有数据对输入所述似然函数，得到各个数据对各自对应的子似然值，并分别累加各个数据块内所有数据对对应的子似然值，得到各个数据块各自对应的似然值；

进一步地，在一实施方式中，所述将所述总体分布值和总体似然值输入到预设的评分卡方公式，得到预测评分的步骤包括：

将所述总体分布值和总体似然值输入到所述预设的评分卡方公式，以使所述总体似然值进行求平方计算，再与所述总体分布值计算得到所述卡方值。

进一步地，在一实施方式中，所述基于所述预测评分确定所述待验证数据集中特征数据对应的评价结果的步骤包括：

获取所述样本集对应的自由度，基于所述自由度确定卡方分布函数；

基于所述卡方分布函数得到所述卡方值对应的输出值，并基于所述输出值以及阈值确定所述待验证数据集中特征数据对应的评价结果。

进一步地，在一实施方式中，所述基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值的步骤包括：

累加各个数据块各自对应的分布值，得到所述总体分布值；

累加各个数据块各自对应的似然值，得到所述总体似然值。

进一步地，在一实施方式中，所述特征数据处理装置包括：

分块模块，用于对待验证数据集进行分块处理，得到预设数量的数据块；

计算模块，用于利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值；

确定模块，用于基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值；

评价模块，用于将所述总体分布值和所述总体似然值输入到预设的评分卡方公式，得到卡方值，并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。

此外，为实现上述目的，本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征数据处理程序，所述特征数据处理程序被所述处理器执行时实现上述任一项所述的特征数据处理方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有特征数据处理程序，所述特征数据处理程序被处理器执行时实现上述任一项所述的特征数据处理方法的步骤。

本发明对待验证数据集进行分块处理，得到预设数量的数据块，而后利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值，接下来基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值，然后将所述总体分布值和所述总体似然值输入到预设的评分卡方公式，得到卡方值，并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。通过卡方公式计算特征值的预测评分时，与单机处理相比，本申请的分布式计算方式提升了计算速度，尤其是样本集较大，提升了特征数据的评价效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图；

图2为本发明特征数据处理方法第一实施例的流程示意图；

图3为本发明特征数据处理方法第二实施例的流程示意图；

图4为本发明特征数据处理装置实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，姿态传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击) 等；当然，终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及特征数据处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接用户端，与用户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的特征数据处理程序。

在本实施例中，终端包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的特征数据处理程序，其中，处理器1001调用存储器1005中存储的特征数据处理程序时，执行本申请各个实施例提供的特征数据处理方法的步骤。

本发明还提供一种特征数据处理方法，参照图2，图2为本发明特征数据处理方法第一实施例的流程示意图。

本发明实施例提供了特征数据处理方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中，该特征数据处理方法包括：

步骤S10，对待验证数据集进行分块处理，得到预设数量的数据块；

在本实施例中，卡方值是非参数检验中的一个统计量，主要用于非参数统计分析中，它是卡方检验中的一个主要测试指标，卡方检验是一种用途很广的计数资料的假设检验方法，它属于非参数检验的范畴，主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析，其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方值是非参数检验中的一个统计量，主要用于非参数统计分析中。它的作用是检验数据的相关性。具体地，在本发明中预测模型是经过样本训练后的逻辑回归模型，样本集包括原始特征数据集和原始特征数据集对应的目标数据集，进一步地，对待验证数据集进行分块处理之前，基于预设格式在所述原始特征数据集中添加新增特征数据集，生成待检验特征数据集。为描述方便，定义变量如下：

原始特征数据集：X′,包含n条数据{x′₁,x′₂,...x′_n}，每一条数据

包含k-t个特征值{x′_i1,x′_i2,...x′_i(k-t)}；

新增特征数据集：X″，包含n条数据{x″₁,x″₂,...x″_n}，每一条数据

包含t个特征值{x″_i1,x″_i2,...x″_it)}；

待验证数据集中特征数据集：X，是原始特征数据集X′和新增特征数据集X″每一条数据拼接后的结果，包括n条数据{x₁,x₂,...x_n}，每一条数据

包括k个特征值{x_i1,x_i2,...x_ik}，其中，前k-t个特征值来自X′，后t特征值来自X″。

目标数据集：Y，包含n条数据{y₁,y₂,...y_n}；

预测概率集：P，包含n条数据{p₁,p₂,...p_n}；

预测模型的参数θ₀：是一个k-t维的向量{θ₁,θ₂,...θ_k-t}

预测模型的参数θ：是个k维的向量{θ₁,θ₂,...θ_k-t,0,...0}

预测模型的卡方计算公式S如下所示：

其中，H_θ和U_θ的值分别为：

从目标模型的卡方计算公式可以看出，主要计算瓶颈在计算总体分布值 H_θ和总体似然值U_θ，H_θ和U_θ的计算都可以采用以行为单位的矩阵分解，对目标模型对应的卡方公式进行矩阵分解如下：

根据总体分布值H_θ和总体似然值U_θ的特点，行与行之间的计算在乘法阶段是完全独立的，可以独立进行分布式计算，累加阶段再对每行的计算结果聚合，很方便的采用分布式计算思想。具体地，对待验证数据集进行分块处理，得到预设数量的数据块，然后分别计算每个数据块对应的分布值和似然值。

步骤S20，利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值；

在本实施例中，采用分布式的计算思想，预设的分布式计算公式和预设的似然函数分别在每一个数据块上进行分布式计算，然后得到各自对应的分布值和似然值。

具体地，步骤S20包括：

步骤S21包括：利用所述分布式线程分别获取各个数据块中数据对，并将所述数据对输入所述分布式计算公式和所述似然函数，得到各个数据块各自对应的分布值和似然值，其中，所述数据对为所述待验证数据集中的特征数据、目标数据和预测概率的组合。

具体地，步骤S21包括：

步骤a，将数据块的所有数据对输入所述分布式计算公式，得到各个数据对各自对应的子分布值，并分别累加各个数据块内所有数据对对应的子分布值，得到各个数据块各自对应的分布值；

在本实施例中，数据对为待验证数据集中的特征数据、目标数据和预测概率的组合，一个数据块中有多个数据对，将数据块的数据对输入分布式计算公式，得到各个数据对各自对应的子分布值，并分别累加各个数据块内所有数据对对应的子分布值，得到各个数据块各自对应的分布值。

举例说明，子分布值为将特征数据集和预测概率代入

进行计算，得到value1的具体值，然后累加一个数据块中的value1，得到该数据块对应的分布值。

步骤b，将数据块的所有数据对输入所述似然函数，得到各个数据对各自对应的子似然值，并分别累加各个数据块内所有数据对对应的子似然值，得到各个数据块各自对应的似然值。

在本实施例中，数据对为待验证数据集中的特征数据、目标数据和预测概率的组合，一个数据块中有多个数据对，将数据块的数据对输入似然函数，得到各个数据对各自对应的子似然值，并分别累加各个数据块内所有数据对对应的子似然值，得到各个数据块各自对应的似然值。

举例说明，子分布值为

将特征数据集和目标数据代入

进行计算，得到value2的具体值，然后累加一个数据块中的 value2，得到该数据块对应的似然值。

步骤S30，基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值；

具体地，步骤S30包括：

步骤c，累加各个数据块各自对应的分布值，得到所述总体分布值；

步骤d，累加各个数据块各自对应的似然值，得到所述总体似然值。

在本实施例中，采用分布式的计算思想，预设的分布式计算公式和预设的似然函数分别在每一个数据块上进行分布式计算，然后得到各自对应的分布值和似然值，接下来根据各个数据块对应的分布值以及似然值确定待验证数据集对应的总体分布值及总体似然值，用于卡方值计算。

具体地，累加各个数据块各自对应的分布值，得到所述总体分布值，同理，累加各个数据块各自对应的似然值，得到所述总体似然值。

步骤S40，将所述总体分布值和所述总体似然值输入到预设的评分卡方公式，得到卡方值，并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。

在本实施例中，将总体分布值和总体似然值输入到预设的评分卡方公式，得到卡方值后，进一步确定待验证数据集中特征数据对应的评价结果，其中评价结果包括两种：评价结果合格和评价结果不合格。

具体地，步骤S40包括：

步骤S41，将所述总体分布值和总体似然值输入到所述预设的评分卡方公式，以使所述总体似然值进行求平方计算，再与所述总体分布值计算得到所述卡方值。

在本实施例中，将总体分布值和总体似然值输入到评分卡方公式，根据评分卡方公式，进行相关计算，首先对总体似然值进行求平方计算，得到求平方后的结果，再将该结果与总体分布值计算得到所述卡方值。

步骤S42，获取所述样本集对应的自由度，基于所述自由度确定卡方分布函数；

步骤S43，基于所述卡方分布函数得到所述卡方值对应的输出值，并基于所述输出值以及阈值确定所述待验证数据集中特征数据对应的评价结果。

在本实施例中，不能直接通过卡方值判定评估结果，还需要进一步根据卡方分布函数获取卡方值的显著性，根据卡方值的显著性和阈值确定检验结果。

卡方分布是n个相互独立的服从标准正态分布的随机变量的平方和的分布。卡方是没有负数的，卡方值越大越显著，如果卡方值的显著性(即SIG.) 小于0.05，说明两个变量是显著相关的。具体地，获取样本集对应的自由度，根据自由度确定卡方分布函数，根据卡方分布函数得到卡方值对应的输出值，并将输出值与阈值比较，阈值可以设为0.05，当输出值小于0.05时，确定待验证数据集中特征数据的评价结果为评价合格，当输出值大于或等于0.05时，确定待验证数据集中特征数据的评价结果为评价结果不合格。

本实施例提出的特征数据处理方法，对待验证数据集进行分块处理，得到预设数量的数据块，而后利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值，接下来基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值，然后将所述总体分布值和所述总体似然值输入到预设的评分卡方公式，得到卡方值，并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。通过卡方公式计算特征值的预测评分时，与单机处理相比，本申请的分布式计算方式提升了计算速度，尤其是样本集较大，提升了特征数据的评价效率

基于第一实施例，参照图3，提出本发明特征数据处理方法的第二实施例，在本实施例中，步骤S10之前，还包括：

步骤S50，将预设的样本集输入预测模型，生成所述样本集对应的预测概率；

步骤S60，将所述样本集和所述预测概率作为所述待验证数据集。

在本实施例中，将样本集作为预测模型的输入，在模型输出预测值的同时输出该预测值对应的预测概率，预测概率一般是由模型本身在对输入数据进行预测时，伴随预测值附带的一个0-1之间的数值，数值越大，表示预测值的置信度越高，一般预测概率大于等于0.5表示预测结果可信度较高(超过 50％的概率)，所以这是逻辑回归模型本身自带的一个数值信息，在实际应用中，对于一个数据，通过逻辑回归模型其预测为不同结果的概率大小是不一样的，选取其中预测概率最大的结果作为该数据的最终预测值，所以预测值和预测概率在模型中是伴生关系的。具体地，将预设的样本集输入预测模型，生成样本集对应的预测概率，将样本集和预测概率作为待验证数据集。

本实施例提出的特征数据处理方法，将预设的样本集输入预测模型，生成样本集对应的预测概率，将样本集和预测概率作为待验证数据集，提供了在分布式计算卡方值前的数据准备。

本发明进一步提供一种特征数据处理装置，参照图4，图4为本发明特征数据处理装置实施例的功能模块示意图。

分块模块10，用于对待验证数据集进行分块处理，得到预设数量的数据块；

计算模块20，用于利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值；

确定模块30，用于基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值；

评价模块40，用于将所述总体分布值和所述总体似然值输入到预设的评分卡方公式，得到卡方值，并基于所述卡方值确定所述待验证数据集中特征数据对应的评价结果。

进一步地，所述特征数据处理装置还包括：

将所述样本集和所述预测概率作为所述待验证数据集。

进一步地，所述计算模块20还用于：

将数据块的所有数据对输入所述似然函数，得到各个数据对各自对应的子似然值，并分别累加各个数据块内所有数据对对应的子似然值，得到各个数据块各自对应的似然值。

进一步地，所述归纳模块30还用于：

进一步地，所述评估模块40还用于：

进一步地，所述卡方值的检验装置还包括：

第一聚合模块，用于累加各个数据块各自对应的分布值，得到所述总体分布值；

第二聚合模块，用于累加各个数据块各自对应的似然值，得到所述总体似然值。

此外，本发明实施例还提出一种可读存储介质，所述可读存储介质上存储有特征数据处理程序，所述特征数据处理程序被处理器执行时实现上述各个实施例中特征数据处理方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个可读存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台系统设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种特征数据处理方法，其特征在于，所述的特征数据处理方法包括以下步骤：

对待验证数据集进行分块处理，得到预设数量的数据块；

2.如权利要求1所述的特征数据处理方法，其特征在于，所述对待验证数据集进行分块处理，得到预设数量的数据块的步骤之前，还包括：

将所述样本集和所述预测概率作为所述待验证数据集。

3.如权利要求1所述的特征数据处理方法，其特征在于，所述利用分布式线程、预设的分布式计算公式和预设的似然函数，分别计算各个数据块各自对应的分布值和似然值的步骤包括：

4.如权利要求3所述的特征数据处理方法，其特征在于，所述数据块包括多组数据对，所述将所述数据对输入所述分布式计算公式和所述似然函数，得到各个数据块各自对应的分布值和似然值的步骤包括：

5.如权利要求1所述的特征数据处理方法，其特征在于，所述将所述总体分布值和总体似然值输入到预设的评分卡方公式，得到预测评分的步骤包括：

6.如权利要求1所述的特征数据处理方法，其特征在于，所述基于所述预测评分确定所述待验证数据集中特征数据对应的评价结果的步骤包括：

7.如权利要求1-6中任一项所述的特征数据处理方法，其特征在于，所述基于所述各个数据块对应的分布值以及似然值确定所述待验证数据集对应的总体分布值及总体似然值的步骤包括：

累加各个数据块各自对应的分布值，得到所述总体分布值；

累加各个数据块各自对应的似然值，得到所述总体似然值。

8.一种特征数据处理装置，其特征在于，所述特征数据处理装置包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征数据处理程序，所述特征数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的特征数据处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有所述特征数据处理程序，所述特征数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的特征数据处理方法的步骤。