CN113742543B

CN113742543B - 一种数据筛选方法、装置、电子设备及存储介质

Info

Publication number: CN113742543B
Application number: CN202111106955.1A
Authority: CN
Inventors: 董亚东
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-02-23
Anticipated expiration: 2041-09-22
Also published as: CN113742543A

Abstract

本申请公开了一种数据筛选方法、装置、电子设备和存储介质，可应用于大数据领域或金融领域。将待筛选数据分为训练样本数据和测试样本数据，基于数据属性值对训练样本数据和测试样本数据均进行初步筛选和预处理，得到目标训练数据和目标测试数据，对目标训练数据采用互信息算法进行特征项筛选得到目标特征项，基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集，采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到用于确定待测试数据为有效数据或无效数据的有效数据概率和无效数据概率。本发明不仅考虑了数据属性值，而且对数据间关联关系进行了考量，从而可以更好的区分有效数据和无效数据。

Description

一种数据筛选方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，更具体的说，涉及一种数据筛选方法、装置、电子设备和存储介质。

背景技术

目前，银行系统保存的各种业务类数据和技术类数据中，涉及了客户的证件信息、联系方式信息、银行账户信息和第三方业务信息等等。这些数据中包含了有效数据，同时也包含了部分无效数据(或者说脏数据)，无效数据比如，虚假信息、错误信息等。对于这些无效数据，如果不及时进行处理，容易造成银行垫款、客户投诉及银行业务分析不全面等。

现有技术一般根据数据的属性值，比如字段长度、取值范围等对有效数据进行筛选，而忽略了数据间的关联关系，导致对数据分析不全面，不能有效的区分有效数据和无效数据。

发明内容

有鉴于此，本发明公开一种数据筛选方法、装置、电子设备和存储介质，以实现对数据的全面分析，有效区分有效数据和无效数据。

一种数据筛选方法，包括：

将待筛选数据分为训练样本数据和测试样本数据；

基于数据属性值对所述训练样本数据进行初步筛选和预处理，得到目标训练数据；

对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项；

基于数据属性值对所述测试样本数据进行初步筛选和预处理，得到目标测试数据；

基于所述目标特征项和所述目标测试数据执行特征向量化操作，得到待测试数据集；

采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类，得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率；

基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系，确定所述待测试数据为有效数据或无效数据。

可选的，所述基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系，确定所述待测试数据为有效数据或无效数据，具体包括：

将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据；

将有效数据概率不大于无效数据概率的所述待测试数据确定为无效数据。

可选的，还包括：

将所述待测试数据集中的无效数据进行滤除得到最新测试样本数据，并返回再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理。

可选的，所述预处理包括：缺失值补缺和异常值剔除。

可选的，对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项，具体包括：

对所述目标训练数据采用互信息算法得到多个互信息值，其中，所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度，互信息值越高关联程度越大，所述训练结果集中的0表示无效数据，1表示有效数据；

基于所述互信息值筛选出所述目标特征项，其中，所述目标特征项的互信息值高于非目标特征项的互信息值。

可选的，所述采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类，得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率，具体包括：

采用所述改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类，得到待测试数据集中各个待测试数据对应的条件概率，所述条件概率的表达式如下：

式中，P(C_j|d)表示输入数据d属于C_j的概率，j表示类别序号，P(C_j)为基于所述目标训练数据得到的先验概率，C_j为分类类别，C₀表示有效数据，C₁表示无效数据，P(d|C_j)表示所有特征项在C_j的概率，P(d)为常量0.5。

可选的，先验概率P(C_j)的表达式如下：

式中，D为待测试数据集，n为所述待测试数据集中待测试数据的数量；所有特征项在C_j的概率P(d|C_j)的表达式如下：

式中，P(w_i|C_j)表示特征项w_i在C_j的概率，k为特征项的个数，i为特征项的序号。

一种数据筛选装置，包括：

数据拆分单元，用于将待筛选数据分为训练样本数据和测试样本数据；

第一处理单元，用于基于数据属性值对所述训练样本数据进行初步筛选和预处理，得到目标训练数据；

筛选单元，用于对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项；

第二处理单元，用于基于数据属性值对所述测试样本数据进行初步筛选和预处理，得到目标测试数据；

数据集确定单元，用于基于所述目标特征项和所述目标测试数据执行特征向量化操作，得到待测试数据集；

分类单元，用于采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类，得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率；

数据类型确定单元，用于基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系，确定所述待测试数据为有效数据或无效数据。

可选的，所述数据类型确定单元具体用于：

可选的，还包括：

无效数据滤除单元，用于将所述待测试数据集中的无效数据进行滤除得到最新测试样本数据，并返回再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理。

可选的，筛选单元具体用于：

可选的，所述分类单元具体用于：

可选的，先验概率P(C_j)的表达式如下：

一种电子设备，所述电子设备包括存储器和处理器；

所述存储器用于存储至少一个指令；

所述处理器用于执行所述至少一个指令以实现如上述所述的数据筛选方法。

一种计算机可读存储介质，所述计算机可读存储介质存储至少一个指令，所述至少一个指令被处理器执行时实现如上述所述的数据筛选方法。

从上述的技术方案可知，本发明公开了一种数据筛选方法、装置、电子设备和存储介质，将待筛选数据分为训练样本数据和测试样本数据，基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据，对目标训练数据采用互信息算法进行特征项筛选得到目标特征项，基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据，基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集，采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率，基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时，不仅考虑了数据属性值，而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器，实现了对数据间关联关系的考量，从而实现了对待筛选数据的全面分析，可以更好的区分有效数据和无效数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种数据筛选方法流程图；

图2为本发明实施例公开的一种数据筛选装置的结构示意图；

图3为本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

需要说明的是，本发明提供的一种数据筛选方法、装置、电子设备和存储介质可用于大数据领域或金融领域。上述仅为示例，并不对本发明提供的一种数据筛选方法、装置、电子设备和存储介质的应用领域进行限定。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种数据筛选方法、装置、电子设备和存储介质，将待筛选数据分为训练样本数据和测试样本数据，基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据，对目标训练数据采用互信息算法进行特征项筛选得到目标特征项，基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据，基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集，采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率，基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时，不仅考虑了数据属性值，而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器，实现了对数据间关联关系的考量，从而实现了对待筛选数据的全面分析，可以更好的区分有效数据和无效数据。

参见图1，本发明实施例公开的一种数据筛选方法流程图，该方法包括：

步骤S101、将待筛选数据分为训练样本数据和测试样本数据；

在实际应用中，将待筛选数据按照预设比例分为训练样本数据和测试样本数据，预设比例的取值依据实际需要而定，比如2:1，本发明在此不做限定。

步骤S102、基于数据属性值对所述训练样本数据进行初步筛选和预处理，得到目标训练数据；

其中，数据属性值可以包括：长度、枚举值、字符集类型、字段类型、正则规则以及其他业务属性。

预处理包括：缺失值补缺和异常值剔除。

在实际应用中，可以利用线性插值法或平均值法进行缺失值补缺。

步骤S103、对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项；

互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

步骤S103具体包括：

对所述目标训练数据采用互信息算法得到多个互信息值；

其中，所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度，互信息值越高关联程度越大，所述训练结果集中的0表示无效数据，1表示有效数据。

需要说明的是，采用互信息算法进行特征项筛选的目的是将对分类(有效数据和无效数据分类)无关的特征项进行滤除。

步骤S104、基于数据属性值对所述测试样本数据进行初步筛选和预处理，得到目标测试数据；

其中，对测试样本数据进行初步筛选和预处理与对训练样本数据进行初步筛选和预处理的过程相同。

步骤S105、基于所述目标特征项和所述目标测试数据执行特征向量化操作，得到待测试数据集；

其中，执行特征向量化的过程可参见现有成熟方案，此处不再赘述。

步骤S106、采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类，得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率；

其中，朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签，类标签取自有限集合。它不是训练这种分类器的单一算法，而是一系列基于相同原理的算法：所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

改进加权的朴素贝叶斯算法分类器是在朴素贝叶斯分类器基础上改进的分类器。

步骤S107、基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系，确定所述待测试数据为有效数据或无效数据。

具体的，将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据；

综上可知，本发明公开了一种数据筛选方法，将待筛选数据分为训练样本数据和测试样本数据，基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据，对目标训练数据采用互信息算法进行特征项筛选得到目标特征项，基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据，基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集，采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率，基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时，不仅考虑了数据属性值，而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器，实现了对数据间关联关系的考量，从而实现了对待筛选数据的全面分析，可以更好的区分有效数据和无效数据。

为进一步优化上述实施例，在步骤S107之后，还可以包括：

将待测试数据集中的无效数据进行滤除得到最新测试样本数据，并返回步骤S104再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理，对无效数据再次进行滤除，如此反复，直到得到所有的有效数据。

为进一步优化上述实施例，步骤S106具体可以包括：

其中，先验概率P(C_j)的表达式如下：

与上述方法实施例相对应，本发明还公开了一种数据筛选装置。

参见图2，本发明实施例公开的一种数据筛选装置的结构示意图，该装置包括：

数据拆分单元201，用于将待筛选数据分为训练样本数据和测试样本数据；

第一处理单元202，用于基于数据属性值对所述训练样本数据进行初步筛选和预处理，得到目标训练数据；

预处理包括：缺失值补缺和异常值剔除。

筛选单元203，用于对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项；

其中，筛选单元203具体可以用于：

对所述目标训练数据采用互信息算法得到多个互信息值；

第二处理单元204，用于基于数据属性值对所述测试样本数据进行初步筛选和预处理，得到目标测试数据；

数据集确定单元205，用于基于所述目标特征项和所述目标测试数据执行特征向量化操作，得到待测试数据集；

分类单元206，用于采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类，得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率；

数据类型确定单元207，用于基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系，确定所述待测试数据为有效数据或无效数据。

其中，数据类型确定单元207具体用于：

综上可知，本发明公开了一种数据筛选装置，将待筛选数据分为训练样本数据和测试样本数据，基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据，对目标训练数据采用互信息算法进行特征项筛选得到目标特征项，基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据，基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集，采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率，基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时，不仅考虑了数据属性值，而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器，实现了对数据间关联关系的考量，从而实现了对待筛选数据的全面分析，可以更好的区分有效数据和无效数据。

为进一步优化上述实施例，数据筛选装置还可以包括：

为进一步优化上述实施例，分类单元206具体可以用于：

其中，先验概率P(C_j)的表达式如下：

与上述实施例相对应，如图3所示，本发明还提供了一种电子设备，电子设备可以包括：处理器1和存储器2；

其中，处理器1和存储器2通过通信总线3完成相互间的通信；

处理器1，用于执行计算机程序；

存储器2，用于存放计算机程序；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器2可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，处理器执行计算机程序实现如下功能：

将待筛选数据分为训练样本数据和测试样本数据；

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储至少一个指令，所述至少一个指令被处理器执行时实现上述所述的数据筛选方法。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据筛选方法，其特征在于，包括：

将待筛选数据分为训练样本数据和测试样本数据；

采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类，得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率，具体包括：

式中，P(C_j|d)表示输入数据d属于C_j的概率，j表示类别序号，P(C_j)为基于所述目标训练数据得到的先验概率，C_j为分类类别，C₀表示有效数据，C₁表示无效数据，P(d|C_j)表示所有特征项在C_j的概率，P(d)为常量0.5；

2.根据权利要求1所述的数据筛选方法，其特征在于，所述基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系，确定所述待测试数据为有效数据或无效数据，具体包括：

3.根据权利要求1所述的数据筛选方法，其特征在于，还包括：

4.根据权利要求1所述的数据筛选方法，其特征在于，所述预处理包括：缺失值补缺和异常值剔除。

5.根据权利要求1所述的数据筛选方法，其特征在于，对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项，具体包括：

6.根据权利要求1所述的数据筛选方法，其特征在于，先验概率P(C_j)的表达式如下：

式中，D为待测试数据集，n为所述待测试数据集中待测试数据的数量；

所有特征项在C_j的概率P(d|C_j)的表达式如下：

7.一种数据筛选装置，其特征在于，包括：

数据类型确定单元，用于基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系，确定所述待测试数据为有效数据或无效数据；

其中，所述分类单元具体用于：

8.根据权利要求7所述的数据筛选装置，其特征在于，所述数据类型确定单元具体用于：

9.根据权利要求7所述的数据筛选装置，其特征在于，还包括：

10.根据权利要求7所述的数据筛选装置，其特征在于，筛选单元具体用于：

11.根据权利要求7所述的数据筛选装置，其特征在于，先验概率P(C_j)的表达式如下：

所有特征项在C_j的概率P(d|C_j)的表达式如下：

12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；

所述存储器用于存储至少一个指令；

所述处理器用于执行所述至少一个指令以实现如权利要求1～6任意一项所述的数据筛选方法。