CN117197614A

CN117197614A - 一种数据筛选的方法和装置

Info

Publication number: CN117197614A
Application number: CN202311155997.3A
Authority: CN
Inventors: 洪宇坤
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-12-08

Abstract

本申请实施例公开了一种数据筛选的方法和装置，可应用于人工智能领域或金融领域用于从待处理数据集中筛选出待处理数据集中特征更加集中的目标特征集合，提升训练数据集的准确性和针对性。本申请实施例方法包括：在获取到待处理数据集后，利用待处理数据集训练模型获得特征聚类模型，再使用特征聚类模型处理待处理集合，获得待处理集合对应的目标特征集合，其中，目标特征集合为特征聚类模型处理待处理集合时，评分排名前i名的特征，i为正整数。在获得目标特征集合后，利用目标特征集合对待处理数据集进行筛选分类，获得目标数据集，目标数据集中的每个数据样本都具备目标特征集合中至少一个特征。

Description

一种数据筛选的方法和装置

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种特征筛选的方法和装置。

背景技术

随着人工智能技术的不断发展和进步，现下对人工智能模型的性能和准确度有了更高的要求，而人工智能模型的性能和准确度直接受到训练数据集的影响。只有代表性强，特征明显的训练数据集才能够训练出能够应对多样化场景和问题的模型。

现阶段的数据集多由技术人员对数据样本进行简单的标签处理后得到的，这种简单粗暴的数据集获取方式已经无法应对更高的人工智能模型训练效果要求。

发明内容

本申请实施例提供了一种数据筛选的方法和装置，从待处理数据集中筛选出待处理数据集中特征更加集中的目标特征集合，提升了训练数据集的准确性和针对性，从而提升了利用训练数据集训练获得的人工智能模型的鲁棒性和准确性。

本申请实施例第一方面提供了一种数据筛选的方法，包括：

获取待处理数据集，待处理数据集包括数据样本和数据样本对应的标签；

根据待处理数据集生成特征聚类模型；

使用特征聚类模型处理待处理数据集，获得待处理集合对应的目标特征集合，目标特征集合包括i个目标特征，目标特征为待处理数据集对应的特征中评分排名前i名的特征，i为正整数；

利用目标特征集合对待处理数据集进行分类，获得目标数据集，目标数据集中每个数据样本都具备i个目标特征集合中至少一个特征。

在第一方面一种可能的实施方式中，数据样本中的每个数据样本都为二维图像；

根据待处理数据集生成特征聚类模型，包括：

将数据样本转化为RGB像素点编码，获得红坐标向量、绿坐标向量和蓝坐标向量；

根据红坐标向量、绿坐标向量和蓝坐标向量生成特征聚类模型。

在第一方面一种可能的实施方式中，根据特征聚类模型计算待处理数据集对应的目标特征集合，包括：

将待处理数据集中的数据样本输入特征聚类模型，获得待处理数据集对应的N个特征，N为正整数，N大于或等于i；

将N个特征中出现次数由大到小排序获得目标特征序列；

从目标特征序列中选取前i个目标特征，获得目标特征集合。

在第一方面一种可能的实施方式中，从目标特征序列中选取前i个目标特征，获得目标特征集合，包括：

从目标特征序列中选取排名前i名的特征，获得待筛选特征集合；

计算待筛选特征集合的预设指标得分；

若待筛选特征集合的预设指标得分大于阈值，获得目标特征集合。

在第一方面一种可能的实施方式中，使用特征聚类模型处理待处理数据集，包括：

利用待处理数据集对特征聚类模型进行N次迭代，N次迭代依次以待处理数据集对应的N个特征作为分类依据进行，N为正整数，N大于或等于i；

选取第N次迭代中每一次排序前N的目标特征，获得N个待筛选特征集合；

计算N个待筛选特征集合中每个待筛选特征集合的预设指标得分；

选取N个待筛选特征集合中预设指标得分最高的第i次迭代对应的待筛选特征集合作为目标特征集合。

本申请实施例第二方面提供了一种数据筛选的装置，包括：

获取单元，用于获取待处理数据集，待处理数据集包括数据样本和数据样本对应的标签；

生成单元，用于根据待处理数据集生成特征聚类模型；

处理单元，用于使用特征聚类模型处理待处理数据集，获得待处理集合对应的目标特征集合，目标特征集合包括i个目标特征，目标特征为待处理数据集对应的特征中评分排名前i名的特征，i为正整数；

分类单元，用于利用目标特征集合对待处理数据集进行分类，获得目标数据集，目标数据集中每个数据样本都具备i个目标特征集合中至少一个特征。

在第二方面一种可能的实施方式中，数据样本中的每个数据样本都为二维图像；

生成单元，具体用于：

在第二方面一种可能的实施方式中，处理单元，具体用于：

将N个特征中出现次数由大到小排序获得目标特征序列；

从目标特征序列中选取前i个目标特征，获得目标特征集合。

在第二方面一种可能的实施方式中，处理单元，具体用于：

计算待筛选特征集合的预设指标得分；

在第二方面一种可能的实施方式中，处理单元，具体用于：

本申请第三方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行如上述第一方面的数据筛选的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请第四方面提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面的数据筛选的方法。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在获取到待处理数据集后，利用待处理数据集训练模型获得特征聚类模型，再使用特征聚类模型处理待处理集合，获得待处理集合对应的目标特征集合，其中，目标特征集合为特征聚类模型处理待处理集合时，评分排名前i名的特征，i为正整数。在获得目标特征集合后，利用目标特征集合对待处理数据集进行筛选分类，获得目标数据集，目标数据集中的每个数据样本都具备目标特征集合中至少一个特征。从而筛选出待处理数据集中特征更加集中的目标特征集合，提升了训练数据集的准确性和针对性，从而提升了利用训练数据集训练获得的人工智能模型的鲁棒性和准确性。

附图说明

图1为本申请实施例提供的数据筛选的方法的一种示意图；

图2为本申请实施例提供的数据筛选的方法的另一种示意图；

图3为本申请实施例提供的数据筛选的装置的一种结构示意图；

图4为本申请实施例提供的数据筛选的另一种结构示意图。

具体实施方式

本发明提供的业务处理的方法和装置可用于人工智能领域或金融领域。上述仅为示例，并不对本发明提供的业务处理的方法和装置的应用领域进行限定。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

基于以上问题，本申请提出，可以在获取到待处理数据集后，利用待处理数据集训练模型获得特征聚类模型，再使用特征聚类模型处理待处理集合，获得待处理集合对应的目标特征集合，其中，目标特征集合为特征聚类模型处理待处理集合时，评分排名前i名的特征，i为正整数。在获得目标特征集合后，利用目标特征集合对待处理数据集进行筛选分类，获得目标数据集，目标数据集中的每个数据样本都具备目标特征集合中至少一个特征。从而筛选出待处理数据集中，提升了训练数据集的准确性和针对性，从而提升了利用训练数据集训练获得的人工智能模型的鲁棒性和准确性。

下面结合附图对本申请提供的方案进行介绍，请参阅图1，图1为本申请实施例提供的数据筛选的方法的一种示意图。

101、获取待处理数据集；

在进行数据筛选时，先获取到待处理数据集，其中，待处理数据集包括数据样本和数据样本对应的标签。

示例性的，采集到包括m个数据样本和这m个数据样本对应的标签组成的待处理数据集。

也即，待处理数据集其中，r为标签集合，m为样本个数，n为特征个数。

102、根据待处理数据集生成特征聚类模型；

在获取到待处理数据集后，根据待处理数据集生成特征聚类模型，其中，特征聚类模型用于提取待处理数据集中数据样本携带的特征。

示例性的，先对待处理数据集中每个数据样本进行分析，获得待处理数据集中每个数据样本对应的特征向量，将待处理数据集中每个数据样本的特征向量输入基于深度神经网络构建的待训练特征聚类模型，获得特征聚类模型。

在一些具体的应用场景中，数据样本可以为有色二维图像，根据待处理数据集生成特征聚类模型时，首先将有色的二维图像中的每个像素点按照红绿蓝(red green blue，RGB)色彩模式进行向量映射，数据样本中每个像素点的红坐标向量、绿坐标向量和蓝坐标向量。

再依次对数据样本中全部像素点的红坐标向量、绿坐标向量和蓝坐标向量进行分层建模，获得用于对向量模组聚类的特征聚类模型。

可以理解的是，此处对特征聚类模型的具体生成模式的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

103、使用特征聚类模型处理待处理数据集，获得待处理集合对应的目标特征集合；

在生成生成特征聚类模型后，使用特征聚类模型处理待处理数据集，获得待处理数据集对应的目标特征集合，其中，目标特征集合包括i个目标特征，目标特征为待处理数据集对应的特征中评分排名前i名的特征，i为正整数。

具体的，特征聚类模型处理待处理数据集后，获得待处理数据集中每个数据样本对应的多个特征和待处理数据集对应的N个特征。其中，N为正整数，且N大于或等于i。

在此基础上，认为每个数据样本对每个特征具有投票权，若数据样本对应的多个特征中包括特征A即可为特征A投上一票，特征A的票数即为特征A的评分。

对待处理数据集聚类获得的全部特征的评分由高到低进行排序，获得目标特征序列。并从目标排序从选取排序前i的目标特征，由i个目标特征组成目标特征集。

目标特征集：ind_i＝sortrank(concatenate({X₁ ^1:n,X₂ ^1:n,...,X_z ^1:n},axis＝0)，其中，n为特征个数，z为模型个数。

可以理解的是，此处对待处理数据集中特征进行评分和评分规则的说明仅为示例，在实际应用中，应结合具体应用场景进行设置此处不做限制。

更进一步的，可以从目标排序从选取排序前i的目标特征，由i个目标特征组成待筛选特征集合。利用评价指标来评价待筛选特征集合是否为优选特征集合。

计算待筛选特征集合的预设指标得分，若待筛选特征集合的预设指标得分大于阈值，则待筛选特征集合为目标特征集合。

具体的，预设指标为曲线下面积(area under curve，AUC)指数、F1指数或Gain图中至少一种。

可以理解的是，此处选取目标特征集的具体实施方式的说明仅为示例在实际应用中，应结合具体应用场景进行设置，此处不做限制。

104、利用目标特征集合对待处理数据集进行分类，获得目标数据集。

在获得待处理数据集合对应的目标特征集合后，利用目标特征集合对待处理数据集进行分类，获得目标数据集，目标数据集中每个数据样本都具备i个目标特征集合中至少一个特征。

具体的，数据样本A和数据样本B为待处理数据集中的数据样本，其中，数据样本A对应的特征集与目标特征集合的交集为空集，数据样本B对应的特征集与目标特征集合的交集非控空集，则将数据样本A归类于目标数据集。

可以理解的是，此处对根据目标特征集合对待处理数据集进行分类，获得目标数据集的方式的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

在另一种具体的实施方式中，还可以利用待处理数据集对特征聚类模型进行N次迭代，在迭代中获得目标特征集合。

请参阅图2，图2为本申请实施例提供的数据筛选的方法的另一种示意图。

201、获取待处理数据集；

也即，待处理数据集D＝{x_j,y_j}_j ^m _＝1,x_j∈Rⁿ,y_j∈r，其中，r为标签集合，m为样本个数，n为特征个数。

202、根据待处理数据集生成特征聚类模型；

在一些具体的应用场景中，数据样本可以为有色二维图像，根据待处理数据集生成特征聚类模型时，首先将有色的二维图像中的每个像素点按照RGB色彩模式进行向量映射，数据样本中每个像素点的红坐标向量、绿坐标向量和蓝坐标向量。

203、利用待处理数据集对特征聚类模型进行N次迭代；

在生成特征聚类模型后，利用待处理数据集对特征聚类模型进行N次迭代。每次迭代以待处理数据集中对应的N个特征中的第i个特征作为分类依据进行迭代，其中，N为正整数，N大于或等于i。

204、选取第i次迭代中排序前i的目标特征，获得N个待筛选特征集合；

在利用待处理数据集对特征聚类模型进行迭代的过程中，对第i次迭代获得的特征索引进行从大到小的排序，获得第i次迭代模型的目标序列特征。

目标特征序列为{X₁ ⁿ,X₂ ⁿ,...,X_z ⁿ}。

从目标序列特征中选取排名前i个特征，获得第i个待筛选特征集合。

对特征聚类模型的N次迭代分别执行前述操作，获得N个待筛选特征集合。

可以理解的是，此处对从N次迭代获得的目标特征序列中选取N个待筛选特征的说明仅为示例，在实际应用中还可以采取其他手段选取N个待筛选特征，此处不做限制。

205、计算N个待筛选特征集合中第i个待筛选特征集合的预设指标得分；

在获得N个待筛选特征集合后，依次计算N个待筛选特征集合中第i个待筛选特征集合的预设指标得分，获得N个待筛选特征集合的预设指标得分。

具体的，预设指标可以为AUC指数、F1指数或Gain图中至少一种。

可以理解的是，此处对预设指标的说明仅为示例，在实际应用中，应结合具体应用场景进行设置，此处不做限制。

206、选取N个待筛选特征集合中预设指标得分最高的第i次迭代对应的待筛选特征集合作为目标特征集合；

计算N个待筛选特征集合中第i个待筛选特征集合的预设指标得分后，选取N个待筛选特征集合中预设指标得分最高的第i次迭代对应的待筛选特征集合作为目标特征集合。

具体的，当预设指标为AUC指数、F1指数或Gain图中至少两种时，对预设指标得分按照预设权重进行得分转换，并且将得分转换后的N个待筛选集合按照分数由高至低的顺序进行排序，获得N个待筛选特征集合预设指标得分序列。

从N个待筛选特征集合预设指标得分序列中选取分数最高的第i次迭代对应的待筛选特征集合作为目标特征集合。

可以理解的是，此处对待筛选特征集合作为目标特征集合的具体筛选模式的说明仅为示例，在实际应用中，应结合具体的应用场景进行设置，此处不做限制。

207、利用目标特征集合对待处理数据集进行分类，获得目标数据集。

本申请实施例中，利用待处理数据集对特征聚类模型进行N次迭代，在迭代中获得目标特征集合，进一步提升了特征聚类模型的精确度，从而进一步提升了训练数据集的准确性和针对性。

再前述图2所示的方法的基础上，更进一步的，还可以在对特征聚类模型N轮迭代时，采用五折交叉验证的方法，预先对待处理数据集进行分类，将其中一部分作为迭代数据，另一部分作为验证数据验证特征聚类模型的聚类效果，此处对迭代数据与验证数据在待处理数据集中的占比不做限制。

以上对本申请提供的数据筛选的方法进行了介绍，下面结合附图对本申请提供的数据筛选的装置进行介绍，请参阅图3，图3为本申请实施例提供的数据筛选的装置的一种结构示意图。

一种数据筛选的装置30，包括：

获取单元301，用于获取待处理数据集，待处理数据集包括数据样本和数据样本对应的标签；

生成单元302，用于根据待处理数据集生成特征聚类模型；

处理单元303，用于使用特征聚类模型处理待处理数据集，获得待处理集合对应的目标特征集合，目标特征集合包括i个目标特征，目标特征为待处理数据集对应的特征中评分排名前i名的特征，i为正整数；

分类单元304，用于利用目标特征集合对待处理数据集进行分类，获得目标数据集，目标数据集中每个数据样本都具备i个目标特征集合中至少一个特征。

可选的，数据样本中的每个数据样本都为二维图像；

生成单元302，具体用于：

可选的，处理单元303，具体用于：

将N个特征中出现次数由大到小排序获得目标特征序列；

从目标特征序列中选取前i个目标特征，获得目标特征集合。

可选的，处理单元303，具体用于：

计算待筛选特征集合的预设指标得分；

可选的，处理单元303，具体用于：

请参阅图4，图4为本申请实施例提供的数据筛选的另一种结构示意图。

处理器401和存储器402，其中处理器401和存储器402耦合，存储器402存储有程序，当存储器402存储的程序指令被处理器401执行时，实现前述图3中数据筛选的装置所执行的功能和流程，此处不再赘述。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质用于储存为上述质量分析设备所用的计算机软件指令，其包括用于执行为业务处理的装置所设计的程序。

该业务处理的装置用于前述图3中数据筛选的装置所执行的功能和流程，此处不再赘述。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现上述实现前述图3中数据筛选的装置所执行的功能和流程，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种数据筛选的方法，其特征在于，包括：

获取待处理数据集，所述待处理数据集包括数据样本和所述数据样本对应的标签；

根据所述待处理数据集生成特征聚类模型；

使用所述特征聚类模型处理所述待处理数据集，获得所述待处理集合对应的目标特征集合，所述目标特征集合包括i个目标特征，所述目标特征为所述待处理数据集对应的特征中评分排名前i名的特征，所述i为正整数；

利用所述目标特征集合对所述待处理数据集进行分类，获得目标数据集，所述目标数据集中每个数据样本都具备所述i个目标特征集合中至少一个特征。

2.根据权利要求1所述的方法，其特征在于，所述数据样本中的每个数据样本都为二维图像；

所述根据待处理数据集生成特征聚类模型，包括：

将所述数据样本转化为RGB像素点编码，获得红坐标向量、绿坐标向量和蓝坐标向量；

根据所述红坐标向量、所述绿坐标向量和所述蓝坐标向量生成所述特征聚类模型。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述特征聚类模型计算所述待处理数据集对应的目标特征集合，包括：

将所述待处理数据集中的数据样本输入所述特征聚类模型，获得所述待处理数据集对应的N个特征，所述N为正整数，所述N大于或等于所述i；

将所述N个特征中出现次数由大到小排序获得目标特征序列；

从所述目标特征序列中选取前i个目标特征，获得所述目标特征集合。

4.根据权利要求3所述的方法，其特征在于，所述从所述目标特征序列中选取前i个目标特征，获得所述目标特征集合，包括：

从所述目标特征序列中选取排名前i名的特征，获得待筛选特征集合；

计算所述待筛选特征集合的预设指标得分；

若所述待筛选特征集合的预设指标得分大于阈值，获得目标特征集合。

5.根据权利要求1或2所述的方法，其特征在于，所述使用所述特征聚类模型处理所述待处理数据集，包括：

利用所述待处理数据集对所述特征聚类模型进行N次迭代，所述N次迭代依次以所述待处理数据集对应的N个特征作为分类依据进行，所述N为正整数，所述N大于或等于所述i；

选取所述第N次迭代中每一次排序前N的目标特征，获得N个待筛选特征集合；

计算所述N个待筛选特征集合中每个待筛选特征集合的预设指标得分；

选取所述N个待筛选特征集合中预设指标得分最高的第i次迭代对应的待筛选特征集合作为目标特征集合。

6.一种数据筛选的装置，其特征在于，包括：

获取单元，用于获取待处理数据集，所述待处理数据集包括数据样本和所述数据样本对应的标签；

生成单元，用于根据所述待处理数据集生成特征聚类模型；

处理单元，用于使用所述特征聚类模型处理所述待处理数据集，获得所述待处理集合对应的目标特征集合，所述目标特征集合包括i个目标特征，所述目标特征为所述待处理数据集对应的特征中评分排名前i名的特征，所述i为正整数；

分类单元，用于利用所述目标特征集合对所述待处理数据集进行分类，获得目标数据集，所述目标数据集中每个数据样本都具备所述i个目标特征集合中至少一个特征。

7.根据权利要求6所述的装置，其特征在于，所述数据样本中的每个数据样本都为二维图像；

所述生成单元，具体用于：

8.根据权利要求6或7所述的装置，其特征在于，所述处理单元，具体用于：

将所述N个特征中出现次数由大到小排序获得目标特征序列；

9.根据权利要求8所述的装置，其特征在于，所述处理单元，具体用于：

计算所述待筛选特征集合的预设指标得分；

10.根据权利要求6或7所述的装置，其特征在于，所述处理单元，具体用于：