CN113742543B - 一种数据筛选方法、装置、电子设备及存储介质 - Google Patents

一种数据筛选方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113742543B
CN113742543B CN202111106955.1A CN202111106955A CN113742543B CN 113742543 B CN113742543 B CN 113742543B CN 202111106955 A CN202111106955 A CN 202111106955A CN 113742543 B CN113742543 B CN 113742543B
Authority
CN
China
Prior art keywords
data
tested
probability
target
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111106955.1A
Other languages
English (en)
Other versions
CN113742543A (zh
Inventor
董亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202111106955.1A priority Critical patent/CN113742543B/zh
Publication of CN113742543A publication Critical patent/CN113742543A/zh
Application granted granted Critical
Publication of CN113742543B publication Critical patent/CN113742543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据筛选方法、装置、电子设备和存储介质,可应用于大数据领域或金融领域。将待筛选数据分为训练样本数据和测试样本数据,基于数据属性值对训练样本数据和测试样本数据均进行初步筛选和预处理,得到目标训练数据和目标测试数据,对目标训练数据采用互信息算法进行特征项筛选得到目标特征项,基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集,采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到用于确定待测试数据为有效数据或无效数据的有效数据概率和无效数据概率。本发明不仅考虑了数据属性值,而且对数据间关联关系进行了考量,从而可以更好的区分有效数据和无效数据。

Description

一种数据筛选方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,更具体的说,涉及一种数据筛选方法、装置、电子设备和存储介质。
背景技术
目前,银行系统保存的各种业务类数据和技术类数据中,涉及了客户的证件信息、联系方式信息、银行账户信息和第三方业务信息等等。这些数据中包含了有效数据,同时也包含了部分无效数据(或者说脏数据),无效数据比如,虚假信息、错误信息等。对于这些无效数据,如果不及时进行处理,容易造成银行垫款、客户投诉及银行业务分析不全面等。
现有技术一般根据数据的属性值,比如字段长度、取值范围等对有效数据进行筛选,而忽略了数据间的关联关系,导致对数据分析不全面,不能有效的区分有效数据和无效数据。
发明内容
有鉴于此,本发明公开一种数据筛选方法、装置、电子设备和存储介质,以实现对数据的全面分析,有效区分有效数据和无效数据。
一种数据筛选方法,包括:
将待筛选数据分为训练样本数据和测试样本数据;
基于数据属性值对所述训练样本数据进行初步筛选和预处理,得到目标训练数据;
对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项;
基于数据属性值对所述测试样本数据进行初步筛选和预处理,得到目标测试数据;
基于所述目标特征项和所述目标测试数据执行特征向量化操作,得到待测试数据集;
采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率;
基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据。
可选的,所述基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据,具体包括:
将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据;
将有效数据概率不大于无效数据概率的所述待测试数据确定为无效数据。
可选的,还包括:
将所述待测试数据集中的无效数据进行滤除得到最新测试样本数据,并返回再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理。
可选的,所述预处理包括:缺失值补缺和异常值剔除。
可选的,对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项,具体包括:
对所述目标训练数据采用互信息算法得到多个互信息值,其中,所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度,互信息值越高关联程度越大,所述训练结果集中的0表示无效数据,1表示有效数据;
基于所述互信息值筛选出所述目标特征项,其中,所述目标特征项的互信息值高于非目标特征项的互信息值。
可选的,所述采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率,具体包括:
采用所述改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到待测试数据集中各个待测试数据对应的条件概率,所述条件概率的表达式如下:
式中,P(Cj|d)表示输入数据d属于Cj的概率,j表示类别序号,P(Cj)为基于所述目标训练数据得到的先验概率,Cj为分类类别,C0表示有效数据,C1表示无效数据,P(d|Cj)表示所有特征项在Cj的概率,P(d)为常量0.5。
可选的,先验概率P(Cj)的表达式如下:
式中,D为待测试数据集,n为所述待测试数据集中待测试数据的数量;所有特征项在Cj的概率P(d|Cj)的表达式如下:
式中,P(wi|Cj)表示特征项wi在Cj的概率,k为特征项的个数,i为特征项的序号。
一种数据筛选装置,包括:
数据拆分单元,用于将待筛选数据分为训练样本数据和测试样本数据;
第一处理单元,用于基于数据属性值对所述训练样本数据进行初步筛选和预处理,得到目标训练数据;
筛选单元,用于对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项;
第二处理单元,用于基于数据属性值对所述测试样本数据进行初步筛选和预处理,得到目标测试数据;
数据集确定单元,用于基于所述目标特征项和所述目标测试数据执行特征向量化操作,得到待测试数据集;
分类单元,用于采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率;
数据类型确定单元,用于基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据。
可选的,所述数据类型确定单元具体用于:
将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据;
将有效数据概率不大于无效数据概率的所述待测试数据确定为无效数据。
可选的,还包括:
无效数据滤除单元,用于将所述待测试数据集中的无效数据进行滤除得到最新测试样本数据,并返回再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理。
可选的,筛选单元具体用于:
对所述目标训练数据采用互信息算法得到多个互信息值,其中,所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度,互信息值越高关联程度越大,所述训练结果集中的0表示无效数据,1表示有效数据;
基于所述互信息值筛选出所述目标特征项,其中,所述目标特征项的互信息值高于非目标特征项的互信息值。
可选的,所述分类单元具体用于:
采用所述改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到待测试数据集中各个待测试数据对应的条件概率,所述条件概率的表达式如下:
式中,P(Cj|d)表示输入数据d属于Cj的概率,j表示类别序号,P(Cj)为基于所述目标训练数据得到的先验概率,Cj为分类类别,C0表示有效数据,C1表示无效数据,P(d|Cj)表示所有特征项在Cj的概率,P(d)为常量0.5。
可选的,先验概率P(Cj)的表达式如下:
式中,D为待测试数据集,n为所述待测试数据集中待测试数据的数量;所有特征项在Cj的概率P(d|Cj)的表达式如下:
式中,P(wi|Cj)表示特征项wi在Cj的概率,k为特征项的个数,i为特征项的序号。
一种电子设备,所述电子设备包括存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令以实现如上述所述的数据筛选方法。
一种计算机可读存储介质,所述计算机可读存储介质存储至少一个指令,所述至少一个指令被处理器执行时实现如上述所述的数据筛选方法。
从上述的技术方案可知,本发明公开了一种数据筛选方法、装置、电子设备和存储介质,将待筛选数据分为训练样本数据和测试样本数据,基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据,对目标训练数据采用互信息算法进行特征项筛选得到目标特征项,基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据,基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集,采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率,基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时,不仅考虑了数据属性值,而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器,实现了对数据间关联关系的考量,从而实现了对待筛选数据的全面分析,可以更好的区分有效数据和无效数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种数据筛选方法流程图;
图2为本发明实施例公开的一种数据筛选装置的结构示意图;
图3为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
需要说明的是,本发明提供的一种数据筛选方法、装置、电子设备和存储介质可用于大数据领域或金融领域。上述仅为示例,并不对本发明提供的一种数据筛选方法、装置、电子设备和存储介质的应用领域进行限定。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种数据筛选方法、装置、电子设备和存储介质,将待筛选数据分为训练样本数据和测试样本数据,基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据,对目标训练数据采用互信息算法进行特征项筛选得到目标特征项,基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据,基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集,采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率,基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时,不仅考虑了数据属性值,而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器,实现了对数据间关联关系的考量,从而实现了对待筛选数据的全面分析,可以更好的区分有效数据和无效数据。
参见图1,本发明实施例公开的一种数据筛选方法流程图,该方法包括:
步骤S101、将待筛选数据分为训练样本数据和测试样本数据;
在实际应用中,将待筛选数据按照预设比例分为训练样本数据和测试样本数据,预设比例的取值依据实际需要而定,比如2:1,本发明在此不做限定。
步骤S102、基于数据属性值对所述训练样本数据进行初步筛选和预处理,得到目标训练数据;
其中,数据属性值可以包括:长度、枚举值、字符集类型、字段类型、正则规则以及其他业务属性。
预处理包括:缺失值补缺和异常值剔除。
在实际应用中,可以利用线性插值法或平均值法进行缺失值补缺。
步骤S103、对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项;
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
步骤S103具体包括:
对所述目标训练数据采用互信息算法得到多个互信息值;
基于所述互信息值筛选出所述目标特征项,其中,所述目标特征项的互信息值高于非目标特征项的互信息值。
其中,所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度,互信息值越高关联程度越大,所述训练结果集中的0表示无效数据,1表示有效数据。
需要说明的是,采用互信息算法进行特征项筛选的目的是将对分类(有效数据和无效数据分类)无关的特征项进行滤除。
步骤S104、基于数据属性值对所述测试样本数据进行初步筛选和预处理,得到目标测试数据;
其中,对测试样本数据进行初步筛选和预处理与对训练样本数据进行初步筛选和预处理的过程相同。
步骤S105、基于所述目标特征项和所述目标测试数据执行特征向量化操作,得到待测试数据集;
其中,执行特征向量化的过程可参见现有成熟方案,此处不再赘述。
步骤S106、采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率;
其中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。
改进加权的朴素贝叶斯算法分类器是在朴素贝叶斯分类器基础上改进的分类器。
步骤S107、基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据。
具体的,将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据;
将有效数据概率不大于无效数据概率的所述待测试数据确定为无效数据。
综上可知,本发明公开了一种数据筛选方法,将待筛选数据分为训练样本数据和测试样本数据,基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据,对目标训练数据采用互信息算法进行特征项筛选得到目标特征项,基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据,基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集,采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率,基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时,不仅考虑了数据属性值,而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器,实现了对数据间关联关系的考量,从而实现了对待筛选数据的全面分析,可以更好的区分有效数据和无效数据。
为进一步优化上述实施例,在步骤S107之后,还可以包括:
将待测试数据集中的无效数据进行滤除得到最新测试样本数据,并返回步骤S104再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理,对无效数据再次进行滤除,如此反复,直到得到所有的有效数据。
为进一步优化上述实施例,步骤S106具体可以包括:
采用所述改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到待测试数据集中各个待测试数据对应的条件概率,所述条件概率的表达式如下:
式中,P(Cj|d)表示输入数据d属于Cj的概率,j表示类别序号,P(Cj)为基于所述目标训练数据得到的先验概率,Cj为分类类别,C0表示有效数据,C1表示无效数据,P(d|Cj)表示所有特征项在Cj的概率,P(d)为常量0.5。
其中,先验概率P(Cj)的表达式如下:
式中,D为待测试数据集,n为所述待测试数据集中待测试数据的数量;所有特征项在Cj的概率P(d|Cj)的表达式如下:
式中,P(wi|Cj)表示特征项wi在Cj的概率,k为特征项的个数,i为特征项的序号。
因此,步骤S107中有效数据概率可以表示为P(C1|d),无效数据概率可以表示为P(C0|d),当P(C1|d)≤P(C0|d)时,表明此时d对应的待测试数据为无效数据,反之,当P(C1|d)>P(C0|d)时,表明此时d对应的待测试数据为有效数据。
与上述方法实施例相对应,本发明还公开了一种数据筛选装置。
参见图2,本发明实施例公开的一种数据筛选装置的结构示意图,该装置包括:
数据拆分单元201,用于将待筛选数据分为训练样本数据和测试样本数据;
在实际应用中,将待筛选数据按照预设比例分为训练样本数据和测试样本数据,预设比例的取值依据实际需要而定,比如2:1,本发明在此不做限定。
第一处理单元202,用于基于数据属性值对所述训练样本数据进行初步筛选和预处理,得到目标训练数据;
其中,数据属性值可以包括:长度、枚举值、字符集类型、字段类型、正则规则以及其他业务属性。
预处理包括:缺失值补缺和异常值剔除。
在实际应用中,可以利用线性插值法或平均值法进行缺失值补缺。
筛选单元203,用于对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项;
其中,筛选单元203具体可以用于:
对所述目标训练数据采用互信息算法得到多个互信息值;
基于所述互信息值筛选出所述目标特征项,其中,所述目标特征项的互信息值高于非目标特征项的互信息值。
其中,所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度,互信息值越高关联程度越大,所述训练结果集中的0表示无效数据,1表示有效数据。
需要说明的是,采用互信息算法进行特征项筛选的目的是将对分类(有效数据和无效数据分类)无关的特征项进行滤除。
第二处理单元204,用于基于数据属性值对所述测试样本数据进行初步筛选和预处理,得到目标测试数据;
其中,对测试样本数据进行初步筛选和预处理与对训练样本数据进行初步筛选和预处理的过程相同。
数据集确定单元205,用于基于所述目标特征项和所述目标测试数据执行特征向量化操作,得到待测试数据集;
分类单元206,用于采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率;
数据类型确定单元207,用于基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据。
其中,数据类型确定单元207具体用于:
将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据;
将有效数据概率不大于无效数据概率的所述待测试数据确定为无效数据。
综上可知,本发明公开了一种数据筛选装置,将待筛选数据分为训练样本数据和测试样本数据,基于数据属性值对训练样本数据进行初步筛选和预处理得到目标训练数据,对目标训练数据采用互信息算法进行特征项筛选得到目标特征项,基于数据属性值对测试样本数据进行初步筛选和预处理得到目标测试数据,基于目标特征项和目标测试数据执行特征向量化操作得到待测试数据集,采用改进加权的朴素贝叶斯算法分类器对待测试数据集进行分类得到各个待测试数据对应的有效数据概率和无效数据概率,基于每个待测试数据对应的有效数据概率和无效数据概率的大小关系确定待测试数据为有效数据或无效数据。本发明在区分有效数据和无效数据时,不仅考虑了数据属性值,而且通过采用互信息算法以及改进加权的朴素贝叶斯算法分类器,实现了对数据间关联关系的考量,从而实现了对待筛选数据的全面分析,可以更好的区分有效数据和无效数据。
为进一步优化上述实施例,数据筛选装置还可以包括:
无效数据滤除单元,用于将所述待测试数据集中的无效数据进行滤除得到最新测试样本数据,并返回再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理。
为进一步优化上述实施例,分类单元206具体可以用于:
采用所述改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到待测试数据集中各个待测试数据对应的条件概率,所述条件概率的表达式如下:
式中,P(Cj|d)表示输入数据d属于Cj的概率,j表示类别序号,P(Cj)为基于所述目标训练数据得到的先验概率,Cj为分类类别,C0表示有效数据,C1表示无效数据,P(d|Cj)表示所有特征项在Cj的概率,P(d)为常量0.5。
其中,先验概率P(Cj)的表达式如下:
式中,D为待测试数据集,n为所述待测试数据集中待测试数据的数量;所有特征项在Cj的概率P(d|Cj)的表达式如下:
式中,P(wi|Cj)表示特征项wi在Cj的概率,k为特征项的个数,i为特征项的序号。
与上述实施例相对应,如图3所示,本发明还提供了一种电子设备,电子设备可以包括:处理器1和存储器2;
其中,处理器1和存储器2通过通信总线3完成相互间的通信;
处理器1,用于执行计算机程序;
存储器2,用于存放计算机程序;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器2可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器执行计算机程序实现如下功能:
将待筛选数据分为训练样本数据和测试样本数据;
基于数据属性值对所述训练样本数据进行初步筛选和预处理,得到目标训练数据;
对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项;
基于数据属性值对所述测试样本数据进行初步筛选和预处理,得到目标测试数据;
基于所述目标特征项和所述目标测试数据执行特征向量化操作,得到待测试数据集;
采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率;
基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储至少一个指令,所述至少一个指令被处理器执行时实现上述所述的数据筛选方法。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种数据筛选方法,其特征在于,包括:
将待筛选数据分为训练样本数据和测试样本数据;
基于数据属性值对所述训练样本数据进行初步筛选和预处理,得到目标训练数据;
对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项;
基于数据属性值对所述测试样本数据进行初步筛选和预处理,得到目标测试数据;
基于所述目标特征项和所述目标测试数据执行特征向量化操作,得到待测试数据集;
采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率,具体包括:
采用所述改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到待测试数据集中各个待测试数据对应的条件概率,所述条件概率的表达式如下:
式中,P(Cj|d)表示输入数据d属于Cj的概率,j表示类别序号,P(Cj)为基于所述目标训练数据得到的先验概率,Cj为分类类别,C0表示有效数据,C1表示无效数据,P(d|Cj)表示所有特征项在Cj的概率,P(d)为常量0.5;
基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据。
2.根据权利要求1所述的数据筛选方法,其特征在于,所述基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据,具体包括:
将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据;
将有效数据概率不大于无效数据概率的所述待测试数据确定为无效数据。
3.根据权利要求1所述的数据筛选方法,其特征在于,还包括:
将所述待测试数据集中的无效数据进行滤除得到最新测试样本数据,并返回再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理。
4.根据权利要求1所述的数据筛选方法,其特征在于,所述预处理包括:缺失值补缺和异常值剔除。
5.根据权利要求1所述的数据筛选方法,其特征在于,对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项,具体包括:
对所述目标训练数据采用互信息算法得到多个互信息值,其中,所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度,互信息值越高关联程度越大,所述训练结果集中的0表示无效数据,1表示有效数据;
基于所述互信息值筛选出所述目标特征项,其中,所述目标特征项的互信息值高于非目标特征项的互信息值。
6.根据权利要求1所述的数据筛选方法,其特征在于,先验概率P(Cj)的表达式如下:
式中,D为待测试数据集,n为所述待测试数据集中待测试数据的数量;
所有特征项在Cj的概率P(d|Cj)的表达式如下:
式中,P(wi|Cj)表示特征项wi在Cj的概率,k为特征项的个数,i为特征项的序号。
7.一种数据筛选装置,其特征在于,包括:
数据拆分单元,用于将待筛选数据分为训练样本数据和测试样本数据;
第一处理单元,用于基于数据属性值对所述训练样本数据进行初步筛选和预处理,得到目标训练数据;
筛选单元,用于对所述目标训练数据采用互信息算法进行特征项筛选得到所述目标训练数据的目标特征项;
第二处理单元,用于基于数据属性值对所述测试样本数据进行初步筛选和预处理,得到目标测试数据;
数据集确定单元,用于基于所述目标特征项和所述目标测试数据执行特征向量化操作,得到待测试数据集;
分类单元,用于采用改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到所述待测试数据集中各个待测试数据对应的有效数据概率和无效数据概率;
数据类型确定单元,用于基于每个所述待测试数据对应的有效数据概率和无效数据概率的大小关系,确定所述待测试数据为有效数据或无效数据;
其中,所述分类单元具体用于:
采用所述改进加权的朴素贝叶斯算法分类器对所述待测试数据集进行分类,得到待测试数据集中各个待测试数据对应的条件概率,所述条件概率的表达式如下:
式中,P(Cj|d)表示输入数据d属于Cj的概率,j表示类别序号,P(Cj)为基于所述目标训练数据得到的先验概率,Cj为分类类别,C0表示有效数据,C1表示无效数据,P(d|Cj)表示所有特征项在Cj的概率,P(d)为常量0.5。
8.根据权利要求7所述的数据筛选装置,其特征在于,所述数据类型确定单元具体用于:
将有效数据概率大于无效数据概率的所述待测试数据确定为有效数据;
将有效数据概率不大于无效数据概率的所述待测试数据确定为无效数据。
9.根据权利要求7所述的数据筛选装置,其特征在于,还包括:
无效数据滤除单元,用于将所述待测试数据集中的无效数据进行滤除得到最新测试样本数据,并返回再次基于数据属性值对所述最新测试样本数据进行初步筛选和预处理。
10.根据权利要求7所述的数据筛选装置,其特征在于,筛选单元具体用于:
对所述目标训练数据采用互信息算法得到多个互信息值,其中,所述互信息值表示所述目标训练数据中的每个特征项与训练结果集之间的关联程度,互信息值越高关联程度越大,所述训练结果集中的0表示无效数据,1表示有效数据;
基于所述互信息值筛选出所述目标特征项,其中,所述目标特征项的互信息值高于非目标特征项的互信息值。
11.根据权利要求7所述的数据筛选装置,其特征在于,先验概率P(Cj)的表达式如下:
式中,D为待测试数据集,n为所述待测试数据集中待测试数据的数量;
所有特征项在Cj的概率P(d|Cj)的表达式如下:
式中,P(wi|Cj)表示特征项wi在Cj的概率,k为特征项的个数,i为特征项的序号。
12.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器用于存储至少一个指令;
所述处理器用于执行所述至少一个指令以实现如权利要求1~6任意一项所述的数据筛选方法。
CN202111106955.1A 2021-09-22 2021-09-22 一种数据筛选方法、装置、电子设备及存储介质 Active CN113742543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111106955.1A CN113742543B (zh) 2021-09-22 2021-09-22 一种数据筛选方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111106955.1A CN113742543B (zh) 2021-09-22 2021-09-22 一种数据筛选方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113742543A CN113742543A (zh) 2021-12-03
CN113742543B true CN113742543B (zh) 2024-02-23

Family

ID=78740221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111106955.1A Active CN113742543B (zh) 2021-09-22 2021-09-22 一种数据筛选方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113742543B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法
CN110568286A (zh) * 2019-09-12 2019-12-13 齐鲁工业大学 基于加权的双隐朴素贝叶斯的变压器故障诊断方法及系统
CN111783873A (zh) * 2020-06-30 2020-10-16 中国工商银行股份有限公司 基于增量朴素贝叶斯模型的用户画像方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209977B (zh) * 2020-01-16 2024-01-05 北京百度网讯科技有限公司 分类模型的训练和使用方法、装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法
CN110568286A (zh) * 2019-09-12 2019-12-13 齐鲁工业大学 基于加权的双隐朴素贝叶斯的变压器故障诊断方法及系统
CN111783873A (zh) * 2020-06-30 2020-10-16 中国工商银行股份有限公司 基于增量朴素贝叶斯模型的用户画像方法及装置

Also Published As

Publication number Publication date
CN113742543A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN107066616B (zh) 用于账号处理的方法、装置及电子设备
CN107341716B (zh) 一种恶意订单识别的方法、装置及电子设备
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
WO2021164232A1 (zh) 用户识别方法、装置、设备及存储介质
CN110503459B (zh) 基于大数据的用户信用度评估方法、装置及存储介质
Sasank et al. Credit card fraud detection using various classification and sampling techniques: a comparative study
CN110008986B (zh) 批量风险案件识别方法、装置及电子设备
CN106897359A (zh) 互联网信息收集及关联方法
CN110069546A (zh) 一种数据分类方法、数据分类装置及终端设备
CN113821827A (zh) 保护多方数据隐私的联合建模方法及装置
CN112182071A (zh) 数据关联关系挖掘方法、装置、电子设备及存储介质
CN111984867A (zh) 一种网络资源确定方法及装置
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
CN111159481A (zh) 图数据的边预测方法、装置及终端设备
CN113742543B (zh) 一种数据筛选方法、装置、电子设备及存储介质
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
CN111245815A (zh) 数据处理方法、装置、存储介质及电子设备
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质
CN111309817B (zh) 行为识别方法、装置及电子设备
CN113569792B (zh) 一种基于精准指纹识别的智能保险柜应用方法及装置
CN109858532A (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN113822309B (zh) 用户的分类方法、装置和非易失性计算机可读存储介质
CN113205801B (zh) 恶意语音样本的确定方法、装置、计算机设备和存储介质
CN116361684A (zh) 一种基于图卷积神经网络的节点分类方法及其相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant