CN110210006A - 一种数据筛选方法及数据筛选装置 - Google Patents
一种数据筛选方法及数据筛选装置 Download PDFInfo
- Publication number
- CN110210006A CN110210006A CN201910501352.8A CN201910501352A CN110210006A CN 110210006 A CN110210006 A CN 110210006A CN 201910501352 A CN201910501352 A CN 201910501352A CN 110210006 A CN110210006 A CN 110210006A
- Authority
- CN
- China
- Prior art keywords
- value
- data
- matched curve
- discrete
- screened
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Complex Calculations (AREA)
Abstract
本申请提供了一种数据筛选方法及数据筛选装置,基于获取到的待筛选数据集合中的离散数据绘制散点图;基于散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和拟合曲线的拟合度;若拟合曲线的拟合度小于预设阈值,基于每个离散点到拟合曲线的距离,构建概率分布模型;基于概率分布模型的平均值和标准误差,以及获取到的显著性水平值,确定距离的置信度区间范围;确定全部离散点中与拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。这样,可以以拟合曲线为基准,去除离群点,提高离群点去除的准确性和彻底性。
Description
技术领域
本申请涉及大数据处理技术领域,尤其是涉及一种数据筛选方法及数据筛选装置。
背景技术
随着互联网技术的飞速发展,大数据技术已经渗透到很多行业的很多业务当中,通过收集大量与业务相关的业务数据,对大量的业务数据进行处理分析,进而分析业务数据所对应的行业。在收集的数据中常常会因为测量的偏差或是统计的偏差存在一些干扰数据,这些干扰数据会影响对数据的处理分析过程,从而影响对行业的分析判断。
现阶段,去除大数据集合中的干扰数据的常用方法建立数据模型等,都是基于预测值或是预先设定的标准去除干扰数据,没有以待筛选数据为基准,由于数据的特性不一样,预设的标准不一定适合所有数据,导致干扰数据去除不彻底或者去除不准确,影响对数据的处理和分析。
发明内容
有鉴于此,本申请的目的在于提供一种数据筛选方法及数据筛选装置,可以基于待筛选数据集合确定拟合曲线,以所述拟合曲线为基准,去除离群点,提高离群点去除的准确性和彻底性。
本申请实施例提供了一种数据筛选方法,所述数据筛选方法包括:
获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布;
基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;
若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况;
基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值;
确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
进一步的,在确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合之后,所述数据筛选方法还包括:
确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选;
直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。
进一步的,通过以下方式确定所述拟合曲线的拟合度:
其中,R2为所述拟合曲线的拟合度,为残差平方和,为总平方和。
进一步的,所述基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值,包括:
基于所述显著性水平值,确定与所述显著性水平值对应的标准分数值;
基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值。
进一步的,所述基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值,包括:
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的上限值:
A1=μ+Z*σ;
其中,A1为所述距离值的置信度区间的上限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值;
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的下限值:
A2=μ-Z*σ;
其中,A2为所述距离值的置信度区间的下限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值。
本申请实施例还提供了一种数据筛选装置,所述数据筛选装置包括:
绘制模块,用于获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布;
第一确定模块,用于基于所述绘制模块绘制的散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;
构建模块,用于若第一确定模块确定的拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况;
第二确定模块,用于基于构建模块构建的概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值;
第三确定模块,用于确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
进一步的,所述数据筛选装置还包括:
第四确定模块,用于确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选;
第五确定模块,用于直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。
进一步的,所述第一确定模块,通过以下方式确定所述拟合曲线的拟合度:
其中,R2为所述拟合曲线的拟合度,为残差平方和,为总平方和。
进一步的,所述第二确定模块,包括:
第一确定单元,用于基于所述显著性水平值,确定与所述显著性水平值对应的标准分数值;
第二确定单元,用于基于所述概率分布模型的平均值、标准误差值和第一确定单元确定的标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值。
进一步的,所述第二确定单元,具体用于:
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的上限值:
A1=μ+Z*σ;
其中,A1为所述距离值的置信度区间的上限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值;
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的下限值:
A2=μ-Z*σ;
其中,A2为所述距离值的置信度区间的下限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的数据筛选方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的数据筛选方法的步骤。
本申请实施例提供的数据筛选方法及数据筛选装置,通过获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图;基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离的分布情况;基于所述概率分布模型的平均值和标准误差,以及获取到的显著性水平,确定全部离散点到所述拟合曲线的距离值的置信度区间范围;确定所述距离值位于所述置信度区间范围之外离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。这样,可以通过待筛选数据集合中的离散数据的分布趋势,拟合曲线,以所述拟合曲线为基准,去除离群点,有利于离群点去除的准确性和彻底性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一种可能的应用场景下的系统架构图;
图2为本申请实施例所提供的一种数据筛选方法的流程图;
图3为本申请实施例所提供的另一种数据筛选方法的流程图;
图4为本申请实施例所提供的一种数据筛选装置的结构示意图之一;
图5为本申请实施例所提供的一种数据筛选装置的结构示意图之二;
图6为图4中所示的第二确定模块的结构图;
图7为本申请一实施例提供的电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于大数据处理技术领域,基于待筛选数据集合确定拟合曲线,以所述拟合曲线为基准,去除离群点,提高离群点去除的准确性和彻底性,请参阅图1,图1为一种在该场景下的系统结构图,如图1中所示,所述系统包括数据存储装置和数据筛选装置,所述数据存储装置存储大量待筛选的数据集合,所述数据筛选装置获取所述数据存储装置中存储的待筛选数据集合,根据所述待筛选数据集合中的离散数据绘制散点图,基于所述散点图中每个离散点的分布特点,确定与所述离散点对应的拟合曲线和所述拟合曲线的拟合度,在所述拟合曲线的拟合度小于预设阈值的时候基于每个离散点到所述拟合曲线的距离,构建表示所述每个离散点到所述拟合曲线的距离值的分布情况的概率分布模型,基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,将与所述拟合曲线的距离值不在所述距离值的置信度区间范围的离散点对应的离散数据从带筛选数据集合中筛选掉。
经研究发现,去除大数据集合中的干扰数据的常用方法建立数据模型等,都是基于预测值或是预先设定的标准去除干扰数据,由于数据的特性不一样,预设的标准不一定适合所有数据,导致干扰数据去除不彻底或者去除不准确,影响对数据的处理和分析。
基于此,本申请的目的在于提供一种数据筛选方法及数据筛选装置,可以基于待筛选数据集合确定拟合曲线,以所述拟合曲线为基准,去除离群点,提高离群点去除的准确性和彻底性。
请参阅图2,图2为本申请实施例所提供的一种数据筛选方法的流程图。本申请实施例提供一种数据筛选方法,包括:
步骤201、获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布。
该步骤中,获取大数据库中待筛选数据集合,所述待筛选数据集合中包含若干离散数据,其中,所述离散数据以数据对的形式存在,每个离散数据的第一变量值沿散点图的横坐标轴分布,每个离散数据的第二变量值沿散点图的纵坐标轴分布,即所述散点图中的每个离散点对应一个离散数据。
步骤202、基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度。
该步骤中,在所述离散点中,根据离散点的分布特点,即各个离散点的总的趋势,构造一条平滑曲线,所述平滑曲线尽可能多的连接所述离散点,所述平滑曲线,即为拟合曲线。拟合曲线一般可以用函数表示,根据所述散点图中的离散点的分布特点,选择合适的拟合函数,其中,所述拟合函数可以选择为幂函数,指数函数,三角函数等。并计算所述函数的拟合度。
这里,拟合度是指所述拟合曲线对所述离散点的拟合程度,拟合度的最大值为1,拟合度的值越接近1,说明所述拟合曲线对所述离散点的拟合程度越好;反之,拟合度的值越小,说明所述拟合曲线对所述离散点的拟合程度越差。
步骤203、若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况。
该步骤中,在所述拟合曲线的拟合度小于预设阈值的情况下,计算所有离散点到所述拟合曲线的距离,将所述所有离散点到所述拟合曲线的距离值作为样本构建概率分布模型,其中,所述概率分布模型可以是正态分布、泊松分布等。
这里,在平面上,定义每个离散点到拟合曲线的距离的最小值为每个离散点到拟合曲线的距离。并可以采用多种算法计算距离值。
例如,对所述拟合曲线确定的隐函数求导,得到所述拟合曲线的切线,计算所述离散点到所述切线的距离,即为离散点到所述拟合曲线的距离。
步骤204、基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值。
该步骤中,根据所述概率分布模型的概率特点,计算概率模型的平均值和标准误差,以及预先设定的显著性水平值,计算所述距离置信度区间的上限制和下限值,从而确定所述置信度区间范围。
以所述概率分布模型为正态分布为例,所述平均值为正态分布曲线峰值出现的位置,所述正态分布的离散程度为标准差。
其中,显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。显著性是相对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,一类是随机差异。它是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。在本申请实施例中,若α的值预先设定为1%,则说明离散点落在所述距离值的置信度区间范围之外的可能性是1%。
步骤205、确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
该步骤中,距离所述拟合曲线的距离值位于所述置信度区间范围之外离散点,即为离群点,与所述离群点对应的离散数据是离散数据中的干扰点,在所述待筛选数据集合中筛除离群点对应的离散数据,剩下的离散数据的集合为满足需求的目标数据集合。
本申请实施例提供的一种数据筛选方法,获取待筛选数据,基于所述筛选数据集合中的离散数据绘制散点图,基于散点图中离散点的分布特点,确定与所述离散点的分布特点对应的拟合曲线和拟合曲线的拟合度,在所述拟合度小于预设阈值的情况下,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,基于所述概率分布模型的平均值和标准误差,以及获取到的显著性水平,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
这样,可以通过以待筛选数据中的离散数据确定的拟合曲线为基准,计算预设置信度下的离散点到拟合曲线的距离的置信度区间范围,将所述离散点到拟合曲线的距离不在所述置信度区间的点去除,得到符合需求的数据集合,将数据的检测与去除和数据拟合结合起来,提高了数据筛选的准确性和彻底性。
请参阅图3,图3为本申请实施例所提供的另一种数据筛选方法的流程图。如图3中所示,本申请实施例提供的数据筛选方法,包括:
步骤301、获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布。
步骤302、基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度。
步骤303、若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离的分布情况。
步骤304、基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值。
步骤305、确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
步骤306、确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选。
该步骤中,在进行完一次数据筛选后,得到在以当下拟合曲线为基准去除离散数据后的目标数据集合,将得到的目标数据集合作为新的待筛选数据集合,再次基于所述新的待筛选数据集合,绘制散点图,基于新的散点图中的离散点分布特征,得到新的拟合曲线,计算新的拟合曲线的拟合度,若所述拟合度依旧小于预设阈值,说明待筛选数据中依旧存在待去除的离群点,执行步骤303到步骤305,继续去除不合格的离散数据。
这里,拟合度是指所述拟合曲线对所述离散点的拟合程度,拟合度的最大值为1,拟合度的值越接近1,说明所述拟合曲线对所述离散点的拟合程度越好。所以拟合度的预设阈值可以设置为接近1的值,例如0.8等。
步骤307、直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。
该步骤中,每执行完一次去除干扰离散数据后,都会形成新的待筛选数据集合,基于所述新的待筛选数据集合,再次绘制新的待筛选数据集合对应的散点图,并根据新的散点图上的离散点确定拟合曲线,当检测到所述拟合曲线的拟合度大于预设阈值时,可以近似认为所有不合格的离散数据去除完毕,所述拟合度大于预设阈值的拟合曲线对应的待筛选数据集合为最终的,不含干扰数据的目标数据集合。
其中,步骤301至步骤305的描述可以参照步骤201至步骤205的描述,并且能达到相同的技术效果,对此不做赘述。
进一步的,步骤302包括:
通过以下方式确定所述拟合曲线的拟合度:
其中,R2为所述拟合曲线的拟合度,为残差平方和,为总平方和。
该步骤中,在得到离散点对应的拟合曲线之后,要计算所述拟合曲线的拟合度。拟合度又称为拟合优度,衡量的是拟合曲线整体的拟合度,等于回归平方和在总平方和中所占的比例,在实际值与平均值的总误差中,总平方和为回归平方和与残差平方和的加和结果,所述回归平方和不会大于所述总平方和,即,所述拟合度是一个介于0和1之间的值,所以所述拟合度等于1减去残差平方和在总平方和的比值。
进一步的,步骤304包括:
基于所述显著性水平值,确定与所述显著性水平值对应的标准分数值;基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值。
该步骤中,获取预设的显著性水平值,查找统计分布模型对应的参数表格,确定与所述显著水平值对应的标准分数值,基于所述标准分数值和统计概率分布模型的平均值和标注分数值确定所述距离的置信度区间范围的上限值和下限值。
其中,显著性水平值是估计总体参数落在某一区间你可能犯错误的概率,是根据对所述参数的要求预设定的。在本申请中,所述显著性水平值为预先设置的估计所述全部离散点到所述拟合曲线的距离值落在所述距离值的置信度区间范围内的误差概率。
进一步的,基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值,具体用于:
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的上限值:
A1=μ+Z*σ;
其中,A1为所述距离值的置信度区间的上限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值;
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的下限值:
A2=μ-Z*σ;
其中,A2为所述距离值的置信度区间的下限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值。
该步骤中,根据样本中的距离值确定的统计概率模型,通过所述概率模型的特性得到样本中,所有距离值的平均值和标准误差。所述置信度区间范围的上限值等于标准误差加上标准分数与平均值的乘积,所述置信度区间范围的下限值等于标准误差减去标准分数与平均值的乘积。
这里,根据计算出的所述置信度区间范围的上限值和所述置信度区间范围的下限值确定所述所述距离的置信度区间范围。落在所述距离的置信度区间范围的距离值对应的离散点和预设显著水平对应的离散点,即为需要留下的点。
本申请实施例提供的数据筛选方法,获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图;基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离的分布情况;基于所述概率分布模型的平均值和标准误差,以及获取到的显著性水平,确定所述距离的置信度区间范围;确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合;确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选;直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。
这样,可以通过以待筛选数据中的离散数据确定的拟合曲线为基准,计算预设置信度下的离散点到拟合曲线的距离的置信度区间范围,将所述离散点到拟合曲线的距离不在所述置信度区间的点去除,并在去除不合格的离散数据后,再次将剩下的数据重复待筛数据集合中的离散数据绘制散点图的步骤,进一步对数据进行筛选,直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,结束筛选。提高了提高了数据筛选的准确性。
请参阅图4至图6,图4为本申请实施例所提供的一种数据筛选装置的结构示意图之一,图5为本申请实施例所提供的一种数据筛选装置的结构示意图之二,图6为图4中所示的第二确定模块的结构图。
如图4中所示,所述数据筛选装置400包括:
绘制模块410,用于获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布。
第一确定模块420,用于基于所述绘制模块410绘制的散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度。
构建模块430,用于若第一确定模块420确定的拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况。
第二确定模块440,用于基于构建模块430构建的概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值。
第三确定模块450,用于确定全部离散点中与所述拟合曲线之间的距离值位于第二确定模块440确定的置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
进一步的,如图5所示,所述数据筛选装置400还包括:
第四确定模块460,用于确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选。
第五确定模块470,用于直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。
进一步的,所述第一确定模块420,还用于:
通过以下方式确定所述拟合曲线的拟合度:
其中,R2为所述拟合曲线的拟合度,为残差平方和,为总平方和。
进一步的,如图6所示,所述第二确定模块440,包括:
第一确定单元441,用于基于所述显著性水平值,确定与所述显著性水平值对应的标准分数值。
第二确定单元442,用于基于所述概率分布模型的平均值、标准误差值和第一确定单元441确定的标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值。
进一步的,所述第二确定单元442,具体用于:
通过以下方式,确定数据点到所述拟合曲线的距离的置信度区间的上限值:
A1=μ+Z*σ;
其中,A1为所述距离值的置信度区间的上限值,μ为所述概率分布模型的标准误差,Z为标准分数,σ为所述概率分布模型的平均值;
通过以下方式,确定数据点到所述拟合曲线的距离的置信度区间的下限值:
A2=μ-Z*σ;
其中,A2为所述距离值的置信度区间的下限值,μ为所述概率分布模型的标准误差,Z为标准分数,σ为所述概率分布模型的平均值。
本申请实施例中的数据筛选装置400,可以实现如图2和图3所示实施例中的数据筛选方法的全部方法步骤,并可以达到相同的效果,在此不赘述。
本申请实施例提供的数据筛选装置,获取待筛选数据,基于所述筛选数据集合中的离散数据绘制散点图,基于散点图中离散点的分布特点,确定与所述离散点的分布特点对应的拟合曲线和拟合曲线的拟合度,在所述拟合度小于预设阈值的情况下,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,基于所述概率分布模型的平均值和标准误差,以及获取到的显著性水平,确定所述距离的置信度区间范围,确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
这样,可以通过以待筛选数据中的离散数据确定的拟合曲线为基准,计算预设置信度下的离散点到拟合曲线的距离的置信度区间范围,将所述离散点到拟合曲线的距离不在所述置信度区间的点去除,得到符合需求的数据集合,将数据的检测与去除和数据拟合结合起来,提高了数据筛选的准确性和彻底性。
请参阅图7,图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括处理器710、存储器720和总线730。
所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图2以及图3所示方法实施例中的数据筛选方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图2以及图3所示方法实施例中的数据筛选方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据筛选方法,其特征在于,所述数据筛选方法包括:
获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布;
基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;
若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况;
基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值;
确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
2.根据权利要求1所述的数据筛选方法,其特征在于,在所述确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合之后,所述数据筛选方法还包括:
确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选;
直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。
3.根据权利要求1所述的数据筛选方法,其特征在于,通过以下方式确定所述拟合曲线的拟合度:
其中,R2为所述拟合曲线的拟合度,为残差平方和,为总平方和。
4.根据权利要求1所述的数据筛选方法,其特征在于,所述基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值,包括:
基于所述显著性水平值,确定与所述显著性水平值对应的标准分数值;
基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值。
5.根据权利要求4所述的数据筛选方法,其特征在于,所述基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值,包括:
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的上限值:
A1=μ+Z*σ;
其中,A1为所述距离值的置信度区间的上限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值;
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的下限值:
A2=μ-Z*σ;
其中,A2为所述距离值的置信度区间的下限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值。
6.一种数据筛选装置,其特征在于,所述数据筛选装置包括:
绘制模块,用于获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布;
第一确定模块,用于基于所述绘制模块绘制的散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;
构建模块,用于若第一确定模块确定的拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况;
第二确定模块,用于基于构建模块构建的概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值;
第三确定模块,用于确定全部离散点中与所述拟合曲线之间的距离值位于第二确定模块确定的置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。
7.根据权利要求6所述的数据筛选装置,其特征在于,所述数据筛选装置还包括:
第四确定模块,用于确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选;
第五确定模块,用于直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。
8.根据权利要求6所述的数据筛选装置,其特征在于,所述第一确定模块,通过以下方式确定所述拟合曲线的拟合度:
其中,R2为所述拟合曲线的拟合度,为残差平方和,为总平方和。
9.根据权利要求6所述的数据筛选装置,其特征在于,所述第二确定模块,包括:
第一确定单元,用于基于所述显著性水平值,确定与所述显著性水平值对应的标准分数值;
第二确定单元,用于基于所述概率分布模型的平均值、标准误差值和第一确定单元确定的标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值。
10.根据权利要求9所述的数据筛选装置,其特征在于,所述第二确定单元,具体用于:
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的上限值:
A1=μ+Z*σ;
其中,A1为所述距离值的置信度区间的上限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值;
通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的下限值:
A2=μ-Z*σ;
其中,A2为所述距离值的置信度区间的下限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910501352.8A CN110210006A (zh) | 2019-06-11 | 2019-06-11 | 一种数据筛选方法及数据筛选装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910501352.8A CN110210006A (zh) | 2019-06-11 | 2019-06-11 | 一种数据筛选方法及数据筛选装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110210006A true CN110210006A (zh) | 2019-09-06 |
Family
ID=67792036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910501352.8A Pending CN110210006A (zh) | 2019-06-11 | 2019-06-11 | 一种数据筛选方法及数据筛选装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210006A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110702437A (zh) * | 2019-09-12 | 2020-01-17 | 国电大渡河流域水电开发有限公司龚嘴水力发电总厂 | 一种水轮发电机组油压系统健康状况的评价方法 |
CN112113562A (zh) * | 2020-09-07 | 2020-12-22 | 北京惠风联合防务科技有限公司 | 微机电惯性器件的配对筛选方法 |
CN113128058A (zh) * | 2021-04-22 | 2021-07-16 | 中国科学院空天信息创新研究院 | 温度廓线的反演方法、装置、可读存储介质和电子设备 |
CN114780905A (zh) * | 2022-06-21 | 2022-07-22 | 四川大学华西医院 | 一种比对样本的确定方法及装置、存储介质、电子设备 |
CN114820085A (zh) * | 2022-06-27 | 2022-07-29 | 北京瑞莱智慧科技有限公司 | 用户筛选方法、相关装置及存储介质 |
CN115170820A (zh) * | 2022-05-13 | 2022-10-11 | 中铁西北科学研究院有限公司 | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 |
-
2019
- 2019-06-11 CN CN201910501352.8A patent/CN110210006A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110702437A (zh) * | 2019-09-12 | 2020-01-17 | 国电大渡河流域水电开发有限公司龚嘴水力发电总厂 | 一种水轮发电机组油压系统健康状况的评价方法 |
CN110702437B (zh) * | 2019-09-12 | 2021-06-29 | 国能大渡河流域水电开发有限公司龚嘴水力发电总厂 | 一种水轮发电机组油压系统健康状况的评价方法 |
CN112113562A (zh) * | 2020-09-07 | 2020-12-22 | 北京惠风联合防务科技有限公司 | 微机电惯性器件的配对筛选方法 |
CN113128058A (zh) * | 2021-04-22 | 2021-07-16 | 中国科学院空天信息创新研究院 | 温度廓线的反演方法、装置、可读存储介质和电子设备 |
CN115170820A (zh) * | 2022-05-13 | 2022-10-11 | 中铁西北科学研究院有限公司 | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 |
CN115170820B (zh) * | 2022-05-13 | 2023-08-01 | 中铁西北科学研究院有限公司 | 一种应用于数据曲线过渡阶段的特征提取及界限识别方法 |
CN114780905A (zh) * | 2022-06-21 | 2022-07-22 | 四川大学华西医院 | 一种比对样本的确定方法及装置、存储介质、电子设备 |
CN114780905B (zh) * | 2022-06-21 | 2022-09-13 | 四川大学华西医院 | 一种比对样本的确定方法及装置、存储介质、电子设备 |
CN114820085A (zh) * | 2022-06-27 | 2022-07-29 | 北京瑞莱智慧科技有限公司 | 用户筛选方法、相关装置及存储介质 |
CN114820085B (zh) * | 2022-06-27 | 2022-09-02 | 北京瑞莱智慧科技有限公司 | 用户筛选方法、相关装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210006A (zh) | 一种数据筛选方法及数据筛选装置 | |
CN109359666A (zh) | 一种基于多特征融合神经网络的车型识别方法及处理终端 | |
CN113642938B (zh) | 一种智能化生产管理方法及系统 | |
CN105162875B (zh) | 大数据群体任务分配方法及装置 | |
CN109816043B (zh) | 用户识别模型的确定方法、装置、电子设备及存储介质 | |
CN109460432A (zh) | 一种数据处理方法及系统 | |
CN106612511B (zh) | 一种基于支持向量机的无线网络吞吐量的评估方法及装置 | |
JP2019511773A (ja) | サービス・パラメータ選択方法及び関連するデバイス | |
CN113746798B (zh) | 基于多维度分析的云网络共享资源异常根因定位方法 | |
CN110298318A (zh) | 人头人体联合检测方法、装置和电子设备 | |
CN109426655A (zh) | 数据分析方法、装置、电子设备及计算机可读存储介质 | |
CN107515876B (zh) | 一种特征模型的生成、应用方法及装置 | |
CN116668321A (zh) | 网络流量预测方法、装置、设备和存储介质 | |
CN107784363B (zh) | 数据处理方法、装置及系统 | |
CN109947803B (zh) | 一种数据处理方法、系统及存储介质 | |
CN110047509A (zh) | 一种两级子空间划分方法及装置 | |
CN104765776A (zh) | 一种数据样本的聚类方法和装置 | |
CN107464571B (zh) | 一种数据质量评估的方法、设备及系统 | |
CN112084092B (zh) | 一种诊断规则的确定方法、装置、设备及存储介质 | |
CN114626531A (zh) | 模型推理参数确定方法、装置、电子设备及存储介质 | |
CN114140642A (zh) | 一种建档方法、装置、电子设备及计算机可读存储介质 | |
CN113705625A (zh) | 异常生活保障申请家庭的识别方法、装置及电子设备 | |
CN114386468A (zh) | 网络异常流量检测方法、装置、电子设备及存储介质 | |
CN115687034A (zh) | 一种业务系统平面可用性判定方法和装置 | |
CN111143177A (zh) | Ibm主机的rmf iii数据的收集方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190906 |
|
WD01 | Invention patent application deemed withdrawn after publication |