CN114943273A - 数据处理方法、存储介质以及计算机终端 - Google Patents

数据处理方法、存储介质以及计算机终端 Download PDF

Info

Publication number
CN114943273A
CN114943273A CN202210380891.2A CN202210380891A CN114943273A CN 114943273 A CN114943273 A CN 114943273A CN 202210380891 A CN202210380891 A CN 202210380891A CN 114943273 A CN114943273 A CN 114943273A
Authority
CN
China
Prior art keywords
target
data set
original
features
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210380891.2A
Other languages
English (en)
Inventor
杨颖一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210380891.2A priority Critical patent/CN114943273A/zh
Publication of CN114943273A publication Critical patent/CN114943273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种数据处理方法、存储介质以及计算机终端。其中,该方法包括:获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度。本发明解决了相关技术中在算法治理的过程中对数据进行解释的准确度较低的技术问题。

Description

数据处理方法、存储介质以及计算机终端
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法、存储介质以及计算机终端。
背景技术
目前,算法治理主要是对模型进行有效的解释,根据可解释性对象的不同,现阶段的可解释性学习可以大致分为三类:建模前的可解释方法,模型自解释和对模型结果的解释。但是,目前的解释方法存在许多问题,例如解释存在不稳定、特征对变量的影响不独立、大规模数据下计算代价高等问题,并且,在大规模数据集中应用可解释方法时,由于场景本身的复杂性使得多变量之间的关系复杂且未知,因此,在实际应用过程中,对样本数据进行解释的准确度有待检验。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法、存储介质以及计算机终端,以至少解决相关技术中在算法治理的过程中对数据进行解释的准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:在交互界面显示原始数据集和目标变量,其中,原始数据集至少包括原始特征;在交互界面中感应到目标触控操作的情况下,在交互界面中显示目标变量对应的解释结果,其中,解释结果基于目标数据集和目标特征集对目标变量进行解释生成,解释结果用于表示特征对目标变量的影响程度,目标特征集通过对原始特征进行筛选处理得到,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征,目标数据集通过对原始数据集进行筛选处理得到,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值。
根据本发明实施例的另一个方面,提供了一种数据处理装置,包括:获取模块,用于获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;第一筛选模块,用于对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;第二筛选模块,用于对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;解释模块,用于基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度。
根据本发明实施例的另一个方面,提供了一种数据处理装置,包括:显示模块,用于在交互界面显示原始数据集和目标变量,其中,原始数据集至少包括原始特征;感应模块,用于在交互界面中感应到目标触控操作的情况下,在交互界面中显示目标变量对应的解释结果,其中,解释结果基于目标数据集和目标特征集对目标变量进行解释生成,解释结果用于表示特征对目标变量的影响程度,目标特征集通过对原始特征进行筛选处理得到,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征,目标数据集通过对原始数据集进行筛选处理得到,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的数据处理方法。
根据本发明实施例的另一方面,还提供了一种计算机终端,包括:处理器和存储器,所述处理器用于运行所述存储器中存储的程序,其中,所述程序运行时执行上述任意一项所述的数据处理方法。
在本发明实施例中,首先获取原始数据集和目标变量,其中,原始数据集至少包括原始特征,对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值,对原始特征进行筛选处理,得到目标特征集,其中,目标特征集和用于表示所述原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,所述解释结果用于表示特征对目标变量的影响程度,实现了提高对解释结果的准确度。容易注意到的是,通过对原始数据集进行筛选,得到能够代表原始数据集的目标数据集,以便提高计算的速度,通过对原始数据集中的原始特征进行筛选处理,可以去除原始特征中能够得到单独对目标变量进行解释的特征,以便排除偶然性带来的显著性后依然对解释结果有显著贡献的特征,以便聚焦后续的解释方向,从而提高解释的准确性,进而解决了相关技术中在算法治理的过程中对数据进行解释的准确度较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例的一种数据处理方法的流程图;
图3是根据本发明实施例的一种目标变量的经验分布图;
图4是根据本发明实施例的一种可视化显示的示意图;
图5是根据本发明实施例的另一种数据处理方法的流程图;
图6是根据本发明实施例的另一种数据处理方法的流程图;
图7是根据本发明实施例的一种数据处理装置的示意图;
图8是根据本发明实施例的另一种数据处理装置的示意图;
图9是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
可解释学习:指在机器学习过程中的数据、模型和结果能够被人类理解;
模型自解释:模型自身具有解释性,透明度高,决策逻辑能被直接理解;
事后解释方法:旨在解释已训练好的目标模型的独立方法;
原型:对数据集具有代表性的数据实例;
检验统计量:是根据样本数据计算的随机变量,用在假设检验中,可以使用检验统计量来确定是否要否定原假设;
累积局部效应:用于描述特征变量对预测目标的平均影响。
目前,由于具有解释性的简单的模型预测效果远不如复杂的深度模型,以及复杂模型的难以获取和梳理,催生了诸如部分依赖图(partial dependence plot,简称PDP)、模型的解释器(LocalInterpretable Model-agnostic Explanations,简称为LIME)、模型可解释性(AHapley Additive exPlanations,简称为SHAP)等主要针对模型结果的事后解释方法,可应用于任意模型的结果数据,更具灵活性。
现有用于解释预测变量对目标变量效应的模型后解释方法种类多样,例如,LIME中扰动数据点是从高斯分布中采样的,忽略了特征之间的相关性,这可能导致不太可能出现的数据点被用于学习局部解释模型,另一个真正的大问题是解释的不稳定性,在模拟环境中和实践中,对两个非常接近的点的解释差异可能会很大。另外,如果重复采样过程,那么出来的解释可能会有所不同,不稳定意味着很该解释很难被相信。虽然该方法作为使用局部代理模型解释十分具有前景,但距安全应用的目标而言仍处于发展阶段。后来提出的SHAP方法,基于合作博弈论解释个体预测结果,可以极大程度规避不稳定解释,然而它忽视了变量间的依赖,且计算速度慢,这在大规模数据应用下是不切实际的。在全局可解释方法领域,提出了累计局部效应(Accumulated Local effects),通过累积效应的计算量化预测变量对目标变量的效应,还可以提供变量交互对目标变量的效应的可视化结果,然而其效应估计方法更适用于标准分布(如正态分布)的变量,在变量极端分布情况下将引起偏差,另外在大规模数据下,非代表性样本可能稀释解释结果中的特征效应,并且理解所有变量的ALE一阶图和二阶图的结果是漫无目的且耗费人力时间的。
然而研究和应用表明,这些可解释方法饱受解释稳定性、变量不独立和大规模数据下计算代价高等问题。在互联网的实际场景中,往往是面对大规模数据集应用可解释方法,从而为场景和模型洞察提供方向和结论,加之场景本身的复杂性使得多变量间关系复杂且未知,因此实际应用中易受解释稳定性、变量复杂关系影响和高计算代价的约束。
为应对此类问题,本申请中通过样本原型选取、关键特征识别和累积局部效应计算,实现代表性样本筛选、关键解释维度识别和稳定的特征效应计算,从而构建更高效更稳定的可解释系统。本申请中,可以融合样本原型提取、统计检验、正交化、有放回的抽样方法(bootstrap)、高斯混合分布拟合等思想,提炼出了一套多场景适用的可解释方法,总体上由“样本选取与过滤-显著特征识别-特征累积局部效应计算”三大核心模块构成,可有效保障复杂场景下对数据和模型结果做出高效准确稳定的解释结果。其中,样本选取与过滤可以有效提高计算时效和避免效应计算的样本稀释,显著特征识别可以采用正交化和bootstrap的思想以识别排除运气带来的显著性后依然对结果解释有显著贡献的特征,聚焦了后续的解释和洞察方向,最后,特征累计局部效应计算可以通过引入高斯混合分布拟合预测变量分布,并将分布拟合的结果用于效应计算的权重中,以避免极端分布变量上的效应计算偏差,保障了可解释方法在大规模复杂数据下的效率和准确性。
实施例1
根据本发明实施例,还提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的数据处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例一的数据处理方法的流程图。
步骤S202,获取原始数据集和目标变量。
其中,所述原始数据集至少包括原始特征。
上述的原始数据集可以为用于解释目标变量的数据集,上述的原始特征可以为原始数据集中的特征属性。
上述的目标变量可以为需要解释的变量,其中,目标变量可以是模型的输出结果,目标变量还可以为模型中本身存在的变量,目标变量还可以为预先设置的变量。
在一种可选的实施例中,可以获取原始数据集和目标变量,以便通过原始数据集对目标变量进行解释。在广告应用场景中,原始数据集可以是多个用户对应的特征数据,其中,特征数据可以是用户对应的兴趣和性别,目标变量可以为给用户推送广告的概率。在金融应用场景中,原始数据集可以是多个用户对应的特征数据,其中,特征数据可以是用户对应的年龄、性别,目标变量可以为用户能够成功贷款的概率。在搜索应用场景下,原始数据集可以是多个搜索内容对应的类别和应用场景,目标变量可以为推送给目标用户的概率。
步骤S204,对所述原始数据集进行筛选处理,得到目标数据集。
其中,所述目标数据集的数据分布与所述原始数据集的数据分布的差异小于预设值。
上述的目标数据集可以为原型数据集,其中,原型数据集为对数据集具有代表性的数据实例。
在一种可选的实施例中,可以对原始数据集进行筛选处理,以便得到与原始数据集对应的数据分布差异小于预设值的目标数据集,其中,目标数据集为能够代表原始数据集的数据集。
在另一种可选的实施例中,可以基于最大平均差异构建损失函数,以便通过该损失函数衡量原始数据集与数据集的数据分布之间的差异,通过对损失函数的更新,可以得到具有代表性的目标数据集。
步骤S206,对原始特征进行筛选处理,得到目标特征集。
其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征。
在一种可选的实施例中,为了消除原始特征之间的相关性,可以对原始特征进行筛选处理,得到能够单独用户对目标变量进行解释,且符合预设统计分布的特征,也即,上述的目标特征集。
在另一种可选的实施例中,用户可以根据需求从原始特征中挑选出能够解释目标变量的候选特征,然后对候选特征进行正交化处理,得到正交化处理后的特征,可以使用正交化处理后的特征对目标变量进行回归分析,通过bootstrap对原始数据集进行采样并进行大量实验得到仅凭偶然性造成的显著性经验分布,可以获取原始特征对目标变量的回归统计量,使用该回归统计量与显著性经验分布进行比较,可以得到候选特征对目标变量解释程度的显著性,从而得到关键特征集,也即上述的目标特征集。
步骤S208,基于目标数据集和目标特征集对目标变量进行解释,得到解释结果。
其中,解释结果用于表示特征对目标变量的影响程度。
在一种可选的实施例中,由于目标数据集是具有代表性的数据集,因此可以有效提高计算失效,并且避免效应计算的样本稀释,在对原始特征进行筛选处理的过程中,能够识别排除运气带来的显著性后依然对结果解释有显著贡献的特征,也即,上述的目标特征集,能够聚焦后续的解释和洞察方向,避免解释出现偏差。在根据目标数据集和目标特征集对目标变量进行解释的过程中,可以使用一种解决存在隐含变量优化问题的有效方法(Expectation Maximization,简称为EM)对目标数据集和目标特征集进行拟合,得到拟合结果,并将拟合结果融入到累计局部效应的估计中,得到上述的解释结果。
在另一种可选的实施例中,可以通过高斯混合分布模型对目标数据集和目标特征集进行拟合,得到拟合结果。
在又一种可选的实施例中,在基于目标数据集和目标特征集对目标变量进行解释时,可以基于模型的调用实现累计效应的计算。
通过上述步骤,首先获取原始数据集和目标变量,其中,原始数据集至少包括原始特征,对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值,对原始特征进行筛选处理,得到目标特征集,其中,目标特征集和用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度,实现了提高对解释结果的准确度。容易注意到的是,通过对原始数据集进行筛选,得到能够代表原始数据集的目标数据集,以便提高计算的速度,通过对原始数据集中的原始特征进行筛选处理,可以去除原始特征中能够得到单独对目标变量进行解释的特征,以便排除偶然性带来的显著性后依然对解释结果有显著贡献的特征,以便聚焦后续的解释方向,从而提高解释的准确性,进而解决了相关技术中在算法治理的过程中对数据进行解释的准确度较低的技术问题。
本申请上述实施例中,基于目标数据集对目标变量进行解释,得到解释结果,包括:基于目标特征集对目标数据集进行筛选处理,得到目标数据集;利用高斯混合模型对目标数据集的至少一个特征进行拟合,得到拟合结果,其中,拟合结果用于表示至少一个特征对应目标值的目标概率;基于拟合结果和累计局部效应估计公式对至少一个特征进行估计,得到估计结果;基于估计结果对目标变量进行解释,得到解释结果。
在一种可选的实施例中,可以根据目标特征集对目标数据集进行筛选处理,以便进一步对目标数据集进行过滤,得到更具有代表性的目标数据集。在得到目标数据集之后,可以利用高斯混合模型对目标数据集的至少一个特征进行拟合,得到拟合结果,由于估计值的准确程度和代表性会受到不同数据分布的影响,因此大多数估计方法都建立在数据分布为正态分布的假设下,可以利用包括但不限于高斯混合分布模型替代正态分布的假设,拟合原始数据分布,从而得到拟合结果。可选的,可以通过高斯分布密度函数对目标数据集的至少一个特征的拟合。
在另一种可选的实施例中,可以将拟合结果中的至少一个特征对应目标值的目标概率作为权重,对数据点进行差异化加权,代入观测点领域内累计局部效应的估计中,得到估计结果,其中,估计结果可以是特征对目标变量的影响趋势,可以根据估计结果对目标变量进行解释,以便得特征对目标变量的影响程度。
需要说明的是,针对不同类型的目标值,计算目标概率的方式并不相同,例如,对于离散型变量和连续性变量的目标值,两者计算目标概率的方式并不相同。
本申请上述实施例中,对原始数据集进行筛选处理,得到目标样本集合,包括:基于目标距离函数对原始数据集进行筛选处理,得到第一数据集;基于原始数据集和第一数据集,构建目标损失函数;基于目标损失函数对第一数据集进行更新,得到目标数据集。
上述的目标距离函数可以为最大平均差异(maximum mean discrepancy,简称为MMD)。
在一种可选的实施例中,可以根据MMD对原始数据集进行筛选处理,得到第一数据集,其中,第一数据集可以为第一次从原始数据集中挑选得到的数据集,可以根据原始数据集和第一数据集之间的差异,构建目标损失函数,并根据目标损失函数对第一数据集进行更新,使得到的目标数据集的数据分布逐渐接近与原始数据集的数据分布,使得目标数据集可以成为原始数据集的代表数据集,以便在后续通过目标数据集对目标变量进行解释时,可以提高解释的效率。
本申请上述实施例中,对原始特征进行筛选处理,得到目标特征集,包括:对原始特征进行正交化处理,得到目标残差集合,其中,目标残差集合包括至少一个残差,至少一个残差用于表示原始特征中不能解释目标变量的特征;确定目标残差集合对应的目标经验分布,其中,目标经验分布用于表示目标变量与至少一个残差之间的分布关系;确定原始特征对应的目标检验统计量;基于目标经验分布和目标检验统计量,确定目标特征集。
上述的目标检验统计量可以是通过对原始特征进行有放回的采样得到的检验统计量。
在一种可选的实施例中,用户可以根据需求对原始特征进行筛选,得到候选特征,可以对候选特征进行正交化处理,以便构建原假设,其中,原假设可以为特征正交化后的残差难以解释目标变量,也即,得到上述的目标残差集合,可以通过有放回的bootstrap对原始数据集进行采样,得到采样数据,可以使用正交化后的特征对目标变量进行回归分析,得到最大检验统计量,以便根据最大检验统计量确定目标残差集合对应的目标经验分布,可以使用采样数据进行大量实验,得到目标检验统计量,根据目标经验分布和目标检验统计量可以得到显著性的经验分布,以便根据显著性的经验分布得到上述的目标特征集。
如图3所示为目标变量的经验分布图,其中,横轴X为目标变量,纵轴为累计概率,其可以表示目标变量的目标经验分布。
本申请上述实施例中,确定目标残差集合对应的目标经验分布,包括:对目标残差集合进行抽样处理,得到至少一个数据集;确定至少一个数据集对应的最大检验统计量;对至少一个数据集对应的最大检验统计量进行分布拟合,得到目标经验分布。
在一种可选的实施例中,可以对目标残差集合进行可放回的抽样处理,得到至少一个数据集,并确定出至少一个数据集对应的最大检验统计量,可以通过高斯分布模型对至少一个数据集对应的最大检验统计量进行分布拟合,得到上述的目标经验分布,以便得到特征对目标变量的影响趋势。
本申请上述实施例中,基于目标经验分布和目标检验统计量,确定目标特征集,包括:获取目标经验分布对应的置信度阈值;比对目标检验统计量和置信度阈值,得到比对结果,其中,比对结果用于表示目标检验统计量中原始特征对应的置信度是否处于置信度阈值;基于比对结果和原始特征确定目标特征集。
上述的置信度阈值为所述目标经验分布在给定显著水平下的拒绝域,其中,比对结果还用于判断目标统计量是否落入到拒绝域中。。
在一种可选的实施例中,可以获取目标经验分布对应的置信度阈值,通过比对目标检验统计量和置信度阈值,可以在目标检验统计量中原始特征对应的置信度大于置信度阈值的情况下,确定该原始特征为关键特征,其中,关键特征为能够独立解释目标变量的特征,可以根据多个关键特征得到上述的目标特征集。若原始特征对应的置信度小于置信度阈值,则说明该原始特征需要依赖于其他特征对目标变量进行解释,其不属于关键特征,此特征不需要加入到原始特征集中。
本申请上述实施例中,确定至少一个数据集对应的最大检验统计量,包括:对至少一个数据集进行回归分析,得到至少一个数据集对应的多个初始检验统计量;对多个初始检验统计量进行排序,得到排序结果;基于排序结果确定至少一个数据集对应的最大检验统计量,其中,最大检验统计量用于表示多个初始检验统计量中最大的检验统计量。
在一种可选的实施例中,可以对至少一个数据集进行回归分析,得到至少一个数据集对应的多个初始检验统计量,在得到多个初始检验统计量之后,可以对多个初始检验统计量进行排序,得到排序结果,以便根据排序结果从多个初始检验统计量中确定出最大检验统计量。
在另一种可选的实施例中,可以通过对至少一个数据集的每个残差变量对目标变量进行回归,得到多个初始检验统计量。
本申请上述实施例中,该方法还包括:按照预设显示方式输出解释结果;接收调整指令,基于调整指令对解释结果进行调整,得到调整结果。
上述的预设显示方式可以为将每个特征对目标变量的解释结果进行连接。
在一种可选的实施例中,可以通过点集确定每个特征对应的影响程度,可以将点集进行连接并进行可视化显示,可选的,可以将连接后的曲线显示在客户端,若用户需要对曲线进行调整,则可以将调整结果以调整指令的方式进行反馈,以便根据调整指令对解释结果进行调整,得到上述的调整结果。如图4所示为可视化显示的示意图,其中,横轴表示特征,纵轴表示特征对目标变量的影响程度,连线的点集可以为特征对目标变量的影响程度。
下面结合图5对本申请实施例的一种实施例进行详细说明。如图5所示,该方法可以包括如下步骤:
步骤S501,基于最大平均差异构建目标损失函数;
步骤S502,基于目标损失函数对第一数据集进行更新,得到目标数据集;
步骤S503,对原始特征进行正交化处理,得到目标残差集合;
步骤S504,对目标残差集合进行抽样处理,得到至少一个数据集;
步骤S505,对至少一个数据集的最大检验统计量进行分布拟合,得到目标经验分布;
步骤S506,根据目标经验分布和原始特征对应的目标检验统计量进行特征显著性判断,得到目标特征集;
步骤S507,基于高斯混合分布对目标特征集和目标数据集进行拟合,得到拟合结果;
步骤S508,根据拟合结果和累计局部效应公式对至少一个特征进行估计,得到估计结果,基于该估计结果对目标变量进行解释,得到解释结果;
上述的拟合结果用于表示至少一个特征对应目标值的目标概率。
步骤S509,根据预设显示方式对解释结果进行可视化。
本申请中,提出了高斯混合模型与累计局部效应估计的结合,可以有效避免真实场景下数据极端分布引起的偏差,从而达到效应估计的准确性和普适性的目的。本申请中提出一种新的特征选取的视角,引入正交化和bootstrap的思想和方法,同时融合统计检验,提取出剥离偶然性因素后仍然显著的特征,作为关键解释维度。本申请中通过对代表性样本进行筛选、关键解释维度识别和稳定的特征效应计算,不仅可以帮助解释数据集和解释维度的聚焦同时可以极大降低计算开销提升处理效率,而且还可以构建更高效更稳定的可解释系统。
综上,本方案所提出的大规模数据下基于变量累积局部效应的可解释方法与系统适用于电商平台、媒体平台、金融平台等,可有效保障在大规模数据情况中提供更准确、更高效、更稳定的模型解释。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本申请实施例,还提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本申请实施例的一种数据处理方法的流程图,如图7所示,该方法可以包括如下步骤:
步骤S602,在交互界面显示原始数据集和目标变量,其中,原始数据集至少包括原始特征;
步骤S604,在交互界面中感应到目标触控操作的情况下,在交互界面中显示目标变量对应的解释结果,其中,解释结果基于目标数据集和目标特征集对目标变量进行解释生成,解释结果用于表示特征对目标变量的影响程度,目标特征集通过对原始特征进行筛选处理得到,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征,目标数据集通过对原始数据集进行筛选处理得到,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值。
上述的目标触控操作可以是用户对交互界面进行触控的操作,其中,目标触控操作可以是用于对目标变量进行解释,得到解释结果,并将解释结果显示在交互界面中以便于用户进行查看。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例3
根据本发明实施例,还提供了一种用于实施上述数据处理方法的数据处理装置,如图7所示,该装置包括:获取模块702、第一筛选模块704、第二筛选模块706、解释模块708。
其中,获取模块,用于获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;第一筛选模块,用于对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;第二筛选模块,用于对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;解释模块,用于基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度。
此处需要说明的是,获取模块702、第一筛选模块704、第二筛选模块706、解释模块708对应于实施例1中的步骤S202至步骤S208,四个模块与对应的步骤所实现的实例与应用场景相同,但不限于上述实施例1所公开的内容,需要说明的是,上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。
本申请上述实施例中,解释模块包括:拟合单元、估计单元、解释单元。
其中,拟合单元用于利用高斯混合模型对目标数据集的至少一个特征进行拟合,得到拟合结果,其中,拟合结果用于表示至少一个特征对应目标值的目标概率;估计单元用于基于拟合结果和累计局部效应估计公式对至少一个特征进行估计,得到估计结果;解释单元用于基于估计结果对目标变量进行解释,得到解释结果。
本申请上述实施例中,第一筛选模块包括:第一筛选单元、构建单元、更新单元。
其中,第一筛选单元用于基于目标距离函数对原始数据集进行筛选处理,得到第一数据集;构建单元用于基于原始数据集和第一数据集,构建目标损失函数;更新单元用于基于目标损失函数对第一数据集进行更新,得到目标数据集。
本申请上述实施例中,第二筛选单元包括:正交化处理单元、确定单元。
其中,正交化处理单元用于对原始特征进行正交化处理,得到目标残差集合,其中,目标残差集合包括至少一个残差,至少一个残差用于表示原始特征中不能解释目标变量的特征;确定单元用于确定目标残差集合对应的目标经验分布,其中,目标经验分布用于表示目标变量与至少一个残差之间的分布关系;确定单元还用于确定原始特征对应的目标检验统计量;确定单元还用于基于目标经验分布和目标检验统计量,确定目标特征集。
本申请上述实施例中,确定单元包括:抽样子单元、确定子单元、拟合子单元。
其中,抽样子单元用于对目标残差集合进行抽样处理,得到至少一个数据集;确定子单元用于确定至少一个数据集对应的最大检验统计量;拟合子单元用于对至少一个数据集对应的最大检验统计量进行分布拟合,得到目标经验分布。
本申请上述实施例中,确定单元包括:获取子单元、比对子单元。
其中,获取子单元用于获取目标经验分布对应的置信度阈值;比对子单元用于比对目标检验统计量和置信度阈值,得到比对结果,其中,比对结果用于表示目标检验统计量中原始特征对应的置信度是否处于置信度阈值;确定子单元还用于基于比对结果和原始特征确定目标特征集。
本申请上述实施例中,确定子单元还用于对至少一个数据集进行回归分析,得到至少一个数据集对应的多个初始检验统计量;确定子单元还用于对多个初始检验统计量进行排序,得到排序结果;确定子单元还用于基于排序结果确定至少一个数据集对应的最大检验统计量,其中,最大检验统计量用于表示多个初始检验统计量中最大的检验统计量。
本申请上述实施例中,该装置还包括:输出模块、接收模块。
其中,输出模块用于按照预设显示方式输出解释结果;接收模块用于接收调整指令,基于调整指令对解释结果进行调整,得到调整结果。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例4
根据本发明实施例,还提供了一种用于实施上述数据处理方法的数据处理装置,如图8所示,该装置包括:显示模块802、感应模块804。
显示模块802,用于在交互界面显示原始数据集和目标变量,其中,原始数据集至少包括原始特征;
感应模块804,用于在交互界面中感应到目标触控操作的情况下,在交互界面中显示目标变量对应的解释结果,其中,解释结果基于目标数据集和目标特征集对目标变量进行解释生成,解释结果用于表示特征对目标变量的影响程度,目标特征集通过对原始特征进行筛选处理得到,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征,目标数据集通过对原始数据集进行筛选处理得到,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值。
此处需要说明的是,上述的显示模块802、感应模块804对应于实施例2中的步骤S702至步骤S704,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块作为工具的一部分可以运行在实施例1提供的计算机终端10中。
需要说明的是,本申请上述实施例1中涉及的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例5
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行数据处理方法中以下步骤的程序代码:获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度。
可选地,图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度。
可选的,上述处理器还可以执行如下步骤的程序代码:利用高斯混合模型对目标数据集的至少一个特征进行拟合,得到拟合结果,其中,拟合结果用于表示至少一个特征对应目标值的目标概率;基于拟合结果和累计局部效应估计公式对至少一个特征进行估计,得到估计结果;基于估计结果对目标变量进行解释,得到解释结果。
可选的,上述处理器还可以执行如下步骤的程序代码:基于目标距离函数对原始数据集进行筛选处理,得到第一数据集;基于原始数据集和第一数据集,构建目标损失函数;基于目标损失函数对第一数据集进行更新,得到目标数据集。
可选的,上述处理器还可以执行如下步骤的程序代码:对原始特征进行正交化处理,得到目标残差集合,其中,目标残差集合包括至少一个残差,至少一个残差用于表示原始特征中不能解释目标变量的特征;确定目标残差集合对应的目标经验分布,其中,目标经验分布用于表示目标变量与至少一个残差之间的分布关系;确定原始特征对应的目标检验统计量;基于目标经验分布和目标检验统计量,确定目标特征集。
可选的,上述处理器还可以执行如下步骤的程序代码:对目标残差集合进行抽样处理,得到至少一个数据集;确定至少一个数据集对应的最大检验统计量;对至少一个数据集对应的最大检验统计量进行分布拟合,得到目标经验分布。
可选的,上述处理器还可以执行如下步骤的程序代码:获取目标经验分布对应的置信度阈值;比对目标检验统计量和置信度阈值,得到比对结果,其中,比对结果用于表示目标检验统计量中原始特征对应的置信度是否处于置信度阈值;基于比对结果和原始特征确定目标特征集。
可选的,上述处理器还可以执行如下步骤的程序代码:对至少一个数据集进行回归分析,得到至少一个数据集对应的多个初始检验统计量;对多个初始检验统计量进行排序,得到排序结果;基于排序结果确定至少一个数据集对应的最大检验统计量,其中,最大检验统计量用于表示多个初始检验统计量中最大的检验统计量。
可选的,上述处理器还可以执行如下步骤的程序代码:按照预设显示方式输出解释结果;接收调整指令,基于调整指令对解释结果进行调整,得到调整结果。
采用本发明实施例,获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度,进而解决了相关技术中在算法治理的过程中对数据进行解释的准确度较低的技术问题。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用高斯混合模型对目标数据集的至少一个特征进行拟合,得到拟合结果,其中,拟合结果用于表示至少一个特征对应目标值的目标概率;基于拟合结果和累计局部效应估计公式对至少一个特征进行估计,得到估计结果;基于估计结果对目标变量进行解释,得到解释结果。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于目标距离函数对原始数据集进行筛选处理,得到第一数据集;基于原始数据集和第一数据集,构建目标损失函数;基于目标损失函数对第一数据集进行更新,得到目标数据集。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对原始特征进行正交化处理,得到目标残差集合,其中,目标残差集合包括至少一个残差,至少一个残差用于表示原始特征中不能解释目标变量的特征;确定目标残差集合对应的目标经验分布,其中,目标经验分布用于表示目标变量与至少一个残差之间的分布关系;确定原始特征对应的目标检验统计量;基于目标经验分布和目标检验统计量,确定目标特征集。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对目标残差集合进行抽样处理,得到至少一个数据集;确定至少一个数据集对应的最大检验统计量;对至少一个数据集对应的最大检验统计量进行分布拟合,得到目标经验分布。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取目标经验分布对应的置信度阈值;比对目标检验统计量和置信度阈值,得到比对结果,其中,比对结果用于表示目标检验统计量中原始特征对应的置信度是否处于置信度阈值;基于比对结果和原始特征确定目标特征集。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:对至少一个数据集进行回归分析,得到至少一个数据集对应的多个初始检验统计量;对多个初始检验统计量进行排序,得到排序结果;基于排序结果确定至少一个数据集对应的最大检验统计量,其中,最大检验统计量用于表示多个初始检验统计量中最大的检验统计量。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:按照预设显示方式输出解释结果;接收调整指令,基于调整指令对解释结果进行调整,得到调整结果。
采用本发明实施例,获取原始数据集和目标变量,其中,原始数据集至少包括原始特征;对原始数据集进行筛选处理,得到目标数据集,其中,目标数据集的数据分布与原始数据集的数据分布的差异小于预设值;对原始特征进行筛选处理,得到目标特征集,其中,目标特征集用于表示原始特征中单独用于对目标变量进行解释,且符合预设统计分布的特征;基于目标数据集和目标特征集对目标变量进行解释,得到解释结果,其中,解释结果用于表示特征对目标变量的影响程度,进而解决了相关技术中在算法治理的过程中对数据进行解释的准确度较低的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以集到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种数据处理方法,其特征在于,包括:
获取原始数据集和目标变量,其中,所述原始数据集至少包括原始特征;
对所述原始数据集进行筛选处理,得到目标数据集,其中,所述目标数据集的数据分布与所述原始数据集的数据分布的差异小于预设值;
对所述原始特征进行筛选处理,得到目标特征集,其中,所述目标特征集用于表示所述原始特征中单独用于对所述目标变量进行解释,且符合预设统计分布的特征;
基于所述目标数据集和所述目标特征集对目标变量进行解释,得到解释结果,其中,所述解释结果用于表示特征对所述目标变量的影响程度。
2.根据权利要求1所述的方法,其特征在于,基于所述目标数据集对目标变量进行解释,得到解释结果,包括:
利用高斯混合模型对所述目标数据集的至少一个特征进行拟合,得到拟合结果,其中,所述拟合结果用于表示所述至少一个特征对应目标值的目标概率;
基于所述拟合结果和累计局部效应估计公式对所述至少一个特征进行估计,得到估计结果;
基于所述估计结果对所述目标变量进行解释,得到所述解释结果。
3.根据权利要求1所述的方法,其特征在于,对所述原始数据集进行筛选处理,得到目标数据集,包括:
基于目标距离函数对所述原始数据集进行筛选处理,得到第一数据集;
基于所述原始数据集和所述第一数据集,构建目标损失函数;
基于所述目标损失函数对所述第一数据集进行更新,得到所述目标数据集。
4.根据权利要求1所述的方法,其特征在于,对所述原始特征进行筛选处理,得到目标特征集,包括:
对原始特征进行正交化处理,得到目标残差集合,其中,所述目标残差集合包括至少一个残差,所述至少一个残差用于表示所述原始特征中不能解释所述目标变量的特征;
确定所述目标残差集合对应的目标经验分布,其中,所述目标经验分布用于表示所述目标变量与所述至少一个残差之间的分布关系;
确定所述原始特征对应的目标检验统计量;
基于所述目标经验分布和所述目标检验统计量,确定所述目标特征集。
5.根据权利要求4所述的方法,其特征在于,确定所述目标残差集合对应的目标经验分布,包括:
对所述目标残差集合进行抽样处理,得到至少一个数据集;
确定所述至少一个数据集对应的最大检验统计量;
对所述至少一个数据集对应的最大检验统计量进行分布拟合,得到所述目标经验分布。
6.根据权利要求4所述的方法,其特征在于,基于所述目标经验分布和所述目标检验统计量,确定目标特征集,包括:
获取所述目标经验分布对应的置信度阈值;
比对所述目标检验统计量和所述置信度阈值,得到比对结果,其中,所述比对结果用于表示所述目标检验统计量中所述原始特征对应的置信度是否处于所述置信度阈值;
基于所述比对结果和所述原始特征确定所述目标特征集。
7.根据权利要求5所述的方法,其特征在于,确定所述至少一个数据集对应的最大检验统计量,包括:
对所述至少一个数据集进行回归分析,得到所述至少一个数据集对应的多个初始检验统计量;
对所述多个初始检验统计量进行排序,得到排序结果;
基于所述排序结果确定所述至少一个数据集对应的最大检验统计量,其中,所述最大检验统计量用于表示所述多个初始检验统计量中最大的检验统计量。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照预设显示方式输出所述解释结果;
接收调整指令,基于所述调整指令对所述解释结果进行调整,得到调整结果。
9.一种数据处理方法,其特征在于,包括:
在交互界面显示原始数据集和目标变量,其中,所述原始数据集至少包括原始特征;
在所述交互界面中感应到目标触控操作的情况下,在所述交互界面中显示所述目标变量对应的解释结果,其中,所述解释结果基于目标数据集和目标特征集对所述目标变量进行解释生成,所述解释结果用于表示特征对所述目标变量的影响程度,所述目标特征集通过对原始特征进行筛选处理得到,所述目标特征集用于表示所述原始特征中单独用于对所述目标变量进行解释,且符合预设统计分布的特征,所述目标数据集通过对所述原始数据集进行筛选处理得到,所述目标数据集的数据分布与所述原始数据集的数据分布的差异小于预设值。
10.一种数据处理装置,其特征在于,包括:
获取模块,用于获取原始数据集和目标变量,其中,所述原始数据集至少包括原始特征;
第一筛选模块,用于对所述原始数据集进行筛选处理,得到目标数据集,其中,所述目标数据集的数据分布与所述原始数据集的数据分布的差异小于预设值;
第二筛选模块,用于对所述原始特征进行筛选处理,得到目标特征集,其中,所述目标特征集用于表示所述原始特征中单独用于对所述目标变量进行解释,且符合预设统计分布的特征;
解释模块,用于基于所述目标数据集和所述目标特征集对目标变量进行解释,得到解释结果,其中,所述解释结果用于表示特征对所述目标变量的影响程度。
11.一种数据处理装置,其特征在于,包括:
显示模块,用于在交互界面显示原始数据集和目标变量,其中,所述原始数据集至少包括原始特征;
感应模块,用于在所述交互界面中感应到目标触控操作的情况下,在所述交互界面中显示所述目标变量对应的解释结果,其中,所述解释结果基于目标数据集和目标特征集对所述目标变量进行解释生成,所述解释结果用于表示特征对所述目标变量的影响程度,所述目标特征集通过对原始特征进行筛选处理得到,所述目标特征集用于表示所述原始特征中单独用于对所述目标变量进行解释,且符合预设统计分布的特征,所述目标数据集通过对所述原始数据集进行筛选处理得到,所述目标数据集的数据分布与所述原始数据集的数据分布的差异小于预设值。
12.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的数据处理方法。
13.一种计算机终端,其特征在于,包括:处理器和存储器,所述处理器用于运行所述存储器中存储的程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的数据处理方法。
CN202210380891.2A 2022-04-12 2022-04-12 数据处理方法、存储介质以及计算机终端 Pending CN114943273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210380891.2A CN114943273A (zh) 2022-04-12 2022-04-12 数据处理方法、存储介质以及计算机终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210380891.2A CN114943273A (zh) 2022-04-12 2022-04-12 数据处理方法、存储介质以及计算机终端

Publications (1)

Publication Number Publication Date
CN114943273A true CN114943273A (zh) 2022-08-26

Family

ID=82906479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210380891.2A Pending CN114943273A (zh) 2022-04-12 2022-04-12 数据处理方法、存储介质以及计算机终端

Country Status (1)

Country Link
CN (1) CN114943273A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116015894A (zh) * 2022-12-28 2023-04-25 深圳市神飞致远技术有限公司 一种信息安全管理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116015894A (zh) * 2022-12-28 2023-04-25 深圳市神飞致远技术有限公司 一种信息安全管理方法及系统

Similar Documents

Publication Publication Date Title
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN110971659A (zh) 推荐消息的推送方法、装置及存储介质
CN110968712B (zh) Bim族模型获取的方法、装置及系统
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN111178537A (zh) 一种特征提取模型训练方法及设备
CN107766316B (zh) 评价数据的分析方法、装置及系统
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN111124902A (zh) 对象操作方法和装置、计算机可读的存储介质及电子装置
CN111191133A (zh) 业务搜索处理方法、装置及设备
CN114943273A (zh) 数据处理方法、存储介质以及计算机终端
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN111340287A (zh) 配电柜运行状态预测方法及装置
CN112269937B (zh) 一种计算用户相似度的方法、系统及装置
CN108108299B (zh) 一种用户界面测试方法及装置
CN113449188A (zh) 应用推荐方法、装置、电子设备及可读存储介质
CN115454466A (zh) 机器学习模型自动更新的方法、装置、设备和介质
CN115408606A (zh) 保险信息推送方法、装置、存储介质及计算机设备
CN114040494A (zh) 一种mr数据用户的定位方法及系统
CN116431319B (zh) 任务处理方法及装置
CN108319449B (zh) 一种应用程序架构确定方法及装置
CN115964620B (zh) 数据处理方法、存储介质和电子设备
CN114943868A (zh) 图像处理方法、装置、存储介质及处理器
CN116049763A (zh) 一种物料推荐方法、装置、设备及计算机可读存储介质
CN117251781A (zh) 基于数据分析的电力稽查方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination