CN113742193A - 一种数据分析方法、装置、电子设备及存储介质 - Google Patents
一种数据分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113742193A CN113742193A CN202111070664.1A CN202111070664A CN113742193A CN 113742193 A CN113742193 A CN 113742193A CN 202111070664 A CN202111070664 A CN 202111070664A CN 113742193 A CN113742193 A CN 113742193A
- Authority
- CN
- China
- Prior art keywords
- analysis
- sample data
- data
- data set
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据分析方法、装置、电子设备及存储介质,属于数据分析技术领域。本申请通过,获取样本数据集合和多个分析指标;然后,利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;然后,针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;最后,基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。从而无需分析人员手动分析,提高了分析效率。
Description
技术领域
本申请涉及数据分析技术领域,尤其涉及一种数据分析方法、装置、电子设备及存储介质。
背景技术
在构建模型过程中,离不开对模型和变量的分析,例如对变量的数据分布、变量之间的相关性、变量的单调性及模型统计指标等维度进行分析,以此来确定模型的变量、参数、拟合系数等模型基本要素,并评估模型效果。目前,在构建模型时对于模型和变量的分析过程,一般需要分析人员根据需要分析的内容和指标,调用相应的算法来进行相应的分析,得到分析结果,分析效率低。
发明内容
本申请实施例的目的在于提供一种数据分析方法、装置、电子设备及存储介质,以解决在构建模型时,需要分析人员根据需要分析的内容和指标,调用相应的算法来进行相应的分析,导致分析效率低的问题。具体技术方案如下:
第一方面,提供了一种数据分析方法,所述方法包括:
获取样本数据集合和多个分析指标;
利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;
针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;
基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。
可选地,所述分析指标包括:第一指标;所述分析结果包括:样本统计分布特征,所述样本统计分布特征用于表征样本数据的统计分布情况;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第一指标对应的分析数据为所述样本数据集合;
基于所述样本数据集合中的样本数据进行分析得到所述样本统计分布特征。
可选地,所述分析指标包括:第二指标;所述分析结果包括:变化趋势特征,所述变化趋势特征用于表征预测结果随样本数据变化的变化趋势;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第二指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述变化趋势特征。
可选地,所述分析指标包括:第三指标;所述分析结果包括:模型性能特征,所述模型性能特征用于表征所述预测模型的性能;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述模型性能特征。
可选地,所述分析指标包括:第三指标;所述分析结果包括:样本性能特征,所述样本性能特征用于表征样本数据在模型训练过程中的性能;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述样本性能特征。
可选地,所述利用所述样本数据集合训练预测模型,包括:
获取所述样本数据集合中每个样本数据的生成时间;
将生成时间属于预设时间范围内的样本数据划分为两个数据集,其中一个数据集为训练数据集,另一个数据集为验证数据集;
将生成时间不属于所述预设时间范围内的样本数据划分至测试数据集;
利用所述训练数据集、所述验证数据集及所述测试数据集训练所述预测模型。
可选地,所述利用所述样本数据集合训练预测模型之前,还包括:
确定所述预测模型对应的数据处理方式;
利用所述数据处理方式对所述样本数据集合进行处理。
第二方面,提供了一种数据分析装置,所述装置包括:
获取模块,用于获取样本数据集合和多个分析指标;
训练模块,用于利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;
确定模块,用于针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;
生成模块,用于基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。
可选地,所述分析指标包括:第一指标;所述分析结果包括:样本统计分布特征,所述样本统计分布特征用于表征样本数据的统计分布情况;
所述确定模块,具体用于:
确定所述第一指标对应的分析数据为所述样本数据集合;
基于所述样本数据集合中的样本数据进行分析得到所述样本统计分布特征。
可选地,所述分析指标包括:第二指标;所述分析结果包括:变化趋势特征,所述变化趋势特征用于表征预测结果随样本数据变化的变化趋势;
所述确定模块,还用于:
确定所述第二指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述变化趋势特征。
可选地,所述分析指标包括:第三指标;所述分析结果包括:模型性能特征,所述模型性能特征用于表征所述预测模型的性能;
所述确定模块,还用于:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述模型性能特征。
可选地,所述分析指标包括:第三指标;所述分析结果包括:样本性能特征,所述样本性能特征用于表征样本数据在模型训练过程中的性能;
所述确定模块,还用于:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述样本性能特征。
可选地,所述训练模块,具体用于:
获取所述样本数据集合中每个样本数据的生成时间;
将生成时间属于预设时间范围内的样本数据划分为两个数据集,其中一个数据集为训练数据集,另一个数据集为验证数据集;
将生成时间不属于所述预设时间范围内的样本数据划分至测试数据集;
利用所述训练数据集、所述验证数据集及所述测试数据集训练所述预测模型。
可选地,所述装置还包括处理模块,所述处理模块用于:
确定所述预测模型对应的数据处理方式;
利用所述数据处理方式对所述样本数据集合进行处理。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据分析方法。
本申请实施例有益效果:
本申请实施例提供了一种数据分析方法、装置、电子设备及存储介质,本申请通过,首先,获取样本数据集合和多个分析指标;然后,利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;然后,针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;最后,基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。即,通过本申请,可以根据多个分析指标确定对应的分析数据,并基于该分析数据进行分析得到分析结果,最后生成分析报告,无需分析人员手动分析,提高了分析效率,并且由于本方案中将所有分析指标和分析结果集成到了预设格式的分析报告中,可以方便分析人员观看,提高用户体验。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据分析方法的流程图;
图2为本申请另一实施例提供的一种数据分析方法的流程图;
图3为本申请实施例提供的一种数据分析装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于目前,在构建模型时对于模型和变量的分析过程,一般需要分析人员根据需要分析的内容和指标,调用相应的算法来进行相应的分析,得到分析结果,分析效率低。为此,本申请实施例提供了一种数据分析方法。
下面将结合具体实施方式,对本申请实施例提供的一种数据分析方法进行详细的说明,如图1所示,具体步骤如下:
S101,获取样本数据集合和多个分析指标。
在本申请实施例中,样本数据集合中包括多个样本数据,分析指标指构建模型过程中需要分析的指标。
S102,利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合。
在本申请实施例中,预测模型为用户预先基于业务的需要、内部的偏好或模型的用途进行配置后的模型,该配置操作包括对模型整体参数的把控;建模数据源的指定;模型算法类型;变量显著性要求;模型参数的配置等。将样本数据集合中的样本数据输入预测模型对该预测模型进行训练,训练过程中,预测模型会输出每个样本数据对应的预测结果,预测结果集合中包括所有预测结果。
S103,针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合。
在本申请实施例中,分析数据包括样本数据集合和/或预测结果集合,不同的分析指标需要的分析数据不同,例如只对样本数据集合的相关分析指标只需要样本数据集合作为分析数据。确定分析指标对应的分析数据后,即可利用该分析数据进行分析,得到该分析指标对应的分析结果。
S104,基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。
在本申请实施例中,预设格式是用户根据需要预先设置的,其中包括对分析报告的布局和不同内容对应的显示规则等。例如对于用户预先标注的需要重点关注的内容,在分析报告中突出显示;又如,对于无警示信息时,在分析报告中隐藏该部分内容,增加分析报告的简洁性;又如,针对不同的算法类型其页面显示规则不同,逻辑回归算法模型,会生成模型的拟合公式;而xgboost模型则会生模型的结构,如树的深度或叶子节点的个数等。
在本申请实施例中,可以将多个分析指标、多个分析数据及多个分析结果按照预设格式集成在分析报告中,即,生成的分析报告中可以包括多个分析指标以及对应的多个分析结果,还可以包括分析过程中所使用的分析数据。
在本申请实施例的又一实施方式中,还可以解析模型和样本数据的属性信息,将该属性信息集成在分析报告中,例如,模型名称、开发路径、生成时间、算法类型、模型参数、样本数据的范围及数据来源等内容。从而使分析报告中的内容更全面,方便分析人员后续分析。
本申请实施例中,首先,获取样本数据集合和多个分析指标;然后,利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;然后,针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;最后,基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。即,通过本申请,可以根据多个分析指标确定对应的分析数据,并基于该分析数据进行分析得到分析结果,最后生成分析报告,无需分析人员手动分析,提高了分析效率,并且由于本方案中将所有分析指标和分析结果集成到了预设格式的分析报告中,可以方便分析人员观看,提高用户体验。
在本申请又一实施例中,S103,可以包括以下步骤:
步骤一,确定所述第一指标对应的分析数据为所述样本数据集合;
步骤二,基于所述样本数据集合中的样本数据进行分析得到所述样本统计分布特征。
在本申请实施例中,分析指标为第一指标,用于分析样本数据的统计分布情况;分析结果为样本统计分布特征,用于表征样本数据的统计分布情况。样本统计分布特征可以包括根据样本数据集合中所有样本数据计算得到的:样本极差、样本方差、样本标准差、样本变异系数、坏账样总数和坏账比例等。
若样本数据集合包括多个数据集(例如训练数据集、验证数据集集和测试数据集),样本统计分布特征还可以包括根据各个数据集中的样本数据计算得到的:包含表示位置的统计量—算术平均值和中位数;表示变异程度的统计量—标准差、方差和极差;中心矩、表示分布形状的统计量—偏度和峰度等。
本申请实施例中,基于样本数据集合中的样本数据进行分析得到样本统计分布特征,从而可以使分析人员直观得了解样本数据得统计分布情况。
在本申请又一实施例中,S103,可以包括以下步骤:
步骤一,确定所述第二指标对应的分析数据为所述样本数据集合和所述预测结果集合;
步骤二,基于所述样本数据集合和所述预测结果集合进行分析得到所述变化趋势特征。
在本申请实施例中,分析指标为第二指标,用于分析预测结果随样本数据变化的变化趋势;分析结果为变化趋势特征,用于表征预测结果随样本数据变化的变化趋势。
进一步地,样本数据集合中的样本数据与预测结果集合的预测结果一一对应,因此,可以根据样本数据集合和预测结果集合得到变化趋势特征。从而使分析人员方便了解预测结果随样本数据变化的变化趋势,优选的,可以在分析报告中以图像形式显示变化趋势特征,例如曲线图,使分析人员对预测结果随样本数据变化的变化趋势一目了然。
在本申请又一实施例中,S103,可以包括以下步骤:
步骤一,确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
步骤二,基于所述样本数据集合和所述预测结果集合进行分析得到所述模型性能特征。
在本申请实施例中,分析指标为第三指标,用于分析预测模型的性能;分析结果包括为模型性能特征,用于表征预测模型的性能,例如,模型置信水平、KS(Kolmogorov-Smirnov,检验)值、准确率、精确率、召回率、F1分数(F1-score)、交叉报告、混淆矩阵、ROC(Receiver Operating Characteristic,受试者工作特征)/AUC(Area Under the Curve,ROC曲线的面积)等。
本申请实施例中,基于样本数据集合和预测结果集合进行分析得到模型性能特征,可以方便分析人员了解模型性能,提高用户体验。
在本申请又一实施例中,S103,可以包括以下步骤:
步骤一,确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
步骤二,基于所述样本数据集合和所述预测结果集合进行分析得到所述样本性能特征。
在本申请实施例中,分析指标为第三指标,用于分析样本数据在模型训练过程中的性能;分析结果为样本性能特征,用于表征样本数据在模型训练过程中的性能,例如,样本数据在样本数据集合上的稳定性、样本数据的预测能力、样本数据间的相关性、样本数据的重要性及样本数据的贡献度等。
本申请实施例中,基于样本数据集合和预测结果集合进行分析得到样本性能特征,可以方便分析人员了解样本性能,提高用户体验。
在本申请又一实施例中,S102,可以包括以下步骤:
S201,获取所述样本数据集合中每个样本数据的生成时间;
S202,将生成时间属于预设时间范围内的样本数据划分为两个数据集,其中一个数据集为训练数据集,另一个数据集为验证数据集;
S203,将生成时间不属于所述预设时间范围内的样本数据划分至测试数据集;
S204,利用所述训练数据集、所述验证数据集及所述测试数据集训练所述预测模型。
在本申请实施例中,可以基于样本数据集合中每个样本数据的生成时间将样本数据集合划分为训练数据集、验证数据集和测试数据集。然后,利用训练数据集、验证数据集及测试数据集训练预测模型。一般训练数据集和验证数据集中包括的是同一时间范围内的样本数据,测试数据集中包括的该时间范围外的样本数据。例如:基于2020年1月到2020年12月的60万样本数据建模,可将2020年1月到10月的样本数据的60%作为训练数据集,其余40%作为验证数据集,2020年11月到12月的作为测试数据集。
在本申请实施例的另一种实施方式中,可将某一类型的样本数据划分至测试数据集,例如,2020年全年某一个特定渠道的样本数据作为测试数据集。
本申请实施例中,基于样本数据的生成时间将样本数据集合划分为训练数据集、验证数据集及测试数据集,然后,利用训练数据集、验证数据集及测试数据集训练预测模型。划分过程简单高效,并且,可以保证模型的效果。
在本申请又一实施例中,该方法还可以包括以下步骤:
步骤一,确定所述预测模型对应的数据处理方式;
步骤二,利用所述数据处理方式对所述样本数据集合进行处理。
在本申请实施例中,利用样本数据集合训练预测模型之前,需要对样本数据集合进行预处理,不同算法的预测模型对数据的要求不一样,需要根据算法的不同对数据进行处理,将数据处理成算法能识别的状态。例如,逻辑回归算法要求不能有缺失值,故需要对样本数据集合进行缺失值处理。从而使样本数据集合能被模型中的算法识别。
本申请实施例中,首先,获取样本数据集合和多个分析指标;然后,利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;然后,针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;最后,基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。即,通过本申请,可以根据多个分析指标确定对应的分析数据,并基于该分析数据进行分析得到分析结果,最后生成分析报告,无需分析人员手动分析,提高了分析效率,并且由于本方案中将所有分析指标和分析结果集成到了预设格式的分析报告中,可以方便分析人员观看,提高用户体验。
基于相同的技术构思,本申请实施例还提供了一种数据分析装置,如图3所示,该装置包括:
获取模块301,用于获取样本数据集合和多个分析指标;
训练模块302,用于利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;
确定模块303,用于针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;
生成模块304,用于基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。
可选地,所述分析指标包括:第一指标;所述分析结果包括:样本统计分布特征,所述样本统计分布特征用于表征样本数据的统计分布情况;
所述确定模块,具体用于:
确定所述第一指标对应的分析数据为所述样本数据集合;
基于所述样本数据集合中的样本数据进行分析得到所述样本统计分布特征。
可选地,所述分析指标包括:第二指标;所述分析结果包括:变化趋势特征,所述变化趋势特征用于表征预测结果随样本数据变化的变化趋势;
所述确定模块,还用于:
确定所述第二指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述变化趋势特征。
可选地,所述分析指标包括:第三指标;所述分析结果包括:模型性能特征,所述模型性能特征用于表征所述预测模型的性能;
所述确定模块,还用于:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述模型性能特征。
可选地,所述分析指标包括:第三指标;所述分析结果包括:样本性能特征,所述样本性能特征用于表征样本数据在模型训练过程中的性能;
所述确定模块,还用于:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述样本性能特征。
可选地,所述训练模块,具体用于:
获取所述样本数据集合中每个样本数据的生成时间;
将生成时间属于预设时间范围内的样本数据划分为两个数据集,其中一个数据集为训练数据集,另一个数据集为验证数据集;
将生成时间不属于所述预设时间范围内的样本数据划分至测试数据集;
利用所述训练数据集、所述验证数据集及所述测试数据集训练所述预测模型。
可选地,所述装置还包括处理模块,所述处理模块用于:
确定所述预测模型对应的数据处理方式;
利用所述数据处理方式对所述样本数据集合进行处理。
本申请实施例中,首先,获取样本数据集合和多个分析指标;然后,利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;然后,针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;最后,基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。即,通过本申请,可以根据多个分析指标确定对应的分析数据,并基于该分析数据进行分析得到分析结果,最后生成分析报告,无需分析人员手动分析,提高了分析效率,并且由于本方案中将所有分析指标和分析结果集成到了预设格式的分析报告中,可以方便分析人员观看,提高用户体验。
基于相同的技术构思,本申请实施例还提供了一种电子设备,如图4所示,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序;
处理器111,用于执行存储器113上所存放的程序时,实现如下步骤:
获取样本数据集合和多个分析指标;
利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;
针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;
基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据分析方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据分析方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据分析方法,其特征在于,所述方法包括:
获取样本数据集合和多个分析指标;
利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;
针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;
基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。
2.根据权利要求1所述的方法,其特征在于,所述分析指标包括:第一指标;所述分析结果包括:样本统计分布特征,所述样本统计分布特征用于表征样本数据的统计分布情况;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第一指标对应的分析数据为所述样本数据集合;
基于所述样本数据集合中的样本数据进行分析得到所述样本统计分布特征。
3.根据权利要求1所述的方法,其特征在于,所述分析指标包括:第二指标;所述分析结果包括:变化趋势特征,所述变化趋势特征用于表征预测结果随样本数据变化的变化趋势;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第二指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述变化趋势特征。
4.根据权利要求1所述的方法,其特征在于,所述分析指标包括:第三指标;所述分析结果包括:模型性能特征,所述模型性能特征用于表征所述预测模型的性能;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述模型性能特征。
5.根据权利要求1所述的方法,其特征在于,所述分析指标包括:第三指标;所述分析结果包括:样本性能特征,所述样本性能特征用于表征样本数据在模型训练过程中的性能;
所述确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,包括:
确定所述第三指标对应的分析数据为所述样本数据集合和所述预测结果集合;
基于所述样本数据集合和所述预测结果集合进行分析得到所述样本性能特征。
6.根据权利要求1所述的方法,其特征在于,所述利用所述样本数据集合训练预测模型,包括:
获取所述样本数据集合中每个样本数据的生成时间;
将生成时间属于预设时间范围内的样本数据划分为两个数据集,其中一个数据集为训练数据集,另一个数据集为验证数据集;
将生成时间不属于所述预设时间范围内的样本数据划分至测试数据集;
利用所述训练数据集、所述验证数据集及所述测试数据集训练所述预测模型。
7.根据权利要求1所述的方法,其特征在于,所述利用所述样本数据集合训练预测模型之前,还包括:
确定所述预测模型对应的数据处理方式;
利用所述数据处理方式对所述样本数据集合进行处理。
8.一种数据分析装置,其特征在于,所述装置包括:
获取模块,用于获取样本数据集合和多个分析指标;
训练模块,用于利用所述样本数据集合训练预测模型,其中,训练过程中,所述预测模型输出与所述样本数据集合对应的预测结果集合;
确定模块,用于针对每个分析指标,确定所述分析指标对应的分析数据,并基于所述分析数据进行分析得到分析结果,所述分析数据包括所述样本数据集合和/或所述预测结果集合;
生成模块,用于基于多个所述分析指标、多个所述分析数据、多个所述分析结果和预设格式生成分析报告。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111070664.1A CN113742193A (zh) | 2021-09-13 | 2021-09-13 | 一种数据分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111070664.1A CN113742193A (zh) | 2021-09-13 | 2021-09-13 | 一种数据分析方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113742193A true CN113742193A (zh) | 2021-12-03 |
Family
ID=78738380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111070664.1A Pending CN113742193A (zh) | 2021-09-13 | 2021-09-13 | 一种数据分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742193A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501990A (zh) * | 2023-04-11 | 2023-07-28 | 北京师范大学-香港浸会大学联合国际学院 | 基于门诊大数据的医院专科影响力评估方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543906A (zh) * | 2018-11-23 | 2019-03-29 | 长三角环境气象预报预警中心(上海市环境气象中心) | 一种大气能见度预测的方法及设备 |
CN109740787A (zh) * | 2018-11-20 | 2019-05-10 | 第四范式(北京)技术有限公司 | 训练建筑物空调负荷预测模型及用其预测的方法和装置 |
CN111353620A (zh) * | 2018-12-20 | 2020-06-30 | 顺丰科技有限公司 | 构建网点件量预测模型的方法、装置、设备及存储介质 |
CN111950706A (zh) * | 2020-08-10 | 2020-11-17 | 中国平安人寿保险股份有限公司 | 基于人工智能的数据处理方法、装置、计算机设备及介质 |
CN112884092A (zh) * | 2021-04-28 | 2021-06-01 | 深圳索信达数据技术有限公司 | Ai模型生成方法、电子设备及存储介质 |
-
2021
- 2021-09-13 CN CN202111070664.1A patent/CN113742193A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740787A (zh) * | 2018-11-20 | 2019-05-10 | 第四范式(北京)技术有限公司 | 训练建筑物空调负荷预测模型及用其预测的方法和装置 |
CN109543906A (zh) * | 2018-11-23 | 2019-03-29 | 长三角环境气象预报预警中心(上海市环境气象中心) | 一种大气能见度预测的方法及设备 |
CN111353620A (zh) * | 2018-12-20 | 2020-06-30 | 顺丰科技有限公司 | 构建网点件量预测模型的方法、装置、设备及存储介质 |
CN111950706A (zh) * | 2020-08-10 | 2020-11-17 | 中国平安人寿保险股份有限公司 | 基于人工智能的数据处理方法、装置、计算机设备及介质 |
CN112884092A (zh) * | 2021-04-28 | 2021-06-01 | 深圳索信达数据技术有限公司 | Ai模型生成方法、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501990A (zh) * | 2023-04-11 | 2023-07-28 | 北京师范大学-香港浸会大学联合国际学院 | 基于门诊大数据的医院专科影响力评估方法及装置 |
CN116501990B (zh) * | 2023-04-11 | 2024-01-26 | 北京师范大学-香港浸会大学联合国际学院 | 基于门诊大数据的医院专科影响力评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6626911B2 (ja) | コンピュータシステム | |
Mélard | On the accuracy of statistical procedures in Microsoft Excel 2010 | |
US20180113935A1 (en) | System and method for providing technology assisted data review with optimizing features | |
US20160162794A1 (en) | Decision tree data structures generated to determine metrics for child nodes | |
CN108256074A (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
CN107168995B (zh) | 一种数据处理方法及服务器 | |
US8380654B2 (en) | General market prediction using position specification language | |
Ginde et al. | ScientoBASE: a framework and model for computing scholastic indicators of non-local influence of journals via native data acquisition algorithms | |
CN107391682B (zh) | 知识验证方法、知识验证设备以及存储介质 | |
CN112528007B (zh) | 一种招商项目的目标企业的确认方法及确认装置 | |
Dasu | Data glitches: Monsters in your data | |
Kläs et al. | Quality evaluation for big data: a scalable assessment approach and first evaluation results | |
Staudt et al. | High-impact and transformative science (HITS) metrics: Definition, exemplification, and comparison | |
US20140149409A1 (en) | Massive rule-based classification engine | |
CN113742193A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN117035563B (zh) | 产品质量安全风险监测方法、设备、监测系统及介质 | |
CN112199500A (zh) | 针对评论的情感倾向识别方法、装置及电子设备 | |
CN116484025A (zh) | 漏洞知识图谱构建方法、评估方法、设备及存储介质 | |
CN112783762B (zh) | 软件质量的评估方法、装置及服务器 | |
CN113704236A (zh) | 政务系统数据质量评估方法、装置、终端及存储介质 | |
Pakgohar et al. | Goodness of fit test using Lin-Wong divergence based on Type-I censored data | |
Hering et al. | Estimating Archimedean copulas in high dimensions | |
Naveed et al. | Control charts using half-normal and half-exponential power distributions using repetitive sampling | |
Beyaztas et al. | Robust BCa–JaB method as a diagnostic tool for linear regression models | |
Ardiani | Online public access catalogue: factors affecting use e-catalog |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |