CN111582390A - 一种大数据预分析的方法及装置 - Google Patents

一种大数据预分析的方法及装置 Download PDF

Info

Publication number
CN111582390A
CN111582390A CN202010394043.8A CN202010394043A CN111582390A CN 111582390 A CN111582390 A CN 111582390A CN 202010394043 A CN202010394043 A CN 202010394043A CN 111582390 A CN111582390 A CN 111582390A
Authority
CN
China
Prior art keywords
data
data set
sample
analysis
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010394043.8A
Other languages
English (en)
Inventor
罗浩
童恩
杨璇
吕明
吕旭红
吴刚
李铮
金韡
周枫
高远
韩喜清
陈筱丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Mobile Information System Integration Co ltd
Original Assignee
Jiangsu Mobile Information System Integration Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Mobile Information System Integration Co ltd filed Critical Jiangsu Mobile Information System Integration Co ltd
Priority to CN202010394043.8A priority Critical patent/CN111582390A/zh
Publication of CN111582390A publication Critical patent/CN111582390A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/18Packaging or power distribution
    • G06F1/181Enclosures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种大数据预分析的方法及装置,通过数据获取模块获取样本数据,根据预设的数据结构将所述样本数据建立样本数据集并存储至服务器主体中;数据识别模块对所述样本数据集进行异常值识别并处理,生成过滤数据集;数据聚类模块对所述过滤数据集进行聚类,得到标准数据集;数据训练模块将所述标准数据集进行训练分析,得到所述标准数据集的数据分析模型;数据分析模块获取待分析数据,将所述待分析数据通过所述数据分析模型进行分析,得到分析结果,通过所述服务器主体将所述结果转发给用户的显示设备;本发明通过获取海量的样本数据进行训练分析,有利于提高样本数据集的训练分析,提高数据分析模型中数据关系的平稳性。

Description

一种大数据预分析的方法及装置
技术领域
本发明涉及大数据采集预分析领域,具体涉及一种大数据预分析的方法及装置。
背景技术
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征,面对海量的数据,在前期需要将获取的大数据进行处理预分析,以便快速得到大数据的分析结果。
发明内容
本发明的目的在于提供一种大数据预分析的方法及装置,通过对获取海量的样本数据进行训练分析,可以得到海量样本数据之间的关系得到数据分析模型,通过预设的数据结构对样本数据进行初期分析,得到样本数据集,有利于提高后期对样本数据集的训练分析,将样本数据集进行异常值识别并处理,得到过滤数据集,可以有效消除异常值对构建数据分析模型的影响,提高数据分析模型中数据关系的平稳性,进一步地对过滤数据集进行聚类得到标准数据集可以提高模型的训练速度,对标准数据集进行训练分析,得到标准数据集的数据分析模型,通过数据分析模型达到对大数据预分析的目的,有效提高对大数据分析的效率,解决了现有技术方案中对大数据预分析效率低的问题;
本发明对样本数据集进行异常值识别并处理时,通过均值计算公式对样本数据集中数据进行均值计算,得到样本数据集中数据的样本平均值,利用公式对样本数据集进行样本标准差计算得到样本数据集的样本标准差,继续利用公式对样本数据集进行检验统计量进行计算,得到样本数据集的检验统计量,根据检验统计量计算得到检验临界值,通过检验临界值对样本数据集检验计算得到的结果进行判断,可以有效提取样本数据集中的异常值,通过公式对异常值进行计算判断,得到高度异常值或者低度异常值,并做进一步的处理,达到对样本数据集中异常值的识别和处理,有效提高样本数据集中样本数据的准确性和平稳性,为数据分析模型的构建提供了有效的数据,解决了现有技术方案中样本数据集中样本数据不可靠导致模型分析的结果误差大的问题。
本发明的目的可以通过以下技术方案实现:
一种大数据预分析的方法,所述方法包括:
步骤一:数据获取模块获取样本数据,根据预设的数据结构将所述样本数据建立样本数据集并存储至服务器主体中;
步骤二:数据识别模块对所述样本数据集进行异常值识别并处理,生成过滤数据集;
步骤三:数据聚类模块对所述过滤数据集进行聚类,得到标准数据集;
步骤四:数据训练模块将所述标准数据集进行训练分析,得到所述标准数据集的数据分析模型;
步骤五:数据分析模块获取待分析数据,将所述待分析数据通过所述数据分析模型进行分析,得到分析结果,通过所述服务器主体将所述结果转发给用户的显示设备。
优选的,所述对所述样本数据集进行异常值识别并处理,生成过滤数据集的具体步骤包括:
步骤一:利用公式
Figure BDA0002486700890000031
对所述样本数据集进行均值计算,得到所述样本数据集的样本平均值;其中n表示所述样本数据集中的样本数据值,μ表示所述样本数据集的样本平均值;
步骤二:利用公式
Figure BDA0002486700890000032
对所述样本数据集进行样本标准差计算,得到所述样本数据集的样本标准差,其中,i表示所述样本数据集中的样本数据值,i的取值范围为[1,n],s表示所述样本数据集的样本标准差;
步骤三:利用公式
Figure BDA0002486700890000033
对所述样本数据集进行检验统计量计算,得到所述样本数据集的检验统计量;其中,Gn表示所述样本数据集的检验统计量;
步骤四:根据所述检验统计量确定检验水平,通过公式B1=G1-α(k)计算得到检验临界值;其中,α表示预设检验水平系数,k表示所述检验水平系数对应的检验值;
步骤五:通过所述检验临界值对所述样本数据集的检验统计量进行判断,当Gn>B1时,则判断xn为异常值;否则判断无异常值;
步骤六:利用公式B2=G1-α'(n)计算得到所述异常值的删除水平值;其中,α'(n)表示异常值的删除系数,当Gn>B2时,则判断xn为高度异常值;否则判断xn为低度异常值;
步骤七:对所述高度异常值进行删除,将所述低度异常值进行均值计算,得到低度均值,将所述低度均值替换所述低度异常值,并存储至所述样本数据集。
优选的,所述对所述过滤数据集进行聚类,得到标准数据集的具体计算步骤如下:
步骤一:随机选择所述过滤数据集中K个样本作为K个中心点;
步骤二:利用公式c=min||xi-uk||2计算所述过滤数据集中的样本数据与K个所述中心的距离最小值;其中,xi表示所述过滤数据集中的样本数据,uk表示第K个中心点;
步骤三:根据所述样本数据与K个所述中心点的距离最小值,将所述样本数据归类至所述中心点,通过对所述过滤数据集中的样本数据进行迭代,直至所述过滤数据集中的所有所述样本数据均归类至K个所述中心点;
步骤四:获取K个所述中心点中所述样本数据的对象属性,将所述对象属性进行整合,并将整合后的所述对象属性作为指标组合样本类的属性,并在所述指标组合样本类的属性中添加设置方法和获取方法,得到K个指标组合样本类;
步骤五:将K个所述指标组合样本类中的数据进行归一化处理,得到划分为不同的指标组合的标准数据集。
优选的,所述将所述标准数据集进行训练分析,得到所述标准数据集的数据分析模型的具体步骤如下:
S1:利用线性回归函数
Figure BDA0002486700890000041
对所述标准数据集进行拟合计算,得到拟合数据集;其中,z表示所述标准数据集中的数据,g(z)的值范围为区间[0,1];
S2:将所述拟合数据集映射至所述线性回归函数,生成分析函数;
S3:对所述分析函数进行对数推导,得到似然函数;
S4:利用预设定的特征条件,获取所述标准数据集中的数据特征和拟合数据集中的数据特征;
S5:将所述标准数据集中的数据特征和所述拟合数据集中的数据特征进行对比判断;
S6:若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异大于或等于预设的阈值,则调整所述线性回归函数中预设定的参数后,对所述标准数据集继续进行拟合计算;
S7:若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异小于预设的阈值,将所述似然函数和所述线性回归函数进行组合,得到训练分析完成的数据分析模型。
一种大数据预分析的装置,包括数据获取模块、数据识别模块、数据聚类模块、数据训练模块、数据分析模块和服务器主体,所述数据获取模块用户获取海量的样本数据,所述数据识别模块用于对所述过滤数据集进行聚类,所述数据训练模块将所述标准数据集进行训练分析,所述数据分析模块对待分析数据进行分析输出分析结果,所述服务器主体的内部固定安装有腔体,所述腔体的内表面固定安装有第一固定柱和第二固定柱,所述第一固定柱位于第二固定柱的一侧,所述第一固定柱和第二固定柱之间设置有若干个连接块,所述腔体的内部设置有若干个防护块,所述防护块的内表面固定连接有插块,所述插块的内部设置有若干个插口,若干个所述插口呈等间距排列,所述防护块的内部固定安装有防护板,所述防护板与防护块之间设置有卡槽,所述防护块的内表面固定安装有第一凸块,所述防护板的外表面固定安装有第二凸块,所述防护板的内部固定安装有卡块,所述卡块的内部设置有若干个隔离块,所述卡块的内表面活动连接有转柱,所述转柱的外表面活动连接有隔离板。
本发明的有益效果为:
1、本发明通过对获取海量的样本数据进行训练分析,可以得到海量样本数据之间的关系得到数据分析模型,通过预设的数据结构对样本数据进行初期分析,得到样本数据集,有利于提高后期对样本数据集的训练分析,将样本数据集进行异常值识别并处理,得到过滤数据集,可以有效消除异常值对构建数据分析模型的影响,提高数据分析模型中数据关系的平稳性,进一步地对过滤数据集进行聚类得到标准数据集可以提高模型的训练速度,对标准数据集进行训练分析,得到标准数据集的数据分析模型,通过数据分析模型达到对大数据预分析的目的,有效提高对大数据分析的效率;
2、本发明对样本数据集进行异常值识别并处理时,通过均值计算公式对样本数据集中数据进行均值计算,得到样本数据集中数据的样本平均值,利用公式对样本数据集进行样本标准差计算得到样本数据集的样本标准差,继续利用公式对样本数据集进行检验统计量进行计算,得到样本数据集的检验统计量,根据检验统计量计算得到检验临界值,通过检验临界值对样本数据集检验计算得到的结果进行判断,可以有效提取样本数据集中的异常值,通过公式对异常值进行计算判断,得到高度异常值或者低度异常值,并做进一步的处理,达到对样本数据集中异常值的识别和处理,有效提高样本数据集中样本数据的准确性和平稳性,为数据分析模型的构建提供了有效的数据,提高了数据分析模型对大数据分析的准确性。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明一种大数据预分析的方法的整体结构原理框图;
图2为本发明一种大数据预分析的装置整体结构图;
图3为本发明中防护块的结构图。
图中:1、服务器主体;2、腔体;3、第一固定柱;4、第二固定柱;5、连接块;6、防护块;7、插块;8、插口;9、防护板;10、第一凸块;11、第二凸块;12、卡槽;13、卡块;14、隔离块;15、隔离板;16、转柱。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-3所示,一种大数据预分析的方法,所述方法包括:
步骤一:数据获取模块获取样本数据,根据预设的数据结构将所述样本数据建立样本数据集并存储至服务器主体1中;
步骤二:数据识别模块对所述样本数据集进行异常值识别并处理,生成过滤数据集;
步骤三:数据聚类模块对所述过滤数据集进行聚类,得到标准数据集;
步骤四:数据训练模块将所述标准数据集进行训练分析,得到所述标准数据集的数据分析模型;
步骤五:数据分析模块获取待分析数据,将所述待分析数据通过所述数据分析模型进行分析,得到分析结果,通过所述服务器主体1将所述结果转发给用户的显示设备。
所述对所述样本数据集进行异常值识别并处理,生成过滤数据集的具体步骤包括:
步骤一:利用公式
Figure BDA0002486700890000071
对所述样本数据集进行均值计算,得到所述样本数据集的样本平均值;其中n表示所述样本数据集中的样本数据值,μ表示所述样本数据集的样本平均值;
步骤二:利用公式
Figure BDA0002486700890000072
对所述样本数据集进行样本标准差计算,得到所述样本数据集的样本标准差,其中,i表示所述样本数据集中的样本数据值,i的取值范围为[1,n],s表示所述样本数据集的样本标准差;
步骤三:利用公式
Figure BDA0002486700890000081
对所述样本数据集进行检验统计量计算,得到所述样本数据集的检验统计量;其中,Gn表示所述样本数据集的检验统计量;
步骤四:根据所述检验统计量确定检验水平,通过公式B1=G1-α(k)计算得到检验临界值;其中,α表示预设检验水平系数,k表示所述检验水平系数对应的检验值;
步骤五:通过所述检验临界值对所述样本数据集的检验统计量进行判断,当Gn>B1时,则判断xn为异常值;否则判断无异常值;
步骤六:利用公式B2=G1-α'(n)计算得到所述异常值的删除水平值;其中,α'(n)表示异常值的删除系数,当Gn>B2时,则判断xn为高度异常值;否则判断xn为低度异常值;
步骤七:对所述高度异常值进行删除,将所述低度异常值进行均值计算,得到低度均值,将所述低度均值替换所述低度异常值,并存储至所述样本数据集。
所述对所述过滤数据集进行聚类,得到标准数据集的具体计算步骤如下:
步骤一:随机选择所述过滤数据集中K个样本作为K个中心点;
步骤二:利用公式c=min||xi-uk||2计算所述过滤数据集中的样本数据与K个所述中心的距离最小值;其中,xi表示所述过滤数据集中的样本数据,uk表示第K个中心点;
步骤三:根据所述样本数据与K个所述中心点的距离最小值,将所述样本数据归类至所述中心点,通过对所述过滤数据集中的样本数据进行迭代,直至所述过滤数据集中的所有所述样本数据均归类至K个所述中心点;
步骤四:获取K个所述中心点中所述样本数据的对象属性,将所述对象属性进行整合,并将整合后的所述对象属性作为指标组合样本类的属性,并在所述指标组合样本类的属性中添加设置方法和获取方法,得到K个指标组合样本类;
步骤五:将K个所述指标组合样本类中的数据进行归一化处理,得到划分为不同的指标组合的标准数据集。
所述将所述标准数据集进行训练分析,得到所述标准数据集的数据分析模型的具体步骤如下:
S1:利用线性回归函数
Figure BDA0002486700890000091
对所述标准数据集进行拟合计算,得到拟合数据集;其中,z表示所述标准数据集中的数据,g(z)的值范围为区间[0,1];
S2:将所述拟合数据集映射至所述线性回归函数,生成分析函数;
S3:对所述分析函数进行对数推导,得到似然函数;
S4:利用预设定的特征条件,获取所述标准数据集中的数据特征和拟合数据集中的数据特征;
S5:将所述标准数据集中的数据特征和所述拟合数据集中的数据特征进行对比判断;
S6:若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异大于或等于预设的阈值,则调整所述线性回归函数中预设定的参数后,对所述标准数据集继续进行拟合计算;
S7:若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异小于预设的阈值,将所述似然函数和所述线性回归函数进行组合,得到训练分析完成的数据分析模型。
一种大数据预分析的装置,包括数据获取模块、数据识别模块、数据聚类模块、数据训练模块、数据分析模块和服务器主体1,所述数据获取模块用户获取海量的样本数据,所述数据识别模块用于对所述过滤数据集进行聚类,所述数据训练模块将所述标准数据集进行训练分析,所述数据分析模块对待分析数据进行分析输出分析结果,所述服务器主体1的内部固定安装有腔体2,所述腔体2的内表面固定安装有第一固定柱3和第二固定柱4,所述第一固定柱3位于第二固定柱4的一侧,所述第一固定柱3和第二固定柱4之间设置有若干个连接块5,所述腔体2的内部设置有若干个防护块6,所述防护块6的内表面固定连接有插块7,所述插块7的内部设置有若干个插口8,若干个所述插口8呈等间距排列,所述防护块6的内部固定安装有防护板9,所述防护板9与防护块6之间设置有卡槽12,所述防护块6的内表面固定安装有第一凸块10,所述防护板9的外表面固定安装有第二凸块11,所述防护板9的内部固定安装有卡块13,所述卡块13的内部设置有若干个隔离块14,所述卡块13的内表面活动连接有转柱16,所述转柱16的外表面活动连接有隔离板15。
本发明的工作原理为:
获取海量的样本数据,根据预设的数据结构将所述样本数据建立样本数据集;对所述样本数据集进行异常值识别并处理,利用公式
Figure BDA0002486700890000101
对所述样本数据集进行均值计算,得到所述样本数据集的样本平均值;其中n表示所述样本数据集中的样本数据值,μ表示所述样本数据集的样本平均值;利用公式
Figure BDA0002486700890000102
对所述样本数据集进行样本标准差计算,得到所述样本数据集的样本标准差,其中,i表示所述样本数据集中的样本数据值,i的取值范围为[1,n],s表示所述样本数据集的样本标准差;利用公式
Figure BDA0002486700890000103
对所述样本数据集进行检验统计量计算,得到所述样本数据集的检验统计量;其中,Gn表示所述样本数据集的检验统计量;根据所述检验统计量确定检验水平,通过公式B1=G1-α(k)计算得到检验临界值;其中,α表示预设检验水平系数,k表示所述检验水平系数对应的检验值;通过所述检验临界值对所述样本数据集的检验统计量进行判断,当Gn>B1时,则判断xn为异常值;否则判断无异常值;利用公式B2=G1-α'(n)计算得到所述异常值的删除水平值;其中,α'(n)表示异常值的删除系数,当Gn>B2时,则判断xn为高度异常值;否则判断xn为低度异常值;对所述高度异常值进行删除,将所述低度异常值进行均值计算,得到低度均值,将所述低度均值替换所述低度异常值,并存储至所述样本数据集,生成过滤数据集;对所述过滤数据集进行聚类,随机选择所述过滤数据集中K个样本作为K个中心点;利用公式c=min||xi-uk||2计算所述过滤数据集中的样本数据与K个所述中心的距离最小值;其中,xi表示所述过滤数据集中的样本数据,uk表示第K个中心点;根据所述样本数据与K个所述中心点的距离最小值,将所述样本数据归类至所述中心点,通过对所述过滤数据集中的样本数据进行迭代,直至所述过滤数据集中的所有所述样本数据均归类至K个所述中心点;获取K个所述中心点中所述样本数据的对象属性,将所述对象属性进行整合,并将整合后的所述对象属性作为指标组合样本类的属性,并在所述指标组合样本类的属性中添加设置方法和获取方法,得到K个指标组合样本类;将K个所述指标组合样本类中的数据进行归一化处理,得到划分为不同的指标组合的标准数据集得到标准数据集;
将所述标准数据集进行训练分析,利用线性回归函数
Figure BDA0002486700890000111
对所述标准数据集进行拟合计算,得到拟合数据集;其中,z表示所述标准数据集中的数据,g(z)的值范围为区间[0,1];将所述拟合数据集映射至所述线性回归函数,生成分析函数;对所述分析函数进行对数推导,得到似然函数;利用预设定的特征条件,获取所述标准数据集中的数据特征和拟合数据集中的数据特征;将所述标准数据集中的数据特征和所述拟合数据集中的数据特征进行对比判断;若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异大于或等于预设的阈值,则调整所述线性回归函数中预设定的参数后,对所述标准数据集继续进行拟合计算;若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异小于预设的阈值,将所述似然函数和所述线性回归函数进行组合,得到训练分析完成的数据分析模型得到所述标准数据集的数据分析模型;获取待分析数据,将所述待分析数据通过所述数据分析模型进行分析,得到分析结果,通过所述服务器主体1将所述结果转发给用户的显示设备;
本发明中的装置包括包括数据获取模块、数据识别模块、数据聚类模块、数据训练模块、数据分析模块和服务器主体1,通过获取海量的样本数据,将海量的样本数据和样本数据训练分析得到的数据关系存储至服务器主体1中,将插块7的外表面活动安装有防护块6,通过防护块6内部设置的第一凸块10、第二凸块11和卡槽12固定在插块7上,通过设置的隔离板15和转柱16的配合使用,将缆线穿过隔离板15与插块7上的插口8进行连接,隔离板15和转柱16对插块7上的若干个插口8起到防护隔离的作用;
通过对获取海量的样本数据进行训练分析,可以得到海量样本数据之间的关系得到数据分析模型,通过预设的数据结构对样本数据进行初期分析,得到样本数据集,有利于提高后期对样本数据集的训练分析,将样本数据集进行异常值识别并处理,得到过滤数据集,可以有效消除异常值对构建数据分析模型的影响,提高数据分析模型中数据关系的平稳性,进一步地对过滤数据集进行聚类得到标准数据集可以提高模型的训练速度,对标准数据集进行训练分析,得到标准数据集的数据分析模型,通过数据分析模型达到对大数据预分析的目的,有效提高对大数据分析的效率;
通过对样本数据集进行异常值识别并处理时,通过均值计算公式对样本数据集中数据进行均值计算,得到样本数据集中数据的样本平均值,利用公式对样本数据集进行样本标准差计算得到样本数据集的样本标准差,继续利用公式对样本数据集进行检验统计量进行计算,得到样本数据集的检验统计量,根据检验统计量计算得到检验临界值,通过检验临界值对样本数据集检验计算得到的结果进行判断,可以有效提取样本数据集中的异常值,通过公式对异常值进行计算判断,得到高度异常值或者低度异常值,并做进一步的处理,达到对样本数据集中异常值的识别和处理,有效提高样本数据集中样本数据的准确性和平稳性,为数据分析模型的构建提供了有效的数据,提高了数据分析模型对大数据分析的准确性。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种大数据预分析的方法,其特征在于,所述方法包括:
步骤一:数据获取模块获取样本数据,根据预设的数据结构将所述样本数据建立样本数据集并存储至服务器主体(1)中;
步骤二:数据识别模块对所述样本数据集进行异常值识别并处理,生成过滤数据集;
步骤三:数据聚类模块对所述过滤数据集进行聚类,得到标准数据集;
步骤四:数据训练模块将所述标准数据集进行训练分析,得到所述标准数据集的数据分析模型;
步骤五:数据分析模块获取待分析数据,将所述待分析数据通过所述数据分析模型进行分析,得到分析结果,通过所述服务器主体(1)将所述结果转发给用户的显示设备。
2.根据权利要求1所述的一种大数据预分析的方法,其特征在于,所述对所述样本数据集进行异常值识别并处理,生成过滤数据集的具体步骤包括:
步骤一:利用公式
Figure FDA0002486700880000011
对所述样本数据集进行均值计算,得到所述样本数据集的样本平均值;其中n表示所述样本数据集中的样本数据值,μ表示所述样本数据集的样本平均值;
步骤二:利用公式
Figure FDA0002486700880000012
对所述样本数据集进行样本标准差计算,得到所述样本数据集的样本标准差,其中,i表示所述样本数据集中的样本数据值,i的取值范围为[1,n],s表示所述样本数据集的样本标准差;
步骤三:利用公式
Figure FDA0002486700880000013
对所述样本数据集进行检验统计量计算,得到所述样本数据集的检验统计量;其中,Gn表示所述样本数据集的检验统计量;
步骤四:根据所述检验统计量确定检验水平,通过公式B1=G1-α(k)计算得到检验临界值;其中,α表示预设检验水平系数,k表示所述检验水平系数对应的检验值;
步骤五:通过所述检验临界值对所述样本数据集的检验统计量进行判断,当Gn>B1时,则判断xn为异常值;否则判断无异常值;
步骤六:利用公式B2=G1-α'(n)计算得到所述异常值的删除水平值;其中,α'(n)表示异常值的删除系数,当Gn>B2时,则判断xn为高度异常值;否则判断xn为低度异常值;
步骤七:对所述高度异常值进行删除,将所述低度异常值进行均值计算,得到低度均值,将所述低度均值替换所述低度异常值,并存储至所述样本数据集。
3.根据权利要求1所述的一种大数据预分析的方法,其特征在于,所述对所述过滤数据集进行聚类,得到标准数据集的具体计算步骤如下:
步骤一:随机选择所述过滤数据集中K个样本作为K个中心点;
步骤二:利用公式c=min||xi-uk||2计算所述过滤数据集中的样本数据与K个所述中心的距离最小值;其中,xi表示所述过滤数据集中的样本数据,uk表示第K个中心点;
步骤三:根据所述样本数据与K个所述中心点的距离最小值,将所述样本数据归类至所述中心点,通过对所述过滤数据集中的样本数据进行迭代,直至所述过滤数据集中的所有所述样本数据均归类至K个所述中心点;
步骤四:获取K个所述中心点中所述样本数据的对象属性,将所述对象属性进行整合,并将整合后的所述对象属性作为指标组合样本类的属性,并在所述指标组合样本类的属性中添加设置方法和获取方法,得到K个指标组合样本类;
步骤五:将K个所述指标组合样本类中的数据进行归一化处理,得到划分为不同的指标组合的标准数据集。
4.根据权利要求1所述的一种大数据预分析的方法,其特征在于,所述将所述标准数据集进行训练分析,得到所述标准数据集的数据分析模型的具体步骤如下:
S1:利用线性回归函数
Figure FDA0002486700880000031
对所述标准数据集进行拟合计算,得到拟合数据集;其中,z表示所述标准数据集中的数据,g(z)的值范围为区间[0,1];
S2:将所述拟合数据集映射至所述线性回归函数,生成分析函数;
S3:对所述分析函数进行对数推导,得到似然函数;
S4:利用预设定的特征条件,获取所述标准数据集中的数据特征和拟合数据集中的数据特征;
S5:将所述标准数据集中的数据特征和所述拟合数据集中的数据特征进行对比判断;
S6:若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异大于或等于预设的阈值,则调整所述线性回归函数中预设定的参数后,对所述标准数据集继续进行拟合计算;
S7:若所述标准数据集中的数据特征和所述拟合数据集中的数据特征之间的差异小于预设的阈值,将所述似然函数和所述线性回归函数进行组合,得到训练分析完成的数据分析模型。
5.一种大数据预分析的装置,其特征在于,包括数据获取模块、数据识别模块、数据聚类模块、数据训练模块、数据分析模块和服务器主体(1),所述数据获取模块用户获取海量的样本数据,所述数据识别模块用于对所述过滤数据集进行聚类,所述数据训练模块将所述标准数据集进行训练分析,所述数据分析模块对待分析数据进行分析输出分析结果,所述服务器主体(1)的内部固定安装有腔体(2),所述腔体(2)的内表面固定安装有第一固定柱(3)和第二固定柱(4),所述第一固定柱(3)位于第二固定柱(4)的一侧,所述第一固定柱(3)和第二固定柱(4)之间设置有若干个连接块(5),所述腔体(2)的内部设置有若干个防护块(6),所述防护块(6)的内表面固定连接有插块(7),所述插块(7)的内部设置有若干个插口(8),若干个所述插口(8)呈等间距排列,所述防护块(6)的内部固定安装有防护板(9),所述防护板(9)与防护块(6)之间设置有卡槽(12),所述防护块(6)的内表面固定安装有第一凸块(10),所述防护板(9)的外表面固定安装有第二凸块(11),所述防护板(9)的内部固定安装有卡块(13),所述卡块(13)的内部设置有若干个隔离块(14),所述卡块(13)的内表面活动连接有转柱(16),所述转柱(16)的外表面活动连接有隔离板(15)。
CN202010394043.8A 2020-05-11 2020-05-11 一种大数据预分析的方法及装置 Pending CN111582390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010394043.8A CN111582390A (zh) 2020-05-11 2020-05-11 一种大数据预分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010394043.8A CN111582390A (zh) 2020-05-11 2020-05-11 一种大数据预分析的方法及装置

Publications (1)

Publication Number Publication Date
CN111582390A true CN111582390A (zh) 2020-08-25

Family

ID=72113378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010394043.8A Pending CN111582390A (zh) 2020-05-11 2020-05-11 一种大数据预分析的方法及装置

Country Status (1)

Country Link
CN (1) CN111582390A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257015A (zh) * 2020-10-28 2021-01-22 华润电力技术研究院有限公司 一种火电机组数据获取方法、系统及数据处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376211A (zh) * 2014-11-14 2015-02-25 合肥工业大学 一种坐标测量机测量不确定度评定方法
CN105069527A (zh) * 2015-07-31 2015-11-18 国家电网公司 一种基于数据挖掘技术的台区合理线损预测方法
CN106932337A (zh) * 2017-05-04 2017-07-07 中交天津港湾工程研究院有限公司 多光纤光栅钢筋腐蚀传感器系统的数据处理方法
CN108549464A (zh) * 2018-01-26 2018-09-18 郑州航空工业管理学院 计算机信息服务器
CN108764984A (zh) * 2018-05-17 2018-11-06 国网冀北电力有限公司电力科学研究院 一种基于大数据的电力用户画像构建方法及系统
CN210351926U (zh) * 2019-04-26 2020-04-17 杭州美创科技有限公司 一种多功能安全服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376211A (zh) * 2014-11-14 2015-02-25 合肥工业大学 一种坐标测量机测量不确定度评定方法
CN105069527A (zh) * 2015-07-31 2015-11-18 国家电网公司 一种基于数据挖掘技术的台区合理线损预测方法
CN106932337A (zh) * 2017-05-04 2017-07-07 中交天津港湾工程研究院有限公司 多光纤光栅钢筋腐蚀传感器系统的数据处理方法
CN108549464A (zh) * 2018-01-26 2018-09-18 郑州航空工业管理学院 计算机信息服务器
CN108764984A (zh) * 2018-05-17 2018-11-06 国网冀北电力有限公司电力科学研究院 一种基于大数据的电力用户画像构建方法及系统
CN210351926U (zh) * 2019-04-26 2020-04-17 杭州美创科技有限公司 一种多功能安全服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋万清 等: "《数据挖掘》", 31 January 2019, 中国铁道出版社 *
李汝勤 等: "《纤维和纺织品测试技术》", 31 March 2015, 东华大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257015A (zh) * 2020-10-28 2021-01-22 华润电力技术研究院有限公司 一种火电机组数据获取方法、系统及数据处理方法
CN112257015B (zh) * 2020-10-28 2023-08-15 华润电力技术研究院有限公司 一种火电机组数据获取方法、系统及数据处理方法

Similar Documents

Publication Publication Date Title
WO2021088385A1 (zh) 一种在线日志解析方法、系统及其电子终端设备
CN117113235B (zh) 一种云计算数据中心能耗优化方法及系统
CN107609105B (zh) 大数据加速结构的构建方法
CN115021679B (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN111800430A (zh) 一种攻击团伙识别方法、装置、设备及介质
CN113723452A (zh) 一种基于kpi聚类的大规模异常检测系统
CN115801412B (zh) 一种电力物联信息网络攻击行为特征的提取方法
CN111582390A (zh) 一种大数据预分析的方法及装置
CN113918642A (zh) 一种基于电力物联网设备的数据过滤监测预警方法
CN112488226A (zh) 一种基于机器学习算法的终端异常行为识别方法
CN113125903A (zh) 线损异常检测方法、装置、设备及计算机可读存储介质
CN115115005A (zh) 一种基于最大密距的Canopy协议识别方法
CN109597901B (zh) 一种基于生物数据的数据分析方法
CN110458094A (zh) 基于指纹相似度的设备分类方法
CN111079809B (zh) 电连接器智能统型方法
CN110659652B (zh) 风机装置Creo模型的特征匹配性检测系统
CN112837754B (zh) 一种基于特征基因的单细胞自动分类方法和装置
CN117370898B (zh) 一种电子数据安全管控系统
CN104484351B (zh) 大数据量号码过滤装置及方法
CN117420345B (zh) 基于数据驱动的电网运行异常状态监测系统
CN117216599B (zh) 一种问卷数据分析方法及系统
CN114386284A (zh) 基于聚类分析与数据融合的模态参数自动识别方法
CN116736091A (zh) 电子系统测试点扩展方法及系统、故障诊断方法及系统
CN114611961A (zh) 基于ai视觉技术的作业人员合规性检测方法
CN117852608A (zh) 基于特征图相关分析的神经网络通道剪枝方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination