一种基于云计算的多维数据分析处理系统及方法
技术领域
本发明涉及数据处理技术领域,具体为一种基于云计算的多维数据分析处理系统及方法。
背景技术
信息时代,数据已经成为了一种生产要素,数据的数量和维度都随着时间急速增长,对于储存海量数据的企业,进行多维数据挖掘,获取出具有高价值的信息是不可或缺的。
云计算支持对海量数据的快速读取和处理,为多维数据的分析处理提供了硬件上的支持,提高了数据使用效率和价值。
企业在开发新产品时所投入的时间和资源往往是盲目的,若仅仅根据以往技术人员的经验来确定投入量,容易出现个人错误判断而产生差错,缺少一种根据以往优秀产品的多维数据,预测出开发同类新产品时所需的各项投入的模型。
发明内容
本发明的目的在于提供一种基于云计算的多维数据分析处理系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于云计算的多维数据分析处理系统,该系统包括多维数据收集模块、多维数据处理模块、辅助模型建立模块和辅助决策输出模块;
多维数据收集模块用于收集被标记产品的所有相关数据,并判断所收集到的数据的格式,将数据分类传输给多维数据处理模块;多维数据处理模块用于接收多维数据收集模块所传输的各类数据,分类转换为统一格式,提取并筛选出目标信息,将目标信息储存起来;辅助模型建立模块用于利用储存的信息建立预测模型;辅助决策输出模块用于基于输入的信息得出结果,辅助管理人员的决策;
多维数据收集模块的输出端电性连接多维数据处理模块的输入端;多维数据处理模块的输出端电性连接辅助模型建立模块的输入端;辅助模型建立模块的输出端电性连接辅助决策输出模块的输入端。
多维数据收集模块包括数据自动采集单元和数据格式判断单元;
数据自动采集单元用于采集被标记产品的所有相关数据;数据格式判断单元用于判断采集到的数据的格式,将数据分为结构化数据、半结构化数据和非结构化数据;数据自动采集单元的输出端电性连接数据格式判断单元的输入端。
自动采集单元采集到的数据按照格式可划分为结构化数据、半结构化数据和非结构化数据,结构化数据储存在数据库的中,以表格和电子表格形式存在,方便数据的提取和使用,半结构化数据和非结构化数据没有固定的结构,一般以图片、视频、语音和文本文件形式存在,无法直接利用;自动采集单元采集到的数据按照产品的生命周期可划分为设计、生产、质检、营销和维护等方面;自动采集单元采集到的数据按照投入类别可划分为时间、人力和资金等方面。
多位数据处理模块包括数据转换单元、信息提取单元和信息储存单元;数据转换单元用于将半结构化数据和非结构化数据转换为结构化数据;信息提取单元用于在结构化数据中识别目标信息,将目标信息提取出来传递给信息储存单元;信息储存单元用于将目标信息归类后储存;数据转换单元的输出端电性连接信息提取单元的输入端,信息提取单元的输出端电性连接信息储存单元的输入端。
对于半结构化数据和非结构化数据,先将图片、视频和语音里的信息转化为文本信息,再利用知识抽取技术,识别出文本中的关键字,抽取关键字之间的语义关系,获得目标信息。
辅助模型建立模块包含数据预处理单元、簇生成单元、预测圆生成单元;数据预处理单元用于对数据进行离群点处理和规范化处理,将数据格式转化为有利于聚类算法处理的格式;簇生成单元用于利用聚类算法获得预测模型的质心;预测圆生成单元用于确定预测圆的圆心和半径,生成预测模型;数据预处理单元的输出端电性连接簇生成单元的输入端,簇生成单元的输出端电性连接预测圆生成单元的输入端。
辅助决策输出模块包含产品开发判断单元和产品成本预测单元;产品开发判断单元用于计算出产品继续开发的整个生命周期时间成本和人力成本超过标记产品生成的预测范围的概率,协助开发管理人员判断产品是否要继续开发;产品成本预测单元用于计算产品在生命周期各阶段的时间和人力成本投入的合理范围。
一种基于云计算的多维数据分析处理方法,该方法包括以下步骤:
S1、系统自主收集现有标记产品的相关数据,标记产品是企业评判出的销量递增的产品,判断数据的格式;
S2、对不同格式的数据进行转化、识别和筛选后获取目标信息,将信息储存;
S3、利用聚类算法生成簇,找出簇的质心;
S4、以簇的质心作为预测圆的圆心,规划预测圆的半径,画出预测圆;
S5、根据预测圆辅助开发管理人员进行决策。
获取的目标信息是要构建预测模型的原始数据,例如某类产品生命周期各阶段的投入的时间成本、人力成本和资金成本等。
在步骤S1-S2中,系统收集被标记产品的各类相关数据,判断数据的格式,将数据分为结构化数据、半结构化数据和非结构化数据;
系统将半结构化数据和非结构化数据转化为结构化数据,从中识别出目标信息后进行筛选,目标信息指的是信息所处阶段、信息所属类别和信息所包含数值都完整的信息。
步骤S3包括如下具体步骤:
S301、从储存的信息中提取聚类算法所需要的信息数据,对数据进行离群点处理,删除异常值,利用最大-最小规范化,对数据进行规范化处理,最大-最小规范化的公式为:
x为规范化前的数据,xnew为规范化后的数据,xmax为数据集的最大值,xmin为数据集的最小值,最大最小规范化将数据映射到[0,1]区间;
聚类结果若受到异常的离群点影响可能导致不是全局最优,删除异常点有利于减少聚类结果的非正常偏移,在处理离群点时,需要注意异常值的真伪,若是特定的业务运营动作产生,是正常反应业务的状态,而不是数据本身的异常,则不必删除;若数据存在正态分布,一般认为偏离均值的3σ之外的点为离群点,也可利用简单统计分析判断离群点。
数据中不同特征的量纲可能不一致,数值间的差别较大,不进行处理会影响数据分析的结果,所以将数据按照一定比例进行缩放,使之落入一个特定的区域之内进行综合分析。
S302、记中心点的值为k,k为整数且k>0,记k个中心点为μ1,μ2,...μk;
S303、定义损失函数如下:
其中xi为第i个样本值,i为整数且i>0,ci为xi所属的簇,为簇代表的中心点,M为样本总数;
S304、对于每一个样本,计算其属于的簇,取样本到中心点的最小值:
argminj||xi-μj||2
其中μj为簇代表的中心点的猜测值,j为整数且j>0;
对于每一个簇,重新计算中心点;
S305、重复步骤S304,直到算法收敛,损失函数取到最小值,确定簇的质心。
簇的质心是样本值的中心点,样本相关属性的平均值,最能够代表样本属性均值的点。
步骤S4包括以下步骤:
S401、以S305中簇的质心作为预测圆的圆心,记预测圆的半径为r,随机选取r的值,画出预测圆,记圆内点的数量为d,d也包含圆上点的数量,计算d与r的比值并记为p;
S402、记除圆心外的每一个样本点到圆心的距离为ri,记ri的数量为n,记ri的平均值为avg,记ri的标准差为s,记ri的标准误差为SE,存在以下公式:
S403、样本点的数量大于30,计算SE,令置信水平为95%,查询标准正态分布概率表求得标准分z,记置信区间的下限值为a,置信区间的上限值为b,存在以下公式:
根据公式求出上限值a和下限值b;
样本点的数量小于或等于30,计算SE,令置信水平为95%,查询t表格求得t值,t表格是学生t-分布的分布概率表,存在以下公式:
根据公式求出上限值a和下限值b;
S404、r在区间[a,b]内取值,计算出令比值p最大的半径rf作为预测圆的半径,画出预测圆。
预测模型需要尽可能表征出样本的特征而不夸大样本的特征,若预测圆的半径过大可以包含所有的样本情况,但是也容易收到个别样本点的影响,导致预测模型的范围过大,无实际价值;若预测圆的半径较小,则无法体现样本的实际属性特征,导致预测模型的范围不准确。
计算每个样本点到圆心的距离作为半径的参考值,将预测圆包含点数的多少问题转化为样本半径的置信区间求解问题,求解置信区间的主要步骤:选择总体统计量、求出样本的平均值和标准误差、确定置信区间水平和求出置信区间的上下限。
当样本值的数量大于30时,认为符合正态分布,利用正态分布求置信区间,当样本值的数量小于或等于30时,认为符合学生t-分布,利用学生t-分布求置信区间,在置信区间内求取尽量包含较多样本点和较少圆内空白部分的预测圆半径。
步骤S5包括以下步骤:
S501、依据存储的目标信息,分别规划出产品生命周期各阶段的时间成本和人力成本的预测圆,在新产品开发过程中,记录样本点在预测圆的右上方的次数Na,右上方是以圆心为坐标原点,划分四个象限,第一象限中圆外的部分,计算出新产品开发耗费的时间成本和人力成本大于标记产品预测范围的概率pr,Nt是新产品的样本点在已往阶段出现的总次数,将pr输出,由开发管理人员判断产品开发是否继续;
S502、对于确定开发的产品,输出S501中产品生命周期各阶段的时间成本和人力成本的预测圆,将预测的成本范围输出。
与现有技术相比,本发明所达到的有益效果是:自动采集被标记产品的多维数据,将半结构化数据和非结构化数据转化为结构化数据,提高了数据的利用率。
对数据进行预处理,提高了聚类算法的准确性,利用聚类算法计算出它们的共同特性,找出中心点作为预测圆圆心,在计算预测圆的半径时,计算每个样本点到圆心的距离作为半径的参考值,将预测圆包含点数的多少问题转化为样本半径的置信区间求解问题,求解置信区间,尽可能表征出样本的特征而不夸大样本的特征。
根据预测模型,可以直观的展现以往标记产品在产品生命周期各阶段的时间和人力成本投入,帮助开发管理人员在进行新产品开发时进行决策。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于云计算的多维数据分析处理系统的流程示意图;
图2是本发明一种基于云计算的多维数据分析处理方法的步骤示意图;
图3是本发明一种基于云计算的多维数据分析处理系统及方法的实施例产品成本数据图;
图4是本发明一种基于云计算的多维数据分析处理系统及方法的实施例产品预处理数据图;
图5是本发明一种基于云计算的多维数据分析处理系统及方法的实施例求解预测模型半径数据图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图2,本发明提供技术方案:一种基于云计算的多维数据分析处理系统,该系统包括多维数据收集模块、多维数据处理模块、辅助模型建立模块和辅助决策输出模块;
多维数据收集模块用于收集被标记产品的所有相关数据,并判断所收集到的数据的格式,将数据分类传输给多维数据处理模块;多维数据处理模块用于接收多维数据收集模块所传输的各类数据,分类转换为统一格式,提取并筛选出目标信息,将目标信息储存起来;辅助模型建立模块用于利用储存的信息建立预测模型;辅助决策输出模块用于基于输入的信息得出结果,辅助管理人员的决策;
多维数据收集模块的输出端电性连接多维数据处理模块的输入端;多维数据处理模块的输出端电性连接辅助模型建立模块的输入端;辅助模型建立模块的输出端电性连接辅助决策输出模块的输入端。
多维数据收集模块包括数据自动采集单元和数据格式判断单元;
数据自动采集单元用于采集被标记产品的所有相关数据;数据格式判断单元用于判断采集到的数据的格式,将数据分为结构化数据、半结构化数据和非结构化数据;数据自动采集单元的输出端电性连接数据格式判断单元的输入端。
自动采集单元采集到的数据按照格式可划分为结构化数据、半结构化数据和非结构化数据,结构化数据储存在数据库的中,以表格和电子表格形式存在,方便数据的提取和使用,半结构化数据和非结构化数据没有固定的结构,一般以图片、视频、语音和文本文件形式存在,无法直接利用;自动采集单元采集到的数据按照产品的生命周期可划分为设计、生产、质检、营销和维护等方面;自动采集单元采集到的数据按照投入类别可划分为时间、人力和资金等方面。
多位数据处理模块包括数据转换单元、信息提取单元和信息储存单元;数据转换单元用于将半结构化数据和非结构化数据转换为结构化数据;信息提取单元用于在结构化数据中识别目标信息,将目标信息提取出来传递给信息储存单元;信息储存单元用于将目标信息归类后储存;数据转换单元的输出端电性连接信息提取单元的输入端,信息提取单元的输出端电性连接信息储存单元的输入端。
辅助模型建立模块包含数据预处理单元、簇生成单元、预测圆生成单元;数据预处理单元用于对数据进行离群点处理和规范化处理,将数据格式转化为有利于聚类算法处理的格式;簇生成单元用于利用聚类算法获得预测模型的质心;预测圆生成单元用于确定预测圆的圆心和半径,生成预测模型;数据预处理单元的输出端电性连接簇生成单元的输入端,簇生成单元的输出端电性连接预测圆生成单元的输入端。
辅助决策输出模块包含产品开发判断单元和产品成本预测单元;产品开发判断单元用于计算出产品继续开发的整个生命周期时间成本和人力成本超过标记产品生成的预测范围的概率,协助开发管理人员判断产品是否要继续开发;产品成本预测单元用于计算产品在生命周期各阶段的时间和人力成本投入的合理范围。
一种基于云计算的多维数据分析处理方法,该方法包括以下步骤:
S1、系统自主收集现有标记产品的相关数据,标记产品是企业评判出的销量递增的产品,判断数据的格式;
S2、对不同格式的数据进行转化、识别和筛选后获取目标信息,将信息储存;
S3、利用聚类算法生成簇,找出簇的质心;
S4、以簇的质心作为预测圆的圆心,规划预测圆的半径,画出预测圆;
S5、根据预测圆辅助开发管理人员进行决策。
在步骤S1-S2中,系统收集被标记产品的各类相关数据,判断数据的格式,将数据分为结构化数据、半结构化数据和非结构化数据;
系统将半结构化数据和非结构化数据转化为结构化数据,从中识别出目标信息后进行筛选,目标信息指的是信息所处阶段、信息所属类别和信息所包含数值都完整的信息。
步骤S3包括如下具体步骤:
S301、从储存的信息中提取聚类算法所需要的信息数据,对数据进行离群点处理,删除异常值,利用最大-最小规范化,对数据进行规范化处理,最大-最小规范化的公式为:
x为规范化前的数据,xnew为规范化后的数据,xmax为数据集的最大值,xmin为数据集的最小值,最大最小规范化将数据映射到[0,1]区间;
S302、记中心点的值为k,k为整数且k>0,记k个中心点为μ1,μ2,...μk;
S303、定义损失函数如下:
其中xi为第i个样本值,i为整数且i>0,ci为xi所属的簇,为簇代表的中心点,M为样本总数;
S304、对于每一个样本,计算其属于的簇,取样本到中心点的最小值:
argminj||xi-μj||2
其中μj为簇代表的中心点的猜测值,j为整数且j>0;
对于每一个簇,重新计算中心点;
S305、重复步骤S304,直到算法收敛,损失函数取到最小值,确定簇的质心。
步骤S4包括以下步骤:
S401、以S305中簇的质心作为预测圆的圆心,记预测圆的半径为r,随机选取r的值,画出预测圆,记圆内点的数量为d,d也包含圆上点的数量,计算d与r的比值并记为p;
S402、记除圆心外的每一个样本点到圆心的距离为ri,记ri的数量为n,记ri的平均值为avg,记ri的标准差为s,记ri的标准误差为SE,存在以下公式:
S403、样本点的数量大于30,计算SE,令置信水平为95%,查询标准正态分布概率表求得标准分z,记置信区间的下限值为a,置信区间的上限值为b,存在以下公式:
根据公式求出上限值a和下限值b;
样本点的数量小于或等于30,计算SE,令置信水平为95%,查询t表格求得t值,t表格是学生t-分布的分布概率表,存在以下公式:
根据公式求出上限值a和下限值b;
S404、r在区间[a,b]内取值,计算出令比值p最大的半径rf作为预测圆的半径,画出预测圆。
步骤S5包括以下步骤:
S501、依据存储的目标信息,分别规划出产品生命周期各阶段的时间成本和人力成本的预测圆,在新产品开发过程中,记录样本点在预测圆的右上方的次数Na,右上方是以圆心为坐标原点,划分四个象限,第一象限中圆外的部分,计算出新产品开发耗费的时间成本和人力成本大于标记产品预测范围的概率pr,Nt是新产品的样本点在已往阶段出现的总次数,将pr输出,由开发管理人员判断产品开发是否继续;
S502、对于确定开发的产品,输出S501中产品生命周期各阶段的时间成本和人力成本的预测圆,将预测的成本范围输出。
实施例:
如图3所示,系统将产品信息数据转化为统一格式并筛选后,从中获取A类产品在设计阶段所投入的时间成本数据和人力成本数据,可以发现存在异常点A5和A9,将A5和A9的数据剔除。
如图4所示,将剩下的数据进行规范化,例如A1的时间成本规范化后为:A1的人力成本规范化后为:/>将A1到A18数据规范化之后传输给辅助模型建立模块。
令K=1,利用聚类算法进行聚类,找出聚类的质点A2,如图5所示,计算出其余样本点到A2的距离作为半径参考值,计算出平均值avg、标准差s和标准误差SE。
样本点小于30,属于学生t-分布,查询分布概率表,可知t值为2.262,由以下公式:
计算在区间内的样本点的比值p,找到最适半径rf,画出预测圆,输出A类产品在设计阶段的时间成本和人力成本预测范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。