CN110457360A - 一种基于数据挖掘的建模方法及系统 - Google Patents

一种基于数据挖掘的建模方法及系统 Download PDF

Info

Publication number
CN110457360A
CN110457360A CN201910528701.5A CN201910528701A CN110457360A CN 110457360 A CN110457360 A CN 110457360A CN 201910528701 A CN201910528701 A CN 201910528701A CN 110457360 A CN110457360 A CN 110457360A
Authority
CN
China
Prior art keywords
data
object module
source data
dependent variable
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910528701.5A
Other languages
English (en)
Inventor
汪尚
闫秀媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yilaixin Technology Co Ltd
Original Assignee
Beijing Yilaixin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yilaixin Technology Co Ltd filed Critical Beijing Yilaixin Technology Co Ltd
Priority to CN201910528701.5A priority Critical patent/CN110457360A/zh
Publication of CN110457360A publication Critical patent/CN110457360A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于数据挖掘的建模方法及系统,该技术方案中对有建模需求的源数据进行分析,确定源数据集中所有源数据的数据类型和数据角色,然后基于源数据的数据类型和数据角色利用预设的模型库推荐目标模型的模型类型和模型表达式,进而利用各角色源数据对应的数据值计算确定目标模型的最终表达式。采用本发明的技术方案,能够克服现有的建模方案对使用人员技术要求过高,实用性不足的缺陷,本发明的建模方法面向所有需要对数据构建模型的用户,建模时用户可以自行选择模型的因变量和自变量,灵活性更高,在降低用户操作复杂度的基础上保证了模型构建结果的精确性。

Description

一种基于数据挖掘的建模方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于数据挖掘的建模方法及系统。
背景技术
随着各领域获取数据的技术愈加先进,各个领域都包含了海量的技术数据,但是仅根据源数据难以对领域技术的状态进行全面、系统的评估,也无法实现数据预测,这就需要采取某些手段以源数据为基础构建相应的模型,通过化繁为简以加强对数据资源的分析深度,形成比较完善的数据分析手段。例如医学研究领域,历史的数据资源丰富,但是面对原始的医疗数据却无法获取可靠的借鉴依据,并不能对各类病患的优化治疗提供支持,这种情况下就需要基于原始的历史医疗数据进行数据挖掘,构建科学合理的模型。
然而,在实际的数据挖掘技术中,要想对批量数据进行高效运算或者实现数据的预测就需要根据批量数据构建模型,现有的数据挖掘建模方式或工具多为基于已知的自变量、因变量和模型类型进行学习和训练,实现对应模型的选择和构建,尤其是具有多个自变量的模型,现有的技术手段无法直接根据在未知模型类型的情况下实现模型的构建,且现有技术若要确保构建的模型有效,须执行者对建模数据和模型特征等知识具有相当程度的了解,实用性有很大的局限。
发明内容
为解决上述问题,本发明提供了一种基于数据挖掘的建模方法,在一个实施例中,所述方法包括:
步骤S1、获取有建模需求的源数据集;
步骤S2、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;
步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;
步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。
优选地,所述数据角色包括:因变量、自变量和次要数据。
优选地,在所述步骤S2中,具体包括:
对源数据集进行分析,确定源数据集中所有源数据的数据类型;
根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据;
若包含,则分别选取角色为因变量的源数据和角色为自变量的源数据;若不包含,则选取角色为自变量的源数据。
优选地,在所述步骤S4中,按照如下步骤计算获取各目标模型的最终表达式:
步骤A1、若目标模型的算法类型为监督式,模型类型为指数平滑模型,则由用户输入设定的平滑常数β,并通过下式获取目标模型的最终表达式:
ya=βxa+(1-β)ya-1
其中,a∈[1,n],y0=x1
步骤A2、若目标模型的算法类型为监督式,模型类型为逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
通过令如下等式成立确定针对类别t的模型参数向量βt的估计值并根据模型参数向量的估计值确定目标模型的表达式;
其中,
式中,xa为自变量数据中第a条记录对应的自变量向量,xaρ为第a条记录对应的自变量数据矩阵的转置矩阵,为针对类别t的模型参数向量估计值向量矩阵转置矩阵,ya为第a条记录对应的因变量数据,yta *为第a条记录对应的因变量数据针对类别t的所属结果;t∈(1,T);
步骤A3、若目标模型的算法类型为监督式,模型类型不为指数平滑模型或逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值;
根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式;
步骤A4、若目标模型的算法类型为非监督式,则由用户指定需求的聚类数量K,根据所述聚类数量确定K个聚类中心,并通过下式确定最终的模型聚类结果:
其中,μl是类别Cl的聚类中心,第a条记录中的自变量数据xa属于类别Cl,l∈[1,K],d(xa,μl)表示第a条记录的自变量数据在D个维度上分别与类别Cl类中心的距离的平方和,xam代表xa在第m个维度上的数值,m和D取正整数,m∈[1,D]。
进一步地,在所述步骤A2中,通过下式根据模型参数向量的估计值确定目标模型的表达式:
其中,
式中,表示逻辑回归模型的最终因变量类别结果,T为因变量数据对应的总类别数量,为因变量y的第a个元素属于第t个类别的概率,为y的第a个元素属于第T个类别的概率。
进一步地,在所述步骤A3中,根据目标模型的模型类型建立源数据集对应的自变量数据矩阵,包括:
若目标模型的类型为多项式回归,由于只有一个自变量,则建立目标模型源数据集对应的自变量数据回归设计矩阵Xi如下:
Xi=[1 x1 x2… xn]
其中,xa表示第a条记录中自变量x的值,n为自变量源数据集中记录的条数;
否则,建立目标模型源数据集对应的自变量源数据矩阵Xj如下;
其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量,a∈[1,n],b∈[1,p]。
进一步地,在所述步骤A3中,利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值,包括:
若目标模型的模型类型为多项式回归,则按下式计算模型参数向量的估计值
若目标模型的模型类型为指数回归,则按下式计算模型参数向量的估计值
若目标模型的模型类型为对数回归,则按下式计算模型参数向量的估计值
若目标模型的模型类型为线性回归,则按下式计算模型参数向量的估计值
其中,当目标模型的模型类型为指数回归时,则因变量向量y中的所有元素均大于0,当目标模型的模型类型为对数回归时,要求自变量数据矩阵Xj中的各元素均大于0,即xab>0;Xi'为自变量数据矩阵Xi的转置矩阵,Xj'为自变量数据矩阵Xj的转置矩阵,X-1表示矩阵X的逆矩阵,向量y=(y1,y2,...,yn)',表示所有记录的因变量源数据。
在另一个实施例中,在所述步骤S4之后还包括:
步骤B1、对于算法类型为监督式的目标模型,选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值;
对于算法类型为非监督式的目标模型,分别计算各目标模型对应分组结果组间数据和组内数据间的欧氏距离;
步骤B2、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据计算得到的因变量估计值和样本因变量实际值计算各个目标模型的拟合优度和均方误差;
若目标模型的因变量为分类型数据,则根据所述因变量估计值与样本因变量实际值确定估计结果的准确率;
对于算法类型为非监督式的目标模型,以组间数据距离越大,组内数据距离越大为标准对所述目标模型进行评估;
步骤B3、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据拟合优度和均方误差对各目标模型进行评估;
若目标模型的因变量为分类型数据,则以所述估计结果的准确率最高为标准对各目标模型进行评估。
其中,在所述步骤B3中,根据拟合优度和均方误差对各目标模型进行评估,包括:
将各目标模型根据其对应的拟合优度按照从大到小的顺序排列;
若存在拟合优度相等或拟合优度差值小于预设模糊额度的目标模型,将均方误差值较小的目标模型列于前排;
选取排序位于第一或前N的目标模型作为最终优选的目标模型。
基于上述实施例,本发明还提供一种基于数据挖掘的建模系统,该系统执行上述实施例一和实施例二中所述方法的步骤。
具体的,所述系统包括:数据获取模块,其设置为获取有建模需求的源数据集;
数据分析模块,其设置为对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;
模型推荐模块,其设置为利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;
模型确定模块,其设置为利用各角色源数据对应的数据值计算获取各目标模型的最终表达式;
模型评估模块,其设置为对于算法类型为监督式的目标模型,选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值;
对于算法类型为非监督式的目标模型,分别计算各目标模型对应分组结果组间数据和组内数据间的欧氏距离;
对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据计算得到的因变量估计值和样本因变量实际值计算各个目标模型的拟合优度和均方误差;
若目标模型的因变量为分类型数据,则根据所述因变量估计值与样本因变量实际值确定估计结果的准确率;
对于算法类型为非监督式的目标模型,以组间数据距离越大,组内数据距离越大为标准对所述目标模型进行评估;
对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据拟合优度和均方误差对各目标模型进行评估;
若目标模型的因变量为分类型数据,则以所述估计结果的准确率最高为标准对各目标模型进行评估。
与最接近的现有技术相比,本发明还具有如下有益效果:
本发明提供的基于数据挖掘的建模方法通过分析源数据集中所有源数据的数据类型和数据角色,然后利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式,进而利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。本发明的建模过程中,用户可以根据需求选取因变量数据和自变量数据,然后根据源数据的数据类型这一基本特征就可以获取预设模型库提供的适用目标模型,有效克服了现有技术中对用户专业知识要求过高,实用性不足的缺陷;同时,用户可以对所有目标模型或从目标模型中选取若干模型进行参数计算,获取目标模型的最终表达式,该方案适用于一维或多维的多种模型,保证了模型构建结果的可靠性和实用性,同时降低了用户的操作复杂度,大大降低了因模型不适用导致建模操作失效的概率,有利于基于数据挖掘技术开展对数据的优化分析。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例一的基于数据挖掘的建模方法的流程示意图;
图2是本发明实施例二的基于数据挖掘的建模方法的流程示意图;
图3是本发明实施例三的基于数据挖掘的建模系统的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
现有的数据挖掘建模方式多为基于已知的自变量、因变量和模型类型进行学习和训练,实现对应模型的构建,尤其是具有多个自变量的模型,现有的技术手段无法直接根据源数据实现模型的选择和构建,而实际工作中,有时候需要输入不止一个自变量,例如为了获取更可靠的预测结果,同时结合孩子父亲、母亲的身高和孩子的饮食习惯等来对孩子的身高进行预测,这种情况下使用现有工具(如Excel)的图形建模功能并不能很好地实现,且现有技术若要确保构建的模型有效须执行者对建模数据和模型特征等知识具有相当程度的了解,实用性不足。
为解决上述问题,本发明提供一种基于数据挖掘的建模方法,下面参考附图对本发明各个实施例进行说明。
实施例一
图1示出了本发明实施例一中基于数据挖掘的建模方法的流程示意图,参照图1可知,该方法包括以下步骤:
步骤S110、获取有建模需求的源数据集;该步骤中由用户获取所有可能进入模型的数据,作为源数据集,以便于后续对源数据展开分析和进一步操作,在此之后包括:步骤S120、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色。用户对源数据集中的各个源数据进行遍历分析,明确各个源数据的基本特征,包括数据类型和数据角色;
其中,数据类型包括数值型和分类型,数值型数据中包括:数值型截面数据和数值型时序数据;例如表征各位患者钾元素含量的源数据数据类型为数值型,具体为数值型截面数据,表征某地区每年GDP水平的源数据是数值型时序数据,表征患者性别的源数据名称是性别,其数据类型为分类型,分析确定的数据角色包括:因变量、自变量和次要数据,其中角色为因变量的数据表示作为模型因变量的数据,角色为自变量的数据表示作为模型自变量的数据,其它的数据则为次要数据。
上述方案中,同一数据针对不同的目标模型角色不一定相同,此外,源数据的数据类型是静态不可变参数,但是数据的角色可由用户根据实际需求设定或调整。
具体的,通过以下操作确定源数据的数据角色:
对源数据集进行分析,确定源数据集中所有源数据的数据类型后,根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据;若包含,则分别选取角色为因变量的源数据和角色为自变量的源数据;否则,选取角色为自变量的源数据。
在上述方案中,作为自变量的源数据和作为因变量的源数据由用户根据实际需求选取,是可以进行增删和替换的。实际应用中,该方案不仅适用于算法类型为监督式的模型构建,也适用于仅包含自变量数据的非监督式算法模型。如本实施例中可以选取数值型数据钾含量数据作为因变量,选取两个自变量,分别为血压数据和钠含量数据,其中血压数据可以表征为数值型数据,也可以表征为分类型字段,钠含量数据表征为数值型字段。
明确各源数据的数据类型和数据角色后,可以利用预设的模型库以数据类型和数据角色为匹配依据,搜索合理的模型推荐结果,进而计算推荐目标模型的参数确定最终的模型表达式,这样即使是专业知识有限的用户也可以避免构建适用性过差的模型。具体通过以下步骤实现:
步骤S130、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;其中,预设的模型库中预存有所有待推荐模型的模型类型、模型算法类别、模型的表达式和对应的适用条件;
在该步骤中,用户将自变量角色对应的数据类型和数量作为预设数据库的输入,目的为从模型库中搜索能够满足建模需求的模型,此处的建模需求为根据两个输入的自变量(钠含量数据和血压数据)的值对因变量钾含量进行预测,完成模型库搜索之后,系统会返回并展示一个或多个与数据类型相匹配、适用于当前场景的目标模型供用户进行选择,具体为向用户展示适用模型的模型类型和模型表达式,用户可以选择全部模型或其中的一个或几个,如上述案例可供选择的模型至少包括线性回归模型、指数回归模型和对数回归模型。
下述示例中提供的模型主要包括用于趋势预测与常用回归分析的模型,如算法类别为监督式的线性回归模型、指数回归模型、对数回归模型、多项式回归模型、逻辑回归模型、指数平滑模型和算法类别为非监督式的K-means聚类模型等,部分待推荐模型及适用条件如下表所示:
表1模型库模型数据表格
根据上述表格中的信息可知,模型库中的模型主要涉及两种算法类型,分别是监督式算法和非监督式算法,其中,监督式算法中,针对分类型因变量的模型有逻辑回归,表中各模型中除了多项式回归和指数平滑模型只能选择一个自变量以外,其他模型都可以选择一个或者多个自变量进入模型运算,而时序型数据的监督式模型在此表中只适用于指数平滑模型。
用户从模型库推荐的模型选取一个或多个模型作为最终的目标模型,根据用户的选择,从模型库中调用对应模型和模型的默认表达式,但要获取完整的建模结果,还需要计算目标模型表达式中参数的值,在这里我们利用源数据集中对应的源数据数值进行计算,因此有以下步骤:
步骤S140、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式,具体的,根据目标模型的算法类型和模型类型,结合角色为因变量的源数据值和角色为自变量的源数据值计算模型的参数并确定目标模型的最终表达式,分别按照以下步骤计算各目标模型的参数:
步骤A1、若目标模型的算法类型为监督式,模型类型为指数平滑模型,则由用户输入设定的平滑常数β,并通过下式(1)获取目标模型的最终表达式:
ya=βxa+(1-β)ya-1 (1)
其中,a∈[1,n],y0=x1;当目标模型的模型类型为指数平滑模型时,则不需要估计任何参数,只需要用户自己预先指定一个β值作为平滑常数,则通过上述公式(1)对每个时间点的数据进行预测。
步骤A2、若目标模型的算法类型为监督式,模型类型为逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
具体的,建立目标模型源数据集对应的自变量源数据矩阵Xj如下;
其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量,a∈[1,n],b∈[1,p]。
通过令如下等式(2)成立确定针对类别t的模型参数向量βt的估计值
在进行下一步运算之前,需要将因变量向量y转换成T-1个向量y1 *,,y2 *,…,其中,
也就是说yt *的每一个元素yta*表示该因变量是否属于第t类,如果属于则yta*为1,如果不属于则显示为0。转换之后的T-1个因变量,分别为针对每一个类别的因变量,代表其属于的类别结果。
上式中,xa是自变量数据中第a条记录对应的自变量向量,在一个优选的例子中,xa表示n位患者中第a位患者的自变量数据向量,xa′为第a条记录对应的自变量数据矩阵的转置矩阵,包括p个自变量,即自变量数据矩阵中第a行数据,表示针对类别t的模型参数向量估计值向量矩阵转置矩阵,ya表示第a条记录对应的因变量数据,yta *表示第a条记录对应的因变量数据针对类别t的所属结果,即第a条记录对应的因变量是否属于类别t,所属结果yta *为1时,表示第a条记录对应的因变量ya属于类别t,所属结果yta *为0时,表示第a条记录对应的因变量ya不属于类别t。
进一步地,将代入以下公式,确定目标模型的表达式:
其中,
式中,表示逻辑回归模型的最终因变量类别结果,t∈(1,T),即t=(1,2,…,T-1),T为因变量数据对应的总类别数,T取正整数,为因变量y的第a个元素属于第t个类别的概率,为y的第a个元素属于第T个类别的概率。
具体的,对于每一个类别t,分别通过公式(2)得到后,将代入公式(5)中,得到y的第a个元素属于类别t的概率,其中t=1,2,…,T-1。而对于第T类,则利用上述公式(6)开展计算确定y的第a个元素属于类别T的概率。
基于(5)和(6)确定因变量y的第a个元素属于各类别的概率后,通过以下公式可以对因变量的每个元素所属于的类别进行估计,即确定目标模型的上述最终表达式(4)。
也就是说,逻辑回归关于第a条记录的最终结果为第a条记录对应的因变量向量y的所属类别t,即第a条记录对应因变量向量y发生概率最大的那个类别。
需要说明的是,对于类型为逻辑回归的目标模型,其最终因变量结果表示各条记录对应因变量数据所属的类别,例如,级别为高、中、低。假如因变量涉及的类别一共有T类的话,则y=(y1,y2,…,yn)’,其中,表示其所属的类别t,a∈[1,n],
步骤A3、若目标模型的算法类型为监督式,模型类型不为指数平滑模型或逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
在步骤A3中,根据目标模型的模型类型建立源数据集对应的自变量数据矩阵,包括:
若目标模型的类型为多项式回归,由于只有一个自变量,则建立目标模型源数据集对应的自变量数据回归设计矩阵Xi如下:
Xi=[1 x1 x2 ... xn]
其中,xa表示第a条记录中自变量x的值,n为自变量源数据集中记录的条数,如一个优选的例子中,共n名患者,自变量向量xa表示第a名患者的自变量数据。在关于根据患者钠含量预测钾含量的多项式回归模型中,自变量为数值型截面数据,其xa表示第a位患者数据记录中自变量钠含量的值,n表示源数据中患者的数量。在根据某地区的上一年的GDP数据预测今年该地区GDP数据的指数平滑模型中,自变量为数值型时序数据,其xa表示该地区上一年某时段的GDP数据观测值,n表示开展分析的时段总数,因变量为今年该地区各个时段的GDP数据预测值。
否则,建立目标模型源数据集对应的自变量源数据矩阵Xj如下;
其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量,a∈[1,n],b∈[1,p]。
对于算法类型为监督式的目标模型中,除了指数平滑和逻辑回归模型,在确定了目标模型对应的自变量数据矩阵后,要获得最终的建模结果,需要根据自变量数据矩阵和目标模型的类型确定其参数。假设向量y=(y1,y2,...,yn)'是自变量对应的n个因变量数据,例如n个患者的钾的水平,向量β=(β01,...,βp)'是模型中未知的参数。在上述步骤A3中,利用自变量数据矩阵和目标模型的类型计算模型参数向量的估计值,包括以下操作:
若目标模型的模型类型为多项式回归,则按下式(7)计算模型参数向量的估计值
若目标模型的模型类型为指数回归,则按下式(8)计算模型参数向量的估计值
若目标模型的模型类型为对数回归,则按下式(9)计算模型参数向量的估计值
若目标模型的模型类型为线性回归,则按下式(10)计算模型参数向量的估计值
其中,当目标模型的模型类型为指数回归时,则因变量向量y中的所有元素均大于0,当目标模型的模型类型为对数回归时,要求回归设计矩阵Xj中的各元素均大于0,即xab>0;Xi'为自变量数据矩阵Xi的转置矩阵,Xj'为自变量数据矩阵Xj的转置矩阵,X-1表示矩阵X的逆矩阵,向量y=(y1,y2,...,yn)',表示所有记录的因变量源数据。
运算成功后返回对于模型参数的估计(如β、β0、β1、β2…等参数),即根据参数值和表1中的模型表达式得到自变量和因变量之间关系的估计,有如下步骤:
利用自变量数据矩阵和目标模型的类型计算模型参数向量的估计值。根据模型参数向量的估计值返回获得目标模型的估计参数值,将估计参数值代入目标模型的表达式中确定目标模型的最终表达式;
步骤A4、若目标模型的算法类型为非监督式,则由用户指定需求的聚类数量K,根据聚类数量确定K个聚类中心,并通过下式(11)确定最终的模型聚类结果:
其中,μl是类别Cl的聚类中心,第a条记录中的自变量数据xa属于类别Cl,l∈[1,K],d(xa,μl)表示第a条记录的自变量数据在D个维度上分别与类别Cl类中心的欧氏距离的平方和,xam代表xa在第m个维度上的数值,m和D取正整数,m∈[1,D]。
该步骤中,在确定了用户指定的聚类数量K之后,即需要将n条记录的所有数据Ω分为C1,C2,…,CK共K类,K取正整数,即其中,Ω表示待分类的所有数据,Cl表示第l个类别。需要找到合适的分类方式,使得上述公式(11)成立(使类别内所有的点与其聚类中心的欧氏距离之和最小)。
采用该实施例的技术手段,获取原始的源数据集后,分析确定源数据数据类型和数据角色,进而利用预设的模型库根据用户选择的角色为因变量和自变量的数据对应的数据类型推荐适用的目标模型,并通过参数计算获取最终的目标模型表达式。采用这样的设计,有数据挖掘需求的普通用户就可以基于原始的源数据构建可靠性有保障的模型,在建模的过程中,由预设的模型库根据因变量和自变量数据的数据类型向用户推荐适用性较高的可选模型,用户只需要根据需求选择即可,即使是缺乏数据挖掘专业知识的用户也不必担心构建的模型不可用,很大程度上提升了本发明技术方案的实用性。
实施例二
图2示出了本发明实施例二的基于数据挖掘的建模方法的流程示意图,下面参照图2对基于数据挖掘的建模方法的流程进行说明。根据图3中透漏的信息可知,本发明实施例二的技术方案中在步骤S140之后还可以包括以下步骤,鉴于其他步骤与上述实施例的执行方法类似,此处不再进行赘述,仅对区别特征进行说明。
本发明实施例在步骤S140之后,还可以包括:
步骤S210,对于算法类型为监督式的目标模型,选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值;
对于算法类型为非监督式的目标模型,分别计算各目标模型对应分组结果组间数据和组内数据间的欧氏距离;
步骤S210、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据计算得到的因变量估计值和样本因变量实际值计算各个目标模型的拟合优度和均方误差;
其中,拟合优度用于表征估计出来的监督式因变量为数值型的目标模型对于实际观测到数据的解释程度,该指标为0到1之间,且越接近1表示模型拟合的越好,例如R2=0.69,同时均方误差,是由模型预测得到的因变量预测值与实际观测到的因变量取值之间差异程度的一种度量,也是因变量为数值型的目标模型准确度的一种度量,用于评价模型的模拟效果,其取值大于0,且越小表示模型越精准。
若目标模型的因变量为分类型数据,则根据因变量估计值与样本因变量实际值确定估计结果的准确率;
对于算法类型为非监督式的目标模型,以组间数据距离越大,组内数据距离越大为标准对目标模型进行评估;
对于算法类型为监督式的目标模型,选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值;对于算法类型为非监督式算法类型为监督式的目标模型,计算各目标模型对应分组结果组间和组内数据间的欧氏距离作为评估系数。其中,欧氏距离用于检测非监督式目标模型分组数据或聚合数据的关联效果,组内距离越小,组间距离越大说明分组效果越好;
步骤S230、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据拟合优度和均方误差对各目标模型进行评估;
若目标模型的因变量为分类型数据,则以估计结果的准确率最高为标准对各目标模型进行评估。
具体地,在根据拟合优度和均方误差对各目标模型进行评估的步骤中,包括以下操作:
将各目标模型根据其对应的拟合优度按照从大到小的顺序排列;
若存在拟合优度相等或拟合优度差值小于预设模糊额度的目标模型,将均方误差值较小的目标模型列于前排;
选取排序位于第一或前N的目标模型作为最终优选的目标模型。
其中,N的取值由用户根据实际需求和模型库推荐模型的情况进行设定。采用该实施例的技术手段,在获得了若干有效目标模型的表达式后,基于样本实际数据结合目标模型的预测数据值计算评估依据,进而对获得的目标模型进行评估,确定目标模型的精确性,有助于用户获得效果最佳、预测结果精确度最高的模型结果。
实施例三
基于上述实施例中的技术手段,本发明还提供一种基于数据挖掘的建模系统,该系统用于执行上述实施例一和实施例二中的步骤。图3示出了本发明实施例三的基于数据挖掘的建模系统30的结构示意图,下面结合图3对该建模系统的结构进行说明。如图3所示,该系统包括:
数据获取模块302,其用于获取有建模需求的源数据集;
数据分析模块304,其用于对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;
模型推荐模块306,其用于利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;
模型确定模块308,其用于利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。
模型评估模块310,其设置为分别对于算法类型为监督式的目标模型,选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值;
对于算法类型为非监督式的目标模型,分别计算各目标模型对应分组结果组间数据和组内数据间的欧氏距离;
对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据计算得到的因变量估计值和样本因变量实际值计算各个目标模型的拟合优度和均方误差;
若目标模型的因变量为分类型数据,则根据因变量估计值与样本因变量实际值确定估计结果的准确率;
对于算法类型为非监督式的目标模型,以组间数据距离越大,组内数据距离越大为标准对目标模型进行评估;
对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据拟合优度和均方误差对各目标模型进行评估;
若目标模型的因变量为分类型数据,则以估计结果的准确率最高为标准对各目标模型进行评估。
本发明实施例提供的基于数据挖掘的建模系统能够实现基于原始数据快速构建满足用户需求的模型,构建模型的过程中,用户可以自主选择和调整因变量数据和自变量数据,进而由模型库推荐适用的可选模型,避免了用户因缺少数据挖掘领域专业知识构建无效模型的情况,保障了本发明建模系统的实用性。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而不意味着限制。
说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特征包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种基于数据挖掘的建模方法,其特征在于,所述方法包括:
步骤S1、获取有建模需求的源数据集;
步骤S2、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;
步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;
步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。
2.如权利要求1所述的方法,其特征在于,所述数据角色包括:因变量、自变量和次要数据。
3.如权利要求1或2所述的方法,其特征在于,在所述步骤S2中,具体包括:
对源数据集进行分析,确定源数据集中所有源数据的数据类型;
根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据;
若包含,则分别选取角色为因变量的源数据和角色为自变量的源数据;若不包含,则选取角色为自变量的源数据。
4.如权利要求1~3所述的方法,其特征在于,在所述步骤S4中,按照如下步骤计算获取各目标模型的最终表达式:
步骤A1、若目标模型的算法类型为监督式,模型类型为指数平滑模型,则由用户输入设定的平滑常数β,并通过下式获取目标模型的最终表达式:
ya=βxa+(1-β)ya-1
其中,a∈[1,n],y0=x1
步骤A2、若目标模型的算法类型为监督式,模型类型为逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
通过令如下等式成立确定针对类别t的模型参数向量βt的估计值并根据模型参数向量的估计值确定目标模型的表达式;
其中,
式中,xa为自变量数据中第a条记录对应的自变量向量,xa′为第a条记录对应的自变量数据矩阵的转置矩阵,为针对类别t的模型参数向量估计值向量矩阵转置矩阵,ya为第a条记录对应的因变量数据,yta *为第a条记录对应的因变量数据针对类别t的所属结果;t∈(1,T);
步骤A3、若目标模型的算法类型为监督式,模型类型不为指数平滑模型或逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值;
根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式;
步骤A4、若目标模型的算法类型为非监督式,则由用户指定需求的聚类数量K,根据所述聚类数量确定K个聚类中心,并通过下式确定最终的模型聚类结果:
其中,μl是类别Cl的聚类中心,第a条记录中的自变量数据xa属于类别Cl,l∈[1,K],d(xa,μl)表示第a条记录的自变量数据在D个维度上分别与类别Cl类中心的距离的平方和,xan代表xa在第m个维度上的数值,m和D取正整数,m∈[1,D]。
5.如权利要求4所述的方法,其特征在于,在所述步骤A2中,通过下式根据模型参数向量的估计值确定目标模型的表达式:
其中,
式中,表示逻辑回归模型的最终因变量类别结果,T为因变量数据对应的总类别数量,为因变量y的第a个元素属于第t个类别的概率,为y的第a个元素属于第T个类别的概率。
6.如权利要求4所述的方法,其特征在于,在所述步骤A3中,根据目标模型的模型类型建立源数据集对应的自变量数据矩阵,包括:
若目标模型的类型为多项式回归,由于只有一个自变量,则建立目标模型源数据集对应的自变量数据回归设计矩阵Xi如下:
Xi=[1 x1 x2 … xn]
其中,xa表示第a条记录中自变量x的值,n为自变量源数据集中记录的条数;
否则,建立目标模型源数据集对应的自变量源数据矩阵Xj如下;
其中,xab代表第a条记录的第b个自变量的数据值,n为自变量源数据集中记录的条数,p为各条记录具有的自变量的数量,a∈[1,n],b∈[1,p]。
7.如权利要求6所述的方法,其特征在于,在所述步骤A3中,利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值,包括:
若目标模型的模型类型为多项式回归,则按下式计算模型参数向量的估计值
若目标模型的模型类型为指数回归,则按下式计算模型参数向量的估计值
若目标模型的模型类型为对数回归,则按下式计算模型参数向量的估计值
若目标模型的模型类型为线性回归,则按下式计算模型参数向量的估计值
其中,当目标模型的模型类型为指数回归时,则因变量向量y中的所有元素均大于0,当目标模型的模型类型为对数回归时,要求自变量数据矩阵Xj中的各元素均大于0,即xab>0;Xi'为自变量数据矩阵Xi的转置矩阵,Xj'为自变量数据矩阵Xj的转置矩阵,X-1表示矩阵X的逆矩阵,向量y=(y1,y2,...,yn)',表示所有记录的因变量源数据。
8.如权利要求1~7中任意一项所述的方法,其特征在于,在所述步骤S4之后还包括:
步骤B1、对于算法类型为监督式的目标模型,选取部分源数据作为样本数据,将样本数据中的自变量数据代入各目标模型的最终表达式中计算各目标模型对应的因变量估计值;
对于算法类型为非监督式的目标模型,分别计算各目标模型对应分组结果组间数据和组内数据间的欧氏距离;
步骤B2、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据计算得到的因变量估计值和样本因变量实际值计算各个目标模型的拟合优度和均方误差;
若目标模型的因变量为分类型数据,则根据所述因变量估计值与样本因变量实际值确定估计结果的准确率;
对于算法类型为非监督式的目标模型,以组间数据距离越大,组内数据距离越大为标准对所述目标模型进行评估;
步骤B3、对于算法类型为监督式的目标模型,若目标模型的因变量为数值型数据,则根据拟合优度和均方误差对各目标模型进行评估;
若目标模型的因变量为分类型数据,则以所述估计结果的准确率最高为标准对各目标模型进行评估。
9.如权利要求8所述的方法,其特征在于,在所述步骤B3中,根据拟合优度和均方误差对各目标模型进行评估,包括:
将各目标模型根据其对应的拟合优度按照从大到小的顺序排列;
若存在拟合优度相等或拟合优度差值小于预设模糊额度的目标模型,将均方误差值较小的目标模型列于前排;
选取排序位于第一或前N的目标模型作为最终优选的目标模型。
10.一种基于数据挖掘的建模系统,其特征在于,所述系统执行如权利要求1~9中任意一项所述的方法。
CN201910528701.5A 2019-06-18 2019-06-18 一种基于数据挖掘的建模方法及系统 Pending CN110457360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910528701.5A CN110457360A (zh) 2019-06-18 2019-06-18 一种基于数据挖掘的建模方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910528701.5A CN110457360A (zh) 2019-06-18 2019-06-18 一种基于数据挖掘的建模方法及系统

Publications (1)

Publication Number Publication Date
CN110457360A true CN110457360A (zh) 2019-11-15

Family

ID=68480752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910528701.5A Pending CN110457360A (zh) 2019-06-18 2019-06-18 一种基于数据挖掘的建模方法及系统

Country Status (1)

Country Link
CN (1) CN110457360A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324642A (zh) * 2019-12-12 2020-06-23 国家电网有限公司大数据中心 一种面向电网大数据分析的模型算法选型与评价方法
WO2021189769A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 低负载信息预测方法、装置、计算机系统及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324642A (zh) * 2019-12-12 2020-06-23 国家电网有限公司大数据中心 一种面向电网大数据分析的模型算法选型与评价方法
WO2021189769A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 低负载信息预测方法、装置、计算机系统及可读存储介质

Similar Documents

Publication Publication Date Title
CN107480341B (zh) 一种基于深度学习的大坝安全综合评判方法
Smith et al. Structure and dynamics of the global economy: network analysis of international trade 1965–1980
CN108900546A (zh) 基于lstm的时间序列网络异常检测的方法与装置
WO2002079942A2 (en) System for visual preference determination and predictive product selection
CN110335168A (zh) 基于gru优化用电信息采集终端故障预测模型的方法及系统
JP7411977B2 (ja) 機械学習支援方法及び機械学習支援装置
JP2003085194A (ja) プロセス分析方法及び情報システム
Zhu et al. Portal nodes screening for large scale social networks
CN110457360A (zh) 一种基于数据挖掘的建模方法及系统
Tembusai et al. K-nearest neighbor with k-fold cross validation and analytic hierarchy process on data classification
CN114219096A (zh) 一种机器学习算法模型的训练方法、装置及存储介质
CN100454290C (zh) 卷烟感官质量定性指标评估方法
Sadeghi et al. Technology selection in the presence of fuzzy data and dual-role factors
Jha et al. Criminal behaviour analysis and segmentation using k-means clustering
Ali et al. [Retracted] Estimation Model for Bread Quality Proficiency Using Fuzzy Weighted Relevance Vector Machine Classifier
Ahlawat et al. Improving classification in data mining using hybrid algorithm
CN108872142A (zh) 一种波长选择算法中多参数的选择优化方法
CN113868597A (zh) 一种用于年龄估计的回归公平性度量方法
Abdelfattah Variables Selection Procedure for the DEA Overall Efficiency Assessment Based Plithogenic Sets and Mathematical Programming
Sitepu et al. Analysis of Fuzzy C-Means and Analytical Hierarchy Process (AHP) Models Using Xie-Beni Index
Gawne et al. A computer-based system for modelling the stage-discharge relationships in steady state conditions
Zaabar et al. A two-phase part family formation model to optimize resource planning: a case study in the electronics industry
CN110442637A (zh) 一种基于可视化图形的模型构建方法及系统
Kour et al. An Advance Approach for Diabetes Detection by Implementing Machine Learning Algorithms
CN112988564B (zh) 一种考虑成本-可靠性的srgm决策模型及其构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination