CN101000624A - 实现数据挖掘模型转换和应用的方法、系统及装置 - Google Patents
实现数据挖掘模型转换和应用的方法、系统及装置 Download PDFInfo
- Publication number
- CN101000624A CN101000624A CN 200710000717 CN200710000717A CN101000624A CN 101000624 A CN101000624 A CN 101000624A CN 200710000717 CN200710000717 CN 200710000717 CN 200710000717 A CN200710000717 A CN 200710000717A CN 101000624 A CN101000624 A CN 101000624A
- Authority
- CN
- China
- Prior art keywords
- data mining
- mining model
- model
- character string
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实现数据挖掘模型应用的方法,该方法包括:导出建立好的数据挖掘模型,根据预设的数据挖掘模型所使用语言与评分过程使用语言中语句逻辑的对应关系,将数据挖掘模型转换为评分过程使用语言的数据挖掘模型;调用所述转换后的数据挖掘模型完成评分过程。本发明还公开了一种实现数据挖掘模型转换的方法、实现数据挖掘模型应用的系统和装置。使用本发明使得数据挖掘模型的评分过程脱离数据挖掘工具和人力介入,通过调用转换后的数据挖掘模型完成评分过程,实现了数据挖掘模型的自动化应用。
Description
技术领域
本发明涉及数据挖掘技术,具体涉及一种实现数据挖掘模型转换和应用的方法、系统及装置。
背景技术
随着数据库技术和数据库管理系统的迅速发展,数据的积累越来越多。激增的数据背后隐藏着许多重要的信息,目前的数据库系统可以高效地实现数据录入、查询和统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸”但知识贫乏的现象。
数据库知识发现(KDD,Knowledge Discovery In Database)是人工智能、机器学习与数据库技术等多种学科相结合的产物,是从大量数据中提取出可信、新颖、有用并能被人理解的模式的高级处理过程。这里的模式就是知识,或者说是隐藏在数据背后的规律、关系或规则。
图1所示为现有技术KDD处理过程,如图1所示,KDD处理过程主要包括数据选择、数据预处理、数据转换、数据挖掘和模式解释/知识评价五个步骤。数据挖掘(DM,Data Mining)是KDD中的一个重要步骤,用于发现转换后的数据中存在的关系和规则,下文用数据挖掘来指代KDD的整个分析过程。
KDD提出之初,“挖掘”的对象是数据库,而目前挖掘的对象已经扩大到文本、网页、流媒体等,因此,数据挖掘的含义已扩大到包括文本挖掘、网页挖掘、流媒体挖掘等在内的范畴。
数据挖掘主要包括预测型和描述型两大类;数据挖掘采用的算法包括决策树、回归分析、神经网络、关联分析和聚类分析等。在用数据挖掘技术解决问题时,一般先确定该问题是预测型问题还是描述型问题,然后确定采用的算法。
历史数据的变化规律具有一定的准确性、可信性和稳定性。预测型问题解决的方法是从历史数据找出这种变化规律,即建立模型。模型是对历史数据规律的描述,然后用此模型来预测数据的未来发展趋势。所以,通常建立一个好的模型后,可以多次使用对数据的未来进行预测。图2为现有技术的预测型方法流程图。如图2所示,该方法包括以下步骤:
步骤210:建模数据处理,手工使用挖掘工具,建立数据挖掘模型。
本步骤包括:搜集与预测问题相关的历史数据,从中选择建模数据,并转换为数据挖掘需要的格式;手工使用挖掘工具,选择适当的挖掘算法,对准备好的建模数据进行处理,获得数据挖掘模型。
步骤220:评估数据处理。
本步骤包括:搜集与预测问题相关的历史数据,从中选择评估数据,并转换为数据挖掘需要的格式。
步骤221~步骤222:手工使用挖掘工具进行模型评估,得到评估报告,根据评估报告判断模型是否好,好的话执行步骤231,否则执行步骤210。
本步骤包括:利用步骤220准备好的评估数据,对步骤210建立的模型进行评估,即利用建立好的模型对历史数据进行预测,如果预测的结果与历史数据中对应的结果相符合,则认为模型好;如果预测的结果与历史数据中对应的结果相差较大,则认为模型不好。如果模型效果不好,则返回步骤210调整建模数据或重新建立模型,如果模型比较好,则可以将模型投入应用。
步骤230:评分数据处理。
本步骤包括:搜集与预测问题相关的数据,转换为数据挖掘需要的格式。
步骤231:手工使用挖掘工具,进行评分处理。
本步骤包括:手工使用挖掘工具,利用步骤211建立好的模型,对步骤230准备好的评分数据进行处理,得到预测结果,即数据的未来发展趋势。
例如,在客户流失模型中,评分结果反映的是客户流失可能性的大小,一般用0~1之间的一个数值表示,此值越接近1说明客户流失的可能性越大。如本步骤评分处理后得到某些或某个客户的预测结果是0.8,可以理解为该批客户或该客户的流失可能性为80%。
步骤232:手工使用挖掘工具导出预测结果。
本步骤包括:将步骤231计算出的预测结果从数据挖掘工具导入到数据库中。
步骤233:在数据库中对预测结果进行分析,以便对不同特征的数据采取不同的措施。
例如,在客户流失模型中得到某些客户流失的可能性为80%,即客户流失的可能性比较大,则运营商可以针对该批客户采取一些挽留的措施,以保证该批客户继续为运营商带来利润。
描述型是对一组对象的某些方面或者角度进行特征描述和关联分析等,从中找出一些规律。例如客户细分:由于客户的经济、社会、行为等各种属性都有差别,所以他们的需求各不相同,商家为了吸引更多的客户,需要把客户分成不同的群体,然后对不同的群体采取不同的营销策略,从而在满足客户的同时最大化的获得利润。关联分析,例如在购买面包和黄油的顾客中,有90%的人同时也买了牛奶,即面包+黄油->牛奶;商家在通过数据挖掘得到此关联结果后,可以将面包同、黄油和牛奶摆放在相邻的位置,以方便客户购买。当需要处理的数据量大时,需要借助挖掘工具建立数据挖掘模型,例如,客户细分时,在目标客户属性多、数据量大时,就需要借助挖掘工具建立数据挖掘的细分模型。进一步,如果细分的客户数据量相当大,数据挖掘需要的计算机系统资源比较多,可能无法建立细分模型时,可以对数据进行抽样,先使用抽样的客户数据建立细分模型,并进行模型评估,得到好的细分模型后,手工使用挖掘工具根据细分模型将其他客户分到相应的分组中,这个过程也称为评分。
图3为现有技术描述型方法流程图,如图3所示,该方法包括以下步骤:
步骤310:建模数据处理。
搜集与预测问题相关的历史数据,从中选择建模数据,并转换为数据挖掘需要的格式。
步骤311~步骤312:判断数据量是否大,如果数据量大,则将数据抽样后,执行步骤313;否则直接执行步骤313。
步骤313:手工使用挖掘工具建立数据挖掘模型。
步骤320~步骤321:评估数据处理,手工使用挖掘工具进行模型评估,得到评估报告。
步骤322:根据评估报告判断该模型是否好,好的话执行步骤323,否则执行步骤313或步骤310。
步骤323:判断是否是抽样建模,是则执行步骤324,否则执行步骤326。
步骤330:评分数据处理。
本步骤包括:搜集与描述问题相关的数据,转换为数据挖掘需要的格式。
步骤324:手工使用挖掘工具进行模型评分。
步骤325:处理得到的评分结果。
步骤326:模型发布。
例如,客户细分模型中,得到评分结果后,将细分后的客户名单输出。
目前,挖掘工具使用的是第三方工具,模型建立完成后,模型的应用过程通常是:在数据库中处理好评分数据,然后使用挖掘工具进行评分操作,再手工使用挖掘工具将评分结果导入数据库,最后在数据库中对评分结果进行分析处理。可见,每次评分过程的实现都要借助于挖掘工具,而一个好的模型建立后,可以稳定使用一段时间,但每次使用模型都无法脱离挖掘工具,需要人力介入,自动化程度不够,且效率比较低,从而影响了数据挖掘的效率,尤其是在模型比较多时更是如此。
现有挖掘工具通常可以将模型以标准C文件的形式导出,用开发工具开发一个应用程序,将C模型嵌入到应用程序中,由该应用程序实现评分过程。这种处理方法比较简单,脱离了挖掘工具,提高了模型的使用效率,且有一定的通用性。但是,每次使用新的模型时,要将原来的数据挖掘模型的C源程序替换为新的数据挖掘模型的C源程序,需要重新编译评分应用程序,自动化程序也不够,从而影响了数据挖掘的效率。而且C文件形式的模型一般不容易与基于数据库的数据处理过程融为一体,同时模型的应用依赖于数据挖掘工具本身的设置信息。
发明内容
有鉴于此,本发明实施例提供一种实现数据挖掘模型应用的方法,实现数据挖掘模型的自动化应用,提高数据挖掘的效率。
本发明实施例提供一种数据挖掘模型转换的方法,将数据挖掘模型转换为评分过程使用语言的数据挖掘模型。
本发明实施例提供一种实现数据挖掘模型应用的系统,实现数据挖掘模型的自动化应用,提高数据挖掘的效率。
本发明实施例提供一种模型转换装置,实现数据挖掘模型的自动化应用,提高数据挖掘的效率。
本发明实施例提供一种评分装置,实现评分过程中数据挖掘模型的自动化应用,提高数据挖掘的效率。
为达到上述目的,本发明实施例的技术方案是这样实现的:
一种实现数据挖掘模型应用的方法,该方法包括:导出建立好的数据挖掘模型;
根据预设的数据挖掘模型所使用语言与评分过程使用语言中语句逻辑的对应关系将数据挖掘模型转换为评分过程使用语言的数据挖掘模型;
调用转换后的数据挖掘模型完成评分过程。
一种数据挖掘模型转换方法,所述数据挖掘模型为预测型模型,该方法包括:
搜索所述数据挖掘模型,当搜索到标识数据挖掘模型结束的字符串时,从所述标识数据挖掘模型结束的字符串所在行逐行向前搜索;
当搜索到转行符时,将转行符连接的两行合并;
当搜索到条件语句时,替换成评分过程使用语言的条件语句;
当搜索到数据挖掘工具根据目标字段生成的字符串时,则将字符串删去,输出字符串后的常数数值;
搜索到标识数据挖掘模型开始的字符串,则结束流程。
一种数据挖掘模型转换方法,所述数据挖掘模型为预测型模型,该方法包括:
搜索所述数据挖掘模型,当搜索到标识数据挖掘模型开始的字符串时,从所述标识数据挖掘模型开始的字符串所在行逐行向后搜索;
当搜索到转行符时,将转行符连接的两行合并;
当搜索到条件语句时,替换成评分过程使用语言的条件语句;
当搜索到数据挖掘工具根据目标字段生成的字符串时,则将字符串删去,输出字符串后的常数数值;
搜索到标识数据挖掘模型结束的字符串,则结束流程。
一种数据挖掘模型转换的方法,所述数据挖掘模型为聚类算法描述型数据挖掘模型,该方法包括:
搜索所述数据挖掘模型,当搜索到模型中标识细分分组的字符串时,生成与分组个数相同的分组数组,从模型中标识细分分组的字符串所在行逐行向前搜索;
搜索到条件语句,利用条件语句中的常数数值计算出评分数据中每个字段的数据到各个分组中心的距离,输出所述距离到所述分组数组;
搜索到模型中标识细分分组结束的字符串,则结束搜索;
比较每个评分数据到各个分组中心的距离,并将所述评分数据归到距离最近的分组中。
一种实现数据挖掘模型应用的系统,该系统包括模型建立导出装置、模型转换装置和评分装置,
所述模型建立导出装置,用于建立数据挖掘模型,将建立好的数据挖掘模型导出到模型转换装置;
所述模型转换装置,用于保存预先设置的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系;接收模型建立导出装置导出的数据挖掘模型,根据所述对应关系将所述数据挖掘模型转换为评分过程使用语言的数据挖掘模型,将所述转换后的数据挖掘模型输出到评分装置;
所述评分装置,用于接收所述模型转换装置输出的转换后的数据挖掘模型,调用所述数据挖掘模型完成评分过程。
一种模型转换装置,该装置包括搜索模块、对应关系存储模块和传输模块,
所述传输模块,用于接收模型建立导出装置导出的数据挖掘模型,传输到搜索模块;接收搜索模块传输的转换后的数据挖掘模型,传输到评分装置;
所述搜索模块,用于接收传输模块传输的导出的数据挖掘模型,根据对应关系存储模块中保存的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系,将所述模型建立导出装置导出的数据挖掘模型转换为评分过程所使用语言的数据挖掘模型,将所述转换后的数据挖掘模型传输到传输模块;
所述对应关系存储模块,用于保存预先设置的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系。
与现有技术相比,本发明实施例所提供的实现数据挖掘模型转换和应用的方法、系统及装置,通过将建立的数据挖掘模型转换为评分过程使用语言的数据挖掘模型,并且自动调用该转换后的数据挖掘模型,实现了数据挖掘模型的自动化应用,提高了数据挖掘的效率。同时,评分过程自动调用转换后的数据挖掘模型,将数据挖掘模型与评分过程的数据处理过程融为一体,脱离了数据挖掘工具中的设置信息。
附图说明
图1为现有技术KDD处理过程;
图2为现有技术预测型方法流程图;
图3为现有技术描述型方法流程图;
图4为本发明实施例中的实现数据挖掘模型应用的方法流程图;
图5为本发明实施例一预测型数据挖掘模型的建模、评估方法流程图;
图6为本发明实施例一预测型数据挖掘模型的评分方法流程图;
图7为本发明实施例一预测型数据挖掘模型中条件语句的转换方法流程图;
图8为本发明实施例一预测型数据挖掘模型转换的方法流程图;
图9为本发明实施例二描述型数据挖掘模型的建模、评估方法流程图;
图10为本发明实施例二描述型数据挖掘模型的评分方法流程图;
图11为本发明实施例二描述型数据挖掘模型转换的总体方法流程图;
图12为本发明实施例的实现数据挖掘模型应用的系统结构图。
具体实施方式
下面结合附图及具体实施例对本发明进行详细说明。
本发明实施例的实现数据挖掘模型应用的方法包括:导出建立好的数据挖掘模型;根据预设的数据挖掘模型所使用语言与评分过程使用语言中语句逻辑的对应关系,将数据挖掘模型转换为评分过程所使用语言的数据挖掘模型,并在评分过程中调用该转换后的数据挖掘模型。
图4为本发明实施例的实现数据挖掘模型应用的方法流程图。如图4所示,该方法包括以下步骤:
步骤400:将建立好的数据挖掘模型导出;
具体的导出过程与现有技术的处理方式相同,不在本发明关注的范围之内,在此不再赘述。
步骤401:预先设置数据挖掘工具导出的数据挖掘模型所使用语言与评分过程所使用语言中语句逻辑的对应关系。
步骤402:根据预先设置的数据挖掘工具导出的数据挖掘模型所使用语言与评分过程所使用语言中语言逻辑的对应关系,将导出的数据挖掘模型转换为评分过程使用语言的数据挖掘模型;
步骤403:调用转换后的数据挖掘模型完成评分过程。
该方法还可以进一步包括:将转换出的评分过程使用语言的数据挖掘模型保存为函数,或嵌入到预先写好的评分存储过程模板中,保存为存储过程;此时,调用转换后的数据挖掘模型完成评分过程的方法为:调用该函数或调用该存储过程完成评分过程。
实际应用中,步骤401可在步骤400与步骤402之间执行,也可在步骤400之前执行。
以下分别就两个实施例对本发明实施例的实现数据挖掘模型应用的方法进行详细说明。
实施例一:
本实施例对预测型数据挖掘模型在数据库中的应用方法进行详细介绍。
以下首先介绍模型转换和利用转换后的模型进行自动评分的过程,然后介绍模型转换的具体过程。
图5为本发明实施一预测型数据挖掘模型建模、评估的方法流程图,如图5所示,该方法在数据挖掘模型的建立和评估完成后,包括以下步骤:
步骤510~步骤522与步骤210~步骤222相同,在此不再赘述。
步骤523:导出建立好的数据挖掘模型。
具体的导出过程与现有技术的处理方式相同,不在本发明关注的范围之内,在此不再赘述。
本步骤将建立好的数据挖掘模型以标准语言的形式导出,如导出标准的C语言形式,具体导出的数据挖掘模型的语言形式取决于数据挖掘工具本身提供的功能。目前常用的数据挖掘工具都可以将建立好的数据挖掘模型以标准C文件的形式导出。
步骤524:数据挖掘模型转换。
本步骤包括:预先设置数据挖掘工具导出的数据挖掘模型使用语言与评分过程使用语言中语句逻辑的对应关系,根据该对应关系将从挖掘工具导出的数据挖掘模型转换为评分过程所使用语言的数据挖掘模型。
步骤525:将转换出的数据挖掘模型保存为存储过程或函数。
在本步骤,标准语言格式的数据挖掘模型转换为评分过程所使用语言的数据挖掘模型后,嵌入到预先写好的存储过程模板中,保存为自动评分存储过程。
本步骤也可将导出的数据挖掘模型保存为函数,在评分过程中设置调用程序调用该函数完成评分过程。
预先写好的评分存储过程模板是根据评分过程使用的语言的使用规则,将一个完整软件所需要的框架写好,预留出填入转换出的数据挖掘模型的空间,数据挖掘模型转换完成后直接写入预留的空间即可。
在数据库查询语言(SQL)中,存储过程经编译后驻留在数据库中,可以被应用程序通过引用其名称而调用,并允许数据以参数形式在存储过程和应用程序间来回传递。在SQL数据库中,用户可以自定义存储过程。
图6为本发明实施例一预测型数据挖掘模型的评分方法流程图,如图6所示,该方法包括以下步骤:
步骤600:评分数据处理。
本步骤执行的具体过程与步骤230相同,在此不再赘述。
步骤601:调用自动评分存储过程或函数。
步骤602:得到预测结果。
步骤603:对结果进行分析。
本步骤是指对预测结果进行分析,以确定对不同特征的数据采取不同的措施。
评分过程调用自动评分存储过程后,将评分数据以参数的形式传递到存储过程,经存储过程计算得到结果,并将评分结果写入评分过程使用的数据库中,供数据库进行分析。
以下以标准C语言的统计分析系统(SAS)预测型数据挖掘模型转换为评分过程使用的SQL的数据挖掘模型的转换方法为例对本发明实施例进行详细说明。
在本发明实施例中,标准C语言的SAS预测型数据挖掘模型转换为评分过程使用的SQL的数据挖掘模型的具体转换过程包括:
第一,搜索到从数据挖掘工具中导出的数据挖掘模型中标识该数据挖掘模型结束的标志,从标识该数据挖掘模型结束的标志所在行逐行向前搜索。
第二,搜索到转行符,则将转行符连接的两行合并为一行,进行后面的搜索和替换处理。
第三,搜索到条件语句,则将条件语句转换为评分过程使用的语言后输出。
图7为本发明实施例一预测型数据挖掘模型中的条件语句转换的方法流程图,如图7所示,本步骤将条件语句转换为SQL语言中的条件语句的方法包括以下步骤:
步骤700:从数据挖掘模型中条件语句的最后一行开始向前搜索,如果该行有标识条件语句结束的字符“}”,且该“}”是该条件语句中的第一个,则将第一个“}”用“end”替换。
步骤701:向前搜索到“else”,则删除“else”后的“{”,保留该“else”。
步骤702:从“else”继续向前搜索,遇到第一个“}”,则删除,第二个“}”用“end”替换。
步骤703:继续向前搜索,遇到“if”语句,则用“case when...then”替换,其中“case when...then”的条件是“if”语句后的条件。
第四,搜索到挖掘工具根据目标字段生成的字符串,则将字符串删去,输出字符串后的常数数值。
例如,如果在SAS客户流失数据挖掘模型中搜索到根据目标字段“CHURN”生成的字符串“P_CHURN1=0.025559”,则删除该字符串,保留该字符串后面的常数数值,即输出常数数值0.025559。
第五,搜索到数据挖掘模型中标识该数据挖掘模型结束的字符串,则结束数据挖掘模型转换流程。
客户流失分析是数据挖掘中预测问题的一种具体应用,目前采用的数据挖掘算法常用的有决策树、线性回归等算法。以下以SAS决策树数据挖掘模型转换为评分过程使用的SQL的数据挖掘模型的具体转换过程进行详细说明。
实际应用中,数据挖掘模型转换时也可以通过从前往后搜索的方法实现。图8为本发明实施例一预测型数据挖掘模型转换的方法流程图。该图中,数据挖掘模型转换过程是通过从前往后搜索而实现的。如图8所示,该方法包括以下步骤:
步骤800~步骤802:逐行读取SAS决策树数据挖掘模型,判断该行是否是标识数据挖掘模型开始的字符串,不是则读取下一行,是则执行步骤803。
步骤803:读标识数据挖掘模型开始的字符串的下一行。
步骤804~步骤805:如果有换行符,则将换行符连接的两行合并为一行后,执行步骤806;如果没有换行符,直接执行步骤806。
步骤806~步骤807:判断该行是否是标识数据挖掘模型结束的字符串,如果是,则结束流程;否则执行步骤808。
步骤808:判断该行是否是“if”语句,如果是,则执行步骤809;否则执行步骤810。
步骤809:输出“case when...then”,然后执行步骤803,读下一行。
步骤810:判断该行是否有“{”,如果有“{”,则执行步骤811;如果没有“{”,则执行步骤815。
步骤811:判断该行是否有“else”,如果有“else”,则执行步骤812;如果没有“else”则执行步骤813。
步骤812:将“else”推进栈,并输出,然后执行步骤803,读下一行。
步骤813:判断前一行是否是“if”语句,如果是“if”语句,则执行步骤814;如果不是“if”语句,则执行步骤803,读下一行。
步骤814:将“if”推进栈,然后执行步骤803,读下一行。
步骤815:判断该行是否有SAS决策树数据挖掘工具根据目标字段生成的字符串,如果有,则执行步骤816;如果没有,则执行步骤817。
步骤816:输出该字符串后的数值,然后执行步骤803,读下一行。
例如,如果是字符串“P_CHURN1=0.025559”,则输出字符串后的数值0.025559。
步骤817:判断该行是否有“}”,如果有“}”,则执行步骤818;如果没有则执行步骤803,读下一行
步骤818:推出栈顶的内容。
步骤819:判断步骤818中出栈的内容是否是“else”,如果是则执行步骤820;否则执行步骤803,读下一行。
步骤820:输出“end”,然后执行步骤803,读下一行。
实际应用中,该流程可以由任何一种编程语言实现。
实施例二:
本实施例对描述型数据挖掘模型在数据库中应用的方法进行详细介绍。
以下首先介绍数据挖掘模型转换和利用转换后的数据挖掘模型进行评分的过程,然后介绍数据挖掘模型转换的具体过程。
图9所示为本发明实施例二描述型数据挖掘模型的建模、评估方法流程图。如图9所示,该方法包括以下步骤:
步骤910~步骤922与步骤310~步骤322相同,在此不再赘述。
步骤923:确定是抽样建模。
例如,客户细分模型,客户数据量大,建模时需要进行抽样,根据抽样数据建立数据挖掘模型,然后利用建立好的数据挖掘模型再进行其他客户数据的细分。所以,在本步骤,需要确定是否是抽样建模,如果是则执行以下流程,否则结束流程。
步骤924:导出建立好的数据挖掘模型。
将建立好的数据挖掘模型以标准语言的形式输出,如以标准C语言的形式输出。
具体的导出过程与现有技术的处理方式相同,不在本发明关注的范围之内,在此不再赘述。
步骤925:数据挖掘模型转换。
根据预先设置的数据挖掘工具使用语言与评分过程使用语言中语句逻辑的对应关系将导出的数据挖掘模型转换为评分过程所使用语言的数据挖掘模型。
步骤926:将转换出的数据挖掘模型保存为自动评分存储过程或函数。
本步骤中,将转换出的数据挖掘模型嵌入到预先写好的自动评分存储过程模板中,保存为自动评分存储过程,以便于评分时调用该存储过程,实现自动评分过程。
图10为本发明实施例二描述型数据挖掘模型的评分方法流程图。如图10所示,该方法包括以下步骤:
步骤100:评分数据处理。
本步骤的实现方法与步骤330相同,在此不再赘述。
步骤1001:调用自动评分存储过程。
步骤1002:数据挖掘模型发布。
例如,在客户细分模型中,评分过程完成后得到所有客户分类的结果,商家可对不同类型的客户采取不同的营销策略。
聚类(Cluster)是目前客户细分模型中常用的方法。本发明实施例的标准C语言的描述型聚类数据挖掘模型转换为评分过程使用的数据库语言SQL的具体转换过程包括:
第一,搜索到模型中标识细分分组的字符串,生成与分组个数相同的分组数组,如cluster[j],其中j为分组个数;并从该行向前搜索。
第二,搜索到条件语句,利用条件语句中的常数数值计算出评分数据中每个字段到各个分组中心的距离,然后输出该距离到建立的分组数组中。
本步骤,把条件语句中的每一个字段按照这样的方式累加:
其中,Fi是第i个字段,Bi是对应分组中的条件语句下面的常数,意思是分组在该字段上的中心。然后输出,得到的结果即为评分数据中每个字段到各个分组中心的距离。
如果在数据挖掘工具算法中有是否进行标准化处理的选项,而在建立数据挖掘模型中选择了该选项,则利用条件语句后面第一个语句中的常数和各个分组在各字段上的中心值计算出评分数据中每个字段到各个分组中心的距离,输出该距。即,把条件语句中每一个字段的累加格式为:
其中,Ai是条件语句后面第一个语句中的常数,是标准化处理常系数。
第三,搜索到SAS工具根据离散属性变量生成的字符串,则搜索到该离散属性的变量,将字符串替换为该变量。
如果SAS模型中条件语句后面的字段是_D_i的形式,这是SAS工具处理时对离散属性替换的变量,这时要搜索替换的原字段,可以通过搜索与_D_i对应的条件语句获得。
例如,离散变量X有三个离散值,分别为2,5,6,则SAS工具处理该离散属性的变量时,会针对这个离散变量X生成_D_1,_D_1有三个变量值分别为2,5,6。如果要搜索替换的原字段X,则要搜索_D_1对应的条件语句得到X,并用X替换_D_1。
第四,搜索到模型中标识细分分组结束的字符串,则搜索结束。
如搜索到“_SEGMNT_=1”则搜索结束。
这样就获得了各个分组评分的距离标准,可以对每个抽样数据进行处理,也就是计算每个数据与分组中心的距离。
第五,比较每个评分数据距离各个分组中心的距离,并归到距离最近的分组中。
以下以标准C语言的聚类数据挖掘模型转换为评分过程使用的数据库语言SQL的自动转换方法为例做进一步详细说明。
图11为本发明实施例二描述型数据挖掘模型转换的总体方法流程图。如图11所示,该方法包括以下步骤:
步骤1100~步骤1102:开始,逐行读取SAS聚类数据挖掘模型,判断该行是否是标识细分分组开始的字符串,不是则读取下一行,是则执行步骤1103。
步骤1103:模型开始后,建立与分组个数相同的分组数组。
步骤1104:读数据挖掘模型的下一行。
步骤1105~步骤1106:如果该行有换行符,则合并换行符连接的两行后,执行步骤1107;否则直接执行步骤1107。
步骤1107:判断该行是否是标识细分分组结束的字符串,如果是,则执行步骤1108;否则执行步骤1110。
步骤1108:将评分数据各字段的数据到各个分组中心的距离输出到建立的分组数组中。
步骤1109:比较距离,输出分组。
步骤1110:判断该行是否是if语句,如果是,则执行步骤1111;否则执行步骤1104。
步骤1111:累加分组的距离,然后执行步骤1107。
以下对实现本发明实施例所提供的实现数据挖掘模型应用的装置进行详细介绍。
图12为本发明实施例的实现数据挖掘模型应用的系统结构图。如图12所示,该系统包括模型建立导出装置、模型转换装置和评分装置。
其中,模型建立导出装置,用于建立数据挖掘模型,将建立好的数据挖掘模型导出到模型转换装置。
模型转换装置,用于预先设置导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系;接收模型建立导出装置导出的数据挖掘模型,根据所述对应关系,将所述导出的数据挖掘模型转换为评分装置使用语言的数据挖掘模型,将所述转换后的数据挖掘模型输出到评分装置。
评分装置,用于接收所述模型转换装置转换后的数据挖掘模型,调用所述数据挖掘模型完成评分过程。
模型转换装置包括搜索模块、对应关系存储模块和传输模块。
其中,传输模块,用于接收模型建立导出装置导出的数据挖掘模型,传输到搜索模块;接收搜索模块传输的转换后的数据挖掘模型,传输到评分装置;
搜索模块,用于接收传输模块传输的导出的数据挖掘模型,根据对应关系存储模块中保存的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系,将模型建立导出装置导出的数据挖掘模型转换为评分过程所使用语言的数据挖掘模型,将转换后的数据挖掘模型传输到传输模块;
对应关系存储模块,用于保存预先设置的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系。
传输模块进一步用于将所述转换后的数据挖掘模型保存为自动评分存储过程或函数。
评分装置包括评分模块和调用模块。
其中,调用模块,用于接收并保存模型转换装置传输的转换后的数据挖掘模型,将转换后的数据挖掘模型传输到评分模型;
评分模块,用于接收调用模块传输的转换后的数据挖掘模型,完成评分过程。
实际应用中,所有的数据挖掘工具都可以将其建立的模型以标准语言的形式导出。只要是标准语言,就会有一定的规律可循,评分过程使用的语言也是有规律可循的,将数据挖掘工具导出的数据挖掘模型使用语言与评分过程使用语言的对应关系找出后,就可以将挖掘工具导出的数据挖掘模型转换为评分过程使用语言的数据挖掘模型,进而调用该转换后的数据挖掘模型,实现数据挖掘模型的自动化应用。其转换过程与本发明实施例中所述的自动转换的原理完全相同。
由以上所述可以看出,本发明实施例所提供的一种实现数据挖掘模型转换和应用的方法、系统及装置,将数据挖掘工具导出的数据挖掘模型转换为评分过程使用语言的数据挖掘模型,并且在评分过程中自动调用该转换出的数据挖掘模型,实现了评分过程中数据挖掘模型的自动调用,不需人工干预,从而实现数据挖掘模型的自动化应用。此后,评分处理过程可由其他工具自动调用,无需专门的人员跟踪处理,大大提高了数据挖掘的效率,节省了人力。而且,利用评分过程自动调用存储过程或函数,有利于将数据挖掘模型与评分过程的数据处理过程融为一体,同时,也脱离了数据挖掘工具本身的设置信息,使得数据挖掘能够脱离数据挖掘工具得到应用,提高了数据挖掘的效率。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (17)
1、一种实现数据挖掘模型应用的方法,其特征在于,该方法包括:
导出建立好的数据挖掘模型;
根据预设的数据挖掘模型所使用语言与评分过程使用语言中语句逻辑的对应关系,将数据挖掘模型转换为评分过程使用语言的数据挖掘模型;
调用转换后的数据挖掘模型完成评分过程。
2、如权利要求1所述的方法,其特征在于,所述调用转换后的数据挖掘模型完成评分过程之前,该方法进一步包括:将转换为评分过程使用语言的数据挖掘模型保存为存储过程或函数。
3、如权利要求1所述的方法,其特征在于,所述将数据挖掘模型转换为评分过程使用语言的数据挖掘模型的方法为:
搜索所述数据挖掘模型,当搜索到标识数据挖掘模型结束的字符串时,从所述标识数据挖掘模型结束的字符串所在行逐行向前搜索;
当搜索到转行符时,将转行符连接的两行合并;
当搜索到条件语句时,替换成评分过程使用语言的条件语句;
当搜索到数据挖掘工具根据目标字段生成的字符串时,则将字符串删去,输出字符串后的常数数值;
搜索到标识数据挖掘模型开始的字符串,则结束模型转换流程。
4、如权利要求1所述的方法,其特征在于,所述将数据挖掘模型转换为评分过程使用语言的数据挖掘模型的方法包括:
搜索所述数据挖掘模型,当搜索到标识数据挖掘模型开始的字符串时,从所述标识数据挖掘模型开始的字符串所在行逐行向后搜索;
当搜索到转行符时,将转行符连接的两行合并;
当搜索到条件语句时,替换为评分过程使用语言的条件语句;
当搜索到数据挖掘工具根据目标字段生成的字符串,则将字符串删去,输出字符串后的常数数值;
当搜索到标识数据挖掘模型结束的字符串,则结束模型转换流程。
5、如权利要求1所述的方法,其特征在于,所述将数据挖掘模型转换为评分过程使用语言的数据挖掘模型包括:
搜索所述数据挖掘模型,搜索到模型中标识细分分组的字符串,生成与分组个数相同的分组数组,从模型中标识细分分组的字符串所在行逐行向前搜索;
搜索到条件语句,利用条件语句中的常数数值计算出评分数据中每个字段的数据到各个分组中心的距离,输出所述距离到所述分组数组;
搜索到模型中标识细分分组结束的字符串,则结束搜索;
比较每个评分数据到各个分组中心的距离,并将所述评分数据归到距离最近的分组中。
6、如权利要求5所述的方法,其特征在于,所述利用条件语句中的常数数值计算出评分数据中每个字段到各个分组中心的距离为:
利用所述条件语句后面第一个语句中的常数和各个分组在各字段上的中心值计算出评分数据中每个字段到各个分组中心的距离。
7、如权利要求5所述的方法,其特征在于,所述搜索到数据挖掘模型中标识细分分组结束的字符串之前,该方法进一步包括:
从所述数据挖掘模型中搜索到根据离散属性变量生成的字符串,则搜索到该离散属性的变量,将所述字符串替换为该变量。
8、一种数据挖掘模型转换方法,其特征在于,所述数据挖掘模型为预测型模型,该方法包括:
搜索所述数据挖掘模型,当搜索到标识数据挖掘模型结束的字符串时,从所述标识数据挖掘模型结束的字符串所在行逐行向前搜索;
当搜索到转行符时,将转行符连接的两行合并;
当搜索到条件语句时,替换成评分过程使用语言的条件语句;
当搜索到数据挖掘工具根据目标字段生成的字符串时,则将字符串删去,输出字符串后的常数数值;
搜索到标识数据挖掘模型开始的字符串,则结束流程。
9、一种数据挖掘模型转换方法,其特征在于,所述数据挖掘模型为预测型模型,该方法包括:
搜索所述数据挖掘模型,当搜索到标识数据挖掘模型开始的字符串时,从所述标识数据挖掘模型开始的字符串所在行逐行向后搜索;
当搜索到转行符时,将转行符连接的两行合并;
当搜索到条件语句时,替换成评分过程使用语言的条件语句;
当搜索到数据挖掘工具根据目标字段生成的字符串时,则将字符串删去,输出字符串后的常数数值;
搜索到标识数据挖掘模型结束的字符串,则结束流程。
10、一种数据挖掘模型转换的方法,其特征在于,所述数据挖掘模型为聚类算法描述型数据挖掘模型,该方法包括:
搜索所述数据挖掘模型,当搜索到模型中标识细分分组的字符串时,生成与分组个数相同的分组数组,从模型中标识细分分组的字符串所在行逐行向前搜索;
搜索到条件语句,利用条件语句中的常数数值计算出评分数据中每个字段的数据到各个分组中心的距离,输出所述距离到所述分组数组;
搜索到模型中标识细分分组结束的字符串,则结束搜索;
比较每个评分数据到各个分组中心的距离,并将所述评分数据归到距离最近的分组中。
11、如权利要求10所述的方法,其特征在于,所述利用条件语句中的常数数值计算出评分数据中每个字段到各个分组中心的距离为:
利用所述条件语句后面第一个语句中的常数和各个分组在各字段上的中心值计算出评分数据中每个字段到各个分组中心的距离。
12、如权利要求10所述的方法,其特征在于,所述搜索到模型中标识细分分组结束的字符串之前,该方法进一步包括:
从所述导出的数据挖掘模型中搜索到数据挖掘工具根据离散属性变量生成的字符串,则将字符串删去,搜索到原离散属性的变量,输出该变量。
13、一种实现数据挖掘模型应用的系统,其特征在于,该系统包括模型建立导出装置、模型转换装置和评分装置,
所述模型建立导出装置,用于建立数据挖掘模型,将建立好的数据挖掘模型导出到模型转换装置;
所述模型转换装置,用于保存预先设置的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系;接收模型建立导出装置导出的数据挖掘模型,根据所述对应关系将所述数据挖掘模型转换为评分过程使用语言的数据挖掘模型,将所述转换后的数据挖掘模型输出到评分装置;
所述评分装置,用于接收所述模型转换装置输出的转换后的数据挖掘模型,调用所述数据挖掘模型完成评分过程。
14、如权利要求13所述的系统,其特征在于,所述模型转换装置包括搜索模块、对应关系存储模块和传输模块,
所述传输模块,用于接收模型建立导出装置导出的数据挖掘模型,传输到搜索模块;接收搜索模块传输的转换后的数据挖掘模型,传输到评分装置;
所述搜索模块,用于接收传输模块传输的导出的数据挖掘模型,根据对应关系存储模块中保存的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系,将所述模型建立导出装置导出的数据挖掘模型转换为评分过程所使用语言的数据挖掘模型,将所述转换后的数据挖掘模型传输到传输模块;
所述对应关系存储模块,用于保存预先设置的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系。
15、如权利要求13所述的系统,其特征在于,所述评分装置包括评分模块和调用模块,
所述调用模块,用于接收并保存模型转换装置传输的转换后的数据挖掘模型,将所述转换后的数据挖掘模型传输到评分模型;
所述评分模块,用于接收调用模块传输的转换后的数据挖掘模型,完成评分过程。
16、一种模型转换装置,其特征在于,该装置包括搜索模块、对应关系存储模块和传输模块,
所述传输模块,用于接收模型建立导出装置导出的数据挖掘模型,传输到搜索模块;接收搜索模块传输的转换后的数据挖掘模型,传输到评分装置;
所述搜索模块,用于接收传输模块传输的导出的数据挖掘模型,根据对应关系存储模块中保存的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系,将所述模型建立导出装置导出的数据挖掘模型转换为评分过程所使用语言的数据挖掘模型,将所述转换后的数据挖掘模型传输到传输模块;
所述对应关系存储模块,用于保存预先设置的导出的数据挖掘模型所使用的语言与评分过程使用语言中语句逻辑的对应关系。
17、如权利要求16所述的装置,其特征在于,所述传输模块进一步用于将所述转换后的数据挖掘模型保存为存储过程或函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100007176A CN100470547C (zh) | 2007-01-10 | 2007-01-10 | 实现数据挖掘模型转换和应用的方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007100007176A CN100470547C (zh) | 2007-01-10 | 2007-01-10 | 实现数据挖掘模型转换和应用的方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101000624A true CN101000624A (zh) | 2007-07-18 |
CN100470547C CN100470547C (zh) | 2009-03-18 |
Family
ID=38692596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007100007176A Active CN100470547C (zh) | 2007-01-10 | 2007-01-10 | 实现数据挖掘模型转换和应用的方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100470547C (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521040A (zh) * | 2011-12-08 | 2012-06-27 | 北京亿赞普网络技术有限公司 | 数据挖掘方法及系统 |
CN102546228A (zh) * | 2011-06-16 | 2012-07-04 | 广州市龙泰信息技术有限公司 | 一种电信用户细分方法 |
CN104834684A (zh) * | 2008-06-13 | 2015-08-12 | 电子湾有限公司 | 用于集群化的方法和系统 |
CN106407999A (zh) * | 2016-08-25 | 2017-02-15 | 北京物思创想科技有限公司 | 结合规则来进行机器学习的方法及系统 |
CN106897293A (zh) * | 2015-12-17 | 2017-06-27 | 中国移动通信集团公司 | 一种数据处理方法和装置 |
CN106951569A (zh) * | 2017-04-07 | 2017-07-14 | 广州隆德信息科技有限公司 | 一种数据挖掘分析管理系统 |
CN106997488A (zh) * | 2017-03-22 | 2017-08-01 | 扬州大学 | 一种结合马尔科夫决策过程的动作知识提取方法 |
CN111083043A (zh) * | 2019-12-26 | 2020-04-28 | 中国科学院信息工程研究所 | 一种邮箱恶意自动转发行为识别方法及装置 |
CN112035549A (zh) * | 2020-08-31 | 2020-12-04 | 中国平安人寿保险股份有限公司 | 数据挖掘方法、装置、计算机设备及存储介质 |
-
2007
- 2007-01-10 CN CNB2007100007176A patent/CN100470547C/zh active Active
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834684A (zh) * | 2008-06-13 | 2015-08-12 | 电子湾有限公司 | 用于集群化的方法和系统 |
CN102546228A (zh) * | 2011-06-16 | 2012-07-04 | 广州市龙泰信息技术有限公司 | 一种电信用户细分方法 |
CN102521040A (zh) * | 2011-12-08 | 2012-06-27 | 北京亿赞普网络技术有限公司 | 数据挖掘方法及系统 |
CN106897293A (zh) * | 2015-12-17 | 2017-06-27 | 中国移动通信集团公司 | 一种数据处理方法和装置 |
CN106897293B (zh) * | 2015-12-17 | 2020-09-11 | 中国移动通信集团公司 | 一种数据处理方法和装置 |
CN106407999A (zh) * | 2016-08-25 | 2017-02-15 | 北京物思创想科技有限公司 | 结合规则来进行机器学习的方法及系统 |
CN106997488A (zh) * | 2017-03-22 | 2017-08-01 | 扬州大学 | 一种结合马尔科夫决策过程的动作知识提取方法 |
CN106951569A (zh) * | 2017-04-07 | 2017-07-14 | 广州隆德信息科技有限公司 | 一种数据挖掘分析管理系统 |
CN111083043A (zh) * | 2019-12-26 | 2020-04-28 | 中国科学院信息工程研究所 | 一种邮箱恶意自动转发行为识别方法及装置 |
CN112035549A (zh) * | 2020-08-31 | 2020-12-04 | 中国平安人寿保险股份有限公司 | 数据挖掘方法、装置、计算机设备及存储介质 |
CN112035549B (zh) * | 2020-08-31 | 2023-12-08 | 中国平安人寿保险股份有限公司 | 数据挖掘方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100470547C (zh) | 2009-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100470547C (zh) | 实现数据挖掘模型转换和应用的方法、系统及装置 | |
Lee et al. | Identifying core topics in technology and innovation management studies: A topic model approach | |
CN110825882A (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN100568243C (zh) | 一种数据挖掘和建模的方法及系统 | |
CN112463980A (zh) | 一种基于知识图谱的预案智能推荐方法 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
Malik et al. | The Importance of Text Mining for Services Management | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
CN110489749B (zh) | 一种智能办公自动化系统的业务流程优化方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN116645129A (zh) | 一种基于知识图谱的制造资源推荐方法 | |
CN117271767A (zh) | 基于多智能体的运维知识库的建立方法 | |
CN109165351B (zh) | 一种基于语义的服务构件搜索推荐方法 | |
CN108446380B (zh) | 基于模块化信息存储结构提升产业质量水平的系统 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
JP2018147351A (ja) | 知識モデル構築システム及び知識モデル構築方法 | |
CN116089595A (zh) | 基于科技成果的数据处理推送方法、装置及介质 | |
CN112258235A (zh) | 一种电力营销稽核新业务发现方法及系统 | |
CN117556118B (zh) | 基于科研大数据预测的可视化推荐系统及方法 | |
CN111209375A (zh) | 一种通用的条款与文档匹配方法 | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
CN105138544B (zh) | 一种重塑逻辑演绎链的搜索方法 | |
CN117436453B (zh) | 基于专利数据变化的技术线路变化趋势分析方法及系统 | |
CN112069314B (zh) | 一种基于科技文献数据的特定领域态势分析系统 | |
JP3452308B2 (ja) | データ分析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |