CN101620691A - 电信业自动化数据挖掘平台 - Google Patents
电信业自动化数据挖掘平台 Download PDFInfo
- Publication number
- CN101620691A CN101620691A CN200810039884A CN200810039884A CN101620691A CN 101620691 A CN101620691 A CN 101620691A CN 200810039884 A CN200810039884 A CN 200810039884A CN 200810039884 A CN200810039884 A CN 200810039884A CN 101620691 A CN101620691 A CN 101620691A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- module
- business
- automatic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及电信业自动化数据挖掘平台,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。与现有技术相比,本发明建立了一种用于电信行业的自动化数据挖掘平台,使得业务人员和决策支持人员可以借助此平台建立良好的数据挖掘模型。
Description
技术领域
本发明涉及数据挖掘技术,特别是涉及一种电信业自动化数据挖掘平台。
背景技术
数据挖掘就是通过分析已经存在数据库中的数据解决问题。数据挖掘被定义为发现数据模式的过程。这个过程必须是自动化的或者(通常)是半自动化的。被挖掘出来的规则应该意味着某些方面的优势,特别是经济方面的优势。
很多技术都可以用于数据挖掘。机器学习、模式识别、人工智能等领域的技术、方法经过改进,大都可以应用于数据挖掘。常用的方法有决策树、粗糙集、神经网络、遗传算法、概念树等。
数据挖掘平台为集成了数据挖掘整个流程的平台,包括数据源的连接、数据预处理工具、模型的选取、参数的设置、模型评估以及模型的发布等数据挖掘流程所必须的步骤。目前在数据挖掘方面的优秀平台SAS、SPSS CLEMENTINE、KXEN等数据挖掘平台软件。
以上所述的数据挖掘平台是通用的数据挖掘平台,不涉及具体的业务领域,各行业数据挖掘人员必须掌握通用的数据挖掘工具,要对算法有深入的理解,才能建立较好的业务模型,这增加了数据挖掘的人力成本和财力成本。
另外,数据挖掘工具独立于数据仓库与数据集市之外,例如数据仓库和数据集市的存储选择ORACLE数据库,而数据挖掘平台选择的是SPSS CLEMENTINE,两者是两个相对独立的系统。
发明内容
本发明所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一种电信业自动化数据挖掘平台。
本发明的目的可以通过以下技术方案来实现:电信业自动化数据挖掘平台,其特征在于,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。
所述的数据准备模块包括:
数据迁移单元,用于将不同数据源的数据装载于统一的数据源;
数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指标的统计;
数据准备单元,用于对业务数据进行汇集、排序及编码。
所述的数据指标包括有效值数、缺失值数、最大值、最小值、平均值。
所述的业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该映射关系为:
客户获取/客户流失模型对应分类模型和回归模型;
客户细分模型对应聚类模型和分类模型;
产品关联分析/套餐定制模型对应关联规则模型;
业务指标预测对应时间序列模型。
所述的自动化建模及评估模块包括:
数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值,以及自动做数据集的均衡的操作;
数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最优模型的性能汇报,以此模型在测试集上的性能指标为准;
模型参数选择自动化单元,用于通过“网格搜索”的方式,找到模型的最优参数设置;
模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。
所述的模型发布和部署模块包括:
模型发布单元,用于提供模型接口给业务系统;
模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发布到业务系统中。
与现有技术相比,本发明建立了一种用于电信行业的自动化数据挖掘平台,使得业务人员和决策支持人员可以借助此平台建立良好的数据挖掘模型。
附图说明
图1为本发明的原理图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,电信业自动化数据挖掘平台,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。
所述的数据准备模块包括:
数据迁移单元,用于将不同数据源的数据装载于统一的数据源;
数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指标的统计;
数据准备单元,用于对业务数据进行汇集、排序及编码。
所述的数据指标包括有效值数、缺失值数、最大值、最小值、平均值。
所述的业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该映射关系为:
客户获取/客户流失模型对应分类模型和回归模型;
客户细分模型对应聚类模型和分类模型;
产品关联分析/套餐定制模型对应关联规则模型;
业务指标预测对应时间序列模型。
所述的自动化建模及评估模块包括:
数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值,以及自动做数据集的均衡的操作;
数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最优模型的性能汇报,以此模型在测试集上的性能指标为准;
模型参数选择自动化单元,用于通过“网格搜索”的方式,找到模型的最优参数设置;
模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。
所述的模型发布和部署模块包括:
模型发布单元,用于提供模型接口给业务系统;
模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发布到业务系统中。
数据准备模块,包括数据迁移、数据探索以及数据准备三部分内容,原数据经过数据准备模块形成可直接用于建模的优质数据,并建成分析型数据集和数据集市。
所述建立业务模型与数学模型的映射关系和自动化建模及评估模块,包括建立业务模型与数学模型的映射关系、自动化数据建模及评估、模型解释三部分。
所述模型的发布和部署模块,包括模型的发布和模型的部署两部分内容。
数据迁移是指把不同数据源的数据装载于统一的数据库,在实际的项目当中,与数据挖掘相关的数据源有时分布在不同的异构的数据库中,我们需要将所需的数据抽取并装载到统一的数据库中供下一步处理。
数据探索是指对经过数据迁移形成的统一数据源做数据审核,包括一系列的数据指标的统计,如有效值数、缺失值数、最大值、最小值、平均值等统计指标,通过数据探索可以对数据质量有清楚的认识。
数据准备包括准备分析型数据集、对交易明细数据进行汇总、对交易明细数据序列化和文本数据编码。
建立业务模型与数学模型的映射关系是把商业需求和数学模型同步统一起来,每种业务给出对应的数学模型来进行自动化建模。
自动化数据建模及评估过程将采取自动化方式来实现最优模型选取。包括数据预处理自动化,数据分割自动化,模型参数选择自动化三个部分。
数据预处理的自动化包括自动做BIN操作,自动处理奇异值和缺失值,自动做数据集的均衡等操作。
数据分割的自动化是数据集按照一定的比例将分割为估计集,验证集和测试集。估计集进行模型的建立,按照不同算法和算法的不同参数,在估计集上建立多个模型,然后,多个模型放到验证集上进行验证,得到性能最优模型,对于此最优模型的性能汇报,以此模型在测试集上的性能指标为准。
模型参数选择自动化是依据“网格搜索”的方式,找到模型的最优参数设置。
模型解释将自动化屏蔽模型的算法信息,给出模型的业务解释,显示模型中的重要变量排名,模型的性能衡量,变量的相关性信息。
数据挖掘的模型存放于数据仓库,形成统一模型仓库。定义不同数学模型的结构,以数据表的形式存放于数据仓库。模型能够通过开放的API进行解析。模型发布就是通过API读取模型本身信息,以图形和文字描述的形式,显示于业务系统中。
模型能输出成不同的语言脚本(C,JAVA,PERL,SQL等),应用导出语言进行预测,预测结果发布到业务系统。
Claims (6)
1.电信业自动化数据挖掘平台,其特征在于,包括数据准备模块、业务模型与数学模型映射模块、自动化建模及评估模块、模型发布和部署模块,所述的数据准备模块从一个或多个数据源抽取可直接用于建模的优质数据,并建成分析型数据集和数据集市,所述的业务模型与数学模型映射模块根据待构建业务模型的需求选择相应的数学模型,所述的自动化建模及评估模块根据数据准备模块抽取的优质数据,以及相应的数学模型,构建业务模型,并对构建的模型进行性能评估后,选择最优的业务模型,所述的模型发布和部署模块对业务模型进行发布和部署。
2.根据权利要求1所述的电信业自动化数据挖掘平台,其特征在于,所述的数据准备模块包括:
数据迁移单元,用于将不同数据源的数据装载于统一的数据源;
数据探索单元,用于将数据迁移形成的统一数据源进行数据审核,包括数据指标的统计;
数据准备单元,用于对业务数据进行汇集、排序及编码。
3.根据权利要求2所述的电信业自动化数据挖掘平台,其特征在于,所述的数据指标包括有效值数、缺失值数、最大值、最小值、平均值。
4.根据权利要求1所述的电信业自动化数据挖掘平台,其特征在于,所述的业务模型与数学模型映射模块包括业务模型与数学模型的映射关系,该映射关系为:
客户获取/客户流失模型对应分类模型和回归模型;
客户细分模型对应聚类模型和分类模型;
产品关联分析/套餐定制模型对应关联规则模型;
业务指标预测对应时间序列模型。
5.根据权利要求1所述的电信业自动化数据挖掘平台,其特征在于,所述的自动化建模及评估模块包括:
数据预处理自动化单元,用于进行包括自动做BIN、自动处理奇异值和缺失值,以及自动做数据集的均衡的操作;
数据分割自动化单元,用于将数据集按照一定的比例分割为估计集、验证集和测试集,估计集进行业务模型的构建,按照不同算法和算法的不同参数,在估计集上建立多个模型,多个模型放到验证集上进行验证,得到性能最优模型,对于此最优模型的性能汇报,以此模型在测试集上的性能指标为准;
模型参数选择自动化单元,用于通过“网格搜索”的方式,找到模型的最优参数设置;
模型解释单元,用于将自动屏蔽模型的算法信息,给出模型的业务解释,显示模型中的重要变量排名、模型的性能衡量,以及变量的相关信息。
6.根据权利要求1所述的电信业自动化数据挖掘平台,其特征在于,所述的模型发布和部署模块包括:
模型发布单元,用于提供模型接口给业务系统;
模型部署单元,用于应用模型输出的不同的语言脚本进行预测,将预测结果发布到业务系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810039884A CN101620691A (zh) | 2008-06-30 | 2008-06-30 | 电信业自动化数据挖掘平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810039884A CN101620691A (zh) | 2008-06-30 | 2008-06-30 | 电信业自动化数据挖掘平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101620691A true CN101620691A (zh) | 2010-01-06 |
Family
ID=41513915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810039884A Pending CN101620691A (zh) | 2008-06-30 | 2008-06-30 | 电信业自动化数据挖掘平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101620691A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908191A (zh) * | 2010-08-03 | 2010-12-08 | 深圳市她秀时尚电子商务有限公司 | 应用于电子商务的数据分析方法及系统 |
CN103136417A (zh) * | 2010-12-04 | 2013-06-05 | 提升科技有限公司 | 用于建模分析的基于互联网的托管系统和计算机可读介质 |
CN103150696A (zh) * | 2011-12-06 | 2013-06-12 | 中兴通讯股份有限公司 | 选择目标增值业务潜在客户的方法及装置 |
CN103593769A (zh) * | 2012-08-17 | 2014-02-19 | 精诚资讯股份有限公司 | 电信行为统计分析系统 |
CN103854065A (zh) * | 2012-11-30 | 2014-06-11 | 西门子公司 | 一种用于客户流失预测的方法和装置 |
CN104598987A (zh) * | 2014-12-16 | 2015-05-06 | 南京华苏科技股份有限公司 | 一种利用社交网络中的学习与网络效应来预测移动用户离网倾向和概率的方法 |
CN104915523A (zh) * | 2015-07-02 | 2015-09-16 | 国网福建省电力有限公司 | 一种基于时间序列的调控全业务统一建模方法 |
CN105005575A (zh) * | 2015-03-05 | 2015-10-28 | 张良均 | 一种企业智能预测快速开发接口方法 |
CN106933956A (zh) * | 2017-01-22 | 2017-07-07 | 深圳市华成峰科技有限公司 | 数据挖掘方法和装置 |
CN107038167A (zh) * | 2016-02-03 | 2017-08-11 | 普华诚信信息技术有限公司 | 基于模型评估的大数据挖掘分析系统及其分析方法 |
CN107046480A (zh) * | 2017-04-17 | 2017-08-15 | 广东经纬天地科技股份有限公司 | 一种用户感知评估方法及装置 |
CN107832429A (zh) * | 2017-11-14 | 2018-03-23 | 广州供电局有限公司 | 审计数据处理方法和系统 |
CN108256029A (zh) * | 2018-01-11 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 统计分类模型训练装置及训练方法 |
CN108509644A (zh) * | 2018-04-12 | 2018-09-07 | 成都优易数据有限公司 | 一种具备模型预警更新机制的数据挖掘方法 |
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
CN110738326A (zh) * | 2019-09-24 | 2020-01-31 | 深圳创新奇智科技有限公司 | 一种人工智能服务系统模型的选择方法和结构 |
CN110807044A (zh) * | 2019-10-30 | 2020-02-18 | 东莞市盟大塑化科技有限公司 | 一种基于人工智能技术的模型维度管理方法 |
CN111143097A (zh) * | 2018-11-03 | 2020-05-12 | 千寻位置网络有限公司 | 面向gnss定位服务的故障治理系统和方法 |
CN112348296A (zh) * | 2019-08-07 | 2021-02-09 | 中移信息技术有限公司 | 电信数据获取方法、装置、设备及存储介质 |
CN114880305A (zh) * | 2022-05-25 | 2022-08-09 | 北京明易达科技股份有限公司 | 一种基于数据中台的ai算法建模的方法及系统 |
-
2008
- 2008-06-30 CN CN200810039884A patent/CN101620691A/zh active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908191A (zh) * | 2010-08-03 | 2010-12-08 | 深圳市她秀时尚电子商务有限公司 | 应用于电子商务的数据分析方法及系统 |
CN103136417A (zh) * | 2010-12-04 | 2013-06-05 | 提升科技有限公司 | 用于建模分析的基于互联网的托管系统和计算机可读介质 |
CN103136417B (zh) * | 2010-12-04 | 2016-03-16 | 提升科技有限公司 | 一种基于互联网的自动建模分析方法及系统 |
CN103150696A (zh) * | 2011-12-06 | 2013-06-12 | 中兴通讯股份有限公司 | 选择目标增值业务潜在客户的方法及装置 |
CN103593769A (zh) * | 2012-08-17 | 2014-02-19 | 精诚资讯股份有限公司 | 电信行为统计分析系统 |
CN103854065A (zh) * | 2012-11-30 | 2014-06-11 | 西门子公司 | 一种用于客户流失预测的方法和装置 |
CN104598987A (zh) * | 2014-12-16 | 2015-05-06 | 南京华苏科技股份有限公司 | 一种利用社交网络中的学习与网络效应来预测移动用户离网倾向和概率的方法 |
CN104598987B (zh) * | 2014-12-16 | 2018-08-21 | 南京华苏科技有限公司 | 一种利用社交网络中的学习与网络效应来预测移动用户离网倾向和概率的方法 |
CN105005575A (zh) * | 2015-03-05 | 2015-10-28 | 张良均 | 一种企业智能预测快速开发接口方法 |
CN104915523A (zh) * | 2015-07-02 | 2015-09-16 | 国网福建省电力有限公司 | 一种基于时间序列的调控全业务统一建模方法 |
CN104915523B (zh) * | 2015-07-02 | 2019-03-08 | 国网福建省电力有限公司 | 一种基于时间序列的调控全业务统一建模方法 |
CN107038167A (zh) * | 2016-02-03 | 2017-08-11 | 普华诚信信息技术有限公司 | 基于模型评估的大数据挖掘分析系统及其分析方法 |
CN106933956A (zh) * | 2017-01-22 | 2017-07-07 | 深圳市华成峰科技有限公司 | 数据挖掘方法和装置 |
CN107046480A (zh) * | 2017-04-17 | 2017-08-15 | 广东经纬天地科技股份有限公司 | 一种用户感知评估方法及装置 |
CN107832429A (zh) * | 2017-11-14 | 2018-03-23 | 广州供电局有限公司 | 审计数据处理方法和系统 |
CN108256029A (zh) * | 2018-01-11 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 统计分类模型训练装置及训练方法 |
CN108509644A (zh) * | 2018-04-12 | 2018-09-07 | 成都优易数据有限公司 | 一种具备模型预警更新机制的数据挖掘方法 |
CN111143097A (zh) * | 2018-11-03 | 2020-05-12 | 千寻位置网络有限公司 | 面向gnss定位服务的故障治理系统和方法 |
CN111143097B (zh) * | 2018-11-03 | 2023-04-25 | 千寻位置网络有限公司 | 面向gnss定位服务的故障治理系统和方法 |
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
CN112348296A (zh) * | 2019-08-07 | 2021-02-09 | 中移信息技术有限公司 | 电信数据获取方法、装置、设备及存储介质 |
CN112348296B (zh) * | 2019-08-07 | 2023-12-22 | 中移信息技术有限公司 | 电信数据获取方法、装置、设备及存储介质 |
CN110738326A (zh) * | 2019-09-24 | 2020-01-31 | 深圳创新奇智科技有限公司 | 一种人工智能服务系统模型的选择方法和结构 |
CN110807044A (zh) * | 2019-10-30 | 2020-02-18 | 东莞市盟大塑化科技有限公司 | 一种基于人工智能技术的模型维度管理方法 |
CN114880305A (zh) * | 2022-05-25 | 2022-08-09 | 北京明易达科技股份有限公司 | 一种基于数据中台的ai算法建模的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101620691A (zh) | 电信业自动化数据挖掘平台 | |
US8195709B2 (en) | Comparison of models of a complex system | |
CN109389143A (zh) | 一种数据分析处理系统及自动建模方法 | |
US20100095158A1 (en) | System and method for supply chain data mining and analysis | |
KR20180017198A (ko) | 데이터 처리 방법, 장치, 시스템, 프로그램 및 컴퓨터 판독가능한 기록매체 | |
CN114816374B (zh) | 可视化数据分析流程建模方法及系统 | |
Lagerström et al. | Visualizing and measuring enterprise application architecture: an exploratory telecom case | |
CN108170769A (zh) | 一种基于决策树算法的装配制造质量数据处理方法 | |
CN102750367A (zh) | 在云端平台的大数据检核系统及其方法 | |
US8175852B2 (en) | Method of, and system for, process-driven analysis of operations | |
CN110399303A (zh) | 用于准备测试数据的方法、数据准备装置和电子设备 | |
Rohanizadeh et al. | A proposed data mining methodology and its application to industrial procedures | |
US7941301B2 (en) | Modelling a complex system | |
CN108985471B (zh) | 基于3d轻量化模型的航空器管理系统 | |
CN108920609A (zh) | 基于多维度分析的电力实验数据挖掘方法 | |
CN111625919A (zh) | 物流仿真系统的设计方法和装置 | |
CN105868956A (zh) | 一种数据处理方法及装置 | |
CN117575222A (zh) | 生产管理方法、系统、设备及存储介质 | |
US20100153155A1 (en) | Method and system for identifying software applications for offshore testing | |
CN105138612A (zh) | 数据一致性差异原因的分析和定位的方法及系统 | |
CN116775741A (zh) | 一种工程竣工决算的审计方法及相关装置 | |
CN109992251B (zh) | 一种面向业务变量的软件开发方案生成方法 | |
CN117043776A (zh) | 用于数字设计和鉴定的方法和系统 | |
CN117114600A (zh) | 一种电网生产指挥中心rpa虚拟员工管理方法及系统 | |
CN106201888A (zh) | 智能视频叠加处理器自动测试方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100106 |