CN104933043A

CN104933043A - 一种数据挖掘的方法

Info

Publication number: CN104933043A
Application number: CN201410095477.2A
Authority: CN
Inventors: 温光林
Original assignee: Chengdu Zhiyan Technology Co Ltd
Current assignee: Chengdu Zhiyan Technology Co Ltd
Priority date: 2014-03-17
Filing date: 2014-03-17
Publication date: 2015-09-23

Abstract

本发明公开了一种数据挖掘的方法，它涉及数据挖掘技术领域，它挖掘的方法如下：(一)、分类；(二)、估计；(三)、预测；(四)、相关性分组、关联规则；(五)、聚类；(六)、描述和可视化；本发明实现较为普遍的客户分群；预测有一定的准确性；指出用户行为内在的联系；有较好的可视化工具；TB级系统规模，日均亿条原始数据处理能力；廉价主机集群应用；数据安全及容灾。

Description

一种数据挖掘的方法

技术领域：

本发明涉及一种数据挖掘的方法，属于数据挖掘技术领域。

背景技术：

在商业智能解决方案的帮助下，企业级用户可以通过充分挖掘现有的数据资源，捕获信息、分析信息、沟通信息，发现许多过去缺乏认识或未被认识的数据关系，帮助企业管理者做出更好的商业决策，例如开拓什么市场、吸引哪些客户、促销何种产品等等。商业智能还能够通过财务分析、风险管理、欺诈分析、销售分析等过程帮助企业降低运营成本，进而获得更高的经营效益。

根据世界权威性的IDC公司的调查结果表明，企业用于商业智能的投资回报率平均2.3年高达400％。数据仓库是商业智能解决方案的基础，一项来自美国MetaGroup的市场分析指出，92％的企业将在今后3年内使用数据仓库，数据库访问因特网和企业内部网所带来的投资回报率达68％。

现在国外的企业，大部分已经进入了数据分析以及数据挖掘的应用当中。而中国的企业，目前大部分还停留在报表阶段。传统的报表系统技术上已经相当成熟，大家熟悉的Excel、水晶报表、Reporting Service等都已经被广泛使用。但是，随着数据的增多，需求的提高，传统报表系统面临的挑战也越来越多。

一、数据太多，信息太少：

密密麻麻的表格堆砌了大量数据，到底有多少业务人员仔细看每一个数据?到底这些数据代表了什么信息、什么趋势?级别越高的领导，越需要简明的信息；企业的管理者往往只需要一句话：目前我们的情况是好、中还是差；

二、难以交互分析、了解各种组合：

定制好的报表过于死板。例如，我们可以在一张表中列出不同地区、不同产品的销量，另一张表中列出不同地区、不同年龄段顾客的销量。但是，这两张表无法回答诸如“华北地区中青年顾客购买数码相机类型产品的情况”等问题。业务问题经常需要多个角度的交互分析。

三、难以挖掘出潜在的规则：

报表系统列出的往往是表面上的数据信息，但是海量数据深处潜在含有哪些规则呢?什么客户对我们价值最大，产品之间相互关联的程度如何?越是深层的规则，对于决策支持的价值越大，但是，也越难挖掘出来。

四、难以追溯历史，数据形成孤岛：

业务系统很多，数据存在于不同地方。太旧的数据(例如一年前的数据)往往被业务系统备份出去，导致宏观分析、长期历史分析难度很大。

因此，随着时代的发展，传统报表系统已经不能满足日益增长的业务需求了，企业期待着新的技术。数据分析和数据挖掘的时代正在来临。值得注意的是，数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值，并不是取代数据报表。报表系统依然有其不可取代的优势，并且将会长期与数据分析、挖掘系统一起并存下去。

发明内容：

针对上述问题，本发明要解决的技术问题是提供一种数据挖掘的方法。

本发明的一种数据挖掘的方法，它挖掘的方法如下：

一、分类：首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类；

二、估计：估计与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的；

一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。例如：银行对家庭贷款业务，运用估值，给各个客户记分。然后，根据阈值，将贷款级别分类。

三、预测：通常，预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。从这种意义上说，预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预言准确性是多少。

四、相关性分组、关联规则：决定哪些事情将一起发生；

五、聚类：聚类是对记录分组，把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。聚集通常作为数据挖掘的第一步。例如，″哪一种类的促销对客户响应最好?″，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。

六、描述和可视化：是对数据挖掘结果的表示方式。

本发明的有益效果为：实现较为普遍的客户分群；预测有一定的准确性；指出用户行为内在的联系；有较好的可视化工具；TB级系统规模，日均亿条原始数据处理能力；廉价主机集群应用；数据安全及容灾。

具体实施方式：

本具体实施方式采用以下技术方案：它挖掘的方法如下：

三、预测：预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言；

四、相关性分组、关联规则：决定哪些事情将一起发生；

五、聚类：聚类是对记录分组，把相似的记录在一个聚集里；

六、描述和可视化：是对数据挖掘结果的表示方式。

本具体实施方式具体的步骤为：

1.理解数据和数据的来源：

首先要能深入准确的理解具体的行业规则以及商业逻辑，然后通过对商业的理解，再去认识具体的数据，遇到不能理解的数据再去理解相应的商业逻辑，这样反复进行，直至完全理解。

2.获取相关知识与技术：

在理解数据的同时获取相关的行业知识，并在数据准备开始前，根据具体的商业和数据的具体情况，完成相关的技术选择和准备。

3.整合与检查数据：

因为数据源很可能是多种多样的，例如：不同类型数据库的表、excel、文本文件等等，所以数据准备的第一个工作就是完成多种数据的整合，能够保证所有的数据源里的数据都能整合到一起来，形成一份完整的新数据。完成整合后，数据需要仔细的检查和验证，保证数据的准确和数据内在逻辑上的自洽。

4.去除错误或不一致的数据：

也是数据准备中的重要工作，各个数据源的数据质量参差不齐，必须对数据进行相应的清洗，根据数据检查的结果，清洗掉所有错误的、异常的、不合逻辑的等等不正常的″脏″数据，以保证数据准备工作的质量。

5.建立模型和假设：

建模是整个数据挖掘工作中最重要的；只有在拥有一个简洁、高效、可扩展、稳定的模型下，数据挖掘工作才能顺利的开展；一个糟糕的设计，往往会让后续的数据挖掘工作变得异常困难，甚至完全陷入停滞的状态。要设计一个好的模型，必须对商业和数据都有很深入的理解，对商业和数据的理解不到位，必然无法完成一个好的模型设计。建模和数据准备也是一个螺旋上升、相互推进的过程。有了基本的数据准备，才能谈建模；模型建好了，才能根据模型准备更详细的数据；更详细的数据准备的过程中，发现设计的模型跟实际情况不符，就要继续修改模型的设计。如此这般推进，直至模型基本完善。

6.实际数据挖掘工作：

数据准备和建模完成后，就是具体的数据挖掘工作了。根据我们关心的问题，通过相应的数学算法，分析我们准备好的数据，得出相应的结论。

7.测试和验证挖掘结果：

这部分工作，主要分为基本逻辑验证和商业逻辑验证。基本逻辑验证主要是一些技术性的验证手段。例如：结果的交叉对比、数据内部是否自洽、是否符合基本的常识等等，是不需要用户参与的。而商业逻辑验证则主要是一些商业经验的验证，需要用户加入进来进行验证，看是否符合用户的商业逻辑。例如：收入的波动是不是符合实际情况、哪种促销是最受欢迎的等等。

这时我们就对商业和数据有了更深入的理解，数据挖掘就又进入了一个新的循环，数据准备更加准确和丰富，模型设计更加完善，然后得出新的结论。

8.解释和应用：

通过漫长的理解、建模、检验，最终我们通过数据挖掘得到了一些结论性的东西，但是这些东西都是很抽象的。我们要通过我们对商业的理解，对这些结论作出合理的解释。例如：为什么上月的电话卡销售额突然有较大的增长?我们通过分析，发现增加部分都是学生消费的，那么可能有两种原因，一个暑假，另一个则可能是毕业找工作的高峰。然后我们就可以进一步的验证，比如让业务部门随机联系一些客户进行验证，得出最终的结论。最后根据这个结论，再来指导业务部门进行商业活动。

这个工作对用户来说是最重要的，一切无法解释或者无法运用的结论都是无用的，例如：当一个新的小超市开业，其最畅销的物品是马桶清洗剂，但是马桶清洗剂并没有促销。这样的结论通常无法找到合理的解释，就更没法进行实际应用了。所以我们的结论一定要能用商业经验解释，并且能应用到商业活动当中去。

实施例：

数据挖掘在生产经营中的应用：

1.优化企业资源：节约成本是企业盈利的关键。基于数据挖掘技术，实时、全面、准确地掌握企业资源信息，通过分析历史的财务数据、库存数据和交易数据，可以发现企业资源消耗的关键点和主要活动的投入产出比例，从而为企业资源优化配置提供决策依据，例如降低库存、提高库存周转率、提高资金使用率等。

通过对Web数据挖掘，快速提取商业信息，使企业准确地把握市场动态，极大地提高企业对市场变化的响应能力和创新能力，使企业最大限度地利用人力资源、物质资源和信息资源，合理协调企业内外部资源的关系，产生最佳的经济效益。促进企业发展的科学化、信息化和智能化。

例如：美国运通公司(American Express)有一个用于记录信用卡业务的数据库，数据量达到54亿字符，并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘，制定了″关联结算(Relation shipBilling)优惠″的促销策略，即如果一个顾客在一个商店用运通卡购买一套时装，那么在同一个商店再买一双鞋，就可以得到比较大的折扣，这样既可以增加商店的销售量，也可以增加运通卡在该商店的使用率。

2.管理客户数据：

随着以客户为中心的经营理念的不断深入人心，分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。基于数据挖掘技术，企业将最大限度地利用客户资源，开展客户行为的分析与预测，对客户进行分类。有助于客户盈利能力分析，寻找潜在的有价值的客户，开展个性化服务，提高客户的满意度和忠诚度。利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性，学历、收入如何，有什么爱好，是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品，以及什么样的人会购买什么型号的该种商品等等。在采用了数据挖掘后，针对目标客户发送的广告的有效性和回应率将得到大幅度的提高，推销的成本将大大降低。同时，在客户数据挖掘的基础上，企业可以发现重点客户和评价市场性能，制定个性化营销策略，拓宽销售渠道和范围，为企业制定生产策略和发展规划提供科学的依据。

成功案例：美国的读者文摘(Reader’s Digest)出版公司运行着一个积累了40年的业务数据库，其中容纳有遍布全球的一亿多个订户的资料，数据库每天24小时连续运行，保证数据不断得到实时的更新，正是基于对客户资料数据库进行数据挖掘的优势，使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务，极大地扩展了自己的业务。

3.评估商业信用：

低劣的信用状况是影响商业秩序的突出问题，已经引起世人的广泛关注。由于网上诈骗现象层出不穷，企业财务″造假″现象日益严重，信用危机成为制约电子商务发展的重要因素。利用数据挖掘技术对企业经营进行跟踪，开展企业的资产评估、利润收益分析和发展潜力预测，构建完善的安全保障体系，实施网上全程监控，强化网上交易和在线支付的安全管理。基于数据挖掘的信用评估模型，对交易历史数据进行挖掘，发现客户的交易数据特征，建立客户信誉度级别，有效地防范和化解信用风险，提高企业信用甄别与风险管理的水平和能力。

4.确定异常事件：

在许多商业领域中，异常事件具有显著的商业价值，如客户流失、银行的信用卡欺诈、电信中移动话费拖欠等。通过数据挖掘中的奇异点分析可以迅速准确地甄别这些异常事件，为企业采取决策提供依据，减少企业不必要的损失。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种数据挖掘的方法，其特征在于：它挖掘的方法如下：

(一)、分类：首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类；

(二)、估计：估计与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的；

(三)、预测：预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言；

(四)、相关性分组、关联规则：决定哪些事情将一起发生；

(五)、聚类：聚类是对记录分组，把相似的记录在一个聚集里；

(六)、描述和可视化：是对数据挖掘结果的表示方式。