CN106933956B - 数据挖掘方法和装置 - Google Patents
数据挖掘方法和装置 Download PDFInfo
- Publication number
- CN106933956B CN106933956B CN201710047880.1A CN201710047880A CN106933956B CN 106933956 B CN106933956 B CN 106933956B CN 201710047880 A CN201710047880 A CN 201710047880A CN 106933956 B CN106933956 B CN 106933956B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- historical data
- historical
- prediction result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种数据挖掘方法和装置,从数据源获取实时数据,对实时数据进行数据清洗,得到清洗后的实时数据,根据清洗后的实时数据建立数据仓库。根据数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出,其中,预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。因为通过多个不同的数据挖掘模型,对历史数据进行了分析建模,所以挑选出的模型会更加符合历史数据的特异性,从而提高对不同客户的不同数据的预测准确性,可以处理客户个性化需求。
Description
技术领域
本发明涉及大数据技术领域,特别是涉及一种数据挖掘方法和装置。
背景技术
近些年来,由于全球信息技术的迅速发展和互联网的快速普及造成了数据过量和信息爆炸,人们迫切需要将这些数据转换成有用的信息和知识并加以利用。这就需要用到数据挖掘技术。数据挖掘技术一般是指从大量的数据中通过算法搜索出隐藏信息的方法。数据挖掘技术广泛应用在很多行业,如金融业、通信业、交通业、大型零售业及保险业等行业。
传统的数据挖掘软件因为标准化的分析,不能处理个性化的需求,不能给用户带来很高的满意度。因此,急需开发出一种可以处理客户个性化需求的数据挖掘方法。
发明内容
基于此,有必要针对上述技术问题,提供一种可以处理客户个性化需求的数据挖掘方法和装置。
一种数据挖掘方法,所述方法包括:
从数据源获取实时数据;
对所述实时数据进行数据清洗,得到清洗后的实时数据,根据所述清洗后的实时数据建立数据仓库;
根据所述数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出;
其中,所述预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。
一种数据挖掘装置,所述装置包括:
实时数据获取模块,用于从数据源获取实时数据;
数据仓库建立模块,用于对所述实时数据进行数据清洗,得到清洗后的实时数据,根据所述清洗后的实时数据建立数据仓库;
预测模块,用于根据所述数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出,其中,所述预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。
上述数据挖掘方法和装置,从数据源获取实时数据,对实时数据进行数据清洗,得到清洗后的实时数据,根据清洗后的实时数据建立数据仓库。根据数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出。其中,预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。选取多个不同的数据挖掘模型,对历史数据进行分析建模,从而挑选出准确性最高的数据挖掘模型作为预设数据挖掘模型。因为通过多个不同的数据挖掘模型,对历史数据进行了分析建模,所以挑选出的模型会更加符合历史数据的特异性,从而提高对不同客户的不同数据的预测准确性,可以处理客户个性化需求。
附图说明
图1为一个实施例中数据挖掘方法的应用环境图;
图2为一个实施例中服务器的内部结构图;
图3为一个实施例中数据挖掘方法的流程图;
图4为另一个实施例中数据挖掘方法的流程图;
图5为图4中选择模型群并建立模型方法的流程图;
图6为一个实施例中数据挖掘装置的结构示意图;
图7为另一个实施例中数据挖掘装置的结构示意图;
图8为再一个实施例中数据挖掘装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本发明实施例提供的数据挖掘方法可应用于如图1所示的环境中。参考图1 所示,终端102通过网络与服务器104连接。
在一个实施例中,如图2所示,还提供了一种服务器,该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口,非易失性存储介质中存储有操作系统和一种数据挖掘装置,该数据挖掘装置用于执行一种数据挖掘方法。该处理器用于提高计算和控制能力,支撑整个服务器的运行。内存储器用于为非易失性存储介质中的数据挖掘装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得该处理器执行一种数据挖掘方法。网络接口用于与终端进行网络通信,接收或发送数据。
在一个实施例中,如图3所示,提供了一种数据挖掘方法,以该方法应用于图1中的服务器为例进行说明,具体包括:
步骤310,从数据源获取实时数据。
该方法可以从多种数据源获取实时数据,比如说csv(Comma-Separated Values,逗号分隔值)文件、txt文件或者数据库等数据源。csv文件以纯文本形式存储表格数据,纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。csv文件由任意数目的记录组成,记录间以某种换行符分隔,每条记录由字段组成,字段间由分隔符隔开,最常见的是逗号或制表符。 Txt文件是一种文本文档。
实时数据是指在时间上为当前的数据。比如在地铁站点人流量预测的实施例中,当前时间为早上7点,那么实时数据就指早上7点地铁站的人流量。
步骤320,对实时数据进行数据清洗,得到清洗后的实时数据,根据清洗后的实时数据建立数据仓库。
因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突。这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”,我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。数据清洗的任务是过滤那些不符合要求的数据,主要指残缺数据、错误数据、重复数据这三种数据。
对从业务系统中抽取的实时数据去除残缺数据、错误数据、重复数据后,根据去除上述数据后的实时数据建立数据仓库。建立数据库可选择多种方式,比如HIVE,HDFS,也可以选用传统的数据库mysql等。
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,可以直接使用sql语句实现对数据的查询、更新、新增、删除等操作,可以处理海量数据的查询分析工作。
HDFS(Hadoop分布式文件系统),是被设计成适合运行在通用硬件 (commodityhardware)上的分布式文件系统。HDFS有着高容错性(fault-tolerant) 的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量 (high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
MySQL是一个关系型数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。 MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。
步骤330,根据数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出,其中,预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。
预设数据挖掘模型是通过对历史数据进行分析建模,从中挑选出的准确性最高、最符合历史数据的个性化特点的数据挖掘模型。再根据已经建好的数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出。具体为根据当前的实时数据预测下一时间段的数据。
本实施例中,根据数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测。而预设数据挖掘模型是通过多个不同的数据挖掘模型,对历史数据分别进行了分析建模,根据建模输出结果从中挑选出的预测准确性最高的模型。所以用预设数据挖掘模型会更加符合历史数据的特异性,从而提高对不同客户的不同数据的预测准确性,可以处理客户个性化需求。
在一个实施例中,如图4所示,在从数据源获取实时数据之前,还包括:
步骤340,从数据源获取历史数据,历史数据包括第一历史数据和第二历史数据,第一历史数据和第二历史数据为前后的不同的时间段的两个历史数据。
可以从多种数据源获取历史数据,比如说csv文件、txt文件或者数据库等数据源。历史数据是相对于实时数据而言的,是已经产生的数据。历史数据包括第一历史数据和第二历史数据,第一历史数据和第二历史数据为前后的不同的时间段对应的两个历史数据。
比如在地铁站点人流量预测的实施例中,具体为对A地铁站点进行人流量预测。用已经发生的7月1号到7月6号每天A地铁站点人流量与时间对应的历史数据,来预测已经发生的7月11号的人流量与时间对应的数据。在本实施例中,第一历史数据指7月1号到7月6号每天A地铁站点人流量与时间对应的历史数据,第二历史数据指7月11号A地铁站点的人流量与时间对应的历史数据。
步骤350,对第一历史数据和第二历史数据进行清洗,根据清洗后的第一历史数据和第二历史数据建立数据仓库。
对第一历史数据和第二历史数据进行清洗,得到清洗后的第一历史数据和第二历史数据。根据清洗后的第一历史数据和第二历史数据建立数据仓库。数据清洗的任务是过滤那些不符合要求的数据,主要指残缺数据、错误数据、重复数据这三种数据。
建立数据库可选择多种方式,比如HIVE,HDFS,也可以选用传统的数据库mysql等。
步骤360,从模型池中选择模型群,根据模型群中的数据挖掘模型分别对数据仓库中的第一历史数据进行建立模型。
模型池中预先放入了很多种模型,根据每个模型能够处理的数据的类别和特点,以及所能输出的结果对不同的模型已经预先进行了分类组建模型群。比如,将常用于人流量预测的模型组建一个模型群,例如逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型等。
逻辑回归模型又称作Logit模型,是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。Logit模型是最早的离散选择模型,也是目前应用最广的模型。
逻辑分布(Logistic distribution)公式:P(Y=1│X=x)=exp(x'β)/(1+exp(x'β))
其中参数β常用极大似然估计。
正则化回归模型(Regularization)是一种可以避免过拟合的机器学习算法,过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增大。回归的拟合情况有三种情况:拟合不够好,刚刚好,过拟合。出现这拟合不够好和过拟合情况的主要原因分别是模型里面的特征较少,这样的模型无疑对真正的数据有着“偏见”。而过拟合的原因是,特征个数太多,而训练集的数据不足以训练这么多特征,因此测试数据上误差就会很大。正则化回归模型就是提供了一种机制可以权衡拟合不够好和过拟合的情况,使得拟合模型达到最优效果。
灰色预测模型是一种对含有不确定因素的系统进行预测的方法。灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。其用等时距观测到的反应预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。
随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。决策树相当于一个大师,通过自己在数据集中学到的知识对于新的数据进行分类。
根据我们获取的第一历史数据的类别和特点,以及通过建模所要输出的结果,从模型池中选出适合的模型对数据仓库中的第一历史数据进行重新建模。比如在地铁站点人流量预测的实施例中,具体为从模型池中选出用于人流量预测的模型群,包括逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型等。根据选出的模型群中的每一个模型,分别对数据仓库中的第一历史数据进行重新建模。具体为,将第一历史数据带入模型中进行运算,通过运算对原模型的参数进行修改,得出重新建模后的模型。
步骤370,通过建立的模型分别预测第二历史数据对应的时间段所对应的数据,生成第二预测结果。
通过重新建模后的模型分别预测第二历史数据对应的时间段所对应的数据,即为通过重新建模后的模型对第二历史数据进行回测。比如在的实施例中,具体为通过重新建模后的逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型,对第二历史数据进行回测,预测7月11号的A 地铁站点人流量与时间对应的数据。生成第二预测结果,第二预测结果即为预测所得到的7月11号的A站点人流量与时间对应的数据。
步骤380,分别将第二预测结果与第二历史数据进行比较,得到准确性最高的数据挖掘模型作为预设数据挖掘模型。
将预测第二历史数据对应的时间段所对应的数据,生成的第二预测结果与第二历史数据进行比较。选出准确性最高的数据挖掘模型作为预设数据挖掘模型。比如在地铁站点人流量预测的实施例中,具体为将预测得出的7月11号的 A地铁站点人流量与时间对应的数据,与7月11号的A地铁站点人流量的真实历史数据进行比较,选出准确性最高的数据挖掘模型作为预设数据挖掘模型。
在本实施例中,模型池中预先放入了很多种模型,且根据模型能够处理的数据的类别和特点,以及所能输出的结果对不同的模型已经预先进行了分类组建模型群。所以我们根据获取的第一历史数据的类别和特点,以及所要输出的结果,从模型池中选择匹配的模型群。根据选出的模型群中的每一个模型,分别对数据仓库中的第一历史数据进行重新建模。因为使用了多个模型进行建模,所以会提高模型建立的准确性、匹配性,相比于只通过一个模型进行建模,大大降低模型建立不准确的概率。通过重新建模后的模型分别对第二历史数据进行回测生成第二预测结果,分别将第二预测结果与第二历史数据进行比较,得到准确性最高的数据挖掘模型作为预设数据挖掘模型。
在一个实施例中,如图5所示,从模型池中选择模型群,根据模型群中的数据挖掘模型分别对数据仓库中的第一历史数据进行建立模型,具体包括:
步骤362,确定第一历史数据的类别和特点。
确定第一历史数据的类别。例如,第一历史数据可能是人流量数据、客户的微博浏览信息数据、客户的线上消费信息数据等。
确定第一历史数据的特点。例如,第一历史数据可能是离散型数据或者连续性数据。
步骤364,确定对第一历史数据进行建模分析所要输出的结果。
确定对第一历史数据进行建模分析所要输出的结果。比如在地铁站点人流量预测的实施例中,通过数据挖掘模型需要输出的是人流量数据。而在客户的微博浏览信息数据进行数据挖掘时,通过数据挖掘模型需要获得客户的关注习惯、消费倾向及消费习惯等,进而进行定制相关的营销措施,例如:消息定向推荐或者定制商品促销等。
步骤366,根据第一历史数据的类别和特点及所要输出的结果从模型池中选择对应的模型群。
根据第一历史数据的类别和特点及所要输出的结果,从模型池中选出与第一历史数据的类别和特点及所要输出的结果匹配的模型群。模型池中预先放入了很多种模型,且根据模型能够处理的数据的类别和特点,以及所能输出的结果对不同的模型已经预先进行了分类组建模型群。
步骤368,根据模型群中的模型分别对数据仓库中的第一历史数据进行建立模型。
根据从模型池中选出的匹配的模型群中的每个模型对数据仓库中的第一历史数据进行重新建模。比如在人流量预测的实施例中,根据从模型池中已经选出的常用于人流量预测的模型,例如逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型等。分别通过逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型对数据仓库中的第一历史数据进行重新建模。
在本实施例中,通过确定第一历史数据的类别和特点及对第一历史数据进行建模分析所要输出的结果,对模型池中的模型群进行匹配。选出匹配的模型群后,一一通过模型群中的每个模型对第一历史数据进行重新建模。因为使用了多个模型进行建模,所以会提高模型建立的准确性、匹配性,相比于只通过一个模型进行建模,大大降低模型建立不准确的概率。
在一个实施例中,分别将第二预测结果与第二历史数据进行比较,得到准确性最高的数据挖掘模型作为预设数据挖掘模型,具体包括:
步骤382,分别将第二预测结果与第二历史数据进行一致性比较,生成一致性比较结果。
分别将第二预测结果与第二历史数据进行一致性比较,具体为通过计算第二预测结果和第二历史真实数据的方差及标准差,来进行一致性比较,生成一致性比较结果即一致性是高还是低。
步骤384,根据一致性比较结果确定建立的模型的准确性。
根据一致性比较结果,选取一致性最高的模型为预设数据挖掘模型,用于对实时数据进行预测。
在一个实施例中,在将第一预测结果输出之后,还包括:根据第一预测结果制定与第一预测结果对应的营销策略或者根据第一预测结果进行判断,判断第一预测结果是否超过阈值,再制定相应的策略。
从csv文件、txt文件或者数据库等数据源获取实时数据,对实时数据进行数据清洗,过滤那些不符合要求的数据进而得到清洗后的实时数据,根据清洗后的实时数据建立数据仓库。对数据仓库中的实时数据,通过选出的预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出。
在将第一预测结果输出之后,根据第一预测结果制定与第一预测结果对应的营销策略。例如对客户的微博浏览信息数据进行数据挖掘时,通过预设数据挖掘模型预测客户的关注习惯、消费倾向及消费习惯等,进而定制相关的营销措施,如消息定向推荐或者定制商品促销等。
或者根据第一预测结果进行判断,判断第一预测结果是否超过阈值,再制定相应的策略。比如在地铁站点人流量预测的实施例中,通过预设数据挖掘模型预测预设时间段具体为下一未来时间段特定站点的人流量数据,然后计算该站点的实时饱和度,判断实时饱和度是否超过饱和度的阈值。如果超过则需要制定相应的策略,具体为提前启用事先已经定义好的应急预案库,比如进行人流疏散或者进行发车时间缩短调整等,避免在下一未来时间段发生站点拥堵事件。
在本实施例中,对数据仓库中的实时数据,通过选出的预设数据挖掘模型对预设时间段即下一未来时间段的数据进行预测,获取第一预测结果,再根据第一预测结果制定与第一预测结果对应的营销策略或者根据第一预测结果进行判断,判断第一预测结果是否超过阈值,再制定相应的策略。能够未卜先知,提前获知下一未来时间段的实时数据,从而提前获取商机或者制定策略避免事故发生。
在一个实施例中,提供了一种数据挖掘方法,该方法以应用于如图1所示的环境中进行举例说明。
提供了一种数据挖掘方法,用于对地铁站人流量进行预测。地铁作为公共运输的主干线和客流运送的大动脉,人员密集且流动性大,一旦发生事故可能造成重大人员伤亡和财产损失。准确预测进出站人流,一方面可以让压力站点提前做好预警,保障行人安全出行,另一方面也可以为发车频率、新建站点等新晋规划提供参考,平衡客运量与地铁投入的关系。
在软件开发阶段,首先我们从数据源获取历史数据,具体为几乎每位乘坐地铁的乘客都会携带手机,所以利用通信基站获取手机用户进站和出站所产生的历史数据。选取A地铁站中国移动通信基站,该通信基站上的历史数据是一个数据表,记录了基站编号、手机用户编号及手机用户编号获取时间的对应关系。按照中国移动手机用户大约在三大运营商中占比58%的权重,进行分析预测所有的手机用户。
历史数据包括第一历史数据和第二历史数据,第一历史数据和第二历史数据为前后的不同的时间段对应的两个历史数据。第一历史数据可以是其中某6 天,例如7月1号到7月6号每天A地铁站的手机用户进站和出站所产生的历史数据对应的数据表。第二历史数据可以是7月11号A地铁站的手机用户进站和出站所产生的历史数据对应的数据表。
将从中国移动通信基站获取的第一历史数据及第二历史数据对应的数据表进行数据清洗。清洗规则为:首先去除无效的手机用户ID即错误的手机用户ID;再去除进站后临近时间出现的多个相同的手机用户ID,只保留该手机用户ID第一次出现时间的数据行;其次去除出站后临近时间出现的多个相同的手机用户 ID,只保留该手机用户ID第一次出现时间的数据行;最后,去除手机用户ID 在地铁上漫游于各小区通信基站之间的过站无效手机用户ID,即手机用户ID在进站时记录一次出站时记录一次,两次记录之间的都是过站无效手机用户ID。从而经过数据清洗后获取真实的手机用户进站和出站所产生的第一历史数据及第二历史数据对应的数据表。
进一步的,对清洗后的第一历史数据及第二历史数据对应的数据表建立数据仓库。
进一步的,确定第一历史数据的类别为人流量数据,确定第一历史数据的特点为连续性数据,确定对第一历史数据进行建模分析所要输出的结果是人流量数据。然后从模型池中选择出常用于人流量预测的模型群,该模型群中包括逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型等数据挖掘模型,根据该模型群中的数据挖掘模型分别对数据仓库中的第一历史数据进行重新建立模型,即为对数据仓库中的7月1号到7月6号的第一历史数据进行重新建立模型。
通过重新建模后的上述4种模型分别对数据仓库中的7月11号A地铁站的第二历史数据进行回测,生成4种第二预测结果。第二预测结果为7月11号当天的A地铁站的人流量与时间的对应数据。
进一步的,分别将通过上述4种模型预测所得出的4种7月11号当天的A 地铁站的人流量与时间的对应数据与数据仓库中的真实的第二历史数据进行一致性比较。具体为计算预测所得出的数据与真实的第二历史数据的方差及标准差进行比较,方差及标准差越小的说明波动性越小即一致性越高。选取一致性最高的模型为预设数据挖掘模型,用于对实时数据进行预测。软件开发阶段完成。
在软件上线后,用户使用该软件对当天的A地铁站点人流量实时数据进行预测。首先选取A地铁站中国移动通信基站,当前时间为早上7点整,那么获取当天6点到7点之间该通信基站上的一个数据表,该数据表记录了6点到7 点之间基站编号、手机用户编号及手机用户编号获取时间的对应关系。对数据表进行数据清洗,数据清洗步骤与对从基站获取的历史数据的清洗规则相同。得到清洗后的6点到7点之间的实时数据,根据清洗后的实时数据建立数据仓库。通过预设数据挖掘模型对7点15分A地铁站的人流量进行预测。生成第一预测结果即7点15分A地铁站的人流量数据并输出,根据7点15分A地铁站的人流量数据,计算7点15分时A站点的实时饱和度,判断实时饱和度是否超过A站点饱和度的阈值。如果超过则需要制定相应的策略,具体为提前启用事先已经定义好的应急预案库,比如进行人流疏散或者缩短发车间隔时间等,避免在下一未来时间段发生站点拥堵事件。
在一个实施例中,如图6所示,还提供了一种数据挖掘装置,该装置包括:实时数据获取模块610、数据仓库建立模块620及预测模块630。
实时数据获取模块610,用于从数据源获取实时数据。
数据仓库建立模块620,用于对实时数据进行数据清洗,得到清洗后的实时数据,根据清洗后的实时数据建立数据仓库。
预测模块630,用于根据数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出,其中,预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。
在一个实施例中,如图7所示,数据挖掘装置还包括:历史数据获取模块 710、模型建立模块730及预设数据挖掘模型确定模块750。
历史数据获取模块710,用于从数据源获取历史数据,历史数据包括第一历史数据和第二历史数据,第一历史数据和第二历史数据为不同的时间段对应的两个历史数据。
数据仓库建立模块720,还用于对第一历史数据和第二历史数据进行清洗,根据清洗后的第一历史数据和第二历史数据建立数据仓库。
模型建立模块730,用于从模型池中选择模型群,根据模型群中的数据挖掘模型分别对数据仓库中的第一历史数据进行建立模型。
预测模块740,还用于通过建立的模型分别预测第二历史数据的时间段所对应的数据,生成第二预测结果。
预设数据挖掘模型确定模块750,用于分别将第二预测结果与第二历史数据进行比较,得到准确性最高的数据挖掘模型作为预设数据挖掘模型。
在一个实施例中,模型建立模块730还用于确定第一历史数据的类别和特点;确定对第一历史数据进行建模分析所要输出的结果;根据第一历史数据的类别和特点及所要输出的结果从模型池中选择对应的模型群;根据模型群中的模型分别对数据仓库中的第一历史数据进行建立模型。
在一个实施例中,预设数据挖掘模型确定模块750还用于分别将第二预测结果与第二历史数据进行一致性比较,生成一致性比较结果;根据一致性比较结果确定建立的模型的准确性。
在一个实施例中,如图8所示装置还包括:策略制定模块640,用于根据第一预测结果制定与第一预测结果对应的营销策略或者根据第一预测结果进行判断,判断第一预测结果是否超过阈值,再制定相应的策略。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据挖掘方法,用于对地铁站人流量进行预测,所述方法包括:
从数据源获取地铁站点的人流量与时间对应的历史数据,所述历史数据包括第一历史数据和第二历史数据,所述第一历史数据和第二历史数据为前后的不同时间段的两个历史数据;
对所述第一历史数据和第二历史数据进行清洗,根据清洗后的所述第一历史数据和第二历史数据建立数据仓库;
从模型池中选择人流量预测模型群,确定所述第一历史数据的类别和特点;
确定对所述第一历史数据进行建模分析所要输出的结果;
根据所述第一历史数据的类别和特点及所述所要输出的结果从所述模型池中选择对应的模型群;
根据所述模型群中的模型分别对所述数据仓库中的第一历史数据进行建立模型;所述人流量预测模型群中包括逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型;
通过建立的模型分别预测所述第二历史数据对应的时间段所对应的数据,生成第二预测结果;
分别将所述第二预测结果与所述第二历史数据进行比较,得到准确性最高的所述数据挖掘模型作为预设数据挖掘模型;
从所述数据源获取实时数据;
对所述实时数据进行数据清洗,得到清洗后的实时数据,根据所述清洗后的实时数据建立数据仓库;
根据所述数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出,其中,所述预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。
2.根据权利要求1所述的方法,其特征在于,所述分别将第二预测结果与所述第二历史数据进行比较,得到准确性最高的所述数据挖掘模型作为所述预设数据挖掘模型,包括:
分别将所述第二预测结果与所述第二历史数据进行一致性比较,生成一致性比较结果;
根据所述一致性比较结果确定所述建立的模型的准确性。
3.根据权利要求1所述的方法,其特征在于,在所述将所述第一预测结果输出之后,还包括:
根据所述第一预测结果制定与所述第一预测结果对应的营销策略或者根据所述第一预测结果进行判断,判断所述第一预测结果是否超过阈值,再制定相应的策略。
4.一种数据挖掘装置,用于对地铁站人流量进行预测,其特征在于,所述装置包括:
历史数据获取模块,用于从数据源获取地铁站点的人流量与时间对应的历史数据,所述历史数据包括第一历史数据和第二历史数据,所述第一历史数据和第二历史数据为不同的时间段对应的两个历史数据;
数据仓库建立模块,还用于对所述第一历史数据和第二历史数据进行清洗,根据清洗后的所述第一历史数据和第二历史数据建立数据仓库;
模型建立模块,用于从模型池中选择人流量预测模型群,确定所述第一历史数据的类别和特点;确定对所述第一历史数据进行建模分析所要输出的结果;根据所述第一历史数据的类别和特点及所述所要输出的结果从所述模型池中选择对应的模型群;根据所述模型群中的模型分别对所述数据仓库中的第一历史数据进行建立模型;所述人流量预测模型群中包括逻辑回归模型、正则化回归模型、灰色预测模型及基于R语言的随机森林算法模型;
预测模块,还用于通过建立的模型分别预测所述第二历史数据对应的时间段所对应的数据,生成第二预测结果;
预设数据挖掘模型确定模块,用于分别将所述第二预测结果与所述第二历史数据进行比较,得到准确性最高的所述数据挖掘模型作为所述预设数据挖掘模型;
实时数据获取模块,用于从数据源获取实时数据;
数据仓库建立模块,用于对所述实时数据进行数据清洗,得到清洗后的实时数据,根据所述清洗后的实时数据建立数据仓库;
预测模块,用于根据所述数据仓库中的实时数据,通过预设数据挖掘模型对预设时间段的数据进行预测,生成第一预测结果并输出,其中,所述预设数据挖掘模型是通过对历史数据进行分析建模并确定的多个数据挖掘模型中准确性最高的数据挖掘模型。
5.根据权利要求4所述的装置,其特征在于,所述预设数据挖掘模型确定模块还用于分别将所述第一预测结果与所述第二历史数据进行一致性比较,生成一致性比较结果;根据所述一致性比较结果确定所述建立的模型的准确性。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
策略制定模块,用于根据所述第一预测结果制定与所述第一预测结果对应的营销策略或者根据所述第一预测结果进行判断,判断所述第一预测结果是否超过阈值,再制定相应的策略。
7.一种计算机设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1所述的数据挖掘方法的步骤。
8.一种计算机设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求2至3中任一项所述的数据挖掘方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述的数据挖掘方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求2至3中任一项所述的数据挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710047880.1A CN106933956B (zh) | 2017-01-22 | 2017-01-22 | 数据挖掘方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710047880.1A CN106933956B (zh) | 2017-01-22 | 2017-01-22 | 数据挖掘方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106933956A CN106933956A (zh) | 2017-07-07 |
CN106933956B true CN106933956B (zh) | 2020-12-01 |
Family
ID=59422863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710047880.1A Active CN106933956B (zh) | 2017-01-22 | 2017-01-22 | 数据挖掘方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933956B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730173A (zh) * | 2017-10-13 | 2018-02-23 | 郑州云海信息技术有限公司 | 一种基于数据分析的小型超市自动采购方法及系统 |
CN107798124A (zh) * | 2017-11-10 | 2018-03-13 | 深圳市华讯方舟软件信息有限公司 | 基于预测建模技术的搜索系统及方法 |
CN107832429A (zh) * | 2017-11-14 | 2018-03-23 | 广州供电局有限公司 | 审计数据处理方法和系统 |
CN108460521A (zh) * | 2018-02-02 | 2018-08-28 | 广州供电局有限公司 | 审计对象的推荐方法和系统 |
CN108959071B (zh) * | 2018-06-14 | 2021-09-24 | 湖南鼎源蓝剑信息科技有限公司 | 一种基于RASP的PHP变形webshell的检测方法及系统 |
CN109190546A (zh) * | 2018-08-28 | 2019-01-11 | 广州洪荒智能科技有限公司 | 一种基于计算机视觉公交站人流分析方法 |
CN110059112A (zh) * | 2018-09-12 | 2019-07-26 | 中国平安人寿保险股份有限公司 | 基于机器学习的用户挖掘方法及装置、电子设备、介质 |
CN110211380B (zh) * | 2019-06-04 | 2021-05-04 | 武汉大学 | 一种多源交通数据融合的高速公路拥堵区间探测方法 |
CN110597796B (zh) * | 2019-09-10 | 2022-04-26 | 深圳市华成峰科技有限公司 | 基于全生命周期的大数据实时建模方法及系统 |
CN111625522A (zh) * | 2020-04-18 | 2020-09-04 | 青岛奥利普自动化控制系统有限公司 | 一种数据采集挖掘方法和设备 |
CN112700044A (zh) * | 2020-12-30 | 2021-04-23 | 北京明朝万达科技股份有限公司 | 预测方法和装置 |
CN113435867B (zh) * | 2021-08-26 | 2021-12-14 | 北京通建泰利特智能系统工程技术有限公司 | 智慧城市运营方法、系统和可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065205A (zh) * | 2012-12-26 | 2013-04-24 | 深圳先进技术研究院 | 三维智能交通枢纽客流时空分析与预测系统 |
CN103310287A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 基于svm预测乘客出行概率的轨道交通客流预测方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100568243C (zh) * | 2007-09-04 | 2009-12-09 | 华为技术有限公司 | 一种数据挖掘和建模的方法及系统 |
CN100583098C (zh) * | 2007-12-06 | 2010-01-20 | 中国电信股份有限公司 | 一种数据挖掘系统和方法 |
CN101620691A (zh) * | 2008-06-30 | 2010-01-06 | 上海全成通信技术有限公司 | 电信业自动化数据挖掘平台 |
CN101620692A (zh) * | 2008-06-30 | 2010-01-06 | 上海全成通信技术有限公司 | 一种移动通信业务的客户流失分析方法 |
CN102508860A (zh) * | 2011-09-29 | 2012-06-20 | 广州中浩控制技术有限公司 | 一种基于xbrl实例文档的数据挖掘方法 |
US9070046B2 (en) * | 2012-10-17 | 2015-06-30 | Microsoft Technology Licensing, Llc | Learning-based image webpage index selection |
WO2015053667A1 (en) * | 2013-10-08 | 2015-04-16 | Telefonaktiebolaget L M Ericsson (Publ) | Apparatus, system, method, computer program, and computer program product for generating activity information for a cell |
CN103745229A (zh) * | 2013-12-31 | 2014-04-23 | 北京泰乐德信息技术有限公司 | 一种基于svm的轨道交通故障诊断方法及系统 |
CN104008164A (zh) * | 2014-05-29 | 2014-08-27 | 华东师范大学 | 基于广义回归神经网络的短期腹泻病多步预测方法 |
CN104537429A (zh) * | 2014-12-11 | 2015-04-22 | 国家电网公司 | 一种基于数据仓库与数据挖掘技术的短期负荷预测方法及装置 |
-
2017
- 2017-01-22 CN CN201710047880.1A patent/CN106933956B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065205A (zh) * | 2012-12-26 | 2013-04-24 | 深圳先进技术研究院 | 三维智能交通枢纽客流时空分析与预测系统 |
CN103310287A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 基于svm预测乘客出行概率的轨道交通客流预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106933956A (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106933956B (zh) | 数据挖掘方法和装置 | |
Jha et al. | Time series forecasting model for supermarket sales using FB-prophet | |
Çavdar et al. | Airline customer lifetime value estimation using data analytics supported by social network information | |
Yin et al. | Structural link analysis and prediction in microblogs | |
CN111709714B (zh) | 基于人工智能的流失人员预测方法和装置 | |
CN113051480A (zh) | 资源推送方法、装置、电子设备及存储介质 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
Raad et al. | Constructing and cleaning identity graphs in the LOD cloud | |
Bhargavi et al. | Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method | |
Glukhov et al. | Dynamic recommendation algorithms for a COVID-19 restrictions scenario in the restaurant industry | |
CN115098572A (zh) | 用户画像构建方法、装置和计算机设备 | |
CN111914164B (zh) | 一种基于医疗大数据的用药预测方法及系统 | |
CN114312930A (zh) | 基于日志数据的列车运行异常诊断方法和装置 | |
CN111291772B (zh) | 信息的推送方法、装置、电子设备和计算机可读存储介质 | |
US11508465B2 (en) | Systems and methods for determining event probability | |
CN114693325A (zh) | 基于神经网络的用户口碑智能保障方法及装置 | |
Dieni et al. | Business Intelligence for Unemployment Rate Management System | |
Álvarez-Chaves et al. | Machine Learning Methods for Predicting the Admissions and Hospitalisations in the Emergency Department of a Civil and Military Hospital | |
CN118195280B (zh) | 基于集成嵌套模型的整合式任务调度方法、系统及装置 | |
Lam et al. | Application of Machine Learning in Predicting the Amount of Pharmaceutical Drugs Ordered for the Manufacturer | |
Iñaki et al. | Characterization of strategic emerging technologies: the case of big data | |
Moungmai | Data Balancing Modification for Multinomial Logistic Regression Model | |
dos Santos Almeida | Smart Workplace Management Using Internet of Things, Machine Learning and Visualization Techniques | |
EP3699830A1 (en) | Improved computer-implemented event forecasting and information provision | |
CN115293452A (zh) | 用户行为预测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: Room 701, building 11, Shenzhen Software Park (phase 2), No. 1, Keji Middle Road, Maling community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Patentee after: SHENZHEN HUACHENGFENG TECHNOLOGY Co.,Ltd. Address before: 518100 Guangdong city of Shenzhen province Nanshan District South Road seven No. 16 Deveson building five floor Patentee before: SHENZHEN HUACHENGFENG TECHNOLOGY Co.,Ltd. |