CN110597796A

CN110597796A - 基于全生命周期的大数据实时建模方法及系统

Info

Publication number: CN110597796A
Application number: CN201910854828.6A
Authority: CN
Inventors: 范长春
Original assignee: Shenzhen Huachengfeng Technology Co Ltd
Current assignee: Shenzhen Huachengfeng Technology Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-12-20
Anticipated expiration: 2039-09-10
Also published as: CN110597796B

Abstract

本申请涉及基于全生命周期的大数据实时建模方法及系统，其中，所述大数据实时建模方法包括以下步骤：采用历史数据建立模型池；接收实时数据，验证所述模型池；在验证通过时，根据所述模型池输出所述实时数据的挖掘结果。上述实时建模方法，通过模型池及其验证，将历史数据及实时数据有机地结合起来，当验证通过即模型池适用时，根据模型池输出实时数据的挖掘结果，对全行业都适用，能够满足用户对企业级大数据进行分析和挖掘的需求，而且配置具体方案非常灵活，还能够自行根据实时数据转成历史数据的变化，保证了高度的扩展性。

Description

基于全生命周期的大数据实时建模方法及系统

技术领域

本申请涉及数据处理领域，特别是涉及基于全生命周期的大数据实时建模方法及系统。

背景技术

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。随着云时代的来临，大数据也吸引了越来越多的关注。大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

在大数据时代，无论是社会宏观的大数据，还是公司微观的大数据，都需要数据挖掘。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘已经引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。知识发现过程由以下三个阶段组成：数据准备；数据挖掘；结果表达和解释。数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

CN104699717A提出了数据挖掘方法，所述方法包括：根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集，每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值；从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量，并对筛选出的特性向量执行过滤操作以获得样本；基于所述样本构建回归模型，并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。该发明所公开的数据挖掘方法能够根据目标对象的综合特征来挖掘和分类目标对象。

CN105589896A提供一种数据挖掘方法及装置。该方法包括：确定待处理的目标数据；依据至少两种数据挖掘算法分别对所述目标数据进行数据处理，分别获得第一处理结果；将所述第一处理结果作为所述目标数据，依据所述至少两种数据挖掘算法分别对所述第一处理结果进行数据处理，获得第二处理结果；显示所述第一处理结果和/或第二处理结果，以供用户选择。本发明实施例通过至少两种数据挖掘算法分别对目标数据进行数据处理，获取到至少两个处理结果，并且将第一次处理的结果作为第二次处理的输入数据，形成循环的数据处理过程，相比于属于特定数据类型的目标数据只能依据固定的数据挖掘算法进行处理，增强了数据挖掘对目标数据进行数据处理的灵活性。

CN105404637A公开了一种数据挖掘方法和装置。所述方法包括：获取数据挖掘模型，所述数据挖掘模型对应于与数据仓库中的数据表，并且所述数据表中记录有进行数据挖掘所依据的数据挖掘规则；根据所述数据挖掘规则对数据仓库中的事实数据进行挖掘；其中，所述数据挖掘模型包括：事实表模型、数据行表模型、数据列表模型、维度模型以及指标模型；所述事实表模型对应于数据仓库中的事实表，所述数据行表模型对应于数据仓库中的数据行表，所述数据列表模型对应于数据仓库中的数据列表，所述维度模型对应于数据仓库中的维度定义表，所述指标模型对应于数据仓库中的指标定义表；根据所述数据挖掘规则对数据仓库中的事实数据进行挖掘包括：根据所述事实表获取所述事实表模型；获取所述事实表的数据版本模型；根据所述数据行表及所述数据版本模型，获取所述事实表模型对应的数据行表模型；根据所述维度定义表及所述数据版本模型，获取所述事实表模型对应的维度模型；根据所述数据行表模型及所述维度模型对应的数据挖掘规则，获取所述事实表的数据行名称，并对所述维度模型中的维度进行筛选和聚合；根据所述数据列表及所述数据版本模型，获取所述事实表模型对应的数据列模型；根据所述指标定义表及所述数据版本模型，获取所述事实表模型对应的指标模型；根据所述数据列表模型及所述指标模型对应的数据挖掘规则，获取所述事实表的数据列名称，并对所述指标模型中的指标进行筛选、计算、统计和归类。该发明实施例提供的数据挖掘方法和装置实现了在数据仓库系统中的自动数据挖掘。

但是这些数据挖掘方法缺乏对于历史数据及实时数据的整合分析。

发明内容

基于此，有必要提供一种基于全生命周期的大数据实时建模方法及系统。

一种基于全生命周期的大数据实时建模方法，其包括以下步骤：采用历史数据建立模型池；接收实时数据，验证所述模型池；在验证通过时，根据所述模型池输出所述实时数据的挖掘结果。

上述基于全生命周期的大数据实时建模方法，通过模型池及其验证，将历史数据及实时数据有机地结合起来，当验证通过即模型池适用时，根据模型池输出实时数据的挖掘结果，对全行业都适用，能够满足用户对企业级大数据进行分析和挖掘的需求，而且配置具体方案非常灵活，还能够自行根据实时数据转成历史数据的变化，保证了高度的扩展性。

在其中一个实施例中，所述模型池包括多个模型子池，各所述模型子池按数据类型、属性、功能或目标对象设置。

在其中一个实施例中，采用历史数据建立模型池之后，以及接收实时数据之前，所述大数据实时建模方法还包括步骤：采用预设的验证数据集验证所述模型池。

在其中一个实施例中，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：采用所述实时数据调整所述模型池。

在其中一个实施例中，采用所述实时数据调整所述模型池，包括：获取所述实时数据的所述挖掘结果的反馈信息，采用所述反馈信息配合所述实时数据调整所述模型池。

在其中一个实施例中，采用历史数据建立模型池之前，所述大数据实时建模方法还包括步骤：获取数据源，进行抽取、转换、清晰化及加载，形成所述历史数据。

在其中一个实施例中，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：展示及/或查询所述挖掘结果。

在其中一个实施例中，采用统计图及/或报表的方式，展示及/或查询所述挖掘结果。

在其中一个实施例中，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：采用所述挖掘结果对所述实时数据的实体源进行处理。

一种大数据实时建模系统，其采用任一项所述大数据实时建模方法实现。

附图说明

图1为本申请所述基于全生命周期的大数据实时建模方法一实施例的流程示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似改进，因此本申请不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本申请的说明书所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的，并不表示是唯一的实施方式。

除非另有定义，本申请的说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本申请。本申请的说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

在本申请一个实施例中，一种基于全生命周期的大数据实时建模方法，其包括以下步骤：采用历史数据建立模型池；接收实时数据，验证所述模型池；在验证通过时，根据所述模型池输出所述实时数据的挖掘结果。上述实时建模方法，通过模型池及其验证，将历史数据及实时数据有机地结合起来，当验证通过即模型池适用时，根据模型池输出实时数据的挖掘结果，对全行业都适用，能够满足用户对企业级大数据进行分析和挖掘的需求，而且配置具体方案非常灵活，还能够自行根据实时数据转成历史数据的变化，保证了高度的扩展性。

在其中一个实施例中，一种基于全生命周期的大数据实时建模方法，其包括以下实施例的部分步骤或全部步骤；即，基于全生命周期的大数据实时建模方法及系统包括以下的部分技术特征或全部技术特征。在其中一个实施例中，一种基于全生命周期的大数据实时建模方法如图1所示，其包括以下步骤：采用历史数据建立模型池；接收实时数据，验证所述模型池；判断验证是否通过，是则根据所述模型池输出所述实时数据的挖掘结果。这样的设计，技术方案配置灵活，不仅可以按照用户需求订制化开发，还能根据后期环境的变化，提供系统升级与改造服务，并且可以适应各种不同的系统，还能够中途使用。

企业的业务系统往往千差万别，其编程语言、运行平台、数据格式、协议类型、借口标准等都有可能不同、连通性需求尤为突出，在其中一个实施例中，采用历史数据建立模型池之前，所述大数据实时建模方法还包括步骤：获取数据源，进行抽取、转换、清晰化及加载，形成所述历史数据。这里涉及到数据源的ETL(Extract-Transform-Load，数据抽取、转换和加载)，ETL将数据从数据源的来源端经过抽取(extract)、转换(transform)及加载(load)至目的端的过程，因此ETL本质上是数据流动的过程，从不同的数据源流向不同的目标数据。数据源中数据的抽取通常尽可能根据一线数据源来优化设计，例如确定数据源的业务系统或者数据库等，也可以通过数据导出及转化，还可采用工具软件或者程序接口实现。数据源中数据的转换亦称“清洗(Cleaning)”或者在数据的转换之前进行“清洗”，或者所述转换的前半段为所述清洗，通常是把不完整数据、错误数据或多余数据过滤或删除，其中，不完整数据包括信息缺失或遗漏等，错误数据包括数据混乱、输入错误或格式错误等，多余数据包括重复数据或多余注释等。考虑到所述转换耗时较长，进一步地，在其中一个实施例中，所述转换包括将不完整数据、错误数据或多余数据另存入冗余池中备用。这样可以在必要时还原这些不完整数据或多余数据，尤其适合大数据系统的实现，而且对于不完整数据、错误数据或多余数据等还可以加快“清洗”的效率。所述转换还包括不一致数据转换、数据粒度转换以及规则转换计算等。但是传统的ETL通常缺乏清晰化的处理步骤，进一步地，数据源通常是杂乱的，即使是经过抽取及转换，也难以具有完美的转换效果，而且转换的步骤是最花时间的，因此为了提升本申请各实施例的适用性，清晰化的步骤对于后面的加载及模型池的构建都是非常有帮助的。进一步地，在其中一个实施例中，所述清晰化包括描述数据，包括描述数据的类型、属性、功能及/或目标对象等，该步骤中可以不要数据绝对的准确，但尽可能给出无法准确描述的归类，清晰化是本发明较为重要的一点，这样的设计，能够适合千差万别的业务系统，具有较好的连通性及适用性，一方面能够使数据源所形成的历史数据更为准确地被加载使用，另一方面也有利于后续步骤的建立模型池，再一方面有利于配合其他实施例实现更准确的模型池等，尤其是配合其他实施例的聚类分析算法构建模型池或其模型子池。

业务系统的生命周期往往较长，有些业务系统已经找不到原来的开发商，或者开发商的技术支持力度有限，另外业务系统的支持实现可能不同，所以需要能够灵活的适应这些现实情况，进一步地，在其中一个实施例中，采用历史数据建立多个模型池。在其中一个实施例中，所述模型池包括多个模型子池，各所述模型子池按数据类型、属性、功能或目标对象设置。进一步地，在其中一个实施例中，各所述模型子池至少部分重合设置，即，对于同一历史数据，可以同时被用于多个模型子池中。各实施例中，模型池或其模型子池采用分类的历史数据构建；对于没有分类或者无法分类的历史数据，则采用聚类分析算法划分到模型池或其模型子池中；进一步地，在其中一个实施例中，采用历史数据建立模型池，包括：获取历史数据，按获取顺序进行排序以形成历史数据队列，按历史数据队列的先后顺序将历史数据进行分类，其中，对于没有分类或者无法分类的历史数据则置入队列末尾，直至完成所有可分类的历史数据；然后采用聚类分析算法将没有分类或者无法分类的历史数据划分到模型池或其模型子池中。在其中一个实施例中，聚类分析算法包括K-均值聚类算法(快速聚类法)、K-中心点算法或系统聚类算法(多层次聚类法)等。在其中一个实施例中，还可以采用purity评价法、RI评价法及/或F评价法等对聚类分析结果进行评价，这些是可以直接利用的技术设计，在此从略。这样的设计，先利用可用的历史数据建模型池，然后再把难用乃至不可用的历史数据分进去，共同形成准确度高的模型池，一方面是充分利用了历史数据，另一方面有利于提升模型池对于实时数据的可用性及有效性，将历史数据及实时数据有机地结合起来，使得验证通过的成功率极高，模型池适用性广，适用于各种业务系统，尤其是支持实现半途转用的业务系统。

在其中一个实施例中，采用历史数据建立模型池之后，以及接收实时数据之前，所述大数据实时建模方法还包括步骤：采用预设的验证数据集验证所述模型池。进一步地，在其中一个实施例中，所述验证数据集采用历史数据整理得到，或者所述验证数据集根据实际验证结果进行调整，或者所述验证数据集采用稳定的调试数据包。进一步地，在其中一个实施例中，采用历史数据建立模型池之后，以及接收实时数据之前，所述大数据实时建模方法还包括步骤：随机选用历史数据验证所述模型池或其所述模型子池。这样的设计，有利于增强所述模型池或其模型子池的健壮性及适用性。进一步地，在其中一个实施例中，判断验证是否通过，是则根据所述模型池输出所述实时数据的挖掘结果，否则调整实时数据或模型池且重新进行验证，或者将所述实时数据采用聚类分析算法验证所述模型池。在其中一个实施例中，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：采用所述实时数据调整所述模型池。在其中一个实施例中，采用所述实时数据调整所述模型池，包括：获取所述实时数据的所述挖掘结果的反馈信息，采用所述反馈信息配合所述实时数据调整所述模型池。这样的设计，有利于使得所述模型池更贴合不断更新、不断变化的实时数据，起到了不断训练的作用，一方面提升了模型池的准确度，另一方面也有利于提升挖掘效率，使得挖掘结果更快更准确。

进一步地，在其中一个实施例中，在验证通过时，根据所述模型池输出所述实时数据的挖掘结果，包括：在验证通过时，根据所述模型池对所述实时数据进行挖掘，输出所述实时数据的挖掘结果。进一步地，在其中一个实施例中，根据所述模型池对所述实时数据进行挖掘，包括：文本挖掘及/或图像挖掘。下面以文本挖掘为例，对于图像挖掘可采用文字识别及图像比对等方式进行。文本挖掘主要是从大量文本数据中抽取事先未知的、可理解的、最终可用的信息，这些信息可以形成一定的知识或者内容，有助于对所述实时数据背后的真相进行组织，以便将来参考。在其中一个实施例中，所述文本挖掘包括文本预处理、中间数据转化、文本分析、可视化呈现及/或给予反馈信息等。实时数据作为数据源的一种，可以来自数据库、网页、日志、论文、邮件、工作记录等，在其中一个实施例中，所述文本预处理包括分词、特征表示及特征提取等；在其中一个实施例中，所述文本分析包括结构分析、文本分类、文本聚类、文本过滤、文本摘要、信息抽取、智能问答、关联分析、话题检测追踪、情感分析、分布分析及/或趋势预测等。图像挖掘的实施例以此类推。这样的设计，配合所述模型池，能够实现主题关联、时段热点、文本分类、生成标签、监测关键词、信息筛选汇总、客户聚焦、精准营销以及客户关系管理等，无论是电子商务、电子政务、通信、安保、金融、卫生等均可适用，能够满足用户对企业级大数据进行分析和挖掘的需求，通过查询及反馈等操作，可以进行前向调整，实现亡羊补牢的效果。

在其中一个实施例中，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：展示及/或查询所述挖掘结果。在其中一个实施例中，采用统计图及/或报表的方式，展示及/或查询所述挖掘结果。在其中一个实施例中，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：采用所述挖掘结果对所述实时数据的实体源进行处理。这样的设计，可以利用挖掘结果实现大数据的反馈功能，例如优化工作流程、提升工作效率、降低生产能耗、减少生产浪费等，在生产工作中具有极大作用。进一步地，在其中一个实施例中，所述大数据实时建模方法还包括步骤：根据所述挖掘结果进行数据分析统计、数据可视化呈现及/或预测建模。这样的设计，能够提供强大的数据分析与探索挖掘能力，帮助用户快速对企业在PB级规模下的大数据进行可视化的数据分析探索，实现由海量数据到高可用性信息资产的价值提升，助力客户全面提升自身的运营能力和决策能力，在纷繁复杂的商业数据中快速获取数据洞察力，占领商业先机，有效增强其市场竞争力。

在其中一个实施例中，一种大数据实时建模系统，其采用任一实施例所述大数据实时建模方法实现。在其中一个实施例中，所述大数据实时建模系统包括用于实现各实施例所述大数据实时建模方法的相关功能模块。在其中一个实施例中，所述大数据实时建模系统包括数据输入装置、控制装置、验证装置、存储装置及输出装置；所述数据输入装置用于接收历史数据及实时数据；所述存储装置用于存储历史数据及实时数据；所述控制装置用于采用历史数据建立模型池；所述控制装置还用于控制所述验证装置采用实时数据验证所述模型池，且在验证通过时根据所述模型池控制所述输出装置输出所述实时数据的挖掘结果，所述存储装置还用于存储所述挖掘结果。其余实施例以此类推。在其中一个实施例中，所述大数据实时建模系统基于Hadoop技术实现，有效整合数据查询、分析、存储和调度等功能模块，实现了对历史数据及实时数据的有效、高效处理，支持几乎所有数据分析所需的数据处理、统计模型和图表，保证了高度的扩展性和兼容性。这样的设计，将历史数据及实时数据有机地结合起来，适用性广，对全行业都适用，能够满足用户对企业级大数据进行分析和挖掘的需求，而且配置具体方案非常灵活，还能够自行根据实时数据转成历史数据的变化，保证了高度的扩展性。

需要说明的是，本申请的其它实施例还包括，上述各实施例中的技术特征相互组合所形成的、能够实施的基于全生命周期的大数据实时建模方法及系统，其中，各实施例中的所述大数据实时建模方法亦可称为或替换为数据挖掘方法或数据处理方法，各实施例中的所述大数据实时建模系统亦可称为或替换为数据挖掘系统或数据处理系统。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的专利保护范围应以所附权利要求为准。

Claims

1.一种基于全生命周期的大数据实时建模方法，其特征在于，包括以下步骤：

采用历史数据建立模型池；

接收实时数据，验证所述模型池；

在验证通过时，根据所述模型池输出所述实时数据的挖掘结果。

2.根据权利要求1所述基于全生命周期的大数据实时建模方法，其特征在于，所述模型池包括多个模型子池，各所述模型子池按数据类型、属性、功能或目标对象设置。

3.根据权利要求1所述基于全生命周期的大数据实时建模方法，其特征在于，采用历史数据建立模型池之后，以及接收实时数据之前，所述大数据实时建模方法还包括步骤：采用预设的验证数据集验证所述模型池。

4.根据权利要求1所述基于全生命周期的大数据实时建模方法，其特征在于，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：采用所述实时数据调整所述模型池。

5.根据权利要求4所述基于全生命周期的大数据实时建模方法，其特征在于，采用所述实时数据调整所述模型池，包括：获取所述实时数据的所述挖掘结果的反馈信息，采用所述反馈信息配合所述实时数据调整所述模型池。

6.根据权利要求1所述基于全生命周期的大数据实时建模方法，其特征在于，采用历史数据建立模型池之前，所述大数据实时建模方法还包括步骤：获取数据源，进行抽取、转换、清晰化及加载，形成所述历史数据。

7.根据权利要求1所述基于全生命周期的大数据实时建模方法，其特征在于，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：展示及/或查询所述挖掘结果。

8.根据权利要求7所述基于全生命周期的大数据实时建模方法，其特征在于，采用统计图及/或报表的方式，展示及/或查询所述挖掘结果。

9.根据权利要求8所述基于全生命周期的大数据实时建模方法，其特征在于，根据所述模型池输出所述实时数据的挖掘结果之后，所述大数据实时建模方法还包括步骤：采用所述挖掘结果对所述实时数据的实体源进行处理。

10.一种大数据实时建模系统，其特征在于，采用如权利要求1至9中任一项所述基于全生命周期的大数据实时建模方法实现。