CN107832421A

CN107832421A - 一种自适应的组合数据挖掘模型系统及方法

Info

Publication number: CN107832421A
Application number: CN201711108702.1A
Authority: CN
Inventors: 孟坤; 李淑琴; 丁濛; 郑自强; 刘宇; 任雪峰
Original assignee: Beijing Yida Finance Technology Co Ltd; Beijing Information Science and Technology University; Shandong Management University
Current assignee: Beijing Yida Finance Technology Co Ltd; Beijing Information Science and Technology University; Shandong Management University
Priority date: 2017-11-11
Filing date: 2017-11-11
Publication date: 2018-03-23

Abstract

本发明公开了一种自适应的组合数据挖掘模型系统及方法，该系统，包括主动选择定制模块，能够主动选择和定制多种数据挖掘模型，用于适应各种类型和规模数据的分析需求；框架模块，方便设定和选择指标，用于所选择数据挖掘模型的排序，适应数据挖掘场景的动态性需求；支撑定制模块，提供支撑定制化组合多种数据挖掘模型的方法，用于为发挥运维人员经验提供渠道，进而提高分析结果准确性；机制模块，提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制，用于保证数据挖掘模型组合的可扩展性。本发明使得模型具有保底性、抢占性和主观反应性等特征，可直接应用于多种业务系统的辅助分析与优化。

Description

一种自适应的组合数据挖掘模型系统及方法

技术领域

本发明涉及数据挖掘技术领域，具体是一种自适应的组合数据挖掘模型系统及方法。

背景技术

互联网技术和互联网应用的飞速发展极大地便利了人们的生产与生活，而伴随其发展、以爆炸级速率增长的数据则蕴含着用户的潜在需求和行为习惯，为挖掘其中有用知识、提升服务质量提供了必要基础。大数据技术旨在及时发现隐蔽在纷繁数据背后的有用信息，进而更智慧地满足应用发展需求，如建立用户行为预测模型、挖掘用户的消费习惯等，能够为制定精准营销方案提供技术支撑。基于用户数据，探讨一种能够广泛适应各种数据规模和质量的用户流失预测模型是本发明旨在解决的重点问题。

以用户数据为例，生成、采集、存储和被利用往往需要相当长的一段时间，但是，为了对决策进行指导，适应各类型数据建立数据挖掘方法已成为辅助广大业务应用系统优化运营的关键。事实上，用户数据具有来源多样、规模差异普遍存在且随时间积累而剧烈变化等特点。以在线游戏为例，用户数据从注册开始逐步得到记录，而其使用频率决定了其个人数据规模，与第三方应用系统(如社交网络、统一用户认证等)的集成更是为获取更多维度数据提供了可能。设计开发可行的数据挖掘模型，探索智能化的用户服务策略已成为各应用提供商在市场竞争中获取有利地位的法宝。然而，上述用户数据特点决定了可行的挖掘模型应能够适应不同用户数据规模，且能够随着其数据量的增加不断优化调整。因此，如何处理历史数据与当前数据、用户个人数据与其他用户数据的关系成为设计挖掘模型的必须解决的问题。在本发明中，我们建立了一种通用的数据万挖掘架构，保障系统按照模块化实现，应用者可以自主定制其所需的挖掘模型、对模型的依赖程度以及建立各模型评价指标。在此基础上，规划了一种可以广泛使用的数据分析与挖掘架构。

一般地，数据分析可以分为静态数据分析和流式数据分析。对于前者，其数据集往往是静态的，往往采用将数据分为训练集与测试集，通过特征的提取和标注，对训练集进行训练得出训练模型，并通过测试集进行验证，进而确定所训练模型是否可用。对于流式数据分析，其数据集不断产生，分析过程应能够根据输出结果动态调整，而确定何时、如何调整是保证分析结构可用的关键。针对具体的分析对象和应用场景，根据分析手段和过程特点，常用到的分析模型包括基于统计的分析方法、基于特征提取的分析方法和基于特征学习的分析方法；根据是否需要先验知识的，分析模型又可分为有监督分析模型、无监督分析模型和半监督分析；根据是否考虑属性或特征简单关联性，模型可分为独立分析模型和关联分析模型。

本发明旨在提供一种利用静态分析方法选择和训练模型，并借鉴流式数据分析方法的特点，使用流式数据不断验证和调整分析模型，进而保障模型的适应性和分析结果的准确性。此外，还给出了一种能够保证该框架具有保底性、抢占性和主观反映性的模型组合方法。本发明可直接应用于多种业务系统的辅助分析与优化。

发明内容

本发明的目的在于提供一种自适应的组合数据挖掘模型系统及方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种自适应的数据挖掘组合模型系统，包括：

(1)主动选择定制模块，能够主动选择和定制多种数据挖掘模型，用于适应各种类型和规模数据的分析需求；

(2)框架模块，方便设定和选择指标，用于所选择数据挖掘模型的排序，适应数据挖掘场景的动态性需求；

(3)支撑定制模块，提供支撑定制化组合多种数据挖掘模型的方法，用于为发挥运维人员经验提供渠道，进而提高分析结果准确性；

(4)机制模块，提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制，用于保证数据挖掘模型组合的可扩展性。

作为本发明进一步的方案：主动选择定制模块，对应的工程实现包括：提供提交数据挖掘模型的接口，并规范其所需要的各种数据接口和数据需求；对于添加完成的数据挖掘模型，建立对应的索引结构，建立基于类别的定制和选择操作方式；对各种数据挖掘模型的使用效果评价进行显示辅助用户针对性的选择；对于超过时效的数据挖掘模型，用户删除或存档。

作为本发明进一步的方案：框架模块，对应的工程实现包括：显示数据挖掘模型的各项可使用参数和已有指标的使用效果，提供定制的界面，用户自定义或选择已有的指标来适应特定的业务应用；针对给定的指标，开发实现引擎在判断的基础上自动化的调整数据挖掘模型的排序、数据挖掘模型的权重或提示选择新的数据挖掘模型。

作为本发明进一步的方案：指标包括客观指标与主观指标，客观指标包括准确率、错误率、及时指标、期望值、时间区间值；主观指标包括问卷调查。

作为本发明进一步的方案：支撑定制模块，对应的工程实现应包括：用户查询各种数据挖掘模型在本系统的使用情况，根据观察到的历史信息和及时输出，提供界面能够满足用户对数据挖掘模型依赖程度的输入；系统根据用户的数据值自动化的调取数据挖掘模型组合方式，并实现对即将到来数据的预测和判断。

作为本发明进一步的方案：支撑定制化组合多种模型的方法，应保证保底性原则、抢占性原则和主观反映原则；所谓保底性是指组合后应一定能够保证有结果输出；抢占性原则是指在数据挖掘模型排序的基础上，排序优先级高的数据挖掘模型具有绝对抢占权利，若用户完全信任某个数据挖掘模型，那么，比它差的数据挖掘模型将不应影响到结果的输出；主观反映原则是指用户的主观判断应能够在最终组合模型的结果输出中有所反映。

作为本发明进一步的方案：机制模块，对应的工程实现包括：一个能够实现指标判断和自动动作的引擎；对于数据挖掘模型选择部分，当满足设定条件时，应主动向用户发送调整请求，同时，也提供用户主动修改的功能接口；对于数据挖掘模型排序部分，根据指标实现数据挖掘模型的自动排序；对于数据挖掘模型权重调整部分，若满足指标条件则对用户发送相应的建议调整值，并仅由用户确认后，方能完成权重的调整，同时，保留用户主动调整的功能接口。

一种自适应的组合数据挖掘模型方法，包括以下步骤：

(1)搜集并整理数据集，并根据数据集和应用系统特征选取和训练数据挖掘模型；

(2)选取数据挖掘模型的评价指标，并根据指标值对数据挖掘模型进行排序；

(3)提供接口让使用者对各种数据挖掘模型进行主观评价和权重设置；

(4)选取数据挖掘模型输出结果的组合规则，并组合输出数据挖掘结果；

(5)根据输出结果和流式数据的验证，判断各项指标是否满足，并进行相应的动作；

(6)设计和开发相应的模块，能够便捷地移植到各种特定的应用业务系统中；

(7)建立组合模型使用信息的分享机制，方便各类型业务系统使用者交流和分析使用的心得，以及创造的各种模型组合方式。

与现有技术相比，本发明的有益效果是：

本发明提出了一种自适应的组合数据挖掘模型系统及方法，使得模型具有保底性、抢占性和主观反应性等特征。本发明可以直接应用于生产业务系统，并给出了一种数据使用流程保证其能直接服务于生产业务系统的优化分析与决策。本发明涉及模型选择、模型排序、模型权重设置和框架的动态适应性等内容，并为开发实现提供了可行的技术路线。

附图说明

图1是自适应组合数据挖掘模型系统示意图；

图2是数据处理与分析模型选择框图；

图3是用户流失率预测框架图。

图4是本发明自适应的组合数据挖掘模型方法流程图。

图5是选取数据挖掘模型输出并组合输出数据挖掘结果的流程图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图4-5，本发明实施例中，一种自适应的数据挖掘组合模型系统，包括：

(1)主动选择定制模块，能够主动选择和定制多种数据挖掘模型，用于适应各种类型和规模数据的分析需求。主动选择定制模块，对应的工程实现包括：提供提交数据挖掘模型的接口，并规范其所需要的各种数据接口和数据需求；对于添加完成的数据挖掘模型，建立对应的索引结构，建立基于类别的定制和选择操作方式；对各种数据挖掘模型的使用效果评价进行显示辅助用户针对性的选择；对于超过时效的数据挖掘模型，用户删除或存档。主动选择定制模块，具体实现以下功能：

(1-1)根据业务系统的类别和所处生命周期中的阶段，规划可行的数据规模、类别和标记，进而选择对应的数据挖掘模型。如针对数据规模较小时，可以选择所需属性较少的数据挖掘模型，以满足输出较为可信的结果。

(1-2)为保证分析结果的准确性，针对各种数据训练集选择具有较大差异的数据挖掘模型，为后续通过模型结果组合提高输出结果准确性机制的实施奠定基础。

(1-3)各种数据挖掘模型可以任意添加和删除，对于新添加的数据挖掘模型，选择现有的训练数据集完成训练。

(2)框架模块，方便设定和选择指标，用于所选择数据挖掘模型的排序，适应数据挖掘场景的动态性需求。框架模块，对应的工程实现包括：显示数据挖掘模型的各项可使用参数和已有指标的使用效果，提供定制的界面，用户自定义或选择已有的指标来适应特定的业务应用；针对给定的指标，开发实现引擎在判断的基础上自动化的调整数据挖掘模型的排序、数据挖掘模型的权重或提示选择新的数据挖掘模型。

框架模块，可用于所选择数据挖掘模型的排序，适应数据挖掘场景的动态性需求部分，主要包括：

(2-1)针对数据挖掘模型的选择可以按照所使用的数据挖掘模型类别的比例(如有监督学习、半监督学习和非监督学习)、属性多少等参数作为指标，进而引导使用人员合理选择相应的数据挖掘模型。

(2-2)针对各种数据挖掘模型的排序，可以选择准确率、错误率等指标完成排序；也可以考虑是否使用与时间相关的指标，如及时指标、期望值、时间区间值等。

(2-3)针对模型权重的选择，除了选择如(2-2)类似的客观指标外，还可以选择主观指标(如问卷调查)。

(3)支撑定制模块，提供支撑定制化组合多种数据挖掘模型的方法，用于为发挥运维人员经验提供渠道，进而提高分析结果准确性。支撑定制模块，对应的工程实现应包括：用户查询各种数据挖掘模型在本系统的使用情况，根据观察到的历史信息和及时输出，提供界面能够满足用户对数据挖掘模型依赖程度的输入(可设置为[0，1]中的实数值)；系统根据用户的数据值自动化的调取数据挖掘模型组合方式，并实现对即将到来数据的预测和判断。支撑定制化组合多种模型的方法，能够为发挥运维人员经验提供渠道，进而提高分析结果准确性部分，具体实现的功能包括：

(3-1)对于所选择的数据挖掘模型，采用组合方式综合利用各种数据挖掘模型的输出结果，所采用的方法应保证保底性原则、抢占性原则和主观反映原则；所谓保底性是指组合后应一定能够保证有结果输出；抢占性原则是指在数据挖掘模型排序的基础上，排序优先级高的数据挖掘模型具有绝对抢占权利，若用户完全信任某个数据挖掘模型，那么，比它差的数据挖掘模型将不应影响到结果的输出；主观反映原则是指用户的主观判断应能够在最终组合模型的结果输出中有所反映。

(3-2)提供由用户定义对各类型数据挖掘模型的依赖程度，并把给依赖程度可以应用于最终的组合结果输出中。

(3-3)在选择组合数据挖掘模型方法中，可以由用户自由定义，仅需满足如(3-1)中所述的原则即可。

(4)机制模块，提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制，用于保证数据挖掘模型组合的可扩展性。机制模块，对应的工程实现包括：一个能够实现指标判断和自动动作的引擎；对于数据挖掘模型选择部分，当满足设定条件时，应主动向用户发送调整请求，同时，也提供用户主动修改的功能接口；对于数据挖掘模型排序部分，根据指标实现数据挖掘模型的自动排序；对于数据挖掘模型权重调整部分，若满足指标条件则对用户发送相应的建议调整值，并仅由用户确认后，方能完成权重的调整，同时，保留用户主动调整的功能接口。机制模块，具体实现的功能包括：

(4-1)在使用本方法开展业务时，所输出的结果可以用来指导对数据挖掘模型选择、权重设置和数据挖掘模型排序等操作。其中，所依赖的指标可以由方便设定和选择指标的框架中的方法完成设置。

(4-2)是否重新选择数据挖掘模型、对于所选择数据挖掘模型的排序、以及数据挖掘模型权重的重置均是独立进行的。对于新添加的数据挖掘模型，需要完成其位置的确定和权重的设置。

一种自适应的组合数据挖掘模型方法，包括以下步骤：

(2)选取模型的评价指标，并根据指标值对模型进行排序；

(3)提供接口让使用者对各种模型进行主观评价和权重设置；

在实施过程中，构造如图1所示的组合数据挖掘模型系统，其中，业务系统的操作数据库应定期向支撑数据分析的数据仓库传递数据。除此之外，数据仓库在管理该业务系统历史数据的基础上，还应该收集第三方共享数据或其它类型的数据。为了方便特殊应用使用，还应该及时的建立对应的数据集市，用于更高效的支撑各种分析模型选择与训练。在分析模型训练完成的基础上，通过自适应交互控制模块及时的调整各种分析模型，并使之能够应用与智能决策。

在依据数据选择和训练分析模型时，需经历如图2所示的过程。在数据集成和整理阶段，应权衡本系统自身生成的数据和来自其他系统的数据，并采用日期、类别等属性完成数据的整理和高效存储。在数据预处理阶段，重点在于实现数据的清洗，去除冗余数据和噪声数据，并对出现的空缺值选择相应的方法处理，并在此基础上，提取数据中包含的属性特征。在挖掘算法选取和分析模型训练阶段，需重点考虑所拥有的数据质量和规模，从统计分析方法、机器学习方法或数据挖掘模型中选择可以应用的模型。在模型使用阶段，重点在于设计如何使用各种模型的输出结果，及各种输入参数的使用。

以在线游戏应用为例，重点在于通过用户数据分析准确判断用户的类别和特征，进而指导运营部门针对性地给出各种策略保证用户不流失。事实上，可用于预测用户类型的数据包括：用户自身的行为数据、相同应用的其他用户的行为数据、同类应用的用户行为数据、以及其它数据。直观地，从预测用户类型的角度看，上述数据类型的重要程度呈现降序关系。但是，用户自身的行为数据和相关应用的用户行为数据都需经历从无到有，而后不断丰富的过程，难以建立统一的预测和分析模型实现用户类型的准确判断，需要针对用户行为数据的规模差异和行为数据的时间差异建立相应的模型才可能保证分析结果的尽可能准确。此外，对于一个全新上线的应用，在没有任何用户行为数据的情况下分析其用户类型对于应用推广策略的选择至关重要，需要确立适当的训练数据选择原则或探索式的主动数据收集方法。简言之，我们必须针对下面两种情况设立相应的预测方法：(1)该应用没有任何用户行为数据的情况下，选择或快速建立训练数据集的方法；(2)随着用户行为数据的逐步丰富，能够更准确预测用户类型的模型与方法。基于此，可以采用如图3所示的类型预测框架。当有新用户数据时，使用轻量级分类器对其分类，随着用户行为数据的增多，达到标准后使用中量级分类器，或者重量级分类器。轻、中、重量级依赖数据属性进行判断。例如，新产生的数据相对属性较少，可划为轻量级，随着时间数据的增多，达到标准后为中量级或者重量级。

接下来，我们给出一种可以保障保底性、抢占性和主观反映性的组合模型方法。首先，我们给出相关要求的表现如下：抢占性要求：排序优先级高的模型具有绝对抢占权利，即同等条件下其占绝对优势，所使用结果仅考虑比该模型级别更高模型输出，如果存在多选一，只选优先级别最高的。保底性要求：一定能够输出模型结果，即，条件要求最少的模型(优先级别最低的模型)应是其他模型选择结果的补集，保证其他模型无结果输出时，组合模型应有结果输出。主观反映性要求：主观的判断能够反映到最终组合模型的结果输出中，其判断值的大小应表现出结果输出差别。

基于此，我们可以设计如下算法满足上述要求：

算法：给定n+1个预测模型，其输出结果分别为Xi，最终的评判结果有下列加权值来确定，其中，w_i表示运维决策人员对各模型赋予的权重值，0≤w_i≤1。

a_n＝W_n；

a_i＝w_i*(1-w_i+1)(1-w_i+2)...(1-w_n)，对于i＝1，2，...，n-1；

明显地，可以证明上述算法满足下列特性：

命题1：对于算法1，0≤a_i≤1，其中，i＝0，1，...，n.

证明：a_n显然满足上述条件。

对于i＝1，2，...，n-1，由于0≤w_i≤1，

那么a_i＝w_i*(1-w_i+1)(1-w_i+2)...(1-w_n)满足上述条件。

要证明上述结论成立，只需验证

事实上，a_x+a_x+1＝w_x*(1-w_x+1)*(1-w_x+2)*...*(1-w_n)+w_x+1*(1-w_x+1+1)*(1-w_x+1+2)*...*(1-w_n)＝[w_x*(1-w_x+1)+w_x+1]*(1-w_x+2)*...*(1-w_n)≤(1-w_x+2)*...*(1-w_n)，因此，

命题2：当w_i＝1，则a_x＝0，其中x＜i。

证明：因为a_x＝w_x*(1-w_x+1)*(1-w_x+2)*...*(1-w_n)，若x＜i，则1-w_i为a_x的一个因子，所以a_x＝0，其中x＜i，其x≠0。

对于x＝0，因为w_i＝1，那么，

所以

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种自适应的数据挖掘组合模型系统，其特征在于，包括：

（1）主动选择定制模块，能够主动选择和定制多种数据挖掘模型，用于适应各种类型和规模数据的分析需求；

（2）框架模块，方便设定和选择指标，用于所选择数据挖掘模型的排序，适应数据挖掘场景的动态性需求；

（3）支撑定制模块，提供支撑定制化组合多种数据挖掘模型的方法，用于为发挥运维人员经验提供渠道，进而提高分析结果准确性；

（4）机制模块，提供依据挖掘输出结果反馈动态调整数据挖掘模型组合方式的机制，用于保证数据挖掘模型组合的可扩展性。

2.根据权利要求1所述的自适应的数据挖掘组合模型系统，其特征在于，主动选择定制模块，对应的工程实现包括：提供提交数据挖掘模型的接口，并规范其所需要的各种数据接口和数据需求；对于添加完成的数据挖掘模型，建立对应的索引结构，建立基于类别的定制和选择操作方式；对各种数据挖掘模型的使用效果评价进行显示辅助用户针对性的选择；对于超过时效的数据挖掘模型，用户删除或存档。

3.根据权利要求1所述的自适应的数据挖掘组合模型系统，其特征在于，框架模块，对应的工程实现包括：显示数据挖掘模型的各项可使用参数和已有指标的使用效果，提供定制的界面，用户自定义或选择已有的指标来适应特定的业务应用；针对给定的指标，开发实现引擎在判断的基础上自动化的调整数据挖掘模型的排序、数据挖掘模型的权重或提示选择新的数据挖掘模型。

4.根据权利要求1所述的自适应的数据挖掘组合模型系统，其特征在于，指标包括客观指标与主观指标，客观指标包括准确率、错误率、及时指标、期望值、时间区间值；主观指标包括问卷调查。

5.根据权利要求1所述的自适应的数据挖掘组合模型系统，其特征在于，支撑定制模块，对应的工程实现应包括：用户查询各种数据挖掘模型在本系统的使用情况，根据观察到的历史信息和及时输出，提供界面能够满足用户对数据挖掘模型依赖程度的输入；系统根据用户的数据值自动化的调取数据挖掘模型组合方式，并实现对即将到来数据的预测和判断。

6.根据权利要求1所述的自适应的数据挖掘组合模型系统，其特征在于，支撑定制化组合多种模型的方法，应保证保底性原则、抢占性原则和主观反映原则；所谓保底性是指组合后应一定能够保证有结果输出；抢占性原则是指在数据挖掘模型排序的基础上，排序优先级高的数据挖掘模型具有绝对抢占权利，若用户完全信任某个数据挖掘模型，那么，比它差的数据挖掘模型将不应影响到结果的输出；主观反映原则是指用户的主观判断应能够在最终组合模型的结果输出中有所反映。

7.根据权利要求1所述的自适应的数据挖掘组合模型系统，其特征在于，机制模块，对应的工程实现包括：一个能够实现指标判断和自动动作的引擎；对于数据挖掘模型选择部分，当满足设定条件时，应主动向用户发送调整请求，同时，也提供用户主动修改的功能接口；对于数据挖掘模型排序部分，根据指标实现数据挖掘模型的自动排序；对于数据挖掘模型权重调整部分，若满足指标条件则对用户发送相应的建议调整值，并仅由用户确认后，方能完成权重的调整，同时，保留用户主动调整的功能接口。

8.一种基于权利要求1-7任一所述系统的自适应的组合数据挖掘模型方法，其特征在于，包括以下步骤：

（1）搜集并整理数据集，并根据数据集和应用系统特征选取和训练数据挖掘模型；

（2）选取数据挖掘模型的评价指标，并根据指标值对数据挖掘模型进行排序；

（3）提供接口让使用者对各种数据挖掘模型进行主观评价和权重设置；

（4）选取数据挖掘模型输出结果的组合规则，并组合输出数据挖掘结果；

（5）根据输出结果和流式数据的验证，判断各项指标是否满足，并进行相应的动作；

（6）设计和开发相应的模块，能够便捷地移植到各种特定的应用业务系统中；

（7）建立组合模型使用信息的分享机制，方便各类型业务系统使用者交流和分析使用的心得，以及创造的各种模型组合方式。