CN117492738B

CN117492738B - 一种数据挖掘全流程方法及装置

Info

Publication number: CN117492738B
Application number: CN202311482154.4A
Authority: CN
Inventors: 孙杨博; 夏全龙; 罗彬�; 叶超
Original assignee: Bank of Communications Co Ltd Beijing Branch
Current assignee: Bank of Communications Co Ltd Beijing Branch
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-06-25
Anticipated expiration: 2043-11-08
Also published as: CN117492738A

Abstract

本文提供了一种数据挖掘全流程方法及装置，方法包括：对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征；由客户基础数据及客户交易场景还原特征构成客户画像信息；生成模型训练配置界面；接收用户通过模型训练配置界面配置的模型信息；根据文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本；利用训练样本及算法标识对应的训练程序，训练预测模型；根据输入参数标识生成交互界面，发送交互界面至客户端显示；接收用户通过交互界面输入的待分析客户的特征信息，将待分析客户的特征信息输入至预测模型中得到预测结果，发送预测结果至客户端显示。本文能够简化用户操作，降低预测模型建立难度。

Description

一种数据挖掘全流程方法及装置

技术领域

本文涉及大数据领域，尤其涉及一种数据挖掘全流程方法及装置。

背景技术

随着大数据技术的迅猛发展，传统广撒网式的信息推送模式存在如下缺陷：(1)信息推送准确率低、资源耗费高；(2)无法满足客户服务深度与粘性提升上的发展要求；(3)存在数据价值浪费及用户体验差的问题，具体的，不能发现海量客户信息中的潜在价值，对目标客户提供针对性的产品和服务。

现有技术中，对于已有数据价值的挖掘，主要有如下两种方式：

第一种，通过数据统计分析手段实现，该种方式利用手工计算、阈值设定等方式构建模型，以场景事件驱动信息推送模式，锁定目标客群，该种方式建立的模型仅能确定变量特征之间的关系，无法根据数据预测行为，且手工计算的方式在海量数据处理上存在一定局限性；

第二种，现有机器学习挖掘数据价值的手段存在流程复杂，对业务人员技术门槛要求高，普及难度大。市面上已有机器学习软件为面向全行业的技术人员的工具，不能与业务场景深度融合，且同样对业务人员技术门槛要求高，普及难度大。

发明内容

本文用于解决现有数据挖掘时未与业务场景融合，且数据挖掘过程存在流程复杂、对业务人员技术门槛要求高、不利于普及的问题。

为了解决上述技术问题，本文一方面提供一种数据挖掘全流程方法，包括：

利用定时调度任务从业务源系统获取客户信息，将客户信息存入数据库中，其中，所述客户信息包括客户基础数据、各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息；

利用预先建立的交易场景词典对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征，并将其存入所述数据库中；

由客户基础数据及客户交易场景还原特征，构成客户画像信息；

根据预设建模算法、已有文件、客户画像信息中的特征、预设预测结果、预处理算法，生成模型训练配置界面；

接收用户通过模型训练配置界面配置的模型信息，其中，所述模型信息包括算法标识、文件标识、输入参数标识、输出参数标识及预处理信息；

根据所述文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本；

利用训练样本及算法标识对应的训练程序，训练预测模型；

根据所述输入参数标识生成交互界面，发送交互界面至客户端显示；

接收用户通过交互界面输入的待分析客户的特征信息，将待分析客户的特征信息输入至预测模型中得到预测结果，发送预测结果至客户端显示。

作为本文进一步实施例中，数据挖掘全流程方法还包括：

利用监控程序监控客户信息获取是否正常，若不正常，则发出提醒信息至运维人员。

作为本文进一步实施例中，发送预测结果至客户端显示时还包括：

获取历史预测结果的成功率；

发送历史预测结果的成功率至客户端显示；

其中，历史预测结果的成功率确定过程包括：

获取与待分析客户相似客户的信息推送结果及预测结果；

根据相似客户的信息推送结果及预测结果计算成功率。

作为本文进一步实施例中，利用预先建立的交易场景词典对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征包括：

根据渠道-技术摘要区字典表，确定客户各渠道的每一笔交易流水信息中的技术摘要信息，其中，所述渠道-技术摘要区字典表包括渠道与技术摘要字段信息的对应关系；

对客户各渠道的每一笔交易流水信息中的技术摘要信息进行数据清洗；

对清洗后每一笔交易流水信息进行分词处理，并提取关键字；

将客户每一笔交易流水信息的关键字与交易场景词典进行匹配，将匹配成功的第一级业务场景及第二级业务场景作为客户每一笔交易流水信息的业务场景还原特征，其中，所述交易场景词典包括第一级业务场景与第二级业务场景以及关键词间的关联关系；

根据客户每一笔交易流水信息的业务场景还原特征，统计得到客户的业务场景还原特征。

作为本文进一步实施例中，还包括：建立模型信息与交互界面间的关联关系；

接收用户通过模型训练配置界面配置的模型信息之后还包括：

查询最近预定时间段内是否存在相同模型信息，若是，则根据模型信息及其与交互界面间的关联关系，获取交互界面，发送交互界面至客户端。

作为本文进一步实施例中，根据所述文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本包括：

从数据库中获取文件标识对应的文件；

对于文件中每一客户的数据，提取输入参数标识对应的该客户的输入参数数据，提取输出参数标识对应的该客户的输出参数数据；

按照预处理信息对该客户的输入参数数据进行预处理，由该客户的预处理后的参数数据构成一样本的输入，由该客户的输出参数数据构成该样本的输出。

作为本文进一步实施例中，所述模型训练配置界面包括：模板选择控件及文件选择控件；

用户通过触控所述模板选择控件显示各类预测模型的配置模板，所述配置模板中预设有算法标识、输入参数标识、输出参数标识及预处理信息；

用户通过触控所述文件选择控件显示已有文件标识。

本文第二方面提供一种数据挖掘全流程装置，包括：

数据获取单元，用于利用定时调度任务从业务源系统获取客户信息，将客户信息存入数据库中，其中，所述客户信息包括客户基础数据、各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息；

场景还原单元，用于用预先建立的交易场景词典对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征，并将其存入所述数据库中；

画像建立单元，用于由客户基础数据及客户交易场景还原特征，构成客户画像信息；

配置界面生成单元，用于根据预设建模算法、已有文件、客户画像信息中的特征、预设预测结果、预处理算法，生成模型训练配置界面；

参数确定单元，用于接收用户通过模型训练配置界面配置的模型信息，其中，所述模型信息包括算法标识、文件标识、输入参数标识、输出参数标识及预处理信息；

样本确定单元，用于根据所述文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本；

训练单元，用于利用训练样本及算法标识对应的训练程序，训练预测模型；

交互界面生成单元，用于根据所述输入参数标识生成交互界面，发送交互界面至客户端显示；

预测单元，用于接收用户通过交互界面输入的待分析客户的特征信息，将待分析客户的特征信息输入至预测模型中得到预测结果，发送预测结果至客户端显示。

本文第三方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一实施例所述的方法。

本文第四方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述的方法。

本文提供的数据挖掘全流程方法及装置，通过定时获取客户信息，并利用交易场景词典对客户信息进行分析，确定客户的交易场景还原特征，由客户基础数据及客户交易场景还原信息构成客户画像信息，能够丰富客户特征维度，提升客户画像的清晰性，为后续将预测过程与交易场景深度融合提供数据依据。

通过根据预设建模算法、已有文件、客户画像信息中的特征、预设预测结果、预处理算法，生成模型训练配置界面；接收用户通过模型训练配置界面配置的模型信息；根据所述文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本；利用训练样本及算法标识对应的训练程序，训练预测模型；根据输入参数标识生成交互界面，发送交互界面至客户端显示；接收用户通过交互界面输入的待分析客户的特征信息，将待分析客户的特征信息输入至预测模型中得到预测结果，发送预测结果至客户端显示，以可视化方式完成预测模型开发，能够简化用户操作，降低人工智能模型建立难度，且能使用户根据需求建立预测模型。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例数据挖掘全流程方法的流程图；

图2示出了本文实施例交易场景还原特征确定过程的流程图；

图3示出了本文实施例训练样本数据获取过程的流程图；

图4示出了本文实施例数据挖掘全流程方法的另一流程图；

图5示出了本文实施例数据挖掘全流程装置的结构图；

图6示出了本文实施例计算机设备的结构图。

附图符号说明：

501、数据获取单元；

502、场景还原单元；

503、画像建立单元；

504、配置界面生成单元；

505、参数确定单元；

506、样本确定单元；

507、训练单元；

508、交互界面生成单元；

509、预测单元；

602、计算机设备；

604、处理器；

606、存储器；

608、驱动机构；

610、输入/输出模块；

612、输入设备；

614、输出设备；

616、呈现设备；

618、图形用户接口；

620、网络接口；

622、通信链路；

624、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

需要说明的是，本文的数据挖掘全流程方法及装置可用于金融领域，也可用于除金融领域之外的任意领域，本文对数据挖掘全流程方法及装置的应用领域不做限定。

本文一实施例中，提供一种数据挖掘全流程方法，应用于可视化平台，用于解决现有数据挖掘时未与业务场景融合，且数据挖掘过程存在流程复杂、对业务人员技术门槛要求高、不利于普及的问题。具体的，如图1所示，包括：

步骤101，利用定时调度任务从业务源系统获取客户信息，将客户信息存入数据库中。其中，客户信息包括客户基础数据、各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息。

详细的说，通过提数程序从业务源系统获取客户信息，将客户信息生成指定文件类型、字段分隔、编码方式的文件。本文所涉及的客户信息为经过客户授权或各方充分授权的信息。业务源系统端及后台端(还可称为可视化平台端)配置相同的加密密钥，以加密传输数据，从而保证数据安全，同时，还配置有监控程序，监控程序用于检测文件获取情况，若文件未到或加载失败，则向运维人员发送短信提醒，保障模型训练所需数据的完整性、稳定性、安全性。

定时调度任务中记录有各类信息的获取时间，实施时，每月获取客户基础数据，每日获取各渠道的消费行为数据。

一些实施方式中，客户基础数据包括：基本数据、签约数据、资产数据、借记卡流水信息、贷记卡流水、网联银联流水等信息。

消费行为数据涉及衣、食、住、行等方面，包括借记卡和贷记卡的每一笔交易流水信息，每一笔交易流水信息反映一业务场景，业务场景能够直观地反映客户的社会属性、行为特点及生活习惯等，例如对于青年客户来说，其业务场景标签可能为各类消费平台、休闲娱乐、运动健身等，而对于老年客户来说，其业务场景可能为公交、医疗保健、超市、商场、旅游消费等。

步骤102，利用预先建立的交易场景词典对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征，并将其存入数据库中。其中，交易场景词典包括第一级业务场景与第二级业务场景以及关键词间的关联关系。

本步骤实施时，先提取客户交易流水信息中的关键词，然后利用关键词匹配交易场景词典，得到第一级业务场景及第二级业务场景。具体的，第二级业务场景包含于第一级业务场景，即属于第一级业务场景的子级。

步骤103，由客户基础数据及客户交易场景还原特征，构成客户画像信息。

步骤104，根据预设建模算法、已有文件、客户画像信息中的特征、预设预测结果、预处理算法，生成模型训练配置界面。

本步骤中，预设建模算法包括但不限于Xgboost、逻辑回归、神经网络等，不同算法对应不同的超参，调整这些参数可以提升模型预测效果。

客户画像信息中的特征用于确定模型输入参数，预设预测结果用于确定模型输出参数，例如保险销售模型，输出为客户是否为购买保险的潜力客户，又例如可是是否提升、客户是否流失以及流失概率。

预处理算法包括连续特征里离散化(例如年龄可以分为老中青)、特征编码方式(ONE-HOT ENCODER和LABEL-ENCODER)、缺失值填充(例如最频繁填充、平均值填充、中位数填充等)等。

步骤105，接收用户通过模型训练配置界面配置的模型信息，其中，所述模型信息包括算法标识、文件标识、输入参数标识、输出参数标识及预处理信息。

一些实施方式中，用户通过模型训练配置界面输入的模型信息以http方式发送。

一些实施方式中，模型训练配置界面在用户配置模型信息时，根据用户已选择输出参数标识，还可提示用户备选输入参数，以提高用户设置输入参数的准确率。

一些实施方式中，接收到用户通过模型训练配置界面配置的模型信息之后，还分析输入参数与输出参数之间的相关性，以及输入参数与输出参数之间的相关性，根据相关性分析结果，生成输入参数建议供用户选择。该种方式能够保证预测模型的合理性及可用性。具体实施时，先计算输入参数与输出参数之间的相关性，根据该相关性筛选出备选输入参数集，然后计算备选输入参数集中每两个输入参数间的相关性，从相关性大于预设阈值的两个输入参数中选择其中一个输入参数构成独立输入参数集，根据独立输入参数集生成输入参数建议。

步骤106，根据文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本。

步骤107，利用训练样本及算法标识对应的训练程序，训练预测模型。预测模型训练完后，会将模型及其特征权重存储至数据库中，用于后续模型预测使用。

具体实施时，训练得到预测模型之后，还对预测模型进行校验，若校验未通过，则说明预测模型精度不高，提醒用户选择其它训练算法或调整输入参数。

校验时，可选用评价指标校验预测模型的预测结果，一些实施方式中，评价指标包括准确率、覆盖率、ROC、AUC。

步骤108，根据输入参数标识生成交互界面，发送交互界面至客户端显示。交互界面包括各输入参数的配置控件，用于供用户配置输入参数。具体实施时，还包括预测模型选择控件，用于供用户选定预测模型。

步骤109，接收用户通过交互界面输入的待分析客户的特征信息，将待分析客户的特征信息输入至预测模型中得到预测结果，发送预测结果至客户端显示。

上述步骤执行于后端，后端可采用Python的DJANGO架构，后端算法依托于scikit-learn、MXNet等算法架构。显示配置界面及交互界面的客户端运行于前端，可采用REACT技术实现。

具体实施时，交互界面中除了显示输入参数外，还可显示输入参数的特征权重，以供用户判断影响客户行为的关键特征。

确定预测结果之后，还包括：根据预测结果确定客户信息推送策略，从而能够降低信息发送量，降低服务器处理压力，同时提高用户体验。以客户流失风险预测模型举例，当预测结果为客户存在流失风险时，采用人工电话推送信息的方式挽留客户，当预测结果为客户不存在流失风险时，采用短信等方式推送信息。

本实施例中，步骤101通过采用定时调度任务定期获取客户数据，能够保证数据传输的稳定性及安全性。步骤102至步骤103通过分析交易场景还原特征，将其作为一特征加入至客户画像中，能够丰富客户特征维度，提升客户画像的清晰性，为后续将预测过程与交易场景深度融合提供数据依据。步骤104至步骤107通过可视化方式开发预测模型，能够简化用户操作，降低人工智能模型建立难度，且能使用户根据需求建立预测模型。步骤108至步骤109生成的调用预测模型的交互界面，能够降低预测模型的使用难度，提高用户体验。

本文一实施例中，数据挖掘全流程方法还包括：利用监控程序监控客户信息获取是否正常，若不正常，则发出提醒信息至运维人员。

本文一实施例中，上述步骤105中配置信息可包括多个算法标识，即利用每一算法标识对应的训练程序分别训练出一预测模型，利用验证集验证算法标识对应的预测模型，从中选择出一预测结果最好的预测模型作为最终的预测模型。

本文一实施例中，如图2所示，上述步骤102利用预先建立的交易场景词典对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征包括：

步骤201，根据渠道-技术摘要区字典表，确定客户各渠道的每一笔交易流水信息中的技术摘要信息，其中，所述渠道-技术摘要区字典表包括渠道与技术摘要字段信息的对应关系。

考虑到原始数据数据量大，高达数亿条，为了提高数据分析效率及保证数据分析的有效性，可选择近一年中消费、笔数排名前N(例如5000个)个客户的交易流水信息。

渠道-技术摘要区字典表预先人工整理。根据渠道--技术摘要区字典表能够确定各渠道每一笔交易流水信息中的技术摘要信息。

步骤202，对客户各渠道的每一笔交易流水信息中的技术摘要信息进行数据清洗。数据清洗过程包括但不限于去除多余字符，例如空格、换行符等。

步骤203，对清洗后每一笔交易流水信息进行分词处理，并提取关键字。本步骤实施时，利用自然语言技术进行分词处理，并提取出关键字。

步骤204，将客户每一笔交易流水信息的关键字与交易场景词典进行匹配，将匹配成功的第一级业务场景及第二级业务场景作为客户每一笔交易流水信息的业务场景还原特征，其中，所述交易场景词典包括第一级业务场景与第二级业务场景以及关键词间的关联关系。

第一级业务场景可划分为酒店、亲子、交通、学习培训、本地生活、金融、社交、医疗保健、旅游、休闲娱乐、运动健身、丽人、生活服务、婚庆、家装、家政、美食，共17个大类。

第二级业务场景包括第一级业务场景中各场景的子级。以金融为例，其对应的第二级业务场景包括：保险、基金、理财、个人交易、手续费、信用卡还款等。以生活服务为例，其对应的第二级业务场景包括：交友、超市、电商平台、商场、便利店等。

步骤205，根据客户每一笔交易流水信息的业务场景还原特征，统计得到客户的业务场景还原特征。

本步骤实施时，逐条标记各交易流水所属的业务场景还原特征，以客户维度汇总统计，得到以客户为单位的业务场景还原特征。一些实施方式中，客户的业务场景还原特征包括：业务场景标签信息、客户在各业务场景的消费总金额及客户在各业务场景的交易总笔数。

本文一实施例中，数据挖掘全流程方法还包括：

收集步骤204匹配失败的客户的交易流水信息；

根据匹配失败的客户的交易流水信息，确定增量第一级业务场景与增量第二级业务场景以及关键词间的关联关系，并将其存储于场景关键词词典中。

本实施例能够实现业务场景关键词词典的自动迭代优化，提高确定业务场景的效率及准确性。

本文一实施例中，如图3所示，上述步骤106中，根据文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本包括：

步骤301，从数据库中获取文件标识对应的文件。

步骤302，对于文件中每一客户的数据，提取输入参数标识对应的该客户的输入参数数据，提取输出参数标识对应的该客户的输出参数数据。

步骤303，按照预处理信息对该客户的输入参数数据进行预处理，由该客户的预处理后的参数数据构成一样本的输入，由该客户的输出参数数据构成该样本的输出。

本文一实施例中，对数据库中的预测模型进行规律更新，例如，每隔固定时间间隔利用增量客户数据进行更新，或当增量客户数据达到一预定数量时利用增量客户数据进行更新。

预测模型每次更新后，记录样本数据最新的时间信息，预测模型下次更新时，增量数据的确定过程包括：根据上次预测模型使用样本数据的最新时间信息，从数据库中获取增量客户信息；根据预测模型的输入参数及增量客户信息，确定训练样本；将本次确定出的训练样本与历史使用的训练样本计算相似性；从本次确定出的训练样本中选择出相似性小于预定值的目标训练样本；利用目标训练样本对预测模型进行更新。

本实施例能够定期筛选出能够提升预测模型学习能力的样本，对预测模型进行完善，提高预测模型的训练准确度。

本文一实施例中，为了提升基于用户配置数据训练得到的预测模型的可用性，模型训练配置界面包括：模板选择控件及文件选择控件。

用户通过触控模板选择控件显示各类预测模型的配置模板，配置模板中预设有算法标识、输入参数标识、输出参数标识及预处理信息。用户通过触控文件选择控件显示已有文件标识。

待接收到用户选择的配置模板后，系统会直接按照用户选择的配置模板中的字段及加工规则导出文件，确定训练样本。

本文一实施例中，如图4所示，发送预测结果至客户端显示时还包括：

步骤401，获取历史预测结果的成功率。

步骤402，发送历史预测结果的成功率至客户端显示。

其中，历史预测结果的成功率确定过程包括：获取与待分析客户相似客户的信息推送结果及预测结果；根据相似客户的信息推送结果及预测结果计算成功率。具体的，计算信息推送结果与预测结果相同的相似客户量N1以及相似客户总量N，利用N1/N计算得到成功率。

本实施例通过显示预测结果的同时显示历史预测结果的成功率，能够帮助用户判断预测结果的可用性。

本文一实施例中，还包括对数据库中预测模型进行验证，验证过程包括：

根据预测模型的输入参数，获取目标客户群体中输入参数信息；

将输入参数信息输入至预测模型中，预测得到客户的目标对象结果；

将目标对象信息推送至目标客户群体中的各客户，根据客户反馈信息确定客户实际目标对象结果；

根据各客户实际目标对象结果以及预测目标对象结果，计算预测模型的评价指标；

若评价指标满足预设指标值，则确定所述预测模型有效，若评价指标不满足预设指标值，则获取预设独立特征；

对预设独立特征及预测模型的输入参数进行取差集处理；

对差集处理得到的特征进行细化处理，得到多个新特征，将新特征加入至客户画像中。

本实施例根据预测模型的评价效果，调整客户画像，为用户在配置信息设置时提供更多可选项，提升预测模型的准确度。

本文一实施例中，利用本文确定出的客户画像信息，还可进行信息推荐，具体的，包括：

(1)对于每一客户的每一业务场景，比较该客户的该业务场景的交易参数与各交易参数的阈值，根据比较结果确定该客户在该业务场景的分类信息。其中，交易参数包括交易次数及交易金额。

本步骤中各交易参数的阈值可根据实际设定，本文对此不作限定。具体的，交易参数的阈值可包括一个或多个，对应的各业务场景分类个数为阈值加一，例如阈值为1个时，业务场景分类为二类，例如高消费、低消费。

本步骤实施时，可通过判断每一客户在每一业务场景的交易参数落入阈值的范围，确定每一客户在每一业务场景的分类信息。

(2)，根据客户在各业务场景的分类信息以及预设分类规则，对客户类型进行划分。

本步骤中，预设分类规则用于限定业务场景分类与客户类型的关联关系，例如对于某一客户来说，其在业务场景1属于分类1，在业务场景2属于分类2，在业务场景3属于分类3，预审分类规则规定，具有两个分类1的业务场景，对应客户类型为类型1，由此可以确定该客户为类型1。具体实施时，可根据实际需求设定预设分类规则。

本步骤实施时，还可对客户在每一业务场景的分类信息进行赋值，对同一客户的不同业务场景的得分进行加权求和得到客户评分(权重可根据业务场景重要度确定)，根据客户评分确定客户的信息推荐策略。

(3)，根据客户类型及客户的画像信息，确定客户的信息推荐策略。

本实施例通过分析客户画像信息中的业务场景，能够对客户进行精准划分，对不同客户开展不同信息推荐策略，同时，还可以根据客户类型及客户画像信息，仅针对部分客户类型用户开展信息推荐，能够缩小信息推荐范围、降低服务器处理压力、提高用户体验。

基于同一发明构思，本文还提供一种数据挖掘全流程装置，如下面的实施例所述。由于数据挖掘全流程装置解决问题的原理与数据挖掘全流程方法相似，因此，数据挖掘全流程装置的实施可以参见数据挖掘全流程方法，重复之处不再赘述。

具体的，如图5所示，数据挖掘全流程装置包括：

数据获取单元501，用于利用定时调度任务从业务源系统获取客户信息，将客户信息存入数据库中，其中，所述客户信息包括客户基础数据、各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息。

场景还原单元502，用于用预先建立的交易场景词典对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征，并将其存入所述数据库中。

画像建立单元503，用于由客户基础数据及客户交易场景还原特征，构成客户画像信息。

配置界面生成单元504，用于根据预设建模算法、已有文件、客户画像信息中的特征、预设预测结果、预处理算法，生成模型训练配置界面。

参数确定单元505，用于接收用户通过模型训练配置界面配置的模型信息，其中，所述模型信息包括算法标识、文件标识、输入参数标识、输出参数标识及预处理信息。

样本确定单元506，用于根据所述文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本。

训练单元507，用于利用训练样本及算法标识对应的训练程序，训练预测模型。

交互界面生成单元508，用于根据所述输入参数标识生成交互界面，发送交互界面至客户端显示。

预测单元509，用于接收用户通过交互界面输入的待分析客户的特征信息，将待分析客户的特征信息输入至预测模型中得到预测结果，发送预测结果至客户端显示。

本实施例提供的数据挖掘全流程装置能够实现如下技术效果：

(1)能够丰富客户特征维度，提升客户画像的清晰性，为后续将预测过程与交易场景深度融合提供数据依据。

(2)为业务提供支持灵活定制的数据挖掘应用场景，最大限度屏蔽业务使用过程中难以理解的操作步骤，以美观的人机交互界面为业务人员提供可操作性强，且容易上手的数据挖掘可视化平台。

本文一实施例中，如图6所示，还提供一种计算机设备，计算机设备602可以包括一个或多个处理器604，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备602还可以包括任何存储器606，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器606可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备602的固定或可移除部件。在一种情况下，当处理器604执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备602可以执行相关联指令的任一操作。计算机设备602还包括用于与任何存储器交互的一个或多个驱动机构608，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备602还可以包括输入/输出模块610(I/O)，其用于接收各种输入(经由输入设备612)和用于提供各种输出(经由输出设备614)。一个具体输出机构可以包括呈现设备616和相关联的图形用户接口618(GUI)。在其他实施例中，还可以不包括输入/输出模块610(I/O)、输入设备612以及输出设备614，仅作为网络中的一台计算机设备。计算机设备602还可以包括一个或多个网络接口620，其用于经由一个或多个通信链路622与其他设备交换数据。一个或多个通信总线624将上文所描述的部件耦合在一起。

通信链路622可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路622可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如前述任一实施例所述的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种数据挖掘全流程方法，其特征在于，包括：

利用训练样本及算法标识对应的训练程序，训练预测模型；

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于，发送预测结果至客户端显示时还包括：

获取历史预测结果的成功率；

发送历史预测结果的成功率至客户端显示；

其中，历史预测结果的成功率确定过程包括：

获取与待分析客户相似客户的信息推送结果及预测结果；

根据相似客户的信息推送结果及预测结果计算成功率。

4.如权利要求1所述的方法，其特征在于，利用预先建立的交易场景词典对获取的客户交易流水信息进行分析，生成客户的交易场景还原特征包括：

5.如权利要求1所述的方法，其特征在于，还包括：建立模型信息与交互界面间的关联关系；

6.如权利要求1所述的方法，其特征在于，根据所述文件标识、输入参数标识、输出参数标识及预处理信息，从数据库中获取训练样本包括：

从数据库中获取文件标识对应的文件；

7.如权利要求1所述的方法，其特征在于，所述模型训练配置界面包括：模板选择控件及文件选择控件；

用户通过触控所述文件选择控件显示已有文件标识。

8.一种数据挖掘全流程装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器执行时实现权利要求1至7任意一项所述方法。