CN111047011B

CN111047011B - 一种基于机器学习模型的场景变量自动化深度挖掘引擎系统

Info

Publication number: CN111047011B
Application number: CN201911245813.6A
Authority: CN
Inventors: 裴正奇; 段必超; 刘东来; 黄梓忱
Original assignee: Shenzhen Qianhai Heidun Technology Co ltd
Current assignee: Shenzhen Qianhai Heidun Technology Co ltd
Priority date: 2019-12-07
Filing date: 2019-12-07
Publication date: 2023-05-23
Anticipated expiration: 2039-12-07
Also published as: CN111047011A

Abstract

本发明公开了一种基于机器学习模型的场景变量自动化深度挖掘引擎系统，包括HDPP数据协议，所述HDPP数据协议通过前端操作界面引导用户按照协议规定进行数据录入，且需保证录入的数据完全符合HDPP数据协议要求，通过HDPP数据协议将用户产生的拥有若干场景变量的历史数据，转化为静态场景数据，用户通过HDPP数据协议来定义自己场景的变量画像，所述HDPP数据协议处理后的静态场景数据通过模型处理库输入到所有内置模型中，得到的相关变量值作为输出；给出了一种不需要任何人工智能技术基础便能轻松使用机器学习、数据挖掘与变量预测的手段去完成任意场景的相关任务需求。

Description

一种基于机器学习模型的场景变量自动化深度挖掘引擎系统

技术领域

本发明属于机器学习技术领域，具体涉及一种基于机器学习模型的场景变量自动化深度挖掘引擎系统。

背景技术

机器学习是人工智能研究发展到一定阶段的必然产物。早在上世纪五十年代，人工智能处于起步阶段，人们认为只要给机器赋予逻辑推理能力，机器就能具有智能，随着研究向前发展，人们逐渐认识到，仅具有逻辑推理能力是远远不能实现人工智能的，要让机器实现智能，就必须使机器拥有知识。随后出现了大量的专家系统，但是专家系统面临知识工程瓶颈，简单来说就是通过人把知识总结出来再教给计算机是相当困难的。于是，一些学者想到，让机器自己学习知识。到了上世纪八十年代，机器学习成为了一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放。在现在这个大数据时代，机器学习的作用及功能更是被极大化，目前机器学习及其相关技术几乎应用于各行各业，更是有一部分产业已经由机器学习技术代替了人力劳动。正是由于机器学习及其相关领域的快速发展，加快了智能时代的进程。

现有技术中针对机器学习而言，在构建模型时，需要经过数据处理、模型选择以及模型训练几个步骤，在这个过程中通常都需要专家经验，需要花费大量的时间和精力，效率较低，对于不是从事算法研究的人员来说，使用机器学习对大数据进行分析与建模以达到完成相关任务目的变得几乎不可能，而对于变量预测而言，通常的流程是先找到预测变量的相关变量然后对目标变量进行预测，现有的技术需要算法工程师通过使用不同的手段去不断的筛选相关变量，这同样需要经验且耗费大量的时间和精力，为此我们提出一种基于机器学习模型的场景变量自动化深度挖掘引擎系统。

发明内容

本发明的目的在于提供一种基于机器学习模型的场景变量自动化深度挖掘引擎系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于机器学习模型的场景变量自动化深度挖掘引擎系统，包括HDPP数据协议(Hyper Data Pre-processing Protocols,一种自定义的针对数据结构定义、原始数据录入、数据清洗、引擎对接等几大环节的闭环数据工具型软件，即一种自定义的数据协议)，所述HDPP数据协议通过前端操作界面引导用户按照协议规定进行数据录入，且需保证录入的数据完全符合HDPP数据协议要求，通过HDPP数据协议将用户产生的拥有若干场景变量的历史数据，转化为静态场景数据，其中所述HDPP数据协议规定所有场景变量的取值分为三种类型：Level(程度)、Category(类别)和Numeric(数值)，所述静态场景数据包括：变量画像、规范化数据，用户通过HDPP数据协议来定义自己场景的变量画像，所述HDPP数据协议处理后的静态场景数据通过模型处理库输入到所有内置模型中，所述内置模型通过预设的训练方式，得到使用所有其他变量预测任意一个另外的变量的粗糙模型，以及基于模型评估的方式对上述粗糙模型的进行评分，依次对上述粗糙模型中的非预测变量赋予空值，重新训练得到新的模型和新的评分，将上述将赋空值后的模型的评分与原模型的评分进行比较，其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关，所述内置模型通过预先设定的训练方式，得到使用所有其他变量预测任意一个另外的变量的粗糙模型，以及基于模型评估的方式对上述粗糙模型的进行评分，依次对上述粗糙模型中的非预测变量赋予空值，重新训练得到新的模型和新的评分，将上述将赋空值后的模型的评分与原模型的评分进行比较，其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关；将HDPP数据协议处理的静态模型数据作为测试集，用于衡量各个模型预测结果之间的优劣，将其他的数据作为训练数据，按照内置模型的自动化训练模型方式自行训练所有模型，将任意一个变量作为目标变量，其它变量作为相关变量对目标变量进行预测，如此对于每一种类型的算法都会训练得到若干个模型，其中对于有N个变量的场景，变量分别为var1、var2、…、varN,因此对于某一种类型的算法而言，可以训练得到分别以var1、var2、…、varN作为目标变量的N个模型，使用M种类型的算法，得到M*N个模型；且上述模型可以将任意一个变量作为待预测变量，且所有与该变量有关变量作为输入得到在这个模型下该预测变量的值，并使用所述测试集测试所有模型的优劣，将训练后的模型和测试结果等模型相关数据保存在已保存模型中；训练结束后，当用户预测新的一组数据中某一变量值时，系统会从所述已保存模型中选择在所有预测该变量的模型中加权得分最高的模型作为预测用途的模型，并使用这个模型，将与之有关变量作为输入，得到该模型预测的变量值作为输出。

进一步的，用户也可以在线上传数据进行在线训练，用户上传完数据后，然后经过1、2、3、4、5、6、7、8后进行预测。

与现有技术相比，本发明的有益效果是：

(1)给出了一种前所未有的不需要任何人工智能技术基础便能轻松使用机器学习、数据挖掘与变量预测的手段去完成任意场景的相关任务需求。

(2)借助HDPP数据协议，系统地规定了可用于深度数据挖掘的数据量化标准，有效避免了在数据清洗、数据处理等环节的精力消耗与潜在人为因素所带来的指标损失。

(3)本发明技术中的变量预测不局限于在特定场景中特定变量的预测，而是实现对任意场景中任意变量的预测。

(4)通过集成式的自动化机器学习/深度学习的机制/算法，显著降低模型训练的时间成本。

(5)利用HDPP数据协议进行场景数据录入，显著降低场景建模的人力与时间成本。

(6)通过获取变量关联度对变量进行筛检，显著降低场景变量预测的人力与时间成本。

(7)提出一套完善可维护的变量挖掘机制，其内部的算法模型、自动化训练方法等需要与时俱进的部分均可进行彼此独立的研发与升级，并对于运算性能有着彼此辅助的集成作用。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明中系统流程简述图；

图2为本发明中系统架构细节图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1和图2，本发明提供一种技术方案：某用户上传了关于孕妇糖尿病场景的六个变量，每个变量的三千条历史数据分别为，皮肤厚度，妊娠时间，身高，体重，年龄，可能患有糖尿病几率。首先HDPP会主动解析整理该用户上传数据将其转化为本发明系统可用的静态场景数据。

本发明中的模型处理库部分会将一部分HDPP处理好的静态场景数据作为训练数据输入到所有内置模型中。以神经网络为例，模型以及使用模型评估得方式对神经网络模型的评分，分别对应使用其中任意五个变量预测剩余的一个变量。例如，使用皮肤厚度，妊娠时间，身高，体重，年龄，糖尿病几率这个几个变量来预测孕妇患有糖尿病的几率。(当然，也包括通过身高，体重，年龄，皮肤厚度，是否患有糖尿病来预测妊娠时间)以其中一个神经网络模型为例，该神经网络模型使用皮肤厚度，妊娠时间，身高，体重，年龄，糖尿病几率这几个变量来预测孕妇患有糖尿病的几率。

依次将该神经网络模型中每一个非预测变量(皮肤厚度，妊娠时间，身高，体重，年龄，糖尿病几率)赋以空值，重新训练得到新的神经网络模型以及新的评分，比较两个评分之差，将所有神经网络模型中评分差值较小的非预测变量视为与待预测变量无关变量，其余为相关变量。而在这个神经网络模型中，皮肤厚度就是糖尿病几率的无关变量。

将用户上传的数据中拿出一部分作为测试集，其余数据都用来作为训练数据，将模型库中所有模型生成的预测6个变量的所有神经网络都训练完毕，每个模型都会生成预测6个变量的6个神经网络，用测试集对每一个变量作为预测变量的神经网络模型评分。以预测糖尿病几率为例，对所有模型中预测糖尿病几率的神经网络模型进行评分，将其中加权评分最高的一个神经网络模型以及其评分，参数等相关信息储存在‘已保存模型’中。

最后，用户将所要预测的变量置于变量预测区，系统会在‘已保存模型’中选择以该变量为预测变量的神经网络中评分最高的神经网络，并将其中相关变量呈现给用户，用户输入相关变量数值后，系统会将这些数值作为输入，输入到该神经网络中，得到输出即预测值。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于机器学习模型的场景变量自动化深度挖掘引擎系统，其特征在于：包括HDPP数据协议会，所述HDPP数据协议会通过前端操作界面引导用户按照协议规定进行数据录入，且需保证录入的数据完全符合HDPP数据协议要求，通过hddp数据协议将用户产生的拥有若干场景变量的历史数据，转化为静态场景数据，其中所述HDPP数据协议规定所有场景变量的取值分为三种类型：Level、Category和Numeric，所述静态场景数据包括：变量画像、规范化数据，用户通过HDPP数据协议来定义自己场景的变量画像，所述HDPP数据协议处理后的静态场景数据通过模型处理库输入到所有内置模型中，得到的相关变量值作为输出；

所述内置模型通过预设的训练方式，得到使用所有其他变量预测任意一个另外的变量的粗糙模型，以及基于模型评估的方式对上述粗糙模型的进行评分，依次对上述粗糙模型中的非预测变量赋予空值，重新训练得到新的模型和新的评分，将上述将赋空值后的模型的评分与原模型的评分进行比较，其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关，所述内置模型通过预先设定的训练方式，得到使用所有其他变量预测任意一个另外的变量的粗糙模型，以及基于模型评估的方式对上述粗糙模型的进行评分，依次对上述粗糙模型中的非预测变量赋予空值，重新训练得到新的模型和新的评分，将上述将赋空值后的模型的评分与原模型的评分进行比较，其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关；

将HDPP数据协议处理的静态模型数据作为测试集，用于衡量各个模型预测结果之间的优劣，将其他的数据作为训练数据，按照内置模型的自动化训练模型方式自行训练所有模型，将任意一个变量作为目标变量，其它变量作为相关变量对目标变量进行预测，如此对于每一种类型的算法都会训练得到若干个模型，其中对于有N个变量的场景，变量分别为var1、var2、…、varN,因此对于某一种类型的算法而言，可以训练得到分别以var1、var2、…、varN作为目标变量的N个模型，使用M种类型的算法，得到M*N个模型；

且上述模型可以将任意一个变量作为待预测变量，且所有与该变量有关变量作为输入得到在这个模型下该预测变量的值，并使用所述测试集测试所有模型的优劣，将训练后的模型和测试结果等模型相关数据保存在已保存模型中；

训练结束后，当用户预测新的一组数据中某一变量值时，xx系统会从所述已保存模型中选择在所有预测该变量的模型中加权得分最高的模型作为预测用途的模型，并使用这个模型，将与之有关变量作为输入，得到该模型预测的变量值作为输出；

用户也可以在线上传数据进行在线训练，用户上传完数据后，然后经过1、2、3、4、5、6、7、8后进行预测。

2.根据权利要求1所述的一种基于机器学习模型的场景变量自动化深度挖掘引擎系统，其特征在于：所述Level类型的变量在进行算法运算时等效于Numeric类型的变量，所述Level类型在前端操作界面展示时等效于Category类型的变量。

3.根据权利要求1所述的一种基于机器学习模型的场景变量自动化深度挖掘引擎系统，其特征在于：所述变量画像规定了此场景需要的变量，各个变量的属性包括Level、Category、Numeric，该变量隶属对象，其中同一对象可以有多种不同的变量，及其该变量的特征。

4.根据权利要求1所述的一种基于机器学习模型的场景变量自动化深度挖掘引擎系统，其特征在于：所述模型处理库包括深度残差神经网络、卷积神经网络、集成算法、注意力机制和遗传算法。