CN111047011B - 一种基于机器学习模型的场景变量自动化深度挖掘引擎系统 - Google Patents

一种基于机器学习模型的场景变量自动化深度挖掘引擎系统 Download PDF

Info

Publication number
CN111047011B
CN111047011B CN201911245813.6A CN201911245813A CN111047011B CN 111047011 B CN111047011 B CN 111047011B CN 201911245813 A CN201911245813 A CN 201911245813A CN 111047011 B CN111047011 B CN 111047011B
Authority
CN
China
Prior art keywords
variable
model
data
variables
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911245813.6A
Other languages
English (en)
Other versions
CN111047011A (zh
Inventor
裴正奇
段必超
刘东来
黄梓忱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Heidun Technology Co ltd
Original Assignee
Shenzhen Qianhai Heidun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Heidun Technology Co ltd filed Critical Shenzhen Qianhai Heidun Technology Co ltd
Priority to CN201911245813.6A priority Critical patent/CN111047011B/zh
Publication of CN111047011A publication Critical patent/CN111047011A/zh
Application granted granted Critical
Publication of CN111047011B publication Critical patent/CN111047011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习模型的场景变量自动化深度挖掘引擎系统,包括HDPP数据协议,所述HDPP数据协议通过前端操作界面引导用户按照协议规定进行数据录入,且需保证录入的数据完全符合HDPP数据协议要求,通过HDPP数据协议将用户产生的拥有若干场景变量的历史数据,转化为静态场景数据,用户通过HDPP数据协议来定义自己场景的变量画像,所述HDPP数据协议处理后的静态场景数据通过模型处理库输入到所有内置模型中,得到的相关变量值作为输出;给出了一种不需要任何人工智能技术基础便能轻松使用机器学习、数据挖掘与变量预测的手段去完成任意场景的相关任务需求。

Description

一种基于机器学习模型的场景变量自动化深度挖掘引擎系统
技术领域
本发明属于机器学习技术领域,具体涉及一种基于机器学习模型的场景变量自动化深度挖掘引擎系统。
背景技术
机器学习是人工智能研究发展到一定阶段的必然产物。早在上世纪五十年代,人工智能处于起步阶段,人们认为只要给机器赋予逻辑推理能力,机器就能具有智能,随着研究向前发展,人们逐渐认识到,仅具有逻辑推理能力是远远不能实现人工智能的,要让机器实现智能,就必须使机器拥有知识。随后出现了大量的专家系统,但是专家系统面临知识工程瓶颈,简单来说就是通过人把知识总结出来再教给计算机是相当困难的。于是,一些学者想到,让机器自己学习知识。到了上世纪八十年代,机器学习成为了一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放。在现在这个大数据时代,机器学习的作用及功能更是被极大化,目前机器学习及其相关技术几乎应用于各行各业,更是有一部分产业已经由机器学习技术代替了人力劳动。正是由于机器学习及其相关领域的快速发展,加快了智能时代的进程。
现有技术中针对机器学习而言,在构建模型时,需要经过数据处理、模型选择以及模型训练几个步骤,在这个过程中通常都需要专家经验,需要花费大量的时间和精力,效率较低,对于不是从事算法研究的人员来说,使用机器学习对大数据进行分析与建模以达到完成相关任务目的变得几乎不可能,而对于变量预测而言,通常的流程是先找到预测变量的相关变量然后对目标变量进行预测,现有的技术需要算法工程师通过使用不同的手段去不断的筛选相关变量,这同样需要经验且耗费大量的时间和精力,为此我们提出一种基于机器学习模型的场景变量自动化深度挖掘引擎系统。
发明内容
本发明的目的在于提供一种基于机器学习模型的场景变量自动化深度挖掘引擎系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于机器学习模型的场景变量自动化深度挖掘引擎系统,包括HDPP数据协议(Hyper Data Pre-processing Protocols,一种自定义的针对数据结构定义、原始数据录入、数据清洗、引擎对接等几大环节的闭环数据工具型软件,即一种自定义的数据协议),所述HDPP数据协议通过前端操作界面引导用户按照协议规定进行数据录入,且需保证录入的数据完全符合HDPP数据协议要求,通过HDPP数据协议将用户产生的拥有若干场景变量的历史数据,转化为静态场景数据,其中所述HDPP数据协议规定所有场景变量的取值分为三种类型:Level(程度)、Category(类别)和Numeric(数值),所述静态场景数据包括:变量画像、规范化数据,用户通过HDPP数据协议来定义自己场景的变量画像,所述HDPP数据协议处理后的静态场景数据通过模型处理库输入到所有内置模型中,所述内置模型通过预设的训练方式,得到使用所有其他变量预测任意一个另外的变量的粗糙模型,以及基于模型评估的方式对上述粗糙模型的进行评分,依次对上述粗糙模型中的非预测变量赋予空值,重新训练得到新的模型和新的评分,将上述将赋空值后的模型的评分与原模型的评分进行比较,其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关,所述内置模型通过预先设定的训练方式,得到使用所有其他变量预测任意一个另外的变量的粗糙模型,以及基于模型评估的方式对上述粗糙模型的进行评分,依次对上述粗糙模型中的非预测变量赋予空值,重新训练得到新的模型和新的评分,将上述将赋空值后的模型的评分与原模型的评分进行比较,其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关;将HDPP数据协议处理的静态模型数据作为测试集,用于衡量各个模型预测结果之间的优劣,将其他的数据作为训练数据,按照内置模型的自动化训练模型方式自行训练所有模型,将任意一个变量作为目标变量,其它变量作为相关变量对目标变量进行预测,如此对于每一种类型的算法都会训练得到若干个模型,其中对于有N个变量的场景,变量分别为var1、var2、…、varN,因此对于某一种类型的算法而言,可以训练得到分别以var1、var2、…、varN作为目标变量的N个模型,使用M种类型的算法,得到M*N个模型;且上述模型可以将任意一个变量作为待预测变量,且所有与该变量有关变量作为输入得到在这个模型下该预测变量的值,并使用所述测试集测试所有模型的优劣,将训练后的模型和测试结果等模型相关数据保存在已保存模型中;训练结束后,当用户预测新的一组数据中某一变量值时,系统会从所述已保存模型中选择在所有预测该变量的模型中加权得分最高的模型作为预测用途的模型,并使用这个模型,将与之有关变量作为输入,得到该模型预测的变量值作为输出。
进一步的,用户也可以在线上传数据进行在线训练,用户上传完数据后,然后经过1、2、3、4、5、6、7、8后进行预测。
与现有技术相比,本发明的有益效果是:
(1)给出了一种前所未有的不需要任何人工智能技术基础便能轻松使用机器学习、数据挖掘与变量预测的手段去完成任意场景的相关任务需求。
(2)借助HDPP数据协议,系统地规定了可用于深度数据挖掘的数据量化标准,有效避免了在数据清洗、数据处理等环节的精力消耗与潜在人为因素所带来的指标损失。
(3)本发明技术中的变量预测不局限于在特定场景中特定变量的预测,而是实现对任意场景中任意变量的预测。
(4)通过集成式的自动化机器学习/深度学习的机制/算法,显著降低模型训练的时间成本。
(5)利用HDPP数据协议进行场景数据录入,显著降低场景建模的人力与时间成本。
(6)通过获取变量关联度对变量进行筛检,显著降低场景变量预测的人力与时间成本。
(7)提出一套完善可维护的变量挖掘机制,其内部的算法模型、自动化训练方法等需要与时俱进的部分均可进行彼此独立的研发与升级,并对于运算性能有着彼此辅助的集成作用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明中系统流程简述图;
图2为本发明中系统架构细节图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1和图2,本发明提供一种技术方案:某用户上传了关于孕妇糖尿病场景的六个变量,每个变量的三千条历史数据分别为,皮肤厚度,妊娠时间,身高,体重,年龄,可能患有糖尿病几率。首先HDPP会主动解析整理该用户上传数据将其转化为本发明系统可用的静态场景数据。
本发明中的模型处理库部分会将一部分HDPP处理好的静态场景数据作为训练数据输入到所有内置模型中。以神经网络为例,模型以及使用模型评估得方式对神经网络模型的评分,分别对应使用其中任意五个变量预测剩余的一个变量。例如,使用皮肤厚度,妊娠时间,身高,体重,年龄,糖尿病几率这个几个变量来预测孕妇患有糖尿病的几率。(当然,也包括通过身高,体重,年龄,皮肤厚度,是否患有糖尿病来预测妊娠时间)以其中一个神经网络模型为例,该神经网络模型使用皮肤厚度,妊娠时间,身高,体重,年龄,糖尿病几率这几个变量来预测孕妇患有糖尿病的几率。
依次将该神经网络模型中每一个非预测变量(皮肤厚度,妊娠时间,身高,体重,年龄,糖尿病几率)赋以空值,重新训练得到新的神经网络模型以及新的评分,比较两个评分之差,将所有神经网络模型中评分差值较小的非预测变量视为与待预测变量无关变量,其余为相关变量。而在这个神经网络模型中,皮肤厚度就是糖尿病几率的无关变量。
将用户上传的数据中拿出一部分作为测试集,其余数据都用来作为训练数据,将模型库中所有模型生成的预测6个变量的所有神经网络都训练完毕,每个模型都会生成预测6个变量的6个神经网络,用测试集对每一个变量作为预测变量的神经网络模型评分。以预测糖尿病几率为例,对所有模型中预测糖尿病几率的神经网络模型进行评分,将其中加权评分最高的一个神经网络模型以及其评分,参数等相关信息储存在‘已保存模型’中。
最后,用户将所要预测的变量置于变量预测区,系统会在‘已保存模型’中选择以该变量为预测变量的神经网络中评分最高的神经网络,并将其中相关变量呈现给用户,用户输入相关变量数值后,系统会将这些数值作为输入,输入到该神经网络中,得到输出即预测值。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于机器学习模型的场景变量自动化深度挖掘引擎系统,其特征在于:包括HDPP数据协议会,所述HDPP数据协议会通过前端操作界面引导用户按照协议规定进行数据录入,且需保证录入的数据完全符合HDPP数据协议要求,通过hddp数据协议将用户产生的拥有若干场景变量的历史数据,转化为静态场景数据,其中所述HDPP数据协议规定所有场景变量的取值分为三种类型:Level、Category和Numeric,所述静态场景数据包括:变量画像、规范化数据,用户通过HDPP数据协议来定义自己场景的变量画像,所述HDPP数据协议处理后的静态场景数据通过模型处理库输入到所有内置模型中,得到的相关变量值作为输出;
所述内置模型通过预设的训练方式,得到使用所有其他变量预测任意一个另外的变量的粗糙模型,以及基于模型评估的方式对上述粗糙模型的进行评分,依次对上述粗糙模型中的非预测变量赋予空值,重新训练得到新的模型和新的评分,将上述将赋空值后的模型的评分与原模型的评分进行比较,其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关,所述内置模型通过预先设定的训练方式,得到使用所有其他变量预测任意一个另外的变量的粗糙模型,以及基于模型评估的方式对上述粗糙模型的进行评分,依次对上述粗糙模型中的非预测变量赋予空值,重新训练得到新的模型和新的评分,将上述将赋空值后的模型的评分与原模型的评分进行比较,其中评分的差距小于预先设定的阈值既认定该变量与待预测变量无关;
将HDPP数据协议处理的静态模型数据作为测试集,用于衡量各个模型预测结果之间的优劣,将其他的数据作为训练数据,按照内置模型的自动化训练模型方式自行训练所有模型,将任意一个变量作为目标变量,其它变量作为相关变量对目标变量进行预测,如此对于每一种类型的算法都会训练得到若干个模型,其中对于有N个变量的场景,变量分别为var1、var2、…、varN,因此对于某一种类型的算法而言,可以训练得到分别以var1、var2、…、varN作为目标变量的N个模型,使用M种类型的算法,得到M*N个模型;
且上述模型可以将任意一个变量作为待预测变量,且所有与该变量有关变量作为输入得到在这个模型下该预测变量的值,并使用所述测试集测试所有模型的优劣,将训练后的模型和测试结果等模型相关数据保存在已保存模型中;
训练结束后,当用户预测新的一组数据中某一变量值时,xx系统会从所述已保存模型中选择在所有预测该变量的模型中加权得分最高的模型作为预测用途的模型,并使用这个模型,将与之有关变量作为输入,得到该模型预测的变量值作为输出;
用户也可以在线上传数据进行在线训练,用户上传完数据后,然后经过1、2、3、4、5、6、7、8后进行预测。
2.根据权利要求1所述的一种基于机器学习模型的场景变量自动化深度挖掘引擎系统,其特征在于:所述Level类型的变量在进行算法运算时等效于Numeric类型的变量,所述Level类型在前端操作界面展示时等效于Category类型的变量。
3.根据权利要求1所述的一种基于机器学习模型的场景变量自动化深度挖掘引擎系统,其特征在于:所述变量画像规定了此场景需要的变量,各个变量的属性包括Level、Category、Numeric,该变量隶属对象,其中同一对象可以有多种不同的变量,及其该变量的特征。
4.根据权利要求1所述的一种基于机器学习模型的场景变量自动化深度挖掘引擎系统,其特征在于:所述模型处理库包括深度残差神经网络、卷积神经网络、集成算法、注意力机制和遗传算法。
CN201911245813.6A 2019-12-07 2019-12-07 一种基于机器学习模型的场景变量自动化深度挖掘引擎系统 Active CN111047011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911245813.6A CN111047011B (zh) 2019-12-07 2019-12-07 一种基于机器学习模型的场景变量自动化深度挖掘引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911245813.6A CN111047011B (zh) 2019-12-07 2019-12-07 一种基于机器学习模型的场景变量自动化深度挖掘引擎系统

Publications (2)

Publication Number Publication Date
CN111047011A CN111047011A (zh) 2020-04-21
CN111047011B true CN111047011B (zh) 2023-05-23

Family

ID=70233706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911245813.6A Active CN111047011B (zh) 2019-12-07 2019-12-07 一种基于机器学习模型的场景变量自动化深度挖掘引擎系统

Country Status (1)

Country Link
CN (1) CN111047011B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111604920B (zh) * 2020-06-02 2022-06-07 南京励智心理大数据产业研究院有限公司 一种基于素质教育的陪伴成长机器人

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783539A (zh) * 2019-01-07 2019-05-21 腾讯科技(深圳)有限公司 用户挖掘及其模型构建方法、装置及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318864B2 (en) * 2015-07-24 2019-06-11 Microsoft Technology Licensing, Llc Leveraging global data for enterprise data analytics

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783539A (zh) * 2019-01-07 2019-05-21 腾讯科技(深圳)有限公司 用户挖掘及其模型构建方法、装置及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张绍成 ; 孙时光 ; 曲洋 ; 董宇 ; .大数据环境下机器学习在数据挖掘中的应用研究.辽宁大学学报(自然科学版).2017,(01),全文. *
蒋凡 ; .物流大数据标准及案例研究.大数据.2017,(04),全文. *

Also Published As

Publication number Publication date
CN111047011A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
Abraham Rule‐Based expert systems
JP2821189B2 (ja) 学習型意思決定支援システム
Chen et al. Case-based reasoning system and artificial neural networks: A review
US7562054B2 (en) Method and apparatus for automated feature selection
CN107480141A (zh) 一种基于文本和开发者活跃度的软件缺陷辅助分派方法
Gao et al. Mechanical equipment health management method based on improved intuitionistic fuzzy entropy and case reasoning technology
CN111047011B (zh) 一种基于机器学习模型的场景变量自动化深度挖掘引擎系统
CN114219096A (zh) 一种机器学习算法模型的训练方法、装置及存储介质
Alegre et al. Intelligent diagnosis of rod pumping problems
CN108363738B (zh) 一种工业设备数据分析算法的推荐方法
Jagielska Linguistic rule extraction from neural networks for descriptive data mining
CN113835739B (zh) 一种软件缺陷修复时间的智能化预测方法
CN112016240B (zh) 一种相似证据非完全降解设备剩余稳定使用寿命预测方法
CN110210838B (zh) 一种政务系统设计方法及政务系统
Rahman et al. A Reinforcement Learning Approach to Predicting Human Design Actions Using a Data-Driven Reward Formulation
Saraph et al. Test set generation and reduction with artificial neural networks
Ribeiro et al. A study of Pareto-based methods for ensemble pool generation and aggregation
AU2021104628A4 (en) A novel machine learning technique for classification using deviation parameters
KR102636461B1 (ko) 인공지능 모델 학습을 위한 오토 레이블링 자동화 방법, 장치 및 시스템
Vychuzhanin INTELLIGENT SYSTEM FOR SUPPORTING DECISION MAKING FOR ASSESSING THE TECHNICAL CONDITION OF COMPLEX SYSTEMS.
Guo et al. Simulation Research on Artificial Intelligence Design Decision Model Based on Deep Convolution Neural Network
Sokolova et al. Data mining driven decision making
Ma et al. A Novel Hybrid Feature Importance and Feature Interaction Detection Framework for Predictive Optimization in Industry 4.0 Applications
Shu et al. Research on Assembly Time Quota Prediction Model of Toy Products of A Company Based on Improved RFECV and XGBoost Algorithms
Chernyashchuk et al. Intellectual analysis of large data stores

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant