CN111813870A - 基于统一描述表达的机器学习算法资源共享方法及系统 - Google Patents
基于统一描述表达的机器学习算法资源共享方法及系统 Download PDFInfo
- Publication number
- CN111813870A CN111813870A CN202010483836.7A CN202010483836A CN111813870A CN 111813870 A CN111813870 A CN 111813870A CN 202010483836 A CN202010483836 A CN 202010483836A CN 111813870 A CN111813870 A CN 111813870A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- machine learning
- learning algorithm
- knowledge
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 322
- 238000010801 machine learning Methods 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000007726 management method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000001939 inductive effect Effects 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于统一描述表达的机器学习算法资源共享方法及系统,该方法包括:构建机器学习算法的六元组统一描述模型,并形式化表达形成关于机器学习算法描述的知识;基于所述关于机器学习算法描述的知识,设计知识库结构,对算法知识进行存储与组织,并设计相应的数据库访问接口,以支持算法知识库管理;基于知识库和上层应用对算法的需求,首先通过匹配方法,获取候选机器学习算法集合,然后通过评价方法,确定最优机器学习算法;基于所述最优机器学习算法,执行目标机器学习算法,将输入转化为输出,供上层应用做进一步的分析决策。本发明能够解决上层应用从海量机器学习算法资源中选择出合适算法的难题,能够实现算法资源共享与智能匹配。
Description
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种基于统一描述表达的机器学习算法资源共享方法及系统。
背景技术
机器学习,是一种大数据驱动的,用以解决数据分析、数据挖掘问题的方法。现阶段信息网络,传感设备以及智能应用均会产生大量的数据,传统基于单一模型或方法的数据处理手段难以洞悉大数据蕴含的信息与知识,需要引入多种机器学习算法,进行探索性分析。
面对大规模的机器学习算法资源,从中选取适合于分析需求的算法是一件困难的事情,即使是经验丰富的数据科学家和计算机算法开发者,也很难掌握那么多机器学习算法知识,也难以顾及分析的多因素需求来快速准确的选择出合适的算法。为了降低机器学习的门槛,许多的商业企业提出了多种解决方案,如Splunk、DataRobot、H2O、Rapidminder、BigML、R Studio、微软的Azure机器学习以及亚马逊机器学习等。但由于机器学习算法统一描述表达的缺失,仍然满足不了机器学习算法的高效搜索与智能匹配问题。
此外,随着机器学习技术的进一步发展,算法的类型和数量将越来越多,上层应用将面临从大规模多元机器学习算法资源中选择合适的方法来做分析挖掘的挑战。因此,迫切需要形成海量机器学习算法的统一描述,屏蔽异构机器学习算法之间的差异,降低机器应用和智能体选择机器学习算法的难度以及使用机器学习算法的门槛。
发明内容
本发明解决的技术问题是提供一种基于统一描述表达的机器学习算法资源共享方法及系统,解决机器应用和智能体选择机器学习算法的难度较高的问题。
本发明采用的技术方案是,提供一种基于统一描述表达的机器学习算法资源共享方法,包括以下步骤:一种基于统一描述表达的机器学习算法资源共享方法,包括以下步骤:
步骤1:构建机器学习算法的六元组统一描述模型,并利用XML语言进行形式化表达,形成关于机器学习算法描述的知识;
步骤2:基于所述关于机器学习算法描述的知识,设计知识库结构,对算法知识进行存储与组织,并设计相应的数据库访问接口,以支持算法知识库管理;
步骤3:基于知识库和上层应用对算法的需求,首先通过匹配方法,获取候选机器学习算法集合,然后通过评价方法,确定最优机器学习算法;
步骤5:基于所述最优机器学习算法,执行目标机器学习算法,将输入转化为输出,供上层应用做进一步的分析决策。
优选地,步骤1包括以下子步骤:
步骤1.1:梳理与归纳机器学习算法的分类角度以及分类角度下对应的类别,从多角度描述机器学习算法;
步骤1.2:基于机器学习算法的分类结果和算法多维度特征,构建六元组信息结构的机器学习算法统一描述模型,所述六元组包括算法描述元数据、算法基本特征、算法输入、算法输出、算法运行环境和算法参数信息;
步骤1.3:根据所述六元组,确定每类元组包括的通用元素以及各元素的数据类型和约束条件;
步骤1.4:以所述机器学习算法统一描述模型为基础框架,采用XML语言进行规范化描述,形成计算机能够理解和操作的形式。
优选地,所述机器学习算法的分类角度包括基于学习形式、基于输入信息、基于输出信息和基于功能。
优选地,所述规范化描述括算法解析和XML形式化表达,所述算法解析用于从描述模型中提取出算法六元组特征信息和各类特征子要素的描述信息,所述XML形式化表达用于将所述算法解析获取的信息按照XML Schema表达结构形成XML文档。
优选地,步骤2包括以下子步骤:
步骤2.1:基于数据库的实体关系模型,从关于描述机器学习算法的知识中抽象出实体类型和关系类型,并表示出实体、属性和关系;
步骤2.2:基于所述实体、属性和关系,设计机器学习算法知识数据库的表结构;
步骤2.3:设计数据库对内接口和对外接口,所述对内接口用以实现数据库的本地管理,所述对外接口用以接受其他客户端的查询请求。
优选地,步骤2.2具体包括:基于所述的算法的实体、属性和关系,设计通用机器学习算法的数据库表类别,所述数据库表的类别包括:算法元数据类、算法特征信息类、算法参数类、算法依赖环境类和算法数算法数据流类,并确定各类别下所包括的子表。
优选地,步骤3包括以下子步骤:
步骤3.1:确定算法需求信息在不同算法分类角度下的具体类别;
步骤3.2:采用决策树作为机器学习算法的匹配方法,基于算法需求信息所属不同类别以及知识库中的决策树,按类别值逐层选取,最终获取一个或多个候选算法;
步骤3.3:采用多参数综合评价方法,从多维度对候选算法进行评价,进而选择出最优算法,所述多参数来源于算法知识,具体包括:算法时间复杂度、算法空间复杂度、资源消耗值和准确度。
优选地,该机器学习算法资源共享方法还包括:步骤4:收集与管理机器学习算法资源的可执行体,配置可执行所需的相关环境和第三方依赖包。
优选地,步骤5是根据目标算法的执行体类型,采取相应的执行方式得到计算结果,所述执行方式包括解释运行和直接调用。
本发明还提供一种基于统一描述表达的机器学习算法资源共享系统,该系统包括:
统一描述与表达模块,用于构建机器学习算法的六元组统一描述模型,并以统一描述模型为框架,对机器学习算法进行描述,形成关于机器学习算法描述的知识。
机器学习算法知识库模块,用于基于所述关于机器学习算法描述的知识,设计知识库结构,以组织、存储与管理算法知识;
匹配与评价模块,用于基于所述机器学习算法的知识库和上层应用对算法的需求条件逐步匹配出最优算法,具体为通过匹配模块获取候选机器学习算法组,通过评价模块获取最优的目标机器学习算法;
执行模块,用于基于所述目标机器学习算法的执行体,输出用户输入的模型计算结果,为上层应用做进一步分析决策提供支持。
本发明的有益效果是:本发明提出了海量机器学习算法通用六元组统一描述模型以及形式化表达,形成关于描述与理解算法的知识,从而屏蔽了多源异构机器学习算法之间的差异;结合机器学习算法知识组织与管理的方法和机器学习算法匹配与评价的方法,能够解决上层应用从海量机器学习算法资源中选择出合适算法的难题,从而实现大规模机器学习算法的资源共享与智能匹配,快速匹配出最优的算法。
本发明设计并实现了一种集机器学习算法知识管理与算法匹配于一体的算法资源共享系统,既能够对机器学习算法知识进行追加、删除、更新、查询等操作,也能够根据应用需求智能匹配目标算法,并输出目标算法的执行结果,供应用做分析决策,降低算法的使用和选择难度,同时提高算法资源的共享程度。
附图说明
图1是本发明基于统一描述表达的机器学习算法资源共享方法的流程图;
图2是本发明中机器学习算法统一描述模型的UML结构示意图;
图3是本发明中的知识库的数据库表关联关系图;
图4是本发明中的机器学习算法选择和评价的流程图;
图5是本发明基于统一描述表达的机器学习算法资源共享系统的模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。以下实施例用于说明本发明,并不用来限制本发明的范围。
如图1所示,本发明实施例的基于统一描述表达的机器学习算法资源共享方法,包括以下步骤:
步骤1,机器学习算法统一描述与表达:对影响机器学习算法资源选择的特征项进行梳理与总结,构建机器学习算法的六元组统一描述模型,并利用XML语言进行形式化表达,形成关于机器学习算法描述的知识。机器学习算法统一描述与表达的实现包括以下子步骤:
步骤1.1:梳理与归纳机器学习算法的分类角度以及分类角度下对应的类别,进而从多角度描述机器学习算法。其中,机器学习算法的分类角度包括基于学习形式、基于输入信息、基于输出信息、基于功能等。本发明实例中的算法资源分类角度和子类别如表1所示:
表1机器学习算法的分类角度和分类项
步骤1.2:基于所述机器算法的分类结果和算法多维度特征,构建六元组信息结构的机器学习算法统一描述模型。其中,六元组包括算法描述元数据、算法基本特征、算法输入、算法输出、算法运行环境以及算法参数信息。
步骤1.3:根据所述的六元组,确定每类元组包括的通用元素以及元素的数据类型和约束条件。具体地,六元组的内涵与每类元组包括的元素如下:
算法描述元数据是对算法库中算法描述基本信息的科学描述,是关于算法描述的描述。包括算法描述的版本信息、建立时间、联系信息等基本信息。
算法的基本特征算法主要涉及到算法本身的性能和承载力、算法在进行具体应用时的偏好特征等方面的描述信息,方便用户在选择算法时根据外界条件和内在需求进行参考,并根据需要进行删减和扩充。包括算法功能,时间复杂度、空间复杂度、准确度、召回率、F值、可解释性、线性与否等。
算法输入是从算法输入的基本要求和数据特征进行详细概括和描述,基于算法功能和特性的约束,说明算法对输入的数据的要求和限制,方便用户基于输入信息选择合适算法。包含数据类型、数据量、数据参考、数据格式等元数据信息,如表2所示:
表2算法输入信息AD_InputDataFeature的详细描述
算法输出,说明输出数据的限制及特征信息进行描述,方便用户根据输出需要使用相应的算法。包括算法输出数据的数据类型、数据格式、数据精度等信息的描述。
算法运行环境信息是从算法运行的物理支撑角度进行的描述,包括硬件环境和软件环境的描述。
算法的参数信息是从算法执行框架和运行参数的角度进行的描述,涉及两类参数,一是算法的参数,用于目标函数的变量可通过数据训练求解;一是模型的参数,又叫“超参数”,是模型外部的变量可根据经验手动设置来优化模型。算法参数信息将从参数和超参数的名称、定义、类型等方面进行描述,为算法的参数配置提供信息支持。
进一步地,采用UML表示机器学习算法统一描述模型如图3所示。
步骤1.4:根据机器学习算法统一描述模型为基础框架,采用XML语言进行规范化描述,形成计算机能够理解和操作的形式,规范化描述包括算法解析和XML形式化表达两个步骤:
算法解析用于从描述模型中提取出算法六元组特征信息和各类特征子要素的描述信息。
XML形式化表达用于将所述算法解析获取的信息按照XML Schema表达结构形成XML文档。以朴素贝叶斯算法为例,阐释算法知识的XML形式化表达实现原则:1、形式化表达文档的根元素是算法名称NaiveBayes,2、描述算法知识的六个元组类作为根元素的属性,3、解析出的具体描述信息作为每个特征类子元素的属性值。
步骤2,机器学习算法知识的组织与管理:基于关于机器学习算法描述的知识,设计知识库结构,对算法知识进行组织,并设计相应的数据库访问接口,提供插入、删除、更新、查询等操作,以支持算法知识库的管理。机器学习算法知识的组织与管理实现包括以下子步骤:
步骤2.1:基于数据库的实体关系模型,从机器学习算法中抽象出实体类型和关系类型,并表示出实体、属性和关系。
步骤2.2:基于算法的实体、属性和关系,首先设计通用机器学习算法的数据库表类别,数据库表的类别包括:算法元数据类、算法特征信息类、算法参数类、算法依赖环境类、算法数算法数据流类,并确定各类别下所包括的子表,如表3所示。以算法特征表为中心表,设计23张表的结构关系如图3所示。
表3表单与其所包括的表
基于该表,设计各表结构,包括定义表的字段、数据类型、长度和是否为主键。具体地,在本实施例中算法数据流类别下,其子表输入数据信息表的结构设计如表4所示:
表4输入数据信息表(AD_InputDataFeature)的结构设计
名称 | 描述 | 数据类型 | 长度 | 主键 | 其他 |
id | 唯一标识 | varchar | 255 | 是 | NotNull |
dataType | 数据类型 | varchar | 200 | 否 | NotNull |
dataSize | 数据量 | varchar | 255 | 否 | NotNull |
dataDimen | 数据维度 | varchar | 200 | 否 | NotNull |
dataFormat | 数据格式 | varchar | 200 | 否 | NotNull |
spatilaResolution | 空间分辨率 | varchar | 200 | 否 | |
fileFormat | 文件格式 | varchar | 200 | 否 | NotNull |
timeReference | 时间参照 | varchar | 200 | 否 | NotNull |
spaceReference | 空间参照 | varchar | 200 | 否 | NotNull |
步骤2.3:机器学习算法知识的管理包括设计对内接口和对外接口,其中,对内接口提供数据追加、数据更新、数据删除以及数据查询,用以实现数据库的本地管理;对外仅提供用于数据查询的Web服务访问接口,用以接受其他客户端的查询请求。
具体地,数据存储和本地管理是使用python语言通过标准数据库接口python DB-API访问和操作MySQL数据库实现的,数据追加、数据更新、数据删除以及数据查询等操作。
具体地,对外接口的查询方法是通过在请求参数中指定算法名称、算法功能或算法输入数据类型等信息,用POST或GET的方法将参数以“键值对”的形式传送给服务器,服务器平台在数据库中执行查询操作后,以XML文档的方式,返回所需要算法的知识或返回相应的错误请求信息。
步骤3,机器学习算法匹配与评价:基于知识库和上层应用对算法的需求,首先通过匹配方法,获取候选机器学习算法集合,然后通过评价方法,确定最优机器学习算法,图4是本发明中的机器学习算法选择和评价的流程图。
本发明提供一种匹配算法,通过将需求信息按算法分类角度顺序排序,具体地,依次抽取算法需求中的按训练数据集不同、算法功能、输入数据类型、输出数据类型类别下的对应项,通过知识库的决策树,逐层获取候选机器学习算法集合P。
本发明提供一种综合评价算法,评价指标包括三种维度:算法时空复杂度,资源消耗值,准确度,均来源于算法的知识。
具体地,评价指标参数包括资源消耗值来源于知识中的环境元组,模型的准确度和算法时间复杂度,算法空间复杂度,均来源于知识中算法的特征元组,指标参数的权重指标为定义配置,且权重之和为1。通过对这些评价指标进行线性加权求和,形成最终的综合性能评价指标,作为最优目标算法选择函数:
其中,V为综合评价值,Xi表示算法模型第i个参数的指标值,i=1,2,…m,分别代表需求中可供计算的m项评价指标,δi代表第i个参数的自定义权重系数且权重之和为1。Xi参数值和δi权重系数可以取值为零。
基于所述的多参数综合评价方法,计算候选算法P中每个算法的综合评价值,选取综合评价值最大的算法作为目标算法。
步骤5,机器学习算法执行:执行目标机器学习算法,将输入转化为输出,供上层应用做进一步的分析决策。机器学习算法的执行是根据目标算法的执行体类型,采取与之对应的执行方式,执行方式包括解释运行、直接调用等。
进一步地,该机器学习算法资源共享方法还包括步骤4:收集与管理机器学习算法资源的可执行体,配置可执行所需的相关环境和第三方依赖包。算法可执行体类型包括:可执行程序、动态链接库、web服务、解释代码等。
本发明基于上述方法进一步设计了集机器学习算法资源管理与智能匹配于一体机器学习算法资源共享系统,图5是本发明中一种基于统一描述表达的机器学习算法资源共享系统的模块图。如图5所示,包括:
统一描述与表达模块,用于以统一描述模型为框架,对机器学习算法进行描述,形成关于描述机器学习算法的知识。具体地,提供关于机器学习算法描述的填写功能,在填写完成后,系统将其转化为XML的形式;
机器学习算法的知识库,用于组织、存储与管理所述知识,通过数据库访问接口,提供对知识进行追加、删除、更新、查询等操作;
匹配与评价模块,用于基于所述机器学习算法的知识库和上层应用对算法的需求条件逐步匹配出最优算法,具体地,通过匹配模块获取候选机器学习算法组,通过评价模块获取最优的目标机器学习算法;
执行模块,用于基于所述目标机器学习算法的执行体,输出用户输入的模型计算结果,为上层应用做进一步分析决策提供支持。
以上所述为本发明的实施方式,根据本发明提出的机器学习统一描述模型和形式化表达方法,构建了机器学习算法资源共享系统的统一描述与表达模块,形成了关于描述机器学习算法的知识;根据本发明提出的机器学习算法知识的组织与管理,构建了机器学习算法的知识库,为机器学习算法的查询、匹配奠定了基础;根据本发明提出的匹配算法和评价方法,构建了机器学习算法资源共享系统的匹配与评价模块,能够获取最优目标算法,实现机器学习算法的智能匹配;构建的执行模块,能够得到目标模型计算结果,进而为上层应用或智能体的分析决策提供辅助支持。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于统一描述表达的机器学习算法资源共享方法,其特征在于,包括以下步骤:
步骤1:构建机器学习算法的六元组统一描述模型,并利用XML语言进行形式化表达,形成关于机器学习算法描述的知识;
步骤2:基于所述关于机器学习算法描述的知识,设计知识库结构,对算法知识进行存储与组织,并设计相应的数据库访问接口,以支持算法知识库管理;
步骤3:基于知识库和上层应用对算法的需求,首先通过匹配方法,获取候选机器学习算法集合,然后通过评价方法,确定最优机器学习算法;
步骤5:基于所述最优机器学习算法,执行目标机器学习算法,将输入转化为输出,供上层应用做进一步的分析决策。
2.根据权利要求1所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,步骤1包括以下子步骤:
步骤1.1:梳理与归纳机器学习算法的分类角度以及分类角度下对应的类别,从多角度描述机器学习算法;
步骤1.2:基于机器学习算法的分类结果和算法多维度特征,构建六元组信息结构的机器学习算法统一描述模型,所述六元组包括算法描述元数据、算法基本特征、算法输入、算法输出、算法运行环境和算法参数信息;
步骤1.3:根据所述六元组,确定每类元组包括的通用元素以及各元素的数据类型和约束条件;
步骤1.4:以所述机器学习算法统一描述模型为基础框架,采用XML语言进行规范化描述,形成计算机能够理解和操作的形式。
3.根据权利要求2所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,所述机器学习算法的分类角度包括基于学习形式、基于输入信息、基于输出信息和基于功能。
4.根据权利要求2所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,所述规范化描述包括算法解析和XML形式化表达,所述算法解析用于从描述模型中提取出算法六元组特征信息和各类特征子要素的描述信息,所述XML形式化表达用于将所述算法解析获取的信息按照XML Schema表达结构形成XML文档。
5.根据权利要求1所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,步骤2包括以下子步骤:
步骤2.1:基于数据库的实体关系模型,从关于描述机器学习算法的知识中抽象出实体类型和关系类型,并表示出实体、属性和关系;
步骤2.2:基于所述实体、属性和关系,设计机器学习算法知识数据库的表结构;
步骤2.3:设计数据库对内接口和对外接口,所述对内接口用以实现数据库的本地管理,所述对外接口用以接受其他客户端的查询请求。
6.根据权利要求1所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,步骤2.2具体包括:基于所述的算法的实体、属性和关系,设计通用机器学习算法的数据库表类别,所述数据库表的类别包括:算法元数据类、算法特征信息类、算法参数类、算法依赖环境类和算法数算法数据流类,并确定各类别下所包括的子表。
7.根据权利要求1所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,步骤3包括以下子步骤:
步骤3.1:确定算法需求信息在不同算法分类角度下的具体类别;
步骤3.2:采用决策树作为机器学习算法的匹配方法,基于算法需求信息所属不同类别以及知识库中的决策树,按类别值逐层选取,最终获取一个或多个候选算法;
步骤3.3:采用多参数综合评价方法,从多维度对候选算法进行评价,进而选择出最优算法,所述多参数来源于算法知识,具体包括:算法时间复杂度、算法空间复杂度、资源消耗值和准确度。
8.根据权利要求1所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,该机器学习算法资源共享方法还包括:
步骤4:收集与管理机器学习算法资源的可执行体,配置可执行所需的相关环境和第三方依赖包。
9.根据权利要求1所述的基于统一描述表达的机器学习算法资源共享方法,其特征在于,步骤5是根据目标算法的执行体类型,采取相应的执行方式得到计算结果,所述执行方式包括解释运行和直接调用。
10.一种基于统一描述表达的机器学习算法资源共享系统,其特征在于,该系统包括:
统一描述与表达模块,用于构建机器学习算法的六元组统一描述模型,并以统一描述模型为框架,对机器学习算法进行描述,形成关于机器学习算法描述的知识。
机器学习算法知识库模块,用于基于所述关于机器学习算法描述的知识,设计知识库结构,以组织、存储与管理算法知识;
匹配与评价模块,用于基于所述机器学习算法的知识库和上层应用对算法的需求条件逐步匹配出最优算法,具体为通过匹配模块获取候选机器学习算法组,通过评价模块获取最优的目标机器学习算法;
执行模块,用于基于所述目标机器学习算法的执行体,输出用户输入的模型计算结果,为上层应用做进一步分析决策提供支持。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010483836.7A CN111813870B (zh) | 2020-06-01 | 2020-06-01 | 基于统一描述表达的机器学习算法资源共享方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010483836.7A CN111813870B (zh) | 2020-06-01 | 2020-06-01 | 基于统一描述表达的机器学习算法资源共享方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111813870A true CN111813870A (zh) | 2020-10-23 |
CN111813870B CN111813870B (zh) | 2024-03-12 |
Family
ID=72848068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010483836.7A Active CN111813870B (zh) | 2020-06-01 | 2020-06-01 | 基于统一描述表达的机器学习算法资源共享方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111813870B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988384A (zh) * | 2021-03-19 | 2021-06-18 | 深圳前海黑顿科技有限公司 | 一种基于场景的算法资源自动化整合调用方法 |
CN113610104A (zh) * | 2021-06-29 | 2021-11-05 | 优丹睦风(北京)科技有限公司 | 基于空间知识/模型库系统的算法管理方法 |
CN117420760A (zh) * | 2023-11-24 | 2024-01-19 | 东莞市新佰人机器人科技有限责任公司 | 适用于机器人自主协作的多模态控制算法融合方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140156567A1 (en) * | 2012-12-04 | 2014-06-05 | Msc Intellectual Properties B.V. | System and method for automatic document classification in ediscovery, compliance and legacy information clean-up |
US20180018579A1 (en) * | 2016-07-15 | 2018-01-18 | ROKITT Inc. | Primary Key-Foriegn Key Relationship Determination Through Machine Learning |
CN110880007A (zh) * | 2018-09-06 | 2020-03-13 | 张云霄 | 一种机器学习算法自动选择方法和系统 |
-
2020
- 2020-06-01 CN CN202010483836.7A patent/CN111813870B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140156567A1 (en) * | 2012-12-04 | 2014-06-05 | Msc Intellectual Properties B.V. | System and method for automatic document classification in ediscovery, compliance and legacy information clean-up |
US20180018579A1 (en) * | 2016-07-15 | 2018-01-18 | ROKITT Inc. | Primary Key-Foriegn Key Relationship Determination Through Machine Learning |
CN110880007A (zh) * | 2018-09-06 | 2020-03-13 | 张云霄 | 一种机器学习算法自动选择方法和系统 |
Non-Patent Citations (1)
Title |
---|
向隆刚;王星星;龚健雅;: "城市传感网观测数据的多层次摘要模型", 测绘通报, no. 11, 25 November 2015 (2015-11-25) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988384A (zh) * | 2021-03-19 | 2021-06-18 | 深圳前海黑顿科技有限公司 | 一种基于场景的算法资源自动化整合调用方法 |
CN113610104A (zh) * | 2021-06-29 | 2021-11-05 | 优丹睦风(北京)科技有限公司 | 基于空间知识/模型库系统的算法管理方法 |
CN117420760A (zh) * | 2023-11-24 | 2024-01-19 | 东莞市新佰人机器人科技有限责任公司 | 适用于机器人自主协作的多模态控制算法融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111813870B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7366730B2 (en) | Registration of solved cubes within a relational database management system | |
US7313561B2 (en) | Model definition schema | |
US6829606B2 (en) | Similarity search engine for use with relational databases | |
US7275024B2 (en) | Automatic generation of a dimensional model for business analytics from an object model for online transaction processing | |
US7599948B2 (en) | Object relational mapping layer | |
KR100396462B1 (ko) | 메시지 변환 선택 툴 및 그 방법 | |
CN111813870B (zh) | 基于统一描述表达的机器学习算法资源共享方法及系统 | |
US8122044B2 (en) | Generation of business intelligence entities from a dimensional model | |
US20110087708A1 (en) | Business object based operational reporting and analysis | |
CN110909066B (zh) | 一种基于SparkSQL和RestAPI的流数据处理方法 | |
US9547646B2 (en) | User-created members positioning for OLAP databases | |
US8037057B2 (en) | Multi-column statistics usage within index selection tools | |
CN111627552B (zh) | 一种医疗流式数据血缘关系分析、存储方法及装置 | |
US20100235344A1 (en) | Mechanism for utilizing partitioning pruning techniques for xml indexes | |
CN112699100A (zh) | 一种基于元数据管理分析系统 | |
US8639717B2 (en) | Providing access to data with user defined table functions | |
US10140335B2 (en) | Calculation scenarios with extended semantic nodes | |
US20180060404A1 (en) | Schema abstraction in data ecosystems | |
US11615061B1 (en) | Evaluating workload for database migration recommendations | |
US20190012361A1 (en) | Highly atomized segmented and interrogatable data systems (hasids) | |
CN112269797B (zh) | 一种卫星遥感数据在异构计算平台上的多维查询方法 | |
CN112800054A (zh) | 数据模型的确定方法、装置、设备及存储介质 | |
US20240095243A1 (en) | Column-based union pruning | |
Claro et al. | Interoperability Between SaaS and Data Layers: Enhancing the MIDAS Middleware | |
Ma et al. | Querying Fuzzy Spatiotemporal Data Using XQuery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |