CN110321112A - Ai能力研发平台及数据处理方法 - Google Patents

Ai能力研发平台及数据处理方法 Download PDF

Info

Publication number
CN110321112A
CN110321112A CN201910591585.1A CN201910591585A CN110321112A CN 110321112 A CN110321112 A CN 110321112A CN 201910591585 A CN201910591585 A CN 201910591585A CN 110321112 A CN110321112 A CN 110321112A
Authority
CN
China
Prior art keywords
data
tool
management module
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910591585.1A
Other languages
English (en)
Inventor
牟欣桐
王龙
李�浩
石宽
彭博
于海涛
沙骞骞
任文彬
莫宪源
吴浩博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910591585.1A priority Critical patent/CN110321112A/zh
Publication of CN110321112A publication Critical patent/CN110321112A/zh
Priority to US16/911,490 priority patent/US11693624B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/35Creation or generation of source code model driven
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)

Abstract

本发明实施例提供一种AI能力研发平台及数据处理方法,AI能力研发平台包括:数据管理模块、工具管理模块、流程管理模块和模型管理模块,其中,数据管理模块,用于对接收的数据进行数据处理,数据处理包括以下至少一种:解析数据的数据类型,按照预设数据格式转换数据、存储数据;工具管理模块,用于存储至少一个工具,每个工具用于执行预设的处理流程;流程管理模块,用于根据工具管理模块提供的工具以及数据管理模块提供的数据进行模型训练;模型管理模块,用于存储模型训练得到的模型。即本发明实施例中模型训练时,数据收集、模型训练等都可以在该平台上进行统一处理,不需要线下人员多方沟通和调试,开发效率较高。

Description

AI能力研发平台及数据处理方法
技术领域
本发明涉及通信技术领域,尤其涉及AI能力研发平台及数据处理方法。
背景技术
在实现一个模型的开发时,通常需要进行数据收集、数据标注、模型训练、测试、上线、封装调用六个环节。
现有技术中,该六个步骤是在线下由六个独立的环节完成,示例的,数据收集需要由业务方或策略开发者针对性收集,线下个人独立管理;数据标注需要由策略开发者向众测提需求,线下对接标注内容;模型训练需要由策略开发者线下独立完成及管理相关资源;测试需要线下对接测试人员完成;上线需要线下对接架构开发者完成;封装调用需要由对外业务部分封装成可外部调用服务。
但是,现有技术中,在完成该六个步骤时,需要线下人员多方沟通和调试,开发效率非常低。
发明内容
本发明实施例提供AI能力研发平台及数据处理方法,以解决现有技术中模型开发的效率低的技术问题。
本发明实施例第一方面提供一种AI能力研发平台,包括:
数据管理模块,用于对接收的数据进行数据处理,所述数据处理包括以下至少一种:解析所述数据的数据类型,按照预设数据格式转换所述数据、存储所述数据;
工具管理模块,用于存储至少一个工具,每个所述工具用于执行预设的处理流程;
流程管理模块,用于根据所述工具管理模块提供的工具以及所述数据管理模块提供的数据进行模型训练;
模型管理模块,用于存储所述模型训练得到的模型。
可选的,所述数据管理模块还用于:
收集待回流数据,所述待回流数据为满足预设回流条件的数据;所述待回流数据用于为模型迭代提供源数据。
可选的,所述收集待回流数据包括:
将所述待回流数据设置在回流目录中;
按照预设频率整理所述待回流目录;所述整理包括:将预设时间段内收集的待回流数据进行分类,以及将所述预设时间段内收集的待回流数据中同类的待回流数据设置在一个回流目录中。
可选的,所述工具管理模块还用于:
在所述工具管理模块的工具创建页面中接收用户的工具创建操作;
根据所述工具创建操作生成工具。
可选的,所述平台还包括:
测试模块,用于测试所述训练得到的模型;
平台管理模块,用于对所述数据管理模块、所述工具管理模块、所述流程管理模块、所述模型管理模块以及所述测试模块进行以项目为粒度的协调管理。
可选的,所述测试模块还用于:生成测试报告。
可选的,所述模型管理模块,还用于存储所述模型的创建人、训练数据集信息、模型指标信息的至少一个。
可选的,所述工具的类型包括以下至少一个:数据清洗类、数据挖掘类、模型训练类、服务评估类、数据回流类、批量预测类。
可选的,所述数据管理模块具体用于:
接收一项目的待处理数据;
解析所述待处理数据的数据类型;
将所述待处理数据中,数据类型满足预设条件的待处理数据转换为目标数据;所述目标数据具有预设数据格式;
统计所述目标数据;
将所述目标数据分类为测试集和数据集。
可选的,所述数据管理模块具体还用于:
根据用户的修改操作,将所述待处理数据中,数据类型不满足所述预设条件的待处理数据修改为具有所述预设数据格式的数据。
可选的,所述统计所述目标数据,包括:
在所述目标数据中查询至少一个预设类别的数据;
将每个预设类别的数据统计在该预设类别中。
可选的,所述流程管理模块还用于:
提供模型训练用户界面;
在所述模型训练用户界面中接收用户选择的目标数据集和目标工具;
在所述模型训练用户界面中接收用户对所述目标数据集和所述目标工具的连线;
根据所述连线将所述目标数据集传给所述目标工具;
在接收到运行指令的情况下,根据所述目标工具进行模型训练,得到训练模型。
可选的,所述流程管理模块还用于:
在接收到模型查看指令的情况下,显示所述模型查看指令对应的模型。
本发明实施例第二方面提供一种数据处理方法,应用于本发明实施例第一方面所述的AI能力研发平台,该方法包括:
对接收的数据进行数据处理,所述数据处理包括以下至少一种:解析所述数据的数据类型,按照预设数据格式转换所述数据、存储所述数据;
根据工具以及所述数据进行模型训练;
存储所述模型训练得到的模型。
可选的,还包括:
收集待回流数据,所述待回流数据为满足预设回流条件的数据;所述待回流数据用于为模型迭代提供源数据。
可选的,所述收集待回流数据包括:
将所述待回流数据设置在回流目录中;
按照预设频率整理所述待回流目录;所述整理包括:将预设时间段内收集的待回流数据进行分类,以及将所述预设时间段内收集的待回流数据中同类的待回流数据设置在一个回流目录中。
可选的,还包括:
在工具创建页面中接收用户的工具创建操作;
根据所述工具创建操作生成工具。
可选的,还包括:
测试所述训练得到的模型。
可选的,所述测试所述训练得到的模型之后,还包括:
生成测试报告。
可选的,所述工具的类型包括以下至少一个:数据清洗类、数据挖掘类、模型训练类、服务评估类、数据回流类、批量预测类。
可选的,所述对接收的数据进行数据处理包括:
接收一项目的待处理数据;
解析所述待处理数据的数据类型;
将所述待处理数据中,数据类型满足预设条件的待处理数据转换为目标数据;所述目标数据具有预设数据格式;
统计所述目标数据;
将所述目标数据分类为测试集和数据集。
可选的,还包括:
根据用户的修改操作,将所述待处理数据中,数据类型不满足所述预设条件的待处理数据修改为具有所述预设数据格式的数据。
可选的,所述统计所述目标数据,包括:
在所述目标数据中查询至少一个预设类别的数据;
将每个预设类别的数据统计在该预设类别中。
可选的,还包括:
提供模型训练用户界面;
在所述模型训练用户界面中接收用户选择的目标数据集和目标工具;
在所述模型训练用户界面中接收用户对所述目标数据集和所述目标工具的连线;
根据所述连线将所述目标数据集传给所述目标工具;
在接收到运行指令的情况下,根据所述目标工具进行模型训练,得到训练模型。
可选的,还包括:
在接收到模型查看指令的情况下,显示所述模型查看指令对应的模型。
本发明实施例第三方面提供一种电子设备,包括:处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如前述第二方面任一项所述的方法的指令。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如前述第二方面任一项所述的方法。
本发明实施例相对于现有技术的有益效果:
本发明实施例中提供了一种AI能力研发平台及数据处理方法,AI能力研发平台能够支持在线上完成数据采集到模型得到的过程,能够高效的进行模型开发。具体来说,本发明实施例的AI能力研发平台包括:数据管理模块、工具管理模块、流程管理模块和模型管理模块,其中,数据管理模块,用于对接收的数据进行数据处理,数据处理包括以下至少一种:解析数据的数据类型,按照预设数据格式转换数据、存储数据;工具管理模块,用于存储至少一个工具,每个工具用于执行预设的处理流程;流程管理模块,用于根据工具管理模块提供的工具以及数据管理模块提供的数据进行模型训练;模型管理模块,用于存储模型训练得到的模型。即本发明实施例中模型训练时,数据收集、模型训练等都可以在该平台上进行统一处理,不需要线下人员多方沟通和调试,开发效率较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的AI能力研发平台的功能模块示意图;
图2为本发明实施例提供的数据管理模块的数据列表界面示意图;
图3为本发明实施例提供的数据管理模块的数据详情界面示意图;
图4为本发明实施例提供的工具管理模块的界面示意图;
图5为本发明实施例提供的流程管理模块的画板的界面示意图;
图6为本发明实施例提供的模型管理模块的界面示意图;
图7为本发明实施例提供的任务模块的界面示意图;
图8为本发明实施例提供的AI能力研发平台的回流目录的示意图;
图9为本发明实施例提供的AI能力研发平台中目标数据显示界面示意图;
图10为本发明实施例提供的AI能力研发平台中拆分后的数据集界面示意图;
图11为本发明实施例提供的AI能力研发平台中画板页界面示意图;
图12为本发明实施例提供的AI能力研发平台中日志界面示意图;
图13为本发明实施例提供的数据处理的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
本发明实施例中提供了一种AI能力研发平台和方法,AI能力研发平台能够支持在线上完成数据采集到模型得到的过程,能够高效的进行模型开发。具体来说,本发明实施例的AI能力研发平台包括:数据管理模块、工具管理模块、流程管理模块和模型管理模块,其中,数据管理模块,用于对接收的数据进行数据处理,数据处理包括以下至少一种:解析数据的数据类型,按照预设数据格式转换数据、存储数据;工具管理模块,用于存储至少一个工具,每个工具用于执行预设的处理流程;流程管理模块,用于根据工具管理模块提供的工具以及数据管理模块提供的数据进行模型训练;模型管理模块,用于存储模型训练得到的模型。即本发明实施例中模型训练时,数据收集、模型训练等都可以在该平台上进行统一处理,不需要线下人员多方沟通和调试,开发效率较高。
本发明实施例所描述的AI能力研发平台可以应用于终端,终端可以包括:手机、平板电脑、笔记本电脑、台式电脑或者服务器等可以运行AI能力研发平台的电子设备。
本发明实施例所描述的AI能力研发平台可以是用于为各类人工智能(artificialintelligence,AI)业务提供服务支持的一体化平台。示例的,AI能力研发平台可以为AI研发的各环节提供数据和工具支持,在AI能力研发平台中可以将数据无缝的转换为可提供预测服务的机器学习模型,并为业务效果迭代闭环提供自动化支持。示例的,AI业务可以包括图片暴恐/色情识别、文字识别、大规模分类、图片聚类、去重等业务。
如图1所示,图1为本发明实施例的AI能力研发平台的功能结构示意图。本发明实施例的AI能力研发平台可以包括:
数据管理模块110,用于对接收的数据进行数据处理,所述数据处理包括以下至少一种:解析所述数据的数据类型,按照预设数据格式转换所述数据、存储所述数据;工具管理模块120,用于存储至少一个工具,每个所述工具用于执行预设的处理流程;流程管理模块130,用于根据所述工具管理模块提供的工具以及所述数据管理模块提供的数据进行模型训练;模型管理模块140,用于存储所述模型训练得到的模型。
本发明实施例中,数据管理模块110也可以称为数据仓库模块。与通常意义的数据仓库不同的是,通常意义的数据仓库只是用于提供数据的存储。而本发明实施例中,数据管理模块110可以支持用户便捷地管理各类格式的数据。
具体来说,数据管理模块110可以设置用于接收数据的入口,用户可以通过该入口上传数据,数据管理模块110在接收到数据后,可以自动解析该数据的数据类型,以及将数据类型符合预期的数据转换为预设数据格式,使得用户可以通过数据管理模块110得到统一格式的数据,避免数据格式不统一导致的数据处理效率低等现象发生。
可以理解,数据管理模块110也可以根据用户触发解析该数据的数据类型,示例的,数据管理模块110可以设置解析控件,用户点击该解析控件,则数据管理模块110响应于该点击操作解析该数据的数据类型,并进一步将数据类型符合预期的数据转换为预设数据格式。
实际应用中,若数据管理模块110解析数据后,发现数据的数据类型不符合预期,则可以根据用户的修改操作,修改数据的配置项,使得修改后的数据类型符合预期,并进一步将数据类型符合预期的数据转换为预设数据格式,本发明实施例对此不作具体限定。
具体应用中,在进行模型训练时,可能需要通过标注的样本数据进行模型训练,则用户可以从该数据管理模块110中获取需要标注的源数据,将该源数据标注后,进一步上传到数据管理模块110,数据管理模块110可以将标注的数据统一存储,以便于后续的模型训练。
在实际应用中,还可以根据实际的应用场景设置数据管理模块的功能,示例的,可以设置数据管理模块110支持便捷的图像数据导入导出以及标准化能力,例如,支持超文本传输协议(hyper text transport protocol,HTTP)、分布式文件系统(hadoopdistributed file system,HDFS)等类型的数据源,以及压缩包格式(zip)、JS对象简谱(javascript object notation,JSON)、序列化数据结构的协议protobuf、逗号分隔值(comma-separated values,CSV)等文件格式数据的标准化,具体的,标准化是对数据进行解析,提取出数据样本的结构,并以规范化的方式存储,方便后续使用。
示例的,还可以设置数据管理模块110支持灵活便捷的数据预览、查询和统计能力,具体的,为了支持任意规模数据,可以在平台底层采用分布式文件系统,能满足大量的批量数据读写和批量数据处理需求,为了满足少量数据顺序预览、快速查询的需求,可以在数据管理模块中采用键值(key-value,KV)存储,以便于对数据进行索引。
示例的,还可以设置数据管理模块110支持数据清洗、对接数据标注等功能,本发明实施例对此不作具体限定。
示例的,图2为本发明实施例提供的数据管理模块110的数据列表界面示意图。在数据管理模块110中,可以存储标准化、非标准化数据、标注数据等,在数据管理模块110的数据列表界面中,还可以显示各数据集的名称、创建时间、文件类型、状态、共享状态等,本发明实施例对此不作具体限定。
示例的,图3为本发明实施例提供的数据管理模块110的数据详情界面示意图。在数据管理模块110中,可以对各数据集进行数据合并、数据连结、数据拆分、数据转化、数据导出等操作,在数据管理模块110的数据详情中,还可以显示各操作对应的控件,例如包括数据合并控件、数据连结控件、数据拆分控件、数据转化控件、数据导出控件等,本发明实施例对此不作具体限定。
本发明实施例中,工具管理模块120也可以成为工具仓库。在工具管理模块120中可以存储一个或多个工具,具体的,工具可以是完成某项功能的代码,代码具体可以是由多个脚本文件或二进制文件组合而成。将工具封装集成到AI能力研发平台后,可以非常方便的调用和使用工具,具体应用中,在运行工具时可以执行代码中预设的处理流程。
可以理解,实际应用中,工具管理模块120还可以支持工具的升级、修改等操作,本发明实施例对此不作具体限定。
具体应用中,工具管理模块120中的工具不仅可以包括平台固定设置的工具,还可以包括根据实际的应用场景自定义的工具,即可以根据不同的需求设置不同类型的工具。示例的,从工具能力种类上可分为:数据清洗类、数据挖掘类、模型训练、服务评估类、数据回流类、批量预测类等等;从工具运行方式上可分为:分布式系统基础架构hadoop工具、通用并行框架spark工具、开源开放的深度学习平台paddle集群训练工具、等等。本发明实施例对工具的具体内容和形式不作限定。
实际应用中,在用户可以定义一个元文件,在元文件中声明工具的输入输出(比如输入数据,输出模型)、运行资源需求、执行入口以及可配参数,并将源文件与其他代码文件打包后提交发布到平台,则工具可以根据配置参数执行相应流程。可选的,工具的可配参数可以以可视化界面的方式在工作流页面中呈现给用户,使得工具的使用对用户可视化。
通常一个工具的执行需要用到一定的资源,示例的,图像聚类工具需要用到hadoop资源,模型训练需要用到图形处理器(graphics processing unit,GPU)集群资源,批量预测需要用到中央处理器(central processing unit,CPU)集群资源。用户通过在元文件中声明资源需求,在使用时可将工具直接使用即可,而无需协调各种资源。
具体应用中,还可以根据实际需求设置工具管理模块120支持平台级工具和项目级工具,具体的平台级工具由平台方提供,可供所有用户使用。项目级工具则依据用户的分享方式不同,可实现项目内、项目间和整个平台范围内的分享,其他能看到该工具的用户则可复用。从而可以提升完成工具复用的效率。本发明实施例对此不做具体限定。
示例的,图4为本发明实施例提供的工具管理模块120的界面示意图。在工具管理模块120中,可以存储系统工具、自定义工具等,在工具管理模块120的用户界面中,还可以显示各工具的名称、创建时间、创建者、状态等,本发明实施例对此不作具体限定。
本发明实施例中,流程管理模块130也可以称为流程平台,流程管理模块可以是建立在数据管理模块110和工具管理模块120、模型管理模块140等AI能力研发平台所提供的模块基础上,通过构建有向无环图(directed acyclic graph,DAG)流程的方式,将数据、模型、工具和服务结合在一起形成一个计算图,通过执行这个计算图最终实现从数据到AI服务产出的能力。
具体应用中,流程管理模块130可以作为AI能力研发平台的调用系统,是AI能力研发平台各环节自动化的核心。示例的,流程管理模块130可以为计算图中的每个工具节点准备数据(比如训练模型所需的数据)或模型(比如批量预测),然后为其分配计算资源(比如hadoop计算资源),在工具执行完后将其输出注册到对应的输出资源上(比如训练工具产出模型)。
实际应用中,流程管理模块130可以提供画板页,用户可以通过在画板页中通过拖拽数据和工具等方式完成工作流的构建,之后可执行工作流得到所需要的产出,比如在工作流中输入数据,运行后输出的是更新后的服务。
可以理解,实际应用中,还可以设置流程管理模块130支持可复用工作流。示例的,标识(logo)识别业务流程是一个比较复杂的工作流,在流程管理模块130中构建完毕该别业务流程后,若新的业务方需要进行另外的图片识别等,仅需调整工作流的输入以及部分配置就可以产出所需的模型和服务,从而为快速迁移应用到新的类似问题提供可能。本发明实施例对此不作具体限定。
示例的,图5为本发明实施例提供的流程管理模块130的画板的界面示意图。可通过在画板上拖拽各类工具完成任意端到端的AI研发可视化流程。画板左侧为资源框(输入、输出占位符;工具框),中间为拖拽区域,右侧为对应的工具或资源配置区。用户可依次拖拽输入、多个工具、输出框并完成上下游依赖关系连线生成任意端到端的研发流程。
工具间连线表示流程依赖,其决定了工具间的执行次序,这要求下游工具在所有上游工具执行完后才能开始执行。由工具凸槽连到下一个工具凹槽,意味着流程上后者依赖前者。参数依赖除了满足流程依赖中所要求的工具执行次序外,还指定了上下游参数对应关系。上游的输出参数直接传给下游的输入参数,AI平台自动完成中间资源的申请和传递。点击连线上方的状态按钮,可以看到上下游参数间的对应关系,可根据需求进行调整。
构建或更新工作流后,需要点击保存工作流按钮,将工作流Graph、各工具和资源配置项保存下来。其中的工具和资源配置项称为该工作流的全局配置。工作流全局配置是指用户保存的该工作流各步骤配置的集合,可通过下拉选择加载。工作流运行支持周期调度,便于流程例行化运行。在填写好工作流配置后,点击运行按钮,可开启调度,填写周期调度信息,点击确定则可。
本发明实施例中,模型管理模块140也可以成为模型仓库,模型管理模块140中可以保存各类训练任务产出的模型,具体的,模型可以包含模型权重本身和模型生产过程中的关键信息,比如创建人、训练数据集信息、模型指标、等等,以便于用户较全面的了解模型。
示例的,图6为本发明实施例提供的模型管理模块140的界面示意图。在模型管理模块140的界面中,还可以显示各模型的名称、创建时间、创建者、状态等,本发明实施例对此不作具体限定。
可以理解,实际应用中,还可以设置模型管理模块140中的模型用于服务上线、批量预测、模型微调等,本发明实施例对此不作具体限定。
本发明实施例中提供了一种AI能力研发平台和方法,AI能力研发平台能够支持在线上完成数据采集到模型得到的过程,能够高效的进行模型开发。具体来说,本发明实施例的AI能力研发平台包括:数据管理模块、工具管理模块、流程管理模块和模型管理模块,其中,数据管理模块,用于对接收的数据进行数据处理,数据处理包括以下至少一种:解析数据的数据类型,按照预设数据格式转换数据、存储数据;工具管理模块,用于存储至少一个工具,每个工具用于执行预设的处理流程;流程管理模块,用于根据工具管理模块提供的工具以及数据管理模块提供的数据进行模型训练;模型管理模块,用于存储模型训练得到的模型。即本发明实施例中模型训练时,数据收集、模型训练等都可以在该平台上进行统一处理,不需要线下人员多方沟通和调试,开发效率较高。
可选的,本发明实施例中还可以包括任务模块,如图7所示,图7为本发明实施例提供的任务模块的界面示意图。任务模块可以采用Graph图形式,可视化展示工作流运行各步骤的实时状态,用户可点击各步骤查看任务详情。可选的,本发明实施例的AI能力研发平台中,所述数据管理模块110还用于:收集待回流数据,所述待回流数据为满足预设条件的数据;所述待回流数据用于为模型迭代提供源数据。
本发明实施例中,数据管理模块110还可以自动实现数据回流,将收集的待回流数据自动回灌到数据管理模块110的数据集中,实现数据集自动更新,则后续的模型训练中,可以根据更新的数据自动迭代,从而可以将数据收集的任务自动实现,提升了模型训练的效率。
具体应用中,待回流数据可以是:用户在数据平台中执行打开网页等操作时,若在本次打开网页的操作中,网页中存在平台目前不能识别的图片,则可以将该图片作为待回流数据进行收集。待回流数据还可以是:根据平台预设的过滤条件,在平台页面中筛选出需要回流的待回流数据。可以理解,待回流数据的具体内容可以根据实际的应用场景进行确定,本发明实施例对此不作具体限定。
可以理解,实际应用中,可以根据实际的负载情况设定待回流数据的收集周期,按照收集周期间隔的收集待回流数据,以均衡负载,提升AI能力研发平台的运行效率。示例的,收集周期可以是三十秒至五分钟的任意值,本发明实施例对此不作具体限定。
在本发明实施例的一种可实现方式中,所述收集待回流数据包括:
将所述待回流数据设置在回流目录中;按照预设频率整理所述待回流目录;所述整理包括:将预设时间段内收集的待回流数据进行分类,以及将所述预设时间段内收集的待回流数据中同类的待回流数据设置在一个回流目录中。
示例的,如图8所示,示出了回流目录的示意图。AI能力研发平台可以定义待回流数据存储文件backflow-data,并定期收集待回流数据,将待回流数据根据定义不同的命名,设置在不同的回流目录中,示例的,可以根据区域划分,A区域收集的待回流数据存放在如图8所示的flow-id-0,B区域收集的待回流数据存放在如图8所示的flow-id-1,C区域收集的待回流数据存放在如图8所示的flow-id-2,可以理解,回流目录可以包括多层子目录,如图8所示的,可以根据日期等进一步设定子目录,在子目录中对应存储有待回流数据。
具体应用中,由于一个数据流的回流数据通常会被拆散在许多小文件里,可能会产生较多的空间碎片,因此可以定期对回流数据做整理。示例的,可以每天整体30天前的数据,将属于同一flow_id的数据整理到一个文件中,本发明实施例对此不作具体限定。
可选的,所述工具管理模块120还用于:在所述工具管理模块的工具创建页面中接收用户的工具创建操作;根据所述工具创建操作生成工具。
本发明实施例中,工具管理模块120可以提供工具创建页面,用户可以根据实际的需求,在该工具创建页面中进行输入代码,配置参数等的工具创建操作,基于该工具创建操作可以生成自定义的工具,从而能满足用户对工具的多样化需求。
可选的,所述数据管理平台还包括:测试模块,用于测试所述训练得到的模型;平台管理模块,用于对所述数据管理模块、所述工具管理模块、所述流程管理模块、所述模型管理模块以及所述测试模块进行以项目为粒度的协调管理。
本发明实施例中,测试模块中可以包括测试工具。具体应用中,测试模块测试模型时,可以在画板中将模型与测试工具连线,进而得到测试结果。可选的,所述测试模块还可以生成测试报告,方便用户查看测试结果。
本发明实施例中,考虑到实际的建模中,通常是以项目为粒度,因此平台管理模块可以对数据管理模块、工具管理模块、流程管理模块、模型管理模块以及测试模块进行以项目为粒度的协调管理,从而可以提升项目建模的效率。可以理解,平台管理模块还可以用于用户鉴权、用户引导等,以辅助用户对平台的使用,本发明实施例对此不作具体限定。
综上所述,本发明实施例的AI能力研发平台中,数据管理模块具有方便的图片数据导入、导出、预览、查看、转换、统计能力,并且可以无缝对接模型训练、众测标注、数据回流等业务;模型管理模块可以提供统一的模型存储、管理、加密及自动化评估测试和上线能力;平台管理模块可以提供统一的视觉类服务管理、虚拟化技术,方便的鉴权、统计与数据回流支持;工具管理模块具有易用的工具制作、管理与使用功能;流程管理模块可以支持方便流程构建及自动化运行能力,使得本发明实施例的AI能力研发平台可以支持平台支持从数据到模型到服务再到数据的全流程自动化升级迭代,在该AI能力研发平台应用于AI研发时,AI研发的各个环节都在平台上操作完成,几乎不再需要线下沟通确认,可以较大程度提升AI研发的效率。
为了更清楚的说明本发明实施例的AI能力研发平台,下面以项目为粒度,说明从数据收集到模型训练的具体应用过程。可以理解,项目可以是研发中设立的项目,项目的具体内容可以根据实际的应用场景确定,本发明实施例对此不作具体限定。
所述数据管理模块110具体用于:
接收一项目的待处理数据;解析所述待处理数据的数据类型;将所述待处理数据中,数据类型满足预设条件的待处理数据转换为目标数据;所述目标数据具有预设数据格式;统计所述目标数据;将所述目标数据分类为测试集和数据集。
本发明实施例中,待处理数据可以是用户的本地数据,则数据管理模块可以接收用户上传的本地数据;待处理数据也可是网页中的数据,则数据管理模块可以接收网页中发送的数据,本发明实施例对此不做具体限定。
本发明实施例中,数据管理模块110中可以设置解析控件,数据管理模块110在接收到用户对解析控件的触发后,可以解析该待处理数据的数据类型。示例的,在解析待处理数据的数据类型时,数据管理模块110可以推断待处理数据的类型和数据集schema(schema是用于描述和规范文件的逻辑结构的一种语言,它最大的作用就是验证文件逻辑结构的正确性)等,若待处理数据的数据类型满足预设条件,可以将待处理数据转换为目标数据;可选的,若待处理数据中有数据类型不满足预设条件的数据,则可以根据用户的修改操作,将所述待处理数据中,数据类型不满足所述预设条件的待处理数据修改为具有所述预设数据格式的数据,并将修改后的数据转换为目标数据。可以理解,预设条件可以根据实际的应用场景进行确定,本发明实施例对此不做具体限定。
实际应用中,解析待处理数据的数据类型后,可以通过文件名和内容对待处理数据进行标识。示例的,以待处理数据为图片为例,解析后产出的待处理数据可以包括:文件名(filename)可以表示图片数据在TAR(Unix和类Unix系统上的压缩打包工具,可以将多个文件合并为一个文件,打包后的文件后缀亦为TAR)包中的路径,内容(content)可以为图片数据。进一步可以从filename中将标签(label)名称提取出来。为了方便后续对接训练,还可以为每个label分配一个类别标识(indentify,ID),并且重命名图片和label字段的ID。
示例的,在一种可实现方式中,将待处理数据转换为目标数据的方法可以是:根据用户的转换触发,弹出代码输入框,根据用户在代码输入框中输入的代码,将待处理数据转换为目标数据。在转换中,还可以提供schema编辑区域,在schema编辑区域,用户可以修改content字段的ID为图像(image),添加label和类别名(class_name)字段。具体应用中,还可以设置试运行功能,用户可以点击试运行按钮用少量数据执行转换代码,并预览变换结果,确认结果无误后,点击转换按钮发起数据转换任务。
具体应用中,转换后的目标数据可能具有多种类别,因此,可以对目标数据进行统计。在一种可选实现方式中,所述统计所述目标数据,包括:在所述目标数据中查询至少一个预设类别的数据;将每个预设类别的数据统计在该预设类别中。
示例的,如图9所示,转换待处理数据得到的目标数据可以有四列:filename,image,label和class_name,其中label和class_name是图片的分类信息。用户可以根据类别查询目标数据中的图片,也可以发起统计任务统计样本的分布。具体的,用户打开数据集查询功能后可以按照类别查询样本,用户发起统计任务可以得到样本的分布情况。示例的,用户可以打开统计项筛选面板,选择label和class_name字段以数据类型enum形式统计,发起统计任务即可。
具体应用中,在模型训练时需要使用数据集,在测试模型时需要使用测试集,因此,在数据处理模块中,还可以将目标数据分量为测试集和数据集。示例的,以目标数据为Caltech 101为例,在将Caltech 101数据用于训练之前,可以将该Caltech 101按80-20的比例分割为训练集和测试集。一种实现方式中,AI能力研发平台可以提供数据拆分按钮,用户可以点击数据拆分按钮,并拖动滑块指定拆分比例,并填写分割产出的两个数据集的名称,最后再点击数据拆分按钮即可开始拆分任务。示例的,如图10所示,在拆分任务完成后,拆分产出的两个数据集Caltech 101train和Caltech 101test可以处于已完成状态。
可选的,所述流程管理模块120还用于:
提供模型训练用户界面;在所述模型训练用户界面中接收用户选择的目标数据集和目标工具;在所述模型训练用户界面中接收用户对所述目标数据集和所述目标工具的连线;根据所述连线将所述目标数据集传给所述目标工具;在接收到运行指令的情况下,根据所述目标工具进行模型训练,得到训练模型。
本发明实施例中,模型训练用户界面也可以称为画板页。
具体应用中,在画板页中可以显示工具管理模块中已有的工具对应的工具目录。工具目录主要可以包括元信息及入口脚本,元信息记录了工具的基本信息、入口执行命令、前端动态配置、工具标识等,入口脚本则为工具业务逻辑主入口。通过对工具目录中的工具标识的触发,可以实现对工具的调用。
在画板页中还可可以显示数据管理模块中已有的数据标识。通过对数据标识的触发,可以实现对数据的调用。
在进行模型训练时,如图11所示,用户可以将画板左侧的数据和工具拖拽到画板的编辑区域,并将数据与工具连线,则可以创建一个可执行的工作流。以分类训练工作流为例,输入资源可以为两个数据集:训练数据集train-dataset和测试数据集test-dataset,输出资源为模型,工具可以使用caltech101_trainer。发起训练任务后,可以自动将输入资源(数据)传给工具,训练产出的模型文件可以发布至模型仓库。
具体应用中,执行该工作流时,还可以在画板页中下拉选择各资源及工具项,填写好对应的参数配置,确认连线状态无误,可以理解,如果有误,可以进行修改等操作。
具体应用中,操作完以上步骤后,一个分类训练的工作流任务就完成了。用户进一步还可在任务列表页查看各步骤状态及日志信息。具体的,可以从画板页跳转至任务列表页,找到发起的任务后查看步骤详情。示例的,如图12示出了一种日志示意图,其中,compass log是平台执行日志链接,job log一般是集群任务日志链接。
可选的,所述流程管理模块还用于:在接收到模型查看指令的情况下,显示所述模型查看指令对应的模型。
本发明实施例中,对于已训练完成的模型,用户还可以查看以及复用该模型,因此,流程管理模块在接收到模型查看指令的情况下,可以显示模型查看指令对应的模型,已便于用户对该模型的后续处理。
综上所述,本发明实施例中提供了一种AI能力研发平台和方法,AI能力研发平台能够支持在线上完成数据采集到模型得到的过程,能够高效的进行模型开发。具体来说,本发明实施例的AI能力研发平台包括:数据管理模块、工具管理模块、流程管理模块和模型管理模块,其中,数据管理模块,用于对接收的数据进行数据处理,数据处理包括以下至少一种:解析数据的数据类型,按照预设数据格式转换数据、存储数据;工具管理模块,用于存储至少一个工具,每个工具用于执行预设的处理流程;流程管理模块,用于根据工具管理模块提供的工具以及数据管理模块提供的数据进行模型训练;模型管理模块,用于存储模型训练得到的模型。即本发明实施例中模型训练时,数据收集、模型训练等都可以在该平台上进行统一处理,不需要线下人员多方沟通和调试,开发效率较高。
如图13所示,图13为本发明实施例提供的数据处理方法的流程示意图。应用于AI能力研发平台,该方法具体可以包括:
步骤S101:对接收的数据进行数据处理,所述数据处理包括以下至少一种:解析所述数据的数据类型,按照预设数据格式转换所述数据、存储所述数据。
步骤S102:根据工具以及所述数据进行模型训练。
步骤S103:存储所述模型训练得到的模型。
可选的,还包括:
收集待回流数据,所述待回流数据为满足预设回流条件的数据;所述待回流数据用于为模型迭代提供源数据。
可选的,所述收集待回流数据包括:
将所述待回流数据设置在回流目录中;
按照预设频率整理所述待回流目录;所述整理包括:将预设时间段内收集的待回流数据进行分类,以及将所述预设时间段内收集的待回流数据中同类的待回流数据设置在一个回流目录中。
可选的,还包括:
在工具创建页面中接收用户的工具创建操作;
根据所述工具创建操作生成工具。
可选的,还包括:
测试所述训练得到的模型。
可选的,所述测试所述训练得到的模型之后,还包括:
生成测试报告。
可选的,所述工具的类型包括以下至少一个:数据清洗类、数据挖掘类、模型训练类、服务评估类、数据回流类、批量预测类。
可选的,所述对接收的数据进行数据处理包括:
接收一项目的待处理数据;
解析所述待处理数据的数据类型;
将所述待处理数据中,数据类型满足预设条件的待处理数据转换为目标数据;所述目标数据具有预设数据格式;
统计所述目标数据;
将所述目标数据分类为测试集和数据集。
可选的,还包括:
根据用户的修改操作,将所述待处理数据中,数据类型不满足所述预设条件的待处理数据修改为具有所述预设数据格式的数据。
可选的,所述统计所述目标数据,包括:
在所述目标数据中查询至少一个预设类别的数据;
将每个预设类别的数据统计在该预设类别中。
可选的,还包括:
提供模型训练用户界面;
在所述模型训练用户界面中接收用户选择的目标数据集和目标工具;
在所述模型训练用户界面中接收用户对所述目标数据集和所述目标工具的连线;
根据所述连线将所述目标数据集传给所述目标工具;
在接收到运行指令的情况下,根据所述目标工具进行模型训练,得到训练模型。
可选的,还包括:
在接收到模型查看指令的情况下,显示所述模型查看指令对应的模型。
综上所述,本发明实施例中提供了一种AI能力研发平台和方法,AI能力研发平台能够支持在线上完成数据采集到模型得到的过程,能够高效的进行模型开发。具体来说,本发明实施例的AI能力研发平台包括:数据管理模块、工具管理模块、流程管理模块和模型管理模块,其中,数据管理模块,用于对接收的数据进行数据处理,数据处理包括以下至少一种:解析数据的数据类型,按照预设数据格式转换数据、存储数据;工具管理模块,用于存储至少一个工具,每个工具用于执行预设的处理流程;流程管理模块,用于根据工具管理模块提供的工具以及数据管理模块提供的数据进行模型训练;模型管理模块,用于存储模型训练得到的模型。即本发明实施例中模型训练时,数据收集、模型训练等都可以在该平台上进行统一处理,不需要线下人员多方沟通和调试,开发效率较高。
本发明各实施例提供的数据处理方法可用于应用于如前述各对应的实施例所示模块执行的方法,其实现方式与原理相同,在此不再赘述。
本发明实施例还提供一种电子设备,包括:处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如前述实施例中任一项所述的方法的指令。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如前述实施例中任一项所述的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (27)

1.一种AI能力研发平台,其特征在于,所述平台包括:
数据管理模块,用于对接收的数据进行数据处理,所述数据处理包括以下至少一种:解析所述数据的数据类型,按照预设数据格式转换所述数据、存储所述数据;
工具管理模块,用于存储至少一个工具,每个所述工具用于执行预设的处理流程;
流程管理模块,用于根据所述工具管理模块提供的工具以及所述数据管理模块提供的数据进行模型训练;
模型管理模块,用于存储所述模型训练得到的模型。
2.根据权利要求1所述的平台,其特征在于,所述数据管理模块还用于:
收集待回流数据,所述待回流数据为满足预设回流条件的数据;所述待回流数据用于为模型迭代提供源数据。
3.根据权利要求2所述的平台,其特征在于,所述收集待回流数据包括:
将所述待回流数据设置在回流目录中;
按照预设频率整理所述待回流目录;所述整理包括:将预设时间段内收集的待回流数据进行分类,以及将所述预设时间段内收集的待回流数据中同类的待回流数据设置在一个回流目录中。
4.根据权利要求1-3任一项所述的平台,其特征在于,所述工具管理模块还用于:
在所述工具管理模块的工具创建页面中接收用户的工具创建操作;
根据所述工具创建操作生成工具。
5.根据权利要求1-3任一项所述的平台,其特征在于,所述平台还包括:
测试模块,用于测试所述训练得到的模型;
平台管理模块,用于对所述数据管理模块、所述工具管理模块、所述流程管理模块、所述模型管理模块以及所述测试模块进行以项目为粒度的协调管理。
6.根据权利要求5所述的平台,其特征在于,所述测试模块还用于:生成测试报告。
7.根据权利要求1-3任一项所述的平台,其特征在于,所述模型管理模块,还用于存储所述模型的创建人、训练数据集信息、模型指标信息的至少一个。
8.根据权利要求1-3任一项所述的平台,其特征在于,所述工具的类型包括以下至少一个:数据清洗类、数据挖掘类、模型训练类、服务评估类、数据回流类、批量预测类。
9.根据权利要求1所述的平台,其特征在于,所述数据管理模块具体用于:
接收一项目的待处理数据;
解析所述待处理数据的数据类型;
将所述待处理数据中,数据类型满足预设条件的待处理数据转换为目标数据;所述目标数据具有预设数据格式;
统计所述目标数据;
将所述目标数据分类为测试集和数据集。
10.根据权利要求9所述的平台,其特征在于,所述数据管理模块具体还用于:
根据用户的修改操作,将所述待处理数据中,数据类型不满足所述预设条件的待处理数据修改为具有所述预设数据格式的数据。
11.根据权利要求9或10所述的平台,其特征在于,所述统计所述目标数据,包括:
在所述目标数据中查询至少一个预设类别的数据;
将每个预设类别的数据统计在该预设类别中。
12.根据权利要求9所述的平台,其特征在于,所述流程管理模块还用于:
提供模型训练用户界面;
在所述模型训练用户界面中接收用户选择的目标数据集和目标工具;
在所述模型训练用户界面中接收用户对所述目标数据集和所述目标工具的连线;
根据所述连线将所述目标数据集传给所述目标工具;
在接收到运行指令的情况下,根据所述目标工具进行模型训练,得到训练模型。
13.根据权利要求12所述的平台,其特征在于,所述流程管理模块还用于:在接收到模型查看指令的情况下,显示所述模型查看指令对应的模型。
14.一种数据处理方法,其特征在于,应用于如权利要求1-13任一项所述的平台,所述方法包括:
对接收的数据进行数据处理,所述数据处理包括以下至少一种:解析所述数据的数据类型,按照预设数据格式转换所述数据、存储所述数据;
根据工具以及所述数据进行模型训练;
存储所述模型训练得到的模型。
15.根据权利要求14所述的方法,其特征在于,还包括:
收集待回流数据,所述待回流数据为满足预设回流条件的数据;所述待回流数据用于为模型迭代提供源数据。
16.根据权利要求15所述的方法,其特征在于,所述收集待回流数据包括:
将所述待回流数据设置在回流目录中;
按照预设频率整理所述待回流目录;所述整理包括:将预设时间段内收集的待回流数据进行分类,以及将所述预设时间段内收集的待回流数据中同类的待回流数据设置在一个回流目录中。
17.根据权利要求14-16任一项所述的方法,其特征在于,还包括:
在工具创建页面中接收用户的工具创建操作;
根据所述工具创建操作生成工具。
18.根据权利要求14-16任一项所述的方法,其特征在于,还包括:
测试所述训练得到的模型。
19.根据权利要求18所述的方法,其特征在于,所述测试所述训练得到的模型之后,还包括:
生成测试报告。
20.根据权利要求14-16任一项所述的方法,其特征在于,所述工具的类型包括以下至少一个:数据清洗类、数据挖掘类、模型训练类、服务评估类、数据回流类、批量预测类。
21.根据权利要求14-16任一项所述的方法,其特征在于,所述对接收的数据进行数据处理包括:
接收一项目的待处理数据;
解析所述待处理数据的数据类型;
将所述待处理数据中,数据类型满足预设条件的待处理数据转换为目标数据;所述目标数据具有预设数据格式;
统计所述目标数据;
将所述目标数据分类为测试集和数据集。
22.根据权利要求21所述的方法,其特征在于,还包括:
根据用户的修改操作,将所述待处理数据中,数据类型不满足所述预设条件的待处理数据修改为具有所述预设数据格式的数据。
23.根据权利要求21所述的方法,其特征在于,所述统计所述目标数据,包括:
在所述目标数据中查询至少一个预设类别的数据;
将每个预设类别的数据统计在该预设类别中。
24.根据权利要求21所述的方法,其特征在于,还包括:
提供模型训练用户界面;
在所述模型训练用户界面中接收用户选择的目标数据集和目标工具;
在所述模型训练用户界面中接收用户对所述目标数据集和所述目标工具的连线;
根据所述连线将所述目标数据集传给所述目标工具;
在接收到运行指令的情况下,根据所述目标工具进行模型训练,得到训练模型。
25.根据权利要求24所述的方法,其特征在于,还包括:
在接收到模型查看指令的情况下,显示所述模型查看指令对应的模型。
26.一种电子设备,其特征在于,包括:
处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求14-25任一项所述的方法的指令。
27.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如权利要求14-25任一项所述的方法。
CN201910591585.1A 2019-07-02 2019-07-02 Ai能力研发平台及数据处理方法 Pending CN110321112A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910591585.1A CN110321112A (zh) 2019-07-02 2019-07-02 Ai能力研发平台及数据处理方法
US16/911,490 US11693624B2 (en) 2019-07-02 2020-06-25 AI capability research and development platform and data processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910591585.1A CN110321112A (zh) 2019-07-02 2019-07-02 Ai能力研发平台及数据处理方法

Publications (1)

Publication Number Publication Date
CN110321112A true CN110321112A (zh) 2019-10-11

Family

ID=68122357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910591585.1A Pending CN110321112A (zh) 2019-07-02 2019-07-02 Ai能力研发平台及数据处理方法

Country Status (2)

Country Link
US (1) US11693624B2 (zh)
CN (1) CN110321112A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956272A (zh) * 2019-11-01 2020-04-03 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN111180020A (zh) * 2019-12-20 2020-05-19 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN111241351A (zh) * 2020-01-08 2020-06-05 第四范式(北京)技术有限公司 数据处理方法、装置及系统
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
CN111415014A (zh) * 2020-03-20 2020-07-14 中国建设银行股份有限公司 一种模型预测的结果数据管理系统及方法
CN112416927A (zh) * 2020-11-10 2021-02-26 北京五八信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112579577A (zh) * 2021-02-24 2021-03-30 北京通付盾人工智能技术有限公司 一种基于模型全生命周期的建模平台系统及搭建方法
CN113064594A (zh) * 2021-05-07 2021-07-02 福建天晴在线互动科技有限公司 一种自动生成ui界面的方法及系统
CN113129049A (zh) * 2019-12-31 2021-07-16 上海哔哩哔哩科技有限公司 用于模型训练和应用的文件配置方法和系统
CN114661571A (zh) * 2022-03-30 2022-06-24 北京百度网讯科技有限公司 模型评测方法、装置、电子设备和存储介质
CN114996140A (zh) * 2022-06-10 2022-09-02 合众新能源汽车有限公司 一种智能汽车功能开发测试过程管理系统及其运行方法
WO2023115570A1 (zh) * 2021-12-24 2023-06-29 深圳晶泰科技有限公司 机器学习模型的管理方法、装置、计算机设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905323B (zh) * 2021-02-09 2023-10-27 泰康保险集团股份有限公司 数据处理方法、装置、电子设备及存储介质
CN112836033B (zh) * 2021-02-25 2023-12-01 平安银行股份有限公司 业务模型的管理方法、装置、设备及存储介质
CN112926736B (zh) * 2021-02-26 2023-12-08 国网智能电网研究院有限公司 一种深度学习技术工具链系统
CN116796206B (zh) * 2023-06-27 2024-04-16 北京中科聚网信息技术有限公司 基于一体化平台的运营数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
CN108537289A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 数据识别模型的训练方法、装置及存储介质
CN108664540A (zh) * 2018-02-13 2018-10-16 贵州财经大学 大数据机器学习系统及方法
CN109272119A (zh) * 2018-09-11 2019-01-25 杭州祁睿信息技术有限公司 一种基于机器学习模型的面向用户型人工智能系统平台
US20190095992A1 (en) * 2017-09-24 2019-03-28 Annie Mafotsing Soh Method and system to facilitate decentralized money services software as a service

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193792A (zh) 2010-12-24 2011-09-21 东莞市高明企业服务有限公司 基于soa的服务企业协同管理系统开发方法及系统
CN102970183A (zh) 2012-11-22 2013-03-13 浪潮(北京)电子信息产业有限公司 一种云监控系统及其数据回流方法
CN108519876A (zh) 2018-03-27 2018-09-11 苏州优圣美智能系统有限公司 一种图形化数据流建模和处理系统及方法
US11625647B2 (en) * 2018-05-25 2023-04-11 Todd Marlin Methods and systems for facilitating analysis of a model
US11537936B2 (en) * 2019-01-17 2022-12-27 Servicenow, Inc. Data set generation for testing of machine learning pipelines

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
US20190095992A1 (en) * 2017-09-24 2019-03-28 Annie Mafotsing Soh Method and system to facilitate decentralized money services software as a service
CN108664540A (zh) * 2018-02-13 2018-10-16 贵州财经大学 大数据机器学习系统及方法
CN108537289A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 数据识别模型的训练方法、装置及存储介质
CN109272119A (zh) * 2018-09-11 2019-01-25 杭州祁睿信息技术有限公司 一种基于机器学习模型的面向用户型人工智能系统平台

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956272A (zh) * 2019-11-01 2020-04-03 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN110956272B (zh) * 2019-11-01 2023-08-08 第四范式(北京)技术有限公司 实现数据处理的方法和系统
CN111180020A (zh) * 2019-12-20 2020-05-19 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN111180020B (zh) * 2019-12-20 2023-09-01 深圳晶泰科技有限公司 一种药物研发过程中的数据管理系统及其使用方法
CN113129049B (zh) * 2019-12-31 2023-07-28 上海哔哩哔哩科技有限公司 用于模型训练和应用的文件配置方法和系统
CN113129049A (zh) * 2019-12-31 2021-07-16 上海哔哩哔哩科技有限公司 用于模型训练和应用的文件配置方法和系统
CN111241351A (zh) * 2020-01-08 2020-06-05 第四范式(北京)技术有限公司 数据处理方法、装置及系统
CN111259064A (zh) * 2020-01-10 2020-06-09 同方知网(北京)技术有限公司 一种可视化的自然语言分析挖掘系统及其建模方法
CN111415014A (zh) * 2020-03-20 2020-07-14 中国建设银行股份有限公司 一种模型预测的结果数据管理系统及方法
CN111415014B (zh) * 2020-03-20 2023-10-20 中国建设银行股份有限公司 一种模型预测的结果数据管理系统及方法
CN112416927A (zh) * 2020-11-10 2021-02-26 北京五八信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112416927B (zh) * 2020-11-10 2024-07-12 北京五八信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112579577A (zh) * 2021-02-24 2021-03-30 北京通付盾人工智能技术有限公司 一种基于模型全生命周期的建模平台系统及搭建方法
CN113064594A (zh) * 2021-05-07 2021-07-02 福建天晴在线互动科技有限公司 一种自动生成ui界面的方法及系统
CN113064594B (zh) * 2021-05-07 2023-11-17 福建天晴在线互动科技有限公司 一种自动生成ui界面的方法及系统
WO2023115570A1 (zh) * 2021-12-24 2023-06-29 深圳晶泰科技有限公司 机器学习模型的管理方法、装置、计算机设备及存储介质
CN114661571A (zh) * 2022-03-30 2022-06-24 北京百度网讯科技有限公司 模型评测方法、装置、电子设备和存储介质
CN114996140A (zh) * 2022-06-10 2022-09-02 合众新能源汽车有限公司 一种智能汽车功能开发测试过程管理系统及其运行方法

Also Published As

Publication number Publication date
US11693624B2 (en) 2023-07-04
US20210004642A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
CN110321112A (zh) Ai能力研发平台及数据处理方法
Wang et al. Rafiki: Machine learning as an analytics service system
US11175910B2 (en) System and method for code and data versioning in computerized data modeling and analysis
US10275502B2 (en) System and method for interactive reporting in computerized data modeling and analysis
US20170286526A1 (en) System and Method for Optimized Query Execution in Computerized Data Modeling and Analysis
US20170177309A1 (en) System and Method for Rapid Development and Deployment of Reusable Analytic Code for Use in Computerized Data Modeling and Analysis
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
US10078843B2 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
CN107924406A (zh) 选择用于对实时数据流执行的查询
CN108713205A (zh) 用于自动映射与数据流环境一起使用的数据类型的系统和方法
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US20230052372A1 (en) Methods and systems for artificial intelligence-assisted document annotation
WO2018236886A1 (en) SYSTEM AND METHOD FOR MANAGING CODE AND DATA VERSIONS IN COMPUTERIZED DATA MODELING AND ANALYSIS
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
US20230049167A1 (en) Continuous machine learning method and system for information extraction
CN104142825A (zh) 一种产品的模块化开发方法及系统
US10776359B2 (en) Abstractly implemented data analysis systems and methods therefor
Tavares de Sousa et al. Designing a generic research data infrastructure architecture with continuous software engineering
Bocciarelli et al. A model-driven method for building distributed simulation systems from business process models
CN109101534A (zh) 一种基于文本规则的自动文档分发方法和装置
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
Xing et al. A service relation model for web-based land cover change detection
CN117675838A (zh) 一种智能量测主站数据自动同步及共享方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination