CN110188887B - 面向机器学习的数据管理方法及装置 - Google Patents

面向机器学习的数据管理方法及装置 Download PDF

Info

Publication number
CN110188887B
CN110188887B CN201811121983.9A CN201811121983A CN110188887B CN 110188887 B CN110188887 B CN 110188887B CN 201811121983 A CN201811121983 A CN 201811121983A CN 110188887 B CN110188887 B CN 110188887B
Authority
CN
China
Prior art keywords
data
metadata
machine learning
file
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811121983.9A
Other languages
English (en)
Other versions
CN110188887A (zh
Inventor
白羽萌
白杨
张宇
秦文超
李奕慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201811121983.9A priority Critical patent/CN110188887B/zh
Publication of CN110188887A publication Critical patent/CN110188887A/zh
Application granted granted Critical
Publication of CN110188887B publication Critical patent/CN110188887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种面向机器学习的数据管理方法及装置。一种面向机器学习的数据管理方法包括:获取关于目标数据源中的数据的描述信息;根据所述描述信息生成元数据;接入目标数据源;使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;将元数据以及获得的应用于机器学习的数据导入目标数据存储区。

Description

面向机器学习的数据管理方法及装置
技术领域
本公开总体上涉及机器学习领域,具体涉及一种面向机器学习的数据管理方法及装置。
背景技术
目前,虽然数据迁移方法已经非常普遍,但是大部分数据迁移方法是数据从一处到另一处的原状迁移。一部分数据迁移方法能够做到在两种不同的数据容器之间对数据进行迁移,但是由于其目的都仅限于对数据容器的兼容并且不同数据容器的存储结构以及能够容纳的元信息成分各有不同,所以在数据的迁移和转换过程中都会或多或少地丢失部分信息或者需要对数据进行二次处理才能将数据应用到机器学习业务。
因此,在现有技术中,缺乏能够在对不同类型的数据进行迁移的同时将不同类型的数据有效应用于机器学习的方案。
发明内容
为了解决上述问题,本公开提出一种面向机器学习的数据管理方法及装置。
根据本公开,提供一种面向机器学习的数据管理方法,所述方法可包括:获取关于目标数据源中的数据的描述信息;根据所述描述信息生成元数据;接入目标数据源;使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;将元数据以及获得的应用于机器学习的数据导入目标数据存储区。
根据本公开的一个实施例,所述元数据可具有统一元数据格式。
根据本公开的一个实施例,所述预处理可包括文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。
根据本公开的一个实施例,所述描述信息可由用户通过操作界面输入;或者,所述描述信息可从外部被提取。
根据本公开的一个实施例,所述数据管理方法可由实施机器学习的系统执行,并且,所述描述信息可由所述实施机器学习的系统生成。
根据本公开的一个实施例,所述数据可包括机器学习模型的参数,并且,所述描述信息可包括关于所述机器学习模型的超参数、特征和/或训练过程的信息,并且,所述数据管理方法还可包括:基于所述元数据查看所述机器学习模型的详情。
根据本公开的一个实施例,所述数据可以是结构化数据、非结构化数据或半结构化数据。
根据本公开的一个实施例,所述元数据可具有树形组织形式,其中,不同类型的数据所通用的基础元数据记录在树形组织形式的根结构中,针对每个类型的数据的特异元数据记录在树形组织形式的叶子结构中。
根据本公开的一个实施例,所述数据可以是应用于机器学习模型的数据记录,并且,所述数据管理方法还可包括:基于所述元数据来利用所述数据记录进行机器学习模型的训练、验证和/或预估。
根据本公开,提供一种面向机器学习的数据管理装置,所述装置可包括:描述信息获取单元,用于获取关于目标数据源中的数据的描述信息;元数据生成单元,用于根据所述描述信息生成元数据;接入单元,用于接入目标数据源;预处理单元,用于使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;导入单元,用于将元数据以及获得的应用于机器学习的数据导入目标数据存储区。
根据本公开的一个实施例,所述元数据可具有统一元数据格式。
根据本公开的一个实施例,所述预处理可包括文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。
根据本公开的一个实施例,所述描述信息可由用户通过操作界面输入;或者,所述描述信息可从外部被提取。
根据本公开的一个实施例,所述数据管理装置可包括在实施机器学习的系统中,并且,所述描述信息可由所述实施机器学习的系统生成。
根据本公开的一个实施例,所述数据可包括机器学习模型的参数,并且,所述描述信息可包括关于所述机器学习模型的超参数、特征和/或训练过程的信息,并且,所述数据管理装置还可包括模型详情查看单元,所述模型详情查看单元用于基于所述元数据查看所述机器学习模型的详情。
根据本公开的一个实施例,所述数据可以是结构化数据、非结构化数据或半结构化数据。
根据本公开的一个实施例,所述元数据可具有树形组织形式,其中,不同类型的数据所通用的基础元数据记录在树形组织形式的根结构中,针对每个类型的数据的特异元数据记录在树形组织形式的叶子结构中。
根据本公开的一个实施例,所述数据可以是应用于机器学习模型的数据记录,并且,所述数据管理装置还可包括机器学习模型单元,所述机器学习模型单元用于基于所述元数据来利用所述数据记录进行机器学习模型的训练、验证和/或预估。
根据本公开,提供一种系统,所述系统包括至少一个计算装置和至少一个存储指令的存储装置,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行前述任一实施例所述的面向机器学习的数据管理方法。
根据本公开,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行前述任一实施例所述的面向机器学习的数据管理方法。
通过采用本公开,可将不同类型、不同结构和/或不同格式的数据导入目标数据存储区并利用统一的元数据对其进行描述,从而可提高数据的访问和管理效率并且为机器学习业务提供方便。
附图说明
从下面结合附图对本公开实施例的详细描述中,本公开的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是根据本公开的实施例的面向机器学习的数据管理方法的流程图;
图2示出了根据本公开的实施例的元数据树形组织形式的示例;
图3A至图3C示出了根据本公开的实施例的本地上传数据表的示例;
图4示出了根据本公开的实施例的引入Hadoop分布式文件系统(HDFS)数据源的示例;
图5示出了根据本公开的实施例的从数据库导入数据表的示例;
图6示出了根据本公开的实施例的接入Kafka数据源的示例;
图7示出了根据本公开的实施例的上传图片压缩包的示例;
图8示出了根据本公开的实施例的基于元数据查看机器学习模型的基本信息和详情的示例;
图9示出了根据本公开的实施例的面向机器学习的数据管理装置的结构框图;
图10示出了根据本公开的实施例的包括至少一个计算装置和至少一个存储指令的存储装置的系统的结构示意图。
具体实施方式
根据需要,在此公开本公开的具体实施例;然而,应当理解的是,所公开的实施例仅为本公开的示例,其可以以各种可替代形式实施。附图无需按比例绘制;可夸大或最小化一些特征以示出特定组件的细节。因此,此处所公开的具体结构和功能细节不应被解释为限制,而仅仅作为用于教导本领域技术人员以多种形式利用本公开的代表性基础。
下面参照附图描述根据本公开的实施例的面向机器学习的数据管理方法及装置。
首先,参照附图描述根据本公开的实施例的面向机器学习的数据管理方法。
图1是根据本公开的实施例的面向机器学习的数据管理方法的流程图。
如图1所示,在步骤S101,可获取关于目标数据源中的数据的描述信息。在一个示例中,目标数据源中的数据可以是用户上传的文件、用户指定的文件系统或数据库。在另一示例中,目标数据源中的数据可以是实施机器学习的系统产生的样本、模型或中间数据。目标数据源中的数据可以是结构化数据(例如,关系表等)、非结构化数据(例如,文档、图片、视频或音频等)或半结构化数据。能够用统一的结构表示的数据可被称为结构化数据,例如,数字、符号等,可使用二维表结构来表示传统的关系数据模型、行数据等。半结构化数据是介于结构化数据(例如,关系型数据库、面向对象数据库中的数据)和非结构化数据(例如,声音、图像文件等)之间的数据(例如,XML文档或HTML文档等),其一般是自描述的,数据的结构和内容混在一起而没有明显的区分。
在一个示例中,关于目标数据源中的数据的描述信息可由用户通过操作界面输入。在另一示例中,所述描述信息可从外部被提取。例如,当目标数据源为数据库时,可从外部提取关于目标数据源中的数据的描述信息。在另一示例中,所述数据管理方法可由实施机器学习的系统执行,并且关于目标数据源中的数据的描述信息可由所述实施机器学习的系统生成。例如,所述描述信息可以在机器学习模型的训练和/或预估阶段生成,例如,在数据准备、特征工程、模型训练、模型预估等阶段生成。
在步骤S102,可根据关于目标数据源中的数据的描述信息生成元数据。任何文件系统中的数据可分为数据本身和元数据,数据本身是指普通文件中的实际数据,而元数据指用来描述一个文件的特征的系统数据,诸如,访问权限、文件拥有者以及文件数据块的分布信息等。在集群文件系统中,分布信息包括文件在存储区上的位置以及存储区在集群中的位置。用户想要操作一个文件必须首先得到它的元数据,才能定位到文件的位置并且得到文件的内容或相关属性。在一个示例中,所述元数据可具有统一元数据格式。也就是说,针对任何数据,都将对应地生成统一格式的元数据。在另一示例中,所述元数据可具有树形组织形式,其中,不同类型的数据所通用的基础元数据记录在树形组织形式的根结构中,针对每个类型的数据的特异元数据记录在树形组织形式的叶子结构中。
在步骤S103,可接入目标数据源。这里,目标数据源可以是存储数据的任何位置,其中,所述数据能够被直接或间接地应用于机器学习相关处理。在步骤S104,可使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据。所述预处理可包括文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。在一个示例中,在接入目标数据源之后,可使用根据关于目标数据源中的数据的描述信息而生成的元数据对目标数据源中的数据进行文件格式转换,以获得应用于机器学习的数据。在另一示例中,在接入目标数据之后,可使用根据关于目标数据源中的数据的描述信息而生成的元数据对目标数据源中的数据进行文件切割和文件数据的拼接,以获得应用于机器学习的数据。在步骤S105,可将元数据以及获得的应用于机器学习的数据导入目标数据存储区。
目标数据源中的数据可包括机器学习模型的参数,并且,关于目标数据源中的数据的描述信息可包括关于机器学习模型的超参数(在机器学习中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数)、特征和/或训练过程的信息(例如,特征利用率),并且,所述数据管理方法还可包括基于所述元数据查看机器学习模型的详情。在另一示例中,目标数据源中的数据可以是应用于机器学习模型的数据记录,并且所述数据管理方法还可包括基于所述元数据来利用所述数据记录进行机器学习模型的训练、验证和/或预估。
图2示出了根据本公开的实施例的元数据树形组织形式200的示例。
如图2所示,不同类型的数据所通用的基础元数据记录在树形组织形式200的根结构201中,针对关系表的特异元数据记录在树形组织形式200的叶子结构202中,针对图片的特异元数据记录在树形组织形式200的叶子结构203中,针对机器学习模型的特异元数据记录在树形组织形式200的叶子结构204中。图2示出的元数据树形组织形式200仅为示例,其它实施例不限于图2示出的元数据树形组织形式。
在其它示例中,元数据树形组织形式还可包括例如记录针对视频的特异元数据的叶子结构、记录针对音频的特异元数据的叶子结构或记录针对文档的特异元数据的叶子结构等。
图3A至图3C示出了根据本公开的实施例的本地上传数据表的示例。
具体参照图3A至图3C,示出了本地上传文件名为“testdata”的csv文件的示例。在该示例中,根据本公开的实施例的面向机器学习的数据管理方法可获取关于文件名为“testdata”的csv文件的描述信息,用户可通过界面输入关于文件名为“testdata”的csv文件的描述信息(例如,文件类型、列分隔符、行分隔符、编码格式等)。随后,根据本公开的实施例的面向机器学习的数据管理方法可根据关于文件名为“testdata”的csv文件的描述信息而生成具有树形组织形式的元数据,其中,通用的基础元数据记录在树形组织形式的根结构中,针对数据表的特异元数据记录在树形组织形式的叶子结构中。接下来,根据本公开的实施例的面向机器学习的数据管理方法可接入文件名为“testdata”的csv文件,并且可使用所述元数据对文件名为“testdata”的csv文件进行预处理,以获得应用于机器学习的数据。根据本公开的实施例的面向机器学习的数据管理方法可对文件名为“testdata”的csv文件进行文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。在对文件名为“testdata”的csv文件进行预处理之后,可将元数据以及获得的应用于机器学习的数据导入目标数据存储区,以便随后被机器学习业务直接使用而不需要对数据进行二次处理。
图4示出了根据本公开的实施例的引入Hadoop分布式文件系统(HDFS)数据源的示例。
Hadoop是一种能够对大量数据进行分布式处理的软件框架,Hadoop能够以可靠、高效、可伸缩的方式进行数据处理。在该示例中,根据本公开的实施例的面向机器学习的数据管理方法可获取关于HDFS数据源中的数据的描述信息,用户可通过界面输入关于HDFS数据源中的数据的描述信息(例如,文件类型、列分隔符、行分隔符、编码格式等)。随后,根据本公开的实施例的面向机器学习的数据管理方法可根据关于HDFS数据源中的数据的描述信息而生成具有树形组织形式的元数据,其中,通用的基础元数据记录在树形组织形式的根结构中,针对HDFS数据源中的数据的特异元数据记录在树形组织形式的叶子结构中。接下来,根据本公开的实施例的面向机器学习的数据管理方法可接入HDFS数据源中的数据,并且可使用所述元数据对HDFS数据源中的数据进行预处理,以获得应用于机器学习的数据。根据本公开的实施例的面向机器学习的数据管理方法可对HDFS数据源中的数据进行文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。在对HDFS数据源中的数据进行预处理之后,可将元数据以及获得的应用于机器学习的数据导入目标数据存储区,以便随后被机器学习业务直接使用而不需要对数据进行二次处理。
图5示出了根据本公开的实施例的从数据库导入数据表的示例。
在该示例中,根据本公开的实施例的面向机器学习的数据管理方法可获取关于待导入的数据库中的数据的描述信息,具体地,可从外部提取关于数据库中的数据的描述信息。随后,根据本公开的实施例的面向机器学习的数据管理方法可根据关于数据库中的数据的描述信息而生成具有树形组织形式的元数据,其中,通用的基础元数据记录在树形组织形式的根结构中,针对数据库中的数据的特异元数据记录在树形组织形式的叶子结构中。接下来,根据本公开的实施例的面向机器学习的数据管理方法可接入数据库中的数据,并且可使用所述元数据对数据库中的数据进行预处理,以获得应用于机器学习的数据。根据本公开的实施例的面向机器学习的数据管理方法可对数据库中的数据进行文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。在对数据库中的数据进行预处理之后,可将元数据以及获得的应用于机器学习的数据导入目标数据存储区,以便随后被机器学习业务直接使用而不需要对数据进行二次处理。
图6示出了根据本公开的实施例的接入Kafka数据源的示例。
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理网站中的所有动作流数据。在该示例中,根据本公开的实施例的面向机器学习的数据管理方法可获取关于Kafka数据源中的数据的描述信息,用户可通过界面输入关于Kafka数据源中的数据的描述信息(例如,Kafka主题(Topic)、数据格式等)。随后,根据本公开的实施例的面向机器学习的数据管理方法可根据关于Kafka数据源中的数据的描述信息而生成具有树形组织形式的元数据,其中,通用的基础元数据记录在树形组织形式的根结构中,针对Kafka数据源中的数据的特异元数据记录在树形组织形式的叶子结构中。接下来,根据本公开的实施例的面向机器学习的数据管理方法可接入Kafka数据源中的数据,并且可使用所述元数据对Kafka数据源中的数据进行预处理,以获得应用于机器学习的数据。根据本公开的实施例的面向机器学习的数据管理方法可对Kafka数据源中的数据进行文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。在对Kafka数据源中的数据进行预处理之后,将元数据以及获得的应用于机器学习的数据导入目标数据存储区,以便随后被机器学习业务直接使用而不需要对数据进行二次处理。
图7示出了根据本公开的实施例的上传图片压缩包的示例。
在该示例中,根据本公开的实施例的面向机器学习的数据管理方法可获取图片压缩包中的数据的描述信息,可通过用户在界面的输入来获取图片压缩包中的数据的描述信息,例如,通过基于用户输入的文件名称中的扩展名部分来提取作为文件类型的描述信息等。随后,根据本公开的实施例的面向机器学习的数据管理方法可根据关于图片压缩包中的数据的描述信息而生成具有树形组织形式的元数据,其中,通用的基础元数据记录在树形组织形式的根结构中,针对图片压缩包中的数据的特异元数据记录在树形组织形式的叶子结构中。接下来,根据本公开的实施例的面向机器学习的数据管理方法可接入图片压缩包中的数据,并且可使用所述元数据对图片压缩包中的数据进行预处理,以获得应用于机器学习的数据。根据本公开的实施例的面向机器学习的数据管理方法可对图片压缩包中的数据进行文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。在对图片压缩包中的数据进行预处理之后,将元数据以及获得的应用于机器学习的数据导入目标数据存储区,以便随后被机器学习业务直接使用而不需要对数据进行二次处理。
图8示出了根据本公开的实施例的基于元数据查看机器学习模型的基本信息和详情的示例。
如前所述,目标数据源中的数据可包括机器学习模型的参数,并且,关于目标数据源中的数据的描述信息可包括关于机器学习模型的超参数、特征和/或训练过程的信息(例如,特征利用率),作为示例,这些描述信息可在训练模型的过程中所产生,并且,根据本公开的实施例的面向机器学习的数据管理方法还可包括基于根据描述信息生成的元数据查看机器学习模型的详情。
具体参照图8,示出了基于元数据查看机器学习模型的基本信息和详情的示例,其中,基本信息可包括数据类型、存储位置、存储占用状况、创建人、创建时间、更新时间等。在该示例中,数据类型为模型,也就是说,目标数据源中的数据为机器学习模型的参数。如图8所示,模型详情可包括模型的基本信息、算法参数配置和训练过程概要,模型的基本信息可包括创建时间、创建人、权重非零特征维度,模型的算法参数配置可包括算法名称、学习率、树的棵数、单棵树的最大深度、L0正则项系数、L2正则项系数、叶子节点最小权重、叶子节点最小划分增益等,训练过程概要部分可显示对数损失(Logloss)曲线或曲线下面积(AUC)曲线并且可具体显示训练用时、树的棵数、训练Logloss、验证Logloss、训练AUC、验证AUC等。
图9示出了根据本公开的实施例的面向机器学习的数据管理装置的结构框图。
如图9所示,根据本公开的实施例的面向机器学习的数据管理装置可包括:描述信息获取单元301,可用于获取关于目标数据源中的数据的描述信息;元数据生成单元302,可用于根据所述描述信息生成元数据;接入单元303,可用于接入目标数据源;预处理单元304,可用于使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;导入单元305,可用于将元数据以及获得的应用于机器学习的数据导入目标数据存储区。
使用元数据生成单元302生成的元数据可具有统一元数据格式。由预处理单元304进行预处理可包括文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。关于目标数据源中的数据的描述信息可由用户通过操作界面输入;或者,所述描述信息可从外部提取。根据本公开的实施例的面向机器学习的数据管理装置可以包括在实施机器学习的系统中,并且,关于目标数据源中的数据的描述信息可由所述实施机器学习的系统生成。
目标数据源中的数据可包括机器学习模型的参数,并且,关于目标数据源中的数据的描述信息可包括关于所述机器学习模型的超参数、特征和/或训练过程的信息,并且,根据本公开的实施例的面向机器学习的数据管理装置还可包括模型详情查看单元,所述模型详情查看单元可用于基于所述元数据查看所述机器学习模型的详情。
目标数据源中的数据可以是结构化数据、非结构化数据或半结构化数据。使用元数据生成单元302生成的元数据可具有树形组织形式,其中,不同类型的数据所通用的基础元数据记录在树形组织形式的根结构中,针对每个类型的数据的特异元数据记录在树形组织形式的叶子结构中。
目标数据源中的数据可以是应用于机器学习模型的数据记录,并且,根据本公开的实施例的面向机器学习的数据管理装置还可包括机器学习模型单元,所述机器学习模型单元可用于基于所述元数据来利用所述数据记录进行机器学习模型的训练、验证和/或预估。
以上结合图1到图8示出的具体操作可分别由图9所示的装置中的相应单元来执行,这里,对于具体操作细节将不再赘述。
图10示出了根据本公开的实施例的包括至少一个计算装置和至少一个存储指令的存储装置的系统的结构示意图。
如图10所示,根据本公开的实施例提供的系统400可包括至少一个计算装置(例如,处理器)401和至少一个存储指令的存储装置402,其中,所述指令在被所述至少一个计算装置401运行时,促使所述至少一个计算装置401执行前述任一实施例所述的面向机器学习的数据管理方法。
另外,根据本公开的实施例还提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行前述任一实施例所述的面向机器学习的数据管理方法。
通过采用本公开,可将不同类型、不同结构和/或不同格式的数据导入目标数据存储区并利用统一的元数据对其进行描述,从而可提高数据的访问和管理效率并且为机器学习业务提供方便。
在此公开的处理、方法或算法可被传送到处理装置、控制器或计算机,或者由处理装置、控制器或计算机来实现,所述处理装置、控制器或计算机可包括任何现有的可编程电子控制单元或者专用的电子控制单元。类似地,所述处理、方法或算法可以以多种形式被存储为可由控制器或计算机执行的数据和指令,所述多种形式包括但不限于信息被永久地存储在非可写存储介质(诸如,ROM装置)上以及信息被可变地存储在可写存储介质(诸如,软盘、磁带、CD、RAM装置以及其它磁介质和光学介质)上。所述处理、方法或算法还可被实现在软件可执行对象中。可选地,所述处理、方法或算法可使用合适的硬件组件(诸如,ASIC、FPGA、状态机、控制器或其它硬件组件或装置)或者硬件组件、软件组件和固件组件的组合来被整体或部分地实现。
虽然以上描述了示例性实施例,但是并不意在这些实施例描述了本公开的所有可能形式。更确切地,说明书中使用的词语为描述性词语而非限制性词语,并且应理解,可在不脱离本公开的精神和范围的情况下作出各种改变。此外,可组合各种实现的实施例的特征以形成本公开的进一步的实施例。

Claims (12)

1.一种面向机器学习的数据管理方法,包括:
获取关于目标数据源中的数据的描述信息,其中,所述数据包括机器学习模型的参数和/或应用于机器学习模型的数据记录,并且,所述描述信息包括关于所述机器学习模型的超参数、特征和/或训练过程的信息;
根据所述描述信息生成元数据;
接入目标数据源;
使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;
将元数据以及获得的应用于机器学习的数据导入目标数据存储区;
基于所述元数据查看所述机器学习模型的详情,并且/或者基于所述元数据来利用所述数据记录进行机器学习模型的训练、验证和/或预估,
其中,所述数据为结构化数据、非结构化数据或半结构化数据,所述元数据具有统一元数据格式并且包括不同类型的数据所通用的基础元数据和针对每个类型的数据的特异元数据,所述基础元数据包括访问权限、文件拥有者以及文件数据块的分布信息中的至少一种,所述特异元数据包括针对关系表的特异元数据、针对图片的特异元数据、针对机器学习模型的特异元数据、针对视频的特异元数据、针对音频的特异元数据和针对文档的特异元数据中的至少一种。
2.如权利要求1所述的数据管理方法,其中,所述预处理包括文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。
3.如权利要求1所述的数据管理方法,其中,所述描述信息由用户通过操作界面输入;或者,所述描述信息从外部被提取。
4.如权利要求1所述的数据管理方法,其中,所述数据管理方法由实施机器学习的系统执行,并且,所述描述信息由所述实施机器学习的系统生成。
5.如权利要求1所述的数据管理方法,其中,所述元数据具有树形组织形式,其中,不同类型的数据所通用的基础元数据记录在树形组织形式的根结构中,针对每个类型的数据的特异元数据记录在树形组织形式的叶子结构中。
6.一种面向机器学习的数据管理装置,包括:
描述信息获取单元,用于获取关于目标数据源中的数据的描述信息,其中,所述数据包括机器学习模型的参数和/或应用于机器学习模型的数据记录,并且,所述描述信息包括关于所述机器学习模型的超参数、特征和/或训练过程的信息;
元数据生成单元,用于根据所述描述信息生成元数据;
接入单元,用于接入目标数据源;
预处理单元,用于使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;
导入单元,用于将元数据以及获得的应用于机器学习的数据导入目标数据存储区;
模型详情查看单元,用于基于所述元数据查看所述机器学习模型的详情,并且/或者基于所述元数据来利用所述数据记录进行机器学习模型的训练、验证和/或预估,
其中,所述数据为结构化数据、非结构化数据或半结构化数据,所述元数据具有统一元数据格式并且包括不同类型的数据所通用的基础元数据和针对每个类型的数据的特异元数据,所述基础元数据包括访问权限、文件拥有者以及文件数据块的分布信息中的至少一种,所述特异元数据包括针对关系表的特异元数据、针对图片的特异元数据、针对机器学习模型的特异元数据、针对视频的特异元数据、针对音频的特异元数据和针对文档的特异元数据中的至少一种。
7.如权利要求6所述的数据管理装置,其中,所述预处理包括文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。
8.如权利要求6所述的数据管理装置,其中,所述描述信息由用户通过操作界面输入;或者,所述描述信息从外部被提取。
9.如权利要求6所述的数据管理装置,其中,所述数据管理装置包括在实施机器学习的系统中,并且,所述描述信息由所述实施机器学习的系统生成。
10.如权利要求6所述的数据管理装置,其中,所述元数据具有树形组织形式,其中,不同类型的数据所通用的基础元数据记录在树形组织形式的根结构中,针对每个类型的数据的特异元数据记录在树形组织形式的叶子结构中。
11.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的面向机器学习的数据管理方法。
12.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到5中的任一权利要求所述的面向机器学习的数据管理方法。
CN201811121983.9A 2018-09-26 2018-09-26 面向机器学习的数据管理方法及装置 Active CN110188887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811121983.9A CN110188887B (zh) 2018-09-26 2018-09-26 面向机器学习的数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811121983.9A CN110188887B (zh) 2018-09-26 2018-09-26 面向机器学习的数据管理方法及装置

Publications (2)

Publication Number Publication Date
CN110188887A CN110188887A (zh) 2019-08-30
CN110188887B true CN110188887B (zh) 2022-11-08

Family

ID=67713823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811121983.9A Active CN110188887B (zh) 2018-09-26 2018-09-26 面向机器学习的数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN110188887B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026744A (zh) * 2019-12-11 2020-04-17 新奥数能科技有限公司 一种基于能源站系统模型框架的数据治理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810114A (zh) * 2012-06-13 2012-12-05 天津大学 基于本体的个人计算机资源管理系统
CN103631870A (zh) * 2013-11-06 2014-03-12 广东电子工业研究院有限公司 一种用于大规模分布式数据处理的系统及其方法
KR20160037861A (ko) * 2016-03-21 2016-04-06 아주대학교산학협력단 라이프스타일 데이터 관리 시스템 및 방법
CN106202452A (zh) * 2016-07-15 2016-12-07 复旦大学 大数据平台的统一数据资源管理系统与方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107330080A (zh) * 2017-07-03 2017-11-07 北京希嘉创智教育科技有限公司 一种数据处理方法、装置及应用其的计算机设备
CN104142980B (zh) * 2014-07-15 2017-11-17 中电科华云信息技术有限公司 基于大数据的元数据模型管理系统和管理方法
CN108320066A (zh) * 2017-01-18 2018-07-24 重庆邮电大学 一种基于元数据实现不同生产线的统一管理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187938B (zh) * 2007-11-09 2010-12-08 中国传媒大学 一种多媒体元数据统一描述及检索方法
CN102236672B (zh) * 2010-05-06 2016-08-24 深圳市腾讯计算机系统有限公司 一种数据导入方法及装置
CN103970899A (zh) * 2014-05-27 2014-08-06 重庆大学 面向服务的元数据关联性提取管理方法及其管理系统
CN114611707A (zh) * 2016-08-25 2022-06-10 第四范式(北京)技术有限公司 结合规则来进行机器学习的方法及系统
CN106777227A (zh) * 2016-12-26 2017-05-31 河南信安通信技术股份有限公司 基于云平台的多维数据融合分析系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810114A (zh) * 2012-06-13 2012-12-05 天津大学 基于本体的个人计算机资源管理系统
CN103631870A (zh) * 2013-11-06 2014-03-12 广东电子工业研究院有限公司 一种用于大规模分布式数据处理的系统及其方法
CN104142980B (zh) * 2014-07-15 2017-11-17 中电科华云信息技术有限公司 基于大数据的元数据模型管理系统和管理方法
KR20160037861A (ko) * 2016-03-21 2016-04-06 아주대학교산학협력단 라이프스타일 데이터 관리 시스템 및 방법
CN106202452A (zh) * 2016-07-15 2016-12-07 复旦大学 大数据平台的统一数据资源管理系统与方法
CN108320066A (zh) * 2017-01-18 2018-07-24 重庆邮电大学 一种基于元数据实现不同生产线的统一管理方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107330080A (zh) * 2017-07-03 2017-11-07 北京希嘉创智教育科技有限公司 一种数据处理方法、装置及应用其的计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"利用VB读取方正排版文件提取元数据";杨海亮等;《中国科技期刊研究》;20150630;612-617页 *

Also Published As

Publication number Publication date
CN110188887A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
US10235999B1 (en) Voice application platform
CN110032604B (zh) 数据存储装置、转译装置及数据库访问方法
CN105243067B (zh) 一种实现实时增量同步数据的方法及装置
CN108282339B (zh) 一种基于智能合约和自社交媒体的数字身份找回方法
JP2004501451A5 (zh)
WO2015172478A1 (zh) 一种分布式存储系统中管理异构副本的方法及装置
CN110413595B (zh) 一种应用于分布式数据库的数据迁移方法和相关装置
JP6182609B2 (ja) 字幕処理方法、装置、システム及び記憶媒体
CN113468199B (zh) 索引更新方法及系统
CN113204598B (zh) 一种数据同步方法、系统及存储介质
CN110209714A (zh) 报表生成方法、装置、计算机设备及计算机可读存储介质
RU2014118602A (ru) Оконечное устройство, серверное устройство, способ обработки информации, программа и система предоставления связанных приложений
US10776359B2 (en) Abstractly implemented data analysis systems and methods therefor
CN110188887B (zh) 面向机器学习的数据管理方法及装置
CN106354587A (zh) 镜像服务器以及导出虚拟机镜像文件的方法
EP3391222A1 (en) Log fragmentation method and apparatus
CN114064647A (zh) 一种基于流式处理的数据存储方法、设备及介质
CN104636397B (zh) 用于分布式计算的资源分配方法、计算加速方法以及装置
CN107016050B (zh) 数据处理方法及装置
CN107665224B (zh) 扫描hdfs冷数据的方法、系统和装置
KR101772333B1 (ko) 이종 NoSQL 데이터베이스들간의 지능적 조인 전략 제공 방법 및 시스템
CN111143310B (zh) 日志记录方法及装置、可读存储介质
US20120317073A1 (en) Replication Support for Procedures with Arguments of Unsupported Types
CN113590651B (zh) 一种基于hql的跨集群数据处理系统及方法
CN109656952A (zh) 查询处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant