CN114064576A - 数据集获得方法、装置及电子设备 - Google Patents

数据集获得方法、装置及电子设备 Download PDF

Info

Publication number
CN114064576A
CN114064576A CN202210035840.6A CN202210035840A CN114064576A CN 114064576 A CN114064576 A CN 114064576A CN 202210035840 A CN202210035840 A CN 202210035840A CN 114064576 A CN114064576 A CN 114064576A
Authority
CN
China
Prior art keywords
data set
information
analysis result
storage space
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210035840.6A
Other languages
English (en)
Inventor
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202210035840.6A priority Critical patent/CN114064576A/zh
Publication of CN114064576A publication Critical patent/CN114064576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请提供一种数据集获得方法、装置及电子设备,其中,方法包括获取第一信息,第一信息包括用于指示原始数据集来源的数据源信息,基于数据源信息获取原始数据集,对原始数据集进行分析,获得第一分析结果,基于第一信息和第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。本申请提供的数据集获得方法可以有效减少接口服务,使得各个微服务获取信息更高效,从而提高了微服务获取信息的效率。

Description

数据集获得方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据集获得方法、装置及电子设备。
背景技术
在机器学习的训练过程中,通常需要多个微服务共同协助完成训练过程。在训练过程中每个微服务均需使用数据集中的信息。目前,某个微服务获取数据集中的某个信息,需要通过至少一个业务接口将该信息层层传递至该微服务,如下游微服务获取数据集中的某个信息,需要从上游将该信息一层层传递至下游微服务。因此,各个微服务获取信息的过程较为繁琐,导致微服务获取信息的效率较低。
发明内容
本申请实施例提供一种数据集获得方法、装置及电子设备,解决了微服务获取信息的效率较低的问题。
为达到上述目的,第一方面,本申请实施例提供一种数据集获得方法,包括:
获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息;
基于所述数据源信息获取原始数据集;
对所述原始数据集进行分析,获得第一分析结果;
基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
可选地,所述第一信息包括目标存储路径,所述基于所述第一信息和所述第一分析结果,获得目标数据集,包括:
在所述目标存储路径下新建第一存储空间和第二存储空间;
将所述第一分析结果存储于所述第一存储空间,且将所述第一信息存储于所述第二存储空间,获得所述目标数据集。
可选地,所述对所述原始数据集进行分析,获得第一分析结果包括:
读取所述原始数据集,对所述原始数据集进行分析,获得第一分析结果;
所述将所述第一分析结果存储于所述第一存储空间,包括:
若读取方式为对所述原始数据集采用全量扫描的方式读取,则将所述第一分析结果存储于第一子存储空间,所述第一存储空间包括所述第一子存储空间;
若读取方式为对所述原始数据集采用抽样扫描的方式读取,则将所述第一分析结果存储于第二子存储空间,所述第一存储空间包括所述第二子存储空间。
可选地,所述对所述原始数据集进行分析,获得第一分析结果,包括:
若所述原始数据集包括结构化数据,则基于所述结构化数据,获得所述第一分析结果,所述第一分析结果包括所述结构化数据的第一特征信息;
若所述原始数据集包括非结构化数据,则基于所述非结构化数据,获得第一分析结果,所述第一分析结果包括所述非结构化数据的第二特征信息。
可选地,所述第二特征信息包括标注信息,所述将所述第一分析结果存储于所述第一存储空间,包括:
按预设存储方式将所述标注信息存储于所述第一存储空间;
其中,所述预设存储方式包括以下至少一项:
基于标注信息的标注类别,将标注信息以及对应的数据文件存在于所述标注类别对应的文件目录中;
基于标注信息以及所述标注信息对应的数据文件名称,存储所述标注信息以及对应的数据文件。
可选地,所述第一信息还包括用于指示是否将所述原始数据集分区存储的分区信息,所述基于所述数据源信息获取原始数据集之后,所述对所述原始数据集进行分析,获得第一分析结果之前,所述方法还包括:
基于所述第一信息,确定是否将所述原始数据集分区存储在所述目标数据集中。
可选地,所述基于所述第一信息和所述第一分析结果,获得目标数据集之后,所述方法还包括:
响应于数据集更新请求,获取所述数据集更新请求中指示的第一数据集;
对所述第一数据集进行分析,获得第二分析结果;
基于所述第二分析结果,更新所述目标数据集。
可选地,所述第一信息还包括动态指针,所述基于所述第二分析结果,更新所述目标数据集,包括:
在所述目标存储路径下新建第三存储空间;
将所述第二分析结果存储于所述第三存储空间,获得更新后的所述目标数据集;
其中,在所述目标数据集更新的情况下,所述动态指针指向所述第一存储空间的地址;
在所述目标数据集更新完成的情况下,所述动态指针指向所述第三存储空间的地址。
可选地,所述基于所述第一信息和所述第一分析结果,获得目标数据集之后,所述方法还包括:
接收超文本传输协议HTTP请求,所述HTTP请求携带统一资源定位符URL;
根据所述URL从所述目标数据集中获取目标数据。
第二方面,本申请实施例提供一种数据集获得装置,包括:
第一获取模块,用于获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息;
第二获取模块,用于基于所述数据源信息获取原始数据集;
第一确定模块,用于对所述原始数据集进行分析,获得第一分析结果;
第二确定模块,用于基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的数据集获得方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如第一方面所述的数据集获得方法中的步骤。
本申请实施例中,通过获取第一信息,第一信息包括用于指示原始数据来源的数据源信息,并基于数据源信息获取原始数据,对原始数据进行分析,获得第一分析结果。且基于第一信息和第一分析结果,获得目标数据集,目标数据集包括用于描述所述原始数据集的信息。这样,可将微服务所需信息都集中整合在目标数据集里,在机器学习的训练过程中,某个微服务获取数据集中的某个信息时,无需通过至少一个业务接口将该信息层层传递至该微服务,可以直接从目标数据集中获取所需信息;另外,通过将微服务所需信息都集中整合在目标数据集里,只需要对原始数据集执行一次分析,便可以实现对多个微服务的支持。本申请提供的技术方案既可以有效减少接口服务,使得各个微服务获取信息更高效,又可以减少对原始数据集的分析处理次数,本发明方案较大程度地提高了微服务获取数据集中的信息的效率。
附图说明
为了更清楚的说明本申请实施例中的技术方案,现对说明书附图作如下说明,显而易见地,下述附图仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据所列附图获得其他附图。
图1是本申请实施例提供的一种数据集获得方法的流程图;
图2是本申请实施例提供的一种数据集获得装置的结构示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。在本申请中的实施例的基础上,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的一种数据集获得方法的流程图之一。
如图1所示,本申请实施例提供的数据集获得方法的步骤可以包括:
步骤101,获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息。
上述数据源信息可以为存储原始数据集的地址。具体实现时,第一信息还可以包括但不限于:目标数据集的名称、目标存储路径和用于指示所述原始数据集是否托管的托管信息中的至少一项。目标数据集的名称即预先设置的为本申请实施例最终获得的目标数据集所设置的名称,目标存储路径即预先设置的目标数据集的存储路径。托管信息可以为托管或不托管。
具体实现时,可在人机接入界面配置第一信息,从而可基于第一信息发起用于创建目标数据集的创建请求,所述创建请求携带第一信息。
步骤102,基于所述数据源信息获取原始数据集;
具体实现时,接收并解析上述创建请求,得到第一信息,并可以根据数据源信息的存储原始数据集的地址获取原始数据集。
进一步的,在托管信息为托管的情况下,可以将获取到的原始数据集存储于目标数据集中;在托管信息为不托管的情况下,无需将获取到的原始数据集存储于目标数据集中。通常,可将托管信息默认为托管。
步骤103,对所述原始数据集进行分析,获得第一分析结果;
具体实现时,可以根据原始数据集的数据类型,从不同角度对原始数据集进行分析。如若原始数据集为结构化数据,可以统计原始数据集的数值特征;若原始数据集为非结构化数据,可以统计原始数据集的文件个数。第一分析结果包括原始数据集的数值特征,和/或原始数据集的文件个数。对原始数据集进行分析时,也可以采用不同的读取方式,如可以采用全量扫描的方式读取原始数据集,也可以采用抽样扫描的方式读取原始数据集。
步骤104,基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
其中,目标数据集中用于描述所述原始数据集的信息可以基于该第一分析结果获取得。所述第一分析结果包括所述原始数据集的数据特征信息,例如:原始数据集的正态分布情况、方差、包含的数据类型等数据特征信息。
具体实现时,可以将第一信息和第一分析结果分区存储,以获得目标数据集。第一信息和第一分析结果可以包含各微服务需使用的信息。
作为一个示例,所述第一信息包括目标存储路径,所述基于所述第一信息和所述第一分析结果,获得目标数据集,包括:
在所述目标存储路径下新建第一存储空间和第二存储空间;
将所述第一分析结果存储于所述第一存储空间,且将所述第一信息存储于所述第二存储空间,获得所述目标数据集。
更进一步地,在从不同角度对原始数据集进行分析时,可以将不同角度下获得的第一分析结果分区存储,也可以将不同角度下获得的第一分析结果混合存储。
在采用不同读取方式对原始数据集进行分析时,可以将不同读取方式所获得的第一分析结果分区储存,也可以将不同读取方式所获得的第一分析结果混合存储。
本申请实施例中,通过获取第一信息,第一信息包括用于指示原始数据集来源的数据源信息,并基于数据源信息获取原始数据集,对原始数据集进行分析,获得第一分析结果。且基于第一信息和第一分析结果,获得目标数据集,目标数据集包括用于描述所述原始数据集的信息。这样,可将微服务所需信息都集中整合在目标数据集里,在机器学习的训练过程中,某个微服务获取某个信息时,无需通过至少一个业务接口将该信息层层传递至该微服务,可以直接从目标数据集中获取所需信息;另外,通过将微服务所需信息都集中整合在目标数据集里,只需要对原始数据集执行一次分析,便可以实现对多个微服务的支持。本申请提供的技术方案既可以有效减少接口服务,使得各个微服务获取信息更高效,又可以减少对原始数据集的分析处理次数,本发明方案较大程度地提高了微服务获取数据集中的信息的效率。
为了使各个微服务获取信息更高效,微服务获取数据集中的信息的效率更高,可选地,所述对所述原始数据集进行分析,获得第一分析结果包括:
读取所述原始数据集,对所述原始数据集进行分析,获得第一分析结果;
所述将所述第一分析结果存储于所述第一存储空间,包括:
若读取方式为对所述原始数据集采用全量扫描的方式读取,则将所述第一分析结果存储于第一子存储空间,所述第一存储空间包括所述第一子存储空间;
若读取方式为对所述原始数据集采用抽样扫描的方式读取,则将所述第一分析结果存储于第二子存储空间,所述第一存储空间包括所述第二子存储空间。
具体实现时,上述第一存储空间为在目标存储路径下新建的存储空间。第一子存储空间可以命名为全量(all),第二子存储空间可以命名为抽样(head)。通过划分存储空间以将不同读取方式所获得的第一分析结果存储在不同的存储空间中,这样,在某个微服务获取某个信息时,可直接通过识别名称all、head快速定位到该信息,进一步提高了微服务获取数据集中的信息的效率。
可选地,所述对所述原始数据集进行分析,获得第一分析结果,包括:
若所述原始数据集包括结构化数据,则基于所述结构化数据,获得所述第一分析结果,所述第一分析结果包括所述结构化数据的第一特征信息。
具体实现时,第一特征信息包括中位数、众数、最大值、最小值、列数、行数、极差、标准差、分位数、方差、累计分布函数、经验密度图、正态检验、相关系数、协方差、离散第一分析结果中的至少一项。
若所述原始数据集包括非结构化数据,则基于所述非结构化数据,获得第一分析结果,所述第一分析结果包括所述非结构化数据的第二特征信息。
具体实现时,第二特征信息包括用于存储非结构化数据样本的样本文件的个数。在非结构化数据包括图片的情况下,第二特征信息还包括图片的缩略图。在非结构化数据包括图片的情况下,可以在首次预览图片时,生成图片的缩略图。在非结构化数据包括视频的情况下,视频由多个图片帧组成,第二特征信息还包括多个图片帧的缩略图。
若读取原始数据集的方式为采用全量扫描的方式读取,则可以将第一特征信息和第二特征信息存储于目标数据集的第一存储空间下的第一子存储空间;若读取原始数据集的方式为采用抽样扫描的方式读取,则可以将第一特征信息和第二特征信息存储于目标数据集的第一存储空间下的第二子存储空间,这样,通过将不同读取方式所获得的第一分析结果存储在不同的存储空间中,在某个微服务获取某个信息时,可直接通过不同的存储空间快速定位到该信息,进一步提高了微服务获取数据集中的信息的效率。
若原始数据集包括非结构化数据,可选地,所述第二特征信息还包括标注信息,所述将所述第一分析结果存储于所述第一存储空间,包括:
按预设存储方式将所述标注信息存储于所述第一存储空间。
标注信息为对非结构化数据进行解释说明的信息,如在非结构化数据为图片的情况下,标注信息可以对图片的内容进行解释说明,如解释说明图片的内容为动物或植物,在图片的内容为动物的情况下,进一步解释说明为陆生动物,或水生动物,或两栖动物。通过获取非结构化数据的标注信息,可以在某个微服务获取某个信息时,直接通过不同的标注信息快速定位到该信息,进一步提高了微服务获取数据集中的信息的效率。
其中,所述预设存储方式包括以下至少一项:
基于标注信息的标注类别,将标注信息以及对应的数据文件存在于所述标注类别对应的文件目录中;
基于标注信息以及所述标注信息对应的数据文件名称,存储所述标注信息以及对应的数据文件。
具体实现时,基于标注信息的标注类别,将标注信息以及对应的数据文件存在于所述标注类别对应的文件目录下。例如,标注类别为猫的,将承载其标注信息的标注文件和对应的数据文件存在第一文件夹下,标注类别为狗的,其标注文件和对应的数据文件存在第二文件夹下。
基于标注信息以及所述标注信息对应的数据文件名称,存储所述标注信息以及对应的数据文件在具体实现时包括以下三种方式。方式一:标注文件和数据文件都存储在同一个文件夹中,承载标注信息的标注文件与其对应的数据文件文件名相同;方式二:承载标注信息的标注文件对应一个标注文件夹,数据文件对应一个数据文件夹,即标注文件和数据文件分别存储在不同的文件夹中,其中标注文件夹中的各标注文件的文件名与数据文件夹中的各数据文件的文件名一一对应,即承载标注信息的标注文件与其对应的数据文件文件名相同;方式三:所有的标注信息承载在一个标注文件中,每个标注信息以及其对应的数据文件的文件名生成一条记录。例如数据文件1.png 对应的标注信息是猫,数据文件2.png对应的标注信息是狗,则在标注文件中存储有根据标注信息以及其对应的数据文件的文件名生成的2条记录,具体为:1.png,猫; 2.png,狗。
通过按照不同的预设存储方式存储标注信息,可以在某个微服务获取某个信息时,直接通过不同存储方式下的存储规则快速定位到该信息,进一步提高了微服务获取数据集中的信息的效率。
在托管信息为托管的情况下,可以将获取到的原始数据集存储于目标数据集中。可选地,所述第一信息还包括用于指示是否将所述原始数据集分区存储的分区信息,所述基于所述数据源信息获取原始数据集之后,所述对所述原始数据集进行分析,获得第一分析结果之前,所述方法还包括:
基于所述第一信息,确定是否将所述原始数据集分区存储在所述目标数据集中。
具体实现时,分区信息包括指示信息,指示信息为分区或不分区,用于指示是否将原始数据集分区存储。在指示信息为分区的情况下,将原始数据集进行分区存储;在指示信息为不分区的情况下,将原始数据集整体不分区存储。分区信息还可以包括规则信息,规则信息用于指示将原始数据集如何分区存储。
为了使目标数据集中的内容及时更新,可选地,所述基于所述第一信息和所述第一分析结果,获得目标数据集之后,所述方法还包括:
响应于数据集更新请求,获取所述数据集更新请求中指示的第一数据集;对所述第一数据集进行分析,获得第二分析结果;
基于所述第二分析结果,更新所述目标数据集。
具体实现时,原始数据集可能有新增数据集,和/或数据集中的内容变更,和/或减少数据集的情况发生,因此,可以在满足更新条件时,可基于数据集更新请求获取第一数据集,第一数据集为基于数据源信息获取更新后的原始数据集,更新后的原始数据集包括新增数据集,和/或内容变更后的数据集。示例性的,若原始数据集中有数据集减少,那么第一数据集中不包括减少的数据集。并对更新后的原始数据集即第一数据集重新进行分析,获得第二分析结果,并可用第二分析结果替换第一分析结果,获得更新后的目标数据集。更新条件可以为按预设时间定时更新,或者监控到原始数据集发生变化时触发更新。
通过基于数据源信息获取更新后的原始数据集,并根据更新后的原始数据集进行分析,获得第二分析结果以更新目标数据集,可以使目标数据集中的内容实时更新,这样,在某个微服务获取某个信息时,可以保证微服务获取到的是更新后的准确信息,从而保证了微服务获取数据集中的信息的准确性。
在目标数据集中的原始数据集更新的情况下,可选地,所述第一信息还包括动态指针,所述基于所述第二分析结果,更新所述目标数据集,包括:
在所述目标存储路径下新建第三存储空间;
将所述第二分析结果存储于所述第三存储空间,获得更新后的所述目标数据集;
其中,在所述目标数据集更新的情况下,所述动态指针指向所述第一存储空间的地址;
在所述目标数据集更新完成的情况下,所述动态指针指向所述第三存储空间的地址。
具体实现时,在进行目标数据集更新的时候,无需删除更新前的原有的第一分析结果,在目标数据集更新未完成即正在更新的情况下,动态指针指向原有的第一分析结果所在的第一存储空间,这时,若某个微服务需获取某个信息时,可根据动态指针的指示从第一存储空间获取所需的信息。在目标数据集更新完成的情况下,动态指针指向更新后的第二分析结果所在的第三存储空间,这时,若某个微服务需获取某个信息时,可根据动态指针的指示从第三存储空间获取所需的信息。这样,可以实现无缝切换,并且不会造成回滚错误。本申请实施例提供的方法,可以为每次更新新建一个存储空间,等更新完后切换路径即可完成对目标数据集的动态更新,若出现问题还可以对目标数据集进行回滚。
同理,在目标数据集中的第一信息更新的情况下,同样也可以按上述方式在目标存储路径下新建第四存储空间,在目标数据集更新的情况下,动态指针指向第二存储空间的地址,在目标数据集更新完成的情况下,动态指针指向第四存储空间的地址。
可选地,所述基于所述第一信息和所述第一分析结果,获得目标数据集之后,所述方法还包括:接收超文本传输协议HTTP请求,所述HTTP请求携带统一资源定位符URL;根据所述URL从所述目标数据集中获取目标数据。这样,在某个微服务获取某个信息时,可直接通过URL快速定位到该信息,进一步提高了微服务获取数据集中的信息的效率。
参见图2,本申请实施例还提供一种数据集获得装置200,包括:
第一获取模块201,用于获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息;
第二获取模块202,用于基于所述数据源信息获取原始数据集;
第一确定模块203,用于对所述原始数据集进行分析,获得第一分析结果;
第二确定模块204,用于基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
可选地,所述第一信息包括目标存储路径,所述第二确定模块204包括:
在所述目标存储路径下新建第一存储空间和第二存储空间;
将所述第一分析结果存储于所述第一存储空间,且将所述第一信息存储于所述第二存储空间,获得所述目标数据集。
可选地,所述对所述原始数据集进行分析,获得第一分析结果包括:
读取所述原始数据集,对所述原始数据集进行分析,获得第一分析结果;
所述将所述第一分析结果存储于所述第一存储空间,包括:
若读取方式为对所述原始数据集采用全量扫描的方式读取,则将所述第一分析结果存储于第一子存储空间,所述第一存储空间包括所述第一子存储空间;
若读取方式为对所述原始数据集采用抽样扫描的方式读取,则将所述第一分析结果存储于第二子存储空间,所述第一存储空间包括所述第二子存储空间。
可选地,所述第一确定模块203包括:
若所述原始数据集包括结构化数据,则基于所述结构化数据,获得所述第一分析结果,所述第一分析结果包括所述结构化数据的第一特征信息;
若所述原始数据集包括非结构化数据,则基于所述非结构化数据,获得第一分析结果,所述第一分析结果包括所述非结构化数据的第二特征信息。
可选地,所述第二特征信息包括标注信息,所述将所述第一分析结果存储于所述第一存储空间,包括:
按预设存储方式将所述标注信息存储于所述第一存储空间;
其中,所述预设存储方式包括以下至少一项:
基于标注信息的标注类别,将标注信息以及对应的数据文件存在于所述标注类别对应的文件目录中;
基于标注信息以及所述标注信息对应的数据文件名称,存储所述标注信息以及对应的数据文件。
可选地,所述第一信息还包括用于指示是否将所述原始数据集分区存储的分区信息,所述第二获取模块202之后,所述第一确定模块203之前,所述装置200还包括:
基于所述第一信息,确定是否将所述原始数据集分区存储在所述目标数据集中。
可选地,所述第二确定模块204之后,所述装置200还包括:
响应于数据集更新请求,获取所述数据集更新请求中指示的第一数据集;对所述第一数据集进行分析,获得第二分析结果;
基于所述第二分析结果,更新所述目标数据集。
可选地,所述第一信息还包括动态指针,所述基于所述第二分析结果,更新所述目标数据集,包括:
在所述目标存储路径下新建第三存储空间;
将所述第二分析结果存储于所述第三存储空间,获得更新后的所述目标数据集;
其中,在所述目标数据集更新的情况下,所述动态指针指向所述第一存储空间的地址;
在所述目标数据集更新完成的情况下,所述动态指针指向所述第三存储空间的地址。
可选地,所述第二确定模块204之后,所述装置200还包括:
接收超文本传输协议HTTP请求,所述HTTP请求携带统一资源定位符URL;
根据所述URL从所述目标数据集中获取目标数据。
本申请实施例提供的数据集获得装置200能够实现本申请数据集获得方法实施例中能够实现的各个过程,以及达到相同的有益效果,为避免重复,在此不再赘述。
本申请实施例还提供一种电子设备。如图3所示,电子设备300包括:处理器301、存储器302及存储在所述存储器302上并可在所述处理器上运行的计算机程序,电子设备300中的各个组件通过总线系统303耦合在一起。可理解,总线系统303用于实现这些组件之间的连接通信。
其中,处理器301,用于获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息;
基于所述数据源信息获取原始数据集;
对所述原始数据集进行分析,获得第一分析结果;
基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
可选地,处理器301还用于在所述目标存储路径下新建第一存储空间和第二存储空间;
将所述第一分析结果存储于所述第一存储空间,且将所述第一信息存储于所述第二存储空间,获得所述目标数据集。
可选地,处理器301还用于读取所述原始数据集,对所述原始数据集进行分析,获得第一分析结果;
所述将所述第一分析结果存储于所述第一存储空间,包括:
若读取方式为对所述原始数据集采用全量扫描的方式读取,则将所述第一分析结果存储于第一子存储空间,所述第一存储空间包括所述第一子存储空间;
若读取方式为对所述原始数据集采用抽样扫描的方式读取,则将所述第一分析结果存储于第二子存储空间,所述第一存储空间包括所述第二子存储空间。
可选地,处理器301还用于若所述原始数据集包括结构化数据,则基于所述结构化数据,获得所述第一分析结果,所述第一分析结果包括所述结构化数据的第一特征信息;
若所述原始数据集包括非结构化数据,则基于所述非结构化数据,获得第一分析结果,所述第一分析结果包括所述非结构化数据的第二特征信息。
可选地,处理器301还用于按预设存储方式将所述标注信息存储于所述第一存储空间;
其中,所述预设存储方式包括以下至少一项:
基于标注信息的标注类别,将标注信息以及对应的数据文件存在于所述标注类别对应的文件目录中;
基于标注信息以及所述标注信息对应的数据文件名称,存储所述标注信息以及对应的数据文件。
可选地,处理器301还用于基于所述第一信息,确定是否将所述原始数据集分区存储在所述目标数据集中。
可选地,处理器301还用于响应于数据集更新请求,获取所述数据集更新请求中指示的第一数据集;对所述第一数据集进行分析,获得第二分析结果;
基于所述第二分析结果,更新所述目标数据集。
可选地,处理器301还用于在所述目标存储路径下新建第三存储空间;
将所述第二分析结果存储于所述第三存储空间,获得更新后的所述目标数据集;
其中,在所述目标数据集更新的情况下,所述动态指针指向所述第一存储空间的地址;
在所述目标数据集更新完成的情况下,所述动态指针指向所述第三存储空间的地址。
可选地,处理器301还用于接收超文本传输协议HTTP请求,所述HTTP请求携带统一资源定位符URL;
根据所述URL从所述目标数据集中获取目标数据。
本申请实施例提供的数据集获得装置200能够实现本申请数据集获得方法实施例中能够实现的各个过程,以及达到相同的有益效果,为避免重复,在此不再赘述。
本申请实施例提供的电子设备300能够实现本申请数据集获得方法实施例中能够实现的各个过程,以及达到相同的有益效果,为避免重复,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据集获得方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (11)

1.一种数据集获得方法,其特征在于,包括:
获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息;
基于所述数据源信息获取原始数据集;
对所述原始数据集进行分析,获得第一分析结果;
基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
2.根据权利要求1所述的方法,其特征在于,所述第一信息包括目标存储路径,所述基于所述第一信息和所述第一分析结果,获得目标数据集,包括:
在所述目标存储路径下新建第一存储空间和第二存储空间;
将所述第一分析结果存储于所述第一存储空间,且将所述第一信息存储于所述第二存储空间,获得所述目标数据集。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始数据集进行分析,获得第一分析结果包括:
读取所述原始数据集,对所述原始数据集进行分析,获得第一分析结果;
所述将所述第一分析结果存储于所述第一存储空间,包括:
若读取方式为对所述原始数据集采用全量扫描的方式读取,则将所述第一分析结果存储于第一子存储空间,所述第一存储空间包括所述第一子存储空间;
若读取方式为对所述原始数据集采用抽样扫描的方式读取,则将所述第一分析结果存储于第二子存储空间,所述第一存储空间包括所述第二子存储空间。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述原始数据集进行分析,获得第一分析结果,包括:
若所述原始数据集包括结构化数据,则基于所述结构化数据,获得所述第一分析结果,所述第一分析结果包括所述结构化数据的第一特征信息;
若所述原始数据集包括非结构化数据,则基于所述非结构化数据,获得第一分析结果,所述第一分析结果包括所述非结构化数据的第二特征信息。
5.根据权利要求4所述的方法,其特征在于,所述第二特征信息包括标注信息,所述将所述第一分析结果存储于所述第一存储空间,包括:
按预设存储方式将所述标注信息存储于所述第一存储空间;
其中,所述预设存储方式包括以下至少一项:
基于标注信息的标注类别,将标注信息以及对应的数据文件存在于所述标注类别对应的文件目录中;
基于标注信息以及所述标注信息对应的数据文件名称,存储所述标注信息以及对应的数据文件。
6.根据权利要求1所述的方法,其特征在于,所述第一信息还包括用于指示是否将所述原始数据集分区存储的分区信息,所述基于所述数据源信息获取原始数据集之后,所述对所述原始数据集进行分析,获得第一分析结果之前,所述方法还包括:
基于所述第一信息,确定是否将所述原始数据集分区存储在所述目标数据集中。
7.根据权利要求2所述的方法,其特征在于,所述基于所述第一信息和所述第一分析结果,获得目标数据集之后,所述方法还包括:
响应于数据集更新请求,获取所述数据集更新请求中指示的第一数据集;
对所述第一数据集进行分析,获得第二分析结果;
基于所述第二分析结果,更新所述目标数据集。
8.根据权利要求7所述的方法,其特征在于,所述第一信息还包括动态指针,所述基于所述第二分析结果,更新所述目标数据集,包括:
在所述目标存储路径下新建第三存储空间;
将所述第二分析结果存储于所述第三存储空间,获得更新后的所述目标数据集;
其中,在所述目标数据集更新的情况下,所述动态指针指向所述第一存储空间的地址;
在所述目标数据集更新完成的情况下,所述动态指针指向所述第三存储空间的地址。
9.根据权利要求1所述的方法,其特征在于,所述基于所述第一信息和所述第一分析结果,获得目标数据集之后,所述方法还包括:
接收超文本传输协议HTTP请求,所述HTTP请求携带统一资源定位符URL;
根据所述URL从所述目标数据集中获取目标数据。
10.一种数据集获得装置,其特征在于,包括:
第一获取模块,用于获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息;
第二获取模块,用于基于所述数据源信息获取原始数据集;
第一确定模块,用于对所述原始数据集进行分析,获得第一分析结果;
第二确定模块,用于基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的数据集获得方法中的步骤。
CN202210035840.6A 2022-01-13 2022-01-13 数据集获得方法、装置及电子设备 Pending CN114064576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210035840.6A CN114064576A (zh) 2022-01-13 2022-01-13 数据集获得方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210035840.6A CN114064576A (zh) 2022-01-13 2022-01-13 数据集获得方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114064576A true CN114064576A (zh) 2022-02-18

Family

ID=80231071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210035840.6A Pending CN114064576A (zh) 2022-01-13 2022-01-13 数据集获得方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114064576A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109524070A (zh) * 2018-11-12 2019-03-26 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
US20190095389A1 (en) * 2016-04-20 2019-03-28 Arm Limited An apparatus and method for performing operations on capability metadata
CN110767264A (zh) * 2019-10-15 2020-02-07 腾讯科技(深圳)有限公司 一种数据处理方法、装置和计算机可读存储介质
CN112069368A (zh) * 2020-09-07 2020-12-11 北京航迹科技有限公司 数据存储、调用方法及系统
CN113138771A (zh) * 2020-01-17 2021-07-20 北京达佳互联信息技术有限公司 数据处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095389A1 (en) * 2016-04-20 2019-03-28 Arm Limited An apparatus and method for performing operations on capability metadata
CN109524070A (zh) * 2018-11-12 2019-03-26 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN110767264A (zh) * 2019-10-15 2020-02-07 腾讯科技(深圳)有限公司 一种数据处理方法、装置和计算机可读存储介质
CN113138771A (zh) * 2020-01-17 2021-07-20 北京达佳互联信息技术有限公司 数据处理方法、装置、设备及存储介质
CN112069368A (zh) * 2020-09-07 2020-12-11 北京航迹科技有限公司 数据存储、调用方法及系统

Similar Documents

Publication Publication Date Title
CN112203122B (zh) 基于人工智能的相似视频处理方法、装置及电子设备
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
US9665773B2 (en) Searching for events by attendants
CN114629929B (zh) 一种日志记录方法、装置及系统
CN112307318B (zh) 一种内容发布方法、系统及装置
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
CN108427675B (zh) 构建索引的方法及设备
CN112632419A (zh) 域名预解析配置方法、装置、计算机设备及存储介质
CN110457279B (zh) 数据离线扫描方法、装置、服务器及可读存储介质
CN114064576A (zh) 数据集获得方法、装置及电子设备
CN111563123B (zh) 一种hive仓库元数据实时同步方法
CN113722518A (zh) 基于遥感影像元数据的存储方法、检索方法、设备及介质
CN111241036B (zh) 一种异步io数据处理方法、装置、设备及介质
CN111651531A (zh) 数据导入方法、装置、设备及计算机存储介质
CN113220992A (zh) 一种信息流内容推荐方法、系统及介质
CN113420042A (zh) 基于演示文稿的数据统计方法、装置、设备及存储介质
CN113821166A (zh) 一种聚合多版本小对象的方法、装置及设备
CN113055243B (zh) Dpi接口数据处理方法和装置
CN112612915B (zh) 一种图片标注方法及设备
CN115544994B (zh) 数据推送方法、装置、电子设备以及可读存储介质
CN114490912A (zh) 瓦片数据的下载方法及装置
CN116304232A (zh) 跨模态训练数据生成方法、装置、设备及存储介质
CN117393094A (zh) 一种心血管医学数据的管理系统、方法、设备及介质
CN114093466A (zh) 一种图像定位方法、装置、终端设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination