CN107092671B - 一种元信息管理的方法及设备 - Google Patents

一种元信息管理的方法及设备 Download PDF

Info

Publication number
CN107092671B
CN107092671B CN201710240996.7A CN201710240996A CN107092671B CN 107092671 B CN107092671 B CN 107092671B CN 201710240996 A CN201710240996 A CN 201710240996A CN 107092671 B CN107092671 B CN 107092671B
Authority
CN
China
Prior art keywords
meta
data
information
original data
meta information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710240996.7A
Other languages
English (en)
Other versions
CN107092671A (zh
Inventor
陆天明
杨俊�
刘圣
尹迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transwarp Technology Shanghai Co Ltd
Original Assignee
Xinghuan Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinghuan Information Technology (shanghai) Co Ltd filed Critical Xinghuan Information Technology (shanghai) Co Ltd
Priority to CN201710240996.7A priority Critical patent/CN107092671B/zh
Publication of CN107092671A publication Critical patent/CN107092671A/zh
Application granted granted Critical
Publication of CN107092671B publication Critical patent/CN107092671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

本申请的目的是提供一种元信息管理的方法及设备,本申请通过基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集;从而实现原始数据与元信息的静态绑定,避免了在每个数据挖掘操作都要设置元信息的麻烦,且一份数据只能有一种对应的元信息,无法随意设置,加强了限制和检查,降低了用户操作不当导致错误的可能性。

Description

一种元信息管理的方法及设备
技术领域
本申请涉及计算机领域,尤其涉及一种元信息管理的方法及设备。
背景技术
随着大数据以及数据挖掘技术的蓬勃发展,越来越多的数据挖掘系统和算法不断涌现。使用数据挖掘技术,可以更好地预测用户的行为,提升产品的质量。但是对于许多想要使用数据挖掘的传统企业和机构而言,较高的入门门槛成为了应用数据挖掘技术的一大障碍,其中一个问题就是,在通过编程语言实现数据挖掘算法时,不仅仅需要提供用于数据挖掘的原始数据,还需要设置许多额外信息,比如设置元信息,而在传统的数据挖掘系统中,需要在每一个操作中都设置元信息,元信息没有与数据紧紧绑定,导致了许多重复的操作,增加了数据挖掘系统的使用难度,不完备或不正确的元信息导致数据挖掘算法在执行时出现错误,浪费计算资源;同时,对元信息没有限制,用户可以随意设置,易于出错。
申请内容
本申请的一个目的是提供一种元信息管理的方法及设备,解决现有技术中对于每个数据挖掘操作都要设置元信息导致的大量重复操作,用户可随意设置,易于出错的问题。
根据本申请的一个方面,提供了一种元信息管理的方法,该方法包括:
基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;
根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;
通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集。
进一步地,根据所述判断结果获取所述元信息,包括:
若所述判断结果为已存在所述原始数据对应的元信息,则从数据库中读取所述元信息;
若所述判断结果为未存在所述原始数据对应的元信息,则推断所述原始数据对应的元信息。
进一步地,所述推断所述原始数据对应的元信息包括:
根据所述原始数据的类型和名称推断与其对应的元信息。
进一步地,所述将所述元信息与所述原始数据进行绑定存储包括:
将所述元信息存储至所述原始数据所在的数据表对应的数据字典中。
进一步地,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果,包括:
获取预先设定的所述原始数据的必要元信息;
根据所述必要元信息及与所述原始数据绑定存储的元信息对数据的挖掘操作进行验证,得到验证结果。
进一步地,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果之后,包括:
若所述验证结果为验证失败,则重新获取所述原始数据的元信息,并将新获取的元信息与所述原始数据重新存储。
进一步地,将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,包括:
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,通过预设的数据集接口执行所述数据挖掘操作,并更新所述元数据。
根据本申请另一个方面,还提供了一种元信息管理的设备,所述设备包括:
判断装置,用于基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;
存储装置,用于根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;
验证装置,用于通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;
挖掘操作装置,用于将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集。
进一步地,所述存储装置用于:
若所述判断结果为已存在所述原始数据对应的元信息,则从数据库中读取所述元信息;
若所述判断结果为未存在所述原始数据对应的元信息,则推断所述原始数据对应的元信息。
进一步地,所述存储装置用于:
根据所述原始数据的类型和名称推断与其对应的元信息。
进一步地,所述存储装置用于:
将所述元信息存储至所述原始数据所在的数据表对应的数据字典中。
进一步地,所述验证装置用于:
获取预先设定的所述原始数据的必要元信息;
根据所述必要元信息及与所述原始数据绑定存储的元信息对数据的挖掘操作进行验证,得到验证结果。
进一步地,所述设备还包括:
更新装置,用于若所述验证结果为验证失败,则重新获取所述原始数据的元信息,并将新获取的元信息与所述原始数据重新存储。
进一步地,所述挖掘操作装置用于:
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,通过预设的数据集接口执行所述数据挖掘操作,并更新所述元数据。
根据本申请再一个方面,还提供了一种基于计算的设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;
根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;
通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集。
与现有技术相比,本申请通过基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集;从而实现原始数据与元信息的静态绑定,避免了在每个数据挖掘操作都要设置元信息的麻烦,同时,一份原始数据只能有一种对应的元信息,无法随意设置,加强了限制和检查,降低了用户操作不当导致错误的可能性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请的一个方面提供的一种元信息管理的方法示意图;
图2示出本申请中的一实施例的数据和元信息静态绑定的流程示意图;
图3示出根据本申请另一个方面提供的一种元信息管理的设备结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出根据本申请的一个方面提供的一种元信息管理的方法示意图,该方法包括:步骤S11~步骤S14,其中,在步骤S11中,基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;在步骤S12中,根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;在步骤S13中,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;在步骤S14中,将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集;从而实现原始数据与元信息的静态绑定,避免了在每个数据挖掘操作都要设置元信息的麻烦,同时,一份原始数据只能有一种对应的元信息,无法随意设置,加强了限制和检查,降低了用户操作不当导致错误的可能性。
具体地,在步骤S11中,基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;在本申请一实施例中,元信息为除了原始数据以外的数据挖掘必要信息,如原始数据的类型,哪些数据作为训练属性,哪些数据作为标签等,在数据挖掘操作中,元信息可分为两类:角色元信息和类型元信息,其中,角色元信息用于区分原始数据在数据挖掘过程中充当的角色,包括标签、属性及预测等等,类型元信息可包括时间序列、连续值、离散值等类型的元信息,对于不同类型的数据,数据挖掘有不同的处理方式,类型元信息用于帮助数据挖掘过程决定应该如何处理数据。将原始数据与元信息进行绑定过程中,首先读取原始数据,其中,原始数据可以从数据库载入,也可以直接读取文件,判断原始数据是否已经有元信息保存在数据库中,得到判断结果,以便后续元信息的生成。
具体地,在步骤S12中,根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;在本申请一实施例中,根据判断结果确定获取元信息的方式:直接从数据库读取元信息或推断元信息,将获取生成的元信息与原始数据进行绑定存储,通过将原始数据与元信息的绑定,保证了所有针对原始数据的操作必定知道原始数据对应的元信息,同时,将原始数据保存到数据库时,对应的元信息也将得到保存,从而保证元信息不丢失,从而在整个数据挖掘流程中,元信息会随各类操作传递到下一个操作中,从而避免重复设置元信息。
具体地,在步骤S13中,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;在此,在没有元信息时,数据挖掘操作只能在运行时发现问题,也许操作执行到90%,却发现数据有误,只能放弃执行,进而浪费了计算资源。而在本申请一实施例中,将原始数据作为进行数据挖掘操作的待执行数据,通过验证原始数据对应的元信息,可以在数据操作执行前就通过验证元信息来发现许多类型错误,从而保证了系统的高效。
具体地,在步骤S14中,将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集。在本申请一实施例中,当元信息的验证通过后,便可使用绑定元信息后的数据进行执行数据挖掘操作,生成新的数据集,其中,新的数据集绑定了数据挖掘操作后的数据和元信息,新的数据集可以直接提供后续数据操作使用。
在本申请一实施例中,在步骤S12中,若所述判断结果为已存在所述原始数据对应的元信息,则从数据库中读取所述元信息;若所述判断结果为未存在所述原始数据对应的元信息,则推断所述原始数据对应的元信息。在此,若判断结果为原始数据已有元信息存储在数据库中,则直接读取,若数据库中原始信息还未绑定元信息,则需要推断出元信息,以生成对应的元信息。在此,高维数据通常有几千甚至上万列数据,若一一对其设置元信息,则工作量巨大,因此使用元信息推断,可以通过原始数据推测出其对应的元信息,自动为这些数据绑定元信息,从而降低了工作量。
进一步地,在上述步骤S12中,所述推断所述原始数据对应的元信息包括:根据所述原始数据的类型和名称推断与其对应的元信息。接上述实施例,当读取没有元信息的原始数据时,比如读取原始表、csv文件等,通过数据的类型和名称来判断元信息,例如,原始表中列为int值,则认为对应的元信息的类型为离散变量,若表中列为double值,则为连续变量,如果列名为lable,则元信息的角色为标签。在一实施例中,还可将数据类型为字符串的数据解析成数值,可推断出对应的元信息,如标签定为数值为1则性别为男,数值为2则性别为女,通过获取到的数值,可确定数据对应的元信息是标签为男性还是女性。需要说明的是,在进行元信息推断时还需要自定义元信息,因为通过元信息推断生成的元信息无法保证100%正确,因此需要自定义元信息,而元信息推断虽无法保证100%正确但依旧准确率较高,所以需要自定义的元信息仅有很少一部分,工作量可以接受。
在本申请一实施例中,在步骤S12中,将所述元信息存储至所述原始数据所在的数据表对应的数据字典中。在此,使用一个类DataSet(数据集)同时封装数据和元信息,保存元信息到数据库时,将元信息保存到数据表对应的数据字典中,保存格式选取数据字典,增加了数据的可视性、可管理性及易用性,便于后续读取查询,当然,保存格式可以灵活选择,并不局限于数据字典格式。
在本申请一实施例中,在步骤S13中,获取预先设定的所述原始数据的必要元信息;根据所述必要元信息及与所述原始数据绑定存储的元信息对数据的挖掘操作进行验证,得到验证结果。在此,在数据挖掘操作中,通过生成的元信息进行验证时,判断必要元信息是否缺失或是元信息的类型或角色出现错误,其中,必要元信息是指预先设置的数据挖掘所必要使用的信息,如标签、数据属性。若必要元信息缺失,则需要直接报错,对缺失的部分元信息需要重新生成,然后进行绑定后验证,补全元信息。需要说明的是,数据挖掘操作在没有实际数据而仅有元信息的情况下模拟执行过程,查验是否可以正常执行,因不使用实际数据,所以数据挖掘操作过程比实际执行快很多,通过元信息的验证,提前发现错误,提高系统的效率。
接上述实施例,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果之后,所述包括:步骤S13’,若所述验证结果为验证失败,则重新获取所述原始数据的元信息,并将新获取的元信息与所述原始数据重新存储。在此,若验证元信息时,验证结果为报错,缺失必要元信息,则需要重新从数据库中读取元信息或推断元信息,将缺失的必要元信息与原始数据进行绑定存储,从而避免了在执行数据挖掘操作过程中因缺少必要元信息而出错造成的计算资源浪费。
在本申请一实施例中,在步骤S14中,将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,通过预设的数据集接口执行所述数据挖掘操作,并更新所述元数据。在此,当元信息验证通过后,与元信息绑定的原始数据及元信息构成的数据集供数据挖掘操作执行时使用,所有数据挖掘操作的实现统一使用预设的数据集接口(DataSet接口),从而数据挖掘操作保证证输出正确的元数据信息,同时,元信息随着数据和数据挖掘操作不断更新,供下一步操作使用。
在本申请一实施例中,如图2所示,首先读取原始数据,原始数据可以从数据库中载入,也可以直接读取文件;接着,若对应的原始数据已经有元信息保存在数据库中,则从数据库载入读取,若没有,则推断元信息,从而生成元信息;对读取的原始数据和生成的元信息进行绑定,生成数据集,并持久化存储在数据库中;使用元信息验证数据挖掘操作是否正确,验证通过后方可使用绑定的原始数据来执行,最终生成新的数据集,此数据集绑定了新的数据和元信息,因此可以直接供后续数据挖掘操作使用;通过将数据和元信息的静态绑定,避免了在每个数据挖掘操作都要设置元信息的麻烦,且一份数据只能有一种元信息,无法随意设置,加强了限制和检查,降低了用户操作不当导致错误的可能。
图3示出根据本申请的另一个方面提供的一种元信息管理的设备结构示意图,该设备包括:判断装置11、存储装置12、验证装置13和挖掘操作装置14,其中,判断装置11,用于基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;存储装置12,用于根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;验证装置13,用于通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;挖掘操作装置14,用于将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集;从而实现原始数据与元信息的静态绑定,避免了在每个数据挖掘操作都要设置元信息的麻烦,同时,一份原始数据只能有一种对应的元信息,无法随意设置,加强了限制和检查,降低了用户操作不当导致错误的可能性。
具体地,判断装置11,用于基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;在本申请一实施例中,元信息为除了原始数据以外的数据挖掘必要信息,如原始数据的类型,哪些数据作为训练属性,哪些数据作为标签等,在数据挖掘操作中,元信息可分为两类:角色元信息和类型元信息,其中,角色元信息用于区分原始数据在数据挖掘过程中充当的角色,包括标签、属性及预测等等,类型元信息可包括时间序列、连续值、离散值等类型的元信息,对于不同类型的数据,数据挖掘有不同的处理方式,类型元信息用于帮助数据挖掘过程决定应该如何处理数据。将原始数据与元信息进行绑定过程中,首先读取原始数据,其中,原始数据可以从数据库载入,也可以直接读取文件,判断原始数据是否已经有元信息保存在数据库中,得到判断结果,以便后续元信息的生成。
具体地,存储装置12,用于根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;在本申请一实施例中,根据判断结果确定获取元信息的方式:直接从数据库读取元信息或推断元信息,将获取生成的元信息与原始数据进行绑定存储,通过将原始数据与元信息的绑定,保证了所有针对原始数据的操作必定知道原始数据对应的元信息,同时,将原始数据保存到数据库时,对应的元信息也将得到保存,从而保证元信息不丢失,从而在整个数据挖掘流程中,元信息会随各类操作传递到下一个操作中,从而避免重复设置元信息。
具体地,验证装置13,用于通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;在此,在没有元信息时,数据挖掘操作只能在运行时发现问题,也许操作执行到90%,却发现数据有误,只能放弃执行,进而浪费了计算资源。而在本申请一实施例中,将原始数据作为进行数据挖掘操作的待执行数据,通过验证原始数据对应的元信息,可以在数据操作执行前就通过验证元信息来发现许多类型错误,从而保证了系统的高效。
具体地,挖掘操作装置14,用于将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集。在本申请一实施例中,当元信息的验证通过后,便可使用绑定元信息后的数据进行执行数据挖掘操作,生成新的数据集,其中,新的数据集绑定了数据挖掘操作后的数据和元信息,新的数据集可以直接提供后续数据操作使用。
在本申请一实施例中,存储装置12,用于若所述判断结果为已存在所述原始数据对应的元信息,则从数据库中读取所述元信息;若所述判断结果为未存在所述原始数据对应的元信息,则推断所述原始数据对应的元信息。在此,若判断结果为原始数据已有元信息存储在数据库中,则直接读取,若数据库中原始信息还未绑定元信息,则需要推断出元信息,以生成对应的元信息。在此,高维数据通常有几千甚至上万列数据,若一一对其设置元信息,则工作量巨大,因此使用元信息推断,可以通过原始数据推测出其对应的元信息,自动为这些数据绑定元信息,从而降低了工作量。
进一步地,存储装置12,用于根据所述原始数据的类型和名称推断与其对应的元信息。接上述实施例,当读取没有元信息的原始数据时,比如读取原始表、csv文件等,通过数据的类型和名称来判断元信息,例如,原始表中列为int值,则认为对应的元信息的类型为离散变量,若表中列为double值,则为连续变量,如果列名为lable,则元信息的角色为标签。在一实施例中,还可将数据类型为字符串的数据解析成数值,可推断出对应的元信息,如标签定为数值为1则性别为男,数值为2则性别为女,通过获取到的数值,可确定数据对应的元信息是标签为男性还是女性。需要说明的是,在进行元信息推断时还需要自定义元信息,因为通过元信息推断生成的元信息无法保证100%正确,因此需要自定义元信息,而元信息推断虽无法保证100%正确但依旧准确率较高,所以需要自定义的元信息仅有很少一部分,工作量可以接受。
在本申请一实施例中,存储装置12,用于将所述元信息存储至所述原始数据所在的数据表对应的数据字典中。在此,使用一个类DataSet(数据集)同时封装数据和元信息,保存元信息到数据库时,将元信息保存到数据表对应的数据字典中,保存格式选取数据字典,增加了数据的可视性、可管理性及易用性,便于后续读取查询,当然,保存格式可以灵活选择,并不局限于数据字典格式。
在本申请一实施例中,验证装置13,用于获取预先设定的所述原始数据的必要元信息;根据所述必要元信息及与所述原始数据绑定存储的元信息对数据的挖掘操作进行验证,得到验证结果。在此,在数据挖掘操作中,通过生成的元信息进行验证时,判断必要元信息是否缺失或是元信息的类型或角色出现错误,其中,必要元信息是指预先设置的数据挖掘所必要使用的信息,如标签、数据属性。若必要元信息缺失,则需要直接报错,对缺失的部分元信息需要重新生成,然后进行绑定后验证,补全元信息。需要说明的是,数据挖掘操作在没有实际数据而仅有元信息的情况下模拟执行过程,查验是否可以正常执行,因不使用实际数据,所以数据挖掘操作过程比实际执行快很多,通过元信息的验证,提前发现错误,提高系统的效率。
接上述实施例,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果之后,所述包括:更新装置13’,用于若所述验证结果为验证失败,则重新获取所述原始数据的元信息,并将新获取的元信息与所述原始数据重新存储。在此,若验证元信息时,验证结果为报错,缺失必要元信息,则需要重新从数据库中读取元信息或推断元信息,将缺失的必要元信息与原始数据进行绑定存储,从而避免了在执行数据挖掘操作过程中因缺少必要元信息而出错造成的计算资源浪费。
在本申请一实施例中,挖掘操作装置14,用于将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,通过预设的数据集接口执行所述数据挖掘操作,并更新所述元数据。在此,当元信息验证通过后,与元信息绑定的原始数据及元信息构成的数据集供数据挖掘操作执行时使用,所有数据挖掘操作的实现统一使用预设的数据集接口(DataSet接口),从而数据挖掘操作保证证输出正确的元数据信息,同时,元信息随着数据和数据挖掘操作不断更新,供下一步操作使用。
在本申请一实施例中,如图2所示,首先读取原始数据,原始数据可以从数据库中载入,也可以直接读取文件;接着,若对应的原始数据已经有元信息保存在数据库中,则从数据库载入读取,若没有,则推断元信息,从而生成元信息;对读取的原始数据和生成的元信息进行绑定,生成数据集,并持久化存储在数据库中;使用元信息验证数据挖掘操作是否正确,验证通过后方可使用绑定的原始数据来执行,最终生成新的数据集,此数据集绑定了新的数据和元信息,因此可以直接供后续数据挖掘操作使用;通过将数据和元信息的静态绑定,避免了在每个数据挖掘操作都要设置元信息的麻烦,且一份数据只能有一种元信息,无法随意设置,加强了限制和检查,降低了用户操作不当导致错误的可能。
根据本申请再一个方面,还提供了一种基于计算的设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (13)

1.一种元信息管理的方法,其中,所述方法包括:
基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;
根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;
通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集;
其中,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果,包括:
获取预先设定的所述原始数据的必要元信息;
根据所述必要元信息及与所述原始数据绑定存储的元信息对数据的挖掘操作进行验证,得到验证结果。
2.根据权利要求1所述的方法,其中,根据所述判断结果获取所述元信息,包括:
若所述判断结果为已存在所述原始数据对应的元信息,则从数据库中读取所述元信息;
若所述判断结果为未存在所述原始数据对应的元信息,则推断所述原始数据对应的元信息。
3.根据权利要求2所述的方法,其中,所述推断所述原始数据对应的元信息包括:
根据所述原始数据的类型和名称推断与其对应的元信息。
4.根据权利要求1所述的方法,其中,所述将所述元信息与所述原始数据进行绑定存储包括:
将所述元信息存储至所述原始数据所在的数据表对应的数据字典中。
5.根据权利要求1所述的方法,其中,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果之后,包括:
若所述验证结果为验证失败,则重新获取所述原始数据的元信息,并将新获取的元信息与所述原始数据重新存储。
6.根据权利要求1所述的方法,其中,将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,包括:
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,通过预设的数据集接口执行所述数据挖掘操作,并更新所述元信息。
7.一种元信息管理的设备,其中,所述设备包括:
判断装置,用于基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;
存储装置,用于根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;
验证装置,用于通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;
挖掘操作装置,用于将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集;
其中,所述验证装置用于:
获取预先设定的所述原始数据的必要元信息;
根据所述必要元信息及与所述原始数据绑定存储的元信息对数据的挖掘操作进行验证,得到验证结果。
8.根据权利要求7所述的设备,其中,所述存储装置用于:
若所述判断结果为已存在所述原始数据对应的元信息,则从数据库中读取所述元信息;
若所述判断结果为未存在所述原始数据对应的元信息,则推断所述原始数据对应的元信息。
9.根据权利要求8所述的设备,其中,所述存储装置用于:
根据所述原始数据的类型和名称推断与其对应的元信息。
10.根据权利要求7所述的设备,其中,所述存储装置用于:
将所述元信息存储至所述原始数据所在的数据表对应的数据字典中。
11.根据权利要求7所述的设备,其中,所述设备还包括:
更新装置,用于若所述验证结果为验证失败,则重新获取所述原始数据的元信息,并将新获取的元信息与所述原始数据重新存储。
12.根据权利要求7所述的设备,其中,所述挖掘操作装置用于:
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,通过预设的数据集接口执行所述数据挖掘操作,并更新所述元信息。
13.一种基于计算的设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
基于获取的原始数据判断是否存在所述原始数据对应的元信息,得到判断结果;
根据所述判断结果获取所述元信息,并将所述元信息与所述原始数据进行绑定存储;
通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果;
将与所述验证结果中验证成功的元信息绑定存储的原始数据作为执行数据,执行所述数据挖掘操作,生成数据挖掘操作的结果数据集;
其中,通过所述元信息对以与其绑定存储的原始数据数据作为待执行数据的挖掘操作进行验证,得到验证结果,包括:
获取预先设定的所述原始数据的必要元信息;
根据所述必要元信息及与所述原始数据绑定存储的元信息对数据的挖掘操作进行验证,得到验证结果。
CN201710240996.7A 2017-04-13 2017-04-13 一种元信息管理的方法及设备 Active CN107092671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710240996.7A CN107092671B (zh) 2017-04-13 2017-04-13 一种元信息管理的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710240996.7A CN107092671B (zh) 2017-04-13 2017-04-13 一种元信息管理的方法及设备

Publications (2)

Publication Number Publication Date
CN107092671A CN107092671A (zh) 2017-08-25
CN107092671B true CN107092671B (zh) 2019-12-17

Family

ID=59636840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710240996.7A Active CN107092671B (zh) 2017-04-13 2017-04-13 一种元信息管理的方法及设备

Country Status (1)

Country Link
CN (1) CN107092671B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522312B (zh) * 2018-11-27 2020-07-17 北京锐安科技有限公司 一种数据处理方法、装置、服务器和存储介质
CN111510497A (zh) * 2020-04-17 2020-08-07 上海七牛信息技术有限公司 一种边缘存储的处理方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818341B2 (en) * 2007-03-19 2010-10-19 Microsoft Corporation Using scenario-related information to customize user experiences
US9542421B2 (en) * 2012-01-24 2017-01-10 Google Inc. Sequencing electronic files
US20150339359A1 (en) * 2013-02-06 2015-11-26 Hitachi, Ltd. Computer system, metadata management method, and recording medium
CN103984640B (zh) * 2014-05-14 2017-06-20 华为技术有限公司 实现数据预取方法及装置
CN104573002A (zh) * 2015-01-08 2015-04-29 浪潮通信信息系统有限公司 基于人、事、物分类建档的数据组织模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"关于数据仓库元数据管理系统的研究与建立";陈进;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130315;第13-31页 *
"数据仓库和元数据管理";XMLTea;《https://www.cnblogs.com/xmltea/articles/174767.html》;20050615;第1-6页 *

Also Published As

Publication number Publication date
CN107092671A (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
US10977162B2 (en) Real time application error identification and mitigation
US10073683B2 (en) System and method for providing software build violation detection and self-healing
US8832125B2 (en) Extensible event-driven log analysis framework
US20160012082A1 (en) Content-based revision history timelines
WO2019056720A1 (zh) 自动化测试用例管理方法、装置、设备及存储介质
WO2019037418A1 (zh) 代码管理方法、装置、计算机设备和计算机可读存储介质
US10795793B1 (en) Method and system for simulating system failures using domain-specific language constructs
CN112835924A (zh) 实时计算任务处理方法、装置、设备及存储介质
CN107092671B (zh) 一种元信息管理的方法及设备
US10592400B2 (en) System and method for creating variants in a test database during various test stages
CN109284331B (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN110147354B (zh) 批量数据编辑方法、装置、计算机设备及存储介质
CN109542785B (zh) 一种无效bug确定方法和装置
CN110928941B (zh) 一种数据分片抽取方法及装置
CN111522881A (zh) 业务数据处理方法、装置、服务器及存储介质
CN115934040A (zh) 一种需求分析方法、装置、电子设备及存储介质
CN112181951B (zh) 一种异构数据库数据迁移方法、装置及设备
CN115048083A (zh) 组件的可视化方法、装置、存储介质及电子设备
CN114490415A (zh) 业务测试方法、计算机设备、存储介质和计算机程序产品
CN112035367B (zh) 一种大数据平台工作流正确性的校验方法及系统
US11474816B2 (en) Code review using quantitative linguistics
US11914993B1 (en) Example-based synthesis of rules for detecting violations of software coding practices
US20230385056A1 (en) Removing inactive code to facilitate code generation
CN114416886A (zh) 一种确定数据关系的方法、装置、设备及存储介质
CN114418575A (zh) 日志处理方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 200233 11-12 / F, building B, 88 Hongcao Road, Xuhui District, Shanghai

Patentee after: Star link information technology (Shanghai) Co.,Ltd.

Address before: 200233 11-12 / F, building B, 88 Hongcao Road, Xuhui District, Shanghai

Patentee before: TRANSWARP TECHNOLOGY (SHANGHAI) Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and Equipment for Metainformation Management

Effective date of registration: 20230616

Granted publication date: 20191217

Pledgee: Bank of China Limited by Share Ltd. Shanghai Xuhui branch

Pledgor: Star link information technology (Shanghai) Co.,Ltd.

Registration number: Y2023310000252