CN110232130A - 元数据管理谱系生成方法、装置、计算机设备和存储介质 - Google Patents

元数据管理谱系生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110232130A
CN110232130A CN201910419207.5A CN201910419207A CN110232130A CN 110232130 A CN110232130 A CN 110232130A CN 201910419207 A CN201910419207 A CN 201910419207A CN 110232130 A CN110232130 A CN 110232130A
Authority
CN
China
Prior art keywords
sample
test
metadata
training
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910419207.5A
Other languages
English (en)
Other versions
CN110232130B (zh
Inventor
刘利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910419207.5A priority Critical patent/CN110232130B/zh
Publication of CN110232130A publication Critical patent/CN110232130A/zh
Application granted granted Critical
Publication of CN110232130B publication Critical patent/CN110232130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据,提供一种元数据管理谱系生成方法、装置、计算机设备和存储介质,所述方法包括:获取训练样本和测试样本中的样本元数据;将训练样本和测试样本输入已训练的样本转换模型中,输出训练转换样本和测试转换样本,获取训练转换样本和测试转换样本中的转换元数据;将训练转换样本切分为多个子样本,将子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取目标模型中的模型元数据;将测试转换样本输入目标模型中进行测试,输出目标测试结果,获取目标测试结果中的测试元数据;将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系,能够实时了解机器学习的进展情况。

Description

元数据管理谱系生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种元数据管理谱系生成方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术领域的高速发展,在机器学习过程中常常会产生大量的元数据,由于面对的数据量庞大,获取的元数据也并不全面,这些元数据常常需要数据科学家们花费大量时间进行获取。
传统地对于元数据的管理是由数据科学家手动记录机器学习过程中产生的元数据,无法实现自动对元数据进行获取和管理,不能快捷地生成元数据管理谱系,以致于不能实时了解机器学习的进展情况。
发明内容
基于此,有必要针对上述技术问题,提供一种元数据管理谱系生成方法、装置、计算机设备和存储介质,能够实时了解机器学习的进展情况。
一种元数据管理谱系生成方法,所述方法包括:
获取训练样本和测试样本,获取所述训练样本和所述测试样本中的样本元数据;
将所述训练样本和所述测试样本输入已训练的样本转换模型中,输出所述训练样本对应的训练转换样本和所述测试样本对应的测试转换样本,获取所述训练转换样本和所述测试转换样本中的转换元数据;
将所述训练转换样本切分为多个子样本,将所述子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取所述目标模型中的模型元数据;
将所述测试转换样本输入所述目标模型中进行测试,输出目标测试结果,获取所述目标测试结果中的测试元数据;
将所述样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
在其中一个实施例中,所述方法还包括:
获取与所述测试样本对应的预期测试结果;
根据所述预期测试结果和所述目标测试结果生成当前进度信息,将所述当前进度信息进行显示。
在其中一个实施例中,所述方法还包括:
接收与所述目标测试结果对应的结果修正数据;
根据所述结果修正数据调整所述目标模型中的参数,得到更新后的目标模型;
将所述测试转换样本输入所述更新后的目标模型中进行测试,输出更新后的目标测试结果;
根据所述更新后的目标测试结果和所述预期测试结果生成更新进度信息,将所述更新进度信息和所述当前进度信息进行并列显示。
在其中一个实施例中,所述方法还包括:
获取所述训练样本和所述测试样本中的特征信息;
根据所述特征信息确定所述训练样本的训练样本类型,根据所述特征信息确定所述测试样本的测试样本类型;
根据所述训练样本类型调用对应的第一对齐规则,根据所述测试样本类型调用对应的第二对齐规则;
根据所述第一对齐规则对所述训练样本中的各个特征信息进行特征对齐,得到训练转换样本;根据所述第二对齐规则对所述测试样本中的各个特征信息进行特征对齐,得到测试转换样本。
在其中一个实施例中,所述方法还包括:
将所述测试转换样本分为多个子样本,获取与所述子样本对应的目标样本标签;
将所述子样本输入所述目标模型中进行测试,输出测试样本标签;
根据所述目标样本标签和所述测试样本标签生成目标测试结果,获取所述目标测试结果中的测试元数据。
一种元数据管理谱系生成装置,所述装置包括:
样本元数据获取模块,用于获取训练样本和测试样本,获取所述训练样本和所述测试样本中的样本元数据;
转换元数据获取模块,用于将所述训练样本和所述测试样本输入已训练的样本转换模型中,输出所述训练样本对应的训练转换样本和所述测试样本对应的测试转换样本,获取所述训练转换样本和所述测试转换样本中的转换元数据;
模型元数据获取模块,用于将所述训练转换样本切分为多个子样本,将所述子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取所述目标模型中的模型元数据;
测试元数据获取模块,用于将所述测试转换样本输入所述目标模型中进行测试,输出目标测试结果,获取所述目标测试结果中的测试元数据;
谱系生成模块,用于将所述样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
在其中一个实施例中,所述装置还包括:
预期结果获取模块,用于获取与所述测试样本对应的预期测试结果;
当前进度显示模块,用于根据所述预期测试结果和所述目标测试结果生成当前进度信息,将所述当前进度信息进行显示。
在其中一个实施例中,所述装置还包括:
数据获取模块,用于接收与所述目标测试结果对应的结果修正数据;
参数调整模块,用于根据所述结果修正数据调整所述目标模型中的参数,得到更新后的目标模型;
结果输出模快,用于将所述测试转换样本输入所述更新后的目标模型中进行测试,输出更新后的目标测试结果;
进度信息显示模块,用于根据所述更新后的目标测试结果和所述预期测试结果生成更新进度信息,将所述更新进度信息和所述当前进度信息进行并列显示。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
上述元数据管理谱系生成方法、装置、计算机设备和存储介质,服务器获取训练样本和测试样本以用于进行模型的建立以及模型的测试,通过获取训练样本和测试样本中的样本元数据,能够知晓训练样本和测试样本在机器学习过程中对模型建立产生的效果,服务器将训练样本和测试样本输入已训练的样本转换模型中,输出训练转换样本和测试转换样本,训练样本和测试样本进行样本转换以用于更好的对基础模型进行训练得到目标模型,同时服务器将获取测试转换样本和测试转换样本中的转换元数据,转换元数据用于了解训练样本和测试样本进行转换前后的差异,以及通过转换后生成的目标模型的效果。服务器再将训练转换样本切分为多个子样本,同时获取目标模型中的模型元数据,通过模型元数据能够知晓模型中各个参数的具体信息,服务器将测试转换样本输入目标模型中进行测试,输出目标测试结果,并获取目标测试结果中的测试元数据,通过测试元数据能够进一步了解机器学习的当前进展情况,最后将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合生成元数据管理谱系,通过元数据管理谱系中的各项元数据信息能够实时了解机器学习的进展情况。
附图说明
图1为一个实施例中元数据管理谱系生成方法的应用环境图;
图2为一个实施例中元数据管理谱系生成方法的方法流程图;
图3为一个实施例中元数据管理谱系生成方法中进度信息并列显示的方法流程图;
图4为一个实施例中元数据管理谱系生成方法中样本转换的方法流程图;
图5为一个实施例中元数据管理谱系生成方法装置的结构示意图;
图6为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例中所提供的元数据管理谱系生成方法可以应用于如图1所示的应用环境中,服务器120从终端110中获取训练样本和测试样本,并获取训练样本和测试样本中的样本元数据,服务器120将训练样本和测试样本输入已训练的样本转换模型中,输出训练样本对应的训练转换样本和测试样本对应的测试转换样本,服务器120获取训练转换样本和测试转换样本中的转换元数据,服务器120将训练转换样本切分为多个子样本,将子样本输入基础模型中进行训练,直至所有子样本训练完毕,得到目标模型,服务器120获取目标模型中的模型元数据,将测试转换样本输入目标模型中进行测试,输出目标测试结果,获取目标测试结果中的测试元数据,服务器120将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系,将元数据管理谱系在服务器120进行显示或发送至终端110进行显示。
下述实施方式以元数据管理谱系生成方法应用于图1的服务器为例进行说明,但需要说明的是,实际应用中该方法并不仅限应用于上述服务器。
如图2所示,为一个实施例中的元数据管理谱系生成方法的流程图,该方法具体包括以下步骤:
步骤202,获取训练样本和测试样本,获取训练样本和测试样本中的样本元数据。
其中,训练样本是用于进行模型训练的样本,测试样本是用于进行模型测试的样本,通过测试样本对目标模型进行测试能够获取目标模型的目标测试结果。训练样本和测试样本存储至终端或服务器的数据集中,训练样本和测试样本中的样本元数据可由服务器运行捕获实体进行获取,捕获实体是服务器获取训练样本和测试样本中的样本元数据时所运行的代码,服务器通过运行该代码能够准确地获取训练样本和测试样本中的样本元数据。元数据为描述数据的数据,主要描述数据属性的信息,用于支持如指示存储位置、历史数据、资源查找、文件记录等功能。
具体地,样本元数据包括训练样本和测试样本的名称、版本、样本的类型以及指向所属数据集的实际存储位置的URL指针,通过URL指针能够知晓训练样本和测试样本在数据集中的实际存储位置。服务器通过获取训练样本和测试样本中的元数据,能够获取用于模型训练以及模型测试的样本的具体信息,以及该类型样本对于模型训练以及测试的影响,有助于数据科学家们通过该样本元数据了解模型建立的具体情况。
步骤204,将训练样本和测试样本输入已训练的样本转换模型中,输出训练样本对应的训练转换样本和测试样本对应的测试转换样本,获取训练转换样本和测试转换样本中的转换元数据。
其中,样本转换模型是已训练的用于进行样本转换的模型,服务器将训练样本和测试样本输入已训练的样本转换模型中,输出训练转换样本和测试转换样本,并获取训练转换样本和测试转换样本中的转换元数据。样本转换模型进行样本转换时,会对样本进行预处理和特征转换操作,即对样本中的数据信息按照对应的转换规则进行处理。转换元数据是训练样本和测试样本进行预处理和特征转换操作时所获取的数据信息,转换元数据包括但不限于样本进行预处理和特征转换的方法以及预处理和特征转换前后所获取的数据信息。
具体地,当训练样本和测试样本中的各项数据的类型不同时,其数据属性信息也会相应的产生差别。例如,当训练样本为一群成年人的身高体重信息,由于数据的来源不同,因此可能会出现某一部分人群的身高的单位为厘米,某一部分人群的身高单位为米,通过将训练样本输入已训练的样本转换模型中,能够输出进行单位统一后的训练转换样本。可以理解的是,上述举例进行的数据转换仅为单位的转换,但在实际情况中,并不仅限于对于数据的单位进行转换。
步骤206,将训练转换样本切分为多个子样本,将子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取目标模型中的模型元数据。
其中,服务器将训练转换样本切分为多个子样本,子样本用于服务器对基础模型进行训练,得到目标模型。可以理解的是,服务器不将训练转换样本切分为多个子样本,而直接输入基础模型进行训练,会因为样本长度过大而影响模型训练的效率,同时也影响目标模型的效果,因此将训练转换样本切分为多个子样本。
具体地,直至所有子样本训练完毕,得到目标模型,服务器将获取目标模型中的模型元数据。模型元数据包括但不限于模型的名称、超参数、类型、相关的学习算法的名称及其版本。模型元数据为元数据管理谱系中的一部分,通过获取模型元数据能够知晓模型建立过程中的具体情况。
步骤208,将测试转换样本输入目标模型中进行测试,输出目标测试结果,获取目标测试结果中的测试元数据。
具体地,目标模型具有关联的运行实体,运行实体用于运行该目标模型,该运行实体实时跟踪执行,并捕获与目标模型相关联的统计信息。例如,随着时间的推移的训练损失和计算环境,由目标模型产生的测试元数据由测试元数据实体表示。其中,测试元数据保存预测数据的模式以及指向实际序列化预测数据的指针。
步骤210,将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
其中,服务器将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。数据拟合是指将各个类型的元数据进行数据的汇总以及整合,以此进一步生成元数据管理谱系。
本实施例中,服务器通过获取训练样本和测试样本中的样本元数据,以用于了解在机器学习过程使用的样本的具体的数据信息,再将训练样本和测试样本输入已训练的样本转换模型中,输出训练转换样本和测试转换样本,服务器将获取训练转换样本和测试转换样本中的样本元数据,能够了解在机器学习过程中使用的各类型样本所经历的处理过程,以及经过转换后的各类型样本对于机器学习结果的影响,服务器再将训练转换样本切分为多个子样本,将子样本输入基础模型中进行训练,得到目标模型,并获取目标模型中的模型元数据,服务器通过获取模型元数据能够知晓目标模型当前的进度信息,根据当前的进度信息能够了解机器学习的进展情况,服务器再将测试转换样本输入目标模型中进行测试,输出目标测试结果,获取目标测试结果中的测试元数据,通过获取测试元数据知晓目标模型的效果,服务器将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。服务器通过生成的元数据管理谱系能够实时了解机器学习的进展情况。
在一个实施例中,该方法还包括:获取与测试样本对应的预期测试结果;根据预期测试结果和目标测试结果生成当前进度信息,将当前进度信息进行显示。
其中,预期测试结果是测试样本中预先定义的测试结果,测试样本可从终端获取,也可从服务器中获取。例如,当目标模型为动物分类器时,测试样本为小狗的照片时,服务器所预先定义的测试结果为犬类。
具体地,服务器根据预期测试结果和目标测试结果生成当前进度信息,可以理解的是,当前进度信息是指服务器根据目标模型实际的效果和预期所定义的模型的效果的相差值所确定的目标模型的效果进度信息。例如,当服务器所预先定义的测试结果为犬类时,而目标模型的目标测试结果为猫科动物类时,服务器将根据预期测试结果和目标测试结果生成目标模型的当前进度信息。服务器生成当前进度信息后,可将当前进度信息在服务器或者终端上进行显示。
本实施例中,服务器通过获取与测试样本对应的预期测试结果,能够实现与目标测试结果进行实时比对,了解目标模型当前的效果,并根据预期测试结果和目标测试结果生成当前进度信息,将当前进度信息进行显示,能够方便数据科学家们实时直观、清晰地了解机器学习的进展情况。
在一个实施例中,如图3所示,该方法还包括以下步骤:
步骤302,接收与目标测试结果对应的结果修正数据。
其中,服务器将目标测试结果进行在线显示或在终端进行显示时,将获取结果修正数据。结果修正数据是指根据目标测试结果进行修正时所携带的数据,例如,当目标模型的目标测试结果为“猫科动物”时,服务器将获取对目标测试结果的结果修正数据,结果修正数据中携带的数据为“犬类”,根据结果修正数据能够进一步调整目标模型中的参数,使目标模型达到最优效果。
步骤304,根据结果修正数据调整目标模型中的参数,得到更新后的目标模型。
具体地,服务器根据结果修正数据进一步调整目标模型中的参数,直至目标模型对样本的处理能够更加准确。服务器调整的参数为超参数,例如,服务器可调整主成分分析中的主成分个数,K近邻算法的参数K,或者神经网络中的层数和学习速率。
步骤306,将测试转换样本输入更新后的目标模型中进行测试,输出更新后的目标测试结果。
其中,更新后的目标模型是进行超参数调整后的模型,将测试转换样本输入更新后的目标模型中进行测试,输出更新后的目标测试结果,服务器通过对目标模型中超参数的调整,能够实现对目标模型的进一步优化。
步骤308,根据更新后的目标测试结果和预期测试结果生成更新进度信息,将更新进度信息和当前进度信息进行并列显示。
其中,更新进度信息为服务器根据更新后的目标测试结果和预期测试结果重新生成的进度信息,更新进度信息用于展示经过服务器获取结果修正数据后,该目标模型的进展情况,服务器将更新进度信息和当前进度信息进行并列显示能够清晰、直观的展示模型的经过优化后的效果。
具体地,当目标模型进行更新后,服务器将获取更新后的目标模型的模型元数据,并将更新后的模型元数据拼装至更新前的目标模型对应的模型元数据中,该更新后的模型元数据经过数据拟合后,将成为元数据管理谱系中的一部分。
在一个实施例中,如图4所示,该方法还包括以下步骤:
步骤402,获取训练样本和测试样本中的特征信息。
其中,特征信息是指在训练样本和测试样本中所存在的能够表征该样本类型的特征,服务器通过获取训练样本和测试样本中的特征信息能够确定训练样本和测试样本的样本类型。
具体地,特征信息的获取包括特征选择和特征提取,服务器将选取最具有区分性和表达能力的特征。特征的选择可使用样本频率和互信息等算法。样本频率是指在整个样本中,出现某个特征的频率。互信息是指根据特征与类型的共现情况来计算特征与类型的相关度。
步骤404,根据特征信息确定训练样本的训练样本类型,根据特征信息确定测试样本的测试样本类型。
其中,服务器根据特征信息确定训练样本和测试样本的样本类型,根据样本类型能够调用对应的样本对齐规则。
步骤406,根据训练样本类型调用对应的第一对齐规则,根据测试样本类型调用对应的第二对齐规则。
其中,第一对齐规则是用于对训练样本进行样本对齐的规则,第二对齐规则是用于对测试样本进行样本对齐的规则。可以理解的是,第一对齐规则和第二对齐规则可为同一种对齐规则。
步骤408,根据第一对齐规则对训练样本中的各个特征信息进行特征对齐,得到训练转换样本;根据第二对齐规则对测试样本中的各个特征信息进行特征对齐,得到测试转换样本。
具体的,服务器根据第一对齐规则和第二对齐规则将训练样本和测试样本中的各个特征信息进行对齐,得到训练转换样本和测试转换样本。可以理解的是,训练样本和测试样本进行转换的过程为样本的标准化处理过程,由于不同的评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到样本分析的结果,为了消除指标之间的量纲影响,需要进行样本的标准化处理,以解决样本指标之间的可比性,原始样本经过样本标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
其中,服务器获取训练样本和测试样本中的特征信息时,将获取与特征信息关联的元数据以及进行特征信息获取时所采用的方法,服务器将获取训练样本类型和测试样本类型所对应的元数据,并获取训练样本和测试样本进行对齐后的转换样本对应的元数据,上述各类元数据将拼接至转换元数据中,以用于最后生成元数据管理谱系。
本实施例中,服务器获取训练样本和测试样本中的特征信息,根据特征信息能够确定训练样本类型和测试样本类型,通过获取训练样本的类型和测试样本的类型能够确定第一对齐规则和第二对齐规则,不同类型的样本调用不同的对齐规则,实现样本的归一化,服务器根据第一对齐规则和第二对齐规则对训练样本和测试样本进行特征对齐,得到训练转换样本和测试转换样本。通过对样本的标准化处理,能够提升目标模型的效果。
在一个实施例中,该方法还包括:将测试转换样本分为多个子样本,获取与子样本对应的目标样本标签;将子样本输入目标模型中进行测试,输出测试样本标签;根据目标样本标签和测试样本标签生成目标测试结果,获取目标测试结果中的测试元数据。
具体地,子样本用于对目标模型进行测试,输出测试样本标签。目标样本标签为服务器预先定义的标签信息,测试样本标签是将测试转换样本的子样本输入目标模型中进行测试后得到的标签信息,服务器根据目标样本标签和测试样本标签生成目标测试结果,目标测试结果可以为目标模型的错误率、精度和误差等。
本实施例中,服务器通过将测试转换样本分为多个子样本,并获取与子样本对应的目标样本标签,能够与测试样本标签生成目标测试结果,快捷有效地展示目标模型的进展情况,将子样本输入目标模型中进行测试,输出测试样本标签,服务器根据目标样本标签和测试样本标签生成目标测试结果,获取目标测试结果中的测试元数据,能够进一步快捷有效地生成目标测试结果。
如图5所示,为一实施例中的元数据管理谱系生成装置的示意图,该装置包括:
样本元数据获取模块502,用于获取训练样本和测试样本,获取训练样本和测试样本中的样本元数据;
转换元数据获取模块504,用于将训练样本和测试样本输入已训练的样本转换模型中,输出训练样本对应的训练转换样本和测试样本对应的测试转换样本,获取训练转换样本和测试转换样本中的转换元数据;
模型元数据获取模块506,用于将训练转换样本切分为多个子样本,将子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取目标模型中的模型元数据;
测试元数据获取模块508,用于将测试转换样本输入目标模型中进行测试,输出目标测试结果,获取目标测试结果中的测试元数据;
谱系生成模块510,用于将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
关于元数据管理谱系生成装置的具体限定可以参见上文中对于元数据管理谱系生成方法的限定,在此不再赘述。上述元数据管理谱系生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述元数据管理谱系生成装置可以实现为一种计算机程序的形式。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端。当该计算机设备为服务器时,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种元数据管理谱系生成方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器执行程序时实现以下步骤:获取训练样本和测试样本,获取训练样本和测试样本中的样本元数据;将训练样本和测试样本输入已训练的样本转换模型中,输出训练样本对应的训练转换样本和测试样本对应的测试转换样本,获取训练转换样本和测试转换样本中的转换元数据;将训练转换样本切分为多个子样本,将子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取目标模型中的模型元数据;将测试转换样本输入目标模型中进行测试,输出目标测试结果,获取目标测试结果中的测试元数据;将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
在一个实施例中,处理器执行程序时还可以实现以下步骤:获取与测试样本对应的预期测试结果;根据预期测试结果和目标测试结果生成当前进度信息,将当前进度信息进行显示。
在一个实施例中,处理器执行程序时还可以实现以下步骤:接收与目标测试结果对应的结果修正数据;根据结果修正数据调整目标模型中的参数,得到更新后的目标模型;将测试转换样本输入更新后的目标模型中进行测试,输出更新后的目标测试结果;根据更新后的目标测试结果和预期测试结果生成更新进度信息,将更新进度信息和当前进度信息进行并列显示。
在一个实施例中,处理器执行程序时还可以实现以下步骤:获取训练样本和测试样本中的特征信息;根据特征信息确定训练样本的训练样本类型,根据特征信息确定测试样本的测试样本类型;根据训练样本类型调用对应的第一对齐规则,根据测试样本类型调用对应的第二对齐规则;根据第一对齐规则对训练样本中的各个特征信息进行特征对齐,得到训练转换样本;根据第二对齐规则对测试样本中的各个特征信息进行特征对齐,得到测试转换样本。
在一个实施例中,处理器执行程序时还可以实现以下步骤:将测试转换样本分为多个子样本,获取与子样本对应的目标样本标签;将子样本输入目标模型中进行测试,输出测试样本标签;根据目标样本标签和测试样本标签生成目标测试结果,获取目标测试结果中的测试元数据。
上述对于计算机设备的限定可以参见上文中对于元数据管理谱系生成方法的具体限定,在此不再赘述。
请继续参阅图6,还提供一种计算机可读存储介质,其上存储有计算机程序,如图6中所示的非易失性存储介质,其中,该程序被处理器执行时实现以下步骤:获取训练样本和测试样本,获取训练样本和测试样本中的样本元数据;将训练样本和测试样本输入已训练的样本转换模型中,输出训练样本对应的训练转换样本和测试样本对应的测试转换样本,获取训练转换样本和测试转换样本中的转换元数据;将训练转换样本切分为多个子样本,将子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取目标模型中的模型元数据;将测试转换样本输入目标模型中进行测试,输出目标测试结果,获取目标测试结果中的测试元数据;将样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:获取与测试样本对应的预期测试结果;根据预期测试结果和目标测试结果生成当前进度信息,将当前进度信息进行显示。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:接收与目标测试结果对应的结果修正数据;根据结果修正数据调整目标模型中的参数,得到更新后的目标模型;将测试转换样本输入更新后的目标模型中进行测试,输出更新后的目标测试结果;根据更新后的目标测试结果和预期测试结果生成更新进度信息,将更新进度信息和当前进度信息进行并列显示。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:获取训练样本和测试样本中的特征信息;根据特征信息确定训练样本的训练样本类型,根据特征信息确定测试样本的测试样本类型;根据训练样本类型调用对应的第一对齐规则,根据测试样本类型调用对应的第二对齐规则;根据第一对齐规则对训练样本中的各个特征信息进行特征对齐,得到训练转换样本;根据第二对齐规则对测试样本中的各个特征信息进行特征对齐,得到测试转换样本。
在一个实施例中,该程序被处理器执行时还可以实现以下步骤:将测试转换样本分为多个子样本,获取与子样本对应的目标样本标签;将子样本输入目标模型中进行测试,输出测试样本标签;根据目标样本标签和测试样本标签生成目标测试结果,获取目标测试结果中的测试元数据。
上述对于计算机可读存储介质的限定可以参见上文中对于元数据管理谱系生成方法的具体限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种元数据管理谱系生成方法,所述方法包括:
获取训练样本和测试样本,获取所述训练样本和所述测试样本中的样本元数据;
将所述训练样本和所述测试样本输入已训练的样本转换模型中,输出所述训练样本对应的训练转换样本和所述测试样本对应的测试转换样本,获取所述训练转换样本和所述测试转换样本中的转换元数据;
将所述训练转换样本切分为多个子样本,将所述子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取所述目标模型中的模型元数据;
将所述测试转换样本输入所述目标模型中进行测试,输出目标测试结果,获取所述目标测试结果中的测试元数据;
将所述样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系之后,还包括:
获取与所述测试样本对应的预期测试结果;
根据所述预期测试结果和所述目标测试结果生成当前进度信息,将所述当前进度信息进行显示。
3.根据权利要求2所述的方法,其特征在于,所述将所述样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系之后,还包括:
接收与所述目标测试结果对应的结果修正数据;
根据所述结果修正数据调整所述目标模型中的参数,得到更新后的目标模型;
将所述测试转换样本输入所述更新后的目标模型中进行测试,输出更新后的目标测试结果;
根据所述更新后的目标测试结果和所述预期测试结果生成更新进度信息,将所述更新进度信息和所述当前进度信息进行并列显示。
4.根据权利要求1所述的方法,其特征在于,所述将所述训练样本和所述测试样本输入已训练的样本转换模型中,输出所述训练样本对应的训练转换样本和所述测试样本对应的测试转换样本,包括:
获取所述训练样本和所述测试样本中的特征信息;
根据所述特征信息确定所述训练样本的训练样本类型,根据所述特征信息确定所述测试样本的测试样本类型;
根据所述训练样本类型调用对应的第一对齐规则,根据所述测试样本类型调用对应的第二对齐规则;
根据所述第一对齐规则对所述训练样本中的各个特征信息进行特征对齐,得到训练转换样本;根据所述第二对齐规则对所述测试样本中的各个特征信息进行特征对齐,得到测试转换样本。
5.根据权利要求1所述的方法,其特征在于,所述将所述测试转换样本输入所述目标模型中进行测试,输出目标测试结果,获取所述目标测试结果中的测试元数据,包括:
将所述测试转换样本分为多个子样本,获取与所述子样本对应的目标样本标签;
将所述子样本输入所述目标模型中进行测试,输出测试样本标签;
根据所述目标样本标签和所述测试样本标签生成目标测试结果,获取所述目标测试结果中的测试元数据。
6.一种元数据管理谱系生成装置,其特征在于,所述装置包括:
样本元数据获取模块,用于获取训练样本和测试样本,获取所述训练样本和所述测试样本中的样本元数据;
转换元数据获取模块,用于将所述训练样本和所述测试样本输入已训练的样本转换模型中,输出所述训练样本对应的训练转换样本和所述测试样本对应的测试转换样本,获取所述训练转换样本和所述测试转换样本中的转换元数据;
模型元数据获取模块,用于将所述训练转换样本切分为多个子样本,将所述子样本输入基础模型中进行训练;直至所有子样本训练完毕,得到目标模型,获取所述目标模型中的模型元数据;
测试元数据获取模块,用于将所述测试转换样本输入所述目标模型中进行测试,输出目标测试结果,获取所述目标测试结果中的测试元数据;
谱系生成模块,用于将所述样本元数据、转换元数据、模型元数据和测试元数据进行数据拟合,生成元数据管理谱系。
7.根据权利要求6所述的装置,其特征在于,所述谱系生成模块包括:
预期结果获取模块,用于获取与所述测试样本对应的预期测试结果;
当前进度显示模块,用于根据所述预期测试结果和所述目标测试结果生成当前进度信息,将所述当前进度信息进行显示。
8.根据权利要求6所述的装置,其特征在于,所述谱系生成模块还包括:
数据获取模块,用于接收与所述目标测试结果对应的结果修正数据;
参数调整模块,用于根据所述结果修正数据调整所述目标模型中的参数,得到更新后的目标模型;
结果输出模快,用于将所述测试转换样本输入所述更新后的目标模型中进行测试,输出更新后的目标测试结果;
进度信息显示模块,用于根据所述更新后的目标测试结果和所述预期测试结果生成更新进度信息,将所述更新进度信息和所述当前进度信息进行并列显示。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
CN201910419207.5A 2019-05-20 2019-05-20 元数据管理谱系生成方法、装置、计算机设备和存储介质 Active CN110232130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910419207.5A CN110232130B (zh) 2019-05-20 2019-05-20 元数据管理谱系生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910419207.5A CN110232130B (zh) 2019-05-20 2019-05-20 元数据管理谱系生成方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110232130A true CN110232130A (zh) 2019-09-13
CN110232130B CN110232130B (zh) 2024-02-02

Family

ID=67860821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910419207.5A Active CN110232130B (zh) 2019-05-20 2019-05-20 元数据管理谱系生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110232130B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035369A (zh) * 2020-09-03 2020-12-04 中国银行股份有限公司 一种测试样本生成方法和装置
CN112182399A (zh) * 2020-10-16 2021-01-05 中国银联股份有限公司 一种联邦学习的多方安全计算方法及装置
CN116503416A (zh) * 2023-06-29 2023-07-28 深圳市谱汇智能科技有限公司 半导体缺陷标注方法、装置、终端设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464885A (zh) * 2008-12-31 2009-06-24 金蝶软件(中国)有限公司 一种展现产品属性信息的方法及装置
CN104281845A (zh) * 2014-10-29 2015-01-14 中国科学院自动化研究所 基于旋转不变字典学习模型的人脸识别方法
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108280462A (zh) * 2017-12-11 2018-07-13 北京三快在线科技有限公司 一种模型训练方法及装置,电子设备
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464885A (zh) * 2008-12-31 2009-06-24 金蝶软件(中国)有限公司 一种展现产品属性信息的方法及装置
CN104281845A (zh) * 2014-10-29 2015-01-14 中国科学院自动化研究所 基于旋转不变字典学习模型的人脸识别方法
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108280462A (zh) * 2017-12-11 2018-07-13 北京三快在线科技有限公司 一种模型训练方法及装置,电子设备
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨晓慧;万睿;张海滨;曾义夫;刘峤;: "基于符号语义映射的知识图谱表示学习算法", 计算机研究与发展, no. 08 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035369A (zh) * 2020-09-03 2020-12-04 中国银行股份有限公司 一种测试样本生成方法和装置
CN112035369B (zh) * 2020-09-03 2023-10-24 中国银行股份有限公司 一种测试样本生成方法和装置
CN112182399A (zh) * 2020-10-16 2021-01-05 中国银联股份有限公司 一种联邦学习的多方安全计算方法及装置
CN116503416A (zh) * 2023-06-29 2023-07-28 深圳市谱汇智能科技有限公司 半导体缺陷标注方法、装置、终端设备以及存储介质

Also Published As

Publication number Publication date
CN110232130B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US8676731B1 (en) Data extraction confidence attribute with transformations
KR100990777B1 (ko) 디버그 정보 수집 방법 및 디버그 정보 수집 시스템
CN111427802B (zh) 利用集成学习进行测试用例优先级排序的测试方法和系统
CN110232130A (zh) 元数据管理谱系生成方法、装置、计算机设备和存储介质
CN104573000B (zh) 基于排序学习的自动问答装置及方法
CN109582588A (zh) 测试用例生成方法、装置及电子设备
CN103870384B (zh) 测试用例推定方法及系统
CN106803799B (zh) 一种性能测试方法和装置
CN110134582A (zh) 测试用例的处理及数据处理方法及装置
KR20200010624A (ko) 머신러닝을 이용한 빅데이터 통합진단 예측 시스템
CN105868956A (zh) 一种数据处理方法及装置
CN108304317A (zh) 一种基于路径执行频率的单过程程序静态切片方法及系统
CN114722746A (zh) 一种芯片辅助设计方法、装置、设备及可读介质
CN112527676A (zh) 模型自动化测试方法、装置及存储介质
CN113821554B (zh) 一种实现异构数据库数据采集的方法
CN113642209B (zh) 基于数字孪生的结构植入故障响应数据获取及评判方法
CN117235527A (zh) 端到端容器化的大数据模型构建方法、装置、设备及介质
CN110532186A (zh) 利用验证码进行测试的方法、装置、电子设备和存储介质
CN117474613B (zh) 基于人工智能的变电站工作票智能开票数据交互管理系统
CN113377801A (zh) 数据检验方法、装置、电子设备及计算机存储介质
CN117076454B (zh) 一种工程质量验收表单数据结构化存储方法及系统
CN110134373A (zh) 一种函数信息获取的方法以及装置
CN113570333B (zh) 一种适用于集成的流程设计方法
CN110569199B (zh) 账单自动测试方法及装置
Eren et al. PL FSM: An Approach and a Tool for the Application of FSM in SPL Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant