CN109376419B - 一种数据模型的生成方法、装置、电子设备及可读介质 - Google Patents

一种数据模型的生成方法、装置、电子设备及可读介质 Download PDF

Info

Publication number
CN109376419B
CN109376419B CN201811203748.6A CN201811203748A CN109376419B CN 109376419 B CN109376419 B CN 109376419B CN 201811203748 A CN201811203748 A CN 201811203748A CN 109376419 B CN109376419 B CN 109376419B
Authority
CN
China
Prior art keywords
model training
model
user
algorithm
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811203748.6A
Other languages
English (en)
Other versions
CN109376419A (zh
Inventor
杨科斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811203748.6A priority Critical patent/CN109376419B/zh
Publication of CN109376419A publication Critical patent/CN109376419A/zh
Application granted granted Critical
Publication of CN109376419B publication Critical patent/CN109376419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种数据模型的生成方法、装置、电子设备及可读介质。该方法包括:获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;对所述第一配置文件中所述初选特征进行筛选,得到精选特征;根据所述精选特征进行数据模型的训练,得到数据模型。通过采用本公开所提供的技术方案,可以实现结构化、统一化、简易化的数据模型生成流程。

Description

一种数据模型的生成方法、装置、电子设备及可读介质
技术领域
本公开实施例涉及数据模型生成技术领域,尤其涉及一种数据模型的生成方法、装置、电子设备及可读介质。
背景技术
目前,数据模型生成在很多领域都得到广泛的应用,已经成为数据处理领域的第一大工具。现有技术中,对于数据模型生成需要:数据清洗、特征提取、特征筛选、模型训练、模型测试、部署,六个模块。每个模块都是单独的,如果针对每个任务都重新建立数据模型的话,就会有很多重复的工作,因为都要有相应的六个模块的设计过程,数据模型生成的流程中会有重复的环节。不同的人做的数据模型水平也会不同,导致虽然针对同一任务,每个人所做的数据模型的结果反映出来的效果却不统一。
发明内容
本公开实施例提供一种数据模型的生成方法、装置、电子设备及可读介质,可以实现结构化、统一化、简易化的数据模型生成流程。
第一方面,本公开实施例提供了一种数据模型的生成方法,该方法包括:
获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;
对所述第一配置文件中所述初选特征进行筛选,得到精选特征;
根据所述精选特征进行数据模型的训练,得到数据模型。
进一步的,根据所述精选特征进行数据模型的训练,得到数据模型,包括:
获取用户从第二配置文件待选模型训练算法中选择的模型训练算法;
将所选择的模型训练算法作为执行模型训练算法;
利用所述执行模型训练算法对样本数据根据所述精选特征进行模型训练。
进一步的,获取用户选择的模型训练算法包括获取用户选择两种以上的模型训练算法;
相应的,将所选择的模型训练算法作为执行模型训练算法,包括:
将所选择的两种以上的模型训练算法的组合作为执行模型训练算法。
进一步的,将所选择的两种以上的模型训练算法的组合作为执行模型训练算法,包括:
按照用户预先设置的算法组合,或者,根据所述两种以上的模型训练算法中各种模型训练算法运算结果确定算法组合,来进行模型训练。
进一步的,在根据所述精选特征进行数据模型的训练,得到数据模型之后,所述方法还包括:
获取用户从第三配置文件中选择的模型测试维度;
根据所述模型测试维度与模型测试方法之间的关联关系,确定模型测试方法;
根据所述模型测试方法对得到的数据模型进行测试。
第二方面,本公开实施例还提供了一种数据模型的生成装置,该装置包括:
特征提取模块,用于获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;
特征筛选模块,用于对所述第一配置文件中所述初选特征进行筛选,得到精选特征;
数据模型训练模块,用于根据所述精选特征进行数据模型的训练,得到数据模型。
进一步的,所述数据模型训练模块,包括:
模型训练算法选取单元,用于获取用户从第二配置文件待选模型训练算法中选择的模型训练算法;
执行模型训练算法确定单元,用于将所选择的模型训练算法作为执行模型训练算法;
模型训练单元,用于利用所述执行模型训练算法对样本数据根据所述精选特征进行模型训练。
进一步的,所述模型训练算法选取单元,具体用于获取用户选择的模型训练算法包括获取用户选择两种以上的模型训练算法;
相应的,所述执行模型训练算法确定单元,包括:
算法组合子单元,用于将所选择的两种以上的模型训练算法的组合作为执行模型训练算法。
进一步的,所述算法组合子单元,具体用于:
按照用户预先设置的算法组合,或者,根据所述两种以上的模型训练算法中各种模型训练算法运算结果确定算法组合,来进行模型训练。
进一步的,还包括模型测试模块,具体用于:
获取用户从第三配置文件中选择的模型测试维度;
根据所述模型测试维度与模型测试方法之间的关联关系,确定模型测试方法;
根据所述模型测试方法对得到的数据模型进行测试。
第三方面,本公开实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例所述的数据模型的生成方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例所述的数据模型的生成方法。
本公开实施例所提供的技术方案,通过获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;对所述第一配置文件中所述初选特征进行筛选,得到精选特征;根据所述精选特征进行数据模型的训练,得到数据模型。通过采用本公开所提供的技术方案,可以实现结构化、统一化、简易化的数据模型生成流程。
附图说明
图1是本公开实施例一提供的数据模型的生成方法的流程图;
图2是本公开实施例一提供的数据模型的生成方法的流程图;
图3是本公开实施例一提供的数据模型的生成方法的流程图;
图4是本公开实施例二提供的数据模型的生成装置的结构示意图;
图5是本公开实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。
实施例一
图1是本公开实施例一提供的数据模型的生成方法的流程图,本实施例可适用数据模型的生成情况,该方法可以由本公开实施例所提供的数据模型的生成装置来执行,该装置可以由软件和/或硬件的方式来实现,并可集成于终端或者服务器中。
如图1所示,所述数据模型的生成方法包括:
S110、获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中。
其中,特征字典可以是预先构建的,也可以是临时构建的,还可以从其他的模型训练过程中获取过来。特征字典中装有可供用户选择的所有特征。如一个用户在构建一个数据模型的过程中,可以从特征字典中选择需要的本次模型训练所需要的特征,除此之外,如果特征字典中没有包括用户所需要的特征,那么可以接受用户对特征字典的扩充,这样就可以得到一个相对全面的特征字典。另外,特征字典还可以供不同的用户所使用,可以在一个用户使用或者扩充后的特征字典之后,再将其提供给另一个用户进行使用。这样设置的好处是可以通过提供一个大而全的特征字典,为用户提供更多的特征提取的选择,避免因为用户的能力水平的限制,而无法提取出质量相对较好的特征。这样就可以在模型训练的特征提取过程中实现统一化、简易化的数据模型生成流程,即用户只需要通过在特征字典中点击就可以,无需复杂的代码录入操作。
在获取用户在特征字典中所选取的初选特征之后,将所述初选特征写入到第一配置文件中。其中第一配置文件可以是用于对初选特征进行筛选的配置文件,其中可以装有特征的模板代码,当用户选择初选特征之后,可以通过将初选特征对应的信息写入到模板代码中,并存储在第一配置文件中。除了以模板代码的形式,还可以以其他任何一种将初选特征写入到第一配置文件的方式。
S120、对所述第一配置文件中所述初选特征进行筛选,得到精选特征。
其中,可以通过对每个初选特征进行统计打分的形式,确定各个初选特征的分数,实现对第一配置文件中所述初选特征进行筛选。在本实施例中,可以将各个初选特征的打分情况展示给用户,由用户选择从初选特征中保留和删除哪些特征,其中保留的特征就是精选特征,进行模型训练所使用的特征。还可以根据打分自动来对初选特征进行筛选,得到精选特征。这样设置的好处是既能够直观的让用户看到初选特征的评分,有利于提高用户对特征提取的能力的提升,又能够自主的为用户删除一些效果较差的特征,从而实现模型训练的过程更加统一化、简易化,而且对于特征提取和特征筛选实现结构化控制各个过程。有利于精简个优化模型训练的流程。
S130、根据所述精选特征进行数据模型的训练,得到数据模型。
其中,可以根据精选特征对数据模型进行训练,得到数据模型。这样相对于现有技术以及相对于不经过特征筛选的模型训练,会使得训练的模型更加准确。这样设置可以避免因为质量不好的特征为训练的模型造成干扰,影响模型的准确性。
本公开实施例所提供的技术方案,通过获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;对所述第一配置文件中所述初选特征进行筛选,得到精选特征;根据所述精选特征进行数据模型的训练,得到数据模型。通过采用本公开所提供的技术方案,可以实现结构化、统一化、简易化的数据模型生成流程。
图2是本公开实施例一提供的数据模型的生成方法的流程图。本技术方案在上述技术方案中的各个可选方案为基础进行具体化。优化为根据所述精选特征进行数据模型的训练,得到数据模型,包括:获取用户从第二配置文件待选模型训练算法中选择的模型训练算法;将所选择的模型训练算法作为执行模型训练算法;利用所述执行模型训练算法对样本数据根据所述精选特征进行模型训练。
如图2所示,所述数据模型的生成方法包括:
S210、获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中。
S220、对所述第一配置文件中所述初选特征进行筛选,得到精选特征。
S230、获取用户从第二配置文件待选模型训练算法中选择的模型训练算法。
其中,第二配置文件可以理解为存储有大量的模型训练算法,可以包括单一的算法,也可以包括组合的算法,如传统的单模型机器学习算法:LR、RF、GBDT以及XGBoost等,混合模型的算法:GBDT+LR、GBDT+FM、XGBoost+LR以及XGBoost+FM等,除此之外还可以包括增量学习算法XGBoost等。用户可以根据自己的需求来选择其中的一个算法或者算法的组合。
S240、将所选择的模型训练算法作为执行模型训练算法。
根据用户选择的模型训练算法,将其导入到第二配置文件的算法执行区域,形成执行模型训练算法。这里的执行算法可以包括一种或者多种算法。具体可以根据用户的使用需求来确定。还可以利用统计分析数据对各个算法在用户所选择的特征的基础上进行评分,为用户的算法的选择提供一种评分向导。这样设置的好处是有助于辅助用户构建更加合理的算法体系,得到的数据模型的准确性更高。
S250、利用所述执行模型训练算法对样本数据根据所述精选特征进行模型训练。
利用第二配置文件中所确定的执行模型训练算法对样本数据在精选特征上进行模型训练。
本技术方案这样设置的好处是在精选特征的基础上,为用户提供可选择的算法库,而且简化了用户对算法的使用流程,无需重复的对各个算法进行重新编码,提高用户的使用体验。
值得说明的是,在本技术方案中,在用户选择相应的算法后,可以对算法中的一个或者多个参数进行调节,以使得到的数据模型更加符合用户的使用标准,本技术方案在上述技术方案的基础上,提供了灵活的算法选择机制,能够让算法的选择更加简洁,而且还可以缩小用户因为个人水平或者工作经验选择算法对模型训练的结果所形成的差距。
在上述各技术方案的基础上,可选的,获取用户选择的模型训练算法包括获取用户选择两种以上的模型训练算法;相应的,将所选择的模型训练算法作为执行模型训练算法,包括:将所选择的两种以上的模型训练算法的组合作为执行模型训练算法。其中,除了可以获取用户选择的模型训练算法只有一种的情形,还可以包括模型训练算法存在两种以上的情形。当用户选择的是两种以上的模型训练算法的情形,则将所选择的两种以上的模型训练算法的组合作为执行模型训练算法。这样设置的好处是可以为用户提供多模型训练算法对模型进行训练的选择,使训练得到的模型更加符合用户的需求,避免了采用单一算法这种过于单一的模型训练方式对模型训练结果造成的局限性。
在上述各技术方案的基础上,可选的,将所选择的两种以上的模型训练算法的组合作为执行模型训练算法,包括:按照用户预先设置的算法组合,或者,根据所述两种以上的模型训练算法中各种模型训练算法运算结果确定算法组合,来进行模型训练。其中,可以根据用户的选择将任意两种或者多种算法进行组合,还可以按照各个算法的单独训练的结果,效果的好坏进行排序,将效果较好的两种或者多种算法进行组合,从而提高模型训练的效果。这样设置的好处是既可以根据用户的选择来确定算法的组合形式,还可以根据各个算法自身的训练结果来为用户提供算法组合形式,可以满足对算法的选择水平高低不同的用户的需求,还可以保证模型训练效果,使得模型训练的流程更加简易化。
图3是本公开实施例一提供的数据模型的生成方法的流程图。本技术方案在上述技术方案中的各个可选方案为基础进行具体化。优化为在根据所述精选特征进行数据模型的训练,得到数据模型之后,所述方法还包括:获取用户从第三配置文件中选择的模型测试维度;根据所述模型测试维度与模型测试方法之间的关联关系,确定模型测试方法;根据所述模型测试方法对得到的数据模型进行测试。
如图3所示,所述数据模型的生成方法包括:
S310、获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中。
S320、对所述第一配置文件中所述初选特征进行筛选,得到精选特征。
S330、根据所述精选特征进行数据模型的训练,得到数据模型。
S340、获取用户从第三配置文件中选择的模型测试维度。
其中第三配置文件中可以提供可供用户选择的模型测试维度。具体的,可以是时间维度,例如按照某一种时间切分方式切分测试子集,还可以是特征维度,例如对某一个或者多个特征对测试集划分成多个测试子集。可以在用户选择时,提供推荐的选择维度以及切分方式。
S350、根据所述模型测试维度与模型测试方法之间的关联关系,确定模型测试方法。
其中,第三配置文件可以包含与测试维度对应的测试算法,在本技术方案中,可以把测试维度与测试算法之间建立关联关系,这样可以使得采用测试算法得到的测试结果更加符合当前测试维度的测试结果。避免都采用统一的测试算法会影响测试结果的代表性。
S360、根据所述模型测试方法对得到的数据模型进行测试。
在确定模型测试算法之后,可以按照确定的模型测试算法来对数据模型进行测试,如果测试符合标准后,则可以对模型进行部署上线。
本技术方案在上述各技术方案的基础上,提供了灵活切分测试集的方式,按时间分割可以实现做跨期测试,按重要特征分割可以查看特征的显著性。为用户在模型训练过程中,简化模型测试过程中的代码编写,使模型训练模块化,提高用户的模型训练的使用体验。
实施例二
图4是本公开实施例二提供的数据模型的生成装置的结构示意图。如图4所示,所述数据模型的生成装置,包括:
特征提取模块410,用于获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;
特征筛选模块420,用于对所述第一配置文件中所述初选特征进行筛选,得到精选特征;
数据模型训练模块430,用于根据所述精选特征进行数据模型的训练,得到数据模型。
本公开实施例所提供的技术方案,通过获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;对所述第一配置文件中所述初选特征进行筛选,得到精选特征;根据所述精选特征进行数据模型的训练,得到数据模型。通过采用本公开所提供的技术方案,可以实现结构化、统一化、简易化的数据模型生成流程。
在上述各实施例的基础上,可选的,所述数据模型训练模块430,包括:
模型训练算法选取单元,用于获取用户从第二配置文件待选模型训练算法中选择的模型训练算法;
执行模型训练算法确定单元,用于将所选择的模型训练算法作为执行模型训练算法;
模型训练单元,用于利用所述执行模型训练算法对样本数据根据所述精选特征进行模型训练。
在上述各实施例的基础上,可选的,所述模型训练算法选取单元,具体用于获取用户选择的模型训练算法包括获取用户选择两种以上的模型训练算法;
相应的,所述执行模型训练算法确定单元,包括:
算法组合子单元,用于将所选择的两种以上的模型训练算法的组合作为执行模型训练算法。
在上述各实施例的基础上,可选的,所述算法组合子单元,具体用于:
按照用户预先设置的算法组合,或者,根据所述两种以上的模型训练算法中各种模型训练算法运算结果确定算法组合,来进行模型训练。
在上述各实施例的基础上,可选的,还包括模型测试模块,具体用于:
获取用户从第三配置文件中选择的模型测试维度;
根据所述模型测试维度与模型测试方法之间的关联关系,确定模型测试方法;
根据所述模型测试方法对得到的数据模型进行测试。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例三
图5是本公开实施例三提供的一种电子设备的结构示意图。下面参考图5,其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载电子设备(例如车载导航电子设备)等等的电子设备以及诸如数字TV、台式计算机等等的固定电子设备。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;对所述第一配置文件中所述初选特征进行筛选,得到精选特征;根据所述精选特征进行数据模型的训练,得到数据模型。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中;对所述第一配置文件中所述初选特征进行筛选,得到精选特征;根据所述精选特征进行数据模型的训练,得到数据模型。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块、单元的名称在某种情况下并不构成对该模块、单元本身的限定。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种数据模型的生成方法,其特征在于,包括:
获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中,所述特征字典包括供用户选择的所有特征,所述特征字典可扩充,供不同的用户使用;
基于分数对所述第一配置文件中所述初选特征进行筛选,得到精选特征;
根据所述精选特征进行数据模型的训练,得到数据模型;
根据所述精选特征进行数据模型的训练,得到数据模型,包括:
获取用户从第二配置文件待选模型训练算法中选择的模型训练算法;
将所选择的模型训练算法作为执行模型训练算法;
利用所述执行模型训练算法对样本数据根据所述精选特征进行模型训练;
在所述获取用户从第二配置文件待选模型训练算法中选择的模型训练算法之前,还包括:
通过统计分析数据,对所述第二配置文件待选模型训练算法在所述初选特征的基础上进行评分,以根据所述评分为用户从第二配置文件待选模型训练算法中选择模型训练算法提供评分向导。
2.根据权利要求1所述的方法,其特征在于,获取用户选择的模型训练算法包括获取用户选择两种以上的模型训练算法;
相应的,将所选择的模型训练算法作为执行模型训练算法,包括:
将所选择的两种以上的模型训练算法的组合作为执行模型训练算法。
3.根据权利要求2所述的方法,其特征在于,将所选择的两种以上的模型训练算法的组合作为执行模型训练算法,包括:
按照用户预先设置的算法组合,或者,根据所述两种以上的模型训练算法中各种模型训练算法运算结果确定算法组合,来进行模型训练。
4.根据权利要求1所述的方法,其特征在于,在根据所述精选特征进行数据模型的训练,得到数据模型之后,所述方法还包括:
获取用户从第三配置文件中选择的模型测试维度;
根据所述模型测试维度与模型测试方法之间的关联关系,确定模型测试方法;
根据所述模型测试方法对得到的数据模型进行测试。
5.一种数据模型的生成装置,其特征在于,包括:
特征提取模块,用于获取用户在特征字典中所选取的初选特征,并将所述初选特征写入到第一配置文件中,所述特征字典包括供用户选择的所有特征,所述特征字典可扩充,供不同的用户使用;
特征筛选模块,用于基于分数对所述第一配置文件中所述初选特征进行筛选,得到精选特征;
数据模型训练模块,用于根据所述精选特征进行数据模型的训练,得到数据模型;
所述数据模型训练模块,包括:
模型训练算法选取单元,用于获取用户从第二配置文件待选模型训练算法中选择的模型训练算法;
执行模型训练算法确定单元,用于将所选择的模型训练算法作为执行模型训练算法;
模型训练单元,用于利用所述执行模型训练算法对样本数据根据所述精选特征进行模型训练;
在所述获取用户从第二配置文件待选模型训练算法中选择的模型训练算法之前,所述数据模型的生成装置,还用于:
通过统计分析数据,对所述第二配置文件待选模型训练算法在所述初选特征的基础上进行评分,以根据所述评分为用户从第二配置文件待选模型训练算法中选择模型训练算法提供评分向导。
6.根据权利要求5所述的装置,其特征在于,所述模型训练算法选取单元,具体用于获取用户选择的模型训练算法包括获取用户选择两种以上的模型训练算法;
相应的,所述执行模型训练算法确定单元,包括:
算法组合子单元,用于将所选择的两种以上的模型训练算法的组合作为执行模型训练算法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的数据模型的生成方法。
8.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的数据模型的生成方法。
CN201811203748.6A 2018-10-16 2018-10-16 一种数据模型的生成方法、装置、电子设备及可读介质 Active CN109376419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811203748.6A CN109376419B (zh) 2018-10-16 2018-10-16 一种数据模型的生成方法、装置、电子设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811203748.6A CN109376419B (zh) 2018-10-16 2018-10-16 一种数据模型的生成方法、装置、电子设备及可读介质

Publications (2)

Publication Number Publication Date
CN109376419A CN109376419A (zh) 2019-02-22
CN109376419B true CN109376419B (zh) 2023-12-22

Family

ID=65400574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811203748.6A Active CN109376419B (zh) 2018-10-16 2018-10-16 一种数据模型的生成方法、装置、电子设备及可读介质

Country Status (1)

Country Link
CN (1) CN109376419B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471857B (zh) * 2019-08-22 2023-07-25 中国工商银行股份有限公司 人工智能模型性能容量的自动测试方法及装置
WO2021051917A1 (zh) * 2019-09-16 2021-03-25 华为技术有限公司 人工智能ai模型的评估方法、系统及设备
CN110728371A (zh) * 2019-09-17 2020-01-24 第四范式(北京)技术有限公司 用于执行自动机器学习方案的系统、方法及电子设备
CN113496236B (zh) * 2020-03-20 2024-05-24 北京沃东天骏信息技术有限公司 用户标签信息确定方法、装置、设备和存储介质
CN111950738B (zh) * 2020-08-10 2023-09-15 中国平安人寿保险股份有限公司 机器学习模型优化效果评估方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020733A (zh) * 2012-11-27 2013-04-03 南京航空航天大学 一种基于权重的机场单航班噪声预测方法及其系统
CN106845717A (zh) * 2017-01-24 2017-06-13 哈尔滨工业大学 一种基于多模型融合策略的能源效率评价方法
CN107743249A (zh) * 2017-11-27 2018-02-27 四川长虹电器股份有限公司 一种基于模型融合的ctr预估方法
CN108009643A (zh) * 2017-12-15 2018-05-08 清华大学 一种机器学习算法自动选择方法和系统
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458154B2 (en) * 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
WO2016059493A1 (en) * 2014-10-13 2016-04-21 Koninklijke Philips N.V. Classification of a health state of tissue of interest based on longitudinal features

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020733A (zh) * 2012-11-27 2013-04-03 南京航空航天大学 一种基于权重的机场单航班噪声预测方法及其系统
CN106845717A (zh) * 2017-01-24 2017-06-13 哈尔滨工业大学 一种基于多模型融合策略的能源效率评价方法
CN107743249A (zh) * 2017-11-27 2018-02-27 四川长虹电器股份有限公司 一种基于模型融合的ctr预估方法
CN108009643A (zh) * 2017-12-15 2018-05-08 清华大学 一种机器学习算法自动选择方法和系统
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于意见挖掘的城市形象网络监测系统初探;李纲;陈婧;程明结;寇广增;;现代图书情报技术(第02期);全文 *
基于改进KSVD和极限学习机的车型识别方法研究;张利平;邵宗凯;吴建德;;计算机与数字工程(第06期);全文 *
简体中文垃圾邮件分类的实验设计及对比研究;李维杰;徐勇;;计算机工程与应用(第25期);全文 *

Also Published As

Publication number Publication date
CN109376419A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN109376419B (zh) 一种数据模型的生成方法、装置、电子设备及可读介质
CN110399933B (zh) 数据标注修正方法、装置、计算机可读介质及电子设备
CN112395188B (zh) 一种面向测试的软件项目开发方法、装置、电子设备及存储介质
CN109491646B (zh) 一种消息录入方法、装置、电子设备及可读介质
CN111738316B (zh) 零样本学习的图像分类方法、装置及电子设备
CN112306447A (zh) 一种界面导航方法、装置、终端和存储介质
CN110069997B (zh) 场景分类方法、装置及电子设备
CN110555861A (zh) 光流计算方法、装置及电子设备
CN112380883B (zh) 模型训练方法、机器翻译方法、装置、设备及存储介质
CN112734631A (zh) 基于微调模型的视频图像换脸方法、装置、设备及介质
CN110335237B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
CN116072108A (zh) 模型生成方法、语音识别方法、装置、介质及设备
CN111832354A (zh) 目标对象年龄识别方法、装置及电子设备
CN112669816B (zh) 模型的训练方法、语音识别方法、装置、介质及设备
CN116092092A (zh) 匹配方法、装置、介质及电子设备
CN111738415B (zh) 模型同步更新方法、装置及电子设备
CN111754984B (zh) 文本选取的方法、装置、设备和计算机可读介质
CN114185805A (zh) 一种埋点验证方法、装置、设备及存储介质
CN111143346B (zh) 标签组的差异性确定方法、装置、电子设备及可读介质
CN113849416A (zh) 测试方法、装置、存储介质及电子设备
CN116580701B (zh) 告警音频识别方法、装置、电子设备和计算机介质
CN112328340B (zh) 模型流程显示方法,装置,电子设备及存储介质
CN116467178B (zh) 数据库检测方法、装置、电子设备和计算机可读介质
CN109492695B (zh) 数据建模的样本处理方法、装置、电子设备及可读介质
CN113033680B (zh) 视频分类方法、装置、可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant