CN112465012A - 机器学习建模方法、装置、电子设备和可读存储介质 - Google Patents
机器学习建模方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN112465012A CN112465012A CN202011343832.5A CN202011343832A CN112465012A CN 112465012 A CN112465012 A CN 112465012A CN 202011343832 A CN202011343832 A CN 202011343832A CN 112465012 A CN112465012 A CN 112465012A
- Authority
- CN
- China
- Prior art keywords
- model
- feature
- meta
- target
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 149
- 238000010801 machine learning Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 124
- 230000008569 process Effects 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013450 outlier detection Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种机器学习建模方法、装置、电子设备和可读存储介质,其中,该方法包括:基于当前数据集构建目标元特征;计算目标元特征与历史数据库中各项元特征的相似度,历史数据库中包括多条特征记录,每一条特征记录包括一项元特征和一组模型实例;根据目标元特征与各项元特征的相似度,从历史数据库中确定出当前数据集的训练流程模型,训练流程模型中包括:预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的一种或多种子模型的实例。能够提高确定用来训练推理模型的机器学习模型的效率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种机器学习建模方法、装置、电子设备和可读存储介质。
背景技术
随着机器学习的发展,越来越多的产业都使用了基于机器学习技术的人工智能。在使用人工智能其中一项重要的工作是针对产业需求训练出具有对应功能的推理模型。在训练推理模型之前,相关技术人员基于目前经验已经可以从各种机器学习的模型筛选出合适的模型。但是,由于目前可用的机器学习中的各个节点可选的子模型较多,确定出能够使用的机器学习流程中所需使用的模型的工作量也相对较大。
发明内容
本申请的目的在于提供一种机器学习建模方法、装置、电子设备和可读存储介质,能够解决目前关于模型选择的工作量较大的问题。
第一方面,本发明提供一种机器学习建模方法,包括:
基于当前数据集构建目标元特征;
计算所述目标元特征与历史数据库中各项元特征的相似度,所述历史数据库中包括多条特征记录,每一条特征记录包括一项元特征和一组模型实例;
根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,所述训练流程模型中包括:预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的一种或多种子模型的实例。
在可选的实施方式中,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
在所述历史数据库中选出第一目标模型集,所述第一目标模型集中的第一指定子模型的实例与目标子模型实例相同;
根据所述第一目标模型集中的各项模型对应的元特征与所述目标元特征的相似度,确定出相似度最高的第一目标元特征;
将所述第一目标元特征对应的训练流程模型作为所述当前数据集的训练流程模型。
在上述实施方式中,在用于对当前数据集训练的整个流程中已经存在部分已知的子模型目标子模型实例时,则可以先从历史数据库中选出部分第一目标模型集,从而可以使选出的训练流程模型不仅满足当前数据集的训练需求,还能够适应已知的目标子模型实例的搭配需求。
在可选的实施方式中,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定相似度大于第一指定值的第一指定数量的训练流程模型;
从所述第一指定数量的训练流程模型中筛选出所有的第二指定子模型的第一模型实例集;
从所述第一模型实例集确定出当前数据集的训练流程模型。
在上述实施方式中,在需要选出第二指定子模型对应的实例时,则可以基于选出的第一模型实例集,筛选出能够适应当前数据集的训练需求的第二指定子模型。
在可选的实施方式中,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
在所述历史数据库中选出第三目标模型集,所述第三目标模型集中的训练子模型的实例与目标训练子模型实例相同;
根据所述目标元特征与所述各项元特征的相似度,从所述第三目标模型集中确定相似度大于第二指定值的第二指定数量的训练流程模型;
从所述第二指定数量的训练流程模型中筛选出所有的模型参数处理子模型的第二模型实例集;
从所述第二模型实例集确定出当前数据集的训练流程模型。
在上述实施方式中,在需要选出模型参数处理子模型的实例时,可以先选出目标训练子模型实例相同的第三目标模型集,从而可以使确定出的训练流程模型能是适合目标训练子模型实例的需求的模型参数处理子模型实例。
在可选的实施方式中,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
从所述历史数据库中确定出,与所述目标元特征相似度最高的目标相似元特征;
将所述目标相似元特征关联的训练流程模型,作为所述当前数据集的训练流程模型。
在上述实施方式中,可以直接将与目标元特征相似度最高的目标相似元特征关联的训练流程模型作为所需的训练流程模型,可以更契合历史训练所使用的模型,也能够更好地满足训练需求。
在可选的实施方式中,所述计算所述目标元特征与历史数据库中各项元特征的相似度,包括:
计算所述目标元特征与所述历史数据库中各项元特征的空间距离,并根据所述空间距离确定所述目标元特征与所述历史数据库中各项元特征的相似度,所述空间距离包括余弦距离或欧式距离中的一种或多种。
在可选的实施方式中,所述基于当前数据集构建目标元特征,包括:
对所述当前数据集进行分析,以得到所述当前数据集中所包含的多项特征数值;
根据所述多项特征数值,确定出所述目标元特征。
在上述实施方式中,通过对当前数据集进行分析,可以将当前数据集所保证的信息解析出来,因此,基于确定出的目标元特征能够更好地表达当前数据集。进一步地,基于目标元特征确定出的训练流程模型能满足当前数据集的训练需求。
第二方面,本发明提供一种机器学习建模装置,包括:
构建模块,用于基于当前数据集构建目标元特征;
计算模块,用于计算所述目标元特征与历史数据库中各项元特征的相似度;
确定模块,用于根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,所述训练流程模型中包括:预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的一种或多种子模型的实例。
第三方面,本发明提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。
本申请实施例的有益效果是:通过对需要训练的数据进行分析,以确定出该需要训练的数据所需的训练流程模型,相对于现有的用户从可用的模型数据库中进行逐一筛选,本申请实施例中的机器学习建模方法能够更快速地确定出所需训练流程模型;进一步地,由于本申请实施例中通过对当前数据集的结构的分析,从而可以使确定出的训练流程模型更符合当前数据集的训练需求。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图;
图2为一个机器学习流程示意图;
图3为本申请实施例提供的机器学习建模方法的流程图;
图4为本申请实施例提供的机器学习建模装置的功能模块示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
机器学习技术是通过对训练数据的挖掘和学习,能够捕捉到训练数据的客观规律,进而依照规律对未知的数据进行判断以辅助决策。目前机器学习技术,可以帮助实现商品销量预测、商品推荐、危险行为检测等动作。随着市场的需求,也促进了机器学习技术被广泛使用。
针对一些以人工智能(Artificial Intelligence,AI)为核心技术的技术人员而言,在长期的AI应用落地过程中,经常需要机器学习建模,在面对新数据时可以准确有效地匹配到合适的建模方法就显得尤为重要。目前,现有的建模方式一般是算法工程师凭记忆复用过去的建模经验,但是这种处理方式效率较低。
因此,发明人了解到如何自动化机器学习(Automatic Machine LEARNING简称:AutoML)建模却是一个难点。基于此,本申请实施例提供一种机器学习建模方法、装置、电子设备和可读存储介质,基于自动化的过程实现机器学习的自动化建模。下面通过几个实施例进行描述。
实施例一
为便于对本实施例进行理解,首先对执行本申请实施例所公开的机器学习建模方法的电子设备进行详细介绍。
如图1所示,是电子设备的方框示意图。电子设备100可以包括存储器111以及处理器113。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
上述的存储器111以及处理器113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述机器学习建模方法的实现过程。
实施例二
首先,先对机器学习流程进行介绍,如图2所示,图2示出了一个机器学习流程示意图。
其中,机器学习流程可以包括:数据预处理、特征工程、模型选择、超参数优化等。
每个节点可以使用对应的算法模型以实现对应的处理工作。
示例性地,在数据预处理节点可以包括以下处理:异常点检测、缺失值处理、类别特征编码、数值特征变换、归一化处理等。例如,类别型缺失值处理可以采用频繁的数据(frequent)填充;类别特征编码采用独热编码(one-hot);数值特征变换采用极小化极大算法(MinMax)编码等。
示例性地,在特征工程节点可以包括以下处理:降维处理、特征选择、新增特征等。例如,降维处理可以使用主成分分析(Principal Component Analysis,PCA)。
示例性地,模型选择节点可以选择对应的训练模型对数据进行分析训练,例如,选出的模型可以包括:决策树模型、随机森林模型、支持向量机模型、极值梯度提升决策树(Extreme Gradient Boosting Decision Tree,简称:XGBoost)模型等。
示例性地,超参数优化节点是用于对第三步选择模型的超参数进行搜索优化后确定的超参数值。例如,对于随机森林模型来说,一组可能的超参数组合是(max_depth=5,max_features=5,split_criterion_type=”gini”)。
在上述的机器学习流程中,训练数据输入数据预处理节点中的算法中,由超参数优化节点确定出超参数组合。
在本申请实施例中,通过机器学习建模方法可以基于训练数据选出用于实现机器学习流程中的一个或多个节点的数据处理的子模型。请参阅图3,是本申请实施例提供的机器学习建模方法的流程图。下面将对图3所示的具体流程进行详细阐述。
步骤201,基于当前数据集构建目标元特征。
本实施例中,基于不同的建模需求,当前数据集的内容也可以不同。
示例性地,若用于构建一个用于纸币真伪识别的原始模型时,当前数据集则可以是多张真纸币图像、和多张伪纸币图像。
示例性地,若用于构建一个用于人脸识别的原始模型时,当前数据集则可以是多张人脸图像和一些干扰图像等。
示例性地,若用于构建一个用于对象分类的原始模型时,当前数据集则可以是多张包含多类对象的图像等,再例如,还可以包括图像的分类标签等。
示例性地,若用于构建一个用于进行消费异常情况检测的原始模型时,当前数据集也可以是结构化数据。该结构化数据可以是针对异常消费的检测数据。例如,该检测数据中可以包括用户信息、历史消费信息、当前消费信息等。
可选地,该步骤201可以包括:对所述当前数据集进行分析,以得到所述当前数据集中所包含的多项特征数值;根据所述多项特征数值,确定出所述目标元特征。
在下表1所示的实例中,多项特征数值可以是当前数据集中所包含的实例数,例如,在表1所示的实例中,该实例数为1000。
在一个实例中,一数据集中所包含的元特征数值可以如下表1所示:
表1
在上述表1所示的实例中,数据集中包括两个类别的实例,分别为类别1和类别2。但是在实际使用的场景不同时,对应的类别的数量也可以不同,例如,需要得到的推理模型是一个多分类模型时,则数据集的实例类别可以是多类。上述表1中仅仅是示例性地,在实际使用时,一数据集中所包含的元特征数值可以包含比表1更多的信息。
步骤202,计算所述目标元特征与历史数据库中各项元特征的相似度。
本实施例中,历史数据库中包括多条特征记录,每一条特征记录包括一项元特征和一组模型实例。
可选地,历史数据库可以是根据历史建模过程中使用的数据进行构建的数据库。其中,历史建模过程中使用的数据可以包括:训练数据、数据预处理所使用的算法、特征处理所使用的算法、训练所使用的模型、模型参数优化所使用的方式等。
示例性地,为了方便对该历史数据库中的特征记录进行分析,每一条特征记录中可以携带身份标识(Identity document,ID)。该身份标识可以是数字标识,也可以是字母标识,还可以是数字和字母的混合标识。
在一个实例中,历史数据库中的一项特征记录可以表示为<ID,数据元特征,机器学习流程实例>。本实施例中,机器学习流程实例可以包括:预处理子模型实例、特征处理子模型实例、训练子模型实例、模型参数处理子模型实例。
在一种实施方式中,计算所述目标元特征与所述历史数据库中各项元特征的空间距离,并根据所述空间距离确定所述目标元特征与所述历史数据库中各项元特征的相似度。
示例性地,计算所述目标元特征与所述历史数据库中各项元特征的余弦距离。
示例性地,计算所述目标元特征与所述历史数据库中各项元特征的欧式距离。
示例性地,计算所述目标元特征与所述历史数据库中各项元特征的余弦距离和欧式距离,将该余弦距离和欧式距离进行加权求和,以得到目标元特征与所述历史数据库中各项元特征的距离。
可选地,当目标元特征与历史数据库中的一项元特征距离值越小,则表示目标元特征与历史数据库中的一项元特征相似度越高;当目标元特征与历史数据库中的一项元特征距离值越大,则表示目标元特征与历史数据库中的一项元特征相似度越低。
步骤203,根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型。
本实施例中,训练流程模型中包括:预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的一种或多种子模型的实例。
示例性地,在不同的使用环境中,所需要的子模型可能存在不同。例如,在一个场景中,机器学习流程中已经确定出部分节点所使用的子模型,需要通过本申请实施例中的方法,对未确定的部分节点构建对应的子模型。
在一种实施方式中,当前仅需要对机器学习中的部分节点所需的子模型进行推荐时,步骤203可以包括以下步骤。
步骤2031,在所述历史数据库中选出第一目标模型集。
第一目标模型集中的第一指定子模型实例与目标子模型实例相同。
示例性地,当前需要构建的机器学习流程中第一指定子模型为目标子模型实例。
在一个实例中,该目标子模型可以是用在模型选择节点的一训练子模型。上述的第一指定子模型可以表示训练子模型。上述的目标子模型实例可以是决策树模型、随机森林模型、支持向量机模型、XGBoost模型等。以目标子模型实例是随机森林模型为例,可以从历史数据库中选出特征记录中对应训练子模型对应的实例是随机森林模型的所有模型集,以形成上述的第一目标模型集。
在一个实例中,该目标子模型可以是用在特征工程节点的一特征处理子模型。上述的第一指定子模型可以表示特征工程节点。上述的目标子模型实例可以是降维处理算法等。可以从历史数据库中选出特征记录中对应特征处理子模型对应的实例是降维处理算法的所有模型集,以形成上述的第一目标模型集。
在另一实例中,该目标子模型可以是用在模型选择节点的一训练子模型和特征处理子模型。上述的第一指定子模型可以表示训练子模型和特征处理子模型。上述的目标子模型实例可以是决策树模型和降维处理算法。可以从历史数据库中选出特征记录中对应训练子模型对应的实例是决策树模型,且特征处理子模型对应的实例是降维处理算法的所有模型集,以形成上述的第一目标模型集。
步骤2032,根据所述第一目标模型集中的各项模型对应的元特征与所述目标元特征的相似度,确定出相似度最高的第一目标元特征。
步骤2033,将所述第一目标元特征对应的训练流程模型作为所述当前数据集的训练流程模型。
在另一种实施方式中,当前仅需要对机器学习中的其中一个节点所需的子模型进行推荐时,步骤203可以包括以下步骤。
步骤2034,根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定相似度大于第一指定值的第一指定数量的训练流程模型。
示例性地,上述的第一指定值可以是从高到低排序在第N+1位的相似度。其中,N为大于一的正整数。可选地,N也可以是需要选出训练流程模型的第一指定数量。本实施例中,该第一指定数量的取值可以按照需求设定。例如,该第一指定数量可以是十、十五、三十、五十等数值。
步骤2035,从所述第一指定数量的训练流程模型中筛选出所有的第二指定子模型的第一模型实例集。
可选地,该第二指定子模型可以是需要确定的子模型。
例如,该第二指定子模型可以是预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的任意一个子模型。
示例性地,该第一模型实例集包括:在第一指定数量的训练流程模型中第二指定子模型的类型、以及各个第二指定子模型的类型在第一指定数量的训练流程模型中出现的次数。
步骤2036,从所述第一模型实例集确定出当前数据集的训练流程模型。
可选地,可以将第一模型实例集中的众数作为确定出当前数据集的训练流程模型。
在一个实例中,第二指定子模型可以预处理子模型,则第一模型实例集可以包括第一数量的异常点检测算法、第二数量的独热编码算法、第三数量的标准归一化。其中,第一数量为7,第二数量为2,第三数量为1,则在此实例中,第一模型实例集中的众数异常点检测算法,则可以将异常点检测算法确定为当前数据集的训练流程模型。
可选地,当第一模型实例集的众数包括两个子模型实例时,则可以从两个子模型实例中随机选择一个子模型实例确定为当前数据集的训练流程模型。
可选地,当第一模型实例集的众数包括两个子模型实例时,则判断两个子模型实例在历史数据库中被使用的频率,将在历史数据库中使用频率更高的子模型实例确定为当前数据集的训练流程模型。
在另一种实施方式中,当前仅需要对机器学习中的其中一个节点所需的子模型进行推荐,且该节点为超参数优化节点时,步骤203可以包括以下步骤。
步骤2037,在所述历史数据库中选出第三目标模型集。
其中,第三目标模型集中的训练子模型的实例与目标训练子模型实例相同。
由于超参数优化的依赖于训练子模型实例。因此,在确定模型参数处理子模型的实例时,可以从历史数据库中选出包含已确定的目标训练子模型实例的集合。
步骤2038,根据所述目标元特征与所述各项元特征的相似度,从所述第三目标模型集中确定相似度大于第二指定值的第二指定数量的训练流程模型。
示例性地,上述的第二指定值可以是从高到低排序在第M+1位的相似度。其中,M为大于一的正整数。可选地,M也可以是需要选出训练流程模型的第二指定数量。本实施例中,该第二指定数量的取值可以按照需求设定。例如,该第二指定数量可以是十、十三、二十、三十等数值。
可选地,该第二指定数量也可以与上述的第一指定数量相同。
步骤2039,从所述第二指定数量的训练流程模型中筛选出所有的模型参数处理子模型的第二模型实例集。
示例性地,该第二模型实例集包括:在第二指定数量的训练流程模型中模型参数处理子模型的类型、以及各个模型参数处理子模型的类型在第一指定数量的训练流程模型中出现的次数。
步骤20310,从所述第二模型实例集确定出当前数据集的训练流程模型。
可选地,可以将第二模型实例集中的众数作为确定出当前数据集的训练流程模型。
在另一种实施方式中,当前需要对机器学习中的全部节点所需的子模型进行推荐时,步骤203可以包括以下步骤。
步骤20311,从所述历史数据库中确定出,与所述目标元特征相似度最高的目标相似元特征。
步骤20312,将所述目标相似元特征关联的训练流程模型,作为所述当前数据集的训练流程模型。
示例性地,若目标相似元特征是历史数据库ID为10的特征记录中的元特征,则可以将ID为10的特征记录中的模型实例作为所述当前数据集的训练流程模型。
通过本申请实施例中的方法,在面对新训练数据集时,可以基于抽象的数据元特征和机器学习建模流程,自动推荐适合新数据的初始机器学习流程实例,实现经验的可复用性。
进一步地,本申请实施例中,还可以基于不同的场景实现一个节点所需的子模型,或者多个节点所需的多个子模型进行推荐,实现多种场景的自动化推荐,例如:整体机器学习流程推荐、部分机器学习流程推荐和单节点推荐,使模型的推荐适应性更强,满足不同场景的自动化机器学习。进一步地,历史数据库可以不断积累,随着数据库记录不断增加,匹配和推荐的结果也会越来越准确。
实施例三
基于同一申请构思,本申请实施例中还提供了与机器学习建模方法对应的机器学习建模装置,由于本申请实施例中的装置解决问题的原理与前述的机器学习建模方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图4,是本申请实施例提供的机器学习建模装置的功能模块示意图。本实施例中的机器学习建模装置中的各个模块用于执行上述方法实施例中的各个步骤。机器学习建模装置包括:构建模块301、计算模块302、以及确定模块303;其中,
构建模块301,用于基于当前数据集构建目标元特征;
计算模块302,用于计算所述目标元特征与历史数据库中各项元特征的相似度;
确定模块303,用于根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,所述训练流程模型中包括:预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的一种或多种子模型的实例。
一种可能的实施方式中,确定模块303,用于:
在所述历史数据库中选出第一目标模型集,所述第一目标模型集中的第一指定子模型的实例与目标子模型实例相同;
根据所述第一目标模型集中的各项模型对应的元特征与所述目标元特征的相似度,确定出相似度最高的第一目标元特征;
将所述第一目标元特征对应的训练流程模型作为所述当前数据集的训练流程模型。
一种可能的实施方式中,确定模块303,用于:
根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定相似度大于第一指定值的第一指定数量的训练流程模型;
从所述第一指定数量的训练流程模型中筛选出所有的第二指定子模型的第一模型实例集;
从所述第一模型实例集确定出当前数据集的训练流程模型。
一种可能的实施方式中,确定模块303,用于:
在所述历史数据库中选出第三目标模型集,所述第三目标模型集中的训练子模型的实例与目标训练子模型实例相同;
根据所述目标元特征与所述各项元特征的相似度,从所述第三目标模型集中确定相似度大于第二指定值的第二指定数量的训练流程模型;
从所述第二指定数量的训练流程模型中筛选出所有的模型参数处理子模型的第二模型实例集;
从所述第二模型实例集确定出当前数据集的训练流程模型。
一种可能的实施方式中,确定模块303,用于:
从所述历史数据库中确定出,与所述目标元特征相似度最高的目标相似元特征;
将所述目标相似元特征关联的训练流程模型,作为所述当前数据集的训练流程模型。
一种可能的实施方式中,计算模块302,用于:
计算所述目标元特征与所述历史数据库中各项元特征的空间距离,并根据所述空间距离确定所述目标元特征与所述历史数据库中各项元特征的相似度,所述空间距离包括余弦距离或欧式距离中的一种或多种。
一种可能的实施方式中,构建模块301,用于:
对所述当前数据集进行分析,以得到所述当前数据集中所包含的多项特征数值;
根据所述多项特征数值,确定出所述目标元特征。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的机器学习建模方法的步骤。
本申请实施例所提供的机器学习建模方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的机器学习建模方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种机器学习建模方法,其特征在于,包括:
基于当前数据集构建目标元特征;
计算所述目标元特征与历史数据库中各项元特征的相似度,所述历史数据库中包括多条特征记录,每一条特征记录包括一项元特征和一组模型实例;
根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,所述训练流程模型中包括:预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的一种或多种子模型的实例。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
在所述历史数据库中选出第一目标模型集,所述第一目标模型集中的第一指定子模型的实例与目标子模型实例相同;
根据所述第一目标模型集中的各项模型对应的元特征与所述目标元特征的相似度,确定出相似度最高的第一目标元特征;
将所述第一目标元特征对应的训练流程模型作为所述当前数据集的训练流程模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定相似度大于第一指定值的第一指定数量的训练流程模型;
从所述第一指定数量的训练流程模型中筛选出所有的第二指定子模型的第一模型实例集;
从所述第一模型实例集确定出当前数据集的训练流程模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
在所述历史数据库中选出第三目标模型集,所述第三目标模型集中的训练子模型的实例与目标训练子模型实例相同;
根据所述目标元特征与所述各项元特征的相似度,从所述第三目标模型集中确定相似度大于第二指定值的第二指定数量的训练流程模型;
从所述第二指定数量的训练流程模型中筛选出所有的模型参数处理子模型的第二模型实例集;
从所述第二模型实例集确定出当前数据集的训练流程模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,包括:
从所述历史数据库中确定出,与所述目标元特征相似度最高的目标相似元特征;
将所述目标相似元特征关联的训练流程模型,作为所述当前数据集的训练流程模型。
6.根据权利要求1所述的方法,其特征在于,所述计算所述目标元特征与历史数据库中各项元特征的相似度,包括:
计算所述目标元特征与所述历史数据库中各项元特征的空间距离,并根据所述空间距离确定所述目标元特征与所述历史数据库中各项元特征的相似度,所述空间距离包括余弦距离或欧式距离中的一种或多种。
7.根据权利要求1所述的方法,其特征在于,所述基于当前数据集构建目标元特征,包括:
对所述当前数据集进行分析,以得到所述当前数据集中所包含的多项特征数值;
根据所述多项特征数值,确定出所述目标元特征。
8.一种机器学习建模装置,其特征在于,包括:
构建模块,用于基于当前数据集构建目标元特征;
计算模块,用于计算所述目标元特征与历史数据库中各项元特征的相似度;
确定模块,用于根据所述目标元特征与所述各项元特征的相似度,从所述历史数据库中确定出所述当前数据集的训练流程模型,所述训练流程模型中包括:预处理子模型、特征处理子模型、训练子模型、模型参数处理子模型中的一种或多种子模型的实例。
9.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343832.5A CN112465012A (zh) | 2020-11-25 | 2020-11-25 | 机器学习建模方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011343832.5A CN112465012A (zh) | 2020-11-25 | 2020-11-25 | 机器学习建模方法、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112465012A true CN112465012A (zh) | 2021-03-09 |
Family
ID=74808458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011343832.5A Pending CN112465012A (zh) | 2020-11-25 | 2020-11-25 | 机器学习建模方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465012A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139332A (zh) * | 2021-03-31 | 2021-07-20 | 联想(北京)有限公司 | 一种自动化模型构建方法、装置及设备 |
CN113469092A (zh) * | 2021-07-13 | 2021-10-01 | 深圳思谋信息科技有限公司 | 字符识别模型生成方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-25 CN CN202011343832.5A patent/CN112465012A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139332A (zh) * | 2021-03-31 | 2021-07-20 | 联想(北京)有限公司 | 一种自动化模型构建方法、装置及设备 |
CN113469092A (zh) * | 2021-07-13 | 2021-10-01 | 深圳思谋信息科技有限公司 | 字符识别模型生成方法、装置、计算机设备和存储介质 |
CN113469092B (zh) * | 2021-07-13 | 2023-09-08 | 深圳思谋信息科技有限公司 | 字符识别模型生成方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263821B (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
CN113052324B (zh) | 一种用户异常模式识别方法、装置以及设备 | |
CN112465012A (zh) | 机器学习建模方法、装置、电子设备和可读存储介质 | |
Madyatmadja et al. | Comparative study of data mining model for credit card application scoring in bank | |
CN110990523A (zh) | 一种法律文书的确定方法及系统 | |
CN111177568B (zh) | 基于多源数据的对象推送方法、电子装置及存储介质 | |
CN106878242B (zh) | 一种确定用户身份类别的方法及装置 | |
CN114239697A (zh) | 目标对象的分类方法、装置、电子设备及存储介质 | |
CN112784008B (zh) | 案件相似度确定方法及装置、存储介质、终端 | |
CN112100400A (zh) | 基于知识图谱的节点推荐方法及装置 | |
CN112766288B (zh) | 图像处理模型构建方法、装置、电子设备和可读存储介质 | |
CN114298236A (zh) | 非结构化内容相似度确定方法、装置和电子设备 | |
CN112446505B (zh) | 一种元学习建模方法及装置、电子设备、存储介质 | |
CN111353428B (zh) | 动作信息识别方法、装置、电子设备及存储介质 | |
CN114493279A (zh) | 一种工作流任务预测方法、装置、存储介质及电子设备 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
Kärkkäinen et al. | Application of a knowledge discovery process to study instances of capacitated vehicle routing problems | |
CN111581068A (zh) | 终端的工作量计算方法及其装置、存储介质、终端、云服务系统 | |
Burgard et al. | Mixed-Integer Linear Optimization for Semi-Supervised Optimal Classification Trees | |
Ghimire et al. | Machine learning-based prediction models for budget forecast in capital construction | |
CN109711250B (zh) | 特征向量二值化、相似度评价、检索方法、设备和介质 | |
CN113420214B (zh) | 一种电子交易对象推荐方法和装置及设备 | |
CN113744006A (zh) | 类目推荐方法、装置、电子设备及存储介质 | |
CN113850638A (zh) | 基于工业品数字化匹配的采购策略方法和系统 | |
CN115269971A (zh) | 一种用户行为模式的识别方法、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 19 / F, building B, Xingzhi science and Technology Park, 6 Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 210000 Applicant after: AINNOVATION (NANJING) TECHNOLOGY Co.,Ltd. Address before: Floor 19, building B, Xingzhi science and Technology Park, 6 Xingzhi Road, Jiangning Economic and Technological Development Zone, Nanjing, Jiangsu Province Applicant before: AINNOVATION (NANJING) TECHNOLOGY Co.,Ltd. |