CN109784495B - 特征处理流程的建立方法、装置、存储介质及电子设备 - Google Patents

特征处理流程的建立方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN109784495B
CN109784495B CN201811534267.3A CN201811534267A CN109784495B CN 109784495 B CN109784495 B CN 109784495B CN 201811534267 A CN201811534267 A CN 201811534267A CN 109784495 B CN109784495 B CN 109784495B
Authority
CN
China
Prior art keywords
hyper
value
feature processing
parameter
processing algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811534267.3A
Other languages
English (en)
Other versions
CN109784495A (zh
Inventor
侯广健
张庚昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811534267.3A priority Critical patent/CN109784495B/zh
Publication of CN109784495A publication Critical patent/CN109784495A/zh
Application granted granted Critical
Publication of CN109784495B publication Critical patent/CN109784495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种特征处理流程的建立方法、装置、存储介质及电子设备,所述方法包括:根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合;在特征处理算法的搜索空间中,对第一超参数集合和第二超参数集合进行调优搜索,以获得第一超参数集合中每一第一超参数的取值和第二超参数集合中每一第二超参数的取值;根据每一第一超参数的取值对应的特征处理算法和特征处理算法的数据来源,建立特征处理流程,其中,第一超参数集合中各个第一超参数之间的顺序表明对应的特征处理算法的执行顺序。通过本公开的技术方案,可以实现特征处理流程的自动化建立,能够更好地适应实际训练数据的特点,从而提高机器学习模型的训练效果。

Description

特征处理流程的建立方法、装置、存储介质及电子设备
技术领域
本公开涉及机器学习领域,具体地,涉及一种特征处理流程的建立方法、装置、存储介质及电子设备。
背景技术
机器学习通常包括数据预处理、特征处理、模型训练、模型融合、模型选择、模型部署应用等过程,其中,特征处理过程直接决定最终的模型效果,而这一过程十分复杂,通常又涉及到PCA(Principal Component Analysis,主成分分析)、Fast_ICA(IndependentComponent Analysis,独立成分分析)、多项式转换、目标编码、Truncated SVD(SingularValue Decomposition,奇异值分解)等诸多算法。
现有技术中的特征处理过程,通常是按照一固定的线性处理流程进行。然而,这种固定的线性处理流程不能较好地适应不同任务、不同训练数据的特点。
发明内容
为了克服现有技术中存在的问题,本公开提供一种特征处理流程的建立方法、装置、存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种特征处理流程的建立方法,包括:
根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源;
在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;
根据每一所述第一超参数的取值对应的特征处理算法和所述特征处理算法的数据来源,建立特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的特征处理算法的执行顺序。
可选地,所述第一超参数集合中的第一超参数的数量与所述特征处理算法的数量相同,且各个所述第一超参数的取值集合按照各个所述第一超参数之间的顺序依次递减。
可选地,所述第二超参数集合中的第二超参数的数量与所述特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。
可选地,在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的取值为零,则确定位于该第一超参数之后的第一超参数的取值为无效值;
若该第一超参数的取值大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的特征处理算法以外的其他特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的特征处理算法;
针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。
可选地,在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,所述方法还包括:
根据所述特征处理算法,获取多个特征处理算法组合;
针对元数据库中的每一条样本元数据,确定每个特征处理算法组合对应该样本元数据的评价指标,并将所述多个特征处理算法组合按照评价指标由低到高的顺序排列,选取预设数量的特征处理算法组合作为该样本元数据对应的待过滤特征算法组合;
根据以下公式计算所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:
Figure BDA0001906478890000031
其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);
将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个特征处理算法组合中删除所述目标样本元数据对应的待过滤特征算法组合,并将剩余的特征处理算法组合作为新的搜索空间;
所述在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,包括:
在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。
本公开第二方面提供一种特征处理流程的建立装置,包括:
第一获取模块,用于根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源;
调优搜索模块,用于在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;
建立模块,用于根据每一所述第一超参数的取值对应的特征处理算法与所述特征处理算法的数据来源,建立特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的特征处理算法的执行顺序。
可选地,所述第一超参数集合中的第一超参数的数量与所述特征处理算法的数量相同,且各个所述第一超参数的取值集合按照各个所述第一超参数之间的顺序依次递减。
可选地,所述第二超参数集合中的第二超参数的数量与所述特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。
可选地,所述调优搜索模块在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的取值为零,则确定位于该第一超参数之后的第一超参数的取值为无效值;若该第一超参数的取值大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的特征处理算法以外的其他特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的特征处理算法;
针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。
可选地,所述装置还包括:
第二获取模块,用于在所述调优搜索模块在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,根据所述特征处理算法,获取多个特征处理算法组合;
确定模块,用于针对元数据库中的每一条样本元数据,确定每个特征处理算法组合对应该样本元数据的评价指标,并将所述多个特征算法组合按照评价指标由高到低的顺序排列,选取预设数量的特征处理算法组合作为该样本元数对应的待过滤特征算法组合;
计算模块,用于根据以下公式所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:
Figure BDA0001906478890000051
其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);
过滤模块,用于将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个特征算法组合中删除所述目标样本元数据对应的待过滤特征算法组合,并将剩余的特征处理算法组合作为新的搜索空间;
所述调优搜索模块包括:
调优搜索子模块,用于在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的特征处理流程的建立方法的步骤。
本公开第四方面提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的特征处理流程的建立方法的步骤。
本公开提供的技术方案可以包括以下有益效果:根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,并在特征处理算法的搜索空间中对第一超参数集合和第二超参数集合进行调优搜索,且根据调优搜索得到的每一第一超参数的取值对应的特征处理算法和每一第二超参数对应的特征处理算法的数据来源,建立特征处理流程,可以实现特征处理流程的自动化建立,整个建立过程将不同特征处理算法灵活的进行组合,与现有技术中采用固定的线性特征处理流程相比,能够更好地适应实际训练数据的特点,更容易找到有效的特征处理手段,从而提高机器学习模型的训练效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种特征处理流程的建立方法的流程图;
图2是本公开实施例提供的一种特征处理流程的示意图;
图3是本公开实施例提供的一种特征处理流程的建立装置的框图;
图4是本公开实施例提供的另一种特征处理流程的建立装置的框图;
图5是本公开实施例提供的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
值得说明的是,本公开的说明书和权利要求书以及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必理解为特定的顺序或先后次序。
本公开实施例提供了一种特征处理流程的建立方法,参见图1,图1是本公开实施例提供的一种特征处理流程的建立方法的流程图,该方法包括以下步骤:
在步骤S11中,根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合。
其中,第一超参数集合中的第一超参数与第二超参数集合中的第二超参数一一对应,每一第一超参数的取值集合中的每一取值对应一特征处理算法,每一第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源。
值得说明的是,超参数也是一个参数,是一个未知变量。在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。具体到本公开实施例中,所有的第一超参数和第二超参数都属于在开始建立特征处理流程之前,设置的待赋给具体数值的参数,可以理解为表征特征处理流程中可能出现的节点。并且,针对所有第一超参数设置有一组可能的取值数,第一超参数集合中的所有第一超参数均从这一组可能的取值数中选取具体的数值,同理,所有的第二超参数也对应一组可能的取值数,这样,在通过参数调优选定所有第一超参数的数值以及所有第二超参数的数值后,特征处理流程的各个节点以及各个节点采用的特征处理算法以及数据来源就能被唯一确定下来。
进一步地,对于第一超参数集合,第一超参数集合中的第一超参数的数量与预置的特征处理算法的数量相同,且各个第一超参数的取值集合按照各个第一超参数之间的顺序依次递减。
对于第二超参数集合,第二超参数集合中的第二超参数的数量与预置的特征处理算法的数量相同,且各个第二超参数的取值集合相同。
例如,预置的特征处理算法共有N个(N为正整数),由于每个特征处理算法只能在整个特征处理流程中使用一次,因此可确定包括N个第一超参数的第一超参数集合
Figure BDA0001906478890000081
和包括N个第二超参数的第二超参数集合
Figure BDA0001906478890000082
接着,对N个特征处理算法按照[1,2,...,N]进行顺序编号,可确定各个第一超参数的取值集合(如表1所示)以及各个第二超参数的取值集合(如表2所示)。其中,第一超参数的每一取值与特征处理算法的对应关系为:θi=0表征第i步不执行任何特征处理算法,θi=k(k∈N)表征第i步执行编号为k的特征处理算法;对于第二超参数集合,δi=0表征第i步执行的特征处理算法(即编号为k的特征处理算法)的数据来源为原始特征(即与特征处理流程相邻的上一个流程的输出结果,例如数据预处理流程的输出结果),δi=1表征第i步执行的特征处理算法(即编号为k的特征处理算法)的数据来源为第i-1步执行的特征处理算法的输出结果。
表1
第一超参数 取值集合
θ<sub>1</sub> [0,1,2,...,N-2,N-1,N]
θ<sub>2</sub> [0,1,2,...,N-2,N-1]
…… ……
θ<sub>N</sub> [0,1]
表2
第二超参数 取值集合
δ<sub>1</sub> [0,1]
δ<sub>2</sub> [0,1]
…… ……
δ<sub>N</sub> [0,1]
在步骤S12中,在特征处理算法的搜索空间中,对第一超参数集合和第二超参数集合进行调优搜索,以获得第二超参数集合中每一第一超参数的取值和第二超参数集合中每一第二超参数的取值。
在本公开的实施例中,可对特征处理算法进行组合,得到的多个特征算法组合即为特征处理算法的搜索空间。接着,在该搜索空间中,根据网格搜索(Grid Search)算法、随机搜索(Random Search)算法以及贝叶斯优化算法等任一搜索算法对第一超参数集合和第二超参数集合进行调优搜索。
其中,上述根据搜索算法对第一超参数集合和第二超参数集合进行搜索的具体方式属于本领域技术人员公知的,在此不再详细阐述。
进一步地,由于特征处理算法组合而形成的搜索空间较大且某些特征处理算法不可能组合在一起或者组合后得到的模型训练效果较差,因而可对特征处理算法的搜索空间进行剪枝处理,将得到的模型训练效果较差的特征处理算法组合删除,以得到新的搜索空间,并在该新的搜索空间中对第一超参数集合和第二超参数集合进行调优搜索。下面对搜索空间的剪枝处理过程进行详细说明。
首先,根据特征处理算法获取多个特征处理算法组合,并针对元数据库中的每一条样本元数据,确定每个特征处理算法组合对应该样本元数据的评价指标,其中,评价指标表征根据特征处理算法组合得到的模型训练效果,评价指标越高,表明根据该特征处理算法组合得到的模型训练效果越好;反之,表明根据该特征处理算法组合得到的模型训练效果越差。进一步地,可将多个特征处理算法组合按照评价指标由低到高的顺序排列,选取预设数量的特征处理算法组合作为该样本元数据对应的待过滤特征算法组合。其中,元数据库可根据大量样本数据集构建,这些样本数据集是根据大量实验得到的经验数据集,每一样本数据集经各个特征处理算法组合处理后进行模型训练得到的训练效果已知。每一样本数据集对应一条样本元数据,每一样本元数据可以包括该样本元数据对应的样本数据集的数据量、数据类型(离散型和连续型)、数据缺失值、离散数据熵、连续数据最大值、连续数据最小值等,即表示为X=(x1,x2,...,xn)。
示例地,针对每条样本元数据,根据该样本元数据对应的样本数据集经各个特征处理算法组合处理后对进行模型训练得到的训练效果,可得到各个特征处理算法组合对应该样本元数据的评价指标,并选取效果最差的预设数量的特征处理算法组合,其中,预设数量的值可根据需要自定义设置。
接着,根据公式(1)计算元数据库中的每一条样本元数据与训练数据的元数据之间的距离。其中,训练数据是指待输入特征处理流程进行处理的数据,其经各特征处理算法组合处理后进行模型训练的训练效果无法评估。同样地,训练数据的元数据可以包括训练数据的数据量、数据类型(离散型和连续型)、数据缺失值、离散数据熵、连续数据最大值、连续数据最小值等,即表示为Y=(y1,y2,...,yn)。
Figure BDA0001906478890000101
其中,dist(X,Y)为元数据库中的样本元数据X与训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn)。
若样本元数据与训练数据的元数据之间的距离较小,则可认为该样本元数据对应的样本数据集与该训练数据相近,且由于训练数据经各特征处理算法组合处理后进行模型训练的训练效果无法评估,因而可使用与训练数据相近的样本数据集经各个特征处理算法组合后进行模型训练得到的训练效果作为训练数据经各特征处理算法组合处理后进行模型训练得到的训练效果。在具体实施时,可将元数据库中与训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从多个特征处理算法组合中删除目标样本元数据对应的待过滤特征算法组合,并将剩余的特征处理算法组合作为新的搜索空间。其中,预设范围可以自定义设置,以选取出元数据库中与训练数据的元数据之间的距离相近的样本元数据。
由此,通过对得到的模型训练效果较差的特征处理算法组合进行过滤,在对模型训练效果产生较小影响的前提下,可以缩小搜索空间,提高特征处理的效率。
在一种可能的实现方式中,在对第一超参数集合和对第二超参数集合进行搜索时,可按照以下规则进行:
(1)针对每一个第一超参数,若该超参数的取值为零,则确定位于该第一超参数之后的所有第一超参数的取值为无效值。
(2)若该第一超参数的取值大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的特征处理算法以外的其他特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的特征处理算法。
示例地,以表1所示的第一超参数集合和表2所示的第二超参数集合示意,对N个特征处理算法进行排序,得到一有序序列,若θ1=1,则在第1步执行位于第1位的特征处理算法,接着将该特征处理算法从有序序列中去除,剩下的特征处理算法形成为新的有序序列,继而得到各个第一超参数的取值与特征处理算法之间的新的对应关系。若θ2=1,则在第2步执行的特征处理算法为当前位于第1位的特征处理算法。
(3)针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。
在步骤S13中,根据每一第一超参数的取值对应的特征处理算法和特征处理算法的数据来源,建立特征处理流程,其中,第一超参数集合中各个第一超参数之间的顺序表明对应的特征处理算法的执行顺序。
示例地,若预置有10个特征处理算法,对这10个特征处理算法进行排序,可得到排序得到有序序列[特征处理算法1,特征处理算法2,…,特征处理算法10],相应地,可得到第一超参数集合为
Figure BDA0001906478890000121
以及第二超参数集合为
Figure BDA0001906478890000122
通过对第一超参数集合和第二超参数集合进行调优搜索,得到第一超参数集合中各个第一超参数的取值以及第二超参数集合中各个第二超参数的取值分别为:
Figure BDA0001906478890000123
Figure BDA0001906478890000124
由此,特征处理流程的建立步骤如下:
(1)(θ11)=(5,0),在第1步执行当前位于5位的特征处理算法(即特征处理算法5)且其数据来源为原始特征,并将特征处理算法5从有序序列中删除;
(2)(θ22)=(7,0),在第2步执行当前位于第7位的特征处理算法(即特征处理算法8)且其数据来源为原始特征,并将特征处理算法8从有序序列中删除;
(3)(θ33)=(3,1),在第3步执行当前位于第3位的为特征处理算法(即特征处理算法3)且其数据来源为上一步的输出结果,即特征处理算法5的输出特征和特征处理算法8的输出特征合并后得到的中间特征,并将特征处理算法3从有序序列中删除;
(4)(θ44)=(7,0),在第4步执行当前位于第7位的特征处理算法(即特征处理算法10)且其数据来源为原始特征,并将特征处理算法10从有序序列中删除。
(5)(θ55)=(0,null),特征处理流程结束。
(6)根据步骤(1)至步骤(5)得到如图2所示的特征处理流程。
采用上述特征处理流程的建立方法,通过超参数调优搜索的方式,可以实现特征处理流程的自动化建立,整个建立过程将不同特征处理算法灵活的进行组合,与现有技术中采用固定的线性特征处理流程相比,能够更好地适应实际训练数据的特点,更容易找到有效的特征处理手段,从而提高机器学习模型的训练效果。
本公开实施例还提供了一种特征处理流程的建立装置,如图3所示,图3是本公开实施例提供的一种特征处理流程的建立装置的框图,该装置300可以包括:
第一获取模块301,用于根据预置的特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的特征处理算法的数据来源;
调优搜索模块302,用于在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;
建立模块303,用于根据每一所述第一超参数的取值对应的特征处理算法与所述特征处理算法的数据来源,建立特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的特征处理算法的执行顺序。
可选地,所述第一超参数集合中的第一超参数的数量与所述特征处理算法的数量相同,且各个所述第一超参数的取值集合按照各个所述第一超参数之间的顺序依次递减。
可选地,所述第二超参数集合中的第二超参数的数量与所述特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。
可选地,所述调优搜索模块在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的取值为零,则确定位于该第一超参数之后的第一超参数的取值为无效值;若该第一超参数的取值大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的特征处理算法以外的其他特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的特征处理算法;
针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。
可选地,如图4所示,所述装置300还包括:
第二获取模块304,用于在所述调优搜索模块在所述特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,根据所述特征处理算法,获取多个特征处理算法组合;
确定模块305,用于针对元数据库中的每一条样本元数据,确定每个特征处理算法组合对应该样本元数据的评价指标,并将所述多个特征算法组合按照评价指标由高到低的顺序排列,选取预设数量的特征处理算法组合作为该样本元数对应的待过滤特征算法组合;
计算模块306,用于根据以下公式所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:
Figure BDA0001906478890000141
其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);
过滤模块307,用于将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个特征算法组合中删除所述目标样本元数据对应的待过滤特征算法组合,并将剩余的特征处理算法组合作为新的搜索空间;
所述调优搜索模块302包括:
调优搜索子模块321,用于在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
另外,本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
采用上述特征处理流特征处理流程的建立装置,采用上述特征处理流程的建立方法,通过超参数调优搜索的方式,可以实现特征处理流程的自动化建立,整个建立过程将不同特征处理算法灵活的进行组合,与现有技术中采用固定的线性特征处理流程相比,能够更好地适应实际训练数据的特点,更容易找到有效的特征处理手段,从而提高机器学习模型的训练效果。
图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的特征处理流程的建立方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的特征处理流程的建立方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的特征处理流程的建立方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的特征处理流程的建立方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (8)

1.一种特征处理流程的建立方法,其特征在于,应用于计算机设备,包括:
根据预置的图片特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一图片特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的图片特征处理算法的数据来源,所述第一超参数的取值集合中的取值θi表示第i步不执行图片特征处理算法或执行对应编号的图片特征处理算法,θi表示所述第一超参数的取值集合中的任一取值,i的取值范围为1至N,N为正整数;
在所述图片特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;
根据每一所述第一超参数的取值对应的图片特征处理算法和所述图片特征处理算法的数据来源,建立图片特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的图片特征处理算法的执行顺序,所述图片特征处理流程用于对图片进行特征处理,并将特征处理后的图片输入图片训练模型;
所述第一超参数集合中的第一超参数的数量与所述图片特征处理算法的数量相同,且各个所述第一超参数的取值集合的取值个数按照各个所述第一超参数之间的顺序依次递减,所述第二超参数集合中的第二超参数的数量与所述图片特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。
2.根据权利要求1所述的方法,其特征在于,在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的取值集合中的取值θi为零,则确定位于该第一超参数之后的第一超参数的取值为无效值;
若该第一超参数的取值集合中的取值θi大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的图片特征处理算法以外的其他图片特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的图片特征处理算法;
针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。
3.根据权利要求1或2所述的方法,其特征在于,在所述图片特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,所述方法还包括:
根据所述图片特征处理算法,获取多个图片特征处理算法组合;
针对元数据库中的每一条样本元数据,确定每个图片特征处理算法组合对应该样本元数据的评价指标,并将所述多个图片特征处理算法组合按照评价指标由低到高的顺序排列,选取预设数量的图片特征处理算法组合作为该样本元数据对应的待过滤图片特征算法组合;
根据以下公式计算所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:
Figure FDA0002960712690000021
其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);
将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个图片特征处理算法组合中删除所述目标样本元数据对应的待过滤图片特征算法组合,并将剩余的图片特征处理算法组合作为新的搜索空间;
所述在所述图片特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,包括:
在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。
4.一种特征处理流程的建立装置,其特征在于,应用于计算机设备,包括:
第一获取模块,用于根据预置的图片特征处理算法的数量,获取第一超参数集合和第二超参数集合,所述第一超参数集合中的第一超参数与所述第二超参数集合中的第二超参数一一对应,每一所述第一超参数的取值集合中的每一取值对应一图片特征处理算法,每一所述第二超参数的取值集合中的每一取值表明该第二超参数对应的第一超参数的取值表征的图片特征处理算法的数据来源,所述第一超参数的取值集合中的取值θi表示第i步不执行图片特征处理算法或执行对应编号的图片特征处理算法,θi表示所述第一超参数的取值集合中的任一取值,i的取值范围为1至N,N为正整数;
调优搜索模块,用于在所述图片特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索,以获得所述第一超参数集合中每一所述第一超参数的取值和所述第二超参数集合中每一所述第二超参数的取值;
建立模块,用于根据每一所述第一超参数的取值对应的图片特征处理算法与所述图片特征处理算法的数据来源,建立图片特征处理流程,其中,所述第一超参数集合中各个所述第一超参数之间的顺序表明对应的图片特征处理算法的执行顺序,所述图片特征处理流程用于对图片进行特征处理,并将特征处理后的图片输入图片训练模型;
所述第一超参数集合中的第一超参数的数量与所述图片特征处理算法的数量相同,且各个所述第一超参数的取值集合的取值个数按照各个所述第一超参数之间的顺序依次递减,所述第二超参数集合中的第二超参数的数量与所述图片特征处理算法的数量相同,且各个所述第二超参数的取值集合相同。
5.根据权利要求4所述的装置,其特征在于,所述调优搜索模块在对所述第一超参数集合和所述第二超参数集合进行调优搜索时,针对每一个第一超参数,若该第一超参数的的取值集合中取值θi为零,则确定与该第一超参数相邻的下一个第一超参数的取值为无效值;若该第一超参数的取值集合中的取值θi大于零,则重新建立该下一第一超参数的每一取值与除该第一超参数的取值对应的图片特征处理算法以外的其他图片特征处理算法之间的对应关系,该对应关系用于确定该下一第一超参数的取值对应的图片特征处理算法;
针对每一个第二超参数,若与该第二超参数对应的第一超参数的取值为零,则确定该第二超参数的取值为无效值。
6.根据权利要求4或5所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于在所述调优搜索模块在所述图片特征处理算法的搜索空间中,对所述第一超参数集合和所述第二超参数集合进行调优搜索之前,根据所述图片特征处理算法,获取多个图片特征处理算法组合;
确定模块,用于针对元数据库中的每一条样本元数据,确定每个图片特征处理算法组合对应该样本元数据的评价指标,并将所述多个图片特征处理算法组合按照评价指标由高到低的顺序排列,选取预设数量的图片特征处理算法组合作为该样本元数对应的待过滤图片特征算法组合;
计算模块,用于根据以下公式所述元数据库中的每一条样本元数据与训练数据的元数据之间的距离:
Figure FDA0002960712690000051
其中,dist(X,Y)为所述元数据库中的样本元数据X与所述训练数据的元数据Y之间的距离,X=(x1,x2,...,xn),Y=(y1,y2,...,yn);
过滤模块,用于将所述元数据库中与所述训练数据的元数据之间的距离位于预设范围内的样本元数据作为目标样本元数据,从所述多个图片特征处理算法组合中删除所述目标样本元数据对应的待过滤图片特征算法组合,并将剩余的图片特征处理算法组合作为新的搜索空间;
所述调优搜索模块包括:
调优搜索子模块,用于在该新的搜索空间中对所述第一超参数集合和所述第二超参数集合进行调优搜索。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。
8.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至3中任一项所述方法的步骤。
CN201811534267.3A 2018-12-14 2018-12-14 特征处理流程的建立方法、装置、存储介质及电子设备 Active CN109784495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811534267.3A CN109784495B (zh) 2018-12-14 2018-12-14 特征处理流程的建立方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811534267.3A CN109784495B (zh) 2018-12-14 2018-12-14 特征处理流程的建立方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109784495A CN109784495A (zh) 2019-05-21
CN109784495B true CN109784495B (zh) 2021-05-04

Family

ID=66496972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811534267.3A Active CN109784495B (zh) 2018-12-14 2018-12-14 特征处理流程的建立方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109784495B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045819A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 一种训练数据的模型训练方法及装置
US20150379425A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Consistent filtering of machine learning data
CN106663037A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 特征处理权衡管理
CN108665064A (zh) * 2017-03-31 2018-10-16 阿里巴巴集团控股有限公司 神经网络模型训练、对象推荐方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486781A (zh) * 2010-12-03 2012-06-06 阿里巴巴集团控股有限公司 一种搜索排序方法和装置
CN103530321B (zh) * 2013-09-18 2016-09-07 上海交通大学 一种基于机器学习的排序系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379425A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Consistent filtering of machine learning data
CN106663037A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 特征处理权衡管理
CN105045819A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 一种训练数据的模型训练方法及装置
CN108665064A (zh) * 2017-03-31 2018-10-16 阿里巴巴集团控股有限公司 神经网络模型训练、对象推荐方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Spark的流程化机器学习分析方法;赵玲玲等;《计算机系统应用》;20170106;第25卷(第12期);162-168 *
机器学习中的特征选择;张丽新等;《计算机科学》;20041231;第31卷(第11期);180-184 *

Also Published As

Publication number Publication date
CN109784495A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN110471916B (zh) 数据库的查询方法、装置、服务器及介质
CN108154198B (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN113986933A (zh) 物化视图的创建方法、装置、存储介质及电子设备
CN107239468B (zh) 任务节点管理方法及装置
CN109145003B (zh) 一种构建知识图谱的方法及装置
CN111382347A (zh) 一种对象特征的处理和信息推送方法、装置和设备
CN104536997A (zh) 用于客户端界面的数据批量处理方法及装置
CN110888756A (zh) 一种诊断日志生成方法及装置
CN116244333A (zh) 一种基于代价因子校准的数据库查询性能预测方法及系统
CN114723014A (zh) 张量切分模式的确定方法、装置、计算机设备及介质
WO2016112618A1 (zh) 一种基于距离的求解二维空间中代表性节点集的算法
CN108549688B (zh) 一种数据操作的优化方法、装置、设备和存储介质
CN107193979B (zh) 一种同源图片检索的方法
CN107679107B (zh) 一种基于图数据库的电网设备可达性查询方法及系统
CN109784495B (zh) 特征处理流程的建立方法、装置、存储介质及电子设备
CN105138527A (zh) 一种数据分类回归方法及装置
CN116842060B (zh) 一种基于代理模型重排技术的推理查询优化方法及装置
US20160042042A1 (en) In-database connectivity components analysis of data
CN111078671A (zh) 数据表字段的修改方法、装置、设备和介质
CN103761298A (zh) 一种基于分布式架构的实体匹配方法
CN108683599B (zh) 一种基于预处理的流通网络最大流确定方法及系统
US11868332B2 (en) Data index establishment method, and apparatus
CN113157582B (zh) 测试脚本执行序列确定方法及装置
CN109828894B (zh) 设备状态数据的采集方法、装置、存储介质和电子设备
CN114547286A (zh) 一种信息搜索方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant