CN115795303A - 一种搜索动态学习率的客户端状态识别方法及装置 - Google Patents
一种搜索动态学习率的客户端状态识别方法及装置 Download PDFInfo
- Publication number
- CN115795303A CN115795303A CN202211251712.1A CN202211251712A CN115795303A CN 115795303 A CN115795303 A CN 115795303A CN 202211251712 A CN202211251712 A CN 202211251712A CN 115795303 A CN115795303 A CN 115795303A
- Authority
- CN
- China
- Prior art keywords
- learning rate
- manifold
- model
- iteration
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 141
- 238000012549 training Methods 0.000 claims abstract description 70
- 230000000694 effects Effects 0.000 claims abstract description 60
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 230000007423 decrease Effects 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 abstract description 19
- 238000003491 array Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Abstract
本发明公开了一种搜索动态学习率的客户端状态识别方法及装置,所述方法包括:通过学习率流形函数输出的流形学习率数列和历史状态样本数据训练模型;基于贝叶斯搜索框架搜索流形参数优化流形学习率数列进行模型训练,根据模型效果指标得到最优流形参数和最优迭代次数;通过学习率流形函数确定不同迭代次数对应学习率集合来训练识别模型;通过识别模型对待识别主体进行识别。本发明将学习率流形函数嵌入到贝叶斯搜索框架中优化流形学习率数列进行模型训练,进而确定不同迭代次数对应的学习率集合;从而能够在不同的训练阶段采用不同的学习率对识别模型进行训练,在提高模型收敛速度、减小训练时间的同时提高模型效果,保障数据传输安全。
Description
技术领域
本发明涉及计算机处理技术领域,具体而言,涉及一种搜索动态学习率的客户端状态识别方法、装置、电子设备及计算机可读介质。
背景技术
集群是将一组相互独立的终端(比如计算机)利用高速通信网络组成的一个较大的服务系统。集群中的终端之间可以彼此通信,协同向用户提供应用程序,系统资源和数据。因此,这些终端在数据传输过程中的数据安全就显得尤为重要。
现有技术中可以通过机器学习来识别传输数据的安全性,这种方式所采用的机器模型需要通过多次迭代训练来更新参数得到。而在模型训练过程中,决定每次迭代中参数有多大调整空间的学习率往往是一个固定值,不能随着模型的训练阶段做出动态调整。通过对模型各个训练阶段的分析发现:在迭代初始阶段,距离各个样本的最优值相差较远,因而该阶段的梯度往往很大,此时用较大的学习率可以加速收敛;在迭代过程中,梯度下降可能会陷入鞍点或尖锐最小值,为了逃离局部次优点,需要使用呈周期性循环的学习率,以找到更好的局部最优解甚至是全局最优解。在接近收敛阶段,较大大的学习率会使损失来回振荡,可能会错过最优点导致模型无法收敛。
可见,在模型整个迭代训练过程中采用固定学习率会影响模型的收敛速度、增加模型训练时间,同时也会影响模型效果,导致对数据传输安全的识别准确率下降,影响数据传输安全。
发明内容
有鉴于此,本发明主要目的在于提出一种搜索动态学习率的客户端状态识别方法、装置、电子设备及计算机可读介质,以期至少部分地解决上述技术问题中的至少之一。
为了解决上述技术问题,本发明第一方面提出一种搜索动态学习率的客户端状态识别方法,所述方法包括:
获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;
通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;
根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;
根据所述学习率集合和所述历史状态样本数据训练得到识别模型;
通过所述识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
根据本发明一种优选实施方式,所述通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数,包括:
获取模型的迭代总次数n和固定学习率c;
基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,并基于流形参数构建的学习率流行函数,输出随迭代次数动态变化的流形学习率数列;
通过所述流形学习率数列、迭代总次数n和所述历史状态样本数据进行模型的训练迭代;
基于贝叶斯搜索框架重新搜索所述流形参数生成新的所述流形学习率数列训练所述模型,在搜索次数达到预设搜索次数后,根据各次训练得到模型的模型效果指标确定最优流形参数;
根据模型在不同流形学习率数列下进行迭代时的模型效果指标,确定在所述迭代总次数n中的最优迭代次数。
根据本发明一种优选实施方式,基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,包括:
固定所述学习率流形函数中的至少一个流形参数,基于贝叶斯搜索框架配置对其他所述流形参数的搜索空间;
所述搜索空间的搜索目标配置为模型效果指标最优时所需的迭代次数最小,以搜索所述学习率流形函数的流形参数。
根据本发明一种优选实施方式,在所述模型的迭代次数i符合0<i<a1时,所述学习率流形函数控制小于第一阈值的学习率随着梯度下降而逐渐爬升,当梯度下降到指定值时使学习率大于第二阈值;在所述模型的迭代次数i符合迭a1<i<a2时,所述学习率流形函数采用呈周期性循环的学习率;在所述模型的迭代次数i符合a2<i<a3时,所述学习率流形函数采用小于第三阈值的学习率;其中:i为迭代次数,a1、a2、a3为各个迭代阶段对应的临界迭代次数。
根据本发明一种优选实施方式,所述通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合,包括:
将所述最优流形参数代入学习率流形函数,生成与最优迭代次数相同个数的学习率,得到学习率集合。
为解决上述技术问题,本发明第二方面提供一种搜索动态学习率的客户端状态识别装置,所述装置包括:
获取模块,用于获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;
优化模块,用于通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;
确定模块,用于根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;
训练模块,用于根据所述学习率集合和所述历史状态样本数据训练得到识别模型;
识别模块,用于通过所述识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
根据本发明一种优选实施方式,所述优化模块包括:
第一获取模块,用于获取模型的迭代总次数n和固定学习率c;
搜索输出模块,用于基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,并基于流形参数构建的学习率流行函数,输出随迭代次数动态变化的流形学习率数列;
训练迭代模块,用于通过所述流形学习率数列、迭代总次数n和所述历史状态样本数据进行模型的训练迭代;
第一子确定模块,用于基于贝叶斯搜索框架重新搜索所述流形参数生成新的所述流形学习率数列训练所述模型,在搜索次数达到预设搜索次数后,根据各次训练得到模型的模型效果指标确定最优流形参数;
第二子确定模块,用于根据模型在不同流形学习率数列下进行迭代时的模型效果指标,确定在所述迭代总次数n中的最优迭代次数。
根据本发明一种优选实施方式,所述搜索输出模块,
用于固定所述学习率流形函数中的至少一个流形参数,基于贝叶斯搜索框架配置对其他所述流形参数的搜索空间;所述搜索空间的搜索目标配置为模型效果指标最优时所需的迭代次数最小,以搜索所述学习率流形函数的流形参数。
根据本发明一种优选实施方式,在所述模型的迭代次数i符合0<i<a1时,所述学习率流形函数控制小于第一阈值的学习率随着梯度下降而逐渐爬升,当梯度下降到指定值时使学习率大于第二阈值;在所述模型的迭代次数i符合迭a1<i<a2时,所述学习率流形函数采用呈周期性循环的学习率;在所述模型的迭代次数i符合a2<i<a3时,所述学习率流形函数采用小于第三阈值的学习率;其中:i为迭代次数,a1、a2、a3为各个迭代阶段对应的临界迭代次数。
根据本发明一种优选实施方式,所述确定模块,将所述最优流形参数代入学习率流形函数,生成与最优迭代次数相同个数的学习率,得到学习率集合。
为解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述任一项所述的方法。
为解决上述技术问题,本发明第四方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。
本发明通过获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;将学习率流形函数嵌入到贝叶斯搜索框架中,通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列进行模型训练,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;从而能够在不同的训练阶段采用不同的学习率对识别模型进行训练,在提高模型的收敛速度、减小模型训练时间的同时也提高模型效果,通过识别模型对待识别主体进行识别,从而保障数据传输安全。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明实施例一种搜索动态学习率的客户端状态识别方法的流程示意图;
图2是本发明实施例得到最优流形参数和最优迭代次数的流程示意图;
图3是采用本发明优选学习率流形函数对动态学习率的流形参数搜索所涉及到的6种不同学习率流形的示意图;
图4是图3每种学习率流形对应的模型效果迭代曲线示意图;
图5是图3中优选学习率流形函数1与其它学习率流形函数在同样数据上训练的模型效果对比示意图;
图6是图5中优选学习率流形函数1与其它学习率流形函数对应的学习率流形的示意图;
图7是本发明实施例一种搜索动态学习率的客户端状态识别装置的结构框架示意图;
图8是根据本发明的电子设备的示例性实施例的结构框图;
图9是本发明一种计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
请参阅图1,图1是本发明提供的一种搜索动态学习率的客户端状态识别方法,如图1所示,所述方法包括:
S1、获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;
本实施例中,主体可以是集群中的终端或者服务器,其中:集群是将一组相互独立的终端或服务器(比如计算机)利用高速通信网络组成的一个较大的服务系统。集群中的终端或服务器之间可以彼此通信,协同向用户提供应用程序,系统资源和数据。所述状态样本数据可以根据待识别主体的状态类型确定,比如:需要识别终端之间的传输数据是否安全,则状态样本数据可以是终端之间的数据传输行为数据,其可以包括:传输时间、传输信道、以及输出数据的终端设备信息,等等,所述终端设备信息可以是终端选择公开的属性信息,比如:终端位置信息、终端通讯信息、终端型号、终端用户的信用信息,等等。进一步,可以根据数据是否安全为对应的数据传输行为打上标签,以提高模型的训练效果。
其中:学习率决定模型在每次迭代训练中对参数的调整范围,是模型优化的重要超参数,若学习率的取值过大会导致模型不会收敛,而过小则收敛速度太慢。因此,本实施例通过配置学习率随迭代次数动态变化的学习率流形函数得到不同迭代次数对应的流形学习率数列,基于贝叶斯搜索框架搜索学习率流形函数的流形参数,在模型的最优学习率流形下动态调整学习率对模型进行训练,从而在加快模型收敛的同时提高模型效果,保障数据传输安全。
本实施例中,所述学习率流形指学习率随迭代次数动态变化的趋势,比如,是由随迭代次数变化的学习率构成的形状,具体的,若模型每次迭代的学习率均为固定值,那学习率流形函数则为γ(i)=p,p为该固定值,i为迭代次数,若模型每次迭代的学习率均均匀增长,那学习率流形函数则为γ(i)=qi,q为学习率均匀增长的增长率;上述举例仅为说明学习率流形函数,并不是对学习率流形函数的限定。在本实施例中,学习率流形函数是指在不同的迭代次数下生成对应的学习率,使得学习率随迭代次数的变化曲线为流形波动的曲线,而不是一个固定值或者单调递增或递减的值,在不断的迭代更新的过程中确定最优的学习率流形函数,即确定在不同迭代次数下最优的学习率组成的流形学习率数列;则学习率流形函数能够根据迭代次数来动态调整学习率,学习率流形函数可以是:在迭代初始阶段(模型的迭代次数i符合0<i<a1时),控制小于第一阈值的学习率随着梯度下降而逐渐爬升,当梯度下降到指定值时使学习率大于第二阈值;在迭代过程中(模型的迭代次数i符合迭a1<i<a2时),采用呈周期性循环的学习率;在接近收敛阶段(模型的迭代次数i符合a2<i<a3时),采用小于第三阈值的学习率。其中:i为迭代次数,a1、a2、a3为各个迭代阶段对应的临界迭代次数。
示例性的,学习率流形函数可以采用:匀速衰减函数、指数衰减函数、尖峰分布、beta分布,等等函数。为了尽量减小函数的参数并提高最终的模型训练效果,本实施例提出一种优选学习率流形函数为:
其中:i为当前的迭代次数,n为迭代总次数,c为固定学习率,a为在所述固定学习率上摆动的幅度,0≤a<1,ω为半周期个数,b为相位,该学习率流形函数的流形参数包括:a、c、ω和b。
在具体配置过程中,可以根据模型的结构特点从学习率流形函数集中选取对应的学习率流形函数,并提取所述学习率流形函数的流形参数。其中:学习率流形函数集可以包含匀速衰减函数、指数衰减函数、尖峰分布、beta分布,以及上述优选学习率流形函数等等。或者,直接将上述优选学习率流形函数配置为模型的学习率流形函数。
在配置好流形函数后,可以提取流形参数,方便后续通过调整学习率流形参数得到最优学习率流形。
S2、通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;
示例性的,如图2,本步骤可以包括:
S21、获取模型的迭代总次数n和固定学习率c;
本实施例中,待训练的模型具有确定的迭代总次数n和固定学习率c。
S22、基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,并基于流形参数构建的学习率流行函数,输出随迭代次数动态变化的流形学习率数列;
本实施例中,流形参数即学习率流形函数中的参数,在基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数时,可以先固定所述学习率流形函数中的至少一个流形参数,基于贝叶斯搜索框架配置对其他所述流形参数的搜索空间;可选的,搜索空间可以以搜索网格的形式进行配置,则可以根据需要固定至少一个流形参数,配置对其他流形参数的搜索空间,生成搜索网格。以本实施例中的优选学习率流形函数为例,若只需要所述优选学习率流形函数一个余弦周期内的单调递减部分,可配置b=0,ω=1,c为预设的固定学习率,比如:c=0.1,然后对a配置搜索空间,例如可配置:{a:{0.05,0.1,0.15}}。
本实施例中,执行搜索的目的是为了在模型效果指标提升的同时加快迭代过程、缩小模型训练时间并降低模型复杂度。因此,所述搜索空间的搜索目标可以配置为模型效果指标最优时所需的迭代次数最小,比如:以KS作为模型效果指标,则所述搜索目标可以配置为:
target=KSmax-k*imax/n;
其中:KSmax指模型在验证集KS最大值,imax指模型在验证集KS最大值时所在的迭代次数,k为小于1的值,可以根据模型效果指标或者模型复杂度指标做动态调整,k优选为0.1。
在具体搜索时,可以预先配置搜索次数等搜索参数,将历史状态样本数据分为训练集和验证集,在训练集和验证集上执行贝叶斯搜索,输出本次搜索目标最优时的流形参数值。
搜索到流形参数值后,将流形参数值代入学习率流形函数中,构建学习率流行函数,并通过学习率流形函数输出随迭代次数动态变化的学习率作为流形学习率数列。
S23、通过所述流形学习率数列、迭代总次数n和所述历史状态样本数据进行模型的训练迭代;
示例性的,将历史状态样本数据输入模型进行训练,并根据训练迭代次数从流形学习率数列中选取对应的学习率对模型进行训练,当迭代次数达到迭代总次数n时,结束训练。
S24、基于贝叶斯搜索框架重新搜索所述流形参数生成新的所述流形学习率数列训练所述模型,在搜索次数达到预设搜索次数后,根据各次训练得到模型的模型效果指标确定最优流形参数;
其中:基于贝叶斯搜索框架重新搜索所述流形参数生成新的所述流形学习率数列是在步骤S22上的迭代搜索,具体搜索过程与S22相同,此处不再赘述。通过新的所述流形学习率数列训练所述模型也是在步骤S23上的迭代训练,具体训练过程与S23相同,此处不再赘述。
S25、根据模型在不同流形学习率数列下进行迭代时的模型效果指标,确定在所述迭代总次数n中的最优迭代次数。
示例性的,模型在不同流形学习率数列下进行迭代时可以实时计算模型效果指标及对应的迭代次数,根据各个模型效果指标及对应的迭代次数绘制模型效果指标随迭代次数的变化曲线,选择模型效果指标最优时的迭代次数作为最优迭代次数。
其中:模型效果指标可以是:KS值,ACU,等等。
S3、根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;
示例性的,可以将所述最优流形参数代入学习率流形函数,生成与最优迭代次数相同个数的学习率,得到学习率集合。
S4、根据所述学习率集合和所述历史状态样本数据训练得到识别模型;
比如:可以将学习率集合传入模型训练的相应接口完成对模型的训练。比如:xgboost可在回调函数callback中定义动态学习率,根据动态学习率训练得到最终模型。
本实施例中,训练的模型可以是深度学习模型,比如:卷积神经网络模型、深度信任网络模型,等等。深度学习模型在梯度下降过程中采用学习率集合动态调整学习率完成模型训练,训练好的深度学习模型可以应用于文字、语音、图像等的识别中。
训练的模型也可以是集成提升树模型,比如:GBDT、Xgboost、Lightgbm等。集成提升树模型在决策树迭代过程中采用采用学习率集合动态调整学习率完成模型训练。具体的,集成提升树模型通过后一棵决策树针对前面决策树的错误进行学习,来逐渐将弱学习器组建成强学习器,因而每一轮训练拟合的是真实标签与前面n轮集成决策树给出的预测值之间的差值,这与深度学习模块反向传播的梯度下降过程相对应,因此集成提升树模型中也引入“学习率”的参数,来惩罚每一轮生成的决策树,其主要功能是防止模型过拟合。比如:在Xgboost中学习率又称为Shrinkage(缩减),每一轮决策树的叶子结点权重值都要乘以学习率,来削弱每棵树的影响,既使当前轮次的决策树不会对前面的结果产生过多影响,又让模型在后续迭代中有更大的学习空间,因此学习率通常是一个远小于1的值。而且其值越小,所需的迭代次数也就越多,模型才能对数据进行充分的学习,这一点也与深度神经网络的学习率特性相对应。集成提升树模型的学习率会随着模型的迭代次数作出动态的调整,比如:根据迭代次数从学习率集合中选取对应的学习率来完成本次迭代训练。训练好的识别模型可用于对终端的数据安全进行识别。
S5、通过所述识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
训练好的识别模型能够根据数据的传输行为进行分析来识别传输数据是否安全。因此,可以将待识别终端的数据传输行为数据输入识别模型中,确定终端的传输数据是否安全。
进一步,若终端的传输数据不安全,可以终止数据传输,并对输出当前数据的终端进行管控,避免不安全数据向其他终端的传输造成的安全隐患。
本实施例还基于大量实验数据对本发明搜索动态学习率的客户端状态识别方法进行验证,其中:图3是基于大量历史数据的传输信息所建立的识别模型基础上,采用本实施例中优选学习率流形函数对动态学习率的流形参数搜索所涉及到的6种不同学习率流形(即:优选学习率流形函数1~6对应的曲线,各个曲线在图3~6中简称为“函数1~6”),每种学习率流形对应的模型效果迭代曲线如图4所示。为了更清晰地区分不同学习率流形的模型效果差异,图4中的曲线从第200次迭代轮次开始,从图4可以看出不同学习率流形的模型效果差异非常明显,其中优选学习率流形函数1的模型效果最好,该模型在迭代次数为490次时的模型KS值达到0.27312。将优选学习率流形函数1作为代表与其它学习率流形函数在同样数据上训练的效果进行对比结果如图5所示,其中:优选学习率流形函数1在迭代490次时模型KS值达到0.27312,尖峰分布函数在迭代441次时模型KS值达到0.26976,beta分布函数在迭代499次时模型KS值达到0.26743,固定学习率在在迭代501次时模型KS值达到0.26654。各个案例所对应的学习率流形如图6所示。由此可见,无论相比于其它形式简单的学习率流形,如匀速衰减和指数衰减,还是较复杂的函数分布,如尖峰分布和beta分布,本发明的优选学习率流形函数在梯度下降接近最优值附近的迭代轮次上效果都更胜一筹,而且也相对传统的固定学习率模型效果有明显提升。最后,将图5中各个学习率流形函数案例通过本发明搜索动态学习率的客户端状态识别方法得到的最优流形参数在最优迭代次数下重新训练,得到的训练好的模型效果(以KS作为模型效果指标)如表1所示,可见在时间外验证样本(oot)上,用本发明提出的学习率流形建立的模型效果最好。
KS | 固定学习率 | 匀速衰减 | 指数衰减 | 尖峰分布 | 优选学习率函数 | beta分布 |
训练样本 | 0.3428 | 0.3519 | 0.3406 | 0.3493 | 0.3532 | 0.3511 |
验证样本 | 0.3043 | 0.3025 | 0.3031 | 0.3050 | 0.3048 | 0.3016 |
oot | 0.2665 | 0.2659 | 0.2641 | 0.2698 | 0.2731 | 0.2674 |
表1基于不同学习率流形函数训练好的模型效果
通过上述大量的实验表明,利用本发明搜索动态学习率的客户端状态识别方法训练后的集成树模型相较于固定学习率的集成树模型效果有明显的提升。
图7是本发明一种搜索动态学习率的客户端状态识别装置,如图7所示,所述装置包括:
获取模块71,用于获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;
优化模块72,用于通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;
确定模块73,用于根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;
训练模块74,用于根据所述学习率集合和所述历史状态样本数据训练得到识别模型;
识别模块76,用于通过所述识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
在一种实施方式中,所述优化模块72包括:
第一获取模块,用于获取模型的迭代总次数n和固定学习率c;
搜索输出模块,用于基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,并基于流形参数构建的学习率流行函数,输出随迭代次数动态变化的流形学习率数列;
训练迭代模块,用于通过所述流形学习率数列、迭代总次数n和所述历史状态样本数据进行模型的训练迭代;
第一子确定模块,用于基于贝叶斯搜索框架重新搜索所述流形参数生成新的所述流形学习率数列训练所述模型,在搜索次数达到预设搜索次数后,根据各次训练得到模型的模型效果指标确定最优流形参数;
第二子确定模块,用于根据模型在不同流形学习率数列下进行迭代时的模型效果指标,确定在所述迭代总次数n中的最优迭代次数。
所述搜索输出模块,用于固定所述学习率流形函数中的至少一个流形参数,基于贝叶斯搜索框架配置对其他所述流形参数的搜索空间;所述搜索空间的搜索目标配置为模型效果指标最优时所需的迭代次数最小,以搜索所述学习率流形函数的流形参数。
本实施例中,在所述模型的迭代次数i符合0<i<a1时,所述学习率流形函数控制小于第一阈值的学习率随着梯度下降而逐渐爬升,当梯度下降到指定值时使学习率大于第二阈值;在所述模型的迭代次数i符合迭a1<i<a2时,所述学习率流形函数采用呈周期性循环的学习率;在所述模型的迭代次数i符合a2<i<a3时,所述学习率流形函数采用小于第三阈值的学习率;其中:i为迭代次数,a1、a2、a3为各个迭代阶段对应的临界迭代次数。
所述确定模块73,具体将所述最优流形参数代入学习率流形函数,生成与最优迭代次数相同个数的学习率,得到学习率集合。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图8是根据本发明的一种电子设备的示例性实施例的结构框图。图8显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,该示例性实施例的电子设备800以通用数据处理设备的形式表现。电子设备800的组件可以包括但不限于:至少一个处理单元810、至少一个存储单元820、连接不同电子设备组件(包括存储单元820和处理单元810)的总线830、显示单元840等。
其中,所述存储单元820存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元810执行,使得所述处理单元810执行本发明各种实施方式的步骤。例如,所述处理单元810可以执行如图1所示的步骤。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备100(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备100与该电子设备800交互,和/或使得该电子设备800能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口850进行,还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络。网络适配器860可以通过总线830与电子设备800的其它模块通信。
图9是本发明的一个计算机可读介质实施例的示意图。如图9所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;根据所述学习率集合和所述历史状态样本数据训练得到识别模型;通过所述识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种搜索动态学习率的客户端状态识别方法,其特征在于,所述方法包括:
获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;
通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;
根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;
根据所述学习率集合和所述历史状态样本数据训练得到识别模型;
通过所述识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
2.根据权利要求1所述的方法,其特征在于,所述通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数,包括:
获取模型的迭代总次数n和固定学习率c;
基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,并基于流形参数构建的学习率流行函数,输出随迭代次数动态变化的流形学习率数列;
通过所述流形学习率数列、迭代总次数n和所述历史状态样本数据进行模型的训练迭代;
基于贝叶斯搜索框架重新搜索所述流形参数生成新的所述流形学习率数列训练所述模型,在搜索次数达到预设搜索次数后,根据各次训练得到模型的模型效果指标确定最优流形参数;
根据模型在不同流形学习率数列下进行迭代时的模型效果指标,确定在所述迭代总次数n中的最优迭代次数。
3.根据权利要求2所述的方法,其特征在于,基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,包括:
固定所述学习率流形函数中的至少一个流形参数,基于贝叶斯搜索框架配置对其他所述流形参数的搜索空间;
所述搜索空间的搜索目标配置为模型效果指标最优时所需的迭代次数最小,以搜索所述学习率流形函数的流形参数。
4.根据权利要求1所述的方法,其特征在于,在所述模型的迭代次数i符合0<i<a1时,所述学习率流形函数控制小于第一阈值的学习率随着梯度下降而逐渐爬升,当梯度下降到指定值时使学习率大于第二阈值;在所述模型的迭代次数i符合迭a1<i<a2时,所述学习率流形函数采用呈周期性循环的学习率;在所述模型的迭代次数i符合a2<i<a3时,所述学习率流形函数采用小于第三阈值的学习率;其中:i为迭代次数,a1、a2、a3为各个迭代阶段对应的临界迭代次数。
5.根据权利要求1所述的方法,其特征在于,所述通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合,包括:
将所述最优流形参数代入学习率流形函数,生成与最优迭代次数相同个数的学习率,得到学习率集合。
6.一种搜索动态学习率的客户端状态识别装置,其特征在于,所述装置包括:
获取模块,用于获取主体的历史状态样本数据,并配置学习率随迭代次数动态变化的学习率流形函数;
优化模块,用于通过所述学习率流形函数输出的不同迭代次数对应的学习率组成的流形学习率数列和所述历史状态样本数据训练模型;基于贝叶斯搜索框架重新搜索所述学习率流形函数的流形参数,以优化所述流形学习率数列重新训练模型,根据各次训练的所述模型的模型效果指标分别得到最优流形参数和最优迭代次数;
确定模块,用于根据所述最优流形参数和最优迭代次数,通过所述学习率流形函数确定不同迭代次数对应的学习率组成的学习率集合;
训练模块,用于根据所述学习率集合和所述历史状态样本数据训练得到识别模型;
识别模块,用于通过所述识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
7.根据权利要求6所述的装置,其特征在于,所述优化模块包括:
第一获取模块,用于获取模型的迭代总次数n和固定学习率c;
搜索输出模块,用于基于贝叶斯搜索框架搜索所述学习率流形函数的流形参数,并基于流形参数构建的学习率流行函数,输出随迭代次数动态变化的流形学习率数列;
训练迭代模块,用于通过所述流形学习率数列、迭代总次数n和所述历史状态样本数据进行模型的训练迭代;
第一子确定模块,用于基于贝叶斯搜索框架重新搜索所述流形参数生成新的所述流形学习率数列训练所述模型,在搜索次数达到预设搜索次数后,根据各次训练得到模型的模型效果指标确定最优流形参数;
第二子确定模块,用于根据模型在不同流形学习率数列下进行迭代时的模型效果指标,确定在所述迭代总次数n中的最优迭代次数。
8.根据权利要求7所述的装置,其特征在于,所述搜索输出模块,用于固定所述学习率流形函数中的至少一个流形参数,基于贝叶斯搜索框架配置对其他所述流形参数的搜索空间;所述搜索空间的搜索目标配置为模型效果指标最优时所需的迭代次数最小,以搜索所述学习率流形函数的流形参数。
9.根据权利要求6所述的装置,其特征在于,在所述模型的迭代次数i符合0<i<a1时,所述学习率流形函数控制小于第一阈值的学习率随着梯度下降而逐渐爬升,当梯度下降到指定值时使学习率大于第二阈值;在所述模型的迭代次数i符合迭a1<i<a2时,所述学习率流形函数采用呈周期性循环的学习率;在所述模型的迭代次数i符合a2<i<a3时,所述学习率流形函数采用小于第三阈值的学习率;其中:i为迭代次数,a1、a2、a3为各个迭代阶段对应的临界迭代次数。
10.根据权利要求6所述的装置,其特征在于,所述确定模块,将所述最优流形参数代入学习率流形函数,生成与最优迭代次数相同个数的学习率,得到学习率集合。
11.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211251712.1A CN115795303A (zh) | 2022-10-13 | 2022-10-13 | 一种搜索动态学习率的客户端状态识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211251712.1A CN115795303A (zh) | 2022-10-13 | 2022-10-13 | 一种搜索动态学习率的客户端状态识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115795303A true CN115795303A (zh) | 2023-03-14 |
Family
ID=85432934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211251712.1A Pending CN115795303A (zh) | 2022-10-13 | 2022-10-13 | 一种搜索动态学习率的客户端状态识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115795303A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494119A (zh) * | 2023-12-27 | 2024-02-02 | 北京淇瑀信息科技有限公司 | 一种基于群智能优化算法的模型构建方法及装置 |
-
2022
- 2022-10-13 CN CN202211251712.1A patent/CN115795303A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494119A (zh) * | 2023-12-27 | 2024-02-02 | 北京淇瑀信息科技有限公司 | 一种基于群智能优化算法的模型构建方法及装置 |
CN117494119B (zh) * | 2023-12-27 | 2024-03-22 | 北京淇瑀信息科技有限公司 | 一种基于群智能优化算法的模型构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Controlvae: Controllable variational autoencoder | |
US11544536B2 (en) | Hybrid neural architecture search | |
EP3567498A1 (en) | Method and device for question response | |
Lawrence et al. | Improving a neural semantic parser by counterfactual learning from human bandit feedback | |
CN109697289A (zh) | 一种改进的用于命名实体识别的主动学习方法 | |
CN109947940B (zh) | 文本分类方法、装置、终端及存储介质 | |
Agarwal et al. | Gkd: Generalized knowledge distillation for auto-regressive sequence models | |
CN108509422B (zh) | 一种词向量的增量学习方法、装置和电子设备 | |
CN109934330A (zh) | 基于多样化种群的果蝇优化算法来构建预测模型的方法 | |
Janz et al. | Actively learning what makes a discrete sequence valid | |
CN114462018A (zh) | 一种基于Transformer模型和深度强化学习的密码猜测系统及方法 | |
CN115795303A (zh) | 一种搜索动态学习率的客户端状态识别方法及装置 | |
CN106803092B (zh) | 一种标准问题数据的确定方法及装置 | |
Alber et al. | Backprop evolution | |
CN106326904A (zh) | 获取特征排序模型的装置和方法以及特征排序方法 | |
CN106384587A (zh) | 一种语音识别方法及系统 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN111768761A (zh) | 一种语音识别模型的训练方法和装置 | |
CN117059169A (zh) | 基于参数自适应成长优化器的生物多序列比对方法及系统 | |
CN117539977A (zh) | 一种语言模型的训练方法及装置 | |
CN111008940A (zh) | 一种图像增强方法及装置 | |
CN113673680B (zh) | 通过对抗网络自动生成验证性质的模型验证方法和系统 | |
CN116010832A (zh) | 联邦聚类方法、装置、中心服务器、系统和电子设备 | |
CN115756475A (zh) | 一种基于序列生成对抗网络的代码注释生成方法及装置 | |
CN113886520A (zh) | 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 1109, No. 4, Lane 800, Tongpu Road, Putuo District, Shanghai, 200062 Applicant after: Shanghai Qiyue Information Technology Co.,Ltd. Address before: Room a2-8914, 58 Fumin Branch Road, Hengsha Township, Chongming District, Shanghai, 201500 Applicant before: Shanghai Qiyue Information Technology Co.,Ltd. Country or region before: China |