CN113536690A - 一种模型的参数调整方法及计算设备 - Google Patents

一种模型的参数调整方法及计算设备 Download PDF

Info

Publication number
CN113536690A
CN113536690A CN202110873240.2A CN202110873240A CN113536690A CN 113536690 A CN113536690 A CN 113536690A CN 202110873240 A CN202110873240 A CN 202110873240A CN 113536690 A CN113536690 A CN 113536690A
Authority
CN
China
Prior art keywords
model
hyper
parameters
parameter
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110873240.2A
Other languages
English (en)
Other versions
CN113536690B (zh
Inventor
马中金
吕玄玄
谢文奋
刘生强
汪湘湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Ronds Science & Technology Inc Co
Original Assignee
Anhui Ronds Science & Technology Inc Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Ronds Science & Technology Inc Co filed Critical Anhui Ronds Science & Technology Inc Co
Priority to CN202110873240.2A priority Critical patent/CN113536690B/zh
Publication of CN113536690A publication Critical patent/CN113536690A/zh
Application granted granted Critical
Publication of CN113536690B publication Critical patent/CN113536690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种模型的参数调整方法,方法包括步骤:确定模型中待优化的一个或多个超参数以及损失函数;基于实际应用场景确定一个或多个超参数的值,以便基于所述一个或多个超参数的值来对模型参数进行限制;从数据集中获取与所述模型相对应的训练数据,基于所述训练数据对所述模型进行训练,训练数据为设备状态训练样本,其中包括调整模型参数和超参数;利用测试数据对训练后的模型进行测试,以验证调整后的模型参数和超参数是否满足预定条件,测试数据为设备状态测试数据;以及如果满足预定条件,则确定所述调整后的模型参数和超参数为最优参数,并基于所述调整后的模型参数和超参数来更新数据集。本发明还一并公开了相应的计算设备。

Description

一种模型的参数调整方法及计算设备
技术领域
本发明涉及人工智能技术领域,特别涉及一种模型的参数调整方法及计算设备。
背景技术
随着大数据和人工智能算法的兴起,智能制造开始逐渐映入人们的视野,大数据驱动的设备的故障预测和健康管理日益受到各界重视。深度学习能够在具有层次和结构特性的网络中通过自学习的过程来提取数据高维特征,从而发现更多的专家无法发现的隐藏的抽象知识。不仅如此,由于具有良好的数据适应性,深度学习能够在大部分领域都具有良好的适应性。出于强大特征提取能力以及数据适应性,深度学习近年来逐渐成为设备故障预测和健康管理的研究热点,并在故障诊断和预测中得到了广泛的应用。目前深度学习已经成功地运用于图像处理、计算机视觉、语音识别、自然语言处理等领域。而在PHM领域,深度学习也广泛应用于机械设备的故障预测、故障诊断、启停机判断、电池寿命预测等设备状态监测方面。
在设备状态监测领域,目前最常见的是基于设备振动的状态监测手段,通过采集设备的振动数据来创建基于振动的设备状态训练样本集,并利用振动状态训练样本来训练基于深度学习的设备状态监测模型。例如,通过采集设备的振动数据来创建启停机训练样本,基于启停机训练样本来训练启停机判断模型,通过训练后的启停机判断模型可以判断设备的启机状态或停机状态。
然而,在深度学习模型优化方面,除了模型本身参数优化之外,在训练过程中,还存在各种超参数。其中模型参数主要靠数据驱动调整,目前的模型参数优化方法,更多是以无约束的方法最小化损失函数,以此达到模型参数优化目的。而超参数是在训练之前或训练中进行调整的参数,超参数的设置对训练后最终模型效果的好坏起到至关重要的作用。然而,对于深度学习模型,虽然模型的超参数的数量远远小于模型参数的数量,但,超参数可设置的值的数量却远超参数,各种超参数值的组合数量更是不计其数。目前在对模型的训练方面,超参数的选择一般是由专业人员人为设置合适的参数值,但最终训练得到的模型是否最优尚且值得商榷。
目前,对于模型参数的优化方法主要是利用低速下降算法通过使损失函数达到最小的方式来得到模型参数,例如,基于BP算法的网络参数调优,而基于梯度下降的模型参数优化方法主要是从数据驱动的角度出发,所得到的最优参数都是通过最小化损失函数得到的,并没有基于实际业务来对参数进行相应的约束。另外,现有的寻找模型超参数的算法包括网格搜索、随机搜索、遗传算法等。然而,这些现有的算法基本上是以最小化损失函数为目标,以此得到最优的超参数组合,并没有考虑到部分超参数和实际业务的关系,且现有的参数调优的算法应用基本上是在特定的模型下使用某种参数调优算法,没有普适性的参数调优方法。
为此,需要一种模型的参数调整方法来解决上述技术方案中存在的问题。
发明内容
为此,本发明提供一种模型的参数调整方法,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供了一种模型的参数调整方法,在计算设备中执行,所述方法包括步骤:确定模型中待优化的一个或多个超参数以及损失函数;基于实际应用场景确定一个或多个超参数的值,以便基于所述一个或多个超参数的值来对模型参数进行限制;从数据集中获取与所述模型相对应的训练数据,所述训练数据为设备状态训练样本,基于所述训练数据对所述模型进行训练,其中包括调整模型参数和超参数;利用测试数据对训练后的模型进行测试,以验证调整后的模型参数和超参数是否满足预定条件,其中所述测试数据为设备状态测试数据;以及如果满足预定条件,则确定所述调整后的模型参数和超参数为最优参数,并基于所述调整后的模型参数和超参数来更新数据集。
可选地,在根据本发明的模型的参数调整方法中,调整模型参数包括:通过最小化损失函数来对所述模型参数进行调整。
可选地,在根据本发明的模型的参数调整方法中,调整超参数的步骤包括:利用随机搜索方法在超参数组合空间中随机搜索,以得到多组超参数组合;分别基于每组超参数组合来更新模型的一个或多个超参数,并将验证数据输入模型,以确定验证损失,其中所述验证数据为设备状态验证数据;确定每组超参数组合对应的验证损失是否满足预定损失条件,如果满足预定损失条件,则将相应的超参数组合作为目标超参数组合。
可选地,在根据本发明的模型的参数调整方法中,还包括步骤:如果每组超参数组合对应的验证损失均不满足预定损失条件,则:确定最小的验证损失对应的一组超参数组合,并基于该超参数组合的空间重新选取多组超参数组合,基于重新选取的每组超参数组合来更新模型的一个或多个超参数;直至验证损失满足预定损失条件时,将当前的超参数组合作为目标超参数组合。
可选地,在根据本发明的模型的参数调整方法中,所述模型为设备状态监测模型,所述数据集为设备状态数据集。
可选地,在根据本发明的模型的参数调整方法中,所述设备状态训练样本为振动状态训练样本,所述设备状态测试样本为振动状态测试样本。
可选地,在根据本发明的模型的参数调整方法中,所述模型为启停机判断模型,所述训练数据为启停机训练样本,启停机训练样本包括启机样本和停机样本;所述启停机判断模型中待优化的超参数包括网络层数、网络节点数、学习率、以及损失函数中的超参数。
可选地,在根据本发明的模型的参数调整方法中,在确定模型中待优化的一个或多个超参数以及损失函数之前,包括步骤:构建一个或多个模型,所述模型包括设备状态监测模型。
可选地,在根据本发明的模型的参数调整方法中,基于所述调整后的模型参数和超参数来更新数据集包括:将所述调整后的模型参数和超参数存储在数据集中,以形成参数集。
可选地,在根据本发明的模型的参数调整方法中,在利用测试数据对训练后的模型进行测试之前,包括步骤:从数据集中获取与所述模型相对应的测试数据。
可选地,在根据本发明的模型的参数调整方法中,如果满足预定条件,还包括步骤:将所述调整后的模型参数和超参数作为所述模型的最优参数,以得到训练好的最优模型。
根据本发明的一个方面,提供了一种计算设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如上所述的模型的参数调整方法的指令。
根据本发明的一个方面,提供了一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如上所述方法。
根据本发明的技术方案,提供了一种模型的参数调整方法,通过结合实际应用场景和专家经验来设置超参数,可以应用于包括多种设备状态监测模型在内的各种各样深度模型的参数调优,并使得模型在实际应用中能够获得最优表现。其中,利用随机搜索方法在超参数组合空间中随机搜索超参数组合,来更新模型的超参数,并验证更新超参数后的模型的验证损失是否满足预定损失条件,这样,能够在尽可能缩短搜索时间的情况下迅速得到最优的超参数组合,提高了对模型的超参数进行优化的效率。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的示意图;以及
图2示出了根据本发明一个实施例的模型的参数调整方法200的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的示意框图。
如图1所示,在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(UP)、微控制器(UC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。
计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138。
计算设备100还可以包括储存接口总线134。储存接口总线134实现了从储存设备132(例如,可移除储存器136和不可移除储存器138)经由总线/接口控制器130到基本配置102的通信。操作系统120、应用122以及数据124的至少一部分可以存储在可移除储存器136和/或不可移除储存器138上,并且在计算设备100上电或者要执行应用122时,经由储存接口总线134而加载到系统存储器106中,并由一个或者多个处理器104来执行。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(I R)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然,计算设备100也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。甚至可以被实现为服务器,如文件服务器、数据库服务器、应用程序服务器和WEB服务器等。本发明的实施例对此均不做限制。
在根据本发明的实施例中,计算设备100被配置为执行根据本发明的模型的参数调整方法200。其中,计算设备100的应用122中包含用于执行本发明的模型的参数调整方法200的多条程序指令,这些程序指令可以被计算设备100读取并执行,以便计算设备100执行根据本发明的模型的参数调整方法200。
图2示出了根据本发明一个实施例的模型的参数调整方法200的流程图。
如图2所示,方法200始于步骤S210。在执行步骤S210之前,首先构建一个或多个模型。这里,模型可以包括用于监测设备运行状态的设备状态监测模型,通过构建设备状态监测模型,以便通过执行本发明的方法200来对设备状态监测模型的参数进行调整。
应当指出,本发明对设备状态监测模型的具体类型不做限制,例如,设备状态监测模型可以包括故障诊断模型、启停机判断模型等。
在一种实现方式中,设备状态监测模型例如可以实现为启停机判断模型,以便通过执行本发明的方法200来对启停机判断模型的参数进行调整。启停机判断模型可用于判断设备的启机状态或停机状态。
在步骤S210中,确定设备状态监测模型中待优化的一个或多个超参数以及损失函数。例如,对于启停机判断模型而言,启停机判断模型中待优化的超参数例如包括网络层数、网络节点数、学习率、损失函数中的超参数等,但本发明不限于设备状态监测模型的种类和其中的具体参数。
随后,在步骤S220中,在对设备状态监测模型进行训练之前,基于实际应用场景来确定待优化的一个或多个超参数的值,以便基于一个或多个超参数的值作为相应的模型参数的约束条件,来对普通的模型参数进行限制。
应当指出,在步骤S220中确定的超参数是在对模型进行训练之前初步设置的参数,后续在训练模型过程中还会对这里设置的超参数进行调整和优化。
在一个实施例中,在启停机应用场景下,可以将启停机判断模型的损失函数定义为loss=αloss1+(1-α)loss2形式,其中,loss1表示对于误判启机的损失,loss2表示对于漏判启机的损失,基于该损失函数,减少误判启机的损失势必会增加漏判启机的损失,反之亦然。而在设备健康管理领域,不同的业务需求对误判和漏判两种损失的关注程度不同,因此,需要综合考虑误判和漏判两种损失在实际应用中对企业造成的损失。基于此,对于α这种损失函数中的超参数,需要专家结合经验来设置,超参数α也能反映企业对误判和漏判的偏好。
也就是说,对于一些与实际业务相关联的超参数,本发明根据实际应用场景、结合专家经验来设置超参数的值。
在一种实现方式中,参见以下公式,下式(2.1)表示启停机判断模型的损失函数,其中,超参数ap表示对模型中权重参数的约束,需要专家结合实际应用场景来设置。式(2.3)中的超参数α用来平衡正负样本的比例,在启停机的业务背景下,对于不同的现场设备,设备的启机时间和停机时间的占比并不相同,因此,超参数α也需要专家根据经验来进行设置,例如将α设置为0.8,表示启机样本和停机样本的占比为1:8左右。另外,通过设置系数γ可以更加关注难分样本。
Figure BDA0003189864770000081
Figure BDA0003189864770000082
Figure BDA0003189864770000083
应当指出,在对需要进行约束的普通模型参数进行限制时,正如上式(2.1)所示,在启停机的应用场景下,一些模型参数可能需要满足某些约束,例如,参数vnp需要大于或等于某个常数anp,这些都是专家根据实际应用场景结合经验来设置的对模型参数的约束条件,即设置相应的超参数来对模型参数进行限制,从而更符合实际业务需求。
随后,在步骤S230中,从数据集中获取与模型相对应的训练数据,基于训练数据对模型进行训练,其中包括调整模型参数和超参数。这里,在获取与模型相对应的训练数据后,可以将训练数据进行预处理后输入模型,以便基于预处理后的训练数据对模型进行训练。
需要说明的是,数据集、训练数据均与模型相匹配,对于设备状态监测模型,数据集为相应的设备状态数据集,例如可以为振动状态数据集。训练数据为相应的设备状态训练样本,例如可以实现为振动状态训练样本。
例如,对于启停机判断模型而言,启停机判断模型对应的数据集为启停机数据集,与启停机判断模型相对应的训练数据为启停机训练样本,启停机训练样本包括启机样本和停机样本。基于此,在一个实施例中,在步骤S230中,可以从启停机数据集中获取与启停机判断模型相对应的启停机训练样本(启机样本和停机样本)作为训练数据,通过对启停机训练样本进行预处理后输入启停机判断模型,来对启停机判断模型进行训练,在训练过程中调整启停机判断模型的参数和超参数。
根据一个实施例,在对设备状态监测模型(例如启停机判断模型)进行训练过程中,可以通过最小化损失函数来对模型参数进行调整,以便优化模型参数。
根据一个实施例,可以通过以下方法来调整超参数:
利用随机搜索方法在超参数组合空间中随机搜索,以得到多组超参数组合。这里,通过随机搜索方法来搜索超参数组合,相比于现有技术中常用的网格搜索方法,应用于存在大量超参数的深度学习模型能够极大提升参数搜索效率。
分别基于每组超参数组合来更新模型的一个或多个超参数,并将验证数据输入模型,通过观察确定验证损失。这里,即是,观察确定与基于每组超参数组合更新后的模型相对应的验证损失。需要说明的是,对于设备状态监测模型而言,验证数据可以是从设备状态数据集中获取的设备状态验证数据,具体可以实现为振动状态验证数据。
确定每组超参数组合对应的验证损失是否满足预定损失条件,以便根据验证损失是否满足预定条件来确定较优选的超参数组合。具体地,如果超参数组合对应的验证损失满足预定损失条件,则将相应的超参数组合作为对超参数进行优化后的目标超参数组合。目标超参数组合也即是基于上述方法选择的较优选的超参数组合。可以理解,目标超参数组合中的一个或多个超参数即是对模型中的超参数进行优化后的一个或多个超参数。基于此,实现了对超参数的优化。
通过执行上述方法,能实现在训练模型过程中对超参数进行调整和优化,基于优化后的超参数,有利于提升训练后的模型的性能。
随后,在步骤S240中,利用与模型相对应的测试数据对训练后的模型进行测试,以验证调整后的模型参数和超参数是否满足预定条件。在一个实施例中,可以从数据集中获取与模型相对应的测试数据,进而基于测试数据来对训练后的模型进行测试。这里,预定条件是根据实际业务需求而设置,用于验证调整后的参数是否达到预期。
需要说明的是,这里的数据集、测试数据与模型相匹配,对于设备状态监测模型,数据集为相应的设备状态数据集,例如可以为振动状态数据集。测试数据为相应的设备状态测试样本,例如可以实现为振动状态测试样本。
在一个实施例中,对于启停机判断模型而言,与启停机判断模型相对应的测试数据为启停机测试样本。通过从启停机数据集中获取启停机测试样本,利用启停机测试样本来测试启停机判断模型,并基于设置的预定条件来评价对启停机判断模型的测试记过,即,评价启停机判断模型中的参数设置是否合适。例如,在前文中提到的损失函数中的超参数α和γ、以及模型参数的约束参数α。
如果满足预定条件,则在步骤S250中,确定调整后的模型参数和超参数为模型的最优参数,并基于调整后的模型参数和超参数来更新数据集。具体来说,通过将调整后的模型参数和超参数存储在数据集中,以形成参数集。
应当指出,在确定调整后的模型参数和超参数为模型的最优参数后,通过将调整后的模型参数和超参数作为模型的最优参数,便得到训练好的最优模型。
需要说明的是,在根据本发明的参数调整方法200对模型参数进行调整时,每次都可以针对特定应用场景和业务需求下对模型参数和超参数进行调整,是通过将调整后的模型参数和超参数存储在数据集(例如设备状态数据集)中,便形成了针对某种特定应用场景优化后的、与应用场景相匹配的优选参数集,这样,在下一次便可以在相应的应用场景下,直接从数据集中获取优化后的参数集,从而省去针对该应用场景对参数进行调优的过程。例如,下一次需要利用启停机判断模型来判断设备的启机或停机状态时,便可以直接从启停机数据集中获取对启停机判断模型进行优化后的参数集,从而省去对启停机判断模型进行参数调优的过程。
根据一个实施例,在步骤S250中,首先判断是否达到对模型参数的更新周期,如果达到更新周期,则基于本次调整后的模型参数和超参数来更新数据集,例如更新设备状态数据集。如果未达到更新周期,则直接获取训练好的最优模型。
另外,根据一个实施例,在步骤S240中,如果每组超参数组合对应的验证损失均不满足预定损失条件,则:
确定最小的验证损失对应的一组超参数组合,并基于该超参数组合的空间,在该超参数组合的空间附近重新选取多组超参数组合,基于重新选取的每组超参数组合再次更新模型的一个或多个超参数,并且,基于再次更新的超参数,将验证数据输入模型,观察确定验证损失,并确定与重新选取的每组超参数组合对应的验证损失是否满足预定条件。直至超参数组合对应的验证损失满足预定损失条件时,将当前的超参数组合作为优化后的目标超参数组合,随后可以执行步骤S250。这里,步骤S250的具体执行逻辑参见前文中的描述,此处不再赘述。
根据本发明的方法200,通过结合实际应用场景和专家经验来设置超参数,可以应用于包括多种设备状态监测模型在内的各种各样深度模型的参数调优,并使得模型在实际应用中能够获得最优表现。其中,利用随机搜索方法在超参数组合空间中随机搜索超参数组合,来更新模型的超参数,并验证更新超参数后的模型的验证损失是否满足预定损失条件,这样,能够在尽可能缩短搜索时间的情况下迅速得到最优的超参数组合,提高了对模型的超参数进行优化的效率。
A9、如A1-A8中任一项所述的方法,其中,基于所述调整后的模型参数和超参数来更新数据集包括:将所述调整后的模型参数和超参数存储在数据集中,以形成参数集。
A10、如A1-A9中任一项所述的方法,其中,在利用测试数据对训练后的模型进行测试之前,包括步骤:从数据集中获取与所述模型相对应的测试数据。
A11、如A1-A10中任一项所述的方法,其中,如果满足预定条件,还包括步骤:将所述调整后的模型参数和超参数作为所述模型的最优参数,以得到训练好的最优模型。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的多语言垃圾文本的识别方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种模型的参数调整方法,在计算设备中执行,所述方法包括步骤:
确定模型中待优化的一个或多个超参数以及损失函数;
基于实际应用场景确定一个或多个超参数的值,以便基于所述一个或多个超参数的值来对模型参数进行限制;
从数据集中获取与所述模型相对应的训练数据,所述训练数据为设备状态训练样本,基于所述训练数据对所述模型进行训练,其中包括调整模型参数和超参数;
利用测试数据对训练后的模型进行测试,以验证调整后的模型参数和超参数是否满足预定条件,其中所述测试数据为设备状态测试数据;以及
如果满足预定条件,则确定所述调整后的模型参数和超参数为最优参数,并基于所述调整后的模型参数和超参数来更新数据集。
2.如权利要求1所述的方法,其中,调整模型参数包括:通过最小化损失函数来对所述模型参数进行调整。
3.如权利要求1所述的方法,其中,调整超参数的步骤包括:
利用随机搜索方法在超参数组合空间中随机搜索,以得到多组超参数组合;
分别基于每组超参数组合来更新模型的一个或多个超参数,并将验证数据输入模型,以确定验证损失,其中所述验证数据为设备状态验证数据;
确定每组超参数组合对应的验证损失是否满足预定损失条件,如果满足预定损失条件,则将相应的超参数组合作为目标超参数组合。
4.如权利要求3所述的方法,其中,还包括步骤:
如果每组超参数组合对应的验证损失均不满足预定损失条件,则:
确定最小的验证损失对应的一组超参数组合,并基于该超参数组合的空间重新选取多组超参数组合,基于重新选取的每组超参数组合来更新模型的一个或多个超参数;
直至验证损失满足预定损失条件时,将当前的超参数组合作为目标超参数组合。
5.如权利要求1-4中任一项所述的方法,其中,所述模型为设备状态监测模型,所述数据集为设备状态数据集。
6.如权利要求1-5中任一项所述的方法,其中,
所述设备状态训练样本为振动状态训练样本,
所述设备状态测试样本为振动状态测试样本。
7.如权利要求1-6中任一项所述的方法,其中,
所述模型为启停机判断模型,所述训练数据为启停机训练样本,启停机训练样本包括启机样本和停机样本;
所述启停机判断模型中待优化的超参数包括网络层数、网络节点数、学习率、以及损失函数中的超参数。
8.如权利要求1-7中任一项所述的方法,其中,在确定模型中待优化的一个或多个超参数以及损失函数之前,包括步骤:
构建一个或多个模型,所述模型包括设备状态监测模型。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述的方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述方法。
CN202110873240.2A 2021-07-30 2021-07-30 一种模型的参数调整方法及计算设备 Active CN113536690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110873240.2A CN113536690B (zh) 2021-07-30 2021-07-30 一种模型的参数调整方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110873240.2A CN113536690B (zh) 2021-07-30 2021-07-30 一种模型的参数调整方法及计算设备

Publications (2)

Publication Number Publication Date
CN113536690A true CN113536690A (zh) 2021-10-22
CN113536690B CN113536690B (zh) 2024-02-27

Family

ID=78089939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110873240.2A Active CN113536690B (zh) 2021-07-30 2021-07-30 一种模型的参数调整方法及计算设备

Country Status (1)

Country Link
CN (1) CN113536690B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408031A (zh) * 2016-09-29 2017-02-15 南京航空航天大学 一种最小二乘支持向量机的超参优化方法
CN108898222A (zh) * 2018-06-26 2018-11-27 郑州云海信息技术有限公司 一种自动调节网络模型超参数的方法和装置
KR20190048895A (ko) * 2017-10-31 2019-05-09 삼성에스디에스 주식회사 하이퍼파라미터 자동 최적화 방법 및 그 장치
CN110598842A (zh) * 2019-07-17 2019-12-20 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质
CN112232508A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种模型的训练方法、系统、设备以及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408031A (zh) * 2016-09-29 2017-02-15 南京航空航天大学 一种最小二乘支持向量机的超参优化方法
KR20190048895A (ko) * 2017-10-31 2019-05-09 삼성에스디에스 주식회사 하이퍼파라미터 자동 최적화 방법 및 그 장치
CN108898222A (zh) * 2018-06-26 2018-11-27 郑州云海信息技术有限公司 一种自动调节网络模型超参数的方法和装置
CN110598842A (zh) * 2019-07-17 2019-12-20 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质
CN112232508A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种模型的训练方法、系统、设备以及介质

Also Published As

Publication number Publication date
CN113536690B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN105183923B (zh) 新词发现方法及装置
CN107346448B (zh) 基于深度神经网络的识别装置、训练装置及方法
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
CN105389349B (zh) 词典更新方法及装置
US11755641B2 (en) Image searches based on word vectors and image vectors
WO2020140073A1 (en) Neural architecture search through a graph search space
WO2021051586A1 (zh) 面试回答文本的分类方法及装置、电子设备、存储介质
CN112687266B (zh) 语音识别方法、装置、计算机设备和存储介质
AU2020103810A4 (en) A method for detecting fake news using grammatic transformation on neural network computer readable medium
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN112669143A (zh) 基于关联网络的风险评估方法、装置、设备以及存储介质
CN115577858A (zh) 基于区块链的碳排放量预测方法、装置及电子设备
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN114626552A (zh) 机器学习模型的切分方法和装置
KR101866866B1 (ko) 부호화된 네트워크에서의 개인화된 랭킹 방법, 이를 수행하기 위한 기록 매체 및 장치
US8756093B2 (en) Method of monitoring a combined workflow with rejection determination function, device and recording medium therefor
CN112988275B (zh) 一种基于任务感知的移动边缘计算多用户计算卸载方法
WO2022121164A1 (zh) 封停敏感词预测方法、装置、计算机设备及存储介质
CN113536690B (zh) 一种模型的参数调整方法及计算设备
CN113449089A (zh) 一种查询语句的意图识别方法、问答方法及计算设备
US20230196109A1 (en) Non-transitory computer-readable recording medium for storing model generation program, model generation method, and model generation device
CN116128044A (zh) 一种模型剪枝方法、图像处理方法及相关装置
CN115345303A (zh) 卷积神经网络权重调优方法、装置、存储介质和电子设备
CN113157582B (zh) 测试脚本执行序列确定方法及装置
CN111428224A (zh) 基于人脸识别的电脑账户登录的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant