CN117494119B - 一种基于群智能优化算法的模型构建方法及装置 - Google Patents
一种基于群智能优化算法的模型构建方法及装置 Download PDFInfo
- Publication number
- CN117494119B CN117494119B CN202311810470.XA CN202311810470A CN117494119B CN 117494119 B CN117494119 B CN 117494119B CN 202311810470 A CN202311810470 A CN 202311810470A CN 117494119 B CN117494119 B CN 117494119B
- Authority
- CN
- China
- Prior art keywords
- model
- parameter
- iterative
- candidate
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 94
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 31
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000005540 biological transmission Effects 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于群智能优化算法的模型构建方法及装置,所述方法包括:基于群智能优化算法配置多组参数种子;训练每组参数种子下的候选模型,根据优化指标从候选模型中选取不同等级的各个模型;更新各个模型对应的参数种子,基于参数种子迭代训练各个模型;当满足迭代条件时,停止迭代训练,将优化指标最优的迭代模型参数种子作为优解参数,根据优解参数构建数据安全识别模型。本发明基于群智能优化算法通过对不同等级模型模型对应参数种子的不断更新和迭代训练,实现在解空间内进行启发式搜索和并行计算,得到全局优解参数,从而在提高模型的收敛速度、减小模型训练时间的同时实现全局搜索最优,提高模型效果。
Description
技术领域
本发明涉及计算机处理技术领域,具体而言,涉及一种基于群智能优化算法的模型构建方法、装置、电子设备及计算机可读介质。
背景技术
集群是将一组相互独立的终端(比如计算机)利用高速通信网络组成的一个较大的服务系统。集群中的终端之间可以彼此通信,协同向用户提供应用程序,系统资源和数据。因此,这些终端在数据传输过程中的数据安全就显得尤为重要。
现有技术中可以通过机器学习来识别传输数据的安全性,这种方式所采用的机器模型需要通过多次迭代训练来更新参数得到。而在模型训练过程中,需要通过循环遍历的方式在所有候选的参数中穷举搜索,得到最优的模型参数。显然,这种方式迭代次数过多,会影响模型的收敛速度、增加模型训练时间,同时也会使模型陷入局部最优,影响模型对传输的数据的识别效果。
发明内容
有鉴于此,本发明主要目的在于提出一种基于群智能优化算法的模型构建方法、装置、电子设备及计算机可读介质,以期至少部分地解决上述技术问题中的至少之一。
为了解决上述技术问题,本发明第一方面提出一种基于群智能优化算法的模型构建方法,所述方法包括:
基于群智能优化算法配置多组参数种子;
训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;
更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;
当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型。
根据本发明一种优选实施方式,所述更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合包括:
根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子;
迭代训练每组更新后的参数种子下的更新模型,根据优化指标从更新模型中选取第一迭代模型、第二迭代模型和第三迭代模型,并将其余更新模型中的两个或多个组成第四迭代模型集合。
根据本发明一种优选实施方式,所述根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子包括:
更新搜索参数;
根据搜索参数搜索第一候选模型、第二候选模型和第三候选模型;
根据第一候选模型与第一模型之间的参数种子距离、第二候选模型与第二模型之间的参数种子距离,以及第三候选模型与第三模型之间的参数种子距离分别更新第一模型、第二模型、第三模型及第四模型集合对应的参数种子。
根据本发明一种优选实施方式,所述优化指标为模型评估指标,则:
训练每组参数种子下的模型作为候选模型,将模型评估指标前三的候选模型依次作为第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;
当满足迭代条件时,停止迭代训练,将第一迭代模型对应的参数种子作为优解参数。
为解决上述技术问题,本发明第二方面提供一种基于群智能优化算法的模型构建装置,所述装置包括:
配置模块,用于基于群智能优化算法配置多组参数种子;
训练模块,用于训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;
迭代模块,用于更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;
构建模块,用于当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型。
根据本发明一种优选实施方式,所述迭代模块包括:
更新模块,用于根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子;
子迭代模块,用于迭代训练每组更新后的参数种子下的更新模型,根据优化指标从更新模型中选取第一迭代模型、第二迭代模型和第三迭代模型,并将其余更新模型中的两个或多个组成第四迭代模型集合。
根据本发明一种优选实施方式,所述更新模块包括:
第一更新模块,用于更新搜索参数;
搜索模块,用于根据搜索参数搜索第一候选模型、第二候选模型和第三候选模型;
第二更新模块,用于根据第一候选模型与第一模型之间的参数种子距离、第二候选模型与第二模型之间的参数种子距离,以及第三候选模型与第三模型之间的参数种子距离分别更新第一模型、第二模型、第三模型及第四模型集合对应的参数种子。
根据本发明一种优选实施方式,所述优化指标为模型评估指标,则:
训练模块,训练每组参数种子下的模型,将模型评估指标前三的模型依次作为第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;
构建模块,当满足迭代条件时,停止迭代训练,将第一迭代模型对应的参数种子作为优解参数。
为解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述任一项所述的方法。
为解决上述技术问题,本发明第四方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。
本发明通过配置多组参数种子,并训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;通过对各个模型对应参数种子的不断更新,分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;从而自适应的调整收敛因子以及信息反馈机制,在局部寻优与全局搜索之间实现平衡,实现在解空间内进行启发式搜索和并行计算,得到全局优解参数,当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型;通过所述数据安全识别模型对待识别主体进行识别,以确定所述待识别主体的状态。从而在提高模型的收敛速度、减小模型训练时间的同时避免局部搜索最优、实现全局搜索最优,提高模型效果。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明实施例一种基于群智能优化算法的模型构建方法的流程示意图;
图2是本发明实施例一种基于群智能优化算法的模型构建装置的结构框架示意图;
图3是根据本发明的电子设备的示例性实施例的结构框图;
图4是本发明一种计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
请参阅图1,图1是本发明提供的一种基于群智能优化算法的模型构建方法,如图1所示,所述方法包括:
S1、基于群智能优化算法配置多组参数种子;
其中:参数种子用于控制模型参数优化的范围,示例性的,参数种子可以包括:优化的参数个数,各个参数的优化区间,等等。则配置的多组参数种子可以包括不同的参数个数,但各参数的优化区间相同;或者,配置的多组参数种子可以包括相同的参数个数,但至少一个参数的优化区间不同相同;或者,配置的多组参数种子可以包括不同相同的参数个数,且至少一个参数的优化区间不同相同;只要保证每组参数种子不同即可。
群智能优化算法主要有两种算法:蚁群算法和粒子群算法。蚁群算法是对蚂蚁群落食物采集过程的模拟,已成功应用于许多离散优化问题。粒子群优化算法也是起源于对简单社会系统的模拟,最初是模拟鸟群觅食的过程,但后来发现它是一种很好的优化工具。
以Xgboost模型为例,优化的参数可以包括:学习率、迭代器个数、树的最大深度、树的最小节点权重、子采样的比例、列采样的比例、惩罚系数,等等。其中:学习率的优化区间为(0.01,1),迭代器个数的优化区间(50,300),树的最大深度的优化区间为(2,7), 最小节点权重的优化区间为(0,10), 子采样比例的优化区间为(0.5,1),列采样比例的优化区间为(0.5,1),惩罚系数gamma的优化区间为(0,1)。则可以根据上述优化参数及各个参数的优化区间配置多组参数种子,比如:每组参数种子包含从上述7个优化参数中选取的6个优化参数,各个参数的优化区间相同。
S2、训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;
本实施例中,优化指标用于衡量对参数种子优化的效果,示例性的,优化指标可以采样模型评估指标,比如:MSE(Mean Square Error,均方误差)、RMSE(Root Mean SquareError,均方根误差)、R2(R-Square,决定系数)、MAE(Mean Absolute Error,平均绝对值误差)、VAF(Variant Allele Frequency,变异等位基因频率)。
则在本步骤中,训练每组参数种子下的模型,得到多个候选模型;获取各个候选模型的模型评估指标,将候选模型中评估指标最优的模型作为第一模型、将候选模型中评估指标仅次于第一模型的模型作为第二模型,将候选模型中评估指标次于仅次于第一模型和第二模型的模型作为第三模型,并将候选模型中其余模型中的两个或多个组成第四模型集合,具体的,可以将候选模型中的其余模型组成第四模型集合;这样,第一模型、第二模型和第三模型分别对应本次训练中效果前三的模型,效果在第三名之后的模型均收集到第四模型集合中,供后续进行迭代优化。
S3、更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;
本实施例通过不断更新每次训练的模型参数种子,在每次更新过程中,潜在优解参数落在第一模型、第二模型和第三模型的参数种子定义的随机圆内,第四模型集合中的候选模型对应的参数种子在当前第一模型、第二模型和第三模型参数种子的限制下在潜在优解参数的预设范围内随机更新;进而根据更新后的参数种子不断的迭代训练得到第一迭代模型、第二迭代模型和第三迭代模型,以及第四迭代模型集合。如此,不断循环迭代训练,递进到最优模型,进而搜索到优解参数。示例性的,本步骤可以包括:
S31、根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子;
示例性的,本步骤可以先更新搜索参数;通过搜索参数可以搜索到落在第一模型、第二模型和第三模型的参数种子定义的随机圆内的三个参数种子对应的第一候选模型、第二候选模型和第三候选模型;再根据第一候选模型与第一模型之间的参数种子距离、第二候选模型与第二模型之间的参数种子距离,以及第三候选模型与第三模型之间的参数种子距离更新第一模型、第二模型分别更新第一模型、第二模型及第三模型对应的参数种子,以及第四模型集合中各个模型对应参数种子。比如:第四模型集合中的模型参数种子根据第一模型、第二模型和第三模型参数种子在潜在优解参数的预设范围内随机更新。
在一种具体实施方式中,可以通过以下公式更新各个模型对应的参数种子;
;/>;/>;
;/>;/>;
。
其中:、/>、/>分别表示当前第一模型、当前第二模型、当前第三模型的参数种子对应的向量;/>表示候选模型参数种子对应的向量,/>、/>、/>分别表示当前候选模型参数种子与当前第一模型参数种子向量、当前第二模型参数种子向量、当前第三模型参数种子向量之间的距离;t表示迭代次数,/>表示hadamard 乘积操作。
A1、A2、A3、C1、C2、C3为搜索参数;其中:;/>;/>和/>是[0,1]之间的随机向量;A是一个在区间[-a,a]上的随机向量,其中a在迭代过程中呈线性下降。当/>时,分散在各个区域并搜寻候选模型参数种子,从而可以实现全局搜索,以避免陷入局部最优;当/>时,其中搜索某个或某些区域的候选模型参数种子。C是在[0,2]之间的随机向量,表示当前候选参数种子对优解参数影响的随机权重,C>1表示影响权重大,反之,表示影响权重小。此外,C是非线性减小的,这样,从最初的迭代到最终的迭代过程中,C提供了决策空间中的全局搜索。相较于传统的群优化算法,上述算法受到了捕食猎物活动的启发而开发的一种优化搜索方法,它具有较强的收敛性能、参数少、易实现等特点。
S32、迭代训练每组更新后的参数种子下的更新模型,根据优化指标从更新模型中选取第一迭代模型、第二迭代模型和第三迭代模型,并将其余更新模型中的两个或多个组成第四迭代模型集合。
示例性的,以模型评估指标作为优化指标为例,分别在第一模型、第二模型、第三模型及第四模型集合的基础上,采用各个模型更新后的参数种子迭代训练,分别得到多个更新模型。计算各个更新模型的模型评估指标,将模型评估指标前三的更新模型依次作为第一迭代模型、第二迭代模型和第三迭代模型,将更新模型中的其余模型中的两个或多个组成第四迭代模型集合,具体的,可以将更新模型中的其余模型组成第四迭代模型集合。
此后,判断本次迭代训练是否满足迭代条件,若不满足,循环执行S31和S32进行迭代训练;若满足,执行步骤S4。
本实施例中,第一模型、第二模型、第三模型和第四模型集合是上一次迭代训练得到的,第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合是本次迭代训练得到的。
S4、当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型;
其中:迭代条件可以预先配置,比如:达到预设迭代次数时满足迭代条件,或者,本次迭代训练得到的第一迭代模型的参数种子向量与原始参数种子向量距离大于等于阈值时满足迭代条件。
示例性的,优化指标可以采用模型评估指标,且第一迭代模型、第二迭代模型和第三迭代模型分别依次对应模型评估指标前三的更新模型,这样,在每次迭代训练中,第一迭代模型为最优模型,则当满足迭代条件时,停止迭代训练,将第一迭代模型对应的参数种子作为优解参数。
具体的,将优化指标最优的迭代模型对应的参数种子作为最优参数,即本实施例中的优解参数。
本实施例中,构建的数据安全识别模型可以是深度学习模型,比如:卷积神经网络模型、深度信任网络模型,等等。深度学习模型在上述优解参数下完成模型训练,训练好的深度学习模型可以应用于文字、语音、图像等的识别中。构建的数据安全识别模型也可以是集成提升树模型,比如:GBDT、Xgboost、Lightgbm等。集成提升树模型在决策树迭代过程中采用上述优解参数完成模型训练。训练好的数据安全识别模型可用于对终端的数据安全进行识别。
进一步的,所述方法还可以包括:
S5、通过所述数据安全识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
本实施例中,主体可以是集群中的终端或者服务器,其中:集群是将一组相互独立的终端或服务器(比如计算机)利用高速通信网络组成的一个较大的服务系统。集群中的终端或服务器之间可以彼此通信,协同向用户提供应用程序,系统资源和数据。所述状态样本数据可以根据待识别主体的状态类型确定,比如:需要识别终端之间的传输数据是否安全,则状态样本数据可以是终端之间的数据传输行为数据,其可以包括:传输时间、传输信道、以及输出数据的终端设备信息,等等,所述终端设备信息可以是终端选择公开的属性信息,比如:终端位置信息、终端通讯信息、终端型号、终端用户的信用信息,等等。进一步,可以根据数据是否安全为对应的数据传输行为打上标签,以提高模型的训练效果。
训练好的数据安全识别模型能够根据数据的传输行为进行分析来识别传输数据是否安全。因此,可以将待识别终端的数据传输行为数据输入数据安全识别模型中,确定终端的传输数据是否安全。
进一步,若终端的传输数据不安全,可以终止数据传输,并对输出当前数据的终端进行管控,避免不安全数据向其他终端的传输造成的安全隐患。
本实施例还基于大量实验数据对本发明基于群智能优化算法的模型构建方法进行验证。将本发明基于群智能优化算法的模型构建方法、网格搜索法和随机搜索法应用于Xgboost模型的七个重要参数优化中。其中:七个参数包括:学习率优化区间为(0.01,1),迭代器个数优化区间为(50,300),树的最大深度优化区间为(2,7), 最小节点权重的优化区间为(0,10), 子采样比例的优化区间为(0.5,1),列采样比例的优化区间为(0.5,1),惩罚系数gamma的优化区间为(0,1)。在使用网格搜索法时,每个参数取6组,且采用先调试一个参数,固定调试好的参数再调试另一个参数的方法进行搜索。
将优化后训练得到的数据安全识别模型对测试集进行主体状态识别后得到RMSE、R2、MAE和VAF的测试结果入表1所示,可以明显看出,通过本发明优化训练出的模型各个评估指标均优于网格搜索法和随机搜索法优化训练出的模型。
表1不同参数优化方法训练好的模型效果
通过上述大量的实验表明,利用本发明基于群智能优化算法的模型构建方法可以加速和优化调参过程,使优解参数具有全局搜索最优,提高模型效果,从而提高优化速度和效果,提高主体状态识别的准确性,提升主体之间的数据安全性。
图2是本发明一种基于群智能优化算法的模型构建装置,如图2所示,所述装置包括:
配置模块21,用于配置多组参数种子;
训练模块22,用于训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;
迭代模块23,用于更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;
构建模块24,用于当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型;
进一步的,所述装置还可以包括:
识别模块25,用于通过所述数据安全识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
在一种示例中,所述迭代模块23包括:
更新模块,用于根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子;
子迭代模块,用于迭代训练每组更新后的参数种子下的更新模型,根据优化指标从更新模型中选取第一迭代模型、第二迭代模型和第三迭代模型,并将其余更新模型中的两个或多个组成第四迭代模型集合。
进一步的,所述更新模块包括:
第一更新模块,用于更新搜索参数;
搜索模块,用于根据搜索参数搜索第一候选模型、第二候选模型和第三候选模型;
第二更新模块,用于根据第一候选模型与第一模型之间的参数种子距离、第二候选模型与第二模型之间的参数种子距离,以及第三候选模型与第三模型之间的参数种子距离分别更新第一模型、第二模型、第三模型及第四模型集合对应的参数种子。
在一种示例中,所述优化指标为模型评估指标,则:
训练模块22,训练每组参数种子下的模型,将模型评估指标前三的模型依次作为第一模型、第二模型和第三模型,并将其余模型组成第四模型集合;
构建模块24,当满足迭代条件时,停止迭代训练,将第一迭代模型对应的参数种子作为优解参数。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图3是根据本发明的一种电子设备的示例性实施例的结构框图。图3显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,该示例性实施例的电子设备300以通用数据处理设备的形式表现。电子设备300的组件可以包括但不限于:至少一个处理单元310、至少一个存储单元320、连接不同电子设备组件(包括存储单元320和处理单元310)的总线330、显示单元340等。
其中,所述存储单元320存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元310执行,使得所述处理单元310执行本发明各种实施方式的步骤。例如,所述处理单元310可以执行如图1所示的步骤。
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备300也可以与一个或多个外部设备100(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备100与该电子设备300交互,和/或使得该电子设备300能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口350进行,还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络。网络适配器360可以通过总线330与电子设备300的其它模块通信。
图4是本发明的一个计算机可读介质实施例的示意图。如图4所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:配置多组参数种子;训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的两个或多个组成第四模型集合;更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型;通过所述数据安全识别模型对待识别主体进行识别,以确定所述待识别主体的状态。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于群智能优化算法的模型构建方法,其特征在于,所述方法包括:
基于群智能优化算法配置多组参数种子;
获取终端之间的数据传输行为数据,所述数据传输行为数据包括:传输时间、传输信道和输出数据的终端设备信息;
根据所述终端之间传输的数据是否安全为对应的数据传输行为数据打上标签,并基于所述数据传输行为数据和标签训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的多个组成第四模型集合;
更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;
当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型;
通过训练好的数据安全识别模型对待识别终端的数据传输行为数据进行识别,以确定所述待识别终端的状态。
2.根据权利要求1所述的方法,其特征在于,所述更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合包括:
根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子;
迭代训练每组更新后的参数种子下的更新模型,根据优化指标从更新模型中选取第一迭代模型、第二迭代模型和第三迭代模型,并将其余更新模型中的多个组成第四迭代模型集合。
3.根据权利要求2所述的方法,其特征在于,所述根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子包括:
更新搜索参数;
根据搜索参数搜索第一候选模型、第二候选模型和第三候选模型;
根据第一候选模型与第一模型之间的参数种子距离、第二候选模型与第二模型之间的参数种子距离,以及第三候选模型与第三模型之间的参数种子距离分别更新第一模型、第二模型、第三模型及第四模型集合对应的参数种子。
4.根据权利要求1所述的方法,其特征在于:所述优化指标为模型评估指标,则:
训练每组参数种子下的模型作为候选模型,将模型评估指标前三的候选模型依次作为第一模型、第二模型和第三模型,并将其余候选模型中的多个组成第四模型集合;
当满足迭代条件时,停止迭代训练,将第一迭代模型对应的参数种子作为优解参数。
5.一种基于群智能优化算法的模型构建装置,其特征在于,所述装置包括:
配置模块,用于基于群智能优化算法配置多组参数种子;
训练模块,用于获取终端之间的数据传输行为数据,所述数据传输行为数据包括:传输时间、传输信道和输出数据的终端设备信息;根据所述终端之间传输的数据是否安全为对应的数据传输行为数据打上标签,并基于所述数据传输行为数据和标签训练每组参数种子下的模型作为候选模型,根据优化指标从候选模型中选取第一模型、第二模型和第三模型,并将其余候选模型中的多个组成第四模型集合;
迭代模块,用于更新各个模型对应的参数种子,并根据更新后的各组参数种子分别迭代训练得到第一迭代模型、第二迭代模型、第三迭代模型和第四迭代模型集合;
构建模块,用于当满足迭代条件时,停止迭代训练,选取优化指标符合优解条件的迭代模型对应的参数种子作为优解参数,并根据所述优解参数构建数据安全识别模型;
识别模块,用于通过训练好的数据安全识别模型对待识别终端的数据传输行为数据进行识别,以确定所述待识别终端的状态。
6.根据权利要求5所述的装置,其特征在于,所述迭代模块包括:
更新模块,用于根据第一模型、第二模型和第三模型对应的参数种子分别更新各个模型对应的参数种子;
子迭代模块,用于迭代训练每组更新后的参数种子下的更新模型,根据优化指标从更新模型中选取第一迭代模型、第二迭代模型和第三迭代模型,并将其余更新模型中的多个组成第四迭代模型集合。
7.根据权利要求6所述的装置,其特征在于,所述更新模块包括:
第一更新模块,用于更新搜索参数;
搜索模块,用于根据搜索参数搜索第一候选模型、第二候选模型和第三候选模型;
第二更新模块,用于根据第一候选模型与第一模型之间的参数种子距离、第二候选模型与第二模型之间的参数种子距离,以及第三候选模型与第三模型之间的参数种子距离分别更新第一模型、第二模型、第三模型及第四模型集合对应的参数种子。
8.根据权利要求5所述的装置,其特征在于:所述优化指标为模型评估指标,则:
训练模块,训练每组参数种子下的模型,将模型评估指标前三的模型依次作为第一模型、第二模型和第三模型,并将其余候选模型中的多个组成第四模型集合;
构建模块,当满足迭代条件时,停止迭代训练,将第一迭代模型对应的参数种子作为优解参数。
9.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311810470.XA CN117494119B (zh) | 2023-12-27 | 2023-12-27 | 一种基于群智能优化算法的模型构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311810470.XA CN117494119B (zh) | 2023-12-27 | 2023-12-27 | 一种基于群智能优化算法的模型构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117494119A CN117494119A (zh) | 2024-02-02 |
CN117494119B true CN117494119B (zh) | 2024-03-22 |
Family
ID=89667576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311810470.XA Active CN117494119B (zh) | 2023-12-27 | 2023-12-27 | 一种基于群智能优化算法的模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117494119B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055639B1 (en) * | 2020-04-28 | 2021-07-06 | Sas Institute Inc. | Optimizing manufacturing processes using one or more machine learning models |
CN113962278A (zh) * | 2021-01-12 | 2022-01-21 | 大连理工大学 | 基于聚类的智能集成学习分类方法 |
CN114398834A (zh) * | 2022-01-18 | 2022-04-26 | 中国科学院半导体研究所 | 粒子群优化算法模型的训练方法、粒子群优化方法及装置 |
CN115795303A (zh) * | 2022-10-13 | 2023-03-14 | 上海淇玥信息技术有限公司 | 一种搜索动态学习率的客户端状态识别方法及装置 |
CN116702678A (zh) * | 2023-08-02 | 2023-09-05 | 华南理工大学 | 一种融合深度学习和群智能算法的dtco优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114078195A (zh) * | 2020-08-07 | 2022-02-22 | 华为技术有限公司 | 分类模型的训练方法、超参数的搜索方法以及装置 |
-
2023
- 2023-12-27 CN CN202311810470.XA patent/CN117494119B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055639B1 (en) * | 2020-04-28 | 2021-07-06 | Sas Institute Inc. | Optimizing manufacturing processes using one or more machine learning models |
CN113962278A (zh) * | 2021-01-12 | 2022-01-21 | 大连理工大学 | 基于聚类的智能集成学习分类方法 |
CN114398834A (zh) * | 2022-01-18 | 2022-04-26 | 中国科学院半导体研究所 | 粒子群优化算法模型的训练方法、粒子群优化方法及装置 |
CN115795303A (zh) * | 2022-10-13 | 2023-03-14 | 上海淇玥信息技术有限公司 | 一种搜索动态学习率的客户端状态识别方法及装置 |
CN116702678A (zh) * | 2023-08-02 | 2023-09-05 | 华南理工大学 | 一种融合深度学习和群智能算法的dtco优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117494119A (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12059619B2 (en) | Information processing method and apparatus, computer readable storage medium, and electronic device | |
CN111124840A (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
CN105488528B (zh) | 基于改进自适应遗传算法的神经网络图像分类方法 | |
CA3080050A1 (en) | Training tree-based machine-learning modeling algorithms for predicting outputs and generating explanatory data | |
EP4105835A1 (en) | Neural network architecture search method and apparatus, device and medium | |
CN110795569B (zh) | 知识图谱的向量表示生成方法、装置及设备 | |
CN110781406B (zh) | 一种基于变分自动编码器的社交网络用户多属性推断方法 | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
CN109934330A (zh) | 基于多样化种群的果蝇优化算法来构建预测模型的方法 | |
CN111245667A (zh) | 网络业务识别方法及装置 | |
US20240193520A1 (en) | Decision flowchart-based environmental modeling method and apparatus, and electronic device | |
CN113128671B (zh) | 一种基于多模态机器学习的服务需求动态预测方法及系统 | |
CN113409898B (zh) | 分子结构获取方法、装置、电子设备及存储介质 | |
WO2022068934A1 (en) | Method of neural architecture search using continuous action reinforcement learning | |
CN115130536A (zh) | 特征提取模型的训练方法、数据处理方法、装置及设备 | |
CN114781692A (zh) | 短期电力负荷预测方法、装置及电子设备 | |
Lepers et al. | Inference with selection, varying population size, and evolving population structure: application of ABC to a forward–backward coalescent process with interactions | |
CN113077237B (zh) | 一种自适应混合算法的排课方法及系统 | |
CN110688484A (zh) | 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法 | |
CN112200208B (zh) | 基于多维度特征融合的云工作流任务执行时间预测方法 | |
CN117494119B (zh) | 一种基于群智能优化算法的模型构建方法及装置 | |
CN111415265A (zh) | 生成式对抗网络的社交关系数据生成方法 | |
CN114445692B (zh) | 图像识别模型构建方法、装置、计算机设备及存储介质 | |
CN113554144B (zh) | 用于多目标进化特征选择算法的自适应种群初始化方法和存储设备 | |
CN115795303A (zh) | 一种搜索动态学习率的客户端状态识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |