CN114501515A - 模型训练方法和装置、电子设备、计算机可读存储介质 - Google Patents
模型训练方法和装置、电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN114501515A CN114501515A CN202011259760.6A CN202011259760A CN114501515A CN 114501515 A CN114501515 A CN 114501515A CN 202011259760 A CN202011259760 A CN 202011259760A CN 114501515 A CN114501515 A CN 114501515A
- Authority
- CN
- China
- Prior art keywords
- label
- model
- label sample
- classification model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013145 classification model Methods 0.000 claims abstract description 212
- 230000009467 reduction Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 description 28
- 238000012360 testing method Methods 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000000513 principal component analysis Methods 0.000 description 13
- 238000007637 random forest analysis Methods 0.000 description 12
- 239000000126 substance Substances 0.000 description 12
- 238000009826 distribution Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 102100039358 3-hydroxyacyl-CoA dehydrogenase type-2 Human genes 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 101001035740 Homo sapiens 3-hydroxyacyl-CoA dehydrogenase type-2 Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种模型训练方法和装置、电子设备、计算机可读存储介质,模型训练方法包括:获取第一区域的第一标签样本和第一标签样本所属的类别;根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型;其中,基础分类模型为适用于第二区域的分类模型,最终分类模型为适用于第一区域的分类模型。
Description
技术领域
本申请实施例涉及通讯领域,特别涉及模型训练方法和装置、电子设备、计算机可读存储介质。
背景技术
随着通信技术的高速发展,用户的要求也在不断提高,通信系统作为一种高度复杂且集成化的系统,如果某一部分出现故障,将对整个系统的正常运行造成严重影响。因此,对于问题小区,如何进行快速的检测识别,保证系统的稳定性是业界一个急需解决的问题。
目前的故障检测技术往往都是通过对设备的实时检测以及专家的经验在进行分析,通常需要大量的人力投入,对无线网络运维的要求极高。在相关的一些技术中也有采用大数据进行分析,结合人工智能(AI,ArtificialIntelligence)方法训练得到相关模型。但是在通信领域中,模型往往在某地适用,但是切换到另一个地方,由于地理位置、用户习惯、组网方式、设备结构、天气等诸多因素的变化,导致在某地适用的模型无法在另一个地方适用。由于标签样本的获取难度很大,难以在另一个地方重新收集标签样本,因此也难以重新训练模型。
发明内容
本申请实施例提供一种模型训练方法和装置、电子设备、计算机可读存储介质。
第一方面,本申请实施例提供一种模型训练方法,包括:
获取第一区域的第一标签样本以及所述第一标签样本所属的类别;
根据所述第一标签样本所属的类别,使用所述第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型;其中,所述基础分类模型为适用于第二区域的分类模型,所述最终分类模型为适用于所述第一区域的分类模型。
第二方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;
存储器,存储器上存储有至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,实现上述任意一种模型训练方法。
第三方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种模型训练方法。
本申请实施例提供的模型训练方法,先获取第一区域的第一标签样本以及所述第一标签样本所属的类别,然后基于第一标签样本所属的类别,使用第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型,由于最终分类模型是对基础分类模型进行模型的再次训练得到的,而不是进行模型的重新训练得到的,因此,并不需要获取第一区域过多的标签样本就能实现对适用于第一区域的分类模型的训练,也就是采用少量的第一标签样本对基础分类模型进行模型的再次训练就能得到最终分类模型,简单地实现了不同区域的模型训练。
附图说明
图1为本申请一个实施例提供的模型训练方法的流程图;
图2为本申请实施例的模型训练方法的示意图;
图3为本申请另一个实施例提供的模型训练装置的组成框图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,下面结合附图对本申请提供的模型训练方法和装置、电子设备、计算机可读存储介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本申请透彻和完整,并将使本领域技术人员充分理解本申请的范围。
在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括至少一个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加至少一个其它特征、整体、步骤、操作、元件、组件和/或其群组。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
图1为本申请一个实施例提供的模型训练方法的流程图。
第一方面,参照图1,本申请一个实施例提供一种模型训练方法,包括:
步骤100、获取第一区域的第一标签样本和第一标签样本所属的类别。
在一些示例性实施例中,第一区域可以是任何区域,可以预先设定。
在一些示例性实施例中,可以采用本领域技术人员熟知的任意一种方法来获取第一区域的第一标签样本和第一标签样本所属的类别。具体的获取方式不用于限定本申请实施例的保护范围。
在一些示例性实施例中,由于通常情况下,需要人工确定第一标签样本所属的类别,因此,为了节省人工标记(即标记标签样本所属的类别)的工作量,可以实现标记的自动化,具体为:获取第一区域的第二标签样本,根据第二区域的第三标签样本和第三标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别。也就是说,如图2所示,获取第一区域的第一标签样本和第一标签样本所属的类别包括:
获取第一区域的第二标签样本;
根据第二区域的第三标签样本和第三标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别。
在一些示例性实施例中,根据第二区域的第三标签样本和第三标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别包括:
确定与第二标签样本相似度最高的K个所述第三标签样本;其中,K为大于或等于2的整数;
在K个第三标签样本中有N个第三标签样本所属的类别相同,且N大于或等于rK的情况下,将第二标签样本作为第一标签样本,确定第一标签样本所属的类别为N个第三标签样本所属的类别;其中,r为大于或等于0,且小于或等于1的整数。
在一些示例性实施例中,在K个第三标签样本中有N个第三标签样本所属的类别相同,且N小于rK的情况下,该方法还包括:丢弃第二标签样本。
在一些示例性实施例中,某一个第二标签样本与某一个第三标签样本的相似度可以采用该第二标签样本与该第三标签样本的距离来表示。当然,某一个第二标签样本与某一个第三标签样本的相似度也可以采用其他参数来表示,具体的表示参数不用于限定本申请实施例的保护范围。
其中,Dis为某一个第二标签样本与某一个第三标签样本的距离,p为常数,n为标签样本的维数,x1j(j=1,2,3,…,n)为某一个第二标签样本的第k维变量,x2j(j=1,2,3,…,n)为某一个第三标签样本的第k维变量。
当然,也可以采用其他方式来计算某一个第二标签样本与某一个第三标签样本的距离,具体的计算方式不用于限定本申请实施例的保护范围。
在一些示例性实施例中,可以预先设置每个类别所需要的第一标签样本的最小数量,在某一个类别的第一标签样本数量达到对应的最小数量的情况下,停止该类别的第一标签样本数量的获取。
需要说明的是,第二区域的第三标签样本可以是进行模型训练得到基础分类模型时所采用的部分或全部标签样本(即下文提到的第六标签样本),也可以是根据基础分类模型确定了所属的类别的部分或全部标签样本,也可以是包括以上两种标签样本的标签样本,具体采用哪些标签样本来实现第一标签样本和第一标签样本所属的类别的确定并不用于限定本申请实施例的保护范围。
需要说明的是,在确定是否将第二标签样本作为第一标签样本时,应该分别对每一个标签样本进行计算确定。
步骤101、根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型;其中,基础分类模型为适用于第二区域的分类模型,最终分类模型为适用于第一区域的分类模型。
在一些示例性实施例中,第二区域可以是任何区域,可以预先设定。
需要说明的是,第一区域和第二区域为不同的区域,第一区域和第二区域可以是没有重叠区域的两个区域,也可以是存在重叠区域,且重叠区域的比例小于或等于预设阈值的两个区域。
需要说明的是,在设置第一区域和第二区域时,应该使得适用于第二区域的基础分类模型不适用于第一区域。
在一些示例性实施例中,基础分类模式是根据第六标签样本和第六标签样本所属的类别进行模型训练得到的分类模型。
在一些示例性实施例中,根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型包括以下至少之一:
在基础分类模型为串行生成的序列化模型(如xgboost、AdaBoost、神经网络等)的情况下,在基础分类模型后面增加新的层,保持基础分类模型的结构参数不变,根据第一标签样本所属的类别和第一标签样本对新的层进行训练得到最终分类模型;
在基础分类模型为并行化模型(如随机森林等)的情况下,本生成新的分类器,根据第一标签样本所属的类别和第一标签样本对新的分类器进行训练得到最终分类模型。
在一些示例性实施例中,对分类器的具体类型不作限定,可以是弱分类器,也可以是强分类器,还可以是其他的分类器,具体的类型不用于限定本申请实施例的保护范围。
在一些示例性实施例中,由于标签样本中的每个变量都有不同的单位,为了防止不同的量纲引起数据量级之间的误差,可以分别为每一个第一标签样本进行标准化处理,然后基于标准化处理后的第一标签样本和第一标签样本所属的类别对基础分类模型进行模型的再次训练得到最终分类模型。
在一些示例性实施例中,在原始样本的维度比较高,问题空间维度较大的情况下,对模型的计算能力有较大的影响,可以对每一个第一标签样本进行降维处理,然后基于降维处理后的第一标签样本和第一标签样本所属的类别对基础分类模型进行模型的再次训练得到最终分类模型。
在一些示例性实施例中,也可以同时对每一个第一标签样本进行标准化处理和降维处理,即根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型之前,该方法还包括:
对第一标签样本进行标准化处理,得到第四标签样本;
对第四标签样本进行降维处理,得到第五标签样本;
根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型包括:根据第一标签样本所属的类别和第五标签样本对基础分类模型进行模型的再次训练得到最终分类模型。
在一些示例性实施例中,对第一标签样本进行标准化处理包括:
在一些示例性实施例中,由于第一标签样本的数量一般比较小,统计所有第一标签样本中的第j维变量的平均值和标准差的意义不大,而用于训练基础分类模型的第六标签样本的数量一般比较大,因此,mean1(S)可以取为所有第六标签样本中的第j维变量的平均值,std1(S)可以取为所有第六标签样本中的第j维变量的标准差;或者,mean1(S)也可以取为所有第一标签样本和所有第六标签样本中的第j维变量的平均值,std1(S)也可以取为所有第一标签样本和所有第六标签样本中的第j维变量的标准差。
在一些示例性实施例中,可以采用本领域技术人员熟知的降维处理算法(例如,主成分分析(PCA,Principal Component Analysis)算法、T分布和随机近邻嵌入(TSNE,T-Stochastic Neighbor Embedding)算法、局部线性嵌入(LLE,Locally Linear Embedding)算法、降维(MDS,Multi Dimensional Scaling)算法等)来进行降维处理,具体的降维处理算法不用于限定本申请实施例的保护范围,这里不再赘述。
降维处理后标签样本的维数可以预先设置。例如,若采用PCA进行降维处理,可以设置保留85%的主成分;若采用TSNE、LLE、MDS,可以设置降维到2维。降维处理后标签样本的维数不用于限定本申请实施例的保护范围。
需要说明的是,对标签样本进行标准化处理和降维处理并不会改变标签样本所属的类别,也就是说,第一标签样本所属的类别、标准化处理后的第一标签样本(即第四标签样本)所属的类别、降维处理后的第一标签样本所属的类别、第五标签样本所属的类别均相同。
在一些示例性实施例中,根据第一标签样本所属的类别和第五标签样本对基础分类模型进行模型的再次训练得到最终分类模型包括以下至少之一:
在基础分类模型为串行生成的序列化模型(如xgboost、AdaBoost、神经网络等)的情况下,在基础分类模型后面增加新的层,保持基础分类模型的结构参数不变,根据第一标签样本所属的类别和第五标签样本对在新的层进行训练得到最终分类模型;
在基础分类模型为并行化模型(如随机森林等)的情况下,保持基础分类模型中的分类器的结构参数不变,生成新的分类器,根据第一标签样本所属的类别和第五标签样本对新的分类器进行训练得到最终分类模型。
在一些示例性实施例中,如图2所示,获取第一区域的第一标签样本和第一标签样本所属的类别之前,该方法还包括:
根据二区域的第六标签样本所属的类别和第六标签样本进行模型训练得到基础分类模型。
在一些示例性实施例中,分类模型可以是本领域技术人员熟知的分类模型,例如,随机森林、梯度提升决策树(GBDT,Gradient Boosting Decision Tree)、xgboost(ExtremeGBoosted),神经网络等。
在一些示例性实施例中,可以采用本领域技术人员熟知的模型训练方法进行模型训练得到基础分类模型。例如,按照分层抽样将所有第六标签样本按照预先设置的比例(例如训练集:测试集=0.75:0.25)分成训练集和测试集,采用L层交叉验证的方法保证模型的准确性,即将训练集再次划分为L份,其中(L-1)份用于模型训练,另外1份用于模型验证;循环L次可以得到L个第一分类模型;从L个第一分类模型中选择精度最高的第一分类模型作为基础分类模型;将基础分类模型应用到测试集得到测试集中每一个第六标签样本所属的类别。
需要说明的是,每一次循环过程中采用(L-1)份标签数据进行模型训练得到1个分类模型,L次循环对应的用于模型验证的1份标签样本均不相同。
例如,假设有1000个第六标签样本,将这1000个标签样本按照0.75:0.25的比例分成训练集和测试集,训练集包括750个第六标签样本,测试集包括250个第六标签样本;然后将750个第六标签样本再分成K=10份,每一份包括75个第六标签样本,那么在第1次循环时,可以将第1-9份第六标签样本用于模型训练,第10份第六标签样本用于模型验证;在第2次循环时,可以将第1-8、10份第六标签样本用于模型训练,第9份第六标签样本用于模型验证;在第3次循环时,可以将第1-7、9-10份第六标签样本用于模型训练,第8份第六标签样本用于模型验证;在第4次循环时,可以将第1-6、8-10份第六标签样本用于模型训练,第7份第六标签样本用于模型验证;在第5次循环时,可以将第1-5、7-10份第六标签样本用于模型训练,第6份第六标签样本用于模型验证;在第6次循环时,可以将第1-4、6-10份第六标签样本用于模型训练,第5份第六标签样本用于模型验证;在第7次循环时,可以将第1-3、5-10份第六标签样本用于模型训练,第4份第六标签样本用于模型验证;在第8次循环时,可以将第1-2、4-10份第六标签样本用于模型训练,第3份第六标签样本用于模型验证;在第9次循环时,可以将第1、3-10份第六标签样本用于模型训练,第2份第六标签样本用于模型验证;在第10次循环时,可以将第2-10份第六标签样本用于模型训练,第1份第六标签样本用于模型验证;这样,循环10次得到10个分类模型。
在一些示例性实施例中,对于每一个第一分类模型,将该第一分类模型应用到对应的用于模型验证的1份第六标签样本中得到每一个第六标签样本所属的类别,然后根据得到的每一个第六标签样本所属的类别与真实的类别确定该第一分类模型的精度。
在一些示例性实施例中,可以采用第一分类模型的分数来表示第一分类模型的精度。例如,在分类模型为随机森林的情况下,可以用混淆矩阵来表示第一分类模型的好坏,混淆矩阵如表1所示。
表1
需要说明的是,在计算第一分类模型的分数时,真实值是指通过其他方式获得的第六标签样本的真实的所属的类别,预测值是指将第一分类模型应用到对应的用于验证的第六标签样本得到的每一个第六标签样本所属的类别。
那么,第一分类模型的分数为所有类别的分数的平均值。
其中,Nbb为用于验证的第六标签样本中真实值为b,预测值为b的第六标签样本的数量,Ncb为用于验证的第六标签样本中真实值为c,预测值为b的第六标签样本的数量,Nbc为用于验证的第六标签样本中真实值为b,预测值为c的第六标签样本的数量,(m-1)为类别的数量。
在一些示例性实施例中,为了提高基础分类模型的准确度,可以采用网格法调整分类模型的输入参数,即对分类模型的输入参数设置枚举型的数值,对每一个数值采用模型训练方法得到一个第二分类模型,从所有第二分类模型中选择精度最高的第二分类模型作为基础分类模型。
在一些示例性实施例中,可以采用本领域技术人员熟知的模型训练方法得到第二分类模型。例如,对于每一个输入参数,按照分层抽样将所有第六标签样本按照预先设置的比例(例如训练集:测试集=0.75:0.25)分成训练集和测试集,采用L层交叉验证的方法保证模型的准确性,即将训练集再次划分为L份,其中(L-1)份用于模型训练,另外1份用于模型验证;循环L次可以得到L个第一分类模型;从L个第一分类模型中选择精度最高的第一分类模型作为第二分类模型;从所有第二分类模型中选择精度最高的第二分类模型作为基础分类模型。
需要说明的是,每一次循环过程中采用(L-1)份标签数据进行模型训练得到1个分类模型,L次循环对应的用于模型验证的1份标签样本均不相同。
在一些示例性实施例中,对于每一个第二分类模型,将该第二分类模型应用到对应的测试集中得到每一个第六标签样本所属的类别,然后根据得到的每一个第六标签样本所属的类别与真实的类别确定该第二分类模型的精度。
在一些示例性实施例中,可以采用第二分类模型的分数来表示第二分类模型的精度。例如,在分类模型为随机森林的情况下,可以用混淆矩阵来表示第二分类模型的好坏,混淆矩阵如表1所示。
需要说明的是,在计算第二分类模型的分数时,真实值是指通过其他方式获得的第六标签样本的真实的所属的类别,预测值是指将第一分类模型应用到对应的用于验证的第六标签样本得到的每一个第六标签样本所属的类别。
那么,第二分类模型的分数为所有类别的分数的平均值。
其中,Nbb为测试集中的第六标签样本中真实值为b,预测值为b的第六标签样本的数量,Ncb为测试集中的第六标签样本中真实值为c,预测值为b的第六标签样本的数量,Nbc为测试集中的第六标签样本中真实值为b,预测值为c的第六标签样本的数量,(m-1)为类别的数量。
在一些示例性实施例中,由于标签样本中的每个变量都有不同的单位,为了防止不同的量纲引起数据量级之间的误差,可以分别为每一个第六标签样本进行标准化处理,然后基于标准化处理后的第六标签样本和第六标签样本所属的类别进行模型训练得到基础分类模型。
在一些示例性实施例中,在原始样本的维度比较高,问题空间维度较大的情况下,对模型的计算能力有较大的影响,可以对每一个第六标签样本进行降维处理,然后基于降维处理后的第六标签样本和第六标签样本所属的类别进行模型训练得到基础分类模型。
在一些示例性实施例中,也可以同时对每一个第六标签样本进行标准化处理和降维处理,即根据第二区域的第六标签样本所属的类别和第六标签样本进行模型训练得到基础分类模型之前,该方法还包括:
对第六标签样本进行标准化处理,得到第七标签样本;
对第七标签样本进行降维处理,得到第八标签样本;
根据第二区域的第六标签样本所属的类别和第六标签样本进行模型训练得到基础分类模型包括:根据第六标签样本所属的类别和第八标签样本进行模型训练得到基础分类模型。
在一些示例性实施例中,对第六标签样本进行标准化处理包括:
在一些示例性实施例中,可以采用本领域技术人员熟知的降维处理算法(例如,PCA算法、TSNE算法、LLE算法、MDS算法等)来进行降维处理,具体的降维处理算法不用于限定本申请实施例的保护范围,这里不再赘述。
降维处理后标签样本的维数可以预先设置。例如,若采用PCA进行降维处理,可以设置保留85%的主成分;若采用TSNE、LLE、MDS,可以设置降维到2维。降维处理后标签样本的维数不用于限定本申请实施例的保护范围。
需要说明的是,对标签样本进行标准化处理和降维处理并不会改变标签样本所属的类别,也就是说,第六标签样本所属的类别、标准化处理后的第六标签样本(即第七标签样本)所属的类别、降维处理后的第六标签样本所属的类别、第八标签样本所属的类别均相同。
本申请实施例提供的模型训练方法,先获取第一区域的第一标签样本以及所述第一标签样本所属的类别,然后基于第一标签样本所属的类别,使用第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型,由于最终分类模型是对基础分类模型进行模型的再次训练得到的,而不是进行模型的重新训练得到的,因此,并不需要获取第一区域过多的标签样本就能实现对适用于第一区域的分类模型的训练,也就是采用少量的第一标签样本对基础分类模型进行模型的再次训练就能得到最终分类模型,简单地实现了不同区域的模型训练。
在一些示例性实施例中,基于第二区域的第三标签样本自动对第一标签样本所属的类别进行标记,节省了人工标注的大量工作量,提高了模型训练的精度。
下面通过两个示例详细说明上述实施例的模型训练方法的具体实现过程,需要说明的是,所列举的示例仅仅是为了说明方便,不能认为所列举的示例是本申请实施例的模型训练方法的唯一实现方式,也不用于限定本申请实施例的保护范围。
示例1
该示例描述应用于睡眠小区的故障分类模型的训练方法,如表2所示,睡眠小区的故障主要分为5种,加上正常小区,一共6种类别。
表2睡眠小区的故障类别表
如图2所示,模型训练方法包括:
1、获取第二区域的第六标签样本。
本示例中,在时间维度上,获取当前时刻以及4个历史同期时刻的数据,例如此时为星期一18点,获取星期一18点,上星期一18点,上上星期一18点,上上上星期一18点,上上上上星期一18点,共5个时刻的数据,且每个时刻的指标变量包括表3中的15个指标变量,因此,一个第六标签样本的维度变量为15*5=75个维度的变量。
表3
2、分别对每一个第六标签样本的每一维变量进行标准化处理,得到第七标签样本。
3、分别对每一个第七标签样本进行降维处理,得到第八标签样本。
本示例采用PCA进行降维处理,PCA的主要思想是将n维变量映射到d维上,这d维是全新的正交特征也被称为主成分,是在原有n为变量的基础上重新构造出来的d维变量。PCA的工作就是从原始的n维空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与第七标签样本是密切相关的。其中,第一个新坐标轴选择是第七标签样本的方差最大的方向,第二个新坐标轴选取的是与第一个新坐标轴正交的平面中使得第七标签样本的方差最大的方向,第三个新坐标轴是与地1,2个新坐标轴正交的平面中使得第七标签样本的方差最大的方向,以此类推,可以得到d个这样的新坐标轴。然后将每一个第七标签样本进行坐标轴转换映射到新坐标轴中。
通过主成分分析来保证在不降低模型训练方法的精度的情况下降低模型训练方法的复杂度,保留85%的贡献率。
4、根据第六标签样本所属的类别和第八标签样本进行模型训练得到适用于第二区域的基础分类模型。
本示例采用随机森林模型作为分类模型,用交叉验证方法对随机森林模型进行训练。
根据分层抽样将第八标签样本划分训练集:测试集=0.75:0.25。同时,采用L层交叉验证保证模型的准确性。令L=10,即将训练集中的所有第八标签样本分为10份,选择9份用于模型训练,剩余1份用于模型验证,得到一个第一分类模型,循环10次,得到10个第一分类模型,选择精度最高的第一分类模型作为第二分类模型,将第二分类模型应用到用于验证的第八标签样本,得到测试集中所有第八标签样本所属的类别。
可以采用第一分类模型的分数来表示第一分类模型的精度。
第一分类模型的分数为所有类别的分数的平均值。
其中,Nbb为用于验证的第六标签样本中真实值为b,预测值为b的第六标签样本的数量,Ncb为用于验证的第六标签样本中真实值为c,预测值为b的第六标签样本的数量,Nbc为用于验证的第六标签样本中真实值为b,预测值为c的第六标签样本的数量,(m-1)为类别的数量。
为了提高模型的精度,本实例采用网格法进行模型的输入参数的调整,调整的随机森林的输入参数包括随机森林基分类器数量n_estimators,基分类器的最大深度max_depth,基分类器选择的最大特征数max_features,评价准则函数criterion,一共4个参数。
设置每个输入参数的枚举变量:
n_estimators=[50,100,150,200]
max_depth=[6,8,10,12]
max_features=[sqrt,0.7,0.9,1]
Criterion=[gini,entropy]
因此,一共需要循环4*4*4*2=128次,最终从128次中得到128个第二分类模型,从128个第二分类模型中选择精度最高的第二分类模型作为基础分类模型。
可以采用第二分类模型的分数来表示第二分类模型的精度。
第二分类模型的分数为所有类别的分数的平均值。
其中,Nbb为测试集中的第六标签样本中真实值为b,预测值为b的第六标签样本的数量,Ncb为测试集中的第六标签样本中真实值为c,预测值为b的第六标签样本的数量,Nbc为测试集中的第六标签样本中真实值为b,预测值为c的第六标签样本的数量,(m-1)为类别的数量。
5、获取第一区域的第二标签样本。
如表3所示在第一区域收集第二标签样本。
6、根据第六标签样本和第六标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别。
本示例中,针对每一个第二标签样本,在第六标签样本中,寻找与第二标签样本距离最近的K=20个第六标签样本,在20个第六标签样本中,若有大于或等于0.8*20=16个第六标签样本所属的类别相同,则将第二标签样本作为第一标签样本,并且第一标签样本所属的类别为16个第六标签样本所属的类别。
若所属的类别相同的第六标签样本的数量小于16,则丢弃第二标签样本。
如此循环,直到每一个类别的第一标签样本数量大于或等于用户设置的该类别对应的最少标签样本数,如表4所示为不同类别对应的最小标签样本数。
表4
类别代号 | 类别名称 | 其他区域所需最少标签样本数 |
0 | 正常小区 | 100 |
1 | 无用户接入睡眠小区 | 200 |
2 | 有随机接入睡眠小区 | 200 |
3 | 有RRC接入或切入请求睡眠小区 | 200 |
4 | 有RRC无ERAB睡眠小区 | 100 |
5 | PDCP流量异常睡眠小区 | 200 |
7、分别对每一个第一标签样本的每一维变量进行标准化处理,得到第四标签样本。
8、分别对每一个第四标签样本进行降维处理,得到第五标签样本。
本示例采用PCA进行降维处理,PCA的主要思想是将n维变量映射到d维上,这d维是全新的正交特征也被称为主成分,是在原有n为变量的基础上重新构造出来的d维变量。PCA的工作就是从原始的n维空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与第四标签样本是密切相关的。其中,第一个新坐标轴选择是第四标签样本的方差最大的方向,第二个新坐标轴选取的是与第一个新坐标轴正交的平面中使得第四标签样本的方差最大的方向,第三个新坐标轴是与地1,2个新坐标轴正交的平面中使得第四标签样本的方差最大的方向,以此类推,可以得到d个这样的新坐标轴。然后将每一个第四标签样本进行坐标轴转换映射到新坐标轴中。
通过主成分分析来保证在不降低模型训练方法的精度的情况下降低模型训练方法的复杂度,保留85%的贡献率。
9、根据第一标签样本所属的类别和第五标签样本对基础分类模型进行模型的再次训练得到最终分类模型。
将适用于第二区域的基础的随机森林模型(即上述基础分类模型)迁移到第一区域后,用第一区域的少量第五标签样本训练新的弱分类器,默认新的弱分类器数量为基础分类模型的弱分类器数量的30%,若基础分类模型的弱分类器的数量为100个,则需要训练30个新的弱分类器。
在保持基础分类模型的原有100个弱分类器的结构参数都不变的情况下,生成30个新的弱分类器,最终得到130个弱分类器的随机森林模型。将该模型应用于第一区域的现场进行诊断。
利用基础分类模型对应的模型输入参数(例如max_depth=6,max_features=0.7,Criterion=gini)训练30个新的弱分类器。
针对每一个新的弱分类器,首先在新的弱分类器的所有特征(如表3所示)中,随机选择15*0.7≈10个特征作为该新的弱分类器的特征。
首先需要确定第一个节点的分裂特征和分裂值。
Gini(D)为从样本集D中随机抽取两个第五标签样本,其所属的类别不一致的概率,Gini(D)越小,则样本集D的纯度越高,pk为第k个类别的第五标签样本的数量的比例,y为总类别数。
假设特征e是连续的属性,将e的取值根据一定区间进行划分,假设划分点为{e1,e2,...,eV},若使用e来对样本集D进行划分,则会产生V个分支,其中第v个分支节点包含了样本集D中所有在特征e上大于ev-1且小于ev的第五标签样本,记为Dv。
在新的弱分类器的10个特征中,针对每一个特征e,计算特征e的Gini系数:
其中,Gini_index(D,e)为Gini系数。
在10个特征中,挑选Gini_index(D,e)最小的特征作为新的弱分类器第一个节点的分类节点的特征。
然后遍历所有的划分点{e1,e2,...,eV},根据划分点将样本集D划分为D1和D2。计算如下公式:Gini(D,ev)=Gini(D1)+Gini(D2);
计算每一个划分点的Gini(D,ev),选择最小的划分点作为第一个节点的最佳分裂值,由此,得到了新的弱分类器的第一个节点的最优分裂属性和最优分裂值。
如此循环,对每一个节点的子左节点和子右节点计算得到最优分裂属性和最优分裂值,且新的弱分类器的深度不超过max_depth=6。
由此可以训练得到一个新的弱分类器,同理,将所有新的弱分类器按照上述方法进行学习。
示例2
该示例描述应用于覆盖干扰小区的故障分类模型的训练方法,如表5所示,覆盖干扰小区的故障主要分为5种,加上正常小区,一共6种类别。
表5
模型训练方法包括:
1、获取第二区域的第六标签样本。
本示例中,在时间维度上,每一个时间点对应一个第六标签样本。在空间维度上,一个第六标签样本包括表6所示的71维变量。
表6
2、分别对每一个第六标签样本的每一维变量进行标准化处理,得到第七标签样本。
3、分别对每一个第七标签样本进行降维处理,得到第八标签样本。
本示例采用TSNE算法进行降维处理,TSNE算法对每个第七标签样本近邻的分布进行建模,其中,近邻是指相互靠近第七标签样本的标签样本的集合。在第七标签样本的高维空间中,将高维空间建模成高斯分布,而在低维输出空间(即第八标签样本)中,可以将其建模为t分布,该过程的目标是找到将高维空间映射到低维空间的变换,并且最小化所有标签样本在这两个分布之间的差距。
TSNE算法降维到几维可以自行设定,本示例将71维降维到5维。
4、根据第六标签样本所属的类别和第八标签样本进行模型训练得到适用于第二区域的基础分类模型。
本示例采用GBDT作为分类模型,用交叉验证方法对GBDT进行训练。
根据分层抽样将第八标签样本划分训练集:测试集=0.75:0.25。同时,采用L层交叉验证保证模型的准确性。令L=10,即将训练集中的所有第八标签样本分为10份,选择9份用于模型训练,剩余1份用于模型验证,得到一个第一分类模型,循环10次,得到10个第一分类模型,选择精度最高的第一分类模型作为第二分类模型,将第二分类模型应用到用于验证的第八标签样本,得到测试集中所有第八标签样本所属的类别。
可以采用第一分类模型的分数来表示第一分类模型的精度。
第一分类模型的分数为所有类别的分数的平均值。
其中,Nbb为用于验证的第六标签样本中真实值为b,预测值为b的第六标签样本的数量,Ncb为用于验证的第六标签样本中真实值为c,预测值为b的第六标签样本的数量,Nbc为用于验证的第六标签样本中真实值为b,预测值为c的第六标签样本的数量,(m-1)为类别的数量。
为了提高模型的精度,本实例采用网格法进行模型的输入参数的调整,输入参数包括GBDT基分类器数量n_estimators,基分类器的最大深度max_depth,基分类器选择的最大特征数max_features,学习深度learning_rate,一共4个参数。
设置每个参数的枚举变量:
n_estimators=[50,100,150,200]
max_depth=[6,8,10,12]
max_features=[sqrt,0.7,0.9,1]
learning_rate=[0.1,0.2,0.4,0.8]
因此,一共需要循环4*4*4*4=256次,最终从256次中得到256个第二分类模型,从256个第二分类模型中选择精度最高的第二分类模型作为基础分类模型。
可以采用第二分类模型的分数来表示第二分类模型的精度。
第二分类模型的分数为所有类别的分数的平均值。
其中,Nbb为测试集中的第六标签样本中真实值为b,预测值为b的第六标签样本的数量,Ncb为测试集中的第六标签样本中真实值为c,预测值为b的第六标签样本的数量,Nbc为测试集中的第六标签样本中真实值为b,预测值为c的第六标签样本的数量,(m-1)为类别的数量。
5、获取第一区域的第二标签样本。
如表6所示在第一区域收集第二标签样本。
6、根据第六标签样本和第六标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别。
本示例中,针对每一个第二标签样本,在第六标签样本中,寻找与第二标签样本距离最近的K=20个第六标签样本,在20个第六标签样本中,若有大于或等于0.8*20=16个第六标签样本所属的类别相同,则将第二标签样本作为第一标签样本,并且第一标签样本所属的类别为16个第六标签样本所属的类别。
若所属的类别相同的第六标签样本的数量小于16,则丢弃第二标签样本。
如此循环,直到每一个类别的第一标签样本数量大于或等于用户设置的该类别对应的最少标签样本数,如表7所示为不同类别对应的最少标签样本数。
表7
类别代号 | 类别名称 | 其他区域所需最少标签样本数 |
0 | 正常小区 | 100 |
1 | 弱覆盖小区 | 300 |
2 | 重叠覆盖小区 | 200 |
3 | 越区覆盖小区 | 200 |
4 | 上行干扰小区 | 300 |
5 | 下行干扰小区 | 400 |
7、分别对每一个第一标签样本的每一维变量进行标准化处理,得到第四标签样本。
8、分别对每一个第四标签样本进行降维处理,得到第五标签样本。
本示例采用TSNE算法进行降维处理,TSNE算法对每个第四标签样本近邻的分布进行建模,其中,近邻是指相互靠近第四标签样本的标签样本的集合。在第四标签样本的高维空间中,将高维空间建模成高斯分布,而在低维输出空间(即第五标签样本)中,可以将其建模为t分布,该过程的目标是找到将高维空间映射到低维空间的变换,并且最小化所有标签样本在这两个分布之间的差距。
TSNE算法降维到几维可以自行设定,本示例将71维降维到5维。
9、根据第一标签样本所属的类别和第五标签样本对基础分类模型进行模型的再次训练得到最终分类模型。
将适用于第二区域的基础的GBDT模型(即上述基础分类模型)迁移到第一区域后,用第一区域的少量第五标签样本训练新的弱分类器,默认新的弱分类器数量为基础分类模型的弱分类器数量的30%,若基础分类模型的弱分类器的数量为100个,则需要训练30个新的弱分类器。
在保持基础分类模型的原有100个弱分类器的结构参数都不变的情况下,生成30个新的弱分类器,最终得到130个弱分类器的随机森林模型。将该模型应用于第一区域的现场进行诊断。
利用基础分类模型对应的模型输入参数(例如max_depth=6,max_features=0.5)训练30个新的弱分类器。
针对每一个新的弱分类器,首先在新的弱分类器的所有特征(如表6所示)中,随机选择71*0.5≈35个特征作为该新的弱分类器的特征。
首先需要确定第一个节点的分裂特征和分裂值。
根据如下公式计算信息增益:
G表示损失函数的一阶导数,H表示损失函数的二阶导数,定义损失函数为:L=1/2*(y-y*)2,其中y表示真实值,y*表示预测值(根据每一个候选分裂点对样本集D进行划分得到的分类结果),L表示根据分类节点分裂后的左树,R表示根据分类节点分裂后的右树,γ和λ为输入参数,默认取0。
根据每一个特征每一个候选分裂点并行计算Gain值,选择Gain值最大的候选特征的候选分裂点,作为第一个节点的分裂特征和分裂值。
如此循环,对每一个节点的子左节点和子右节点计算得到最优分裂特征和最优分裂值,且新的弱分类器的深度不超过max_depth=6。
由此可以训练得到一个新的弱分类器,同理,将所有新的弱分类器按照上述方法进行学习。
第二方面,本申请另一个实施例提供一种电子设备,包括:
至少一个处理器;
存储器,存储器上存储有至少一个程序,当至少一个程序被至少一个处理器执行时,实现上述任意一种模型训练方法。
其中,处理器为具有数据处理能力的器件,其包括但不限于中央处理器(CPU)等;存储器为具有数据存储能力的器件,其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)。
在一些实施例中,处理器、存储器通过总线相互连接,进而与计算设备的其它组件连接。
第三方面,本申请另一个实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种模型训练方法。
图3为本申请另一个实施例提供的模型训练装置的组成框图。
第四方面,参照图3,本申请另一个实施例提供一种模型训练装置,包括:
获取模块301,用于获取第一区域的第一标签样本和所述第一标签样本所属的类别;
模型再训练模块302,用于根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型;其中,基础分类模型为适用于第二区域的分类模型,最终分类模型为适用于第一区域的分类模型。
在一些示例性实施例中,获取模块301具体用于:
获取第一区域的第二标签样本;
根据第二区域的第三标签样本和第三标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别。
在一些示例性实施例中,获取模块301具体用于采用以下方式实现根据第二区域的第三标签样本和第三标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别:
确定与第二标签样本相似度最高的K个所述第三标签样本;其中,K为大于或等于2的整数;
在K个第三标签样本中有N个第三标签样本所属的类别相同,且N大于或等于rK的情况下,将第二标签样本作为第一标签样本,确定第一标签样本所属的类别为N个第三标签样本所属的类别;其中,r为大于或等于0,且小于或等于1的整数。
在一些示例性实施例中,获取模块302还用于:
在K个第三标签样本中有N个第三标签样本所属的类别相同,且N小于rK的情况下,丢弃第二标签样本。
在一些示例性实施例中,获取模块301还用于:
对第一标签样本进行标准化处理,得到第四标签样本;
对第四标签样本进行降维处理,得到第五标签样本;
模型再训练模块302具体用于:根据第一标签样本所属的类别和第五标签样本对基础分类模型进行模型的再次训练得到最终分类模型。
在一些示例性实施例中,模型再训练模块302具体用于执行以下至少之一:
在基础分类模型为串行生成的序列化模型的情况下,在基础分类模型后面增加新的层,保持基础分类模型的结构参数不变,根据第一标签样本所属的类别和第五标签样本对新的层进行训练得到最终分类模型;
在基础分类模型为并行化模型的情况下,保持基础分类模型中的分类器的结构参数不变,生成新的分类器,根据第一标签样本所属的类别和第五标签样本对新的分类器进行训练得到最终分类模型。
在一些示例性实施例中,还包括:
模型训练模块303,用于根据二区域的第六标签样本所属的类别和第六标签样本进行模型训练得到基础分类模型。
在一些示例性实施例中,获取模块301还用于:
对第六标签样本进行标准化处理,得到第七标签样本;
对第七标签样本进行降维处理,得到第八标签样本;
模型训练模块303具体用于:根据第六标签样本所属的类别和第八标签样本进行模型训练得到基础分类模型。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储器、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本申请的范围的情况下,可进行各种形式和细节上的改变。
Claims (10)
1.一种模型训练方法,包括:
获取第一区域的第一标签样本和所述第一标签样本所属的类别;
根据所述第一标签样本所属的类别和所述第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型;其中,所述基础分类模型为适用于第二区域的分类模型,所述最终分类模型为适用于所述第一区域的分类模型。
2.根据权利要求1所述的模型训练方法,其中,所述获取第一区域的第一标签样本和第一标签样本所属的类别包括:
获取所述第一区域的第二标签样本;
根据所述第二区域的第三标签样本和所述第三标签样本所属的类别选择部分或全部所述第二标签样本作为所述第一标签样本,以及确定所述第一标签样本所属的类别。
3.根据权利要求2所述的模型训练方法,其中,所述根据第二区域的第三标签样本和第三标签样本所属的类别选择部分或全部第二标签样本作为第一标签样本,以及确定第一标签样本所属的类别包括:
确定与所述第二标签样本相似度最高的K个所述第三标签样本;其中,K为大于或等于2的整数;
在K个所述第三标签样本中有N个所述第三标签样本所属的类别相同,且N大于或等于rK的情况下,将所述第二标签样本作为所述第一标签样本,确定所述第一标签样本所属的类别为N个所述第三标签样本所属的类别;其中,r为大于或等于0,且小于或等于1的整数。
4.根据权利要求3所述的模型训练方法,在K个所述第三标签样本中有N个所述第三标签样本所属的类别相同,且N小于rK的情况下,该方法还包括:丢弃所述第二标签样本。
5.根据权利要求1-4任一项所述的模型训练方法,其中,所述根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型之前,该方法还包括:
对所述第一标签样本进行标准化处理,得到第四标签样本;
对所述第四标签样本进行降维处理,得到第五标签样本;
所述根据第一标签样本所属的类别和第一标签样本对基础分类模型进行模型的再次训练得到最终分类模型包括:根据所述第一标签样本所属的类别和所述第五标签样本对所述基础分类模型进行模型的再次训练得到所述最终分类模型。
6.根据权利要求5所述的模型训练方法,其中,所述根据第一标签样本所属的类别和第五标签样本对基础分类模型进行模型的再次训练得到最终分类模型包括以下至少之一:
在所述基础分类模型为串行生成的序列化模型的情况下,在所述基础分类模型后面增加新的层,保持所述基础分类模型的结构参数不变,根据所述第一标签样本所属的类别和所述第五标签样本对所述新的层进行训练得到所述最终分类模型;
在所述基础分类模型为并行化模型的情况下,保持所述基础分类模型中的分类器的结构参数不变,生成新的分类器,根据所述第一标签样本所属的类别和所述第五标签样本对所述新的分类器进行训练得到所述最终分类模型。
7.根据权利要求1-4任一项所述的模型训练方法,所述获取第一区域的第一标签样本和第一标签样本所属的类别之前,该方法还包括:
根据所述二区域的第六标签样本所属的类别和所述第六标签样本进行模型训练得到所述基础分类模型。
8.根据权利要求7所述的模型训练方法,所述根据第二区域的第六标签样本所属的类别和第六标签样本进行模型训练得到基础分类模型之前,该方法还包括:
对所述第六标签样本进行标准化处理,得到第七标签样本;
对所述第七标签样本进行降维处理,得到第八标签样本;
所述根据第二区域的第六标签样本所属的类别和第六标签样本进行模型训练得到基础分类模型包括:根据所述第六标签样本所属的类别和所述第八标签样本进行模型训练得到所述基础分类模型。
9.一种电子设备,包括:
至少一个处理器;
存储器,所述存储器上存储有至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,实现根据权利要求1-8任意一项所述的模型训练方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-8任意一项所述的模型训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259760.6A CN114501515A (zh) | 2020-11-11 | 2020-11-11 | 模型训练方法和装置、电子设备、计算机可读存储介质 |
PCT/CN2021/128319 WO2022100491A1 (zh) | 2020-11-11 | 2021-11-03 | 模型训练方法和装置、电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259760.6A CN114501515A (zh) | 2020-11-11 | 2020-11-11 | 模型训练方法和装置、电子设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114501515A true CN114501515A (zh) | 2022-05-13 |
Family
ID=81489741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011259760.6A Pending CN114501515A (zh) | 2020-11-11 | 2020-11-11 | 模型训练方法和装置、电子设备、计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114501515A (zh) |
WO (1) | WO2022100491A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10296846B2 (en) * | 2015-11-24 | 2019-05-21 | Xerox Corporation | Adapted domain specific class means classifier |
US20200130177A1 (en) * | 2018-10-29 | 2020-04-30 | Hrl Laboratories, Llc | Systems and methods for few-shot transfer learning |
CN110210625B (zh) * | 2019-05-20 | 2023-04-07 | 平安科技(深圳)有限公司 | 基于迁移学习的建模方法、装置、计算机设备和存储介质 |
CN111401454A (zh) * | 2020-03-19 | 2020-07-10 | 创新奇智(重庆)科技有限公司 | 一种基于迁移学习的少样本目标识别方法 |
CN111444952B (zh) * | 2020-03-24 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 样本识别模型的生成方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-11 CN CN202011259760.6A patent/CN114501515A/zh active Pending
-
2021
- 2021-11-03 WO PCT/CN2021/128319 patent/WO2022100491A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022100491A1 (zh) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Gey et al. | Model selection for CART regression trees | |
WO2023125654A1 (zh) | 人脸识别模型的训练方法、装置、电子设备及存储介质 | |
CN110826558B (zh) | 图像分类方法、计算机设备和存储介质 | |
JP6798614B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラム | |
CN112801003B (zh) | 一种无人机辐射源调制样式识别方法 | |
CN114114039A (zh) | 一种电池系统的单体电芯一致性的评估方法和装置 | |
CN116167010B (zh) | 具有智能迁移学习能力的电力系统异常事件快速识别方法 | |
CN111178196B (zh) | 一种细胞分类的方法、装置及设备 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN112529025A (zh) | 一种数据处理方法及装置 | |
CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
CN114169502A (zh) | 一种基于神经网络的降水预测方法、装置和计算机设备 | |
CN111783827A (zh) | 一种基于负荷数据的企业用户分类方法和装置 | |
CN114501515A (zh) | 模型训练方法和装置、电子设备、计算机可读存储介质 | |
CN116071591A (zh) | 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质 | |
US20220366242A1 (en) | Information processing apparatus, information processing method, and storage medium | |
CN115577239A (zh) | 一种电磁信号开集识别方法、装置及电子设备、存储介质 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN113255927A (zh) | 逻辑回归模型训练方法、装置、计算机设备和存储介质 | |
CN115600121B (zh) | 数据分层分类方法及装置、电子设备、存储介质 | |
CN111127393B (zh) | 雷达影像变化检测的样本制作方法及系统、存储介质、设备 | |
CN113850028B (zh) | 基于堆叠异构残差网络的换流阀冷却方式分类方法及装置 | |
CN111738289B (zh) | 计算机视觉cv模型训练方法、装置、电子设备和存储介质 | |
CN116091810A (zh) | 一种图像分类方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |