CN116894159A - 模型评估方法、装置、电子设备及存储介质 - Google Patents
模型评估方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116894159A CN116894159A CN202310858332.2A CN202310858332A CN116894159A CN 116894159 A CN116894159 A CN 116894159A CN 202310858332 A CN202310858332 A CN 202310858332A CN 116894159 A CN116894159 A CN 116894159A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- evaluated
- evaluation
- evaluation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 130
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 83
- 238000012545 processing Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 38
- 238000013210 evaluation model Methods 0.000 claims description 33
- 238000002372 labelling Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012854 evaluation process Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 25
- 238000009826 distribution Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000000007 visual effect Effects 0.000 description 13
- 230000002452 interceptive effect Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010438 heat treatment Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种模型评估方法、装置、电子设备及存储介质,该方法包括获取待评估模型在运行时生成的待评估数据,待评估数据包括待评估模型在两种不同运行环境下生成的数据,将待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果,根据评估结果,确定待评估模型在两种不同运行环境下的模型效果。采用本发明实施例,通过对待评估模型在两种不同运行环境下生成的数据进行评估处理,从而能够根据评估处理得到的评估结果,确定待评估模型在两种不同运行环境下的模型效果,有效提高对模型效果进行评估的效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种模型评估方法、装置、电子设备及存储介质。
背景技术
近年来,人工智能技术逐渐与各行各业深入融合,以数据和算法为支撑的机器学习模型在图像识别、自然语言处理、广告推荐等领域得到了广泛应用。由于不同模型和算法的性能、效率、以及它们所适配的场景都存在较大的差异,分析师需要结合业务场景,用户体验等多方面的因素对模型进行诊断和评价,以便改进和优化模型。
然而,通过人工分析的方法对模型效果进行评估存在效率低下的技术问题。
发明内容
本发明实施例的目的是提供一种模型评估方法、装置、电子设备及存储介质,以解决通过人工分析的方法对模型效果进行评估存在效率低下的技术问题。
第一方面,本发明实施例提供了一种模型评估方法,包括:
获取待评估模型在运行时生成的待评估数据,所述待评估数据包括所述待评估模型在两种不同运行环境下生成的数据;
将所述待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果;
根据所述评估结果,确定所述待评估模型在所述两种不同运行环境下的模型效果。
第二方面,本发明实施例提供了一种模型评估装置,包括:
获取模块,用于获取待评估模型在运行时生成的待评估数据,所述待评估数据包括所述待评估模型在两种不同运行环境下生成的数据;
评估模块,用于将所述待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果;
第一确定模块,用于根据所述评估结果,确定所述待评估模型在所述两种不同运行环境下的模型效果。
第三方面,本发明实施例提供了一种电子设备,电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的模型评估方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的模型评估方法中的步骤。
本发明实施例提供了一种模型评估方法、装置、电子设备及存储介质,该方法通过采用训练后的评估模型,对待评估模型在两种不同运行环境下生成的数据进行评估处理,从而能够根据评估处理得到的评估结果,确定待评估模型在两种不同运行环境下的模型效果,相对于通过人工分析的方法对模型效果进行评估,本申请能够有效的提高对待评估模型的模型效果进行评估的评估效率。
附图说明
图1是本发明实施例提供的模型评估方法的一种流程示意图;
图2是本发明实施例提供的模型评估方法的另一种流程示意图;
图3是本发明实施例提供的交互式可视分析系统的一种结构示意图;
图4是本发明实施例提供的评分视图;
图5是本发明实施例提供的更新前后的全局特征贡献值视图;
图6是本发明实施例提供的特征分布视图;
图7是本发明实施例提供的类别视图;
图8是本发明实施例提供的局部特征贡献值视图;
图9是本发明实施例提供的评估模型的训练方法的一种流程示意图;
图10是本发明实施例提供的模型评估装置的一种结构示意图;
图11是本发明实施例提供的模型评估装置的另一种结构示意图;
图12是本发明实施例提供的电子设备的一种结构示意图;
图13是本发明实施例提供的电子设备的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解的是,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
在相关技术中,以智能手机为例,诸如“超级文本”、“相册”、“邮件”等集成人工智能(Artificial Intelligence,AI)功能的应用为用户的工作生活带来了诸多便利,但用户在使用手机过程中可能会遇到卡顿、发热等问题,影响体验和潜在留存率。传统的机器学习评价指标无法很好地反映和预见这些用户层面上的不足。
为了收集用户在使用智能手机应用时的行为数据,手机厂商通常在客户端或服务端根据不同业务场景设计数据埋点。通过数据埋点来获取AI模型的运行数据,从而可以根据获取的运行数据深度还原用户每次调用某个AI模型的完整工作流程,进而为该模型综合性能的评估提供数据支撑。
然而,当前埋点数据一般由数据分析人员凭借专业知识进行人工分析,这需要投入大量的时间和精力,并且在数据规模和维度超出一定范围后,传统的人工分析方法变得越来越不适用,无法很好地揭示数据背后隐藏的规律,降低了对模型效果的评估效率。
为了解决相关技术中存在的技术问题,本发明实施例提供了一种模型评估方法,请参见图1,图1是本发明实施例提供的模型评估方法的一种流程示意图,该方法包括步骤101至步骤103;
步骤101,获取待评估模型在运行时生成的待评估数据。
其中,待评估数据包括待评估模型在两种不同运行环境下生成的数据。可选的,两种不同运行环境可以是同一终端上的两种不同运行环境,也可以是两种不同终端在相同应用场景下的运行环境。具体的,同一终端上的两种不同运行环境可以为同一终端在两种不同运行时长下的运行环境、在不同的冷启动时长下的运行环境,或在不同的热启动时长下的运行环境等,在此不作具体的限定。
在本实施例中,本实施例提供的待评估模型可以是运行在终端上的AI模型,例如终端上人脸识别功能的人脸识别模型。本实施例提供的终端可以是手机端,也可以是电脑(personal computer,PC)端、电视(television,TV)端等可以运行AI模型的终端,在此不做限定。
在一些实施例中,本实施例提供的获取待评估模型在运行时生成的待评估数据的步骤,具体可以为:通过待评估模型中的预设接口,获取待评估模型在运行时生成的接口数据,接口数据包括终端的设备数据、接口调用数据、终端的功耗数据,以及待评估模型的运行结果数据;根据设备数据、接口调用数据、功耗数据,以及运行结果数据,确定待评估数据。
其中,本实施例提供的预设接口可以是预先在待评估模型中进行埋点的接口,以获取待评估模型在框架层、品质层、用户体验层和算法层等多个层面的埋点数据,从而能够根据这些埋点数据确定待评估模型的待评估数据,为该待评估模型综合性能的评估提供数据支撑。
具体的,本实施例提供的终端的设备数据为待评估模型在框架层的埋点数据,该设备数据包括终端的机型数据、待评估模型所属应用程序的版本数据等数据;本实施例提供的接口调用数据为待评估模型在算法层的埋点数据,该接口调用数据包括待评估模型在运行过程中调用的算法数据、调用失败的故障数据等数据;本实施例提供的终端的功耗数据为待评估模型在品质层的埋点数据,该功耗数据包括终端在运行待评估模型时的性能功耗数据、是否出现卡顿情况的卡顿数据、是否出现发热的发热数据等数据;本实施例提供的待评估模型的运行结果数据为待评估模型在用户体验层的埋点数据,该运行结果数据包括待评估模型在终端中是否正常运行的结果数据。需要说明的是,本实施例提供的运行结果数据,主要用于表征用户的体验,若待评估模型正常运行,则可以确定用户体验好;若待评估模型无法正常运行,则可以确定用户体验差。
可选的,在得到待评估模型的待评估数据之后,可以将该待评估数据以表格的形式进行存储,便于后续进一步处理。
步骤102,将待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果。
在本实施例中,本实施例提供的训练后的评估模型可以用于对输入的数据对(即待评估模型在两种不同运行环境下生成的数据)进行评估处理,以生成该数据对对应的评估结果,该评估结果用于表征数据对中两个数据之间的评分高低。
步骤103,根据评估结果,确定待评估模型在两种不同运行环境下的模型效果。
作为可选的实施例,本实施例提供的待评估数据可以包括待评估模型在第一运行环境下生成的第一待评估数据,以及待评估模型在第二运行环境下生成的第二待评估数据,评估结果可以包括第一待评估数据对应的第一评分,以及第二待评估数据对应的第二评分。
由于本发明实施例提供的训练后的评估模型生成的评估结果,主要用于表征数据对中两个数据之间的评分高低,因此,根据根据训练后的评估模型生成的评估结果,即可确定待评估模型具体在哪个运行环境下的模型效果更好,从而实现快速对待评估模型的模型效果进行评估的目的。
在一种实施方式中,本实施例提供的根据评估结果,确定待评估模型在两种不同运行环境下的模型效果的步骤,具体可以为:在第一评分大于第二评分的情况下,确定待评估模型在第一运行环境下的模型效果,优于待评估模型在第二运行环境下的模型效果。
在另一种实施方式中,本实施例提供的根据评估结果,确定待评估模型在两种不同运行环境下的模型效果的步骤,具体可以为:在第二评分大于第一评分的情况下,确定待评估模型在第二运行环境下的模型效果,优于待评估模型在第一运行环境下的模型效果。
在一些实施例中,本实施例不仅可以根据评分结果,确定待评估模型在两种不同运行环境下的模型效果的高低之分,还可以确定影响待评估模型的模型效果的关键特征及其关系。具体的,请参见图2,图2是本发明实施例提供的模型评估方法的另一种流程示意图,如图2所示,本实施例提供的模型评估方法还可以包括步骤201至步骤203;
步骤201,将待评估数据输入至训练后的评估模型中进行特征编码处理,得到待评估数据的特征编码数据。
在本实施例中,为了得到本实施例提供的待评估数据对应的特征编码数据对最终的评分的贡献情况,以确定影响待评估模型的模型效果的关键特征及其关系,本实施例可以将待评估数据输入至训练后的评估模型中进行特征编码处理,以获取待评估数据的特征编码数据,从而便于后续对待评估数据的特征编码数据的特征贡献值进行计算。
步骤202,基于特征编码数据和评估结果,确定特征编码数据对于评估结果的特征贡献值。
在本实施例中,本实施例提供的基于特征编码数据和评估结果,确定特征编码数据对于评估结果的特征贡献值的步骤,具体可以为:对特征编码数据进行添加干扰处理,得到多个干扰特征编码数据;分别将特征编码数据和多个干扰特征编码数据之间所有组合构成的特征数据集,和多个干扰特征数据之间所有组合构成的特征数据集,输入至训练后的评估模型中进行评估处理,得到第一评估结果和第二评估结果;将第一评估结果和第二评估结果之间的差值,确定为特征编码数据对于评估结果的特征贡献值。
其中,本实施例可以采用沙普利加性解释(SHapley Additive exPlanations,SHAP)算法确定特征编码数据对于评估结果的特征贡献值。具体的,SHAP算法是一种基于传统博弈论的算法,通过对待评估数据添加扰动去计算各个特征的边际贡献即特征贡献值。例如,在计算特征i的特征贡献值时,通过计算所有特征组合的情况其中S是特征子集,F是整个特征空间。具体来说,分别计算特征空间fS∪i和特征空间fS下的模型输出值,并计算二者之间的差值,来得到当前特征i的特征贡献值,即fS∪i(S∪i)-fS(S)。
可选的,本实施例提供的特征i的特征贡献值可以通过以下公式计算得到:
步骤203,根据待评估数据、评估结果以及特征贡献值,确定待评估数据中影响评估结果的目标数据。
其中,目标数据为设备数据、接口调用数据、功耗数据,以及运行结果数据中的一种。
在本实施例中,在得到待评估数据的特征编码数据对应的特征贡献值后,本实施例可以根据待评估数据、评估结果以及特征贡献值,确定待评估数据中影响评估结果的目标数据。具体的,本实施例可以构建一个交互式可视分析系统,通过可视化的方式将待评估数据、评估结果以及特征贡献值进行可视化显示,从而能够通过该交互式可视分析系统帮助用户对待评估数据进行多维度分析,以确定待评估数据中影响评估结果的目标数据,实现挖掘业务知识的目的。
作为可选的实施例,请参见图3,图3是本发明实施例提供的交互式可视分析系统的一种结构示意图,如图3所示,本实施例构建的交互式可视分析系统包括七个视图模块:Configure View配置视图、Data View数据视图、Global Shap View全局特征贡献值视图、Category View类别视图、Local Shap View局部特征贡献值视图、Feature distributionView特征分布视图、Score View评分视图。
其中,请继续参见图3,Configure View配置视图为整个交互式可视分析系统的配置面板,用户可以查看当前系统展示的分析文件(Analysis Files)。此外,用户还可以通过自定义聚合字段(aggerate features)进行聚合分析。
Data View数据视图是以表格的形式展示待评估数据的特征及其对应的特征值。表头提供了聚合字段的筛选选项,可筛选需要查看特征字段的特征值,特征字段包括DayNo日期编号、imei序列号、model待评估模型、app_packy应用程序包、sdk_ver软件包、core_ver核心程序、unit_id设备编号等特征字段。Data View数据视图还提供了特征字段的排序选项,可对特征值按升序或降序排列,以帮助用户进行辅助分析。在表格的第一列,还提供了一个单选组件,使用户可以通过选择感兴趣的行,渲染该行数据的下钻信息,进行下钻分析。
Global Shap View全局特征贡献值视图展示了整个数据在全局维度上的特征贡献值情况,并按特征贡献值的大小对其进行排序。对于特征贡献值过多的情况,可以将排序靠后的特征整合在一起,作为一个属性进行呈现。
Category View类别视图可基于配置视图中选择的聚合特征进行样本的选择,基于选中的聚合字段进行聚合得到该字段下各个类别的平均得分情况。
Local Shap View局部特征贡献值视图分析了选中数据行的特征贡献值分布情况。其中,正数值对应的条块代表该特征产生了正贡献,负数值对应的条块代表该特征产生了负贡献。视图中还包含两个标记线,分别是数据全局的基础值和当前样本的评分情况。
Feature distribution View特征分布视图中,行代表当前选择特征的特征值,列代表选择特征的特征贡献值。每个散点代表一个样本,并有一个标记符号标记当前选择样本的位置。
Score View评分视图展示的是通过训练后的评估模型对待评估数据进行评估生成的评分结果。评分视图中的列为评分情况。该视图支持时变趋势分析,使用户能够进行更加细粒度的分析。
如此,通过构建如图3所示的交互式可视分析系统,能够帮助模型开发人员和数据分析师高效定位、追溯和分析影响模型综合能力的多种因素,从而能够有的放矢地评估、调试和优化待评估模型,帮助企业设计出更符合业务和用户需求的产品,同时提升企业的创新能力、研发效能和产品竞争力。
在一些实施例中,为了更好地说明本实施例提供的交互式可视分析系统的工作原理,下面将以两个不同的分析视角对交互式可视分析系统的使用进行详细说明。
1)全局时序分析
首先,请参见图4,图4是本发明实施例提供的评分视图,通过对Score View进行观察,发现埋点数据有一个非常明显的时变趋势:随着时间的推移,埋点数据的评分会有一个非常明显的提升趋势。为了分析出导致时变趋势的原因,可以选择其中最具代表性的样本点进行具体分析。因此可以选择20230102和20230108作为早期样本的采样点,选择20230316和20230317作为后期样本的采样点。请参见图5,图5是本发明实施例提供的更新前后的全局特征贡献值视图,通过在交互式可视分析系统中的Data View视图进行数据的筛选,对比经过筛选后更新的Global Shap View视图,即图5,其中,图5左侧为早期样本分布,右图为后期样本分布。通过对比能够很明显的发现:在早期,冷启动时长及其相关的字段是导致评分较低的最主要原因,而在后期,能力运行时长对于评分贡献尤为突出。
通过对特征贡献值的观察,能够了解到不同特征的贡献情况,而请参见图6,图6是本发明实施例提供的特征分布视图,通过图6所示的Feature Distribution View则能够了解特征贡献值和特征值之间的关系,其中,图的6左侧为全局数据冷启动平均时长的分布图,右侧为全局数据能力运行时长的分布图,根据图6能够很明显的观察到能力运行时长和冷启动时长对于评分的贡献与其本身特征值分别呈正相关和负相关的关系。
2)细粒度局部分析
在上述实施例中描述了全局视角下的分析过程,在本实施例中将以局部视角进行细粒度的分析。
请参见图7,图7是本发明实施例提供的类别视图,该类别视图展示了不同类别的评分情况,通过观察发现类别219176962和类别219176961的评分有较大差异。于是通过Data View中的数据筛选选择以2023年1月19日相同用户相同机型相同场景框架下,分析类别219176962和类别219176961的区别之处。
具体的,请参见图8,图8是本发明实施例提供的局部特征贡献值视图,图8示出了类别219176962和类别219176961的局部特征贡献值,其中图8左侧为类别219176962的局部特征贡献值视图,图8右侧为类别219176961的局部特征贡献值视图。根据图8可以看到对于类别21976961来看,冷启动时长是导致其评分上涨的主要原因,而导致类别21976962类别评分上涨的主要原因是热启动时长,由此可以确定影响各类别评分的目标数据。
如此,通过本实施例提供的交互式可视分析系统,即可直观地、快速地确定影响待评估模型评分的目标数据,从而有效提高对模型效果进行评估的效率。
在一些实施例中,为了采用训练后的评估模型对待评估数据进行评估处理,请参见图9,图9是本发明实施例提供的评估模型的训练方法的一种流程示意图,如图9所示,本实施例在将待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果的步骤之前,还可以包括步骤301至步骤304;
步骤301,获取目标训练数据集。
在本实施例中,本实施例提供的目标训练数据集是预设的初始训练数据集经过优化处理和标注处理之后得到的。其中,本实施例提供的优化处理的目的是为了减少训练数据集中的异常和错误。具体的,本实施例提供的获取目标训练数据集的步骤,具体可以为:获取预设的初始训练数据集;对初始训练数据集进行优化处理,得到优化数据集;对优化数据集中的部分数据进行标注处理,得到标签数据;将标签数据和无标签数据作为目标训练数据集,无标签数据为优化数据集中未进行标注处理的数据。
其中,本实施例提供的预设的初始训练数据集可以包括UCI(University ofCaliforniaIrvine,加州大学欧文分校)数据集和通过埋点采集的埋点数据集。其中,UCI数据集是一个在机器学习领域广泛使用的公开数据集,旨在用于训练和评估回归模型。埋点数据集来源于对埋点数据的收集,经过优化处理和标注处理后,以表格数据的形式存储,用于对待训练的评估模型进行训练。
在一些实施例中,本实施例提供的优化处理包括缺失样本删除处理、缺失数据填充处理、冗余特征删除处理以及异常值处理。
具体的,本实施例提供的缺失样本删除处理过程具体可以为:为了确保数据的准确性和可信度,通过严格筛选出含有大量缺失数据的样本,并将其从初始训练数据集中删除,从而能够有效避免缺失数据对后续分析和建模过程造成的不良影响。
本实施例提供的缺失数据填充处理过程具体可以为:根据数据的类型对初始训练数据集中的数据进行分组,并在每个组内计算非缺失值的均值,然后使用该均值来填充对应组内的缺失值。通过使用均值填充对应组内的缺失值,能够保持数据的一致性和准确性。
本实施例提供冗余特征删除处理的过程具体可以为:通过着重剔除与待评估模型的评估任务无关或相关性低的数据,从而可以简化数据结构,提高后续算法的效率和可解释性。
本实施例提供的异常值处理过程具体可以为:可以使用统计方法或基于领域知识的技巧来识别和处理数据中的异常值。这些异常值可以是数据采集过程中的噪声或异常情况,根据具体任务的要求,采取适当的处理方式,例如删除异常值或使用插值方法进行修复,从而完成异常值处理过程。
通过上述实施例提供的优化处理,能够获取到高质量的训练数据集,以便在后续的建模过程中获得准确而可靠的结果。通过对初始训练数据集进行优化处理操作,不仅提升了训练数据的数据品质,也为后续的数据分析提供了坚实的基础。
在本实施例中,在完成对初始训练数据集的优化处理之后,还需要对优化处理后的初始训练数据集进行标注处理。具体的,本实施例提供的标注处理可以是通过专家对经过优化处理后的初始训练数据集中的部分数据进行标注处理,从而得到标签数据。最后,将标签数据和未经过标注处理的无标签数据作为目标训练数据集。
可选的,本实施例提供的标注处理可以是基于训练数据集中数据特征的重要性程度赋予权重值,然后将归一化后的数据乘以权重值并求和,得到每条训练数据的伪标签。
其中,本实施例通过对经过优化处理后的初始训练数据集中的部分数据进行标注处理,而非对全部数据进行标注处理,能够防止后续模型训练出现过拟合的情况。而本实施例不仅通过将标签数据作为模型训练的训练数据集,还将无标签数据也加入到训练数据集中对模型进行训练,能够增强模型的鲁棒性。
需要说明的是,本实施例提供的评估模型主要是对数据对进行评估处理,因此,在准备训练数据时,也同样需要准备数据对作为训练数据。其中,本实施例可以在指定的评分机制下,通过设定数据对中的前者的评分高于后者,相对于传统的基于全局评分进行比较的方式,本实施例提供的方法不需要显式的评分。同时,本实施例提供的方法通过比较两个样本评分的相对高低,能够更准确地捕捉到样本之间的优劣关系。
步骤302,根据目标训练数据集对预设的自编码器模型进行训练,得到训练后的自编码器模型。
在本实施例中,本实施例提供的根据目标训练数据集对预设的自编码器模型进行训练,得到训练后的自编码器模型的步骤,具体可以为:采用预设的自编码器模型对无标签数据进行数据重建处理,得到无标签的重建数据;根据预设的损失函数,确定无标签数据与重建数据之间的损失值;在损失值小于预设阈值的情况下,得到训练后的自编码器模型。
其中,本实施例提供的预设的自编码器模型可以是SubTab自监督模型,具体的,本实施例提供的SubTab自监督模型可以将学习来自表格数据的任务转化为多视图表示学习问题,通过将输入特征分成多个子集来实现。SubTab自监督模型能够从输入数据的特征子集中重构数据,可以更好地捕获数据的潜在表征。其中,SubTab自监督模型的主体采用了自编码器模型,主要将若干个特征子集输入到模型的编码器子模型中,以得到相应的表征向量。针对该向量可以采用两种处理方式:其一是通过模型中的解码器子模型来推理模型的输入数据,推理结果与模型的输入数据比较构成重构损失;其二,将该表征向量进行投影,计算投影向量之间的对比损失和距离损失。然后基于上述三部分的损失函数训练SubTab自监督模型,提取该模型中的编码器子模型供后续使用。
在一些实施例中,由于本实施例采用的模型是SubTab自监督模型,因此本实施例提供的预设的损失函数为重构损失函数、对比损失函数以及距离损失函数。此外,本实施例提供的预设阈值可以为0.01、0.02等数值,在此不作具体的限定。
作为可选的实施例,本实施例主要是通过自编码机制对无标签数据进行数据增强、编码和解码工作,即完成数据重建的过程。整个训练过程中,将无标签数据x作为输入。然后,从Bernoulli分布中随机采样生成遮罩向量m=[m1,...,md]T,通过增强数据生成器,构造经过数据破坏后的增强数据。具体而言,生成过程如下:
其中,表示样本特征的均值分布。接下来,将经过数据增强的样本按特征列维度拆分为多个子表,将n个特征按照每个子表有k个特征进行排列组合,即/>个子表。然后,将每个子表作为输入输入到编码器子模型中,得到对应的表征信息。之后,将表征信息分别输入到解码器子模型和projector投影器中。解码器子模型的任务是从表征信息中完成对输入数据的重建,并通过重建损失函数进行优化;而projector则是参考对比学习中的设计,通过多层感知机制将表征信息进行进一步的映射,并使用距离损失函数进行优化。
其中,本实施例使用的目标函数为:Lt=Lr+Ld;
其中,Lr代表重建损失,即通过表征信息h=e(xk)重建相同特征空间的过程e和d分别代表编码器子模型和解码器子模型。对比损失函数计算重建后的特征空间和原特征空间的差异,并将其作为目标函数,具体为:
其中,Ld则代表距离损失,即计算表征信息投影z=p(h)之间的均方误差损失。因为从同一特征空间中组合出的各个子集之间的样本分布应该是一致的,而投影后的样本也应该相互接近,所以距离损失函数可以为:
如此,即可完成对预设的自编码器模型的训练,从而得到训练后的自编码器模型。
步骤303,根据目标训练数据集对预设的预测模型进行训练,得到训练后的预测模型。
在本实施例中,本实施例提供的根据目标训练数据集对预设的预测模型进行训练,得到训练后的预测模型的步骤,具体可以为:对无标签数据进行数据增强处理,得到增强处理后的干扰数据;将无标签数据、干扰数据,以及有标签数据输入至训练后的自编码器模型中的子编码器模型中进行编码处理,得到编码数据;将编码数据输入至预设的预测模型中的预测器子模型进行预测训练,并根据有监督损失函数和一致性损失函数对预测器子模型的模型参数进行优化,直至预测器子模型收敛,得到训练后的预测模型。
其中,本实施例提供的预测模型可以为VIME模型,VIME模型主要采用了半监督的训练方式对预设的预测模型进行训练,而由于部分训练数据是具有标签的,部分数据是无标签的。因此,在该训练方式下,两部分数据需要采用不同的处理方式。对于标签数据,需要将其依次输入到上述实施例提供的SubTab自监督模型中的编码器和一个由多层感知机构成的预测器中,借助常见的有监督损失函数来拟合标签。对于无标签数据,需要对其进行数据增强处理。具体来说,数据增强处理可以是对每条无标签数据生成若干条经过噪声处理的干扰数据,之后将无标签数据和干扰数据依次输入到与上述相同的编码器和预测器中得到预测值。并使用一致性损失函数,使得来自于同一条无标签数据的若干个干扰数据具有尽可能相同预测值。通过对VIME模型进行训练直至收敛后,提取该模型的预测器子模型供后续使用。
作为可选的实施例,在对预设的预测模型进行训练的过程中,本实施例使用采用上述实施例提供的编码器子模型对训练数据进行编码,得到表征信息。然后,将各个子表的表征空间聚合在一起,以形成训练数据的表征空间h=concat(hk1,hk2,...,hkk)。接下来,使用这个表征空间来进行下游任务的微调。在微调过程中,同时输入标签数据和无标签数据到每个batch中,并分别计算损失函数。通过超参数来调整无标签数据损失函数的权重,即:L=Ls+β·Lu。
其中,标签数据的格式是数据对,即每个标注结果中包含两个样本,而两个样本相对评分的高低则作为标签结果。因此,本实施例选择pairwise ranking loss作为训练过程的损失函数,具体公式为:
Ls=-log(σ(rθ(xh))-σ(rθ(xl)))
在这个公式中,θ是模型的参数,xh和xl分别代表评分较高的样本和评分较低的样本,r是所训练的模型,σ则是sigmoid激活函数。对于无标签数据的损失函数,本实施例使用一致性损失进行计算。在对无标签数据进行编码得到表征信息之前,本实施例会通过遮罩的方式构建J组不同遮罩的样本,并计算这J个样本之间的一致性损失。具体公式为:
如此,即可完成对预设的预测模型的训练,从而得到训练后的预测模型。
步骤304,结合自编码器模型中的编码器子模型和预测模型中的预测器子模型,得到训练后的评估模型。
在本实施例中,本实施例提供的训练后的评估模型是由SubTab自监督模型与VIME模型结合得到的,其中,训练后的评估模型中SubTab自监督模型的编码器子模型由一个线性层和一个LeakyReLU激活层构成,输出维度为256维。训练后的评估模型的输入方面主要是将输入数据划分为4个特征子集,每个特征子集之间有75%的重叠部分。训练后的评估模型中VIME模型的预测器子模型包括一个隐藏层的多层感知机制,隐藏层维度为64。可选的,训练过程中使用Adam优化器来训练模型,包括学习率在内的其他超参数,根据模型在验证集上的训练效果进行选择。
作为可选的实施例,由于本实施例提供的训练数据为数据对,而后续需要采用SHAP算法对待评估模型进行可解释性分析,因此,本实施例提供的训练后的评估模型还可以包括XGBoost模型,通过该XGBoost模型能够使SHAP算法可以实现对待评估模型进行可解释性分析的操作,有效提高了对模型效果进行评估的评估效率。
综上,本发明实施例提供了一种模型评估方法,该方法包括获取待评估模型在运行时生成的待评估数据,待评估数据包括待评估模型在两种不同运行环境下生成的数据,将待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果,根据评估结果,确定待评估模型在两种不同运行环境下的模型效果。采用本发明实施例,通过对待评估模型在两种不同运行环境下生成的数据进行评估处理,从而能够根据评估处理得到的评估结果,确定待评估模型在两种不同运行环境下的模型效果,有效提高对模型效果进行评估的效率。
根据上述实施例所描述的方法,本实施例将从模型评估装置的角度进一步进行描述,该模型评估装置具体可以作为独立的实体来实现,也可以集成在电子设备,比如终端中来实现,该终端可以包括手机、平板电脑等。
请参见图10,图10是本发明实施例提供的模型评估装置的一种结构示意图,如图10所示,本发明实施例提供的模型评估装置400,包括:获取模块401、评估模块402以及第一确定模块403;
其中,获取模块401,用于获取待评估模型在运行时生成的待评估数据,待评估数据包括待评估模型在两种不同运行环境下生成的数据。
在一些实施例中,本实施例提供的获取模块401具体用于:通过待评估模型中的预设接口,获取待评估模型在运行时生成的接口数据,接口数据包括终端的设备数据、接口调用数据、终端的功耗数据,以及待评估模型的运行结果数据;根据设备数据、接口调用数据、功耗数据,以及运行结果数据,确定待评估数据。
评估模块402,用于将待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果。
第一确定模块403,用于根据评估结果,确定待评估模型在两种不同运行环境下的模型效果。
在一些实施例中,待评估数据包括待评估模型在第一运行环境下生成的第一待评估数据,以及待评估模型在第二运行环境下生成的第二待评估数据,评估结果包括第一待评估数据对应的第一评分,以及第二待评估数据对应的第二评分。
在一种实施方式中,本实施例提供的第一确定模块403具体用于:在第一评分大于第二评分的情况下,确定待评估模型在第一运行环境下的模型效果,优于待评估模型在第二运行环境下的模型效果。
在另一种实施方式中,本实施例提供的第一确定模块403具体还用于:在第二评分大于第一评分的情况下,确定待评估模型在第二运行环境下的模型效果,优于待评估模型在第一运行环境下的模型效果。
在一些实施例中,请参见图11,图11是本发明实施例提供的模型评估装置的另一种结构示意图,如图11所示,本发明实施例提供的模型评估装置400,还包括:编码模块404、第二确定模块405以及第三确定模块406;
其中,编码模块404,用于将待评估数据输入至训练后的评估模型中进行特征编码处理,得到待评估数据的特征编码数据。
第二确定模块405,用于基于特征编码数据和评估结果,确定特征编码数据对于评估结果的特征贡献值。
第三确定模块406,用于根据待评估数据、评估结果以及特征贡献值,确定待评估数据中影响评估结果的目标数据,目标数据为设备数据、接口调用数据、功耗数据,以及运行结果数据中的一种。
在一些实施例中,本实施例提供的第二确定模块405,具体用于:对特征编码数据进行添加干扰处理,得到多个干扰特征编码数据;分别将特征编码数据和多个干扰特征编码数据之间所有组合构成的特征数据集,和多个干扰特征数据之间所有组合构成的特征数据集,输入至训练后的评估模型中进行评估处理,得到第一评估结果和第二评估结果;将第一评估结果和第二评估结果之间的差值,确定为特征编码数据对于评估结果的特征贡献值。
在一些实施例中,请继续参见图11,本实施例提供的模型评估装置400,还包括:训练模块407;
其中,训练模块407,用于获取目标训练数据集;根据目标训练数据集对预设的自编码器模型进行训练,得到训练后的自编码器模型;根据目标训练数据集对预设的预测模型进行训练,得到训练后的预测模型;结合自编码器模型中的编码器子模型和预测模型中的预测器子模型,得到训练后的评估模型。
在一些实施例中,本实施例提供的训练模块407,具体用于:获取预设的初始训练数据集;对初始训练数据集进行优化处理,得到优化数据集;对优化数据集中的部分数据进行标注处理,得到标签数据;将标签数据和无标签数据作为目标训练数据集,无标签数据为优化数据集中未进行标注处理的数据。
在另一些实施例中,本实施例提供的训练模块407,具体还用于:采用预设的自编码器模型对无标签数据进行数据重建处理,得到无标签的重建数据;根据预设的损失函数,确定无标签数据与重建数据之间的损失值;在损失值小于预设阈值的情况下,得到训练后的自编码器模型。
作为可选的实施例,本实施例提供的训练模块407,具体还用于:对无标签数据进行数据增强处理,得到增强处理后的干扰数据;将无标签数据、干扰数据,以及有标签数据输入至训练后的自编码器模型中的子编码器模型中进行编码处理,得到编码数据;将编码数据输入至预设的预测模型中的预测器子模型进行预测训练,并根据有监督损失函数和一致性损失函数对预测器子模型的模型参数进行优化,直至预测器子模型收敛,得到训练后的预测模型。
具体实施时,以上各个模块和/或单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块和/或单元的具体实施可参见前面的方法实施例,具体可以达到的有益效果也请参看前面的方法实施例中的有益效果,在此不再赘述。
另外,请参见图12,图12是本发明实施例提供的电子设备的一种结构示意图,该电子设备可以是移动终端如智能手机、平板电脑等设备。如图12所示,电子设备500包括处理器501、存储器502。其中,处理器501与存储器502电性连接。
处理器501是电子设备500的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器502内的应用程序,以及调用存储在存储器502内的数据,执行电子设备500的各种功能和处理数据,从而对电子设备500进行整体监测。
在本实施例中,电子设备500中的处理器501会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现上述实施例提供的模型评估方法中的任一步骤。
该电子设备500可以实现本发明实施例所提供的模型评估方法任一实施例中的步骤,因此,可以实现本发明实施例所提供的任一模型评估方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
请参见图13,图13是本发明实施例提供的电子设备的另一种结构示意图,如图13所示,图13示出了本发明实施例提供的电子设备的具体结构框图,该电子设备可以用于实施上述实施例中提供的模型评估方法。该电子设备600可以为移动终端如智能手机或笔记本电脑等设备。
RF电路610用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF电路610可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路610可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced DataGSM Environment,EDGE),宽带码分多址技术(Wideband Code Division MultipleAccess,WCDMA),码分多址技术(Code Division Access,CDMA)、时分多址技术(TimeDivision Multiple Access,TDMA),无线保真技术(Wireless Fidelity,Wi-Fi)(如美国电气和电子工程师协会标准IEEE 802.11a,IEEE 802.11b,IEEE802.11g和/或IEEE802.11n)、网络电话(Voice over Internet Protocol,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access,Wi-Max)、其他用于邮件、即时通讯及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的协议。
存储器620可用于存储软件程序以及模块,如上述实施例中模型评估方法对应的程序指令/模块,处理器680通过运行存储在存储器620内的软件程序以及模块,从而执行各种功能应用以及对模型评估。
存储器620可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器620可进一步包括相对于处理器680远程设置的存储器,这些远程存储器可以通过网络连接至电子设备600。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入单元630可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元630可包括触敏表面631以及其他输入设备632。触敏表面631,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面631上或在触敏表面631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面631。除了触敏表面631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及电子设备600的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元640可包括显示面板641,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的,触敏表面631可覆盖显示面板641,当触敏表面631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图中,触敏表面631与显示面板641是作为两个独立的部件来实现输入和输出功能,但是在某些实施例中,可以将触敏表面631与显示面板641集成而实现输入和输出功能。
电子设备600还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在翻盖合上或者关闭时产生中断。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备600还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与电子设备600之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一终端,或者将音频数据输出至存储器620以便进一步处理。音频电路660还可能包括耳塞插孔,以提供外设耳机与电子设备600的通信。
电子设备600通过传输模块670(例如Wi-Fi模块)可以帮助用户接收请求、发送信息等,它为用户提供了无线的宽带互联网访问。虽然图中示出了传输模块670,但是可以理解的是,其并不属于电子设备600的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是电子设备600的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行电子设备600的各种功能和处理数据,从而对电子设备进行整体监测。可选的,处理器680可包括一个或多个处理核心;在一些实施例中,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解地,上述调制解调处理器也可以不集成到处理器680中。
电子设备600还包括给各个部件供电的电源690(比如电池),在一些实施例中,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源690还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备600还包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备的显示单元是触摸屏显示器,移动终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序实现上述实施例提供的模型评估方法中的任一步骤。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的方法实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器执行时实现上述实施例所提供的模型评估方法中的任一步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的模型评估方法任一实施例中的步骤,因此,可以实现本发明实施例所提供的任一模型评估方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种模型评估方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。并且,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (12)
1.一种模型评估方法,其特征在于,包括:
获取待评估模型在运行时生成的待评估数据,所述待评估数据包括所述待评估模型在两种不同运行环境下生成的数据;
将所述待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果;
根据所述评估结果,确定所述待评估模型在所述两种不同运行环境下的模型效果。
2.如权利要求1所述的方法,其特征在于,所述获取待评估模型在运行时生成的待评估数据,包括:
通过待评估模型中的预设接口,获取所述待评估模型在运行时生成的接口数据,所述接口数据包括所述终端的设备数据、接口调用数据、所述终端的功耗数据,以及所述待评估模型的运行结果数据;
根据所述设备数据、所述接口调用数据、所述功耗数据,以及所述运行结果数据,确定待评估数据。
3.如权利要求1所述的方法,其特征在于,所述待评估数据包括所述待评估模型在第一运行环境下生成的第一待评估数据,以及所述待评估模型在第二运行环境下生成的第二待评估数据,所述评估结果包括所述第一待评估数据对应的第一评分,以及所述第二待评估数据对应的第二评分;
所述根据所述评估结果,确定所述待评估模型在所述两种不同运行环境下的模型效果,包括:
在所述第一评分大于所述第二评分的情况下,确定所述待评估模型在所述第一运行环境下的模型效果,优于所述待评估模型在所述第二运行环境下的模型效果;或,
在所述第二评分大于所述第一评分的情况下,确定所述待评估模型在所述第二运行环境下的模型效果,优于所述待评估模型在所述第一运行环境下的模型效果。
4.如权利要求2所述的方法,其特征在于,在根据所述评估结果,确定所述待评估模型在所述两种不同运行环境下的模型效果的步骤之后,所述方法还包括:
将所述待评估数据输入至所述训练后的评估模型中进行特征编码处理,得到所述待评估数据的特征编码数据;
基于所述特征编码数据和所述评估结果,确定所述特征编码数据对于所述评估结果的特征贡献值;
根据所述待评估数据、所述评估结果以及所述特征贡献值,确定所述待评估数据中影响所述评估结果的目标数据,所述目标数据为所述设备数据、所述接口调用数据、所述功耗数据,以及所述运行结果数据中的一种。
5.如权利要求4所述的方法,其特征在于,所述基于所述特征编码数据和所述评估结果,确定所述特征编码数据对于所述评估结果的特征贡献值,包括:
对所述特征编码数据进行添加干扰处理,得到多个干扰特征编码数据;
分别将所述特征编码数据和所述多个干扰特征编码数据之间所有组合构成的特征数据集,和所述多个干扰特征数据之间所有组合构成的特征数据集,输入至所述训练后的评估模型中进行评估处理,得到第一评估结果和第二评估结果;
将所述第一评估结果和所述第二评估结果之间的差值,确定为所述特征编码数据对于所述评估结果的特征贡献值。
6.如权利要求1所述的方法,其特征在于,在所述将所述待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果的步骤之前,所述方法还包括:
获取目标训练数据集;
根据所述目标训练数据集对预设的自编码器模型进行训练,得到训练后的自编码器模型;
根据所述目标训练数据集对预设的预测模型进行训练,得到训练后的预测模型;
结合所述自编码器模型中的编码器子模型和所述预测模型中的预测器子模型,得到训练后的评估模型。
7.如权利要求6所述的方法,其特征在于,所述获取目标训练数据集,包括:
获取预设的初始训练数据集;
对所述初始训练数据集进行优化处理,得到优化数据集;
对所述优化数据集中的部分数据进行标注处理,得到标签数据;
将所述标签数据和无标签数据作为目标训练数据集,所述无标签数据为所述优化数据集中未进行所述标注处理的数据。
8.如权利要求7所述的方法,其特征在于,所述根据所述目标训练数据集对预设的自编码器模型进行训练,得到训练后的自编码器模型,包括:
采用预设的自编码器模型对所述无标签数据进行数据重建处理,得到无标签的重建数据;
根据预设的损失函数,确定所述无标签数据与所述重建数据之间的损失值;
在所述损失值小于预设阈值的情况下,得到训练后的自编码器模型。
9.如权利要求7所述的方法,其特征在于,所述根据所述目标训练数据集对预设的预测模型进行训练,得到训练后的预测模型,包括:
对所述无标签数据进行数据增强处理,得到所述增强处理后的干扰数据;
将所述无标签数据、所述干扰数据,以及所述有标签数据输入至所述训练后的自编码器模型中的子编码器模型中进行编码处理,得到编码数据;
将所述编码数据输入至预设的预测模型中的预测器子模型进行预测训练,并根据有监督损失函数和一致性损失函数对所述预测器子模型的模型参数进行优化,直至所述预测器子模型收敛,得到训练后的预测模型。
10.一种模型评估装置,其特征在于,包括:
获取模块,用于获取待评估模型在运行时生成的待评估数据,所述待评估数据包括所述待评估模型在两种不同运行环境下生成的数据;
评估模块,用于将所述待评估数据输入至训练后的评估模型中进行评估处理,得到评估结果;
第一确定模块,用于根据所述评估结果,确定所述待评估模型在所述两种不同运行环境下的模型效果。
11.一种电子设备,其特征在于,所述电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310858332.2A CN116894159A (zh) | 2023-07-12 | 2023-07-12 | 模型评估方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310858332.2A CN116894159A (zh) | 2023-07-12 | 2023-07-12 | 模型评估方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894159A true CN116894159A (zh) | 2023-10-17 |
Family
ID=88310359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310858332.2A Pending CN116894159A (zh) | 2023-07-12 | 2023-07-12 | 模型评估方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894159A (zh) |
-
2023
- 2023-07-12 CN CN202310858332.2A patent/CN116894159A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837842B (zh) | 一种无参考视频质量评估的方法、模型训练的方法及装置 | |
CN110598802B (zh) | 一种内存检测模型训练的方法、内存检测的方法及装置 | |
US12045705B2 (en) | Dynamic and intuitive aggregation of a training dataset | |
CN108304758B (zh) | 人脸特征点跟踪方法及装置 | |
US10922206B2 (en) | Systems and methods for determining performance metrics of remote relational databases | |
US11521115B2 (en) | Method and system of detecting data imbalance in a dataset used in machine-learning | |
US11526701B2 (en) | Method and system of performing data imbalance detection and correction in training a machine-learning model | |
US20200380309A1 (en) | Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning | |
CN113284142B (zh) | 图像检测方法、装置、计算机可读存储介质及计算机设备 | |
CN110321863A (zh) | 年龄识别方法及装置、存储介质 | |
CN112084959B (zh) | 一种人群图像处理方法及装置 | |
CN113190757A (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
GB2516865A (en) | Method, apparatus and computer program product for activity recognition | |
CN112231497B (zh) | 信息分类方法、装置、存储介质及电子设备 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN114418069A (zh) | 一种编码器的训练方法、装置及存储介质 | |
CN111984803B (zh) | 多媒体资源处理方法、装置、计算机设备及存储介质 | |
CN111046742B (zh) | 一种眼部行为检测方法、装置以及存储介质 | |
US10229212B2 (en) | Identifying Abandonment Using Gesture Movement | |
CN117115596B (zh) | 对象动作分类模型的训练方法、装置、设备及介质 | |
CN116229188B (zh) | 图像处理显示方法、分类模型的生成方法及其设备 | |
CN112862021A (zh) | 一种内容标注方法和相关装置 | |
CN112948763B (zh) | 件量预测方法、装置、电子设备及存储介质 | |
CN116341976A (zh) | 导航地图生产线的指标数据调整方法、装置及设备 | |
CN116894159A (zh) | 模型评估方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |