CN113610225A - 质量评估模型训练方法、装置、电子设备及存储介质 - Google Patents

质量评估模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113610225A
CN113610225A CN202110795799.8A CN202110795799A CN113610225A CN 113610225 A CN113610225 A CN 113610225A CN 202110795799 A CN202110795799 A CN 202110795799A CN 113610225 A CN113610225 A CN 113610225A
Authority
CN
China
Prior art keywords
data
training
product
model
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110795799.8A
Other languages
English (en)
Inventor
周晓颖
王斌
赵猛
王玉婷
李敬文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202110795799.8A priority Critical patent/CN113610225A/zh
Publication of CN113610225A publication Critical patent/CN113610225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Abstract

本公开关于一种质量评估模型训练方法、装置、电子设备及存储介质,涉及计算机处理技术领域。该方法包括获取至少一个产品的全生命周期的基础数据;基础数据包括运行日志数据和产品基础功能对应的数据;确定神经网络模型的训练任务类型;根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型,得到质量评估模型;质量评估模型用于对产品执行训练任务类型的任务。

Description

质量评估模型训练方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机处理技术领域,尤其涉及一种质量评估模型训练方法、装置、电子设备及存储介质。
背景技术
科学技术是第一生产力,是驱动企业发展的核心引擎。当前云计算、大数据、人工智能等新技术的飞速发展,逐渐成为推动企业转型的重要驱动力。在银行业务范围不断扩大、产品交付快的背景下,为了保证高质量的产品,需要对产品的质量进行评估。
相关技术中,采用质量评估模型对产品的质量进行评估。然而,由于训练模型时采集的数据质量差,导致使用该质量评估模型对产品的质量进行评估时,存在质量评估片面化、不准确、返工率高以及成本高等问题,进而导致对产品的质量监控与预测效率低。
发明内容
本公开提供一种质量评估模型训练方法、装置、电子设备及存储介质,以至少解决相关技术中质量评估模型在对产品的质量进行评估时存在的质量评估片面化、不准确、返工率高以及成本高等的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种质量评估模型训练方法,包括:获取至少一个产品的全生命周期的基础数据;基础数据包括运行日志数据和产品基础功能对应的数据;确定神经网络模型的训练任务类型;根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型,得到质量评估模型;质量评估模型用于对产品执行训练任务类型的任务。
在一种可能的实施方式中,根据全生命周期的基础数据和训练任务类型训练神经网络模型,得到质量评估模型,包括:对基础数据进行预处理,得到初始目标基础数据;预处理包括数据清洗、数据变换、数据归约或数据可视化分析中的至少一种;对初始目标基础数据进行特征处理,得到目标基础数据;根据目标基础数据和训练任务类型训练神经网络模型,得到质量评估模型。
另一种可能的实施方式中,根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型,得到质量评估模型,包括:利用全生命周期的基础数据和训练任务类型训练神经网络模型,在神经网络模型的召回率大于预设阈值的情况下,确定神经网络模型为质量评估模型。
另一种可能的实施方式中,质量评估模型训练方法,还包括:获取目标产品的待评估数据;将目标产品的待评估数据输入到质量评估模型,对目标产品的待评估数据执行训练任务类型的任务,得到评估结果数据;根据评估结果数据和评估结果数据对应的预设评估结果阈值,修正产品的全生命周期的基础数据;根据修正后的全生命周期的基础数据,优化质量评估模型。
根据本公开实施例的第二方面,提供一种质量评估模型训练装置,包括:获取模块,被配置为执行获取至少一个产品的全生命周期的基础数据;基础数据包括运行日志数据和产品基础功能对应的数据;确定模块,被配置为执行确定神经网络模型的训练任务类型;训练模块,被配置为执行根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型,得到质量评估模型;质量评估模型用于对产品执行训练任务类型的任务。
在一种可能的实施方式中,训练模块,具体被配置为执行:对基础数据进行预处理,得到初始目标基础数据;预处理包括数据清洗、数据变换、数据归约或数据可视化分析中的至少一种;对初始目标基础数据进行特征处理,得到目标基础数据;根据目标基础数据和训练任务类型训练神经网络模型,得到质量评估模型。
另一种可能的实施方式中,训练模块,具体被配置为执行:利用全生命周期的基础数据和训练任务类型训练神经网络模型,在神经网络模型的召回率大于预设阈值的情况下,确定神经网络模型为质量评估模型。
另一种可能的实施方式中,训练模块,具体被配置为执行:获取目标产品的待评估数据;将目标产品的待评估数据输入到质量评估模型,对目标产品的待评估数据执行训练任务类型的任务,得到评估结果数据;根据评估结果数据和评估结果数据对应的预设评估结果阈值,修正产品的全生命周期的基础数据;根据修正后的全生命周期的基础数据,优化质量评估模型。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面及其任一种可能的实施方式的质量评估模型训练方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中及其任一种可能的实施方式的质量评估模型训练方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,计算机程序产品包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述第一方面及其任一种可能的实施方式的质量评估模型训练方法。
本公开的实施例提供的技术方案至少带来以下有益效果:通过采集产品的全生命周期的基础数据,与训练任务类型一起,训练神经网络模型,使得神经网络模型的训练更有针对性,得到的质量评估模型在进行评估时准确性更高,并且能够对产品的全生命周期的各个阶段进行质量评估。通过质量评估模型评价产品的全生命周期的各个阶段的质量达标情况,对产品进行全面评估,作为调整及完善产品侧重点的依据,能够及时发现并规避全生命周期的各个阶段的潜在风险,实现对产品质量监控和预测的及时性、有效性、准确性,从而保证产品的全生命周期的各个阶段的高质量性,进而提高产品的质量、减少返工、降低成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种质量评估模型训练方法的流程图;
图2是根据一示例性实施例示出的另一种质量评估模型训练方法的流程图;
图3是根据一示例性实施例示出的另一种质量评估模型训练方法的流程图;
图4是根据一示例性实施例示出的另一种质量评估模型训练方法的流程图;
图5是根据一示例性实施例示出的一种质量评估模型训练装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在对本公开提供的质量评估模型训练方法进行详细介绍之前,先对本公开涉及的实施环境进行简单介绍。
本公开实施例提供的质量评估模型训练方法可以应用于电子设备。电子设备可以是终端设备或服务器。其中,终端设备可以是智能手机、平板电脑、掌上电脑、车载终端、台式电脑以及笔记本电脑等。服务器可以是任意一个服务器或服务器集群,本公开对此不做限定。
为了便于理解,以下结合附图对本公开提供的无线资源利用率确定方法进行具体介绍。
图1是根据一示例性实施例示出的一种质量评估模型训练方法的流程图,该方法用于电子设备。如图1所示,该方法包括S101-S103。
在S101中,获取至少一个产品的全生命周期的基础数据。
其中,基础数据包括运行日志数据和/或产品基础功能对应的数据。
可选地,全生命周期包括同行评审阶段、审计实施阶段、测试阶段、缺陷跟踪阶段、变更控制阶段和配置管理阶段中的至少一个阶段。
可选地,全生命周期的基础数据可以是同行评审阶段、审计实施阶段、测试阶段、缺陷跟踪阶段、变更控制阶段和配置管理阶段中的至少一个阶段的运行日志数据。
可选地,全生命周期的基础数据可以是测试阶段、缺陷跟踪阶段、变更控制阶段和配置管理阶段中的至少一个阶段的产品基础功能对应的数据。
需要说明的,在全生命周期的某一个阶段不具有运行日志数据的情况下,可以仅获取该阶段的产品基础功能对应的数据。同理的,在全生命周期的某一个阶段不具有产品基础功能对应的数据的情况下,可以仅获取该阶段的运行日志数据。
示例性的,同行评审阶段包括需求分析、总体设计、详细设计。审计实施阶段包括内部审计、外部审计、专项审计。测试阶段包括单元测试、功能测试、压力测试。缺陷跟踪阶段包括内部测试、功能测试、生产缺陷。变更控制阶段包括产品基线、任务变更、代码变更。配置管理阶段包括源码管理、制品管理。
可选的,运行日志数据可以是全生命周期的每个阶段对应的内容数据。例如,在同行评审阶段,运行日志数据可以是需求分析、总体设计或详细设计对应的内容数据。在测试阶段,运行日志数据可以是单元测试、功能测试、压力测试对应的内容数据,该内容数据,可以是测试内容对应的内容数据,也可以是测试结果对应的内容数据。
在一个示例中,运行日志数据可以是文档格式的数据。
可选地,产品基础功能对应的数据可以是数据库表数据。
可选地,在产品的全生命周期中,基础数据的获取可以通过Flume节点和/或Datax数据同步框架实现。
示例性的,基于产品的运行日志数据,可以通过部署Flume节点,实现高可用、高可靠、分布式的海量运行日志数据采集、聚合和传输,通过增量式采集策略,提升采集性能与时效性。
示例性的,基于产品的数据库表数据,例如,产品基础功能对应的数据,可以通过搭建Datax数据同步框架,将不同产品的任意数据源类型的数据周期性进行镜像同步。
在S102中,确定神经网络模型的训练任务类型。
可选地,可以根据质量评估模型的应用场景,确定神经网络模型的训练任务类型。
可选地,质量评估模型的应用场景包括测试覆盖方面、测试问题定位方面、技术评审缺陷分析、产品生产缺陷分析、测试问题缺陷分析。具体地,测试覆盖方面包括交易链路分析、接口覆盖率和代码覆盖率。测试问题定位方面包括报错信息分析、进度风险预警。
可选地,训练任务类型可以包括分类任务、回归任务和聚类任务。
可选地,不同的训练任务类型对应不同的评估指标。
示例性的,针对分类任务,评估指标包括准确率、精确率和召回率。针对回归任务,评估指标包括均方根误差、平均绝对误差。
在S103中,根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型,得到质量评估模型。
其中,质量评估模型用于对产品执行训练任务类型的任务。
可选地,根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型,使用的算法可以是留出法和交叉验证法,使得模型的泛化能力更好。
可选地,根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型时,可以是先从全生命周期的基础数据中获取训练任务类型对应的样本数据,进而使用样本数据迭代训练神经网络模型,得到质量评估模型,从而提高训练神经网络模型的数据的准确性,进而提高神经网络模型的训练速度。
上述实施例中,通过采集产品的全生命周期的基础数据,与训练任务类型一起,训练神经网络模型,使得神经网络模型的训练更有针对性,得到的质量评估模型在进行评估时准确性更高,并且能够对产品的全生命周期的各个阶段进行质量评估。通过质量评估模型评价产品的全生命周期的各个阶段的质量达标情况,对产品进行全面评估,作为调整及完善产品侧重点的依据,能够及时发现并规避全生命周期的各个阶段的潜在风险,实现对产品质量监控和预测的及时性、有效性、准确性,从而保证产品的全生命周期的各个阶段的高质量性,进而提高产品的质量、减少返工、降低成本。
在一种可能的实施方式中,结合图1,如图2所示,S103包括S103a-S103c。
在S103a中,对基础数据进行预处理,得到初始目标基础数据。
其中,预处理包括数据清洗、数据变换、数据归约或数据可视化分析中的至少一种。
在一个示例中,数据清洗用于对基础数据中的缺失值或异常值进行处理。
在一个示例中,数据变换用于对基础数据中的非数字型的数据做量化处理。
在一个示例中,数据归约用于对基础数据做归一化、标准化处理,通过对基础数据进行数据归约处理,可以使得神经网络模型更好收敛。
在一个示例中,数据可视化分析包括散点图分析异常值、箱线图分析数据的分布。
通过对基础数据进行预处理,使得得到的初始目标基础数据更合适用于训练神经网络模型,提高神经网络模型训练的准确性和效率。
在S103b中,对初始目标基础数据进行特征处理,得到目标基础数据。
可选地,特征处理包括特征提取、特征选择和特征衍生。
在一个示例中,特征提取用于对初始目标基础数据提取特征,可以使用原始列或取均值方法。
在一个示例中,特征选择用于排除非重要的特征。
在一个示例中,特征衍生用于数据之间衍生新的特征。
在一个示例中,特征衍生可以通过特征学习实现。特征学习是指可以通过某些库来实现特征生。具体地,可以通过遍历组合特征,挑选合使的特征。
通过对基础数据进行特征处理,使得得到的目标基础数据更合适用于训练神经网络模型,提高神经网络模型训练的准确性和效率。
在S103c中,根据目标基础数据和训练任务类型训练神经网络模型,得到质量评估模型。
可选地,利用目标基础数据和训练任务类型训练神经网络模型,在神经网络模型的召回率大于预设阈值的情况下,确定神经网络模型为质量评估模型。
上述实施例中,通过对基础数据进行预处理和特征处理,提高了基础数据的质量,使得得到的目标基础数据更加适合训练神经网络模型,降低了神经网络模型的偏差率和覆盖率,进而提高了神经网络模型训练的准确性和效率。
在一种可能的实施方式中,结合图1,如图3所示,S103包括S103d。
在S103d中,利用全生命周期的基础数据和训练任务类型训练神经网络模型,在神经网络模型的召回率大于预设阈值的情况下,确定神经网络模型为质量评估模型。
可选地,在神经网络模型的召回率未大于预设阈值的情况下,对神经网络模型中的参数进行调整,以使神经网络模型的召回率大于预设阈值。
示例性的,预设阈值可以是87%。具体可以根据银行对产品质量评估的实际需求进行确定,本申请在此不做限定。
上述实施例中,通过在神经网络模型的召回率大于预设阈值的情况下,确定神经网络模型为质量评估模型,在神经网络模型的召回率大于预设阈值的情况下,对神经网络模型中的参数进行调整,直至神经网络模型的召回率大于预设阈值,使得得到的质量评估模型评估准确性高、效率高、返工率低。
在一种可能的实施方式中,结合图1,如图4所示,质量评估模型训练方法还包括S104-S107。S104-S107用于电子设备。
在S104中,获取目标产品的待评估数据。
可选地,目标产品的待评估数据可以是目标产品的全生命周期的任一个阶段的基础数据。
在一个示例中,目标产品的待评估数据可以是目标产品的同行评审阶段的基础数据,例如,可以是同行评审阶段的运行日志数据。
在一个示例中,目标产品的待评估数据可以是目标产品的测试阶段的基础数据,例如,可以是测试阶段的产品基础功能对应的数据。
在S105中,将目标产品的待评估数据输入到质量评估模型,对目标产品的待评估数据执行训练任务类型的任务,得到评估结果数据。
可选地,评估结果数据可以是训练任务类型对应的评估指标。
可选地,训练任务类型可以包括分类任务、回归任务和聚类任务。示例性的,针对分类任务,评估指标包括准确率、精确率和召回率。针对回归任务,评估指标包括均方根误差、平均绝对误差。
在一个示例中,在训练任务类型的任务为分类任务时,对应的评估指标包括准确率、精确率和召回率,也即,评估结果数据包括准确率、精确率和召回率。
在一个示例中,在训练任务类型的任务为回归任务时,对应的评估指标包括均方根误差、平均绝对误差,也即,评估结果数据包括均方根误差、平均绝对误差。
在S106中,根据评估结果数据和评估结果数据对应的预设评估结果阈值,修正产品的全生命周期的基础数据。
可选地,在评估结果数据未达到对应的预设评估结果阈值的情况下,修正产品的全生命周期的基础数据。在评估结果数据达到对应的预设评估结果阈值的情况下,则不需要修正产品的全生命周期的基础数据。
在一个示例中,根据评估结果数据的类型,评估结果数据未达到对应的预设评估结果阈值可以是评估结果数据小于对应的预设评估结果阈值。或者,评估结果数据未达到对应的预设评估结果阈值可以是评估结果数据大于或等于对应的预设评估结果阈值。
在S107中,根据修正后的全生命周期的基础数据,优化质量评估模型。
上述实施例中,通过质量评估模型输出的评估结果数据,修正产品的生命周期的基础数据,从而提高目标产品的质量,进一步根据修正后的全生命周期的基础数据,优化质量评估模型,使得优化后的指令评估模型在进行评估时,评估准确性和效率更优异。
进一步地,依据神经网络模型训练的过程以及训练任务类型对应的评估指标的计算结果,分析质量评估模型,进行超参数调优,直到有比较好的评估结果,从而实现高准确率的预测,辅助相关工作人员及时发现并规避产品存在的潜在质量风险。
以下,本公开实施例通过一个示例对质量评估模型训练方法进行说明:
在步骤1中,获取至少一个产品的全生命周期的基础数据。基础数据包括运行日志数据和产品基础功能对应的数据。
在步骤2中,确定质量评估模型的一个应用场景,并根据该应用场景确定神经网络模型的训练任务类型。
示例性的,产品质量主要的评价维度为产品发现的问题情况。因此,以“产品问题发现估算模型”为应用场景。在此基础上,训练任务类型对应的任务是预测产品存在的问题,既满足企业目前管控手段要求,又为后续产品质量评估奠定基础。
在步骤3中,全生命周期的基础数据中获取训练任务类型对应的目标数据,该目标数据用于训练神经网络模型。
示例性的,基于质量管理经验,产品的自身属性(如产品复杂度,产品开发人员能力,产品架构分类),与项目相关的属性(如产品功能点数,产品需求变更频次,产品工作量规模等)会对产品质量产生影响,可以作为后续模型的特征输入,采集产品的自身属性和项目相关的属性对应的目标数据。
具体地,获取目标数据时,可以从项目的测试管理系统中导出所有项目编码与任务的对应关系表。从项目管理系统获取所有组织级项目类产品(任务-计划-执行)工作量明细表。从度量分析平台获取截止目前系统中所有的生产任务表、功能点表,走查问题、同行评审问题、代码复查缺陷程序、内部测试问题、系统测试问题等问题相关数据。从产品清单中获取产品的架构分类字段信息、产品对应的开发生产率信息等。
在步骤4中,对目标数据进行关联分析。
示例性的,可以将目标数据以年份、批次、项目和产品等不同维度进行关联分析,实时展示产品问题发现情况,涵盖走查问题、同行评审问题、代码复查缺陷程序问题、内部测试问题、系统测试问题等,便于管理者全方位了解产品质量情况。
具体地,在实施过程中以产品生产任务表为处理入口,原始表有125824条信息,保留有新版本、有数据迁移版本,为空的行,共有50189条数据,删除“任务名称、项目名称、产品中文名称,产品编码”等列,表中同一任务同一产品有多条信息,去掉工作量小的,剩余49795条。根据项目编码与任务的对应关系关联,将同一项目下的各产品工作量进行合并,并按照项目、批次、产品的工作量的大小量级作为后续预测模型的构造特征。功能点表原始数据有25503条,将任务列不为空时的批次、任务、产品去重(重复93条),取功能点最大值后数据还有25406条;再将同一项目、批次、产品的功能点求和,得到15664条最终数据。将生产任务与功能点表按照项目、批次、产品关联记做A表。组织级项目类产品(任务-计划-执行)工作量明细表共有64241行,合并项目、批次、产品的行后还有63814行,与上述A表关联得到B表。将B表按年份、批次拆分出来,其中将没有时间的批次先保留并设置为空,没有批次信息的设置为空。根据时间将B表与相应年份的各子产品的开发生产率信息、产品清单中子产品相关自身属性信息等进行关联。进一步地,上述关联分析结果可以作为后续模型评估基底数据。
在步骤5中,确定训练神经网络模型的算法。
示例性的,训练任务类型对应的任务为回归问题的情况下,可以使用基于决策树算法进行回归预测,基于决策树算法包括GBDT、XGBoost、lightGBM。在该实施例中,以lightGBM作为预测问题的模型算法。
可以理解的,XGBoost和lightGBM是在GBDT的基础上进行优化衍生出的算法,而GBDT是以决策树(CART)为基础的算法,是迭代树。每一次新的训练都是为了改进上一次的结果。GBDT的核心在于,每一棵树学习的是之前所有树结论和残差,即把预测值之和与真实值之间的偏差作为下一棵树所要学习的值。这个偏差就可以用损失函数来表示,损失函数包括平方损失函数、0-1损失函数、对数损失函数等。XGBoost对GBDT的改进最重要的就是对损失函数的改进。损失函数根据泰勒展开式引入了函数的二阶导数,使其更加精确,同时加入了正则项,也就是模型复杂度的惩罚项,降低模型的复杂度。XGBoost采用的是level-wise的分裂策略,而lightGBM采用level-wise的策略,减少了不必要的计算,同时lightGBM使用了直方图的决策树算法,在内存和计算代价上都有不小优势,如下图lightGBM与XGBoost的性能对比。
在步骤6中,根据目标数据、训练任务类型、训练神经网络模型的算法训练神经网络模型,得到质量评估模型。质量评估模型用于预测产品存在的问题。
在步骤7中,对质量评估模型进行优化。
在一种实施方式中,可以使用贝叶斯优化进行参数调优,同时用上一年的平均每个功能的出错比率的上下线来优化模型。
在一种实施方式中,可以通过对目标数据进行数据清理,优化质量评估模型。例如,将功能点数/问题数>100数据的删除,因为这些数据从业务角度存在极度的不合理性。
在一种实施方式中,可以通过特征调整,优化质量评估模型。
示例性的,lightGBM算法同时可以输出特征的重要性,如表1所致,为重要度排名前15的特征:
表1
Figure BDA0003162774080000101
Figure BDA0003162774080000111
在一种实施方式中,可以通过选取合适的损失函数优化质量评估模型。
示例性的,损失函数默认为RMSE(均方根误差)。当损失函数由RMSE换成MSE(均方误差)后,产品的平均偏差率6.8,项目的平均偏差率3.2,小于0.4的项目覆盖率0.196。当损失函数为MAE(平均绝对误差)时,产品的平均偏差率3.8,项目的平均偏差率3.55,小于0.4的项目覆盖率0.183。因此,可以用MAE作为最终损失函数。
在一种实施方式中,可以通过修改基础数据,优化质量评估模型。
示例性的,可以根据数据的缺失率,去掉了产品清单中与产品自身相关的部分属性,得到产品的平均偏差率8.23,项目的平均偏差率3.03,小于0.4的项目覆盖率0.19。
示例性的,质量评估模型的最终优化效果如表2所示,项目级的平均绝对偏差率2.35,小于0.4的覆盖率为0.16;产品级的平均绝对偏差率3.05,小于0.4的覆盖率0.31。
表2
偏差率 覆盖率
0.5 0.4
0.8 0.53
1 0.57
1.5 0.66
2 0.76
3 0.87
4 0.91
如图2所示的质量评估模型,拟合优度r2=0.68。当绝对偏差率为3的时候,能覆盖87%的样本数据。
进一步地,还可以结合业务与模型对数据异常问题进行剔除或补全,以及记录更多的信息以作模型特征的输入,例如开发人员信息等,从而对质量评估模型进行优化。
进一步地,还可以针对每一特征进一步基于业务理解的细化,根据特征的重要性及其自身数据情况,可以将特征进行细化预测,比如功能点,可以分区间预测。
进一步地,开可以使用机器学习模型的组合,或者深度学习模型优化质量评估模型。
在上述实施例中,基于日常工作的一个应用场景(以产品问题发现为例)进行业务分析训练神经网络模型,可以有效识别产品质量控制薄弱环节,利用机器学习、深度学习技术进行AI质量预测,从而对产品的出错较多的功能、模块做进一步的分析,对可能出现风险的环节、模块、功能等提前进行重点测试与规避,提前识别与趋势预警质量风险等,便于及时采取改进措施。通过用“数据说话、用数据管理、用数据预测”,实现产品研发质量全面监控、评估,产品研发过程的全效协作,提升产品研发效率、降低成本。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本公开实施例还提供一种质量评估模型训练装置。图5是根据一示例性实施例示出的一种质量评估模型训练装置框图。参照图5,该装置包括获取模块501,确定模块502和训练模块503。
该获取模块501被配置为执行获取至少一个产品的全生命周期的基础数据;基础数据包括运行日志数据和产品基础功能对应的数据。例如,结合图1,获取模块501可以用于执行S101。
该确定模块502被配置为执行确定神经网络模型的训练任务类型。例如,结合图1,确定模块502可以用于执行S102。
该训练模块503被配置为执行根据全生命周期的基础数据和训练任务类型迭代训练神经网络模型,得到质量评估模型;质量评估模型用于对产品执行训练任务类型的任务。例如,结合图1,训练模块503可以用于执行S103。
在一种可能的实施方式中,训练模块503,具体被配置为执行:对基础数据进行预处理,得到初始目标基础数据;预处理包括数据清洗、数据变换、数据归约或数据可视化分析中的至少一种;对初始目标基础数据进行特征处理,得到目标基础数据;根据目标基础数据和训练任务类型训练神经网络模型,得到质量评估模型。例如,如图2所示,训练模块503可以用于执行S103a-S103ac。
另一种可能的实施方式中,训练模块,具体被配置为执行:利用全生命周期的基础数据和训练任务类型训练神经网络模型,在神经网络模型的召回率大于预设阈值的情况下,确定神经网络模型为质量评估模型。例如,如图3所示,训练模块503可以用于执行S103d。
另一种可能的实施方式中,训练模块,具体被配置为执行:获取目标产品的待评估数据;将目标产品的待评估数据输入到质量评估模型,对目标产品的待评估数据执行训练任务类型的任务,得到评估结果数据;根据评估结果数据和评估结果数据对应的预设评估结果阈值,修正产品的全生命周期的基础数据;根据修正后的全生命周期的基础数据,优化质量评估模型。例如,如图4所示,可以用于执行S104-S107。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种用于电子设备600的框图。如图6所示,电子设备600包括但不限于:处理器601和存储器602。
其中,上述的存储器602,用于存储上述处理器601的可执行指令。可以理解的是,上述处理器601被配置为执行指令,以实现上述实施例的图1至图4中任一项所示的质量评估模型训练方法。
需要说明的是,本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图6所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器601是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器601可包括一个或多个处理单元;可选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及各种数据。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能模块所需的应用程序(比如获取模块501、确定模块502和训练模块503等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在示例性实施例中,本公开实施例还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器602,上述指令可由电子设备600的处理器601执行以完成上述实施例的图1至图4中任一项所示的质量评估模型训练方法。
在实际实现时,获取模块501、确定模块502和训练模块503可以由图6所示的处理器601调用存储器602中的程序代码来实现。其具体的执行过程可参考图1至图4中任一项所示的质量评估模型训练方法部分的描述,这里不再赘述。
可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存储存储器(Random Access Memory,RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,本公开实施例还提供了一种包括一条或多条指令的计算机程序产品,该一条或多条指令可以由电子设备600的处理器601执行以完成上述实施例的图1至图4中任一项所示的质量评估模型训练方法。
需要说明的是,上述计算机可读存储介质中的指令或计算机程序产品中的一条或多条指令被电子设备600的处理器601执行时实现上述质量评估模型训练方法实施例的各个过程,且能达到与上述实施例的图1至图4中任一项所示的质量评估模型训练方法相同的技术效果,为避免重复,这里不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种质量评估模型训练方法,其特征在于,包括:
获取至少一个产品的全生命周期的基础数据;所述基础数据包括运行日志数据和产品基础功能对应的数据;
确定神经网络模型的训练任务类型;
根据所述全生命周期的基础数据和所述训练任务类型迭代训练所述神经网络模型,得到质量评估模型;所述质量评估模型用于对所述产品执行所述训练任务类型的任务。
2.根据权利要求1所述的质量评估模型训练方法,其特征在于,所述根据所述全生命周期的基础数据和所述训练任务类型训练神经网络模型,得到质量评估模型,包括:
对所述基础数据进行预处理,得到初始目标基础数据;所述预处理包括数据清洗、数据变换、数据归约或数据可视化分析中的至少一种;
对所述初始目标基础数据进行特征处理,得到目标基础数据;
根据所述目标基础数据和所述训练任务类型训练神经网络模型,得到质量评估模型。
3.根据权利要求1或2所述的质量评估模型训练方法,其特征在于,所述根据所述全生命周期的基础数据和所述训练任务类型迭代训练所述神经网络模型,得到质量评估模型,包括:
利用所述全生命周期的基础数据和所述训练任务类型训练神经网络模型,在所述神经网络模型的召回率大于预设阈值的情况下,确定所述神经网络模型为所述质量评估模型。
4.根据权利要求3所述的质量评估模型训练方法,其特征在于,所述质量评估模型训练方法,还包括:
获取目标产品的待评估数据;
将所述目标产品的待评估数据输入到所述质量评估模型,对所述目标产品的待评估数据执行训练任务类型的任务,得到评估结果数据;
根据所述评估结果数据和所述评估结果数据对应的预设评估结果阈值,修正所述产品的全生命周期的基础数据;
根据所述修正后的全生命周期的基础数据,优化所述质量评估模型。
5.一种质量评估模型训练装置,其特征在于,包括:
获取模块,被配置为执行获取至少一个产品的全生命周期的基础数据;所述基础数据包括运行日志数据和产品基础功能对应的数据;
确定模块,被配置为执行确定神经网络模型的训练任务类型;
训练模块,被配置为执行根据所述全生命周期的基础数据和所述训练任务类型迭代训练所述神经网络模型,得到质量评估模型;所述质量评估模型用于对所述产品执行所述训练任务类型的任务。
6.根据权利要求5所述的质量评估模型训练装置,其特征在于,所述训练模块,具体被配置为执行:
对所述基础数据进行预处理,得到初始目标基础数据;所述预处理包括数据清洗、数据变换、数据归约或数据可视化分析中的至少一种;
对所述初始目标基础数据进行特征处理,得到目标基础数据;
根据所述目标基础数据和所述训练任务类型训练神经网络模型,得到质量评估模型。
7.根据权利要求5或6所述的质量评估模型训练装置,其特征在于,所述训练模块,具体被配置为执行:
利用所述全生命周期的基础数据和所述训练任务类型训练神经网络模型,在所述神经网络模型的召回率大于预设阈值的情况下,确定所述神经网络模型为所述质量评估模型。
8.根据权利要求5或6所述的质量评估模型训练装置,其特征在于,所述训练模块,具体被配置为执行:
获取目标产品的待评估数据;
将所述目标产品的待评估数据输入到所述质量评估模型,对所述目标产品的待评估数据执行训练任务类型的任务,得到评估结果数据;
根据所述评估结果数据和所述评估结果数据对应的预设评估结果阈值,修正所述产品的全生命周期的基础数据;
根据所述修正后的全生命周期的基础数据,优化所述质量评估模型。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-4中任一项所述的质量评估模型训练方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-4中任一项所述的质量评估模型训练方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-4中任一项所述的质量评估模型训练方法。
CN202110795799.8A 2021-07-14 2021-07-14 质量评估模型训练方法、装置、电子设备及存储介质 Pending CN113610225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110795799.8A CN113610225A (zh) 2021-07-14 2021-07-14 质量评估模型训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110795799.8A CN113610225A (zh) 2021-07-14 2021-07-14 质量评估模型训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113610225A true CN113610225A (zh) 2021-11-05

Family

ID=78304618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110795799.8A Pending CN113610225A (zh) 2021-07-14 2021-07-14 质量评估模型训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113610225A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244159A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 一种训练时长预测方法、装置、多元异构计算设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598989A (zh) * 2019-08-14 2019-12-20 江苏满运软件科技有限公司 一种货源质量评估方法、装置、设备和存储介质
CN111813837A (zh) * 2020-09-11 2020-10-23 成都寻道科技有限公司 一种智能检测数据质量的方法
US20210117776A1 (en) * 2019-10-22 2021-04-22 Baidu Usa Llc Method, electronic device and computer readable medium for information processing for accelerating neural network training
CN112884016A (zh) * 2021-01-28 2021-06-01 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 云平台可信评估模型训练方法和云平台可信评估方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598989A (zh) * 2019-08-14 2019-12-20 江苏满运软件科技有限公司 一种货源质量评估方法、装置、设备和存储介质
US20210117776A1 (en) * 2019-10-22 2021-04-22 Baidu Usa Llc Method, electronic device and computer readable medium for information processing for accelerating neural network training
CN111813837A (zh) * 2020-09-11 2020-10-23 成都寻道科技有限公司 一种智能检测数据质量的方法
CN112884016A (zh) * 2021-01-28 2021-06-01 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 云平台可信评估模型训练方法和云平台可信评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244159A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 一种训练时长预测方法、装置、多元异构计算设备及介质
CN116244159B (zh) * 2023-05-08 2023-08-11 浪潮电子信息产业股份有限公司 一种训练时长预测方法、装置、多元异构计算设备及介质

Similar Documents

Publication Publication Date Title
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
US11327935B2 (en) Intelligent data quality
CN106803799B (zh) 一种性能测试方法和装置
CN106708738B (zh) 一种软件测试缺陷预测方法及系统
CN114021970A (zh) 一种基于数据中台的企业数据资产模型构建方法
CN111582488A (zh) 一种事件推演方法及装置
CN112905340A (zh) 系统资源分配方法、装置及设备
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN113610225A (zh) 质量评估模型训练方法、装置、电子设备及存储介质
CN113032367A (zh) 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统
KR101884907B1 (ko) 빅데이터 분석 기반 신뢰도 예측 방법
CN110096335A (zh) 一种针对虚拟机不同类型的业务并发量预测方法
CN114201328A (zh) 基于人工智能的故障处理方法、装置、电子设备及介质
US20200342302A1 (en) Cognitive forecasting
Morichetta et al. Demystifying deep learning in predictive monitoring for cloud-native SLOs
Xiao et al. Enhanced-xgb: An online service resource demand forecasting method for colocation data centers
CN113689020A (zh) 业务信息预测方法、装置、计算机设备和存储介质
Brešić Knowledge acquisition in databases
KR102304321B1 (ko) 시뮬레이션 실행 시간 예측 장치 및 예측 방법
US20230267007A1 (en) System and method to simulate demand and optimize control parameters for a technology platform
WO2024065776A1 (en) Method for data processing, apparatus for data processing, electronic device, and storage medium
CN114428900A (zh) 潜在用户挖掘方法及装置
CN114862098A (zh) 资源分配方法以及装置
Safiullina et al. Preliminary Study: Exploring GitHub Repository Metrics
CN117498313A (zh) 充电站负荷预测方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination