CN116151470A - 一种产品质量预测方法、装置、设备及存储介质 - Google Patents

一种产品质量预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116151470A
CN116151470A CN202310224865.5A CN202310224865A CN116151470A CN 116151470 A CN116151470 A CN 116151470A CN 202310224865 A CN202310224865 A CN 202310224865A CN 116151470 A CN116151470 A CN 116151470A
Authority
CN
China
Prior art keywords
data set
sample data
original
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310224865.5A
Other languages
English (en)
Inventor
吴丽萍
吴堃昊
卫文绪
赵云建
周志棚
张兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LCFC Hefei Electronics Technology Co Ltd
Original Assignee
LCFC Hefei Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LCFC Hefei Electronics Technology Co Ltd filed Critical LCFC Hefei Electronics Technology Co Ltd
Priority to CN202310224865.5A priority Critical patent/CN116151470A/zh
Publication of CN116151470A publication Critical patent/CN116151470A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种产品质量预测方法、装置、设备及存储介质,涉及计算机技术领域。方法主要包括:获取原始样本数据集;根据最大信息系数算法和递归特征消除算法,对原始样本数据集进行特征筛选,得到目标样本数据集;根据目标样本数据集,对第一分类模型进行训练,得到预测模型;根据预测模型,对目标产品的质量进行预测,得到目标产品对应的预测结果。

Description

一种产品质量预测方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种产品质量预测方法、装置、设备及存储介质。
背景技术
随着个人计算机(PC,Personal Computer)和平板电脑等电子产品生产技术的飞速发展,电子产品的市场竞争日趋激烈,如何保证电子产品的售后质量、降低客户的投诉率已经成为企业市场竞争的关键。
在现有技术中,为了提升个人计算机和平板电脑等电子产品的售后质量,一般会增加自动化检测设备或提升检测设备的自动化程度,但这种方式成本较高;或者加大开箱检验(OBE,Out of Box Experience)的抽样比例,但这种方式具有随机性,会存在质量不合格的产品未被检测到的情况。
发明内容
本公开提供了一种产品质量预测方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本公开的第一方面,提供了一种产品质量预测方法,该方法包括:获取原始样本数据集;根据最大信息系数算法和递归特征消除算法,对所述原始样本数据集进行特征筛选,得到目标样本数据集;根据所述目标样本数据集,对第一分类模型进行训练,得到预测模型;根据所述预测模型,对目标产品的质量进行预测,得到所述目标产品对应的预测结果。
在一可实施方式中,所述获取原始样本数据集,包括:获取原始投诉数据集和原始生产数据集;对所述原始投诉数据集和所述原始生产数据集进行特征关联,得到关联后样本数据集;对所述关联后样本数据集中的第一类型特征进行标准化处理,得到所述原始样本数据集。
在一可实施方式中,所述根据最大信息系数算法和递归特征消除算法,对所述原始样本数据集进行特征筛选,得到目标样本数据集,包括:根据所述最大信息系数算法,筛选所述原始样本数据集中满足第一预设条件的特征,得到第一样本数据集;对所述原始样本数据集中的第二类型特征进行热编码处理,得到编码后样本数据集;根据所述递归特征消除算法,筛选所述编码后样本数据集中满足第二预设条件的特征,得到第二样本数据集;根据所述第一样本数据集和所述第二样本数据集,确定所述目标样本数据集。
在一可实施方式中,所述根据所述最大信息系数算法,筛选所述原始样本数据集中满足第一预设条件的特征,得到第一样本数据集,包括:根据所述最大信息系数算法,计算所述原始样本数据集中每个特征的最大互信息值;根据所述最大互信息值,对所述原始样本数据集中的特征进行排序,得到第一排序结果;根据所述第一排序结果,筛选满足所述第一预设条件的特征,得到所述第一样本数据集。
在一可实施方式中,所述根据所述递归特征消除算法,筛选所述编码后样本数据集中满足第二预设条件的特征,得到第二样本数据集,包括:根据所述递归特征消除算法,计算得到所述编码后样本数据集的多个特征子集;根据第二分类模型,计算多个所述特征子集对应的分类精度;根据所述分类精度,筛选满足所述第二预设条件的特征子集,得到所述第二样本数据集。
在一可实施方式中,所述根据所述第一样本数据集和所述第二样本数据集,确定所述目标样本数据集,包括:对所述第一样本数据集和所述第二样本数据集进行差异对比,得到所述目标样本数据集,所述目标样本数据集包括所述第一样本数据集与所述第二样本数据集中相同的特征。
在一可实施方式中,所述目标样本数据集包括训练样本数据集和测试样本数据集,所述第一分类模型包括LightGBM模型,所述根据所述目标样本数据集,对第一分类模型进行训练,得到预测模型,包括:根据所述训练样本数据集中不同类型样本产品的比例,计算所述训练样本数据集中每条数据的权重,得到加权后训练样本集;根据所述加权后训练样本集,对所述LightGBM模型进行训练,得到初始预测模型;根据所述测试样本数据集,对所述初始预测模型进行测试,得到测试结果;所述测试结果满足第三预设条件,则将所述初始预测模型确定为所述预测模型。
根据本公开的第二方面,提供了一种产品质量预测装置,该装置包括:获取模块,用于获取原始样本数据集;筛选模块,用于根据最大信息系数算法和递归特征消除算法,对所述原始样本数据集进行特征筛选,得到目标样本数据集;训练模块,用于根据所述目标样本数据集,对第一分类模型进行训练,得到预测模型;预测模块,用于根据所述预测模型,对目标产品的质量进行预测,得到所述目标产品对应的预测结果。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
本公开的一种产品质量预测方法、装置、设备及存储介质,首先获取原始样本数据集,然后根据最大信息系数算法和递归特征消除算法,对原始样本数据集进行特征筛选,得到目标样本数据集,并根据目标样本数据集,对第一分类模型进行训练,得到预测模型,最后根据预测模型,对目标产品的质量进行预测,从而得到目标产品对应的预测结果。由此,采用最大信息系数算法和递归特征消除算法相结合的方法,对原始样本数据集进行特征筛选,可以有效降低原始样本数据集中特征的冗余性,提高预测模型的准确性,从而进一步提高产品质量预测结果的准确性,在后续进行开箱检验时,可以根据预测结果针对性的进行抽样,减少质量不合格产品未被检测到的情况,从而提升电子产品的售后质量。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本公开第一实施例一种产品质量预测方法的流程示意图;
图2示出了本公开第二实施例一种产品质量预测方法的流程示意图;
图3示出了本公开第三实施例一种产品质量预测方法的流程示意图;
图4示出了本公开第六实施例一种产品质量预测方法的流程示意图;
图5示出了本公开第七实施例一种产品质量预测装置的结构示意图;
图6示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1示出了本公开第一实施例一种产品质量预测方法的流程示意图,如图1所示,该方法主要包括:
步骤S101,获取原始样本数据集。
在本实施例中,首先需要获取原始样本数据集,具体地,原始样本数据集表征已售出产品对应的特征数据,包括已售出产品的投诉数据和已售出产品的生产数据,其中,投诉数据表征已售出产品是否收到质量投诉,生产数据表征已售出产品在生产过程中产生的各种特征数据。
在一可实施方式中,生产数据可以包括已售出产品的基本属性、组装后功能测试(AFT,Assembly Function Test)数据、老化测试(RUNIN测试)数据和维修(Repair)数据等,其中,基本属性可以包括机种、线别、班次和基本输入输出系统(BIOS,Basic Input OutputSystem)版本号等;AFT测试数据和RUNIN测试数据可以包括测试项、测试结果和测试时长等;Repair数据可以包括维修次数和维修部位等。
步骤S102,根据最大信息系数算法和递归特征消除算法,对原始样本数据集进行特征筛选,得到目标样本数据集。
在本实施例中,获取到原始样本数据集之后,根据最大信息系数(MIC,MaximalInformation Coefficient)算法和递归特征消除(RFE,Recursive Feature Elimination)算法,对原始样本数据集进行特征筛选,得到目标样本数据集,其中,MIC算法利用互信息衡量特征间的关联程度,可以用于探索特征间的线性关系、非线性关系和非函数依赖关系;RFE算法通过递归的方式选取最优的特征组合。
在一可实施方式中,可以先根据MIC算法,筛选出原始样本数据集中互信息值较大的特征,然后根据RFE算法,筛选出原始样本数据集中的最优特征组合,然后根据互信息值较大的特征和最优特征组合,确定目标样本数据集。
步骤S103,根据目标样本数据集,对第一分类模型进行训练,得到预测模型。
在本实施例中,还需要将目标样本数据集输入至第一分类模型中进行训练,得到预测模型,其中,第一分类模型可以为任意分类模型,如决策树(CART)模型、随机森林(RFC,Random Forest Classifier)模型、卷积神经网络(CNN,Convolutional Neural Networks)模型、梯度提升的决策树(Catboost)模型和LightGBM模型等。
步骤S104,根据预测模型,对目标产品的质量进行预测,得到目标产品对应的预测结果。
在本实施例中,训练得到预测模型之后,根据预测模型对目标产品的质量进行预测,得到目标产品对应的预测结果。具体地,可以先获取目标产品的生产数据,包括目标产品的基本属性、AFT测试数据、RUNIN测试数据和Repair数据等,然后将目标产品的生产数据输入至预测模型进行预测,得到目标产品对应的预测结果,其中,预测结果表征目标产品存在质量问题的概率。
在本公开第一实施例中,采用MIC算法和RFE算法相结合的方法,对原始样本数据集进行特征筛选,可以有效降低原始样本数据集中特征的冗余性,提高预测模型的准确性,从而进一步提高产品质量预测结果的准确性,在后续进行开箱检验时,可以根据预测结果针对性的进行抽样,减少质量不合格产品未被检测到的情况,从而提升电子产品的售后质量。
图2示出了本公开第二实施例一种产品质量预测方法的流程示意图,如图2所示,步骤S101主要包括:
步骤S201,获取原始投诉数据集和原始生产数据集。
在本实施例中,首先需要获取原始投诉数据集和原始生产数据集,其中,原始投诉数据集表征已售出产品对应的投诉数据,原始生产数据集表征已售出产品对应的生产数据。
在一可实施方式中,原始投诉数据集可用
Figure SMS_1
表示,其中,i为已售出产品的编号,/>
Figure SMS_2
表征编号为i的已售出产品是否收到质量投诉,/>
Figure SMS_3
可进行量化,例如,/>
Figure SMS_4
为1时表征已售出产品收到质量投诉,/>
Figure SMS_5
为0时表征已售出产品没有收到质量投诉;原始生产数据集可用/>
Figure SMS_6
表示,其中,i为已售出产品的编号,/>
Figure SMS_7
为编号为i的已售出产品在生产过程中产生的各种特征数据。
步骤S202,对原始投诉数据集和原始生产数据集进行特征关联,得到关联后样本数据集。
在本实施例中,还需要对原始投诉数据集和原始生产数据集进行特征关联,即将原始投诉数据集和原始生产数据集中相同编号对应的投诉数据和生产数据关联起来,得到关联后样本数据集。具体地,若原始投诉数据集为
Figure SMS_8
,原始生产数据集为/>
Figure SMS_9
,则关联后样本数据集为/>
Figure SMS_10
步骤S203,对关联后样本数据集中的第一类型特征进行标准化处理,得到原始样本数据集。
在本实施例中,还需要对关联后样本数据集中的第一类型特征进行标准化处理,从而得到原始样本数据集,其中,第一类型特征为数值型特征,即以数值作为特征值的特征,例如测试时长和维修次数等。
在一可实施方式中,可采用如下公式对第一类型特征进行标准化处理:
Figure SMS_11
,其中,/>
Figure SMS_12
为标准化后的第一类型特征,/>
Figure SMS_13
为第一类型特征的均值,/>
Figure SMS_14
为第一类型特征的方差。需要强调的是,在实际应用过程中,关联后样本数据集中可能会存在异常数据,例如,某些特征会存在数据缺失的情况,因此在对第一类型特征进行标准化处理之前,还需要剔除关联后样本数据集中的异常数据。
在本公开第二实施例中,对原始投诉数据集和原始生产数据集进行特征关联,得到的关联后样本数据集不仅包括已售出产品的投诉数据,还包括已售出产品的生产数据,能够全面的反映已售出产品的特征,另外,对关联后样本数据集中的第一类型特征进行标准化处理,能够使特征值具有均等的权重,加速后续模型训练过程中权重参数的收敛。
图3示出了本公开第三实施例一种产品质量预测方法的流程示意图,如图3所示,步骤S102主要包括:
步骤S301,根据最大信息系数算法,筛选原始样本数据集中满足第一预设条件的特征,得到第一样本数据集。
在本实施例中,首先需要根据MIC算法,筛选原始样本数据集中满足第一预设条件的特征,从而得到第一样本数据集。具体地,可以先根据MIC算法计算原始样本数据集中所有特征的最大互信息值,然后根据最大互信息值筛选出满足第一预设条件的特征,即筛选出最大互信息值较大的n个特征,从而得到第一样本数据集,其中,n的取值可以根据实际情况进行设定。
步骤S302,对原始样本数据集中的第二类型特征进行热编码处理,得到编码后样本数据集。
在本实施例中,还需要对原始样本数据集中的第二类型特征进行热编码处理,得到编码后样本数据集,其中,第二类型特征为类别型特征,即以类别作为特征值的特征,例如机种和测试项等,对第二类型特征进行热编码处理,即将类别型特征映射为二进制向量,便于后续根据RFE算法进行特征筛选。具体地,可以采用独热编码(one-hot code)的方式对第二类型特征进行热编码。
步骤S303,根据递归特征消除算法,筛选编码后样本数据集中满足第二预设条件的特征,得到第二样本数据集。
在本实施例中,根据RFE算法,筛选编码后样本数据集中满足第二预设条件的特征,即筛选编码后样本数据集中的最优特征组合,从而得到第二样本数据集。
步骤S304,根据第一样本数据集和第二样本数据集,确定目标样本数据集。
在本实施例中,分别筛选出第一样本数据集和第二样本数据集之后,可以根据第一样本数据集和第二样本数据集,确定目标样本数据集。具体地,可以对第一样本数据集和第二样本数据集进行差异对比,得到目标样本数据集,其中,目标样本数据集包括第一样本数据集与第二样本数据集中相同的特征。
在本公开第三实施例中,采用MIC算法和RFE算法相结合的方法,对原始样本数据集进行特征筛选,可以降低原始样本数据集中特征的冗余性,提高预测模型的准确性,从而进一步提高产品质量预测结果的准确性。
在本公开第四实施例中,步骤S301主要包括:
根据最大信息系数算法,计算原始样本数据集中每个特征的最大互信息值;根据最大互信息值,对原始样本数据集中的特征进行排序,得到第一排序结果;根据第一排序结果,筛选满足第一预设条件的特征,得到第一样本数据集。
在本实施例中,首先根据MIC算法,计算原始样本数据集中每个特征的最大互信息值。具体地,可以先对原始样本数据集
Figure SMS_15
进行网格划分,然后计算在不同网格划分下,每个网格对应的互信息值I,然后将最大的互信息值作为最大互信息值/>
Figure SMS_16
,最后对最大互信息值/>
Figure SMS_17
除以/>
Figure SMS_18
进行归一化,其中,/>
Figure SMS_19
为最小互信息值。
在本实施例中,还需要根据最大互信息值,对原始样本数据集中的特征从大到小进行排序,得到第一排序结果,然后根据第一排序结果,选取最大互信息值较大的n个特征,从而得到第一样本数据集。具体地,最大互信息值可以表征特征的重要性,因此最大互信息值较大的特征与已售出产品是否收到质量投诉之间的关联程度较高。
在本公开第五实施例中,步骤S303主要包括:
根据递归特征消除算法,计算得到编码后样本数据集的多个特征子集;根据第二分类模型,计算多个特征子集对应的分类精度;根据分类精度,筛选满足第二预设条件的特征子集,得到第二样本数据集。
在本实施例中,首先需要根据RFE算法,计算编码后样本数据集的多个特征子集。具体地,可以根据编码后样本数据集对第二分类模型进行训练,并计算编码后样本数据集中多个特征的重要性,选取重要性较大的前m个特征作为特征子集,然后根据特征子集对第二分类模型进行训练,重新计算特征子集中多个特征的重要性,并选取重要性较大的前m个特征作为新的特征子集,重复上述过程,直到特征子集为空,从而得到编码后样本数据集的多个特征子集。
在本实施例中,还需要根据第二分类模型,计算多个特征子集对应的分类精度,即将特征子集输入到第二分类模型中,采用交叉验证的方式计算多个特征子集的分类精度,然后根据分类精度,筛选满足第二预设条件的特征子集,即筛选分类精度最大的特征子集,从而得到第二样本数据集。具体地,分类精度最大的特征子集能够更加准确的对已售出产品是否收到质量投诉进行分类。
在一可实施方式中,第二分类模型可以为任意分类模型,如决策树(CART)模型、随机森林(RFC,Random Forest Classifier)模型、卷积神经网络(CNN,ConvolutionalNeural Networks)模型、梯度提升的决策树(Catboost)模型和LightGBM模型等,第二分类模型与第一分类模型可以相同也可以不同。
在本公开第四和第五实施例中,根据MIC算法得到的第一样本数据集与已售出产品是否收到质量投诉之间的关联程度较高,根据RFE算法得到的第二样本数据集能够更加准确的对已售出产品是否收到质量投诉进行分类,因此,后续选取第一样本数据集与第二样本数据集中相同的特征作为目标样本数据集,可以提高利用目标样本数据集训练得到的预测模型的准确性,从而进一步提高产品质量预测结果的准确性。
图4示出了本公开第六实施例一种产品质量预测方法的流程示意图,如图4所示,目标样本数据集包括训练样本数据集和测试样本数据集,第一分类模型包括LightGBM模型,步骤S103主要包括:
步骤S401,根据训练样本数据集中不同类型样本产品的比例,计算训练样本数据集中每条数据的权重,得到加权后训练样本集。
在本实施例中,目标样本数据集包括训练样本数据集,训练样本集中包括收到质量投诉的样本产品,也包括没有收到质量投诉的样本产品,可以根据这两类样本产品的比例,计算训练样本数据集中的每条数据的权重,得到加权后训练样本数据集。
步骤S402,根据加权后训练样本集,对LightGBM模型进行训练,得到初始预测模型。
在本实施例中,第一分类模型可以为LightGBM(Light Gradient BoostingMachine)模型,LightGBM模型是基于GBDT(Gradient Boosting Decision Tree)模型提出的集成框架,LightGBM模型在GBDT模型的基础上引入两个新技术和两个改进,其中,使用基于梯度的单边采样(GOSS,Gradient-based One-Side Sampling)技术减少数据量,使用互斥特征捆绑(EFB,Exclusive Feature Bundling)技术减少特征量,使用直方图(histogram)算法提升训练速度和降低内存占用,使用带有深度限制的叶子生长(leaf-wise)算法提升准确率,在获取到加权后训练样本集之后,可以根据加权后训练样本集,对LightGBM模型进行训练,得到初始预测模型,
在一可实施方式中,采用五折交叉验证方法,对LightGBM模型进行训练,同时使用optuna对类别权重和其他参数调优,从而得到初始预测模型,其中,optuna为一种自动超参数优化软件框架。
步骤S403,根据测试样本数据集,对初始预测模型进行测试,得到测试结果。
步骤S404,测试结果满足第三预设条件,则将初始预测模型确定为预测模型。
在本实施例中,目标样本数据集包括测试样本数据集,训练得到初始预测模型之后,可以根据测试样本数据集,对初始预测模型进行测试,得到测试结果,其中,测试结果可以包括初始预测模型的F1分数(F1-score)和ROC-AUC分数,若测试结果满足第三预设条件,即测试结果中的F1-score达到第一预设阈值,且ROC-AUC达到第二预设阈值,则将初始预测模型确定为预测模型。具体地,第一预设阈值和第二预设阈值可以根据实际情况自行设定。
F1-score是查准率(Precision)和查全率(Recall)的调和平均数,其中,查准率(Precision)表示预测为正样本的样本数中有多少是真正的正样本,在本实施例中,查准率为初始预测模型预测出的收到质量投诉的样本产品中实际收到质量投诉的概率;查全率(Recall)表示所有正样本中,预测为正样本的样本数所占的比例,在本实施例中,查全率为初始预测模型预测出的收到质量投诉的样本产品数占目标样本数据集中所有收到质量投诉的样本产品数的比例。ROC-AUC是一种二分类模型评估标准,ROC曲线下的面积AUC(AreaUnder the ROC Curve)是衡量分类器好坏较为直观的度量方式。
在本公开第六实施例中,对训练样本数据集中每条数据进行加权,后续利用加权后训练样本集对LightGBM模型进行训练,可以避免训练样本数据集中样本不平衡的问题,能够有效防止模型过拟合,使模型具有更好的泛化性,另外,对初始预测模型进行测试,并将测试结果满足第三预设条件的初始预测模型确定为预测模型,可以得到综合效果性能更好的预测模型。
为说明本公开一种产品质量预测方法相对于现有技术的优点,分别利用CART模型、RFC模型、CNN模型、Catboost模型和重加权LightGBM模型这五种模型训练预测模型,具体地,首先根据MIC算法和RFE算法进行特征筛选后的目标样本数据集对这五种模型进行训练,分别得到基于MIC-RFE和CART模型的预测模型、基于MIC-RFE和RFC模型的预测模型、基于MIC-RFE和CNN模型的预测模型、基于MIC-RFE和Catboost模型的预测模型和基于MIC-RFE和重加权LightGBM模型的预测模型;然后根据原始样本数据集再对重加权LightGBM模型进行训练,得到基于重加权LightGBM模型的预测模型,之后根据测试样本数据集对训练好的六种预测模型进行测试,得到对比测试结果如下表一所示:
表一
模型 F1_score ROC_AUC
基于MIC-RFE和CART模型的预测模型 0.571402849 0.56368426
基于MIC-RFE和RFC模型的预测模型 0.515295001 0.616723956
基于MIC-RFE和CNN模型的预测模型 0.556630771 0.602343127
基于MIC-RFE和Catboost模型的预测模型 0.156938012 0.610333815
基于重加权LightGBM模型的预测模型 0.0682686592 0.607630216
基于MIC-RFE和重加权LightGBM模型的预测模型 0.624208433 0.599686852
如表一所示,基于MIC-RFE和重加权LightGBM模型的预测模型的F1_score和ROC_AUC的综合得分较高,且具有很好的鲁棒性,因此,在进行开箱检验时,根据基于MIC-RFE和重加权LightGBM模型得到的预测结果针对性的进行抽样,可以减少质量不合格产品未被检测到的情况,从而提升电子产品的售后质量。
图5示出了本公开第七实施例一种产品质量预测装置的结构示意图,如图5所示,该装置主要包括:
获取模块10,用于获取原始样本数据集;筛选模块11,用于根据最大信息系数算法和递归特征消除算法,对原始样本数据集进行特征筛选,得到目标样本数据集;训练模块12,用于根据目标样本数据集,对第一分类模型进行训练,得到预测模型;预测模块13,用于根据预测模型,对目标产品的质量进行预测,得到目标产品对应的预测结果。
在一可实施方式中,获取模块10包括:获取子模块,用于获取原始投诉数据集和原始生产数据集;特征关联子模块,用于对原始投诉数据集和原始生产数据集进行特征关联,得到关联后样本数据集;标准化子模块,用于对关联后样本数据集中的第一类型特征进行标准化处理,得到原始样本数据集。
在一可实施方式中,筛选模块11包括:第一筛选子模块,用于根据最大信息系数算法,筛选原始样本数据集中满足第一预设条件的特征,得到第一样本数据集;热编码子模块,用于对原始样本数据集中的第二类型特征进行热编码处理,得到编码后样本数据集;第二筛选子模块,用于根据递归特征消除算法,筛选编码后样本数据集中满足第二预设条件的特征,得到第二样本数据集;确定子模块,用于根据第一样本数据集和第二样本数据集,确定目标样本数据集。
在一可实施方式中,第一筛选子模块包括:第一计算单元,用于根据最大信息系数算法,计算原始样本数据集中每个特征的最大互信息值;排序单元,用于根据最大互信息值,对原始样本数据集中的特征进行排序,得到第一排序结果;第一筛选单元,用于根据第一排序结果,筛选满足第一预设条件的特征,得到第一样本数据集。
在一可实施方式中,第二筛选子模块包括:第二计算单元,用于根据递归特征消除算法,计算得到编码后样本数据集的多个特征子集;第三计算单元,用于根据第二分类模型,计算多个特征子集对应的分类精度;第二筛选单元,用于根据分类精度,筛选满足第二预设条件的特征子集,得到第二样本数据集。
在一可实施方式中,确定子模块还用于对第一样本数据集和第二样本数据集进行差异对比,得到目标样本数据集,目标样本数据集包括第一样本数据集与第二样本数据集中相同的特征。
在一可实施方式中,目标样本数据集包括训练样本数据集和测试样本数据集,第一分类模型包括LightGBM模型,训练模块12主要包括:计算子模块,用于根据训练样本数据集中不同类型样本产品的比例,计算训练样本数据集中每条数据的权重,得到加权后训练样本集;训练子模块,用于根据加权后训练样本集,对LightGBM模型进行训练,得到初始预测模型;测试子模块,用于根据测试样本数据集,对初始预测模型进行测试,得到测试结果;第二确定子模块,用于测试结果满足第三预设条件,则将初始预测模型确定为预测模型。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如一种产品质量预测方法。例如,在一些实施例中,一种产品质量预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时,可以执行上文描述的一种产品质量预测方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种产品质量预测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种产品质量预测方法,其特征在于,所述方法包括:
获取原始样本数据集;
根据最大信息系数算法和递归特征消除算法,对所述原始样本数据集进行特征筛选,得到目标样本数据集;
根据所述目标样本数据集,对第一分类模型进行训练,得到预测模型;
根据所述预测模型,对目标产品的质量进行预测,得到所述目标产品对应的预测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取原始样本数据集,包括:
获取原始投诉数据集和原始生产数据集;
对所述原始投诉数据集和所述原始生产数据集进行特征关联,得到关联后样本数据集;
对所述关联后样本数据集中的第一类型特征进行标准化处理,得到所述原始样本数据集。
3.根据权利要求1所述的方法,其特征在于,所述根据最大信息系数算法和递归特征消除算法,对所述原始样本数据集进行特征筛选,得到目标样本数据集,包括:
根据所述最大信息系数算法,筛选所述原始样本数据集中满足第一预设条件的特征,得到第一样本数据集;
对所述原始样本数据集中的第二类型特征进行热编码处理,得到编码后样本数据集;
根据所述递归特征消除算法,筛选所述编码后样本数据集中满足第二预设条件的特征,得到第二样本数据集;
根据所述第一样本数据集和所述第二样本数据集,确定所述目标样本数据集。
4.根据权利要求3所述的方法,其特征在于,所述根据所述最大信息系数算法,筛选所述原始样本数据集中满足第一预设条件的特征,得到第一样本数据集,包括:
根据所述最大信息系数算法,计算所述原始样本数据集中每个特征的最大互信息值;
根据所述最大互信息值,对所述原始样本数据集中的特征进行排序,得到第一排序结果;
根据所述第一排序结果,筛选满足所述第一预设条件的特征,得到所述第一样本数据集。
5.根据权利要求3所述的方法,其特征在于,所述根据所述递归特征消除算法,筛选所述编码后样本数据集中满足第二预设条件的特征,得到第二样本数据集,包括:
根据所述递归特征消除算法,计算得到所述编码后样本数据集的多个特征子集;
根据第二分类模型,计算多个所述特征子集对应的分类精度;
根据所述分类精度,筛选满足所述第二预设条件的特征子集,得到所述第二样本数据集。
6.根据权利要求3所述的方法,其特征在于,所述根据所述第一样本数据集和所述第二样本数据集,确定所述目标样本数据集,包括:
对所述第一样本数据集和所述第二样本数据集进行差异对比,得到所述目标样本数据集,所述目标样本数据集包括所述第一样本数据集与所述第二样本数据集中相同的特征。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述目标样本数据集包括训练样本数据集和测试样本数据集,所述第一分类模型包括LightGBM模型,所述根据所述目标样本数据集,对第一分类模型进行训练,得到预测模型,包括:
根据所述训练样本数据集中不同类型样本产品的比例,计算所述训练样本数据集中每条数据的权重,得到加权后训练样本集;
根据所述加权后训练样本集,对所述LightGBM模型进行训练,得到初始预测模型;
根据所述测试样本数据集,对所述初始预测模型进行测试,得到测试结果;
所述测试结果满足第三预设条件,则将所述初始预测模型确定为所述预测模型。
8.一种产品质量预测装置,其特征在于,所述装置包括:
获取模块,用于获取原始样本数据集;
筛选模块,用于根据最大信息系数算法和递归特征消除算法,对所述原始样本数据集进行特征筛选,得到目标样本数据集;
训练模块,用于根据所述目标样本数据集,对第一分类模型进行训练,得到预测模型;
预测模块,用于根据所述预测模型,对目标产品的质量进行预测,得到所述目标产品对应的预测结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。
CN202310224865.5A 2023-03-06 2023-03-06 一种产品质量预测方法、装置、设备及存储介质 Pending CN116151470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310224865.5A CN116151470A (zh) 2023-03-06 2023-03-06 一种产品质量预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310224865.5A CN116151470A (zh) 2023-03-06 2023-03-06 一种产品质量预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116151470A true CN116151470A (zh) 2023-05-23

Family

ID=86360084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310224865.5A Pending CN116151470A (zh) 2023-03-06 2023-03-06 一种产品质量预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116151470A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485280A (zh) * 2023-06-15 2023-07-25 深圳市蓝巨科技有限公司 基于人工智能的uvc-led生产质量评价方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160307133A1 (en) * 2015-04-16 2016-10-20 Hewlett-Packard Development Company, L.P. Quality prediction
CN112270335A (zh) * 2020-09-04 2021-01-26 网络通信与安全紫金山实验室 一种搭接接头焊接质量缺陷预测的方法、系统及计算机可读存储介质
CN112992368A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型系统及记录媒体
CN113176761A (zh) * 2021-04-28 2021-07-27 西安电子科技大学 基于机器学习的多特征薄板零件质量预测与工艺参数优化
CN113568368A (zh) * 2021-07-30 2021-10-29 北京石油化工学院 一种工控数据特征重排序算法的自适应确定方法
CN114693060A (zh) * 2022-02-15 2022-07-01 华中科技大学 一种基于多因素映射模型的点焊熔核质量预测方法和设备
CN115454863A (zh) * 2022-09-20 2022-12-09 北京航空航天大学 一种软件缺陷预测方法和系统
CN115496157A (zh) * 2022-09-29 2022-12-20 中国农业银行股份有限公司 分类模型训练方法、装置、电子设备及存储介质
CN115545086A (zh) * 2022-11-07 2022-12-30 海纳科德(湖北)科技有限公司 一种可迁移的特征自动选取声学诊断方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160307133A1 (en) * 2015-04-16 2016-10-20 Hewlett-Packard Development Company, L.P. Quality prediction
CN112270335A (zh) * 2020-09-04 2021-01-26 网络通信与安全紫金山实验室 一种搭接接头焊接质量缺陷预测的方法、系统及计算机可读存储介质
CN112992368A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型系统及记录媒体
CN113176761A (zh) * 2021-04-28 2021-07-27 西安电子科技大学 基于机器学习的多特征薄板零件质量预测与工艺参数优化
CN113568368A (zh) * 2021-07-30 2021-10-29 北京石油化工学院 一种工控数据特征重排序算法的自适应确定方法
CN114693060A (zh) * 2022-02-15 2022-07-01 华中科技大学 一种基于多因素映射模型的点焊熔核质量预测方法和设备
CN115454863A (zh) * 2022-09-20 2022-12-09 北京航空航天大学 一种软件缺陷预测方法和系统
CN115496157A (zh) * 2022-09-29 2022-12-20 中国农业银行股份有限公司 分类模型训练方法、装置、电子设备及存储介质
CN115545086A (zh) * 2022-11-07 2022-12-30 海纳科德(湖北)科技有限公司 一种可迁移的特征自动选取声学诊断方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485280A (zh) * 2023-06-15 2023-07-25 深圳市蓝巨科技有限公司 基于人工智能的uvc-led生产质量评价方法及系统
CN116485280B (zh) * 2023-06-15 2023-09-19 深圳市蓝巨科技有限公司 基于人工智能的uvc-led生产质量评价方法及系统

Similar Documents

Publication Publication Date Title
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN107392259B (zh) 构建不均衡样本分类模型的方法和装置
CN116151470A (zh) 一种产品质量预测方法、装置、设备及存储介质
JP5715445B2 (ja) 品質推定装置、品質推定方法及び品質推定方法をコンピュータに実行させるためのプログラム
CN115601042A (zh) 信息识别方法、装置、电子设备及存储介质
CN114997419A (zh) 评分卡模型的更新方法、装置、电子设备及存储介质
CN115062687A (zh) 企业信用监控方法、装置、设备及存储介质
CN114742401A (zh) 一种设备健康状态的评估方法、系统、电子设备及介质
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN114021642A (zh) 数据处理方法、装置、电子设备和存储介质
CN116302661B (zh) 一种异常预测方法、装置、电子设备及存储介质
CN114037057B (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN116226673B (zh) 缓冲区漏洞识别模型的训练方法、漏洞检测方法及装置
CN116596336B (zh) 电子设备的状态评估方法、装置、电子设备及存储介质
CN113344621B (zh) 异常账户的确定方法、装置和电子设备
CN115146725B (zh) 对象分类模式的确定方法、对象分类方法、装置和设备
CN115455019A (zh) 一种基于用户行为分析的搜索意图识别方法、装置及设备
CN114037058A (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN117195120A (zh) 一种检测方法、装置、设备以及存储介质
CN118210670A (zh) 日志异常检测方法、装置、电子设备及存储介质
CN117891643A (zh) 一种异常指标排序方法、装置、电子设备和存储介质
CN114154865A (zh) 对象评估方法、装置、设备、存储介质以及程序产品
CN116931083A (zh) 一种方位角道集划分方案的确定方法
CN115421696A (zh) 问题代码确定方法及装置
CN115600901A (zh) 一种风险评级方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230523

RJ01 Rejection of invention patent application after publication