CN117010752A - 产品质量预测模型的构建方法、装置、设备及存储介质 - Google Patents
产品质量预测模型的构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117010752A CN117010752A CN202310976836.4A CN202310976836A CN117010752A CN 117010752 A CN117010752 A CN 117010752A CN 202310976836 A CN202310976836 A CN 202310976836A CN 117010752 A CN117010752 A CN 117010752A
- Authority
- CN
- China
- Prior art keywords
- sample
- training
- quality
- samples
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 269
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 38
- 230000000694 effects Effects 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000013209 evaluation strategy Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Manufacturing & Machinery (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了产品质量预测模型的构建方法、装置、设备及存储介质,方法中,通过将因质量问题收到退货的样本作为标签为质量不达标的第一有标签样本,将未因质量问题收到退货的样本作为无标签样本;通过为与第一有标签样本相同数量的无标签样本进行增加质量达标标签,得到第二有标签样本,进而利用第一有标签样本和第二有标签样本对第一基础分类器模型进行训练,得到初始质量分类器;利用初始质量分类器对剩余的无标签样本进行质量分类来从中选取样本继续对初始质量分类器进行训练,以此循环,当满足停止条件时将最终得到的初始质量分类器作为第一产品质量预测模型。本申请提高了构建得到的产品质量预测模型的准确性,提高了产品质量预测的准确率。
Description
技术领域
本申请涉及智能决策技术领域,尤其涉及一种产品质量预测模型的构建方法、装置、设备及存储介质。
背景技术
在产品生产链中,通常需要按照预定的规则对成品进行质量检测。例如,在生产内存条时,需要进行包括检测各个引脚的信号的质检操作。尽管经历了严格的人为制定的质检操作,仍然不可避免地出现质检通过的成品在用户使用过程中出现故障。
为降低产品的返厂概率,现有技术中通常采用基于机器学习的方法来对成品进行进一步的质量检测。具体而言,现有技术中,对收到退货的产品样本增加质量未达标标签,而对未收到退货的产品样本增加质量达标标签,从而进行监督学习。然而,该方法只有收到退货的样本数据真实可靠,而未收到退货的样本的并不能确定产品是否质量达标,也有可能是潜在的不良品。因此,由于训练数据缺乏真实可靠性,依赖于该方法建立的产品质量预测模型的产品质量预测效果在应用于实际生产环境中,往往预测准确率较低,效果较差,无法进一步提高产品的故障检测准确率,也无法降低产品的返厂概率。
发明内容
本申请实施例提供了产品质量预测模型的构建方法、装置、设备及存储介质,能够提高产品质量预测的准确率和产品的故障检测准确率,有利于进一步降低产品的返厂概率,从而提高产品的生产效率。
第一方面,本申请实施例提供了一种产品质量预测模型的构建方法,包括:
获取目标产品对应的历史训练样本集和预设的第一基础分类器模型;其中,所述历史训练样本集包括第一有标签样本和无标签样本,所述第一有标签样本为因质量问题收到退货的样本,所述第一有标签样本对应的标签为质量不达标,所述无标签样本为未因质量问题收到退货的样本;
对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本;
将所述历史训练样本集中所有的所述第一有标签样本,以及所述第二有标签样本作为第一训练数据集,并将所述历史训练样本集中不属于所述第一训练数据集的所有的所述无标签样本作为第二训练数据集;
利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器;
利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果;
根据各所述无标签样本分别对应的质量分类结果确定待添加有标签样本加入所述第一训练数据集中,并从所述第二训练数据集中删除所述待添加有标签样本对应的样本;
利用所述第一训练数据集对所述初始质量分类器进行训练;
根据预设的迭代停止判断策略确定是否满足停止条件,并在确定不满足停止条件时,返回执行所述利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果的步骤;在确定满足停止条件时,将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型。
第二方面,本申请实施例提供了一种产品质量预测模型的构建装置,包括:
获取单元,用于获取目标产品对应的历史训练样本集和预设的第一基础分类器模型;其中,所述历史训练样本集包括第一有标签样本和无标签样本,所述第一有标签样本为因质量问题收到退货的样本,所述第一有标签样本对应的标签为质量不达标,所述无标签样本为未因质量问题收到退货的样本;
标签增加单元,用于对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本;
数据集构建单元,用于将所述历史训练样本集中所有的所述第一有标签样本,以及所述第二有标签样本作为第一训练数据集,并将所述历史训练样本集中不属于所述第一训练数据集的所有的所述无标签样本作为第二训练数据集;
第一训练单元,用于利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器;
分类单元,用于利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果;
数据集更新单元,用于根据各所述无标签样本分别对应的质量分类结果确定待添加有标签样本加入所述第一训练数据集中,并从所述第二训练数据集中删除所述待添加有标签样本对应的样本;
第二训练单元,用于利用所述第一训练数据集对所述初始质量分类器进行训练;
确定单元,用于根据预设的迭代停止判断策略确定是否满足停止条件,并在确定不满足停止条件时,返回执行所述利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果的步骤;在确定满足停止条件时,将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面的产品质量预测模型的构建方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中计算机可读存储介质存储有计算机程序,计算机程序当被处理器执行时使处理器执行上述第一方面的产品质量预测模型的构建方法。
本申请提供的产品质量预测模型的构建方法中,通过将因质量问题收到退货的样本作为标签为质量不达标的有标签样本(第一有标签样本),而对于未因质量问题收到退货的样本,由于暂不能确定是否为质量达标样本,因此作为无标签样本;进一步地,通过为与有标签样本相同数量的无标签样本进行增加质量达标标签,得到第二有标签样本,进而利用第一有标签样本和第二有标签样本分别作为正负样本对第一基础分类器模型进行训练,得到初始质量分类器;在此基础上,为学习到更多样本数据,通过利用初始质量分类器对剩余的无标签样本进行质量分类来从剩余的无标签样本中选取样本并进行增加标签来加入训练数据集中继续对初始质量分类器进行训练,以此循环,直到根据预设的迭代停止判断策略确定满足停止条件时,停止训练,将最终得到的初始质量分类器作为构建得到的第一产品质量预测模型。本申请实现了对无标签样本的科学利用,而不是如现有技术中笼统地将未因质量问题收到退货的样本作为标签为质量达标的有标签样本使用,提高了构建得到的产品质量预测模型的科学性和准确性,能够提高产品质量预测的准确率和产品的故障检测准确率,有利于进一步降低产品的返厂概率,从而提高产品的生产效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的产品质量预测模型的构建方法的流程示意图;
图2为本申请实施例提供的产品质量预测模型的构建方法的子流程示意图;
图3为本申请实施例提供的产品质量预测模型的构建方法的另一子流程示意图;
图4为本申请实施例提供的产品质量预测模型的构建方法的另一子流程示意图;
图5为本申请实施例提供的产品质量预测模型的构建方法的另一流程示意图;
图6为本申请实施例提供的产品质量预测模型的构建装置的示意性框图;
图7为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请提供了一种产品质量预测模型的构建方法、装置、设备及存储介质,能够提高产品质量预测的准确率和产品的故障检测准确率,有利于进一步降低产品的返厂概率,从而提高产品的生产效率。该产品质量预测模型的构建方法的执行主体可以是本申请实施例提供的产品质量预测模型的构建装置,可以是集成了该产品质量预测模型的构建装置的计算机设备,其中,该产品质量预测模型的构建装置可以采用硬件或者软件的方式实现,该计算机设备可以为终端或服务器,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
请参阅图1,图1为本申请一实施例提供的产品质量预测模型的构建方法的流程示意图,该方法具体包括下述步骤S101至步骤S109。
步骤S101、获取目标产品对应的历史训练样本集和预设的第一基础分类器模型,其中,所述历史训练样本集包括第一有标签样本和无标签样本,所述第一有标签样本为因质量问题收到退货的样本,所述第一有标签样本对应的标签为质量不达标,所述无标签样本为未因质量问题收到退货的样本。
本实施例中,上述历史训练样本集用于训练构建产品质量预测模型。在具体实施时,历史训练样本集中的第一有标签样本可以具体是在售出的预设期限内因质量问题收到退货的样本,无标签样本可以具体是在售出的预设期限内未因质量问题收到退货的样本。本实施例中,由于产品会因为使用而损耗,因此仅考虑预设期限内出售的目标产品对应的产品数据作为样本数据,提高样本数据的科学性。其中,该预设期限可以是目标产品对应的保修期,也可以是免费更换期等,可以根据具体情况确定。
具体的,历史训练样本集可以根据预设期限内出售的目标产品对应的产品属性数据而构建;在具体实施时,可以将之前的预设期限之内已经生产出售的一个目标产品对应的产品属性数据作为一个样本数据,对于该样本数据,若该目标产品已因质量问题接收到退货请求,则可以为该样本数据增加质量不达标的标签,该样本数据即成为第一有标签样本加入历史训练样本集中;若该目标产品尚未因质量问题接收到退货请求,则可以认为样本数据对应的目标产品质量是否达标仍不能确定,样本数据直接作为无标签样本加入历史训练样本集中。
需要说明的是,上述因质量问题收到退货,可以具体包括因质量问题收到退货返修和因质量问题退货而取消交易。
在具体实施时,为便于后续的增加标签操作,上述无标签样本也可以是指带有隐藏标签的样本。具体的,可以对上述目标产品尚未因质量问题接收到退货请求的样本数据增加隐藏标签,由于隐藏标签暂不起作用,相当于无标签样本加入历史训练数据集中。
其中,该产品属性数据可以包括反映产品的声、光、电、力、热学属性特征的属性数据,该属性数据可以是对目标产品测试得到的数据。例如,若该目标产品为某某型号的内存条,产品的属性数据可以包括该内存条在测试过程中的各引脚的测试数据,例如,Pin脚数据。
本实施例中,上述预设的第一基础分类器模型可以是基于支持向量机(SupportVector Machine,SVM)、梯度提升树(Gradient Boosting Decision Tree,DBDT)、随机森林模型(Random Forest,RF)的分类器模型,具体可以根据实际情况确定。
在具体实施时,可以通过选择上述一种类型的基础分类器,并设置好该基础分类器的超参数,得到预设的第一基础分类器模型。
步骤S102、对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本。
本实施例中,第一有标签样本代表的是质量不达标的目标产品的数据特征,作为负样本来训练第一基础分类器模型,由于训练第一基础分类器模型需要两种样本,即正样本和负样本,因而需要将有无标签样本作为正样本来对第一基础分类器模型进行训练。又考虑到正样本是不确定的样本数据,因此本实施例中,仅选取与负样本数量相同的无标签样本,并为无标签样本增加质量达标标签,使其成为正样本(即,第二有标签样本)。
在实际应用中,由于目标产品通常已经过人为设计的严格的质量检测程序,因此,在出售的目标产品中,因质量问题需要退货的目标产品的数量很少,因此,构建的上述历史训练样本集中,第一有标签样本数量通常远小于无标签样本的数量。为最大程度利用上第一有标签样本,因而为历史训练样本集中与所有的第一有标签样本的数量相同的无标签样本增加质量达标标签。
为提高正样本的科学性,在一实施例中,如图2中示出的,上述步骤S102可以具体包括下述步骤S1021至步骤S1024。
步骤S1021、确定所述历史训练样本集中所述第一有标签样本对应的第一样本总数量。
其中,上述第一样本总数量为历史训练样本集中所包含的第一有标签样本的总数量。
步骤S1022、按照各所述无标签样本分别对应的保修剩余日期从短到长的顺序对所述历史训练样本集中的各所述无标签样本进行排序,得到第一排序结果。
本实施例中,无标签样本对应的保修剩余日期为无标签样本对应的目标产品的保修剩余日期;无标签样本对应的保修剩余日期越短,该无标签样本对应的目标产品为质量达标产品的可能性越大,该无标签样本的数据特性就越接近于正样本的数据特征。因而按照各所述无标签样本分别对应的保修剩余日期从短到长的顺序对所述历史训练样本集中的各所述无标签样本进行排序,得到第一排序结果。在该第一排序结果中,排在前面的无标签样本对应的保修剩余日期比排在后面的无标签样本对应的保修剩余日期短。
步骤S1023、根据所述第一排序结果,从各所述无标签样本中确定出数量为所述第一样本总数量的待训练无标签样本。
具体的,按照第一排序结果,从前到后的方式选择无标签样本作为待训练无标签样本,选择的无标签样本数量为第一样本总数量。
步骤S1024、为各所述待训练无标签样本增加所述质量达标标签,得到所述第二有标签样本。
本实施例中,确定了待训练无标签样本后,各待训练无标签样本增加质量达标标签而成为正样本,即得到第二有标签样本。
在具体实施时,若各所述无标签样本是带有隐藏标签的样本,则可以对上述待训练无标签样本的隐藏标签设置为质量达标标签,使其成为正样本,即得到第二有标签样本。
本实施例中,通过根据无标签样本对应的保修剩余日期对各无标签样本进行排序,从而选取出保修剩余日期短的无标签样本来构建第二有标签样本,从而利用第二有标签样本作为正样本对第一基础分类器模型进行训练,提高了正样本的样本数据的准确性,有利于提高模型的训练效果。
步骤S103、将所述历史训练样本集中所有的所述第一有标签样本,以及所述第二有标签样本作为第一训练数据集,并将所述历史训练样本集中不属于所述第一训练数据集的所有的所述无标签样本作为第二训练数据集。
本实施例中,在得到了与第一有标签样本相同数量的第二有标签样本之后,相当于得到了相同数量的正样本和负样本,因而将第一有标签样本和第二有标签样本一并作为第一训练数据集,用于后续对第一基础分类器模型进行训练,而历史训练样本集中剩余的无标签样本则作为第二训练数据集。
步骤S104、利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器。
本实施例中,通过利用第一训练数据集对第一基础分类器模型进行有监督训练,得到初始质量分类器。
在具体实施时,第一基础分类器模型的参数设置为可调节状态,通过将第一训练数据集中的样本输入基础分类器,基础分类器对样本进行质量预测,并利用质量预测结果和样本的实际标签来实现对基础分类器的参数调整,基础分类器逐步学习到样本的特征,从而逐步提高对样本的分类的准确度。
在具体实施时,第一训练数据集对第一基础分类器模型进行训练的过程可以包括多次迭代,具体可以根据实际情况确定,以保证得到的初始质量分类器的分类效果。
步骤S105、利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果。
本实施例中,由于分类器的分类效果很大程度上取决于样本集的大小,为进一步学习到更多的样本数据的特性,得到初始质量分类器后,将第二训练数据集中的无标签样本输入到初始质量分类器中,由初始质量分类器对无标签样本进行分类,得到初始质量分类器输出的各无标签样本对应的质量分类结果。
在具体实施过程中,该无标签样本对应的质量分类结果可以包括该无标签样本对应的分类结果和分类置信度,该分类结果指示该无标签样本的标签是质量达标标签还是质量不达标标签,该分类置信度用于指示该无标签样本的标签的置信度。
步骤S106、根据各所述无标签样本分别对应的质量分类结果确定待添加有标签样本加入所述第一训练数据集中,并从所述第二训练数据集中删除所述待添加有标签样本对应的样本。
其中,上述待添加有标签样本为对第二训练数据集中依据质量分类结果被选择的无标签样本增加标签后得到的样本。
具体的,为提高加入第一训练数据集的待添加有标签样本的代表性,在一实施例中,如图3中示出的,上述质量分类结果包括分类结果和分类置信度,上述步骤S106可以基于下述步骤S1061至步骤S1064实现。
步骤S1061、根据所述分类置信度从高到低的顺序对所述第二训练数据集中各所述无标签样本进行排序,得到第二排序结果。
本实施例中,无标签样本对应的分类置信度越高,初始质量分类器输出的针对无标签样本的分类结果的准确性越高。因而按照各所述无标签样本分别对应的分类置信度从高到低的顺序对所述第二训练数据集中的各所述无标签样本进行排序,得到第二排序结果。在该第二排序结果中,排在前面的无标签样本对应的分类置信度高于排在后面的无标签样本对应的分类置信度。
步骤S1062、根据所述第二排序结果选取预设数量的无标签样本作为待添加无标签样本。
具体的,按照第二排序结果,从前到后的方式选择无标签样本作为待添加无标签样本,选择的无标签样本数量为预设数量。其中,该预设数量可以根据具体情况确定。
步骤S1063、根据各所述待添加无标签样本各自对应的所述分类结果为各所述待添加无标签样本增加标签,得到所述待添加有标签样本,并将所述待添加有标签加入所述第一训练数据集中。
本实施例中,在从第二训练样本集中确定出待添加无标签样本后,为每一待添加无标签样本添加标签,添加的标签为初始质量分类器对该无标签样本的分类结果,得到待添加有标签样本,在此基础上,将待添加有标签样本加入第一训练数据集中。
步骤S1064、将所述待添加有标签样本对应的所述待添加无标签样本从所述第二训练数据集中删除。
本实施例中,在讲待添加有标签样本添加到第一训练数据集后,需将待添加有标签样本对应的第二训练数据集中的无标签样本(待添加无标签样本)从第二训练数据集中删除。
本实施例中,通过根据无标签样本的分类置信度来选取无标签样本,并为该无标签样本增加来着初始质量分类器的分类结果作为标签,从而加入第一训练数据集,以进行后续的初始质量分类器的训练,提高了用于训练初始质量分类器的样本的质量和科学性。
步骤S107、利用所述第一训练数据集对所述初始质量分类器进行训练。
本实施例中,第一训练数据集新增了来着第二训练数据集的样本数据,进一步利用该第一训练数据集继续对该初始质量分类器进行训练。
步骤S108、根据预设的迭代停止判断策略确定是否满足停止条件,若是,执行下述步骤S109,若否,返回执行上述步骤S105。
其中,上述预设的迭代停止判断策略用于判断是否可以停止初始质量分类器的训练。本实施例中,在确定满足停止条件后,则继续执行下述步骤S109,确定不满足停止条件,则返回执行上述步骤S105,即继续利用初始质量分类器对第二训练数据集进行分类,并根据得到的质量分类结果确定样本加入第一训练数据集中,进而利用第一训练数据集对初始质量分类器进行训练。
在具体实施过程中,该预设的迭代停止判断策略可以是判断初始质量分类器的分类效果是否达到预设要求,也可以是判断初始质量分类器的迭代次数是否达到预设迭代次数阈值。
具体的,初始质量分类器的分类效果可以根据初始质量分类器的分类置信度来确定,也可以根据初始质量分类器的分类结果的准确率来确定。
当预设的迭代停止判断策略为基于初始质量分类器的迭代次数来判断时,具体的,在一实施例中,上述步骤S104中利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器之后,将当前迭代次数初始化为0;在上述步骤S107中利用所述第一训练数据集对所述初始质量分类器进行训练之后,将所述当前迭代次数增1更新;在此基础上,上述步骤S108则可以具体为:判断所述当前迭代次数是否达到预设迭代次数阈值;若所述当前迭代次数已达到所述预设迭代次数阈值,则确定满足停止条件;若所述当前迭代次数未达到所述预设迭代次数阈值,则确定不满足停止条件。
步骤S109、将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型。
本实施例中,在确定满足停止条件之后,可以认为该初始质量分类器达到要求,将训练后最终得到的该初始质量分类器作为第一产品质量预测模型,该第一产品质量预测模型可以用于进行产品质量预测。
为避免初始质量分类器过度拟合训练数据,在一些实施方式中,可以增加利用测试数据集来对初始质量分类器进行测试的步骤,此时,如图4中示出的,上述步骤S109可以具体为下述步骤S1091至步骤S1093。
步骤S1091、获取所述目标产品对应的历史测试样本集。
本实施例中,历史测试样本集包括了多个用于测试初始质量分类器的分类效果的目标产品对应的样本。在具体实施时,该历史测试样本集中可以包括质量达标的样本和质量不达标的样本,该质量达标的样本可以是在售出后的预设期限外为未因质量问题收到退货的样本,该质量不达标样本可以是在售出后的预设期限外因质量问题收到退货的样本。其中,该预设期限可以是目标产品对应的保修期。
步骤S1092、利用所述历史测试样本集验证训练后最终得到的所述初始质量分类器的分类效果,得到历史分类评价结果。
其中,上述历史分类评价结果用于指示初始质量分类器在历史测试样本集上的分类效果。具体的,将历史测试样本集中的样本输入初始质量分类器,得到初始质量分类器输出的测试分类结果,进而可以利用预设的分类结果评价策略对测试分类结果进行评价,确定出历史分类评价结果。
其中,预设的分类结果评价策略可以根据实际情况确定,在一些实施方式中,可以根据测试分类结果和历史测试样本集中各样本对应的实际结果来计算初始质量分类器的分类准确率。当分类准确率达到预设准确率阈值时,可以确定历史分类评级结果为良好。
步骤S1093、当所述历史分类评价结果为良好时,将训练后最终得到的所述初始质量分类器确定为所述第一产品质量预测模型。
本实施例中,历史分类评价结果为良好,则表明训练得到的初始质量分类器的分类效果较好,进而可以将该训练后最终得到的初始质量分类器确定为第一产品质量预测模型。
需要说明的是,上述历史分类评价结果为良好,仅用于指示初始质量分类器在历史测试数据集上的分类效果,而不表示对具体的历史分类评价结果的表现形式,可以理解的是,只要是历史分类评价结果表明初始质量分类器在历史测试数据上的分类效果较好,都认为是本申请的保护范围之内。
可选的,在一些实施方式中,当历史分类评价结果不为良好时,则可继续对初始质量分类器进行训练。在一些实施方式中,也可以放弃该得到的初始质量分类器,调整预设的第一基础分类器模型的超参数,并重新执行上述步骤S101至步骤S109;在此基础上,还可以进一步调整上述步骤S108中的迭代停止判断策略,例如,调整预设迭代次数阈值,还可以一并调整上述步骤S106中加入第一训练数据集的待添加有标签样本的数量,例如,调整步骤S1062中的预设数量。
为进一步提高产品质量预测模型的分类效果,增加训练的数据集,提高产品质量预测模型的泛化能力,可以利用后续产生的增量数据来对得到的第一产品质量预测模型继续进行增量训练。例如,在一实施例中,如图5中示出的,所述历史训练样本集为当前增量周期之前产生的训练样本集,上述步骤S109之后,还可以包括下述步骤S110至步骤S117。
步骤S110、获取所述当前增量周期对应的增量样本集。
其中,上述当前增量周期为当前所在的增量周期,增量周期可以具体为相对于产生历史训练数据集之后的一个增加时间周期,该时间周期的长度可以为预设周期长度,例如,一周,此时,上述当前增量周期对应的增量样本集即为当前增量周期(一周)内产生的样本构成的集合。
在具体实施时,当前增量周期对应的增量样本集可以包括增量有标签样本和增量无标签样本;增量有标签样本可以为在当前增量周期内新增的因质量问题收到退货的样本,增量有标签样本对应的标签为质量不达标,增量无标签样本可以为当前增量周期内新售出的目标产品对应的样本,且该样本对应的目标产品尚未因质量问题收到退货。具体的,增量有标签样本可以具体是在售出的预设期限内因质量问题收到退货的样本,增量无标签样本可以具体是在售出的预设期限内未因质量问题收到退货的样本。
其中,该预设期限可以是目标产品对应的保修期,也可以是免费更换期等,可以根据具体情况确定。
本实施例中,为扩大训练的数据集,增加模型的泛化能力和预测性能,在获取到基于历史训练样本集构建得到的第一产品质量预测模型之后,获取之后的当前增量周期内产生的样本集,以便于后续利用该当前增量周期内产生的样本集。
步骤S111、利用所述增量样本集验证所述第一产品质量预测模型的分类效果,得到增量分类评价结果。
本实施例中,在利用增量样本集对第一产品质量预测模型进行增量训练之前,在利用增量样本集进行增量训练之前,先利用增量数据集对该模型进行验证,以确保模型在新数据(增量样本集)上的表现仍然良好。
其中,上述增量分类评价结果用于指示第一产品质量预测模型在增量样本集上的分类效果。具体的,将增量样本集中的样本输入第一产品质量预测模型,得到第一产品质量预测模型输出的增量分类结果,进而可以利用预设的增量分类结果评价策略对增量分类结果进行评价,确定出增量分类评价结果。
其中,预设的增量分类结果评价策略可以根据实际情况确定,在一些实施方式中,可以根据增量分类结果(样本对应的分类结果)和增量样本集中各样本对应的实际结果来计算第一产品质量预测模型的分类准确率。当分类准确率达到预设准确率阈值时,可以确定历史分类评级结果为良好。
需要说明的是,上述增量分类评价结果为良好,仅用于指示第一产品质量预测模型在增量样本集上的分类效果,而不表示具体的增量分类评价结果的表现形式。可以理解的是,只要增量分类评价结果是表明第一产品质量预测模型在增量样本集上的分类效果较好,都认为是本申请的保护范围之内。
步骤S112、判断所述增量分类评价结果是否为良好,若是,执行下述步骤S113,若否,执行下述步骤S117。
本实施例中,若增量分类评价结果为良好,则表明训练得到的第一产品质量预测模型在当前增量周期对应的增量样本集上的分类效果较好,第一产品质量预测模型在历史训练样本集上学习到的样本分布与增量样本集的样本分布相近,模型不存在过拟合的问题;若增量分类评价结果不为良好,则表明增量样本集的样本分布和第一产品质量预测模型在历史训练样本集上学习到的样本分布不同。
步骤S113、利用所述增量样本集对所述第一产品质量预测模型进行增量训练。
本实施例中,增量分类评价结果为良好,则进一步利用增量样本集对第一产品质量预测模型进行增量训练,以进一步提高模型的性能。
在具体实施时,利用增量样本集对第一产品质量预测模型进行增量训练的过程中,可以参照上述步骤S102-步骤S108的过程,即可以将该增量样本集中的所有增量有标签样本、以及与增量有标签样本相同数量的增量无标签样本增加质量达标后得到的第三标签样本,作为第三训练数据集,并利用第三训练数据集对第一产品质量预测模型进行训练,进而再利用最新得到的第一产品质量预测模型对增量样本集中除第三训练数据集外的其余增量无标签样本进行质量分类,根据质量分类结果选取增量无标签样本添加对应的标签并加入至第三训练数据集,并利用第三训练集对第一产品质量预测模型进行训练,以此循环,直至根据预设的迭代停止判断策略确定满足停止条件时,停止利用该当前增量周期对应的增量样本集对第一产品质量预测模型的训练。
步骤S114、基于预设的增量训练停止判断策略判断是否符合增量训练停止条件,若是,执行下述步骤S116,若否,执行下述步骤S115。
其中,上述预设的增量训练停止判断策略用于判断是否可以停止对第一产品质量预测模型的增量训练。
在具体实施过程中,该预设的迭代停止判断策略可以是判断初始质量分类器的分类效果是否达到预设要求,也可以是判断初始质量分类器的迭代次数是否达到预设迭代次数阈值。
具体的,初始质量分类器的分类效果可以根据初始质量分类器的分类置信度来确定,也可以根据初始质量分类器的分类结果的准确率来确定。
步骤S115、获取下一增量周期对应的增量样本集,并返回执行上述步骤S111。
本实施例中,确定不符合增量训练停止条件,则可以继续获取当前增量周期的下一增量周期对应的增量样本集,返回执行上述步骤S111,即继续利用该下一增量周期对应的增量样本集对第一产品质量预测模型进行验证,得到下一增量周期对应的增量分类评价结果,若下一增量周期对应的增量分类评价结果为良好,则可以继续利用该下一增量周期对应的增量样本集对最新的第一产品质量预测模型进行训练,若下一增量周期对应的增量分类评价结果不为良好,则执行下述步骤S117。
步骤S116、将训练后最终得到的所述第一产品质量预测模型确定为第二产品质量预测模型。
本实施例中,在确定符合增量训练停止条件后,则认为可以停止增量训练,将训练后最终得到的第一产品质量预测模型确定为第二产品质量预测模型。该第二产品质量预测模型为基于历史训练样本集和增量样本集构建的产品质量模型,模型的分类效果比第一产品质量预测模型更好。在实际应用中,可以将该第二产品质量预测模型发布上线,用于实际的产品质量预测。
本实施例中,在对第一产品质量预测模型的增量训练过程中,第一产品质量预测模型的参数为可调整状态,上述训练后最终得到的第一产品质量预测模型,指的是参数为最新调整的第一产品质量预测模型。
步骤S117、将所述增量样本集加入所述历史训练样本集,并获取预设的第二基础分类器模型,并返回执行上述步骤S102。
本实施例中,可以是指将已获取到的相对历史训练样本集的所有增量周期对应的增量样本集加入历史训练样本集中。
其中,在具体实施时,上述历史训练样本集可以指的是在执行上述步骤S102之前的历史训练样本集,该历史训练样本集中包括了第一有标签样本和无标签样本,第一有标签样本为因质量问题收到退货的样本,无标签样本为未因质量问题收到退货的样本。本实施例中,增量样本集中包括了增量有标签样本和增量无标签样本,将增量有标签样本和增量无标签样本加入历史训练样本集后,可以将增量有标签样本视为第一有标签样本,将增量无标签样本视为无标签样本,进而返回执行上述步骤S102。
本实施例中,上述预设的第二基础分类器模型可以是基于支持向量机(SupportVector Machine,SVM)、梯度提升树(Gradient Boosting Decision Tree,DBDT)、随机森林模型(Random Forest,RF)的分类器模型,具体可以根据实际情况确定。
在具体实施时,可以通过选择上述一种类型的基础分类器,并设置好该基础分类器的超参数,得到预设的第二基础分类器模型。
在具体实施时,得到的上述第二基础分类器模型可以与第一基础分类器模型相同,也可以不同。具体的,第二基础分类器模型可以是与第一基础分类器模型采用相同的基础模型,而与第一基础分类器模型具有不同的超参数。
本实施例中,若利用第一产品质量预测模型对增量样本集(当前增量周期对应的增量样本集或者下一增量周期对应的增量样本集)进行分类得到的增量分类评价结果不为良好,则表明存在增量样本集的样本分布和第一产品质量预测模型在之前学习到的样本集上学习到的样本分布不同,一方面,无法利用增量样本集继续提高模型性能,另一方面,模型可能存在过拟合的情况,因此,该得到的第一产品质量预测模型无法满足实际生产的要求,在此基础上,将所述增量样本集加入所述历史训练样本集,并获取预设的所述第一基础分类器模型,返回执行上述步骤S102,即重新利用已增加增量样本集的历史训练样本集对预设的第一基础分类器模型进行训练,重新得到新的第一产品质量预测模型,并执行上述步骤S110-S117,直至得到第二产品质量预测模型。
本实施例中,通过利用增量样本集对第一产品质量预测模型进行进一步增量训练,得到遍历更多数据集的第二产品质量预测模型,进而可以利用第二产品质量预测模型进行实际的目标产品质量预测,有利于进一步提高产品质量预测的准确率,降低产品的故障率和返修概率,从而提高产品的生产效率。
综上,本申请提供的产品质量预测模型的构建方法中,通过将因质量问题收到退货的样本作为标签为质量不达标的有标签样本(第一有标签样本),而对于未因质量问题收到退货的样本,由于暂不能确定是否为质量达标样本,因此作为无标签样本;进一步地,通过为与有标签样本相同数量的无标签样本进行增加质量达标标签,得到第二有标签样本,进而利用第一有标签样本和第二有标签样本分别作为正负样本对第一基础分类器模型进行训练,得到初始质量分类器;在此基础上,为学习到更多样本数据,通过利用初始质量分类器对剩余的无标签样本进行质量分类来从剩余的无标签样本中选取样本并进行增加标签来加入训练数据集中继续对初始质量分类器进行训练,以此循环,直到根据预设的迭代停止判断策略确定满足停止条件时,停止训练,将最终得到的初始质量分类器作为构建得到的第一产品质量预测模型。本申请实现了对无标签样本的科学利用,而不是如现有技术中笼统地将未因质量问题收到退货的样本作为标签为质量达标的有标签样本使用,提高了构建得到的产品质量预测模型的科学性和准确性,能够提高产品质量预测的准确率和产品的故障检测准确率,有利于进一步降低产品的返厂概率,从而提高产品的生产效率。
本申请实施例还提供一种产品质量预测模型的构建装置,该产品质量预测模型的构建装置用于执行前述产品质量预测模型的构建方法的任一实施例中的步骤。具体地,请参阅图6,图6示出了本申请实施例提供的一种产品质量预测模型的构建装置600的结构示意图,该产品质量预测模型的构建装置600具体包括获取单元601、标签增加单元602、数据集构建单元603、第一训练单元604、分类单元605、数据集更新单元606、第二训练单元607和确定单元608。其中,
获取单元601,用于获取目标产品对应的历史训练样本集和预设的第一基础分类器模型;其中,所述历史训练样本集包括第一有标签样本和无标签样本,所述第一有标签样本为因质量问题收到退货的样本,所述第一有标签样本对应的标签为质量不达标,所述无标签样本为未因质量问题收到退货的样本;
标签增加单元602,用于对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本;
数据集构建单元603,用于将所述历史训练样本集中所有的所述第一有标签样本,以及所述第二有标签样本作为第一训练数据集,并将所述历史训练样本集中不属于所述第一训练数据集的所有的所述无标签样本作为第二训练数据集;
第一训练单元604,用于利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器;
分类单元605,用于利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果;
数据集更新单元606,用于根据各所述无标签样本分别对应的质量分类结果确定待添加有标签样本加入所述第一训练数据集中,并从所述第二训练数据集中删除所述待添加有标签样本对应的样本;
第二训练单元607,用于利用所述第一训练数据集对所述初始质量分类器进行训练;
确定单元608,用于根据预设的迭代停止判断策略确定是否满足停止条件,并在确定不满足停止条件时,返回执行所述利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果的步骤;在确定满足停止条件时,将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型。
本申请的一些实施方式中,所述标签增加单元602具体用于,确定所述历史训练样本集中所述第一有标签样本对应的第一样本总数量;按照各所述无标签样本分别对应的保修剩余日期从短到长的顺序对所述历史训练样本集中的各所述无标签样本进行排序,得到第一排序结果;根据所述第一排序结果,从各所述无标签样本中确定出数量为所述第一样本总数量的待训练无标签样本;为各所述待训练无标签样本增加所述质量达标标签,得到所述第二有标签样本。
本申请的一些实施方式中,所述数据集更新单元606具体用于,根据所述分类置信度从高到低的顺序对所述第二训练数据集中各所述无标签样本进行排序,得到第二排序结果;根据所述第二排序结果选取预设数量的无标签样本作为待添加无标签样本;根据各所述待添加无标签样本各自对应的所述分类结果为各所述待添加无标签样本增加标签,得到所述待添加有标签样本,并将所述待添加有标签加入所述第一训练数据集中;将所述待添加有标签样本对应的所述待添加无标签样本从所述第二训练数据集中删除。
本申请的一些实施方式中,所述确定单元608具体用于,在确定满足停止条件时,获取所述目标产品对应的历史测试样本集;利用所述历史测试样本集验证训练后最终得到的所述初始质量分类器的分类效果,得到历史分类评价结果;若所述历史分类评价结果为良好,则将训练后最终得到的所述初始质量分类器确定为所述第一产品质量预测模型。
本申请的一些实施方式中,所述历史训练样本集为当前增量周期之前产生的训练样本集;所述获取单元601还用于,获取所述当前增量周期对应的增量样本集;所述分类单元605还用于,利用所述增量样本集验证所述第一产品质量预测模型的分类效果,得到增量分类评价结果;所述第二训练单元607还用于,若所述增量分类评价结果为良好,则利用所述增量样本集对所述第一产品质量预测模型进行增量训练;所述确定单元608还用于,基于预设的增量训练停止判断策略判断是否符合增量训练停止条件;若不符合增量训练停止条件,则获取下一增量周期对应的增量样本集,并返回执行所述利用所述增量样本集验证所述第一产品质量预测模型的分类效果,得到增量分类评价结果的步骤;若符合增量训练停止条件,则将训练后最终得到的所述第一产品质量预测模型确定为第二产品质量预测模型。
本申请的一些实施方式中,所述数据集更新单元606还用于,若所述增量分类评价结果不为良好,则将所述增量样本集加入所述历史训练样本集;所述获取单元601还用于,获取预设的第二基础分类器模型。
本申请的一些实施方式中,所述产品质量预测模型的构建装置600还包括迭代计算单元,用于将当前迭代次数初始化为0;将所述当前迭代次数增1更新;所述确定单元608具体用于,判断所述当前迭代次数是否达到预设迭代次数阈值;若所述当前迭代次数已达到所述预设迭代次数阈值,则确定满足停止条件;若所述当前迭代次数未达到所述预设迭代次数阈值,则确定不满足停止条件。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述产品质量预测模型的构建装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述产品质量预测模型的构建装置可以实现为计算机程序的形式,该计算机程序可以在如图7示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的计算机设备的示意性框图。该计算机设备700可以是智能手机、平板电脑、个人电脑、智能穿戴设备、服务器等终端设备。参阅图7,该计算机设备700包括通过装置总线701连接的处理器702、存储器和网络接口705,其中,存储器可以包括存储介质703和内存储器704。
该存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时,可使得处理器702执行产品质量预测模型的构建方法。
该处理器702用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器704为存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行产品质量预测模型的构建方法。
该网络接口705用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器702用于运行存储在存储器中的计算机程序7032,以实现本申请实施例公开的产品质量预测模型的构建方法。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的产品质量预测模型的构建方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,后台服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种产品质量预测模型的构建方法,其特征在于,包括:
获取目标产品对应的历史训练样本集和预设的第一基础分类器模型;其中,所述历史训练样本集包括第一有标签样本和无标签样本,所述第一有标签样本为因质量问题收到退货的样本,所述第一有标签样本对应的标签为质量不达标,所述无标签样本为未因质量问题收到退货的样本;
对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本;
将所述历史训练样本集中所有的所述第一有标签样本,以及所述第二有标签样本作为第一训练数据集,并将所述历史训练样本集中不属于所述第一训练数据集的所有的所述无标签样本作为第二训练数据集;
利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器;
利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果;
根据各所述无标签样本分别对应的质量分类结果确定待添加有标签样本加入所述第一训练数据集中,并从所述第二训练数据集中删除所述待添加有标签样本对应的样本;
利用所述第一训练数据集对所述初始质量分类器进行训练;
根据预设的迭代停止判断策略确定是否满足停止条件,并在确定不满足停止条件时,返回执行所述利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果的步骤;在确定满足停止条件时,将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本,包括:
确定所述历史训练样本集中所述第一有标签样本对应的第一样本总数量;
按照各所述无标签样本分别对应的保修剩余日期从短到长的顺序对所述历史训练样本集中的各所述无标签样本进行排序,得到第一排序结果;
根据所述第一排序结果,从各所述无标签样本中确定出数量为所述第一样本总数量的待训练无标签样本;
为各所述待训练无标签样本增加所述质量达标标签,得到所述第二有标签样本。
3.根据权利要求1所述的方法,其特征在于,所述质量分类结果包括分类结果和分类置信度;所述根据各所述无标签样本分别对应的质量分类结果确定待添加有标签样本加入所述第一训练数据集中,并从所述第二训练数据集中删除所述待添加有标签样本对应的样本,包括:
根据所述分类置信度从高到低的顺序对所述第二训练数据集中各所述无标签样本进行排序,得到第二排序结果;
根据所述第二排序结果选取预设数量的无标签样本作为待添加无标签样本;
根据各所述待添加无标签样本各自对应的所述分类结果为各所述待添加无标签样本增加标签,得到所述待添加有标签样本,并将所述待添加有标签加入所述第一训练数据集中;
将所述待添加有标签样本对应的所述待添加无标签样本从所述第二训练数据集中删除。
4.根据权利要求1所述的方法,其特征在于,所述在确定满足停止条件时,将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型,包括:
在确定满足停止条件时,获取所述目标产品对应的历史测试样本集;
利用所述历史测试样本集验证训练后最终得到的所述初始质量分类器的分类效果,得到历史分类评价结果;
若所述历史分类评价结果为良好,则将训练后最终得到的所述初始质量分类器确定为所述第一产品质量预测模型。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述历史训练样本集为当前增量周期之前产生的训练样本集;所述将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型之后,所述方法还包括:
获取所述当前增量周期对应的增量样本集;
利用所述增量样本集验证所述第一产品质量预测模型的分类效果,得到增量分类评价结果;
若所述增量分类评价结果为良好,则利用所述增量样本集对所述第一产品质量预测模型进行增量训练;
基于预设的增量训练停止判断策略判断是否符合增量训练停止条件;
若不符合增量训练停止条件,则获取下一增量周期对应的增量样本集,并返回执行所述利用所述增量样本集验证所述第一产品质量预测模型的分类效果,得到增量分类评价结果的步骤;
若符合增量训练停止条件,则将训练后最终得到的所述第一产品质量预测模型确定为第二产品质量预测模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述增量样本集验证所述第一产品质量预测模型的分类效果,得到增量分类评价结果之后,所述方法还包括:
若所述增量分类评价结果不为良好,则将所述增量样本集加入所述历史训练样本集,并获取预设的第二基础分类器模型,并返回执行所述对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本的步骤。
7.根据权利要求1所述的方法,其特征在于,所述利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器之后,所述方法还包括:
将当前迭代次数初始化为0;
所述利用所述第一训练数据集对所述初始质量分类器进行训练之后,所述方法还包括:
将所述当前迭代次数增1更新;
所述根据预设的迭代停止判断策略确定是否满足停止条件,包括:
判断所述当前迭代次数是否达到预设迭代次数阈值;
若所述当前迭代次数已达到所述预设迭代次数阈值,则确定满足停止条件;
若所述当前迭代次数未达到所述预设迭代次数阈值,则确定不满足停止条件。
8.一种产品质量预测模型的构建装置,其特征在于,所述装置包括:
获取单元,用于获取目标产品对应的历史训练样本集和预设的第一基础分类器模型;其中,所述历史训练样本集包括第一有标签样本和无标签样本,所述第一有标签样本为因质量问题收到退货的样本,所述第一有标签样本对应的标签为质量不达标,所述无标签样本为未因质量问题收到退货的样本;
标签增加单元,用于对所述历史训练样本集中,所述历史训练样本集中包含的所述第一有标签样本的数量相同的所述无标签样本增加质量达标标签,得到第二有标签样本;
数据集构建单元,用于将所述历史训练样本集中所有的所述第一有标签样本,以及所述第二有标签样本作为第一训练数据集,并将所述历史训练样本集中不属于所述第一训练数据集的所有的所述无标签样本作为第二训练数据集;
第一训练单元,用于利用所述第一训练数据集对所述第一基础分类器模型进行训练,得到初始质量分类器;
分类单元,用于利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果;
数据集更新单元,用于根据各所述无标签样本分别对应的质量分类结果确定待添加有标签样本加入所述第一训练数据集中,并从所述第二训练数据集中删除所述待添加有标签样本对应的样本;
第二训练单元,用于利用所述第一训练数据集对所述初始质量分类器进行训练;
确定单元,用于根据预设的迭代停止判断策略确定是否满足停止条件,并在确定不满足停止条件时,返回执行所述利用所述初始质量分类器对所述第二训练数据集进行质量分类,得到所述第二训练数据集中各所述无标签样本分别对应的质量分类结果的步骤;在确定满足停止条件时,将训练后最终得到的所述初始质量分类器确定为第一产品质量预测模型。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976836.4A CN117010752A (zh) | 2023-08-03 | 2023-08-03 | 产品质量预测模型的构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976836.4A CN117010752A (zh) | 2023-08-03 | 2023-08-03 | 产品质量预测模型的构建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117010752A true CN117010752A (zh) | 2023-11-07 |
Family
ID=88570600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976836.4A Pending CN117010752A (zh) | 2023-08-03 | 2023-08-03 | 产品质量预测模型的构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117010752A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649906A (zh) * | 2024-01-30 | 2024-03-05 | 浙江大学 | 一体化铝合金结构件铸造质量预测方法、电子设备、介质 |
-
2023
- 2023-08-03 CN CN202310976836.4A patent/CN117010752A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649906A (zh) * | 2024-01-30 | 2024-03-05 | 浙江大学 | 一体化铝合金结构件铸造质量预测方法、电子设备、介质 |
CN117649906B (zh) * | 2024-01-30 | 2024-04-26 | 浙江大学 | 一体化铝合金结构件铸造质量预测方法、电子设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12001957B2 (en) | Methods and systems for neural architecture search | |
US11631029B2 (en) | Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples | |
US11087245B2 (en) | Predictive issue detection | |
WO2019169719A1 (zh) | 文摘自动提取方法、装置、计算机设备及存储介质 | |
CN110310114B (zh) | 对象分类方法、装置、服务器及存储介质 | |
WO2021089013A1 (zh) | 空间图卷积网络的训练方法、电子设备及存储介质 | |
WO2023116111A1 (zh) | 一种磁盘故障预测方法及装置 | |
CN116596095B (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
AU2017251771B2 (en) | Statistical self learning archival system | |
CN112767106B (zh) | 自动化审计方法、系统、计算机可读存储介质及审计设备 | |
CN117010752A (zh) | 产品质量预测模型的构建方法、装置、设备及存储介质 | |
CN111767216B (zh) | 一种可缓解类重叠问题的跨版本深度缺陷预测方法 | |
CN113541985A (zh) | 物联网故障诊断方法、模型的训练方法及相关装置 | |
CN116452333A (zh) | 异常交易检测模型的构建方法、异常交易检测方法及装置 | |
CN117077018A (zh) | 基于机器学习的数据处理方法、装置及存储介质 | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
US20210125068A1 (en) | Method for training neural network | |
CN112328881A (zh) | 文章推荐方法、装置、终端设备及存储介质 | |
CN116883181A (zh) | 基于用户画像的金融服务推送方法、存储介质及服务器 | |
US12066910B2 (en) | Reinforcement learning based group testing | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
US20230041338A1 (en) | Graph data processing method, device, and computer program product | |
CN114662580A (zh) | 数据分类模型的训练方法、分类方法、装置、设备和介质 | |
CN112085040B (zh) | 对象标签确定方法、装置和计算机设备 | |
CN114610953A (zh) | 一种数据分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |