CN112116185A - 使用历史检验数据的检验风险估计 - Google Patents

使用历史检验数据的检验风险估计 Download PDF

Info

Publication number
CN112116185A
CN112116185A CN201910771218.XA CN201910771218A CN112116185A CN 112116185 A CN112116185 A CN 112116185A CN 201910771218 A CN201910771218 A CN 201910771218A CN 112116185 A CN112116185 A CN 112116185A
Authority
CN
China
Prior art keywords
data
risk
features
plant
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910771218.XA
Other languages
English (en)
Inventor
B·T·阮
V·C·T·阮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspectorio Co ltd
Original Assignee
Inspectorio Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspectorio Co ltd filed Critical Inspectorio Co ltd
Publication of CN112116185A publication Critical patent/CN112116185A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Manufacturing & Machinery (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

提供了使用历史检验数据的检验风险估计。在各种实施例中,接收工厂的未来检验的属性和与未来检验有关的历史数据。从未来检验的属性和历史数据中提取多个特征。将这些多个特征提供给经过训练的分类器。从经过训练的分类器获得指示未来检验的失败的概率的风险得分。

Description

使用历史检验数据的检验风险估计
技术领域
本公开的实施例涉及检验风险估计,并且更具体而言,涉及使用历史检验数据的检验风险估计。
发明内容
根据本公开的实施例,提供了检验风险估计的方法和用于检验风险估计的计算机程序产品。在各种实施例中,接收工厂的未来检验的属性和与未来检验有关的历史数据。从未来检验的属性和历史数据中提取多个特征。向经过训练的分类器提供这些多个特征。从经过训练的分类器获得指示未来检验的失败的概率的风险得分。
在各种实施例中,预处理历史数据。在各种实施例中,预处理数据包括聚合历史数据。在各种实施例中,预处理数据还包括过滤数据。
在各种实施例中,数据还包括工厂的性能历史。在各种实施例中,数据还包括工厂的地理信息。在各种实施例中,数据还包括基础真实(ground truth)风险得分。在各种实施例中,数据还包括工厂的产品数据。在各种实施例中,数据跨越预定时间窗口。
在各种实施例中,向经过训练的分类器提供多个特征包括将多个特征发送到远程风险预测服务器,以及从经过训练的分类器获得风险得分包括从风险预测服务器接收风险得分。
在各种实施例中,提取多个特征包括移除与目标变量具有低相关性的特征。在各种实施例中,提取多个特征包括应用维数减少算法。在各种实施例中,从数据中提取多个特征包括应用人工神经网络。在各种实施例中,应用人工神经网络包括接收第一特征向量作为输入,并输出第二特征向量,该第二特征向量具有比该第一特征向量更低的维数。
在各种实施例中,向用户提供风险得分。在各种实施例中,向用户提供风险得分包括将风险得分发送到移动或web应用。在各种实施例中,所述发送经由广域网执行。
在各种实施例中,经过训练的分类器包括人工神经网络。在各种实施例中,经过训练的分类器包括支持向量机。在各种实施例中,从经过训练的分类器获得风险得分包括应用梯度增强(boosting)算法。
在各种实施例中,风险得分通过线性映射与概率有关。
在各种实施例中,通过将风险得分与基础真实风险得分进行比较来测量经过训练的分类器的性能,并且根据该性能来优化经过训练的分类器的参数。在各种实施例中,优化经过训练的分类器的参数包括修改经过训练的机器学习模型的超参数(hyperparameter)。在各种实施例中,优化经过训练的分类器的参数包括用第二机器学习算法替换第一机器学习算法,该第二机器学习算法包括被配置为改进经过训练的分类器的性能的超参数。
附图说明
图1是根据本公开的实施例的用于检验风险估计的示例性系统的示意图。
图2图示了根据本公开的实施例的用于检验风险估计的过程。
图3图示了根据本公开的实施例的用于训练检验风险估计系统的过程。
图4图示了根据本公开的实施例的用于更新检验风险估计系统的过程。
图5图示了根据本公开的实施例的用于训练检验风险估计系统的过程。
图6图示了根据本公开的实施例的用于训练检验风险估计系统的过程。
图7图示了根据本公开的实施例的用于训练检验风险估计系统的过程。
图8描绘了根据本公开的实施例的计算节点。
具体实施方式
检验通常在工厂中进行,以确保质量控制和遵守协议。在检验日期之前估计特定检验失败的风险允许工厂及其业务伙伴能够基于估计的风险来实现动态质量控制程序。
本公开提供了一种框架,用于在检验日期之前使用历史检验数据和机器学习方法来估计检验失败的风险。
在本公开的实施例中,通过获得与检验有关的数据、从数据中提取多个特征、将特征提供给经过训练的分类器以及从经过训练的分类器获得指示检验可能通过或失败的概率的风险得分,执行检验风险估计。在一些实施例中,生成特征向量并将其输入到经过训练的分类器中,在一些实施例中经过训练的分类器包括机器学习模型。
在本公开的实施例中,可以获得以各种格式的数据。数据可以是结构化的或非结构化的,并且可以包括存储在多个介质中的信息。数据可以被手动输入计算机,或者可以通过计算机从文件中自动获得。将认识到的是,已知多种方法用于经由计算机获得数据,包括但不限于使用光学字符识别、文本解析技术(例如,使用正则表达式查找键/值对)和/或自然语言处理来解析书面文档或文本文件,抓取(scraping)网页和/或从数据库(例如,关系数据库)、XML文件、CSV文件或JSON对象获得各种测量的值。
在一些实施例中,工厂或检验数据可以直接从检验管理系统或包括数据库的其它系统获得。在一些实施例中,检验管理系统被配置为存储与工厂和/或检验有关的信息。检验管理系统可以收集和存储与工厂和检验有关的各种类型的信息,诸如与购买订单、检验预订、指派、报告、校正和预防措施(CAPA)、检验结果以及检验期间获得的其它数据有关的信息。将认识到的是,大量数据可以是可得的,并且在一些实施例中,仅可得数据的子集被用于输入到预测模型中。数据的子集可以包含足够数目的属性以成功预测检验结果。
如本文所使用的,检验预订是指在建议的日期进行未来检验的请求。检验预订可以由供应商、品牌或零售商发起,并且可以包含与未来检验对应的购买订单的信息。如本文所使用的,指派是指确认的检验预订。指派可以包含对检验预订的建议日期的确认,以及指派的检验员的标识和与预订有关的信息。
可以经由数据管道获得数据,该数据管道从工厂和检验数据的各种源收集数据。数据管道可以经由应用编程接口(API)实现,其具有访问和获得期望的数据并计算数据的各种特征的许可。API可以面向内部,例如它可以提供对包含工厂或检验数据的内部数据库的访问,或者API可以面向外部,例如它可以提供对来自外部品牌、零售商或工厂的工厂或检验数据的访问。在一些实施例中,数据由希望从预测模型获得预测结果的实体提供。所提供的数据可以被输入到模型中以便获得预测结果,并且还可以被存储以训练和测试各种预测模型。
还可以聚合工厂和检验数据,并且可以对数据执行统计分析。根据本公开的实施例,数据可以以各种方式聚合和分析,这些方式包括但不限于添加在给定时间窗口(例如,7天、14天、30天、60天、90天、180天或一年)内的给定测量的值,获得在给定时间窗口内的给定测量的值的分布的最大值和最小值、平均值、中值和众数,以及获得数据当中的某些值或值范围的流行率(prevalence)的测度。对于数据的任何特征或测量,还可以测量在给定时间窗口内的特征或测量的分布的方差、标准差、偏度、峰度、超偏度(hyperskewness)、超尾度(hypertailedness)和各种百分位值(例如,5%、10%、25%、50%、75%、90%、95%、99%)。
还可以在聚合或执行统计的或聚合的分析之前过滤数据。可以通过某些特点来聚合数据,并且可以对具有这些特点的数据子集执行统计分析。例如,对于仅与通过或失败的检验有关的、与生产过程中(DUPRO)检验有关的或者与超过最小样本尺寸的检验有关的数据,可以计算上述度量。
还可以对由先前的聚合或统计分析产生的数据执行聚合和统计分析。例如,可以在多个连续时间窗口上测量给定时间段内给定测量的统计值,并且可以分析结果所得的值以获得关于它们随时间的变化的值。例如,可以针对各种连续的7天窗口计算工厂的平均检验失败率,并且可以在7天窗口上测量平均失败率的改变。
在本公开的实施例中,检验数据包括与检验的结果相关的信息(例如,检验是否通过)。用于预测检验的结果的合适数据的示例包括:从在进行将来检验的同一工厂处的先前检验获得的数据、从其它工厂处的检验获得的数据、从具有与未来检验的主体类似的产品或产品线的其它工厂处的检验获得的数据、跨多个检验从工厂获得的数据、未来检验预订的属性(例如,地理位置、时间、执行检验的实体和/或检验的类型)、与工厂的业务运营有关的数据、与工厂的产品质量有关的数据、关于工厂的一般信息、与该工厂或其它类似工厂的可持续性有关的数据和/或与该工厂或其它类似工厂的性能有关的数据。数据可以包括过去检验的结果(例如,检验是否通过)。数据可以包括从与该工厂生产的产品或产品线类似的产品或产品线的客户评论和/或在该工厂处起源的产品或产品线的客户评论获得的信息。将认识到的是,对于某些度量,工厂可以被分成工厂内的各种部门,其中每个部门获得不同的度量。
与未来检验有关的数据的示例包括:在工厂下的订单的数目、订单的数量(quantity)、订单的质量、订单的货币价值、关于订单的一般信息、工厂处的每个产品的描述(例如,产品的库存单位(SKU)、尺寸、样式、颜色、数量和包装方法)、工厂的财务绩效、工厂处的被检验项的数目、在程序(诸如做工、包装和测量)的检验期间工厂处的被检验项的数目、关于工厂处的过程的可接受质量限制(AQL)的信息(例如,用于测试质量的采样数目)、工厂处的过去检验的检验结果、产品/产品线的过去检验的检验结果、具有类似产品的其它工厂处的检验结果、工厂的商业伙伴处的过去检验的检验结果、检验的过程中收集的各种度量的值、工厂的地理位置、工厂的规模、工厂的工作条件和工作时间、检验的时间和日期、检验机构、执行检验的各个机构,以及上面提到的数据的聚合和统计度量。
如本文所使用的,产品或产品线的样式是指基于对应设计的项的独特外观。样式可以在特定品牌、零售商或工厂内具有唯一标识(ID)。样式ID可以用作识别特征,通过该识别特征可以聚合其它测量,以便提取与检验结果和风险计算有关的有意义的特征。
将认识到的是,可以通过各种方法(诸如手动特征提取)提取大量特征,从而从获得的数据中计算或者提取与目标变量(例如,未来检验的结果)具有显著相关性的特征。特征可以直接从数据中提取,或者可能需要处理和/或进一步计算,以便以可提取期望的度量的方式格式化。例如,考虑到去年工厂处的各种检验的结果,人们可能希望计算在该时间段内失败的检验的百分比。在一些实施例中,提取特征产生特征向量,该特征向量可以通过应用维数减少算法(诸如主成分分析和线性判别分析)或将特征向量输入神经网络来预处理,从而减小向量的尺寸并改善整个系统的性能。
在一些实施例中,经过训练的分类器是随机决策森林。但是,将认识到的是,根据本公开,各种其它分类器也适合使用,包括线性分类器、支持向量机(SVM)、梯度增强分类器或神经网络(诸如卷积神经网络(CNN)或递归神经网络(RNN))。
合适的人工神经网络包括但不限于前馈神经网络、径向基函数网络、自组织映射、学习向量量化、递归神经网络、Hopfield网络、Boltzmann机器、回声状态网络、长期短期记忆、双向递归神经网络、分层递归神经网络、随机神经网络、模块化神经网络、关联神经网络、深度神经网络、深度置信网络、卷积神经网络、卷积深度置信网络、大型记忆存储和检索神经网络、深层Boltzmann机器、深层堆叠网络、张量深层堆叠网络、尖峰(spike)和板块(slab)限制Boltzmann机器、复合分层深度模型、深度编码网络、多层内核机器或深层Q网络。
在一些实施例中,估计的风险得分包括规定的范围内的值,例如,范围[0,100]中的值。例如,具有从未使检验失败的完美性能的工厂处的未来检验可以达到得分0,指示几乎肯定会通过,而具有使每次检验都失败的不良性能的工厂处的未来检验可以达到得分100,指示几乎肯定会失败。在一些实施例中,可以将估计的风险得分与阈值进行比较,并且可以生成二元值,该二元值指示检验是否可能通过(例如,如果得分低于阈值则为0,否则为1)。阈值可以被试探性地选择,或者可以在机器学习模型的训练期间自适应地计算。在一些实施例中,确定风险得分被变换为二元分类问题。
可以针对新数据测试根据本公开的实施例的机器学习模型的性能,并且可以更新机器学习模型以便改进其性能。在一些实施例中,更新机器学习模型包括修改模型的超参数。在一些实施例中,更新机器学习模型包括使用与当前在模型中使用的机器学习方法不同的机器学习方法,并修改不同机器学习方法的超参数,以便达到期望的性能。
在本公开的实施例中,来自在给定时间窗口期间的多次检验的历史检验数据被用于估计使特定检验失败的风险。将认识到的是,可以使用各种时间窗口,例如,三个月、六个月、九个月或一年。在一些实施例中,估计可以以规律的频率(例如,每周、每两周或每月)更新。获得检验的更新的风险估计将有助于零售商和制造商在预计检验时降低他们的潜在风险。
在一些实施例中,预测的风险结果被转换成二元输出,该二元输出指示检验是否可能通过或失败。
在本公开的实施例中,通过组装包括在各种时间窗口期间的检验的历史数据的训练数据集以及这些检验在它们各自的时间窗口内的对应性能结果来训练包括分类器的机器学习模型。在一些实施例中,检验数据还包括与其中发生检验的工厂有关的数据,诸如与工厂处的先前检验有关的数据、工厂的性能或与工厂有关的一般信息,如上面所讨论的。在一些实施例中,检验被指派指示它们是否可能通过或失败的标签。初始训练数据集从收集的数据生成,并且可以向该初始训练数据集应用机器学习技术,以生成用于预测检验风险的最优模型。将认识到的是,检验风险预测可以被变换为二元分类问题,其中给定检验被分类为很有可能或者通过或者失败。
在一些实施例中,训练机器学习模型包括从初始训练数据集中提取特征。在一些实施例中,要提取的所挑选的特征与目标变量具有高相关性。在一些实施例中,减少特征的数目,以便降低训练和部署风险估计模型中的计算成本。在一些实施例中,在训练数据集上测试多个机器学习方法和分类方法,并且选择具有最期望的性能的模型用于在风险估计模型中进行部署。将认识到的是,各种机器学习算法可以被用于风险评估,包括逻辑回归模型、随机森林、支持向量机(SVM)、深度神经网络或增强方法(例如,梯度增强、Catboost)。可以学习每个模型的超参数以达到期望的性能。例如,在一些实施例中,数据科学技术研究所(iDST)框架可被用于超参数调整。将认识到的是,机器学习模型的性能可以通过不同的度量来测量。在一些实施例中,用于测量机器学习模型的性能的度量包括准确度、精度、召回率、AUC和/或F1得分。
在本公开的实施例中,学习用于各种机器学习风险估计模型的超参数,并且测量每个模型的性能。在一些实施例中,用于测量机器学习模型的性能的度量包括准确度、精度、召回率、AUC和/或F1得分。在一些实施例中,初始数据集被分成三个子集:训练数据集、验证数据集和测试数据集。
在一些实施例中,60%的初始数据集被用于训练数据集,20%被用于验证数据集,并且剩余的20%被用于测试数据集。在一些实施例中,交叉验证技术被用于估计每个风险估计模型的性能。可以通过使所挑选的风险预测模型经受新的检验数据来验证性能结果。
将认识到的是,预测使检验失败的风险对于达到动态的基于风险的质量控制是有用的。例如,给定特定检验的风险,可以基于或者工厂或者工厂的业务伙伴的要求自动生成具体的检验工作流程或模板。计算出的风险可以被应用于样式或购买订单的关键的路径或时间和行动计划,以便修改所需的检验的数目。基于特定检验的风险的计算出的水平,检验团队可以评估他们应当放弃还是确认检验预订。还可以充分利用估计的风险来确定检验的性质。例如,对于具有高失败风险的检验,检验可以经由内部独立的团队进行,而低风险检验可能由负责工厂性能的人员自己执行检验。
现在参考图1,示出了根据本公开的实施例的用于检验风险估计的示例性系统的示意图。提供检验预订ID 102,并且从包括历史检验数据的检验数据库112中提取有关特征104。提取出的特征可以由特征向量表示。特征向量可以在被输入到检验风险预测服务器106之前进行预处理。获得估计的预测结果108。在一些实施例中,预处理特征向量包括将维数减少技术(诸如主成分分析或线性判别分析)应用于向量。估计的预测结果可以包括指示检验可能通过还是失败的二元值。在一些实施例中,估计的预测结果包括规定的范围内的值,例如,范围[0,100]中的值。有关特征104可以从工厂、从检验数据库112或从源的任意组合获得。有关特征可以包括与其中将进行未来检验的工厂处的检验有关的数据、与工厂的性能有关的数据、一般而言与工厂有关的数据、与被检验的产品有关的数据或与检验预订有关的数据,如上面所讨论的。有关特征也可以特定于将要对其进行检验的产品的类型,或产品的具体产品线。在一些实施例中,估计的预测结果108被发送到移动或web应用110,其中它可以被用于进一步的分析或决策。移动应用可以在智能电话、平板电脑或其它移动设备上实现,并且可以在各种操作系统(例如iOS、Android或Windows)上运行。在各种实施例中,估计的预测结果108经由广域网被发送到移动或web应用110。
现在参考图2,示出了根据本公开的实施例的用于检验风险估计的过程。检验预订201被输入到检验风险预测系统202中,以获得预测的检验结果206。在一些实施例中,检验风险预测系统202采用机器学习模型来估计与检验相关联的失败风险。在一些实施例中,检验风险预测系统202被部署在服务器上。在一些实施例中,服务器是远程服务器。在一些实施例中,检验风险估计过程200包括执行数据处理步骤203以收集和处理与检验预订201有关的数据。数据处理可以包括聚合数据、获得数据的统计度量以及以可以从中提取特征的方式格式化数据的各种形式。在一些实施例中,数据是从各种源获得的。在一些实施例中,过程200包括对收集的数据执行特征提取步骤204以提取各种特征。在一些实施例中,对已在步骤203处处理的数据执行特征提取步骤204。在一些实施例中,输出特征向量。在一些实施例中,在205处将在204处提取出的特征输入到经过训练的分类器中。在一些实施例中,分类器包括经过训练的机器学习模型。在一些实施例中,分类器输出预测结果206。在一些实施例中,步骤203、204和205由检验风险预测系统202执行。过程200的步骤可以在检验现场本地执行、可以由远程服务器(例如,云服务器)执行或者可以在本地计算设备和远程服务器之间共享。在一些实施例中,预测结果206包括指示检验是否可能失败的二元值。
现在参考图3,示出了根据本公开的实施例的用于训练检验风险估计系统的过程。可以执行过程300的步骤以训练检验风险估计模型。在一些实施例中,模型被部署在预测服务器上。过程300的步骤可以在工厂现场本地执行、可以由远程服务器(例如,云服务器)执行或者可以在本地计算设备和远程服务器之间共享。在302处,创建初始训练数据集。在一些实施例中,训练数据集可以包括来自多个工厂的大量过去检验的数据,以及检验的结果(例如,通过或失败)。数据集可以包括与在其处进行检验的工厂和/或对其进行检验的产品或产品线有关的数据,并且可以包括与在先前检验的过程中进行的各种测量对应的各种值。在一些实施例中,检验数据和对应的检验结果被加时间戳。在一些实施例中,所获得的数据可以在给定的时间长度或给定数目的检验上聚合。在一些实施例中,仅从给定时间窗口期间的检验中收集所获得的数据。在一些实施例中,可以获得工厂和检验结果的列表,其中检验结果是针对检验数据的标签。
在304处,检验风险预测被公式化为二元分类问题,其中给定检验被分类为或者被预测为通过或者被预测为失败。在一些实施例中,如果检验被预测为通过,那么将标签1指派给该检验,并且如果检验被预测为失败,那么指派标签0。
然后从初始训练数据集中提取有用的特征。提取出的特征可以与不同的时间窗口(例如,三个月、六个月、九个月或一年)对应。计算每个特征在估计检验的最终风险结果中的重要性。在一些实施例中,通过测量特征与目标标签(例如,检验结果)的相关性来计算每个特征的重要性。在306处,在训练数据集上训练多个机器学习模型,并评价每个模型的性能。将认识到的是,除了上面描述的那些,可接受的机器学习模型还包括Catboost分类器、神经网络(例如,具有4个完全连接的隐藏层和ReLU激活函数的神经网络)、决策树、极端增强机器、随机森林分类器、SVM以及逻辑回归。可以调整每个模型的超参数以优化模型的性能。在一些实施例中,用于测量机器学习模型的性能的度量包括准确度、精度、召回率、AUC或F1得分。挑选对执行期望的估计最有用的特征。在308处,比较机器学习模型的性能。在310处选择具有最佳性能的模型。在一些实施例中,输出预测计算中使用的特征的最终列表。在312处,将所选择的模型部署到预测服务器上。
现在参考图4,示出了根据本公开的实施例的用于更新检验风险估计系统的过程。在过程400的一些实施例中,更新现有检验风险预测模型。在一些实施例中,更新预测模型包括输入新数据并相应地修改学习系统的参数,以改善系统的性能。在一些实施例中,可以选择新的机器学习模型来执行估计。检验风险预测模型可以以规律的间隔(例如每月、每两个月或每季度)更新,或者可以在累积一定量的新数据时更新。将认识到的是,与现有方法相比,更新后的风险估计系统提供更准确的风险估计。
在一些实施例中,多个检验的新数据和检验结果420从检验管理平台410收集,并且被用于为每个检验生成具有与数据对应的标签的新数据集。检验管理平台410可以包括数据库,该数据库包含多个过去检验的检验数据和检验结果。新数据和检验结果420可以包括关于先前预测的客户反馈,并且可以包括基础真实风险评分以及针对预测的经校正的结果,该基础真实风险评分包括先前预测的准确度的指示(诸如由预测模型做出的哪些预测是不正确的)。将认识到的是,新数据集可以以与上述的初始数据集类似的方式构造。在一些实施例中,新数据集与现有训练数据集430进行组合,以创建新训练数据集440。在一些实施例中,在新训练数据集上测量最新版本的经过训练的风险预测模型499(包括检验风险预测器450)的性能。在一些实施例中,如果最新版本的经过训练的风险预测模型499和预测器450的性能低于某个阈值,那么可以在470处执行特征重新设计(re-engineering)步骤460和/或应用新机器学习模型480,以重新训练预测模型。阈值可以被试探性地选择,或者可以在训练期间自适应地计算。
将认识到的是,在470处重新训练预测模型的方法可以类似于在训练检验风险估计系统中使用的方法,如上所述。重新训练预测模型的过程可以重复多次,直到模型在新训练数据集上的性能达到可接受的阈值。在一些实施例中,在490处利用在470处训练的新模型更新最新版本的经过训练的风险预测模型499。然后可以将更新后的风险预测模型部署在预测服务器495上。还可以更新现有训练数据集430以反映新获得的数据。
现在参考图5-7,示出了根据本公开的实施例的用于训练检验风险估计系统的各种过程。在本公开的各种实施例中,生成经过训练的风险估计系统包括四个主要步骤:数据收集、特征提取、模型训练和风险预测。在一些实施例中,数据收集包括使用上述方法创建初始训练数据集。在一些实施例中,特征提取包括从初始训练数据集中提取多个有用特征。提取出的特征可以是可以从初始训练数据集提取的大量特征的子集。在一些实施例中,测量每个特征对风险预测计算的重要性。在一些实施例中,与预测计算关联性最小的特征不在风险预测模型中使用。在一些实施例中,提取固定数目的特征。在一些实施例中,确定特征与预测计算的关联性包括测量特征与风险预测结果的相关性。在一些实施例中,可以将维数降低技术(例如,主成分分析或线性判别分析)应用于提取出的特征。在一些实施例中,特征提取步骤包括手动特征提取。模型训练包括在提取出的特征上测量多个机器学习模型的性能。可以挑选具有最期望的性能的模型来执行风险预测。
现在参考图5,示出了根据本公开的实施例的用于训练检验风险估计系统的过程。在一些实施例中,对包括与检验预订有关的数据的初始训练数据集501执行手动特征提取502。可以基于在具体时间窗口(例如,一年)期间的检验数据提取特征。在一些实施例中,从特征提取步骤生成与每个检验的数据对应的特征向量。在一些实施例中,标签被指派给每个特征向量。在一些实施例中,标签是从初始训练数据集501获得的。在一些实施例中,标签是指示检验是通过还是失败的二元值。在一些实施例中,检验的风险估计被变换为二元分类问题,其中检验可以被分类为通过或失败。在503处,可以在初始训练数据集上测试各种机器学习模型(例如,支持向量机、决策树、随机森林或神经网络)和增强方法(例如,Catboost或XGBoost)。
在训练各种机器学习模型和增强方法时,初始训练数据集可以被划分为训练数据集和测试数据集。例如,初始训练数据集的80%可以被用于创建训练数据集,剩余的20%可以被用于形成测试数据集。在一些实施例中,初始训练数据集可以被划分为训练数据集、测试数据集和验证数据集。在一些实施例中,调整机器学习模型和增强方法的超参数以达到最期望的性能。然后可以挑选具有最期望的性能的模型以提供对输入检验数据的风险估计。在一些实施例中,将所挑选的模型部署到预测服务器上以提供未来的风险预测。
在本公开的一些实施例中,根据检验数据计算特征向量。将特征向量输入到风险预测模型中,并输出预测的失败概率。可以将概率与给定阈值进行比较,以确定检验是否应该被分类为通过。在一些实施例中,如果预测的概率大于或等于阈值,那么检验被认为可能通过。在一些实施例中,基于计算出的概率获得风险得分。在一些实施例中,风险得分包括预定范围(例如[0,100])内的值。在一些实施例中,测试风险预测模型包括将预测的检验结果与已知数据进行比较。
在一些实施例中,使用以下程序基于计算出的概率p获得风险得分R:
选择限定风险得分的上限和下限的范围[A,B]。例如,可以认为风险得分R在范围[0,100]内,其中R=0表示检验的最低可能风险(例如,检验几乎肯定通过),并且R=100表示检验的最高可能风险(例如,检验几乎肯定会失败)。假设预测概率p在单位区间[1,0]内,那么可以确定映射F以将预测概率指派给对应的风险得分R:
F:[0,1]→[A,B]
公式1
对于给定的p,
F(p)=p→R
公式2
选择F使得F(0)=A并且F(1)=B。例如,可以使用线性映射:
F(p)=A×p+(1-p)×B
公式3
现在参考图6,示出了根据本公开的实施例的用于训练检验风险估计系统的过程。在一些实施例中,使用手动特征提取602从检验数据601获得特征。将认识到的是,特征提取可以产生每次检验的大量提取出的特征,并因此产生大的特征向量。提取出的特征的数目可以以百计数。减小特征向量的维数可以导致预测模型的更高效的训练、部署和操作。在一些实施例中,通过计算每个特征与目标变量的相关性,并且仅保持与目标变量具有高相关性的那些特征,在603处减小特征向量的维数。在一些实施例中,通过将维数减少算法(诸如主成分分析(PCA)或线性判别分析(LDA))应用于向量,在603处减小特征向量的维数。在一些实施例中,在604处针对多个检验的结果所得的较小维数向量中的计算的特征被输入到各种机器学习和/或梯度增强模型中,并且挑选具有最期望的性能的模型,如上所述。
现在参考图7,示出了根据本公开的实施例的用于训练检验风险估计系统的过程。在一些实施例中,使用手动特征提取702从检验数据701获得特征。在一些实施例中,特征提取步骤产生特征向量。在一些实施例中,特征向量在703处被输入到神经网络中。在一些实施例中,神经网络包括深度神经网络。在一些实施例中,神经网络包括输入层、多个完全连接的隐藏层,以及稍后具有预定激活函数的输出。在一些实施例中,激活函数包括ReLU或S形激活函数,但是将认识到的是,各种激活函数可以是合适的。神经网络的输出可以被认为是新的特征向量,并且可以使用与上述类似的步骤在704处输入到各种机器学习模型中。在一些实施例中,新特征向量具有比输入特征向量更小的维数。
表1列出了可以使用上述方法从检验数据中提取的多个特征。在各种示例性实施例中,应用对决策树的梯度增强,例如使用catboost。这些特征可以与目标变量具有高相关性。要注意的是,标有星号(*)的特征可以在确认检验预订后立即被计算并成为指派。
Figure BDA0002173610450000151
Figure BDA0002173610450000161
表1
将认识到的是,根据本公开可以使用各种附加特征和统计测度。
现在参考图8,示出了计算节点的示例的示意图。计算节点10仅是合适的计算节点的一个示例,并且不旨在暗示关于本文描述的实施例的使用范围或功能的任何限制。无论如何,计算节点10都能够实现和/或执行上文阐述的任何功能。
在计算节点10中,存在计算机系统/服务器12,其可与众多其它通用或专用计算系统环境或配置一起操作。可适于与计算机系统/服务器12一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统﹑大型计算机系统和包括任意上述系统或设备的分布式云计算技术环境,等等。
计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。一般而言,程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在分布式云计算环境中实践,其中由通过通信网络链接的远程处理设备执行任务。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地或远程计算机系统存储介质二者上。
如图8所示,计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16、系统存储器28、将包括系统存储器28的不同系统组件耦合到处理单元16的总线18。
总线18表示若干类型的总线结构中的任意一种或多种,包括存储器总线或者存储器控制器、外围总线、加速图形端口、处理器或者使用各种总线结构中的任意总线结构的局部总线。作为示例而非限制,这些体系结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MAC)总线、增强型ISA总线、视频电子标准协会(VESA)局部总线、外围组件互连(PCI)总线、外围组件互连高速(PCIe)和先进微控制器总线体系架构(AMBA)。
计算机系统/服务器12典型地包括各种计算机系统可读介质。这些介质可以是由计算机系统/服务器12访问的任意可得介质,包括易失性和非易失性介质、可移除的和不可移除的介质。
系统存储器28可以包括以易失性存储器的形式的计算机系统可读介质,诸如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12还可以包括其它可移除/不可移除的、易失性/非易失性的计算机系统存储介质。仅作为示例,可以提供用于从不可移除的非易失性磁介质(未示出,并且通常被称为“硬盘驱动器”)读取以及向不可移除的非易失性磁介质写入的存储系统34。虽然未示出,可以提供用于从可移除的非易失性磁盘(例如“软盘”)读取以及向可移除的非易失性磁盘写入的磁盘驱动器,以及用于从可移除的非易失性光盘(诸如CD-ROM、DVD-ROM或者其它光介质)读取以及向可移除的非易失性光盘写入的光盘驱动器。在这些情况下,每个都可以通过一个或者多个数据介质接口连接到总线18。如下文将进一步描绘和描述的,存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开的实施例的功能。
通过示例而非限制,具有一组(至少一个)程序模块42的程序/实用程序40以及操作系统、一个或者多个应用程序、其它程序模块以及程序数据可被存储在存储器28中。操作系统、一个或多个应用程序、其它程序模块以及程序数据或其某个组合中的每一个都可以包括网络环境的实现。程序模块42一般执行如本文所描述的实施例中的功能和/或方法。
计算机系统/服务器12还可以与一个或多个外部设备14(诸如键盘、指示设备、显示器24等)、使用户能够与计算机系统/服务器12交互的一个或多个设备和/或使计算机系统/服务器12能够与一个或多个其它计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这种通信可以经由输入/输出(I/O)接口22发生。还有,计算机系统/服务器12可以经由网络适配器20与一个或多个网络(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网))进行通信。如所描绘的,网络适配器20经由总线18与计算机系统/服务器12的其它组件通信。应当理解的是,虽然未示出,但是其它硬件和/或软件组件可以与计算机系统/服务器12结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部盘驱动器阵列、RAID系统、磁带驱动器和数据存档存储系统等。
本公开可以被实施为系统、方法和/或计算机程序产品。该计算机程序产品可以包括(一个或多个)计算机可读存储介质,其上具有计算机可读程序指令,用于使处理器执行本公开的方面。
计算机可读存储介质可以是可以保持和存储用于由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如(但不限于)电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的示例的非穷举的列表包括以下:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如其上存储有指令的打孔卡或凹槽内凸起结构)以及上述的任意合适的组合。如本文所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络(例如互联网、局域网、广域网和/或无线网)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或者网络接口从网络接收计算机可读程序指令,并转发这些计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、依赖机器的指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的或者源代码或者目标代码,这些编程语言包括面向对象的编程语言(诸如Smalltalk、C++等)以及常规过程式编程语言(诸如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者,可以连接到外部计算机(例如使用互联网服务提供商通过互联网)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,以便执行本公开的方面。
本文参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的方面。将理解的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器以生产出机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/行为的装置。这些计算机可读程序指令也可被存储在计算机可读存储介质中,这些计算机可读程序指令可以指导计算机、可编程数据处理装置和/或其它设备以特定方式工作,从而,其中存储有指令的计算机可读介质包括制造品,该制造品包括实现流程图和/或框图中的一个或多个方框中规定的功能/行为的方面的指令。
计算机可读程序指令也可被加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程装置或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/行为。
图中的流程图和框图显示了根据本公开的各个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表模块、段或指令的一部分,该模块、段或指令的一部分包含用于实现规定的(一个或多个)逻辑功能的一个或多个可执行指令。在一些替换的实现中,方框中所标注的功能也可以以不同于图中所标注的顺序发生。例如,取决于所涉及的功能,两个连续的方框实际上可以基本并行地执行,或者这些方框有时也可以按相反的顺序执行。还将注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以由执行规定的功能或行为的或执行专用硬件与计算机指令的组合的基于专用硬件的系统来实现。
对本公开的各种实施例的描述已经出于说明的目的给出,但是并不旨在是详尽的或限制于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说将是显然的。选择本文使用的术语,以最好地解释实施例的原理、实际应用或对市场中发现的技术的技术改进,或者使本领域其他技术人员能够理解本文公开的实施例。
1、一种系统,包括:
计算节点,所述计算节点包括计算机可读存储介质,所述计算机可读存储介质具有利用所述计算机可读存储介质实施的程序指令,所述程序指令能够由计算节点的处理器执行以使处理器执行方法,包括:
接收工厂的未来检验的属性;
接收与未来检验有关的历史数据;
从未来检验的属性和历史数据中提取多个特征;
向经过训练的分类器提供所述多个特征;
从经过训练的分类器获得指示未来检验的失败的概率的风险得分。
2、如项目1所述的系统,所述方法还包括预处理历史数据。
3、如项目2所述的系统,其中预处理数据包括聚合历史数据。
4、如项目3所述的系统,其中预处理数据还包括过滤数据。
5、如项目1所述的系统,其中数据还包括工厂的性能历史。
6、如项目1所述的系统,其中数据还包括工厂的地理信息。
7、如项目1所述的系统,其中数据还包括基础真实风险得分。
8、如项目1所述的系统,其中数据还包括工厂的产品数据。
9、如项目1所述的系统,其中历史数据跨越预定的时间窗口。
10、如项目1所述的系统,其中
向经过训练的分类器提供所述多个特征包括将所述多个特征发送到远程风险预测服务器,以及
从经过训练的分类器获得风险得分包括从风险预测服务器接收风险得分。
11、如项目1所述的系统,其中提取所述多个特征包括移除与目标变量具有低相关性的特征。
12、如项目1所述的系统,其中提取所述多个特征包括应用维数减少算法。
13、如项目1所述的系统,其中从历史数据中提取所述多个特征包括应用人工神经网络。
14、如项目13所述的系统,其中应用人工神经网络包括接收第一特征向量作为输入,并输出第二特征向量,所述第二特征向量具有比所述第一特征向量更低的维数。
15、如项目1所述的系统,所述方法还包括:
向用户提供风险得分。
16、如项目15所述的系统,其中向用户提供风险得分包括将风险得分发送到移动或web应用。
17、如项目16所述的系统,其中所述发送是经由广域网执行的。
18、如项目1所述的系统,其中经过训练的分类器包括人工神经网络。
19、如项目1所述的系统,其中经过训练的分类器包括支持向量机。
20、如项目1所述的系统,其中获得风险得分包括应用梯度增强算法。
21、如项目1所述的系统,其中风险得分通过线性映射与概率有关。
22、如项目1所述的系统,其中所述方法还包括:
通过将风险得分与基础真实风险得分进行比较,测量经过训练的分类器的性能;
根据性能优化经过训练的分类器的参数。
23、如项目22所述的系统,其中优化经过训练的分类器的参数包括修改经过训练的机器学习模型的超参数。
24、如项目23所述的系统,其中优化经过训练的分类器的参数包括用第二机器学习算法替换第一机器学习算法,所述第二机器学习算法包括被配置为改进经过训练的分类器的性能的超参数。
25、一种方法,包括:
接收工厂的未来检验的属性;
接收与未来检验有关的历史数据;
从未来检验的属性和历史数据中提取多个特征;
向经过训练的分类器提供所述多个特征;
从经过训练的分类器获得指示未来检验的失败的概率的风险得分。
26、如项目25所述的方法,还包括预处理历史数据。
27、如项目26所述的方法,其中预处理数据包括聚合历史数据。
28、如项目27所述的方法,其中预处理数据还包括过滤数据。
29、如项目25所述的方法,其中数据还包括工厂的性能历史。
30、如项目25所述的方法,其中数据还包括工厂的地理信息。
31、如项目25所述的方法,其中数据还包括基础真实风险得分。
32、如项目25所述的方法,其中数据还包括工厂的产品数据。
33、如项目25所述的方法,其中历史数据跨越预定的时间窗口。
34、如项目25所述的方法,其中
向经过训练的分类器提供所述多个特征包括将所述多个特征发送到远程风险预测服务器,以及
从经过训练的分类器获得风险得分包括从风险预测服务器接收风险得分。
35、如项目25所述的方法,其中提取所述多个特征包括移除与目标变量具有低相关性的特征。
36、如项目25所述的方法,其中提取所述多个特征包括应用维数减少算法。
37、如项目25所述的方法,其中从历史数据中提取所述多个特征包括应用人工神经网络。
38、如项目37所述的方法,其中应用人工神经网络包括接收第一特征向量作为输入,并输出第二特征向量,所述第二特征向量具有比所述第一特征向量更低的维数。
39、如项目25所述的方法,还包括:
向用户提供风险得分。
40、如项目39所述的方法,其中向用户提供风险得分包括将风险得分发送到移动或web应用。
41、如项目40所述的方法,其中所述发送是经由广域网执行的。
42、如项目25所述的方法,其中经过训练的分类器包括人工神经网络。
43、如项目25所述的方法,其中经过训练的分类器包括支持向量机。
44、如项目25所述的方法,其中获得风险得分包括应用梯度增强算法。
45、如项目25所述的方法,其中风险得分通过线性映射与概率有关。
46、如项目25所述的方法,还包括:
通过将风险得分与基础真实风险得分进行比较,测量经过训练的分类器的性能;
根据性能优化经过训练的分类器的参数。
47、如项目46所述的方法,其中优化经过训练的分类器的参数包括修改经过训练的机器学习模型的超参数。
48、如项目47所述的方法,其中优化经过训练的分类器的参数包括用第二机器学习算法替换第一机器学习算法,所述第二机器学习算法包括被配置为改进经过训练的分类器的性能的超参数。
49、一种用于检验风险估计的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有利用所述计算机可读介质实施的程序指令,所述程序指令能够由处理器执行以使处理器执行方法,包括:
接收工厂的未来检验的属性;
接收与未来检验有关的历史数据;
从未来检验的属性和历史数据中提取多个特征;
向经过训练的分类器提供所述多个特征;
从经过训练的分类器获得指示未来检验的失败的概率的风险得分。
50、如项目49所述的计算机程序产品,所述方法还包括预处理历史数据。
51、如项目50所述的计算机程序产品,其中预处理数据包括聚合历史数据。
52、如项目51所述的计算机程序产品,其中预处理数据还包括过滤数据。
53、如项目49所述的计算机程序产品,其中数据还包括工厂的性能历史。
54、如项目49所述的计算机程序产品,其中数据还包括工厂的地理信息。
55、如项目49所述的计算机程序产品,其中数据还包括基础真实风险得分。
56、如项目49所述的计算机程序产品,其中数据还包括工厂的产品数据。
57、如项目49所述的计算机程序产品,其中历史数据跨越预定的时间窗口。
58、如项目49所述的计算机程序产品,其中
向经过训练的分类器提供所述多个特征包括将所述多个特征发送到远程风险预测服务器,以及
从经过训练的分类器获得风险得分包括从风险预测服务器接收风险得分。
59、如项目49所述的计算机程序产品,其中提取所述多个特征包括移除与目标变量具有低相关性的特征。
60、如项目49所述的计算机程序产品,其中提取所述多个特征包括应用维数减少算法。
61、如项目49所述的计算机程序产品,其中从历史数据中提取所述多个特征包括应用人工神经网络。
62、如项目61所述的计算机程序产品,其中应用人工神经网络包括接收第一特征向量作为输入,并输出第二特征向量,所述第二特征向量具有比所述第一特征向量更低的维数。
63、如项目49所述的计算机程序产品,所述方法还包括:
向用户提供风险得分。
64、如项目63所述的计算机程序产品,其中向用户提供风险得分包括将风险得分发送到移动或web应用。
65、如项目64所述的计算机程序产品,其中所述发送是经由广域网执行的。
66、如项目49所述的计算机程序产品,其中经过训练的分类器包括人工神经网络。
67、如项目49所述的计算机程序产品,其中经过训练的分类器包括支持向量机。
68、如项目49所述的计算机程序产品,其中获得风险得分包括应用梯度增强算法。
69、如项目49所述的计算机程序产品,其中风险得分通过线性映射与概率有关。
70、如项目49所述的计算机程序产品,其中所述方法还包括:
通过将风险得分与基础真实风险得分进行比较,测量经过训练的分类器的性能;
根据性能优化经过训练的分类器的参数。
71、如项目70所述的计算机程序产品,其中优化经过训练的分类器的参数包括修改经过训练的机器学习模型的超参数。
72、如项目71所述的计算机程序产品,其中优化经过训练的分类器的参数包括用第二机器学习算法替换第一机器学习算法,所述第二机器学习算法包括被配置为改进经过训练的分类器的性能的超参数。

Claims (10)

1.一种系统,包括:
计算节点,所述计算节点包括计算机可读存储介质,所述计算机可读存储介质具有利用所述计算机可读存储介质实施的程序指令,所述程序指令能够由计算节点的处理器执行以使处理器执行方法,包括:
接收工厂的未来检验的属性;
接收与未来检验有关的历史数据;
从未来检验的属性和历史数据中提取多个特征;
向经过训练的分类器提供所述多个特征;
从经过训练的分类器获得指示未来检验的失败的概率的风险得分。
2.如权利要求1所述的系统,所述方法还包括预处理历史数据。
3.如权利要求2所述的系统,其中预处理数据包括聚合历史数据。
4.如权利要求3所述的系统,其中预处理数据还包括过滤数据。
5.如权利要求1所述的系统,其中数据还包括工厂的性能历史。
6.如权利要求1所述的系统,其中数据还包括工厂的地理信息。
7.如权利要求1所述的系统,其中数据还包括基础真实风险得分。
8.如权利要求1所述的系统,其中数据还包括工厂的产品数据。
9.如权利要求1所述的系统,其中历史数据跨越预定的时间窗口。
10.如权利要求1所述的系统,其中
向经过训练的分类器提供所述多个特征包括将所述多个特征发送到远程风险预测服务器,以及
从经过训练的分类器获得风险得分包括从风险预测服务器接收风险得分。
CN201910771218.XA 2019-06-21 2019-08-21 使用历史检验数据的检验风险估计 Pending CN112116185A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962864950P 2019-06-21 2019-06-21
US62/864,950 2019-06-21

Publications (1)

Publication Number Publication Date
CN112116185A true CN112116185A (zh) 2020-12-22

Family

ID=68162692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910771218.XA Pending CN112116185A (zh) 2019-06-21 2019-08-21 使用历史检验数据的检验风险估计

Country Status (3)

Country Link
CN (1) CN112116185A (zh)
CA (1) CA3050952A1 (zh)
WO (1) WO2020257784A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241805A (zh) * 2019-07-19 2021-01-19 因斯派克托里奥股份有限公司 使用历史检验数据进行缺陷预测
CN117390005A (zh) * 2023-10-23 2024-01-12 广东产品质量监督检验研究院(国家质量技术监督局广州电气安全检验所、广东省试验认证研究院、华安实验室) 基于大数据的检验预测方法、装置、计算机设备及存储介质
CN117972757A (zh) * 2024-03-25 2024-05-03 贵州大学 基于云平台实现矿山数据的安全分析方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111024898B (zh) * 2019-12-30 2021-07-06 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160330291A1 (en) * 2013-05-09 2016-11-10 Rockwell Automation Technologies, Inc. Industrial data analytics in a cloud platform
US9671776B1 (en) * 2015-08-20 2017-06-06 Palantir Technologies Inc. Quantifying, tracking, and anticipating risk at a manufacturing facility, taking deviation type and staffing conditions into account
US20180349817A1 (en) * 2017-06-01 2018-12-06 Autodesk, Inc. Architecture, engineering and construction (aec) risk analysis system and method
US20190050368A1 (en) * 2016-04-21 2019-02-14 Sas Institute Inc. Machine learning predictive labeling system
CN109492945A (zh) * 2018-12-14 2019-03-19 深圳壹账通智能科技有限公司 企业风险识别监控方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160330291A1 (en) * 2013-05-09 2016-11-10 Rockwell Automation Technologies, Inc. Industrial data analytics in a cloud platform
US9671776B1 (en) * 2015-08-20 2017-06-06 Palantir Technologies Inc. Quantifying, tracking, and anticipating risk at a manufacturing facility, taking deviation type and staffing conditions into account
US20190050368A1 (en) * 2016-04-21 2019-02-14 Sas Institute Inc. Machine learning predictive labeling system
US20180349817A1 (en) * 2017-06-01 2018-12-06 Autodesk, Inc. Architecture, engineering and construction (aec) risk analysis system and method
CN109492945A (zh) * 2018-12-14 2019-03-19 深圳壹账通智能科技有限公司 企业风险识别监控方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241805A (zh) * 2019-07-19 2021-01-19 因斯派克托里奥股份有限公司 使用历史检验数据进行缺陷预测
CN117390005A (zh) * 2023-10-23 2024-01-12 广东产品质量监督检验研究院(国家质量技术监督局广州电气安全检验所、广东省试验认证研究院、华安实验室) 基于大数据的检验预测方法、装置、计算机设备及存储介质
CN117972757A (zh) * 2024-03-25 2024-05-03 贵州大学 基于云平台实现矿山数据的安全分析方法及系统

Also Published As

Publication number Publication date
CA3050952A1 (en) 2019-10-11
WO2020257784A1 (en) 2020-12-24

Similar Documents

Publication Publication Date Title
CN112116184A (zh) 使用历史检验数据的工厂风险估计
US11361276B2 (en) Analysis and correction of supply chain design through machine learning
US11037080B2 (en) Operational process anomaly detection
Nazari-Shirkouhi et al. A hybrid approach using Z-number DEA model and Artificial Neural Network for Resilient supplier Selection
US20230377037A1 (en) Systems and methods for generating gradient-boosted models with improved fairness
US8990145B2 (en) Probabilistic data mining model comparison
US20210166151A1 (en) Attributing reasons to predictive model scores
CN112116185A (zh) 使用历史检验数据的检验风险估计
US12039462B2 (en) Computerized system and method of open account processing
CN112241805A (zh) 使用历史检验数据进行缺陷预测
US12008497B2 (en) Demand sensing and forecasting
US20210357699A1 (en) Data quality assessment for data analytics
US20240346531A1 (en) Systems and methods for business analytics model scoring and selection
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
US20240248828A1 (en) Model Validation Based On Sub-Model Performance
CN115545481A (zh) 一种风险等级确定方法、装置、电子设备及存储介质
Kansal et al. A Comparative Study of Machine Learning Models for House Price Prediction and Analysis in Smart Cities
US20230410208A1 (en) Machine learning-based, predictive, digital underwriting system, digital predictive process and corresponding method thereof
CN118786449A (zh) 用于基于监管报告和分析来生成洞察的系统和方法
US11449743B1 (en) Dimensionality reduction for statistical modeling
CN115062687A (zh) 企业信用监控方法、装置、设备及存储介质
CN113987351A (zh) 基于人工智能的智能推荐方法、装置、电子设备及介质
CN112950392A (zh) 信息展示方法、后验信息确定方法及装置及相关设备
CN118410186B (zh) 一种用于信息系统集成服务展示的产业链图谱构建方法
CN117036008B (zh) 一种多源数据的自动化建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040409

Country of ref document: HK

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201222