CN114868092A

CN114868092A - 数据管理平台、智能缺陷分析系统、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法

Info

Publication number: CN114868092A
Application number: CN202080003657.7A
Authority: CN
Inventors: 袁菲; 王洪; 吴建民; 沈国梁; 兰天; 汤玥; 吴昊晗; 曾颖黎; 王建宙; 白冠纯
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-08-05
Also published as: US11797557B2; US20220365945A1; WO2022116107A1

Abstract

提供了一种用于智能地管理数据的数据管理平台。数据管理平台包括ETL模块，其被配置为抽取、清洗、转换或加载数据；数据湖，其被配置为存储第一组数据，该第一组数据通过由所述ETL模块从多个数据源抽取原始数据而形成；数据仓库，其被配置为存储第二组数据，该第二组数据通过对所述第一组数据进行清洗和标准化而形成；通用数据层，其被配置为存储第三组数据，该第三组数据通过对所述第二组数据进行数据融合而形成；数据集市，其被配置为存储第四组数据，该第四组数据由所述ETL模块通过转换所述第三组数据而形成。通用数据层为存储可用于查询的信息的分布式数据存储器。数据集市是存储可用于计算处理的信息的NoSQL类型的数据库。

Description

数据管理平台、智能缺陷分析系统、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法

技术领域

本发明涉及半导体电子器件技术，尤其涉及一种用于半导体电子器件制造的数据管理平台，以及基于该数据管理平台的智能缺陷分析系统、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法。

背景技术

半导体电子器件和装置(如，显示面板)的制造涉及高度复杂和集成的工艺，包括许多工艺、技术和设备。

发明内容

在一个方面，本公开提供了一种用于智能地管理数据的数据管理平台，包括：ETL模块，其被配置为抽取、清洗、转换或加载数据；数据湖，其被配置为存储第一组数据，该第一组数据通过由所述ETL模块从多个数据源抽取原始数据而形成，所述第一组数据具有与所述原始数据相同内容；数据仓库，其被配置为存储第二组数据，该第二组数据通过由所述ETL模块对所述第一组数据进行清洗和标准化而形成；通用数据层，其被配置为存储第三组数据，该第三组数据通过由所述ETL模块对所述第二组数据进行数据融合而形成，其中，所述通用数据层为存储可用于查询的信息的分布式数据存储器；以及数据集市，其被配置为存储第四组数据，该第四组数据通过由所述ETL模块转换所述第三组数据而形成，其中，所述数据集市是存储可用于计算处理的信息的NoSQL类型的数据库。

可选地，第四组数据包括具有索引关系的多个子表，在所述多个子表中，基于类型和/或规则对数据进行分类，所述第四组数据可用于查询或计算处理。

可选地，存储在所述数据湖中的所述第一组数据被动态地更新；以及所述第一组数据包括存储在基于Kudu^TM的数据库中的实时更新的数据，或存储在Hadoop分布式文件系统中的周期更新的数据。

可选地，多个数据源中的所述原始数据的至少一部分是二进制大对象格式；被抽取到并存储在所述数据湖中的所述第一组数据的至少一部分是压缩的十六进制格式；以及通过解压缩和处理所抽取的数据，来获得被抽取并存储在所述数据仓库中的所述第二组数据的至少一部分。

可选地，ETL模块还被配置为生成周期性地自动更新的动态更新表；以及所述通用数据层还被配置为存储包括所关注的缺陷信息的所述动态更新表。

可选地，数据集市被配置为存储从存储在所述通用数据层中的数据表中的各个数据表分割出的多个子表；其中，所述多个子表包括：第一子表，其包括与所述数据管理平台通信的交互式任务子界面中的用户定义的分析标准对应的多个环境因素；第二子表，其包括产品序列号；以及第三子表，其包括所述第三组数据中的与所述产品序列号中的至少一个相对应的值。

可选地，通用数据层被配置为对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个执行数据融合。

在另一方面，本公开提供了一种智能缺陷分析系统，包括：分布式计算系统，其包括一个或多个联网计算机，所述联网计算机被配置为并行执行，以执行至少一个共同任务；以及一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算系统执行时使所述分布式计算系统执行软件模块；其中，所述软件模块包括：数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据。

可选地，数据管理平台包括ETL模块，所述ETL模块被配置为将来自所述多个数据源的数据抽取、转换或加载到作为NoSQL类型的数据库的数据集市上；以及所述多个算法服务器中的各个算法服务器被配置为在接收到分配的任务时，从所述数据集市获得第一数据。

可选地，ETL模块还被配置为将来自所述多个数据源的数据抽取、转换或加载到作为存储信息的分布式数据存储器的通用数据层上；所述多个算法服务器中的各个算法服务器被配置为在执行缺陷分析时，将第二数据发送到所述通用数据层；所述ETL模块被配置为生成周期性地自动更新的动态更新表；以及所述通用数据层被配置为存储所述动态更新表。

可选地，软件模块还包括查询引擎，所述查询引擎连接到所述数据管理平台且经配置以从所述数据管理平台获得所述管理数据。

可选地，数据可视化和交互界面被配置为生成任务请求；所述分析器还包括多个业务服务器；所述多个业务服务器中的一个或多个业务服务器被配置为在接收到所述任务请求时，向所述查询引擎发送查询任务请求；所述查询引擎被配置为在从所述多个业务服务器中的所述一个或多个业务服务器接收到所述查询任务请求时，查询所述动态更新表，以获得所关注的缺陷信息，并且将所述所关注的缺陷信息发送到所述多个业务服务器中的所述一个或多个业务服务器；所述多个算法服务器中的一个或多个被配置为在接收到缺陷分析任务时，从所述数据集市获得所述第一数据，以执行缺陷分析；以及所述多个算法服务器中的一个或多个被配置为在完成所述缺陷分析时，将所述缺陷分析的结果发送到所述通用数据层。

可选地，任务请求是自动重复任务请求，所述自动重复任务请求定义了要执行所述缺陷分析的重复周期；所述查询引擎被配置为查询所述动态更新表，以获得关于限于所述重复周期的所关注的缺陷信息；以及所述多个业务服务器中的所述一个或多个业务服务器被配置为在接收到在所述重复周期期间的所述所关注的缺陷信息时，基于在所述重复周期期间的所述所关注的缺陷信息，生成所述缺陷分析任务。

可选地，数据可视化和交互界面包括自动任务子界面，所述自动任务子界面允许输入要执行所述缺陷分析的所述重复周期。

可选地，任务请求是交互式任务请求；所述数据可视化和交互界面被配置为接收用户定义的分析标准，并且被配置为基于所述用户定义的分析标准来生成所述交互式任务请求；所述多个业务服务器中的所述一个或多个业务服务器被配置为在接收到所述所关注的缺陷信息时，将所述信息发送到所述数据可视化和交互界面；所述数据可视化和交互界面被配置为显示所述所关注的缺陷信息和与所述所关注的缺陷相关联的多个环境因素，并且被配置为接收对来自所述多个环境因素中的一个或多个环境因素的用户定义的选择，并且将所述用户定义的选择发送到所述多个业务服务器中的所述一个或多个业务服务器；以及所述多个业务服务器中的所述一个或多个业务服务器被配置为基于所述信息和所述用户定义的选择生成所述缺陷分析任务。

可选地，数据可视化和交互界面包括交互式任务子界面，所述交互式任务子界面允许输入包括对一个或多个环境因素的所述用户定义的选择的所述用户定义的分析标准。

可选地，分析器还包括多个业务服务器；以及所述软件模块还包括连接到所述分析器的负载平衡器，所述负载平衡器被配置为接收任务请求并被配置为将所述任务请求分配给所述多个业务服务器中的一个或多个以实现所述多个业务服务器之间的负载平衡，并且被配置为将来自所述多个业务服务器的任务分配给所述多个算法服务器中的一个或多个以实现所述多个算法服务器之间的负载平衡。

可选地，基于当前由所述多个业务服务器中的每一个执行的任务的数量和当前由所述多个业务服务器中的每一个执行的每个任务所需的计算负荷量，将所述任务请求分配给所述多个业务服务器中的所述一个或多个业务服务器中的每一个，以在所述多个业务服务器之间实现最佳负载平衡。

可选地，数据可视化和交互界面被配置为生成任务请求；所述负载平衡器被配置为接收所述任务请求，并且被配置为将所述任务请求分配给所述多个业务服务器中的一个或多个，以实现所述多个业务服务器之间的负载平衡；所述多个业务服务器中的所述一个或多个业务服务器被配置为向所述查询引擎发送查询任务请求；所述查询引擎被配置为在从所述多个业务服务器中的所述一个或多个业务服务器接收到所述查询任务请求时，查询所述动态更新表，以获得所关注的缺陷信息，并且将所述所关注的缺陷信息发送到所述多个业务服务器中的所述一个或多个业务服务器；所述多个业务服务器中的所述一个或多个业务服务器被配置为将缺陷分析任务发送到所述负载平衡器，以将所述缺陷分析任务分配给所述多个算法服务器中的所述一个或多个算法服务器，以实现所述多个算法服务器之间的负载平衡；所述多个算法服务器中的所述一个或多个算法服务器被配置为在接收到所述缺陷分析任务时，从所述数据集市查询所述第一数据，以执行缺陷分析；以及所述多个算法服务器中的所述一个或多个算法服务器被配置为在完成所述缺陷分析时，将所述缺陷分析的结果发送到所述通用数据层。

可选地，分析器还包括连接到所述多个业务服务器和所述查询引擎的缓存服务器；以及所述缓存服务器被配置为将先前执行的缺陷分析任务的结果的一部分存储在缓存中。

可选地，数据可视化和交互界面包括缺陷可视化子界面；所述缺陷可视化子界面被配置为接收对要分析的缺陷的用户定义的选择，并生成调用请求；所述负载平衡器被配置为接收所述调用请求，并且被配置为将所述调用请求分配给所述多个业务服务器中的一个或多个，以实现所述多个业务服务器之间的负载平衡；所述多个业务服务器中的所述一个或多个业务服务器被配置为将所述调用请求发送到所述缓存服务器；以及所述缓存服务器被配置为确定关于所述要分析的缺陷的信息是否存储在所述缓存中。

可选地，在确定关于所述要分析的缺陷的所述信息存储在所述缓存中时，所述多个业务服务器中的所述一个或多个业务服务器被配置为将所述要分析的缺陷的所述信息发送到所述缺陷可视化子界面以用于显示。

可选地，在确定关于所述要分析的缺陷的所述信息未存储在所述缓存中时，所述多个业务服务器中的所述一个或多个业务服务器被配置为向所述查询引擎发送查询任务请求；所述查询引擎被配置为在从所述多个业务服务器中的所述一个或多个业务服务器接收到所述查询任务请求时，查询所述动态更新表以获得所述关于要分析的缺陷的信息，并且将所述关于要分析的缺陷的所述信息发送到所述缓存；所述缓存被配置为存储所述关于要分析的缺陷的所述信息；以及所述多个业务服务器中的所述一个或多个业务服务器被配置为将所述关于要分析的缺陷的所述信息发送到所述缺陷可视化子界面以用于显示。

可选地，先前执行的缺陷分析任务的结果的一部分包括：基于自动重复任务请求的先前执行的缺陷分析任务的结果；和/或基于所述查询任务请求获得的先前执行的缺陷分析任务的结果。

可选地，负载平衡器是基于Nginx^TM技术的负载平衡器。

可选地，数据集市基于Apache Hbase^TM技术；以及所述通用数据层基于ApacheHive^TM技术。

可选地，查询引擎是基于Impala^TM技术的查询引擎。

在另一方面，本公开提供了一种由分布式计算系统执行的智能缺陷分析方法，所述分布式计算系统包括一个或多个联网计算机，所述一个或多个联网计算机被配置为并行执行，以执行至少一个共同任务；该方法包括：执行数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；执行分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及执行数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据。

在另一方面，本公开提供了一种用于智能缺陷分析的计算机程序产品，其包括其上具有计算机可读指令的非暂时性有形计算机可读介质，所述计算机可读指令可由分布式计算系统中的处理器执行，所述分布式计算系统包括一个或多个联网计算机，该一个或多个联网计算机被配置为并行执行以执行至少一个共同任务，以使得所述处理器执行：执行数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；执行分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及执行数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据。

在另一方面，本公开提供了一种用于缺陷分析的方法，其包括：获得包括缺陷信息的制造数据信息；根据制造节点组，将所述制造数据信息分类成多组数据，所述多组数据中的各组数据与所述制造节点组中的各个制造节点组相关联；计算所述制造节点组的证据权重以获得多个证据权重，其中，证据权重表示在各个制造节点组中的缺陷的占比相对于全部所述制造节点组中的缺陷的占比之间的差异性；基于所述多个证据权重对所述多组数据进行排序；以及获得基于所述多个证据权重排序的多组数据的列表。

可选地，各个制造节点组包括选自由制造工序、设备、站点和工艺区段组成的群中的一个或多个。

可选地，根据等式(1)计算各个制造节点组的各个证据权重

其中，woei表示各个制造节点组的各个证据权重；P(yi)表示在各个制造节点组中的正样本的数目与在所有制造节点组中的正样本的数目的比；P(ni)表示在各个制造节点组中的负样本的数目与在所有制造节点组中的负样本的数目的比；所述正样本表示包括与各个制造节点组相关联的缺陷信息的数据；所述负样本表示其中不存在与各个制造节点组相关联的缺陷信息的数据；#yi表示在各个制造节点组中的正样本的数目；#yr表示在所有制造节点组中的正样本的数目；#ni表示在各个制造节点组中的负样本的数目；#yr表示所有制造节点组中的负样本的数目。

可选地，所述方法还包括：对各种类型的参数执行特征抽取以生成参数特征信息，其中，针对每种类型的参数抽取最大值、最小值、平均值和中值中的一个或多个；以及对所述参数特征信息和与其相关联的缺陷信息执行数据融合，以得到融合后的数据信息。

可选地，所述方法还包括：从所述融合后的数据信息中抽取所述参数特征信息和所述缺陷信息；针对来自多组数据的所述列表的每种类型的参数，对所述参数特征信息和所述缺陷信息执行相关性分析；分别针对多种类型的参数生成多个相关系数；以及对所述多个相关系数的绝对值进行排序。

可选地，多个相关系数是多个皮尔逊相关系数；以及根据等式(2)计算各个皮尔逊相关系数：

其中x表示参数特征的值；y表示缺陷存在或不存在的值，当存在缺陷时，y被赋予值1，并且当不存在缺陷时，y被赋予值0；μ_x表示x的平均值；μ_y表示y的平均值；σ_xσ_y表示x和y的相应标准差的乘积；cov(x,y)表示x，y的协方差；并且ρ(x,y)表示各个皮尔逊相关系数。

可选地，所述方法还包括处理所述制造数据信息以获得处理后的数据；其中，处理所述制造数据信息包括对履历数据信息和缺陷信息执行数据融合以获得融合后的数据信息。

在另一方面，本公开提供了一种智能缺陷分析系统，包括：分布式计算系统，其包括一个或多个联网计算机，所述联网计算机被配置为并行执行，以执行至少一个共同任务；一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算系统执行时使所述分布式计算系统执行软件模块；其中，所述软件模块包括：数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据；其中，所述多个算法服务器中的一个或多个被配置为执行本文所述的计算机实现的方法。

附图说明

根据各种公开的实施例，以下附图仅是用于说明目的的示例，并且不旨在限制本发明的范围。

图1示出了根据本公开的一些实施例中的分布式计算环境。

图2示出了根据本公开的一些实施例中的智能缺陷分析系统中的软件模块。

图3示出了根据本公开的一些实施例中的智能缺陷分析系统中的软件模块。

图4示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。

图5示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。

图6示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。

图7示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。

图8示出了根据本公开的一些实施例中的数据管理平台。

图9描绘根据本公开的一些实施例中从存储于通用数据层中的数据表分成的多个子表。

图10示出了根据本公开的一些实施例中的缺陷分析方法。

图11示出了根据本公开的一些实施例中的缺陷分析方法。

具体实施方式

现在将参考以下实施例更具体地描述本公开。应当注意，本文中呈现的一些实施例的以下描述仅用于说明和描述的目的。其不是穷举的或限于所公开的精确形式。

在半导体电子器件的制造中可能出现各种缺陷。缺陷的示例包括颗粒、残留物、线缺陷、孔洞、飞溅物、褶皱、变色和气泡。在半导体电子器件的制造中出现的缺陷难以跟踪。例如，工程师可能必须依赖于手动数据分类以基于经验分析缺陷的根本原因。

在制造液晶显示面板时，显示面板的制造至少包括阵列(Array)阶段、彩膜(CF)阶段、成盒(cell)阶段和模组阶段。在阵列阶段，制造薄膜晶体管阵列基板。在一个示例中，在阵列阶段，沉积材料层，使所述材料层经受光刻，例如，将光刻胶沉积在所述材料层上，使所述光刻胶经受曝光且随后显影。随后，蚀刻材料层并去除剩余的光刻胶(“剥离”)。在CF阶段，制造彩膜基板，涉及以下几个步骤，包括：涂覆、曝光和显影。在成盒阶段，组装阵列基板和彩膜基板，以形成单元。成盒阶段包括几个步骤，包括涂覆和摩擦取向层、注入液晶材料、单元密封剂涂覆、在真空下对盒、切割、研磨和单元检查。在模组阶段，外围部件和电路被组装到面板上。在一个示例中，模块级包括若干步骤，包括背光的组装、印刷电路板的组装、偏光片附接、膜上芯片的组装、集成电路的组装、老化和最终检查。

在制造有机发光二极管(OLED)显示面板时，显示面板的制造包括至少四个设备工艺，包括阵列阶段、OLED阶段、EAC2阶段和模组阶段。在阵列阶段，制造显示面板的背板，例如，包括制造多个薄膜晶体管。在OLED阶段中，制造多个发光元件(例如，有机发光二极管)，形成封装层以封装多个发光元件，并且可选地，在封装层上形成保护膜。在EAC2阶段，大玻璃(glass)首先被切割成半片玻璃(hglass)，然后进一步切割成面板(panel)。此外，在EAC2阶段，检查设备用于检查面板以检测其中的缺陷，例如暗点和亮线。在模组阶段，例如，使用膜上芯片技术将柔性印刷电路接合到面板。在面板的表面上形成盖玻璃。可选地，执行进一步检查以检测面板中的缺陷。来自显示面板制造的数据包括履历(biographical)信息、参数信息和缺陷信息，这些信息存储在多个数据源中。履历信息是从阵列阶段到模组阶段，通过每个加工设备上传到数据库的记录信息，包括玻璃ID、设备型号、站点信息等。参数信息包括由设备在加工玻璃时生成的数据。缺陷可能出现在每个阶段中。可在上文所论述的阶段中的每一者中生成检查信息。只有在检查完成后，检查信息才能实时上传到数据库。检查信息可以包括缺陷类型和缺陷位置。

总之，使用各种传感器和检查设备来获得履历信息、参数信息和缺陷信息。使用智能缺陷分析方法或系统来分析履历信息、参数信息和缺陷信息，所述智能缺陷分析方法或系统可快速确定产生缺陷的设备、站点和/或阶段，从而为后续工艺改进和设备修理或维护提供关键信息，从而大大改进良率。

因此，本公开尤其提供了一种数据管理平台、智能缺陷分析系统、智能缺陷分析方法、计算机程序产品及其用于缺陷分析的方法，其基本上消除了由于现有技术的限制和缺点而导致的一个或多个问题。本公开提供了一种具有优越功能的改进的数据管理平台。基于本数据管理平台(或其它适当的数据库或数据管理平台)，本公开的发明人进一步开发了一种新颖且独特的智能缺陷分析系统、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法。

在一个方面，本公开提供了一种智能缺陷分析系统。在一些实施例中，智能缺陷分析系统包括分布式计算系统，其包括被配置为并行执行以执行至少一个共同任务的一个或多个联网计算机；一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算系统执行时使所述分布式计算系统执行软件模块。在一些实施例中，所述软件模块包括：数据管理平台，其被配置为存储数据并智能地抽取、转换或加载数据，其中，数据包括履历数据信息、参数信息或缺陷信息中的至少一个；分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个业务服务器和多个算法服务器，所述多个算法服务器被配置为直接从所述数据管理平台获得数据，并且对数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及数据可视化和交互界面，其被配置为生成所述任务请求。可选地，智能缺陷分析系统用于显示面板制造中的缺陷分析。如本文所使用的，术语“分布式计算系统”通常指具有多个网络节点的互连计算机网络，所述多个网络节点将多个服务器或主机彼此连接或连接到外部网络(例如，因特网)。术语“网络节点”通常指物理网络装置。示例网络节点包括路由器、交换机、集线器、网桥、负载平衡器、安全网关或防火墙。“主机”通常指被配置为实现例如一个或多个虚拟机或其他合适的虚拟化组件的物理计算装置。例如，主机可以包括具有被配置为支持一个或多个虚拟机或其他合适类型的虚拟组件的管理程序的服务器。

图1示出了根据本公开的一些实施例中的分布式计算环境。参考图1，在分布式计算环境中，称为节点的多个自主计算机/工作站在例如LAN(局域网)的网络中彼此通信，以解决任务，例如执行应用。每个计算机节点通常包括其自己的(一个或多个)处理器、存储器和到其它节点的通信链路。计算机可以位于特定位置(例如，集群网络)内，或者可以通过诸如因特网的广域网(LAN)连接。在这样的分布式计算环境中，不同的应用可以共享信息和资源。

在分布式计算环境中的网络可以包括局域网(LAN)和广域网(WAN)。网络可以包括有线技术(例如，以太网)和无线技术(例如，

码分多址(CDMA)、全球移动系统(GSM)、通用移动电话服务(UMTS)、蓝牙、

等)。

多个计算节点被配置为加入资源组，以提供分布式服务。在分布式网络中的计算节点可以包括任何计算装置，诸如计算装置或用户装置。计算节点还可以包括数据中心。如本文所使用的，计算节点可以指任何计算装置或多个计算装置(即，数据中心)。软件模块可以在单个计算节点(例如，服务器)上执行，或者以任何合适的方式分布在多个节点上。

分布式计算环境还可以包括一个或多个存储节点，用于存储与软件模块的执行和/或由软件模块的执行生成的输出和/或其他功能相关的信息。一个或多个存储节点在网络中彼此通信，并且与网络中的一个或多个计算节点通信。

图2示出了根据本公开的一些实施例中的智能缺陷分析系统中的软件模块。参考图2，智能缺陷分析系统包括分布式计算系统，该分布式计算系统包括一个或多个联网计算机，该联网计算机被配置为并行执行，以执行至少一个共同任务；存储指令的一个或多个计算机可读存储介质，所述指令在由所述分布式计算系统执行时使所述分布式计算系统执行软件模块。在一些实施例中，软件模块包括数据管理平台DM，其被配置为存储数据，并且智能地抽取、转换或加载数据；查询引擎QE，其连接到数据管理平台DM并被配置为直接从数据管理平台DM获得数据；分析器AZ，其连接到查询引擎QE并被配置为在接收到任务请求时执行缺陷分析，分析器AZ包括多个业务服务器BS(类似于后端服务器)和多个算法服务器AS，多个算法服务器AS被配置为直接从数据管理平台DM获得数据；以及被配置为生成任务请求的数据可视化和交互界面DI。可选地，查询引擎QE是基于Impala^TM技术的查询引擎。如本文所使用的，在本公开的上下文中，术语“连接到”是指具有从系统的第一部件到第二部件和/或从系统的第二部件到第一部件的直接信息或数据流的关系。

图3示出了根据本公开的一些实施例中的智能缺陷分析系统中的软件模块。参考图3，在一些实施例中，数据管理平台DM包括ETL模块ETLP，其被配置为抽取、转换或加载来自多个数据源DS的数据到数据集市DMT和通用数据层GDL上。在接收到分配的任务时，多个算法服务器AS中的各个算法服务器被配置为直接从数据集市DMT获得第一数据。在执行缺陷分析时，多个算法服务器AS中的各个算法服务器被配置为将第二数据直接发送到通用数据层GDL。多个算法服务器AS部署用于缺陷分析的各种通用算法，例如基于大数据分析的算法。多个算法服务器AS被配置为分析数据以识别缺陷的原因。如在此所使用的，术语“ETL模块”指的是被配置为提供诸如抽取、转换或加载数据的功能的计算机程序逻辑。在一些实施例中，ETL模块被存储在存储节点上，加载到存储器中，并且由处理器执行。在一些实施例中，ETL模块被存储在分布式网络中的一个或多个存储节点上，加载到分布式网络中的一个或多个存储器中，并且由分布式网络中的一个或多个处理器执行。

数据管理平台DM存储用于智能缺陷分析系统的数据。例如，数据管理平台DM存储由多个算法服务器AS进行算法分析所需的数据。在另一个示例中，数据管理平台DM存储算法分析的结果。在一些实施例中，数据管理平台DM包括多个数据源DS(例如，存储在Oracle数据库中的数据)、ETL模块ETLP、数据集市DMT(例如，基于Apache Hbase^TM技术的数据集市)和通用数据层GDL(例如，基于Apache Hive^TM技术的数据存储器)。为了算法分析和对用户的交互式显示，来自多个数据源DS的数据由ETL模块ETLP清洗并合并成验证数据。用于缺陷分析的有用数据的示例包括跟踪历史数据、数据变量(dv)参数数据、映射缺陷位置数据等。在典型的制造过程(例如，显示面板的制造过程)中的数据量是巨大的，例如，在典型的制造站点中每天可能存在超过3千万条dv参数数据。为了满足用户对缺陷分析的需求，需要提高算法服务器读取生产数据的速度。在一个示例中，算法分析所需的数据存储在基于ApacheHbase^TM技术的数据集市中，以提高效率并节省存储空间。在另一示例中，算法分析的结果和其它辅助数据被存储在基于Apache Hive^TM技术的通用数据层中。

Apache Hive^TM是构建在Hadoop顶部的开源数据仓库系统，其用于查询和分析Hadoop文件中存储的结构化和半结构化形式的大数据。Apache Hive^TM主要用于批处理，因此被称为OLAP。另外，在Hive的情况下，实时处理是不可能的。Apache Hive^TM不是数据库，而是具有模式模型。

Apache Hbase^TM是一种在Hadoop分布式文件系统(HDFS)顶部运行的非关系的面向列的分布式数据库。此外，它是以列存储数据的NoSQL开源数据库。Apache Hbase^TM主要用于事务处理，被称为OLTP。然而，在Apache Hbase^TM的情况下，实时处理是可能的。ApacheHbase^TM是一种NoSQL数据库，并且没有模式模型。

在一个示例中，数据管理平台的各种组件(例如，通用数据层、数据仓库、数据源)可以是例如基于Apache Hadoop^TM和/或Apache Hive^TM的分布式数据存储器簇的形式。

图8示出了根据本公开的一些实施例中的数据管理平台。参考图8，在一些实施例中，数据管理平台包括分布式存储系统(DFS)，例如Hadoop分布式文件系统(HDFS)。数据管理平台被配置为从多个数据源DS收集在工厂生产过程中生成的数据。例如使用RDBMS(关系数据库管理系统)网格计算技术将在工厂生产过程中生成的数据存储在关系数据库(例如Oracle)中。在RDBMS网格计算中，需要非常大量的计算机功率的问题被分成许多小的部分，这些小的部分被分配给许多计算机进行处理。将分布式计算的结果进行组合，以获得最终结果。例如，在OracleRAC(真实应用集群)中，所有服务器都可以直接访问数据库中的所有数据。然而，基于RDBMS网格计算的应用具有有限的硬件可扩展性。当数据量达到某个数量级时，硬盘的输入/输出瓶颈使得处理大量数据非常低效。分布式文件系统的并行处理可以满足由增加数据存储和计算的需求所提出的挑战。在智能缺陷分析过程中，首先将多个数据源DS中的数据抽取到数据管理平台中，大大加快了过程。

在一些实施例中，数据管理平台包括具有不同内容和/或存储结构的多组数据。在一些实施例中，ETL模块ETLP配置成将原始数据从多个数据源DS抽取到数据管理平台中，形成第一数据层(例如，数据湖DL)。数据湖DL是被配置为存储任何结构或非结构数据的集中式HDFS或KUDU数据库。可选地，数据湖DL被配置为存储由ETL模块ETLP从多个数据源DS抽取的第一组数据。可选地，第一组数据和原始数据具有相同的内容。原始数据的维度和属性被保存在第一组数据中。在一些实施例中，存储在数据湖中的第一组数据被动态地更新。可选地，第一组数据包括存储在基于Kudu^TM的数据库中的实时更新数据，或存储在Hadoop分布式文件系统中的周期性更新数据。在一个示例中，存储在Hadoop分布式文件系统中的周期性更新数据是存储在基于Apache Hive^TM的存储器中的周期性更新数据。

在一些实施例中，数据管理平台包括第二数据层，例如数据仓库DW。数据仓库DW包括内部存储系统，该内部存储系统被配置为以抽象方式提供数据，例如以表格格式或视图格式，而不暴露文件系统。数据仓库DW可以基于Apache Hive^TM。ETL模块ETLP配置成抽取、清洗、转换或加载第一组数据，以形成第二组数据。可选地，通过使第一组数据经过清洗和标准化，来形成第二组数据。

在一些实施例中，数据管理平台包括第三数据层(例如，通用数据层GDL)。通用数据层GDL可以基于Apache Hive^TM。ETL模块ETLP被配置为对第二组数据进行数据融合，从而形成第三组数据。在一个示例中，第三组数据是通过对第二组数据进行数据融合而得到的数据。数据融合的示例包括基于多个表中的相同字段的级联。数据融合的示例还包括生成相同字段或记录的统计数据(例如，求和及占比计算)。在一个示例中，统计数据的生成包括对玻璃中的有缺陷的面板的数量以及同一玻璃中的多个面板中的有缺陷的面板的占比进行计数。可选地，通用数据层GDL基于Apache Hive^TM。可选地，通用数据层GDL用于数据查询。

在一些实施例中，数据管理平台包括第四数据层(例如，至少一个数据集市)。在一些实施例中，至少一个数据集市包括数据集市DMT。可选地，数据集市DMT是存储可用于计算处理的信息的NoSQL类型的数据库。可选地，数据集市DMT基于Apache Hbase^TM。可选地，数据集市DMT用于计算。ETL模块ETLP被配置为将第三数据层分层(layerize)，以形成具有多层索引结构的第四组数据。第四组数据基于不同类型和/或规则对数据进行分类，从而形成多层索引结构。多层索引结构中的第一索引对应于前端接口的过滤标准，例如，对应于与数据管理平台通信的交互式任务子界面中的用户定义的分析标准，从而促进更快速的数据查询和计算过程。

在一些实施例中，可以将通用数据层GDL中的数据导入到数据集市DMT中。在一个示例中，在数据集市DMT中生成第一表，并且在通用数据层GDL中生成第二表(例如，外部表)。第一表和第二表被配置为是同步的，以便当数据被写入第二表时，第一表将被同时更新以包括对应的数据。

在另一示例中，分布式计算处理模块可以用于读取写入到通用数据层GDL上的数据。HadoopMapReduce模块可被用作分布式计算处理模块，以用于读取被写到通用数据层GDL上的数据。然后，可以将写入到通用数据层GDL上的数据写入到数据集市DMT上。在一个示例中，可以使用HBaseAPI将数据写入数据集市DMT。在另一示例中，HadoopMapReduce模块一旦读取被写到数据集市DMT上的数据，就可以生成HFile，其被批量加载(Bulkloaded)到数据集市DMT上。

在一些实施例中，本文描述了数据管理平台的各种组件之间的数据流、数据转换和数据结构。在一些实施例中，由多个数据源DS收集的原始数据包括履历数据信息、参数信息或缺陷信息中的至少一个。原始数据可选地可以包含维度信息(时间、工厂、设备、操作者、Map、腔室、槽等)和属性信息(工厂位置、设备使用年限、坏点数、异常参数、能耗参数、处理持续时间等)。

履历数据信息包含产品(例如面板或玻璃)在制造期间经过的特定处理的信息。产品在制造期间经过的特定处理的示例包括工厂、工序、站点、设备、腔室、卡槽和操作者。

参数信息包含产品(例如面板或玻璃)在制造期间经受的特定环境参数及其变化的信息。产品在制造期间经受的特定环境参数及其变化的示例包括环境颗粒条件、设备温度和设备压力。

缺陷信息包含基于检查的产品质量的信息。示例产品质量信息包括缺陷类型、缺陷位置和缺陷尺寸。

在一些实施例中，参数信息包括设备参数信息。可选地，设备参数信息包括至少三种类型的数据，其可以从用于制造设备的通信和控制的通用模型(GEM)接口输出。可从GEM接口输出的第一类型的数据是数据变量(DV)，其可在事件发生时收集。因此，数据变量仅在事件的情况下有效。在一个示例中，GEM接口可以提供称为PPChanged的事件，其在recipe改变时被触发；以及名为“改变的recipe”的数据变量，其仅在PPChanged事件的情况下有效。在其它时间轮询该值可能具有无效或意外的数据。可从GEM接口输出的第二类型的数据是状态变量(SV)，其包含在任何时间有效的设备特定信息。在一个示例中，设备可以是温度传感器，并且GEM接口提供一个或多个模块的温度状态变量。主机可以在任何时间请求该状态变量的值，并且可以预期该值为真。可从GEM接口输出的第三类型的数据是设备常数(EC)，其包含由设备设定的数据项。设备常数确定设备的行为。在一个示例中，GEM接口提供名为“MaxSimultousTrace”的设备常数，其指定可同时从主机请求的轨迹的最大数目。总是保证设备常数的值是有效的和最新的。

在一些实施例中，数据湖DL被配置为存储通过由ETL模块ETLP从多个数据源抽取原始数据而形成的第一组数据，第一组数据具有与原始数据相同的内容。ETL模块ETLP配置成从多个数据源DS抽取原始数据，同时保持维度信息(例如，维度列)和属性信息(例如，属性列)。数据湖DL被配置为存储根据抽取时间排序的抽取数据。数据可以存储在数据湖DL中，该数据湖具有指示“数据湖”和/或各个数据源的(一个或多个)属性的新名称，同时保持原始数据的维度和属性。第一组数据和原始数据以不同的形式存储。第一组数据存储在分布式文件系统中，而原始数据存储在诸如Oracle数据库的关系数据库中。在一个示例中，由多个数据源DS收集的业务数据包括来自各种业务系统的数据，所述业务系统包括例如良率管理系统(YMS)、故障检测和分类(FDC)系统以及制造执行系统(MES)。这些业务系统中的数据具有它们各自的签名，例如产品模型、生产参数和设备模型数据。ETL模块ETLP使用工具(如，sqoop命令、数栈工具、Pentaho工具)将来自每个业务系统的原始生产数据抽取为原始数据格式的hadoop，从而实现来自多个业务系统的数据的融合。所抽取的数据被存储在数据湖DL中。在另一示例中，数据湖DL基于诸如Hive^TM和Kudu^TM的技术。数据湖DL包含工厂自动化过程中涉及的维度列(时间、工厂、设备、操作者、Map、腔室、槽等)和属性列(工厂位置、设备使用年限、坏点数、异常参数、能耗参数、处理持续时间等)。

在一个示例中，本数据管理平台将各种业务数据(例如，与半导体电子器件制造相关的数据)集成到多个数据源DS(例如，Oracle数据库)中。ETL模块ETLP例如使用数栈工具、SQOOP工具、kettle工具、Pentaho工具或DataX工具，将来自多个数据源DS的数据抽取到数据湖DL中。然后，数据被清洗、转换并加载到数据仓库DW和通用数据层GDL中。数据仓库DW、通用数据层GDL和数据集市DMT利用诸如Kudu^TM、Hive^TM和Hbase^TM的工具存储大量数据和分析结果。

在制造过程的各个阶段中生成的信息由各种传感器和检查设备获得，并且随后被保存在多个数据源DS中。由本智能缺陷分析系统生成的计算和分析结果也被保存在多个数据源DS中。通过ETL模块ETLP实现数据管理平台的各个部件之间的数据同步(数据的流动)。例如，ETL模块ETLP被配置为获得同步过程的参数配置模板，包括网络许可和数据库端口配置、流入数据库名称和表名称、流出数据库名称和表名称、字段对应关系、任务类型、调度周期等。ETL模块ETLP基于参数配置模板配置同步过程的参数。ETL模块ETLP同步数据，并基于过程配置模板清洗同步的数据。ETL模块ETLP通过SQL语句来清洗数据，以移除空值、移除离群值，并建立相关表之间的相关性。数据同步任务包括多个数据源DS和数据管理平台之间的数据同步，以及数据管理平台的各个层(例如，数据湖DL、数据仓库DW、通用数据层GDL或数据集市DMT)之间的数据同步。

在另一示例中，可以实时地或离线地完成到数据湖DL的数据抽取。在离线模式中，周期性地调度数据抽取任务。可选地，在离线模式中，所抽取的数据可以存储在基于Hadoop分布式文件系统的存储装置(例如，基于Hive^TM的数据库)中。在实时模式中，数据抽取任务可以由OGG(OracleGoldenGate)结合ApacheKafka来执行。可选地，在实时模式中，所抽取的数据可以存储在基于Kudu^TM的数据库中。OGG读取多个数据源(例如，Oracle数据库)中的日志文件，以获得添加/删除数据。在另一示例中，主题信息由Flink读取，Json被选择为同步字段类型。利用JAR包对数据进行解析，并将解析后的信息发送到KuduAPI，实现Kudu表数据的添加/删除。在一个示例中，前端接口可基于存储在基于Kudu^TM的数据库中的数据来执行显示、查询和/或分析。在另一示例中，前端接口可基于存储在基于Kudu^TM的数据库、Hadoop分布式文件系统(例如，基于Apache Hive^TM的数据库)和/或基于Apache Hbase^TM的数据库中的任何一个或任何组合中的数据来执行显示、查询和/或分析。在另一示例中，(例如，在几个月内生成的)短期数据被存储在基于Kudu^TM的数据库中，而长期数据(例如，在所有周期中生成的全部数据)被存储在Hadoop分布式文件系统(例如，基于Apache Hive^TM的数据库)中。在另一示例中，ETL模块ETLP被配置为将存储在基于Kudu^TM的数据库中的数据抽取到Hadoop分布式文件系统(例如，基于Apache Hive^TM的数据库)中。

通过组合来自各种业务系统(MDW、YMS、MES、FDC等)的数据，基于数据湖DL来构建数据仓库DW。根据任务执行时间来划分从数据湖DL中抽取的数据，所述任务执行时间不完全匹配原始数据中的时间戳。另外，存在数据重复的可能性。因此，有必要通过对数据湖DL中的数据进行清洗和标准化来基于数据湖DL构建数据仓库DW，以满足上层应用对数据准确性和划分的需要。数据仓库DW中存储的数据表是通过对数据湖DL中的数据进行清洗和标准化而获得的。基于用户需求，对字段格式进行标准化，以保证数据仓库DW中的数据表与多个数据源DS中的数据表完全一致。同时，按日期或月份，根据时间以及其他字段划分数据，大大提高了查询效率，降低了运行存储器需求。数据仓库DW可以是基于Kudu^TM的数据库和基于Apache Hive^TM的数据库中的一个或任意组合。

在一些实施例中，ETL模块ETLP被配置为将存储在数据湖中的抽取数据清洗成清洗数据，并且数据仓库被配置为存储清洗数据。由ETL模块ETLP执行的清洗的示例包括冗余数据的移除、空值数据的移除、虚拟字段的移除等。

在一些实施例中，ETL模块ETLP还被配置为对存储在数据湖中的抽取数据执行标准化(例如，字段标准化和格式标准化)，并且清洗数据是经受过字段格式标准化(例如，日期和时间信息的格式标准化)的数据。

在一些实施例中，多个数据源DS中的至少一部分业务数据是二进制大对象(blob)格式。在数据抽取之后，存储在数据湖DL中的抽取数据的至少一部分是压缩的十六进制格式。可选地，通过解压缩和处理抽取数据，获得存储在数据仓库DW中的清洗的数据的至少一部分。在一个示例中，业务系统(例如，上述FDC系统)被配置为存储大量的参数数据。因此，数据必须被压缩成业务系统中的blob格式。在数据抽取(例如，从Oracle数据库到Hive数据库)期间，blob字段将被转换为十六进制(HEX)字符串。为了检索存储在文件中的参数数据，HEX文件被解压缩，并且此后可以直接获得文件的内容。所需数据被编码以形成长字符串，并且根据输出要求，通过特定符号来分割不同的内容。为了获得所需格式的数据，对长字符串进行诸如根据特殊字符进行剪切和行列转换等操作。处理后的数据与原始数据一起被写入目标表(例如，以上面讨论的存储在数据仓库DW中的表格式的数据)。

在一个示例中，存储在数据仓库DW中的清洗的数据维护多个数据源DS中的原始数据的维度信息(例如，维度列)和属性信息(例如，属性列)。在另一示例中，存储在数据仓库DW中的清洗的数据保持与多个数据源DS中的数据表名称相同的数据表名称。

在一些实施例中，ETL模块ETLP还被配置为生成周期性地自动更新的动态更新表。可选地，如上所述，通用数据层GDL被配置为存储包括关于高发生率缺陷的信息的动态更新表。可选地，数据集市DMT被配置为存储动态更新表，该表包括关于高发生率缺陷的信息，如上所述。

通用数据层GDL是基于数据仓库DW构建的。在一些实施例中，GDL被配置为存储通过由ETL模块ETLP对第二组数据进行数据融合而形成的第三组数据。可选地，基于不同的主题执行数据融合。通用数据层GDL中的数据主题化程度高，聚合程度高，从而大大提高了查询速度。在一个示例中，可以使用数据仓库DW中的表来构建具有根据不同用户需要或不同主题而构造的相关性的表，根据表各自的实用程序来为表分配名称。

各种主题可以对应于不同的数据分析需求。例如，主题可以对应于不同的缺陷分析需求。在一个示例中，主题可以对应于对归因于一个或多个制造节点组(例如，一个或多个设备)的缺陷的分析，并且基于所述主题的数据融合可以包括关于制造过程的履历信息和与其相关联的缺陷信息的数据融合。在另一个示例中，主题可以对应于对归因于一个或多个参数类型的缺陷的分析，并且基于所述主题的数据融合可以包括关于参数特征信息和与其相关联的缺陷信息的数据融合。在另一示例中，主题可以对应于对归因于一个或多个设备操作(例如，由相应设备执行相应操作的相应操作站点定义的设备)的缺陷的分析，并且基于所述主题的数据融合可以包括关于参数特征信息、制造过程的履历信息和与其相关联的缺陷信息的数据融合。在另一示例中，主题可以对应于对各种类型的参数的特征抽取以生成参数特征信息，其中，针对每种类型的参数抽取最大值、最小值、平均值和中值中的一个或多个。

在一些实施例中，缺陷分析包括对各种类型的参数执行特征抽取以生成参数特征信息；对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个执行数据融合。可选地，执行数据融合包括对参数特征信息和与其相关联的缺陷信息执行数据融合。可选地，执行数据融合包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息执行数据融合。在另一示例中，执行数据融合包括对制造过程的参数特征信息和履历信息执行数据融合，以获得第一融合数据信息；对所述第一融合数据信息与其关联的缺陷信息执行数据融合，以获得第二融合数据信息。在一个示例中，第二融合数据信息包括玻璃序列号、制造站点信息、设备信息、参数特征信息和缺陷信息。例如，通过构建具有根据用户需要或主题而构建的相关性的表，在通用数据层GDL中执行数据融合。可选地，执行数据融合的步骤包括对履历信息和缺陷信息执行数据融合。可选地，执行数据融合的步骤包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的全部三个执行数据融合。

在一个示例中，在数据仓库DW中的CELL_PANEL_MAIN表存储在成盒工厂中的面板的基本履历数据，并且CELL_PANEL_CT表存储在工厂中的CT工艺的细节。通用数据层GDL被配置为基于CELL_PANEL_MAIN表和CELL_PANEL_CT表来执行相关操作，以便创建宽表YMS_PANEL。在YMS_PANEL表中可以查询面板的基本履历数据和CT工艺的细节。表名称“YMS_PANEL”中的YMS前缀代表用于缺陷分析的主题，PANEL前缀代表存储在表中的特定PANEL信息。通过由通用数据层GDL对数据仓库DW中的表进行相关操作，可以将不同表中的数据进行融合和关联。

根据不同的业务分析需求，且基于玻璃、hglass(halfglass，半玻璃)、面板，通用数据层GDL中的表可以分为以下数据标签：生产记录、缺陷率、缺陷MAP、DV、SV、检查数据和测试数据。

基于数据仓库DW和/或通用数据层GDL来构建数据集市DMT。数据集市DMT可以用于提供各种报告数据和分析所需的数据，特别是高度定制的数据。在一个示例中，由数据集市DMT提供的定制数据包括关于缺陷率、特定缺陷的频率等的合并数据。在另一示例中，数据湖DL和通用数据层GDL中的数据被存储在基于Hive的数据库中，数据集市DMT中的数据被存储在基于Hbase的数据库中。可选地，数据集市DMT中的表名称可以保持与通用数据层GDL中的一致。可选地，通用数据层GDL基于Apache Hive^TM技术，且数据集市DMT基于ApacheHbas^TM技术。通用数据层GDL用于通过用户界面进行数据查询。可以通过Impala在Hive中快速查询Hive中的数据。数据集市DMT用于计算。基于Hbase中的柱状数据存储的优点，多个算法服务器AS可以快速访问Hbase中的数据。

在一些实施例中，数据集市DMT被配置为存储从存储在通用数据层GDL中的数据表中的各个数据表分成的多个子表。在一些实施例中，存储在数据集市DMT中的数据和存储在通用数据层GDL中的数据具有相同的内容。存储在数据集市DMT中的数据和存储在通用数据层GDL中的数据的区别在于它们存储在不同的数据模型中。取决于用于数据集市DMT的不同类型的NoSQL数据库，可以将数据集市DMT中的数据存储在不同的数据模型中。对应于不同NoSQL数据库的数据模型的示例包括键值数据模型、列族数据模型、版本化文档数据模型和图结构数据模型。在一些实施例中，可以基于指定的键来执行对数据集市DMT的查询，以快速定位要查询的数据(例如，值)。因此，并且如下面更具体地讨论的，可以将存储在通用数据层GDL中的表分成为数据集市DMT中的至少三个子表。第一子表对应于交互式任务子界面中的用户定义的分析标准。第二子表对应于指定的键(例如产品序列号)。第三子表对应于值(例如，存储在通用数据层GDL中的表中的值，包括融合数据)。在一个示例中，数据集市DMT利用基于Apache Hbase^TM技术的NoSQL数据库；第二子表中的指定的键可以是行键；并且第三子表中的融合数据可以存储在列族数据模型中。可选地，第三子表中的融合数据可以是来自参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个的融合数据。此外，数据集市DMT可以包括第四子表。第三子表中的某些字符可以例如由于其长度或其它原因而存储在代码中。第四子表包括对应于存储在第三子表中的这些代码的字符(例如，设备名称、制造站点)。第一子表、第二子表和第三子表之间的索引或查询可基于所述代码。第四子表可用于在结果被呈现给用户界面之前用字符替换代码。

在一些实施例中，多个子表具有在多个子表的至少两个子表之间的索引关系。可选地，基于类型和/或规则对多个子表中的数据进行分类。在一些实施例中，多个子表包括第一子表(例如，属性子表)，其包括与数据管理平台通信的交互式任务子界面中的用户定义的分析标准对应的多个环境因素；第二子表，其包括产品序列号(例如，玻璃标识号或批次标识号)；以及第三子表(例如，主子表)，其包括第三组数据中与产品序列号对应的值。可选地，基于不同的主题，第二子表可以包括不同的指定键，例如玻璃标识号或批次标识号(例如，多个第二子表)。可选地，第三组数据中的值通过第三子表与第二子表之间的索引关系与玻璃标识号对应。可选地，多个子表还包括第四子表(例如，元数据子表)，其包括第三组数据中与批次标识号对应的值。可选地，第二子表还包括批次标识号；可以通过第二子表与第四子表之间的索引关系来获得第三组数据中与批次标识号对应的值。可选地，多个子表还包括第五子表(例如，代码生成器子表)，其包括制造站点信息和设备信息。可选地，第三子表包括制造站点和设备的代码或缩写，通过第三子表与第五子表之间的索引关系，可以从第五子表获得制造站点信息和设备信息。

图9描绘根据本公开的一些实施例中从存储在通用数据层中的数据表分割出的多个子表。参考图9，在一些实施例中，多个子表包括以下中的一个或多个：属性子表，其包括与数据管理平台通信的交互式任务子界面中的用户定义的分析标准对应的多个环境因素；上下文子表，其至少包括多个环境因素中的第一数量的环境因素和多个制造阶段因素，以及与多个环境因素中的第二数量的环境因素对应的多个列；元数据子表，其至少包括多个制造阶段因素中的第一制造阶段因素和与第一制造阶段相关联的设备因素，以及与在第一制造阶段中生成的参数对应的多个列；主子表，其至少包括多个制造阶段因素中的第二制造阶段因素，以及对应于在第二制造阶段中生成的参数的多个列；以及代码生成器子表，其至少包括多个环境因素中的第三数量的环境因素和设备因素。

在一个示例中，多个子表包括以下中的一个或多个：属性子表，其包括由数据标签、工厂信息、制造站点信息、产品型号信息、产品类型信息和产品序列号组成的键；上下文子表，其包括由MED5加密站点的前三个数字、工厂信息、制造站点信息、数据标签、制造结束时间、批次序列号和玻璃序列号组成的键，用于产品型号信息的第一列，用于产品序列号的第二列，以及用于产品类型信息的第三列；元数据子表，其包括由MED5加密站点的前三个数字、批次序列号、数据标签、制造站点信息和设备信息组成的键，用于制造时间的第一列和用于制造参数的第二列；主子表，其包括由MED5加密站点的前三个数字、序列号和玻璃序列号组成的键，用于制造时间的第一列和用于制造参数的第二列；以及代码生成器子表，其包括由数据标签、制造站点信息和设备信息组成的键。可选地，属性子表中的多个环境因素包括数据标签、工厂信息、制造站点信息、产品型号信息、产品类型信息和产品序列号。可选地，多个制造阶段因素包括批次序列号和玻璃序列号。可选地，设备因素包括设备信息。

参照图2和图3，在一些实施例中，软件模块还包括连接到分析器AZ的负载平衡器LB。可选地，负载平衡器LB(例如，第一负载平衡器LB1)被配置为接收任务请求并且被配置为将任务请求分配给多个业务服务器BS中的一个或多个，以实现多个业务服务器BS之间的负载平衡。可选地，负载平衡器LB(例如，第二负载平衡器LB2)被配置为将任务从多个业务服务器BS分配到多个算法服务器AS中的一个或多个，以实现多个算法服务器AS之间的负载平衡。可选地，负载平衡器LB是基于Nginx^TM技术的负载平衡器。

在一些实施例中，智能缺陷分析系统被配置为同时满足许多用户的需求。通过具有负载平衡器LB(例如，第一负载平衡器LB1)，系统以平衡的方式向多个业务服务器AS发送用户请求，从而保持多个业务服务器AS的整体性能最优，并防止由于单个服务器上的过度压力而导致的服务的缓慢响应。

类似地，通过具有负载平衡器LB(例如，第二负载平衡器LB2)，系统以平衡的方式向多个算法服务器AS发送任务，以保持多个算法服务器AS的整体性能最优。在一些实施例中，当设计负载平衡策略时，不仅应当考虑发送到多个算法服务器AS中的每一个的任务的数量，而且还应当考虑每个任务所需的计算负荷量。在一个示例中，涉及三种类型的任务，包括类型“玻璃”的缺陷分析、类型“hglass”的缺陷分析和类型“面板”的缺陷分析。在另一示例中，与类型“玻璃”相关的缺陷数据项的数量平均是每周1百万个，与类型“面板”相关的缺陷数据项的数量平均是每周3千万个。因此，类型“面板”的缺陷分析所需的计算负荷量远大于类型“玻璃”的缺陷分析所需的计算负荷量。在另一示例中，使用公式f(x，y，z)＝mx+ny+oz来执行负载平衡，其中x代表类型“玻璃”的缺陷分析的任务的数量；y代表类型“hglass”的缺陷分析任务的数量；z代表类型“面板”的缺陷分析的任务的数量；m代表为类型“玻璃”的缺陷分析分配的权重；n代表为类型“hglass”的缺陷分析分配的权重；o代表为类型“面板”的缺陷分析分配的权重。基于每种类型的缺陷分析所需的计算负荷量来分配权重。可选地，m+n+o＝1。

在一些实施例中，ETL模块ETLP配置成生成动态更新的表，其周期性地(例如，每天、每小时等)自动更新。可选地，通用数据层GDL被配置为存储动态更新的表。在一个示例中，基于计算工厂中的缺陷发生率的逻辑来生成动态更新的表。在另一示例中，来自数据管理平台DM中的多个表的数据被合并，并经过各种计算，以生成动态更新的表。在另一示例中，动态更新的表包括诸如作业名称、缺陷代码、缺陷代码的出现频率、缺陷代码的级别(玻璃/hglass/面板)、工厂、产品型号、日期的信息，以及其他信息。动态更新的表被定期更新，当数据管理平台DM中的生产数据变化时，动态更新的表中的信息会随之更新，以确保动态更新的表可以具有所有工厂的缺陷代码信息。

图4示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。参考图4，在一些实施例中，数据可视化和交互界面DI被配置为生成任务请求；负载平衡器LB被配置为接收任务请求并且被配置为将任务请求指派给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为向查询引擎QE发送查询任务请求；查询引擎QE被配置为在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得关于高发生率缺陷的信息，并将关于高发生率缺陷的信息发送到多个业务服务器中的一个或多个；多个业务服务器中的一个或多个被配置为将缺陷分析任务发送到负载平衡器LB，以将缺陷分析任务分配给多个算法服务器中的一个或多个，从而实现多个算法服务器之间的负载平衡；在接收到缺陷分析任务时，多个算法服务器中的一个或多个被配置为直接从数据集市DMT获得数据以执行缺陷分析；以及在完成缺陷分析时，多个算法服务器中的一个或多个被配置为将缺陷分析的结果发送到通用数据层GDL。

查询引擎QE能够进行快速访问数据管理平台DM，例如，快速地从数据管理平台DM读取数据或向其写入数据。与通过通用数据层GDL的直接查询相比，具有查询引擎QE是有利的，因为它不需要执行MapReduce(MR)程序来查询通用数据层GDL(例如，Hive数据存储)。可选地，查询引擎QE可以是分布式查询引擎，其可以实时查询通用数据层GDL(HDFS或Hive)，大大减少了等待时间并提高了整个系统的响应性。查询引擎QE可使用各种适当的技术来实现。用于实现查询引擎QE的技术的示例包括Impala^TM技术、Kylin^TM技术、Presto^TM技术和Greenpall^TM技术。

在一些实施例中，任务请求是自动重复(recurring)任务请求，该自动重复任务请求定义了缺陷分析将被执行的重复周期。图5示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。参考图5，在一些实施例中，数据可视化和交互界面DI被配置为生成自动重复任务请求；负载平衡器LB被配置为接收自动重复任务请求并且被配置为将自动重复任务请求分配给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为向查询引擎QE发送查询任务请求；查询引擎QE被配置为在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得限于重复周期的关于高发生率缺陷的信息，并将关于高发生率缺陷的信息发送到多个业务服务器中的一个或多个；在接收到关于在重复周期期间高发生率的缺陷的信息时，多个业务服务器中的一个或多个被配置为基于关于在重复周期期间高发生率的缺陷的信息来生成缺陷分析任务；多个业务服务器中的一个或多个被配置为将缺陷分析任务发送到负载平衡器LB，以将缺陷分析任务分配给多个算法服务器中的一个或多个，从而实现多个算法服务器之间的负载平衡；在接收到缺陷分析任务时，多个算法服务器中的一个或多个被配置为直接从数据集市DMT获得数据以执行缺陷分析；以及在完成缺陷分析时，多个算法服务器中的一个或多个被配置为将缺陷分析的结果发送到通用数据层GDL。

参考图3，在一些实施例中，数据可视化和交互界面DI包括自动任务子界面SUB1，其允许输入要执行缺陷分析的重复周期。自动任务子界面SUB1能够周期性地对高发生率的缺陷进行自动缺陷分析。在自动任务模式中，关于高发生率的缺陷的信息被发送到多个算法服务器AS，以分析引起缺陷的潜在原因。在一个示例中，用户在自动任务子界面SUB1中设置将执行缺陷分析的重复周期。查询引擎QE基于系统设置定时地从动态更新的表中捕获缺陷信息，并将该信息发送给多个算法服务器AS进行分析。这样，系统可以自动监控高发生率的缺陷，并且对应的分析结果可以存储在缓存中，以备访问，以用于在数据可视化和交互界面DI中显示。

在一些实施例中，任务请求是交互式任务请求。图6示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。参考图6，在一些实施例中，数据可视化和交互界面DI被配置为接收用户定义的分析标准，并且被配置为基于用户定义的分析标准生成交互式任务请求；数据可视化和交互界面DI被配置为生成交互式任务请求；负载平衡器LB被配置为接收交互式任务请求，并且被配置为将交互式任务请求分配给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为向查询引擎发送查询任务请求；查询引擎QE被配置为，在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得关于高发生率的缺陷的信息，并将关于高发生率的缺陷的信息发送到多个业务服务器中的一个或多个；在接收到关于高发生率的缺陷的信息时，多个业务服务器中的一个或多个被配置为将信息发送到数据可视化和交互界面；数据可视化和交互界面DI被配置为显示关于高发生率的缺陷和与高发生率的缺陷相关联的多个环境因素的信息，并且被配置为接收对来自多个环境因素中的一个或多个环境因素的用户定义的选择，并且将用户定义的选择发送到多个业务服务器中的一个或多个；多个业务服务器中的一个或多个被配置为基于信息和用户定义的选择来生成缺陷分析任务；多个业务服务器中的一个或多个被配置为将缺陷分析任务发送到负载平衡器LB，以将缺陷分析任务分配给多个算法服务器中的一个或多个，从而实现多个算法服务器之间的负载平衡；在接收到缺陷分析任务时，多个算法服务器中的一个或多个被配置为直接从数据集市DMT获得数据以执行缺陷分析；以及在完成缺陷分析时，多个算法服务器中的一个或多个被配置为将缺陷分析的结果发送到通用数据层GDL。

参考图3，在一些实施例中，数据可视化和交互界面DI包括交互式任务子界面SUB2，其允许输入用户定义的分析标准，包括对一个或多个环境因素的用户定义的选择。在一个示例中，用户可在交互式任务子界面SUB2中逐级过滤各种环境因素，包括数据源、工厂、制造站点、模型、产品型号、批次等。多个业务服务器BS中的一个或多个被配置为基于关于高发生率的缺陷的信息和对一个或多个环境因素的用户定义的选择来生成缺陷分析任务。分析器AZ与通用数据层GDL连续地交互，并使所选择的一个或多个环境因素显示在交互式任务子界面SUB2上。交互式任务子界面SUB2允许用户基于用户的经验将环境因素限制到几个，例如，某些选择的设备或某些选择的参数。

在一些实施例中，通用数据层GDL被配置为基于不同主题来生成表。在一个示例中，表包括包含履历信息的跟踪表，该履历信息包含玻璃或面板在整个制造过程中已经通过的站点和设备的信息。在另一示例中，该表包括dv表，其包含由设备上传的参数信息。在另一示例中，如果用户仅想要分析设备相关性，则用户可以选择跟踪表进行分析。在另一示例中，如果用户仅想要分析设备参数，则用户可以选择dv表进行分析。

参考图3，在一些实施例中，分析器AZ还包括缓存服务器CS和缓存C。缓存C连接到多个业务服务器BS、缓存服务器CS和查询引擎QE。缓存C被配置为存储先前执行的缺陷分析任务的结果的一部分。在一些实施例中，数据可视化和交互界面DI还包括缺陷可视化子界面SUB-3。在一个实施例中，缺陷可视化子界面SUB-3的主要功能是允许用户定制查询，并在用户点击缺陷代码时显示先前执行的缺陷分析任务的对应结果。在一个示例中，用户点击缺陷代码，并且系统经由负载平衡器LB将请求发送到多个业务服务器BS中的一个或多个。多个业务服务器BS中的一个或多个首先查询缓存在缓存C中的结果数据，并且如果缓存的结果数据存在，则系统直接显示缓存的结果数据。如果与所选择的缺陷代码对应的结果数据当前没有被缓存在缓存C中，则查询引擎QE被配置为向通用数据层GDL查询与所选择的缺陷代码对应的结果数据。一旦被查询，系统就将对应于所选择的缺陷代码的结果数据缓存在缓存C中，该结果数据可用于对相同缺陷代码的下一次查询。

图7示出了根据本公开的一些实施例中的使用智能缺陷分析系统的智能缺陷分析方法。参考图7，在一些实施例中，缺陷可视化子界面DI被配置为接收对要分析的缺陷的用户定义的选择，并生成调用请求；负载平衡器LB被配置为接收调用请求并且被配置为将调用请求分配给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为将调用请求发送到缓存服务器；并且缓存服务器被配置为确定关于要分析的缺陷的信息是否存储在缓存中。可选地，在确定关于要分析的缺陷的信息存储在缓存中时，多个业务服务器中的一个或多个被配置为将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，在确定关于要分析的缺陷的信息未存储在缓存中时，多个业务服务器中的一个或多个被配置为向查询引擎发送查询任务请求；查询引擎被配置为，在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得关于要分析的缺陷的信息，并且将关于要分析的缺陷的信息发送到缓存；缓存被配置为存储关于要分析的缺陷的信息；多个业务服务器中的一个或多个被配置为将要分析的缺陷的信息发送至缺陷可视化子界面进行显示。

可选地，先前执行的缺陷分析任务的结果的部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果。可选地，先前执行的缺陷分析任务的结果的部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果；以及基于查询任务请求获得的先前执行的缺陷分析任务的结果。

通过具有缓存服务器CS，可以满足对系统响应速度的高要求(例如，显示与缺陷代码相关联的结果)。在一个示例中，通过自动重复任务请求，每半小时可以生成多达40个任务，其中，每个任务与多达五个不同的缺陷代码相关联，并且每个缺陷代码与多达100个环境因素相关联。若全部分析结果被缓存，则在缓存C中必须存储总数为40*5*100＝20000次的查询，这将给集群存储器带来很大压力。在一个示例中，先前执行的缺陷分析任务的结果的部分被限制为与前三个排名最高的缺陷代码相关联的结果，并且仅缓存该部分。

用于缺陷分析的各种适当方法可以由本文所述的智能缺陷分析系统的多个算法服务器中的一个或多个来实现。图10示出了根据本公开的一些实施例中的缺陷分析方法。参考图10，在一些实施例中，该方法包括获得包括缺陷信息的制造数据信息；根据制造节点组，将制造数据信息分类成多组数据，该多组数据中的各组数据与该制造节点组中的各个制造节点组相关联；计算制造节点组的证据权重以获得多个证据权重，其中证据权重表示在各个制造节点组中的缺陷的占比相对于全部制造节点组中的缺陷的占比之间的差异性；基于多个证据权重对多组数据进行排序；获得基于多个证据权重排序的多组数据的列表；以及对多组数据中的一个或多个所选择的组执行缺陷分析。可选地，各个制造节点组包括从由制造过程、设备、站点和工艺区段组成的组中选择的一个或多个。可选地，可以从数据集市DMT获得制造数据信息。可选地，可以从通用数据层GDL获得制造数据信息。

可选地，该方法包括处理包括履历数据信息、缺陷信息的制造数据信息，以获得处理数据；根据设备组，将处理数据分类成多组数据，该多组数据中的各组数据与设备组中的各个设备组相关联；计算设备组的证据权重，得到多个证据权重；基于多个证据权重对多组数据进行排序；以及对多组数据中具有最高排名的一个或多个组执行缺陷分析。可选地，在参数水平上执行缺陷分析。

在一些实施例中，根据等式(1)计算各个设备组的各个证据权重：

其中，woei表示各个设备组的各个证据权重；P(yi)表示在各个设备组中的正样本的数目与在所有制造节点组(例如，设备组)中的正样本的数目的比；P(ni)表示在各个设备组中的负样本的数目与在所有制造节点组(例如，设备组)中的负样本的数目的比；正样本表示包括与各个设备组相关联的缺陷信息的数据；负样本表示其中不存在与各个设备组相关联的缺陷信息的数据；#yi表示在各个设备组中的正样本的数目；#yr表示在所有制造节点组(例如，设备组)中的正样本的数目；#ni表示在各个设备组中的负样本的数目；#yr表示所有制造节点组(例如，设备组)中的负样本的数目。

在一些实施例中，该方法进一步包括处理该制造数据信息以获得处理数据。可选地，处理制造数据信息包括对履历数据信息和缺陷信息执行数据融合以获得融合数据信息。

在一个示例中，处理制造数据信息以获得处理数据包括获得显示面板的各个制造过程的原始数据信息，包括履历数据信息、参数信息和缺陷信息；对原始数据进行预处理以去除空值数据、冗余数据和虚拟字段，并且基于预设条件对数据进行过滤以获得验证数据；对验证数据中的履历数据信息和缺陷信息进行数据融合，以获得第三融合数据信息；确定融合后的数据信息中的任一条缺陷信息是否包含同一条机检缺陷信息和人工审核缺陷信息，将人工审核缺陷信息(而不是机检缺陷信息)标识为待分析的缺陷信息，从而生成审核后的数据；对审核数据和履历数据信息进行数据融合，以获得第四融合数据信息；从第四融合数据信息中去除非代表性数据，以获得处理后的数据。例如，可以消除在玻璃通过非常少量的设备的过程中生成的数据。当玻璃通过的设备的数量仅占设备总数的小的占比(例如，10％)时，非代表性数据将使分析偏离，从而影响分析的准确性。

在一个示例中，履历数据信息(用于与审核数据融合以获得第四融合数据信息)包括玻璃数据和hglass数据(半玻璃数据，即，在整个玻璃被切成两半之后的历史数据)。然而，审核后的数据是面板数据。在一个示例中，在fab(制造)阶段的glass_id/hglass_id与在EAC2阶段的panel_id融合，其中冗余数据被移除。此步骤的目的是确保在fab阶段的履历数据信息与在EAC2阶段的缺陷信息一致。例如，glass_id/hglass_id中的比特数量与panel_id中的比特数量不同。在一个示例中，panel_id中的比特数被处理成与glass_id/hglass_id中的比特数一致。数据融合后，获得信息完整的数据，包括glass_id/hglass_id、站点信息、设备信息、缺陷信息。可选地，融合后的数据经受附加操作以移除冗余数据项。

在一些实施例中，执行缺陷分析包括对各种类型的参数执行特征抽取以生成参数特征信息，其中针对每种类型的参数抽取最大值、最小值、平均值和中值中的一个或多个。可选地，执行特征抽取包括执行时域分析以抽取统计信息，该统计信息包括计数、平均值、最大值、最小值、范围、方差、偏差、峰度和百分位中的一个或多个。可选地，执行特征抽取包括执行频域分析以将在时域分析中获得的时域信息转换成包括功率谱、信息熵和信噪比中的一个或多个的频域信息。

在一个示例中，对基于多个证据权重排序的多组数据的列表执行特征抽取。在另一示例中，对具有最高排名的多组数据中的一个或多个组执行特征抽取。在另一示例中，对具有最高排名的数据组执行特征抽取。

在一些实施例中，执行缺陷分析还包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个执行数据融合。可选地，执行数据融合包括对参数特征信息和与其相关联的缺陷信息执行数据融合。可选地，执行数据融合包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息执行数据融合。在另一示例中，对参数特征信息与制造过程的履历信息执行数据融合，得到第一融合数据信息；对第一融合数据信息与其关联的缺陷信息执行数据融合，得到第二融合数据信息，第二融合数据信息包括玻璃序列号、制造站点信息、设备信息、参数特征信息和缺陷信息。在一些实施例中，例如，通过构建表在通用数据层GDL中执行数据融合，该表具有根据如上所述的用户需求或主题构造的相关性。

在一些实施例中，该方法还包括执行相关性分析。图11示出了根据本公开的一些实施例中的缺陷分析方法。参见图11，在一些实施例中，该方法包括从第二融合数据信息中抽取参数特征信息和缺陷信息；针对每种类型的参数，对参数特征信息和缺陷信息执行相关性分析；分别针对多种类型的参数，生成多个相关系数；以及对多个相关系数的绝对值排序。在一个示例中，多个相关系数的绝对值按照从最大到最小的顺序排列，使得可以视觉地观察导致缺陷出现的相关参数。这里使用绝对值是因为相关系数可以是正值或负值，即，在参数和缺陷之间可以存在正或负相关。绝对值越大，相关性越强。

在一些实施例中，多个相关系数是多个皮尔逊相关系数。可选地，根据等式(2)计算各个皮尔逊相关系数：

在另一方面，本公开提供了一种由分布式计算系统执行的智能缺陷分析方法，所述分布式计算系统包括一个或多个联网计算机，所述一个或多个联网计算机被配置为并行执行，以执行至少一个共同任务。在一些实施例中，该方法包括：执行数据管理平台，其被配置为存储数据并智能地抽取、转换或加载数据；执行查询引擎，其连接到数据管理平台且被配置为直接从所述数据管理平台直接获得数据；执行分析器，其连接到查询引擎且被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个后端服务器和多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得数据；以及执行数据可视化和交互界面，其被配置为生成所述任务请求。

在一些实施例中，数据管理平台包括ETL模块，其被配置为将来自多个数据源的数据抽取、转换、或加载到数据集市和通用数据层上。在一些实施例中，该方法还包括：在由多个算法服务器中的相应一个接收到分配的任务时，由多个算法服务器中的相应一个直接从数据集市查询第一数据；以及在执行缺陷分析时，通过所述多个算法服务器中的相应一个将第二数据直接发送到所述通用数据层。

在一些实施例中，所述方法还包括由所述ETL模块生成周期性地自动更新的动态更新的表；将动态更新的表存储在通用数据层中。

在一些实施例中，软件模块还包括连接到分析器的负载平衡器。在一些实施例中，该方法还包括由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡，并且由负载平衡器将来自多个后端服务器的任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡。

在一些实施例中，该方法还包括由数据可视化和交互界面生成任务请求；由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在由查询引擎从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于高发生率的缺陷的信息；由查询引擎将关于高发生率的缺陷的信息发送到多个后端服务器中的一个或多个；由多个后端服务器中的一个或多个将缺陷分析任务发送到负载平衡器，以将缺陷分析任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡；在由多个算法服务器中的一个或多个接收到缺陷分析任务时，由多个算法服务器中的一个或多个直接从数据集市查询数据，以执行缺陷分析；以及在完成缺陷分析时，由多个算法服务器中的一个或多个将缺陷分析的结果发送到通用数据层。

在一些实施例中，该方法还包括生成自动重复任务请求。该自动重复任务请求定义了要执行缺陷分析的重复周期。可选地，该方法还包括由查询引擎查询动态更新的表以获得关于限于重复周期的高发生率的缺陷的信息；以及在接收到关于在重复周期期间的高发率的缺陷的信息时，由多个后端服务器中的一个或多个基于关于在重复周期期间的高发生率的缺陷的信息来生成缺陷分析任务。可选地，该方法还包括例如，通过数据可视化和交互界面的自动任务子界面接收要执行缺陷分析的重复周期的输入。

在一些实施例中，该方法还包括生成交互式任务请求。可选地，该方法还包括通过数据可视化和交互界面接收用户定义的分析标准；由数据可视化和交互界面，基于用户定义的分析标准，来生成交互式任务请求；由多个后端服务器中的一个或多个，在接收到关于高发生率的缺陷的信息时，将信息发送到数据可视化和交互界面；通过数据可视化和交互界面，显示关于高发生率的缺陷的信息和与高发生率的缺陷相关联的多个环境因素；由数据可视化和交互界面接收对来自多个环境因素中的一个或多个环境因素的用户定义的选择；由数据可视化和交互界面将用户定义的选择发送到多个后端服务器中的一个或多个；以及由多个后端服务器中的一个或多个，基于信息和用户定义的选择来生成缺陷分析任务。可选地，该方法还包括例如通过数据可视化和交互界面的交互式任务子界面接收用户定义的分析标准的输入，该用户定义的分析标准包括对一个或多个环境因素的用户定义的选择。

在一些实施例中，分析器还包括缓存服务器和缓存。缓存连接到多个后端服务器、缓存服务器和查询引擎。可选地，该方法还包括由缓存存储先前执行的缺陷分析任务的结果的一部分。

在一些实施例中，数据可视化和交互界面包括缺陷可视化子界面。可选地，该方法还包括通过缺陷可视化子界面接收对要分析的缺陷的用户定义的选择，并生成调用请求；由负载平衡器接收调用请求；由负载平衡器将调用请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个将调用请求发送到缓存服务器；以及由缓存服务器确定关于要分析的缺陷的信息是否存储在缓存中。可选地，该方法还包括在确定关于要分析的缺陷的信息存储在缓存中时，多个后端服务器中的一个或多个被配置为将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，该方法还包括在确定关于要分析的缺陷的信息未存储在缓存中时，由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于要分析的缺陷的信息；由查询引擎将关于要分析的缺陷的信息发送到缓存；将关于要分析的缺陷的信息存储在缓存中；以及由多个后端服务器中的一个或多个将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，先前执行的缺陷分析任务的结果的所述部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果；以及基于查询任务请求获得的先前执行的缺陷分析任务的结果。

在另一方面，本公开提供了一种用于智能缺陷分析的计算机程序产品。用于智能缺陷分析的计算机程序产品包括其上具有计算机可读指令的非暂时性有形计算机可读介质。在一些实施例中，计算机可读指令可由分布式计算系统中的处理器执行，以使得处理器执行：执行数据管理平台，该数据管理平台被配置为存储数据，并且智能地抽取、转换或加载数据；执行查询引擎，所述查询引擎连接到所述数据管理平台并且被配置为直接从所述数据管理平台获得所述数据；执行分析器，所述分析器连接到所述查询引擎并且被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个后端服务器和多个算法服务器，所述多个算法服务器被配置为直接从所述数据管理平台获得所述数据；以及执行数据可视化和交互界面，其被配置为生成任务请求，其中，该分布式计算系统包括被配置为并行执行以执行至少一个共同任务的一个或多个联网计算机。

在一些实施例中，数据管理平台包括ETL模块，其被配置为将来自多个数据源的数据抽取、转换、或加载到数据集市和通用数据层上。在一些实施例中，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：在由多个算法服务器中的相应一个接收到分配的任务时，由多个算法服务器中的相应一个直接从数据集市查询第一数据；以及在执行缺陷分析时，通过所述多个算法服务器中的相应一个将第二数据直接发送到所述通用数据层。

在一些实施例中，计算机可读指令还可由分布式计算系统中的处理器执行，以使处理器执行由ETL模块生成周期性地自动更新的动态更新的表；且将动态更新的表存储在通用数据层中。

在一些实施例中，软件模块还包括连接到分析器的负载平衡器。在一些实施例中，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡，并且由负载平衡器将来自多个后端服务器的任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡。

在一些实施例中，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：由数据可视化和交互界面生成任务请求；由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在由查询引擎从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于高发生率的缺陷的信息；由查询引擎将关于高发生率的缺陷的信息发送到多个后端服务器中的一个或多个；由多个后端服务器中的一个或多个将缺陷分析任务发送到负载平衡器，以将缺陷分析任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡；在由多个算法服务器中的一个或多个接收到缺陷分析任务时，由多个算法服务器中的一个或多个直接从数据集市查询数据，以执行缺陷分析；以及在完成缺陷分析时，由多个算法服务器中的一个或多个将缺陷分析的结果发送到通用数据层。

在一些实施例中，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：生成自动重复任务请求。该自动重复任务请求定义了要执行缺陷分析的重复周期。可选地，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：由查询引擎查询动态更新的表以获得关于限于重复周期的高发生率的缺陷的信息；以及在接收到关于在重复周期期间的高发率的缺陷的信息时，由多个后端服务器中的一个或多个基于关于在重复周期期间的高发生率的缺陷的信息来生成缺陷分析任务。可选地，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：例如，通过数据可视化和交互界面的自动任务子界面接收要执行缺陷分析的重复周期的输入。

在一些实施例中，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：生成交互式任务请求。可选地，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：由数据可视化和交互界面接收用户定义的分析标准；由数据可视化和交互界面基于用户定义的分析标准来生成所述交互式任务请求；由多个后端服务器中的一个或多个在接收到关于高发生率缺陷的信息时将信息发送到数据可视化和交互界面；通过数据可视化和交互界面显示关于高发生率的缺陷的信息和与高发生率缺陷相关联的多个环境因素；由数据可视化和交互界面接收对来自多个环境因素中的一个或多个环境因素的用户定义的选择；由数据可视化和交互界面将用户定义的选择发送到多个后端服务器中的一个或多个；以及由多个后端服务器中的一个或多个，基于信息和用户定义的选择来生成缺陷分析任务。可选地，计算机可读指令进一步可由分布式计算系统中的处理器执行，以使得处理器执行：例如通过数据可视化和交互界面的交互式任务子界面接收用户定义的分析标准的输入，该用户定义的分析标准包括对一个或多个环境因素的用户定义的选择。

在一些实施例中，分析器还包括缓存服务器和缓存。缓存连接到多个后端服务器、缓存服务器和查询引擎。可选地，计算机可读指令还可由分布式计算系统中的处理器执行，以使处理器执行：由缓存存储先前执行的缺陷分析任务的结果的一部分。

在一些实施例中，数据可视化和交互界面包括缺陷可视化子界面。可选地，计算机可读指令还可由分布式计算系统中的处理器执行，以使处理器执行：通过缺陷可视化子界面接收对要分析的缺陷的用户定义的选择，并生成调用请求；由负载平衡器接收调用请求；由负载平衡器将调用请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个将调用请求发送到缓存服务器；以及由缓存服务器确定关于要分析的缺陷的信息是否存储在缓存中。可选地，计算机可读指令还可由分布式计算系统中的处理器执行，以使处理器执行：在确定关于要分析的缺陷的信息存储在缓存中时，多个后端服务器中的一个或多个被配置为将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，计算机可读指令还可由分布式计算系统中的处理器执行，以使处理器执行：在确定关于要分析的缺陷的信息未存储在缓存中时，由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于要分析的缺陷的信息；由查询引擎将关于要分析的缺陷的信息发送到缓存；将关于要分析的缺陷的信息存储在缓存中；以及由多个后端服务器中的一个或多个将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，先前执行的缺陷分析任务的结果的所述部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果；以及基于查询任务请求获得的先前执行的缺陷分析任务的结果。

结合本文所公开的配置而描述的各种说明性操作可被实施为电子硬件、计算机软件或两者的组合。这些操作可以用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或设计成产生本文公开的配置的它们的任何组合来实现或执行。例如，这样的配置可以至少部分地被实现为硬连线电路、被制造到专用集成电路中的电路配置、或者被加载到非易失性存储中的固件程序、或者作为机器可读代码从数据存储介质加载或加载到数据存储介质中的软件程序，这样的代码是可由诸如通用处理器或其他数字信号处理单元的逻辑元件阵列执行的指令。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器也可以实现为计算装置的组合，例如DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP核结合、或者任何其它这种配置。软件模块可以驻留在非暂时性存储介质中，例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)，例如闪存RAM、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘或CD-ROM；或者以本领域已知的任何其它形式的存储介质。说明性存储介质耦合到处理器，使得处理器可从存储介质读取信息和将信息写入到存储介质。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留于用户终端中。

为了说明和描述的目的，已经给出了本发明的实施例的上述描述。其不是穷举的，也不是要将本发明限制为所公开的精确形式或示例性实施例。因此，前面的描述应当被认为是说明性的而不是限制性的。显然，许多修改和变化对于本领域技术人员将是显而易见的。选择和描述实施例是为了解释本发明的原理及其最佳模式实际应用，从而使得本领域技术人员能够理解本发明的各种实施例以及适合于所考虑的特定使用或实现的各种修改。本发明的范围旨在由所附权利要求及其等价物来限定，其中除非另有说明，否则所有术语都意味着其最广泛的合理意义。因此，术语“本发明(the invention、the presentinvention)”等不一定将权利要求范围限制为特定实施例，并且对本发明的示例性实施例的引用不意味着对本发明的限制，并且不应推断出这样的限制。本发明仅由所附权利要求的精神和范围来限定。此外，这些权利要求可能涉及使用“第一”、“第二”等，随后是名词或元素。这些术语应当被理解为命名法，并且不应当被解释为对由这些命名法所修改的元件的数量进行限制，除非已经给出了特定的数量。所描述的任何优点和益处可能不适用于本发明的所有实施例。应当理解，在不脱离由所附权利要求限定的本发明的范围的情况下，本领域技术人员可以对所描述的实施例进行改变。此外，本公开中的元件和组件都不是要贡献给公众，无论该元件或组件是否在所附权利要求中明确叙述。

Claims

1.一种用于智能地管理数据的数据管理平台，包括：

ETL模块，其被配置为抽取、清洗、转换或加载数据；

数据湖，其被配置为存储第一组数据，该第一组数据通过由所述ETL模块从多个数据源抽取原始数据而形成，所述第一组数据具有与所述原始数据相同内容；

数据仓库，其被配置为存储第二组数据，该第二组数据通过由所述ETL模块对所述第一组数据进行清洗和标准化而形成；

通用数据层，其被配置为存储第三组数据，该第三组数据通过由所述ETL模块对所述第二组数据进行数据融合而形成，其中，所述通用数据层为存储能用于查询的信息的分布式数据存储器；以及

数据集市，其被配置为存储第四组数据，该第四组数据通过由所述ETL模块转换所述第三组数据而形成，其中，所述数据集市是存储能用于计算处理的信息的NoSQL类型的数据库。

2.根据权利要求1所述的数据管理平台，其中，所述第四组数据包括具有索引关系的多个子表，在所述多个子表中，基于类型和/或规则对数据进行分类，所述第四组数据能用于查询或计算处理。

3.根据权利要求1或2所述的数据管理平台，其中，存储在所述数据湖中的所述第一组数据被动态地更新；以及

所述第一组数据包括存储在基于Kudu^TM的数据库中的实时更新的数据，或存储在Hadoop分布式文件系统中的周期更新的数据。

4.根据权利要求1至3中任一项所述的数据管理平台，其中，所述多个数据源中的所述原始数据的至少一部分是二进制大对象格式；

抽取到并存储在所述数据湖中的所述第一组数据的至少一部分是压缩的十六进制格式；以及

通过对所抽取的数据解压缩和处理，来获得被抽取并存储在所述数据仓库中的所述第二组数据的至少一部分。

5.根据权利要求1至4中的任一项所述的数据管理平台，其中，所述ETL模块还被配置为生成周期性地自动更新的动态更新表；以及

所述通用数据层还被配置为存储包括所关注的缺陷信息的所述动态更新表。

6.根据权利要求1至5中任一项所述的数据管理平台，其中，所述数据集市被配置为存储从存储在所述通用数据层中的数据表中的各个数据表分割出的多个子表；

其中，所述多个子表包括：

第一子表，其包括与所述数据管理平台通信的交互式任务子界面中的用户定义的分析标准对应的多个环境因素；

第二子表，其包括产品序列号；以及

第三子表，其包括所述第三组数据中的与所述产品序列号中的至少一个相对应的值。

7.根据权利要求1至6中任一项所述的数据管理平台，其中，所述通用数据层被配置为对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个执行数据融合。

8.一种智能缺陷分析系统，包括：

分布式计算系统，其包括一个或多个联网计算机，所述联网计算机被配置为并行执行，以执行至少一个共同任务；以及

一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算系统执行时使所述分布式计算系统执行软件模块；

其中，所述软件模块包括：

数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；

分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于造成缺陷的潜在原因的结果数据；以及

数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据。

9.根据权利要求8所述的智能缺陷分析系统，其中，所述数据管理平台包括ETL模块，所述ETL模块被配置为将来自所述多个数据源的数据抽取、转换或加载到作为NoSQL类型的数据库的数据集市上；以及

所述多个算法服务器中的各个算法服务器被配置为在接收到分配的任务时，从所述数据集市获得第一数据。

10.根据权利要求9所述的智能缺陷分析系统，其中，所述ETL模块还被配置为将来自所述多个数据源的数据抽取、转换或加载到作为存储信息的分布式数据存储器的通用数据层上；

所述多个算法服务器中的各个算法服务器被配置为在执行缺陷分析时，将第二数据发送到所述通用数据层；

所述ETL模块被配置为生成周期性地自动更新的动态更新表；以及

所述通用数据层被配置为存储所述动态更新表。

11.根据权利要求10所述的智能缺陷分析系统，其中，所述软件模块还包括查询引擎，所述查询引擎连接到所述数据管理平台且经配置以从所述数据管理平台获得所述管理数据。

12.根据权利要求11所述的智能缺陷分析系统，其中，所述数据可视化和交互界面被配置为生成任务请求；

所述分析器还包括多个业务服务器；

所述多个业务服务器中的一个或多个业务服务器被配置为在接收到所述任务请求时，向所述查询引擎发送查询任务请求；

所述查询引擎被配置为在从所述多个业务服务器中的所述一个或多个业务服务器接收到所述查询任务请求时，查询所述动态更新表，以获得所关注的缺陷信息，并且将所述所关注的缺陷信息发送到所述多个业务服务器中的所述一个或多个业务服务器；

所述多个算法服务器中的一个或多个被配置为在接收到缺陷分析任务时，从所述数据集市获得所述第一数据，以执行缺陷分析；以及

所述多个算法服务器中的一个或多个被配置为在完成所述缺陷分析时，将所述缺陷分析的结果发送到所述通用数据层。

13.根据权利要求12所述的智能缺陷分析系统，其中，所述任务请求是自动重复任务请求，所述自动重复任务请求定义了要执行所述缺陷分析的重复周期；

所述查询引擎被配置为查询所述动态更新表，以获得限于所述重复周期的所述所关注的缺陷信息；以及

所述多个业务服务器中的所述一个或多个业务服务器被配置为在接收到在所述重复周期期间的所述所关注的缺陷信息时，基于在所述重复周期期间的所述所关注的缺陷信息，生成所述缺陷分析任务。

14.根据权利要求13所述的智能缺陷分析系统，其中，所述数据可视化和交互界面包括自动任务子界面，所述自动任务子界面允许输入要执行所述缺陷分析的所述重复周期。

15.根据权利要求12所述的智能缺陷分析系统，其中，所述任务请求是交互式任务请求；

所述数据可视化和交互界面被配置为接收用户定义的分析标准，并且被配置为基于所述用户定义的分析标准来生成所述交互式任务请求；

所述多个业务服务器中的所述一个或多个业务服务器被配置为在接收到所述所关注的缺陷信息时，将所述信息发送到所述数据可视化和交互界面；

所述数据可视化和交互界面被配置为显示所述所关注的缺陷信息和与所述所关注的缺陷相关联的多个环境因素，并且被配置为接收对来自所述多个环境因素中的一个或多个环境因素的用户定义的选择，并且将所述用户定义的选择发送到所述多个业务服务器中的所述一个或多个业务服务器；以及

所述多个业务服务器中的所述一个或多个业务服务器被配置为基于所述信息和所述用户定义的选择生成所述缺陷分析任务。

16.根据权利要求15所述的智能缺陷分析系统，其中，所述数据可视化和交互界面包括交互式任务子界面，所述交互式任务子界面允许输入包括对一个或多个环境因素的所述用户定义的选择的所述用户定义的分析标准。

17.根据权利要求11至16中任一项所述的智能缺陷分析系统，其中，所述分析器还包括多个业务服务器；以及

所述软件模块还包括连接到所述分析器的负载平衡器，所述负载平衡器被配置为接收任务请求并被配置为将所述任务请求分配给所述多个业务服务器中的一个或多个，以实现所述多个业务服务器之间的负载平衡，并且被配置为将来自所述多个业务服务器的任务分配给所述多个算法服务器中的一个或多个，以实现所述多个算法服务器之间的负载平衡。

18.根据权利要求17所述的智能缺陷分析系统，其中，基于当前由所述多个业务服务器中的每一个执行的任务的数量和当前由所述多个业务服务器中的每一个执行的每个任务所需的计算负荷量，将所述任务请求分配给所述多个业务服务器中的所述一个或多个业务服务器中的每一个，以在所述多个业务服务器之间实现最佳负载平衡。

19.根据权利要求17或18所述的智能缺陷分析系统，其中，所述数据可视化和交互界面被配置为生成任务请求；

所述负载平衡器被配置为接收所述任务请求，并且被配置为将所述任务请求分配给所述多个业务服务器中的一个或多个，以实现所述多个业务服务器之间的负载平衡；

所述多个业务服务器中的所述一个或多个业务服务器被配置为向所述查询引擎发送查询任务请求；

所述多个业务服务器中的所述一个或多个业务服务器被配置为将缺陷分析任务发送到所述负载平衡器，以将所述缺陷分析任务分配给所述多个算法服务器中的所述一个或多个算法服务器，以实现所述多个算法服务器之间的负载平衡；

所述多个算法服务器中的所述一个或多个算法服务器被配置为在接收到所述缺陷分析任务时，从所述数据集市查询所述第一数据，以执行缺陷分析；以及

所述多个算法服务器中的所述一个或多个算法服务器被配置为在完成所述缺陷分析时，将所述缺陷分析的结果发送到所述通用数据层。

20.根据权利要求17至19中任一项所述的智能缺陷分析系统，其中，所述分析器还包括连接到所述多个业务服务器和所述查询引擎的缓存服务器；以及

所述缓存服务器被配置为将先前执行的缺陷分析任务的结果的一部分存储在缓存中。

21.根据权利要求20所述的智能缺陷分析系统，其中，所述数据可视化和交互界面包括缺陷可视化子界面；

所述缺陷可视化子界面被配置为接收对要分析的缺陷的用户定义的选择，并生成调用请求；

所述负载平衡器被配置为接收所述调用请求，并且被配置为将所述调用请求分配给所述多个业务服务器中的一个或多个，以实现所述多个业务服务器之间的负载平衡；

所述多个业务服务器中的所述一个或多个业务服务器被配置为将所述调用请求发送到所述缓存服务器；以及

所述缓存服务器被配置为确定关于所述要分析的缺陷的信息是否存储在所述缓存中。

22.根据权利要求21所述的智能缺陷分析系统，其中，在确定关于所述要分析的缺陷的所述信息存储在所述缓存中时，所述多个业务服务器中的所述一个或多个业务服务器被配置为将关于所述要分析的缺陷的所述信息发送到所述缺陷可视化子界面以用于显示。

23.根据权利要求21所述的智能缺陷分析系统，其中，在确定关于所述要分析的缺陷的所述信息未存储在所述缓存中时，所述多个业务服务器中的所述一个或多个业务服务器被配置为向所述查询引擎发送查询任务请求；

所述查询引擎被配置为在从所述多个业务服务器中的所述一个或多个业务服务器接收到所述查询任务请求时，查询所述动态更新表以获得关于所述要分析的缺陷的信息，并且将关于所述要分析的缺陷的所述信息发送到所述缓存；

所述缓存被配置为存储关于所述要分析的缺陷的所述信息；以及

所述多个业务服务器中的所述一个或多个业务服务器被配置为将关于所述要分析的缺陷的所述信息发送到所述缺陷可视化子界面以用于显示。

24.根据权利要求23所述的智能缺陷分析系统，其中，所述先前执行的缺陷分析任务的结果的一部分包括：

基于自动重复任务请求的先前执行的缺陷分析任务的结果；和/或

基于所述查询任务请求获得的先前执行的缺陷分析任务的结果。

25.根据权利要求17至24中任一项所述的智能缺陷分析系统，其中，所述负载平衡器是基于Nginx^TM技术的负载平衡器。

26.根据权利要求10到23中任一项所述的智能缺陷分析系统，其中，所述数据集市基于Apache Hbase^TM技术；以及

所述通用数据层基于Apache Hive^TM技术。

27.根据权利要求8至26中任一项所述的智能缺陷分析系统，其中，所述查询引擎是基于Impala^TM技术的查询引擎。

28.一种由分布式计算系统执行的智能缺陷分析方法，所述分布式计算系统包括一个或多个联网计算机，所述一个或多个联网计算机被配置为并行执行，以执行至少一个共同任务；

该方法包括：

执行数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；

执行分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及

执行数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据。

29.一种用于智能缺陷分析的计算机程序产品，其包括其上具有计算机可读指令的非暂时性有形计算机可读介质，所述计算机可读指令可由分布式计算系统中的处理器执行，所述分布式计算系统包括一个或多个联网计算机，该一个或多个联网计算机被配置为并行执行以执行至少一个共同任务，以使得所述处理器执行：

30.一种用于缺陷分析的方法，其包括：

获得包括缺陷信息的制造数据信息；

根据制造节点组，将所述制造数据信息分类成多组数据，所述多组数据中的各组数据与所述制造节点组中的各个制造节点组相关联；

计算所述制造节点组的证据权重以获得多个证据权重，其中，证据权重表示在各个制造节点组中的缺陷的占比相对于全部所述制造节点组中的缺陷的占比之间的差异性；

基于所述多个证据权重对所述多组数据进行排序；以及

获得基于所述多个证据权重排序的多组数据的列表。

31.根据权利要求30所述的方法，其中，各个制造节点组包括选自由制造工序、设备、站点和工艺区段组成的群中的一个或多个。

32.根据权利要求30所述的方法，其中，根据等式(1)计算各个制造节点组的各个证据权重

33.根据权利要求30所述的方法，还包括：

对各种类型的参数执行特征抽取以生成参数特征信息，其中，针对每种类型的参数抽取最大值、最小值、平均值和中值中的一个或多个；以及

对所述参数特征信息和与其相关联的缺陷信息执行数据融合，以得到融合后的数据信息。

34.根据权利要求33所述的方法，还包括：

从所述融合后的数据信息中抽取所述参数特征信息和所述缺陷信息；

针对来自多组数据的所述列表的每种类型的参数，对所述参数特征信息和所述缺陷信息执行相关性分析；

分别针对多种类型的参数生成多个相关系数；以及

对所述多个相关系数的绝对值进行排序。

35.根据权利要求34所述的方法，其中，所述多个相关系数是多个皮尔逊相关系数；以及

根据等式(2)计算各个皮尔逊相关系数：

36.根据权利要求31至35中任一项所述的方法，还包括处理所述制造数据信息以获得处理后的数据；

其中，处理所述制造数据信息包括对履历数据信息和缺陷信息执行数据融合以获得融合后的数据信息。

37.一种智能缺陷分析系统，包括：

分布式计算系统，其包括一个或多个联网计算机，所述联网计算机被配置为并行执行，以执行至少一个共同任务；

其中，所述软件模块包括：

分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及

数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据；

其中，所述多个算法服务器中的一个或多个被配置为执行根据权利要求30至35中的任一项所述的计算机实现的方法。