CN118014373A

CN118014373A - 一种基于数据质量监测的风险识别模型及其构建方法

Info

Publication number: CN118014373A
Application number: CN202410411187.8A
Authority: CN
Inventors: 楚思思; 马健; 孙佐博; 李江涛
Original assignee: China Automotive Technology and Research Center Co Ltd
Current assignee: China Automotive Technology and Research Center Co Ltd
Priority date: 2024-04-08
Filing date: 2024-04-08
Publication date: 2024-05-10
Anticipated expiration: 2044-04-08
Also published as: CN118014373B

Abstract

本发明属于汽车生产过程中的大数据风险分析领域，具体为一种基于数据质量监测的风险识别模型及其构建方法。该模型包括数据收集、分类、实时监控和风险判定模块，利用阈值分析、趋势分析和模式识别等技术，对生产数据进行综合分析，以识别潜在风险并输出评估结果。通过自动化的数据收集和验证，精确的数据分类，以及智能的风险评估算法，本发明能够提高生产过程的安全性和效率。本发明还包括一个复核机制，用于增强风险评估的可靠性，并采用动态调整功能，根据历史数据和当前复核结果调整风险等级，从而提供灵活且有效的风险管理策略。最终，支持向量机算法用于输出高精度的风险识别结果，为企业提供精确的风险管理依据。

Description

一种基于数据质量监测的风险识别模型及其构建方法

技术领域

本发明属于汽车生产过程中的大数据风险分析领域，具体为一种基于数据质量监测的风险识别模型及其构建方法。

背景技术

随着汽车工业的快速发展，汽车生产过程中涉及的数据类型和数量急剧增加。这些数据包括传感器数据、操作员输入、机器日志等，它们对于监控生产质量、预测维护需求以及优化生产流程至关重要。然而，由于数据量的庞大和复杂性，如何有效地监测数据质量，识别潜在风险，成为了一个挑战。

传统的数据监测方法往往依赖于后期分析，这意味着数据质量问题和生产风险可能在被发现之前已经对生产造成了影响。此外，现有的风险评估模型通常缺乏实时性，不能及时反映数据质量的变化，从而导致风险评估的滞后性。这些限制不仅增加了生产过程中的不确定性，也降低了生产效率和产品质量。

因此，需要一种新的方法来实时监测数据质量，并快速准确地识别风险。本发明提出了一种基于数据质量监测的风险识别模型，该模型能够实时监控汽车生产过程中的各类数据，通过数据逻辑判定技术进行风险评估，并输出风险识别结果。本模型采用阈值分析法、趋势分析法和模式识别法等多种技术，提高了风险识别的准确性和效率。

发明内容

本发明的目的是提供一种基于数据质量监测的多判断模型的实时监测的风险识别模型及构建方法，以实现对汽车生产过程中数据质量的实时监控和风险管理，从而提高生产效率和产品质量，减少生产风险。

为实现上述目的，本发明采用的技术方案是：

一种基于数据质量监测的风险识别模型，用于汽车生产过程中各类数据的风险识别，包括：

处理器，用于运算各模块中模型中的算法；

数据收集模块，用于收集汽车生产过程中产生的数据；

数据分类模块，与所述数据收集模块连接，用于对收集到的数据进行分类；

实时监控模块，与所述数据分类模块连接，用于实时监控分类后的数据；

风险判定模块，与所述实时监控模块连接，用于根据数据质量标准和数据逻辑判定技术进行风险评估，并输出风险识别结果；

其中，所述风险判定模块进一步包括：

使用阈值分析法来确定数据项是否符合质量标准的第一数据逻辑判定模型；

使用趋势分析法来评估数据项的稳定性的第二数据逻辑判定模型；

使用模式识别法来预测数据项的未来风险趋势的第三数据逻辑判定模型。

一种基于数据质量监测的风险识别模型构建方法，包括以下步骤：

S1:通过数据收集模块收集汽车生产过程中产生的数据；

S2:数据分类模块对收集到的数据进行分类；

S3:实时监控模块实时监控分类后的数据，并且将分类后的数据传输给风险判定模块；

S4:应用第一数据逻辑判定模型，根据数据质量标准进行初步风险评估；所述第一数据逻辑判定模型包括使用阈值分析法来确定数据项是否符合质量标准；

S5:应用第二数据逻辑判定模型，对初步评估结果进行复核，以确认风险评估的准确性；所述第二数据逻辑判定模型包括使用趋势分析法来评估数据项的稳定性；

S6:应用第三数据逻辑判定模型，根据复核结果和历史数据对风险等级进行动态调整；所述第三数据逻辑判定模型包括使用模式识别法来预测数据项的未来风险趋势；

S7:根据数据逻辑判定结果输出最终的风险识别结果。

所述步骤S1进一步包括以下子步骤：在汽车生产过程中，首先确定需要收集的数据类型和数据来源，包括传感器数据、操作员输入和机器日志；接着，部署预先定义的数据收集算法，自动从上述数据来源中提取数据；对每个数据来源，设置数据采集频率，表示每小时内数据采集的次数；实施数据验证步骤，以确保收集到的数据的完整性和准确性，包括数据格式和范围的检查。

在更佳实施情况下，所述步骤S1进一步包括以下子步骤：

S11：确定汽车生产过程中需收集数据的类型和来源，包括但不限于传感器数据、操作员输入和机器日志；

S12：部署数据收集算法，其中/>为预先定义的算法，用于自动从上述数据来源中提取数据；

S13：对于每个数据来源，设置数据采集频率，其中/>为正整数，表示每小时内数据采集的次数；

S14：实施数据验证步骤，以确保收集到的数据的完整性和准确性，包括数据格式和范围的检查。

所述步骤S2进一步包括以下子步骤：定义数据分类函数，数据分类函数用于将收集到的数据集合映射到数据类型的集合；对于数据集合中的每个数据项，应用数据分类函数进行分类；设置分类阈值，用于确定数据项是否符合分类标准；当数据项满足阈值条件，则将其分类为相应类型，否则将其标记为未分类。

更佳实施情况下，所述步骤S2进一步包括以下子步骤：

S21：定义数据分类函数，其中/>，/>表示收集到的数据集合，/>表示数据类型的集合；

S22：对于数据集合中的每个数据项，应用数据分类函数/>进行分类，即，其中/>为数据项索引，/>为数据类型索引；

S23：设置分类阈值，其中/>为正实数，用于确定数据项是否符合分类标准；

S24：如果，则将数据项/>分类为类型/>，否则将/>标记为未分类；

其中，表示数据分类函数，/>表示数据集合，/>表示数据类型集合，/>表示第/>个数据项，/>表示第/>个数据类型，/>表示分类阈值。

所述步骤S3进一步包括以下子步骤：定义实时监控函数，实时监控函数用于监控分类后的数据集合和时间集合，并输出监控结果集合；对于数据集合中的每个数据项和时间点，应用监控函数进行监控；设置监控阈值，用于确定数据项是否符合监控标准；如果监控结果满足阈值条件，则记录为正常，否则标记为异常。

在更佳实施情况下，所述步骤S3进一步包括以下子步骤：

S31：定义实时监控函数，其中/>，/>表示分类后的数据集合，/>表示时间集合，/>表示监控结果集合；

S32：对于数据集合中的每个数据项和时间点/>，应用函数/>进行监控，即，其中/>为数据项索引，/>为时间点索引，/>为监控结果索引；

S33：设置监控阈值，其中/>为正实数，用于确定数据项是否符合监控标准；

S34：如果，则将监控结果/>记录为正常，否则将/>标记为异常；

其中，表示实时监控函数，/>表示分类后的数据集合，/>表示时间集合，/>表示监控结果集合，/>表示第/>个数据项，/>表示第/>个时间点，/>表示第/>个监控结果，/>表示监控阈值。

所述步骤S4中通过第一数据逻辑判定模型，使用阈值分析法来确定数据项是否符合质量标准包括以下子步骤：定义风险评估函数，风险评估函数用于将监控结果集合和预设参数集合映射到风险评估结果集合；对于监控结果集合中的每个监控结果和预设参数，应用风险评估函数进行评估；采用决策树算法，根据监控结果和预设参数的值，通过逻辑判断来确定风险评估结果；设置风险评估阈值，用于确定监控结果是否符合风险评估标准；当风险评估结果满足阈值条件，则记录为高风险，否则记录为低风险；对于每个风险评估结果，计算其风险概率，以便进行进一步的风险管理和决策。

在更佳实施情况下，所述步骤S4中通过第一数据逻辑判定模型，使用阈值分析法来确定数据项是否符合质量标准包括以下子步骤：

S41：定义风险评估函数，其中/>，/>表示监控结果集合，/>表示预设参数集合，/>表示风险评估结果集合；

S42：对于监控结果集合中的每个监控结果和预设参数/>，应用函数/>进行风险评估，即/>，其中/>为监控结果索引，/>为预设参数索引，/>为风险评估结果索引；

S43：采用决策树算法，其中/>为计算机执行的算法，用于根据/>和/>的值，通过逻辑判断来确定/>；

S44：设置风险评估阈值，其中/>为正实数，用于确定监控结果是否符合风险评估标准；

S45：如果，则将风险评估结果/>记录为高风险，否则将/>记录为低风险；

S46：对于每个，计算其风险概率/>，其中/>为/>发生的概率，以便进行进一步的风险管理和决策；

其中，表示风险评估函数，/>表示监控结果集合，/>表示预设参数集合，/>表示风险评估结果集合，/>表示决策树算法，/>表示第/>个监控结果，/>表示第/>个预设参数，/>表示第/>个风险评估结果，/>表示风险评估阈值，/>表示风险概率。

在更佳实施情况下，步骤S43的技术实现过程：

S431：定义决策树算法的结构，包括决策节点和叶节点，每个决策节点代表一个属性测试，每个叶节点代表一个类别；

S432：选择信息增益最大的属性作为决策节点，计算方法为，其中/>表示信息增益，/>表示熵，/>表示收集到的数据集合，/>表示属性，/>表示属性/>的值为/>的数据子集，Values指的是属性/>可能取的所有不同值的集合；

S433：对于每个决策节点，基于属性测试的结果，将数据集分割成更小的子集，然后对每个子集重复步骤S432和S433，直到满足停止条件；

S434：停止条件包括所有数据项具有相同的分类，没有剩余的属性，或者进一步的分割不能带来信息增益；

S435：对于生成的决策树，应用剪枝技术以避免过拟合，剪枝过程基于验证数据集的错误率，当决策树的复杂度与错误率之间的比值小于预设阈值时，停止剪枝；

S436：在决策树构建完成后，使用决策树算法DT对新的监控结果和预设参数/>进行分类，输出风险评估结果/>；

S437：风险评估结果的确定基于从根节点到叶节点的路径，每个路径代表一系列的逻辑判断，最终到达的叶节点表示/>的类别。

所述步骤S5中通过第二数据逻辑判定模型，使用趋势分析法来评估数据项的稳定性包括以下子步骤：定义复核函数，复核函数用于将风险评估结果集合和验证参数集合映射到复核结果集合；对于风险评估结果集合中的每个风险评估结果和验证参数，应用复核函数进行复核；设置复核阈值，用于确定风险评估结果是否符合复核标准；如果复核结果满足阈值条件，则记录为符合标准，否则记录为不符合标准。

在更佳实施情况下，所述步骤S5中通过第二数据逻辑判定模型，使用趋势分析法来评估数据项的稳定性包括以下子步骤：

S51：定义复核函数，其中/>，/>表示风险评估结果集合，/>表示验证参数集合，/>表示复核结果集合；

S52：对于风险评估结果集合中的每个风险评估结果和验证参数/>，应用函数进行复核，即/>，其中/>为风险评估结果索引，/>为验证参数索引，/>为复核结果索引；

S53：设置复核阈值，其中/>为正实数，用于确定风险评估结果是否符合复核标准；

S54：如果，则将复核结果/>记录为符合标准，否则将/>记录为不符合标准。

所述步骤S6中通过第三数据逻辑判定模型，使用模式识别法来预测数据项的未来风险趋势包括以下子步骤：定义动态调整函数，动态调整函数用于将复核结果集合和历史数据集合映射到风险等级调整结果集合；对于复核结果集合中的每个复核结果和历史数据，应用动态调整函数进行风险等级调整；采用机器学习算法，根据复核结果和历史数据的值，通过逻辑判断来确定风险等级调整结果；设置风险等级调整阈值，用于确定复核结果是否符合风险等级调整标准；如果风险等级调整结果满足阈值条件，则记录为高风险，否则记录为低风险。

在更佳实施情况下，所述步骤S6中通过第三数据逻辑判定模型，使用模式识别法来预测数据项的未来风险趋势包括以下子步骤：

S61：定义动态调整函数，其中/>，/>表示复核结果集合，/>表示历史数据集合，/>表示风险等级调整结果集合；

S62：对于复核结果集合中的每个复核结果和历史数据/>，应用函数/>进行风险等级调整，即/>，其中/>为复核结果索引，/>为历史数据索引，/>为风险等级调整结果索引；

S63：采用机器学习算法，其中/>为计算机执行的算法，用于根据/>和/>的值，通过逻辑判断来确定/>；

S64：设置风险等级调整阈值，其中/>为正实数，用于确定复核结果是否符合风险等级调整标准；

S65：如果，则将风险等级调整结果/>记录为高风险，否则将/>记录为低风险。

所述步骤S7进一步包括以下子步骤：定义输出函数，输出函数用于将风险等级调整结果集合映射到最终风险识别结果集合；对于风险等级调整结果集合中的每个风险等级调整结果，应用输出函数进行输出；采用支持向量机算法，根据风险等级调整结果的值，通过逻辑判断来确定最终风险识别结果；设置输出阈值，用于确定风险等级调整结果是否符合输出标准；当最终风险识别结果满足阈值条件，则记录为高风险，否则记录为低风险。

在更加实施情况下，所述步骤S7进一步包括以下子步骤：

S71：定义输出函数，其中/>，/>表示风险等级调整结果集合，/>表示最终风险识别结果集合；

S72：对于风险等级调整结果集合中的每个风险等级调整结果，应用函数/>进行输出，即/>，其中/>为风险等级调整结果索引，/>为最终风险识别结果索引；

S73：采用支持向量机算法，其中/>为计算机执行的算法，用于根据/>的值，通过逻辑判断来确定/>；

S74：设置输出阈值，其中/>为正实数，用于确定风险等级调整结果是否符合输出标准；

S75：如果，则将最终风险识别结果/>记录为高风险，否则将/>记录为低风险。

本发明的有益效果：

1.实时监测汽车生产过程中的各类数据，及时识别和评估潜在风险，显著提高生产安全性和可靠性。

2.系统地收集、分类、监控和评估数据，确保风险评估的全面性和系统性，提高风险管理效率。

3.确保数据收集的准确性和完整性，为后续的风险评估提供可靠的数据基础。

4.数据分类的准确性和一致性，提高数据处理效率，为风险评估提供清晰的数据结构。

5.实时监控功能及时发现异常情况，大大降低生产风险和潜在的质量问题。

6.结合决策树算法和风险评估阈值的应用，提供准确且易于理解的风险评估方法。

7.复核步骤增加风险评估的可靠性，确保评估结果的准确性。

8.动态调整功能根据历史数据和当前复核结果进行调整，提供灵活高效的风险管理方法。

9.结合支持向量机算法的最终风险识别结果输出步骤，提供高度精确的风险等级判定。

附图说明

图1为本发明的模型框架图。

图2为本发明的模型构建方法图。

图3为数据收集模块工作原理图。

图4为数据分类模块对数据进行分类工作原理图。

图5为三个数据逻辑判定模型协同工作的原理图。

具体实施方式

为了使本领域技术人员更好地理解技术方案，下面结合实施例对本发明进行详细描述，本部分的描述仅是示范性和解释性，不应对本发明的保护范围有任何的限制作用。

如图1所示，一种基于数据质量监测的风险识别模型，用于汽车生产过程中各类数据的风险识别，包括：

处理器，用于运算各模型中的算法；

数据收集模块，用于收集汽车生产过程中的各类数据；

其中，所述风险判定模块进一步包括：

如图2所示，一种基于数据质量监测的风险识别模型构建方法，包括以下步骤：

S1:通过数据收集模块收集汽车生产过程中的各类数据；

S2:数据分类模块对收集到的数据进行分类；

S7:根据数据逻辑判定结果输出最终的风险识别结果。

在更佳实施情况下，如图3所示，所述步骤S1进一步包括以下子步骤：

更佳实施情况下，如图4所示，所述步骤S2进一步包括以下子步骤：

在更佳实施情况下，所述步骤S3进一步包括以下子步骤：

如图5中的第一数据逻辑判断模型，所述步骤S4中通过第一数据逻辑判定模型，使用阈值分析法来确定数据项是否符合质量标准包括以下子步骤：定义风险评估函数，风险评估函数用于将监控结果集合和预设参数集合映射到风险评估结果集合；对于监控结果集合中的每个监控结果和预设参数，应用风险评估函数进行评估；采用决策树算法，根据监控结果和预设参数的值，通过逻辑判断来确定风险评估结果；设置风险评估阈值，用于确定监控结果是否符合风险评估标准；当风险评估结果满足阈值条件，则记录为高风险，否则记录为低风险；对于每个风险评估结果，计算其风险概率，以便进行进一步的风险管理和决策。

S46：对于每个，计算其风险概率/>，其中/>为/>发生的概率，以便进行进一步的风险管理和决策;

如图5中的第二数据逻辑判断模型，所述步骤S5中通过第二数据逻辑判定模型，使用趋势分析法来评估数据项的稳定性包括以下子步骤：定义复核函数，复核函数用于将风险评估结果集合和验证参数集合映射到复核结果集合；对于风险评估结果集合中的每个风险评估结果和验证参数，应用复核函数进行复核；设置复核阈值，用于确定风险评估结果是否符合复核标准；如果复核结果满足阈值条件，则记录为符合标准，否则记录为不符合标准。

如图5中的第三数据逻辑判断模型，所述步骤S6中通过第三数据逻辑判定模型，使用模式识别法来预测数据项的未来风险趋势包括以下子步骤：定义动态调整函数，动态调整函数用于将复核结果集合和历史数据集合映射到风险等级调整结果集合；对于复核结果集合中的每个复核结果和历史数据，应用动态调整函数进行风险等级调整；采用机器学习算法，根据复核结果和历史数据的值，通过逻辑判断来确定风险等级调整结果；设置风险等级调整阈值，用于确定复核结果是否符合风险等级调整标准；如果风险等级调整结果满足阈值条件，则记录为高风险，否则记录为低风险。

在更加实施情况下，所述步骤S7进一步包括以下子步骤：

需要说明的是，在本文中，术语：包括、包含及任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。本文中应用了具体个例对本发明技术方案的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于数据质量监测的风险识别模型，用于汽车生产过程中数据的风险识别，其特征在于，包括：

处理器，用于运算各模块中模型中的算法；

数据收集模块，用于收集汽车生产过程中产生的数据；

其中，所述风险判定模块进一步包括：

2.一种基于数据质量监测的风险识别模型构建方法，其特征在于，包括以下步骤：

S1:通过数据收集模块收集汽车生产过程中产生的数据；

S2:数据分类模块对收集到的数据进行分类；

S7:根据数据逻辑判定结果输出最终的风险识别结果。

3.根据权利要求2所述的基于数据质量监测的风险识别模型构建方法，其特征在于，所述步骤S1进一步包括以下子步骤：在汽车生产过程中，首先确定需要收集的数据类型和数据来源，包括传感器数据、操作员输入和机器日志；接着，部署预先定义的数据收集算法，自动从上述数据来源中提取数据；对每个数据来源，设置数据采集频率，表示每小时内数据采集的次数；实施数据验证步骤，以确保收集到的数据的完整性和准确性，包括数据格式和范围的检查。

4.根据权利要求2所述的基于数据质量监测的风险识别模型构建方法，其特征在于，所述步骤S2进一步包括以下子步骤：定义数据分类函数，数据分类函数用于将收集到的数据集合映射到数据类型的集合；对于数据集合中的每个数据项，应用数据分类函数进行分类；设置分类阈值，用于确定数据项是否符合分类标准；当数据项满足阈值条件，则将其分类为相应类型，否则将其标记为未分类。

5.根据权利要求2所述的基于数据质量监测的风险识别模型构建方法，其特征在于，所述步骤S3进一步包括以下子步骤：定义实时监控函数，实时监控函数用于监控分类后的数据集合和时间集合，并输出监控结果集合；对于数据集合中的每个数据项和时间点，应用监控函数进行监控；设置监控阈值，用于确定数据项是否符合监控标准；如果监控结果满足阈值条件，则记录为正常，否则标记为异常。

6.根据权利要求2所述的基于数据质量监测的风险识别模型构建方法，其特征在于，所述步骤S4中通过第一数据逻辑判定模型，使用阈值分析法来确定数据项是否符合质量标准包括以下子步骤：定义风险评估函数，风险评估函数用于将监控结果集合和预设参数集合映射到风险评估结果集合；对于监控结果集合中的每个监控结果和预设参数，应用风险评估函数进行评估；采用决策树算法，根据监控结果和预设参数的值，通过逻辑判断来确定风险评估结果；设置风险评估阈值，用于确定监控结果是否符合风险评估标准；当风险评估结果满足阈值条件，则记录为高风险，否则记录为低风险；对于每个风险评估结果，计算其风险概率，以便进行进一步的风险管理和决策。

7.根据权利要求2所述的基于数据质量监测的风险识别模型构建方法，其特征在于，所述步骤S5中通过第二数据逻辑判定模型，使用趋势分析法来评估数据项的稳定性包括以下子步骤：定义复核函数，复核函数用于将风险评估结果集合和验证参数集合映射到复核结果集合；对于风险评估结果集合中的每个风险评估结果和验证参数，应用复核函数进行复核；设置复核阈值，用于确定风险评估结果是否符合复核标准；如果复核结果满足阈值条件，则记录为符合标准，否则记录为不符合标准。

8.根据权利要求2所述的基于数据质量监测的风险识别模型构建方法，其特征在于，所述步骤S6中通过第三数据逻辑判定模型，使用模式识别法来预测数据项的未来风险趋势包括以下子步骤：定义动态调整函数，动态调整函数用于将复核结果集合和历史数据集合映射到风险等级调整结果集合；对于复核结果集合中的每个复核结果和历史数据，应用动态调整函数进行风险等级调整；采用机器学习算法，根据复核结果和历史数据的值，通过逻辑判断来确定风险等级调整结果；设置风险等级调整阈值，用于确定复核结果是否符合风险等级调整标准；如果风险等级调整结果满足阈值条件，则记录为高风险，否则记录为低风险。

9.根据权利要求2所述的基于数据质量监测的风险识别模型构建方法，其特征在于，所述步骤S7进一步包括以下子步骤：定义输出函数，输出函数用于将风险等级调整结果集合映射到最终风险识别结果集合；对于风险等级调整结果集合中的每个风险等级调整结果，应用输出函数进行输出；采用支持向量机算法，根据风险等级调整结果的值，通过逻辑判断来确定最终风险识别结果；设置输出阈值，用于确定风险等级调整结果是否符合输出标准；当最终风险识别结果满足阈值条件，则记录为高风险，否则记录为低风险。