CN117313957B

CN117313957B - 基于大数据分析的生产流水任务量智能预测方法

Info

Publication number: CN117313957B
Application number: CN202311594464.5A
Authority: CN
Inventors: 韩坤宇
Original assignee: Dishan Group Weihai Import And Export Co ltd; Dishang Group Co ltd; Shandong Dishang Clothing Technology Research Co ltd; Shandong Dishang Professional Tooling Group Co ltd; Weihai Dishang Garment Technology Research And Development Co ltd; Weihai Textile Group Import And Export Co ltd; Weihai Huachuang Software Co ltd
Current assignee: Dishan Group Weihai Import And Export Co ltd; Dishang Group Co ltd; Shandong Dishang Clothing Technology Research Co ltd; Shandong Dishang Professional Tooling Group Co ltd; Weihai Dishang Garment Technology Research And Development Co ltd; Weihai Textile Group Import And Export Co ltd; Weihai Huachuang Software Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-02-27
Anticipated expiration: 2043-11-28
Also published as: CN117313957A

Abstract

本发明涉及数据处理技术领域，具体涉及基于大数据分析的生产流水任务量智能预测方法，该方法包括：获取流水线工人的历史数据；对流水线工人一天中每小时的工作量进行分析，构建异常偏离分数；根据流水线工人一天的异常偏离分数的分布特征获取波动系数，构建异类系数；对全部流水线工人同一天的异类系数进行分析，构建密度距离序列；获取最佳密度值；构建各异类系数的局部密度；对异类系数进行异常检测；从而完成流水线生产任务量的预测，有效避免数据存在异常导致预测不准确题，提高数据质量，获取更准确的预测结果。

Description

基于大数据分析的生产流水任务量智能预测方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于大数据分析的生产流水任务量智能预测方法。

背景技术

生产流水任务量起着衡量生产效率和工作量的重要作用，能够协调各个环节的工作进度，以确保整个生产过程的顺利进行。如果任务量过大，可能会导致生产过程中产品堆压现象的发生。这是因为无法及时处理和完成大量任务，造成生产线堵塞和产品积压。这不仅影响了生产效率，还可能引发质量问题和资源浪费；如果任务量过小，可能会出现生产线上没有正在进行的工作，导致停工现象的发生，导致生产时间与人力资源的浪费，降低生产效率。

在生产时由于工人的情绪、机械运行出现故障等因素，会导致流水线生产的产品数量出现异常，在生产流水任务量进行预测时，需要进行数据的挖掘，对数据进行离群点的检测，数据挖掘是对外数据进行预测分析的基础。通过现有LOF算法对数据流水线生产数据进行数据的检测，由于流水线一天不同时刻生产的产品数量不同，一天内生产相同数量的产品的数据，也会有存在异常的情况，直接采用LOF算法对于生产数据的异常检测准确率低。

发明内容

为了解决上述技术问题，本发明提供基于大数据分析的生产流水任务量智能预测方法，以解决现有的问题。

本发明的基于大数据分析的生产流水任务量智能预测方法采用如下技术方案：

本发明一个实施例提供了基于大数据分析的生产流水任务量智能预测方法，该方法包括以下步骤：

获取流水线工人的历史数据，包括：流水线工人在每天或每小时的工作量；

根据流水线工人一天中各小时的工作量的分布差异获取流水线工人一天中各小时的工作量的异常偏离分数；根据流水线工人一天中各小时的工作量的异常偏离分数获取偏离集合；根据偏离集合中的异常偏离分数的分布特征获取流水线工人一天的每小时波动系数；根据流水线工人一天中各小时的异常偏离分数之间的差异结合对应的波动系数获取流水线工人一天工作量的异类系数；根据所有流水线工人同一天工作量的异类系数之间的欧氏距离获取各异类系数的密度距离序列；根据各异类系数的密度距离序列获取异类系数的最佳密度值；根据异类系数的最佳密度值获取各异类系数的局部密度；根据各异类系数的局部密度对异类系数进行异常检测获取处理后的流水线工人工作量数据；根据处理后的流水线工人工作量数据获取流水线生产任务量的预测。

优选的，所述根据流水线工人一天中各小时的工作量的分布差异获取流水线工人一天中各小时的工作量的异常偏离分数，具体步骤包括：

获取所有流水线工人一天中各小时工作量的均值以及标准差；

若所述标准差等于0，则标准差调节因数等于1；若所述标准差不等于0，则标准差调节因数等于0；

计算流水线工人一天中各小时的工作量与所述均值的差值，计算所述标准差与所述标准差调节因数的和值，计算所述差值与所述和值的比值，将所述比值与所述均值的乘积的绝对值作为流水线工人一天中各小时的工作量的异常偏离分数。

优选的，所述根据流水线工人一天中各小时的工作量的异常偏离分数获取偏离集合，获取方法为：

对于一个流水线工人在一天中各小时的异常偏离分数；将所述异常偏离分数从小到大进行排列，将极差最小的连续个异常偏离分数作为偏离集合的元素，其中，n表示流水线工人一天的工作小时，/>表示向上取整函数。

优选的，所述根据偏离集合中的异常偏离分数的分布特征获取流水线工人一天的每小时异常偏离分数的波动系数，获取方法为：

将所述极差与所述工作小时的比值周围流水线工人一天的每小时异常偏离分数的波动因子；

将所述波动因子作为以自然常数为底数的指数函数的指数；计算所述偏离集合中所有异常偏离分数的均值；计算偏离集合中所有异常偏离分数与所述均值的差值绝对值的和值；计算所述工作小时与所述均值的乘积；计算所述和值与所述乘积的比值；将所述比值与所述指数函数的乘积作为流水线工人一天的每小时异常偏离分数的波动系数。

优选的，所述根据流水线工人一天中各小时的异常偏离分数之间的差异结合对应的波动系数获取流水线工人一天工作量的异类系数，获取方法为：

计算一个流水线工人在一天中各小时的异常偏离分数之间的差值；将差值小于对应波动系数的异常偏离分数划分为一类，保存为偏离类别；

统计各偏离类别在流水线工人一天中出现的概率；将所述概率作为以2为底数的对数函数的自变量；计算各偏离类别中异常偏离分数的均值；计算所述均值、所述概率、所述对数函数的乘积的相反数；将流水线工人在一天中所有偏离类别所述相反数的和值作为流水线工人一天工作量的异类系数。

优选的，所述根据所有流水线工人同一天工作量的异类系数之间的欧氏距离获取各异类系数的密度距离序列，具体为：

针对各异类系数，计算各异类系数与其他异类系数之间的欧氏距离，并升序排列获取排列序号，计算各排列序号对应的欧氏距离与各排列序号的比值，将所述比值按照排列序号从小到大进行排序组成各异类系数的密度距离序列。

优选的，所述根据各异类系数的密度距离序列获取异类系数的最佳密度值，具体步骤包括：

对于各异类系数的密度距离序列；将所述密度距离序列中连续m个和值最小的对应的排列序号作为各异类系数对应的密度距离序号集合的元素，其中，m为预设值；

获取所述密度距离序号集合的最大元素；获取所述最大元素对应密度距离序号集合出现的次数；计算所有所述最大元素与所述次数的乘积的和值，将所述和值与异类系数的总个数的比值取整作为异类系数的最佳密度值。

优选的，所述根据异类系数的最佳密度值获取各异类系数的局部密度，表达式为：

式中，表示异类系数P的局部密度；/>表示异类系数的最佳密度值，即邻域点的数量；/>表示左边邻域点的个数；/>表示左边第/>个邻域点到中心点P的距离；/>表示左边邻域点的个数；/>表示左边第/>个邻域点到中心点P的距离。

优选的，所述根据各异类系数的局部密度对异类系数进行异常检测获取处理后的流水线工人工作量数据，具体为：

将所有流水线工人一天的异类系数作为LOF算法的输入，结合各异类系数的局部密度获取各异类系数的异常得分；

设置阈值；将异常得分大于阈值的异类系数对应的流水线工人数据进行剔除，获取处理后的流水线工人工作量数据。

优选的，所述根据处理后的流水线工人工作量数据获取流水线生产任务量的预测，具体步骤包括：

将所有流水工人一天的工作量数据作为训练数据，采用移动平均算法输出预测的流水线生产任务量。

本发明至少具有如下有益效果：

本发明主要通过对流水线工人的工作量数据进行异常数据的处理，提高流水线工人工作量数据的质量以及可靠性，使得构建的预测模型具有更高的鲁棒性，能够更加准确地对生产流水任务量进行预测。

本发明首先对每个流水线工人一天每小时的工作量数据进行分析，构建异常偏离分数，这个分数值可以体现工人的生产量的波动或异常情况；构建异常偏离分数的波动系数，体现工人的生产量在一天中的变化情况；构建流水线工人一天工作量的异类系数，全面评估流水线工人的一天生产的综合表现；通过异类系数之间的欧式距离，计算最佳密度值，这个值反映出全体异类系数密度最高的邻域值；利用最佳密度值计算生产分数的邻域的局部密度，使用邻域的局部密度对LOF算法进行改进，可以有效地避免原始LOF算法对一维数据局部密度波动较大。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明提供的基于大数据分析的生产流水任务量智能预测方法的流程图；

图2为异类系数的分布示意图；

图3为异类系数的临近数据获取方法示意图；

图4为局部密度的获取流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于大数据分析的生产流水任务量智能预测方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于大数据分析的生产流水任务量智能预测方法的具体方案。

本发明一个实施例提供的基于大数据分析的生产流水任务量智能预测方法。

具体的，提供了如下的基于大数据分析的生产流水任务量智能预测方法，请参阅图1，该方法包括以下步骤：

步骤S001：获取流水线工人的历史数据，并对数据进行预处理。

收集流水线工人的历史数据，包括每位工人在每小时和每天的工作量。这些数据可以通过工作系统记录或手动记录的方式获取。对流水线工人每小时工作量，将历史数据按照小时进行分组。

步骤S002：计算流水线工人一天中每一个小时的异常偏离分数；计算工人一天中每小时的异常偏离分数的波动系数；之后构建流水线工人一天的异类系数；通过异类系数之间的欧式距离，计算异类系数的最佳密度值；利用最佳密度值计算异类系数的局部密度。

流水线工人在生产产品时，由于各种因素（如设备故障、材料质量、操作技能等）可能会导致在某些时刻生产的产品数量发生一些波动，因此需要对每个工人在一天中某个小时的工作量进行均值和标准偏差的计算和分析。均值和标准差是描述数据集中趋势与分散程度的统计量，可以帮助我们了解数据是否稳定、是否存在异常值等问题。

将流水线工人一天中某一个小时的工作量记为（/>表示第/>个流水线工人，表示历史数据中第/>天的第/>小时），计算异常偏离分数，表达式为：

式中，表示第/>个流水线工人在第/>天中第/>小时的工作量的异常偏离分数；/>表示取绝对值函数；/>表示第/>个流水线工人在第/>天中第/>小时的工作量；/>表示流线工人在第/>天中第y小时的工作量均值；/>表示流线工人在第/>天中第y小时工作量的标准差；/>表示标准差调节因数。

当流水线工人在第天中第/>小时生产的产品数量越接近于全体流水线工人在第天中第/>小时工作量平均值时，两者之差越小，则异常偏离分数的值越小，证明该流水线工人在第/>天中第/>小时的工作量是离群点的可能性就越小。

根据上式，能够得到流水线工人一天中每小时的异常偏离分数。

在生产过程中，流水线工人在不同时间生产数量（工作量）的波动是不可避免的。因此计算得到的工作量的异常偏离分数之间存在一定范围的误差，需要消除由生产数量波动引起的误差，得到更准确、可靠的数据结果。这种误差值可能不是离群点数据影响的，而是采用集中数据计算，忽略了由于离群点数据对误差值的计算影响。接下来对离群数据进行分析，这样可以获得更准确、可靠的误差值。

具体的，将流水线工人一天中每小时的异常偏离分数，按照从小到大的规则进行重新排序，计算连续的数据的极差（n表示工人一天工作的小时个数，/>表示向上取整函数），选出极差值最小的/>个异常偏离分数，保存为偏离集合A。考虑到会出现最小极差值相等的情况，本实施例中选择第一个出现的最小极差值作为偏离集合，实施者可采取其他方法进行选择。

根据偏离集合A中的异常偏离分数，获取波动因子以及波动系数，表达式为：

式中，表示流水线工人/>在第/>天的每小时异常偏离分数的波动因子；A表示偏离集合；/>、/>分别表示最大值、最小值函数；/>表示流水线工人每天工作的小时数量；/>表示流水线工人/>在第/>天的每小时异常偏离分数的波动系数；/>表示偏离集合A中第/>个异常偏离分数；/>表示偏离集合A中异常偏离分数的均值；/>表示以自然常数为底数的指数函数，/>表示流水线工人/>在第/>天的每小时波动系数的权重因子。

当波动因子值越小，表明流水线工人在第/>天的每个小时生产的产品数量趋于同一个值；生产的产品数量越趋于同一个值，则/>的值越小，计算得到的平均偏离距离的值越小，使得计算出的流水线工人/>在第/>天的每个小时工作量的异常偏离分数的波动系数的值越小。

针对流水线工人一天中的每一个小时异常偏离分数，若异常偏离分数之间的差值小于对应的波动系数，则将这两个异常偏离分数划分为一类，将类别保存为偏离类别（表示流水线工人/>在第/>天的第/>个偏离类别）。对于流水线工人每个小时生产数量的数据会有一些波动，也有可能出现离群数据，通过上述描述，构建流水线工人一天工作量的异类系数，表达式为：

式中，表示流水线工人/>在第/>天工作量的异类系数；/>表示流水线工人/>在第/>天的偏离类别个数；/>表示流水线工人/>在第/>天第/>个偏离类别中异常偏离分数的均值；/>表示第/>个偏离类别在流水线工人/>的第/>天出现的概率，/>表示以2为底数的对数函数。将/>看作流水线工人/>的每/>个偏离类别的权重。

第j个偏离类别在所有流水线工人第x天出现的概率越小，表明第j类的异常偏离分数的数量越少，通过对每一个类别附加权重，计算流水线工人一天工作量的异类系数。且流水线工人一天工作量的偏离类别数量越大，计算得到流水线工人一天工作量的异类系数的值越大。

计算所有流水线工人的每天工作量的异类系数。由于绝大多数的流水线工人生产产品数相差不多，因此计算得到异类系数的值相差不大，相差较远的值为离群数据，此数据为异常数据。通过对数据之间的欧式距离进行分析，可以得到每一个数据点的所有的密度距离，组成密度距离序列。本实施例中数据之间的距离默认为欧式距离，实施者也可采用其他距离进行计算。

具体的，将各异类系数按顺序排列，异类系数的分布如图2所示，以点A为例计算密度距离：其中距离点A最近的点是点B，所以点A的第一密度距离是点A、B之间的距离除以1得到的记为；距离点A第二近的点是点C，使用点A、C之间的距离除以2，得到点A第二密度距离/>；距离A第三近的点是点E，使用点C、E之间的距离除以3，得到点A第三密度距离；以此类推，计算点A的密度距离序列。

通过上述计算过程计算每一个异类系数的密度距离序列。

对于异类系数的密度距离序列，作如下分析。对于每个流水线工人每天工作量的异类系数，首先选出异类系数连续m个和值最小的密度距离，将密度距离对应的序号值组成密度距离序号集合（/>表示第/>个异类系数。例如：和值最小的密度距离是第四密度距离，第五密度距离、第六密度距离，集合F中的值为4、5、6），本实施例中m取值为3，实施者可根据实际情况自行调整。通过每一个异类系数构成的集合，计算异类系数的最佳的密度值，表达式为：

式中，表示异类系数的最佳密度值；/>表示四舍五入取整函数；/>表示异类系数的总数量；/>表示最大值函数；/>表示第/>个异类系数对应的密度距离序号集合；/>表示数值为/>对应的异类系数的个数。

数值为对应的异类系数的个数越大，说明值为/>的密度值出现的次数越多，/>出现的次数越多，在计算异类系数的最佳密度值时所附带的权重应该越高，异类系数的最佳密度值/>的值越靠近次数出现越多的/>。

获取每个异类系数的K个临近数据（这里的数据指的是异类系数），以异类系数P为中心点，将左边的数据个数记为，将左边第/>个点与中心点的距离记为/>；将右边的数据个数记为/>，将右边第/>个点与中心的距离记为/>；如图3所示，将左边第1、2、3个点与中心点的距离分别记为/>、/>、/>；将右边第1、2个点与中心点的距离分别记为/>、。求得每一个数据点的局部密度，表达式为：

式中，表示异类系数P的局部密度；/>表示异类系数的最佳密度值，即邻域点的数量；/>表示左边邻域点的个数；/>表示左边第/>个邻域点到中心点P的距离；/>表示左边邻域点的个数；/>表示左边第/>个邻域点到中心点P的距离。其中，局部密度的获取流程如图4所示。

若邻域点到中心点P的距离越小，其邻域点左右分布相等，计算得到局部密度距离的值减小，使得中心点P的K邻域内的局部密度越大。

将所有流水线工人同一天的异类系数作为LOF算法的输入，将异类系数的局部密度替换LOF（局部离群因子）算法中数据点的局部密度进行替换，对LOF算法进行改进，改进后可以有效地避免原始LOF算法对于一维数据局部密度波动较大。使用改进的LOF算法对异类系数进行异常检测，获取各异类系数的异常得分。需要说明的是，LOF算法为现有公知技术，本实施例中不再赘述。

步骤S003：对异常得分进行分析，剔除流水线工人一天工作量的异常数据，并对流水线任务量进行预测。

对于上述步骤得到流水线工人一天工作量的异常得分，将异常得分大于阈值T，取经验值1.10，进行剔除。对于剔除后的流水线工人一天工作量的数据作为训练数据，考虑到距离预测越近的数据对预测数据的印象越大，因此采用指数移动平均算法（EMA）对于流线生产任务量进行预测。由于指数移动平均算法（EMA）为公知技术，具体过程不在赘述。

至此，完成对生产流水任务量智能预测方法。

综上所述，本发明实施例主要通过对流水线工人的工作量数据进行异常数据的处理，提高流水线工人工作量数据的质量以及可靠性，使得构建的预测模型具有更高的鲁棒性，能够更加准确地对生产流水任务量进行预测。

本发明首先对每个流水线工人一天每小时的工作量数据进行分析，构建异常偏离分数，这个分数值可以体现工人的生产量的波动或异常情况；构建异常偏离分数的波动系数，体现工人的生产量在一天中的变化情况；构建流水线工人一天工作量的异类系数，全面评估流水线工人的一天生产的综合表现；通过异类系数之间的欧式距离，计算最佳密度值，这个值反映出全体异类系数密度最高的邻域值；利用最佳密度值计算生产分数的邻域的局部密度，使用邻域的局部密度对LOF算法进行改进，可以有效地避免原始LOF算法对一维数据局部密度波动较大的情况。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，均应包含在本发明的保护范围之内。

Claims

1.基于大数据分析的生产流水任务量智能预测方法，其特征在于，该方法包括以下步骤：

根据流水线工人一天中各小时的工作量的分布差异获取流水线工人一天中各小时的工作量的异常偏离分数；根据流水线工人一天中各小时的工作量的异常偏离分数获取偏离集合；根据偏离集合中的异常偏离分数的分布特征获取流水线工人一天的每小时波动系数；根据流水线工人一天中各小时的异常偏离分数之间的差异结合对应的波动系数获取流水线工人一天工作量的异类系数；根据所有流水线工人同一天工作量的异类系数之间的欧氏距离获取各异类系数的密度距离序列；根据各异类系数的密度距离序列获取异类系数的最佳密度值；根据异类系数的最佳密度值获取各异类系数的局部密度；根据各异类系数的局部密度对异类系数进行异常检测获取处理后的流水线工人工作量数据；根据处理后的流水线工人工作量数据获取流水线生产任务量的预测；

所述根据流水线工人一天中各小时的工作量的分布差异获取流水线工人一天中各小时的工作量的异常偏离分数，具体步骤包括：

计算流水线工人一天中各小时的工作量与所述均值的差值，计算所述标准差与所述标准差调节因数的和值，计算所述差值与所述和值的比值，将所述比值与所述均值的乘积的绝对值作为流水线工人一天中各小时的工作量的异常偏离分数；

所述根据流水线工人一天中各小时的工作量的异常偏离分数获取偏离集合，获取方法为：

对于一个流水线工人在一天中各小时的异常偏离分数；将所述异常偏离分数从小到大进行排列，将极差最小的连续个异常偏离分数作为偏离集合的元素，其中，n表示流水线工人一天的工作小时，/>表示向上取整函数；

所述根据偏离集合中的异常偏离分数的分布特征获取流水线工人一天的每小时异常偏离分数的波动系数，获取方法为：

将所述极差与所述工作小时的比值作为流水线工人一天的每小时异常偏离分数的波动因子；

将所述波动因子作为以自然常数为底数的指数函数的指数；计算所述偏离集合中所有异常偏离分数的均值；计算偏离集合中所有异常偏离分数与所述均值的差值绝对值的和值；计算所述工作小时与所述均值的乘积；计算所述和值与所述乘积的比值；将所述比值与所述指数函数的乘积作为流水线工人一天的每小时异常偏离分数的波动系数；

所述根据流水线工人一天中各小时的异常偏离分数之间的差异结合对应的波动系数获取流水线工人一天工作量的异类系数，获取方法为：

统计各偏离类别在流水线工人一天中出现的概率；将所述概率作为以2为底数的对数函数的自变量；计算各偏离类别中异常偏离分数的均值；计算所述均值、所述概率、所述对数函数的乘积的相反数；将流水线工人在一天中所有偏离类别所述相反数的和值作为流水线工人一天工作量的异类系数；

所述根据所有流水线工人同一天工作量的异类系数之间的欧氏距离获取各异类系数的密度距离序列，具体为：

针对各异类系数，计算各异类系数与其他异类系数之间的欧氏距离，并升序排列获取排列序号，计算各排列序号对应的欧氏距离与各排列序号的比值，将所述比值按照排列序号从小到大进行排序组成各异类系数的密度距离序列；

所述根据各异类系数的密度距离序列获取异类系数的最佳密度值，具体步骤包括：

获取所述密度距离序号集合的最大元素；获取所述最大元素对应密度距离序号集合出现的次数；计算所有所述最大元素与所述次数的乘积的和值，将所述和值与异类系数的总个数的比值取整作为异类系数的最佳密度值；

所述根据异类系数的最佳密度值获取各异类系数的局部密度，表达式为：

2.如权利要求1所述的基于大数据分析的生产流水任务量智能预测方法，其特征在于，所述根据各异类系数的局部密度对异类系数进行异常检测获取处理后的流水线工人工作量数据，具体为：

3.如权利要求1所述的基于大数据分析的生产流水任务量智能预测方法，其特征在于，所述根据处理后的流水线工人工作量数据获取流水线生产任务量的预测，具体步骤包括：