CN118013471A

CN118013471A - 一种基于arima模型的识别数据处理方法及系统

Info

Publication number: CN118013471A
Application number: CN202410423972.5A
Authority: CN
Inventors: 丁九龄; 张婉蒙; 叶迎春; 陈刚
Original assignee: Shandong Future Network Research Institute Industrial Internet Innovation Application Base Of Zijinshan Laboratory
Current assignee: Shandong Future Network Research Institute Industrial Internet Innovation Application Base Of Zijinshan Laboratory
Priority date: 2024-04-10
Filing date: 2024-04-10
Publication date: 2024-05-10

Abstract

本发明提供一种基于ARIMA模型的识别数据处理方法及系统，涉及数据识别技术领域，该方法包括如下步骤：获取数据库中目标表的数据字段；采用编码规则和识别数据模板定义识别生成规则；通过编码规则选取数据字段并生成识别编码；通过识别数据模板选取数据字段并生成识别数据；通过训练后的ARIMA模型对数据字段进行预测，得到结果；本发明从数据库中实时获取数据，通过编码规则和识别数据模板定义识别数据格式，形成特有的识别数据，并传至下一节点，直接从数据库中获得数据生成识别数据，效率高，生成的识别数据便于识别；同时ARIMA模型对识别数据模板待获取数据字段进行预测，若发现异常数据，则进行告警，提醒用户及时关注生产数据。

Description

一种基于ARIMA模型的识别数据处理方法及系统

技术领域

本发明涉及数据识别技术领域，具体为一种基于ARIMA模型的识别数据处理方法及系统。

背景技术

ARIMA（差分自回归移动平均）模型是一种非常常用的时间序列分析方法，用于描述随时间变化的统计规律。它被广泛用于许多领域，如经济学、金融学、气象学等以预测未来发展趋势和做出决策。

近年来，机器学习技术的发展为数据的识别和分类带来了新的突破。尤其是深度学习技术的发展，更是实现了对数据的高度自动化分类和处理。通过深度学习技术，我们可以训练机器学习模型，使其自动学习数据的特征和规律，并用习后的模型对新数据进行分类和识别。但是，对于某复杂的数据集，仍然存在分类和识别精度不够高的问题。

发明内容

针对现有技术的不足，本发明提供了一种基于ARIMA模型的识别数据处理方法及系统。

为实现以上目的，第一方面，本发明提供的一种基于ARIMA模型的识别数据处理方法，通过以下技术方案予以实现：

一种基于ARIMA模型的识别数据处理方法，包括如下步骤：

获取数据库目标表中的数据字段；

采用编码规则和识别数据模板定义识别生成规则；

通过编码规则选取数据字段并生成识别编码；

通过识别数据模板选取数据字段并生成识别数据；

建立ARIMA模型，并对ARIMA模型进行训练，通过训练后的ARIMA模型对数据字段进行预测，得到结果；

通过采用上述技术方案，从数据库中实时获取数据，通过编码规则和识别数据模板定义识别数据格式，形成特有的识别数据，并传至下一节点，直接从数据库中获得数据生成识别数据，效率高，生成的识别数据便于识别；同时ARIMA模型对识别数据模板待获取数据字段进行预测，若发现异常数据，则进行告警，提醒用户及时关注生产数据。

可选的，所述识别数据模板定义的标识包含m个标识属性，m个标识属性对应m个数据字段，在m个字段中，根据业务场景选择j个字段，其中，0≤j≤m，对j个字段进行数据处理，根据业务场景选择l(0≤l≤m)个字段，对l个字段进行数据转换。

可选的，述ARIMA模型的训练过程为：

选取n条数据作为训练的原始时间序列；

获取原始时间序列的ADF检验的p值；

根据ADF检验的p值对原始数列进行差分确定d值；

对原始序列差分后得到ΔY，采用Ljung-Box 检验分别计算ΔY序列在5,10,12滞后期数下的p值；

令0<=p<=9, 0<=q<=9,组成10*10=100种模型，计算每个模型的对应的AIC值；

选取AIC值最小的一组模型，并对参数进行检验。

其中，ARIMA(p, d, q)模型的展开表示如下：

是时间序列数据；

到/>是AR模型的参数，这些参数用来描述当前值与过去p个时间点值之间的关系；

到是/>是MA模型的参数，这些参数用来描述当前值与过去q个时间点的误差之间的关系；

是在t时间点的误差项，c是一个常数项。

可选的，所述根据ADF检验p值确定d值的方式为：若p值大于0.05，继续对原始数列进行差分后计算ADF检验p值，直至差分序列为稳定序列，差分次数即为d。

可选的，所述AIC是一种模型选择准则，它综合考虑了模型的拟合优度和模型的复杂度，可以用来比较不同模型之间的优劣。

可选的，所述AIC值的计算公式为：AIC = 2k–2ln(L)，其中k是模型中估计参数的数量，L是模型拟合的最大对数似然。

可选的，所述数据转化采用线性转换，线性转换采用最大最小规格化方法，公式如下：

转换后的属性值 =（待转换属性值-属性最小值）/（属性最大值-属性最小值）*（映射区间最大值-映射区间最小值）+映射区间最小值。

第二方面，一种基于ARIMA模型的识别数据处理系统，其特征在于，包括：

数据获取模块，被配置为：获取数据库目标表中的数据字段；

编码规则模块，被配置为：通过编码规则选取数据字段生成识别编码；

识别数据模板模块，被配置为：通过识别数据模板选取数据字段并生成识别数据；

训练模块，被配置为：对ARIMA模型进行训练；

预测模块，被配置为：数据字段进行预测，得到结果。

第三方面，一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于ARIMA模型的识别数据处理方法。

第四方面，一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于ARIMA模型的识别数据处理方法。

本发明提供了一种基于ARIMA模型的识别数据处理方法，具备以下有益效果：

本发明提供一种基于ARIMA模型的识别数据处理方法，本发明从数据库中实时获取数据，通过编码规则和识别数据模板定义识别数据格式，形成特有的识别数据，并传至下一节点，直接从数据库中获得数据生成识别数据，效率高，生成的识别数据便于识别，结合了ARIMA模型的优势和时间序列数据的特点，能够准确、高效地处理大规模序列数据，提升数据的识别和预测能力；同时ARIMA模型对识别数据模板待获取数据字段进行预测，若发现异常数据，则进行告警，提醒用户及时关注生产数据。

附图说明

图1为本发明实施例示出的一种基于ARIMA模型的识别数据处理方法的流程示意图。

图2是ARIMA模型的训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一个实施例，而不是所有的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于ARIMA模型的识别数据处理方法，包括如下步骤：

实施例1：

获取数据库目标表中的数据字段。

采用编码规则和识别数据模板定义识别生成规则。

通过编码规则选取数据字段并生成识别编码；编码规则为：采用VAA编码规则，由标识前缀和标识后缀组成；标识前缀的编码由国家代码、行业代码以及企业代码组成，为固定形式；标识后缀的编码与目标表中的若干字段具有映射关系，字段需包含唯一索引，用以保证通过目标表中的一条数据能唯一匹配一个识别编码。例如某厂家生产的温度传感器设备，其识别编码由7位标识前缀+12位标识后缀构成，其中标识前缀由固定为88.395.10，标识后缀由6位出厂日期+6位产品序列号构成；选取 “温度传感器表”中“CREATE_DATE”字段对应出厂日期，选取唯一索引“SERIAL_NO”字段对应产品序列号。

通过识别数据模板选取数据字段并生成识别数据；识别数据模板规定了标识数据的内容和格式，是实现标识解析和标识数据交换的重要基础，若识别数据模板定义了m个标识属性，则从目标表中选取m个字段，与模板的m个属性一一对应，例如创建名为“温度传感器”的识别数据模板，定义了“价格”、“生产日期”、“质检员”三个属性，分别对应“温度传感器表”的“pRICE”、“CREATE_DATE”、“QC”三个字段。

在目标表选取的m个字段中，根据业务场景选择j个字段，其中，0≤j≤m，对j个字段进行数据处理，数据处理包括非空值校验，当前字段不能为空；数据范围校验，针对数字类型的字段，校验当前字段需在一定数字范围之内；枚举值校验，定义一组枚举值，校验当前字段取值必须在所列枚举值之内；时间格式校验，校验当前字段需满足指定的时间格式，如“yyyy-MM-dd HH:mm:ss”；字段长度校验，校验当前字段的字符长度需在一定范围之内；正则表达式校验，提供一个正则表达式，校验当前字段是否能与正则表达式相匹配。

根据业务场景选择l(0≤l≤m)个字段，对l个字段进行数据转换，数据转换采用线性转换，线性转换采用最大最小规格化方法，公式如下：

例如目标表中的“产品价格”字段，单位为分，最大值为10000，最小值为0。需要将字段单位改为元，则映射区间最大值为100，最小值为0，现取出一条待转换数据6534，套用公式得：转换后的属性值=(6534-0)/(10000-0)*(100-0)+0=65.34。

建立ARIMA模型，并对ARIMA模型进行训练。

通过训练后的ARIMA模型对数据字段进行预测，得到结果。

在以上所选取的m个字段中，根据业务场景选择k个字段定义基于ARIMA模型的告警规则，0≤k≤m；具体为：通过ARIMA模型对下一时刻获得的数据进行预测，将估计值与实际值进行比较，若实际值较大程度偏离估计值，则触发告警。

结合图2，建立ARIMA模型并对其进行训练，具体训练过程如下：

选取n条数据作为训练的原始时间序列；针对选定的字段，选取距离当前时刻最近n条数据作为原始时间序列Y，用于训练ARIMA模型，变量n可设置，默认为100。

ARIMA模型的p值是自回归阶数，q是移动平均阶数。

获取原始时间序列的ADF检验的p值，根据ADF检验的p值对原始数列进行差分确定d值；若p值大于0.05，则对原始序列进行差分得到一阶差分序列ΔY，再次计算ADF检验p值，如此差分若干次，直到p值小于0.05。此时的差分序列ΔY为稳定序列，差分的次数即ARIMA(p, d, q)模型中的参数d。

采用Ljung-Box检验分别计算ΔY序列在5,10,12滞后期数下的p值，令原假设(H0)：序列之间相互独立，即序列为独立分布的白噪声；备择假设(H1)：序列为非白噪声；若检验得到的p值小于0.05，则认为序列为非白噪声，进行下一步。

令0<=p<=9, 0<=q<=9,组成10*10=100种模型，计算每个模型的对应的AIC值；对于参数p和q，分别令0<=p<=9, 0<=q<=9,组成10*10=100种模型，分别对ΔY序列进行拟合,将拟合后的结果利用赤池信息准则计算AIC值，AIC = 2k – 2ln(L)，其中k是模型中估计参数的数量，L是模型拟合的最大对数似然。

选取AIC值最小的一组模型，对残差做异方差检验，令原假设(H0)：该序列同方差，备择假设(H1)：该序列为异方差，若检验得到的p值大于0.05，则说明残差高度类似于白噪声数据，继续执行下一步，否则取上一步中AIC值较小的模型继续验证，或者人工干预调整模型参数，直到检验的p值大于0.05。

利用ARIMA模型对下一时刻数据进行预测，与实际获取的数据比较，计算绝对误差百分比，绝对误差百分比=|预测值-实际值|/实际值，当绝对误差百分比超过一定阈值时，触发告警。

实施例2：

一种基于ARIMA模型的识别数据处理系统，其特征在于，包括：

训练模块，被配置为：对ARIMA模型进行训练；

预测模块，被配置为：数据字段进行预测，得到结果。

实施例3：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于ARIMA模型的识别数据处理方法。

实施例4：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于ARIMA模型的识别数据处理方法。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于ARIMA模型的识别数据处理方法，其特征在于，包括如下步骤：

获取数据库目标表中的数据字段；

采用编码规则和识别数据模板定义识别生成规则；

通过编码规则选取数据字段并生成识别编码；

通过识别数据模板选取数据字段并生成识别数据；

建立ARIMA模型，并对ARIMA模型进行训练，通过训练后的ARIMA模型对待获取的数据字段进行预测，得到结果。

2.根据权利要求1所述的一种基于ARIMA模型的识别数据处理方法，其特征在于，所述识别数据模板包含m个标识属性，m个标识属性对应m个数据字段，在m个字段中，根据业务场景选择j个字段，其中，0≤j≤m，对j个字段进行数据处理，根据业务场景选择l个字段，对l个字段进行数据转换，0≤l≤m。

3.根据权利要求2所述的一种基于ARIMA模型的识别数据处理方法，其特征在于，所述ARIMA模型的训练过程为：

选取n条数据作为训练的原始时间序列；

获取原始时间序列的ADF检验的p值；

根据ADF检验的p值对原始数列进行差分确定d值；

对原始序列差分后得到ΔY，采用Ljung-Box检验分别计算ΔY序列在5,10,12滞后期数下的p值；

选取AIC值最小的一组模型，并对参数进行检验，

其中，ARIMA(p, d, q)模型的展开表示如下：

,

是时间序列数据；

到/>是MA模型的参数，这些参数用来描述当前值与过去q个时间点的误差之间的关系；

是在t时间点的误差项，c是一个常数项。

4.根据权利要求3所述的一种基于ARIMA模型的识别数据处理方法，其特征在于，所述根据ADF检验的p值对原始数列进行差分确定d值，包括：若p值大于0.05，继续对原始数列进行差分后计算ADF检验p值，直至差分序列为稳定序列，差分次数即为d。

5.根据权利要求4所述的一种基于ARIMA模型的识别数据处理方法，其特征在于，所述AIC值的计算公式为：AIC = 2k–2ln(L)，其中k是模型中估计参数的数量，L是模型拟合的最大对数似然。

6.根据权利要求2所述的一种基于ARIMA模型的识别数据处理方法，其特征在于，所述数据转化采用线性转换，线性转换采用最大最小规格化方法，公式如下：

7.一种基于ARIMA模型的识别数据处理系统，其特征在于，包括：

训练模块，被配置为：对ARIMA模型进行训练；

预测模块，被配置为：数据字段进行预测，得到结果。

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1所述的一种基于ARIMA模型的识别数据处理方法。

9.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1所述的一种基于ARIMA模型的识别数据处理方法。