CN116703455B

CN116703455B - 基于时间序列的混合模型的医药数据销售预测方法及系统

Info

Publication number: CN116703455B
Application number: CN202310961960.3A
Authority: CN
Inventors: 吕洋; 张旭东
Original assignee: Beijing Yaoyun Data Technology Co ltd
Current assignee: Beijing Yaoyun Data Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-11-10
Anticipated expiration: 2043-08-02
Also published as: CN116703455A

Abstract

本发明提供了基于时间序列的混合模型的医药数据销售预测方法及系统，涉及医药销售预测技术领域，该基于时间序列的混合模型的医药数据销售预测方法包括以下步骤：获取医药销售的时间序列数据，对时间序列数据集中的医药销售数据进行预处理，构建特征矩阵；基于特征矩阵分别构建短期预测模型和长期预测模型；模型训练和测试评估；根据预测需求通过优化后的短期预测模型或长期预测模型进行医药数据销售的预测，并将预测结果进行可视化展示，利用解释性机器学习算法对预测结果进行解释和推论。本发明可以有效提高预测模型的准确性和鲁棒性；有助于提高预测结果的应用价值，可以帮助企业进行推理和决策，更好地把握市场趋势和竞争环境。

Description

基于时间序列的混合模型的医药数据销售预测方法及系统

技术领域

本发明涉及医药销售预测技术领域，具体来说，特别涉及基于时间序列的混合模型的医药数据销售预测方法及系统。

背景技术

医药数据销售预测模型技术是随着大数据和人工智能技术的快速发展而兴起的。随着医药行业竞争日益激烈，越来越多的企业开始关注销售预测模型技术，以便更好地规划市场策略、提高销售业绩和降低风险。

以往，医药企业通常使用传统的销售预测方法，如基于经验的直觉预测和基于历史数据的回归分析等。这些方法往往不能准确地预测未来销售情况，而且缺乏对市场趋势和竞争环境的深入分析。随着大数据和机器学习技术的发展，医药企业开始将这些新技术应用到销售预测中，从而获得更加准确和精细的预测结果。

近年来，医药数据销售预测模型技术取得了较为显著的进展。首先，在数据收集方面，医药企业可以通过各种渠道获取更多、更全面的销售数据；其次，在建模方法方面，新颖、高效的机器学习算法被广泛应用，如深度学习、随机森林等；最后，在应用领域方面，医药企业不仅将销售预测模型应用于市场营销策略的规划和制定，还逐渐将其扩展到供应链管理和库存控制等领域。总之，医药数据销售预测模型技术在不断发展和创新，以满足医药企业对销售数据分析和决策支持的日益增长的需求。

传统的销售预测方法主要包括基于经验的直觉预测和基于历史数据的回归分析等。这些方法在一定程度上可以对销售情况进行预测，但存在诸多缺点。例如，基于经验的直觉预测缺乏科学性和准确性；而基于历史数据的回归分析则忽略了市场趋势和竞争环境等诸多因素。

数据挖掘和机器学习技术是目前医药销售预测领域中比较流行的技术。通过这些方法，可以从大量数据中挖掘出有用的信息，并建立相应的预测模型。与传统方法相比，数据挖掘和机器学习技术具有更高的准确性和可靠性，能够更好地预测未来的销售情况。

然而，在医药数据销售预测方向上，目前流行的数据挖掘和机器学习技术仍然存在着诸多局限性，具体存在以下缺陷：

1、数据挖掘和机器学习技术需要大量的数据和计算资源，并且模型构建和评估过程比较复杂，需要专业知识和技能支持。

2、对医药行业而言，目前可用的数据源通常比较有限，这会影响模型的准确性和稳定性。

3、目前，数据挖掘和机器学习技术在应用到医药数据销售预测时，往往只是利用了简单常规的算法进行数据处理和模型建立，远远缺乏准确性和稳定性，难以在医药领域普及。

4、市场趋势和竞争环境变化快速，机器学习方法难以及时适应新的市场变化。

5、现有技术在预测结果的解释和推理方面存在局限性，难以为企业提供有效的决策支持。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

有鉴于此，本发明提供基于时间序列的混合模型的医药数据销售预测方法及系统，以解决上述提及的传统方法在预测准确性和可靠性方面存在局限性问题。

为了解决上述问题，本发明采用的具体技术方案如下：

根据本发明的一方面，提供了基于时间序列的混合模型的医药数据销售预测方法，该方法包括以下步骤：

S1、基于医药大数据获取医药销售的时间序列数据，得到时间序列数据集；

S2、对时间序列数据集中的医药销售数据进行预处理，得到标准化数据；

S3、基于得到标准化数据进行特征工程，通过选择和构造特征，构建特征矩阵；

S4、基于特征矩阵分别构建短期预测模型和长期预测模型；

S5、将特征矩阵分为训练集和测试集，采用K折交叉验证法对构建的短期预测模型和长期预测模型进行模型训练和测试评估；

S6、根据预测需求通过优化后的短期预测模型或长期预测模型进行医药数据销售的预测，并将预测结果进行可视化展示，利用解释性机器学习算法对预测结果进行解释和推论。

作为本文的一个实施例，所述基于医药大数据获取医药销售的时间序列数据包括以下步骤：

S11、确定需要获取的医药数据的类型和时间范围；

S12、基于医药大数据获取医药销售数据，所述医药销售数据包括历史销售数据、药品研发数据及医院诊疗数据；

S13、将医药销售数据按照时间顺序组织成时间序列，得到时间序列数据集。

作为本文的一个实施例，所述对时间序列数据集中的医药销售数据进行预处理，得到标准化数据包括以下步骤：

S21、采用水平处理方法对医药销售数据中的异常数据进行处理，并利用异常数据点相邻时刻点的数据平均值取代异常点数据；

S22、采用相似日纵向插值法对异常处理后的医药销售数据中的缺失数据进行填补；

S23、采用min-max归一化方式对填补后的医药销售数据进行归一化处理，将医药销售数据的值限制在[0,1]的范围区间内。

作为本文的一个实施例，所述基于得到标准化数据进行特征工程，通过选择和构造特征，构建特征矩阵包括以下步骤：

S31、收集与医药销售相关的数据；

S32、利用最大信息系数法分析与医药销售相关的影响因素，并筛选出前h个相关的影响因素；

S33、对筛选出的前h个相关影响因素进行特征工程，包括特征选择和特征构造，并构建特征矩阵。

作为本文的一个实施例，所述基于特征矩阵构建短期预测模型包括以下步骤：

S41、通过单位根检验法对特征矩阵中的医药销售数据的时间序列数据进行平稳性检验；

S42、采用贝叶斯信息准则法确定平稳时间序列模型的阶数；

S43、通过作残差序列自相关函数和偏相关函数图，检验平稳时间序列模型的残差是否为白噪声序列，若残差满足白噪声序列要求，则该平稳时间序列选择合理，否则，重复步骤S41-S43，直至确定最佳的模型，并将其作为短期预测模型。

作为本文的一个实施例，所述基于特征矩阵构建长期预测模型包括以下步骤：

S44、基于特征矩阵中的相关影响因素，并通过加权灰色关联投影法选择相似日数据集；

S45、通过bootstrap重抽样的方法从相似日数据集中进行抽样，得到K个二级训练集，并将K作为随机森林的决策树数；

S46、基于二级训练集并根据RFR算法生成相应的CART决策树，并在决策树生成的过程中，对于每个分量节点，从M维属性特征中不放回的抽出m维属性特征，遍历m维属性以及属性对应的数值，计算最小均方值，得到最优的分割数据；

S47、训练每一棵决策树，直至达到预设终止条件，并得到长期预测模型。

作为本文的一个实施例，所述基于特征矩阵中的相关影响因素，并通过加权灰色关联投影法选择相似日数据集包括以下步骤：

S441、基于特征矩阵中的相关影响因素构建灰色关联判断矩阵；

S442、采用熵权法确定各影响因素的权重，得到权向量；

S443、基于得到的权向量对灰色关联判断矩阵进行加权处理，得到加权灰色关联决策矩阵；

S444、将加权灰色关联决策矩阵中的每一行视为一个行向量，则定义第一行为待预测日的行向量，其他的作为历史日行向量，并计算各个历史日行向量与在待预测日行向量的灰色关联投影值；

S445、根据各个历史日向量的灰色投影值按从大到小排序，并选取大于预设灰色投影阈的医药销售数据作为相似日样本集。

作为本文的一个实施例，所述计算各个历史日行向量与待预测日行向量的灰色关联投影值的计算公式为：式中，D _i表示第i个样本向量在待预测日向量上的投影值；

ω _j表示第j个影响因素的权重值；

F _ij表示第i个样本向量的第j个影响因素对应的灰色关联度值；

h表示筛选出与医药销售相关的影响因素的个数。

作为本文的一个实施例，所述将特征矩阵分为训练集和测试集，采用K折交叉验证法对构建的短期预测模型和长期预测模型进行模型训练和测试评估包括以下步骤：

S51、将特征矩阵平均的划分为K组，并选取其中的一组作为测试集，其余的作为训练集；

S52、将构建的短期预测模型和长期预测模型分别在训练集上进行模型训练；

S53、将测试集分别用于训练好的短期预测模型和长期预测模型中进行预测，得到预测结果；

S54、采用平均绝对误差衡量预测结果与测试集中的真实值进行评估；

S55、基于评估结果对短期预测模型和长期预测模型进行优化和调整。

根据本发明的另一方面，提供了基于时间序列的混合模型的医药数据销售预测系统，该系统包括：时间序列数据获取模块、时间序列数据处理模块、特征选择构造模块、长短期模型构建模块、长短期模型评估模块及预测结果可视化模块；

所述时间序列数据获取模块，用于基于医药大数据获取医药销售的时间序列数据，得到时间序列数据集；

所述时间序列数据处理模块，用于对时间序列数据集中的医药销售数据进行预处理，得到标准化数据；

所述特征选择构造模块，用于基于得到标准化数据进行特征工程，通过选择和构造特征，构建特征矩阵；

所述长短期模型构建模块，用于基于特征矩阵分别构建短期预测模型和长期预测模型；

所述长短期模型评估模块，用于将特征矩阵分为训练集和测试集，采用K折交叉验证法对构建的短期预测模型和长期预测模型进行模型训练和测试评估；

所述预测结果可视化模块，用于根据预测需求通过优化后的短期预测模型或长期预测模型进行医药数据销售的预测，并将预测结果进行可视化展示，利用解释性机器学习算法对预测结果进行解释和推论。

本发明的有益效果为：

1、本发明通过对医药大数据进行处理和分析，构建短期和长期预测模型，以实现对医药销售的准确预测，通过特征工程和模型训练，可以有效提高预测模型的准确性和鲁棒性；采用解释性机器学习算法对预测结果进行解释和推论，使得预测结果更加可解释和可信；这对于决策者和业务用户来说，更易于理解和接受预测结果，有助于提高预测结果的应用价值，可以帮助企业进行推理和决策，更好地把握市场趋势和竞争环境。

2、本发明可以帮助企业分析市场需求、竞争情况和消费趋势，预测医药市场的发展趋势，通过分析历史销售数据、药品研发数据等，可以制定更合理的市场营销策略，提高企业的市场竞争力，制定更准确的生产计划和备货策略，提高库存周转率，可以预测未来的销售量和销售额，为企业的决策提供参依据。

3、本发明通过前期对医药销售相关数据的分析和筛选，得到与医药销售相关的影响因素，并对这些影响因素进行特征工程，包括特征选择和特征构造等环节，可以得到更为精准和有效的特征矩阵，从而提高短期预测模型的准确性和可靠性，基于特征矩阵构建短期预测模型，通过平稳性检验、阶数确定和残差检验等步骤，可以得到最佳的平稳时间序列模型，并将其作为短期预测模型。这样可以有效提高短期预测模型的准确性和鲁棒性，使其更加适用于实际医药销售预测应用场景。

4、本发明通过加权灰色关联投影法选择相似日数据集，并通过bootstrap重抽样的方法得到K个二级训练集，可以挖掘出医药销售数据中的规律和趋势，为长期预测模型的构建提供更为精确和有效的数据基础，基于RFR算法和CART决策树，可以充分考虑特征之间的关联性，有效避免特征之间的干扰和噪声干扰，提高模型的可靠性和鲁棒性，从而更好地满足医药销售行业的实际需求。

5、选择最大信息系数法、单位根检验法、贝叶斯信息准则法、残差序列自相关函数和偏相关函数、加权灰色关联投影法、CART决策树、K折交叉验证法等进行数据处理和模型建立，极大提高了数据运算和建立模型的准确性和稳定性，实现对医药数据销售预测的精准预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是根据本发明实施例的基于时间序列的混合模型的医药数据销售预测方法的流程图；

图2是根据本发明实施例的基于时间序列的混合模型的医药数据销售预测系统的原理框图。

图中：

1、时间序列数据获取模块；2、时间序列数据处理模块；3、特征选择构造模块；4、长短期模型构建模块；5、长短期模型评估模块；6、预测结果可视化模块。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

根据本发明的实施例，提供了基于时间序列的混合模型的医药数据销售预测方法及系统。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的一个实施例，提供了基于时间序列的混合模型的医药数据销售预测方法，该方法包括以下步骤：

作为优选实施方式，所述基于医药大数据获取医药销售的时间序列数据包括以下步骤：

S11、确定需要获取的医药数据的类型和时间范围；

需要说明的是，需要确定需要获取的医药数据的具体类型，例如销售数据、研发数据、诊疗数据等。这些数据类型的选择一般需要与具体应用场景相关，例如，需要进行销售预测的场景可能需要获取销售数据，而需要进行新药研发的场景可能需要获取研发数据。

需要确定需要获取的医药数据的时间范围。这个时间范围应该与具体应用场景相关，并且需要根据数据的可用性和数据的时效性等因素进行考虑。例如，对于销售预测的场景，一般需要获取历史销售数据，并且需要考虑数据的时效性，因此时间范围可能需要包括过去1年、3年、5年等时间段。

S12、基于医药大数据获取医药销售数据，

需要说明的是，医药销售数据包括历史销售数据、药品研发数据及医院诊疗数据等；

历史销售数据是指医药企业过去一段时间内的销售数据，包括销售额、销售量、销售渠道等。

药品研发数据是指医药企业在新药研发过程中产生的数据，包括药品的研发历程、研发资料、临床试验数据等。

医院诊疗数据是指医院在医疗过程中产生的数据，包括病人的病历、医生的处方、医院的药品采购等。

作为优选实施方式，所述对时间序列数据集中的医药销售数据进行预处理，得到标准化数据包括以下步骤：

需要说明的是，水平处理方法具体步骤为：

检测时间序列数据中的异常数据点，可以采用统计学方法、模型检验方法等不同的检测方法进行；

对于检测出的异常数据点，可以采用其相邻时刻点的数据平均值取代异常数据点数据；

将异常数据点用相邻时刻点的平均值进行更新，以达到数据平滑的目的。

具体的，相似日纵向插值法是一种时间序列数据插值方法，其基本思想是利用历史数据和相邻时刻点数据的相似性特征进行缺失数据的插值。能够利用历史数据和相邻时刻点数据的相似性特征，对缺失数据进行插值，可以一定程度上避免了对数据的猜测和主观性的干扰。同时，该方法可以有效地捕捉数据中的规律和周期性变化，使得插值结果更加准确和可靠。

需要说明的是，采用相似日纵向插值法对异常处理后的医药销售数据中的缺失数据进行填补具体包括以下步骤：

首先需要确定相似日，即在相同季节、周期和星期等条件下，历史数据中与缺失数据相似的一组数据。可以采用计算两组数据之间的相似性指数，选择相似性最高的一组数据作为相似日；

利用相似日的历史数据和相邻时刻点数据，计算缺失数据的插值系数；

根据计算得到的插值系数，对缺失数据进行插值，得到完整的医药销售数据。

作为优选实施方式，所述基于得到标准化数据进行特征工程，通过选择和构造特征，构建特征矩阵包括以下步骤：

S31、收集与医药销售相关的数据；

需要说明的是与医药销售相关的数据包括销售额、销售量、销售区域、销售渠道、促销活动、市场竞争等数据。

具体的，与医药销售相关的影响因素可以包括时间、季节、节假日、天气、经济指标、医药政策等因素。

需要说明的是，最大信息系数法是一种用于分析两个变量之间相关性的非参数方法。它可以检测到各种类型的相关性，包括线性和非线性相关性，并且不需要知道变量之间的函数形式。

需要说明的是，根据领域知识和实际经验，选择对医药销售影响最大的特征变量进行特征选择，比如选择对销售额影响最大的特征变量。特征选择可以采用相关性分析、卡方检验、互信息等方法进行。

在筛选出的特征变量的基础上，可以进行特征构造，包括组合、变换等方式构造新的特征。例如，可以通过计算月度销售额的平均值、标准差、变化率等来构造新的特征。同时，也可以通过离散化、分箱等方式对连续型变量进行离散化处理，将其转化为离散型变量。

将选择和构造的特征构建成特征矩阵，特征矩阵的行表示数据样本，列表示特征。每列特征代表一个影响因素，每行数据代表一个样本。

S4、基于特征矩阵分别构建短期预测模型和长期预测模型；

作为优选实施方式，所述基于特征矩阵构建短期预测模型包括以下步骤：

需要说明的是，单位根检验是一种平稳性检验方法，可以用于判断时间序列数据是否具有单位根或者说是否是非平稳的。具体步骤如下：

提取特征矩阵中的医药销售数据时间序列。将时间序列数据按照时间顺序排列，形成一个向量。

进行单位根检验。单位根表示时间序列具有非平稳性，单位根检验即是检验时间序列中是否存在单位根。

判断检验结果。如果检验结果的显著性水平小于预设的阈值（例如0.05），则可以拒绝原假设（即存在单位根），认为时间序列是非平稳的；否则不能拒绝原假设，认为时间序列是平稳的。

S42、采用贝叶斯信息准则法确定平稳时间序列模型的阶数；

贝叶斯信息准则（Bayesian Information Criterion，BIC）是一种模型选择标准，常用于在多个可选模型中选择最优模型。平稳时间序列模型一般包括AR（自回归）、MA（移动平均）和ARMA（自回归移动平均）三种类型；

通过计算每个模型的BIC值，将计算得到的BIC值与其他候选模型进行比较，选择BIC值最小的模型作为平稳时间序列模型。

需要说明的是，在确定平稳时间序列模型后，需要检验模型残差是否为白噪声序列。具体步骤为：

将平稳时间序列模型应用于时间序列数据中，得到模型的残差序列；

作残差序列自相关函数和偏相关函数图，自相关函数图反映时间序列与其滞后项之间的相关性，偏相关函数图反映了时间序列与其滞后项之间的部分相关性。

判断残差序列是否为白噪声序列。白噪声序列是一种无序的随机序列，其滞后项之间的相关性非常低。如果残差序列在自相关函数图和偏相关函数图中表现为白噪声序列，即在置信区间内，说明该平稳时间序列模型的残差序列符合白噪声序列要求，该模型选择合理。

作为优选实施方式，所述基于特征矩阵构建长期预测模型包括以下步骤：

作为优选实施方式，所述基于特征矩阵中的相关影响因素，并通过加权灰色关联投影法选择相似日数据集包括以下步骤：

需要说明的是，通过在特征矩阵中选择与所要预测的目标相关的影响因素并对其进行规范化处理，使得每个因素的值在0和1之间；

对于某个影响因素和每个其他影响因素，计算出其规范化值的差值，得到差值序列，然后对差值序列进行累加，得到累加值，依次对每个影响因素进行上述操作，得到累加生成矩阵；

对于每个影响因素和每个其他影响因素，计算其在原始矩阵和转置矩阵中的累加值之间的绝对值之和，得到综合关联度，然后将综合关联度归一化，得到相似度，将计算得到的相似度填入关联矩阵中，得到灰色关联度矩阵。

对灰色关联度矩阵进行归一化处理，将每个元素除以该行的元素之和，得到灰色关联判断矩阵。

S442、采用熵权法确定各影响因素的权重，得到权向量；

具体的，所述计算各个历史日行向量与待预测日行向量的灰色关联投影值的计算公式为：式中，D _i表示第i个样本向量在待预测日向量上的投影值；

ω _j表示第j个影响因素的权重值；

h表示筛选出与医药销售相关的影响因素的个数。

S445、根据各个历史日向量的灰色投影值按从大到小排序，并选取大于预设灰色投影阈值的医药销售数据作为相似日样本集。

作为优选实施方式，所述将特征矩阵分为训练集和测试集，采用K折交叉验证法对构建的短期预测模型和长期预测模型进行模型训练和测试评估包括以下步骤：

需要说明的是，通过计算预测值与真实值之间的绝对差值的平均值，用于衡量预测的平均误差大小。

需要说明的是，可以将预测结果以图表、报表等形式进行展示。能够帮助企业更直观地观察销售趋势和变化。

如图2所示，根据本发明实施例的另一个实施例，提供了基于时间序列的混合模型的医药数据销售预测系统，该系统包括：时间序列数据获取模块1、时间序列数据处理模块2、特征选择构造模块3、长短期模型构建模块4、长短期模型评估模块5及预测结果可视化模块6；

所述时间序列数据获取模块1，用于基于医药大数据获取医药销售的时间序列数据，得到时间序列数据集；

所述时间序列数据处理模块2，用于对时间序列数据集中的医药销售数据进行预处理，得到标准化数据；

所述特征选择构造模块3，用于基于得到标准化数据进行特征工程，通过选择和构造特征，构建特征矩阵；

所述长短期模型构建模块4，用于基于特征矩阵分别构建短期预测模型和长期预测模型；

所述长短期模型评估模块5，用于将特征矩阵分为训练集和测试集，采用K折交叉验证法对构建的短期预测模型和长期预测模型进行模型训练和测试评估；

所述预测结果可视化模块6，用于根据预测需求通过优化后的短期预测模型或长期预测模型进行医药数据销售的预测，并将预测结果进行可视化展示，利用解释性机器学习算法对预测结果进行解释和推论。

综上所述，借助于本发明的上述技术方案，本发明通过对医药大数据进行处理和分析，构建短期和长期预测模型，以实现对医药销售的准确预测，通过特征工程和模型训练，可以有效提高预测模型的准确性和鲁棒性；采用解释性机器学习算法对预测结果进行解释和推论，使得预测结果更加可解释和可信；这对于决策者和业务用户来说，更易于理解和接受预测结果，有助于提高预测结果的应用价值，可以帮助企业进行推理和决策，更好地把握市场趋势和竞争环境；本发明可以帮助企业分析市场需求、竞争情况和消费趋势，预测医药市场的发展趋势，通过分析历史销售数据、药品研发数据等，可以制定更合理的市场营销策略，提高企业的市场竞争力，制定更准确的生产计划和备货策略，提高库存周转率，可以预测未来的销售量和销售额，为企业的决策提供参依据；本发明通过前期对医药销售相关数据的分析和筛选，得到与医药销售相关的影响因素，并对这些影响因素进行特征工程，包括特征选择和特征构造等环节，可以得到更为精准和有效的特征矩阵，从而提高短期预测模型的准确性和可靠性，基于特征矩阵构建短期预测模型，通过平稳性检验、阶数确定和残差检验等步骤，可以得到最佳的平稳时间序列模型，并将其作为短期预测模型。这样可以有效提高短期预测模型的准确性和鲁棒性，使其更加适用于实际医药销售预测应用场景；本发明通过加权灰色关联投影法选择相似日数据集，并通过bootstrap重抽样的方法得到K个二级训练集，可以挖掘出医药销售数据中的规律和趋势，为长期预测模型的构建提供更为精确和有效的数据基础，基于RFR算法和CART决策树，可以充分考虑特征之间的关联性，有效避免特征之间的干扰和噪声干扰，提高模型的可靠性和鲁棒性，从而更好地满足医药销售行业的实际需求。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于时间序列的混合模型的医药数据销售预测方法，其特征在于，该方法包括以下步骤：

S4、基于特征矩阵分别构建短期预测模型和长期预测模型；

S6、根据预测需求通过优化后的短期预测模型或长期预测模型进行医药数据销售的预测，并将预测结果进行可视化展示，利用解释性机器学习算法对预测结果进行解释和推论；

所述基于医药大数据获取医药销售的时间序列数据包括以下步骤：

S11、确定需要获取的医药数据的类型和时间范围；

历史销售数据是指医药企业过去一段时间内的销售数据，包括销售额、销售量、销售渠道；

药品研发数据是指医药企业在新药研发过程中产生的数据，包括药品的研发历程、研发资料、临床试验数据；

医院诊疗数据是指医院在医疗过程中产生的数据，包括病人的病历、医生的处方、医院的药品采购；

S13、将医药销售数据按照时间顺序组织成时间序列，得到时间序列数据集；

所述对时间序列数据集中的医药销售数据进行预处理，得到标准化数据包括以下步骤：

水平处理方法具体步骤为：

检测时间序列数据中的异常数据点，采用统计学方法、模型检验方法进行；

对于检测出的异常数据点，采用其相邻时刻点的数据平均值取代异常数据点数据；

将异常数据点用相邻时刻点的平均值进行更新，以达到数据平滑的目的；

相似日纵向插值法是一种时间序列数据插值方法，利用历史数据和相邻时刻点数据的相似性特征进行缺失数据的插值，能够利用历史数据和相邻时刻点数据的相似性特征，对缺失数据进行插值；

采用相似日纵向插值法对异常处理后的医药销售数据中的缺失数据进行填补具体包括以下步骤：

首先需要确定相似日，即在相同季节、周期和星期条件下，历史数据中与缺失数据相似的一组数据，采用计算两组数据之间的相似性指数，选择相似性最高的一组数据作为相似日；

根据计算得到的插值系数，对缺失数据进行插值，得到完整的医药销售数据；

S23、采用min-max归一化方式对填补后的医药销售数据进行归一化处理，将医药销售数据的值限制在[0,1]的范围区间内；

所述基于得到标准化数据进行特征工程，通过选择和构造特征，构建特征矩阵包括以下步骤：

S31、收集与医药销售相关的数据；

与医药销售相关的数据包括销售额、销售量、销售区域、销售渠道、促销活动、市场竞争；

与医药销售相关的影响因素包括时间、季节、节假日、天气、经济指标、医药政策；

最大信息系数法是一种用于分析两个变量之间相关性的非参数方法，它能检测到各种类型的相关性，包括线性和非线性相关性，并且不需要知道变量之间的函数形式；

S33、对筛选出的前h个相关影响因素进行特征工程，包括特征选择和特征构造，并构建特征矩阵；

根据领域知识和实际经验，选择对医药销售影响最大的特征变量进行特征选择，特征选择采用相关性分析、卡方检验、互信息的方法进行；

在筛选出的特征变量的基础上，进行特征构造，包括组合、变换的方式构造新的特征，通过计算月度销售额的平均值、标准差、变化率来构造新的特征，同时，通过离散化、分箱的方式对连续型变量进行离散化处理，将其转化为离散型变量；

将选择和构造的特征构建成特征矩阵，特征矩阵的行表示数据样本，列表示特征，每列特征代表一个影响因素，每行数据代表一个样本；

所述基于特征矩阵构建短期预测模型包括以下步骤：

单位根检验是一种平稳性检验方法，用于判断时间序列数据是否具有单位根或者说是否是非平稳的，具体步骤如下：

提取特征矩阵中的医药销售数据时间序列，将时间序列数据按照时间顺序排列，形成一个向量；

进行单位根检验，单位根表示时间序列具有非平稳性，单位根检验即是检验时间序列中是否存在单位根；

判断检验结果，如果检验结果的显著性水平小于预设的阈值，则拒绝原假设，认为时间序列是非平稳的，否则不能拒绝原假设，认为时间序列是平稳的；

S42、采用贝叶斯信息准则法确定平稳时间序列模型的阶数；

贝叶斯信息准则，即BIC，是一种模型选择标准，用于在多个可选模型中选择最优模型，平稳时间序列模型包括AR自回归、MA移动平均和ARMA自回归移动平均三种类型；

通过计算每个模型的BIC值，将计算得到的BIC值与其他候选模型进行比较，选择BIC值最小的模型作为平稳时间序列模型；

S43、通过作残差序列自相关函数和偏相关函数图，检验平稳时间序列模型的残差是否为白噪声序列，若残差满足白噪声序列要求，则该平稳时间序列选择合理，否则，重复步骤S41-S43，直至确定最佳的模型，并将其作为短期预测模型；

在确定平稳时间序列模型后，需要检验模型残差是否为白噪声序列，具体步骤为：

作残差序列自相关函数和偏相关函数图，自相关函数图反映时间序列与其滞后项之间的相关性，偏相关函数图反映了时间序列与其滞后项之间的部分相关性；

判断残差序列是否为白噪声序列，白噪声序列是一种无序的随机序列，其滞后项之间的相关性非常低，如果残差序列在自相关函数图和偏相关函数图中表现为白噪声序列，即在置信区间内，说明该平稳时间序列模型的残差序列符合白噪声序列要求，该模型选择合理；

所述基于特征矩阵构建长期预测模型包括以下步骤：

2.根据权利要求1所述的基于时间序列的混合模型的医药数据销售预测方法，其特征在于，所述基于特征矩阵中的相关影响因素，并通过加权灰色关联投影法选择相似日数据集包括以下步骤：

S442、采用熵权法确定各影响因素的权重，得到权向量；

3.根据权利要求2所述的基于时间序列的混合模型的医药数据销售预测方法，其特征在于，所述计算各个历史日行向量与待预测日行向量的灰色关联投影值的计算公式为：；

式中，D _i表示第i个样本向量在待预测日向量上的投影值；

ω _j表示第j个影响因素的权重值；

h表示筛选出与医药销售相关的影响因素的个数。

4.根据权利要求1所述的基于时间序列的混合模型的医药数据销售预测方法，其特征在于，所述将特征矩阵分为训练集和测试集，采用K折交叉验证法对构建的短期预测模型和长期预测模型进行模型训练和测试评估包括以下步骤：

5.基于时间序列的混合模型的医药数据销售预测系统，用于实现权利要求1-4中任一项所述的基于时间序列的混合模型的医药数据销售预测方法，其特征在于，该系统包括：时间序列数据获取模块、时间序列数据处理模块、特征选择构造模块、长短期模型构建模块、长短期模型评估模块及预测结果可视化模块；

其中，所述时间序列数据获取模块，用于基于医药大数据获取医药销售的时间序列数据，得到时间序列数据集；