CN118154232B

CN118154232B - 基于数据挖掘技术的旅游供应链管理系统

Info

Publication number: CN118154232B
Application number: CN202410033919.4A
Authority: CN
Inventors: 伍百军
Original assignee: Jiangmen Polytechnic
Current assignee: Jiangmen Polytechnic
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-08-30
Anticipated expiration: 2044-01-09
Also published as: CN118154232A

Abstract

本发明涉及的旅游供应链管理技术领域，具体为基于数据挖掘技术的旅游供应链管理系统，包括时间序列模型模块、逻辑回归模型模块和结果分析模块，其中：时间序列模型模块收集历史销售数据，并利用长短时记忆网络算法根据历史销售数据构建模型，利用构建好的模型预测出未来一天的销售量，逻辑回归模型模块收集媒体数据，并利用逻辑回归算法根据媒体数据构建模型，利用构建好的模型预测出销量是否增加，结果分析模块比较时间序列模型模块和逻辑回归模型模块的预测结果，比较一致，确定销量为最终结果，否则，对逻辑回归模型模块和结果分析模块进行优化处理，优化处理后，进行再次的比较，多次迭代，直到确定最终结果。

Description

基于数据挖掘技术的旅游供应链管理系统

技术领域

本发明涉及旅游供应链管理技术领域，具体为基于数据挖掘技术的旅游供应链管理系统。

背景技术

传统的旅游供应链管理系统通常依赖简单的统计模型或基于规则的预测方法，例如移动平均或指数平滑技术，这些方法主要考虑历史销售的时间序列数据，但不具备处理非线性模式的能力。此外，传统方法往往未能有效整合多源数据，比如媒体数据和市场趋势，从而限制了预测的准确性。

在操作上，这些系统可能完全依赖人工进行数据分析、结果比对和决策制定。这导致整个过程效率低下，且易受人为偏见影响。由于缺乏自动优化和迭代更新机制，一旦市场状况发生变化，传统模型难以快速适应，这可能导致过时的决策和损失的增加。此外，若模型出现预测误差，传统系统往往没有内置的机制来诊断和修正问题，而是需要专业人员进行手动调整，这不仅耗费时间和资源，还有可能因为反应迟缓而错失市场机会。

在算法实现方面，传统方法通常无法充分利用现代高性能计算资源，这意味着在处理大规模数据集时会显得力不从心，处理速度慢，扩展性差。由于计算效率低，这些方法在面对复杂的问题时往往需进行过度简化，从而牺牲了模型的拟合度和预测精度。

总的来说，传统方法由于缺乏复杂数据处理能力、预测精度低、决策效率不高和难以自适应市场变化等多方面劣势，逐渐不适应当前快速变化和数据驱动的商业环境。

发明内容

本发明的目的在于提供基于数据挖掘技术的旅游供应链管理系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于数据挖掘技术的旅游供应链管理系统，其包括时间序列模型模块、逻辑回归模型模块和结果分析模块，其中：

所述时间序列模型模块收集历史销售数据，并利用长短时记忆网络算法根据历史销售数据构建模型，利用构建好的模型预测出未来一天的销售量；

所述逻辑回归模型模块收集媒体数据，并利用逻辑回归算法根据媒体数据构建模型，利用构建好的模型预测出销量是否增加；

所述结果分析模块比较时间序列模型模块和逻辑回归模型模块的预测结果，将时间序列模型模块中未来一天的销量结果减去当天的销量结果得出差值，差值大于0，且逻辑回归模型模块中销量是否增加的结果为是时，比较一致，确定时间序列模型模块中的预测结果为最终结果；差值小于0，且逻辑回归模型模块中销量是否增加的结果为否时，比较一致，确定时间序列模型模块中的预测结果为最终结果；

否则，对时间序列模型模块进行优化处理，通过对收集的数据进行对数变换，减少数据的偏态和稳定方差；对逻辑回归模型模块进行优化处理，利用小批量梯度下降算法进行优化处理，用于优化参数并提高模型的预测性能；优化处理后，进行再次的比较，多次迭代，直到确定最终结果。

作为本技术方案的进一步改进，所述时间序列模型模块包括销售数据获取单元和销售数据分析单元，所述销售数据获取单元利用企业内部数据库收集历史销售数据，并对其中的非数值数据，使用标签编码将其转换为数值类型；所述销售数据分析单元利用长短时记忆网络模型根据历史销售数据进行模型构建和预测，并将预测结果发送给结果分析模块。

作为本技术方案的进一步改进，所述逻辑回归模型模块包括媒体数据收集单元和媒体数据分析单元，所述媒体数据收集单元利用爬虫技术收集旅游产品的媒体数据；所述媒体数据分析单元利用逻辑回归模型根据接收到的媒体数据进行模型建立和预测，并将预测结果发送给结果分析模块。

作为本技术方案的进一步改进，所述结果分析模块包括结果确定单元和反馈优化单元，所述结果确定单元接收销售数据分析单元和媒体数据分析单元发送的预测结果，并将两者的预测结果进行比较，比较一致，确定最终结果，比较不一致，所述反馈优化单元对销售数据获取单元收集的数据进行优化处理，对媒体数据分析单元中的方法进行优化处理。

作为本技术方案的进一步改进，所述销售数据分析单元利用长短时记忆网络模型根据历史销售数据进行模型构建和预测，具体包括：

通过堆叠长短时记忆网络层来学习数据中的时序关系，并用全连接层输出预测值，采用均方误差作为损失函数，通过前向传播生成预测并用后向传播在多次迭代中优化权重，预测时，输入形状调整符合长短时记忆网络所需的三维数组，并基于最新的历史数据来输出对未来销售量的预测结果。

作为本技术方案的进一步改进，所述媒体数据分析单元利用逻辑回归模型根据接收到的媒体数据进行模型建立和预测，具体包括：

媒体数据包括特征向量以及对应销量是否增加的标签，并将其作为模型的训练集，将训练集分为输入特征矩阵x和输出标签向量y，其中，x是m行n列的矩阵，表示m个样本的n个特征；y是一个列向量，表示m个样本的销量是否增加标签；

初始化回归系数向量w和偏置项b，定义逻辑回归模型的假设函数，使用Sigmoid函数将输入特征x和参数w线性组合，并加上偏置项b，经过Sigmoid函数映射为0到1之间的概率值，其中Sigmoid函数是将任何实数输入值映射到一个介于0和1之间的输出值；定义逻辑回归模型的代价函数，代价函数是交叉熵损失函数，其衡量了模型预测结果与真实标签之间的差异；

通过最小化代价函数来求得最优的参数w和b，使用梯度下降算法来更新参数，使代价函数降低，计算预测值；计算代价函数关于参数w和b的偏导数；更新参数w2＝w1-learning_rate*dw，b2＝b1-learning_rate*db；其中learning_rate是学习率，dw和db是代价函数对参数的偏导数，w1是当前迭代步的权重向量，w2是下一迭代步的权重向量，b1是当前迭代步的偏置项，b2是下一迭代步的偏置项。

作为本技术方案的进一步改进，所述反馈优化单元对销售数据获取单元收集的数据进行优化处理，具体包括：

通过对收集的数据进行对数变换，用于减少数据的偏态和稳定方差，将数据中小于等于0的值进行删除，确保所有数据都是正数，并将对数变换应用于数据集中的每个值，将x转换成logx，将变换后的数据用于模型训练，提高模型的准确性和效率。

作为本技术方案的进一步改进，所述反馈优化单元对媒体数据分析单元中的方法进行优化处理，具体包括：

利用小批量梯度下降算法进行优化处理，通过处理数据的小批量来减少计算的方差，并利用矩阵运算优化加速度，其中小批量的大小数量包括但不限于，通过将训练数据分成小批次来迭代更新模型的参数；在每次迭代中，算法随机选择一个批次的数据，进行前向传播以计算预测值，计算损失函数并执行反向传播以得到损失相对于模型参数的梯度，利用这些梯度和预定的学习率更新参数，重复进行，直至达到收敛，优化参数并提高模型的预测性能，同时平衡计算资源的使用效率和模型的统计效率。

与现有技术相比，本发明的有益效果是：

1、该基于数据挖掘技术的旅游供应链管理系统利用长短时记忆网络算法根据历史销售数据构建模型，利用构建好的模型预测出未来一天的销售量，利用逻辑回归算法根据媒体数据构建模型，利用构建好的模型预测出销量是否增加，将这两个算法的预测结果进行比较，确定最终的销量预测结果，该系统能够从多个角度对销量进行分析和预测，提高了预测的准确性和全面性，这种多模型结合的方式能够更好地把握销量的多重特征和影响因素，为供应链管理提供更有力的决策支持。

2、该基于数据挖掘技术的旅游供应链管理系统在对两个算法进行结果比较时，若比较不一致，则对长短时记忆网络算法所需的数据进行对数变换，减少数据的偏态和稳定方差，对逻辑回归算法中的梯度下降转换为利用小批量梯度下降算法进行优化处理，用于优化参数并提高模型的预测性能，使模型学习更加稳健，降低过拟合和偏误差的风险，减少了人工维护干预的需求，提高了管理效率。

附图说明

图1为本发明的整体模块示意图；

图2为本发明的时间序列模型模块单元示意图；

图3为本发明的逻辑回归模型模块单元示意图；

图4为本发明的结果分析模块单元示意图。

图中：100、时间序列模型模块；101、销售数据获取单元；102、销售数据分析单元；200、逻辑回归模型模块；201、媒体数据收集单元；202、媒体数据分析单元；300、结果分析模块；301、结果确定单元；302、反馈优化单元。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供一种技术方案：基于数据挖掘技术的旅游供应链管理系统，包括时间序列模型模块100、逻辑回归模型模块200和结果分析模块300。

时间序列模型模块100中的销售数据获取单元101利用企业内部数据库收集每天历史销售数据，历史销售数据包括但不限于旅游产品预订数量、游客到访时间、旅游支出、天气条件、节假日和地区活动。

对于非数值数据(如天气条件和地区活动)，使用标签编码将其转换为数值类型，标签编码是一种将每个不同的类别值映射到一个唯一整数的方法，不同的天气状况和地区活动会被赋予一个唯一的整数标签，例如，如果天气状况有“晴朗”、“多云”、“雨”等，分别被编码为0、1、2等。

使用滑动窗口法将历史销售数据集划分为输入和输出的序列，滑动窗口法是一种用于时间序列预测的技术，它利用过去的数据点来预测未来数据点，例如，使用60天的数据来预测接下来一天的销售数量，那么"窗口大小"就是60，意味着将在第一次训练迭代中使用第1天到第60天的数据来预测第61天的销售数量，这组数据形成了模型的第一个输入(训练特征)和输出(标签)；将窗口向前移动一个时间单位，使用第2天到第61天的数据来预测第62天的销售数量，这个过程持续进行，直到覆盖了整个数据集。

销售数据获取单元101将处理好的数据发送给销售数据分析单元102，销售数据分析单元102利用长短时记忆网络模型根据历史销售数据进行模型构建和预测，具体包括：

构建模型：创建一个序列模型，一个线性堆栈的层，向模型中添加多个长短时记忆网络层，每个长短时记忆网络层的参数包括单元数、输入形状和返回序列，单元数为每个长短时记忆网络层中神经元的数量，决定层的容量，添加一个全连接层作为输出层，用于将长短时记忆层的输出转换为最终的预测；选择损失函数，衡量模型预测值与真实值之间差异的函数，是训练期间需要最小化的目标，损失函数包括均方误差，均方误差计算的是预测值和真实值之间差异的平方和的均值，对误差会给予惩罚；模型会在多次迭代中学习如何减少损失函数定义的误差，每次迭代包括前向传播(模型做出预测)和后向传播(模型根据误差更新权重)。

模型预测：为了进行预测，将最近的历史销售数据作为输入，这些数据是模型训练时使用的相同类型的数据，包括所有的特征，如旅游产品预订数量、游客到访时间、支出、天气情况、节假日和区域活动等；使用最近的一段时间窗口内的数据来进行预测，这个时间窗口的长度与训练模型时使用的时间窗口长度相同；与模型训练过程中相同，新收集的数据也需要经过相同的预处理步骤，包括对非数值数据进行编码；由于长短时记忆网络层需要的输入是一个三维数组，其形状为(samples,time_steps,features)，其中samples代表样本数量，time_steps代表时间序列长度(窗口长度)，features代表特征数量，因此将预处理后的数据重塑为长短时记忆网络可接受的格式；使用重塑后的数据通过长短时记忆网络模型进行预测，预测结果包括未来一天的销售量。

销售数据分析单元102将预测结果发送给结果分析模块300中的结果确定单元301。

逻辑回归模型模块200中的媒体数据收集单元201利用爬虫技术收集旅游产品的媒体数据，数据包括但不限于帖子数量、提及次数和销量是否增加等，并将销量是否增加作为目标变量(因变量)，其余数据特征作为解释变量(自变量)，将收集的数据发送给媒体数据分析单元202。

媒体数据分析单元202利用逻辑回归模型根据接收到的媒体数据进行模型建立和预测，具体包括：

数据预处理：媒体数据包括特征向量以及对应销量是否增加的标签，并将其作为模型的训练集，将训练集分为输入特征矩阵x和输出标签向量y，其中，x是m行n列的矩阵，表示m个样本的n个特征；y是一个列向量，表示m个样本的销量是否增加标签；

定义假设函数：初始化回归系数向量w和偏置项b，定义逻辑回归模型的假设函数h(x)，使用Sigmoid函数将输入特征x和参数w线性组合，并加上偏置项b，经过Sigmoid函数映射为0到1之间的概率值，其中Sigmoid函数是将任何实数输入值映射到一个介于0和1之间的输出值，数学形式为f(x)＝1/(1+e^(-x))，假设函数h(x)的函数形式：h(x)＝Sigmoid(w^T*x+b)，T是指向量w的转置，w是一个权重向量，x是输入向量，b是偏置项；

定义代价函数：定义逻辑回归模型的代价函数J(w,b)，代价函数是交叉熵损失函数，其衡量了模型预测结果与真实标签之间的差异，代价函数的形式为：J(w,b)＝-1/m*sum(y*log(h(x))+(1-y)*log(1-h(x)))，其中sum为求和运算，y为真实标签；

参数优化：通过最小化代价函数J(w,b)来求得最优的参数w和b，使用随机梯度下降算法来更新参数，使代价函数降低，首先计算预测值h(x)，然后计算代价函数关于参数w和b的偏导数，最后更新参数w2＝w1-learning_rate*dw，b2＝b1-learning_rate*db；其中learning_rate是学习率，dw和db是代价函数对参数的偏导数，w1是当前迭代步的权重向量，w2是下一迭代步的权重向量，b1是当前迭代步的偏置项，b2是下一迭代步的偏置项；

结果预测：参数优化后，利用建立好的逻辑回归模型进行销量是否增加的预测，即实时的媒体数据作为输入特征代入假设函数h(x)中，得到销量是否增加的大小，并将销量是否增加的结果发送给结果分析模块300中的结果确定单元301。

结果确定单元301接收销售数据分析单元102和媒体数据分析单元202分别发送的未来一天的销售量结果和销量是否增加的结果，将两者进行比较，根据比较结果确定最终的销量预测结果，具体包括：

对于销售数据分析单元102中预测的未来一天的销量结果进行销量是否增加的计算，将未来一天的销量结果减去当天的销量结果得出差值，差值大于0，则销量增加，否则销量减少；

当确定销售数据分析单元102预测的销量结果为增加时，即差值大于0时，且媒体数据分析单元202预测的销量是否增加的结果为是，则比较结果一致，确定该销量结果为最终的预测结果，否则，比较不一致；

当确定销售数据分析单元102预测的销量结果为减少时，即差值小于0时，且媒体数据分析单元202预测的销量是否增加的结果为否，则比较结果一致，确定该销量结果为最终的预测结果，否则，比较不一致。

比较结果不一致时，启动反馈优化单元302对销售数据获取单元101和媒体数据分析单元202进行方法优化处理，具体包括：

对于销售数据获取单元101，通过对收集的数据进行对数变换，用于减少数据的偏态和稳定方差，将数据中小于等于0的值进行删除，确保所有数据都是正数，因为对数是未定义的负数和零，并将对数变换应用于数据集中的每个值，将x转换成logx，将变换后的数据用于模型训练，以此提高模型的准确性和效率；

对于媒体数据分析单元202，利用小批量梯度下降算法进行优化处理，通过处理数据的小子集(即小批量)来减少计算的方差，其中小批量的大小数量包括但不限于32，并利用矩阵运算优化加速度，通过将训练数据分成小批次来迭代更新模型的参数；在每次迭代中，算法先随机选择一个批次的数据，然后进行前向传播以计算预测值，接下来计算损失函数并执行反向传播以得到损失相对于模型参数的梯度，最后利用这些梯度和预定的学习率更新参数，这个过程会重复进行，直至达到收敛，以此来优化参数并提高模型的预测性能，同时平衡计算资源的使用效率和模型的统计效率。

对两者进行优化处理后，按照之前的比较逻辑进行再次比较，直到确定最终的预测结果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于数据挖掘技术的旅游供应链管理系统，其特征在于：包括时间序列模型模块（100）、逻辑回归模型模块（200）和结果分析模块（300），其中：

所述时间序列模型模块（100）收集历史销售数据，并利用长短时记忆网络算法根据历史销售数据构建模型，利用构建好的模型预测出未来一天的销售量；

所述逻辑回归模型模块（200）收集媒体数据，并利用逻辑回归算法根据媒体数据构建模型，利用构建好的模型预测出销量是否增加；

所述结果分析模块（300）比较时间序列模型模块（100）和逻辑回归模型模块（200）的预测结果，将时间序列模型模块（100）中未来一天的销量结果减去当天的销量结果得出差值，差值大于0，且逻辑回归模型模块（200）中销量是否增加的结果为是时，比较一致，确定时间序列模型模块（100）中的预测结果为最终结果；差值小于0，且逻辑回归模型模块（200）中销量是否增加的结果为否时，比较一致，确定时间序列模型模块（100）中的预测结果为最终结果；

否则，对时间序列模型模块（100）进行优化处理，通过对收集的数据进行对数变换，减少数据的偏态和稳定方差；对逻辑回归模型模块（200）进行优化处理，利用小批量梯度下降算法进行优化处理，用于优化参数并提高模型的预测性能；优化处理后，进行再次的比较，多次迭代，直到确定最终结果；

所述时间序列模型模块（100）包括销售数据获取单元（101）和销售数据分析单元（102），所述销售数据获取单元（101）利用企业内部数据库收集历史销售数据，并对其中的非数值数据，使用标签编码将其转换为数值类型；所述销售数据分析单元（102）利用长短时记忆网络模型根据历史销售数据进行模型构建和预测，并将预测结果发送给结果分析模块（300）；

所述逻辑回归模型模块（200）包括媒体数据收集单元（201）和媒体数据分析单元（202），所述媒体数据收集单元（201）利用爬虫技术收集旅游产品的媒体数据；所述媒体数据分析单元（202）利用逻辑回归模型根据接收到的媒体数据进行模型建立和预测，并将预测结果发送给结果分析模块（300）；

其中：所述媒体数据包括帖子数量、提及次数和销量是否增加，并将销量是否增加作为目标变量，其余数据特征作为解释变量；

历史销售数据包括旅游产品预订数量、游客到访时间、旅游支出、天气条件、节假日和地区活动。

2.根据权利要求1所述的基于数据挖掘技术的旅游供应链管理系统，其特征在于：所述结果分析模块（300）包括结果确定单元（301）和反馈优化单元（302），所述结果确定单元（301）接收销售数据分析单元（102）和媒体数据分析单元（202）发送的预测结果，并将两者的预测结果进行比较，比较一致，确定最终结果，比较不一致，所述反馈优化单元（302）对销售数据获取单元（101）收集的数据进行优化处理，对媒体数据分析单元（202）中的方法进行优化处理。

3.根据权利要求1所述的基于数据挖掘技术的旅游供应链管理系统，其特征在于：所述销售数据分析单元（102）利用长短时记忆网络模型根据历史销售数据进行模型构建和预测，具体包括：

4.根据权利要求1所述的基于数据挖掘技术的旅游供应链管理系统，其特征在于：所述媒体数据分析单元（202）利用逻辑回归模型根据接收到的媒体数据进行模型建立和预测，具体包括：

通过最小化代价函数来求得最优的参数w和b，使用梯度下降算法来更新参数，使代价函数降低，计算预测值；计算代价函数关于参数w和b的偏导数；更新参数w2=w1-learning_rate*dw，b2=b1-learning_rate*db；其中learning_rate是学习率，dw和db是代价函数对参数的偏导数，w1是当前迭代步的权重向量，w2是下一迭代步的权重向量，b1是当前迭代步的偏置项，b2是下一迭代步的偏置项。

5.根据权利要求2所述的基于数据挖掘技术的旅游供应链管理系统，其特征在于：所述反馈优化单元（302）对销售数据获取单元（101）收集的数据进行优化处理，具体包括：

6.根据权利要求2所述的基于数据挖掘技术的旅游供应链管理系统，其特征在于：所述反馈优化单元（302）对媒体数据分析单元（202）中的方法进行优化处理，具体包括：

利用小批量梯度下降算法进行优化处理，通过处理数据的小批量来减少计算的方差，并利用矩阵运算优化加速度，其中小批量的大小数量包括但不限于32，通过将训练数据分成小批次来迭代更新模型的参数；在每次迭代中，算法随机选择一个批次的数据，进行前向传播以计算预测值，计算损失函数并执行反向传播以得到损失相对于模型参数的梯度，利用这些梯度和预定的学习率更新参数，重复进行，直至达到收敛，优化参数并提高模型的预测性能，同时平衡计算资源的使用效率和模型的统计效率。