CN114912941B

CN114912941B - 一种基于大数据的鞋子流行趋势预测系统及方法

Info

Publication number: CN114912941B
Application number: CN202210372074.2A
Authority: CN
Inventors: 周晋; 陈筱雨; 曾杰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-08-11
Anticipated expiration: 2042-04-11
Also published as: CN114912941A

Abstract

本发明公开了一种基于大数据的鞋子流行趋势预测系统及方法，属于预测算法技术领域。本发明包括元素解析模块、元素预测模块和数据分析模块，元素解析模块解析鞋子的元素组成，并且统计元素的重复度从而获得元素的流行度，将元素的流行度输入元素预测算法，获取元素流行趋势，将元素流行趋势输入数据分析模块，不同维度的解读流行元素，获得鞋子的流行趋势；通过鞋子元素解析鞋子，将鞋子不同维度的性质统一化为元素，通过元素充分的解读鞋子，避免不同维度性质对于鞋子流行度预测的影响，降低鞋子流行度预测数据输入的维度，降低对于元素预测算法的要求；基于LSTM层构建元素解析模型，减少信息丢失，扩大元素解析模块记忆早时刻信息的能力。

Description

一种基于大数据的鞋子流行趋势预测系统及方法

技术领域

本发明涉及预测算法技术领域，具体为一种基于大数据的鞋子流行趋势预测系统及方法。

背景技术

鞋子有着悠久的历史，现如今各种样式功能的鞋子随处可见，不同的因素控制着不同的款式鞋子成为潮流，流行趋势本身是一个螺旋式演进和上升的过程，通过对往年的流行趋势分析，会因为当前和未来社会的情况再度演变成新的趋势，所以基于以往数据的分析流行元素，从而预测接下来的流行趋势是可行的；

但是这同样存在问题，鞋子的性质特征是多维度的，基于不同性质特征的预测流行趋势的系统和算法需要处理难以想象量级的数据，基于现代大数据数据处理算法，也不能处理无限量级的数据；

近年来深度学习在文本、语音、图像等领域的成功应用，基于深度学习的流行度预测方法被人们不断的尝试，循环神经网络可以很好的从序列中提取记忆关键信息，到那时循环神经网络结构会导致历史信息在反向传播中丢失，出现梯度消失和梯度爆炸的问题，LSTM神网络会更加适用于时间序列预测任务，但是巨大波动数据在预测算法中难以获得准确度较高的结果；

如果处理数据将鞋子特征准确的表达鞋子，如果处理数据设计算法，让鞋子的流行趋势可预测，这是亟需解决的问题。

发明内容

本发明的目的在于提供一种基于大数据的鞋子流行趋势预测系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于大数据的鞋子流行趋势预测方法，具体的大数据流行趋势预测方法为：

步骤一：图像解析单元解析鞋子图像元素；

步骤二：获取鞋子品牌，人工编制添加鞋子品牌到词典；获取鞋子标题输入元素解析模块，所述鞋子标题输入急速分词，所述急速分词基于正向最大匹配算法分词标题抓取元素；

步骤三：剩余的标题字符串输入新词词典，所述新词词典基于N-gram模型将获得的鞋子标题分词从而获得元素，将已获得的元素添加到词典中，并将获得的元素输入数据清理单元；

步骤四：数据清理单元筛选和重组鞋子元素，将单位时间重复的鞋子元素的流行度累计后，所述流行度归一化输入元素预测模块；

步骤五：所述元素预测模块基于LSTM算法进行流行度预测，输入不同时间步长的鞋子元素的流行度P，所述元素预测模块最终输出前N个的元素的不同时间的流行度；

步骤六：所述数据分析模块提取不同时间步长的预测结果，输出不同时间步长的鞋子流行趋势。

所述数据清理单元统计鞋子元素的重复度，将所述鞋子元素以重复度为序排序，筛选重复度前N个的元素并剔除Y年内没有重复的元素；

基于销量获得鞋子元素的流行度，计算公式为：

P＝A*S

其中，A表示鞋子元素，S表示鞋子元素对应的单位时间销售量，P表示鞋子元素的流行度。

所述图像解析单元基于HSV空间获取颜色直方图表达鞋子的色彩搭配，具体步骤为：

步骤一：获取鞋子基于HSV空间的颜色直方图；

步骤二：所述颜色直方图均值滤波；

步骤三：设立参考色，计算颜色直方图与参考图之间的相似值，具体计算公式为：

其中，P表示所述颜色直方图和参考图之间的相似值；

步骤四：设置分类区间范围，在同一分类区间内图像为同一色彩搭配。

将颜色直方图的前后数据相互关联，避免出现图像之间存在较小的差距而获得较小的相似度；以参考图为参考值，计算图像与参考图之间的相似值，相似值在同一分类区间内图像为同一色彩搭配，降低计算难度。

该系统包括元素解析模块、元素预测模块和数据分析模块，所述元素解析模块解析鞋子的元素组成，并且统计元素的重复度从而获得元素的流行度，将元素的流行度输入元素预测算法，获取元素流行趋势，将所述元素流行趋势输入数据分析模块，不同维度的解读流行元素，获得鞋子的流行趋势。

所述元素解析模块包括图像解析单元、标题分词单元、关键词提取单元和数据清洗单元，所述图像解析单元解析鞋子图像元素，所述图像元素包括线条语言和色彩搭配，所述标题分词单元分词鞋子标题获取鞋子元素，所述关键词提取单元提取鞋子详情页的关键词获取鞋子元素，所述数据清洗单元清洗鞋子元素数据，统计鞋子元素的重复度，输出鞋子元素的流行度；

所述图像解析单元基于HSV空间获取颜色直方图表达鞋子的色彩搭配，计算颜色直方图的相似值，认定在阈值以内的颜色直方图为同一色彩搭配；

所述图像解析单元基于Roberts交叉算子算法获得鞋子的线条语言作为元素，基于HOG特征提取算法计算鞋子的线条语言的梯度统计直方图，将梯度直方图转化为向量，通过余弦相似度划分种类。

鞋子标题较为准确的描述了鞋子的类型和关键元素，基于鞋子标题解析鞋子元素，通过小的计算量准确的解析鞋子元素，效率高，同时，通过图像语言丰富鞋子的元素；

另一方面，鞋子标题没复杂的语义和语境，词汇重复度高，降低中文分词算法的难度同时获得准确度高的分词结果，从而获得准确的鞋子元素。

所述标题分词单元包括急速分词和新词词典，所述急速分词基于正向最大匹配算法，取词典中最长词为最大匹配长度m，截取鞋子标题的前m位与词典匹配，如果匹配成功输出截取鞋子标题的前m位至鞋子元素；如果词典无法匹配，截取鞋子标题的前m-1位与词典匹配，依次循环直至匹配成功，如果截取鞋子标题的字段等于1，输出鞋子标题的第一位字符至新词，剩余的鞋子标题依次循环直至鞋子标题长度小于等于1；

所述新词字段输入新词词典，所述新词词典分词新词字段从而获得元素，且已获得的元素添加到词典中，人工编制添加鞋子品牌到所述词典。

将品牌名编制词典，以较小的工作量极大程度的提高分词的准确度，避免语义歧义。

所述新词词典模型公式为：

其中，P为概率，m为词的个数，w_m为输入语句中的词，i为词的位置；

其中，c(w_i-1,w_i)表示二元组(w_i-1,w_i)在训练语料库中出现的次数，c(w_i)表示词w_i在训练预料库中出现的次数。

所述急速分词抓取鞋子元素的能力速度快，计算复杂度极低，但是不能自主的认识新词，通过新词词典补充分词，所述新词词典需要语料库，而鞋子的标题中词汇重复度高，通过将抓取的元素累积构成词典，先通过急速分词模块抓取已知的鞋子元素，提高所述标题分词单元的分词速度，降低计算复杂度；一方面通过构建自动添加补充词典，增加所述标题分词单元认识新词的能力，另一方面逐步降低标题分词单元对于语料库的依赖，形成一个良性的循环。

所述关键词提取单元基于OCR识别鞋子详情页的图片，获取鞋子详情页的文字，基于LDA主题模型抓取详情页中鞋子元素；

所述数据清洗单元将所述的鞋子元素进行筛选和重组，将单位时间重复的鞋子元素的流行度累计后，所述流行度归一化后输入元素预测模块。

在输入元素预测模块前清洗鞋子元素，剔除废数据，降低数据的量级，减少系统的计算量，重复元素的流行度累积避免重复度对于流行度的影响，减少流行趋势预测算法的权重。

所述元素预测模块基于LSTM算法进行流行度预测，所述元素预测模块通过门控制输出，门包括遗忘门、记忆门和输出门，所述元素预测模块输入层输入不同时间步长的鞋子元素的流行度P，所述元素预测模块输出前增加全连接层，所述元素预测模块最终输出前N个的元素的不同时间的流行度；在输出层增加全连接层，输出维度与输入维度一致，避免仿真出错。

以流行度为输入层，降低了LSTM的特征维度，提高鞋子元素流行度的预测的准确度，避免数据的自相关性，保证输出结果，基于LSTM层构建元素解析模型，减少信息丢失，扩大元素解析模块记忆早时刻信息的能力。

所述元素预测模块通过sigmod神经网络层构建遗忘门，表达式为：

f＝σ(ε_t-1×W_f+X_t×U_f+b_f)

ε_t-1是上一序列的隐藏状态，W_f为h_t-1的遗忘门权重,X_t是流行度的特征向量，U_f是连接输入层与遗忘层偏重矩阵，b_f是遗忘门的偏置项；

通过sigmod神经网络层构建记忆门，表达式为：

i＝σ(ε_t-1×W_i+X_t×U_i+b_i)

W_i为h_t-1的记忆门权重,U_i是连接输入层与记忆门偏重矩阵,b_i是记忆门的偏置项；

通过ReLU激活函数构建新的状态候选量C₁，表达式为：

C₁＝max(0，ε_t-1×W_c+X_t×U_c+b_c)

C_t＝C_t-1×f+C₁×i

W_c是新的状态候选量权重,U_c是连接输入层与新的状态候选量偏重矩阵,b_c是新的状态候选量偏置项；

使用ReLU激活函数减少信息丢失，增强元素预测模块的预测准确度。

通过sigmod神经网络层构建输出门，表达式为：

o＝σ(ε_t-1×W_o+X_t×U_o+b_o)

W_o为h_t-1的输出门权重,U_o是连接输入层与输出门偏重矩阵,b_o是输出门的偏置项；

得到最终的输出信号：

εt＝o×tanh(C_t)。

所述数据分析模块获得不同元素的未来时间的流行度，以不同时间步长为条件进行排序，取前n的元素输出为鞋子的未来不同时间步长流行趋势。

与现有技术相比，本发明所达到的有益效果是：通过鞋子元素解析鞋子，从标题、关键词、图像不同的维度将鞋子形状、特征等统一化为元素，通过元素充分的解读鞋子，避免不同维度性质对于鞋子流行度预测的影响，降低鞋子流行度预测数据输入的维度；鞋子标题较为准确的描述了鞋子的类型和关键元素，基于鞋子标题解析鞋子元素，通过小的计算量准确的解析鞋子元素，效率高；另一方面，鞋子标题没复杂的语义和语境，词汇重复度高，降低中文分词算法的难度同时获得准确度高的分词结果，从而获得准确的鞋子元素；将品牌名编制词典，以较小的工作量极大程度的提高分词的准确度，避免语义歧义；提取鞋子详情页的关键词，扩大鞋子元素的多样性，有助于更加准确的把握鞋子的特征元素；在元素预测算法之前，通过数据清洗降低数据的数量和量级，降低系统的计算难度，避免系统的无效预测，提高系统对于核心数据的把控；通过流行度的设置，进一步降低元素预测模块的输入层数据维度，降低对于元素预测算法的要求，保证元素预测模块输出的准确度，同时，以流行度为输入层，降低LSTM的特征维度，提高鞋子元素流行度的预测的准确度，避免数据的自相关性，保证输出结果，使用ReLU激活函数减少信息丢失，增强元素预测模块的预测准确度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于大数据的鞋子流行趋势预测系统及方法的结构示意图；

图2是本发明一种基于大数据的鞋子流行趋势预测系统及方法元素解析模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供技术方案：一种基于大数据的鞋子流行趋势预测方法，具体的大数据流行趋势预测方法为：

步骤一：图像解析单元解析鞋子图像元素；

步骤二：获取鞋子品牌，人工编制添加鞋子品牌到词典；获取鞋子标题输入元素解析模块，鞋子标题输入急速分词，急速分词基于正向最大匹配算法分词标题抓取元素；

步骤三：剩余的标题字符串输入新词词典，新词词典基于N-gram模型将获得的鞋子标题分词从而获得元素，将已获得的元素添加到词典中，并将获得的元素输入数据清理单元；

步骤四：数据清理单元筛选和重组鞋子元素，将单位时间重复的鞋子元素的流行度累计后，流行度归一化输入元素预测模块；

步骤五：元素预测模块基于LSTM算法进行流行度预测，输入不同时间步长的鞋子元素的流行度P，元素预测模块最终输出前N个的元素的不同时间的流行度；

步骤六：数据分析模块提取不同时间步长的预测结果，输出不同时间步长的鞋子流行趋势。

数据清理单元统计鞋子元素的重复度，将鞋子元素以重复度为序排序，筛选重复度前N个的元素并剔除Y年内没有重复的元素；

基于销量获得鞋子元素的流行度，计算公式为：

P＝A*S

图像解析单元基于HSV空间获取颜色直方图表达鞋子的色彩搭配，具体步骤为：

步骤一：获取鞋子基于HSV空间的颜色直方图；

步骤二：颜色直方图均值滤波；

其中，P表示颜色直方图和参考图之间的相似值；

该系统包括元素解析模块、元素预测模块和数据分析模块，元素解析模块解析鞋子的元素组成，并且统计元素的重复度从而获得元素的流行度，将元素的流行度输入元素预测算法，获取元素流行趋势，将元素流行趋势输入数据分析模块，不同维度的解读流行元素，获得鞋子的流行趋势。

元素解析模块包括图像解析单元、标题分词单元、关键词提取单元和数据清洗单元，图像解析单元解析鞋子图像元素，图像元素包括线条语言和色彩搭配，标题分词单元分词鞋子标题获取鞋子元素，关键词提取单元提取鞋子详情页的关键词获取鞋子元素，数据清洗单元清洗鞋子元素数据，统计鞋子元素的重复度，输出鞋子元素的流行度；

图像解析单元基于HSV空间获取颜色直方图表达鞋子的色彩搭配，计算颜色直方图的相似值，认定在阈值以内的颜色直方图为同一色彩搭配；

图像解析单元基于Roberts交叉算子算法获得鞋子的线条语言作为元素，基于HOG特征提取算法计算鞋子的线条语言的梯度统计直方图，将梯度直方图转化为向量，通过余弦相似度划分种类。

标题分词单元包括急速分词和新词词典，急速分词基于正向最大匹配算法，取词典中最长词为最大匹配长度m，截取鞋子标题的前m位与词典匹配，如果匹配成功输出截取鞋子标题的前m位至鞋子元素；如果词典无法匹配，截取鞋子标题的前m-1位与词典匹配，依次循环直至匹配成功，如果截取鞋子标题的字段等于1，输出鞋子标题的第一位字符至新词，剩余的鞋子标题依次循环直至鞋子标题长度小于等于1；

新词字段输入新词词典，新词词典分词新词字段从而获得元素，且已获得的元素添加到词典中，人工编制添加鞋子品牌到词典。

新词词典模型公式为：

急速分词抓取鞋子元素的能力速度快，计算复杂度极低，但是不能自主的认识新词，通过新词词典补充分词，新词词典需要语料库，而鞋子的标题中词汇重复度高，通过将抓取的元素累积构成词典，先通过急速分词模块抓取已知的鞋子元素，提高标题分词单元的分词速度，降低计算复杂度；一方面通过构建自动添加补充词典，增加标题分词单元认识新词的能力，另一方面逐步降低标题分词单元对于语料库的依赖，形成一个良性的循环。

关键词提取单元基于OCR识别鞋子详情页的图片，获取鞋子详情页的文字，基于LDA主题模型抓取详情页中鞋子元素；

数据清洗单元将的鞋子元素进行筛选和重组，将单位时间重复的鞋子元素的流行度累计后，流行度归一化后输入元素预测模块。

元素预测模块基于LSTM算法进行流行度预测，元素预测模块通过门控制输出，门包括遗忘门、记忆门和输出门，元素预测模块输入层输入不同时间步长的鞋子元素的流行度P，元素预测模块输出前增加全连接层，元素预测模块最终输出前N个的元素的不同时间的流行度；在输出层增加全连接层，输出维度与输入维度一致，避免仿真出错。

元素预测模块通过sigmod神经网络层构建遗忘门，表达式为：

f＝σ(ε_t-1×W_f+X_t×U_f+b_f)

通过sigmod神经网络层构建记忆门，表达式为：

i＝σ(ε_t-1×W_i+X_t×U_i+b_i)

通过ReLU激活函数构建新的状态候选量C₁，表达式为：

C₁＝max(0，ε_t-1×W_c+X_t×U_c+b_c)

C_t＝C_t-1×f+C₁×i

通过sigmod神经网络层构建输出门，表达式为：

o＝σ(ε_t-1×W_o+X_t×U_o+b_o)

得到最终的输出信号：

εt＝o×tanh(C_t)。

数据分析模块获得不同元素的未来时间的流行度，以不同时间步长为条件进行排序，取前n的元素输出为鞋子的未来不同时间步长流行趋势。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的鞋子流行趋势预测方法，其特征在于：具体的大数据流行趋势预测方法为：

步骤一：图像解析单元解析鞋子图像元素；

基于销量获得鞋子元素的流行度，计算公式为：

P＝A*S

其中，A表示鞋子元素，S表示鞋子元素对应的单位时间销售量，P表示鞋子元素的流行度；

步骤六：数据分析模块提取不同时间步长的预测结果，输出不同时间步长的鞋子流行趋势；

获取鞋子基于HSV空间的颜色直方图；

所述颜色直方图均值滤波；

设立参考色，计算颜色直方图与参考图之间的相似值，具体计算公式为：

其中，P表示所述颜色直方图和参考图之间的相似值；

设置分类区间范围，在同一分类区间内图像为同一色彩搭配。

2.一种基于大数据的鞋子流行趋势预测系统，其特征在于：该系统包括元素解析模块、元素预测模块和数据分析模块，所述元素解析模块解析鞋子的元素组成，并且统计元素的重复度从而获得元素的流行度，将元素的流行度输入元素预测算法，获取元素流行趋势，将所述元素流行趋势输入数据分析模块，不同维度的解读流行元素，获得鞋子的流行趋势；

3.根据权利要求2所述的一种基于大数据的鞋子流行趋势预测系统，其特征在于：所述标题分词单元包括急速分词和新词词典，所述急速分词基于正向最大匹配算法，取词典中最长词为最大匹配长度m，截取鞋子标题的前m位与词典匹配，如果匹配成功输出截取鞋子标题的前m位至鞋子元素；如果词典无法匹配，截取鞋子标题的前m-1位与词典匹配，依次循环直至匹配成功，如果截取鞋子标题的字段等于1，输出鞋子标题的第一位字符至新词，剩余的鞋子标题依次循环直至鞋子标题长度小于等于1；

所述新词字段输入新词词典，所述新词词典分词新词字段从而获得元素，且已获得的元素添加到词典中，人工编制添加鞋子品牌到所述词典；

所述新词词典模型公式为：

4.根据权利要求3所述的一种基于大数据的鞋子流行趋势预测系统，其特征在于：所述关键词提取单元基于OCR识别鞋子详情页的图片，获取鞋子详情页的文字，基于LDA主题模型抓取详情页中鞋子元素；

5.根据权利要求4所述的一种基于大数据的鞋子流行趋势预测系统，其特征在于：所述元素预测模块基于LSTM算法进行流行度预测，所述元素预测模块通过门控制输出，门包括遗忘门、记忆门和输出门，所述元素预测模块输入层输入不同时间步长的鞋子元素的流行度P，所述元素预测模块输出前增加全连接层，所述元素预测模块最终输出前N个的元素的不同时间的流行度。

6.根据权利要求5所述的一种基于大数据的鞋子流行趋势预测系统，其特征在于：所述元素预测模块通过sigmod神经网络层构建遗忘门，表达式为：

f＝σ(ε_t-1×W_f+X_t×U_f+b_f)

通过sigmod神经网络层构建记忆门，表达式为：

i＝σ(ε_t-1×W_i+X_t×U_i+b_i)

通过ReLU激活函数构建新的状态候选量C₁，表达式为：

C₁＝max(0，ε_t-1×W_c+X_t×U_c+b_c)

C_t＝C_t-1×f+C₁×i

W_c是新的状态候选量权重,U_c是连接输入层与新的状态候选量偏重矩阵,

b_c是新的状态候选量偏置项；

通过sigmod神经网络层构建输出门，表达式为：

o＝σ(ε_t-1×W_o+X_t×U_o+b_o)

得到最终的输出信号：

εt＝o×tanh(C_t)。

7.根据权利要求6所述的一种基于大数据的鞋子流行趋势预测系统，其特征在于：所述数据分析模块获得不同元素的未来时间的流行度，以不同时间步长为条件进行排序，取前n的元素输出为鞋子的未来不同时间步长流行趋势。