CN115409541A

CN115409541A - 基于数据血缘的卷烟品牌数据处理方法

Info

Publication number: CN115409541A
Application number: CN202210941371.4A
Authority: CN
Inventors: 金泳; 楼卫东; 高扬华
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-29

Abstract

本发明公开了一种基于数据血缘的卷烟品牌数据处理方法，针对卷烟品牌数据特有的分布杂乱且特征难以提取的问题，通过引入数据血缘技术，实现了卷烟品牌数据的时空分布及类型溯源，建立出作为起点的卷烟品牌数据与所有相关元数据之间的数据血缘关系，并据此确定以数据流转频率量化表征的卷烟品牌影响度，利用经血缘分析后得到的卷烟品牌数据时序信息及预测目标，构建LSTM架构的预测模型，由此解决传统深度学习中难以进行不同卷烟品牌在不同时序中的同时比较，通过同时输入不同卷烟品牌在不同时刻下的影响度特征，对不同品牌的影响度既进行纵向预测又进行横向比较，由此便可以通过预测模型对不同的卷烟品牌的影响度作出精准预测并进行相应排序。

Description

基于数据血缘的卷烟品牌数据处理方法

技术领域

本发明涉及卷烟产品数据处理技术领域，尤其涉及一种基于数据血缘的卷烟品牌数据处理方法。

背景技术

近年来，得益于大量数据资源和丰富的计算资源，深度学习凭借优异的性能在众多技术领域得到广泛的应用，例如流量预测以及图像识别等技术领域。然而，大量的多模态数据限制了数据的治理、溯源和关联性分析。

以本领域来说，例如一家卷烟公司从多种源头获取多种卷烟信息，卷烟公司希望对这几种卷烟进行资源重新分配，而多种源头的数据往往是没有联系的，杂乱的。如何在多种杂乱数据中剖析出数据之间的联系是技术难点。为了解决这一难题，数据血缘技术被提出。

数据血缘属于数据治理中的一个关键技术，是在数据来源溯源的过程中找到相关数据之间的联系。数据血缘是保证数据融合的一个手段，通过血缘分析实现数据融合处理的可追溯。其中，大数据血缘是指数据产生的链路，即该数据的来源、经过哪些操作。在数据处理的过程，从数据源头到最终的数据生成，每个环节都可能会出现数据质量的问题。比如数据源本身数据质量不高，在后续的处理环节中如果没有进行数据质量的检测和处理，那么这个数据信息最终流转到目标，其数据质量也不会很高。因此，对于数据的血缘关系，需要确保每个环节都要注意数据质量的检测和处理，那么后续数据才会由很高的数据质量。

以卷烟行业而言，卷烟企业可通过数据血缘技术实现预测卷烟品牌的信息传播速率和范围的目的(也可以理解为数据的流转频率，为便于说明，本发明将“信息传播速率及范围”统称为影响度)，该过程通常分为三步：首先，采集数据集中各种数据的任务血缘信息，并且将血缘信息统一处理写入数据库；然后，对数据质量评估并且对数据血缘进行分级，并对数据进行预处理；最后，利用收集好的时序数据以及不同模态数据训练时序预测模型，预测下个时刻卷烟品牌影响度。

然而，现有适用于卷烟品牌影响度的深度学习方法存在的主要问题在于：常见的深度学习仅仅适用于单一的结构化数据模态，以卷烟品牌排序为例，现实中的对于品牌影响因素的数据类型复杂多样，例如卷烟品牌评论文本数据模态、视频语音数据模态和结构化数据等。而单一的数据模态限制了时序网络任务预测的性能，但多种数据模态又难以在深度学习的方法中进行使用。因此，探索一种适用于数据血缘的深度学习品牌影响度预测机制往往能够挖掘出更多的数据价值，对提升机器的任务处理性能具有重要的作用。

发明内容

鉴于上述，本发明旨在提供一种基于数据血缘的卷烟品牌数据处理方法，以解决对于卷烟品牌信息流转频率预测能力不佳的问题。

本发明采用的技术方案如下：

本发明提供了一种基于数据血缘的卷烟品牌数据处理方法，其中包括：

记录并动态更新卷烟品牌的数据资源；

基于所述数据资源，对卷烟品牌数据进行追踪，确定作为起点对象的卷烟品牌数据与所有相关元数据对象之间的数据血缘关系；

通过所述数据血缘关系，确定卷烟品牌影响度的量化表征，其中所述卷烟品牌影响度与基于血缘关系确定的数据流转频率相关；

基于附带有时序信息的卷烟品牌数据血缘关系以及所述卷烟品牌影响度，构建LSTM架构的预测模型；

利用所述预测模型对不同的卷烟品牌的影响度进行预测并排序。

在其中至少一种可能的实现方式中，所述卷烟品牌影响度的量化表征为：

其中，φ_i，j表示影响度，fre_i，j表示第i个卷烟品牌在第j个时刻的数据流转频率。

在其中至少一种可能的实现方式中，所述对卷烟品牌数据进行追踪包括：对所述数据资源进行数据流向、溯源及变更影响分析。

在其中至少一种可能的实现方式中，所述数据处理方法还包括：根据数据流向分析结果构建用于获取卷烟品牌数据血缘关系的血缘图谱。

在其中至少一种可能的实现方式中，所述数据处理方法还包括：结合所述血缘图谱以及预设的数据清洗标准与数据质量要求，对超过预设期限仍存在且无下级流程的卷烟品牌数据进行冷数据归档并告警。

在其中至少一种可能的实现方式中，所述数据流转频率包括用于表征预设数据血缘分级的应用热度的卷烟品牌数据引用或更新频次。

在其中至少一种可能的实现方式中，所述预设数据血缘分级包括：系统级别、表级别以及字段级别。

在其中至少一种可能的实现方式中，所述数据资源包括：预设的卷烟品牌上下游数据资源编码、数据项编码、时间项编码以及数据资源转换规则。

在其中至少一种可能的实现方式中，所述数据处理方法还包括：

将影响度预测结果与对应品牌的卷烟销量历史数据融合后，再次利用所述预测模型获取销量预测结果；

基于影响度预测结果以及销量预测结果对不同的卷烟品牌进行综合排序。

在其中至少一种可能的实现方式中，所述将影响度预测结果与对应品牌的卷烟销量历史数据融合后，再次利用所述预测模型获取销量预测结果包括：

将影响度预测结果与对应品牌的卷烟销量历史数据横向拼接为新特征；

将所述新特征输入至所述预测模型进行处理并输出不同卷烟品牌在不同时刻的销量数据预测结果

本发明的主要设计构思在于，针对卷烟品牌数据特有的分布杂乱且特征难以提取的问题，通过引入数据血缘技术，实现了卷烟品牌数据的时空分布及类型溯源，建立出作为起点的卷烟品牌数据与所有相关元数据之间的数据血缘关系，并据此确定以数据流转频率量化表征的卷烟品牌影响度，利用经血缘分析后得到的卷烟品牌数据时序信息及预测目标，构建LSTM架构的预测模型，由此解决传统深度学习中难以进行不同卷烟品牌在不同时序中的同时比较，通过同时输入不同卷烟品牌在不同时刻下的影响度特征，对不同品牌的影响度既进行纵向预测又进行横向比较，由此便可以通过预测模型对不同的卷烟品牌的影响度作出精准预测并进行相应排序。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明实施例提供的基于数据血缘的卷烟品牌数据处理方法的流程图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在展开本发明具体实施例之前，需要再次强调的是，在卷烟生产行业，缺乏在大量杂乱数据下的深度学习数据特征及提取的策略，由此，本发明提出一种基于数据血缘的深度学习卷烟品牌数据处理方法，该方法主要分为两个层面：第一层、深度学习方法难以适用于卷烟行业的大量无规律数据的特征提取并实现预测任务，此外，不同的卷烟品牌相关数据中的时序信息不一致，很可能会干扰深度学习模型时序信息，为了更好地梳理卷烟品牌数据中的信息，下述实施例中设计了基于数据血缘的数据处理机制，具体是将卷烟品牌数据进行时序溯源和任务溯源。第二层、在真实场景中，影响卷烟品牌信息传播的不仅有时序时间的纵向比较，还有不同卷烟品牌数据之间的横向比较，为了更好地处理此双向比较，下述实施例中提出利用时序模型LSTM处理时序数据，并且构建了多通道的模型架构以便对于不同卷烟品牌数据进行前述横向比较。

据此，一种基于数据血缘的卷烟品牌数据处理方法的实施例，如图1所示，可以包括以下步骤：

步骤S1、记录并动态更新卷烟品牌的数据资源；具体可以包括：记录预设的卷烟品牌上下游数据资源编码、数据项编码、时间项编码以及数据资源转换规则。

步骤S2、基于所述数据资源，对卷烟品牌数据进行追踪，确定作为起点对象的卷烟品牌数据与所有相关元数据对象之间的数据血缘关系；

具体的追踪方式，可以对所述数据资源进行数据流向、溯源及变更影响分析。在一些实施例中，可将追踪到血缘关系的卷数品牌数据(如卷烟视频图片、多模态广告数据、评论数据等)按照数据类别、数据项和转换规则进行数据血缘查询，并可以向数据资源提供服务接口。优选地，在一些较佳实施例中还可以提供数据血缘关系形式化展示，例如可以按照数据流向构建血缘图谱(可利用业内成熟的AI技术自动生成血缘图谱)，以此提升对卷烟品牌数据的回溯效率。基于此构思，还可以考虑结合所述血缘图谱以及预设的数据清洗标准清单与数据质量要求，对超过预设期限仍存在且无下级流程的卷烟品牌数据进行冷数据归档并告警。

步骤S3、通过所述数据血缘关系，确定作为预测目标的卷烟品牌影响度的量化表征，其中所述卷烟品牌影响度与基于血缘关系确定的数据流转频率相关；

在实际操作中，所述数据流转频率具体可以体现为对于卷烟品牌数据的引用或更新的频次，其可以表征卷烟品牌的数据血缘分级的应用热度。这里所述数据血缘分级可以包括三个预设级别：系统级别、表级别和字段级别。而数据血缘分析的颗粒度定位在哪个级别，则可以根据实际业务需求及应用场景来确定，例如以卷烟品牌相关的视频数据为例，其包括目标卷烟品牌图像数据、卷烟品牌数据特征属性、卷烟品牌数据特征向量等，按分析需求来说，可将卷烟品牌视频数据的数据血缘级别至少定位在“表级别”。

而为了更好地适应后续数据预测及排序预测处理，在一些较佳实施例中提出，所述卷烟品牌影响度的量化表征，即是针对不同卷烟品牌及不同时刻可计算出与数据流转频率相关的卷烟品牌影响度，其计算公式如下所示：

其中，fre_i，j表示第i个卷烟品牌的第j个时刻的流转频率，分母即为卷烟品牌在第j个时刻的最大流转频率。

步骤S4、基于附带有时序信息的卷烟品牌数据血缘关系以及所述卷烟品牌影响度，构建LSTM架构的预测模型；

步骤S5、利用所述预测模型对不同的卷烟品牌在未来时刻的影响度进行预测并排序。

具体而言，为了更好地利用由前述数据血缘技术处理后的附带时序信息的卷烟品牌数据，本发明采用LSTM作为预测模型的主要架构。由此，基于前述数据血缘技术可溯源出不同时刻的不同卷烟品牌的影响度并提取相应的带有时序信息的血缘特征，输入到LSTM模型中预测后续时刻的不同卷烟品牌与数据流转频率相关的影响度预测结果，并据此预测出的影响度量化结果进行排序。在实际操作中，通过前述对卷烟品牌数据血缘关系的追溯，可以评估卷烟品牌数据的价值及质量，优选将其中较高质量的卷烟品牌数据进行结构化处理并训练预测模型，从而实现该深度学习模型满足主要任务需求。

除了主要任务需求之外，本领域技术人员可以理解地，基于LSTM预测模型足以预测出具有时序特性的不同卷烟品牌的影响度，而为了进一步利用该影响度φ_i，j执行更为多元的排序任务，可将影响度预测结果与对应品牌的卷烟销量历史数据

横向拼接组成新的特征

再次输入到LSTM模型中使得模型还能够同时预测不同卷烟品牌在不同时刻的销量数据，由此，基于预测出的影响度以及销量数据进行综合排序，具体的综合排序过程可参考如下所示：

其中

表示第i种卷烟品牌在未来第j个月的预测影响度，

表示第i种卷烟品牌在第j个月预测销量数据。

综合上述各个实施例，这里总结一套完整的技术实现脉络：动态搜集卷烟品牌的视频数据、图片数据、文本数据、语音数据等外部数据，追溯数据之间的血缘关系并建立血缘分级，之后还可进行数据质量及价值的评估，再将评估后的卷烟品牌数据进行归纳，以及还可以对归纳的卷烟品牌数据进行奇异谱分析，然后训练并LSTM模型并使用该模型进行影响度(和销售量)的预测，最后根据预测出的量化结果对不同卷烟品牌进行排序。根据此完整的卷烟品牌数据处理流程，这里可做下述介绍供实际实施参考：

(1)卷烟品牌数据奇异谱分析

奇异谱分析是一种处理非线性时间序列的数据的方法，通过对所要研究的时间序列的轨迹分析进行分解、重构等操作，提取出的时间序列不同成分序列(长期趋势、季节趋势、噪声等)，从而对时间序列进行分析或去噪。

其中涉及的嵌入环节：奇异谱分析的对象是有限长一维时间序列[φ_i，1，φ_i，2，...，φ_i，N]，N是序列长度。首先需要选择合适的窗口长度L，将原始时间序列进行滞后排列得到轨迹矩阵：

通常情况下取L＜N/2。令K＝N-L+1，则轨迹矩阵X为L×K的矩阵。

分解环节：在本阶段对轨迹矩阵进行奇异值分解，即将X分解成以下形式：

X＝U∑V^T

其中U为左矩阵；∑仅在主对角线上有值，即奇异值，其他元素均为零；V为右矩阵。此外U，V均为单位正交阵，满足UU^T＝I，VV^T＝I。

由于直接对轨迹分解比较困难，因此先计算轨迹矩阵的协方差矩阵：

S＝XX^T

接下来对S进行特征值分解得到特征值λ₁＞λ₂＞…＞λ_L≥0和相应的特征向量U₁，U₂，…，U_L。此时U＝[U₁，U₂，…，U_L]，

为原序列的奇异谱。并且有如下：

其中λ_i对应的特征向量U_i反映了时间序列的演变型。

分组环节：将所有的L个成分分为c个不相交的组，代表着不同的趋势成分。各个分组的成分为：[X_l1，X_l2，…X_lc]，时间序列X则可以表示为：

X＝X_l1+…+X_lc

其中

(2)LSTM模型构建

相比于原始的RNN中的隐藏层，LSTM增加了一个细胞状态，LSTM在t时刻的有三个输入：细胞状态C_t-1，隐藏状态h_t-1，t时刻输入向量X_t。输出有两个：细胞状态C_t和隐层状态h_t。此外h_t还作为t时刻的输出。

并且，LSTM有遗忘门层、更新门层和输出门层构成。其中遗忘门层的公式可以表示为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

其中，[]表示两个向量的横向拼接，f_t为网络输出，W_f为输入计算参数，b_f为修正参数，σ为激活函数。

更新门层包括两个部分：

可以看作为新的输入带来的信息；i_t表示信息保存哪些部分。其中

计算过程如下所示：

其中W_C表示参数矩阵，tanh表示激活函数，b_C为修正参数。

i_t的计算过程如下所示：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

其中W_i表示i_t的参数矩阵，b_i表示修正参数。

因此更新门的总体输出可以表示为：

输出门层表示LSTM的输出，此时细胞状态C_t已经被更新，当C_t通过tanh缩放后与o_t相乘，这表示一个阶段的输出。其中o_t和输出h_t计算公式如下所示：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

综上所述，本发明的主要设计构思在于，针对卷烟品牌数据特有的分布杂乱且特征难以提取的问题，通过引入数据血缘技术，实现了卷烟品牌数据的时空分布及类型溯源，建立出作为起点的卷烟品牌数据与所有相关元数据之间的数据血缘关系，并据此确定以数据流转频率量化表征的卷烟品牌影响度，利用经血缘分析后得到的卷烟品牌数据时序信息及预测目标，构建LSTM架构的预测模型，由此解决传统深度学习中难以进行不同卷烟品牌在不同时序中的同时比较，通过同时输入不同卷烟品牌在不同时刻下的影响度特征，对不同品牌的影响度既进行纵向预测又进行横向比较，由此便可以通过预测模型对不同的卷烟品牌的影响度作出精准预测并进行相应排序。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种基于数据血缘的卷烟品牌数据处理方法，其特征在于，包括：

记录并动态更新卷烟品牌的数据资源；

2.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述卷烟品牌影响度的量化表征为：

3.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述对卷烟品牌数据进行追踪包括：对所述数据资源进行数据流向、溯源及变更影响分析。

4.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述数据处理方法还包括：根据数据流向分析结果构建用于获取卷烟品牌数据血缘关系的血缘图谱。

5.根据权利要求4所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述数据处理方法还包括：结合所述血缘图谱以及预设的数据清洗标准与数据质量要求，对超过预设期限仍存在且无下级流程的卷烟品牌数据进行冷数据归档并告警。

6.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述数据流转频率包括用于表征预设数据血缘分级的应用热度的卷烟品牌数据引用或更新频次。

7.根据权利要求6所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述预设数据血缘分级包括：系统级别、表级别以及字段级别。

8.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述数据资源包括：预设的卷烟品牌上下游数据资源编码、数据项编码、时间项编码以及数据资源转换规则。

9.根据权利要求1～8任一项所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述数据处理方法还包括：

10.根据权利要求9所述的基于数据血缘的卷烟品牌数据处理方法，其特征在于，所述将影响度预测结果与对应品牌的卷烟销量历史数据融合后，再次利用所述预测模型获取销量预测结果包括：

将所述新特征输入至所述预测模型进行处理并输出不同卷烟品牌在不同时刻的销量数据预测结果。