CN115409541A - 基于数据血缘的卷烟品牌数据处理方法 - Google Patents

基于数据血缘的卷烟品牌数据处理方法 Download PDF

Info

Publication number
CN115409541A
CN115409541A CN202210941371.4A CN202210941371A CN115409541A CN 115409541 A CN115409541 A CN 115409541A CN 202210941371 A CN202210941371 A CN 202210941371A CN 115409541 A CN115409541 A CN 115409541A
Authority
CN
China
Prior art keywords
data
cigarette
cigarette brand
brand
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210941371.4A
Other languages
English (en)
Inventor
金泳
楼卫东
高扬华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Zhejiang Industrial Co Ltd
Original Assignee
China Tobacco Zhejiang Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Zhejiang Industrial Co Ltd filed Critical China Tobacco Zhejiang Industrial Co Ltd
Priority to CN202210941371.4A priority Critical patent/CN115409541A/zh
Publication of CN115409541A publication Critical patent/CN115409541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据血缘的卷烟品牌数据处理方法,针对卷烟品牌数据特有的分布杂乱且特征难以提取的问题,通过引入数据血缘技术,实现了卷烟品牌数据的时空分布及类型溯源,建立出作为起点的卷烟品牌数据与所有相关元数据之间的数据血缘关系,并据此确定以数据流转频率量化表征的卷烟品牌影响度,利用经血缘分析后得到的卷烟品牌数据时序信息及预测目标,构建LSTM架构的预测模型,由此解决传统深度学习中难以进行不同卷烟品牌在不同时序中的同时比较,通过同时输入不同卷烟品牌在不同时刻下的影响度特征,对不同品牌的影响度既进行纵向预测又进行横向比较,由此便可以通过预测模型对不同的卷烟品牌的影响度作出精准预测并进行相应排序。

Description

基于数据血缘的卷烟品牌数据处理方法
技术领域
本发明涉及卷烟产品数据处理技术领域,尤其涉及一种基于数据血缘的卷烟品牌数据处理方法。
背景技术
近年来,得益于大量数据资源和丰富的计算资源,深度学习凭借优异的性能在众多技术领域得到广泛的应用,例如流量预测以及图像识别等技术领域。然而,大量的多模态数据限制了数据的治理、溯源和关联性分析。
以本领域来说,例如一家卷烟公司从多种源头获取多种卷烟信息,卷烟公司希望对这几种卷烟进行资源重新分配,而多种源头的数据往往是没有联系的,杂乱的。如何在多种杂乱数据中剖析出数据之间的联系是技术难点。为了解决这一难题,数据血缘技术被提出。
数据血缘属于数据治理中的一个关键技术,是在数据来源溯源的过程中找到相关数据之间的联系。数据血缘是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。其中,大数据血缘是指数据产生的链路,即该数据的来源、经过哪些操作。在数据处理的过程,从数据源头到最终的数据生成,每个环节都可能会出现数据质量的问题。比如数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到目标,其数据质量也不会很高。因此,对于数据的血缘关系,需要确保每个环节都要注意数据质量的检测和处理,那么后续数据才会由很高的数据质量。
以卷烟行业而言,卷烟企业可通过数据血缘技术实现预测卷烟品牌的信息传播速率和范围的目的(也可以理解为数据的流转频率,为便于说明,本发明将“信息传播速率及范围”统称为影响度),该过程通常分为三步:首先,采集数据集中各种数据的任务血缘信息,并且将血缘信息统一处理写入数据库;然后,对数据质量评估并且对数据血缘进行分级,并对数据进行预处理;最后,利用收集好的时序数据以及不同模态数据训练时序预测模型,预测下个时刻卷烟品牌影响度。
然而,现有适用于卷烟品牌影响度的深度学习方法存在的主要问题在于:常见的深度学习仅仅适用于单一的结构化数据模态,以卷烟品牌排序为例,现实中的对于品牌影响因素的数据类型复杂多样,例如卷烟品牌评论文本数据模态、视频语音数据模态和结构化数据等。而单一的数据模态限制了时序网络任务预测的性能,但多种数据模态又难以在深度学习的方法中进行使用。因此,探索一种适用于数据血缘的深度学习品牌影响度预测机制往往能够挖掘出更多的数据价值,对提升机器的任务处理性能具有重要的作用。
发明内容
鉴于上述,本发明旨在提供一种基于数据血缘的卷烟品牌数据处理方法,以解决对于卷烟品牌信息流转频率预测能力不佳的问题。
本发明采用的技术方案如下:
本发明提供了一种基于数据血缘的卷烟品牌数据处理方法,其中包括:
记录并动态更新卷烟品牌的数据资源;
基于所述数据资源,对卷烟品牌数据进行追踪,确定作为起点对象的卷烟品牌数据与所有相关元数据对象之间的数据血缘关系;
通过所述数据血缘关系,确定卷烟品牌影响度的量化表征,其中所述卷烟品牌影响度与基于血缘关系确定的数据流转频率相关;
基于附带有时序信息的卷烟品牌数据血缘关系以及所述卷烟品牌影响度,构建LSTM架构的预测模型;
利用所述预测模型对不同的卷烟品牌的影响度进行预测并排序。
在其中至少一种可能的实现方式中,所述卷烟品牌影响度的量化表征为:
Figure BDA0003785760700000021
其中,φi,j表示影响度,frei,j表示第i个卷烟品牌在第j个时刻的数据流转频率。
在其中至少一种可能的实现方式中,所述对卷烟品牌数据进行追踪包括:对所述数据资源进行数据流向、溯源及变更影响分析。
在其中至少一种可能的实现方式中,所述数据处理方法还包括:根据数据流向分析结果构建用于获取卷烟品牌数据血缘关系的血缘图谱。
在其中至少一种可能的实现方式中,所述数据处理方法还包括:结合所述血缘图谱以及预设的数据清洗标准与数据质量要求,对超过预设期限仍存在且无下级流程的卷烟品牌数据进行冷数据归档并告警。
在其中至少一种可能的实现方式中,所述数据流转频率包括用于表征预设数据血缘分级的应用热度的卷烟品牌数据引用或更新频次。
在其中至少一种可能的实现方式中,所述预设数据血缘分级包括:系统级别、表级别以及字段级别。
在其中至少一种可能的实现方式中,所述数据资源包括:预设的卷烟品牌上下游数据资源编码、数据项编码、时间项编码以及数据资源转换规则。
在其中至少一种可能的实现方式中,所述数据处理方法还包括:
将影响度预测结果与对应品牌的卷烟销量历史数据融合后,再次利用所述预测模型获取销量预测结果;
基于影响度预测结果以及销量预测结果对不同的卷烟品牌进行综合排序。
在其中至少一种可能的实现方式中,所述将影响度预测结果与对应品牌的卷烟销量历史数据融合后,再次利用所述预测模型获取销量预测结果包括:
将影响度预测结果与对应品牌的卷烟销量历史数据横向拼接为新特征;
将所述新特征输入至所述预测模型进行处理并输出不同卷烟品牌在不同时刻的销量数据预测结果
本发明的主要设计构思在于,针对卷烟品牌数据特有的分布杂乱且特征难以提取的问题,通过引入数据血缘技术,实现了卷烟品牌数据的时空分布及类型溯源,建立出作为起点的卷烟品牌数据与所有相关元数据之间的数据血缘关系,并据此确定以数据流转频率量化表征的卷烟品牌影响度,利用经血缘分析后得到的卷烟品牌数据时序信息及预测目标,构建LSTM架构的预测模型,由此解决传统深度学习中难以进行不同卷烟品牌在不同时序中的同时比较,通过同时输入不同卷烟品牌在不同时刻下的影响度特征,对不同品牌的影响度既进行纵向预测又进行横向比较,由此便可以通过预测模型对不同的卷烟品牌的影响度作出精准预测并进行相应排序。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明实施例提供的基于数据血缘的卷烟品牌数据处理方法的流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在展开本发明具体实施例之前,需要再次强调的是,在卷烟生产行业,缺乏在大量杂乱数据下的深度学习数据特征及提取的策略,由此,本发明提出一种基于数据血缘的深度学习卷烟品牌数据处理方法,该方法主要分为两个层面:第一层、深度学习方法难以适用于卷烟行业的大量无规律数据的特征提取并实现预测任务,此外,不同的卷烟品牌相关数据中的时序信息不一致,很可能会干扰深度学习模型时序信息,为了更好地梳理卷烟品牌数据中的信息,下述实施例中设计了基于数据血缘的数据处理机制,具体是将卷烟品牌数据进行时序溯源和任务溯源。第二层、在真实场景中,影响卷烟品牌信息传播的不仅有时序时间的纵向比较,还有不同卷烟品牌数据之间的横向比较,为了更好地处理此双向比较,下述实施例中提出利用时序模型LSTM处理时序数据,并且构建了多通道的模型架构以便对于不同卷烟品牌数据进行前述横向比较。
据此,一种基于数据血缘的卷烟品牌数据处理方法的实施例,如图1所示,可以包括以下步骤:
步骤S1、记录并动态更新卷烟品牌的数据资源;具体可以包括:记录预设的卷烟品牌上下游数据资源编码、数据项编码、时间项编码以及数据资源转换规则。
步骤S2、基于所述数据资源,对卷烟品牌数据进行追踪,确定作为起点对象的卷烟品牌数据与所有相关元数据对象之间的数据血缘关系;
具体的追踪方式,可以对所述数据资源进行数据流向、溯源及变更影响分析。在一些实施例中,可将追踪到血缘关系的卷数品牌数据(如卷烟视频图片、多模态广告数据、评论数据等)按照数据类别、数据项和转换规则进行数据血缘查询,并可以向数据资源提供服务接口。优选地,在一些较佳实施例中还可以提供数据血缘关系形式化展示,例如可以按照数据流向构建血缘图谱(可利用业内成熟的AI技术自动生成血缘图谱),以此提升对卷烟品牌数据的回溯效率。基于此构思,还可以考虑结合所述血缘图谱以及预设的数据清洗标准清单与数据质量要求,对超过预设期限仍存在且无下级流程的卷烟品牌数据进行冷数据归档并告警。
步骤S3、通过所述数据血缘关系,确定作为预测目标的卷烟品牌影响度的量化表征,其中所述卷烟品牌影响度与基于血缘关系确定的数据流转频率相关;
在实际操作中,所述数据流转频率具体可以体现为对于卷烟品牌数据的引用或更新的频次,其可以表征卷烟品牌的数据血缘分级的应用热度。这里所述数据血缘分级可以包括三个预设级别:系统级别、表级别和字段级别。而数据血缘分析的颗粒度定位在哪个级别,则可以根据实际业务需求及应用场景来确定,例如以卷烟品牌相关的视频数据为例,其包括目标卷烟品牌图像数据、卷烟品牌数据特征属性、卷烟品牌数据特征向量等,按分析需求来说,可将卷烟品牌视频数据的数据血缘级别至少定位在“表级别”。
而为了更好地适应后续数据预测及排序预测处理,在一些较佳实施例中提出,所述卷烟品牌影响度的量化表征,即是针对不同卷烟品牌及不同时刻可计算出与数据流转频率相关的卷烟品牌影响度,其计算公式如下所示:
Figure BDA0003785760700000061
其中,frei,j表示第i个卷烟品牌的第j个时刻的流转频率,分母即为卷烟品牌在第j个时刻的最大流转频率。
步骤S4、基于附带有时序信息的卷烟品牌数据血缘关系以及所述卷烟品牌影响度,构建LSTM架构的预测模型;
步骤S5、利用所述预测模型对不同的卷烟品牌在未来时刻的影响度进行预测并排序。
具体而言,为了更好地利用由前述数据血缘技术处理后的附带时序信息的卷烟品牌数据,本发明采用LSTM作为预测模型的主要架构。由此,基于前述数据血缘技术可溯源出不同时刻的不同卷烟品牌的影响度并提取相应的带有时序信息的血缘特征,输入到LSTM模型中预测后续时刻的不同卷烟品牌与数据流转频率相关的影响度预测结果,并据此预测出的影响度量化结果进行排序。在实际操作中,通过前述对卷烟品牌数据血缘关系的追溯,可以评估卷烟品牌数据的价值及质量,优选将其中较高质量的卷烟品牌数据进行结构化处理并训练预测模型,从而实现该深度学习模型满足主要任务需求。
除了主要任务需求之外,本领域技术人员可以理解地,基于LSTM预测模型足以预测出具有时序特性的不同卷烟品牌的影响度,而为了进一步利用该影响度φi,j执行更为多元的排序任务,可将影响度预测结果与对应品牌的卷烟销量历史数据
Figure BDA0003785760700000062
横向拼接组成新的特征
Figure BDA0003785760700000063
再次输入到LSTM模型中使得模型还能够同时预测不同卷烟品牌在不同时刻的销量数据,由此,基于预测出的影响度以及销量数据进行综合排序,具体的综合排序过程可参考如下所示:
Figure BDA0003785760700000071
其中
Figure BDA0003785760700000072
表示第i种卷烟品牌在未来第j个月的预测影响度,
Figure BDA0003785760700000073
表示第i种卷烟品牌在第j个月预测销量数据。
综合上述各个实施例,这里总结一套完整的技术实现脉络:动态搜集卷烟品牌的视频数据、图片数据、文本数据、语音数据等外部数据,追溯数据之间的血缘关系并建立血缘分级,之后还可进行数据质量及价值的评估,再将评估后的卷烟品牌数据进行归纳,以及还可以对归纳的卷烟品牌数据进行奇异谱分析,然后训练并LSTM模型并使用该模型进行影响度(和销售量)的预测,最后根据预测出的量化结果对不同卷烟品牌进行排序。根据此完整的卷烟品牌数据处理流程,这里可做下述介绍供实际实施参考:
(1)卷烟品牌数据奇异谱分析
奇异谱分析是一种处理非线性时间序列的数据的方法,通过对所要研究的时间序列的轨迹分析进行分解、重构等操作,提取出的时间序列不同成分序列(长期趋势、季节趋势、噪声等),从而对时间序列进行分析或去噪。
其中涉及的嵌入环节:奇异谱分析的对象是有限长一维时间序列[φi,1,φi,2,...,φi,N],N是序列长度。首先需要选择合适的窗口长度L,将原始时间序列进行滞后排列得到轨迹矩阵:
Figure BDA0003785760700000074
通常情况下取L<N/2。令K=N-L+1,则轨迹矩阵X为L×K的矩阵。
Figure BDA0003785760700000075
分解环节:在本阶段对轨迹矩阵进行奇异值分解,即将X分解成以下形式:
X=U∑VT
其中U为左矩阵;∑仅在主对角线上有值,即奇异值,其他元素均为零;V为右矩阵。此外U,V均为单位正交阵,满足UUT=I,VVT=I。
由于直接对轨迹分解比较困难,因此先计算轨迹矩阵的协方差矩阵:
S=XXT
接下来对S进行特征值分解得到特征值λ1>λ2>…>λL≥0和相应的特征向量U1,U2,…,UL。此时U=[U1,U2,…,UL],
Figure BDA0003785760700000081
为原序列的奇异谱。并且有如下:
Figure BDA0003785760700000082
其中λi对应的特征向量Ui反映了时间序列的演变型。
分组环节:将所有的L个成分分为c个不相交的组,代表着不同的趋势成分。各个分组的成分为:[Xl1,Xl2,…Xlc],时间序列X则可以表示为:
X=Xl1+…+Xlc
其中
Figure BDA0003785760700000083
(2)LSTM模型构建
相比于原始的RNN中的隐藏层,LSTM增加了一个细胞状态,LSTM在t时刻的有三个输入:细胞状态Ct-1,隐藏状态ht-1,t时刻输入向量Xt。输出有两个:细胞状态Ct和隐层状态ht。此外ht还作为t时刻的输出。
并且,LSTM有遗忘门层、更新门层和输出门层构成。其中遗忘门层的公式可以表示为:
ft=σ(Wf·[ht-1,xt]+bf)
其中,[]表示两个向量的横向拼接,ft为网络输出,Wf为输入计算参数,bf为修正参数,σ为激活函数。
更新门层包括两个部分:
Figure BDA0003785760700000084
可以看作为新的输入带来的信息;it表示信息保存哪些部分。其中
Figure BDA0003785760700000085
计算过程如下所示:
Figure BDA0003785760700000086
其中WC表示参数矩阵,tanh表示激活函数,bC为修正参数。
it的计算过程如下所示:
it=σ(Wi·[ht-1,xt]+bi)
其中Wi表示it的参数矩阵,bi表示修正参数。
因此更新门的总体输出可以表示为:
Figure BDA0003785760700000091
输出门层表示LSTM的输出,此时细胞状态Ct已经被更新,当Ct通过tanh缩放后与ot相乘,这表示一个阶段的输出。其中ot和输出ht计算公式如下所示:
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
综上所述,本发明的主要设计构思在于,针对卷烟品牌数据特有的分布杂乱且特征难以提取的问题,通过引入数据血缘技术,实现了卷烟品牌数据的时空分布及类型溯源,建立出作为起点的卷烟品牌数据与所有相关元数据之间的数据血缘关系,并据此确定以数据流转频率量化表征的卷烟品牌影响度,利用经血缘分析后得到的卷烟品牌数据时序信息及预测目标,构建LSTM架构的预测模型,由此解决传统深度学习中难以进行不同卷烟品牌在不同时序中的同时比较,通过同时输入不同卷烟品牌在不同时刻下的影响度特征,对不同品牌的影响度既进行纵向预测又进行横向比较,由此便可以通过预测模型对不同的卷烟品牌的影响度作出精准预测并进行相应排序。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (10)

1.一种基于数据血缘的卷烟品牌数据处理方法,其特征在于,包括:
记录并动态更新卷烟品牌的数据资源;
基于所述数据资源,对卷烟品牌数据进行追踪,确定作为起点对象的卷烟品牌数据与所有相关元数据对象之间的数据血缘关系;
通过所述数据血缘关系,确定卷烟品牌影响度的量化表征,其中所述卷烟品牌影响度与基于血缘关系确定的数据流转频率相关;
基于附带有时序信息的卷烟品牌数据血缘关系以及所述卷烟品牌影响度,构建LSTM架构的预测模型;
利用所述预测模型对不同的卷烟品牌的影响度进行预测并排序。
2.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述卷烟品牌影响度的量化表征为:
Figure FDA0003785760690000011
其中,φi,j表示影响度,frei,j表示第i个卷烟品牌在第j个时刻的数据流转频率。
3.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述对卷烟品牌数据进行追踪包括:对所述数据资源进行数据流向、溯源及变更影响分析。
4.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述数据处理方法还包括:根据数据流向分析结果构建用于获取卷烟品牌数据血缘关系的血缘图谱。
5.根据权利要求4所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述数据处理方法还包括:结合所述血缘图谱以及预设的数据清洗标准与数据质量要求,对超过预设期限仍存在且无下级流程的卷烟品牌数据进行冷数据归档并告警。
6.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述数据流转频率包括用于表征预设数据血缘分级的应用热度的卷烟品牌数据引用或更新频次。
7.根据权利要求6所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述预设数据血缘分级包括:系统级别、表级别以及字段级别。
8.根据权利要求1所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述数据资源包括:预设的卷烟品牌上下游数据资源编码、数据项编码、时间项编码以及数据资源转换规则。
9.根据权利要求1~8任一项所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述数据处理方法还包括:
将影响度预测结果与对应品牌的卷烟销量历史数据融合后,再次利用所述预测模型获取销量预测结果;
基于影响度预测结果以及销量预测结果对不同的卷烟品牌进行综合排序。
10.根据权利要求9所述的基于数据血缘的卷烟品牌数据处理方法,其特征在于,所述将影响度预测结果与对应品牌的卷烟销量历史数据融合后,再次利用所述预测模型获取销量预测结果包括:
将影响度预测结果与对应品牌的卷烟销量历史数据横向拼接为新特征;
将所述新特征输入至所述预测模型进行处理并输出不同卷烟品牌在不同时刻的销量数据预测结果。
CN202210941371.4A 2022-08-08 2022-08-08 基于数据血缘的卷烟品牌数据处理方法 Pending CN115409541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210941371.4A CN115409541A (zh) 2022-08-08 2022-08-08 基于数据血缘的卷烟品牌数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210941371.4A CN115409541A (zh) 2022-08-08 2022-08-08 基于数据血缘的卷烟品牌数据处理方法

Publications (1)

Publication Number Publication Date
CN115409541A true CN115409541A (zh) 2022-11-29

Family

ID=84160495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210941371.4A Pending CN115409541A (zh) 2022-08-08 2022-08-08 基于数据血缘的卷烟品牌数据处理方法

Country Status (1)

Country Link
CN (1) CN115409541A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687309A (zh) * 2022-12-30 2023-02-03 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687309A (zh) * 2022-12-30 2023-02-03 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置

Similar Documents

Publication Publication Date Title
CN111199343B (zh) 一种多模型融合的烟草市场监管异常数据挖掘方法
Sun et al. Feature selection using rough entropy-based uncertainty measures in incomplete decision systems
CN107808278B (zh) 一种基于稀疏自编码器的Github开源项目推荐方法
CN110245285B (zh) 一种基于异构信息网络的个性化推荐方法
JP7486250B2 (ja) 高速スクリーニングのためのドメイン固有言語インタープリタ及び対話型視覚インターフェース
CN114647465B (zh) 多通道注意力图神经网络聚类的单体程序拆分方法及系统
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN105260171A (zh) 一种虚拟道具的生成方法及装置
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
Gahar et al. A distributed approach for high-dimensionality heterogeneous data reduction
CN111221881B (zh) 用户特征数据合成方法、装置及电子设备
Bildosola et al. An approach for modelling and forecasting research activity related to an emerging technology
Zhu et al. Analysis of stock market based on visibility graph and structure entropy
EP1672578A1 (en) Method and system for analyzing the risk of a project
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
Liu et al. A stock series prediction model based on variational mode decomposition and dual-channel attention network
Atzmueller et al. MinerLSD: efficient mining of local patterns on attributed networks
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
Battle et al. What do we mean when we say “insight”? A formal synthesis of existing theory
CN116401372A (zh) 知识图谱表示学习方法、装置、电子设备及可读存储介质
CN115905704A (zh) 一种融合偏好传播的多任务推荐方法
CN113034316A (zh) 一种专利价值转换的分析方法及系统
Di Mascolo et al. Queueing network modeling and analysis of kanban systems
CN112118486A (zh) 内容项投放方法、装置、计算机设备及存储介质
Manning et al. Volume and Direction of the Atlantic Slave Trade, 1650-1870: Estimates by Markov Chain Carlo Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination