CN117094743B - 一种自动化卷烟零售市场数据统计分析系统及方法 - Google Patents

一种自动化卷烟零售市场数据统计分析系统及方法 Download PDF

Info

Publication number
CN117094743B
CN117094743B CN202311081368.0A CN202311081368A CN117094743B CN 117094743 B CN117094743 B CN 117094743B CN 202311081368 A CN202311081368 A CN 202311081368A CN 117094743 B CN117094743 B CN 117094743B
Authority
CN
China
Prior art keywords
data
cigarette
index
retail
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311081368.0A
Other languages
English (en)
Other versions
CN117094743A (zh
Inventor
蔡颖嘉
姜思明
路征
谭升达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Tobacco Yangjiang Co ltd
China National Tobacco Corp Guangdong Branch
Original Assignee
Guangdong Tobacco Yangjiang Co ltd
China National Tobacco Corp Guangdong Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Tobacco Yangjiang Co ltd, China National Tobacco Corp Guangdong Branch filed Critical Guangdong Tobacco Yangjiang Co ltd
Priority to CN202311081368.0A priority Critical patent/CN117094743B/zh
Publication of CN117094743A publication Critical patent/CN117094743A/zh
Application granted granted Critical
Publication of CN117094743B publication Critical patent/CN117094743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种自动化卷烟零售市场数据统计分析系统及方法,包括:样本筛选模块,用于筛选零售门店以获得样本数据;零售门店数据按照档位进行分类,计算差异程度;数据分析模块,用于构建指标体系和构建分析计算模型;依据所述指标体系利用数据湖构建分析计算模型;报告生成模块,用于根据模板生成报告和配置数据库。本发明通过对销售数据、用户反馈数据、库存数据等多个方面的分析,了解整个销售链的运作情况,帮助企业更好地制定生产和销售计划,提高效率和盈利能力,还可以通过对多个数据源的整合和分析,发现业务中的隐性关联,提供更全面的数据支持,提升决策的准确性和可信度。

Description

一种自动化卷烟零售市场数据统计分析系统及方法
技术领域
本发明属于卷烟零售领域,尤其涉及一种自动化卷烟零售市场数据统计分析系统及方法。
背景技术
随着烟草行业推出了“20支”流通品牌,通过发展自营店和加盟店,实现了这些门店零售业务的信息化应用。这些应用为市场分析提供了充足的数据,为解决原来市场分析存在的分析模型不全面、分析维度不充实、分析报告不智能等三个主要问题提供了基础,使得市场分析结果可以高效自动化产生,帮助业务人员准确掌握市场变化,提升营销水平。
卷烟零售市场的分析一直以来由于零售门店的信息化程度较低,市场数据采集较困难,仅通过少量零售门店作为数据采集点,手工收集门店的卷烟社会库存和零售价格的数据,所做的市场分析有一定的局限性:一是现有市场分析的模型不能全面涵盖市场的零售商、消费者、卷烟商品等要素。卷烟零售市场中的零售商的盈利状况,消费者消费习惯和消费意愿,卷烟商品的品牌、口味和消费档次,都是关键的市场因素。只有建立全面反映卷烟零售市场的购销存和价格以及零售商、消费者、卷烟商品的状况,才能真正有效地分析市场、洞察市场;二是现有市场分析模型有时间维度和地域维度,但缺少卷烟商品的品牌和生产厂家的维度,缺少消费者的性别、年龄、籍贯等群体标签的维度;三是现有市场分析只能展现数据和统计图表,不能给出文字的分析结论,无法自动形成数据、图表、文字相结合的卷烟零售市场行情分析报告。
发明内容
本发明的目的是提出一种自动化卷烟零售市场数据统计分析系统及方法,用大数据结合市场营销分析方法建立卷烟零售市场的分析模型,用数据湖技术实现模型的分析计算,采用基于模板的方法生成报告的图表内容,结合AI模型生成分析结论,最终智能化地自动生成卷烟零售市场分析报告。
为了达到上述目的,本发明提供一种自动化卷烟零售市场数据统计分析系统,所述系统包括:
样本筛选模块,用于筛选零售门店以获得样本数据;
其中,将所述零售门店的数据按照档位进行分类,按照分类的抽样比例抽取零售门店数据的样本,所述抽样比例为
其中,th表示第h类的抽样的样本门店数量,t表示抽样的样本门店总数量,Ph表示第h类的零售门店数量占比,Qh表示第h类零售门店户卷烟销量的方差,通过所述方差表示每个类别个体之间的差异程度,其中,Ph=Th/T,T表示零售门店总数,Th为第h层零售门店数量;1≤h≤H,H为档位总数;
数据分析模块,用于构建指标体系和构建分析计算模型以对所述样本数据进行统计分析;
其中,所述指标体系包括卷烟品牌市场动态指数、卷烟品牌市场表现指数、个人卷烟消费指数、卷烟社会库存指数、零售户卷烟经营水平指数和卷烟零售价格指数;依据所述指标体系利用数据湖构建分析计算模型;
所述卷烟品牌市场动态指数计算如下:
采用变异系数法来构建卷烟品牌市场动态指数Y1,选取了重需率、动销率、动销比和客户断货率四个与市场关系密切的指标作为计算指标,步骤具体包括:首先需要对指标做正向化处理,动销比和客户断货率是负向指标,取其倒数作为计算指标,其它正向指标无需处理;经过处理后4个指标按上述顺序分别表示为x1、x2、x3、x4;计算各项计算指标的权重,选取m个月的数据构成矩阵X=(xij)m×4,其中xi1、xi2、xi3、xi4(i=1,2,…,m)对应上述4个指标,则每个指标的平均数
每个指标的标准差Sj
其中,i=1,2,…,m;j=1,2,3,4,则xj的变异系数ej
此时的各项计算指标的权重wj就是
由此得出卷烟品牌市场动态指数Y1的计算公式为
所述卷烟品牌市场表现指数计算如下:
采用变异系数法来构建卷烟品牌市场表现指数Y2,选取了卷烟品规价格升降排名、卷烟品规销量占比排名和卷烟品规毛利率排名三个计算指标,分别用a1、a2、a3表示,采用上述的变异系数法来计算权重bj,则
所述个人卷烟消费指数计算如下:
采用乘法合成法来生成个人卷烟消费指数Y3,选取了个人卷烟月均消费量、个人卷烟月均消费均价为计算指标,分别用d1、d2表示,则个人卷烟消费指数
Y3=d1·d2
所述卷烟社会库存指数计算如下:
采用卷烟零售存销比作为卷烟社会库存指数Y4,用上期社会库存Sp、本期社会库存Ss、本期社会购进Qc和本期社会销量Qs为计算指标,则
所述零售户卷烟经营水平指数计算如下:
采用变异系数法来构建零售户卷烟经营水平指数Y5,选取了零售户卷烟销售量、零售户卷烟经营毛利、零售户卷烟销售均价三个计算指标,分别用c1、c2、c3表示,采用上述的变异系数法来计算权重pj,则零售户卷烟经营水平指数为
所述卷烟零售价格指数计算如下:
其中,∑Aqs表示当前时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Bqs表示当前时间目标区域全部采集的卷烟订单数据的销售数量合计;
∑Cqs表示基期时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Dqs表示基期时间目标区域全部采集的卷烟订单数据的销售数量合计;
Jps表示目标区域卷烟零售价格指数,qs表示所述目标区域包括不同的省或市;
报告生成模块,用于根据模板生成报告;
其中,所述报告生成模块包括自定义报告子模块和自动化生成报告子模块,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,所述自动化生成报告子模块用于根据所述数据湖的数据和用户定义的报告模板生成报告和得出结论。
进一步地,从样本门店采集的数据包括门店零售系统的购进单、销售单、库存、结算、消费者、商品、商品生产商、商品供应商的数据、从烟草公司营销系统采集的数据和从物流系统采集的数据;
所述从烟草公司营销系统采集的数据包括:批发数据和门店基础信息数据;所述物流系统采集的数据包括送货单;
所述样本筛选模块进一步用于:将从样本门店采集的数据进行数据清洗,并将数据清洗后的数据作为所述样本数据;
所述数据清洗依据预先设定的数据检查规则并结合数据血缘关系进行数据质量检查以评估样本门店的数据质量,将样本门店的数据质量高于质量阈值的数据作为所述样本数据。
进一步地,所述数据检查规则包括基于业务逻辑进行检查或基于统计分析检查;所述数据血缘关系为从批发、零售的商流、物流的过程追踪数据的血缘关系,包括门店零售系统的进货量与烟草公司营销系统的批发量、物流系统的送货量的同缘关系。
进一步地,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,具体步骤为:
对用户提交的模板信息进行校验,通过校验之后向数据库插入模板记录;
插入模板之后,对上传的模板文件进行处理;
用POI类库中的SlideShow接口对报告模板的内容进行读取,逐一识别PPTX页中的标签,将标签信息插入数据库,然后继续识别标签直到全部标签被识别完毕。
进一步地,还包括,所述自定义报告子模块用于查询、新增、更新和删除模板。
进一步地,所述自动化生成报告子模块包括图表生成单元和分析结论单元,所述图表生成单元包括接口管理子单元和任务管理子单元,所述接口管理子单元根据接口标识、接口名称、创建人姓名、适用图表类型、接口状态的信息查询、新增、删除、编辑和查看数据接口;所述任务管理子单元用于定制定时或非定时的任务新增、任务查询、任务执行、任务配置,任务用于根据报告模板调用标签对应的数据接口生成报告的内容和用AI模型生成分析结论。
进一步地,所述数据库包括自定义模板数据库、接口管理数据库和任务管理数据库;
所述自定义模板数据库将PPTX页中的数据报告模板以自定义模板内存数据表的形式进行存储,所述自定义模板内存数据表以标签为主键,包括数据报告模板名称、PPTX模板文件名称、PPTX模板附件id、可预览页数和模板状态为数据列;
所述接口管理数据库将接口的管理方式以接口管理内存数据表的形式进行存储,所述接口管理内存数据表以接口记录为主键,包括接口标识、接口名称、适用图片类型、接口地址、接口描述、接口参数、返回示例和接口状态为数据列;
所述任务管理数据库将任务日志的管理方式以任务管理内存数据表的形式进行存储,所述任务管理内存数据表以选中的文件为主键,包括任务名称、模板id、是否定时任务、定时任务表达式、卷烟公司、市场区域范围和报告数据月份为数据列。
进一步地,所述用AI模型生成分析结论的步骤具体为:
通过数据接口服务获取分析数据,基于自定义报告子模块来生成报告的图表内容,再利用AI技术,通过seq2seq模型和Pegasus模型对图表数据的重要信息进行结论描述。
进一步地,所述数据湖采用Dremio引擎,所述依据所述指标体系利用数据湖构建分析计算模型包括:
采用数据反射获取业务系统的数据,用内存列式存储来构建物理数据集,用语义层的虚拟数据集来构建分析计算模型。
在本发明的另外一方面提供了一种自动化卷烟零售市场数据统计分析方法,所述方法包括:
S1、筛选零售门店以获得样本数据;
其中,所述零售门店数据按照档位进行分类,按照抽样比例抽取零售门店数据的样本,
所述抽样比例为
其中,th表示第h类的抽样的样本门店数量,t表示抽样的样本门店总数量,Ph表示第h类的零售门店数量占比,Qh表示第h类零售门店户卷烟销量的方差,通过所述方差表示每个类别个体之间的差异程度,其中,Ph=Th/T,T表示零售门店总数,Th为第h层零售门店数量;1≤h≤H,H为档位总数;
S2、构建指标体系和构建分析计算模型以对所述样本数据进行统计分析;其中,所述指标体系包括卷烟品牌市场动态指数、卷烟品牌市场表现指数、个人卷烟消费指数、卷烟社会库存指数、零售户卷烟经营水平指数和卷烟零售价格指数;依据所述指标体系利用数据湖构建分析计算模型;
所述卷烟品牌市场动态指数计算如下:
采用变异系数法来构建卷烟品牌市场动态指数Y1,选取了重需率、动销率、动销比和客户断货率四个与市场关系密切的指标作为计算指标,步骤具体包括:首先需要对指标做正向化处理,动销比和客户断货率是负向指标,取其倒数作为计算指标,其它正向指标无需处理;经过处理后的4个指标按上述顺序分别表示为x1、x2、x3、x4;计算各项计算指标的权重,选取m个月的数据构成矩阵X=(xij)m×4,其中xi1、xi2、xi3、xi4(i=1,2,…,m)对应上述4个指标,则每个指标的平均数为
每个指标的标准差为
其中,i=1,2,…,m;j=1,2,3,4,则xj的变异系数ej
此时的各项计算指标的权重就是
由此可得出卷烟品牌市场动态指数的计算公式为
所述卷烟品牌市场表现指数计算如下:
采用变异系数法来构建卷烟品牌市场表现指数Y2,选取了卷烟品规价格升降排名、卷烟品规销量占比排名和卷烟品规毛利率排名三个计算指标,分别用a1、a2、a3表示,采用上述的变异系数法来计算权重bj,则
所述个人卷烟消费指数计算如下:
采用乘法合成法来生成个人卷烟消费指数Y3,选取了个人卷烟月均消费量、个人卷烟月均消费均价为计算指标,分别用d1、d2表示,则个人卷烟消费指数
Y3=d1·d2
所述卷烟社会库存指数计算如下:
采用卷烟零售存销比作为卷烟社会库存指数Y4,用上期社会库存Sp、本期社会库存Ss、本期社会购进Oc和本期社会销量Qs为计算指标,则
所述零售户卷烟经营水平指数计算如下:
采用变异系数法来构建零售户卷烟经营水平指数Y5,选取了零售户卷烟销售量、零售户卷烟经营毛利、零售户卷烟销售均价三个计算指标,分别用c1、c2、c3表示,采用上述的变异系数法来计算权重Pj,则零售户卷烟经营水平指数为
所述卷烟零售价格指数计算如下:
其中,∑Aqs表示当前时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Bqs表示当前时间目标区域全部采集的卷烟订单数据的销售数量合计;
∑Cqs表示基期时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Dqs表示基期时间目标区域全部采集的卷烟订单数据的销售数量合计;
Jps表示目标区域卷烟零售价格指数,qs表示所述目标区域包括不同的省或市;
S3、报告生成模块根据模板生成分析报告;
其中,所述报告生成模块包括自定义报告子模块和自动化生成报告子模块,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,所述自动化生成报告子模块用于根据所述数据湖的数据和用户定义的报告模板生成报告和得出结论。
本发明的有益技术效果至少在于以下几点:
(1)准确掌握市场状态,指导卷烟市场投放,有效进行经济运行调控。通过准确掌握市场状态,实时获取品牌市场价格、时点库存信息,判断品牌市场状态。可以指导卷烟市场投放,并有效进行经济运行调控。市场状态的掌握可以通过对市场环境、用户需求和竞争对手等因素的分析来实现。例如,可以通过对消费者的调研和市场竞争情况的分析,掌握市场的总体需求和变化趋势,从而指导卷烟市场投放的规划和实施。此外,还可以通过对市场运行的监测和分析,及时调控经济运行,实现市场供需的平衡和优化。例如,当市场需求出现波动或新产品上市时,通过对销售数据的监测和分析,及时调整卷烟生产和市场投放的计划,保证市场供应的充足性和可持续性。
(2)通过数据挖掘和信息分析,能够更早地发现卷烟销售中存在的问题和情况,帮助工业企业用户更好地调整生产和经营决策。例如,对销售数据进行分析,了解各个地区的销售趋势和偏好,进而制定更为精准的市场策略。为商业企业做好市场需求预测,实施品牌培育,开展门店服务,指导客户经营提供数据支持。此外,还可以通过对用户反馈数据的分析,深入了解用户的需求和意见,帮助企业优化产品质量和改进服务,提升用户满意度。
(3)通过挖掘消费者对于卷烟包装、口感、价类等偏好,把握用户体验效果,辅助烟草企业制定营销决策。实时获取品牌市场价格、时点库存信息,判断品牌市场状态。例如,通过对用户评价和意见的分析,了解用户对不同口味和包装的偏好,从而推出更受用户喜爱的产品,提高市场竞争力。此外,还可以通过对竞品数据的分析,了解市场上其他品牌的销售情况和特点,从而制定更为精准的市场定位和营销策略。为工业企业品牌培育、新品投放、货源衔接提供决策依据。准确掌握市场状态,指导卷烟市场投放,有效进行经济运行调控;
(4)直接采集门店数据,多源数据融合分析,真实反馈市场变化。面对海量、复杂的数据,通过数据融合可获得更有价值的信息,多源数据融合包括对多源数据进行检测、关联、组合、评估的过程。将各种不同的数据信息进行综合,吸取不同数据源的特点,然后从中提取出统一的,比单一数据更好、更丰富的信息,最后得到统一的卷烟行业信息。例如,在卷烟销售过程中,通过对销售数据、用户反馈数据、库存数据等多个系统的分析,了解整个销售链的运作情况,帮助企业更好地制定生产和销售计划,提高效率和盈利能力。此外,还可以通过对多个数据源的整合和分析,发现业务中的隐性关联,提供更全面的数据支持,提升决策的准确性和可信度。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明一种自动化卷烟零售市场数据统计分析系统的实施例原理。
图2为本发明市场指数示意图。
图3为本发明Dremio技术架构示意图。
图4为本发明分析模型的技术架构示意图。
图5为本发明Drmio数据反射的配置界面示意图。
图6为本发明卷烟零售市场分析模型示意图。
图7为本发明新增模板流程示意图。
图8本发明执行任务日志的流程示意图。
图9本发明新增模板配置数据库示意图。
图10本发明更新模板数据库示意图。
图11本发明PPTX报告生成任务配置示意图。
图12本发明Encoder和Decoder部分分别对输入序列进行编码和解码工作示意图。
图13本发明Pegasus模型的原理示意图。
图14本发明实施例卷烟零售市场价格指数示意图。
图15本发明实施例烟零售市场价格指数模型变化趋势示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在一个或多个实施方式中,如图1所示,公开了一种自动化卷烟零售市场数据统计分析系统,所述系统包括:
样本筛选模块,用于筛选零售门店以获得样本数据;
具体地,烟草行业从管理上对零售门按经营情况和经营能力划分了30个档位,同档位的零售门店相似度较高。直接按档位进行分类,每一类按不同的抽样比例选取样本。抽样比例的确定原则,一是根据每个类内别的个体数量在总数量的占比,占比越大,为保证统计精确度需要抽取的样本越多;二是根据每个类别个体之间的差异程度,采用门店卷烟销量的方差来计算差异程度,方差越大差异程度越高,为保证统计精确度需要抽取的样本越多;
同时,设计了数据质量审核机制,依据相关的业务逻辑结合数据血缘关系进行数据质量检查。一是设计数据检查规则库,用户可根据业务要求自行设定检查保存在规则库中,系统自动按规则库进行检查。规则既可以是基于业务逻辑(如购销存平衡)进行检查,也可以是基于统计分析(如零售交易频次异常)等检查;二是从批发、零售的商流、物流的过程追踪数据的血缘关系进行检查,如门店零售系统的进货量与烟草公司营销系统的批发量、物流系统的送货量的同缘关系。通过这些检查,会评估采样门店的数据质量,当采样门店数据达到一定质量才会把采样门店纳入使用范围,否则就要更换采样门店。
从采样门店采集的数据主要包括:门店零售系统的购进单、销售单、库存、结算、消费者、商品、商品生产商、商品供应商等数据。此外从烟草公司营销系统采集批发数据、门店基础信息等数据,物流系统的送货单等数据。
其中,所述零售门店数据按照档位进行分类,按照抽样比例抽取零售门店数据的样本后,采用所述样本销量的方差计算差异程度,方差越大差异程度越高;所述数据清洗包括对零售门店数据设置数据检查规则库和追踪数据的血缘关系进行筛选;
所述抽样比例为
其中,th表示第h类的抽样的样本门店数量,t表示抽样的样本门店总数量,Ph表示第h类的零售门店数量占比,Qh表示第h类零售门店户卷烟销量的方差,通过所述方差表示每个类别个体之间的差异程度,其中,Ph=Th/T,T表示零售门店总数,Th为第h层零售门店数量;1≤h≤H,H为档位总数;
数据分析模块,用于构建指标体系和构建分析计算模型。
基于多种数据分析工具,对零售系统的人、货、场三类数据进行整合和初步分析统计,结合烟草业务系统的数据,进一步挖掘数据价值,以分级指数的架构设计了卷烟零售市场分析指标体系,命名为卷烟零售市场指数体系。
卷烟零售市场指数体系是为客观反映卷烟零售市场的状况和变化趋势而设计的,包括了8个指数/指标,涵盖了卷烟零售价格指数、卷烟批发总销量、卷烟零售总销量、卷烟品牌(品规)市场动态指数、卷烟品牌(规格)市场表现指数、个人卷烟消费指数、卷烟社会库存指数和零售户卷烟经营水平指数等方面,简称市场指数,如图2所示。
其中的关键指标如下:
所述卷烟品牌(品规)市场动态指数计算如下:
采用变异系数法来构建卷烟品牌(品规)市场动态指数Y1,选取了重需率、动销率、动销比和客户断货率等四个与市场关系密切的指标作为计算指标。首先需要对指标做正向化处理,动销比和客户断货率是负向指标,取其倒数作为计算指标,其它正向指标无需处理。经过处理后的4个指标按上述顺序分别表示为x1、z2、z3、z4。为了计算各项计算指标的权重,选取m个月的数据构成矩阵X=(Xij)m×4,其中xi1、xi2、xi3、xi4(I=1,2,…,m)对应上述4个指标,则每个指标的平均数为
每个指标的标准差为
其中,I=1,2,…,m;j=1,2,3,4。则xj的变异系数为
此时的各项计算指标的权重就是
由此可得出卷烟品牌(品规)市场动态指数的计算公式为
所述卷烟品牌市场表现指数计算如下:
采用变异系数法来构建卷烟品牌市场表现指数Y2,选取了卷烟品规价格升降排名、卷烟品规销量占比排名和卷烟品规毛利率排名三个计算指标,分别用a1、a2、a3表示,采用上述的变异系数法来计算权重bj,则
所述个人卷烟消费指数计算如下:
采用乘法合成法来生成个人卷烟消费指数Y3,选取了个人卷烟月均消费量、个人卷烟月均消费均价为计算指标,分别用d1、d2表示,则个人卷烟消费指数
Y3=d1·d2
所述卷烟社会库存指数计算如下:
采用卷烟零售存销比作为卷烟社会库存指数Y4,用上期社会库存Sp、本期社会库存Ss、本期社会购进Oc和本期社会销量Qs为计算指标,则
所述零售户卷烟经营水平指数计算如下:
采用变异系数法来构建零售户卷烟经营水平指数Y5,选取了零售户卷烟销售量、零售户卷烟经营毛利、零售户卷烟销售均价三个计算指标,分别用c1、c2、c3表示,采用上述的变异系数法来计算权重pj,则零售户卷烟经营水平指数为
所述卷烟零售价格指数计算如下:
其中,∑Aqs表示当前时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Bqs表示当前时间目标区域全部采集的卷烟订单数据的销售数量合计;
∑Cqs表示基期时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Dqs表示基期时间目标区域全部采集的卷烟订单数据的销售数量合计;
Jqs表示目标区域卷烟零售价格指数,qs表示所述目标区域包括不同的省或市;
区域、产地、价类、烟型分类价格指数,参照上述公式,取相应条件范围的数据进行计算。例如:广州的价格指数条件为“区域=广州”,云南烟的价格指数条件为“产地=云南”,二类烟价格指数条件为“价类=二类烟”,细支烟的价格指数条件为“品类=细支烟”。以下以广州区域分类价格指数为例:
∑Aqy:当前时间(以日为单位)广州全部采集的卷烟订单数据的销售金额合计;
∑Bqy:当前时间(以日为单位)广州全部采集的卷烟订单数据的销售数量合计;
∑Cqy:基期时间(以2019年7月1日为基期)广州全部采集的卷烟订单数据的销售金额合计;
∑Dqy:基期时间(以2019年7月1日为基期)广州全部采集的卷烟订单数据的销售数量合计;
Jqy:广州卷烟零售价格指数,qy表示区域;
具体地,依据卷烟零售市场指数体系,以数据湖为技术底座,利用商务智能的多维数据库建模技术,建立市场分析计算模型。
数据湖采用的是Dremio,它是新一代的数据湖引擎,通过直接在云数据湖存储中进行实时的、交互的查询来释放数据价值。Dremio是基于Apache calcite、内存列式数据存储Apache arrow和磁盘列式数据存储Apache parquet等三个开源框架构建,并设计了核心引擎Sabot,形成这款数据即服务平台(DaaS,Data-as-a-Service),技术架构如图3所示。
本发明采用了Dremio的数据反射来获取业务系统的数据,用内存列式存储来构建物理数据集,用语义层的虚拟数据集来构建分析模型,如图4所示。
(1)数据反射
Dremio的数据反射是一种物理优化的数据结构,通过高级索引和缓存技术针对查询性能进行了优化,最高支持100倍以上的性能提升。数据反射在磁盘中存储,它采用了磁盘列式存储格式(Apache Parquet)。当从数据反射中读取数据时,会从Parquet把数据加载到内存成为相应的内存列式存储(Apache Arrow),以便在执行引擎中进行高效地进行处理。
Dremio的数据反射分为原始反射、聚合反射和外部反射三种类型,前两种类型面向Dremio内部的数据源,第三种类型外部反射面向外部数据源,允许用户利用外部系统中内置的现有数据集和汇总表作为Dremio中的反射,实际起到了把外部数据引入数据湖的作用。本系统的数据源绝大部分是外部数据,因此主要使用的是外部反射。数据反射的配置如图5所示。
(2)内存列式存储
顾名思义,列式存储的数据是按列存放的,带来的优势是:数据即索引;数据查询只访问涉及的列,可以大量降低系统I/O;每一列由一个线程来处理,并发处理性能高;数据列的类型一致、特征相似,可以高效压缩。Dremio的列式存储是内存数据库,它充分利用了内存计算技术提供高性能的数据处理能力。
(3)语义层
Dremio提供语义层来构建虚拟数据集和空间。Dremio的语义层是一个集成的、可搜索的目录,可为所有元数据编制索引。语义层将复杂数据转换为可理解的业务概念,业务用户可以轻松理解数据,并能探索数据和导出新的虚拟数据集。语义层在查询时转换/联接数据更加灵活,并且避免了对大量数据进行大量重新洗牌或重新处理。利用语义层建立的卷烟零售市场分析模型的案例如图6所示。
报告生成模块,用于根据模板生成报告和配置数据库。
其中,所述报告生成模块包括自定义报告模板子模块和自动化生成报告子模块,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,所述自动化生成报告子模块用于根据所述数据湖的数据和用户定义的报告模板生成报告和得出结论。
进一步地,如图7所示,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,具体步骤为:
对用户提交的模板信息进行校验,通过校验之后向数据库插入模板记录;
插入模板之后,对上传的模板文件进行处理;
用POI类库中的SlideShow接口对报告模板的内容进行读取,逐一识别PPTX页中的标签,将标签信息插入数据库,然后继续识别标签直到全部标签被识别完毕。
具体地,还有以下步骤:
模板列表、查询:
通过模板名称、PPTX名称、创建人姓名几个可选字段对模板列表进行分页查询。
更新模板:
模板更新包括模板替换、【换模板配置】中的【文档配置】。对提交的模板信息进行校验,校验通过之后根据模板主键进行更新。
模板删除:
根据模板主键进行删除。
模板配置:
①模板标识列表及查询:
根据标签编号可选字段对模板标签信息进行分页列表查询。
②重检PPTX页:
从【可重检PPTX页】中选择需要重检的页移动到【待重检的PPTX页】中,提交之前进行校验,校验通过之后遍历选择的PPTX页,先删除当前遍历的页的旧标签信息,然后再重新识别当前遍历的页中的标签。
③标签配置:
模板配置主要是对模板标签进行接口、标签名称等进行配置。对提交的信息需要进行校验,校验通过之后根据标签主键更新标签信息。
进一步地,还包括,所述自定义报告子模块用于查询、新增、更新和删除模板。
进一步地,所述自动化生成报告子模块包括图表生成单元和分析结论单元,所述图表生成单元包括接口管理子单元和任务管理子单元,所述接口管理子单元通过根据接口标识、接口名称、创建人姓名、适用图表类型、接口状态的信息查询、新增、删除、编辑和查看数据接口;所述任务管理子单元用于定制定时或非定时的任务新增、任务查询、任务执行、任务配置,任务用于根据报告模板调用标签对应的数据接口生成报告的内容和用AI模型生成分析结论。
具体地,接口管理子单元还包括:
(1)数据接口列表、查询:
根据接口标识、接口名称、创建人姓名、适用图表类型、接口状态几个可选内容对报告数据接口进行分页查询。
(2)新增报告数据接口:
对提交的报告数据接口信息进行校验,通过校验后完成新增。
(3)更新报告数据接口:
对更新的信息进行校验,校验通过之后根据报告数据接口记录主键更新报告数据接口的基本信息、状态。
(4)删除报告数据接口:
根据报告数据接口记录主键删除报告数据接口。
(5)查看数据报告详情:
将列表项的信息展示出来。
任务管理子单元:
(1)任务列表、查询:
根据任务名称、创建人姓名、消费区域、卷烟产地等可选字段对任务进行分页查询。
(2)任务新增:
对提交的任务信息进行校验,校验通过之后将任务信息保存到数据库。
(3)任务配置:
任务配置就是任务编辑。更新之前进行校验,校验通过之后根据任务主键对任务信息进行更新。
(4)任务执行:
执行任务时首先新增执行日志记录,所以执行任务的结果主要是看执行日志。执行任务时,读取该任务对应的模板,遍历该模板的每一页。遍历每一页时,每找出一个标签,就获取该标签对应的接口并向该接口发送数据请求,将请求得到的数据覆盖填充的该标签中,直到所有的标签识别完。每遍历一页,重复遍历的操作,直到所有页遍历完。最后更新该执行日志的信息,如图8所示。
(5)任务日志:
①任务日志列表:
根据任务主键对该任务的执行日志进行分页查询。
②报告批量下载:
将选中的文件的主键集合传至服务器,在服务器将多个文件保存到压缩包中,将文件压缩包返回到客户端。
进一步地,所述数据库包括自定义模板数据库、接口管理数据库和任务管理数据库;
如图9-11所示,所述自定义模板数据库将PPTX页中的数据报告模板以自定义模板内存数据表的形式进行存储,所述自定义模板内存数据表以标签为主键,包括数据报告模板名称、PPTX模板文件名称、PPTX模板附件id、可预览页数和模板状态为数据列;
所述接口管理数据库将接口的管理方式以接口管理内存数据表的形式进行存储,所述接口管理内存数据表以接口记录为主键,包括接口标识、接口名称、适用图片类型、接口地址、接口描述、接口参数、返回示例和接口状态为数据列;
所述任务管理数据库将任务日志的管理方式以任务管理内存数据表的形式进行存储,所述任务管理内存数据表以选中的文件为主键,包括任务名称、模板id、是否定时任务、定时任务表达式、卷烟公司、市场区域范围和报告数据月份为数据列。
如图12-15所示,所述分析结论,具体为:
在自动生成的数据报告中,除了数据和图表外,还需要对图表数据的重要信息进行简洁的结论描述,并且这个分析结论能根据数据或者上下文的变动,智能化地产生出来。实现的方式分为两步:
第一步是阶段结论的生成。将需要做结论分析的数据通过seq2seq模型进行时序分析,将数据随时间反复波动的复杂变化过程分解多个简单变化的阶段,并对每个阶段给出阶段结论。
采用seq2seq(Sequence to Sequence)模型,该模型是seq2seq模型是一种特殊的递归神经网络结构,能够根据给定的序列,通过特定的生成方法生成另一个序列,同时这两个序列可以不等长。seq2seq模型的原理,是在Encoder和Decoder部分分别对输入序列进行编码和解码工。
Encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码;而Decoder则负责根据语义向量生成指定的序列,这个过程则称为解码。x1~xn输入到Encoder会产生隐状态h1~hn(每个hi由xi和上一个hi-1生成),然后编码成一个上下文向量c,并把encoder的最后一个隐状态h0赋值给c后,将c传入Decoder中进行解码,进而得到所需文本数据集。
第二步是根据阶段结论生成最终结论。在第一步中,已经生成了若干个阶段结论文本,以这些阶段结论文本作为Pegasus模型的输入,经过该模型进行文本摘要分析综合提炼,生成最终的分析结论。Pegasus模型可以基于关联上下文自动生成简洁结论,实现自动地将结论文本转换成简短摘要,向用户提供简明扼要的内容描述,缓解由结论文本信息冗余导致的信息过载问题,极大提升用户使用体验。Pegasus模型的原理如下图所示。它针对文本摘要任务设计了无监督预训练任务(Gap Sentence Generation,简称GSG),即随机遮盖文档中的几个完整句子,让模型生成被遮盖的句子。该预训练任务能够很好地和实际地与文本摘要任务匹配,从而使得预训练后的模型经过简单的微调后达到较好的摘要生成效果。
以卷烟零售市场价格指数为例,如下图的趋势图所示,第一步将价格指数的按月份输入seq2seq模型,模型可将变化趋势划分成几个区间,每个区间的趋势都是单调上升或单调下降,根据上升/下降趋势、上升/下降斜率、最高点和最低点等特征给出阶段结论;第二步是最终结论的生成。采用Pegasus模型对第一步产生的若干个阶段结论进行综合提炼成摘要,加工形成最终的结论。
在本发明的另一方面提供了一种自动化卷烟零售市场数据统计分析方法,所述方法包括:
S1、筛选零售门店以获得样本数据;
其中,所述零售门店数据按照档位进行分类,按照抽样比例抽取零售门店数据的样本,
所述抽样比例为
其中,th表示第h类的抽样的样本门店数量,t表示抽样的样本门店总数量,Ph表示第h类的零售门店数量占比,Qh表示第h类零售门店户卷烟销量的方差,通过所述方差表示每个类别个体之间的差异程度,其中,Ph=Th/T,T表示零售门店总数,Th为第h层零售门店数量;1≤h≤H,H为档位总数;
S2、构建指标体系和构建分析计算模型以对所述样本数据进行统计分析;
其中,所述指标体系包括卷烟品牌市场动态指数、卷烟品牌市场表现指数、个人卷烟消费指数、卷烟社会库存指数、零售户卷烟经营水平指数和卷烟零售价格指数;依据所述指标体系利用数据湖构建分析计算模型;
所述卷烟品牌市场动态指数计算如下:
采用变异系数法来构建卷烟品牌市场动态指数Y1,选取了重需率、动销率、动销比和客户断货率四个与市场关系密切的指标作为计算指标,步骤具体包括:首先需要对指标做正向化处理,动销比和客户断货率是负向指标,取其倒数作为计算指标,其它正向指标无需处理;经过处理后的4个指标按上述顺序分别表示为x1、x2、x3、x4;计算各项计算指标的权重,选取m个月的数据构成矩阵X=(xij)m×4,其中xi1、xi2、xi3、xi4(i=1,2,…,m)对应上述4个指标,则每个指标的平均数为
每个指标的标准差为
其中,i=1,2,…,m;j=1,2,3,4,则xj的变异系数为
此时的各项计算指标的权重就是
由此可得出卷烟品牌市场动态指数的计算公式为
所述卷烟品牌市场表现指数计算如下:
采用变异系数法来构建卷烟品牌市场表现指数Y2,选取了卷烟品规价格升降排名、卷烟品规销量占比排名和卷烟品规毛利率排名三个计算指标,分别用a1、a2、a3表示,采用上述的变异系数法来计算权重bj,则
所述个人卷烟消费指数计算如下:
采用乘法合成法来生成个人卷烟消费指数Y3,选取了个人卷烟月均消费量、个人卷烟月均消费均价为计算指标,分别用d1、d2表示,则个人卷烟消费指数
Y3=d1·d2
所述卷烟社会库存指数计算如下:
采用卷烟零售存销比作为卷烟社会库存指数Y4,用上期社会库存Sp、本期社会库存Ss、本期社会购进Oc和本期社会销量Qs为计算指标,则
所述零售户卷烟经营水平指数计算如下:
采用变异系数法来构建零售户卷烟经营水平指数Y5,选取了零售户卷烟销售量、零售户卷烟经营毛利、零售户卷烟销售均价三个计算指标,分别用c1、c2、c3表示,采用上述的变异系数法来计算权重pj,则零售户卷烟经营水平指数为
所述卷烟零售价格指数计算如下:
其中,∑Aqs表示当前时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Bqs表示当前时间目标区域全部采集的卷烟订单数据的销售数量合计;
∑Cqs表示基期时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Dqs表示基期时间目标区域全部采集的卷烟订单数据的销售数量合计;
Jqs表示目标区域卷烟零售价格指数,qs表示所述目标区域包括不同的省或市;
S3、报告生成模块根据模板生成分析报告;
其中,所述报告生成模块包括自定义报告子模块和自动化生成报告子模块,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,所述自动化生成报告子模块用于根据所述数据湖的数据和用户定义的报告模板生成报告和得出结论。
本实施例提供的一种自动化卷烟零售市场数据统计分析方法的具体实施过程请参考上述实施例提供的一种自动化卷烟零售市场数据统计分析系统的相关描述,在此不再赘述。
综上所述,卷烟零售市场指数体系既是市场分析建模的基础,模型都是按照指数体系的指标来构建;同时也是分析报告的结构框架,报告内容都是围绕指数体系的八个指标/指数来做分析呈现。卷烟零售市场指数体系是分析指标的有机结合体,指标犹如建筑房子的砖石钢筋,当它们在有机结合构建成指标体系才能成为一个为提纲和纲要市场分析的指标体系,以及基于指标体系构建的市场分析计算模型。依据卷烟零售市场指数体系,以数据湖为技术底座,利用商务智能的多维数据库建模技术,建立市场分析计算模型。使用数据反射来获取业务系统的数据,用内存列式存储来构建物理数据集,用语义层的虚拟数据集来构建分析模型,从而实现快速的数据收集、高性能的数据运算、智能化的数据分析。通过数据接口服务获取分析数据,基于自定义的报告模板来生成报告的图表内容,再利用AI技术,通过seq2seq和Pegasus对图表数据的重要信息进行简洁的结论描述,并且这个分析结论能根据数据或者上下文的变动,智能化地产生出来。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (10)

1.一种自动化卷烟零售市场数据统计分析系统,其特征在于,包括:
样本筛选模块,用于筛选零售门店以获得样本数据;
其中,将所述零售门店的数据按照档位进行分类,按照分类的抽样比例抽取零售门店数据的样本,
所述抽样比例为
其中,th表示第h类的抽样的样本门店数量,t表示抽样的样本门店总数量,Ph表示第h类的零售门店数量占比,Qh表示第h类零售门店户卷烟销量的方差,通过所述方差表示每个类别个体之间的差异程度,其中,Ph=Th/T,T表示零售门店总数,Th为第h层零售门店数量;1≤h≤H,H为档位总数;
数据分析模块,用于构建指标体系和构建分析计算模型以对所述样本数据进行统计分析;
其中,所述指标体系包括卷烟品牌市场动态指数、卷烟品牌市场表现指数、个人卷烟消费指数、卷烟社会库存指数、零售户卷烟经营水平指数和卷烟零售价格指数;依据所述指标体系利用数据湖构建分析计算模型;
所述卷烟品牌市场动态指数计算如下:
采用变异系数法来构建卷烟品牌市场动态指数Y1,选取了重需率、动销率、动销比和客户断货率四个与市场关系密切的指标作为计算指标,步骤具体包括:首先需要对指标做正向化处理,动销比和客户断货率是负向指标,取其倒数作为计算指标,其它正向指标无需处理;经过处理后4个指标按上述顺序分别表示为x1、x2、x3、x4;计算各项计算指标的权重,选取m个月的数据构成矩阵X=(xij)m×4,其中xi1、xi2、xi3、xi4(i=1,2,…,m)对应上述4个指标,则每个指标的平均数
每个指标的标准差Sj
其中,i=1,2,…,m;j=1,2,3,4,则xj的变异系数ej
此时的各项计算指标的权重wj就是
由此得出卷烟品牌市场动态指数Y1的计算公式为
所述卷烟品牌市场表现指数计算如下:
采用变异系数法来构建卷烟品牌市场表现指数Y2,选取了卷烟品规价格升降排名、卷烟品规销量占比排名和卷烟品规毛利率排名三个计算指标,分别用a1、a2、a3表示,采用上述的变异系数法来计算权重bj,则
所述个人卷烟消费指数计算如下:
采用乘法合成法来生成个人卷烟消费指数Y3,选取了个人卷烟月均消费量、个人卷烟月均消费均价为计算指标,分别用d1、d2表示,则个人卷烟消费指数
Y3=d1·d2
所述卷烟社会库存指数计算如下:
采用卷烟零售存销比作为卷烟社会库存指数Y4,用上期社会库存Sp、本期社会库存Ss、本期社会购进Oc和本期社会销量Qs为计算指标,则
所述零售户卷烟经营水平指数计算如下:
采用变异系数法来构建零售户卷烟经营水平指数Y5,选取了零售户卷烟销售量、零售户卷烟经营毛利、零售户卷烟销售均价三个计算指标,分别用c1、c2、c3表示,采用上述的变异系数法来计算权重pj,则零售户卷烟经营水平指数为
所述卷烟零售价格指数计算如下:
其中,∑Aqs表示当前时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Bqs表示当前时间目标区域全部采集的卷烟订单数据的销售数量合计;
∑Cqs表示基期时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Dqs表示基期时间目标区域全部采集的卷烟订单数据的销售数量合计;
Jqs表示目标区域卷烟零售价格指数,qs表示所述目标区域包括不同的省或市;
报告生成模块,用于根据模板生成报告;
其中,所述报告生成模块包括自定义报告子模块和自动化生成报告子模块,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,所述自动化生成报告子模块用于根据所述数据湖的数据和用户定义的报告模板生成报告和得出结论。
2.根据权利要求1所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,从样本门店采集的数据包括门店零售系统的购进单、销售单、库存、结算、消费者、商品、商品生产商、商品供应商的数据、从烟草公司营销系统采集的数据和从物流系统采集的数据;
所述从烟草公司营销系统采集的数据包括:批发数据和门店基础信息数据;
所述物流系统采集的数据包括送货单;
所述样本筛选模块进一步用于:将从样本门店采集的数据进行数据清洗,并将数据清洗后的数据作为所述样本数据;
所述数据清洗依据预先设定的数据检查规则并结合数据血缘关系进行数据质量检查以评估样本门店的数据质量,将样本门店的数据质量高于质量阈值的数据作为所述样本数据。
3.根据权利要求2所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,所述数据检查规则包括基于业务逻辑进行检查或基于统计分析检查;所述数据血缘关系为从批发、零售的商流、物流的过程追踪数据的血缘关系,包括门店零售系统的进货量与烟草公司营销系统的批发量、物流系统的送货量的同缘关系。
4.根据权利要求1所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,具体步骤为:
对用户提交的模板信息进行校验,通过校验之后向数据库插入模板记录;
插入模板之后,对上传的模板文件进行处理;
用POI类库中的SlideShow接口对报告模板的内容进行读取,逐一识别PPTX页中的标签,将标签信息插入数据库,然后继续识别标签直到全部标签被识别完毕。
5.根据权利要求1所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,还包括,所述自定义报告子模块用于查询、新增、更新和删除模板。
6.根据权利要求1所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,所述自动化生成报告子模块包括图表生成单元和分析结论单元,所述图表生成单元包括接口管理子单元和任务管理子单元,所述接口管理子单元根据接口标识、接口名称、创建人姓名、适用图表类型、接口状态的信息查询、新增、删除、编辑和查看数据接口;所述任务管理子单元用于定制定时或非定时的任务新增、任务查询、任务执行、任务配置,任务用于根据报告模板调用标签对应的数据接口生成报告的内容和用AI模型生成分析结论。
7.根据权利要求1所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,所述数据库包括自定义模板数据库、接口管理数据库和任务管理数据库;
所述自定义模板数据库将PPTX页中的数据报告模板以自定义模板内存数据表的形式进行存储,所述自定义模板内存数据表以标签为主键,包括数据报告模板名称、PPTX模板文件名称、PPTX模板附件id、可预览页数和模板状态为数据列;
所述接口管理数据库将接口的管理方式以接口管理内存数据表的形式进行存储,所述接口管理内存数据表以接口记录为主键,包括接口标识、接口名称、适用图片类型、接口地址、接口描述、接口参数、返回示例和接口状态为数据列;
所述任务管理数据库将任务日志的管理方式以任务管理内存数据表的形式进行存储,所述任务管理内存数据表以选中的文件为主键,包括任务名称、模板id、是否定时任务、定时任务表达式、卷烟公司、市场区域范围和报告数据月份为数据列。
8.根据权利要求6所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,所述用AI模型生成分析结论的步骤具体为:
通过数据接口服务获取分析数据,基于自定义报告子模块来生成报告的图表内容,再利用AI技术,通过seq2seq模型和Pegasus模型对图表数据的重要信息进行结论描述。
9.根据权利要求1所述的一种自动化卷烟零售市场数据统计分析系统,其特征在于,所述数据湖采用Dremio引擎,所述依据所述指标体系利用数据湖构建分析计算模型包括:
采用数据反射获取业务系统的数据,用内存列式存储来构建物理数据集,用语义层的虚拟数据集来构建分析计算模型。
10.一种自动化卷烟零售市场数据统计分析方法,其特征在于,所述方法包括:
S1、筛选零售门店以获得样本数据;
其中,所述零售门店数据按照档位进行分类,按照分类的抽样比例抽取零售门店数据的样本,
所述抽样比例为
其中,th表示第h类的抽样的样本门店数量,t表示抽样的样本门店总数量,Ph表示第h类的零售门店数量占比,Qh表示第h类零售门店户卷烟销量的方差,通过所述方差表示每个类别个体之间的差异程度,其中,Ph=Th/T,T表示零售门店总数,Th为第h层零售门店数量;1≤h≤H,H为档位总数;
S2、构建指标体系和构建分析计算模型以对所述样本数据进行统计分析;
其中,所述指标体系包括卷烟品牌市场动态指数、卷烟品牌市场表现指数、个人卷烟消费指数、卷烟社会库存指数、零售户卷烟经营水平指数和卷烟零售价格指数;依据所述指标体系利用数据湖构建分析计算模型;
所述卷烟品牌市场动态指数计算如下:
采用变异系数法来构建卷烟品牌市场动态指数Y1,选取了重需率、动销率、动销比和客户断货率四个与市场关系密切的指标作为计算指标,步骤具体包括:首先需要对指标做正向化处理,动销比和客户断货率是负向指标,取其倒数作为计算指标,其它正向指标无需处理;经过处理后的4个指标按上述顺序分别表示为x1、x2、x3、x4;计算各项计算指标的权重,选取m个月的数据构成矩阵X=(xij)m×4,其中xi1、xi2、xi3、xi4(i=1,2,…,m)对应上述4个指标,则每个指标的平均数为
每个指标的标准差为
其中,i=1,2,…,m;j=1,2,3,4,则xj的变异系数ej
此时的各项计算指标的权重就是
由此可得出卷烟品牌市场动态指数的计算公式为
所述卷烟品牌市场表现指数计算如下:
采用变异系数法来构建卷烟品牌市场表现指数Y2,选取了卷烟品规价格升降排名、卷烟品规销量占比排名和卷烟品规毛利率排名三个计算指标,分别用a1、a2、a3表示,采用上述的变异系数法来计算权重bj,则
所述个人卷烟消费指数计算如下:
采用乘法合成法来生成个人卷烟消费指数Y3,选取了个人卷烟月均消费量、个人卷烟月均消费均价为计算指标,分别用d1、d2表示,则个人卷烟消费指数
Y3=d1·d2
所述卷烟社会库存指数计算如下:
采用卷烟零售存销比作为卷烟社会库存指数Y4,用上期社会库存Sp、本期社会库存Ss、本期社会购进Oc和本期社会销量Qs为计算指标,则
所述零售户卷烟经营水平指数计算如下:
采用变异系数法来构建零售户卷烟经营水平指数Y5,选取了零售户卷烟销售量、零售户卷烟经营毛利、零售户卷烟销售均价三个计算指标,分别用c1、c2、c3表示,采用上述的变异系数法来计算权重pj,则零售户卷烟经营水平指数为
所述卷烟零售价格指数计算如下:
其中,∑Aqs表示当前时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Bqs表示当前时间目标区域全部采集的卷烟订单数据的销售数量合计;
∑Cqs表示基期时间目标区域全部采集的卷烟订单数据的销售金额合计;
∑Dqs表示基期时间目标区域全部采集的卷烟订单数据的销售数量合计;
Jqs表示目标区域卷烟零售价格指数,qs表示所述目标区域包括不同的省或市;
S3、报告生成模块根据模板生成分析报告;
其中,所述报告生成模块包括自定义报告子模块和自动化生成报告子模块,所述自定义报告子模块用于把用户的分析需求用标签定义在报告模板PPTX文件上并由系统识别出标签存入数据库,所述自动化生成报告子模块用于根据所述数据湖的数据和用户定义的报告模板生成报告和得出结论。
CN202311081368.0A 2023-08-25 2023-08-25 一种自动化卷烟零售市场数据统计分析系统及方法 Active CN117094743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311081368.0A CN117094743B (zh) 2023-08-25 2023-08-25 一种自动化卷烟零售市场数据统计分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311081368.0A CN117094743B (zh) 2023-08-25 2023-08-25 一种自动化卷烟零售市场数据统计分析系统及方法

Publications (2)

Publication Number Publication Date
CN117094743A CN117094743A (zh) 2023-11-21
CN117094743B true CN117094743B (zh) 2024-01-26

Family

ID=88774759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311081368.0A Active CN117094743B (zh) 2023-08-25 2023-08-25 一种自动化卷烟零售市场数据统计分析系统及方法

Country Status (1)

Country Link
CN (1) CN117094743B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118071404A (zh) * 2024-04-17 2024-05-24 湖南潇湘大数据科技有限公司 基于多目标优化的网格合理容量计算方法与系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN200997148Y (zh) * 2006-05-12 2007-12-26 北京烟专科技有限公司 售烟网络系统
CN101706926A (zh) * 2009-11-25 2010-05-12 河南省烟草公司鹤壁市公司 一种卷烟消费信息调查及处理方法
CN106600171A (zh) * 2017-01-04 2017-04-26 贵州省烟草公司毕节市公司 一种基于大数据预警的烟草市场监管方法及其系统
KR20180006338A (ko) * 2016-07-08 2018-01-17 김만이 식별 가능 태그와 인공지능을 이용한 결제수단과 문서 전산관리 방법 및 시스템
CN108830403A (zh) * 2018-05-23 2018-11-16 广西中烟工业有限责任公司 基于商业价值计算的烟草零售户走访路径可视分析方法
CN110517076A (zh) * 2019-08-21 2019-11-29 合肥英泽信息科技有限公司 一种卷烟营销用大数据分析系统
CN114119071A (zh) * 2021-11-03 2022-03-01 浪潮软件股份有限公司 一种卷烟品牌评分方法及系统
CN115796936A (zh) * 2022-12-19 2023-03-14 昆明理工大学 一种基于组合模型的卷烟销量预测方法、系统及存储介质
CN116167642A (zh) * 2022-12-10 2023-05-26 广东烟草韶关市有限公司曲江区分公司 一种烟草零售分析管理系统
CN116562918A (zh) * 2023-04-24 2023-08-08 镇江市烟草公司扬中分公司 一种基于区域数据统计的卷烟销售趋势分析系统及其方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN200997148Y (zh) * 2006-05-12 2007-12-26 北京烟专科技有限公司 售烟网络系统
CN101706926A (zh) * 2009-11-25 2010-05-12 河南省烟草公司鹤壁市公司 一种卷烟消费信息调查及处理方法
KR20180006338A (ko) * 2016-07-08 2018-01-17 김만이 식별 가능 태그와 인공지능을 이용한 결제수단과 문서 전산관리 방법 및 시스템
CN106600171A (zh) * 2017-01-04 2017-04-26 贵州省烟草公司毕节市公司 一种基于大数据预警的烟草市场监管方法及其系统
CN108830403A (zh) * 2018-05-23 2018-11-16 广西中烟工业有限责任公司 基于商业价值计算的烟草零售户走访路径可视分析方法
CN110517076A (zh) * 2019-08-21 2019-11-29 合肥英泽信息科技有限公司 一种卷烟营销用大数据分析系统
CN114119071A (zh) * 2021-11-03 2022-03-01 浪潮软件股份有限公司 一种卷烟品牌评分方法及系统
CN116167642A (zh) * 2022-12-10 2023-05-26 广东烟草韶关市有限公司曲江区分公司 一种烟草零售分析管理系统
CN115796936A (zh) * 2022-12-19 2023-03-14 昆明理工大学 一种基于组合模型的卷烟销量预测方法、系统及存储介质
CN116562918A (zh) * 2023-04-24 2023-08-08 镇江市烟草公司扬中分公司 一种基于区域数据统计的卷烟销售趋势分析系统及其方法

Also Published As

Publication number Publication date
CN117094743A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
US11281626B2 (en) Systems and methods for management of data platforms
US11386085B2 (en) Deriving metrics from queries
Rattenbury et al. Principles of data wrangling: Practical techniques for data preparation
Elgendy et al. Big data analytics in support of the decision making process
US10198460B2 (en) Systems and methods for management of data platforms
Bjeladinovic A fresh approach for hybrid SQL/NoSQL database design based on data structuredness
US20120191717A1 (en) Methods and apparatus for generating a data dictionary
JP6028103B2 (ja) データ管理方法、データ管理装置及び記憶媒体
Irudeen et al. Big data solution for Sri Lankan development: A case study from travel and tourism
US9589051B2 (en) Systems and methods for data analysis
CN117094743B (zh) 一种自动化卷烟零售市场数据统计分析系统及方法
CN110880124A (zh) 转化率评估方法及装置
CN112131203A (zh) 一种数据仓库搭建的方法和系统
CN116097241A (zh) 使用语义角色的数据准备
Ahlemeyer-Stubbe et al. Monetizing Data: How to Uplift Your Business
Batini et al. A Framework And A Methodology For Data Quality Assessment And Monitoring.
CN110928903A (zh) 数据提取方法及装置、设备和存储介质
Sydow et al. Diversity of editors and teams versus quality of cooperative work: experiments on Wikipedia
Bhaskara et al. Data warehouse implemantation to support batik sales information using MOLAP
Reich et al. The Zoltar forecast archive, a tool to standardize and store interdisciplinary prediction research
EP1814048A2 (en) Content analytics of unstructured documents
Goar et al. Business decision making by big data analytics
Espadinha-Cruz et al. Lead management optimization using data mining: A case in the telecommunications sector
EP3152678B1 (en) Systems and methods for management of data platforms
Zemnickis Data Warehouse Data Model Improvements from Customer Feedback.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant