CN117035560A - 基于大数据的电子烟生产数据管理系统 - Google Patents

基于大数据的电子烟生产数据管理系统 Download PDF

Info

Publication number
CN117035560A
CN117035560A CN202311293785.1A CN202311293785A CN117035560A CN 117035560 A CN117035560 A CN 117035560A CN 202311293785 A CN202311293785 A CN 202311293785A CN 117035560 A CN117035560 A CN 117035560A
Authority
CN
China
Prior art keywords
quality
feature
electronic cigarette
data
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311293785.1A
Other languages
English (en)
Other versions
CN117035560B (zh
Inventor
钟鸣
郭如云
郭小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wulun Technology Co ltd
Original Assignee
Shenzhen Wulun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wulun Technology Co ltd filed Critical Shenzhen Wulun Technology Co ltd
Priority to CN202311293785.1A priority Critical patent/CN117035560B/zh
Publication of CN117035560A publication Critical patent/CN117035560A/zh
Application granted granted Critical
Publication of CN117035560B publication Critical patent/CN117035560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及基于大数据的电子烟生产数据管理系统,所述系统包括数据采集模块:采集电子烟质量特征数据;数据处理模块:根据质量特征数据变化得到各质量特征的区分强度;根据各电子烟的质量特征数据序列之间的差异构建各特征组合的相关性指数;结合各质量特征的区分强度得到各特征组合的质量特征优选率;预警模块:根据质量特征优选率获取每棵决策树的最优特征组合,结合随机森林算法完成电子烟的分类管理。从而实现电子烟生产数据管理,降低了不同决策树之间的相关性,提高了随机森林算法模型的准确性,提高了电子烟质量评估准确性。

Description

基于大数据的电子烟生产数据管理系统
技术领域
本申请涉及数据处理技术领域,具体涉及基于大数据的电子烟生产数据管理系统。
背景技术
电子烟是一种使用液体烟油中的化学物质来制造烟雾的电子设备,达到与传统香烟类似的烟草替代品的作用。由于电子烟相比于传统香烟的烟雾更为柔和,并且电子烟中的尼古丁含量更容易管理,使得越来越多的人选择使用电子烟来代替传统香烟。在电子烟的生产过程中,可能存在各种问题,导致电子烟的品质不同,这些问题可能会导致电子烟出现安全隐患和卫生问题,因此可以根据电子烟的生产数据来对电子烟的质量进行分类,对有质量问题的电子烟进行追溯,快速找到问题产生的环节,并采取改善措施来降低电子烟质量问题的发生率,以提高电子烟产品的质量和安全水平。
随机森林算法是一种基于决策树的集成学习算法,具有较好的数据分类效果。传统的随机森林算法中的每个决策树的训练特征都是随机选取,这不仅会造成决策树遗漏重要的特征,还会出现决策树之间的训练集和选择的特征都比较相似的情况,导致决策树之间的相关性变高,进而增加随机森林模型过拟合的风险,降低模型的泛化能力,从而影响模型的准确性。
发明内容
为了解决上述技术问题,本发明提供基于大数据的电子烟生产数据管理系统,所述系统包括:
数据采集模块:获取各电子烟的质量特征数据序列,记为第一序列;
数据处理模块:获取各抽取训练集;根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度;根据电子烟的各质量特征获取各特征组合;根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图;根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数;根据相关性指数及区分强度得到各特征组合的质量特征优选率;
预警模块:根据各特征组合的质量特征优选率得到各决策树的最优特征组合;根据各决策树的最优特征组合进行训练得到电子烟质量评估模型;结合电子烟质量评估模型获取电子烟质量等级。
优选的,所述获取各电子烟的质量特征数据序列,具体为:
采集电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、质量特征、加热元件的电阻、电池的电压及电流数据作为电子烟的各种质量特征数据;将每支电子烟的各种归一化质量特征数据组成的序列作为各电子烟的质量特征数据序列。
优选的,所述获取各抽取训练集,具体为:
选择部分电子烟作为训练集样本;从训练集样本中随机且有放回地抽取一定数量的电子烟作为一个抽取训练集;获取各抽取训练集。
优选的,所述根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度,具体包括:
对于各质量特征,将各抽取训练集中质量特征数据的极差、标准差的乘积的倒数作为各抽取训练集中质量特征的集中程度;根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数;获取各抽取训练集中质量特征的信息增益;计算所述数据分布差异指数及所述信息增益的乘积;将所述乘积与所述集中程度的比值作为各抽取训练集中质量特征的区分强度。
优选的,所述根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数,具体包括:
对于第个质量特征,将各抽取训练集中电子烟第/>个质量特征的数据作为第一集合;将各抽取训练集中电子烟的其它各质量特征数据作为各第二集合;计算第一集合与各第二集合之间的交叉熵;将所述交叉熵的均值作为各抽取训练集中电子烟第/>个质量特征的数据分布差异指数。
优选的,所述根据电子烟的各质量特征获取各特征组合,具体为:将各质量特征进行排序组合得到各特征组合。
优选的,所述根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图,方法为:
将各抽取训练集中的每支电子烟的第一序列作为直方图的横坐标;将各抽取训练集中每种第一序列出现的频率作为直方图中对应纵坐标的值;根据所述直方图的横坐标及对应纵坐标的值构建直方图得到各抽取训练集的质量特征分布直方图。
优选的,所述根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数,表达式为:
式中,为第/>个特征组合的相关性指数,/>为第/>个特征组合与已确定的第/>个抽取训练集的最优特征组合之间的重合度;/>为第/>个抽取训练集与第/>个抽取训练集的质量特征分布直方图之间的/>距离;/>为判断函数;/>为第/>个特征组合中质量特征的个数;/>为第/>个特征组合中第/>个元素的编码数据与第/>个抽取训练集的最优特征组合中第/>个元素的编码数据之间的/>编辑距离。
优选的,所述根据相关性指数及区分强度得到各特征组合的质量特征优选率,具体包括:
计算第个抽取训练集的各特征组合与前/>抽取训练集的最优特征组合之间的相关性指数的均值,记为第一均值;计算各特征组合中质量特征的区分强度的均值,记为第二均值;将第二均值与第一均值的比值作为各特征组合的质量特征优选率。
优选的,所述根据各特征组合的质量特征优选率得到各决策树的最优特征组合,具体为:
将最大质量特征优选率对应的特征组合作为各决策树的最优特征组合。
本发明实施例至少具有如下有益效果:
本发明提出一种基于大数据的电子烟生产数据管理系统,通过计算电子烟的各种质量特征对决策树分类能力的影响程度自适应获取每棵决策树的最优特征组合,避免了决策树的训练特征随机选取导致质量评估模型分类不准确的问题,解决了电子烟质量等级分类不准确的问题;
针对随机森林算法进行模型构建时,基于电子烟的各个质量特征在各抽取训练集中的不同分布特点,对各个质量特征对决策树分类效果的影响进分析,并结合各特征组合之间的相关性对电子烟分类效果的影响,来构建出各个特征组合的质量特征优选率,并基于质量特征优选率来得到每个决策树的最优特征组合,并使用随机森林算法完成后续的电子烟的质量评估模型训练,降低了不同决策树之间的相关性,提高了随机森林算法模型的准确性,提高了电子烟质量评估准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的基于大数据的电子烟生产数据管理系统的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据的电子烟生产数据管理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据的电子烟生产数据管理系统的具体方案。
本发明一个实施例提供的基于大数据的电子烟生产数据管理系统,该系统包含数据采集模块、数据处理模块和预警模块。
具体的,本实施例的基于大数据的电子烟生产数据管理系统提供了如下的基于大数据的电子烟生产数据管理系统,请参阅图1,该系统包括以下步骤:
步骤S001,数据采集模块,采集电子烟的质量特征数据。
从电子烟的生产数据管理系统中获取支电子烟的/>种质量特征对应的数据,并对这/>支电子烟进行人工质量评估,基于质量评估结果对每支电子烟分别进行质量等级标签的设置。其中电子烟的数量/>、质量特征的种类/>以及质量等级由实施者自行定义,本发明中电子烟的数量/>设置为1000,质量特征的种类/>设置为8,包括电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、质量特征、加热元件的电阻、电池的电压和电流,质量等级设置为优品、次品、不合格品。
将获取的电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、质量特征、加热元件的电阻、电池的电压和电流对应的数据分别进行归一化处理,数据的归一化处理为公知技术,不再赘述。将每支电子烟的归一化后的各种质量特征数据组成的序列作为每支电子烟的质量特征数据序列,记为第一序列。将第支电子烟的第一序列记为/>,其中/>表示第/>支电子烟中的/>个质量特征分别对应的数据,在本发明中指的是电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、质量特征、加热元件的电阻、电池的电压和电流这8个质量特征分别对应的数据。
步骤S002,数据处理模块,根据各质量特征对决策树分类效果的影响构建各特征组合的质量特征优选率。
由于随机森林算法的分类效果与森林中任意两颗树之间的相关性以及森林中每棵树的分类能力有关,具体的,森林中每棵树的分类能力越强,该算法的分类效果越好,其次,森林中任意两颗树之间的相关性越大,该算法的分类效果越差。因此,本发明通过电子烟中各个质量特征的区分强度,以及各个质量特征对电子烟所构建的各棵决策树之间的相关性影响力,来为各个决策树自适应的选取最优的特征组合,以提高随机森林算法对电子烟的质量分类效果,并利用随机森林算法对电子烟的质量特征数据进行后续的处理,来得到电子烟的质量评估模型。
具体的,选择支电子烟作为构建决策树的训练集样本/>,训练集样本/>中电子烟的数量/>取经验值为800,并将剩余的/>支电子烟作为测试集样本/>。其中决策树的个数/>取经验值为100;从训练集样本/>中随机且有放回地抽取/>支电子烟作为一各抽取训练集/>,重复上述方式获取各抽取训练集。需要说明的是,/>、/>及/>的取值实施者可自行选取,本实施例不做具体限制。
获取每种质量特征在各抽取训练集上的区分强度,以第/>个质量特征为例,将第/>个抽取训练集记为/>,则抽取训练集/>中第/>个质量特征的区分强度/>的表达式为:
式中,为抽取训练集/>中第/>个质量特征的区分强度;/>为抽取训练集/>中第/>个质量特征的集中程度;/>为抽取训练集/>中第/>个质量特征与其它质量特征之间的数据分布差异指数;/>为抽取训练集/>中第/>个质量特征的信息增益,用来表示第/>个质量特征对抽取训练集/>的分类能力贡献度,其中信息增益的计算方法为公知技术,具体计算方法不再赘述;/>、/>分别为抽取训练集/>中第/>个质量特征数据的极差、标准差;/>为抽取训练集中电子烟的第/>个质量特征数据组成的集合,记为第一集合;/>为抽取训练集/>中电子烟的第/>种质量特征数据组成的集合,记为第二集合;/>为计算交叉熵的函数,/>为两个集合之间的交叉熵,其中交叉熵的计算方法为公知技术,具体计算方法不再赘述;/>表示本发明采集到的电子烟质量特征的种类数。
抽取训练集中各电子烟的质量特征之间的差异越小,即/>的值越小,并且质量特征的取值范围越小,即/>的值越小,则说明抽取训练集/>中的各电子烟的质量特征数据上的分布越集中,即/>的值越大,该质量特征越难以区分不同质量的电子烟,该质量特征的分类能力越弱。即/>的值越小,因此该质量特征越不该用于抽取训练集/>的分类。
在抽取训练集中,第/>个质量特征的数据分布与其它各质量特征的数据分布之间的差异越大,即/>的值越大,说明第/>个质量特征相较于其它质量特征对抽取训练集/>中电子烟质量有更好的区分度,表示根据第/>个质量特征得到的分类结果越好,即/>的值越大,则越应该选择第/>个质量特征用于对抽取训练集/>中电子烟质量进行分类。第/>个质量特征在抽取训练集/>上的信息增益/>的值越大,表示该质量特征对抽取训练集/>中电子烟质量分类的贡献度越大,说明第/>个质量特征越能区分不同电子烟质量等级之间的差异,区分强度/>的值越大。
对于每棵决策树,决策树训练所用特征的个数是有限的,因此,本实施例将从所有质量特征种类中任意选取种进行组合,可获取多个组合,分别记为各特征组合,各特征组合中包含的质量特征的个数为/>,需要说明的是,/>的取值实施者可自行选取,本实施例将的取值设定为4。对于本实施例所选取的8种质量特征,能够构成的多种特征组合分别记为/>,其中/>为能获得的特征组合数量。将所有特征组合组成的集合记为候选训练质量特征簇/>,即从/>个质量特征中任选/>个质量特征组成的不同特征组合,其中/>表示第/>个抽取训练集的候选训练质量特征簇/>中的第/>个特征组合。
在随机森林算法中,如果两个决策树使用的抽取训练集和训练用的特征组合的相似程度均比较高,那么这两个决策树的决策规则也会比较近似,产生的结果也会比较接近,说明这两个决策树具有较高的相关性。因此,可根据各抽取训练集数据变化来得到各特征组合之间的相关性。
具体的,获取各抽取训练集中电子烟的质量特征分布直方图,以第个抽取训练集为例,将抽取训练集/>中的每支电子烟的第一序列/>作为直方图的bin,即直方图的横坐标,例如抽取训练集/>中的电子烟的质量特征数据序列只有10种,即其它电子烟的质量特征数据序列都与这10种质量特征数据序列中的某一个质量特征数据序列/>重复,则将这10种质量特征数据序列分别作为直方图的各bin。将抽取训练集/>中电子烟的质量特征数据序列在这10种质量特征数据序列中出现的频率作为对应纵坐标的值,从而构建直方图,并对得到的直方图进行归一化,将归一化后的直方图记为第/>个抽取训练集的质量特征分布直方图。其次,将每个特征组合中的各元素的数据均转换为Unicode编码得到各元素的编码数据,将每个特征组合中各元素的编码数据组成的集合作为各特征编码集合,其中Unicode编码为公知技术,不再赘述。得到各特征组合的相关性指数/>,以第/>个抽取训练集和第/>个抽取训练集为例,设第第/>个抽取训练集的最优特征组合已确定,将第/>个抽取训练集的各特征组合与第/>个抽取训练集的最优特征组合之间的相关性指数记为第/>个抽取训练集的各特征组合的相关性指数/>,则各特征组合的相关性指数的计算方法为:
式中,为第/>个抽取训练集的第/>个特征组合的相关性指数,/>为第/>个特征组合与第/>个抽取训练集的最优特征组合之间的重合度;/>为第/>个抽取训练集与第/>个抽取训练集的质量特征分布直方图之间的/>距离,表示这两个抽取训练集的抽取训练集之间的相似程度,其中/>距离为公知技术,计算方法不再赘述;/>为判断函数,用来判断第/>个特征组合中第/>个质量特征与第/>个抽取训练集的最优特征组合中各质量特征是否相同;/>为第/>个特征组合中质量特征的个数;/>为第/>个特征组合对应的质量训练特征编码集合中第/>个编码数据与第/>个抽取训练集的质量训练特征编码集合中第/>个编码数据之间的ED编辑距离。
这两个抽取训练集对应的质量特征分布直方图之间的差异越小,即的值越小,表示这两个抽取训练集之间的相似程度越高,则这两个抽取训练集对应的特征集合之间的相关性也就越高,即/>的值越大。并且这两个抽取训练集的特征组合之中相同质量特征的数量越多,表示这两个特征集合的相似程度越高,即/>的值越大,则这两个特征集合之间的相关性越高,即/>的值也越大。
进一步的,根据抽取训练集中各质量特征的区分强度以及各特征组合的相关性指数/>来为每个抽取训练集选择最优的特征组合,以第/>个抽取训练集为例:
个抽取训练集的第/>个特征组合的质量特征优选率/>的计算方法为:
式中,为第/>个抽取训练集的第/>个特征组合的质量特征优选率,/>为第/>个抽取训练集的第/>个特征组合与前/>个抽取训练集已确定好的最优特征组合之间的相关性指数的均值,记为第一均值;/>为第/>个特征组合/>中第/>个质量特征的区分强度;/>为第/>个特征组合/>中质量特征的个数。
与前/>个抽取训练集的最优特征组合之间的相关性越大,则最终得到的随机森林模型的错误率会越高,因此越不能使用特征组合/>作为第/>个抽取训练集的最优质量特征集合,即质量特征优选率/>的值越小。将/>的值记为第二均值,特征组合/>中各个质量特征在第/>个抽取训练集上的区分强度越高,即第二均值越大,说明特征组合/>对第/>个抽取训练集的分类效果越好,因此越应该选择特征组合/>作为第/>个抽取训练集的最优特征组合,即质量特征优选率/>的值越大。
步骤S003,预警模块,根据质量特征优选率自适应获取各决策树的最优特征组合,结合随机森林算法完成电子烟的分类管理。
首先获取第一棵决策树的最优特征组合,具体为,将各个质量特征在第一个抽取训练集上的区分强度的值进行排序,将其中区分强度最大的/>个质量特征作为第一棵决策树的最优特征组合。则对于第二棵决策树,分别计算第二个抽取训练集中各个特征组合的质量特征优选率,将质量特征优选率的值最大的特征组合作为该决策树的最优特征组合。以此类推,得到所有的决策树的最优特征组合。并使用随机森林算法对各棵决策树进行后续的训练,具体为:
将训练集样本B中的电子烟中优品的电子烟标记为2,次品的电子烟标记为1,不合格的电子烟标记为0,并使用本实施例处理后的决策树结合随机森林算法对训练集样本B中的电子烟进行训练,得到的分类模型作为电子烟的质量评估模型,其中每颗树的深度H取经验值为20,节点分类的标准为基尼指数,其余的参数均取默认值,使用随机森林算法进行分类模型的训练为公知技术,具体过程不再赘述。将待测电子烟的各个质量特征数据输入电子烟分类模型中,若输出结果为2,表示该电子烟为优质产品,可以进行后续的包装等生产环节,并将该电子烟的数据归入到优品数据库中;若输出结果为1,表示该电子烟为次级产品,并由工作人员进行修复,重新进行检测;若输出结果为0,表示该电子烟为不合格产品,将该电子烟的数据归入到不合格品数据库中,并提醒工作人员进行电子烟数据进行后续的分析,判断电子烟的生产环节出现的问题,并及时修复。
综上所述,本发明实施例提出一种基于大数据的电子烟生产数据管理系统,通过计算电子烟的各种质量特征对决策树分类能力的影响程度自适应获取每棵决策树的最优特征组合,避免了决策树的训练特征随机选取导致质量评估模型分类不准确的问题,解决了电子烟质量等级分类不准确的问题;
针对随机森林算法进行模型构建时,基于电子烟的各个质量特征在决策树的抽取训练集中的不同分布特点,对各个质量特征对决策树分类效果的影响进分析,并结合决策树之间的相关性对电子烟分类效果的影响,来构建出各个特征组合的质量特征优选率,并基于质量特征优选率来得到每个决策树的最优训练特征集合,并使用随机森林算法完成后续的电子烟的质量评估模型训练,降低了不同决策树之间的相关性,提高了随机森林算法模型的准确性,提高了电子烟质量评估准确性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于大数据的电子烟生产数据管理系统,其特征在于,所述系统包括:
数据采集模块:获取各电子烟的质量特征数据序列,记为第一序列;
数据处理模块:获取各抽取训练集;根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度;根据电子烟的各质量特征获取各特征组合;根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图;根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数;根据相关性指数及区分强度得到各特征组合的质量特征优选率;
预警模块:根据各特征组合的质量特征优选率得到各决策树的最优特征组合;根据各决策树的最优特征组合进行训练得到电子烟质量评估模型;结合电子烟质量评估模型获取电子烟质量等级。
2.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述获取各电子烟的质量特征数据序列,具体为:
采集电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、质量特征、加热元件的电阻、电池的电压及电流数据作为电子烟的各种质量特征数据;将每支电子烟的各种归一化质量特征数据组成的序列作为各电子烟的质量特征数据序列。
3.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述获取各抽取训练集,具体为:
选择部分电子烟作为训练集样本;从训练集样本中随机且有放回地抽取一定数量的电子烟作为一个抽取训练集;获取各抽取训练集。
4.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度,具体包括:
对于各质量特征,将各抽取训练集中质量特征数据的极差、标准差的乘积的倒数作为各抽取训练集中质量特征的集中程度;根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数;获取各抽取训练集中质量特征的信息增益;计算所述数据分布差异指数及所述信息增益的乘积;将所述乘积与所述集中程度的比值作为各抽取训练集中质量特征的区分强度。
5.如权利要求4所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数,具体包括:
对于第个质量特征,将各抽取训练集中电子烟第/>个质量特征的数据作为第一集合;将各抽取训练集中电子烟的其它各质量特征数据作为各第二集合;计算第一集合与各第二集合之间的交叉熵;将所述交叉熵的均值作为各抽取训练集中电子烟第/>个质量特征的数据分布差异指数。
6.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据电子烟的各质量特征获取各特征组合,具体为:将各质量特征进行排序组合得到各特征组合。
7.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图,方法为:
将各抽取训练集中的每支电子烟的第一序列作为直方图的横坐标;将各抽取训练集中每种第一序列出现的频率作为直方图中对应纵坐标的值;根据所述直方图的横坐标及对应纵坐标的值构建直方图得到各抽取训练集的质量特征分布直方图。
8.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数,表达式为:
式中,为第/>个特征组合的相关性指数,/>为第/>个特征组合与已确定的第个抽取训练集的最优特征组合之间的重合度;/>为第/>个抽取训练集与第/>个抽取训练集的质量特征分布直方图之间的/>距离;/>为判断函数;/>为第/>个特征组合中质量特征的个数;/>为第/>个特征组合中第/>个元素的编码数据与第/>个抽取训练集的最优特征组合中第/>个元素的编码数据之间的/>编辑距离。
9.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据相关性指数及区分强度得到各特征组合的质量特征优选率,具体包括:
计算第个抽取训练集的各特征组合与前/>抽取训练集的最优特征组合之间的相关性指数的均值,记为第一均值;计算各特征组合中质量特征的区分强度的均值,记为第二均值;将第二均值与第一均值的比值作为各特征组合的质量特征优选率。
10.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各特征组合的质量特征优选率得到各决策树的最优特征组合,具体为:
将最大质量特征优选率对应的特征组合作为各决策树的最优特征组合。
CN202311293785.1A 2023-10-09 2023-10-09 基于大数据的电子烟生产数据管理系统 Active CN117035560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311293785.1A CN117035560B (zh) 2023-10-09 2023-10-09 基于大数据的电子烟生产数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311293785.1A CN117035560B (zh) 2023-10-09 2023-10-09 基于大数据的电子烟生产数据管理系统

Publications (2)

Publication Number Publication Date
CN117035560A true CN117035560A (zh) 2023-11-10
CN117035560B CN117035560B (zh) 2024-02-20

Family

ID=88635863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311293785.1A Active CN117035560B (zh) 2023-10-09 2023-10-09 基于大数据的电子烟生产数据管理系统

Country Status (1)

Country Link
CN (1) CN117035560B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330555A (zh) * 2017-06-30 2017-11-07 红云红河烟草(集团)有限责任公司 一种基于随机森林回归的制丝过程参数赋权方法
CN109343489A (zh) * 2018-10-30 2019-02-15 杭州安脉盛智能技术有限公司 烟草制丝工艺参数自愈控制方法及系统
CN112881323A (zh) * 2021-01-14 2021-06-01 云南中烟工业有限责任公司 卷烟主流烟气的品质评价方法
CN113657452A (zh) * 2021-07-20 2021-11-16 中国烟草总公司郑州烟草研究院 基于主成分分析和超级学习的烟叶质量等级分类预测方法
CN114359697A (zh) * 2022-01-12 2022-04-15 华中科技大学 一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法
CN114595365A (zh) * 2022-03-25 2022-06-07 江苏中烟工业有限责任公司 一种构建卷烟特征关联性的方法、装置、电子设备及介质
CN115205244A (zh) * 2022-07-12 2022-10-18 红云红河烟草(集团)有限责任公司 一种基于动态自学习的卷烟外观质量评估方法
CN115859784A (zh) * 2022-11-21 2023-03-28 红塔烟草(集团)有限责任公司 建立生产过程参数和卷烟感官品质特征关联模型的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330555A (zh) * 2017-06-30 2017-11-07 红云红河烟草(集团)有限责任公司 一种基于随机森林回归的制丝过程参数赋权方法
CN109343489A (zh) * 2018-10-30 2019-02-15 杭州安脉盛智能技术有限公司 烟草制丝工艺参数自愈控制方法及系统
CN112881323A (zh) * 2021-01-14 2021-06-01 云南中烟工业有限责任公司 卷烟主流烟气的品质评价方法
CN113657452A (zh) * 2021-07-20 2021-11-16 中国烟草总公司郑州烟草研究院 基于主成分分析和超级学习的烟叶质量等级分类预测方法
CN114359697A (zh) * 2022-01-12 2022-04-15 华中科技大学 一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法
CN114595365A (zh) * 2022-03-25 2022-06-07 江苏中烟工业有限责任公司 一种构建卷烟特征关联性的方法、装置、电子设备及介质
CN115205244A (zh) * 2022-07-12 2022-10-18 红云红河烟草(集团)有限责任公司 一种基于动态自学习的卷烟外观质量评估方法
CN115859784A (zh) * 2022-11-21 2023-03-28 红塔烟草(集团)有限责任公司 建立生产过程参数和卷烟感官品质特征关联模型的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁家满等: "基于Copula函数的电网规划指标相关性分析及建模", 现代电子技术, vol. 41, no. 17, pages 95 - 101 *

Also Published As

Publication number Publication date
CN117035560B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN109919184A (zh) 一种基于测井数据的多井复杂岩性智能识别方法及系统
CN109597968B (zh) 基于smt大数据的锡膏印刷性能影响因素分析方法
CN109870421B (zh) 一种基于可见光/近红外光谱分析的递增式木材树种分类识别方法
Gkintoni et al. Emotional intelligence in social network consumers
CN107609111A (zh) 一种枇杷果实品种鉴别、品质分级和成熟度判定的检索方法
CN111860576A (zh) 一种基于随机森林的子宫内膜肿瘤分类标记方法
CN113435707B (zh) 基于深度学习和计权型多因子评价的测土配方施肥方法
CN109684636B (zh) 一种基于深度学习的用户情感分析方法
CN112749763B (zh) 用于玻璃质量影响因素的时间序列分类分析方法及系统
CN109344907A (zh) 基于改进评判标准分类算法的判别方法
CN109145685A (zh) 基于集成学习的果蔬高光谱品质检测方法
Halkiopoulos et al. Behavioral data analysis in emotional intelligence of social network consumers
CN117035560B (zh) 基于大数据的电子烟生产数据管理系统
CN100454290C (zh) 卷烟感官质量定性指标评估方法
CN116720145B (zh) 基于数据处理的无线充电剩余时间预测方法
CN116579842B (zh) 基于用户行为数据的信用数据分析方法及系统
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN106295667B (zh) 一种基于遗传算法选择最优光谱谱段的方法及其应用
CN113933334B (zh) 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法
CN106898357A (zh) 一种基于正态分布规律的矢量量化方法
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN112685562B (zh) 一种基于XGBoost模型的多维指标集成的技术评价方法
Zakir et al. Soil utilisation prediction for farmers using machine learning
CN117725237B (zh) 基于大数据的食谱生成方法、装置、设备及存储介质
Wen et al. Wordle Distribution Prediction Model Based on Random Forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant