CN117035560B - 基于大数据的电子烟生产数据管理系统 - Google Patents
基于大数据的电子烟生产数据管理系统 Download PDFInfo
- Publication number
- CN117035560B CN117035560B CN202311293785.1A CN202311293785A CN117035560B CN 117035560 B CN117035560 B CN 117035560B CN 202311293785 A CN202311293785 A CN 202311293785A CN 117035560 B CN117035560 B CN 117035560B
- Authority
- CN
- China
- Prior art keywords
- quality
- feature
- electronic cigarette
- data
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003571 electronic cigarette Substances 0.000 title claims abstract description 138
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 27
- 238000013523 data management Methods 0.000 title claims abstract description 23
- 238000003066 decision tree Methods 0.000 claims abstract description 46
- 238000013441 quality evaluation Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 133
- 238000000605 extraction Methods 0.000 claims description 65
- 238000009826 distribution Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 7
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 claims description 5
- 235000019504 cigarettes Nutrition 0.000 claims description 5
- 238000010438 heat treatment Methods 0.000 claims description 5
- 229960002715 nicotine Drugs 0.000 claims description 5
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 claims description 5
- 239000000779 smoke Substances 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 21
- 238000007637 random forest analysis Methods 0.000 abstract description 20
- 238000007726 management method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Manufacturing & Machinery (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及基于大数据的电子烟生产数据管理系统,所述系统包括数据采集模块:采集电子烟质量特征数据;数据处理模块:根据质量特征数据变化得到各质量特征的区分强度;根据各电子烟的质量特征数据序列之间的差异构建各特征组合的相关性指数;结合各质量特征的区分强度得到各特征组合的质量特征优选率;预警模块:根据质量特征优选率获取每棵决策树的最优特征组合,结合随机森林算法完成电子烟的分类管理。从而实现电子烟生产数据管理,降低了不同决策树之间的相关性,提高了随机森林算法模型的准确性,提高了电子烟质量评估准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及基于大数据的电子烟生产数据管理系统。
背景技术
在电子烟的生产过程中,可能存在各种问题,导致电子烟的品质不同,这些问题可能会导致电子烟出现安全隐患和卫生问题,因此可以根据电子烟的生产数据来对电子烟的质量进行分类,对有质量问题的电子烟进行追溯,快速找到问题产生的环节,并采取改善措施来降低电子烟质量问题的发生率,以提高电子烟产品的质量和安全水平。
随机森林算法是一种基于决策树的集成学习算法,具有较好的数据分类效果。传统的随机森林算法中的每个决策树的训练特征都是随机选取,这不仅会造成决策树遗漏重要的特征,还会出现决策树之间的训练集和选择的特征都比较相似的情况,导致决策树之间的相关性变高,进而增加随机森林模型过拟合的风险,降低模型的泛化能力,从而影响模型的准确性。
发明内容
为了解决上述技术问题,本发明提供基于大数据的电子烟生产数据管理系统,所述系统包括:
数据采集模块:获取各电子烟的质量特征数据序列,记为第一序列;
数据处理模块:获取各抽取训练集;根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度;根据电子烟的各质量特征获取各特征组合;根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图;根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数;根据相关性指数及区分强度得到各特征组合的质量特征优选率;
预警模块:根据各特征组合的质量特征优选率得到各决策树的最优特征组合;根据各决策树的最优特征组合进行训练得到电子烟质量评估模型;结合电子烟质量评估模型获取电子烟质量等级;
所述根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度,具体包括:对于各质量特征,将各抽取训练集中质量特征数据的极差、标准差的乘积的倒数作为各抽取训练集中质量特征的集中程度;根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数;获取各抽取训练集中质量特征的信息增益;计算所述数据分布差异指数及所述信息增益的乘积,记为第一乘积;将所述第一乘积与所述集中程度的比值作为各抽取训练集中质量特征的区分强度;
所述根据相关性指数及区分强度得到各特征组合的质量特征优选率,具体包括:计算第个抽取训练集的各特征组合与前/>抽取训练集的最优特征组合之间的相关性指数的均值,记为第一均值;计算各特征组合中质量特征的区分强度的均值,记为第二均值;将第二均值与第一均值的比值作为各特征组合的质量特征优选率。
优选的,所述获取各电子烟的质量特征数据序列,具体为:
采集电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、加热元件的电阻和电池的电压及电流数据作为电子烟的各种质量特征数据;将每支电子烟的各种归一化质量特征数据组成的序列作为各电子烟的质量特征数据序列。
优选的,所述获取各抽取训练集,具体为:
选择部分电子烟作为训练集样本;从训练集样本中随机且有放回地抽取一定数量的电子烟作为一个抽取训练集;获取各抽取训练集。
优选的,所述根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数,具体包括:
对于第个质量特征,将各抽取训练集中电子烟第/>个质量特征的数据作为第一集合;将各抽取训练集中电子烟的其它各质量特征数据作为各第二集合;计算第一集合与各第二集合之间的交叉熵;将所述交叉熵的均值作为各抽取训练集中电子烟第/>个质量特征的数据分布差异指数。
优选的,所述根据电子烟的各质量特征获取各特征组合,具体为:将各质量特征进行排序组合得到各特征组合。
优选的,所述根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图,方法为:
将各抽取训练集中的每支电子烟的第一序列作为直方图的横坐标;将各抽取训练集中每种第一序列出现的频率作为直方图中对应纵坐标的值;根据所述直方图的横坐标及对应纵坐标的值构建直方图得到各抽取训练集的质量特征分布直方图。
优选的,所述根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数,表达式为:
式中,为第/>个特征组合的相关性指数,/>为第/>个特征组合与已确定的第/>个抽取训练集的最优特征组合之间的重合度;/>为第/>个抽取训练集与第/>个抽取训练集的质量特征分布直方图之间的/>距离;/>为判断函数;/>为第/>个特征组合中质量特征的个数;/>为第/>个特征组合中第/>个元素的编码数据与第/>个抽取训练集的最优特征组合中第/>个元素的编码数据之间的/>编辑距离。
优选的,所述根据各特征组合的质量特征优选率得到各决策树的最优特征组合,具体为:
将最大质量特征优选率对应的特征组合作为各决策树的最优特征组合。
本发明实施例至少具有如下有益效果:
本发明提出一种基于大数据的电子烟生产数据管理系统,通过计算电子烟的各种质量特征对决策树分类能力的影响程度自适应获取每棵决策树的最优特征组合,避免了决策树的训练特征随机选取导致质量评估模型分类不准确的问题,解决了电子烟质量等级分类不准确的问题;
针对随机森林算法进行模型构建时,基于电子烟的各个质量特征在各抽取训练集中的不同分布特点,对各个质量特征对决策树分类效果的影响进分析,并结合各特征组合之间的相关性对电子烟分类效果的影响,来构建出各个特征组合的质量特征优选率,并基于质量特征优选率来得到每个决策树的最优特征组合,并使用随机森林算法完成后续的电子烟的质量评估模型训练,降低了不同决策树之间的相关性,提高了随机森林算法模型的准确性,提高了电子烟质量评估准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的基于大数据的电子烟生产数据管理系统的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据的电子烟生产数据管理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据的电子烟生产数据管理系统的具体方案。
本发明一个实施例提供的基于大数据的电子烟生产数据管理系统,该系统包含数据采集模块、数据处理模块和预警模块。
具体的,本实施例的基于大数据的电子烟生产数据管理系统提供了如下的基于大数据的电子烟生产数据管理系统,请参阅图1,该系统包括以下步骤:
步骤S001,数据采集模块,采集电子烟的质量特征数据。
从电子烟的生产数据管理系统中获取支电子烟的/>种质量特征对应的数据,并对这/>支电子烟进行人工质量评估,基于质量评估结果对每支电子烟分别进行质量等级标签的设置。其中电子烟的数量/>、质量特征的种类/>以及质量等级由实施者自行定义,本发明中电子烟的数量/>设置为1000,质量特征的种类/>设置为7,包括电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、加热元件的电阻、电池的电压和电流,质量等级设置为优品、次品、不合格品。
将获取的电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、加热元件的电阻、电池的电压和电流对应的数据分别进行归一化处理,数据的归一化处理为公知技术,不再赘述。将每支电子烟的归一化后的各种质量特征数据组成的序列作为每支电子烟的质量特征数据序列,记为第一序列。将第支电子烟的第一序列记为/>,其中表示第/>支电子烟中的/>个质量特征分别对应的数据,在本发明中指的是电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、加热元件的电阻、电池的电压和电流这7个质量特征分别对应的数据。
步骤S002,数据处理模块,根据各质量特征对决策树分类效果的影响构建各特征组合的质量特征优选率。
由于随机森林算法的分类效果与森林中任意两颗树之间的相关性以及森林中每棵树的分类能力有关,具体的,森林中每棵树的分类能力越强,该算法的分类效果越好,其次,森林中任意两颗树之间的相关性越大,该算法的分类效果越差。因此,本发明通过电子烟中各个质量特征的区分强度,以及各个质量特征对电子烟所构建的各棵决策树之间的相关性影响力,来为各个决策树自适应的选取最优的特征组合,以提高随机森林算法对电子烟的质量分类效果,并利用随机森林算法对电子烟的质量特征数据进行后续的处理,来得到电子烟的质量评估模型。
具体的,选择支电子烟作为构建决策树的训练集样本/>,训练集样本/>中电子烟的数量/>取经验值为800,并将剩余的/>支电子烟作为测试集样本/>。其中决策树的个数/>取经验值为100;从训练集样本/>中随机且有放回地抽取/>支电子烟作为一各抽取训练集/>,重复上述方式获取各抽取训练集。需要说明的是,/>、/>及/>的取值实施者可自行选取,本实施例不做具体限制。
获取每种质量特征在各抽取训练集上的区分强度,以第/>个质量特征为例,将第个抽取训练集记为/>,则抽取训练集/>中第/>个质量特征的区分强度/>的表达式为:
式中,为抽取训练集/>中第/>个质量特征的区分强度;/>为抽取训练集/>中第/>个质量特征的集中程度;/>为抽取训练集/>中第/>个质量特征与其它质量特征之间的数据分布差异指数;/>为抽取训练集/>中第/>个质量特征的信息增益,用来表示第/>个质量特征对抽取训练集/>的分类能力贡献度,其中信息增益的计算方法为公知技术,具体计算方法不再赘述;/>、/>分别为抽取训练集/>中第/>个质量特征数据的极差、标准差;为抽取训练集/>中电子烟的第/>个质量特征数据组成的集合,记为第一集合;/>为抽取训练集/>中电子烟的第/>种质量特征数据组成的集合,记为第二集合;/>为计算交叉熵的函数,/>为两个集合之间的交叉熵,其中交叉熵的计算方法为公知技术,具体计算方法不再赘述;/>表示本发明采集到的电子烟质量特征的种类数。其中/>为第一乘积。
抽取训练集中各电子烟的质量特征之间的差异越小,即/>的值越小,并且质量特征的取值范围越小,即/>的值越小,则说明抽取训练集/>中的各电子烟的质量特征数据上的分布越集中,即/>的值越大,该质量特征越难以区分不同质量的电子烟,该质量特征的分类能力越弱。即/>的值越小,因此该质量特征越不该用于抽取训练集/>的分类。
在抽取训练集中,第/>个质量特征的数据分布与其它各质量特征的数据分布之间的差异越大,即/>的值越大,说明第/>个质量特征相较于其它质量特征对抽取训练集/>中电子烟质量有更好的区分度,表示根据第/>个质量特征得到的分类结果越好,即/>的值越大,则越应该选择第/>个质量特征用于对抽取训练集/>中电子烟质量进行分类。第/>个质量特征在抽取训练集/>上的信息增益/>的值越大,表示该质量特征对抽取训练集/>中电子烟质量分类的贡献度越大,说明第/>个质量特征越能区分不同电子烟质量等级之间的差异,区分强度/>的值越大。
对于每棵决策树,决策树训练所用特征的个数是有限的,因此,本实施例将从所有质量特征种类中任意选取种进行组合,可获取多个组合,分别记为各特征组合,各特征组合中包含的质量特征的个数为/>,需要说明的是,/>的取值实施者可自行选取,本实施例将/>的取值设定为4。对于本实施例所选取的7种质量特征,能够构成的多种特征组合分别记为/>,其中/>为能获得的特征组合数量。将所有特征组合组成的集合记为候选训练质量特征簇/>,即从/>个质量特征中任选/>个质量特征组成的不同特征组合,其中/>表示第/>个抽取训练集的候选训练质量特征簇/>中的第/>个特征组合。
在随机森林算法中,如果两个决策树使用的抽取训练集和训练用的特征组合的相似程度均比较高,那么这两个决策树的决策规则也会比较近似,产生的结果也会比较接近,说明这两个决策树具有较高的相关性。因此,可根据各抽取训练集数据变化来得到各特征组合之间的相关性。
具体的,获取各抽取训练集中电子烟的质量特征分布直方图,以第个抽取训练集/>为例,将抽取训练集/>中的每支电子烟的第一序列/>作为直方图的bin,即直方图的横坐标,例如抽取训练集/>中的电子烟的质量特征数据序列只有10种,即其它电子烟的质量特征数据序列都与这10种质量特征数据序列中的某一个质量特征数据序列/>重复,则将这10种质量特征数据序列分别作为直方图的各bin。将抽取训练集/>中电子烟的质量特征数据序列在这10种质量特征数据序列中出现的频率作为对应纵坐标的值,从而构建直方图,并对得到的直方图进行归一化,将归一化后的直方图记为第/>个抽取训练集的质量特征分布直方图。其次,将每个特征组合中的各元素的数据均转换为Unicode编码得到各元素的编码数据,将每个特征组合中各元素的编码数据组成的集合作为各特征编码集合,其中Unicode编码为公知技术,不再赘述。得到各特征组合的相关性指数/>,以第/>个抽取训练集和第/>个抽取训练集为例,设第第/>个抽取训练集的最优特征组合已确定,将第/>个抽取训练集的各特征组合与第/>个抽取训练集的最优特征组合之间的相关性指数记为第/>个抽取训练集的各特征组合的相关性指数/>,则各特征组合的相关性指数的计算方法为:
式中,为第/>个抽取训练集的第/>个特征组合的相关性指数,/>为第/>个特征组合与第/>个抽取训练集的最优特征组合之间的重合度;/>为第/>个抽取训练集与第/>个抽取训练集的质量特征分布直方图之间的/>距离,表示这两个抽取训练集的抽取训练集之间的相似程度,其中/>距离为公知技术,计算方法不再赘述;为判断函数,/>用来判断第/>个特征组合中第/>个质量特征与第/>个抽取训练集的最优特征组合中各质量特征是否相同;/>为第/>个特征组合中质量特征的个数;为第/>个特征组合对应的质量训练特征编码集合中第/>个编码数据与第/>个抽取训练集的质量训练特征编码集合中第/>个编码数据之间的ED编辑距离。
这两个抽取训练集对应的质量特征分布直方图之间的差异越小,即的值越小,表示这两个抽取训练集之间的相似程度越高,则这两个抽取训练集对应的特征集合之间的相关性也就越高,即/>的值越大。并且这两个抽取训练集的特征组合之中相同质量特征的数量越多,表示这两个特征集合的相似程度越高,即/>的值越大,则这两个特征集合之间的相关性越高,即/>的值也越大。
进一步的,根据抽取训练集中各质量特征的区分强度以及各特征组合的相关性指数/>来为每个抽取训练集选择最优的特征组合,以第/>个抽取训练集为例:
第个抽取训练集的第/>个特征组合的质量特征优选率/>的计算方法为:
式中,为第/>个抽取训练集的第/>个特征组合的质量特征优选率,/>为第/>个抽取训练集的第/>个特征组合与前/>个抽取训练集已确定好的最优特征组合之间的相关性指数的均值,记为第一均值;/>为第/>个特征组合/>中第/>个质量特征的区分强度;/>为第/>个特征组合/>中质量特征的个数。
若与前/>个抽取训练集的最优特征组合之间的相关性越大,则最终得到的随机森林模型的错误率会越高,因此越不能使用特征组合/>作为第/>个抽取训练集的最优质量特征集合,即质量特征优选率/>的值越小。将/>的值记为第二均值,特征组合/>中各个质量特征在第/>个抽取训练集上的区分强度越高,即第二均值越大,说明特征组合/>对第/>个抽取训练集的分类效果越好,因此越应该选择特征组合作为第/>个抽取训练集的最优特征组合,即质量特征优选率/>的值越大。
步骤S003,预警模块,根据质量特征优选率自适应获取各决策树的最优特征组合,结合随机森林算法完成电子烟的分类管理。
首先获取第一棵决策树的最优特征组合,具体为,将各个质量特征在第一个抽取训练集上的区分强度的值进行排序,将其中区分强度最大的/>个质量特征作为第一棵决策树的最优特征组合。则对于第二棵决策树,分别计算第二个抽取训练集中各个特征组合的质量特征优选率,将质量特征优选率的值最大的特征组合作为该决策树的最优特征组合。以此类推,得到所有的决策树的最优特征组合。并使用随机森林算法对各棵决策树进行后续的训练,具体为:
将训练集样本B中的电子烟中优品的电子烟标记为2,次品的电子烟标记为1,不合格的电子烟标记为0,并使用本实施例处理后的决策树结合随机森林算法对训练集样本B中的电子烟进行训练,得到的分类模型作为电子烟的质量评估模型,其中每颗树的深度H取经验值为20,节点分类的标准为基尼指数,其余的参数均取默认值,使用随机森林算法进行分类模型的训练为公知技术,具体过程不再赘述。将待测电子烟的各个质量特征数据输入电子烟分类模型中,若输出结果为2,表示该电子烟为优质产品,可以进行后续的包装等生产环节,并将该电子烟的数据归入到优品数据库中;若输出结果为1,表示该电子烟为次级产品,并由工作人员进行修复,重新进行检测;若输出结果为0,表示该电子烟为不合格产品,将该电子烟的数据归入到不合格品数据库中,并提醒工作人员进行电子烟数据进行后续的分析,判断电子烟的生产环节出现的问题,并及时修复。
综上所述,本发明实施例提出一种基于大数据的电子烟生产数据管理系统,通过计算电子烟的各种质量特征对决策树分类能力的影响程度自适应获取每棵决策树的最优特征组合,避免了决策树的训练特征随机选取导致质量评估模型分类不准确的问题,解决了电子烟质量等级分类不准确的问题;
针对随机森林算法进行模型构建时,基于电子烟的各个质量特征在决策树的抽取训练集中的不同分布特点,对各个质量特征对决策树分类效果的影响进分析,并结合决策树之间的相关性对电子烟分类效果的影响,来构建出各个特征组合的质量特征优选率,并基于质量特征优选率来得到每个决策树的最优训练特征集合,并使用随机森林算法完成后续的电子烟的质量评估模型训练,降低了不同决策树之间的相关性,提高了随机森林算法模型的准确性,提高了电子烟质量评估准确性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.基于大数据的电子烟生产数据管理系统,其特征在于,所述系统包括:
数据采集模块:获取各电子烟的质量特征数据序列,记为第一序列;
数据处理模块:获取各抽取训练集;根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度;根据电子烟的各质量特征获取各特征组合;根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图;根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数;根据相关性指数及区分强度得到各特征组合的质量特征优选率;
预警模块:根据各特征组合的质量特征优选率得到各决策树的最优特征组合;根据各决策树的最优特征组合进行训练得到电子烟质量评估模型;结合电子烟质量评估模型获取电子烟质量等级;
所述根据电子烟的每种质量特征数据变化得到各抽取训练集中每种质量特征的区分强度,具体包括:对于各质量特征,将各抽取训练集中质量特征数据的极差、标准差的乘积的倒数作为各抽取训练集中质量特征的集中程度;根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数;获取各抽取训练集中质量特征的信息增益;计算所述数据分布差异指数及所述信息增益的乘积,记为第一乘积;将所述第一乘积与所述集中程度的比值作为各抽取训练集中质量特征的区分强度;
所述根据相关性指数及区分强度得到各特征组合的质量特征优选率,具体包括:计算第个抽取训练集的各特征组合与前/>抽取训练集的最优特征组合之间的相关性指数的均值,记为第一均值;计算各特征组合中质量特征的区分强度的均值,记为第二均值;将第二均值与第一均值的比值作为各特征组合的质量特征优选率。
2.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述获取各电子烟的质量特征数据序列,具体为:
采集电子烟的烟嘴温度、烟雾量、尼古丁含量、雾化器的温度、加热元件的电阻和电池的电压及电流数据作为电子烟的各种质量特征数据;将每支电子烟的各种归一化质量特征数据组成的序列作为各电子烟的质量特征数据序列。
3.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述获取各抽取训练集,具体为:
选择部分电子烟作为训练集样本;从训练集样本中随机且有放回地抽取一定数量的电子烟作为一个抽取训练集;获取各抽取训练集。
4.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各种质量特征数据之间的差异得到各抽取训练集中质量特征的数据分布差异指数,具体包括:
对于第个质量特征,将各抽取训练集中电子烟第/>个质量特征的数据作为第一集合;将各抽取训练集中电子烟的其它各质量特征数据作为各第二集合;计算第一集合与各第二集合之间的交叉熵;将所述交叉熵的均值作为各抽取训练集中电子烟第/>个质量特征的数据分布差异指数。
5.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据电子烟的各质量特征获取各特征组合,具体为:将各质量特征进行排序组合得到各特征组合。
6.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各电子烟的第一序列出现的频率构建各抽取训练集的质量特征分布直方图,方法为:
将各抽取训练集中的每支电子烟的第一序列作为直方图的横坐标;将各抽取训练集中每种第一序列出现的频率作为直方图中对应纵坐标的值;根据所述直方图的横坐标及对应纵坐标的值构建直方图得到各抽取训练集的质量特征分布直方图。
7.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各特征组合及质量特征分布直方图得到各特征组合的相关性指数,表达式为:
式中,为第/>个特征组合的相关性指数,/>为第/>个特征组合与已确定的第/>个抽取训练集的最优特征组合之间的重合度;/>为第/>个抽取训练集与第/>个抽取训练集的质量特征分布直方图之间的/>距离;/>为判断函数;/>为第/>个特征组合中质量特征的个数;/>为第/>个特征组合中第/>个元素的编码数据与第/>个抽取训练集的最优特征组合中第/>个元素的编码数据之间的/>编辑距离。
8.如权利要求1所述的基于大数据的电子烟生产数据管理系统,其特征在于,所述根据各特征组合的质量特征优选率得到各决策树的最优特征组合,具体为:
将最大质量特征优选率对应的特征组合作为各决策树的最优特征组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311293785.1A CN117035560B (zh) | 2023-10-09 | 2023-10-09 | 基于大数据的电子烟生产数据管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311293785.1A CN117035560B (zh) | 2023-10-09 | 2023-10-09 | 基于大数据的电子烟生产数据管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117035560A CN117035560A (zh) | 2023-11-10 |
CN117035560B true CN117035560B (zh) | 2024-02-20 |
Family
ID=88635863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311293785.1A Active CN117035560B (zh) | 2023-10-09 | 2023-10-09 | 基于大数据的电子烟生产数据管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117035560B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745078A (zh) * | 2023-12-27 | 2024-03-22 | 福建省药品审核查验中心(福建省疫苗检查中心) | 结合改进ReliefF及随机森林的化妆品生产质量风险等级评估方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330555A (zh) * | 2017-06-30 | 2017-11-07 | 红云红河烟草(集团)有限责任公司 | 一种基于随机森林回归的制丝过程参数赋权方法 |
CN109343489A (zh) * | 2018-10-30 | 2019-02-15 | 杭州安脉盛智能技术有限公司 | 烟草制丝工艺参数自愈控制方法及系统 |
CN112881323A (zh) * | 2021-01-14 | 2021-06-01 | 云南中烟工业有限责任公司 | 卷烟主流烟气的品质评价方法 |
CN113657452A (zh) * | 2021-07-20 | 2021-11-16 | 中国烟草总公司郑州烟草研究院 | 基于主成分分析和超级学习的烟叶质量等级分类预测方法 |
CN114359697A (zh) * | 2022-01-12 | 2022-04-15 | 华中科技大学 | 一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法 |
CN114595365A (zh) * | 2022-03-25 | 2022-06-07 | 江苏中烟工业有限责任公司 | 一种构建卷烟特征关联性的方法、装置、电子设备及介质 |
CN115205244A (zh) * | 2022-07-12 | 2022-10-18 | 红云红河烟草(集团)有限责任公司 | 一种基于动态自学习的卷烟外观质量评估方法 |
CN115859784A (zh) * | 2022-11-21 | 2023-03-28 | 红塔烟草(集团)有限责任公司 | 建立生产过程参数和卷烟感官品质特征关联模型的方法 |
-
2023
- 2023-10-09 CN CN202311293785.1A patent/CN117035560B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330555A (zh) * | 2017-06-30 | 2017-11-07 | 红云红河烟草(集团)有限责任公司 | 一种基于随机森林回归的制丝过程参数赋权方法 |
CN109343489A (zh) * | 2018-10-30 | 2019-02-15 | 杭州安脉盛智能技术有限公司 | 烟草制丝工艺参数自愈控制方法及系统 |
CN112881323A (zh) * | 2021-01-14 | 2021-06-01 | 云南中烟工业有限责任公司 | 卷烟主流烟气的品质评价方法 |
CN113657452A (zh) * | 2021-07-20 | 2021-11-16 | 中国烟草总公司郑州烟草研究院 | 基于主成分分析和超级学习的烟叶质量等级分类预测方法 |
CN114359697A (zh) * | 2022-01-12 | 2022-04-15 | 华中科技大学 | 一种基于增量学习的雪茄烟烟叶晾制工艺阶段识别方法 |
CN114595365A (zh) * | 2022-03-25 | 2022-06-07 | 江苏中烟工业有限责任公司 | 一种构建卷烟特征关联性的方法、装置、电子设备及介质 |
CN115205244A (zh) * | 2022-07-12 | 2022-10-18 | 红云红河烟草(集团)有限责任公司 | 一种基于动态自学习的卷烟外观质量评估方法 |
CN115859784A (zh) * | 2022-11-21 | 2023-03-28 | 红塔烟草(集团)有限责任公司 | 建立生产过程参数和卷烟感官品质特征关联模型的方法 |
Non-Patent Citations (1)
Title |
---|
基于Copula函数的电网规划指标相关性分析及建模;丁家满等;现代电子技术;第41卷(第17期);第95-101页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117035560A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117035560B (zh) | 基于大数据的电子烟生产数据管理系统 | |
CN109919184A (zh) | 一种基于测井数据的多井复杂岩性智能识别方法及系统 | |
CN109597968B (zh) | 基于smt大数据的锡膏印刷性能影响因素分析方法 | |
CN109870421B (zh) | 一种基于可见光/近红外光谱分析的递增式木材树种分类识别方法 | |
CN107609111A (zh) | 一种枇杷果实品种鉴别、品质分级和成熟度判定的检索方法 | |
CN113435707B (zh) | 基于深度学习和计权型多因子评价的测土配方施肥方法 | |
CN108960315A (zh) | 一种调理肉制品品质智能评价系统及方法 | |
CN111860576A (zh) | 一种基于随机森林的子宫内膜肿瘤分类标记方法 | |
CN113902951B (zh) | 基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法 | |
CN113191926B (zh) | 基于深度集成学习网络的粮油农作物供应链危害物辨识方法及系统 | |
CN112749763B (zh) | 用于玻璃质量影响因素的时间序列分类分析方法及系统 | |
CN117725237B (zh) | 基于大数据的食谱生成方法、装置、设备及存储介质 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN108344701A (zh) | 基于高光谱技术的石蜡等级定性分类与定量回归方法 | |
CN116720145B (zh) | 基于数据处理的无线充电剩余时间预测方法 | |
CN116579842B (zh) | 基于用户行为数据的信用数据分析方法及系统 | |
CN106295667B (zh) | 一种基于遗传算法选择最优光谱谱段的方法及其应用 | |
CN117589854A (zh) | 一种快速、无损的花果茶拼配茶底等级鉴定方法 | |
CN113933334B (zh) | 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 | |
CN111105041A (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN111435514A (zh) | 特征计算方法和装置、排序方法和设备、存储介质 | |
CN113744075A (zh) | 一种基于人工智能的农产品营养品质等级划分系统 | |
CN111638246A (zh) | 一种基于自制电子鼻系统的酱油分类方法 | |
Rianasari et al. | The classification of mushroom types using Naïve Bayes and principal component analysis | |
CN116628601B (zh) | 一种采用多模态信息对非人灵长类神经元分类的分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |