CN116562769A - 一种基于货物属性分类的货物数据分析方法及系统 - Google Patents
一种基于货物属性分类的货物数据分析方法及系统 Download PDFInfo
- Publication number
- CN116562769A CN116562769A CN202310710382.6A CN202310710382A CN116562769A CN 116562769 A CN116562769 A CN 116562769A CN 202310710382 A CN202310710382 A CN 202310710382A CN 116562769 A CN116562769 A CN 116562769A
- Authority
- CN
- China
- Prior art keywords
- cargo
- decision
- data
- layer
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000007405 data analysis Methods 0.000 title claims abstract description 29
- 238000003066 decision tree Methods 0.000 claims abstract description 64
- 238000004458 analytical method Methods 0.000 claims abstract description 39
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000013138 pruning Methods 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010224 classification analysis Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 8
- 239000000126 substance Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 240000007594 Oryza sativa Species 0.000 description 5
- 235000007164 Oryza sativa Nutrition 0.000 description 5
- 235000013305 food Nutrition 0.000 description 5
- 235000009566 rice Nutrition 0.000 description 5
- 240000008790 Musa x paradisiaca Species 0.000 description 4
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000013311 vegetables Nutrition 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 2
- 241000234295 Musa Species 0.000 description 2
- 235000021015 bananas Nutrition 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 239000003599 detergent Substances 0.000 description 2
- 239000010985 leather Substances 0.000 description 2
- 235000013372 meat Nutrition 0.000 description 2
- 239000003921 oil Substances 0.000 description 2
- 235000019198 oils Nutrition 0.000 description 2
- 239000002453 shampoo Substances 0.000 description 2
- 239000004753 textile Substances 0.000 description 2
- 229940034610 toothpaste Drugs 0.000 description 2
- 239000000606 toothpaste Substances 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 235000019483 Peanut oil Nutrition 0.000 description 1
- 241000220324 Pyrus Species 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- -1 facial cleanser Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000312 peanut oil Substances 0.000 description 1
- 235000021017 pears Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理的技术领域,特别是涉及一种基于货物属性分类的货物数据分析方法,其能够快速、准确地了解不同种类货物的库存以及出货情况;获取货物数据;对货物数据进行预处理;将预处理后的货物数据录入至预先训练的决策树网络模型中,对货物进行分类;其中,决策树网络模型由输入层、根决策层、一阶决策层、二阶决策层和输出层组成,根决策层、一阶决策层和二阶决策依次对货物进行分类,一阶决策层和二阶决策层在接收上一决策层的分类结果后均进行货物信息记录;汇总流经不同层级决策层内的货物数据,并进行分析,得到货物分类止于各层级决策层的分析报告;将分析报告进行可视化展示。
Description
技术领域
本发明涉及数据处理的技术领域,特别是涉及一种基于货物属性分类的货物数据分析方法及系统。
背景技术
在对仓库货物进行统计分析时,由于货物的种类繁多,不同种类的货物可能有不同的属性,例如不同货物的品牌、型号、规格、价格等各不相同,即使同一品牌的货物可能有不同的型号规格,例如,不同品牌或同一品牌不同规格的插座,均对应着不同的货物编码,要想在数据分析中,直观的掌握插座的库存与出货情况,就需要将所有不同货物编码的插座分为一个种类,再统计该种类货物总的库存和出货情况。
而现有的货物数据分析方法大多采用人工利用表格对货物进行分类,再进行汇总计算,分析过程较为繁琐,同时由于人工操作容易产生误差,导致分析结果精确度较低,因此亟需一种高效的数据分析方法。
发明内容
为解决上述技术问题,本发明提供一种能够快速、准确地了解不同种类货物的库存以及出货情况的基于货物属性分类的货物数据分析方法。
第一方面,本发明提供了一种基于货物属性分类的货物数据分析方法,所述方法包括:
获取货物数据;
对货物数据进行预处理;
将预处理后的货物数据录入至预先训练的决策树网络模型中,对货物进行分类;
其中,所述决策树网络模型由输入层、根决策层、一阶决策层、二阶决策层和输出层组成,所述根决策层、一阶决策层和二阶决策依次对货物进行分类,所述一阶决策层和二阶决策层在接收上一决策层的分类结果后均进行货物信息记录;
汇总流经不同层级决策层内的货物数据,并进行分析,得到货物分类止于各层级决策层的分析报告;
将分析报告进行可视化展示。
另一方面,本申请还提供了一种基于货物属性分类的货物数据分析系统,所述系统包括:
数据采集单元,用于在货物入库或者出货时,通过扫描枪读取货物上的条形码或者二维码获取一定时间内货物的库存和出货信息,并发送;
数据预处理模块,用于接收数据采集单元发送的货物数据,并对货物数据进行去重、数据清洗和数据归一化预处理,将预处理后的数据发送;
决策树网络模型模块,由输入层、根决策层、一阶决策层、二阶决策层和输出层组成;所述决策树网络模型模块用于接收数据预处理模块发送的预处理后的数据,并将预处理后的货物数据录入至预先训练的决策树网络模型中,对货物进行分类;
分类结果记录模块,用于在根决策层、一阶决策层和二阶决策层接收上一决策层的分类结果后进行货物数据记录,并将记录结果发送;
数据分析模块,用于接收分类结果记录模块发送的记录结果,并汇总流经不同层级决策层内的货物数据进行分析,得到货物分类止于各层级决策层的分析报告,并发送;
可视化展示模块,用于接收数据分析模块发送的分析包括,并将分析报告进行可视化展示。
第三方面,本申请提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述方法中的步骤。
进一步地,所述根决策层包括一个根决策节点,用于对输入的货物数据按货物所属行业进行分类;所述一阶决策层包括若干个一阶决策节点,用于按类别对货物分类,所述二阶决策层包括若干个二阶决策节点,用于按种类对货物进行分类;所述输出层包括若干个叶节点,每个叶节点均对应一个种类的货物。
进一步地,对所述货物数据进行预处理,包括以下方法;
移除缺失、重复、异常和冗余的货物数据;
将货物数据转换为能够分类分析的格式;
选择货物数据中对分类有重要影响的特征
将货物数据规范化为统一的尺度。
进一步地,构建所述决策树网络模型的方法包括:
选择决策树网络模型适合进行货物分类的算法:ID3算法;
根据ID3算法构建决策树网络模型;在构建决策树网络模型中,根据货物所属行业不同设计一阶决策节点;根据货物所属类别不同设计二阶决策节点;根据货物所属种类不同设计具体的叶节点;
使用交叉验证方法对决策树网络模型进行评估,包括决策树网络模型准确率、召回率、精度的计算;
对决策树网络模型进行剪枝、优化。
进一步地,对所述决策树网络模型的剪枝方法包括预剪枝、后剪枝、回归剪枝和悲观剪枝。
进一步地,流经不同层级决策层内的货物数据的分析报告包括:行业、类别、种类的占比报告;不同类别、种类货物的出货量趋势报告;高运转货物、中运转货物、低运转货物分析报告。
进一步地,所述分析报告的可视化方式包括:使用散点图表示各个货物在出货量和库存量上的关系;使用热力图表示不同货物在不同月份的出货量情况;使用矩形图或相关性矩阵表示不同分类之间的相关性;使用树型图表示不同层级之间的分类情况;使用饼图或柱状图表示行业、类别、种类的货物数量占比图;使用折线图或柱状图表示不同类别、种类货物的出货量趋势图。
与现有技术相比本发明的有益效果为:在整合行业和货物数据时,基于不同的特征属性构建决策树网络模型能够准确地理解和分析货物数据;通过决策树网络模型对货物进行分类,能够快速、准确地了解不同种类货物的库存以及出货情况特点,进而为仓库的运行管理提供准确指导。
附图说明
图1是本发明的逻辑流程图;
图2是决策树网络模型示意图;
图3是构建决策树网络模型的流程图;
图4是训练和评估决策树网络模型的流程图。
具体实施方式
在本申请的描述中,所属技术领域的技术人员应当知道,本申请可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本申请可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本申请还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器、闪存、光纤、光盘只读存储器、光存储器件、磁存储器件或以上任意组合。在本申请中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律的相关规定。
本申请通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
下面结合本申请中的附图对本申请进行描述。
实施例一
如图1至图4所示,本发明的一种基于货物属性分类的货物数据分析方法,方法包括以下步骤:
S1、获取货物数据;
在对货物进行数据整合分析之前,收集需要分类的货物数据,包括货物名称、行业分类、各种属性的取值等,可以从以下几个方面来获取货物信息:货物类属,记录货物的分类信息,如蔬菜、水果、肉类、饮料、日用品等;货物属性:记录货物属性信息,如重量、品牌、产地等;货物出货情况:记录货物的出货情况,如出货量、出货时间等;货物库存状况:记录货物库存状况,如库存数量、进货时间等;
以上信息可以在货物入库或者出货时,通过扫描枪读取货物上的条形码或者二维码等信息,并将上述信息进行保存,其中入库扫描枪用于将新到达的物品扫描并添加到库存中,这些物品通常还没有被出货;而出库扫描枪则用于扫描要出货的货物条形码或二维码,将其从库存中减少,生成并记录出货的相关信息;其中货物库存量即为入库量减去出货量。通过上述方法统计一定时间内的货物库存和出货数据。
另一方面,也可以直接由货物管理系统、仓库管理系统等来获取货物数据。
S2、对货物数据进行预处理,生成数据包;
对收集到的货物数据进行清洗和处理,包括去除重复、无效或错误的货物数据,统一货物数据格式和命名规范,确保数据的准确性和一致性;具体的,货物数据预处理包括以下内容:
S21、数据清洗:移除缺失、重复、异常和冗余的货物数据,确保货物数据的质量;
S22、数据转换:将货物数据转换为适合分类分析的格式,将非数字数据转换为数字数据;例如,将货物的行业分类进行数字化,即香蕉属于食品行业,定义食品行业属性为“032”,则在香蕉货物信息上标记“032”;
S23、特征选择:选择货物数据中对分类有重要影响的特征,过滤噪声数据,提高分类准确性;还是以香蕉货物为例,香蕉的产地、品牌、重量等属性对于分类来说无任何意义,因此为了减小货物数据的体量,需要将货物信息中对分类无用的信息去除、过滤掉;尽可能的保留对分类有重要影响的特征信息;
S24、数据归一化:将货物数据规范化为统一的尺度;数据标准化的目的是将不同格式的数据转化成相同的格式,以便更好的比较和分析;例如,将货物信息中的日期格式可以转换为YYYY-MM-DD格式;将货物信息中的文本类型转换为数值类型等。
在本步骤中,通过对货物数据进行预处理可以使得数据更加规范化、标准化、减少噪声和异常值,提高数据的质量和可靠性,使得决策树网络模型更加准确和可靠,提高分类的精度和效率,为后续的数据分析和决策提供更好的支持。
S3、将预处理后的货物数据录入至预先训练的决策树网络模型中,对货物进行分类;
通过采用决策树网络模型对货物进行分类,即使数据包中有一些货物数据缺失或不完整,也可以进行分类分析;同时可以处理大规模数据包,不需要对货物数据进行过多的处理和预处理,也可以直接对原始数据进行分类分析;并且决策树网络模型能够选择最重要的特征进行分类分析,提高分类的准确性和效率,同时也可以更好地发现数据之间的关系和规律,为后续的数据分析和决策提供更好的支持。
在货物分类之前,需要对决策树网络模型进行训练和选择,具体包括以下步骤:
S31、选择决策树网络模型适合进行货物分类的算法:
具体的,决策树网络模型的算法主要包括ID3、C4.5、CART等;不同算法的实现方式和应用场景略有不同,需要根据具体情况进行选择;其中,ID3算法是最早的决策树算法,主要适用于分类属性为离散型的情况,ID3算法基于信息熵和信息增益的概念,算法的主要思想是在每个节点上选择最能区分不同类别的属性作为分裂属性,用于划分数据集,直到所有数据都归属于同一类别或者种类为止;C4.5算法在ID3算法的基础上增加了对连续属性的处理,同时采用了信息增益比来选择属性;CART算法既可以处理分类问题,也可以处理回归问题,它采用基尼系数来选择属性;因此,需要根据具体的货物数据特征和分类需求,综合考虑算法的优缺点并进行选择。
S32、根据需要进行分类的货物数据和选择的算法构建决策树网络模型;
其中,决策树网络模型由输入层、根决策层、一阶决策层、二阶决策层和输出层组成,根决策层包括一个根决策节点,用于对输入的货物数据按货物所属行业进行分类;一阶决策层包括若干个一阶决策节点,用于对货物按类别进行分类,二阶决策层包括若干个二阶决策节点,用于对货物按种类进行分类;输出层包括若干个叶节点,每个叶节点均对应一种货物;
具体的,根据行业分类作为根决策节点,将所有货物划分为不同的行业;对于每个行业的分类,根据行业不同以及分类需求设计一阶决策节点,例如,食品、服装、电子产品和日化产品;
对于每个一阶决策节点的分类,根据类别不同设计二阶决策节点,比如食品行业中,可以根据类别划分为:粮油、水果、蔬菜、肉蛋等;
对于每个二阶决策节点的分类,根据种类不同设计具体的叶节点,比如水果类别中,可以根据种类划分为:香蕉、橘子、苹果、梨等;
一般而言,"类别"更多地用来指代广泛的分类或分组,通常包含多个子类或类型。例如,“动物”是一个类别,它包括了很多种不同的动物,如狗、猫、鱼、鸟等等;而"种类"则更多地用来指代更具体、更明确的分类或分组,通常涵盖的范围比类别窄得多,包含的对象数量比较少;例如,“猫”是一种种类,它是属于动物这个大类别下的一种类型。
进一步地,如图2所示,以服装行业为例,其中“服装”作为一阶决策节点,对应“服装”的一阶决策节点继续向下分类,划分为鞋、裤子、上衣等,作为二阶决策节点;对应“鞋”的二阶决策节点继续向下分类,则划分为皮鞋、运动鞋、拖鞋等;对应“裤子”的二阶决策节点继续向下分类,则划分为西裤、运动裤、牛仔裤等;对应“上衣”的二阶决策节点继续向下分类,则划分为短袖、大衣、羽绒服等。
以电子产品行业为例,其中“电子产品”作为一阶决策节点,对应“电子产品”的一阶决策节点继续向下分类,划分为办公、家装、电子个护等,作为二阶决策节点;对应“办公”的二阶决策节点继续向下分类,则划分为打印机、投影仪、扫描仪等;对应“家装”的二阶决策节点继续向下分类,则划分为电视、冰箱、空调、灯具等;对应“电子个护”的二阶决策节点继续向下分类,则划分为吹风机、剃须刀、电动牙刷等。
以日化产品行业为例,其中“日化产品”作为一阶决策节点,对应“日化产品”的一阶决策节点继续向下分类,划分为家纺、清洁、日化个护等,作为二阶决策节点;对应“家纺”的二阶决策节点继续向下分类,则划分为毛巾、被罩、床垫等;对应“清洁”的二阶决策节点继续向下分类,则划分为洗洁精、洗衣液、洁厕剂等;对应“日化个护”的二阶决策节点继续向下分类,则划分为牙膏、洗面奶、洗发水等。
S33、对决策树网络模型进行评估:对构建的模型进行评估,包括准确率、精度等指标的计算;通常可以将部分历史货物数据用于训练模型,另外一部分历史货物数据用于测试模型的预测能力。
具体的,当构建好决策树模型后,可以使用交叉验证等方法进行模型评估和剪枝,包括以下步骤:
S331、将历史货物数据集分成训练集和测试集;训练集用于训练模型,测试集用于评估模型的性能;
S332、使用训练集训练决策树模型;
S333、使用测试集对模型进行测试,并记录模型输出的预测结果和测试集的真实结果;
S334、计算模型的精度、召回率、F1分数等指标,评估模型的性能。
S34、对决策树网络模型进行剪枝;
在决策树网络模型中,过于复杂的决策树网络模型会导致过拟合,从而降低模型的性能和泛化能力;因此需要进行剪枝,以减小决策树网络模型的复杂度;以下是一些剪枝方法:
预剪枝,预剪枝是指在构建决策树网络模型的过程中,根据一定的规则,当满足一定条件时,提前停止或者不进行分裂;常用的规则包括:树的深度达到一定值,样本数量低于一定阈值,分类误差不再有明显下降等,例如,在对货物进行分类过程中,当分类至大米时即停止继续向下分长粒大米、五常大米、泰国大米等;
后剪枝,后剪枝是指在构建完整的决策树网络模型之后,根据一定的规则,将一些节点或子树从树上移除,得到更为简化的决策树网络模型;常用的规则包括:用验证集或交叉验证方法评估在剪枝后的分类效果,如果剪枝后的分类效果比不剪枝的好,则移除该节点或子树,反之则将该节点或子树保留;
回归剪枝,回归剪枝是指在构建完整的决策树网络模型之后,从下往上递归地将节点替换为叶子节点,并评估其对分类误差的影响;如果替换后分类误差不会显著增加,则将该节点替换为叶子节点,直到所有节点都被替换为叶子节点为止;
悲观剪枝,悲观剪枝是指根据节点的样本量和错误率估计其真实错误率的上界,并将它与其它子树的错误率进行比较,以判断是否需要剪枝;
以上是一些常用的决策树网络模型剪枝方法,在对货物分类过程中可以根据具体情况选择合适的方法进行决策树网络模型剪枝,通过比较不同剪枝参数的模型性能,选择最优的模型,并且使用测试集进行再次验证;最终确定决策树网络模型的选择。
通过上述步骤对决策树网络模型进行选择和训练后,将S2中生产的数据包录入至决策树网络模型,完成对货物的分类。
S4、汇总流经不同层级决策层内的货物数据,并进行分析,得到货物分类止于各层级决策层的分析报告;
具体的,汇总流经一阶决策层内的货物数据,并进行分析,得到货物分类止于一阶决策层的分析报告;即得到关于食品、服装、电子产品和日化产品等各个行业的库存及出货情况;
汇总流经二阶决策层内的货物数据,并进行分析,得到货物分类止于二阶决策层的分析报告;即得到关于粮油、水果、蔬菜、鞋、裤子、上衣、电子个护、日化个护等各个类别的库存及出货情况;
汇总输出层内的货物数据,并进行分析,得到货物最终的分析报告;即得到关于花生油、大米、橘子、苹果、香蕉、皮鞋、拖鞋、投影仪、剃须刀、被罩、毛巾、牙膏、洗发水等各个种类的库存及出货情况。
S5、将分析报告进行可视化展示;
为了更加直观的对各个不同分类层级的货物进行展示,对于货物的分析报告可视化展示,包括以下几个方面:
行业、类别、种类的占比图:通过计算不同分类的货物数量,展示它们在总货物中的占比,用饼图或柱状图等方式呈现;
不同类别、种类货物的出货量趋势图:统计不同类别、种类的货物出货量,展示它们在时间维度上的趋势变化,用折线图或柱状图等方式呈现;
高运转货物、中运转货物、低运转货物分析:通过统计不同货物的出货量和库存量等指标,分析货物的运转情况,可以使用散点图表示各个货物在出货量和库存量上的关系,或者使用热力图表示不同货物在不同月份的出货量情况;
分类间的相关性分析:通过计算货物分类间的相关系数,展示不同分类之间的相关性,使用矩形图或相关性矩阵呈现;
可视化决策树网络模型:将设计的决策树网络模型可视化,展示不同层级之间的分类情况,用树型图呈现;
上述分析报告可选的可视化方式较多,可以根据实际需要和数据规模进行选择,同时,还可以将这些报告整合在一起,用仪表板等形式进行展示,以便更直观地展现货物的分类情况和趋势。
需要说明的是,上述参数仅仅是较为典型的部分参数,其他能够被获取及利用的参数也均在本发明的保护范围内。
实施例二
一种基于货物属性分类的货物数据分析系统,系统包括:
数据采集单元,用于在货物入库或者出货时,通过扫描枪读取货物上的条形码或者二维码获取一定时间内货物的库存和出货信息,并发送;
数据预处理模块,用于接收数据采集单元发送的货物数据,并对货物数据进行去重、数据清洗和数据归一化预处理,将预处理后的数据发送;
决策树网络模型模块,由输入层、根决策层、一阶决策层、二阶决策层和输出层组成;决策树网络模型模块用于接收数据预处理模块发送的预处理后的数据,并将预处理后的货物数据录入至预先训练的决策树网络模型中,对货物进行分类;
分类结果记录模块,用于在根决策层、一阶决策层和二阶决策层接收上一决策层的分类结果后进行货物数据记录,并将记录结果发送;
数据分析模块,用于接收分类结果记录模块发送的记录结果,并汇总流经不同层级决策层内的货物数据进行分析,得到货物分类止于各层级决策层的分析报告,并发送;
可视化展示模块,用于接收数据分析模块发送的分析报告,并将分析报告进行可视化展示。
前述实施例一中的基于货物属性分类的货物数据分析方法的各种变化方式和具体实施例同样适用于本实施例的基于货物属性分类的货物数据分析系统,通过前述对基于货物属性分类的货物数据分析方法的详细描述,本领域技术人员可以清楚的知道本实施例中基于货物属性分类的货物数据分析系统的实施方法,所以为了说明书的简洁,在此不再详述。
此外,本申请还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述控制输出数据的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (10)
1.一种基于货物属性分类的货物数据分析方法,其特征在于,所述方法包括:
获取货物数据;
对货物数据进行预处理;
将预处理后的货物数据录入至预先训练的决策树网络模型中,对货物进行分类;
其中,所述决策树网络模型由输入层、根决策层、一阶决策层、二阶决策层和输出层组成,所述根决策层、一阶决策层和二阶决策依次对货物进行分类,所述一阶决策层和二阶决策层在接收上一决策层的分类结果后均进行货物信息记录;
汇总流经不同层级决策层内的货物数据,并进行分析,得到货物分类止于各层级决策层的分析报告;
将分析报告进行可视化展示。
2.如权利要求1所述的一种基于货物属性分类的货物数据分析方法,其特征在于,所述根决策层包括一个根决策节点,用于对输入的货物数据按货物所属行业进行分类;所述一阶决策层包括若干个一阶决策节点,用于按类别对货物分类,所述二阶决策层包括若干个二阶决策节点,用于按种类对货物进行分类;所述输出层包括若干个叶节点,每个叶节点均对应一个种类的货物。
3.如权利要求2所述的一种基于货物属性分类的货物数据分析方法,其特征在于,对所述货物数据进行预处理,包括以下方法;
移除缺失、重复、异常和冗余的货物数据;
将货物数据转换为能够分类分析的格式;
选择货物数据中对分类有重要影响的特征
将货物数据规范化为统一的尺度。
4.如权利要求3所述的一种基于货物属性分类的货物数据分析方法,其特征在于,构建所述决策树网络模型的方法包括:
选择决策树网络模型适合进行货物分类的算法:ID3算法;
根据ID3算法构建决策树网络模型;在构建决策树网络模型中,根据货物所属行业不同设计一阶决策节点;根据货物所属类别不同设计二阶决策节点;根据货物所属种类不同设计具体的叶节点;
使用交叉验证方法对决策树网络模型进行评估,包括决策树网络模型准确率、召回率、精度的计算;
对决策树网络模型进行剪枝、优化。
5.如权利要求4所述的一种基于货物属性分类的货物数据分析方法,其特征在于,对所述决策树网络模型的剪枝方法包括预剪枝、后剪枝、回归剪枝和悲观剪枝。
6.如权利要求1所述的一种基于货物属性分类的货物数据分析方法,其特征在于,流经不同层级决策层内的货物数据的分析报告包括:行业、类别、种类的占比报告;不同类别、种类货物的出货量趋势报告;高运转货物、中运转货物、低运转货物分析报告。
7.如权利要求6所述的一种基于货物属性分类的货物数据分析方法,其特征在于,所述分析报告的可视化方式包括:
使用散点图表示各个货物在出货量和库存量上的关系;
使用热力图表示不同货物在不同月份的出货量情况;
使用矩形图或相关性矩阵表示不同分类之间的相关性;
使用树型图表示不同层级之间的分类情况;
使用饼图或柱状图表示行业、类别、种类的货物数量占比图;
使用折线图或柱状图表示不同类别、种类货物的出货量趋势图。
8.一种基于货物属性分类的货物数据分析系统,其特征在于,所述系统包括:
数据采集单元,用于在货物入库或者出货时,通过扫描枪读取货物上的条形码获取一定时间内货物的库存和出货信息,并发送;
数据预处理模块,用于接收数据采集单元发送的货物数据,并对货物数据进行去重、数据清洗和数据归一化预处理,将预处理后的数据发送;
决策树网络模型模块,由输入层、根决策层、一阶决策层、二阶决策层和输出层组成;所述决策树网络模型模块用于接收数据预处理模块发送的预处理后的数据,并将预处理后的货物数据录入至预先训练的决策树网络模型中,对货物进行分类;
分类结果记录模块,用于在根决策层、一阶决策层和二阶决策层接收上一决策层的分类结果后进行货物数据记录,并将记录结果发送;
数据分析模块,用于接收分类结果记录模块发送的记录结果,并汇总流经不同层级决策层内的货物数据进行分析,得到货物分类止于各层级决策层的分析报告,并发送;
可视化展示模块,用于接收数据分析模块发送的分析包括,并将分析报告进行可视化展示。
9.一种基于货物属性分类的货物数据分析电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710382.6A CN116562769A (zh) | 2023-06-15 | 2023-06-15 | 一种基于货物属性分类的货物数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710382.6A CN116562769A (zh) | 2023-06-15 | 2023-06-15 | 一种基于货物属性分类的货物数据分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116562769A true CN116562769A (zh) | 2023-08-08 |
Family
ID=87500245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310710382.6A Pending CN116562769A (zh) | 2023-06-15 | 2023-06-15 | 一种基于货物属性分类的货物数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562769A (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140214845A1 (en) * | 2013-01-31 | 2014-07-31 | Wal-Mart Stores, Inc. | Product classification into product type families |
KR20160148251A (ko) * | 2015-06-16 | 2016-12-26 | 코오롱인더스트리 주식회사 | 분류 박스 기반의 상품을 분배하기 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체 |
CN106529968A (zh) * | 2016-09-29 | 2017-03-22 | 深圳大学 | 一种基于交易数据的客户分类方法及其系统 |
CN109885597A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于机器学习的用户分群处理方法、装置及电子终端 |
CN110008259A (zh) * | 2019-02-20 | 2019-07-12 | 中科恒运股份有限公司 | 可视化数据分析的方法及终端设备 |
CN110019807A (zh) * | 2017-12-27 | 2019-07-16 | 航天信息股份有限公司 | 一种商品分类方法及装置 |
CN110738246A (zh) * | 2019-09-29 | 2020-01-31 | 深圳和而泰家居在线网络科技有限公司 | 产品分类方法、装置、计算设备及计算机存储介质 |
WO2020042579A1 (zh) * | 2018-08-27 | 2020-03-05 | 平安科技(深圳)有限公司 | 分组归纳方法、装置、电子装置及存储介质 |
CN111222556A (zh) * | 2019-12-31 | 2020-06-02 | 中国南方电网有限责任公司 | 一种基于决策树算法识别用电类别的方法及系统 |
CN112418356A (zh) * | 2020-12-17 | 2021-02-26 | 江苏满运物流信息有限公司 | 货名分类方法、装置、电子设备、存储介质 |
CN112487033A (zh) * | 2020-11-30 | 2021-03-12 | 国网山东省电力公司电力科学研究院 | 一种面向数据流及构建网络拓扑的业务可视化方法及系统 |
CN114140044A (zh) * | 2021-11-03 | 2022-03-04 | 民航成都物流技术有限公司 | 一种货物多维度数据分析方法 |
CN114444577A (zh) * | 2021-12-31 | 2022-05-06 | 广州盖盟达工业品有限公司 | 一种产品自动分类方法、装置、计算机设备及存储介质 |
CN114663022A (zh) * | 2022-03-28 | 2022-06-24 | 浙江工业大学 | 一种基于决策树的仓储模型决策优化方法 |
CN114969040A (zh) * | 2022-05-26 | 2022-08-30 | 上海快仓智能科技有限公司 | 一种数据展示方法、装置、电子设备及存储介质 |
WO2023272852A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 通过决策树模型对用户进行分类的方法、装置、设备和存储介质 |
CN115907608A (zh) * | 2022-11-15 | 2023-04-04 | 深圳市库宝软件有限公司 | 仓储物流项目的分析方法、系统、存储介质及计算机设备 |
CN116050569A (zh) * | 2022-11-16 | 2023-05-02 | 吉林省高信技术服务有限公司 | 高保真电商平台交易数据可视化预测决策方法及处理系统 |
-
2023
- 2023-06-15 CN CN202310710382.6A patent/CN116562769A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140214845A1 (en) * | 2013-01-31 | 2014-07-31 | Wal-Mart Stores, Inc. | Product classification into product type families |
KR20160148251A (ko) * | 2015-06-16 | 2016-12-26 | 코오롱인더스트리 주식회사 | 분류 박스 기반의 상품을 분배하기 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체 |
CN106529968A (zh) * | 2016-09-29 | 2017-03-22 | 深圳大学 | 一种基于交易数据的客户分类方法及其系统 |
CN110019807A (zh) * | 2017-12-27 | 2019-07-16 | 航天信息股份有限公司 | 一种商品分类方法及装置 |
WO2020042579A1 (zh) * | 2018-08-27 | 2020-03-05 | 平安科技(深圳)有限公司 | 分组归纳方法、装置、电子装置及存储介质 |
CN109885597A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于机器学习的用户分群处理方法、装置及电子终端 |
CN110008259A (zh) * | 2019-02-20 | 2019-07-12 | 中科恒运股份有限公司 | 可视化数据分析的方法及终端设备 |
CN110738246A (zh) * | 2019-09-29 | 2020-01-31 | 深圳和而泰家居在线网络科技有限公司 | 产品分类方法、装置、计算设备及计算机存储介质 |
CN111222556A (zh) * | 2019-12-31 | 2020-06-02 | 中国南方电网有限责任公司 | 一种基于决策树算法识别用电类别的方法及系统 |
CN112487033A (zh) * | 2020-11-30 | 2021-03-12 | 国网山东省电力公司电力科学研究院 | 一种面向数据流及构建网络拓扑的业务可视化方法及系统 |
CN112418356A (zh) * | 2020-12-17 | 2021-02-26 | 江苏满运物流信息有限公司 | 货名分类方法、装置、电子设备、存储介质 |
WO2023272852A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 通过决策树模型对用户进行分类的方法、装置、设备和存储介质 |
CN114140044A (zh) * | 2021-11-03 | 2022-03-04 | 民航成都物流技术有限公司 | 一种货物多维度数据分析方法 |
CN114444577A (zh) * | 2021-12-31 | 2022-05-06 | 广州盖盟达工业品有限公司 | 一种产品自动分类方法、装置、计算机设备及存储介质 |
CN114663022A (zh) * | 2022-03-28 | 2022-06-24 | 浙江工业大学 | 一种基于决策树的仓储模型决策优化方法 |
CN114969040A (zh) * | 2022-05-26 | 2022-08-30 | 上海快仓智能科技有限公司 | 一种数据展示方法、装置、电子设备及存储介质 |
CN115907608A (zh) * | 2022-11-15 | 2023-04-04 | 深圳市库宝软件有限公司 | 仓储物流项目的分析方法、系统、存储介质及计算机设备 |
CN116050569A (zh) * | 2022-11-16 | 2023-05-02 | 吉林省高信技术服务有限公司 | 高保真电商平台交易数据可视化预测决策方法及处理系统 |
Non-Patent Citations (1)
Title |
---|
赖春廷;: "决策树分类算法研究", 信息与电脑(理论版), no. 14 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Roberts et al. | Package ‘labdsv’ | |
CN107992583B (zh) | 信息推送方法及信息推送装置、设备和存储介质 | |
CN111666269A (zh) | 食品安全大数据自动编码与全链条溯源体系 | |
US8788261B2 (en) | Method and system for analyzing text | |
Ehrlinger et al. | Automated Data Quality Monitoring. | |
CN112200601A (zh) | 物品推荐方法、装置及可读存储介质 | |
CN113435726A (zh) | 一种商品管理方法和系统 | |
CN115907608A (zh) | 仓储物流项目的分析方法、系统、存储介质及计算机设备 | |
CN117035607A (zh) | 一种基于物联网的仓储容量预测管理系统及方法 | |
JP4386973B2 (ja) | 階層的予測モデル構築装置及びその方法 | |
US20220383344A1 (en) | Generating numerical data estimates from determined correlations between text and numerical data | |
CN116562769A (zh) | 一种基于货物属性分类的货物数据分析方法及系统 | |
CN112732709A (zh) | 数据表管理方法、系统、电子设备和存储介质 | |
CN116205688A (zh) | 生鲜产品信息处理方法、装置、计算机设备及存储介质 | |
CN113094424B (zh) | 通过构建多级指标体系进行图表模式识别的方法和系统 | |
Blischke et al. | Preliminary data analysis | |
KR20200122652A (ko) | 영양 성분 프로파일링 기반 사료추천 시스템 | |
CN116485279B (zh) | 基于水务管理平台的设备信息处理方法及装置 | |
CN112561580B (zh) | 一种用电行为审计方法、装置、设备和介质 | |
KR102590406B1 (ko) | 가축 생육 기반의 바이오인증 장치 | |
Astuti et al. | Implementation of Fuzzy C-Means Algorithm with Optimized Parameter Grid for Clustering Electronic Product Sales | |
CN111340115B (zh) | 基于特征动态构造的推荐模型训练方法及系统 | |
Azman et al. | An Embedded Machine Learning-Based Spoiled Leftover Food Detection Device for Multiclass Classification | |
Surro | The Cost of Heterogeneity: Can Density Peaks Clustering Improve CES Aggregation? | |
CN116795901A (zh) | 确定结构化数据异常值的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |