CN108491873B - 一种基于数据分析的商品分类方法 - Google Patents

一种基于数据分析的商品分类方法 Download PDF

Info

Publication number
CN108491873B
CN108491873B CN201810223284.9A CN201810223284A CN108491873B CN 108491873 B CN108491873 B CN 108491873B CN 201810223284 A CN201810223284 A CN 201810223284A CN 108491873 B CN108491873 B CN 108491873B
Authority
CN
China
Prior art keywords
commodity
characteristic vector
coefficient
similarity
essential characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810223284.9A
Other languages
English (en)
Other versions
CN108491873A (zh
Inventor
曾丽莉
董妮妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Lanshen Technology Co., Ltd.
Original Assignee
Guangzhou Lanshen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Lanshen Technology Co Ltd filed Critical Guangzhou Lanshen Technology Co Ltd
Priority to CN201810223284.9A priority Critical patent/CN108491873B/zh
Publication of CN108491873A publication Critical patent/CN108491873A/zh
Application granted granted Critical
Publication of CN108491873B publication Critical patent/CN108491873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明公开了一种基于数据分析的商品分类方法,包括以下步骤:建立商品种类的特征数据库;划分特征数据库内基本特征和特殊特征;提取需分类商品的基本特征向量和特殊特征向量;对比待分类商品和特征数据库中基本特征向量集合中的第一基本特征向量;对比其余基本特征向量得到对比基本特征向量集合;相似度系数计算,以提取相似度系数大于预设相似度系数的特殊特征向量集合;对待分类商品中的特殊特征向量与相似度系数大于预设相似度系数的特殊特征向量进行对比,得到对比特殊特征向量集合,以筛选同类系数大小最高的商品种类。本发明有效地区分商品的特征,提高了商品分类的准确性,适用于大规模的分类,大大缩短人工分类的时间。

Description

一种基于数据分析的商品分类方法
技术领域
本发明属于商品分类计数领域,涉及到一种基于数据分析的商品分类方法。
背景技术
商品分类是指根据一定的管理目的,为满足商品生产、流通、消费活动的全部或部分需要,将管理范围内的商品集合总体,以所选择的适当的商品基本特征作为分类标志,逐次归纳为若干个范围更小、特质更趋一致的子集合体(类目),例如大类、中类、小类、细类,直至品种、细目等,从而使该范围内所有商品得以明确区分与体系化的过程。
商品种类繁多,据不完全统计,在市场上流通的商品有25万种以上,为了方便消费者购买,有利于商业部门组织商品流通,提高企业经营管理水平,须对众多的商品进行科学分类。商品分类是指为了一定目的,选择适当的分类标志,将商品集合总体科学地、系统地逐级划分为门类、大类、中类、小类、品类以至品种、花色、规格的过程称为商品分类。
随着互联网技术的发展和网络的普及,电子交易越来越得到百姓的喜爱,对于一些商品存储后台,由于商品的种类繁多,需人工进行分类,且由于同一种商品种类间存在细小区别点,人工在分类的过程中由于视觉疲劳,会导致分类失误的频率较高,分类效率低。
发明内容
本发明的目的在于提供一种基于数据分析的商品分类方法,解决了现有商品分类的过程中,存在分类失误频率高一级分类效率低的问题,不便于准确地区分商品的种类。
本发明的目的可以通过以下技术方案实现:
一种基于数据分析的商品分类方法,包括以下步骤:
S1、选取每个不同种类至少一个商品,对商品的特征进行提取,并将提取的特征构建特征数据库,不同种类商品按照预定的商品种类序号进行排序,特征数据库内商品的特征向量集合Ai(ai1,ai2,...,aik,...,ain),其中,Ai表示为第i个商品种类对应的特征向量集合;
S2、对特征数据库内商品的特征集合Ai按照基本特征和特殊特征进行分类,分别构成基本特征向量集合Bi(bi1,bi2,...,bik),特殊特征向量集合B′i(b′i1,b′i2,...,b′iy),其中,bik表示为第i类商品的第k个基本特征向量,b′iy表示为第i类商品的第y个特殊特征向量,且n=k+y;
S3、对需分类的商品提取若干特征向量,对提取的特征向量进行分组,分别划分为基本特征向量和特殊特征向量,基本特征向量集合为C(c1,c2,...ck),特殊特征向量集合为C′(c′1,c′2,...,c′v);
S4、将待分类商品的基本特征向量集合中的基本特征向量c1与特征数据库中存储的基本特征向量集合的基本特征向量bi1进行一一对比,从特征数据库中提取与待分类商品的基本特征向量c1相同的商品的基本特征向量集合和特殊特征向量集合;
S5、将待分类商品中的其余基本特征向量与提取的基本特征向量集合中的其余基本特征向量进行逐一比对,得到对比基本特征向量集合Dx(dx1,dx2,...,dxj,...,dxk),Dx表示为第x个商品种类对应的对比基本特征向量集合;
S6、将待分类的商品与提取的基本特征向量集合对应的商品种类进行相似度系数计算,提取相似度系数大于预设相似度系数的该商品的特殊特征向量集合,并按照相似度系数从高到低的顺序依次输出该相似度系数对应的特殊特征向量集合;
S7、对待分类商品中的特殊特征向量与相似度系数大于预设相似度系数的特殊特征向量进行逐一对比,得到对比特殊特征向量集合Fx(fx1,fx2,...,fxv),Fx为第x个商品种类对应的对比特殊特征向量集合;
S8、统计待分类商品的特征向量与相似度系数大于预设相似度系数的商品种类的特征向量的同类系数大小,提取同类系数大小最高的商品种类,并将该待分类商品归属于同类系数最高的商品对应的种类。
进一步地,所述基本特征向量包括商品的性能、适用范围、商品颜色、重量、体积;所述特殊特征向量包括商品长度、商品宽度、商品高度、商品组成结构数量、长方体、球形、锥形。
进一步地,所述基本特征向量与特殊特征向量集合所占的比重为6:4,所述商品的性能、使用范围、商品颜色、体重和体积对应的权重的和为1。
进一步地,当待分类的其余基本特征向量集合与提取的基本特征向量集合中特征相同时,取dxj=1,否则,dxj=0;
当待分类商品中的特殊特征向量与相似度系数大于预设相似度系数的特殊特征向量相同时,fxv=1,否则,fxv等于0。
进一步地,所述步骤S6中相似度系数的计算公式为Qx表示为第x商品种类对应的基本特征向量的相似度系数。
进一步地,所述步骤S8中同类系数的计算公式为
本发明的有益效果:
本发明提供的基于数据分析的商品分类方法,通过建立商品特征数据库,并对特征数据库的特征按基本特征和特殊特征进行有效地区分,通过将待分类商品的基本特征与特征数据库中的特征进行逐一对比筛选,有效地区分商品的特征,提高了商品分类的准确性,适用于大规模的分类,大大缩短人工分类的时间,降低分类的失误率。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明为一种基于数据分析的商品分类方法,包括以下步骤:
S1、选取每个不同种类至少一个商品,对商品的特征进行提取,并将提取的特征构建特征数据库,不同种类商品按照预定的商品种类序号进行排序,特征数据库内商品的特征向量集合Ai(ai1,ai2,...,aik,...,ain),其中,Ai表示为第i个商品种类对应的特征向量集合;
S2、对特征数据库内商品的特征集合Ai按照基本特征和特殊特征进行分类,分别构成基本特征向量集合Bi(bi1,bi2,...,bik),特殊特征向量集合B′i(b′i1,b′i2,...,b′iy),其中,bik表示为第i类商品的第k个基本特征向量,b′iy表示为第i类商品的第y个特殊特征向量,且n=k+y;
所述基本特征向量包括商品的性能、适用范围、商品颜色、重量、体积等,例如,所述商品的性能划分为加湿性能、加热性能、清扫性能等,适用范围划分为家用、工业用、办公室用等,商品颜色划分为红、黄、绿、蓝、紫等,重量划分为0.1kg以下、0.1-0.5kg、0.5-1kg、1-2kg、2-5kg、5-10kg以及10kg以上,体积划分为0.5L以下、0.5-1L、1-2L、2-5L以及5L以上的;所述特殊特征向量包括商品长度、商品宽度、商品高度、商品组成结构数量、长方体、球形、锥形等,所述商品组成结构数量为组成该商品中长方体、球体、锥形等单一形状的总数量,且基本特征向量与特殊特征向量集合所占的比重为6:4,其中,商品的性能、使用范围、商品颜色、体重和体积等具有不同的权重,分别为g1,g2,...,gj,...,gk,g1>g2>...>gj>...>gk,且g1+g2+...+gj+...+gk=1;
S3、对需分类的商品提取若干特征向量,对提取的特征向量进行分组,分别划分为基本特征向量和特殊特征向量,基本特征向量集合为C(c1,c2,...ck),特殊特征向量集合为C′(c′1,c′2,...,c′v);
S4、将待分类商品的基本特征向量集合中的第一基本特征向量(c1)与特征数据库中存储的基本特征向量集合的第一基本特征向量(bi1)进行一一对比,从特征数据库中提取与待分类商品的第一基本特征向量相同的商品的基本特征向量集合和特殊特征向量集合;
S5、将待分类商品中的其余基本特征向量与提取的基本特征向量集合中的其余基本特征向量进行逐一比对,得到对比基本特征向量集合Dx(dx1,dx2,...,dxj,...,dxk),其中,Dx表示为第x个商品种类对应的对比基本特征向量集合,x<i,且待分类的其余基本特征向量集合与提取的基本特征向量集合中特征相同时,取值为dxj=1,若特征向量不同,取dxj=0;
S6、将待分类的商品与提取的基本特征向量集合对应的商品种类进行相似度系数计算,提取相似度系数大于预设相似度系数的该商品的特殊特征向量集合,并按照相似度系数从高到低的顺序依次输出该相似度系数对应的特殊特征向量集合;所述相似度系数的计算公式为Qx表示为第x商品种类对应的基本特征向量的相似度系数;
S7、对待分类商品中的特殊特征向量与相似度系数大于预设相似度系数的特殊特征向量进行逐一对比,得到对比特殊特征向量集合Fx(fx1,fx2,...,fxv),其中,Fx为第x个商品种类对应的对比特殊特征向量集合,x<i,当待分类商品中的特殊特征向量与相似度系数大于预设相似度系数的特殊特征向量相同时,fxv等于1,否则,fxv等于0;
S8、统计待分类商品的特征向量与相似度系数大于预设相似度系数的商品种类的特征向量的同类系数大小,提取同类系数大小最高的商品种类,并将该待分类商品归属于同类系数最高的商品对应的种类,所述同类系数的计算公式为
本发明提供的基于数据分析的商品分类方法,通过建立商品特征数据库,并对特征数据库的特征按基本特征和特殊特征进行有效地区分,通过将待分类商品的基本特征与特征数据库中的特征进行逐一对比筛选,有效地区分商品的特征,提高了商品分类的准确性,适用于大规模的分类,大大缩短人工分类的时间。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (6)

1.一种基于数据分析的商品分类方法,其特征在于:包括以下步骤:
S1、选取每个不同种类至少一个商品,对商品的特征进行提取,并将提取的特征构建特征数据库,不同种类商品按照预定的商品种类序号进行排序,特征数据库内商品的特征向量集合Ai(ai1,ai2,...,aik,...,ain),其中,Ai表示为第i个商品种类对应的特征向量集合;
S2、对特征数据库内商品的特征集合Ai按照基本特征和特殊特征进行分类,分别构成基本特征向量集合Bi(bi1,bi2,...,bik),特殊特征向量集合B′i(b′i1,b′i2,...,b′iy),其中,bik表示为第i类商品的第k个基本特征向量,b′iy表示为第i类商品的第y个特殊特征向量,且n=k+y;
S3、对需分类的商品提取若干特征向量,对提取的特征向量进行分组,分别划分为基本特征向量和特殊特征向量,基本特征向量集合为C(c1,c2,...ck),特殊特征向量集合为C′(c′1,c′2,...,c′v);
S4、将待分类商品的基本特征向量集合中的基本特征向量c1与特征数据库中存储的基本特征向量集合的基本特征向量bi1进行一一对比,从特征数据库中提取与待分类商品的基本特征向量c1相同的商品的基本特征向量集合和特殊特征向量集合;
S5、将待分类商品中的其余基本特征向量与提取的基本特征向量集合中的其余基本特征向量进行逐一比对,得到对比基本特征向量集合Dx(dx1,dx2,...,dxj,...,dxk),Dx表示为第x个商品种类对应的对比基本特征向量集合;
S6、将待分类的商品与提取的基本特征向量集合对应的商品种类进行相似度系数计算,提取相似度系数大于预设相似度系数的该商品的特殊特征向量集合,并按照相似度系数从高到低的顺序依次输出该相似度系数对应的特殊特征向量集合;
S7、对待分类商品中的特殊特征向量与相似度系数大于预设相似度系数的特殊特征向量进行逐一对比,得到对比特殊特征向量集合Fx(fx1,fx2,...,fxv),Fx为第x个商品种类对应的对比特殊特征向量集合;
S8、统计待分类商品的特征向量与相似度系数大于预设相似度系数的商品种类的特征向量的同类系数大小,提取同类系数大小最高的商品种类,并将该待分类商品归属于同类系数最高的商品对应的种类。
2.根据权利要求1所述的一种基于数据分析的商品分类方法,其特征在于:所述基本特征向量包括商品的性能、适用范围、商品颜色、重量、体积;所述特殊特征向量包括商品长度、商品宽度、商品高度、商品组成结构数量、长方体、球形、锥形。
3.根据权利要求2所述的一种基于数据分析的商品分类方法,其特征在于:所述基本特征向量与特殊特征向量集合所占的比重为6:4,所述商品的性能、使用范围、商品颜色、体重和体积对应的权重的和为1。
4.根据权利要求1所述的一种基于数据分析的商品分类方法,其特征在于:当待分类的其余基本特征向量集合与提取的基本特征向量集合中特征相同时,取dxj=1,否则,dxj=0;
当待分类商品中的特殊特征向量与相似度系数大于预设相似度系数的特殊特征向量相同时,fxv=1,否则,fxv等于0。
5.根据权利要求1所述的一种基于数据分析的商品分类方法,其特征在于:所述步骤S6中相似度系数的计算公式为Qx表示为第x商品种类对应的基本特征向量的相似度系数。
6.根据权利要求1所述的一种基于数据分析的商品分类方法,其特征在于:所述步骤S8中同类系数的计算公式为
CN201810223284.9A 2018-03-19 2018-03-19 一种基于数据分析的商品分类方法 Active CN108491873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810223284.9A CN108491873B (zh) 2018-03-19 2018-03-19 一种基于数据分析的商品分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810223284.9A CN108491873B (zh) 2018-03-19 2018-03-19 一种基于数据分析的商品分类方法

Publications (2)

Publication Number Publication Date
CN108491873A CN108491873A (zh) 2018-09-04
CN108491873B true CN108491873B (zh) 2019-05-14

Family

ID=63339918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810223284.9A Active CN108491873B (zh) 2018-03-19 2018-03-19 一种基于数据分析的商品分类方法

Country Status (1)

Country Link
CN (1) CN108491873B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553197A (zh) * 2018-10-22 2020-08-18 六安微领时代工业智能科技有限公司 基于图像采集识别的电子商务物流平台物品分类管理系统
CN111768274A (zh) * 2020-06-24 2020-10-13 中国地质大学(武汉) 一种基于人工智能数据分类存储系统
CN112446437A (zh) * 2020-12-11 2021-03-05 上海品览数据科技有限公司 一种基于机器视觉的货架商品规格识别方法
CN113436021A (zh) * 2021-08-30 2021-09-24 深圳百胜扬工业电子商务平台发展有限公司 一种商业产品数据智能辨识收纳方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026195A (ja) * 2007-07-23 2009-02-05 Yokohama National Univ 商品分類装置、商品分類方法及びプログラム
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
CN103345645A (zh) * 2013-06-27 2013-10-09 复旦大学 面向网购平台的商品图像类别预测方法
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103810468A (zh) * 2012-11-05 2014-05-21 东芝泰格有限公司 商品识别装置及商品识别方法
CN104281679A (zh) * 2014-09-30 2015-01-14 东软集团股份有限公司 基于图像特征的商品分类方法及装置
CN106096042A (zh) * 2016-06-28 2016-11-09 乐视控股(北京)有限公司 数据信息分类方法及系统
CN107437087A (zh) * 2016-05-31 2017-12-05 东芝泰格有限公司 识别系统、信息处理装置及控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5675722B2 (ja) * 2012-07-23 2015-02-25 東芝テック株式会社 認識辞書処理装置及び認識辞書処理プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026195A (ja) * 2007-07-23 2009-02-05 Yokohama National Univ 商品分類装置、商品分類方法及びプログラム
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
CN103810468A (zh) * 2012-11-05 2014-05-21 东芝泰格有限公司 商品识别装置及商品识别方法
CN103345645A (zh) * 2013-06-27 2013-10-09 复旦大学 面向网购平台的商品图像类别预测方法
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN104281679A (zh) * 2014-09-30 2015-01-14 东软集团股份有限公司 基于图像特征的商品分类方法及装置
CN107437087A (zh) * 2016-05-31 2017-12-05 东芝泰格有限公司 识别系统、信息处理装置及控制方法
CN106096042A (zh) * 2016-06-28 2016-11-09 乐视控股(北京)有限公司 数据信息分类方法及系统

Also Published As

Publication number Publication date
CN108491873A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108491873B (zh) 一种基于数据分析的商品分类方法
Yurochkin et al. Bayesian nonparametric federated learning of neural networks
CN110070067A (zh) 视频分类方法及其模型的训练方法、装置和电子设备
WO2021073462A1 (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN105243139B (zh) 一种基于深度学习的三维模型检索方法及其检索装置
CN110288030A (zh) 基于轻量化网络模型的图像识别方法、装置及设备
CN102819582A (zh) 一种海量图片快速检索方法
CN106055893A (zh) 基于时尚模板库和自动匹配的服装搭配方案生成方法
CN107516103A (zh) 一种影像分类方法和系统
CN108734216A (zh) 基于负荷曲线形态的电力用户分类方法、装置及存储介质
Tan Improving association rule mining using clustering-based discretization of numerical data
Kekre et al. Multilevel block truncation coding with diverse color spaces for image classification
CN109325530A (zh) 基于少量无标签数据的深度卷积神经网络的压缩方法
Lee et al. Intelligent classification methods of grain kernels using computer vision analysis
CN107093005A (zh) 基于大数据挖掘算法实现办税服务厅自动分级的方法
CN105447117B (zh) 一种用户聚类的方法和装置
Shi et al. Characterization of network complexity by communicability sequence entropy and associated Jensen-Shannon divergence
CN109446966B (zh) 基于图像采集识别的电子商务物流平台物品分类管理系统
Zhang et al. Color image segmentation based on a modified k-means algorithm
CN104281588B (zh) 一种基于多粒度的布料图像检索方法
CN109685555A (zh) 商户筛选方法、装置、电子设备及存储介质
Liu et al. Toward automated quality classification via statistical modeling of grain images for rice processing monitoring
Li et al. Statistical properties of the mutual transfer network among global football clubs
CN107154041A (zh) 一种用于显示面板缺陷分类的学习方法
Cho et al. Evaluation of LC-KSVD on UCF101 action dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190416

Address after: 510000 Room 432, No. 50 Nanxiang Road, Huangpu District, Guangzhou City, Guangdong Province (office only)

Applicant after: Guangzhou Lanshen Technology Co., Ltd.

Address before: Room 1210, 87 Kefeng Road, Guangzhou High-tech Industrial Development Zone, Guangdong 510000

Applicant before: Guangzhou Jian Ling Electronic Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant