CN115293253A - 一种基于改进向量空间模型的电子产品cto订单聚类方法 - Google Patents
一种基于改进向量空间模型的电子产品cto订单聚类方法 Download PDFInfo
- Publication number
- CN115293253A CN115293253A CN202210914269.5A CN202210914269A CN115293253A CN 115293253 A CN115293253 A CN 115293253A CN 202210914269 A CN202210914269 A CN 202210914269A CN 115293253 A CN115293253 A CN 115293253A
- Authority
- CN
- China
- Prior art keywords
- order
- clustering
- cto
- word
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进向量空间模型的电子产品CTO订单聚类方法。包括订单收集模块、订单信息预处理模块、订单信息文本向量化模块、订单聚类模块。通过将CTO订单的文本信息用VSM模型转化为高维矩阵的数学化信息,并对产品相关特征进行加权处理,可以提高订单中相关信息的关联程度,使订单能够更加侧重于将含有相同品牌,或者相同类型的订单合并为同一订单组。使用改进K‑means++算法对VSM模型生成的高维矩阵的向量进行聚类,加快原K‑means算法的收敛速度,有效提高了聚类结果的准确性,使得企业更加灵活、高效地针对客户的CTO订单安排相应的生产工作。
Description
技术领域
本发明涉及订单分类、人工智能算法领域,尤其涉及一种基于改进向量空间模型的电子产品CTO订单聚类方法。
背景技术
随着社会经济发展,逐渐转向以客户需求为导向的买方市场,客户的需求不断提高,呈现个性化、定制化的特征。传统的生产模式已不能满足客户日益增长且细化的需求。按客户订单配置(Configer To Order,CTO)生产模式是近年来新兴的一种生产模式,其以客户需求为导向,允许用户自由组合物料配置并生成订单。对于其他生产模式,按存货生产(Make To Stock,MTS)模式存在着商品库存堆积或不足的风险,当客户订单量较大时,商品库存量小于客户需求量时,需零时生产商品或配件,增加客户等待时间;按订单装配生产(Assembly To Order,ATO)模式更多是像CTO的子模式,是严格按照客户订单装配。CTO模式能为用户在产品零部件的组合与选择方面提供更多的可选方案,快速、有效地满足用户的个性化需求,并带动企业进行大规模生产,减少设计花费的时间和数据量,缩短交货周期,提高企业生产效率,获取更高利润。
CTO模式在给企业带来机遇的同时,同时也给企业的生产提出挑战,订单归类就是其中一点。在电子产品领域,为满足客户个性化需求为基础的大规模定制,势必会造成CTO订单之间的巨大差异化,以及BOM(物料清单)的碎片化、零散化。因此,在生产之前,考虑订单间存在的相似性,对订单按一定特征进行分类,有助于企业合理安排生产计划,有效减少生产时间,提高企业的生产效率。
随着经济全球化不断发展以及CTO订单量剧增,CTO订单聚类也受到了越来越多的关注,但对其进行的相关研究也存在一些不足:
(1)目前针对CTO订单聚类的研究还较为有限,考虑将文本聚类算法应用到CTO订单聚类中,并通过这种策略有效提高订单分类的效率,以便于合理安排生产计划,仍是目前需要解决的一个重要问题。
(2)向量空间模型VSM(Vector Space Model)是一种通过计算将文本表示成空间向量的经典文本表示模型。传统的空间向量模型主要研究如何实现数据的建模,并没考虑数据的语义信息。如何更好的处理文本语义信息与数据信息的关系,增加文本转化的可靠性,仍是目前需要继续研究优化的问题。
综上所述,企业对客户基于个性化需求构建的电子产品CTO订单,需要设计出更为有效的聚类方法,既令客户尽快获得自己定制的产品,也能提高企业的产能和效益。本发明提供的一种基于改进向量空间模型的电子产品CTO订单聚类方法,可以有效实现对CTO订单的准确分类。将CTO订单的文本信息通过VSM模型转化为高维矩阵的数学化信息,并对产品相关特征进行加权处理,可以提高订单中相关信息的关联程度,使订单能够更加侧重于将含有相同品牌,或者相同类型的订单合并为同一订单组。使用改进K-means++算法对VSM模型生成的高维矩阵的向量进行聚类,K-means++通过对K-means算法随机初始化聚类中心的方法进行优化,加快原K-means算法收敛速度,有效提高了聚类结果的准确性,使得企业更加灵活、高效地针对客户的CTO订单安排相应的生产工作。
发明内容
本发明针对上述问题,提出一种基于改进向量空间模型的电子产品CTO订单聚类方法,首先通过向量空间模型(VSM)将CTO订单中的文本信息映射为高维矩阵,即对订单文本中的特征进行向量化,然后用转化后的高维矩阵向量进行距离衡量以计算订单文本之间的相似度,最后使用改进K-means聚类算法对CTO订单聚类,得到订单的分类结果,为企业的生产计划提供参考。
本发明是这样实现的:一种基于改进向量空间模型的电子产品CTO订单聚类方法包括如下模块:订单收集模块、订单信息预处理模块、订单信息文本向量化模块、订单聚类模块。其所述订单信息预处理模块包括:分词处理子模块、停用词处理子模块、特征提取子模块。
所述订单收集模块和订单信息预处理模块相连,订单信息预处理模块和订单信息文本向量化模块相连,订单信息文本向量化模块和订单聚类模块相连;订单信息预处理模块中,分词处理子模块和停用词处理子模块相连,停用词处理子模块和特征提取子模块相连。
所述订单收集模块,对CTO订单进行采集。每一个订单包含客户个性化选取的电子产品,并视作一个独立的分组。
所述订单信息预处理模块,对订单收集模块中获得的订单集进行文本信息向量化之前,先对其进行相关预处理,以保证聚类结果的准确性。
所述订单信息文本向量化模块,对信息文本向量化处理。将订单信息预处理模块中进行预处理的所有订单文本信息转化为一个高维矩阵。
所述订单聚类模块:对订单信息文本向量化模块中得到的高维矩阵的向量进行聚类,实现订单归类,其实现主要包括以下步骤:
S1:订单按聚类中心数分组。
S2:随机初始化第一个聚类中心m1。
S3:确定其余的聚类中心。
S4:计算任意一个订单作为下一个聚类中心的概率,按照轮盘法选出下一个聚类中心。
S5:重复S3、S4,直到选出全部聚类中心点。
S6:计算任意订单和聚类中心的订单间的的距离。
S7:将每个订单和与其距离最近的聚类中心相关联,形成与聚类中心个数相对应的簇。
S8:计算划分到每个簇中的所有订单特征值的平均值,更新聚类中心。
S9:判断是否达到终止条件,若尚未达,返回步骤S6继续;若达到,跳出循环。
S10:订单聚类完成,聚类模块结束。
本发明具有以下优点:
(1)本发明将CTO订单的文本信息通过VSM模型转化为高维矩阵的数学化信息,并使用改进后的VSM模型对产品相关特征进行加权处理,可以提高订单中相关信息的关联程度,使订单能够更加侧重于将含有相同品牌,或者相同类型的订单合并为同一订单组。
(2)相对于传统K-means算法,本发明通过基于改进K-means++算法对VSM模型生成的高维矩阵的向量进行聚类,改进的K-means++算法通过对原K-means算法随机初始化聚类中心的方法进行优化,加快K-means算法收敛速度,有效提高了聚类结果的准确性。
附图说明
图1为本发明实施例的模块结构示意图。
图2为本发明实施例中订单聚类模块的模块流程图。
图中标记:1.订单收集模块;2.订单信息预处理模块;3.订单信息文本向量化模块;4.订单聚类模块;2-1.分词处理子模块;2-2.停用词处理子模块;2-3.特征提取子模块。
具体实施方式
实施例:
如图1所示,本发明提供了一种基于改进向量空间模型的电子产品CTO订单聚类方法,包含4个主模块,3个子模块,分别为:订单收集模块1、订单信息预处理模块2、订单信息文本向量化模块3、订单聚类模块4。其中订单信息预处理模块2包括:分词处理子模块2-1、停用词处理子模块2-2、特征提取子模块2-3。
所述订单收集模块1用于对CTO订单进行收集,形成CTO订单集,每一个订单包含客户个性化选取的电子产品,并视作一个独立的分组。
所述CTO订单集表示如下:
D={D1,D2,D3,...,Dn}
其中,n表示D中一共有n个订单,每一个订单Di中包含一系列电子产品配件信息。
所述订单信息预处理模块2包括分词处理子模块2-1、停用词处理子模块2-2、特征提取子模块2-3,用于订单集进行文本信息向量化之前,先对其进行相关预处理,通过分词、停用词和特征提取处理,使得预处理后的文本信息更加符合模型输入的要求。
所述分词处理子模块2-1用于在订单文本信息转化为向量之前,将所有文本信息取出进行划分,对订单中连续的字序列按照一定的规范重新组合成词序列。采用中科院推出的NLPIR分词系统来进行文本分词。同时,由于电子产品CTO订单中包含很多名称、品牌、功能不同的配件,考虑到这些配件词汇的特殊性,将该部分词汇也加入到分词系统的词库中,拓展词库以得到更好的分词结果。
所述停用词处理子模块2-2用于处理掉CTO订单文本信息中意义不大的字或词,留下高信息量的词语提高文本信息质量,使VSM模型能够更为准确的表达文本特征。
所述特征提取子模块2-3用于对CTO订单文本信息中的关键信息进行提取。
其中,采用基于统计思想TF-IDF算法,通过评价某个词在CTO订单集中的代表性,对订单文本特征词进行提取。计算词频和逆文档词频,并将二者进行结合得到TF-IDF值,来表示某个词的重要性,TF-IDF的计算公式如下式(1)所示:
对公式(1)进行如下式(2)所示的归一化处理:
式中,ni,j为词语ωi在订单dj中的出现次数,为订单dj中所有字词的出现次数之和,|D|为订单集中的订单数,|{j:ωi∈dj}|为词语ωi的订单数,为了避免分母为0,因此将分母设为1+|{j:ωi∈dj}|。
所述订单信息文本向量化模块3,使用空间向量模型VSM将每一个CTO订单文本转化为一个订单向量,所有向量构成了一组规范化的高维矩阵。
所述订单向量的表示形式如下式(3)所示:
Wi=(Wi1 Wi2 Wi3...Wit) (3)
其中,Wi为订单Di的向量表示,t为特征词的总数量,Wit为订单向量Di中相关特征值的坐标值,表示某特征词是否出现在订单文本中及其出现的次数。
所述坐标值的具体表示如下式(4)所示:
对式(4)的坐标值进行加权处理,得到特征加权后的订单向量,具体操作如下式(5)所示:
所述特征加权后的订单向量集合在一起,转化为一个n×t的高维矩阵W。
所述高维矩阵W表示形式如下式(6)所示:
所述高维矩阵W代表一个订单集合D转化为空间向量后的全部特征词信息,矩阵W的每行代表一个订单Di,每列代表一个特征词,数值代表了当前列的特征词在当前订单中是否出现,或出现了几次。
所述订单聚类模块4用于对订单向量使用K-means++算法进行聚类分组,实现订单归类。
所述聚类实现流程如图2所示,包括以下步骤:
所述步骤S1用于将n个订单分成a组,每组包含b个订单。
所述步骤S2用于随机选取1个订单作为第一个初始化的聚类中心m1,计划选取a个聚类中心,聚类中心用mi表示。
所述步骤S3用于确定剩下的a-1个聚类中心,计算每个订单与已经初始化的聚类中心m1之间的最短距离d(Di,m1)。
所述步骤S4用于计算从订单集中随机选择一个订单作为下一个聚类中心的概率,按照轮盘法选出下一个聚类中心,概率计算如下式(7)所示:
所述步骤S5用于选出全部a个聚类中心点,重复步骤S3、S4,直到满足条件结束。
所述步骤S6用于计算其余订单Di和作为聚类中心的订单间的相似度,采用K-means算法常用的欧氏距离来计算订单和聚类中心的距离,距离越小,相似度越高,具体表示如下式(8)所示:
所述步骤S7用于进行K-means聚类,将每个订单和与其距离最近的聚类中心相关联,形成a个簇,每个簇包含b个订单。
所述聚类表示如下式(9)所示:
上式(9)中,C为聚类,db为聚类C的中心距离。
所述步骤S8用于计算划分到每个簇中的所有订单特征值的平均值,作为新的聚类中心。
所述步骤S9用于判断是否达到终止条件数,若尚未达到最大迭代次数,返回步骤S6继续;若达到最大迭代次数,则跳出循环。
所述步骤S10用于完成订单聚类,输出最终的聚类结果,结聚类模块束。
综上,本发明涉及的一种基于改进向量空间模型的电子产品CTO订单聚类方法,可以有效实现对CTO订单的准确分类。将CTO订单的文本信息通过VSM模型转化为高维矩阵的数学化信息,并对产品相关特征进行加权处理,可以提高订单中相关信息的关联程度,使订单能够更加侧重于将含有相同品牌,或者相同类型的订单合并为同一订单组。使用改进K-means++算法对VSM模型生成的高维矩阵的向量进行聚类,K-means++通过对K-means算法随机初始化聚类中心的方法进行优化,加快原K-means算法收敛速度,有效提高了聚类结果的准确性,使得企业更加灵活、高效地针对客户的CTO订单安排相应的生产工作。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (5)
1.一种基于改进向量空间模型的电子产品CTO订单聚类方法,包括订单收集模块、订单信息预处理模块、订单信息文本向量化模块、订单聚类模块,其中订单信息预处理模块包括:分词处理子模块、停用词处理子模块、特征提取子模块。
2.根据权利要求1所述的一种基于改进向量空间模型的电子产品CTO订单聚类方法,其特征在于,所述订单收集模块,用于对CTO订单进行收集,形成CTO订单集,每一个订单包含客户个性化选取的电子产品,并视作一个独立的分组;
所述CTO订单集表示如下:
D={D1,D2,D3,...,Dn}
其中,n表示D中一共有n个订单,每一个订单Di中包含一系列电子产品配件信息。
3.根据权利要求1所述的一种基于改进向量空间模型的电子产品CTO订单聚类方法,其特征在于,所述订单信息预处理模块,包括分词处理子模块、停用词处理子模块和特征提取子模块,用于订单集进行文本信息向量化之前,先对其进行相关预处理,通过分词、停用词和特征提取处理,使得预处理后的文本信息更加符合模型输入的要求;
所述分词处理子模块用于在订单文本信息转化为向量之前,将所有文本信息取出进行划分,对订单中连续的字序列按照一定的规范重新组合成词序列;采用中科院推出的NLPIR分词系统来进行文本分词;同时,由于电子产品CTO订单中包含很多名称、品牌、功能不同的配件,考虑到这些配件词汇的特殊性,将该部分词汇也加入到分词系统的词库中,拓展词库以得到更好的分词结果;
所述停用词处理子模块用于处理掉CTO订单文本信息中意义不大的字或词,留下高信息量的词语提高文本信息质量,使VSM模型能够更为准确的表达文本特征;
所述特征提取子模块用于对CTO订单文本信息中的关键信息进行提取;
其中,采用基于统计思想TF-IDF算法,通过评价某个词在CTO订单集中的代表性,对订单文本特征词进行提取;计算词频和逆文档词频,并将二者进行结合得到TF-IDF值,来表示某个词的重要性,TF-IDF的计算公式如下式(1)所示:
对公式(1)进行如下式(2)所示的归一化处理:
4.根据权利要求1所述的一种基于改进向量空间模型的电子产品CTO订单聚类方法,其特征在于,所述订单信息文本向量化模块,使用空间向量模型VSM将每一个CTO订单文本转化为一个订单向量,所有向量构成了一组规范化的高维矩阵;
所述订单向量的表示形式如下式(3)所示:
Wi=(Wi1 Wi2 Wi3...Wit) (3)
其其中,Wi为订单Di的向量表示,t为特征词的总数量,Wit为订单向量Di中相关特征值的坐标值,表示某特征词是否出现在订单文本中及其出现的次数;
所述坐标值的具体表示如下式(4)所示:
对式(4)的坐标值进行加权处理,得到特征加权后的订单向量,具体操作如下式(5)所示:
所述特征加权后的订单向量集合在一起,转化为一个n×t的高维矩阵W;
所述高维矩阵W表示形式如下式(6)所示:
所述高维矩阵W代表一个订单集合D转化为空间向量后的全部特征词信息,矩阵W的每行代表一个订单Di,每列代表一个特征词,数值代表了当前列的特征词在当前订单中是否出现,或出现了几次。
5.根据权利要求1所述的一种基于改进向量空间模型的电子产品CTO订单聚类方法,其特征在于,所述订单聚类模块,用于对订单向量使用K-means++算法进行聚类分组,实现订单归类;
所述聚类实现流程,包括以下步骤:
S1:将n个订单,分成a组,每组包含b个订单;
S2:随机选取1个订单作为第一个初始化的聚类中心m1,计划选取a个聚类中心,聚类中心用mi表示;
S3:确定剩下的a-1个聚类中心,计算每个订单与已经初始化的聚类中心m1之间的最短距离d(Di,m1);
S4:计算从订单集中随机选择一个订单作为下一个聚类中心的概率,按照轮盘法选出下一个聚类中心,概率计算如下式(7)所示:
S5:重复S3、S4,直到选出全部a个聚类中心点结束;
S6:使用选出的聚类中心进行K-means聚类,计算其余订单Di和作为聚类中心的订单间的相似度,采用K-means算法常用的欧氏距离来计算订单和聚类中心的距离,距离越小,相似度越高,具体表示如下式(8)所示:
S7:将每个订单和与其距离最近的聚类中心相关联,形成a个簇,每个簇包含b个订单;订单所属的聚类表示如下式(9)所示:
上式(9)中,C为聚类,db为聚类C的中心距离;
S8:计算划分到每个簇中的所有订单特征值的平均值,作为新的聚类中心;
S9:判断是否达到终止条件数,若尚未达到最大迭代次数,返回步骤S6继续;若达到最大迭代次数,则跳出循环;
S10:订单聚类完成,输出最终的聚类结果,聚类模块结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210914269.5A CN115293253A (zh) | 2022-08-01 | 2022-08-01 | 一种基于改进向量空间模型的电子产品cto订单聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210914269.5A CN115293253A (zh) | 2022-08-01 | 2022-08-01 | 一种基于改进向量空间模型的电子产品cto订单聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115293253A true CN115293253A (zh) | 2022-11-04 |
Family
ID=83825606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210914269.5A Pending CN115293253A (zh) | 2022-08-01 | 2022-08-01 | 一种基于改进向量空间模型的电子产品cto订单聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115293253A (zh) |
-
2022
- 2022-08-01 CN CN202210914269.5A patent/CN115293253A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akata et al. | Good practice in large-scale learning for image classification | |
CN102193936B (zh) | 一种数据分类的方法及装置 | |
CN107066555B (zh) | 面向专业领域的在线主题检测方法 | |
CN108984642B (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN111368891B (zh) | 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 | |
US11210555B2 (en) | High-dimensional image feature matching method and device | |
CN112100512A (zh) | 一种基于用户聚类和项目关联分析的协同过滤推荐方法 | |
CN111125469A (zh) | 一种社交网络的用户聚类方法、装置以及计算机设备 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN111178949A (zh) | 服务资源匹配参考数据确定方法、装置、设备和存储介质 | |
JP2002183171A (ja) | 文書データ・クラスタリングシステム | |
JP5391637B2 (ja) | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN114547307A (zh) | 文本向量模型训练方法、文本匹配方法、装置及设备 | |
CN113326432A (zh) | 一种基于决策树与推荐方法的模型优选方法 | |
CN111797267A (zh) | 一种医学图像检索方法及系统、电子设备、存储介质 | |
CN114004513B (zh) | 一种需求预测方法、系统及存储介质 | |
KR102264969B1 (ko) | 빅데이터 분석을 위한 시장 세분화 반딧불 알고리즘 방법 및 시스템 | |
Benabdeslem et al. | sCOs: Semi-supervised co-selection by a similarity preserving approach | |
JP5765583B2 (ja) | 多クラス識別器、多クラス識別方法、及びプログラム | |
CN117435982A (zh) | 一种多维度快速识别网络水军的方法 | |
CN112182416A (zh) | 一种基于用户群体偏好的科技资源动态协同过滤推荐方法 | |
CN116934531A (zh) | 一种基于数据分析的酒类信息智能管理方法及系统 | |
CN115293253A (zh) | 一种基于改进向量空间模型的电子产品cto订单聚类方法 | |
Bahrami et al. | Automatic image annotation using an evolutionary algorithm (IAGA) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |