CN111126442A - 一种物品关键属性生成方法、物品分类方法和装置 - Google Patents
一种物品关键属性生成方法、物品分类方法和装置 Download PDFInfo
- Publication number
- CN111126442A CN111126442A CN201911174009.3A CN201911174009A CN111126442A CN 111126442 A CN111126442 A CN 111126442A CN 201911174009 A CN201911174009 A CN 201911174009A CN 111126442 A CN111126442 A CN 111126442A
- Authority
- CN
- China
- Prior art keywords
- attribute
- weight
- attributes
- classified
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Abstract
本发明公开了一种物品关键属性生成方法、物品分类方法和装置,涉及计算机技术领域。该物品分类方法的一具体实施方式包括:将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到多个待分类物品的属性向量;为多个待分类物品构建与属性向量的长度相同的权重向量;将属性向量输入聚类算法,计算待分类物品的属性向量与聚类中心的相似度,以按照相似度高低,对多个待分类物品的属性向量进行聚类得到聚类结果;其中,相似度是利用权重向量调整待分类物品的属性向量到聚类中心的距离得到。该方法实现了自动对归属于某一品类的物品的更细层次的分类,分类效率高,同时聚类结果中同一分簇的物品之间的关联性好,提升客户体验。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种物品关键属性生成方法、物品分类方法和装置。
背景技术
为了方便用户对电商网站内的物品进行浏览和筛选,各电商公司需要参考1987年国家颁布的国家标准GB7635-87《全国工农业产品(商品、物资)分类与代码》对物品进行分类。但是,当前最细粒度的品类中,依然包含成千上百种物品。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
(1)现有技术中物品分类的粒度较粗,最细粒度的品类中包含成千上百种物品,在实际管理运营过程中,需要人工进行大量的细分操作,效率低;
(2)人工细分的主观性较强,细分标准难以统一,导致细分得到的归属于同一分类的物品之间关联性差,客户体验差。
发明内容
有鉴于此,本发明实施例提供一种物品关键属性生成方法、物品分类方法和装置,通过关键属性的属性值在搜索日志中的出现次数确定该关键属性的权重,后续使用权重调整聚类算法的相似度度量公式,以对待分类物品的属性向量进行聚类,实现了自动对归属于某一品类的物品的更细层次的分类,分类效率高,同时聚类结果中同一分簇的物品之间的关联性好,提升客户体验。
为实现上述目的,根据本发明实施例的一个方面,提供了一种物品关键属性生成方法。
本发明实施例的一种物品关键属性生成方法,包括:获取物品不同级别的属性,根据搜索日志中包含所述属性的频次,得到所述属性的初始权重;根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重;其中,所述属性的父属性、子属性基于属性之间的归属关系得到;按照所述最终权重的大小,选择最终权重大的前N个属性作为关键属性。
可选地,根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重,包括:将所述属性的父属性的初始权重与归属于所述父属性的属性数量相除,得到相除结果;将所述属性的初始权重、所述相除结果以及所述属性的子属性的初始权重之和相加,得到所述属性的最终权重。
可选地,获取物品不同级别的属性的步骤之后,所述方法还包括:根据属性之间的归属关系,为归属于同一品类的多个所述物品构建属性结构树;其中,所述属性结构树包括多个节点,一个所述节点对应一个所述属性;结合所述属性结构树,确定所述属性的父属性和子属性;其中,所述父属性为所述属性对应节点的父节点的属性,所述子属性为所述属性对应节点的子节点的属性。
可选地,所述方法用于信息搜索、信息查询和信息分类。
为实现上述目的,根据本发明实施例的一个方面,提供了一种物品分类方法。
本发明实施例的一种物品分类方法,包括:将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到所述多个待分类物品的属性向量;其中,所述多个待分类物品归属于同一品类,所述关键属性按照物品关键属性生成方法生成;为所述多个待分类物品构建与所述属性向量的长度相同的权重向量,其中,所述权重向量的分量为所述属性向量的分量对应的关键属性的权重,所述权重为按照物品关键属性生成方法得到的最终权重或者所述最终权重的归一化处理结果;将所述属性向量输入聚类算法,通过所述聚类算法计算所述待分类物品的属性向量与聚类中心的相似度,以按照所述相似度高低,对所述多个待分类物品的属性向量进行聚类得到聚类结果;其中,所述相似度是利用所述权重向量调整所述待分类物品的属性向量到所述聚类中心的距离得到。
可选地,利用所述权重向量调整所述待分类物品的属性向量到所述聚类中心的距离,以得到所述待分类物品的属性向量与所述聚类中心的相似度,包括:将所述待分类物品的属性向量的分量,与所述聚类中心的对应分量做差后求平方;将所述权重向量的对应分量与平方结果相乘,之后将多个分量的相乘结果求和,以得到所述待分类物品与所述聚类中心的相似度。
可选地,所述聚类结果包括多个分簇,所述方法还包括:聚类中心更新:计算所述分簇的新聚类中心,将所述聚类中心更新为所述新聚类中心;重复执行计算所述待分类物品的属性向量与聚类中心的相似度的步骤、对所述多个待分类物品的属性向量进行聚类的步骤,以及所述聚类中心更新的步骤,直到所述聚类算法的准则函数满足预设条件,或者迭代次数达到预设迭代次数阈值。
为实现上述目的,根据本发明实施例的另一方面,提供了一种物品关键属性生成装置。
本发明实施例的一种物品关键属性生成装置,包括:权重计算模块,用于获取物品不同级别的属性,根据搜索日志中包含所述属性的频次,得到所述属性的初始权重;权重更新模块,用于根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重;其中,所述属性的父属性、子属性基于属性之间的归属关系得到;属性选择模块,用于按照所述最终权重的大小,选择最终权重大的前N个属性作为关键属性。
可选地,所述权重更新模块,还用于:将所述属性的父属性的初始权重与归属于所述父属性的属性数量相除,得到相除结果;将所述属性的初始权重、所述相除结果以及所述属性的子属性的初始权重之和相加,得到所述属性的最终权重。
可选地,所述装置还包括:构建确定模块,用于根据属性之间的归属关系,为归属于同一品类的多个所述物品构建属性结构树;其中,所述属性结构树包括多个节点,一个所述节点对应一个所述属性;结合所述属性结构树,确定所述属性的父属性和子属性;其中,所述父属性为所述属性对应节点的父节点的属性,所述子属性为所述属性对应节点的子节点的属性。
可选地,所述装置用于信息搜索、信息查询和信息分类。
为实现上述目的,根据本发明实施例的另一方面,提供了一种物品分类装置。
本发明实施例的一种物品分类装置,包括:拼接模块,用于将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到所述多个待分类物品的属性向量;其中,所述多个待分类物品归属于同一品类,所述关键属性按照物品关键属性生成装置生成;构建模块,用于为所述多个待分类物品构建与所述属性向量的长度相同的权重向量,其中,所述权重向量的分量为所述属性向量的分量对应的关键属性的权重,所述权重为物品关键属性生成装置得到的最终权重或者所述最终权重的归一化处理结果;聚类模块,用于将所述属性向量输入聚类算法,通过所述聚类算法计算所述待分类物品的属性向量与聚类中心的相似度,以按照所述相似度高低,对所述多个待分类物品的属性向量进行聚类得到聚类结果;其中,所述相似度是利用所述权重向量调整所述待分类物品的属性向量到所述聚类中心的距离得到。
可选地,所述聚类模块,还用于:将所述待分类物品的属性向量的分量,与所述聚类中心的对应分量做差后求平方;将所述权重向量的对应分量与平方结果相乘,之后将多个分量的相乘结果求和,以得到所述待分类物品与所述聚类中心的相似度。
可选地,所述聚类结果包括多个分簇,所述装置还包括:更新重复模块,用于计算所述分簇的新聚类中心,将所述聚类中心更新为所述新聚类中心;重复执行计算所述待分类物品的属性向量与聚类中心的相似度的处理过程、对所述多个待分类物品的属性向量进行聚类的处理过程,以及所述聚类中心更新的处理过程,直到所述聚类算法的准则函数满足预设条件,或者迭代次数达到预设迭代次数阈值。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种物品关键属性生成方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种物品关键属性生成方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种物品分类方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种物品分类方法。
上述发明中的一个实施例具有如下优点或有益效果:基于权重从多个属性中筛选出关键属性,在保证信息搜索、信息分类等的效果的同时,减少了所需使用的属性个数,降低了计算复杂度;计算属性的权重时,将其父属性和子属性的初始权重映射到该属性上,将该权重用于聚类算法的相似度计算时,能够提升聚类准确度;通过属性之间的归属关系构建属性结构树,方便确定当前属性的父属性和子属性。
上述发明中的一个实施例具有如下优点或有益效果:通过关键属性的属性值在搜索日志中的出现次数确定该关键属性的权重,后续使用权重调整聚类算法的相似度度量公式,以对待分类物品的属性向量进行聚类,实现了自动对归属于某一品类的物品的更细层次的分类,分类效率高,同时聚类结果中同一分簇的物品之间的关联性好,提升客户体验;更新聚类中心,并按照更新后的聚类中心重新聚类,能够进一步提升聚类准确度;由于权重是由属性在搜索日志中的出现次数得到,故其反应了用户对该属性的关注程度,按照权重大小从多个属性中确定关键属性,能够对用户关注的属性向量进行聚类,提升客户体验。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例的物品关键属性生成方法的主要步骤的示意图;
图2是本发明实施例的属性结构树的示意图;
图3是本发明实施例一的物品分类方法的主要步骤的示意图;
图4是本发明实施例二的物品分类方法的实现原理示意图;
图5是本发明实施例二的物品分类方法的主要流程示意图;
图6是本发明实施例二的物品分类结果示意图;
图7是本发明实施例的物品关键属性生成装置的主要模块的示意图;
图8是本发明实施例的物品分类装置的主要模块的示意图;
图9是本发明实施例可以应用于其中的示例性系统架构图;
图10是适用于来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是本发明实施例的物品关键属性生成方法的主要步骤的示意图。如图1所示,本发明实施例的物品关键属性生成方法,主要包括如下步骤:
步骤S101:获取物品不同级别的属性,根据搜索日志中包含所述属性的频次,得到所述属性的初始权重。任何一个物品都具有相应的属性,比如,对于智能手机,其属性包括品牌、屏幕尺寸、电池容量、颜色等。属性具有级别,相邻级别的属性具有唯一归属关系,比如,手机属性包含基本参数和硬件参数等属性,基本参数属性包含品牌、颜色、主屏尺寸等属性。物品不同级别的属性可以从相关网站上获取。
用户在对物品进行搜索的过程中,搜索的关键词通常包含物品的属性,这些信息会记录在搜索日志中。对搜索日志进行分析,提取其中包含的属性,并统计每个属性的出现次数(即搜索日志中包含每个属性的频次),将该出现次数作为每个属性的初始权重。
步骤S102:根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重。其中,所述属性的父属性、子属性基于属性之间的归属关系得到。以计算当前属性的最终权重为例,将当前属性的父属性的初始权重与归属于父属性的属性数量相除,得到相除结果;将当前属性的初始权重、相除结果以及当前属性的子属性的初始权重之和相加,即可得到当前属性的最终权重。按照上述方式即可得到每个属性的最终权重。
步骤S103:按照所述最终权重的大小,选择最终权重大的前N个属性作为关键属性。按照最终权重由大到小的顺序,对全部属性进行排序,选取排序靠前的前N个属性,形成包含N个关键属性的关键属性集合。其中,N为正整数。
在一优选的实施例中,在确定当前属性的父属性和子属性时,可以通过如下方式实现:根据属性之间的归属关系,为归属于同一品类的多个物品构建属性结构树;之后结合属性结构树,即可确定当前属性的父属性和子属性。该属性结构树包括多个节点,一个节点对应一个所述属性;父属性为当前属性对应节点的父节点的属性,子属性为当前属性对应节点的子节点的属性。
图2是本发明实施例的属性结构树的示意图。如图2所示,以手机这一品类的物品为例,按照上述归属关系将物品的全部属性组织成属性结构树,该属性结构树中包括根节点、中间节点和叶子节点,根节点即手机,中间节点包括基本参数、硬件参数等,基本参数的叶子节点包括品牌、屏幕尺寸、颜色等,硬件参数的叶子节点包括电池容量、内存大小等。
本发明实施例的物品关键属性生成方法可以用于信息搜索、信息查询和信息分类。下面以信息分类为例,进行详细说明。
图3是本发明实施例一的物品分类方法的主要步骤的示意图。如图3所示,本发明实施例一的物品分类方法,主要包括如下步骤:
步骤S301:将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到所述多个待分类物品的属性向量;其中,所述多个待分类物品归属于同一品类。该步骤首先需获取该品类内每个待分类物品的关键属性的属性值,再将每个属性值进行标准化处理,以转化为数值类型的属性值。关键属性基于物品关键属性生成方法得到。
由于属性值可能是离散类型,也可能是连续类型,故转化时需要分情况处理。即标准化处理包括二值化处理和归一化处理,具体为:将离散类型的属性值进行二值化处理得到数值类型的属性值,将连续类型的属性值进行归一化处理得到数值类型的属性值。之后,将得到的每个待分类物品的所有关键属性的数值类型的属性值进行拼接,即可得到每个待分类物品的属性向量。
步骤S302:为所述多个待分类物品构建与所述属性向量的长度相同的权重向量,其中,所述权重向量的分量为所述属性向量的分量对应的关键属性的权重。权重向量的长度与属性向量的长度相同,且两个向量的对应分量对应同一个关键属性。其中,向量是指n个实数/复数组成的有序数组,称为n维向量。n维向量α可以写作(a1,a2,…,an),ai为向量α的第i个分量。
权重向量中的每个分量均为相应关键属性的权重。计算关键属性的权重的具体实现为:首先将关键属性的父属性的初始权重与归属于父属性的属性数量相除,得到相除结果;之后将关键属性的初始权重、相除结果以及关键属性的子属性的初始权重之和相加,得到关键属性的最终权重。将该最终权重作为关键属性的权重,或者对关键属性的最终权重进行归一化处理,将归一化处理结果作为关键属性的权重。
步骤S303:将所述属性向量输入聚类算法,通过所述聚类算法计算所述待分类物品的属性向量与聚类中心的相似度,以按照所述相似度高低,对所述多个待分类物品的属性向量进行聚类得到聚类结果;其中,所述相似度是利用所述权重向量调整所述待分类物品到所述聚类中心的距离得到。
该步骤需要预先调整聚类算法所采用的相似度度量公式。即将待分类物品的属性向量的分量,与聚类中心的对应分量做差后求平方;之后将权重向量的对应分量与平方结果相乘,并将多个分量的相乘结果求和后开平方即可。然后确定聚类数目后,即可将属性向量输入该调整后的聚类算法中,以按照调整后相似度度量公式计算待分类物品与聚类中心的相似度。最后按照相似度最高原则,将待分类物品的属性向量分配给聚类中心,形成与设定的聚类数目相同数量的分簇。
图4是本发明实施例二的物品分类方法的实现原理示意图。如图4所示,本发明的物品分类方法包括两个阶段,第一阶段包括属性结构树构建和属性赋权,第二阶段为基于聚类算法对待分类物品进行聚类。第一阶段中,在构建属性结构树时,需通过物品各粒度的属性和属性之间的归属关系来构建;在属性赋权时,需从搜索日志中提取用户关注的属性,为用户关注的属性赋予权重。第二阶段中,需实例化待分类物品的属性向量,使用权重调整后的聚类算法对属性向量进行聚类,实现物品更细粒度的分类。
图5是本发明实施例二的物品分类方法的主要流程示意图。如图5所示,本发明实施例二的物品分类方法,主要包括如下步骤:
步骤S501:获取物品不同级别的属性,根据属性之间的归属关系,为归属于同一品类的多个物品构建属性结构树。任何一个物品都具有相应的属性,例如,对于智能手机,其属性包括品牌、屏幕尺寸、电池容量、颜色、内存大小等。属性具有粒度,相邻粒度之间的属性具有唯一的归属关系,不同粒度对应不同级别,例如,仍旧以智能手机为例,手机是粗粒度的属性,基本参数、硬件参数等是中粒度的属性,品牌、屏幕尺寸、电池容量、颜色、内存大小等是细粒度的属性,手机属性包括基本参数、硬件参数等中粒度属性,基本参数属性包括品牌、屏幕尺寸、颜色等细粒度属性,硬件参数属性包括电池容量、内存大小等细粒度属性。
为了方便管理,商家会将物品划分为不同的品类,比如手机、服装为不同品类。本文的品类是指按照现有的物品分类方式进行划分时,该物品所归属的最细粒度的品类。比如,按照现有的三级分类方式进行物品分类时,本文的品类是指三级分类对应的最细粒度的第三级分类。该步骤按照不同粒度的属性之间的归属关系,为同一品类的多个物品构建属性结构树。属性结构树的构建结果可参见图2。
步骤S502:统计搜索日志中每个属性的属性值的出现次数,以基于属性值的出现次数以及每个属性的父子属性的属性值的出现次数,计算每个属性的权重。物品的属性具有属性值(属性值可以为空),比如,对于IPhone X,品牌属性的属性值为苹果,屏幕尺寸属性的属性值可以是5.8寸,颜色属性的属性值可以是黑色,电池容量属性的属性值可以是12000毫安。用户在对物品进行搜索的过程中,搜索的关键词通常包括物品属性的属性值。
本发明实施例中,使用搜索日志中的不同属性的属性值的出现次数,来体现用户对此属性的关注程度。比如,仍旧以智能手机为例,用户多搜索“品牌1 64G”、“品牌2128G”,很少搜索手机通信制式等内容,代表用户更关注物品的品牌和内存大小。其中,品牌1和品牌2代表用户搜索手机的不同品牌。该步骤中基于搜索日志中属性的属性值的出现次数计算权重,能够降低分类人员的主观性,增加物品分类从客户角度出发的客观性。
在一优选的实施例中,使用自然语言处理方法中的命名实体识别方法,对搜索日志进行分析,提取搜索日志中包含的属性的属性值。其中,命名实体识别方法,比如可以是条件随机场算法(conditional random field algorithm,CRF)、长短期记忆网络算法(Long Short-Term Memory,LSTM)、CRF的衍生算法、LSTM的衍生算法等。
用户在对物品进行搜索的过程中,搜索关键词所对应的属性的粒度有粗细,比如,对于“土豪金苹果”这一搜索日志,包括颜色(对应“土豪金”这一属性值)和品牌(对应“苹果”这一属性值)这两个细粒度属性;对于“苹果手机”这一搜索日志,包括品牌这一细粒度属性,以及手机这一粗粒度属性。因此,在计算任一属性的权重时,需考虑该属性的粒度粗细。亦即需要统一不同属性的粒度。实施例中,从所有属性对应的粒度中选取一种粒度作为标准粒度。在选取标准粒度时,依据任务不同,方法并不唯一,理论上可以选择任何一种粒度作为标准粒度。
在一优选的实施例中,为了减少人工操作、避免选择的随意性、增强客户体验,可以将出现次数最多的属性对应的粒度作为标准粒度,以使该选择标准粒度的过程可以由计算机自动执行,降低人工参与量;同时,出现次数多的属性最能够体现客户的关注点,增强客户体验。之后,将其父属性的初始权重、其子属性的初始权重映射到该属性上,得到该属性的最终权重。最后,对最终权重进行归一化处理,即可得到该属性的权重。归一化处理的具体实现可以采用最大最小归一化、标准归一化等方式,以将最终权重归一化到[0,1]区间。其中,各属性的初始权重为统计出的出现次数。
实施例中,将属性结构树中所有节点的属性值的出现次数初始化为0,收集该物品所属品类的所有搜索日志,依次提取其中涉及到的属性值,每提取到一个属性值,则在属性结构树中对应的节点的出现次数加1,直至所有用户的搜索日志处理完毕。之后按照下述方式计算属性结构树中每个节点(即属性)的权重。
假设某一属性为Mi,初始权重为Wi;Mi的父属性为Mi的父属性的初始权重为Mi的父属性有I个子属性;Mi的子属性为 相应的Mi的子属性的初始权重为当选取Mi对应的粒度为标准粒度时,需要将其父属性和子属性的初始权重映射到Mi上,以得到Mi的最终权重。最终权重的计算公式如下:
式中,Wi'代表属性Mi的最终权重,Wi代表属性Mi的初始权重(即属性Mi的属性值的出现次数),代表属性Mi的父属性的初始权重(即属性Mi的父属性的属性值的出现次数),代表属性Mi的第p个子属性的初始权重(即属性Mi的子属性的属性值的出现次数)。
步骤S503:根据属性的权重大小,从属性结构树的多个属性中确定至少一个关键属性。确定关键属性时可以从属性中选择权重大的前N个属性作为关键属性,也可以将权重大于等于预设权重阈值的属性作为关键属性。
下面以权重大的前N个属性作为关键属性为例,将属性结构树中各属性的权重按照由大到小的顺序排序,选择权重大的前N个属性,选择出的属性构成关键属性,可以用{M1,M2,…,MN}表示。
步骤S504:将多个待分类物品的关键属性的属性值分别进行标准化处理,以为多个待分类物品分别构建对应的属性向量。标准化处理能够加速聚类算法的收敛,提升聚类算法的聚类精度。该步骤的具体实现为:获取某个品类内每个物品的属性值,将属性值转化为数值类型的属性值;之后,将得到的每个待分类物品的所有关键属性的数值类型的属性值进行拼接,即可得到每个待分类物品的属性向量。
由于属性值的类型可能是离散类型,也可能是连续类型,下面对将离散类型的属性值进行二值化处理的具体实现进行说明。假设某离散类型的属性共有Q个属性值,记为F={f1,f2,…,fQ},对于某个物品,其属性的属性值仅能是集合F中的其中一个。若某个物品的属性的属性值为fj,1≤j≤Q,则可以设置fj=1,否则设置fj=0。该处理过程称为二值化处理。因此,可以将离散类型的属性表示为一个向量,向量中的每个分量表示该属性的数值类型的属性值。
例如,假设手机这一物品的品牌属性的属性值可以是{品牌1,品牌2,品牌3},按照该顺序,则当某手机的品牌为品牌1时,其品牌属性对应的向量为(1,0,0);当某手机的品牌为品牌2时,其品牌属性对应的向量为(0,1,0);当某手机的品牌为品牌3时,其品牌属性对应的向量为(0,0,1)。上述二值化处理将属性值标准化到[0,1]区间。
下面对将连续类型的属性值进行归一化处理的具体实现进行说明。常用的归一化方法包括最大最小归一化、标准归一化等。实施例中可以使用上述任意一种归一化方法对属性值进行归一化处理。实际在选择归一化方法时,需结合后续采用的聚类算法,比如Kmeans聚类算法通常使用最大最小归一化。最大最小归一化能够将原始数据集中每个原始数据线性化转换到[0,1]范围内,归一化公式如下:
式中,yi为属性值xi的归一化结果,min(x)为某个属性的所有可能的属性值中的最小值;max(x)为某个属性的所有可能的属性值中的最大值。
标准归一化能够将原始数据集归一化到均值为0,方差为1的数据集,归一化公式如下:
式中,mean(x)为某个属性的所有可能的属性值的均值,σ为某个属性的所有可能的属性值的标准差。
步骤S505:根据属性向量的分量对应的关键属性和关键属性的权重,为多个待分类物品构建权重向量。假设某个待分类物品的关键属性为{M1,M2,…,MN};各关键属性对应的权重为{W1,W2,…,WN};属性向量为(X1,X2,…,XL),属性向量中前m个分量对应关键属性M1,第m+1个分量到第l个分量对应关键属性M2,第r个分量到第L个分量对应关键属性MN,其中,L为属性向量的长度,m+1<l<r<L。则权重向量共有L个分量,前m个分量均为W1,第m+1个分量到第l个分量均为W2,第r个分量到第L个分量均为WN。
步骤S506:从多个待分类物品的属性向量中选取预设数量的属性向量,作为初始聚类中心。假设设定聚类数目为k,则可以随机选取k个待分类物品的属性向量作为初始聚类中心。其中,k小于待分类物品的物品数量。
步骤S507:利用权重向量调整待分类物品的属性向量到当前聚类中心的距离,以得到待分类物品的属性向量与当前聚类中心的相似度。其中,当前聚类中心的初始值为初始聚类中心。该步骤使用权重向量调整了现有的相似度度量公式,按照调整后的相似度度量公式,分别计算每个待分类物品的属性向量到每个当前聚类中心的相似度,后续即可对多个待分类物品的属性向量进行聚类。
假设当前聚类中心为(C1,C2,…,CL),当前待分类物品的属性向量为(X1,X2,…,XL),权重向量为(W1,…,W1,W2,…,W2,…,WN,…,WN),权重向量中共有L个分量,W1有m个,W2有l-m个,WN有L-r+1个。当前待分类物品的属性向量与当前聚类中心的距离T的计算公式为:
式中,Ws为权重向量的第s个分量,Xs为当前待分类物品的属性向量的第s个分量,Cs为当前聚类中心的第s个分量。
实施例中,上述距离也可以采用曼哈顿距离、切比雪夫距离等方式得到。距离越小,代表两个向量越相似,将T求倒数即可得到当前待分类物品的属性向量与当前聚类中心的相似度。当分别采用曼哈顿距离、切比雪夫距离计算相似度时,当前待分类物品的属性向量与当前聚类中心的距离T的计算公式如公式5和公式6:
步骤S508:根据相似度高低,将待分类物品的属性向量分配到相应的当前聚类中心,得到预设数量的分簇。假设有A、B、C、D四个物品,需要分为两类,当前聚类中心为物品B和物品C,经步骤S507的计算,物品A与物品B的属性向量的距离为TAB,物品D与物品B的属性向量的距离为TBD,物品A与物品C的属性向量的距离为TAC,物品D与物品C的属性向量的距离为TCD,TAB>TBD,TAC<TCD,由于距离越小两个向量越相似,则将物品A和物品C归为一类,将物品B和物品D归为一类。
步骤S509:计算分簇的聚类中心,将聚类中心作为当前聚类中心。经步骤S508的处理得到聚类结果,该聚类结果中包括多个分簇,计算每个分簇的所有属性向量的距离平均值,该距离平均值即得到的新聚类中心,将该新聚类中心作为当前聚类中心。
步骤S510:重复执行步骤S507至步骤S509,直至聚类算法的准则函数满足预设条件,或者迭代次数达到预设迭代次数阈值。其中,预设条件为:准则函数收敛(即准则函数的值的变化小于等于预设变化阈值),以使每个分簇的聚类中心不再发生大范围变化。准则函数,比如可以是误差平方和准则。误差平方和准则对应的计算公式如下:
式中,V为误差平方和,Eu为第v个分簇内的当前待聚类物品的属性向量,Zv为第v个分簇的当前聚类中心的属性向量,Sv为第v个分簇的所有属性向量。
图6是本发明实施例一的物品分类结果示意图。如图6所示,有H个归属于同一品类的物品需要进行更细粒度的分类,这H个物品分别为物品1至物品H,需要将H个物品分为k类。图6中属于一行的物品即为同一分类物品。比如,物品1、物品4和物品6为分类1,物品2和物品3为分类2,物品5和物品H为分类k。
上述步骤中,步骤S501通过属性的粒度粗细以及属性之间的归属关系,构建了属性结构树;步骤S502基于搜索日志获取了用户对物品各属性的关注程度,之后结合属性结构树和上述关注程度为属性赋权;步骤S503和步骤S504确定了聚类算法的输入;步骤S505至步骤S510在设定好聚类数目的情况下,使用调整过相似度度量公式的聚类算法,对输入的属性向量进行聚类处理,实现了物品的更深层次、更细粒度的分类。其中,聚类算法可以是硬C-均值(Hard C-Means,HCM)聚类算法,HCM算法包括K均值(Kmeans)聚类算法、ISODATA算法、核K均值(Kernel K-means)聚类算法等。实施例二中聚类算法采用Kmeans聚类算法。
实施例二:
假设手机这一物品的关键属性为品牌属性、内存大小属性和屏幕尺寸属性,品牌属性可能的属性值为{品牌1,品牌2,品牌3};内存大小属性可能的属性值为{16G,32G,64G,128G,256G},该值为离散类型的属性值;屏幕尺寸属性可能的属性值为[3.5,6.5],该值为连续类型的属性值。待分类物品为物品1(品牌3,32G,4.5),物品2(品牌3,64G,5.5),物品3(品牌1,32G,4.5),物品4(品牌1,64G,6.0)。下面按照实施例一的处理过程,对四个物品进行分类。
首先,对四个物品的品牌属性进行二值化处理,依次可以得到(0,0,1),(0,0,1),(1,0,0),(1,0,0);
对四个物品的内存大小属性进行二值化处理,依次可以得到(0,1,0,0,0),(0,0,1,0,0),(0,1,0,0,0),(0,0,1,0,0);
对四个物品的屏幕尺寸属性进行归一化处理,依次可以得到0.333,0.667,0.333,0.833;
针对每个物品,将上述二值化、归一化处理的结果进行拼接得到对应的属性向量,则此处得到的属性向量分别为(0,0,1,0,1,0,0,0,0.333),(0,0,1,0,0,1,0,0,0.667),(1,0,0,0,1,0,0,0,0.333),(1,0,0,0,0,1,0,0,0.833)。上述处理对应实施例一的步骤S504。
假设按照实施例一步骤S502的处理过程,得到的品牌属性、内存大小属性、屏幕尺寸属性的权重分别为0.3,0.4,0.3,则对应属性向量,四个物品的权重向量的前3个分量为第1个权重,第4至第8个分量为第2个权重,第9个分量为第3个权重,即权重向量为(0.3,0.3,0.3,0.4,0.4,0.4,0.4,0.4,0.3)。上述处理对应实施例一的步骤S505。
假设需要将上述四个物品划分成两类,则可以使用如下方式聚类。
输入:四个待聚类点(即四个物品的属性向量),聚类数目k=2。
从待聚类点中选择k个聚类中心,作为初始聚类中心。
重复步骤:
使用公式4,计算四个待聚类点分别到各聚类中心的加权距离;
根据加权距离最小原则,将待聚类点分配给k个聚类中心,得到k个分簇;
重新计算每个分簇的聚类中心。
重复上述过程,直到每个分簇的聚类中心不变或者变化很小,或者达到预设迭代次数阈值。上述处理对应实施例一的步骤S506至步骤S510。算法执行结束后,即可得到细分后的物品分类。
通过本发明实施例的物品分类方法可以看出,通过关键属性的属性值在搜索日志中的出现次数确定该关键属性的权重,后续使用权重调整聚类算法的相似度度量公式,以对待分类物品的属性向量进行聚类,实现了自动对归属于某一品类的物品的更细层次的分类,分类效率高,同时聚类结果中同一分簇的物品之间的关联性好,提升客户体验;更新聚类中心,并按照更新后的聚类中心重新聚类,能够进一步提升聚类准确度;由于权重是由属性在搜索日志中的出现次数得到,故其反应了用户对该属性的关注程度,按照权重大小从多个属性中确定关键属性,能够对用户关注的属性向量进行聚类,提升客户体验。
图7是本发明实施例的物品关键属性生成装置的主要模块的示意图。如图7所示,本发明实施例的物品关键属性生成装置700,主要包括:
权重计算模块701,用于获取物品不同级别的属性,根据搜索日志中包含所述属性的频次,得到所述属性的初始权重。任何一个物品都具有相应的属性,比如,对于智能手机,其属性包括品牌、屏幕尺寸、电池容量、颜色等。属性具有级别,相邻级别的属性具有唯一归属关系,比如,手机属性包含基本参数和硬件参数等属性,基本参数属性包含品牌、颜色、主屏尺寸等属性。物品不同级别的属性可以从相关网站上获取。
用户在对物品进行搜索的过程中,搜索的关键词通常包含物品的属性,这些信息会记录在搜索日志中。对搜索日志进行分析,提取其中包含的属性,并统计每个属性的出现次数(即搜索日志中包含每个属性的频次),将该出现次数作为每个属性的初始权重。
权重更新模块702,用于根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重。其中,所述属性的父属性、子属性基于属性之间的归属关系得到。以计算当前属性的最终权重为例,将当前属性的父属性的初始权重与归属于父属性的属性数量相除,得到相除结果;将当前属性的初始权重、相除结果以及当前属性的子属性的初始权重之和相加,即可得到当前属性的最终权重。按照上述方式即可得到每个属性的最终权重。
属性选择模块703,用于按照所述最终权重的大小,选择最终权重大的前N个属性作为关键属性。按照最终权重由大到小的顺序,对全部属性进行排序,选取排序靠前的前N个属性,形成包含N个关键属性的关键属性集合。其中,N为正整数。
图8是本发明实施例的物品分类装置的主要模块的示意图。如图8所示,本发明实施例的物品分类装置800,主要包括:
拼接模块801,用于将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到多个待分类物品的属性向量;其中,多个待分类物品归属于同一品类。该模块首先需获取该品类内每个待分类物品的属性值,再将每个属性值进行标准化处理,以转化为数值类型的属性值。关键属性按照物品关键属性生成装置的处理过程得到。由于属性值可能是离散类型,也可能是连续类型,故转化时需要分情况处理。之后,将得到的每个待分类物品的所有关键属性的数值类型的属性值进行拼接,即可得到每个待分类物品的属性向量。
构建模块802,用于为所述多个待分类物品构建与所述属性向量的长度相同的权重向量,其中,所述权重向量的分量为所述属性向量的分量对应的关键属性的权重。权重向量的长度与属性向量的长度相同,且两个向量的对应分量对应同一个关键属性。权重向量中的每个分量均为相应关键属性的权重。
计算关键属性的权重的具体实现为:首先将关键属性的父属性的初始权重与归属于父属性的属性数量相除,得到相除结果;之后将关键属性的初始权重、相除结果以及关键属性的子属性的初始权重之和相加,得到关键属性的最终权重;将该最终权重作为关键属性的权重,或者对关键属性的最终权重进行归一化处理,将归一化处理结果作为关键属性的权重。
聚类模块803,用于将所述属性向量输入聚类算法,通过所述聚类算法计算所述待分类物品的属性向量与聚类中心的相似度,以按照所述相似度高低,对所述多个待分类物品的属性向量进行聚类得到聚类结果;其中,所述相似度是利用所述权重向量调整所述待分类物品到所述聚类中心的距离得到。
该模块需要预先调整聚类算法所采用的相似度度量公式。即将待分类物品的属性向量的分量,与聚类中心的对应分量做差后求平方;之后将权重向量的对应分量与平方结果相乘,并将多个分量的相乘结果求和后开平方即可。然后确定聚类数目后,即可将属性向量输入该调整后的聚类算法中,以按照调整后相似度度量公式计算待分类物品与聚类中心的相似度。最后按照相似度最高原则,将待分类物品的属性向量分配给聚类中心,形成与设定的聚类数目相同数量的分簇。
另外,本发明实施例的物品分类装置800还可以包括:更新重复模块(图8中未示出)。其中,更新重复模块,用于计算所述分簇的新聚类中心,将所述聚类中心更新为所述新聚类中心;重复执行计算所述待分类物品的属性向量与聚类中心的相似度的处理过程、对所述多个待分类物品的属性向量进行聚类的处理过程,以及所述聚类中心更新的处理过程,直到所述聚类算法的准则函数满足预设条件,或者迭代次数达到预设迭代次数阈值。
从以上描述可以看出,通过关键属性的属性值在搜索日志中的出现次数确定该关键属性的权重,后续使用权重调整聚类算法的相似度度量公式,以对待分类物品的属性向量进行聚类,实现了自动对归属于某一品类的物品的更细层次的分类,分类效率高,同时聚类结果中同一分簇的物品之间的关联性好,提升客户体验。
图9示出了可以应用本发明实施例的物品分类方法或物品分类装置的示例性系统架构900。
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对管理员利用终端设备901、902、903提供的搜索日志进行处理的后台管理服务器。后台管理服务器可以提取各属性的属性值的出现次数、基于出现次数确定关键属性的权重、聚类等处理,并将处理结果(例如分簇)反馈给终端设备。
需要说明的是,本申请实施例所提供的物品分类方法一般由服务器905执行,相应地,物品分类装置一般设置于服务器905中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种物品分类方法。本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种物品分类方法。
下面参考图10,其示出了适用于来实现本发明实施例的电子设备的计算机系统1000的结构示意图。图10示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有计算机系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序物品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序物品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括拼接模块、构建模块和聚类模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,拼接模块还可以被描述为“将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到所述多个待分类物品的属性向量的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到所述多个待分类物品的属性向量;为所述多个待分类物品构建与所述属性向量的长度相同的权重向量;将所述属性向量输入聚类算法,通过所述聚类算法计算所述待分类物品的属性向量与聚类中心的相似度,以按照所述相似度高低,对所述多个待分类物品的属性向量进行聚类得到聚类结果。
从以上描述可以看出,通过关键属性的属性值在搜索日志中的出现次数确定该关键属性的权重,后续使用权重调整聚类算法的相似度度量公式,以对待分类物品的属性向量进行聚类,实现了自动对归属于某一品类的物品的更细层次的分类,分类效率高,同时聚类结果中同一分簇的物品之间的关联性好,提升客户体验。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (11)
1.一种物品关键属性生成方法,其特征在于,包括:
获取物品不同级别的属性,根据搜索日志中包含所述属性的频次,得到所述属性的初始权重;
根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重;其中,所述属性的父属性、子属性基于属性之间的归属关系得到;
按照所述最终权重的大小,选择最终权重大的前N个属性作为关键属性。
2.根据权利要求1所述的方法,其特征在于,根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重,包括:
将所述属性的父属性的初始权重与归属于所述父属性的属性数量相除,得到相除结果;
将所述属性的初始权重、所述相除结果以及所述属性的子属性的初始权重之和相加,得到所述属性的最终权重。
3.根据权利要求1所述的方法,其特征在于,获取物品不同级别的属性的步骤之后,所述方法还包括:
根据属性之间的归属关系,为归属于同一品类的多个所述物品构建属性结构树;其中,所述属性结构树包括多个节点,一个所述节点对应一个所述属性;
结合所述属性结构树,确定所述属性的父属性和子属性;其中,所述父属性为所述属性对应节点的父节点的属性,所述子属性为所述属性对应节点的子节点的属性。
4.根据权利要求1至3的任一项所述的方法,其特征在于,所述方法用于信息搜索、信息查询和信息分类。
5.一种物品分类方法,其特征在于,包括:
将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到所述多个待分类物品的属性向量;其中,所述多个待分类物品归属于同一品类,所述关键属性按照权利要求1-3中任一项所述的方法生成;
为所述多个待分类物品构建与所述属性向量的长度相同的权重向量,其中,所述权重向量的分量为所述属性向量的分量对应的关键属性的权重,所述权重为按照权利要求1-3中任一项所述的方法得到的最终权重或者所述最终权重的归一化处理结果;
将所述属性向量输入聚类算法,通过所述聚类算法计算所述待分类物品的属性向量与聚类中心的相似度,以按照所述相似度高低,对所述多个待分类物品的属性向量进行聚类得到聚类结果;其中,所述相似度是利用所述权重向量调整所述待分类物品的属性向量到所述聚类中心的距离得到。
6.根据权利要求5所述的方法,其特征在于,利用所述权重向量调整所述待分类物品的属性向量到所述聚类中心的距离,以得到所述待分类物品的属性向量与所述聚类中心的相似度,包括:
将所述待分类物品的属性向量的分量,与所述聚类中心的对应分量做差后求平方;
将所述权重向量的对应分量与平方结果相乘,之后将多个分量的相乘结果求和,以得到所述待分类物品与所述聚类中心的相似度。
7.根据权利要求5所述的方法,其特征在于,所述聚类结果包括多个分簇,所述方法还包括:
聚类中心更新:计算所述分簇的新聚类中心,将所述聚类中心更新为所述新聚类中心;
重复执行计算所述待分类物品的属性向量与聚类中心的相似度的步骤、对所述多个待分类物品的属性向量进行聚类的步骤,以及所述聚类中心更新的步骤,直到所述聚类算法的准则函数满足预设条件,或者迭代次数达到预设迭代次数阈值。
8.一种物品关键属性生成装置,其特征在于,包括:
权重计算模块,用于获取物品不同级别的属性,根据搜索日志中包含所述属性的频次,得到所述属性的初始权重;
权重更新模块,用于根据所述属性的父属性的初始权重和子属性的初始权重,更新所述属性的初始权重,得到对应的最终权重;其中,所述属性的父属性、子属性基于属性之间的归属关系得到;
属性选择模块,用于按照所述最终权重的大小,选择最终权重大的前N个属性作为关键属性。
9.一种物品分类装置,其特征在于,包括:
拼接模块,用于将多个待分类物品的关键属性的属性值分别进行标准化处理,拼接标准化处理结果得到所述多个待分类物品的属性向量;其中,所述多个待分类物品归属于同一品类,所述关键属性按照权利要求8所述的装置生成;
构建模块,用于为所述多个待分类物品构建与所述属性向量的长度相同的权重向量,其中,所述权重向量的分量为所述属性向量的分量对应的关键属性的权重,所述权重为权利要求8所述的装置得到的最终权重或者所述最终权重的归一化处理结果;
聚类模块,用于将所述属性向量输入聚类算法,通过所述聚类算法计算所述待分类物品的属性向量与聚类中心的相似度,以按照所述相似度高低,对所述多个待分类物品的属性向量进行聚类得到聚类结果;其中,所述相似度是利用所述权重向量调整所述待分类物品的属性向量到所述聚类中心的距离得到。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911174009.3A CN111126442B (zh) | 2019-11-26 | 2019-11-26 | 一种物品关键属性生成方法、物品分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911174009.3A CN111126442B (zh) | 2019-11-26 | 2019-11-26 | 一种物品关键属性生成方法、物品分类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126442A true CN111126442A (zh) | 2020-05-08 |
CN111126442B CN111126442B (zh) | 2021-04-30 |
Family
ID=70496742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911174009.3A Active CN111126442B (zh) | 2019-11-26 | 2019-11-26 | 一种物品关键属性生成方法、物品分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126442B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860575A (zh) * | 2020-06-05 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN113570428A (zh) * | 2021-07-23 | 2021-10-29 | 上海普洛斯普新数字科技有限公司 | 一种用于线上商品一致性筛选的系统 |
CN113763061A (zh) * | 2020-06-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 相似物品聚合的方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077875A1 (en) * | 2006-08-30 | 2008-03-27 | International Business Machines Corporation | Method And Computer System for Displaying A Weighted Tree Based on Hyperbolic Geometry |
CN101930462A (zh) * | 2010-08-20 | 2010-12-29 | 华中科技大学 | 一种综合的本体相似度检测方法 |
CN102043863A (zh) * | 2010-12-30 | 2011-05-04 | 浙江大学 | 一种Web服务聚类的方法 |
US20110264682A1 (en) * | 2007-10-24 | 2011-10-27 | Nhn Corporation | System for generating recommendation keyword of multimedia contents and method thereof |
CN102411591A (zh) * | 2010-09-21 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种信息处理的方法及设备 |
CN103793403A (zh) * | 2012-10-31 | 2014-05-14 | 中国电信股份有限公司 | 推送与搜索结果相关联信息的方法与装置 |
CN108763420A (zh) * | 2018-05-24 | 2018-11-06 | 广州视源电子科技股份有限公司 | 数据对象的分类方法、装置、终端和计算机可读存储介质 |
CN109697641A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 计算商品相似度的方法和装置 |
CN109978007A (zh) * | 2019-02-25 | 2019-07-05 | 南京理工大学 | 一种基于属性权重聚类的疾病危险因素提取方法 |
CN110046634A (zh) * | 2018-12-04 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 聚类结果的解释方法和装置 |
-
2019
- 2019-11-26 CN CN201911174009.3A patent/CN111126442B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077875A1 (en) * | 2006-08-30 | 2008-03-27 | International Business Machines Corporation | Method And Computer System for Displaying A Weighted Tree Based on Hyperbolic Geometry |
US20110264682A1 (en) * | 2007-10-24 | 2011-10-27 | Nhn Corporation | System for generating recommendation keyword of multimedia contents and method thereof |
CN101930462A (zh) * | 2010-08-20 | 2010-12-29 | 华中科技大学 | 一种综合的本体相似度检测方法 |
CN102411591A (zh) * | 2010-09-21 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种信息处理的方法及设备 |
CN102043863A (zh) * | 2010-12-30 | 2011-05-04 | 浙江大学 | 一种Web服务聚类的方法 |
CN103793403A (zh) * | 2012-10-31 | 2014-05-14 | 中国电信股份有限公司 | 推送与搜索结果相关联信息的方法与装置 |
CN109697641A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 计算商品相似度的方法和装置 |
CN108763420A (zh) * | 2018-05-24 | 2018-11-06 | 广州视源电子科技股份有限公司 | 数据对象的分类方法、装置、终端和计算机可读存储介质 |
CN110046634A (zh) * | 2018-12-04 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 聚类结果的解释方法和装置 |
CN109978007A (zh) * | 2019-02-25 | 2019-07-05 | 南京理工大学 | 一种基于属性权重聚类的疾病危险因素提取方法 |
Non-Patent Citations (5)
Title |
---|
BIN SHI ET AL.: "Generating a Concept Hierarchy for Sentiment Analysis", 《 2008 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS》 * |
秦怀强 等: "一种基于属性加权的平均单一依赖估计改进算法", 《统计与信息论坛》 * |
蒋士淼: "面向社会化媒体平台在线投诉处理的知识推荐研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
蒋淑琴 等: "基于在线客户评论的客户细分研究", 《管理学报》 * |
陈放 等: "面向商品评论的二元情感认知模型", 《中文信息学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763061A (zh) * | 2020-06-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 相似物品聚合的方法和装置 |
CN111860575A (zh) * | 2020-06-05 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN113570428A (zh) * | 2021-07-23 | 2021-10-29 | 上海普洛斯普新数字科技有限公司 | 一种用于线上商品一致性筛选的系统 |
CN113570428B (zh) * | 2021-07-23 | 2024-02-02 | 上海普洛斯普新数字科技有限公司 | 一种用于线上商品一致性筛选的系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111126442B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126442B (zh) | 一种物品关键属性生成方法、物品分类方法和装置 | |
CN111222556B (zh) | 一种基于决策树算法识别用电类别的方法及系统 | |
US9536201B2 (en) | Identifying associations in data and performing data analysis using a normalized highest mutual information score | |
CN111209347B (zh) | 一种混合属性数据聚类的方法和装置 | |
CN109767150A (zh) | 信息推送方法和装置 | |
WO2011087904A1 (en) | Matching of advertising sources and keyword sets in online commerce platforms | |
CN110111167A (zh) | 一种确定推荐对象的方法和装置 | |
CN110866782A (zh) | 一种客户分类方法、系统以及电子设备 | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
US10810458B2 (en) | Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors | |
CN111353838A (zh) | 自动化校验商品类目的方法和装置 | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
US11556595B2 (en) | Attribute diversity for frequent pattern analysis | |
CN110599281A (zh) | 一种确定目标店铺的方法和装置 | |
CN112667770A (zh) | 一种对物品进行分类的方法和装置 | |
CN114677174A (zh) | 一种计算未上架物品销量的方法和装置 | |
CN114168733A (zh) | 一种基于复杂网络的法规检索方法及系统 | |
CN113722593A (zh) | 事件数据处理方法、装置、电子设备和介质 | |
CN112784861A (zh) | 相似度的确定方法、装置、电子设备和存储介质 | |
CN111340578A (zh) | 一种商品关联关系的生成方法、装置、介质及电子设备 | |
CN112948589B (zh) | 文本分类方法、装置和计算机可读存储介质 | |
CN110941714A (zh) | 分类规则库构建方法、应用分类方法及装置 | |
CN111178375B (zh) | 用于生成信息的方法和装置 | |
CN109726882A (zh) | 一种对对象进行评价的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |