CN111860575A - 物品属性信息的处理方法、装置、电子设备和存储介质 - Google Patents
物品属性信息的处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111860575A CN111860575A CN202010503401.4A CN202010503401A CN111860575A CN 111860575 A CN111860575 A CN 111860575A CN 202010503401 A CN202010503401 A CN 202010503401A CN 111860575 A CN111860575 A CN 111860575A
- Authority
- CN
- China
- Prior art keywords
- attribute
- attribute information
- target
- value
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012216 screening Methods 0.000 claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 230000002159 abnormal effect Effects 0.000 claims abstract description 29
- 238000007635 classification algorithm Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000003672 processing method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种物品属性信息的处理方法及装置,涉及智能搜索领域,可通过深度学习算法实现。具体实现方案为:获取目标物品的属性信息,其中属性信息包括属性名称及其属性值;从属性信息中获取不满足预设筛选条件的目标属性信息,并提取目标属性信息的属性特征;根据分类算法对属性特征进行处理,预测目标属性信息中各属性值的分类标签,并将目标属性信息以及各属性值的分类标签存储到当前属性表中;从当前属性表中获取与目标物品匹配的候选物品,根据预设聚类算法对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇;根据多个属性值类簇中各属性值的分类标签筛选目标物品和候选物品的属性信息中的正常属性值和异常属性值。
Description
技术领域
本申请涉及数据处理领域,尤其涉及智能搜索领域相关的物品属性信息的处理方法、装置、电子设备和存储介质。
背景技术
在电商类物品垂直搜索引擎中,筛选区通常展示不同物品的属性名和属性值供用户检索后进行筛选。搜索引擎收录的物品物料来自不同的站点的不同店家,物品属性字段填写标准不一因而质量差异较大,为方便搜索引擎进行检索与展示,需对物品属性进行审核。审核的内容包括对已入库物品,判断属性填写内容是否正确、是否完整或冗余、是否满足平台规定、是否格式规范、是否填写在正确的属性名下面以及是否与库内同类物品的属性同义不同字,判断后将有效的属性建入索引库,同时对错误属性进行修改或丢弃。
发明内容
提供了一种物品属性信息的处理方法、装置、电子设备以及存储介质。
根据第一方面,提供了一种物品属性信息的处理方法,包括:
获取目标物品的属性信息,其中,所述属性信息包括属性名称和对应的属性值;
从所述属性信息中获取不满足预设筛选条件的目标属性信息,并提取所述目标属性信息的属性特征;
根据预设的分类算法对所述属性特征进行处理,预测所述目标属性信息中各属性值的分类标签,并将所述目标属性信息以及所述各属性值的分类标签存储到当前属性表中;
从所述当前属性表中获取与所述目标物品匹配的候选物品,根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇;
根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常属性值和异常属性值。
根据第二方面,提供了一种物品属性信息的处理装置,包括:
第一获取模块,用于获取目标物品的属性信息,其中,所述属性信息包括属性名称和对应的属性值;
第二获取模块,用于从所述属性信息中获取不满足预设筛选条件的目标属性信息,并提取所述目标属性信息的属性特征;
预测模块,用于根据预设的分类算法对所述属性特征进行处理,预测所述目标属性信息中各属性值的分类标签;
存储模块,用于将所述目标属性信息以及所述各属性值的分类标签存储到当前属性表中;
第三获取模块,用于从所述当前属性表中获取与所述目标物品匹配的候选物品;
聚类模块,用于根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇;
属性值筛选模块,用于根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常属性值和异常属性值。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的物品属性信息的处理方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的物品属性信息的处理方法。
根据本申请实施例的技术方案,在获取目标物品的属性信息之后,可从属性信息中获取不满足预设筛选条件的目标属性信息,以实现对目标物品的属性信息进行初步校验,将初步校验筛选到的目标属性信息加入到物品的当前属性表中,之后,可根据属性信息从当前属性表中获取与目标物品匹配的所有候选物品,再根据目标物品的属性信息和候选物品的属性信息构成相似物品的属性矩阵,对该相似物品的属性矩阵按属性值进行聚类,得到多个属性值类簇,进而基于多个属性值类簇中各属性值的分类标签筛选出目标物品和候选物品的属性信息中的正常属性值和异常属性值,为电商搜索引擎的筛选区提供干净的数据源,改善筛选区的质量。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是是根据本申请一个实施例的物品属性信息的处理方法的流程图;
图2是根据本申请实施例的当前属性表的示例图;
图3是根据本申请另一个实施例的物品属性信息的处理方法的流程图;
图4是根据本申请又一个实施例的物品属性信息的处理方法的流程图;
图5是根据本申请一个实施例的物品属性信息的处理装置的结构框图;
图6是根据本申请另一个实施例的物品属性信息的处理装置的结构框图;
图7是根据本申请又一个实施例的物品属性信息的处理装置的结构框图;
图8是根据本申请再一个实施例的物品属性信息的处理装置的结构框图;
图9是用来实现本申请实施例的物品属性信息的处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请一个实施例的物品属性信息的处理方法的流程图。需要说明的是,本申请实施例的物品属性信息的处理方法可应用于本申请实施例的物品属性信息的处理装置。其中,在本申请的实施例中,所述物品可为商品,或者,广告等。
如图1所示,该物品属性信息的处理方法可以包括:
步骤101,获取目标物品的属性信息,其中,属性信息包括属性名称和对应的属性值。
举例而言,以物品为商品为例,属性名称可包括品牌、风格、材料、重量等,属性值是属性名称的具体取值,比如风格的取值欧风、重量取值50kg、材料取值金属。
步骤102,从属性信息中获取不满足预设筛选条件的目标属性信息,并提取目标属性信息的属性特征。
在本申请的一些实施例中,所述从属性信息中获取不满足预设筛选条件的目标属性信息的实现方式可如下:识别属性信息中各属性名称和对应的属性值是否存在于预设的黑名单词典中;若属性名称和/或属性名称对应的属性值不存在于黑名单词典中,则将不存在于黑名单词典中的属性信息确定为不满足预设筛选条件的目标属性信息。也就是说,可采用人工指定的黑名单词典对属性信息进行过滤,将存在于黑名单词典中的属性信息认为不符合搜索引擎平台规定,认为该属性信息为无效属性,对于不存在于黑名单词典中的属性信息确定为所述目标属性信息。
在本申请的一些实施例中,所述从属性信息中获取不满足预设筛选条件的目标属性信息的实现方式可如下:针对属性信息中带单位的属性值,采用正则表达式识别是否能从带单位的属性值中提取到单位;若不能提取到单位,则将不能提取到单位的属性值所对应的属性信息确定为不满足预设筛选条件的目标属性信息。也就是说,对于带单位的属性值,首先确定其单位,定义一个单位符号表,采用正则表达式提取单位,若不能提取到有效单位,则认为是属性正确与否未知,此时可将该属性信息确定为所述目标属性信息,若能匹配到单位,则将单位换算到基本单位同时修改属性值的大小,此外,提取单位后将所有中文单位统计修改为同义的英文单位。
需要说明的是,在本申请的实施例中,满足预设筛选条件的属性信息可理解为无效属性信息。作为一种示例,物品的属性无效的情况可包括:1)属性名称或属性值不符合搜索引擎平台规定;2)属性名称与属性值不对应,比如将属性值“50kg”填入属性名称“风格”下;3)属性值不规范,比如,有的带单位有的不带单位;4)属性值不正确,比如批量,填了负数;5)属性值重复,比如重复内容填写的是『3kg5kg』;6)属性值不完整。
举例而言,针对上述情况1),采用人工指定的黑名单词典对属性进行过滤,不符合的属性直接认为不正确,符合的属性进行下面步骤。
针对情况2),训练属性值的神经网络分类算法,类别是属性名称,判断属性值最可能的top3(即排列前3)属性,若与当前填写的属性名称不符合,则认为是属性正确与否未知,若与当前属性名相符,则进如下面步骤。
针对情况3),对于带单位的属性值,首先确定其单位,定义一个单位符号表,采用正则表达式提取单位,若不能提取到有效单位,则认为是属性正确与否未知,若能匹配到单位,则将单位换算到基本单位同时修改属性值的大小,此外,提取单位后将所有中文单位统计修改为同义的英文单位。
针对情况4)、情况5)和情况6)以及上述情况1)、2)和3)过程中的属性值正确与否未知的情况,采用步骤103中的分类算法对属性进行分析判断。
需要说明的是,在采用步骤103中的分类算法对属性进行分析判断之前,可先提取所述目标属性信息的属性特征。在本申请的一些实施例中,可基于物品的标题、描述(如详情描述)、评论等信息,提取所述目标属性信息的属性特征。例如,如下面表格1所示,为用于属性值分类的属性特征:
表格1属性值分类的统计特征
步骤103,根据预设的分类算法对属性特征进行处理,预测目标属性信息中各属性值的分类标签,并将目标属性信息以及各属性值的分类标签存储到当前属性表中。
在本申请的一些实施例中,上述分类算法可为二类别的分类器。其中,可以是通过网络爬虫爬取等方式获得的样本数据,并通过上述情况1)、情况2)和情况3)的筛选规则对部分样本数据进行筛选,以筛选出正确属性值,将具有正确属性值的样本数据以及剩余样本数据作为训练数据,并基于该训练数据来训练上述分类器。其中,上述分类器可采用gbdt(GradientBoostingDecisionTree,梯度提升迭代决策树)模型。
在本步骤中,可将目标属性信息的属性特征输入至上述分类器。利用分类器对目标属性信息之中所有属性值进行分类,以得到所述属性信息之中各属性值的分类标签,其中,该分类标签可包括正样本标签和负样本标签,在本申请中,可将分类器输出结果之中置信度高的属性值标记为正样本,置信度低的属性值标记为负样本。
在得到目标属性信息中各属性值的分类标签之后,可将所述目标属性信息以及所述各属性值的分类标签存储到当前属性表中。在本申请的一些实施例中,可判断目标属性信息中的属性名称是否已存在于当前属性表中;如果未存在于当前属性表中,则将目标属性信息中的属性名称新增至当前属性表,并基于新增的属性名称在当前属性表中的位置,将新增的属性名称对应的属性值添加至当前属性表中的对应位置;如果存在于当前属性表中,则基于目标属性信息中的属性名称在当前属性表中的位置,将目标属性信息之中属性名称对应的属性值添加至当前属性表中的对应位置。
其中,在本申请的实施例中,所述判断目标属性信息中的属性名称是否已存在于当前属性表中的实现过程可如下:计算目标属性信息中的属性名称与当前属性表中各属性名称的第一编辑距离;计算目标属性信息中的属性名称与当前属性表中各属性名称的语义相似度;根据计算得到的第一编辑距离和语义相似度,判断是否能够从当前属性表中找出第一编辑距离最小且语义相似度大于目标值的属性名称;若否,则判定目标属性信息中的属性名称未存在于当前属性表中;若是,则判定目标属性信息中的属性名称存在于当前属性表中。
举例而言,可先判断该属性名称X是否已经在当前属性表中出现,其中,需通过编辑距离找出距离小的属性名列表,然后根据语义相似度从列表中选出最近的且相似度大于阈值(如0.9)的1个属性名称Y,若没有找到,则将该属性名称X新增到当前属性表中,若找到,则将该属性称X添加到相似属性名称Y的拉链下面。同时将属性名称X对应的属性值添加到当前属性表对应的位置。当前属性表的样式如图2所示,其中,该当前属性表中展示的物品为滚桶机对应的属性名称与属性值,其中图2所示的属性值中,颜色浅的字体对应分类标签为1(即正样本),颜色深的字体对应标签为0(即负样本)。
步骤104,从当前属性表中获取与目标物品匹配的候选物品,根据预设聚类算法对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇。
也就是说,在将目标属性信息以及各属性值的分类标签存储到当前属性表中之后,可按照属性信息之中的标题属性,对当前属性表中的数据进行按行聚类,因为当前属性表中每一行代表一个物品信息,因此,对当前属性表中的数据进行按行聚类之后,可将当前属性表中相似物品聚为一类,从而可以找到目标物品的所有相似物品,该相似物品即为所述候选物品。
在从当前属性表中获取与目标物品匹配的候选物品之后,可根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。也就是说,在从当前属性表中获取与目标物品匹配的候选物品之后,可对当前属性表按列进行聚类,以将属于同一类的属性值聚到一个属性类簇中。
可以理解由于属性值可分为数值型属性值和非数值型属性值。因此,在对当前属性表中的各属性值进行聚类时,可针对不同的属性值类型,采用不同的聚类方式。举例而言,当所述属性信息之中的属性值为数值型属性值时,可采用预设的字符串聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
又如,当所述属性信息之中的属性值为非数值型属性值时,可提取所述目标属性信息之中属性值的第一语义特征,以及所述候选物品的属性信息之中属性值的第二语义特征,并根据所述预设聚类算法、所述第一语义特征和所述第二语义特征,对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
也就是说,在对当前属性表中的各属性值进行聚类时,判断属性值是数值型还是非数值型,对于数值型属性值采用字符串聚类方法,比如AP(AffinityPropagation,一种聚类算法)聚类算法,距离函数采用Levensthtein距离函数,对于数值型属性值的单位的中英文,预先定义出同义词对,认为它们的距离为0,距离计算借助BK-tree(一种数据结构,用于根据编辑距离概念执行拼写检查)进行加速。对于非数值型属性值,抽取属性值的语义特征向量,拼接上表格1中的统计特征向量,逐列对属性进行DBSCAN聚类。若当前属性值列中既有数值型属性又有非数值型属性,则可将它们分成2组分别聚类。
步骤105,根据多个属性值类簇中各属性值的分类标签筛选目标物品和候选物品的属性信息中的正常属性值和异常属性值。
在本申请的一些实施例中,遍历每个属性值类簇,判断属性值类簇中属性值的总数占多个属性值类簇中属性值的总数的第一比例是否超过第一阈值,并判断属性值类簇中分类标签为正样本的属性值的总数占属性值类簇中属性值的总数的第二比例是否超过第二阈值,若第一比例超过第一阈值,且第二比例超过第二阈值,则将属性值类簇中的属性值,确定为标准属性值;若第一比例未超过第一阈值,和/或,第二比例未超过第二阈值,则将属性值类簇中的属性值,确定为异常属性值。
也就是说,遍历每个属性值类簇,判断属性值类簇中属性值的总数占多个属性值类簇中属性值的总数的第一比例是否超过第一阈值(t1=0.05),判断属性值类簇中分类标签为正样本的属性值的总数占属性值类簇中属性值的总数的第二比例是否超过第二阈值(如t2=0.7),若第一比例超过第一阈值,且第二比例超过第二阈值,则认为该类簇所有属性值确定为正常属性值,并将该正常属性值的分类标签更新为1,即将该类簇所有属性值的分类标签更新为1;若第一比例未超过第一阈值,和/或,第二比例未超过第二阈值,则认为该类簇所有属性值确定为异常属性值,并将异常属性值的分类标签更新为0,即将该类簇所有属性值的分类标签更新为0,属性值数少的类簇可认为是离群点。
根据本申请实施例的物品属性信息的处理方法,在获取目标物品的属性信息之后,可从属性信息中获取不满足预设筛选条件的目标属性信息,以实现对目标物品的属性信息进行初步校验,将初步校验筛选到的目标属性信息加入到物品的当前属性表中,之后,可根据属性信息从当前属性表中获取与目标物品匹配的所有候选物品,再根据目标物品的属性信息和候选物品的属性信息构成相似物品的属性矩阵,对该相似物品的属性矩阵按属性值进行聚类,得到多个属性值类簇,进而基于多个属性值类簇中各属性值的分类标签筛选出目标物品和候选物品的属性信息中的正常属性值和异常属性值,可以有效帮助电商垂类搜索引擎对来自不同站点不同厂家提交的物品属性数据进行审核和清洗,有效提高了入库物品属性的质量,从而可以得到融合多个站点的物品的正常属性,为电商搜索引擎的筛选区提供干净的数据源,改善筛选区的质量。
需要说明的是,在将目标属性信息以及各属性值的分类标签存储到当前属性表中之后,可对当前属性表按行进行聚类,以将当前属性表中属于同一种类的物品聚类到一起。具体而言,在本申请的一些实施例中,如图3所示,该物品属性信息的处理方法可以包括:
步骤301,获取目标物品的属性信息,其中,属性信息包括属性名称和对应的属性值。
步骤302,从属性信息中获取不满足预设筛选条件的目标属性信息,并提取目标属性信息的属性特征。
步骤303,根据预设的分类算法对属性特征进行处理,预测目标属性信息中各属性值的分类标签,并将目标属性信息以及各属性值的分类标签存储到当前属性表中。
步骤304,提取当前属性表中各物品的属性信息之中标题属性值的关键词。
在将目标属性信息以及各属性值的分类标签存储到当前属性表中之后,可提取当前属性表中各物品属性信息之中标题属性值的关键词。其中,该关键词可为物品的标题属性值中的核心词,以物品为商品为例,该关键词可为核心商品词。
步骤305,根据关键词,计算各物品的属性信息之间的相似度。
也就是说,可提取关键词的语义向量,基于关键词的语义向量,计算各物品的属性信息之间的相似度。
步骤306,根据相似度对当前属性表中的物品进行聚类,以从当前属性表中获取与目标物品匹配的候选物品。
举例而言,以物品为商品为例,按商品标题聚类,对当前属性表中每个SKU(Stockkeeping Unit,库存保有单元)的标题属性值,从中提取出核心关键词,关键词一般为3-5个汉字,然后按关键词将当前属性表中所有SKU分组,提取核心关键词的语义向量,采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise,一种基于密度的聚类算法)进行聚类,生成一定数目的SKU类簇,基于SKU类簇,可以获得获取与所述目标物品匹配的候选物品,即将与目标物品处于同一个SKU类簇的物品作为该目标物品的候选物品,即属于同一个SKU类簇的物品可认为是相似物品。按行聚类的另一个好处在于可以将属于同一种物品的不同SKU的同种属性放到一起,便于后续无单位的数值型属性的单位推导。
步骤307,根据预设聚类算法对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇。
在从当前属性表中获取与目标物品匹配的候选物品之后,可根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。也就是说,在从当前属性表中获取与目标物品匹配的候选物品之后,可对当前属性表按列进行聚类,以将属于同一类的属性值聚到一个属性类簇中。
可以理解由于属性值可分为数值型属性值和非数值型属性值。因此,在对当前属性表中的各属性值进行聚类时,可针对不同的属性值类型,采用不同的聚类方式。举例而言,当所述属性信息之中的属性值为数值型属性值时,可采用预设的字符串聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
又如,当所述属性信息之中的属性值为非数值型属性值时,可提取所述目标属性信息之中属性值的第一语义特征,以及所述候选物品的属性信息之中属性值的第二语义特征,并根据所述预设聚类算法、所述第一语义特征和所述第二语义特征,对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
也就是说,在对当前属性表中的各属性值进行聚类时,判断属性值是数值型还是非数值型,对于数值型属性值采用字符串聚类方法,比如AP聚类算法,距离函数采用Levensthtein距离函数,对于数值型属性值的单位的中英文,预先定义出同义词对,认为它们的距离为0,距离计算借助BK-tree进行加速。对于非数值型属性值,抽取属性值的语义特征向量,拼接上表格1中的统计特征向量,逐列对属性进行DBSCAN聚类。若当前属性值列中既有数值型属性又有非数值型属性,则可将它们分成2组分别聚类。
步骤308,根据多个属性值类簇中各属性值的分类标签筛选目标物品和候选物品的属性信息中的正常属性值和异常属性值。
根据本申请实施例的物品属性信息的处理方法,在将目标属性信息以及各属性值的分类标签存储到当前属性表中之后,可对当前属性表按行进行聚类,以将当前属性表中属于同一种类的物品聚类到一起,以找到所有相似物品,之后,再根据相似商品的所有属性构成属性矩阵,对同一种类的相似物品所对应的属性矩阵进行按列聚类,从而筛选出当前属性表中正常属性值和异常属性值,可以大大提高属性识别的准确性,进一步提高了入库物品属性的质量。
需要说明的是,在得到当前属性表中的正常属性值和异常属性值之后,可将正常属性值添加到标准属性表中,以便基于标准属性表中的属性信息对分类算法进行优化训练,并将异常属性值添加到脏属性表中,以便在目标物品的个数超过一定数量时,将脏属性表中的至少部分属性信息添加到当前属性表中进行属性值的重新审核,以保证针对目标物品的属性信息的审核结果的准确性。在本申请的一些实施例中,如图4所示,该物品属性信息的处理方法可以包括:
步骤401,获取目标物品的属性信息,其中,属性信息包括属性名称和对应的属性值。
步骤402,从属性信息中获取不满足预设筛选条件的目标属性信息,并提取目标属性信息的属性特征。
步骤403,根据预设的分类算法对属性特征进行处理,预测目标属性信息中各属性值的分类标签,并将目标属性信息以及各属性值的分类标签存储到当前属性表中。
步骤404,从当前属性表中获取与目标物品匹配的候选物品,根据预设聚类算法对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇。
在从当前属性表中获取与目标物品匹配的候选物品之后,可根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。也就是说,在从当前属性表中获取与目标物品匹配的候选物品之后,可对当前属性表按列进行聚类,以将属于同一类的属性值聚到一个属性类簇中。
可以理解由于属性值可分为数值型属性值和非数值型属性值。因此,在对当前属性表中的各属性值进行聚类时,可针对不同的属性值类型,采用不同的聚类方式。举例而言,当所述属性信息之中的属性值为数值型属性值时,可采用预设的字符串聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
又如,当所述属性信息之中的属性值为非数值型属性值时,可提取所述目标属性信息之中属性值的第一语义特征,以及所述候选物品的属性信息之中属性值的第二语义特征,并根据所述预设聚类算法、所述第一语义特征和所述第二语义特征,对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
也就是说,在对当前属性表中的各属性值进行聚类时,判断属性值是数值型还是非数值型,对于数值型属性值采用字符串聚类方法,比如AP(AffinityPropagation,一种聚类算法)聚类算法,距离函数采用Levensthtein距离函数,对于数值型属性值的单位的中英文,预先定义出同义词对,认为它们的距离为0,距离计算借助BK-tree(一种数据结构,用于根据编辑距离概念执行拼写检查)进行加速。对于非数值型属性值,抽取属性值的语义特征向量,拼接上表格1中的统计特征向量,逐列对属性进行DBSCAN聚类。若当前属性值列中既有数值型属性又有非数值型属性,则可将它们分成2组分别聚类。
步骤405,根据多个属性值类簇中各属性值的分类标签筛选目标物品和候选物品的属性信息中的正常属性值和异常属性值。
步骤406,将目标物品和候选物品的属性信息中的正常属性值添加至标准属性值。
需要说明的是,一开始标准属性表为空,在将正常属性值添加至标准属性值时,需对正常属性值以新增或归一的方式加入标准属性表。例如,可将不同属性值类簇中离簇中心最新的属性值C直接新增到标准属性表,而同一个属性值类簇的其属性值分2类分别进行处理。其中,非数值型属性值直接进行归一化为C,而数值型则不进行归一化,判断出现次数若比较多且与类中心编辑距离小则直接新增,否则不新增。
步骤407,将目标物品和候选物品的属性信息中的异常属性值添加至脏属性表。
需要说明的是,在本申请的一些实施例中,当目标物品的个数大于预设阈值时,将脏属性表中的至少部分物品的属性信息添加至当前属性表中。举例而言,由于不断有新的SKU加入到商品库中,需要不断对新加入的SKU进行初步检验与当前属性表中的数据更新,当新加入的SKU数量超过商品库中数量的十分之一时,此时需要对当前属性表进行重新整理,脏属性表中的至少部分属性值添加入当前属性表,以更新当前属性表,并对更新后的当前属性表进行按行聚类与按列聚类的处理,以识别对当前属性表之中属性信息中的异常属性值和正常属性值。
步骤408,将标准属性值中的属性信息作为训练数据。
可选地,将标准属性值提供给审核专家进行人工的抽样审核,此审核过程成本较低。在人工审核之后,可将审核后的标准属性表中的属性信息作为训练数据。
步骤409,基于训练数据对分类算法进行继续训练。
也就是说,可将标准属性值中的属性信息作为训练数据,对上述分类算法进行优化训练。
根据本申请实施例的物品属性信息的处理方法,在得到当前属性表中的正常属性值和异常属性值之后,可将正常属性值添加到标准属性表中,以便基于标准属性表中的属性信息对分类算法进行优化训练,并将异常属性值添加到脏属性表中,以便在目标物品的个数超过一定数量时,将脏属性表中的至少部分属性信息添加到当前属性表中进行属性值的重新审核,以保证针对目标物品的属性信息的审核结果的准确性,可以自动生成标准化的属性表,提高了电商垂类搜索引擎收录商品时的数据质量,改善电商搜索页的筛选区质量。
为了实现上述实施例,本申请还提出了一种物品属性信息的处理装置。
如图5所示,该物品属性信息的处理装置500可以包括:第一获取模块501、第二获取模块502、预测模块503、存储模块504、第三获取模块505、聚类模块506和属性值筛选模块507。
具体地,第一获取模块501,用于获取目标物品的属性信息,其中,属性信息包括属性名称和对应的属性值;
第二获取模块502,用于从属性信息中获取不满足预设筛选条件的目标属性信息,并提取目标属性信息的属性特征;在本申请的一些实施例中,第二获取模块502具体用于:识别属性信息中各属性名称和对应的属性值是否存在于预设的黑名单词典中;若属性名称和/或属性名称对应的属性值不存在于黑名单词典中,则将不存在于黑名单词典中的属性信息确定为不满足预设筛选条件的目标属性信息。
在本申请的一些实施例中,第二获取模块502还用于:针对属性信息中带单位的属性值,采用正则表达式识别是否能从带单位的属性值中提取到单位;若不能提取到单位,则将不能提取到单位的属性值所对应的属性信息确定为不满足预设筛选条件的目标属性信息。
预测模块503,用于根据预设的分类算法对属性特征进行处理,预测目标属性信息中各属性值的分类标签;
存储模块504,用于将目标属性信息以及各属性值的分类标签存储到当前属性表中;在本申请的一些实施例中,存储模块504具体用于:判断目标属性信息中的属性名称是否已存在于当前属性表中;如果未存在于当前属性表中,则将目标属性信息中的属性名称新增至当前属性表,并基于新增的属性名称在当前属性表中的位置,将新增的属性名称对应的属性值及其分类标签添加至当前属性表中的对应位置;如果存在于当前属性表中,则基于目标属性信息中的属性名称在当前属性表中的位置,将目标属性信息之中属性名称对应的属性值及其分类标签添加至当前属性表中的对应位置。
在本申请的实施例中,存储模块504具体用于:计算目标属性信息中的属性名称与当前属性表中各属性名称的第一编辑距离;计算目标属性信息中的属性名称与当前属性表中各属性名称的语义相似度;根据计算得到的第一编辑距离和语义相似度,判断是否能够从当前属性表中找出第一编辑距离最小且语义相似度大于目标值的属性名称;若否,则判定目标属性信息中的属性名称未存在于当前属性表中;若是,则判定目标属性信息中的属性名称存在于当前属性表中。
第三获取模块505,用于从当前属性表中获取与目标物品匹配的候选物品;在本申请的一些实施例中,第三获取模块505具体用于:提取当前属性表中各物品的属性信息之中标题属性值的关键词;根据关键词,计算各物品的属性信息之间的相似度;根据相似度对当前属性表中的物品进行聚类,以从当前属性表中获取与目标物品匹配的候选物品。
聚类模块506,用于根据预设聚类算法对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇;在本申请的一些实施例中,当属性信息之中的属性值为数值型属性值时,聚类模块506具体用于:采用预设的字符串聚类算法对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇。
在本申请的一些实施例中,当属性信息之中的属性值为非数值型属性值时,聚类模块506具体用于:提取目标属性信息之中属性值的第一语义特征,以及候选物品的属性信息之中属性值的第二语义特征;根据预设聚类算法、第一语义特征和第二语义特征,对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇。
属性值筛选模块507,用于根据多个属性值类簇中各属性值的分类标签筛选目标物品和候选物品的属性信息中的正常属性值和异常属性值。在本申请的一些实施例中,属性值筛选模块507具体用于:遍历每个属性值类簇,判断属性值类簇中属性值的总数占多个属性值类簇中属性值的总数的第一比例是否超过第一阈值;判断属性值类簇中分类标签为正样本的属性值的总数占属性值类簇中属性值的总数的第二比例是否超过第二阈值;若第一比例超过第一阈值,且第二比例超过第二阈值,则将属性值类簇中的属性值,确定为标准属性值;若第一比例未超过第一阈值,和/或,第二比例未超过第二阈值,则将属性值类簇中的属性值,确定为异常属性值。
在本申请的一些实施例中,如图6所示,物品属性信息的处理装置500还包括:第一添加模块508和第二添加模块509。其中,第一添加模块508,用于将目标物品和候选物品的属性信息中的正常属性值添加至标准属性值;第二添加模块509,用于将目标物品和候选物品的属性信息中的异常属性值添加至脏属性表。
在本申请的一些实施例中,如图7所示,物品属性信息的处理装置500还包括:更新模块510。其中,更新模块510,用于当目标物品的个数大于预设阈值时,将脏属性表中的至少部分物品的属性信息添加至当前属性表中。
在本申请的一些实施例中,如图8所示,物品属性信息的处理装置500还包括:第四获取模块511和训练模块512。其中,第四获取模块511,用于将标准属性值中的属性信息作为训练数据;训练模块512,用于基于训练数据对分类算法进行继续训练。
根据本申请实施例的物品属性信息的处理装置,在获取目标物品的属性信息之后,可从属性信息中获取不满足预设筛选条件的目标属性信息,以实现对目标物品的属性信息进行初步校验,将初步校验筛选到的目标属性信息加入到物品的当前属性表中,之后,可根据属性信息从当前属性表中获取与目标物品匹配的所有候选物品,再根据目标物品的属性信息和候选物品的属性信息构成相似物品的属性矩阵,对该相似物品的属性矩阵按属性值进行聚类,得到多个属性值类簇,进而基于多个属性值类簇中各属性值的分类标签筛选出目标物品和候选物品的属性信息中的正常属性值和异常属性值,可以有效帮助电商垂类搜索引擎对来自不同站点不同厂家提交的物品属性数据进行审核和清洗,有效提高了入库物品属性的质量,从而可以得到融合多个站点的物品的正常属性,为电商搜索引擎的筛选区提供干净的数据源,改善筛选区的质量。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的用以实现物品属性信息的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的物品属性信息的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的物品属性信息的处理方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的物品属性信息的处理方法对应的程序指令/模块(例如,附图5所示的第一获取模块501、第二获取模块502、预测模块503、存储模块504、第三获取模块505、聚类模块506和属性值筛选模块507)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的物品属性信息的处理方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用以实现物品属性信息的处理方法的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至用以实现物品属性信息的处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用以实现物品属性信息的处理方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与用以实现物品属性信息的处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (26)
1.一种物品属性信息的处理方法,包括:
获取目标物品的属性信息,其中,所述属性信息包括属性名称和对应的属性值;
从所述属性信息中获取不满足预设筛选条件的目标属性信息,并提取所述目标属性信息的属性特征;
根据预设的分类算法对所述属性特征进行处理,预测所述目标属性信息中各属性值的分类标签,并将所述目标属性信息以及所述各属性值的分类标签存储到当前属性表中;
从所述当前属性表中获取与所述目标物品匹配的候选物品,根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇;
根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常属性值和异常属性值。
2.如权利要求1所述的物品属性信息的处理方法,所述从所述属性信息中获取不满足预设筛选条件的目标属性信息,包括:
识别所述属性信息中各属性名称和对应的属性值是否存在于预设的黑名单词典中;
若属性名称和/或所述属性名称对应的属性值不存在于所述黑名单词典中,则将所述不存在于所述黑名单词典中的属性信息确定为所述不满足预设筛选条件的目标属性信息。
3.如权利要求2所述的物品属性信息的处理方法,所述从所述属性信息中获取不满足预设筛选条件的目标属性信息,还包括:
针对所述属性信息中带单位的属性值,采用正则表达式识别是否能从所述带单位的属性值中提取到单位;
若不能提取到单位,则将所述不能提取到单位的属性值所对应的属性信息确定为所述不满足预设筛选条件的目标属性信息。
4.如权利要求1所述的物品属性信息的处理方法,其中,所述将所述目标属性信息以及各属性值的分类标签存储到当前属性表中,包括:
判断所述目标属性信息中的属性名称是否已存在于所述当前属性表中;
如果未存在于所述当前属性表中,则将所述目标属性信息中的属性名称新增至所述当前属性表,并基于新增的属性名称在所述当前属性表中的位置,将所述新增的属性名称对应的属性值及其分类标签添加至所述当前属性表中的对应位置;
如果存在于所述当前属性表中,则基于所述目标属性信息中的属性名称在所述当前属性表中的位置,将所述目标属性信息之中所述属性名称对应的属性值及其分类标签添加至所述当前属性表中的对应位置。
5.如权利要求4所述的物品属性信息的处理方法,所述判断所述目标属性信息中的属性名称是否已存在于所述当前属性表中,包括:
计算所述目标属性信息中的属性名称与所述当前属性表中各属性名称的第一编辑距离;
计算所述目标属性信息中的属性名称与所述当前属性表中各属性名称的语义相似度;
根据计算得到的所述第一编辑距离和所述语义相似度,判断是否能够从所述当前属性表中找出第一编辑距离最小且语义相似度大于目标值的属性名称;
若否,则判定所述目标属性信息中的属性名称未存在于所述当前属性表中;
若是,则判定所述目标属性信息中的属性名称存在于所述当前属性表中。
6.如权利要求1所述的物品属性信息的处理方法,其中,从所述当前属性表中获取与所述目标物品匹配的候选物品,包括:
提取所述当前属性表中各物品的属性信息之中标题属性值的关键词;
根据所述关键词,计算所述各物品的属性信息之间的相似度;
根据所述相似度对所述当前属性表中的物品进行聚类,以从所述当前属性表中获取与所述目标物品匹配的候选物品。
7.如权利要求1所述的物品属性信息的处理方法,其中,当所述属性信息之中的属性值为数值型属性值时,所述根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇,包括:
采用预设的字符串聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
8.如权利要求1所述的物品属性信息的处理方法,其中,当所述属性信息之中的属性值为非数值型属性值时,所述根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇,包括:
提取所述目标属性信息之中属性值的第一语义特征,以及所述候选物品的属性信息之中属性值的第二语义特征;
根据所述预设聚类算法、所述第一语义特征和所述第二语义特征,对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
9.如权利要求1所述的物品属性信息的处理方法,其中,所述根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常属性值和异常属性值,包括:
遍历每个所述属性值类簇,判断所述属性值类簇中属性值的总数占所述多个属性值类簇中属性值的总数的第一比例是否超过第一阈值;
判断所述属性值类簇中分类标签为正样本的属性值的总数占所述属性值类簇中属性值的总数的第二比例是否超过第二阈值;
若所述第一比例超过所述第一阈值,且所述第二比例超过所述第二阈值,则将所述属性值类簇中的属性值,确定为标准属性值;
若所述第一比例未超过所述第一阈值,和/或,所述第二比例未超过所述第二阈值,则将所述属性值类簇中的属性值,确定为异常属性值。
10.如权利要求1所述的物品属性信息的处理方法,还包括:
将所述目标物品和所述候选物品的属性信息中的正常属性值添加至所述标准属性值;
将所述目标物品和所述候选物品的属性信息中的异常属性值添加至脏属性表。
11.如权利要求10所述的物品属性信息的处理方法,还包括:
当所述目标物品的个数大于预设阈值时,将所述脏属性表中的至少部分物品的属性信息添加至所述当前属性表中。
12.如权利要求10或11所述的物品属性信息的处理方法,还包括:
将所述标准属性值中的属性信息作为训练数据;
基于所述训练数据对所述分类算法进行继续训练。
13.一种物品属性信息的处理装置,包括:
第一获取模块,用于获取目标物品的属性信息,其中,所述属性信息包括属性名称和对应的属性值;
第二获取模块,用于从所述属性信息中获取不满足预设筛选条件的目标属性信息,并提取所述目标属性信息的属性特征;
预测模块,用于根据预设的分类算法对所述属性特征进行处理,预测所述目标属性信息中各属性值的分类标签;
存储模块,用于将所述目标属性信息以及所述各属性值的分类标签存储到当前属性表中;
第三获取模块,用于从所述当前属性表中获取与所述目标物品匹配的候选物品;
聚类模块,用于根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇;
属性值筛选模块,用于根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常属性值和异常属性值。
14.如权利要求13所述的物品属性信息的处理装置,所述第二获取模块具体用于:
识别所述属性信息中各属性名称和对应的属性值是否存在于预设的黑名单词典中;
若属性名称和/或所述属性名称对应的属性值不存在于所述黑名单词典中,则将所述不存在于所述黑名单词典中的属性信息确定为所述不满足预设筛选条件的目标属性信息。
15.如权利要求14所述的物品属性信息的处理装置,所述第二获取模块还用于:
针对所述属性信息中带单位的属性值,采用正则表达式识别是否能从所述带单位的属性值中提取到单位;
若不能提取到单位,则将所述不能提取到单位的属性值所对应的属性信息确定为所述不满足预设筛选条件的目标属性信息。
16.如权利要求13所述的物品属性信息的处理装置,其中,所述存储模块具体用于:
判断所述目标属性信息中的属性名称是否已存在于所述当前属性表中;
如果未存在于所述当前属性表中,则将所述目标属性信息中的属性名称新增至所述当前属性表,并基于新增的属性名称在所述当前属性表中的位置,将所述新增的属性名称对应的属性值及其分类标签添加至所述当前属性表中的对应位置;
如果存在于所述当前属性表中,则基于所述目标属性信息中的属性名称在所述当前属性表中的位置,将所述目标属性信息之中所述属性名称对应的属性值及其分类标签添加至所述当前属性表中的对应位置。
17.如权利要求16所述的物品属性信息的处理装置,所述存储模块具体用于:
计算所述目标属性信息中的属性名称与所述当前属性表中各属性名称的第一编辑距离;
计算所述目标属性信息中的属性名称与所述当前属性表中各属性名称的语义相似度;
根据计算得到的第一编辑距离和语义相似度,判断是否能够从所述当前属性表中找出第一编辑距离最小且语义相似度大于目标值的属性名称;
若否,则判定所述目标属性信息中的属性名称未存在于所述当前属性表中;
若是,则判定所述目标属性信息中的属性名称存在于所述当前属性表中。
18.如权利要求13所述的物品属性信息的处理装置,所述第三获取模块具体用于:
提取所述当前属性表中各物品的属性信息之中标题属性值的关键词;
根据所述关键词,计算所述各物品的属性信息之间的相似度;
根据所述相似度对所述当前属性表中的物品进行聚类,以从所述当前属性表中获取与所述目标物品匹配的候选物品。
19.如权利要求13所述的物品属性信息的处理装置,其中,当所述属性信息之中的属性值为数值型属性值时,所述聚类模块具体用于:
采用预设的字符串聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
20.如权利要求13所述的物品属性信息的处理装置,其中,当所述属性信息之中的属性值为非数值型属性值时,所述聚类模块具体用于:
提取所述目标属性信息之中属性值的第一语义特征,以及所述候选物品的属性信息之中属性值的第二语义特征;
根据所述预设聚类算法、所述第一语义特征和所述第二语义特征,对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。
21.如权利要求13所述的物品属性信息的处理装置,其中,所述属性值筛选模块具体用于:
遍历每个所述属性值类簇,判断所述属性值类簇中属性值的总数占所述多个属性值类簇中属性值的总数的第一比例是否超过第一阈值;
判断所述属性值类簇中分类标签为正样本的属性值的总数占所述属性值类簇中属性值的总数的第二比例是否超过第二阈值;
若所述第一比例超过所述第一阈值,且所述第二比例超过所述第二阈值,则将所述属性值类簇中的属性值,确定为标准属性值;
若所述第一比例未超过所述第一阈值,和/或,所述第二比例未超过所述第二阈值,则将所述属性值类簇中的属性值,确定为异常属性值。
22.如权利要求13所述的物品属性信息的处理装置,还包括:
第一添加模块,用于将所述目标物品和所述候选物品的属性信息中的正常属性值添加至所述标准属性值;
第二添加模块,用于将所述目标物品和所述候选物品的属性信息中的异常属性值添加至脏属性表。
23.如权利要求22所述的物品属性信息的处理装置,还包括:
更新模块,用于当所述目标物品的个数大于预设阈值时,将所述脏属性表中的至少部分物品的属性信息添加至所述当前属性表中。
24.如权利要求22或23所述的物品属性信息的处理装置,还包括:
第四获取模块,用于将所述标准属性值中的属性信息作为训练数据;
训练模块,用于基于所述训练数据对所述分类算法进行继续训练。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的物品属性信息的处理方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的物品属性信息的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503401.4A CN111860575B (zh) | 2020-06-05 | 2020-06-05 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503401.4A CN111860575B (zh) | 2020-06-05 | 2020-06-05 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860575A true CN111860575A (zh) | 2020-10-30 |
CN111860575B CN111860575B (zh) | 2023-06-16 |
Family
ID=72984960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010503401.4A Active CN111860575B (zh) | 2020-06-05 | 2020-06-05 | 物品属性信息的处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860575B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN113450187A (zh) * | 2021-06-22 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 基于场景的商品关联方法、系统、电子设备及存储介质 |
CN113569058A (zh) * | 2021-08-05 | 2021-10-29 | 武汉美之修行信息科技有限公司 | 一种信息查询方法、装置及计算机可读存储介质 |
CN113763098A (zh) * | 2020-12-21 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 用于确定物品的方法和装置 |
CN115271514A (zh) * | 2022-08-11 | 2022-11-01 | 中国铁塔股份有限公司 | 通讯企业的监控方法、装置、电子设备及存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013003405A (ja) * | 2011-06-17 | 2013-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 商品属性表示システムおよびその動作方法 |
CN107016583A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
US20180174220A1 (en) * | 2016-12-20 | 2018-06-21 | Facebook, Inc. | Product Scoring for Clustering |
CN109697451A (zh) * | 2017-10-23 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 相似图像聚类方法及装置、存储介质、电子设备 |
CN109785072A (zh) * | 2019-01-23 | 2019-05-21 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN109903087A (zh) * | 2019-02-13 | 2019-06-18 | 广州视源电子科技股份有限公司 | 基于行为特征预测用户属性值的方法、装置及存储介质 |
US20190213277A1 (en) * | 2018-01-11 | 2019-07-11 | International Business Machines Corporation | Cognitive retrieve and rank search improvements using natural language for product attributes |
US20190354805A1 (en) * | 2018-05-16 | 2019-11-21 | International Business Machines Corporation | Explanations for artificial intelligence based recommendations |
CN110532295A (zh) * | 2019-08-01 | 2019-12-03 | 北京三快在线科技有限公司 | 一种计算机实施的信息处理、信息查询的方法及装置 |
CN110580299A (zh) * | 2018-06-08 | 2019-12-17 | 北京京东尚科信息技术有限公司 | 生成对象的推荐语的配图的方法、系统、设备及存储介质 |
CN110599281A (zh) * | 2018-06-13 | 2019-12-20 | 北京京东尚科信息技术有限公司 | 一种确定目标店铺的方法和装置 |
CN111104466A (zh) * | 2019-12-25 | 2020-05-05 | 航天科工网络信息发展有限公司 | 一种海量数据库表快速分类的方法 |
CN111126442A (zh) * | 2019-11-26 | 2020-05-08 | 北京京邦达贸易有限公司 | 一种物品关键属性生成方法、物品分类方法和装置 |
CN111178380A (zh) * | 2019-11-15 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 数据分类方法、装置及电子设备 |
CN111210269A (zh) * | 2020-01-02 | 2020-05-29 | 平安科技(深圳)有限公司 | 基于大数据的对象识别方法、电子装置及存储介质 |
CN111221810A (zh) * | 2020-01-13 | 2020-06-02 | 苏宁云计算有限公司 | 商品主数据异常识别方法、系统、计算机设备和存储介质 |
-
2020
- 2020-06-05 CN CN202010503401.4A patent/CN111860575B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013003405A (ja) * | 2011-06-17 | 2013-01-07 | Nippon Telegr & Teleph Corp <Ntt> | 商品属性表示システムおよびその動作方法 |
CN107016583A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN107203548A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
US20180174220A1 (en) * | 2016-12-20 | 2018-06-21 | Facebook, Inc. | Product Scoring for Clustering |
CN109697451A (zh) * | 2017-10-23 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 相似图像聚类方法及装置、存储介质、电子设备 |
US20190213277A1 (en) * | 2018-01-11 | 2019-07-11 | International Business Machines Corporation | Cognitive retrieve and rank search improvements using natural language for product attributes |
US20190354805A1 (en) * | 2018-05-16 | 2019-11-21 | International Business Machines Corporation | Explanations for artificial intelligence based recommendations |
CN110580299A (zh) * | 2018-06-08 | 2019-12-17 | 北京京东尚科信息技术有限公司 | 生成对象的推荐语的配图的方法、系统、设备及存储介质 |
CN110599281A (zh) * | 2018-06-13 | 2019-12-20 | 北京京东尚科信息技术有限公司 | 一种确定目标店铺的方法和装置 |
CN109785072A (zh) * | 2019-01-23 | 2019-05-21 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN109903087A (zh) * | 2019-02-13 | 2019-06-18 | 广州视源电子科技股份有限公司 | 基于行为特征预测用户属性值的方法、装置及存储介质 |
CN110532295A (zh) * | 2019-08-01 | 2019-12-03 | 北京三快在线科技有限公司 | 一种计算机实施的信息处理、信息查询的方法及装置 |
CN111178380A (zh) * | 2019-11-15 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 数据分类方法、装置及电子设备 |
CN111126442A (zh) * | 2019-11-26 | 2020-05-08 | 北京京邦达贸易有限公司 | 一种物品关键属性生成方法、物品分类方法和装置 |
CN111104466A (zh) * | 2019-12-25 | 2020-05-05 | 航天科工网络信息发展有限公司 | 一种海量数据库表快速分类的方法 |
CN111210269A (zh) * | 2020-01-02 | 2020-05-29 | 平安科技(深圳)有限公司 | 基于大数据的对象识别方法、电子装置及存储介质 |
CN111221810A (zh) * | 2020-01-13 | 2020-06-02 | 苏宁云计算有限公司 | 商品主数据异常识别方法、系统、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
刘志;林振涛;鄢致雯;陈波;: "基于属性偏好自学习的推荐方法", 浙江工业大学学报, no. 02, pages 161 - 167 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763098A (zh) * | 2020-12-21 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 用于确定物品的方法和装置 |
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN113450187A (zh) * | 2021-06-22 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 基于场景的商品关联方法、系统、电子设备及存储介质 |
CN113569058A (zh) * | 2021-08-05 | 2021-10-29 | 武汉美之修行信息科技有限公司 | 一种信息查询方法、装置及计算机可读存储介质 |
CN115271514A (zh) * | 2022-08-11 | 2022-11-01 | 中国铁塔股份有限公司 | 通讯企业的监控方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111860575B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860575B (zh) | 物品属性信息的处理方法、装置、电子设备和存储介质 | |
AU2019261735B2 (en) | System and method for recommending automation solutions for technology infrastructure issues | |
CN111967262A (zh) | 实体标签的确定方法和装置 | |
US10089581B2 (en) | Data driven classification and data quality checking system | |
CN108391446B (zh) | 基于机器学习算法对针对数据分类器的训练语料库的自动提取 | |
US20190392075A1 (en) | Efficient data relationship mining using machine learning | |
CN111950254B (zh) | 搜索样本的词特征提取方法、装置、设备以及存储介质 | |
US20190066185A1 (en) | Method and system for attribute extraction from product titles using sequence labeling algorithms | |
CN110309502B (zh) | 用于复杂系统生命周期管理的预测查询处理 | |
CN111680145A (zh) | 知识表示学习方法、装置、设备以及存储介质 | |
CN111125435A (zh) | 视频标签的确定方法、装置和计算机设备 | |
CN112016633A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
EP3837619A1 (en) | A hypergraph-based method for segmenting and clustering customer observables for vehicles | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
EP3916738A1 (en) | Medical fact verification method and apparatus, electronic device, and storage medium | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN112148881A (zh) | 用于输出信息的方法和装置 | |
CN111783861A (zh) | 数据分类方法、模型训练方法、装置和电子设备 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN112380847A (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
CN115203338A (zh) | 一种标签及标签实例推荐方法 | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
CN112650910A (zh) | 确定网站更新信息的方法、装置、设备和存储介质 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN112818230A (zh) | 内容推荐方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |