CN115048362A - 一种应用于跨平台的物品品类归一方法和装置 - Google Patents

一种应用于跨平台的物品品类归一方法和装置 Download PDF

Info

Publication number
CN115048362A
CN115048362A CN202110252340.3A CN202110252340A CN115048362A CN 115048362 A CN115048362 A CN 115048362A CN 202110252340 A CN202110252340 A CN 202110252340A CN 115048362 A CN115048362 A CN 115048362A
Authority
CN
China
Prior art keywords
article
belong
item
similarity
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110252340.3A
Other languages
English (en)
Inventor
袁志敏
柴春燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110252340.3A priority Critical patent/CN115048362A/zh
Publication of CN115048362A publication Critical patent/CN115048362A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应用于跨平台的物品品类归一方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。该实施方式将属于同一SKU的跨平台物品归为一类,从而实现不同平台物品品类管理的标准化。

Description

一种应用于跨平台的物品品类归一方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种应用于跨平台的物品品类归一方法和装置。
背景技术
随着互联网的广泛应用,人们的生产和生活方式也在发生着深刻的改变,对平台尤其是应用类平台的关注越来越高。但目前市场中的应用类平台为数众多,各网站设置的物品品类混乱。考虑物品品类归一在网站管理中有着非常重要的意义,如供/采双方快速查找目标品类、定义网站服务范围等,因而需对各平台内的物品品类进行归一管理。
发明内容
有鉴于此,本发明实施例提供一种应用于跨平台的物品品类归一方法和装置,能够解决现有技术中各平台的物品品类管理混乱现象。
为实现上述目的,根据本发明实施例的一个方面,提供了一种应用于跨平台的物品品类归一方法,包括:
分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;或
若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
可选的,物品信息包括品牌和规格参数,规格参数包括型号;
所述采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理,包括:
判断所述第一物品和所述第二物品的型号和所属品牌是否相同,若均相同,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
可选的,所述第一物品和所述第二物品为电子产品,规格参数还包括存储器型号ROM值;
所述判断所述第一物品和所述第二物品的型号和所属品牌是否相同,包括:
判断所述第一物品和所述第二物品的型号、ROM值和所属品牌是否相同。
可选的,物品信息包括标题;
在所述判断所述第一物品和所述第二物品的型号和所属品牌是否相同之前,还包括:
对于所述第一物品和所述第二物品中的任一物品,若规则参数中没有型号,则从所述任一物品的标题中通过切词方式得到型号;以及
若所述第一物品和所述第二物品的型号格式不同,则按照预设型号格式对所述第一物品和所述第二物品的型号进行归一化处理。
可选的,所述采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理,包括:
计算所述第一物品的标题和所述第二物品的标题的相似度,若相似度小于第一预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类;
否则,计算所述第一物品的型号和所述第二物品的型号的相似度,若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,否则属于同一品类。
可选的,所述计算所述第一物品的标题和所述第二物品的标题的相似度,包括:
从所述第一物品的标题中提取第一特征,基于所述第一特征生成第一文本特征向量;以及
从所述第二物品的标题中提取第二特征,基于所述第二特征生成第二文本特征向量;
计算所述第一文本特征向量和所述第二文本特征向量的相似度。
可选的,在所述计算所述第一物品的标题和所述第二物品的标题的相似度之前,还包括:
对于所述第一物品和所述第二物品中的任一物品,采用标题切词对比方法对所述任一物品的标题进行切词处理;
若切词得到的分词中不存在品牌名称,则将所述任一物品所属的品牌名称,添加至所述任一物品的标题中。
可选的,所述若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,还包括:
若相似度小于第二预设相似度阈值,则计算所述第一物品的价值和所述第二物品的价值的差值;
若所述差值处于预设差值范围内,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
为实现上述目的,根据本发明实施例的另一方面,提供了一种应用于跨平台的物品品类归一装置,包括:
查询模块,用于分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
硬匹配模块,用于若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;或
相似度匹配模块,用于若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
输出模块,用于输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
可选的,物品信息包括品牌和规格参数,规格参数包括型号;
所述硬匹配模块,用于:判断所述第一物品和所述第二物品的型号和所属品牌是否相同,若均相同,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
可选的,所述第一物品和所述第二物品为电子产品,规格参数还包括存储器型号ROM值;
所述硬匹配模块,用于:判断所述第一物品和所述第二物品的型号、ROM值和所属品牌是否相同。
可选的,物品信息包括标题;
所述硬匹配模块,还用于:
对于所述第一物品和所述第二物品中的任一物品,若规则参数中没有型号,则从所述任一物品的标题中通过切词方式得到型号;以及
若所述第一物品和所述第二物品的型号格式不同,则按照预设型号格式对所述第一物品和所述第二物品的型号进行归一化处理。
可选的,所述相似度匹配模块,用于:
计算所述第一物品的标题和所述第二物品的标题的相似度,若相似度小于第一预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类;
否则,计算所述第一物品的型号和所述第二物品的型号的相似度,若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,否则属于同一品类。
可选的,所述相似度匹配模块,用于:
从所述第一物品的标题中提取第一特征,基于所述第一特征生成第一文本特征向量;以及
从所述第二物品的标题中提取第二特征,基于所述第二特征生成第二文本特征向量;
计算所述第一文本特征向量和所述第二文本特征向量的相似度。
可选的,所述相似度匹配模块,还用于:
对于所述第一物品和所述第二物品中的任一物品,采用标题切词对比装置对所述任一物品的标题进行切词处理;
若切词得到的分词中不存在品牌名称,则将所述任一物品所属的品牌名称,添加至所述任一物品的标题中。
可选的,所述相似度匹配模块,还用于:
若相似度小于第二预设相似度阈值,则计算所述第一物品的价值和所述第二物品的价值的差值;
若所述差值处于预设差值范围内,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
为实现上述目的,根据本发明实施例的再一方面,提供了一种物品品类归一电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的应用于跨平台的物品品类归一方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的应用于跨平台的物品品类归一方法。
根据本发明所述提供的方案,上述发明中的一个实施例具有如下优点或有益效果:将多个平台收集到的物品信息,根据是否均属于标品,采用硬匹配算法或相似度匹配算法,将属于同一SKU的物品归为一类,达到跨平台品类归一化的目的,从而实现不同平台物品品类管理的标准化。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种应用于跨平台的物品品类归一方法的主要流程示意图;
图2是根据本发明实施例的一种可选的应用于跨平台的物品品类归一方法的流程示意图;
图3是根据本发明实施例的另一种可选的应用于跨平台的物品品类归一方法的流程示意图;
图4是根据本发明实施例的一具体应用于跨平台的物品品类归一方法的流程示意图;
图5是根据本发明实施例的一种应用于跨平台的物品品类归一装置的主要模块示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
品牌:每种品牌代表了不同的产品特性/文化背景/设计理念/心理目标,建立品牌可用于识别某个销售的产品或服务。不仅要将产品销售给用户,还要使用户通过使用对产品产生好感,不断宣传,形成品牌忠诚,进而促使用户重复购买。有些企业更为其品牌树立了良好的形象,赋予了美好的情感,或代表了一定的文化,所以品牌给其产品增加了附加值,使品牌及品牌产品在用户心目中形成了美好的记忆。
型号:是品牌具体的补充与说明,更加强有力的说明一款产品品牌的影响力。
参见图1,示出的是本发明实施例提供的一种应用于跨平台的物品品类归一方法的主要流程图,包括如下步骤:
S101:分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
S102:若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
S103:若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
S104:输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
上述实施方式中,对于步骤S101,首先收集各大平台中与多个物品相关的信息,通过预设脏数据(Dirty Read)词库,对收集到的信息进行ETL(Extract-Transform-Load)预处理清洗,以过滤掉脏数据,例如标题中的【自营】;其中,脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。
实际操作中,考虑到收集的物品信息量较大且是离线的,所以优选HDFS存放物品信息,在信息量较小的情况下可以使用其它数据库。本方案优选Hive数据仓库,用以进行数据提取(extract)、转化(trans form)、加载(load),这是一种可以存储、查询和分析存储在Hadoo p中的大规模数据的机制。
对于步骤S102~S104,预先在大类上将物品分为标品和非标品,标品:物品品牌、标题、规格参数等信息较为完整、标准、统一,例如3C数码类;非标品:相对于标品而言。
由于标品类的物品相关信息较为明确、统一,故采用硬匹配算法进行品类归一化处理,即通过比对物品的品牌、型号、规格参数等信息直接判定第一物品和第二物品是否属于同一SKU(Stock Keeping U nit,库存量单位),参见后续图2描述;而非标品物品由于相关信息混乱不明确,则采用相似度匹配算法进行品类归一化处理,即通过计算物品标题的文本相似度、型号相似度判定两者是否属于同一SKU,参见后续图3描述。
需要说明的是,对于第一物品和第二物品中仅有一个物品属于标品的情况,不做处理,或者直接判定两者不属于同一品类。
最终将归一化后属于同一品类的物品的ID、URL、标题输出,存储在Hive数据仓库中,以便供/采双方快速查找到所关心的品类;且对于平台而言,可以准确定位平台自身服务的范围。
上述实施例所提供的方法,将多个平台收集到的物品信息,根据是否均属于标品,采用相应算法将属于同一SKU的物品归为一类,达到跨平台品类归一化目的,从而实现不同平台物品品类管理的标准化。
参见图2,示出了根据本发明实施例的一种可选的应用于跨平台的物品品类归一方法流程示意图,包括如下步骤:
S201:分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
S202:若均属于,则判断所述第一物品和所述第二物品的型号和所属品牌是否相同;
S203:若均相同,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类;
S204:若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
S205:输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
上述实施方式中,对于步骤S201、S204和S205可参见图1所示步骤S101、S103和S104的描述,在此不再赘述。
上述实施方式中,对于步骤S202和S203,本实施方式用于对标品通过硬匹配算法进行品类归一化处理,包括数据预处理、逻辑判断以及归一SKU结果输出:
1)分类处理:预先将物品按品牌进行分类,得到同一品牌下的多个物品,因而本方案中的第一物品和第二物品虽分属不同平台,但均属于同一品牌下的产品;
标题处理:对物品的标题进行分词处理,去停用词,并按照原标题中各词语的先后顺序,重新排序分词结果,生成新的标题;
型号处理:对物品规格参数中的型号名称进行归一化处理,如大小写同一转换、空格、多余词汇处理等。若规则参数中无型号,则通过从标题中通过切词方式获得。另外,若同种物品的型号不统一,则根据预设型号格式对其进行归一化处理,例如荣耀8、荣耀8(FRD-AL10)、FRD-AL10归一化为荣耀8。进一步的,可以按照型号对物品进行分类,得到同一型号下的多个物品。
2)对于第一物品和第二物品,若两者型号和所属品牌均相同,则判定两者属于同一品类,否则分属不同品类。对于电子类产品,还可以从物品规格参数中获得ROM值(ReadOnly Memory,只读存储器)值,此时需判断第一物品和第二物品的型号、ROM值和所属品牌是否均相同,若均相同,则判定两者属于同一品类,否则分属不同品类。
上述实施例所提供的方法,在第一物品和第二物品均属标品的情况下,通过硬匹配算法对其进行品类归一化处理,为后续快速发布及管理物品、方便采购方快速查找需要的物品/服务提供基础。
参见图3,示出了根据本发明实施例的另一种可选的应用于跨平台的物品品类归一方法流程示意图,包括如下步骤:
S301:分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
S302:若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
S303:若均不属于,则计算所述第一物品的标题和所述第二物品的标题的相似度,若相似度小于第一预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类;
S304:否则,计算所述第一物品的型号和所述第二物品的型号的相似度;
S305:若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,否则属于同一品类;
S306:输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
上述实施方式中,对于步骤S301、S302和S306可参见图1所示步骤S101、S102和S104的描述,在此不再赘述。
上述实施方式中,对于步骤S303~S305,本实施方式用于对非标品通过相似度匹配算法进行品类归一化处理,即通过计算物品标题的文本相似度、型号相似度是否符合要求,判断第一物品和第二物品是否属于同一SKU,如下步骤:
1)填充物品信息中缺失的“BrandID”值:采用标题切词对比的方法,对物品标题进行切词处理,若不存在品牌名称,则将物品所属品牌名称添加至标题中。例如“2013年冬季新款貂子毛领黑色瘦身保暖女装棉衣外套”切词后,得到“2012冬季新款貂子毛领黑色瘦身保暖女装棉衣外套”,不包含品牌名称A,则将品牌名称A添加至该标题内。
2)对标题进行分词处理,以去除干扰词汇,之后从标题中选择特征,如"url"、"title"、"price"、"productID"、"BrandID",并采用tf-idf(t erm frequency–inversedocument frequency,词频-逆文本频率指数)算法转换为文本特征向量;
3)计算第一物品的第一文本特征向量和第二物品的第二文本特征向量之间的相似度,若大于或等于第一预设相似度阈值,则继续步骤4),否则判定两个物品分属不同品类;
4)计算第一物品的第一型号和第二物品的型号的相似度,若大于或等于第二预设相似度阈值,则判定两个物品属于同一品类,否则判定分属不同品类。
作为进一步优化,本方案还可以根据第一物品和第二物品的价格差值判断物品相似度,若两者价格相同或差值处于预设差值范围内,则判定两者属于同一品类,否则分属不同品类。且品类归一后物品的原始价格可以达到归一,订单付款价格是使用优惠活动后的价格。
上述实施例所提供的方法,在第一物品和第二物品均不属于标品的情况下,通过相似度匹配算法对其进行品类归一化处理,为后续快速发布及管理物品、方便采购方快速查找需要的物品/服务提供基础。
参见图4,示出了根据本发明实施例的一具体地应用于跨平台的物品品类归一方法流程示意图,包括如下步骤:
S401:分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
S402:若均属于,则判断所述第一物品和所述第二物品的型号和所属品牌是否相同;
S403:若均相同,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类;
S404:若均不属于,则计算所述第一物品的标题和所述第二物品的标题的相似度,若相似度小于第一预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类;
S405:否则,计算所述第一物品的型号和所述第二物品的型号的相似度;
S406:若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,否则属于同一品类;
S407:输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
参见图5,示出了本发明实施例提供的一种应用于跨平台的物品品类归一装置500的主要模块示意图,包括:
查询模块501,用于分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
硬匹配模块502,用于若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;或
相似度匹配模块503,用于若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
输出模块504,用于输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
本发明实施装置中,物品信息包括品牌和规格参数,规格参数包括型号;
所述硬匹配模块502,用于:判断所述第一物品和所述第二物品的型号和所属品牌是否相同,若均相同,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
本发明实施装置中,所述第一物品和所述第二物品为电子产品,规格参数还包括存储器型号ROM值;
所述硬匹配模块502,用于:判断所述第一物品和所述第二物品的型号、ROM值和所属品牌是否相同。
本发明实施装置中,物品信息包括标题;
所述硬匹配模块502,还用于:
对于所述第一物品和所述第二物品中的任一物品,若规则参数中没有型号,则从所述任一物品的标题中通过切词方式得到型号;以及
若所述第一物品和所述第二物品的型号格式不同,则按照预设型号格式对所述第一物品和所述第二物品的型号进行归一化处理。
本发明实施装置中,所述相似度匹配模块503,用于:
计算所述第一物品的标题和所述第二物品的标题的相似度,若相似度小于第一预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类;
否则,计算所述第一物品的型号和所述第二物品的型号的相似度,若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,否则属于同一品类。
本发明实施装置中,所述相似度匹配模块503,用于:
从所述第一物品的标题中提取第一特征,基于所述第一特征生成第一文本特征向量;以及
从所述第二物品的标题中提取第二特征,基于所述第二特征生成第二文本特征向量;
计算所述第一文本特征向量和所述第二文本特征向量的相似度。
本发明实施装置中,所述相似度匹配模块503,还用于:
对于所述第一物品和所述第二物品中的任一物品,采用标题切词对比装置对所述任一物品的标题进行切词处理;
若切词得到的分词中不存在品牌名称,则将所述任一物品所属的品牌名称,添加至所述任一物品的标题中。
本发明实施装置中,所述相似度匹配模块503,还用于:
若相似度小于第二预设相似度阈值,则计算所述第一物品的价值和所述第二物品的价值的差值;
若所述差值处于预设差值范围内,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
另外,在本发明实施例中所述装置的具体实施内容,在上面所述方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605(仅仅是示例)。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,服务器605可以是提供各种服务的服务器。
需要说明的是,本发明实施例所提供的方法一般由服务器605执行,相应地,装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CP U)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括查询模块、硬匹配模块、相似度匹配模块、输出模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,查询模块还可以被描述为“标品属性查询模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;或
若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
根据本发明实施例的技术方案,将多个平台收集到的物品信息,根据是否均属于标品,采用硬匹配算法或相似度匹配算法,将属于同一SKU的物品归为一类,达到跨平台品类归一化的目的,从而实现不同平台物品品类管理的标准化。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (11)

1.一种应用于跨平台的物品品类归一方法,其特征在于,包括:
分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;或
若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
2.根据权利要求1所述的方法,其特征在于,物品信息包括品牌和规格参数,规格参数包括型号;
所述采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理,包括:
判断所述第一物品和所述第二物品的型号和所属品牌是否相同,若均相同,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
3.根据权利要求2所述的方法,其特征在于,所述第一物品和所述第二物品为电子产品,规格参数还包括存储器型号ROM值;
所述判断所述第一物品和所述第二物品的型号和所属品牌是否相同,包括:
判断所述第一物品和所述第二物品的型号、ROM值和所属品牌是否相同。
4.根据权利要求2所述的方法,其特征在于,物品信息包括标题;
在所述判断所述第一物品和所述第二物品的型号和所属品牌是否相同之前,还包括:
对于所述第一物品和所述第二物品中的任一物品,若规则参数中没有型号,则从所述任一物品的标题中通过切词方式得到型号;以及
若所述第一物品和所述第二物品的型号格式不同,则按照预设型号格式对所述第一物品和所述第二物品的型号进行归一化处理。
5.根据权利要求1所述的方法,其特征在于,所述采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理,包括:
计算所述第一物品的标题和所述第二物品的标题的相似度,若相似度小于第一预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类;
否则,计算所述第一物品的型号和所述第二物品的型号的相似度,若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,否则属于同一品类。
6.根据权利要求5所述的方法,其特征在于,所述计算所述第一物品的标题和所述第二物品的标题的相似度,包括:
从所述第一物品的标题中提取第一特征,基于所述第一特征生成第一文本特征向量;以及
从所述第二物品的标题中提取第二特征,基于所述第二特征生成第二文本特征向量;
计算所述第一文本特征向量和所述第二文本特征向量的相似度。
7.根据权利要求5或6所述的方法,其特征在于,在所述计算所述第一物品的标题和所述第二物品的标题的相似度之前,还包括:
对于所述第一物品和所述第二物品中的任一物品,采用标题切词对比方法对所述任一物品的标题进行切词处理;
若切词得到的分词中不存在品牌名称,则将所述任一物品所属的品牌名称,添加至所述任一物品的标题中。
8.根据权利要求5项所述的方法,其特征在于,所述若相似度小于第二预设相似度阈值,则判定所述第一物品和所述第二物品分属不同品类,还包括:
若相似度小于第二预设相似度阈值,则计算所述第一物品的价值和所述第二物品的价值的差值;
若所述差值处于预设差值范围内,则判定所述第一物品和所述第二物品属于同一品类,否则分属不同品类。
9.一种应用于跨平台的物品品类归一装置,其特征在于,包括:
查询模块,用于分别收集与第一物品和第二物品相关的信息,查询所述第一物品和所述第二物品是否均属于标品;其中,所述第一物品和所述第二物品分属不同平台;
硬匹配模块,用于若均属于,则采用硬匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;或
相似度匹配模块,用于若均不属于,则采用相似度匹配算法,对所述第一物品和第二物品的信息进行品类归一化处理;
输出模块,用于输出所述第一物品和所述第二物品属于同一品类或不同品类的处理结果。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202110252340.3A 2021-03-08 2021-03-08 一种应用于跨平台的物品品类归一方法和装置 Pending CN115048362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110252340.3A CN115048362A (zh) 2021-03-08 2021-03-08 一种应用于跨平台的物品品类归一方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110252340.3A CN115048362A (zh) 2021-03-08 2021-03-08 一种应用于跨平台的物品品类归一方法和装置

Publications (1)

Publication Number Publication Date
CN115048362A true CN115048362A (zh) 2022-09-13

Family

ID=83156514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110252340.3A Pending CN115048362A (zh) 2021-03-08 2021-03-08 一种应用于跨平台的物品品类归一方法和装置

Country Status (1)

Country Link
CN (1) CN115048362A (zh)

Similar Documents

Publication Publication Date Title
CN106296059B (zh) 派送网点确定方法及设备
US11741094B2 (en) Method and system for identifying core product terms
CN110020162B (zh) 用户识别方法和装置
CN110633398A (zh) 中心词的确认方法、搜索方法、装置和存储介质
CN116739626A (zh) 商品数据挖掘处理方法、装置、电子设备及可读介质
CN112825182A (zh) 一种确定推荐商品的方法和装置
CN110347786A (zh) 一种语义模型的调优方法及系统
CN111353838A (zh) 自动化校验商品类目的方法和装置
CN112347147A (zh) 基于用户关联关系的信息推送方法、装置及电子设备
CN110895761B (zh) 一种售后服务申请信息的处理方法和装置
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
US11556595B2 (en) Attribute diversity for frequent pattern analysis
CN111782850A (zh) 一种基于手绘图的物品搜索方法和装置
CN112784861A (zh) 相似度的确定方法、装置、电子设备和存储介质
CN112667770A (zh) 一种对物品进行分类的方法和装置
CN112529646A (zh) 一种商品分类方法和装置
CN111833085A (zh) 一种计算物品价格的方法和装置
CN115860872A (zh) 一种目标物品确定方法、装置、电子设备及存储介质
CN114996579A (zh) 信息推送方法、装置、电子设备和计算机可读介质
EP4071633A1 (en) Task query method and device
CN115048362A (zh) 一种应用于跨平台的物品品类归一方法和装置
CN113779239A (zh) 一种热点信息获取方法和装置
CN111782776A (zh) 一种通过填槽实现意图识别的方法和装置
CN110895564A (zh) 一种潜在客户数据处理方法和装置
CN112860858A (zh) 一种回答问题的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination