CN106033456B - 校正商品的后台属性的属性值的方法和装置 - Google Patents
校正商品的后台属性的属性值的方法和装置 Download PDFInfo
- Publication number
- CN106033456B CN106033456B CN201510119332.6A CN201510119332A CN106033456B CN 106033456 B CN106033456 B CN 106033456B CN 201510119332 A CN201510119332 A CN 201510119332A CN 106033456 B CN106033456 B CN 106033456B
- Authority
- CN
- China
- Prior art keywords
- commodity
- attribute
- backstage
- subset
- share
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Finance (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Generation (AREA)
Abstract
本发明公开了一种校正商品的后台属性的属性值的方法和装置,属于计算机通信技术领域。所述方法包括:获取N个商品中每个所述商品的识别符;将N个所述商品划分为M个可共享后台属性商品子集;统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数;根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值。
Description
技术领域
本发明涉及计算机通信技术领域,具体涉及一种校正商品的后台属性的属性值的方法和装置。
背景技术
随着计算机通信技术的发展,越来越多的商家通过网络售卖商品,通过网络售卖商品时,商品的后台属性是描述商品的重要信息,商品的后台属性影响搜索、导购、推荐等商品呈现给消费者的效果,因此商品的后台属性很重要。然而,现有大量商品存在漏填、错填后台属性的属性值等问题,例如:举女包类目的后台属性“款式”(该属性包括贝壳包、剑桥包、保龄球包等三十余种属性值)为例。消费者在通过关键字“贝壳包”搜索,或在导购路径点击“贝壳包”标签,或期望推荐系统为其推荐更多“贝壳包”时,如果某商品实质上为贝壳包但是漏填款式属性的属性值,从而导致消费者在通过关键字“贝壳包”搜索时,该商品不会展现给消费者,造成漏召回;如果平台中某商品实质上为其他款式(如托特包)但是款式属性的属性值被错填为贝壳包,从而导致消费者在通过关键字“贝壳包”搜索,或在导购路径点击“贝壳包”标签,或期望推荐系统为其推荐更多“贝壳包”时,该商品被错误地呈现给消费者,造成错召回。后台属性的属性值漏填导致的漏召回会给消费者造成平台商品不丰富的印象;后台属性的属性值错填导致的错召回会给消费者造成平台搜索、导购或推荐产品效果不准确的印象。因此,需要定期对商品的后台属性的属性值进行补充、校正等修改。
现有校正商品的后台属性的属性值的方法是,通过人工抽查或用户举报等方式人工发现问题,然后督促商家或运营小二手工进行补充、校正等修改。
然而,现有校正商品的后台属性的属性值的方法主要依靠人工完成,效率非常低。
发明内容
为了解决现有技术的问题,本发明提供了一种校正商品的后台属性的属性值的方法和装置,可以自动对商品的后台属性的属性值进行修改,不需要依靠人工完成,可以提高修改效率。
为了解决上述问题,本发明公开了一种校正商品的后台属性的属性值的方法,所述方法包括:
获取N个商品中每个所述商品的识别符;其中,所述N为自然数;
根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集;其中,所述M为自然数,所述M小于所述N;
统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数;
根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值。
进一步地,每个所述商品的识别符包括:
每个所述商品对应的图片的链接地址、每个所述商品对应的图片的内容签名、或每个所述商品的货号。
进一步地,每个所述商品对应的图片包括:
每个所述商品对应的主展示图片、每个所述商品对应的补充展示图片、每个所述商品对应的款式色号展示图片、或每个所述商品对应的细节展示图片。
进一步地,根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集,包括:
为N个所述商品中的每个所述商品构建一条二元组,其中,所述二元组的第一个元素为每个所述商品的识别符、所述二元组的其他元素为每个所述商品的身份标识,以及每个所述商品的后台属性、所述后台属性的原始属性值;
将所有的所述二元组按照所述第一个元素进行排序,并将所述第一个元素相同的所述二元组聚在一起构成M个二元组集合,其中,每个所述二元组集合代表一个所述可共享后台属性商品子集。
进一步地,根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值,包括:
将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集;
将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,与当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的所有所述原始属性值的总的出现次数进行比例计算,得到当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例;
将得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例,与预设的修改比例阈值进行比较;
如果得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性中存在某个所述原始属性值的分布比例,大于预设的修改比例阈值,则确定某个所述原始属性值为当前所述可共享后台属性商品子集中包括的所有所述商品的与某个原始属性值对应的后台属性的校正属性值。
进一步地,统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数,包括:
将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集;
判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值;
如果大于预设的修改数量阈值,则统计当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值,包括:
根据当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值,包括:
将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
进一步地,判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值之后,还包括:
如果小于等于预设的修改数量阈值,则判断所述当前可共享后台属性商品子集是否是第M个所述可共享后台属性商品子集;
如果不是第M个所述可共享后台属性商品子集,则将当前所述可共享后台属性商品子集的下一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集,然而执行判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值的步骤;
如果是第M个所述可共享后台属性商品子集,则结束。
进一步地,获取N个商品中每个所述商品的识别符之后,还包括:
将N个所述商品中每个所述商品的识别符映射为一个整数;
将每个所述商品对应的整数对预设的并行运算计算机台数P取余数;其中,所述P为自然数;
将每个所述商品分配到所述余数对应的编号的并行运算计算机;
相应地,根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集,包括:
通过每台所述并行运算计算机根据每台所述并行运算计算机中的每个所述商品的识别符,一起将N个所述商品划分为M个所述可共享后台属性商品子集;
相应地,统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数,包括:
通过每台所述并行运算计算机统计每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值,包括:
通过每台所述并行运算计算机根据每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值,包括:
通过每台所述并行运算计算机将每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
为了解决上述问题,本发明还公开了一种校正商品的后台属性的属性值的装置,所述装置包括:
获取模块,用于获取N个商品中每个所述商品的识别符;其中,所述N为自然数;
划分模块,用于根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集;其中,所述M为自然数,所述M小于所述N;
统计模块,用于统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数;
确定模块,用于根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
修改模块,用于将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值。
进一步地,每个所述商品的识别符包括:
每个所述商品对应的图片的链接地址、每个所述商品对应的图片的内容签名、或每个所述商品的货号。
进一步地,每个所述商品对应的图片包括:
每个所述商品对应的主展示图片、每个所述商品对应的补充展示图片、每个所述商品对应的款式色号展示图片、或每个所述商品对应的细节展示图片。
进一步地,所述划分模块包括:
构建单元,用于为N个所述商品中的每个所述商品构建一条二元组,其中,所述二元组的第一个元素为每个所述商品的识别符、所述二元组的其他元素为每个所述商品的身份标识,以及每个所述商品的后台属性、所述后台属性的原始属性值;
排序单元,用于将所有的所述二元组按照所述第一个元素进行排序,并将所述第一个元素相同的所述二元组聚在一起构成M个二元组集合,其中,每个所述二元组集合代表一个所述可共享后台属性商品子集。
进一步地,所述确定模块包括:
第一处理单元,用于将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前可共享后台属性商品子集;
计算单元,用于将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,与当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的所有所述原始属性值的总的出现次数进行比例计算,得到当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例;
比较单元,用于将得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例,与预设的修改比例阈值进行比较;
属性值确定单元,用于如果得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性中存在某个所述原始属性值的分布比例,大于预设的修改比例阈值,则确定某个所述原始属性值为当前所述可共享后台属性商品子集中包括的所有所述商品的与某个原始属性值对应的后台属性的校正属性值。
进一步地,所述统计模块包括:
第二处理单元,用于将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集;
第一判断单元,用于判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值;
统计单元,用于如果大于预设的修改数量阈值,则统计当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,所述确定模块包括:
当前确定单元,用于根据当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,所述修改模块包括:
当前修改单元,用于将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
进一步地,所述统计模块还包括:
第二判断单元,用于如果小于等于预设的修改数量阈值,则判断所述当前可共享后台属性商品子集是否是第M个所述可共享后台属性商品子集;
通知单元,用于如果不是第M个所述可共享后台属性商品子集,则将当前所述可共享后台属性商品子集的下一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集,然而通知所述第一判断单元执行判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值的步骤;
结束单元,用于如果是第M个所述可共享后台属性商品子集,则结束。
进一步地,所述装置还包括:
映射模块,用于将N个所述商品中每个所述商品的识别符映射为一个整数;
余数计算模块,用于将每个所述商品对应的整数对预设的并行运算计算机台数P取余数;其中,所述P为自然数;
分配模块,用于将每个所述商品分配到所述余数对应的编号的并行运算计算机;
相应地,所述划分模块包括:P个划分单元,每个所述划分单元分别设置在每台所述并行运算计算机中;
P个所述划分单元,用于根据每台所述并行运算计算机中的每个所述商品的识别符,一起将N个所述商品划分为M个所述可共享后台属性商品子集;
相应地,所述统计模块包括:P个次数统计单元,每个所述次数统计单元分别设置在每台所述并行运算计算机中;
每个所述次数统计单元,分别用于统计每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,所述确定模块包括:P个确定单元,每个所述确定单元分别设置在每台所述并行运算计算机中;
每个所述确定单元,分别用于根据每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,所述修改模块包括:P个修改单元,每个所述修改单元分别设置在每台所述并行运算计算机中;
每个所述修改单元,分别用于将每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
与现有技术相比,本发明可以获得包括以下技术效果:
1)根据每个商品的识别符,将N个商品划分为M个可共享后台属性商品子集,根据每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值,将每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值,可以自动对商品的后台属性的属性值进行修改,不需要依靠人工完成,可以提高修改效率。
2)通过P台并行运算计算机进行并行修改,可以极大地加速运算,进一步提高修改效率。
当然,实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的第一种校正商品的后台属性的属性值的方法流程图;
图2是本发明实施例的第二种校正商品的后台属性的属性值的方法流程图;
图3是本发明实施例的第三种校正商品的后台属性的属性值的方法流程图;
图4是本发明实施例的第四种校正商品的后台属性的属性值的方法流程图;
图5是本发明实施例的第一种校正商品的后台属性的属性值的装置结构示意图;
图6是本发明实施例的第二种校正商品的后台属性的属性值的装置结构示意图。
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
实施例描述
下面以一实施例对本发明方法的实现作进一步说明。如图1所示,为本发明实施例的一种校正商品的后台属性的属性值的方法流程图,该方法包括:
S101:获取N个商品中每个商品的识别符;其中,N为自然数。
具体地,N个商品可以是一个或多个交易平台中的所有商品,也可以是一个或多个交易平台中的同一类目下的所有商品等,对此不做具体限定,本实施例的方法适用于任何的商品。
其中,每个商品的识别符包括:每个商品对应的图片的链接地址、每个商品对应的图片的内容签名(比如MD5或其他专门设计的图像签名等)、或每个商品的货号等。每个商品对应的图片包括:每个商品对应的主展示图片(可简称主图)、每个商品对应的补充展示图片(可能有多个)、每个商品对应的款式色号展示图片(SKU图)、或每个商品对应的细节展示图片(详情图)等。
需要说明的是,如果两个商品,例如:商品A和商品B,如果商品A的图片与商品B的图片有某种相等性,如商品A的图片与商品B的图片源自同一个链接地址(也就是说商品A和商品B引用了同一张图片),或如商品A的图片与商品B的图片的内容签名一致(也就是说商品A和商品B的图片的内容一致),或如商品A的货号与商品B的货号相同(也就是说商品A和商品B的款式相同),那么商品A和商品B很有可能是同一种商品,也就是说商品A和商品B的后台属性应该是一致(可共享)的。
根据上面的说明,显然可知,商品A与商品A自己肯定是可共享后台属性关系,因此可以说这个关系是“自反”的;如果商品A对商品B来说是可共享后台属性关系,那么商品B对商品A也是可共享后台属性关系,可以说这个关系是“对称”的。如果商品A与商品B引用了同一张主展示图片,而这张主展示图片也被商品B与商品C作为主展示图片所共同引用,那么商品A与商品C也是共享后台属性关系,显然这个关系是可以“传递”的。根据离散数学的定义,符合这三个条件的关系——商品间的可共享后台属性关系是一种“等价关系”。
需要说明的是,一般来说,商品的主展示图片要遵从严格的规范,要求其一定要完整展示商品全貌且不能包含无关信息(也就是说商品的主展示图片与所属商品是高度相关的),通过商品的主展示图片的重复引用关系建立的商品间的可共享后台属性关系的可靠性更高,因此优选将商品对应的主展示图片的链接地址、或商品对应的主展示图片的内容签名作为商品的识别符。
S102:根据每个商品的识别符,将N个商品划分为M个可共享后台属性商品子集;其中,M为自然数,M小于N。
具体地,根据每个商品的识别符,将N个商品划分为M个可共享后台属性商品子集,包括:
为N个商品中的每个商品构建一条二元组,其中,二元组的第一个元素为每个商品的识别符、二元组的其他元素为每个商品的身份标识,以及每个商品的后台属性、后台属性的原始属性值。
例如:对于N个商品中任一商品K,为其构建一条二元组,表示为PairK:keyK–nidK,<pid0,vidK,0>,<pid1,vidK,1>…。二元组PairK中,keyK为商品K的识别符(例如具体可以为商品K对应的主展示图片的链接地址),是二元组的第一个元素;二元组的其他元素由以下成员组成:nidK(为商品K的身份标识ID),<pid0,vidK,0>,<pid1,vidK,1>…(为商品K的后台属性/属性值对(即商品K的后台属性,商品K的后台属性的属性值)。<pid0,vidK,0>,<pid1,vidK,1>…比如代表<款式-贝壳>,<衣长-短款>,<鞋头-鱼嘴>等意思。
将所有的二元组按照第一个元素进行排序,并将第一个元素相同的二元组聚在一起构成M个二元组集合,其中,每个二元组集合代表一个可共享后台属性商品子集。
S103:统计每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数。
具体地,因为二元组集合中的商品有相同的识别符(例如有相同的主展示图片),所以二元组集合中的商品很有可能代表同一种商品,二元组集合中的商品的后台属性的属性值也应该是一致的。但是,在一个可共享后台属性商品子集中,由于这些商品来自不同卖家,虽然它们的后台属性理应统一,但实际情况往往各异。因此需要统计每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,根据统计结果来确定每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值。
S104:根据每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值。
具体地,可以根据出现次数,确定出现次数最多的某原始属性值,为每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值。
然而,虽然某原始属性值的出现次数最多,但是因为别的卖家都没有填该种类型的后台属性的属性值,或者出现次数最多的某原始属性值是卖家易错填的等,上述各种情况下,出现次数最多的某原始属性值也不一定是校正属性值。为稳定性考虑,可以设置当某原始属性值的分布比例达到一定的修改比例阈值时,才确定某原始属性值为每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值,如果某原始属性值的出现次数是最多,但其分布比例达不到一定的修改比例阈值,那么则认为该种类型的后台属性的属性情况复杂,不做任何修改。
具体地,为稳定性考虑,参见图2,根据每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值,包括:
S104a:将M个可共享后台属性商品子集中的第一个可共享后台属性商品子集作为当前可共享后台属性商品子集。
S104b:将当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,与当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的所有原始属性值的总的出现次数进行比例计算,得到当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的分布比例。
S104c:将得到的当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的分布比例,与预设的修改比例阈值进行比较,如果得到的当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性中存在某个原始属性值的分布比例,大于预设的修改比例阈值,则执行S104d;如果得到的当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性中不存在某个原始属性值的分布比例,大于预设的修改比例阈值,则执行S104f。
具体地,预设的修改比例阈值可以根据实际应用状况进行设置,比如对可靠性有更高要求的监控处罚类产品,预设的修改比例阈值可以设置为75%或者更高等,来减小检验的失误率;对补充/校正的覆盖率要求高的产品,则可以适当放松要求,预设的修改比例阈值可以设置为30%等。
S104d:确定某个原始属性值为当前可共享后台属性商品子集中包括的所有商品的与某个原始属性值对应的后台属性的校正属性值。
需要说明的是,当大于预设的修改比例阈值的原始属性值存在二个以上时,可以从中选择分布比例最大的原始属性值作为校正属性值。
S104e:将当前可共享后台属性商品子集中包括的所有商品的与某个原始属性值对应的后台属性的每个原始属性值修改为校正属性值,然后执行S104g。
S104f:确定不修改当前可共享后台属性商品子集中包括的所有商品的与某个原始属性值对应的后台属性的每个原始属性值,然后执行S104g。
S104g:判断当前可共享后台属性商品子集是否是第M个可共享后台属性商品子集,如果不是,则执行S104h;否则,结束。
S104h:将当前可共享后台属性商品子集的下一个可共享后台属性商品子集作为当前可共享后台属性商品子集,然后执行S104b。
S105:将每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值。
具体地,将每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值,具体是:如果每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的某原始属性值与校正属性值相同,则保留;如果每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的某原始属性值与校正属性值不相同,则校正;如果每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的某原始属性值缺失,则补充。
优选地,参见图3,在一优选的实施例中,S103-S105可以包括:
S201:将M个可共享后台属性商品子集中的第一个可共享后台属性商品子集作为当前可共享后台属性商品子集。
S202:判断当前可共享后台属性商品子集中包括的商品的个数是否大于预设的修改数量阈值,如果大于预设的修改数量阈值,则执行S203;如果小于等于预设的修改数量阈值,则执行S206。
具体地,当可共享后台属性商品子集中包含一定数量的商品时,才进行统计,例如:如果只包含一个商品,则没有修改的依据和必要。
其中,预设的修改数量阈值可以根据实际应用状况进行设置,如可以设置为2个、20个等。
S203:统计当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数。
S204:根据当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值。
S205:将当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值。
S206:判断当前可共享后台属性商品子集是否是第M个可共享后台属性商品子集,如果不是第M个可共享后台属性商品子集,则执行S207;如果是第M个可共享后台属性商品子集,则结束。
S207:将当前可共享后台属性商品子集的下一个可共享后台属性商品子集作为当前可共享后台属性商品子集,然而执行S202。
对于平台级的产品来说,需要处理的商品的量级可能在亿级以上,如果仅在单台计算机上实现,耗时仍然是不可接受的。不过,本实施例的方法是可以高度并行的,因此对于海量商品来说处理速度也是很快。假设有N个商品,通过P台并行运行计算机来处理,具体地,参见图4,在一优选的实施例中,S102-S105可以包括:
S301:将N个商品中每个商品的识别符映射为一个整数。
具体地,每个商品的识别符key可以看做是一个字符串,对key求hashcode即可以将key映射为一个整数。假设key=c0c1…cL由L个字符组成,那么其对应的整数(记为HCL)的计算方法为:
HC0=0;
HCL=HCL-1*Z+cL。
其中,Z为任意一个质数,通常设为31;字符c按其ASCII码(整数)表示。
并不限于通过上述方法将商品的识别符映射为一个整数,可以通过任何可行的方式实现,对此不做具体限定。
S302:将每个商品的整数对预设的并行运算计算机台数P取余数;其中,P为自然数。
S303:将每个商品分配到余数对应的编号的并行运算计算机。
具体地,P台并行运算计算机的编号分别为0-P-1。
对于每个商品,按其key对应的HC对P取余数来分发。这样所有待处理的商品会被基本均匀地分发到P台并行运算计算机之上。相当于对任务全集按余数做了一遍预切分。
S304:通过每台并行运算计算机根据每台并行运算计算机中的每个商品的识别符,一起将N个商品划分为M个可共享后台属性商品子集。
具体地,按照商品的识别符将N个商品分配到P台并行运算计算机(每台并行运算计算机中的商品个数小于N,P台并行运算计算机中的商品个数之和为N),每台并行运算计算机与一台计算机划分可共享后台属性商品子集时的方法一样,具体如下:每台并行运算计算机为每台并行运算计算机中的每个商品建一条二元组,其中,二元组的第一个元素为每个商品的识别符、二元组的其他元素为每个商品的身份标识,以及每个商品的后台属性、后台属性的原始属性值;将所有的二元组按照第一个元素进行排序,并将第一个元素相同的二元组聚在一起构成多个二元组集合(每台并行运算计算机得到的二元组集合的个数小于M,P台并行运算计算机得到的二元组集合的个数之和为M),其中,每个二元组集合代表一个可共享后台属性商品子集。
需要说明的是,由于同一种商品的识别符key是相同的,HC也相同,所以不管是在整体排序还是在切分后的部分排序中,同一种商品都会被分配到同一个可共享后台商品属性子集中。因此,通过任务切分后获得的可共享后台商品属性子集与在单台计算机上整体排序后获得的可共享后台商品属性子集在数量和内容上是一模一样的。也就是说,对于每台并行运算计算机来说,与采用一台计算机实现时的流程是一样的。任务切分不会影响整个流程的正确性。
S305:通过每台并行运算计算机统计每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数。
S306:通过每台并行运算计算机根据每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值。
S307:通过每台并行运算计算机将每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值。
具体地,通过并行策略可以极大地加速运算,原因如下:1)将全集排序转化为在P台并行运算计算机上的部分排序,不但利用了P台并行运算计算机的并行计算能力,且将计算复杂度极大地降低了。假设全集有N个商品,那么最优的排序算法对全集排序的复杂度是N·logN;而如果转化为P台并行运算计算机的部分排序,假设均匀切分的话复杂度为P·(N/P)·log(N/P)=N·log(N/P)=N·(logN-logP),因此相比全集排序节省了N·logP的运算量。2)通过P台并行运算计算机并行修改N个商品,对于每台并行运算计算机虽然从整个流程来看没有降低运算复杂度,但由P台并行运算计算机并行修改N个商品,N个商品的总体修改耗时会降为1/P。
本实施例所述的校正商品的后台属性的属性值的方法,根据每个商品的识别符,将N个商品划分为M个可共享后台属性商品子集,根据每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值,将每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值,可以自动对商品的后台属性的属性值进行修改,不需要依靠人工完成,可以提高修改效率。通过P台并行运算计算机进行并行修改,可以极大地加速运算,进一步提高修改效率。
如图5所示,是本发明实施例的一种校正商品的后台属性的属性值的装置结构图,该装置包括:
获取模块401,用于获取N个商品中每个商品的识别符;其中,N为自然数;
划分模块402,用于根据每个商品的识别符,将N个商品划分为M个可共享后台属性商品子集;其中,M为自然数,M小于N;
统计模块403,用于统计每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数;
确定模块404,用于根据每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值;
修改模块405,用于将每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
进一步地,每个商品的识别符包括:
每个商品对应的图片的链接地址、每个商品对应的图片的内容签名、或每个商品的货号。
进一步地,每个商品对应的图片包括:
每个商品对应的主展示图片、每个商品对应的补充展示图片、每个商品对应的款式色号展示图片、或每个商品对应的细节展示图片。
进一步地,划分模块402包括:
构建单元,用于为N个商品中的每个商品构建一条二元组,其中,二元组的第一个元素为每个商品的识别符、二元组的其他元素为每个商品的身份标识,以及每个商品的后台属性、所述后台属性的原始属性值;
排序单元,用于将所有的二元组按照第一个元素进行排序,并将第一个元素相同的二元组聚在一起构成M个二元组集合,其中,每个二元组集合代表一个可共享后台属性商品子集。
进一步地,确定模块包括:
第一处理单元,用于将M个可共享后台属性商品子集中的第一个可共享后台属性商品子集作为当前可共享后台属性商品子集;
计算单元,用于将当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,与当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的所有原始属性值的总的出现次数进行比例计算,得到当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的分布比例;
比较单元,用于将得到的当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的分布比例,与预设的修改比例阈值进行比较;
属性值确定单元,用于如果得到的当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性中存在某个原始属性值的分布比例,大于预设的修改比例阈值,则确定某个原始属性值为当前可共享后台属性商品子集中包括的所有商品的与某个原始属性值对应的后台属性的校正属性值。
进一步地,统计模块403包括:
第二处理单元,用于将M个可共享后台属性商品子集中的第一个可共享后台属性商品子集作为当前可共享后台属性商品子集;
第一判断单元,用于判断当前可共享后台属性商品子集中包括的商品的个数是否大于预设的修改数量阈值;
统计单元,用于如果大于预设的修改数量阈值,则统计当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数;
相应地,确定模块404包括:
当前确定单元,用于根据当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值;
相应地,修改模块405包括:
当前修改单元,用于将当前可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值。
进一步地,统计模块403还包括:
第二判断单元,用于如果小于等于预设的修改数量阈值,则判断所述当前可共享后台属性商品子集是否是第M个可共享后台属性商品子集;
通知单元,用于如果不是第M个可共享后台属性商品子集,则将当前可共享后台属性商品子集的下一个可共享后台属性商品子集作为当前可共享后台属性商品子集,然而通知第一判断单元执行判断当前可共享后台属性商品子集中包括的商品的个数是否大于预设的修改数量阈值的步骤;
结束单元,用于如果是第M个可共享后台属性商品子集,则结束。
进一步地,参见图6,该装置还包括:
映射模块406,用于将N个商品中每个商品的识别符映射为一个整数;
余数计算模块407,用于将每个商品对应的整数对预设的并行运算计算机台数P取余数;其中,P为自然数;
分配模块408,用于将每个商品分配到所述余数对应的编号的并行运算计算机;
相应地,划分模块402包括:P个划分单元402a,每个划分单元402a分别设置在每台并行运算计算机中;
P个划分单元402a,用于根据每台并行运算计算机中的每个商品的识别符,一起将N个商品划分为M个可共享后台属性商品子集;
相应地,统计模块403包括:P个次数统计单元403a,每个次数统计单元403a分别设置在每台并行运算计算机中;
每个次数统计单元403a,分别用于统计每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数;
相应地,确定模块404包括:P个确定单元404a,每个确定单元分别设置在每台并行运算计算机中;
每个确定单元,分别用于根据每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值;
相应地,修改模块405包括:P个修改单元405a,每个修改单元分别设置在每台并行运算计算机中;
每个修改单元405a,分别用于将每台并行运算计算机中的每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值。
本实施例所述的校正商品的后台属性的属性值的装置,根据每个商品的识别符,将N个商品划分为M个可共享后台属性商品子集,根据每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值的出现次数,确定每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的校正属性值,将每个可共享后台属性商品子集中包括的所有商品的同一类型的后台属性的每个原始属性值修改为校正属性值,可以自动对商品的后台属性的属性值进行修改,不需要依靠人工完成,可以提高修改效率。通过P台并行运算计算机进行并行修改,可以极大地加速运算,进一步提高修改效率。
所述装置与前述的方法流程描述对应,不足之处参考上述方法流程的叙述,不再一一赘述。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (16)
1.一种校正商品的后台属性的属性值的方法,其特征在于,所述方法包括:
获取N个商品中每个所述商品的识别符;其中,所述N为自然数;
根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集;其中,所述M为自然数,所述M小于所述N,所述可共享后台属性商品子集中包括的多个商品具有可共享后台属性的关系;
统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数;
根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值。
2.如权利要求1所述的方法,其特征在于,每个所述商品的识别符包括:
每个所述商品对应的图片的链接地址、每个所述商品对应的图片的内容签名、或每个所述商品的货号。
3.如权利要求2所述的方法,其特征在于,每个所述商品对应的图片包括:
每个所述商品对应的主展示图片、每个所述商品对应的补充展示图片、每个所述商品对应的款式色号展示图片、或每个所述商品对应的细节展示图片。
4.如权利要求1所述的方法,其特征在于,根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集,包括:
为N个所述商品中的每个所述商品构建一条二元组,其中,所述二元组的第一个元素为每个所述商品的识别符、所述二元组的其他元素为每个所述商品的身份标识,以及每个所述商品的后台属性、所述后台属性的原始属性值;
将所有的所述二元组按照所述第一个元素进行排序,并将所述第一个元素相同的所述二元组聚在一起构成M个二元组集合,其中,每个所述二元组集合代表一个所述可共享后台属性商品子集。
5.如权利要求1所述的方法,其特征在于,根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值,包括:
将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集;
将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,与当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的所有所述原始属性值的总的出现次数进行比例计算,得到当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例;
将得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例,与预设的修改比例阈值进行比较;
将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的某个原始属性值的出现次数为最大值对应的原始属性值,确定为当前所述可共享后台属性商品子集中包括的所有所述商品的与某个原始属性值对应的后台属性的校正属性值;或者,
如果当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的某个原始属性值的出现次数为最大值,且得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性中存在某个所述原始属性值的分布比例,大于预设的修改比例阈值,则确定某个所述原始属性值为当前所述可共享后台属性商品子集中包括的所有所述商品的与某个原始属性值对应的后台属性的校正属性值。
6.如权利要求1所述的方法,其特征在于,统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数,包括:
将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集;
判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值;
如果大于预设的修改数量阈值,则统计当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值,包括:
根据当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值,包括:
将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
7.如权利要求6所述的方法,其特征在于,判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值之后,还包括:
如果小于等于预设的修改数量阈值,则判断所述当前可共享后台属性商品子集是否是第M个所述可共享后台属性商品子集;
如果不是第M个所述可共享后台属性商品子集,则将当前所述可共享后台属性商品子集的下一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集,然而执行判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值的步骤;
如果是第M个所述可共享后台属性商品子集,则结束。
8.如权利要求1-7任一权利要求所述的方法,其特征在于,获取N个商品中每个所述商品的识别符之后,还包括:
将N个所述商品中每个所述商品的识别符映射为一个整数;
将每个所述商品对应的整数对预设的并行运算计算机台数P取余数;其中,所述P为自然数;
将每个所述商品分配到所述余数对应的编号的并行运算计算机;
相应地,根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集,包括:
通过每台所述并行运算计算机根据每台所述并行运算计算机中的每个所述商品的识别符,一起将N个所述商品划分为M个所述可共享后台属性商品子集;
相应地,统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数,包括:
通过每台所述并行运算计算机统计每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值,包括:
通过每台所述并行运算计算机根据每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值,包括:
通过每台所述并行运算计算机将每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
9.一种校正商品的后台属性的属性值的装置,其特征在于,所述装置包括:
获取模块,用于获取N个商品中每个所述商品的识别符;其中,所述N为自然数;
划分模块,用于根据每个所述商品的识别符,将N个所述商品划分为M个可共享后台属性商品子集;其中,所述M为自然数,所述M小于所述N,所述可共享后台属性商品子集中包括的多个商品具有可共享后台属性的关系;
统计模块,用于统计每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个原始属性值的出现次数;
确定模块,用于根据每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
修改模块,用于将每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为所述校正属性值。
10.如权利要求9所述的装置,其特征在于,每个所述商品的识别符包括:
每个所述商品对应的图片的链接地址、每个所述商品对应的图片的内容签名、或每个所述商品的货号。
11.如权利要求10所述的装置,其特征在于,每个所述商品对应的图片包括:
每个所述商品对应的主展示图片、每个所述商品对应的补充展示图片、每个所述商品对应的款式色号展示图片、或每个所述商品对应的细节展示图片。
12.如权利要求9所述的装置,其特征在于,所述划分模块包括:
构建单元,用于为N个所述商品中的每个所述商品构建一条二元组,其中,所述二元组的第一个元素为每个所述商品的识别符、所述二元组的其他元素为每个所述商品的身份标识,以及每个所述商品的后台属性、所述后台属性的原始属性值;
排序单元,用于将所有的所述二元组按照所述第一个元素进行排序,并将所述第一个元素相同的所述二元组聚在一起构成M个二元组集合,其中,每个所述二元组集合代表一个所述可共享后台属性商品子集。
13.如权利要求9所述的装置,其特征在于,所述确定模块包括:
第一处理单元,用于将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前可共享后台属性商品子集;
计算单元,用于将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,与当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的所有所述原始属性值的总的出现次数进行比例计算,得到当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例;
比较单元,用于将得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的分布比例,与预设的修改比例阈值进行比较;
属性值确定单元,用于将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的某个原始属性值的出现次数为最大值对应的原始属性值,确定为当前所述可共享后台属性商品子集中包括的所有所述商品的与某个原始属性值对应的后台属性的校正属性值;或者,如果当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的某个原始属性值的出现次数为最大值,且得到的当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性中存在某个所述原始属性值的分布比例,大于预设的修改比例阈值,则确定某个所述原始属性值为当前所述可共享后台属性商品子集中包括的所有所述商品的与某个原始属性值对应的后台属性的校正属性值。
14.如权利要求9所述的装置,其特征在于,所述统计模块包括:
第二处理单元,用于将M个所述可共享后台属性商品子集中的第一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集;
第一判断单元,用于判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值;
统计单元,用于如果大于预设的修改数量阈值,则统计当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,所述确定模块包括:
当前确定单元,用于根据当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,所述修改模块包括:
当前修改单元,用于将当前所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
15.如权利要求14所述的装置,其特征在于,所述统计模块还包括:
第二判断单元,用于如果小于等于预设的修改数量阈值,则判断所述当前可共享后台属性商品子集是否是第M个所述可共享后台属性商品子集;
通知单元,用于如果不是第M个所述可共享后台属性商品子集,则将当前所述可共享后台属性商品子集的下一个所述可共享后台属性商品子集作为当前所述可共享后台属性商品子集,然而通知所述第一判断单元执行判断当前所述可共享后台属性商品子集中包括的所述商品的个数是否大于预设的修改数量阈值的步骤;
结束单元,用于如果是第M个所述可共享后台属性商品子集,则结束。
16.如权利要求9-15任一权利要求所述的装置,其特征在于,所述装置还包括:
映射模块,用于将N个所述商品中每个所述商品的识别符映射为一个整数;
余数计算模块,用于将每个所述商品对应的整数对预设的并行运算计算机台数P取余数;其中,所述P为自然数;
分配模块,用于将每个所述商品分配到所述余数对应的编号的并行运算计算机;
相应地,所述划分模块包括:P个划分单元,每个所述划分单元分别设置在每台所述并行运算计算机中;
P个所述划分单元,用于根据每台所述并行运算计算机中的每个所述商品的识别符,一起将N个所述商品划分为M个所述可共享后台属性商品子集;
相应地,所述统计模块包括:P个次数统计单元,每个所述次数统计单元分别设置在每台所述并行运算计算机中;
每个所述次数统计单元,分别用于统计每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数;
相应地,所述确定模块包括:P个确定单元,每个所述确定单元分别设置在每台所述并行运算计算机中;
每个所述确定单元,分别用于根据每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值的出现次数,确定每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的校正属性值;
相应地,所述修改模块包括:P个修改单元,每个所述修改单元分别设置在每台所述并行运算计算机中;
每个所述修改单元,分别用于将每台所述并行运算计算机中的每个所述可共享后台属性商品子集中包括的所有所述商品的同一类型的后台属性的每个所述原始属性值修改为校正属性值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510119332.6A CN106033456B (zh) | 2015-03-18 | 2015-03-18 | 校正商品的后台属性的属性值的方法和装置 |
PCT/CN2016/075938 WO2016146005A1 (zh) | 2015-03-18 | 2016-03-09 | 校正商品的后台属性的属性值的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510119332.6A CN106033456B (zh) | 2015-03-18 | 2015-03-18 | 校正商品的后台属性的属性值的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106033456A CN106033456A (zh) | 2016-10-19 |
CN106033456B true CN106033456B (zh) | 2019-10-08 |
Family
ID=56918391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510119332.6A Active CN106033456B (zh) | 2015-03-18 | 2015-03-18 | 校正商品的后台属性的属性值的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106033456B (zh) |
WO (1) | WO2016146005A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903105B (zh) * | 2017-12-08 | 2021-11-30 | 北京京东尚科信息技术有限公司 | 一种完善目标商品属性的方法和装置 |
CN115063211B (zh) * | 2022-08-16 | 2022-11-11 | 华能能源交通产业控股有限公司 | 一种获取商品属性数据方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043763A (zh) * | 2009-10-23 | 2011-05-04 | 北大方正集团有限公司 | 一种自动校对姓名的方法及装置 |
CN103559267A (zh) * | 2013-11-04 | 2014-02-05 | 北京中搜网络技术股份有限公司 | 一种基于商品属性归一和聚类识别产品的方法 |
CN103578015A (zh) * | 2012-08-07 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种商品属性导航的实现方法及装置 |
CN103744920A (zh) * | 2013-12-27 | 2014-04-23 | 苏州大学 | 一种商品属性名值对抽取方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6988090B2 (en) * | 2000-10-25 | 2006-01-17 | Fujitsu Limited | Prediction analysis apparatus and program storage medium therefor |
CN103019398A (zh) * | 2011-09-20 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 一种文字输入方法及文字输入装置 |
JP5124680B1 (ja) * | 2011-11-30 | 2013-01-23 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
CN104391934B (zh) * | 2014-11-21 | 2016-03-16 | 深圳市银雁金融服务有限公司 | 数据校验方法和装置 |
-
2015
- 2015-03-18 CN CN201510119332.6A patent/CN106033456B/zh active Active
-
2016
- 2016-03-09 WO PCT/CN2016/075938 patent/WO2016146005A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043763A (zh) * | 2009-10-23 | 2011-05-04 | 北大方正集团有限公司 | 一种自动校对姓名的方法及装置 |
CN103578015A (zh) * | 2012-08-07 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种商品属性导航的实现方法及装置 |
CN103559267A (zh) * | 2013-11-04 | 2014-02-05 | 北京中搜网络技术股份有限公司 | 一种基于商品属性归一和聚类识别产品的方法 |
CN103744920A (zh) * | 2013-12-27 | 2014-04-23 | 苏州大学 | 一种商品属性名值对抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2016146005A1 (zh) | 2016-09-22 |
CN106033456A (zh) | 2016-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108295476B (zh) | 确定异常交互账户的方法和装置 | |
CN107122980B (zh) | 识别商品所属类目的方法和装置 | |
Gray et al. | All complete intersection Calabi-Yau four-folds | |
CN102279738B (zh) | 标识强连通分量的入口和出口的技术 | |
US20140143110A1 (en) | Circular Transaction Path Detection | |
Ahmed et al. | Estimation of local subgraph counts | |
CN104574126B (zh) | 一种用户特征识别方法及装置 | |
CN106355391A (zh) | 一种业务处理方法及装置 | |
CN109697456A (zh) | 业务分析方法、装置、设备及存储介质 | |
US10783167B1 (en) | System for classifying items based on user interactions | |
EP2884447A1 (en) | Efficient detection of information of interest using greedy-mode-based graph clustering | |
Floderus et al. | Detecting and counting small pattern graphs | |
CN112258301B (zh) | 商品推荐方法、装置、系统、可读存储介质及电子设备 | |
CN106033456B (zh) | 校正商品的后台属性的属性值的方法和装置 | |
CN106201917B (zh) | 一种数据处理系统和方法 | |
CN110362648A (zh) | 问卷调查题目的更新方法及装置、存储介质、计算机设备 | |
EP2913760A1 (en) | Efficient link management for graph clustering | |
CN106357418B (zh) | 一种基于复杂网络的特征提取方法及装置 | |
Saltz et al. | Distributed community detection with the wcc metric | |
CN109344255A (zh) | 标签的填充方法及终端设备 | |
CN104867032A (zh) | 电子商务客户评价鉴别系统 | |
CN106033444A (zh) | 文本内容的聚类方法和装置 | |
CN106204163A (zh) | 一种用户属性特征的确定方法和装置 | |
CN106779899A (zh) | 恶意订单识别方法及装置 | |
CN104615605B (zh) | 用于预测数据对象的类目的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1229908 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |