CN113643100A - 一种商品相似度判定模块贡献量化方法及系统 - Google Patents
一种商品相似度判定模块贡献量化方法及系统 Download PDFInfo
- Publication number
- CN113643100A CN113643100A CN202111001847.8A CN202111001847A CN113643100A CN 113643100 A CN113643100 A CN 113643100A CN 202111001847 A CN202111001847 A CN 202111001847A CN 113643100 A CN113643100 A CN 113643100A
- Authority
- CN
- China
- Prior art keywords
- data
- commodity
- judgment
- group
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000011002 quantification Methods 0.000 title claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 8
- 238000013139 quantization Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012827 research and development Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是关于一种商品相似度判定模块贡献量化方法及系统。该方法包括:从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;对清洗后的商品数据进行抽样,作为样本数据集;使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。本发明提供的技术方案,以商品品类为数据粒度,提供各个判定模块的贡献量化值,据此能够更加合理的对各个判定模块的研发资源投入进行差异化的预算分配,使得整体的投入产出呈现最优状态。
Description
技术领域
本发明涉及数据科学,具体属于运筹学领域。
背景技术
随着电商领域的快速发展与繁荣,线上消费成为大众购买商品的主流方式。对比传统的线下购物方式,线上模式可以让消费者花费极小的成本对比不同电商平台的商品,做到真正意义上的“货比三家”。为了满足消费者对比不同电商平台相同商品的需求,需要对多电商平台的商品进行相似度对比,把判定为相同的商品聚合到一起进行存储。电商平台中,反映商品信息的一个常用概念是SPU(Standard Product Unit,标准产品单位)和SKU(Stock keeping Unit,库存量单位),SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性,SKU即库存进出计量的单位,是物理上不可分割的最小存货单元。例如,手机品类下,SPU“iPhone12”下有“蓝色/64G”、“红色/64G”等多个不同SKU的商品。一个常见的任务场景是对多电商平台的相同SPU的商品进行相似度判断,聚合相同SKU的商品。
电商商品进行相似度判断主要可以利用页面中三个部分的信息:商品标题、商品属性、商品图片。针对这三部分的信息,目前开发了三个对应的相似度判断模块:标题判定模块、属性判定模块、图片判定模块。现有的技术方案没有对标题判定模块、属性判定模块、图片判定模块的贡献进行差异化的评估,针对不同的商品分类均使用相等贡献的假设,即将三个判定模块的贡献值假设为1:1:1。这样的评估方案缺乏科学性与有效性,没有对具体商品分类进行差异化的评估,无法实现研发资源预算投入与收益的最优化。
发明内容
为克服相关技术中存在的问题,本发明提供一种商品相似度判定模块贡献量化方法及系统,能够科学有效的量化评估各个判定模块在不同商品分类中的贡献,实现了以商品品类为数据粒度的差异化的贡献量化,对科学分配研发资源与预算具有指导意义。
根据本发明实施例的第一方面,提供一种商品相似度判定模块贡献量化方法,包括:
第一步:从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
第二步:对清洗后的商品数据进行抽样,作为样本数据集;
第三步:使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
第四步:根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
进一步,对清洗后的商品数据进行抽样,作为样本数据集,具体包括:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
进一步,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;
所述使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数,具体包括:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
进一步,该方法还包括:
对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
根据本发明实施例的第二方面,提供一种商品相似度判定模块贡献量化系统,包括:
数据清洗单元,用于从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
数据抽样单元,用于对清洗后的商品数据进行抽样,作为样本数据集;
相似度判定单元,用于使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
量化计算单元,用于根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
进一步,所述数据抽样单元,具体用于:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
进一步,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;
所述相似度判定单元,具体用于:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
进一步,所述量化计算单元,还用于对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
根据本发明实施例的第三方面,提供一种终端设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
根据本发明实施例的第四方面,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
以商品品类为数据粒度,针对各个商品相似度的判定模块对整体相似度判断的贡献进行量化分析,提供各个判定模块的贡献量化值,据此能够更加合理的对各个判定模块的研发资源投入进行差异化的预算分配,使得整体的投入产出呈现最优状态。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1是根据本发明一示例性实施例示出的一种商品相似度判定模块贡献量化方法的流程示意图;
图2是根据本发明示例性实施例示出的一种商品相似度判定模块贡献量化系统的结构框图;
图3是计算Shapley值的代码;
图4是根据本发明一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以下结合附图详细描述本发明实施例的技术方案。
图1是根据本发明一示例性实施例示出的一种商品相似度判定模块贡献量化方法的流程示意图。
参见图1,该方法包括:
110、从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
具体的,所述数据源可以为保存有商品数据的业务数据库,商品数据可包含商品的标题、属性、图片等类型的数据,具体的数据类型的选择需要以后续进行相似度判定所适用的判定模块来确定。
商品数据进行清洗及标准化处理后,需要按照商品所属品类进行存储。
另外,具体的清晰及标准化处理过程属于现有技术,在此不作赘述。
120、对清洗后的商品数据进行抽样,作为样本数据集;
具体的,可使用简单随机抽样方法对清洗后的商品数据进行抽样,可选地,在该实施例中,步骤120具体包括:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
130、使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
可选地,在该实施例中,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;则步骤130具体包括:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
140、根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
具体的,Shapley值法是运筹学中的一种计算方法,其目的是在一个大联盟中,根据给定不同方式S对应的贡献函数v,得出最优利益分配(成本分摊)方案,其思想是参与者所应获得的效益等于该参与者对每一个它所参与的联盟的边际贡献的期望值,基于Shapley值进行联盟成员的利益分配体现了各盟员对联盟总目标的贡献程度,避免了分配上的平均主义,比任何一种仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性,也体现了各盟员相互博弈的过程。Shapley值的计算公式如下:
根据上述Shapley值计算公式编写基于java语言的计算程序,再把步骤130中记录的判断正确的个数代入计算程序进行计算,即可得到计算结果,即各个判定模块的贡献量化值。
可选地,在该实施例中,该方法还包括:
对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
本发明的实施例提供的一种商品相似度判定模块贡献量化方法,以商品品类为数据粒度,针对各个商品相似度的判定模块对整体相似度判断的贡献进行量化分析,提供各个判定模块的贡献量化值,据此能够更加合理的对各个判定模块的研发资源投入进行差异化的预算分配,使得整体的投入产出呈现最优状态。
图2是根据本发明示例性实施例示出的一种商品相似度判定模块贡献量化系统的结构框图。
参见图2,该系统包括:
数据清洗单元,用于从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
数据抽样单元,用于对清洗后的商品数据进行抽样,作为样本数据集;
相似度判定单元,用于使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
量化计算单元,用于根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
可选地,在该实施例中,所述数据抽样单元,具体用于:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
可选地,在该实施例中,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;
所述相似度判定单元,具体用于:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
可选地,在该实施例中,所述量化计算单元,还用于对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
下面给出一个基于本实施例的具体示例:
第一步:数据清洗单元。
A、从业务数据库中获取商品的标题、属性、图片数据,保存到商品数据操作表ods_product;从业务数据库中获取商品的spu_id、sku_id、商品分类id字段,保存到商品数据操作表ods_product。
B、对标题进行数据清洗,去除标题中的特殊符号,删除长度超过200字的标题数据,删除包含敏感词表中词汇的不合规标题数据。
C、对图片进行数据清洗,进行图片去背景处理,删除像素低于700px×700px的图片,删除文字覆盖面积超过1/3的图片。
D、对属性数据进行清洗,删除缺失关键属性的数据;删除属性中的错误值、异常值;统一化属性的单位。
E、保存经过数据清洗的标题、属性、图片数据到商品数据分析表lab_product。
第二步:数据抽样单元。
A、对表lab_product中的手机分类(以手机分类作为案例)的商品数据按照sku_id进行分组,每组选取两条同一sku的商品数据形成数据集S1。对表lab_product中的手机分类的商品数据按照spu_id进行分组,每组选取两条同一spu下不同sku的商品数据形成数据集S2。
B、对A的处理结果进行简单随机抽样,分别抽取S1、S2中各5000组作为样本数据集。
第三步:相似度判定单元。
A、使用标题判定模块对样本数据进行相似度判断,从样本数据中可以判断正确的数量记为v(1);使用属性判定模块对样本数据进行相似度判断,从样本数据中可以判断正确的数量记为v(2);使用图片判定模块对样本数据进行相似度判断,从样本数据中可以判断正确的数量记为v(3)。
B、使用标题、属性判定模块共同对样本数据进行相似度判断,从样本数据中可以判断正确的数量记为v(1&2);使用标题、图片判定模块共同对样本数据进行相似度判断,从样本数据中可以判断正确的数量记为v(1&3);使用属性、图片判定模块共同对样本数据进行相似度判断,从样本数据中可以判断正确的数量记为v(2&3)。
C、使用标题、属性、图片判定模块共同对样本数据进行相似度判断,从样本数据中可以判断正确的数量记为v(1&2&3)。
记录表单下表1所示:
模块组合 | v(1) | v(2) | v(3) | v(1&2) | v(1&3) | v(2&3) | v(1&2&3) |
正确数 | 466 | 2814 | 976 | 6672 | 3440 | 7167 | 9927 |
第四步:量化计算单元。
A、根据Shapley值计算公式编写基于java语言的量化计算模块。
B、根据表1中记录的正确数量值,进行如下判断:
v(1&2&3)>v(1&2)+v(3)
v(1&2&3)>v(2&3)+v(1)
v(1&2&3)>v(1&3)+v(2)
根据不等式判断结果得出结论:三个模块同时使用可以获得最大的正确率,进行下一步的贡献量化计算。
C、把表1中记录的判断模块正确数量值带入量化计算模块进行计算(如图3所示),计算结果为:标题判定模块贡献:2129.00;属性判定模块贡献:5166.50;图片判定模块贡献:2631.50。
D、对数值进行归一化处理得到:标题判定模块为0.214;属性判定模块为0.520;图片判定模块为0.265,即手机分类的三个模块的归一化贡献量化值。
通过使用本发明实施例提出的基于Shapley值的商品相似度判定指标贡献度量化方法及系统,实现了在商品品类的数据粒度下对标题、属性、图片三个相似度判定模块的贡献进行量化。在手机和笔记本两个分类下应用本方案后,参考贡献量化的数值,针对三个判定模块进行了研发资源投入的调整。对比没有进行量化评估的时候完成相同效果的任务单元,可以节省35%的研发资源投入,系统整体的效率有了明显的提升。
图4是根据本发明一示例性实施例示出的一种计算设备的结构示意图。
参见图4,计算设备400包括存储器410和处理器420。
处理器420可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器410可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器420或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器410可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器410可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器410上存储有可执行代码,当可执行代码被处理器420处理时,可以使处理器420执行上文述及的方法中的部分或全部。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。
上文中已经参考附图详细描述了本发明的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本发明所必须的。另外,可以理解,本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种商品相似度判定模块贡献量化方法,其特征在于,包括:
第一步:从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
第二步:对清洗后的商品数据进行抽样,作为样本数据集;
第三步:使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
第四步:根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
2.根据权利要求1所述的方法,其特征在于,对清洗后的商品数据进行抽样,作为样本数据集,具体包括:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
3.根据权利要求1所述的方法,其特征在于,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;
所述使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数,具体包括:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:
对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
5.一种商品相似度判定模块贡献量化系统,其特征在于,包括:
数据清洗单元,用于从数据源获取商品数据,对其中的异常数据进行清洗,将非标准化数据进行标准化处理,并将商品数据按照商品品类进行存储;
数据抽样单元,用于对清洗后的商品数据进行抽样,作为样本数据集;
相似度判定单元,用于使用至少两个不同类型的判定模块对样本数据集进行相似度判定,记录各个判定模块在单独使用和组合使用的情况下判断正确的个数;
量化计算单元,用于根据记录的个数计算各个判定模块的Shapley值,作为各个判定模块的贡献量化值。
6.根据权利要求5所述的系统,其特征在于,所述数据抽样单元,具体用于:
抽取第一组数据集,每组内包含2个相同SPU下相同SKU的商品;抽取第二组数据集,每组内包含2个相同SPU下不同SKU的商品;将所述第一组数据集和所述第二组数据集作为样本数据集,其中,所述第一组数据集和所述第二组数据集中的商品的组数相同。
7.根据权利要求5所述的系统,其特征在于,所述判定模块包括标题判定模块、属性判定模块和图片判定模块;
所述相似度判定单元,具体用于:
使用标题判定模块、属性判定模块、图片判定模块对样本数据集进行相似度判定,记录分别单独使用三个判定模块、两两组合判定模块、同时使用三个判定模块共七种情况的判断正确的个数。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述量化计算单元,还用于对所述贡献量化值进一步进行归一化处理,形成各个判定模块的比例关系。
9.一种终端设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至4中任一项所述的方法。
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,其特征在于,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111001847.8A CN113643100A (zh) | 2021-08-30 | 2021-08-30 | 一种商品相似度判定模块贡献量化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111001847.8A CN113643100A (zh) | 2021-08-30 | 2021-08-30 | 一种商品相似度判定模块贡献量化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113643100A true CN113643100A (zh) | 2021-11-12 |
Family
ID=78424634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111001847.8A Pending CN113643100A (zh) | 2021-08-30 | 2021-08-30 | 一种商品相似度判定模块贡献量化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643100A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822384A (zh) * | 2021-11-23 | 2021-12-21 | 深圳市裕展精密科技有限公司 | 数据分析方法、装置、计算机设备、存储介质及程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351079A1 (en) * | 2013-05-24 | 2014-11-27 | University College Dublin | Method for recommending a commodity |
US20160260033A1 (en) * | 2014-05-09 | 2016-09-08 | Peter Keyngnaert | Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searchess |
CN110517077A (zh) * | 2019-08-21 | 2019-11-29 | 天津货比三价科技有限公司 | 基于属性距离的商品相似度分析方法、装置及存储介质 |
KR20200112454A (ko) * | 2019-03-22 | 2020-10-05 | (주)테크노베이션파트너스 | 기술 또는 사업 아이템 가치평가를 위한 적정 로열티요율 산정 시스템 |
CN111986007A (zh) * | 2020-10-26 | 2020-11-24 | 北京值得买科技股份有限公司 | 一种商品聚合并计算相似度的方法 |
-
2021
- 2021-08-30 CN CN202111001847.8A patent/CN113643100A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351079A1 (en) * | 2013-05-24 | 2014-11-27 | University College Dublin | Method for recommending a commodity |
US20160260033A1 (en) * | 2014-05-09 | 2016-09-08 | Peter Keyngnaert | Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searchess |
KR20200112454A (ko) * | 2019-03-22 | 2020-10-05 | (주)테크노베이션파트너스 | 기술 또는 사업 아이템 가치평가를 위한 적정 로열티요율 산정 시스템 |
CN110517077A (zh) * | 2019-08-21 | 2019-11-29 | 天津货比三价科技有限公司 | 基于属性距离的商品相似度分析方法、装置及存储介质 |
CN111986007A (zh) * | 2020-10-26 | 2020-11-24 | 北京值得买科技股份有限公司 | 一种商品聚合并计算相似度的方法 |
Non-Patent Citations (1)
Title |
---|
赵雪芹: "《跨系统协同信息服务研究》", 30 September 2015, 世界图书上海出版公司, pages: 117 - 118 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822384A (zh) * | 2021-11-23 | 2021-12-21 | 深圳市裕展精密科技有限公司 | 数据分析方法、装置、计算机设备、存储介质及程序产品 |
CN113822384B (zh) * | 2021-11-23 | 2022-05-06 | 深圳市裕展精密科技有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019165868A1 (zh) | 一种确定营销方案的方法、装置及电子设备 | |
US20200349437A1 (en) | Neural embeddings of transaction data | |
CN108280755A (zh) | 可疑洗钱团伙的识别方法和识别装置 | |
Miao et al. | Context‐based dynamic pricing with online clustering | |
Spencer et al. | SEMATECH after five years: high-technology consortia and US competitiveness | |
CN110245980B (zh) | 基于神经网络模型确定目标用户激励形式的方法和设备 | |
US20120239600A1 (en) | Method for training and using a classification model with association rule models | |
CN111260368A (zh) | 一种账户交易风险判断方法、装置及电子设备 | |
EP4320538A1 (en) | System and method for privacy-preserving analytics on disparate data sets | |
CN111340086A (zh) | 无标签数据的处理方法、系统、介质及终端 | |
CN112434884A (zh) | 一种供应商分类画像的建立方法及装置 | |
US20230013799A1 (en) | Systems and methods for tracking consumer spend behaviors | |
CN113643100A (zh) | 一种商品相似度判定模块贡献量化方法及系统 | |
CN110750530A (zh) | 一种业务系统及其数据核对方法 | |
WO2019144808A1 (zh) | 判定虚假资源转移及虚假交易的方法、装置及电子设备 | |
CN109376152A (zh) | 大数据系统文件数据准备方法和系统 | |
US11308130B1 (en) | Constructing ground truth when classifying data | |
US7107192B1 (en) | Method for computing models based on attributes selected by entropy | |
CN113672687B (zh) | 一种电商大数据处理方法、装置、设备及存储介质 | |
CN113506164B (zh) | 一种风控决策方法、装置、电子设备及机器可读存储介质 | |
CN113609112A (zh) | 一种电商商品属性数据规范化处理方法与系统 | |
CN114493279A (zh) | 一种工作流任务预测方法、装置、存储介质及电子设备 | |
US20090171687A1 (en) | Identifying Industry Passionate Consumers | |
CN113609175A (zh) | 一种基于图数据库的电商商品属性数据处理方法及装置 | |
CN114820003A (zh) | 定价信息异常识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |