CN110490682B - 分析商品属性的方法和装置 - Google Patents
分析商品属性的方法和装置 Download PDFInfo
- Publication number
- CN110490682B CN110490682B CN201810461109.3A CN201810461109A CN110490682B CN 110490682 B CN110490682 B CN 110490682B CN 201810461109 A CN201810461109 A CN 201810461109A CN 110490682 B CN110490682 B CN 110490682B
- Authority
- CN
- China
- Prior art keywords
- commodity
- value
- attribute
- consistency
- substitution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000006467 substitution reaction Methods 0.000 claims abstract description 117
- 238000007637 random forest analysis Methods 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002441 reversible effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 abstract description 22
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000003066 decision tree Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000035945 sensitivity Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 235000013361 beverage Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 235000013410 fast food Nutrition 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010206 sensitivity analysis Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011234 economic evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种分析商品属性的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;基于商品替代值和属性一致性值确定商品属性的预测替代值;根据属性一致性值和预测替代值计算商品属性的重要性值。该实施方式能够准确、快速地分析商品属性的重要程度;并基于差异化的商品属性进行多形态分析;还能够针对不同的消费市场进行区别分析。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种分析商品属性的方法和装置。
背景技术
随着计算机技术的不断进步,电子商务技术的发展已经愈加的成熟,用户在浏览电子商务平台时,无论是通过关键字搜索商品还是选择品种类目查看商品,很多用户都会利用属性来进一步缩小商品范围,帮助查找有用的信息。
商品属性扮演着类似于高速公路道路指示牌的角色,告知用户当前的浏览位置,并引领用户导向目标商品。并且,各电子商务平台逐渐开始采取各种办法来刺激用户的购买力,通过商品属性能够集合相关商品,将相关商品归置于相应的活动中,从而高效的提高商品销量和平台浏览流量。因此,如果能够准确地描述商品属性,科学的应用于商品导购和品类管理等业务场景中,并凸显重要属性的商业价值,那么用户和商家都会从中获益,达到共赢。
现有的分析商品属性的方法,主要依赖于现有的商品属性信息表,并结合网页爬虫技术,从文本描述中抽取商品属性与属性值。从抓取的信息中,根据关联规则实现匹配,并用匹配数据填充缺失的属性值。之后对各个商品包含的属性值计数,统计出现频率。最终参考采销和销售人员的市场从业经验,结合商品属性出现频数,人工标记商品属性。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1.对商品属性信息表的完整度要求高,但难以保证网页数据抓取质量,需要人工标记部分商品属性、属性值及它们之间的对应关系,效率低且无法得到准确的商品属性;
2.统计属性值出现频率的方法是直接加总计算商品属性值的出现频次,同一品类下的共有属性存在偏好,导致误差较大;且统计信息比较单一,局限于属性频次的累加聚合,缺少差异化的商品属性分析,无法适用于多形态下的分析;
3.过于依赖人工判别的经验,受制于人工的客观行业能力和主观感性波动,不利于大规模品类推广。
发明内容
有鉴于此,本发明实施例提供一种分析商品属性的方法和装置,能够准确、快速地分析商品属性的重要程度;并基于差异化的商品属性进行多形态分析;还能够针对不同的消费市场进行区别分析。
为实现上述目的,根据本发明实施例的一个方面,提供了一种分析商品属性的方法。
本发明实施例的一种分析商品属性的方法包括:基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值;根据所述属性一致性值和所述预测替代值计算所述商品属性的重要性值。
可选地,基于历史数据计算替代商品的商品替代值包括:加总所述历史数据中替代商品和目标商品的金额得到总金额;加总所述历史数据中替代商品的金额得到替代金额;将所述替代金额除以所述总金额得到所述替代商品的商品替代值。
可选地,基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值包括:将所述商品替代值和所述属性一致性值输入随机森林模型;基于所述商品属性对替代商品进行递归,并基于递归结果和所述商品属性的权重确定所述商品属性的信息增益或信息增益率;其中,所述递归结果包括替代商品与目标商品共有的所述商品属性的所述属性一致性值相同的比例;将所述信息增益或所述信息增益率作为所述商品属性的所述预测替代值。
可选地,所述随机森林模型采用以下方式训练:构建属性相似表格;其中,所述属性相似表格包括替代商品的所述商品替代值、目标商品与替代商品共有的所述商品属性以及所述商品属性的所述属性一致性值;将所述属性相似表格输入所述随机森林模型;迭代各所述商品属性生成迭代数据,基于迭代数据计算K个训练替代值,且选用K种模型参数;将K个所述训练替代值与商品替代值分别计算均方误差,选取均方误差最小的所述训练替代值对应的模型参数作为所述随机森林模型的参数。
可选地,根据所述属性一致性值和所述预测替代值计算所述商品属性的重要性值包括:计算所述属性一致性值和反向一致性值的平均值得到平均一致性值;其中,所述反向一致性值是所述属性一致性值减一后的绝对值;计算所述预测替代值的平均值得到平均替代值;分别将每个所述属性一致性值和所述反向一致性值减去所述平均一致性值并求取绝对值得到绝对一致性值,以及分别将每个所述预测替代值减去平均替代值并求取绝对值得到绝对替代值;对所述绝对一致性值和所述绝对替代值分别进行点乘,将点乘结果相除求得所述重要性值。
为实现上述目的,根据本发明实施例的又一方面,提供了一种分析商品属性的装置。
本发明实施例的一种分析商品属性的装置包括:第一计算模块,用于基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;确定模块,用于基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值;第二计算模块,用于根据所述属性一致性值和所述预测替代值计算所述商品属性的重要性值。
可选地,所述第一计算模块还用于:加总所述历史数据中替代商品和目标商品的金额得到总金额;加总所述历史数据中替代商品的金额得到替代金额;将所述替代金额除以所述总金额得到替代商品的所述商品替代值。
可选地,所述确定模块还用于:将所述商品替代值和所述属性一致性值输入随机森林模型;基于所述商品属性对替代商品进行递归,并基于递归结果和所述商品属性的权重确定所述商品属性的信息增益或信息增益率;其中,所述递归结果包括替代商品与目标商品共有的所述商品属性的所述属性一致性值相同的比例;将所述信息增益或所述信息增益率作为所述商品属性的所述预测替代值。
可选地,所述随机森林模型采用以下方式训练:构建属性相似表格;其中,所述属性相似表格包括替代商品的所述商品替代值、目标商品与替代商品共有的所述商品属性以及所述商品属性的所述属性一致性值;将所述属性相似表格输入所述随机森林模型;迭代各所述商品属性生成迭代数据,基于迭代数据计算K个训练替代值,且选用K种模型参数;将K个所述训练替代值与商品替代值分别计算均方误差,选取均方误差最小的所述训练替代值对应的模型参数作为所述随机森林模型的参数。
可选地,所述第二计算模块还用于:根据所述属性一致性值和所述预测替代值计算所述商品属性的重要性值包括:计算所述属性一致性值和反向一致性值的平均值得到平均一致性值;其中,所述反向一致性值是所述属性一致性值减一后的绝对值;计算所述预测替代值的平均值得到平均替代值;分别将每个所述属性一致性值和所述反向一致性值减去所述平均一致性值并求取绝对值得到绝对一致性值,以及分别将每个所述预测替代值减去平均替代值并求取绝对值得到绝对替代值;对所述绝对一致性值和所述绝对替代值分别进行点乘,将点乘结果相除求得所述重要性值。
为实现上述目的,根据本发明实施例的又一方面,提供了一种分析商品属性的电子设备。
本发明实施例的一种分析商品属性的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种分析商品属性的方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读存储介质。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种分析商品属性的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;基于商品替代值和属性一致性值确定商品属性的预测替代值;根据属性一致性值和预测替代值计算商品属性的重要性值的技术手段,所以克服了效率低且无法准确得到各商品属性的重要程度;无法适用于多形态下的分析;受制于人工的客观行业能力和主观感性波动的技术问题,进而达到准确、快速地分析商品属性的重要程度;并基于差异化的商品属性进行多形态分析;还能够针对不同的消费市场进行区别分析的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的分析商品属性的方法的主要步骤的示意图;
图2是根据本发明实施例的分析商品属性的装置的主要模块的示意图;
图3是本发明实施例可以应用于其中的示例性系统架构图;
图4是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
现有技术在讨论商品属性的重要性时,都是在做一个静态讨论,是商品固有状态下的商品属性的重要情况。而本发明实施例的分析商品属性的方法,在分析商品属性的过程中对历史数据进行精细化处理,针对不同的人群或消费市场进行区别分析,在一个精准细化后的范围内,得出商品属性的重要程度(即商品属性的重要性值)。例如A地区的用户更倾向于A品类的A商品,B地区的用户更倾向于A品类的B商品;再如A群体更看重品牌,B群体更看重实惠。
图1是根据本发明实施例的分析商品属性的方法的主要步骤的示意图。
如图1所示,本发明实施例的分析商品属性的方法主要包括以下步骤:
步骤S101:基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值。
本发明实施例的分析商品属性的方法通过分析用户的历史订单记录和网页浏览点击行为,参考消费市场的划分,精准量化商品属性不同消费市场的用户购买活动中的重要程度。实现大规模全品类的商品属性的分析,有效节省了人力资源。基于商品属性的角度抓住各消费市场的用户的核心关注点,从而更精准的服务于各消费市场。同时,商品属性的分析对于电子商务平台的中短期销售计划与库存准备也具有重要参考意义。品类是指具有共同属性的一类商品,比如手机、饮料等。商品属性是商品自带的特征,比如手机的品牌、屏幕大小、颜色等。
其中,商品替代值是目标商品被替代商品替代的概率。替代商品或目标商品可以是某个单件产品,也可以是某个产品以件、盒或托盘等库存量单位形成的整体。商品替代值是商品替代性的量化体现。商品替代性是指:对用户而言,可以互相替代的一对商品之间的关系。
历史数据可以对应于消费区域的数据。通常,相同商品在不同地区推广销售,往往呈现出截然不同的销量表现。在差异明显的市场反馈背后,是来自不同地区的用户对同一款商品的价值认知度和购买力承受度不同。因此,可以根据消费市场划分结果,提取各个消费市场对应的历史订单数据和浏览点击数据,并基于这些数据分析各细分市场的商品属性。对于各电子商务平台,为了扩大自身收益和更好的服务来自不同地区的用户,可以基于商品属性实现对商品做精准的把控,并围绕商品属性为商品做画像。例如,参考各消费市场的商品属性的重要性,制定推广策略,或向不同消费市场的用户展示不同的商品组合。
需要说明的是,消费市场的划分可以根据地理位置进行,也可以根据不同人群的消费水平进行,还可以基于官方公布的城市数据进行,例如基于中国主要城市综合竞争力指数划分消费市场层级。
此外,历史数据包括历史订单数据或历史浏览数据。在执行步骤S101之前还可以对历史订单数据或历史浏览数据进行筛选。具体地:
对于快速消费品,例如饮料,用户对这一类商品的需求是持续且长期的,购买频繁且使用周期短,历史下单数量较多,则可以选取历史订单数据。由于脱离了真实性、时效性或连续性的商品组合,不具备商品替代性的参考意义,因此,在计算商品替代值之前,可以对提取的历史订单数据进行预处理和清理,从而筛选出有效的数据。筛选依据可以是订单金额、订单数量、订单周期、商品销售周期或商品销量等等,例如在该品类每年订单数量大于2小于500的用户的数据;或时间上连续的前后两个订单的用户的数据;或仅选取总销量大于100且在售周数大于13周的商品;
对于非快速消费品,例如家电,用户的购买周期较长,下单数量较少,则可以选取历史浏览数据,以历史浏览数据来取代历史订单数据。在计算商品替代值之前,可以对提取的历史浏览数据进行预处理和清理,从而筛选出有效的数据。筛选依据可以是一定的时间范围,例如参考用户历史上前后连续两次浏览的商品记录。
商品替代值可以基于历史数据将替代金额转换成替代概率,还可以基于历史数据将浏览次数转换成替代概率。在本发明实施例中,步骤S101可以通过以下方式实现:加总历史数据中替代商品和目标商品的金额得到总金额;加总历史数据中替代商品的金额得到替代金额;将替代金额除以总金额得到替代商品的商品替代值。
需要注意的是,以上是计算一个替代商品对目标商品的替代概率,依此方法可以计算同一品类的其它商品对目标商品的替代概率。加总目标商品在同一品类内的被替代概率,和应该等于1(包含目标商品对其自身的替代概率)。
此外,还需要说明的是,引入金额比例这一权重参数,是为了修正偏差,凸显金额的影响。且除了以每个用户来计算商品替代值,还可以从每个区域或每个消费市场等等来计算商品替代值。
步骤S102:基于商品替代值和属性一致性值确定商品属性的预测替代值。
由于用户在作购买决定时,可能会考虑各个商品属性,例如颜色、价格或品牌等,因此,基于步骤S101计算得到的替代商品能够替代目标商品的概率(即替代商品的商品替代值)、和目标商品与替代商品共有的商品属性的属性一致性值,可以对用户在购买目标商品和替代商品所属品类的商品时,是因为哪一种或哪几种商品属性而购买该替代商品进行分析,从而确定该商品属性对用户的购买决定有多少决定因素,即确定该商品属性的预测替代值。
在本发明实施例中,步骤S103可以通过以下方式实现:将商品替代值和属性一致性值输入随机森林模型;基于商品属性对替代商品进行递归,并基于递归结果和商品属性的权重确定商品属性的信息增益或信息增益率;将信息增益或信息增益率作为商品属性的预测替代值。
在确定商品属性的预测替代值时,将替代商品的商品替代值和目标商品与替代商品共有的商品属性的属性一致性值作为随机森林模型的输入,将商品属性作为随机森林模型的模型特征。随机森林模型由多棵决策树构成,并引入了随机性,对多个决策树的预测结果取均值。随机森林模型的每个决策树生成过程中的每一次递归(一个分支节点)都需要依赖一个模型特征,进而把样本集划分成更小的子集,其中,模型特征的选择通常关系到划分后分支节点的纯度,划分后分支节点纯度越高,样本集划分效果越好,如果决策树的分支节点所包含的样本属于同一类别的比例越高,则划分效果比较好,该分支节点所对应的商品属性的预测替代值越高,反之预测替代值越低。其中,纯度描述了分支节点的样本属于同一类别的程度。
具体地,随机森林模型的拟合过程中,对替代商品进行递归,并对递归结果进行分析,该递归结果包括替代商品与目标商品共有的商品属性的属性一致性值相同的比例;并基于递归结果和商品属性的权重为每个分支节点的商品属性计算量化后的信息增益,该信息增益即该商品属性的预测替代值。其中,商品属性的权重通过该商品属性的样本数占总体样本数的比例获得。信息增益是对分支节点的纯度的一种量化表示,描述了用某一模型特征对样本集进行划分而得到的信息增益,信息增益越大,表明用该模型特征来进行划分所获得的纯度提升越大,说明该模型特征的预测替代值越高。此外,由于信息增益对可取值数目较多的属性有偏好,这个偏好可能会带来误差,因此,为了削弱偏好,还可以采用信息增益率表示某一模型特征的预测替代值。
在本发明实施例中,使用随机森林模型有以下几个优势:
1、商品属性的选择是随机森林模型的一部分,利用随机森林模型的预测能力来评估商品属性的预测替代值,通用效果好。
2、随机森林模型对多个决策树的预测结果取均值,能够有效减少了均方误差,具有广泛适用的参考价值和较好鲁棒性(即在一定参数摄动下仍维持其它某些性能的特性);
3、使用随机森林模型能够构建新的数据点进行敏感度分析,提升了训练数据量和差异性,其中,敏感性分析是投资项目的经济评估中常用的分析不确定性的方法之一,从多个不确定性因素中逐一找出对投资项目经济效益指标有重要影响的敏感性因素,并分析、测算其对项目经济效益指标的影响程度和敏感性程度,进而判断项目承受风险的能力,若某参数的小幅度变化能导致经济效益指标的较大变化,则称此参数为敏感性因素,反之则称其为非敏感性因素。例如对不同品牌的每一对商品,假设品牌相同使用随机森林模型来预估替代性;
4.通过原始数据的平均差和预测数据的平均差,能够评估出商品属性对于替代性的真实影响力。
随机森林模型可以使用K折交叉验证法来训练(优选地,K可以取值3或5等),并结合参数优化算法,拟合目标函数。该目标函数是指随机森林模型的损失评估值,此处的损失评估值是均方误差(MSE),均方误差是反映估计量与被估计量(实际量)之间差异程度的一种度量。参数优化算法可以是Hyperopt算法和网格搜索(Grid_Search)算法等,其中,Hyperopt算法是Python语言(一种面向对象的解释型计算机程序设计语言)中一个为算法超参数空间探索和优化的库,可以结合MongoDB(文档数据库)可以进行分布式调参,快速找到相对较优的参数。Grid_Search算法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。
在本发明实施例中,随机森林模型采用以下方式训练:构建属性相似表格;将属性相似表格输入随机森林模型;迭代各商品属性生成迭代数据,基于迭代数据计算K个训练替代值,且选用K种模型参数;将K个训练替代值与商品替代值分别计算均方误差,选取均方误差最小的训练替代值对应的模型参数作为随机森林模型的参数。
其中,属性相似表格包括商品替代值以及目标商品与替代商品的各属性一致性值,且每个目标商品与替代商品的组合可以单独对应一个属性相似表格,也可以将多个目标商品与替代商品的组合对应一个属性相似表格。该属性相似性表格,是分析属性如何决定商品间替代性的基础,能够体现某一商品属性是否相同对商品替代性的影响。
商品的品类千差万别,不过任意一个商品都可以具有若干属性,进而引导用户的购买行为。每一组具有替代性的商品之间,属性或相同或不同,在属性相似性表格中,若两个商品共有的商品属性相同,则属性一致性值可以赋值1;若不同,则属性一致性值可以赋值0。按此规则迭代同一品类商品下的所有商品组合,目标商品和任意一个替代商品为一个商品组合。细化同一品类的商品至若干个属性组成的合集,以此为基础,比较商品组合下的每一对属性值。同时,将步骤S101计算得到的商品替代值也记录到属性相似性表格中。如表1所示,该属性相似表格可以将目标商品与替代商品共有的商品属性(假设商品属性1和商品属性2)作为列名、共有的商品属性的属性一致性值(假设分别是0和1)作为列值,并将步骤S101计算得到的商品替代值(假是0.5)也作为列值。
表1
列名 | 商品属性1 | 商品属性2 | 商品替代值 |
列值 | 0 | 1 | 0.5 |
步骤S103:根据属性一致性值和预测替代值计算商品属性的重要性值。
商品属性的重要性值越高,表示用户在对某一品类下的商品做购物决策时,越会优先参考该商品属性。
基于不同消费市场的历史数据所得到的属性一致性值和预测替代值,计算出的商品属性的重要性值,精准的刻画了不同市场层级下的用户,在做出购买决策时,会优先参考的商品属性。为各电子商务平台提供了一个清晰的、量化的商品属性价值评估方法,明确了各消费市场重点关注的商品属性,并以此为参考制定区域性的选品、定价、以及促销策略,满足了不同地区用户的需求,给不同区域的用户呈现了他们想看到的商品组合。另外,商品属性的重要性值能够为用户群体的划分方式提供了不错的视角,具有良好的拓展性。
在本发明实施例中,步骤S104可以通过以下方式实现:计算属性一致性值和反向一致性值的平均值得到平均一致性值;计算预测替代值的平均值得到平均替代值;分别将每个属性一致性值和反向一致性值减去平均一致性值并求取绝对值得到绝对一致性值,以及分别将每个预测替代值减去平均替代值并求取绝对值得到绝对替代值;对绝对一致性值和绝对替代值分别进行点乘,将点乘结果相除求得重要性值。
为消除同一品类的所有商品具有某些相同商品属性所带来的极端影响,例如大部分手机都具有彩色屏幕这一商品属性,本发明实施例中在计算商品属性的重要性值时增加了样本数量,即新生成反向一致性值,该反向一致性值是属性一致性值减一后的绝对值。上述平均一致性值即所有属性一致性值和所有反向一致性值的平均值。
目标商品和多个替代商品可能共有同一商品属性,即多个目标商品与替代商品的组合都具有某一商品属性。而步骤S102所确定的商品属性的预测替代值是针对一种目标商品与替代商品组合的,因此,需将该商品属性所对应于每一种目标商品与替代商品组合的预测替代值取平均值,以减小误差。
需要说明的是,可以对同一品类下的属性重要性做归一化处理,使重要性值介于0和1之间,越接近于0表示商品属性越不重要,越接近于1表示商品属性越重要。
根据本发明实施例的分析商品属性的方法可以看出,因为采用基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;基于商品替代值和属性一致性值确定商品属性的预测替代值;根据属性一致性值和预测替代值计算商品属性的重要性值的技术手段,所以克服了效率低且无法准确得到各商品属性的重要程度;无法适用于多形态下的分析;受制于人工的客观行业能力和主观感性波动的技术问题,进而达到准确、快速地分析商品属性的重要程度;并基于差异化的商品属性进行多形态分析;还能够针对不同的消费市场进行区别分析的技术效果。
图2是根据本发明实施例的分析商品属性的装置的主要模块的示意图。
如图2所示,本发明实施例的分析商品属性的装置200包括:第一计算模块201、确定模块202和第二计算模块203。
其中,
第一计算模块201,用于基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;
确定模块202,用于基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值;
第二计算模块203,用于根据所述属性一致性值和所述预测替代值计算所述商品属性的重要性值。
在本发明实施例中,所述第一计算模块201还用于:加总所述历史数据中替代商品和目标商品的金额得到总金额;加总所述历史数据中替代商品的金额得到替代金额;将所述替代金额除以所述总金额得到替代商品的所述商品替代值。
在本发明实施例中,所述确定模块202还用于:将所述商品替代值和所述属性一致性值输入随机森林模型;基于所述商品属性对替代商品进行递归,并基于递归结果和所述商品属性的权重确定所述商品属性的信息增益或信息增益率;其中,所述递归结果包括替代商品与目标商品共有的所述商品属性的所述属性一致性值相同的比例;将所述信息增益或所述信息增益率作为所述商品属性的所述预测替代值。
此外,所述随机森林模型采用以下方式训练:构建属性相似表格;其中,所述属性相似表格包括替代商品的所述商品替代值、目标商品与替代商品共有的所述商品属性以及所述商品属性的所述属性一致性值;将所述属性相似表格输入所述随机森林模型;迭代各所述商品属性生成迭代数据,基于迭代数据计算K个训练替代值,且选用K种模型参数;将K个所述训练替代值与商品替代值分别计算均方误差,选取均方误差最小的所述训练替代值对应的模型参数作为所述随机森林模型的参数。
在本发明实施例中,所述第二计算模块203还用于:计算所述属性一致性值和反向一致性值的平均值得到平均一致性值;其中,所述反向一致性值是所述属性一致性值减一后的绝对值;计算所述预测替代值的平均值得到平均替代值;分别将每个所述属性一致性值和所述反向一致性值减去所述平均一致性值并求取绝对值得到绝对一致性值,以及分别将每个所述预测替代值减去平均替代值并求取绝对值得到绝对替代值;对所述绝对一致性值和所述绝对替代值分别进行点乘,将点乘结果相除求得所述重要性值。
根据本发明实施例的分析商品属性的装置可以看出,因为采用基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;基于商品替代值和属性一致性值确定商品属性的预测替代值;根据属性一致性值和预测替代值计算商品属性的重要性值的技术手段,所以克服了效率低且无法准确得到各商品属性的重要程度;无法适用于多形态下的分析;受制于人工的客观行业能力和主观感性波动的技术问题,进而达到准确、快速地分析商品属性的重要程度;并基于差异化的商品属性进行多形态分析;还能够针对不同的消费市场进行区别分析的技术效果。
在本发明实施例中,分析商品属性的方法主要由如下几个部分组成:
一、细分消费市场
消费市场的划分可以根据地理位置进行,也可以根据消费水平进行,还可以基于官方公布的城市数据进行,例如基于中国主要城市综合竞争力指数划分消费市场层级。
二、计算商品替代值
在计算商品替代值之前,可以对各消费市场的历史订单数据或历史浏览数据进行预处理和清理,从而筛选出有效的数据。其中,对于快速消费品,筛选依据可以是订单金额、订单数量、订单周期、商品销售周期或商品销量等等;对于非快速消费品,筛选依据可以是一定的时间范围。
然后,可以利用决策树模型计算商品替代值,决策树模型的输入是历史订单数据或历史浏览数据,决策树模型的输出是商品替代值。决策树模型的计算过程可以是将替代金额转换成替代概率,还可以将同一品类的所有商品的数量转换成替代概率。
以基于历史订单数据将替代金额转换成替代概率为例,可以从每个用户出发,计算每个用户的前后两个订单内同一品类的所有商品组合(目标商品和任意一个替代商品为一个商品组合)之间的替代金额,为用户订单维度替代金额;对所有用户汇总该商品组合,得到该商品组合维度的总替代金额;加总所有替代商品的替代金额,为目标商品的总被替代金额;将该商品组合的总替代金额除以总被替代金额,得到该商品组合的替代商品对目标商品的替代概率(即替代商品的商品替代值)。
三、基于随机森林模型确定商品属性的预测替代值
随机森林模型是一种bagging算法(一种用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数),由多棵决策树构成,并引入了随机性,对多个决策树的预测结果取均值。随机森林模型的每个决策树生成过程中的每一次递归(一个分支节点)都需要依赖一个模型特征,进而把样本集划分成更小的子集,其中,模型特征的选择通常关系到划分后分支节点的纯度,划分后分支节点纯度越高,样本集划分效果越好,纯度描述了分支节点的样本属于同一类别的程度,随着决策树划分过程的不断进行,如果决策树的分支节点所包含的样本属于同一类别的比例越高,则划分效果比较好。信息增益是对分支节点的纯度的一种量化表示,描述了用某一模型特征对样本集进行划分而得到的信息增益,信息增益越大,表明用该模型特征来进行划分所获得的纯度提升越大,说明该模型特征的预测替代值越高。此外,由于信息增益对可取值数目较多的属性有偏好,这个偏好可能会带来误差,因此,为了削弱偏好,还可以采用信息增益率表示某一模型特征的预测替代值。
在本发明实施例中,使用随机森林模型预测商品属性的预测替代值时,将替代商品的商品替代值和目标商品与替代商品共有的商品属性的属性一致性值作为随机森林模型的输入,将商品属性作为随机森林模型的模型特征,将预测替代性作为随机森林模型的输出。具体地,随机森林模型的拟合过程中,对替代商品进行递归,并对递归结果进行分析,该递归结果包括替代商品与目标商品共有的商品属性的属性一致性值相同的比例;并基于递归结果和商品属性的权重为每个分支节点的商品属性计算量化后的信息增益,该信息增益即该商品属性的预测替代值。其中,商品属性的权重通过该商品属性的样本数占总体样本数的比例获得。
商品的品类千差万别,不过任意一个商品都可以具有若干属性,进而引导用户的购买行为。同一品类下的商品有通用属性,比如手机,有品牌,大小,颜色,重量等属性。每一个属性下对应一系列属性值,例如品牌之于苹果,华为,三星,颜色之于白,黑,蓝。从商品属性角度出发,能够分析出商品属性和替代性的关联,确定商品属性对替代性的贡献,从而分析出用户在做购物决策时会优先参考的商品属性(即商品属性)。
属性相似表格包括商品替代值以及目标商品与替代商品的各属性一致性值,且每个目标商品与替代商品的组合可以单独对应一个属性相似表格,也可以将多个目标商品与替代商品的组合对应一个属性相似表格。该属性相似性表格,是分析属性如何决定商品间替代性的基础,能够体现某一商品属性是否相同对商品替代性的影响。
构建属性相似性表格时,迭代同一类商品下的所有商品组合,两个为一组(目标商品和任意一个替代商品)。细化商品至若干个属性组成的合集,以此为基础,比较商品组合下的每一商品属性是否相同得到属性一致性值。将属性一致性值以及上一步计算得到的商品替代值记录到属性相似性表格中。
每一组具有替代性的商品之间,商品属性或相同或不同,在属性相似性表格中,若两个目标商品与替代商品的某一商品属性相同,则属性一致性值可以赋值1;若不同,则属性一致性值可以赋值0。按此规则比较所有的商品组合的属性,并加入商品替代值,即构建属性相似性表格。
随机森林模型可以使用K折交叉验证法来训练(优选地,K可以取值3或5等),并结合参数优化算法,拟合目标函数。该目标函数是指随机森林模型的损失评估值,此处的损失评估值是均方误差(MSE),均方误差是反映估计量与被估计量之间差异程度的一种度量。参数优化算法可以是Hyperopt算法和网格搜索(Grid_Search)算法等,其中,Hyperopt算法是Python语言(一种面向对象的解释型计算机程序设计语言)中一个为算法超参数空间探索和优化的库,可以结合MongoDB(文档数据库)可以进行分布式调参,快速找到相对较优的参数。Grid_Search算法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。
具体地,将属性相似性表格输入随机森林模型,采用K折交叉验证法训练随机森林模型,迭代每一个商品属性产生新数据,并预测替代性得到预测替代值,且在训练的过程中使用参数优化算法对随机森林模型的模型参数进行优化。迭代是重复反馈过程的活动,其目的通常是为了逼近所需目标或结果,而每一次迭代得到的结果会作为下一次迭代的初始值。训练随机森林模型的过程中,在指定的参数空间内,用每一组参数在训练数据上交叉验证K次,选取使得平均损失评估值最小的那一组参数,作为模型的最优参数组合。
四、计算商品属性的重要性值
结合点乘法来计算商品属性对替代性的贡献程度,进而得到商品属性的重要性值,该重要性值是对属性重要性的量化表示。其中,点乘法的步骤是:计算属性一致性值和反向一致性值的平均值得到平均一致性值;计算预测替代值的平均值得到平均替代值;分别将每个属性一致性值和反向一致性值减去平均一致性值并求取绝对值得到绝对一致性值,以及分别将每个预测替代值减去平均替代值并求取绝对值得到绝对替代值;对绝对一致性值和绝对替代值分别进行点乘,将点乘结果相除求得重要性值,需要说明的是,可以对同一品类下的属性重要性做归一化处理,使重要性值介于0和1之间,越接近于0表示商品属性越不重要,越接近于1表示商品属性越重要。
本发明实施例的分析商品属性的方法可应用于搜索商品呈现、个性化推荐、个性化促销或库存计划等多个电商业务场景。为了进一步阐述本发明实施例的技术思想,现结合具体的应用场景,对本发明实施例的技术方案进行说明。
以手机品类为例,当用户登录某电子商务平台时,可以首先识别用户所在消费市场。在用户输入搜索关键字或点击网站的文字导航后,根据用户所属的消费市场,通过上述方法进行计算分析,得到用户所属消费市场的手机品类的商品属性的重要性排序,该电子商务平台可以依据该商品属性的重要性排序,生成推荐商品,从而呈现出用户更愿意看到且更可能购买的手机产品。还可以基于该商品属性的重要性排序向用户发送相应的手机广告。
图3示出了可以应用本发明实施例的分析商品属性的方法或分析商品属性的装置的示例性系统架构300。
如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的商品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、商品信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的分析商品属性的方法一般由服务器305执行,相应地,分析商品属性的装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的终端设备的计算机系统400的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序商品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序商品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一计算模块、确定模块和第二计算模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定模块还可以被描述为“基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤S101:基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;步骤S102:基于商品替代值和属性一致性值确定商品属性的预测替代值;步骤S103:根据属性一致性值和预测替代值计算商品属性的重要性值。
根据本发明实施例的技术方案,因为采用基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;基于商品替代值和属性一致性值确定商品属性的预测替代值;根据属性一致性值和预测替代值计算商品属性的重要性值的技术手段,所以克服了效率低且无法准确得到各商品属性的重要程度;无法适用于多形态下的分析;受制于人工的客观行业能力和主观感性波动的技术问题,进而达到准确、快速地分析商品属性的重要程度;并基于差异化的商品属性进行多形态分析;还能够针对不同的消费市场进行区别分析的技术效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种分析商品属性的方法,其特征在于,包括:
基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;
基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值;
根据所述属性一致性值和所述预测替代值计算所述商品属性的重要性值,包括:计算所述属性一致性值和反向一致性值的平均值得到平均一致性值;其中,所述反向一致性值是所述属性一致性值减一后的绝对值;计算所述预测替代值的平均值得到平均替代值;分别将每个所述属性一致性值和所述反向一致性值减去所述平均一致性值并求取绝对值得到绝对一致性值,以及分别将每个所述预测替代值减去平均替代值并求取绝对值得到绝对替代值;对所述绝对一致性值和所述绝对替代值分别进行点乘,将点乘结果相除求得所述重要性值。
2.根据权利要求1所述的方法,其特征在于,基于历史数据计算替代商品的商品替代值包括:
加总所述历史数据中替代商品和目标商品的金额得到总金额;
加总所述历史数据中替代商品的金额得到替代金额;
将所述替代金额除以所述总金额得到替代商品的所述商品替代值。
3.根据权利要求1所述的方法,其特征在于,基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值包括:
将所述商品替代值和所述属性一致性值输入随机森林模型;
基于所述商品属性对替代商品进行递归,并基于递归结果和所述商品属性的权重确定所述商品属性的信息增益或信息增益率;其中,所述递归结果包括替代商品与目标商品共有的所述商品属性的所述属性一致性值相同的比例;
将所述信息增益或所述信息增益率作为所述商品属性的所述预测替代值。
4.根据权利要求3所述的方法,其特征在于,所述随机森林模型采用以下方式训练:
构建属性相似表格;其中,所述属性相似表格包括替代商品的所述商品替代值、目标商品与替代商品共有的所述商品属性以及所述商品属性的所述属性一致性值;
将所述属性相似表格输入所述随机森林模型;
迭代各所述商品属性生成迭代数据,基于迭代数据计算K个训练替代值,且选用K种模型参数;
将K个所述训练替代值与商品替代值分别计算均方误差,选取均方误差最小的所述训练替代值对应的模型参数作为所述随机森林模型的参数。
5.一种分析商品属性的装置,其特征在于,包括:
第一计算模块,用于基于历史数据计算替代商品的商品替代值以及目标商品与替代商品共有的商品属性的属性一致性值;
确定模块,用于基于所述商品替代值和所述属性一致性值确定所述商品属性的预测替代值;
第二计算模块,用于根据所述属性一致性值和所述预测替代值计算所述商品属性的重要性值;还用于计算所述属性一致性值和反向一致性值的平均值得到平均一致性值;其中,所述反向一致性值是所述属性一致性值减一后的绝对值;计算所述预测替代值的平均值得到平均替代值;分别将每个所述属性一致性值和所述反向一致性值减去所述平均一致性值并求取绝对值得到绝对一致性值,以及分别将每个所述预测替代值减去平均替代值并求取绝对值得到绝对替代值;对所述绝对一致性值和所述绝对替代值分别进行点乘,将点乘结果相除求得所述重要性值。
6.根据权利要求5所述的装置,其特征在于,所述第一计算模块还用于:
加总所述历史数据中替代商品和目标商品的金额得到总金额;
加总所述历史数据中替代商品的金额得到替代金额;
将所述替代金额除以所述总金额得到替代商品的所述商品替代值。
7.根据权利要求5所述的装置,其特征在于,所述确定模块还用于:
将所述商品替代值和所述属性一致性值输入随机森林模型;
基于所述商品属性对替代商品进行递归,并基于递归结果和所述商品属性的权重确定所述商品属性的信息增益或信息增益率;其中,所述递归结果包括替代商品与目标商品共有的所述商品属性的所述属性一致性值相同的比例;
将所述信息增益或所述信息增益率作为所述商品属性的所述预测替代值。
8.根据权利要求7所述的装置,其特征在于,所述随机森林模型采用以下方式训练:
构建属性相似表格;其中,所述属性相似表格包括替代商品的所述商品替代值、目标商品与替代商品共有的所述商品属性以及所述商品属性的所述属性一致性值;
将所述属性相似表格输入所述随机森林模型;
迭代各所述商品属性生成迭代数据,基于迭代数据计算K个训练替代值,且选用K种模型参数;
将K个所述训练替代值与商品替代值分别计算均方误差,选取均方误差最小的所述训练替代值对应的模型参数作为所述随机森林模型的参数。
9.一种分析商品属性的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810461109.3A CN110490682B (zh) | 2018-05-15 | 2018-05-15 | 分析商品属性的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810461109.3A CN110490682B (zh) | 2018-05-15 | 2018-05-15 | 分析商品属性的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110490682A CN110490682A (zh) | 2019-11-22 |
CN110490682B true CN110490682B (zh) | 2024-02-09 |
Family
ID=68545120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810461109.3A Active CN110490682B (zh) | 2018-05-15 | 2018-05-15 | 分析商品属性的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490682B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179035B (zh) * | 2019-12-30 | 2022-03-11 | 北京三快在线科技有限公司 | 上单信息的确定方法、装置、设备及存储介质 |
CN113724055B (zh) * | 2021-09-14 | 2024-04-09 | 京东科技信息技术有限公司 | 一种商品属性挖掘方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473231A (zh) * | 2012-06-06 | 2013-12-25 | 深圳先进技术研究院 | 分类器构建方法和系统 |
CN106156809A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 用于更新分类模型的方法及装置 |
CN106485562A (zh) * | 2015-09-01 | 2017-03-08 | 苏宁云商集团股份有限公司 | 一种基于用户历史行为的商品信息推荐方法及系统 |
CN107169806A (zh) * | 2017-06-29 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 用于确定商品属性对于购买决策的影响度的方法及装置 |
CN107358472A (zh) * | 2017-07-19 | 2017-11-17 | 北京京东尚科信息技术有限公司 | 数据处理方法及装置 |
CN107403345A (zh) * | 2017-09-22 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 畅销商品预测方法及系统、存储介质及电子终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140101024A1 (en) * | 2012-10-04 | 2014-04-10 | Sap Ag | Predicting financial outcome |
-
2018
- 2018-05-15 CN CN201810461109.3A patent/CN110490682B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473231A (zh) * | 2012-06-06 | 2013-12-25 | 深圳先进技术研究院 | 分类器构建方法和系统 |
CN106156809A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 用于更新分类模型的方法及装置 |
CN106485562A (zh) * | 2015-09-01 | 2017-03-08 | 苏宁云商集团股份有限公司 | 一种基于用户历史行为的商品信息推荐方法及系统 |
CN107169806A (zh) * | 2017-06-29 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 用于确定商品属性对于购买决策的影响度的方法及装置 |
CN107358472A (zh) * | 2017-07-19 | 2017-11-17 | 北京京东尚科信息技术有限公司 | 数据处理方法及装置 |
CN107403345A (zh) * | 2017-09-22 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 畅销商品预测方法及系统、存储介质及电子终端 |
Non-Patent Citations (1)
Title |
---|
基于商品属性的消费者个性化偏好模型研究;万志超;王亚杰;;北京邮电大学学报(社会科学版)(05);第83-87页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110490682A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108205768B (zh) | 数据库建立方法和数据推荐方法及装置、设备和存储介质 | |
KR100961783B1 (ko) | 인공지능에 기반한 제품 및 제품 벤더 추천 장치 및 방법, 그 기록 매체 | |
WO2019072128A1 (zh) | 对象识别方法及其系统 | |
WO2019226192A1 (en) | Demand forecast | |
CN109840796B (zh) | 决策因素分析装置与决策因素分析方法 | |
CN105469263A (zh) | 一种商品推荐方法及装置 | |
CN111738805B (zh) | 基于行为日志的搜索推荐模型生成方法、设备和存储介质 | |
CN110135871B (zh) | 计算用户复购期的方法和装置 | |
US20220076320A1 (en) | Content recommendation method, device, and storage medium | |
CN104615721B (zh) | 用于基于退货关联信息推荐商品的方法和系统 | |
CN110348921B (zh) | 门店物品选取的方法和装置 | |
US20220277331A1 (en) | Systems and methods for procurement cost forecasting | |
CN112365283A (zh) | 一种优惠券发放方法、装置、终端设备及存储介质 | |
WO2022156589A1 (zh) | 一种直播点击率的确定方法和装置 | |
CN110490682B (zh) | 分析商品属性的方法和装置 | |
CN113781106A (zh) | 商品运营数据分析方法、装置、设备及计算机可读介质 | |
US20120265588A1 (en) | System and method for recommending new connections in an advertising exchange | |
CN110599281A (zh) | 一种确定目标店铺的方法和装置 | |
CN112287208B (zh) | 用户画像生成方法、装置、电子设备及存储介质 | |
CN110766488B (zh) | 一种自动确定主题场景的方法和装置 | |
CN110880119A (zh) | 一种数据处理方法和装置 | |
CN110110267B (zh) | 提取对象特征、搜索对象的方法和装置 | |
US10185980B1 (en) | Efficiently computing a feature based on a plurality of variables | |
CN112819555B (zh) | 一种物品推荐方法和装置 | |
CN110738538B (zh) | 识别相似物品的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |