CN105046274A - 一种电子商务商品类别自动标注方法 - Google Patents

一种电子商务商品类别自动标注方法 Download PDF

Info

Publication number
CN105046274A
CN105046274A CN201510407150.9A CN201510407150A CN105046274A CN 105046274 A CN105046274 A CN 105046274A CN 201510407150 A CN201510407150 A CN 201510407150A CN 105046274 A CN105046274 A CN 105046274A
Authority
CN
China
Prior art keywords
classification
commodity
ecommerce
disaggregated model
multiple labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510407150.9A
Other languages
English (en)
Inventor
邱继钊
王传超
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201510407150.9A priority Critical patent/CN105046274A/zh
Publication of CN105046274A publication Critical patent/CN105046274A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子商务商品类别自动标注方法,属于电子商务领域。本发明的电子商务商品类别自动标注方法以每个商品作为多标记分类问题中的样例,以商品的类别作为多标记分类问题中的标记,以多标记分类的方法建立分类模型,对现有商品进行分类,分类的过程即为标注过程。与现有技术相比,本发明的标注方法具有使用方便、标注效率高等特点,具有良好的推广应用价值。

Description

一种电子商务商品类别自动标注方法
技术领域
本发明涉及电子商务领域,具体地说是一种电子商务商品类别自动标注方法。
背景技术
近年来,信息技术和互联网不断迅速发展,电子商务在社会和生活中的地位越来越显著,电子商务系统为用户提供越来越多的选择。随着大数据时代的到来,电子商务网站的商品以指数速度增长,不论其数量上还是种类上都是人们难以想象的。互联网犹如一把双刃剑,虽然很大程度上它推动了电子商务的迅猛发展,使商家能够通过电子商务平台将自己的商品展示给消费者,消费者足不出户便可对商品信息完全掌握,并与商家达成交易,双方各取所需。但是,网络用户在得到便利消费的同时一定程度上也陷入了前所未有的尴尬境地。用户在查找商品的方式通常是利用关键词进行搜索,而商品的类别标注则是这些关键词的具体体现。当商品数量较少时,通过人工标注的方式不失为一种简单且直接的方式。但是在进入大数据时代的今天,电子商务系统中的商品在数量以及种类上都是无法估量的,通过人工标注的方式对商品进行类别标注将耗费大量的时间与花费,利用传统的标注方式已无法满足现实应用需要。
多标记学习问题是国际机器学习领域的一个研究热点,它最初来源于文档分类问题中所遇到的歧义性问题。在传统监督学习框架下,真实世界的对象与其概念标记之间是一一对应的关系,一般认为,这样的学习问题是没有歧义性的,我们称这类问题为单标记分类问题,即一个样例仅具有单一的标记。然而,在真实世界的问题中,歧义性对象却是广泛存在的。由于歧义性问题的存在,一个样例可能与多个标记相关联,这类问题为多标记分类问题。多标记学习在现实生活中具有广泛的应用,像视频自动标注、生物信息学、Web挖掘、信息检索、个性化推荐等现实应用中。但是,多标记学习至今未在电子商务领域得到过应用。
发明内容
本发明的技术任务是针对以上不足之处,提供一种能够大大降低时间的消耗的电子商务商品类别自动标注方法。
本发明解决其技术问题所采用的技术方案是:一种电子商务商品类别自动标注方法,其特点是以每个商品作为多标记分类问题中的样例,以商品的类别作为多标记分类问题中的标记,由此可以将自动标注问题转化为多标记分类问题,以多标记分类的方法建立分类模型,对现有商品进行分类,分类的过程即为标注过程。
作为优选,所述多标记分类的方法采用分类器链算法。
所述分类器链(classifierchains)算法是现有技术中一种解决多标记分类问题的较为实用的算法,算法的基本思想是对于任意样例,首先预测是否具有第一个标记,将结果(通过0和1表示)加入到的属性中,得到属性扩展后的新;然后再预测是否具有第二个标记,此时采用的是属性扩展后的新,将结果加入到的属性中,之后依次对所有标记进行预测,形成一个分类器链结构。在预测一个样例是否具有某个标记时,分类器链算法会将之前得到的所有标记结果加入到样例属性中,为预测该标记提供信息。
标注过程包括以下步骤:
a、数据获取
获取所有已标注商品及其现有标签;
b、数据处理
将获取到的商品信息进行转换预处理,得到分类需要的训练样例;
c、建立分类模型
根据步骤c中的训练样例利用分类器链算法进行多标记分类器学习,最终建立分类模型;
d、对于未知的样例,根据步骤c所述分类模型预测其可能具有的标记。
为了进一步提高模型分类性能的稳定性,步骤c所述分类模型可根据十折交叉验证方式进行训练。
本发明的电子商务商品类别自动标注方法和现有技术相比,具有以下有益效果:
(一)为电子商务商品类别提供了自动标注方法,克服了人工标注耗时长、花费大的不足;
(二)采用多标记学习,能够更好的适应电子商务中商品搜索需求,进一步降低时间消耗。
附图说明
附图1为本发明电子商务商品类别自动标注方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
如附图1所示,本发明电子商务商品类别自动标注方法包括以下步骤:
1.建立模型
1.1数据获取
获取所有已标注商品及其现有标签;
1.2数据处理
将获取到的商品信息进行转换预处理,得到分类需要的训练样例,表示为x1=[x11,x12,x13,…,x1n],对应结果集y={L1,L2,…,Lm}(标记L取值为0或1,0表示样例不具有该标记,1表示样例具有该标记);
1.3建立分类模型
根据步骤1.2中的训练样例利用分类器链算法进行多标记分类器学习,最终建立分类模型Y=f(x);
1.4对于未知的样例x,根据模型可预测其可能具有的标记;
4.5根据十折交叉验证方式多次训练分类模型,使模型的分类性能更加稳定;
2.商品自动标注
2.1对于新增商品,根据上述五个步骤建立的商品分类模型对其进行分类,分类的结果即为标注结果;
2.2对标注结果进行抽样验证;
2.3根据验证结果对分类器进行优化。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (4)

1.一种电子商务商品类别自动标注方法,其特征在于
以每个商品作为多标记分类问题中的样例,以商品的类别作为多标记分类问题中的标记,以多标记分类的方法建立分类模型,对现有商品进行分类,分类的过程即为标注过程。
2.根据权利要求1所述的电子商务商品类别自动标注方法,其特征在于所述多标记分类的方法采用分类器链算法。
3.根据权利要求2所述的电子商务商品类别自动标注方法,其特征在于标注过程包括以下步骤:
a、数据获取
获取所有已标注商品及其现有标签;
b、数据处理
将获取到的商品信息进行转换预处理,得到分类需要的训练样例;
c、建立分类模型
根据步骤c中的训练样例利用分类器链算法进行多标记分类器学习,最终建立分类模型;
d、对于未知的样例,根据步骤c所述分类模型预测其可能具有的标记。
4.根据权利要求3所述的电子商务商品类别自动标注方法,其特征在于步骤c所述分类模型根据十折交叉验证方式进行训练。
CN201510407150.9A 2015-07-13 2015-07-13 一种电子商务商品类别自动标注方法 Pending CN105046274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510407150.9A CN105046274A (zh) 2015-07-13 2015-07-13 一种电子商务商品类别自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510407150.9A CN105046274A (zh) 2015-07-13 2015-07-13 一种电子商务商品类别自动标注方法

Publications (1)

Publication Number Publication Date
CN105046274A true CN105046274A (zh) 2015-11-11

Family

ID=54452803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510407150.9A Pending CN105046274A (zh) 2015-07-13 2015-07-13 一种电子商务商品类别自动标注方法

Country Status (1)

Country Link
CN (1) CN105046274A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106897424A (zh) * 2017-02-24 2017-06-27 北京时间股份有限公司 信息标注系统及方法
CN106909540A (zh) * 2015-12-23 2017-06-30 神州数码信息系统有限公司 一种基于协同学习的智慧城市市民偏好发现技术
CN108364205A (zh) * 2018-01-18 2018-08-03 北京居然设计家家居连锁集团有限公司 生成商品标注点的方法和生成商品标注点的装置
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN113674054A (zh) * 2021-08-13 2021-11-19 青岛海信智慧生活科技股份有限公司 商品类别的配置方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120084155A1 (en) * 2010-10-01 2012-04-05 Yahoo! Inc. Presentation of content based on utility
CN103886486A (zh) * 2014-03-21 2014-06-25 吉首大学 一种基于支持向量机svm的电子商务推荐方法
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN104616178A (zh) * 2015-03-06 2015-05-13 浪潮集团有限公司 一种基于大数据多标记分类方法的电子商务商品推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120084155A1 (en) * 2010-10-01 2012-04-05 Yahoo! Inc. Presentation of content based on utility
CN103886486A (zh) * 2014-03-21 2014-06-25 吉首大学 一种基于支持向量机svm的电子商务推荐方法
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN104616178A (zh) * 2015-03-06 2015-05-13 浪潮集团有限公司 一种基于大数据多标记分类方法的电子商务商品推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李晓丽: "电子商务个性化推荐系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邱继钊: "基于数据及标记关联的多标记学习算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106874279B (zh) * 2015-12-11 2021-01-15 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106909540A (zh) * 2015-12-23 2017-06-30 神州数码信息系统有限公司 一种基于协同学习的智慧城市市民偏好发现技术
CN106897424A (zh) * 2017-02-24 2017-06-27 北京时间股份有限公司 信息标注系统及方法
CN108364205A (zh) * 2018-01-18 2018-08-03 北京居然设计家家居连锁集团有限公司 生成商品标注点的方法和生成商品标注点的装置
CN108364205B (zh) * 2018-01-18 2020-12-18 躺平设计家(上海)科技有限公司 生成商品标注点的方法和生成商品标注点的装置
CN109165380A (zh) * 2018-07-26 2019-01-08 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN109165380B (zh) * 2018-07-26 2022-07-01 咪咕数字传媒有限公司 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN113674054A (zh) * 2021-08-13 2021-11-19 青岛海信智慧生活科技股份有限公司 商品类别的配置方法、装置及系统
CN113674054B (zh) * 2021-08-13 2023-12-05 青岛海信智慧生活科技股份有限公司 商品类别的配置方法、装置及系统

Similar Documents

Publication Publication Date Title
CN105046274A (zh) 一种电子商务商品类别自动标注方法
CN103268348B (zh) 一种用户查询意图识别方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN103793476B (zh) 基于网络社区的协同过滤推荐方法
TWI519976B (zh) Category misplaced recognition methods and devices
CN107516235B (zh) 商品偏好预估方法和装置
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN103425677B (zh) 关键词分类模型确定方法、关键词分类方法及装置
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN103678618A (zh) 一种基于社交网络平台的Web服务推荐方法
CN103235812B (zh) 查询多意图识别方法和系统
CN107833117A (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
CN105740380A (zh) 数据融合方法及系统
CN110377727B (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN106776869A (zh) 基于神经网络的搜索优化方法、装置以及搜索引擎
CN103377249A (zh) 关键词投放方法及系统
CN104616178A (zh) 一种基于大数据多标记分类方法的电子商务商品推荐方法
CN106875278A (zh) 基于随机森林的社交网络用户画像方法
CN107507054A (zh) 一种基于循环神经网络的推荐算法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN110597987A (zh) 一种搜索推荐方法及装置
CN108874916A (zh) 一种层叠组合协同过滤推荐方法
CN107545075B (zh) 一种基于在线评论和情境感知的餐馆推荐方法
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
CN101986301B (zh) 一种基于逆邻分析的协作过滤推荐系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151111

WD01 Invention patent application deemed withdrawn after publication