CN103678335B - 商品标识标签的方法、装置及商品导航的方法 - Google Patents

商品标识标签的方法、装置及商品导航的方法 Download PDF

Info

Publication number
CN103678335B
CN103678335B CN201210326456.8A CN201210326456A CN103678335B CN 103678335 B CN103678335 B CN 103678335B CN 201210326456 A CN201210326456 A CN 201210326456A CN 103678335 B CN103678335 B CN 103678335B
Authority
CN
China
Prior art keywords
commodity
text
description information
label
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210326456.8A
Other languages
English (en)
Other versions
CN103678335A (zh
Inventor
孙常龙
曾安祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210326456.8A priority Critical patent/CN103678335B/zh
Priority to TW101146887A priority patent/TWI631474B/zh
Priority to PCT/US2013/057877 priority patent/WO2014039450A2/en
Priority to US14/017,161 priority patent/US9323838B2/en
Priority to EP13770527.3A priority patent/EP2893469A4/en
Priority to JP2015530142A priority patent/JP6379093B2/ja
Publication of CN103678335A publication Critical patent/CN103678335A/zh
Application granted granted Critical
Publication of CN103678335B publication Critical patent/CN103678335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种商品标识标签的方法、装置及商品导航的方法。该商品标识标签的方法,包括以下步骤:提取商品的描述信息;将所述商品的描述信息聚合生成文本;使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;将与所述商品的描述信息相关联的主题名称作为所述商品的标签对所述商品进行标识。利用本发明可以为商品标识用户维度属性的标签,以便用户更直观快捷的找到自己需要的商品。

Description

商品标识标签的方法、装置及商品导航的方法
技术领域
本发明涉及电子商务网站导航领域,尤其涉及一种商品标识标签的方法、装置及商品导航的方法。
背景技术
目前,电子商务网站基本上都采用类目导航和属性导航为用户提供导航信息。
类目导航大多采用树状结构表示,用户通过点击类目导航中的内容缩小查找范围,然后利用属性导航精确的查找用户所需的商品。
属性导航相较于其它类型的导航更加多元化,能够更好的吸引用户。但是无论是大众化的属性导航还是个性化的属性导航,现有的属性导航中显示的标签都是商品的固有属性,并且将这些标签标识在商品上,以便用户通过导航进行查找商品。这些标签是在卖家用户上传商品时提供的信息,然后经过人工审核,再将这些标签直接标识在商品上。并且属性导航中显示的内容也是这些对商品固有属性描述的标签。例如,服装类商品,在现有的属性导航中仅能显示出品牌,材质,尺寸,基本样式等对服装固有属性的描述。
上述方案中,对商品标识的标签的形式过于单一,不能给商品标识便于用户挑选的标签,并且导航中显示的内容仅是对商品固有属性的描述的标签,有些标签对用户来说不够通俗易懂,不能直接反映用户的心理需求。现在,用户对商品关注的角度越来越多,相应地,商品种类、数量越来越多,每一件商品中的信息量也越来越大,对这些商品信息按照用户关注的角度对这些大量的商品信息进行分类处理也是亟需解决的问题。
发明内容
本发明的目的是,提供一种商品标识标签的方法、装置及商品导航的方法,便于用户查找商品。
为实现上述目的,本发明提供了一种商品标识标签的方法,该方法包括以下步骤:
对商品进行分类;
提取同一类目下的用户对商品的描述信息;
将所述同一类目下的用户对商品的描述信息聚合生成文本;
使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
将与所述商品的描述信息相关联的主题名称作为所述商品的用户维度的标签对所述商品进行标识。
另外,本发明还提供了一种商品导航的方法,该方法包括以下步骤:
对商品进行分类;
提取同一类目下的用户对商品的描述信息;
将所述同一类目下的用户对商品的描述信息聚合生成文本;
使用主题模型的文本分析方法对所述文本进行主题分析,得到若干主题;
将所述商品分别与所述主题关联;
将所述商品按每一商品关联的主题分类导航。
相应的,本发明提供了一种商品标识标签的装置,该装置包括:
分类模块,用于对商品进行分类;
提取模块,用于提取同一类目下的用户对商品的描述信息;
生成模块,用于将所述同一类目下的用户对商品的描述信息聚合生成文本;
分析模块,用于使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
第一标识模块,用于将与所述商品的描述信息相关联的主题名称作为所述商品的用户维度的标签对所述商品进行标识。
因此,本发明实施例通过对商品的描述信息的聚合文本进行分析,得到用于对商品进行标识的用户维度的标签,可以区别于传统的类目导航,便于对商品信息的分类及导航,能提高向用户提供商品信息的准确性和效率。通过上述方式建立的导航或对商品标识的标签更加多样化和智能化,能够使得用户更快更方便的找到自己喜欢的商品。
附图说明
图1为本申请实施例的商品标识标签的方法所涉及的系统架构示意图;
图2为本申请实施例的商品标识标签的方法的流程图;
图3为本申请实施例的商品导航的方法的流程图;
图4为本申请实施例的商品标识标签的装置的结构示意图;
图5为本申请实施例的另一种商品标识标签的装置的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本申请实施例提供一种商品标识标签的方法。该方法包括以下步骤:提取商品的描述信息,再将该商品的描述信息聚合生成文本,使用基于主题模型的文本分析方法对该文本进行主题分析,得到若干主题,并定义主题名称,最后将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
首先,如图1所示,简单介绍本申请实施例的商品标识标签的方法所涉及的系统架构。该系统包括终端1和服务器2。终端1和服务器2通过互联网或者无线网络与服务器2进行通信。其中,终端1包括买家终端11和卖家终端12。当卖家通过卖家终端12进行商品上架时,服务器2通过互联网接收到卖家提供的上架商品的描述信息,描述信息包括:标题信息、属性信息(属性信息包括:商品的固有属性和用户维度属性)。例如,卖家上架的商品为一双女士皮鞋,卖家在上架皮鞋时,同时会上传该女士皮鞋的标题信息及其属性信息,如材质,样式,鞋跟高低等信息。服务器2提取商品的卖家上传的描述信息和/或数据库中原本保存的商品的描述信息,然后把商品的描述信息聚合生成文本,使用基于主题模型的文本分析方法对该文本进行主题分析,得到若干主题,并定义主题名称,最后将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
需要说明是,其中定义的主题名称是根据商品的用户维度属性定义的。商品的用户维度属性是从用户的角度来描述一个商品。因此,将这些具有用户维度属性的主题名称作为标签为商品进行标识,更加贴近用户挑选商品的习惯,从而使得用户可以直观明确的查找到需要的商品。
如图2所示,其为本申请实施例的商品标识标签的方法的流程图。其中,执行主体可以为服务器、软件或两者的结合。本申请实施例的商品标识标签的方法包括步骤201-204。
步骤201,提取商品的描述信息。
需要说明是,提取的商品的描述信息包括卖家在上传时提供的商品描述信息,还包括数据库中原本记录的商品描述信息。
步骤202,将商品的描述信息聚合成文本。
具体的,首先,根据商品图片相似或相同的程度,把同一款的商品聚合,然后把同款的商品的描述信息叠加,并对叠加后的描述信息进行分词,同时去除一些叠加后的商品描述信息中词频超过预设的第一阈值的词和低于预设的第二阈值的词(也即将描述信息中词频过高和过低的词去除),作为该同款商品的统一描述文本。其中,第一阈值大于第二阈值。因为商品的描述信息,尤其是商品的标题信息,一般由卖家根据用户的挑选习惯定义的,通过剔除商品描述信息题中词频过高和过低的词,可以剔除掉商品中的常用的类目词,同时也剔除了一些与商品固有属性相关的词。所以再经过上述处理所得到的统一描述文本包含了若干具有用户维度属性的词。
例如,在女装类目下,共有将近9千万的商品数,可根据商品的相同或相似的图片把统一款式的商品聚合。因为不同的卖家对商品标题的叙述会有所不同,所以把这些同款商品的标题进行叠加,形成一个对商品全面描述的文本。叠加后的描述文本非常复杂且繁长,所以进行分词处理和除去词频过高和过低的搜索词的处理。例如,同一款女装叠加后的描述文本为“2012中长款女装优雅淑女弹力大码雪纺衫短袖上衣宽松蝙蝠T恤”,经过上述处理后,将其中“2012”,“女装”。“短袖上衣”,“T恤”等使用频率高的搜索词删除,则该款式的女装的统一描述文本为“中长款优雅淑女弹力大码雪纺衫宽松蝙蝠”。按照以上方法,分别获得其他各种款式的女装的统一描述文本。对各种款式的女装的统一描述文本聚合形成新的文本。
步骤203,使用基于主题模型的文本分析方法对该文本进行主题分析,得到若干主题,并定义主题名称。
利用基于主题模型的文本分析方法对聚合的文本进行分析,以识别大规模文本集合(document collection)或语料库(corpus)中潜藏的主题信息。可选地,利用PLSA(Probabilistic Latent Semantic Analysis)概率潜在语义分析方法,或LDA(LatentDirichlet Allocation)潜在狄利克雷分配法进行分析。
具体的,设置训练模型的主题个数,根据主题个数,利用基于主题模型的文本分析方法会把各种商品的统一描述文本聚合后,作为一个新的文本,通过对新文本使用概率潜在语义分析或狄利克雷分配模型,将聚合后的统一描述文本中的词集合根据设定的主题个数划分为相应数目的子集合。每一子集合可以是基于语义相近或相似度而聚合成的词的集合,每个子集合中的词具有相同或相近的语义,每个子集合对应一个主题。基于每个子集合的聚合特征或共性,定义该子集合对应的主题名称。因为用于分析的文本本身就是具有用户维度属性的词的集合,因此定义的主题名称也一定具有用户维度属性。
例如,利用基于主题模型的文本分析方法对女装聚合的文本进行分析。首先设置训练模型的主题个数,将各个款式女装的统一描述文本聚合,基于主题模型的文本分析方法会得出若干子集,如第一主题下聚合了“透视”,“豹纹”等词,则可以将第一主题定义为性感。第二主题聚合了“拼接”,“波点”等词,则可以将第二主题定义为非主流。同样的,其他主题根据该子集合中的词语共有的特征作为该主题的名称。
需要说明的是,其中,设定的主题个数会影响到每个子集合中的词的特征的准确性。为选择一个较优的主题个数,可以预先按一定幅度逐渐加大所述主题模型的主题个数,通过在各个主题个数下计算每个主题里面的词语分布和计算训练的文本中的主题分布,反复计算直到收敛或达到某一个阈值才会停止,此时对应的主题个数为所述主题模型在进行文本分析时所设定的主题数。
步骤204,将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
具体的,确定商品的描述信息中的词是否包含在各个主题对应的子集合中,如果包含,则该商品的描述信息与该子集合对应的主题名称相关联,将相关联的主题名称作为标签给商品打标。
用户对不同类目下的商品关注的维度差异可能非常大,不同类目下用户会有特定的关注维度;而同一类目下商品的描述信息具有更多的内在联系或相关性,更容易通过主题分析得到用户关注的维度。
优选地,为提升基于主题模型的主题分析对商品标识标签的准确性,本申请实施例的主题分析使用的文本为同一类目下商品的描述信息。
因此,本申请实施例的商品标识标签的方法在步骤201之前还包括对商品进行分类的步骤。在步骤201中提取商品的描述信息进一步为提取同一类目下的商品的描述信息。步骤202中将商品的描述信息聚合成文本进一步为将同一类目下的商品的描述信息聚合成文本。
可以理解的,根据对商品分类聚合的精确度要求,对同一类目下商品的描述信息的聚合也可以是同一类目下部分商品的描述信息的聚合。
需要说明的是,对商品的分类可以采用一般的分类方式,现有线上商品一般已具有各自对应的主类目信息及子类目信息,因此,本申请实施例可以通过提取商品已有的主类目信息和/或子类目信息确定商品所属的类目。
例如,卖家用户上架的商品为女士T恤,确定该商品属于女装这一类目,其标题为“加肥加大印花短袖T恤”。对女装类目下各款商品的标题信息聚合后进行主题分析,可以得到包括大码、加大、特大、超大、胖子、加肥加大、胖哥、大号等词的子集合,将该子集合对应的主题定义为“大码”。因为本例中的女士T恤的标题信息中包含有“加肥加大”一词,因此,该女士T恤及其的描述信息与“大码”这一主题就可以相关联。因此,“大码”可以作为描述信息包含了“大码、加大、特大、超大、胖子、加肥加大、胖哥、大号”中至少一个词的商品的标签。本例中的该上架女装的标题信息中包含加肥加大一词,所以为商品标识“大码”的标签。
同样的,每个类目都采用相同的方法为每个类目下的商品进行标签标识。
需要说明的是,类目分为标类类目和非标类类目。其中,通过几个关键的商品固有属性聚合成一个节点,利用这个节点能准确找到相同性质的商品的类目为标类类目。例如,在手机类目下的商品,通过品牌+型号的形式便能够在手机类目下将符合该节点的商品聚合起来,因此手机类目为标类类目。而非标类类目是相对于标类类目而言的,通过几个关键的商品固有属性不能准确聚合成一个节点,不能准确查找到所需的商品,不易于把相同性质的商品归一化的类目为非标类类目。例如,在女装类目下的商品,并不能仅通过商品的两三个关键的固有属性就能准确的找到用户所需要的服装,女装类目为非标类类目。
因此,根据非标类类目下商品属性的特点和标类类目下商品属性的特点,相较于标类类目下的商品,本实施例提供的商品标识标签的方法更适合用于为非标类类目下的商品标识标签。而标类类目下的商品除利用本实施例提供的商品标识标签方法之外,还可以采用其他方法进行标签标识。
另外,利用商品的描述信息中的标题信息还可以为商品标识附加标签。
具体的,确定商品的标题信息中是否包含商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取待标识标签的商品的标签的同时,获取该附加标签,并进行标识。
需要说明的是,附加标签库中的附加标签是根据热门商品进行定义的,能够让用户更方便的查找到最近热门商品。
例如,女士T恤的标题信息为“加肥加大印花短袖T恤”。在女装类目下的附加标签库中查找是否有标题信息中包括的内容,通过查找发现标题信息中包含附加标签库中印花这一标签,则该上架的女装获取印花这一附加标签,并为该女士T恤标识“印花”标签。
需要说明的是,附加标签库是预先建立的,具体的建立方法步骤为根据一个月内同一类目下的商品的日志文件(例如,商品的点击查看量)提取查询量高的查询词。将提取出的查询词进行分词,去除类目词和停用词的处理,将进过处理后的剩余的词作为关键词。获取这些关键词作为热门标签,即附加标签,从而建立每个类目下的附加标签库。其中,查询词可以是各种各样的词语,所以附加标签对词语没有限制。如,对商品外观描述的词,人名,电视剧名等,都可以作为附加标签。
例如,女装类目下,一个月内查询量高的查询词有“透视装”“透视短袖”等,经过分词和去除类目词、停用词的处理后,得到的关键词为“透视”,则将透视一词作为女装类目下附加标签库中的附加标签。再如,近期某个明星比较火,搜索某某明星同款女装的人很多,则便可将某某明星的名字作为女装类目下附加标签库中的附加标签。
此外,本申请实施例还提供一种商品导航的方法。如图3所示,其为本申请实施例的商品导航方法。该商品导航的方法包括步骤301-304。
步骤301,提取商品的描述信息,将商品的描述信息聚合生成文本。
商品的描述信息包括商品的标题信息和/或属性信息。一般来说,商品的标题会从用户关注的角度对商品进行描述,因此,标题中包含了很多可以引起用户兴趣的词语或词语组合。此外,在商品的详情介绍部分对该商品属性的具体描述也可能包含用户关注角度的描述。将商品的描述信息聚合生成文本也就是将对商品的描述词汇集到同一文本中。
步骤302,使用主题模型的文本分析方法对所述文本进行主题分析,得到若干主题。
使用主题模型的文本分析方法对所述文本进行主题分析,以识别大规模文本集合(document collection)或语料库(corpus)中潜藏的主题信息。可选地,利用PLSA(Probabilistic Latent Semantic Analysis)概率潜在语义分析方法,或LDA(LatentDirichlet Allocation)潜在狄利克雷分配法进行模型训练。
具体的,设置主题模型的主题个数,根据主题个数,所述主题模型的文本分析的方法会把商品的描述信息聚合后的文本,通过对所述文本使用概率潜在语义分析或狄利克雷分配模型,将聚合后的文本中的词集合根据设定的主题个数划分为相应个数的子集合。每一子集合可以是基于语义相近或相似度而聚合的词的集合,每个子集合中的词具有相近的语义或具有相近的应用语境,每个子集合对应一个主题。基于每个子集合的聚合特征,可以定义该子集合对应的主题。根据每个子集合中词的共同特征可以进一步定义每个子集合对应的主题的名称,也可以将主题名称作为该类目下商品的标签。
步骤303,将商品与主题关联。
根据每一商品的描述信息中的词在所述子集中的分布可以建立每一商品与子集合的映射,进而可以建立该商品与主题的映射,即将商品与主题关联。
步骤304,将商品的描述信息相关联的主题分类导航。
不同的商品可以分别与不同主题进行关联,因此,在用户浏览商品上可以将商品按各自对应的主题分别展示,用户通过选择主题对应的链接或标签便可以得到该主题关联的商品,也即将商品按各自对应的主题分类导航。主题对应的名称或标签作为分类导航中显示的内容。当用户点击标签时,便会显示该主题关联的商品。其中,分类导航中主题对应的名称或标签的显示顺序由该主题下的商品的点击量决定。在分类导航中可以不显示全部主题对应的名称或标签,可根据不同情况,设置显示的主题对应的名称或标签个数和顺序。
当选择分类导航中的任一主题时,在用户界面上显示该主题关联的商品。当同时选择分类导航中的多个主题时,在用户界面上显示同时与该多个主题关联的商品。
在本实施例提供的商品的导航的方法中,为了剔除一些描述信息中出现的类目词或者剔除一些与商品属性无关的词语以减小干扰,步骤301中还可以进一步包括:将属于同一款商品的各商品的描述信息聚合形成第一文本;对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词;及将该各种款的商品的第一文本聚合形成第二文本。如此,在步骤302使用主题模型的文本分析方法进行主题分析中的文本为第二本文。
步骤302进一步还可以包括:设定主题模型的主题数,使用该主题模型对该第二文本进行主题分析;获得设定主题数的子集;定义每一子集的主题;根据描述信息中的词所在的子集,将该类目下的商品与该子集对应的主题关联。定义每一子集的主题时,根据子集中词的共有词义或共有属性作为该主题的名称。
进一步地,本申请实施例的主题分析使用的文本为同一类目下商品的描述信息。本申请实施例的商品标识标签的方法还可以包括对商品进行分类的步骤;在步骤301中提取商品的描述信息进一步为提取同一类目下的商品的描述信息,步骤302中将商品的描述信息聚合成文本进一步为将同一类目下的商品的描述信息聚合成文本。
可以理解的,根据对商品分类聚合的精确度要求,对同一类目下商品的描述信息的聚合也可以是同一类目下部分商品描述信息的聚合。
相应地,本申请实施例还提供一种商品标识标签的装置。如图4所示,其为本申请实施例的商品标识标签的装置的结构示意图,该装置包括:分类模块410、提取模块420、生成模块430、分析模块440及第一标识模块450。
分类模块410,用于对商品进行分类。
类目是根据记录的商品数据进行划分的。例如,手机、相机、女装、男装、书籍等类目。
具体的,分类模块410根据商品的描述信息或者卖家在上传商品时选择的类目,在划分好的类目中确定商品是属于哪个类目下的商品。
提取模块420,用于提取商品的描述信息。
提取模块420可以提取同一类目下商品的描述信息,描述信息包括卖家在上传时提供的商品描述信息,还包括该类目下数据库中记录的商品描述信息。
生成模块430,用于将商品的描述信息聚合生成文本。
具体的,生成模块430根据商品图片相似或相同的程度,把同一分类类目下的同一款的商品聚合,然后把同款的商品的描述信息叠加,并对叠加后的描述信息进行分词,同时去除一些叠加后的商品描述信息中词频超过预设的第一阈值的词和低于预设的第二阈值的词(也即将描述信息中词频过高和过低的词去除),作为该同款商品的统一描述文本。其中,第一阈值大于第二阈值。因为商品的描述信息,尤其是商品的标题信息,一般由卖家根据用户的挑选习惯定义的,通过剔除商品描述信息题中词频过高和过低的词,可以剔除掉商品中的常用的类目词,同时也剔除了一些与商品固有属性相关的词。所以再经过上述处理所得到的统一描述文本包含了若干具有用户维度属性的词。
分析模块440,用于使用基于主题模型的文本分析方法对该文本进行主题分析,得到若干主题,并定义主题名称。其中分析的文本为第二文本。
分析模块440利用基于主题模型的文本分析方法对聚合的文本进行分析,以识别大规模文本集合(document collection)或语料库(corpus)中潜藏的主题信息。可选地,利用PLSA(Probabilistic Latent Semantic Analysis)概率潜在语义分析方法,或LDA(Latent Dirichlet Allocation)潜在狄利克雷分配法进行分析。
具体的,分析模块440设置训练模型的主题个数,根据主题个数,利用基于主题模型的文本分析方法会把同一类目下各种款商品的统一描述文本聚合后,作为一个新的文本,通过对新文本使用概率潜在语义分析或狄利克雷分配模型,将聚合后的统一描述文本中的词集合根据设定的主题个数划分为相应数目的子集合。每一子集合可以是基于语义相近或相似度而聚合成的词的集合,每个子集合中的词具有相同或相近的语义,每个子集合对应一个主题。基于每个子集合的聚合特征或共性,定义该子集合对应的主题名称。因为用于分析的文本本身就是具有用户维度属性的词的集合,因此定义的主题名称也一定具有用户维度属性。
第一标识模块450,用于将与商品的描述信息相关联的主题名称作为商品的标签对商品进行标识。
第一标识模块450确定商品的描述信息中的词是否包含在其所属类目下的子集合中,如果包含,则该商品的描述信息与该子集合对应的主题名称相关联,将相关联的主题名称作为标签给商品打标。
另外,本实施例提供的商品标识标签的装置还包括:第二标识模块460和建立模块470。如图5所示,其为另一种商品标识标签的装置的结构示意图。
第二标识模块460用于确定商品的标题信息中是否包含商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取待标识标签的商品的标签的同时,获取该附加标签,并进行标识。
建立模块470用于预先建立附加标签库。
建立模块470根据同一类目下记录的商品的日志,提取该类目下查询次数高的查询词,对提取出的查询词进行分词,去除类目词和停用词的处理,获取关键词,将该关键词作为附加标签,建立该类目的附加标签库。
利用本申请提供的商品标识标签的方法、装置及商品导航的方法,可以为商品标识用户维度属性的标签,并且建立分类导航对商品进行导航,以便用户更直观快捷的找到自己需要的商品。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种商品标识标签的方法,其特征在于:
对商品进行分类;
提取同一类目下的用户对商品的描述信息;
将所述同一类目下的用户对商品的描述信息聚合生成文本;
使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
将与所述商品的描述信息相关联的主题名称作为所述商品的用户维度的标签对所述商品进行标识。
2.根据权利要求1所述的商品标识标签的方法,其特征在于,将所述同一类目下的用户对商品的描述信息聚合生成文本的步骤进一步包括:
将属于同一款商品的各商品的描述信息聚合形成第一文本;
对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词;及
将各种不同款的商品的第一文本聚合形成第二文本;
其中,对所述文本进行主题分析中所使用的文本为所述第二文本。
3.根据权利要求2所述的商品标识标签的方法,其特征在于,所述使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题的步骤,进一步包括:
设定主题模型的主题数,使用基于该主题模型的文本分析方法对所述第二文本进行主题分析;
获得与设定主题数相同数目的子集;及
每一个子集对应一个主题;
其中,根据商品的描述信息中的词所在的子集,将该商品的描述信息与该子集对应的主题关联。
4.根据权利要求1所述的商品标识标签的方法,其特征在于,所述描述信息包括标题信息和/或商品的属性信息。
5.根据权利要求1所述的商品标识标签的方法,其特征在于,所述主题模型为概率潜在语义模型或潜在狄利克雷分配模型。
6.根据权利要求4所述的商品标识标签的方法,其特征在于,所述方法还包括:
确定商品的所述标题信息中是否包含所述商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取所述商品的标签的同时,获取所述附加标签,并进行标识。
7.根据权利要求6所述的商品标识标签的方法,其特征在于,所述预先建立的附加标签库是通过以下步骤建立的:
根据同一类目下记录的商品的日志,提取所述类目下查询次数高的查询词;
对提取出的查询词进行分词,去除类目词和停用词的处理,获取关键词;
将所述关键词作为附加标签,建立所述类目的附加标签库。
8.一种商品导航的方法,其特征在于,所述方法包括以下步骤:
对商品进行分类;
提取同一类目下的用户对商品的描述信息;
将所述同一类目下的用户对商品的描述信息聚合生成文本;
使用主题模型的文本分析方法对所述文本进行主题分析,得到若干主题;
将所述商品分别与所述主题关联;
将所述商品按每一商品关联的主题分类导航。
9.根据权利要求8所述的商品导航的方法,其特征在于,将所述同一类目下的用户对商品的描述信息聚合生成文本的步骤进一步包括:
将属于同一款商品的各商品的描述信息聚合形成第一文本;
对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词;及
将各种不同款的商品的第一文本聚合形成第二文本;
其中,对所述文本进行主题分析所使用的文本为所述第二文本。
10.根据权利要求9所述的商品导航的方法,其特征在于,所述使用基于主题模型的文本分析方法对所述文本进行主题分析的步骤,进一步包括:
设定主题模型的主题数,使用基于该主题模型的文本分析方法对所述第二文本进行主题分析;
获得与设定主题数相同数目的子集;及
每一个子集对应一个主题;
其中,根据商品的描述信息中的词所在的子集,将该商品与该子集对应的主题关联。
11.根据权利要求8所述的商品导航的方法,其特征在于,所述描述信息包括标题信息和/或商品的属性信息。
12.根据权利要求8所述的商品导航的方法,其特征在于,所述将所述商品按每一商品关联的主题分类导航时,分类导航中主题的显示顺序由该主题对应的商品的点击量决定。
13.一种商品标识标签的装置,其特征在于,所述装置包括:
分类模块,用于对商品进行分类;
提取模块,用于提取同一类目下的用户对商品的描述信息;
生成模块,用于将所述同一类目下的用户对商品的描述信息聚合生成文本;
分析模块,用于使用基于主题模型的文本分析方法对所述文本进行主题分析,得到若干主题,并定义主题名称;
第一标识模块,用于将与所述商品的描述信息相关联的主题名称作为所述商品的用户维度的标签对所述商品进行标识。
14.根据权利要求13所述的商品标识标签的装置,其特征在于,所述生成模块进一步用于将属于同一款商品的各商品的描述信息聚合形成第一文本,对该第一文本进行分词,剔除该第一文本中词频高于第一设定阈值的词和词频低于第二设定阈值的词,及将各种不同款的商品的第一文本聚合形成第二文本;
其中,所述分析模块使用所述第二文本进行主题分析。
15.根据权利要求14所述的商品标识标签的装置,其特征在于,所述分析模块进一步用于设定主题模型的主题数,使用基于该主题模型的文本分析方法对所述第二文本进行主题分析,获得与设定主题数相同数目的子集,每一个子集对应一个主题,根据商品的描述信息中的词所在的子集,将该商品的描述信息与该子集对应的主题关联。
16.根据权利要求13所述的商品标识标签的装置,其特征在于,所述描述信息包括标题信息和/或商品的属性信息。
17.根据权利要求13所述的商品标识标签的装置,其特征在于,所述主题模型为概率潜在语义模型或潜在狄利克雷分配模型。
18.根据权利要求16所述的商品标识标签的装置,其特征在于,所述装置还包括:
第二标识模块,用于确定商品的标题信息中是否包含所述商品所属类目的预先建立的附加标签库中的附加标签,如果包含,则在获取所述商品的标签的同时,获取所述附加标签,并进行标识。
19.根据权利要求17所述的商品标识标签的装置,其特征在于,所述装置还包括:
建立模块,用于根据同一类目下记录的商品的日志,提取所述类目下查询次数高的查询词,对提取出的查询词进行分词,去除类目词和停用词的处理,获取关键词,将所述关键词作为附加标签,建立所述类目的附加标签库。
CN201210326456.8A 2012-09-05 2012-09-05 商品标识标签的方法、装置及商品导航的方法 Active CN103678335B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210326456.8A CN103678335B (zh) 2012-09-05 2012-09-05 商品标识标签的方法、装置及商品导航的方法
TW101146887A TWI631474B (zh) 2012-09-05 2012-12-12 Method and device for product identification label and method for product navigation
PCT/US2013/057877 WO2014039450A2 (en) 2012-09-05 2013-09-03 Labeling product identifiers and navigating products
US14/017,161 US9323838B2 (en) 2012-09-05 2013-09-03 Labeling product identifiers and navigating products
EP13770527.3A EP2893469A4 (en) 2012-09-05 2013-09-03 LABELING OF PRODUCT IDENTIFIERS AND PRODUCT NAVIGATION
JP2015530142A JP6379093B2 (ja) 2012-09-05 2013-09-03 製品識別子のラベル付けおよび製品のナビゲーション

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210326456.8A CN103678335B (zh) 2012-09-05 2012-09-05 商品标识标签的方法、装置及商品导航的方法

Publications (2)

Publication Number Publication Date
CN103678335A CN103678335A (zh) 2014-03-26
CN103678335B true CN103678335B (zh) 2017-12-08

Family

ID=49261733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210326456.8A Active CN103678335B (zh) 2012-09-05 2012-09-05 商品标识标签的方法、装置及商品导航的方法

Country Status (6)

Country Link
US (1) US9323838B2 (zh)
EP (1) EP2893469A4 (zh)
JP (1) JP6379093B2 (zh)
CN (1) CN103678335B (zh)
TW (1) TWI631474B (zh)
WO (1) WO2014039450A2 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609422A (zh) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置
US9330167B1 (en) * 2013-05-13 2016-05-03 Groupon, Inc. Method, apparatus, and computer program product for classification and tagging of textual data
US9600576B2 (en) * 2013-08-01 2017-03-21 International Business Machines Corporation Estimating data topics of computers using external text content and usage information of the users
CN104951430B (zh) * 2014-03-27 2019-03-12 上海携程商务有限公司 产品特征标签的提取方法及装置
CN105335386B (zh) * 2014-07-01 2018-10-16 阿里巴巴集团控股有限公司 一种提供导航标签的方法及装置
CN106202105A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及装置
CN106503002A (zh) * 2015-09-07 2017-03-15 张晓晔 一种以若干标签替代标题显示商品主要信息的方法
CN105320778B (zh) * 2015-11-25 2019-04-02 焦点科技股份有限公司 一种适用于电子商务中文网站商品标签化的方法
CN105608166A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种标签提取方法及装置
CN106919543A (zh) * 2015-12-24 2017-07-04 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
CN106919625B (zh) * 2015-12-28 2021-04-09 中国移动通信集团公司 一种互联网用户属性识别方法和装置
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN107632984A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和系统
US10242002B2 (en) 2016-08-01 2019-03-26 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10229184B2 (en) 2016-08-01 2019-03-12 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
CN107292365B (zh) * 2017-06-27 2021-01-08 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN109597973A (zh) * 2017-09-30 2019-04-09 阿里巴巴集团控股有限公司 一种文案信息的推荐、生成方法和装置
CN108460131B (zh) * 2018-03-02 2021-11-26 北京奇艺世纪科技有限公司 一种分类标签处理方法及装置
CN108427749B (zh) * 2018-03-12 2021-06-18 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
KR102080315B1 (ko) * 2018-06-01 2020-02-24 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
CN110874534B (zh) * 2018-08-31 2023-04-28 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN109739955A (zh) * 2019-01-24 2019-05-10 北京诸葛找房信息技术有限公司 基于分词与多模匹配的房源标签自动提取装置及其方法
KR102221122B1 (ko) * 2019-01-28 2021-02-25 네이버 주식회사 이미지 검색 장치 및 방법
CN110188203B (zh) * 2019-06-10 2022-08-26 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质
CN112395528B (zh) * 2019-08-13 2022-10-21 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN113743430A (zh) * 2020-05-29 2021-12-03 北京沃东天骏信息技术有限公司 标签匹配度检测模型的建立方法及装置、存储介质及设备
US20220253473A1 (en) * 2021-02-05 2022-08-11 Mercari, Inc. Machine generated ontology
CN114049142A (zh) * 2021-10-27 2022-02-15 创优数字科技(广东)有限公司 商品质量数据处理方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6992587B2 (en) * 2003-02-25 2006-01-31 Canon Kabushiki Kaisha Apparatus and method for managing articles
CN101685464A (zh) * 2009-06-18 2010-03-31 浙江大学 基于社群潜在主题挖掘的自动图像标注的方法
CN101706821A (zh) * 2009-12-10 2010-05-12 中兴通讯股份有限公司 基于标签的移动互联网页面设计系统及方法
CN102129424A (zh) * 2010-01-20 2011-07-20 神达电脑股份有限公司 利用个人导航装置定位到邻近商店的方法及个人导航装置
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7483872B2 (en) * 2001-08-23 2009-01-27 Michael Meiresonne Supplier identification and locator system and method
AUPR958901A0 (en) * 2001-12-18 2002-01-24 Telstra New Wave Pty Ltd Information resource taxonomy
EP1493118A1 (en) 2002-04-10 2005-01-05 Accenture Global Services GmbH Determination of attributes based on product descriptions
US20030212640A1 (en) 2002-05-01 2003-11-13 Hans Magnus Andresen Universal product attribute modeler
US20060212287A1 (en) 2005-03-07 2006-09-21 Sight'up Method for data processing with a view to extracting the main attributes of a product
US20070106644A1 (en) 2005-11-08 2007-05-10 International Business Machines Corporation Methods and apparatus for extracting and correlating text information derived from comment and product databases for use in identifying product improvements based on comment and product database commonalities
US7752204B2 (en) * 2005-11-18 2010-07-06 The Boeing Company Query-based text summarization
CA2652762A1 (en) * 2006-05-19 2008-02-07 My Virtual Model Inc. Simulation-assisted search
EP2642442A3 (en) * 2006-07-05 2013-12-04 eBay Inc. System and method for category-based contextual advertisement generation and management
US7996282B1 (en) * 2006-09-29 2011-08-09 Amazon Technologies, Inc. Method and system for selecting and displaying items
US8738456B2 (en) 2006-11-14 2014-05-27 Xerox Corporation Electronic shopper catalog
TW200828139A (en) * 2006-12-18 2008-07-01 Webgenie Information Ltd Method for generating generic title
JP4783775B2 (ja) * 2007-11-21 2011-09-28 ヤフー株式会社 商品情報分類装置、プログラム、商品情報分類方法
TW200933511A (en) * 2008-01-25 2009-08-01 Jui-Chu Lin System for on-line learning and knowledge transaction and the method of the same
JP2009187414A (ja) 2008-02-08 2009-08-20 Fujitsu Ltd 分析用属性項目抽出プログラム、分析用属性項目抽出方法、及び情報分析装置
US20090271293A1 (en) 2008-04-28 2009-10-29 Interactive Luxury Solutions Llc Methods and systems for dynamically generating personalized shopping suggestions
AU2009260033A1 (en) * 2008-06-19 2009-12-23 Wize Technologies, Inc. System and method for aggregating and summarizing product/topic sentiment
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
CN102193936B (zh) * 2010-03-09 2013-09-18 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
WO2012003453A2 (en) 2010-07-01 2012-01-05 Sagent Pharmaceuticals, Inc. Label, labeling system and method of labeling for containers for drug products
CN102314654B (zh) * 2010-07-08 2017-10-17 阿里巴巴集团控股有限公司 一种信息推送方法及信息推送服务器
US8874581B2 (en) * 2010-07-29 2014-10-28 Microsoft Corporation Employing topic models for semantic class mining
US8463805B2 (en) * 2010-09-15 2013-06-11 Cbs Interactive, Inc. Mapping product identification information to a product
US8510257B2 (en) * 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN102467726B (zh) * 2010-11-04 2015-07-29 阿里巴巴集团控股有限公司 一种基于网上交易平台的数据处理方法和装置
WO2012064893A2 (en) 2010-11-10 2012-05-18 Google Inc. Automated product attribute selection
CN102541862B (zh) * 2010-12-14 2014-05-07 阿里巴巴集团控股有限公司 跨网站的信息显示方法及系统
US20120197764A1 (en) 2011-02-02 2012-08-02 Ebay Inc. Method and process of using metadata associated with a digital media to search for local inventory

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6992587B2 (en) * 2003-02-25 2006-01-31 Canon Kabushiki Kaisha Apparatus and method for managing articles
CN101685464A (zh) * 2009-06-18 2010-03-31 浙江大学 基于社群潜在主题挖掘的自动图像标注的方法
CN101706821A (zh) * 2009-12-10 2010-05-12 中兴通讯股份有限公司 基于标签的移动互联网页面设计系统及方法
CN102129424A (zh) * 2010-01-20 2011-07-20 神达电脑股份有限公司 利用个人导航装置定位到邻近商店的方法及个人导航装置
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Also Published As

Publication number Publication date
JP6379093B2 (ja) 2018-08-22
WO2014039450A3 (en) 2014-05-30
WO2014039450A2 (en) 2014-03-13
TW201411381A (zh) 2014-03-16
CN103678335A (zh) 2014-03-26
EP2893469A2 (en) 2015-07-15
TWI631474B (zh) 2018-08-01
US20140067815A1 (en) 2014-03-06
EP2893469A4 (en) 2016-06-22
JP2015526831A (ja) 2015-09-10
US9323838B2 (en) 2016-04-26

Similar Documents

Publication Publication Date Title
CN103678335B (zh) 商品标识标签的方法、装置及商品导航的方法
CN107748754B (zh) 一种知识图谱完善方法和装置
KR102075833B1 (ko) 미술 작품 추천 큐레이션 방법 및 시스템
US8320707B2 (en) System and method for use of images with recognition analysis
US7542610B2 (en) System and method for use of images with recognition analysis
US10360623B2 (en) Visually generated consumer product presentation
CN103617230B (zh) 一种基于微博的广告推荐方法及系统
CN102254043B (zh) 一种基于语义映射的服装图像检索方法
CN107679960B (zh) 一种基于服装图像和标签文本双模态内容分析的个性化服装的推荐方法
JP2007507775A (ja) メディア項目のクラスタリングとクエリとを行う方法
TW201816684A (zh) 聚類資料表的展現方法、裝置和系統
CN104298749A (zh) 一种图像视觉和文本语义融合商品检索方法
CN105874753A (zh) 用于社交数据网络用户行为细分的系统和方法
WO2023142809A1 (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN103778206A (zh) 一种网络服务资源的提供方法
CN108932647A (zh) 一种预测相似物品及训练其模型的方法和装置
Chi et al. UbiShop: Commercial item recommendation using visual part-based object representation
Chen et al. iLike: integrating visual and textual features for vertical search
KR20220019737A (ko) 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램
CN115270790A (zh) 一种基于大数据的样本标识方法、设备及介质
Nie et al. Social media profiler: Inferring your social media personality from visual attributes in portrait
CN107730357A (zh) 一种基于视觉词典库实现图像快速检索的方法及系统
CN102982072A (zh) 一种可视化概念检测器及构造语义场的方法
WO2007041647A2 (en) System and method for use of images with recognition analysis
KR20210063665A (ko) 사용자 이벤트 정보 기반 추천 아이템 제공 방법 및 이를 실행하는 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1193205

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant