CN102737057A - 一种商品类目信息的确定方法及装置 - Google Patents

一种商品类目信息的确定方法及装置 Download PDF

Info

Publication number
CN102737057A
CN102737057A CN2011100934309A CN201110093430A CN102737057A CN 102737057 A CN102737057 A CN 102737057A CN 2011100934309 A CN2011100934309 A CN 2011100934309A CN 201110093430 A CN201110093430 A CN 201110093430A CN 102737057 A CN102737057 A CN 102737057A
Authority
CN
China
Prior art keywords
commodity
node
phrase
degree
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100934309A
Other languages
English (en)
Other versions
CN102737057B (zh
Inventor
苗文彦
钱建平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110093430.9A priority Critical patent/CN102737057B/zh
Priority to TW100131503A priority patent/TW201241773A/zh
Priority to PCT/US2012/031875 priority patent/WO2012141934A1/en
Priority to US13/518,267 priority patent/US9047369B2/en
Priority to JP2014505177A priority patent/JP5956558B2/ja
Priority to EP20120770669 priority patent/EP2697709A4/en
Publication of CN102737057A publication Critical patent/CN102737057A/zh
Priority to HK12111693.3A priority patent/HK1171096A1/zh
Priority to US14/478,867 priority patent/US9418147B2/en
Application granted granted Critical
Publication of CN102737057B publication Critical patent/CN102737057B/zh
Priority to JP2016119869A priority patent/JP2016181277A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本申请公开了一种商品类目信息的确定方法及装置,用以解决现有确定商品类目效率低,准确性差的问题。该方法当获取到商品标题信息后,对该商品标题信息分词构成相应的词组,针对每个词组及与根节点连接的每个子节点,根据保存的每个词组与每个节点对应的商品类目的关联度值,查找每个词组与每个子节点的关联度,并确定包含该商品信息的节点;将该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。如本申请提出的方案,因此可以大大缩短确定商品挂靠的叶子节点的时间,保证商品挂靠的商品类目确定的准确性。

Description

一种商品类目信息的确定方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种商品类目信息的确定方法及装置。
背景技术
用户通过服务器上传商品的信息时,需要根据服务器提供的商品类目的信息,确定上传的该商品的信息所归属的类目,将该商品的信息挂靠在相应类目下。但是由于服务器可以提供的商品类目的信息非常的庞杂,当用户主动确定商品的信息所归属的类目时,很可能错选类目,导致提供的信息不准确。
另外,服务器采用开放搜索的方式,将其他服务器中保存的商品的信息纳入自身数据库中时,其他服务器中挂靠商品的信息的商品类目的划分类型可能与该服务器的商品类目的划分类型并不相同,在将其他服务器中保存的商品的信息纳入自身数据库时,如果商品类目的划分类型不同,将会导致其他服务器中保存的商品信息无法自动纳入到自身的数据库中,在这种情况下,只能采用人工识别的纳入方式,这大幅影响了商品信息纳入的效率及准确率。
现有商品归属类目的确定方法包括:基于搜索的商品类目确定方法,以及长尾查询(query)类目确定方法。
其中,基于搜索的商品类目确定方法中,当用户输入了商品的标题信息后,服务器根据用户输入的该商品的标题信息,通过搜索引擎在数据库中查找与该商品的标题信息完全匹配的商品的标题信息,用户根据查找到的该商品的标题信息匹配的商品挂靠的商品类目,确定输入的商品挂靠的类目。该方法中,只有查找到的标题信息完全匹配,才能确定商品所挂靠的商品类目,但是一般情况下,商品的标题信息包含的字符数很多,一般都在10~30个字符之间,因此,由于在大部分情况下都没办法查找到标题信息完全匹配的商品,并且逐一查找的过程非常耗时,这不但导致难以确定该商品挂靠的商品类目,而且效率低下。此外,即使查找到了完全匹配的标题信息,但当该标题信息对应的商品挂靠的商品类目存在错误时,也会导致确定的该商品挂靠的商品类目的出现差错。
在长尾query类目确定方法中,当用户输入了查询关键词后,根据该查询关键词向用户返回查询结果,服务器根据用户输入的查询关键词,以及每个查询结果对应的商品类目,确定该查询关键词与每个商品类目的关联度,根据确定的关联度关系进行商品类目的确定。但是该方法在进行商品类目的确定时,采用的是一种扁平状的确定方法,即只确定了每个关键词与叶子节点对应的商品类目的关联度,在进行商品类目的确定过程中,需要逐一与每个叶子节点对应的商品类目进行匹配,而一般叶子节点对应的商品类目成千上万,这导致应用该方法确定商品类目的过程耗时较长,效率较低。
发明内容
有鉴于此,本申请实施例提供一种商品类目信息的确定方法及装置,用以解决现有确定商品类目效率低,准确性差的问题。
本申请实施例提供的一种商品信息与商品类目关联度的确定方法,包括:
针对商品类目树中每个商品类目对应的节点,确定该节点的父节点;
针对该节点包含的每个商品标题信息,进行以下步骤:
对该商品标题信息分词,确定该商品标题信息对应的每个词组,其中所述词组包括至少一个分词;
针对每个词组,根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的关联度值;
针对该节点分别保存每个词组与该节点对应的商品类目的关联度值。
本申请实施例提供的一种基于上述关联度的确定方法确定商品类目信息的方法,包括:
接收商品标题信息;
对该商品标题信息进行分词,确定该商品标题信息对应的每个词组,其中每个词组中包括至少一个分词;
根据针对每个节点保存的每个词组与该节点对应的商品类目的关联度值,查找确定的每个词组与每个子节点的关联度;
根据查找到的每个词组与每个子节点的关联度,确定包含该商品信息的节点;
将确定的该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品信息挂靠到叶子节点对应的商品类目。
本申请实施例提供的一种商品信息与商品类目关联度的确定装置,包括:
节点确定模块,用于针对商品类目树中每个商品类目对应的节点,确定该节点的父节点;
控制模块,针对该节点包含的每个商品标题信息,进行以下步骤:对该商品标题信息分词,确定该商品标题信息对应的每个词组,其中所述词组包括至少一个分词,针对每个词组,根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的关联度值;
关联度确定模块,用于针对每个节点分别保存每个词组与该节点对应的商品类目的关联度值。
本申请实施例提供的一种基于上述关联度的确定装置确定商品类目信息的装置,包括:
分词模块,用于接收获取的商品标题信息,对该商品标题信息进行分词,确定该商品标题信息对应的每个词组,其中该词组中包括至少一个分词;
查找模块,用于针对每个词组及与根节点连接的每个子节点,根据保存的每个词组与每个节点对应的商品类目的关联度值,查找每个词组与每个子节点的关联度;
商品类目确定模块,用于根据查找到的每个词组与每个子节点的关联度,确定包含该商品信息的节点;将该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。
本申请实施例提供了一种商品类目信息的确定方法及装置,所述方法中,当获取到商品标题信息后,对该商品标题信息分词构成相应的词组,针对每个词组及与根节点连接的每个子节点,根据保存的每个词组与每个节点对应的商品类目的关联度值,查找每个词组与每个子节点的关联度,并确定包含该商品信息的节点;将该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。由于在本申请实施例中通过确定每个词组与每个商品类目的关联度,并且在确定的过程中从根节点开始依次查找包含商品信息的节点,由于与根节点连接的子节点的数量,远远小于商品类目树中包含的叶子节点的数量,因此可以大大缩短确定商品挂靠的叶子节点的时间,并且由于本申请实施例中,由与根节点连接的子节点依次确定包含该商品信息的子节点,从而可以保证商品挂靠的商品类目确定的准确性。
附图说明
图1A为本申请实施例提供的一种商品类目树的结构示意图;
图1B为本申请实施例提供的商品类目信息的确定过程;
图2A为本申请实施例提供的商品信息与商品类目关联度的确定过程,涉及的各个系统的组成结构示意图;
图2B为本申请实施例提供的商品信息与商品类目关联度的确定过程;
图3为本申请实施例提供的该apache模块具体的可以通过控制模块和确定模块实现结构示意图;
图4为本申请实施例提供的商品类目信息的详细确定过程;
图5为本申请实施例提供的一种商品信息与商品类目关联度的确定装置结构示意图;
图6为本申请实施例提供的一种基于上述图6的关联度的确定装置确定商品类目信息的装置结构示意图。
具体实施方式
本申请实施例为了提高确定商品所挂靠的商品类目的准确性及效率,提供了一种商品类目信息的确定方法、系统及装置,该方法通过确定每个词组与每个商品类目的关联度,并且在确定的过程中从根节点开始依次查找包含商品信息的节点,由于与根节点连接的子节点的数量,远远小于商品类目树中包含的叶子节点的数量,因此可以大大缩短确定商品挂靠的叶子节点的时间,并且由于本申请实施例中,由与根节点连接的子节点依次确定包含该商品信息的子节点,从而可以保证商品挂靠的商品类目确定的准确性。
下面结合说明书附图,对本申请实施例进行详细说明。
具体的,在本申请实施例中,数据库中保存有每个商品信息与其挂靠的商品类目信息的关系,该关系为用户根据其提供的商品信息与服务器上提供的商品类目的对应关系而选择建立的。在该数据库中保存的该商品信息与其挂靠的商品类目信息的关系可以以以下格式存在:
商品ID-商品标题信息-商品归属的商品类目ID。
其中,该商品归属的商品类目为商品类目树中的叶子节点对应的商品类目。在该商品类目树中,只存在该叶子节点的父节点等上层节点,不存在该叶子节点的子节点等下层节点,即该商品信息只能挂靠在叶子节点对应的商品类目下。
另外,由于商品类目树中存在父节点与子节点之间的父子关系,当确定每个商品挂靠的商品类目时,通过与根节点连接的子节点依次确定对应的每个节点,最终挂靠到相应的叶子节点下的。因此在商品类目树中,挂靠了商品信息的叶子节点对应的父节点,一直到根节点都包含该商品的信息。
图1A为本申请实施例提供的一种商品类目树的结构示意图,在该图1A中根节点的子节点包括“绿植园艺”“3C数码”和“女装”等商品类目对应的节点,其中商品类目“绿植园艺”对应的节点的子节点包括“花卉盆栽”和“花种”商品类目的节点,另外,“花卉盆栽”商品类目对应的节点又包括子节点“球根花卉”以及“芳香花卉”对应的商品类目,并且“球根花卉”以及“芳香花卉”为叶子节点对应的商品类目,商品信息挂靠在叶子节点对应的商品类目下。当该商品信息挂靠在叶子类目下时,例如,挂靠在“球根花卉”商品类目对应的叶子节点下,此时,该叶子节点的父节点“花卉盆栽”包含该商品信息,并且“花卉盆栽”节点的父节点“绿植园艺”也包含该商品信息。这是因为,当某一商品信息挂靠在对应的商品类目对应的叶子节点下后,在数据库中除了保存该商品信息与其挂靠的商品类目信息,还保存有通过该商品类目树的节点到达该叶子节点的路径,因此,在数据库中保存的该商品信息与其挂靠的商品类目信息的关系可以以以下格式存在:商品ID-商品标题信息-商品归属的商品类目的祖节点ID-商品归属的商品类目的父节点ID-商品归属的商品类目ID。
图1B为本申请实施例提供的商品类目信息的确定过程,该过程包括以下步骤:
S101:接收获取的商品标题信息,对该商品标题信息进行分词,确定该商品标题信息对应的每个词组,其中,每个词组中包括至少一个分词。
其中,获取商品标题信息可以是,将接收到的用户输入的商品标题信息作为获取的商品标题信息,也可以是在将其他服务器的商品信息纳入自身数据库中时,将其他服务器中对该商品描述的商品标题信息,作为获取的商品标题信息。
在本申请实施例中当获取了商品标题信息后,需对该商品标题信息进行分词,获取每个分词后,可以将至少一个分词组成一个词组。
S102:针对每个词组及与根节点连接的每个子节点,根据保存的每个词组与每个节点对应的商品类目的关联度值,查找每个词组与每个子节点的关联度。
在服务器中保存有每个词组与每个节点对应的商品类目的关联度值,即保存了该每个词组与每个商品类目的关联度值,当确定了每个词组后,可以根据保存的上述关联度值,确定该商品标题信息中每个词组与每个商品类目的关联度。
具体的,当该词组中包含一个分词时,所述查找每个词组与每个子节点的关联度包括:针对每个词组,根据保存的每个词组与每个商品类目的关联度值,确定包含该词组的每个商品类目对应的子节点;针对确定的每个子节点,将保存的该词组与该子节点对应的商品类目的关联度值,作为查找到的该词组与该子节点的关联度。
S103:根据查找到的每个词组与每个子节点的关联度,确定包含该商品信息的节点。
确定包含该商品信息的节点,包括:针对每个词组,根据查找到的该词组与每个子节点的关联度,选择关联度较大的设定数量的子节点;针对选择的每个子节点对应的商品类目,根据该商品标题信息中每个词组与该商品类目的关联度,确定该商品标题信息与该商品类目的总关联度;将总关联度最大的商品类目,确定为包含该商品信息的节点对应的商品类目。
S104:将该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。
本申请实施例提供的商品类目信息的确定方法,通过确定每个词组与每个商品类目的关联度,并且在确定的过程中从根节点开始依次查找包含商品信息的节点,由于与根节点连接的子节点的数量,远远小于商品类目树中包含的叶子节点的数量,因此可以大大缩短确定商品挂靠的叶子节点的时间,并且由于本申请实施例中,由与根节点连接的子节点依次确定包含该商品信息的子节点,从而可以保证商品挂靠的商品类目确定的准确性。
在确定商品归属的商品类目之前,需要确定并保存每个词组与每个节点对应的商品类目的关联度值,该每个词组与商品类目的关联度值可以根据经验值设置,但是为了提高确定的商品类目信息的准确性,本申请实施例提供了一种商品信息与商品类目关联度的确定方法。
图2A为本申请实施例提供的商品信息与商品类目关联度的确定及商品类目信息确定过程,由于在本申请实施例中当用户上传商品信息时,通过登录服务器将商品信息录入,服务器为用户提供其保存的商品类目树,用户通过由根节点不断的选择子孙节点,为其商品信息选择一个叶子节点对应的商品类目,此时在服务器中将该商品信息挂靠在该商品类目下,其中,该服务器可以为WEB服务器。当服务器将该商品信息挂靠在该商品类目下后,将该信息发送到数据库,由于涉及数据信息量巨大,因此可采用云计算平台实现,即由数据库周期性的将该信息导入到云计算平台,例如该云计算平台可以为Hadoop。
由于商品信息与其挂靠的商品类目信息的都保存到了云计算平台,因此云计算平台可以对自身保存的信息进行分析,确定每个词组与每个商品类目的关联度值。具体的云计算平台在确定每个词组与每个商品类目的关联度值时,可以采用分布式分析系统确定。
云计算平台确定了每个词组与每个商品类目的关联度值后,将每个词组与每个商品类目的关联度的信息发送到服务器保存,以便服务器在确定商品类目信息时,可以根据该每个词组与每个商品类目的关联度值确定。
图2B为本申请实施例提供的商品信息与商品类目关联度的确定过程,该过程包括以下步骤:
S201:针对商品类目树中每个商品类目对应的节点,确定该节点的父节点。
具体的,在本申请实施例中,商品类目为每种商品所归属的种类,每个商品类目与商品类目树中的某个节点对应,最终挂靠商品信息的节点为叶子节点。并且商品类目树中由根节点开始,节点之间存在连接关系,对于根节点存在与其连接的子节点,对于叶子节点存在与其连接的父节点,对应中间节点即存在与其连接的父节点,也存在与其连接的子节点。
当确定商品信息与商品类目的关联度时,为了保证确定的商品类目的准确性,需要针对每个节点确定相应词组与该节点的关联度值。
S202:针对该节点包含的每个商品标题信息,进行以下步骤:对该商品标题信息分词,确定该商品标题信息对应的每个词组,其中所述词组包括至少一个分词,针对每个词组,根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的关联度值。
具体的,确定该词组与该节点对应的商品类目的关联度值包括:根据该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,及该节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的第一权重值;根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该父节点对应的商品类目中其他商品类目的第二权重值;确定第一权重值与第二权重值的差值,根据该差值与第一权重值的商,确定该词组与该节点对应的商品类目的关联度值。
S203:针对每个节点分别保存每个词组与该节点对应的商品类目的关联度值。
在本申请实施例中在确定词组与商品类目的关联度时,是针对该商品类目树中的每个节点对应的商品类目,分别确定该商品类目与相应词组的关联度。
在确定每个词组与每个商品类目的关联度值时,由于每个节点对应的商品类目包含的商品信息是可知的,因此可以针对每个节点,确定该节点的父节点,针对该节点包含的每个商品的商品标题信息,确定该商品标题信息中的每个词组与该节点对应的商品类目的关联度值。并且在本申请实施例中可以针对每两个存在父子关系的节点,确定该子节点包含的每个商品的商品标题信息中每个词组与该子节点对应的商品类目的关联度值。
仍以图1A为例,当确定每个词组与“花卉盆栽”节点的关联度时,根据该商品类目树可知该节点的父节点为“绿植园艺”节点,针对“花卉盆栽”节点包含的每个商品的商品标题信息,确定该商品标题信息中的每个词组与该“花卉盆栽”节点的关联度。当确定每个词组与“绿植园艺”节点关联度时,根据该商品类目树可知该节点的父节点为根节点,针对“绿植园艺”节点包含的每个商品的商品标题信息,确定该商品标题信息中的每个词组与该“绿植园艺”节点的关联度值。
具体的在进行关联度值的计算时,可以以叶子节点到根节点的方向,依次确定每个节点与每个词组的关联度值,也可以以根节点到叶子节点的方向,依次确定每个节点与每个词组的关联度值。
具体的在确定每个词组与每个商品类目的关联度值时,针对该商品类目对应的节点中包含的每个商品的商品标题信息,将该商品标题信息进行分词,将其中至少一个分词构成词组,确定该商品标题信息对应的每个词组,针对每个词组根据该词组与该节点的父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的关联度值。
具体的确定该词组与该节点对应的商品类目的关联度值包括:
根据该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,及该节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的第一权重值;
根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该父节点对应的商品类目中其他商品类目的第二权重值;
确定第一权重值与第二权重值的差值,根据该差值与第一权重值的商,确定该词组与该节点对应的商品类目的关联度值。
确定该词组与该节点对应的商品类目的第一权重值,包括:
根据该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,及该节点对应的商品类目包含商品数量的商值,确定第一权重值。
下面以一个具体的例子进行说明。当商品ID为“1000”的商品信息挂靠在“球根花卉”商品类目对应的叶子节点下时,根据商品类目树,可知“球根花卉”商品类目对应的叶子节点,其父节点对应的商品类目为“花卉盆栽”。
当商品ID为“1000”的商品信息的商品标题信息为“风信子水培紫色风信子种球可盆栽”,将该商品标题信息进行分词,针对分词“风信子”构成的词组,确定词组风信子与商品类目“球根花卉”的关联度值。
例如与“花卉盆栽”商品类目关联的商品数量为1623912,挂靠在“球根花卉“商品类目下的商品数量为104286,并且词组“风信子”在“球根花卉”商品类目下的商品标题信息中出现的次数为6588,在与“花卉盆栽”商品类目关联的商品的商品标题信息中出现次数为20683,则可知风信子相对于其所挂靠的“球根花卉”商品类目的第一权重值为6588/104286,风信子与该“花卉盆栽”商品类目中其他商品类目的第二权重值为(20683-6588)/(1623912-104286),因此可知风信子与“球根花卉“商品类目的关联度值为[6588/104286-(20683-6588)/(1623912-104286)]/(6588/104286),即为85.3%。
由于该商品标题信息“风信子水培紫色风信子种球可盆栽”包含在“花卉盆栽”节点中,当确定该商品标题信息中每个词组与“花卉盆栽”节点的关联度值时,根据该“花卉盆栽”节点的父节点“绿植园艺”包含的每个商品的信息确定,其过程与上述过程相同,这里就不一一赘述。
上述为确定词组与每个商品类目的关联度的过程,并且该过程是以该词组包括一个分词进行说明的,由于该分词中可以包括至少一个分词,当该词组中包含两个以上的分词时,将该两个以上的分词作为一个词组,根据上述确定方法,确定该词组与每个商品类目的关联度。该两个以上分词可以是该商品标题信息中的任意两个以上的分词,并且该两个以上分词的组成前后顺序不限于该商品标题信息中的该两个以上分词的前后顺序,例如当词组中包含两个分词时,该词组中的两个分词可以为“风信子”和“紫色”,也可以是“紫色”和“水培”,或者是“盆栽”和“水培”等,只要是任意两个分词构成的词组即可。这是因为对于商品标题信息中可能包括多个产品词对应的分词,根据上述方式确定每个分词与对应商品类目的关联度相差不大,为了进一步提高确定商品类目的准确性,需要结合包含至少两个分词的词组,与每个商品类目的关联度值,确定每个商品所挂靠的商品类目。
例如对于3C行业中的数码产品和数码产品配件,经常出现商品标题信息多个分词与多个商品类目的关联度相当,仅依据单个分词与每个商品类目的关联度,很难通过商品标题信息判断一个商品究竟属于哪个商品类目。例如,当商品标题信息为“品胜正品三星Galaxy S i9000手机电池”,根据该商品标题信息,可以确定该商品的信息与商品类目“手机”和“手机电池”的关联度不相上下。为了解决这个问题,可以确定包含至少两个分词的词组,对于每个商品类目的关联度,例如确定词组“手机电池”与商品类目“手机电池”的关联度,通过该方法,可以确定该商品的信息与商品类目“手机电池”的关联度较大。
这里为了简便,当该词组中包含一个分词时,可以将词组与每个商品类目的关联度值作为一阶表征向量,将至少两个分词组成的每个词组与每个商品类目的关联度值作为二阶表征向量。
当确定并保存了每个词组与每个商品类目的关联度值后,获取了商品标题信息后,可以根据该商品标题信息,确定该商品标题信息对应的商品所归属的商品类目。
由于将每个词组与每个商品类目的关联度保存在了服务器中,在确定每个商品归属的商品类目时,可以通过线上实时预测系统进行查找并确定每个商品所归属的商品类目,其中该线上实时预测系统可以位于服务器中,例如,为植入了Apache模块的WEB服务器。该Apache模块具体的可以通过控制模块和确定模块实现,如图3所示。
在确定商品归属的商品类目时,可以是用户在将商品信息上传到服务器时,向服务器发送商品类目确定请求,当服务器接收到该商品类目确定请求后,提示用户输入该商品的商品标题信息,根据该商品标题信息,以及保存的每个词组与每个商品类目的关联度值,确定每个商品归属的商品类目。也可以是在服务器在将其他服务器中保存的商品信息纳入自身的数据库中时,识别并获取到每个商品的商品标题信息后,根据保存的每个词组与每个商品类目的关联度值,确定每个商品归属的商品类目。其具体的实现过程,可以根据需要灵活设定。
在确定商品归属商品类目的过程中,当获取了商品标题信息后,为了提高确定的商品归属的商品类目的准确性,可以首先对该商品标题信息进行归一化处理,确定将该商品标题信息中的每个字符,对应的标准字符,例如当商品标题信息中存在英文的大写和小写时,服务器认为的标准字符为英文大写,则将该商品标题信息中的英文小写,调整为大写。之后将该商品标题信息进行分词,并根据保存的停用词信息表,过滤掉保存在该停用词信息表中的分词,针对过滤后得到的每个分词,确定该商品归属的商品类目。
另外,由于在本申请实施例中可以确定每个词组与每个商品类目的关联度,该词组包括至少一个分词,因此在服务器在保存每个词组与每个商品类目的关联度值时,可以针对一个分词,两个或多个分词分别保存每个词组与每个商品类目的关联度值,即在服务器中保存有关联度关系表,其中一个表中记录的为每个分词与每个商品类目的关联度值,另一个表中记录的为由至少两个分词构成的词组与每个商品类目的关联度值。
当确定每个商品归属的商品类目时,由于已经确定了每个商品标题信息中的每个分词,将至少一个分词组成一个词组,可以首先根据与根节点连接的该根节点的每个子节点,根据保存的该每个子节点与每个词组的关联度值,确定每个词组与该每个子节点的关联度,根据该商品标题信息中每个词组与该每个子节点的关联度,确定包含该商品标题信息的子节点,之后将该子节点作为父节点,确定该父节点的子节点,依据上述步骤,确定该商品标题信息中每个词组与该每个子节点的关联度,确定包含该商品标题信息的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。
并且在确定该商品标题信息对应的商品挂靠的叶子节点对应的商品类目时,可以首先针对每个分词,分别查找每个分词与每个商品类目的关联度。为了提高确定的商品类目的准确性,只有在某一分词与某一商品类目的关联度大于设定的关联度阈值时,才确定该分词与其他分词构成的词组,查找该词组与每个商品类目的关联度。
图4为本申请实施例提供的商品归属商品类目的详细确定过程,该过程包括以下步骤:
S401:服务器接收用户所在的客户端发送的商品类目确定请求;
S402:服务器根据接收到的商品类目确定请求,提示并获取用户输入的商品标题信息;
S403:对该商品标题信息进行归一化、分词及过滤处理,得到该商品标题信息对应的每个分词;
S404:提取该商品标题信息对应的分词中一个,将提取的该分词作为当前关联度确定的分词,针对该提取的分词,以及与根节点连接的每个子节点,根据保存的每个词组与该每个子节点对应的商品类目的关联度值,查找该词组与每个子节点的关联度;
S405:判断查找到的该分词与每个子节点对应的商品类目的关联度中,是否存在超过设定的关联度阈值的关联度,当存在时,进行步骤S407,否则,进行步骤S406;
S406:判断该分词是否为该商品标题信息中的最后一个分词,当判断结果为是时,进行步骤S408,否则,转步骤S404;
S407:将该分词与该分词之后的至少一个分词构成词组,针对该词组,以及与根节点连接的每个子节点,根据保存的每个词组与该每个子节点对应的商品类目的关联度值,查找该词组与每个子节点的关联度;
S408:针对查找的每个词组与每个子节点的关联度,选择关联度较大的设定数量的子节点;
S409:针对选择的每个子节点对应的商品类目,根据该商品标题信息中每个分词与该商品类目的关联度,确定该商品标题信息与该商品类目的第一总关联度度,根据每个词组与该商品类目的关联度,确定该商品标题信息与该商品类目的第二总关联度度;
S410:根据该商品标题信息与每个商品类目的第一总关联度和第二总关联度,确定该商品标题信息与每个商品类目的总关联度,将总关联度最大的商品类目,确定为包含该商品信息的节点对应的商品类目;
S411:将包含该商品信息的节点作为父节点,确定该父节点的子节点,返回步骤S404,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。
具体的例如,当该商品的商品标题信息包括分词A、B、C时,该设定数量的商品类目为3,下表为该商品标题信息中包含的每个分词与每个商品类目的关联度值:
根节点包含的子节点对应的商品类目分别为R1、R2、R3,并且确定分词A与商品类目R1、R2、R3的关联度值分别为50%、83%和62%,分词B与商品类目R1、R3、R5的关联度值分别为40%、20%和37%,分词C与商品类目R1、R2、R4的关联度值分别为42%、57%和32%,该设定的关联度阈值为70%,确定分词A与分词B构成的词组与商品类目R1、R2、R5的关联度值分别为20%、40%和30%,分词A与分词C构成的词组与商品类目R1、R2、R3的关联度值分别为10%、30%和40%。则可以确定该商品标题信息与商品类目R1的第一总关联度值为132%,该商品标题信息与商品类目R2的第一总关联度值为140%,该商品标题信息与商品类目R3的第一总关联度值为82%,该商品标题信息与商品类目R4的第一总关联度值为32%,该商品标题信息与商品类目R5的第一总关联度值为37%。
另外,也可以确定该商品标题信息与商品类目R1的第二总关联度值为30%,该商品标题信息与商品类目R2的第二总关联度值为70%,商品标题信息与商品类目R3的第二总关联度值为40%,商品标题信息与商品类目R5的第二总关联度值为30%。
因此该商品标题信息与商品类目R1的总关联度值为162%,该商品标题信息与商品类目R2的总关联度值为210%,该商品标题信息与商品类目R3的总关联度值为122%,该商品标题信息与商品类目R4的总关联度值为32%,该商品标题信息与商品类目R5的总关联度值为67%,因此可知包含该商品信息的节点为商品类目R2对应的节点。之后以该节点为父节点,确定该父节点的子节点,在该子节点中采用上述方法,确定包含该商品信息的节点,之后再以该节点为父节点,确定该父节点的子节点依次采用上述方法,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。
图5为本申请实施例提供的一种商品信息与商品类目关联度的确定装置结构示意图,该装置包括:
节点确定模块51,用于针对商品类目树中每个商品类目对应的节点,确定该节点的父节点;
控制模块52,针对该节点包含的每个商品标题信息,进行以下步骤:对该商品标题信息分词,确定该商品标题信息对应的每个词组,其中所述词组包括至少一个分词,针对每个词组,根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的关联度值;
关联度确定模块53,用于针对每个节点分别保存每个词组与该节点对应的商品类目的关联度值。
所述控制模块52,具体用于根据该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,及该节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的第一权重值;根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该父节点对应的商品类目中其他商品类目的第二权重值;确定第一权重值与第二权重值的差值,根据该差值与第一权重值的商,确定该词组与该节点对应的商品类目的关联度值。
所述控制模块52,具体用于根据该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,及该节点对应的商品类目包含商品数量的商值,确定第一权重值。
所述控制模块52,具体用于确定该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,及该词组在该节点对应的商品类目包含的商品标题信息中出现的次数的第一差值;确定该父节点对应的商品类目包含的商品数量,及该节点对应的商品类目包含的商品数量的第二差值;根据第一差值与第二差值的商值,确定该第二权重值。
图6为本申请实施例提供的一种基于上述图6的关联度的确定装置确定商品类目信息的装置结构示意图,该装置包括:
分词模块61,用于接收获取的商品标题信息,对该商品标题信息进行分词,确定该商品标题信息对应的每个词组,其中该词组中包括至少一个分词;
查找模块62,用于针对每个词组及与根节点连接的每个子节点,根据保存的每个词组与每个节点对应的商品类目的关联度值,查找每个词组与每个子节点的关联度;
商品类目确定模块63,用于根据查找到的每个词组与每个子节点的关联度,确定包含该商品信息的节点;将该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。
所述查找模块62,具体用于当该词组中包含一个分词时,针对每个词组,根据保存的每个词组与每个商品类目的关联度值,确定包含该词组的每个商品类目对应的子节点;针对确定的每个子节点,将保存的该词组与该子节点对应的商品类目的关联度,作为查找到的该词组与该子节点的关联度。
所述查找模块62,还用于判断查找到的该词组与该子节点的关联度是否大于设定的关联度阈值;当判断结果为是时,将所述分词与该商品标题信息中的其他分词组成词组,查找该词组与每个商品类目的关联度。
所述商品类目确定模块63,具体用于针对每个词组,根据查找到的该词组与每个子节点的关联度,选择关联度较大的设定数量的子节点;针对选择的每个子节点对应的商品类目,根据该商品标题信息中每个词组与该商品类目的关联度,确定该商品标题信息与该商品类目的总关联度;将总关联度最大的商品类目,确定为包含该商品信息的节点对应的商品类目。
本申请实施例提供了一种商品类目信息的确定方法及装置,方法中当获取到商品标题信息后,对该商品标题信息分词构成相应的词组,针对每个词组及与根节点连接的每个子节点,根据保存的每个词组与每个节点对应的商品类目的关联度值,查找每个词组与每个子节点的关联度,并确定包含该商品信息的节点;将该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。由于在本申请实施例中通过确定每个词组与每个商品类目的关联度,并且在确定的过程中从根节点开始依次查找包含商品信息的节点,由于与根节点连接的子节点的数量,远远小于商品类目树中包含的叶子节点的数量,因此可以大大缩短确定商品挂靠的叶子节点的时间,并且由于本申请实施例中,由与根节点连接的子节点依次确定包含该商品信息的子节点,从而可以保证商品挂靠的商品类目确定的准确性。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种商品信息与商品类目关联度的确定方法,其特征在于,包括:
针对商品类目树中每个商品类目对应的节点,确定该节点的父节点;
针对该节点包含的每个商品标题信息,进行以下步骤:
对该商品标题信息分词,确定该商品标题信息对应的每个词组,其中所述词组包括至少一个分词;
针对每个词组,根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的关联度值;
针对该节点分别保存每个词组与该节点对应的商品类目的关联度值。
2.如权利要求1所述的方法,其特征在于,所述确定该词组与该节点对应的商品类目的关联度值包括:
根据该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,及该节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的第一权重值;
根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该父节点对应的商品类目中其他商品类目的第二权重值;
确定第一权重值与第二权重值的差值,根据该差值与第一权重值的商,确定该词组与该节点对应的商品类目的关联度值。
3.如权利要求2所述的方法,其特征在于,所述确定该词组与该节点对应的商品类目的第一权重值,包括:
根据该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,及该节点对应的商品类目包含商品数量的商值,确定第一权重值。
4.如权利要求2所述的方法,其特征在于,所述确定该词组与该父节点对应的商品类目中其他商品类目的第二权重值,包括:
确定该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,及该词组在该节点对应的商品类目包含的商品标题信息中出现的次数的第一差值;
确定该父节点对应的商品类目包含的商品数量,及该节点对应的商品类目包含的商品数量的第二差值;
根据第一差值与第二差值的商值,确定该第二权重值。
5.一种基于权利要求1的关联度的确定方法确定商品类目信息的方法,其特征在于,该方法包括:
接收商品标题信息;
对该商品标题信息进行分词,确定该商品标题信息对应的每个词组,其中每个词组中包括至少一个分词;
根据针对每个节点保存的每个词组与该节点对应的商品类目的关联度值,查找确定的每个词组与每个子节点的关联度;
根据查找到的每个词组与每个子节点的关联度,确定包含该商品信息的节点;
将确定的该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品信息挂靠到叶子节点对应的商品类目。
6.如权利要求5所述的方法,其特征在于,当该词组中包含一个分词时,所述查找每个词组与每个子节点的关联度包括:
针对每个词组,根据保存的每个词组与每个商品类目的关联度值,确定包含该词组的每个商品类目对应的子节点;
针对确定的每个子节点,将保存的该词组与该子节点对应的商品类目的关联度值,作为查找到的该词组与该子节点的关联度。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
判断查找到的该词组与该子节点的关联度是否大于设定的关联度阈值;
当判断结果为是时,将所述分词与该商品标题信息中的其他分词组成词组,查找该词组与每个商品类目的关联度。
8.如权利要求5所述的方法,其特征在于,根据查找到的每个词组与每个子节点的关联度,确定包含该商品信息的节点,包括:
针对每个词组,根据查找到的该词组与每个子节点的关联度,选择关联度较大的设定数量的子节点;
针对选择的每个子节点对应的商品类目,根据该商品标题信息中每个词组与该商品类目的关联度,确定该商品标题信息与该商品类目的总关联度;
将总关联度最大的商品类目,确定为包含该商品信息的节点对应的商品类目。
9.一种商品信息与商品类目关联度的确定装置,其特征在于,包括:
节点确定模块,用于针对商品类目树中每个商品类目对应的节点,确定该节点的父节点;
控制模块,针对该节点包含的每个商品标题信息,进行以下步骤:对该商品标题信息分词,确定该商品标题信息对应的每个词组,其中所述词组包括至少一个分词,针对每个词组,根据该词组在该父节点对应的商品类目包含的商品标题信息中出现次数,该词组在该节点对应的商品类目包含的商品标题信息中出现的次数,该节点对应的商品类目包含的商品数量及与该父节点对应的商品类目包含的商品数量,确定该词组与该节点对应的商品类目的关联度值;
关联度确定模块,用于针对每个节点分别保存每个词组与该节点对应的商品类目的关联度值。
10.一种基于权利要求9的关联度的确定装置确定商品类目信息的装置,其特征在于,该装置包括:
分词模块,用于接收获取的商品标题信息,对该商品标题信息进行分词,确定该商品标题信息对应的每个词组,其中该词组中包括至少一个分词;
查找模块,用于针对每个词组及与根节点连接的每个子节点,根据保存的每个词组与每个节点对应的商品类目的关联度值,查找每个词组与每个子节点的关联度;
商品类目确定模块,用于根据查找到的每个词组与每个子节点的关联度,确定包含该商品信息的节点;将该子节点作为父节点,确定该父节点的子节点,直到将所述商品标题信息对应的商品挂靠到叶子节点对应的商品类目。
CN201110093430.9A 2011-04-14 2011-04-14 一种商品类目信息的确定方法及装置 Expired - Fee Related CN102737057B (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN201110093430.9A CN102737057B (zh) 2011-04-14 2011-04-14 一种商品类目信息的确定方法及装置
TW100131503A TW201241773A (en) 2011-04-14 2011-09-01 Method and apparatus of determining product category information
US13/518,267 US9047369B2 (en) 2011-04-14 2012-04-02 Method and apparatus of determining product category information
JP2014505177A JP5956558B2 (ja) 2011-04-14 2012-04-02 製品カテゴリ情報を判断する方法および装置
PCT/US2012/031875 WO2012141934A1 (en) 2011-04-14 2012-04-02 Method and apparatus of determining product category information
EP20120770669 EP2697709A4 (en) 2011-04-14 2012-04-02 METHOD AND APPARATUS FOR DETERMINING PRODUCT CATEGORY INFORMATION
HK12111693.3A HK1171096A1 (zh) 2011-04-14 2012-11-16 種商品類目信息的確定方法及裝置
US14/478,867 US9418147B2 (en) 2011-04-14 2014-09-05 Method and apparatus of determining product category information
JP2016119869A JP2016181277A (ja) 2011-04-14 2016-06-16 製品カテゴリ情報を判断する方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110093430.9A CN102737057B (zh) 2011-04-14 2011-04-14 一种商品类目信息的确定方法及装置

Publications (2)

Publication Number Publication Date
CN102737057A true CN102737057A (zh) 2012-10-17
CN102737057B CN102737057B (zh) 2015-04-01

Family

ID=46992577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110093430.9A Expired - Fee Related CN102737057B (zh) 2011-04-14 2011-04-14 一种商品类目信息的确定方法及装置

Country Status (7)

Country Link
US (2) US9047369B2 (zh)
EP (1) EP2697709A4 (zh)
JP (2) JP5956558B2 (zh)
CN (1) CN102737057B (zh)
HK (1) HK1171096A1 (zh)
TW (1) TW201241773A (zh)
WO (1) WO2012141934A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902545A (zh) * 2012-12-25 2014-07-02 北京京东尚科信息技术有限公司 一种类目路径识别方法及系统
CN104408635A (zh) * 2014-12-01 2015-03-11 银联智惠信息服务(上海)有限公司 商户类别信息识别方法和装置
CN105446974A (zh) * 2014-06-20 2016-03-30 联想(北京)有限公司 信息处理方法及装置
WO2016062197A1 (zh) * 2014-10-20 2016-04-28 阿里巴巴集团控股有限公司 一种类目目录确定方法及装置、自动分类方法及装置
CN105718457A (zh) * 2014-12-01 2016-06-29 航天信息股份有限公司 基于电子票据的信息推送方法及系统
CN105931082A (zh) * 2016-05-17 2016-09-07 北京奇虎科技有限公司 一种商品类目关键词提取方法和装置
CN106919625A (zh) * 2015-12-28 2017-07-04 中国移动通信集团公司 一种互联网用户属性识别方法和装置
CN110309144A (zh) * 2018-03-22 2019-10-08 北京新媒传信科技有限公司 一种运用redis构建树形数据结构的方法及装置
CN111190933A (zh) * 2019-12-27 2020-05-22 江苏艾佳家居用品有限公司 基于区间数的电商类目深度查询方法
CN112053210A (zh) * 2020-09-11 2020-12-08 深圳市梦网视讯有限公司 一种基于商品社区分类的关联值传播方法、系统及设备
CN112801720A (zh) * 2021-04-12 2021-05-14 连连(杭州)信息技术有限公司 一种店铺类目识别模型生成、店铺类目识别的方法及装置
CN113420196A (zh) * 2021-06-07 2021-09-21 青岛海信智慧生活科技股份有限公司 一种商品类别确定方法、装置、设备及介质
CN113779243A (zh) * 2021-08-16 2021-12-10 深圳市世强元件网络有限公司 一种商品自动分类方法、装置及计算机设备
CN114387524A (zh) * 2022-03-24 2022-04-22 军事科学院系统工程研究院网络信息研究所 基于多层级二阶表征的小样本学习的图像识别方法和系统

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737057B (zh) 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
US9460455B2 (en) * 2013-01-04 2016-10-04 24/7 Customer, Inc. Determining product categories by mining interaction data in chat transcripts
US9064230B2 (en) 2013-01-31 2015-06-23 Wal-Mart Stores, Inc. Ranking keywords for product types with manual curation
EP3012748A4 (en) * 2013-07-30 2017-05-10 Nippon Telegraph and Telephone Corporation Information management device, and information management method
US10459608B2 (en) * 2014-12-01 2019-10-29 Ebay Inc. Mobile optimized shopping comparison
US10831771B2 (en) * 2015-07-06 2020-11-10 Sap Se Interactive exploration of large graphs
US11580589B2 (en) * 2016-10-11 2023-02-14 Ebay Inc. System, method, and medium to select a product title
US11568425B2 (en) * 2020-02-24 2023-01-31 Coupang Corp. Computerized systems and methods for detecting product title inaccuracies
US11941076B1 (en) * 2022-09-26 2024-03-26 Dell Products L.P. Intelligent product sequencing for category trees

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
US20040143600A1 (en) * 1993-06-18 2004-07-22 Musgrove Timothy Allen Content aggregation method and apparatus for on-line purchasing system
CN101727636A (zh) * 2008-10-23 2010-06-09 深圳富泰宏精密工业有限公司 商品信息管理系统及方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3441500B2 (ja) * 1993-05-17 2003-09-02 株式会社リコー 文書分類装置
JPH09223150A (ja) * 1996-02-16 1997-08-26 Nippon Telegr & Teleph Corp <Ntt> 情報分類処理方法
JP3792411B2 (ja) * 1998-10-12 2006-07-05 株式会社リコー 文書分類装置
US6349307B1 (en) * 1998-12-28 2002-02-19 U.S. Philips Corporation Cooperative topical servers with automatic prefiltering and routing
US6324534B1 (en) 1999-09-10 2001-11-27 Requisite Technology, Inc. Sequential subset catalog search engine
GB2355554A (en) 1999-10-21 2001-04-25 Int Computers Ltd Searching for items in an electronic catalogue
WO2001050338A1 (en) 1999-12-30 2001-07-12 Mondosoft A/S Categorisation of data entities
JP4188567B2 (ja) * 2001-02-01 2008-11-26 株式会社リコー 文書管理システム、文書管理方法および記録媒体
US6947936B1 (en) * 2001-04-30 2005-09-20 Hewlett-Packard Development Company, L.P. Method for a topic hierarchy classification system
US7809672B1 (en) 2001-06-28 2010-10-05 I2 Technologies Us, Inc. Association of data with a product classification schema
US6990485B2 (en) 2002-08-02 2006-01-24 Hewlett-Packard Development Company, L.P. System and method for inducing a top-down hierarchical categorizer
JP4423385B2 (ja) * 2002-10-24 2010-03-03 独立行政法人情報通信研究機構 文書分類支援装置およびコンピュータプログラム
JP2006527886A (ja) * 2003-06-18 2006-12-07 シーエヌイーティ ネットワークス インコーポレイテッド オンライン購入システム用のコンテント集合方法及び装置
US7870039B1 (en) 2004-02-27 2011-01-11 Yahoo! Inc. Automatic product categorization
JP3889010B2 (ja) * 2004-03-19 2007-03-07 沖電気工業株式会社 語句分類システム、語句分類方法、および語句分類プログラム
US20060212287A1 (en) * 2005-03-07 2006-09-21 Sight'up Method for data processing with a view to extracting the main attributes of a product
US7870031B2 (en) 2005-12-22 2011-01-11 Ebay Inc. Suggested item category systems and methods
US7627565B2 (en) * 2006-01-31 2009-12-01 Northwestern University Organizing context-sensitive search results
US8055548B2 (en) * 2006-06-23 2011-11-08 Stb Enterprises, Llc System for collaborative internet competitive sales analysis
US7603367B1 (en) * 2006-09-29 2009-10-13 Amazon Technologies, Inc. Method and system for displaying attributes of items organized in a searchable hierarchical structure
JP2008204444A (ja) * 2007-01-23 2008-09-04 Just Syst Corp データ処理装置、データ処理方法及び検索装置
CA2623796A1 (en) 2008-03-03 2009-09-03 David A. Wassmann Product information system for aggregating and classifying information from multiple sources with update ability
EP2332039A4 (en) 2008-08-11 2012-12-05 Collective Inc METHOD AND SYSTEM FOR CLASSIFYING TEXT
US8145662B2 (en) * 2008-12-31 2012-03-27 Ebay Inc. Methods and apparatus for generating a data dictionary
JP2010237923A (ja) * 2009-03-31 2010-10-21 Dainippon Printing Co Ltd 広告物作成支援装置、広告物作成支援方法、及びプログラム
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
US20120005044A1 (en) 2010-06-30 2012-01-05 Cbs Interactive, Inc. System And Method To Provide A Table Of Products Based On Ranked User Specified Product Attributes
US8463805B2 (en) 2010-09-15 2013-06-11 Cbs Interactive, Inc. Mapping product identification information to a product
CN102609422A (zh) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置
CN102737057B (zh) 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
US8700494B2 (en) * 2011-09-06 2014-04-15 Google Inc. Identifying product variants

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143600A1 (en) * 1993-06-18 2004-07-22 Musgrove Timothy Allen Content aggregation method and apparatus for on-line purchasing system
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
CN101727636A (zh) * 2008-10-23 2010-06-09 深圳富泰宏精密工业有限公司 商品信息管理系统及方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902545B (zh) * 2012-12-25 2018-10-16 北京京东尚科信息技术有限公司 一种类目路径识别方法及系统
CN103902545A (zh) * 2012-12-25 2014-07-02 北京京东尚科信息技术有限公司 一种类目路径识别方法及系统
CN105446974A (zh) * 2014-06-20 2016-03-30 联想(北京)有限公司 信息处理方法及装置
WO2016062197A1 (zh) * 2014-10-20 2016-04-28 阿里巴巴集团控股有限公司 一种类目目录确定方法及装置、自动分类方法及装置
US10803091B2 (en) 2014-10-20 2020-10-13 Alibaba Group Holding Limited Method and device for determining a category directory, and an automatic classification method and device
KR102066330B1 (ko) 2014-10-20 2020-01-14 알리바바 그룹 홀딩 리미티드 카테고리 디렉토리를 결정하기 위한 방법 및 디바이스와, 자동 분류 방법 및 디바이스
KR20170071495A (ko) * 2014-10-20 2017-06-23 알리바바 그룹 홀딩 리미티드 카테고리 디렉토리를 결정하기 위한 방법 및 디바이스와, 자동 분류 방법 및 디바이스
CN105718457B (zh) * 2014-12-01 2021-03-26 航天信息股份有限公司 基于电子票据的信息推送方法及系统
CN105718457A (zh) * 2014-12-01 2016-06-29 航天信息股份有限公司 基于电子票据的信息推送方法及系统
CN104408635A (zh) * 2014-12-01 2015-03-11 银联智惠信息服务(上海)有限公司 商户类别信息识别方法和装置
CN106919625A (zh) * 2015-12-28 2017-07-04 中国移动通信集团公司 一种互联网用户属性识别方法和装置
CN105931082A (zh) * 2016-05-17 2016-09-07 北京奇虎科技有限公司 一种商品类目关键词提取方法和装置
CN105931082B (zh) * 2016-05-17 2020-02-11 北京奇虎科技有限公司 一种商品类目关键词提取方法和装置
CN110309144A (zh) * 2018-03-22 2019-10-08 北京新媒传信科技有限公司 一种运用redis构建树形数据结构的方法及装置
CN111190933B (zh) * 2019-12-27 2022-08-12 江苏艾佳家居用品有限公司 基于区间数的电商类目深度查询方法
CN111190933A (zh) * 2019-12-27 2020-05-22 江苏艾佳家居用品有限公司 基于区间数的电商类目深度查询方法
CN112053210A (zh) * 2020-09-11 2020-12-08 深圳市梦网视讯有限公司 一种基于商品社区分类的关联值传播方法、系统及设备
CN112053210B (zh) * 2020-09-11 2023-12-05 深圳市梦网视讯有限公司 一种基于商品社区分类的关联值传播方法、系统及设备
CN112801720A (zh) * 2021-04-12 2021-05-14 连连(杭州)信息技术有限公司 一种店铺类目识别模型生成、店铺类目识别的方法及装置
CN113420196A (zh) * 2021-06-07 2021-09-21 青岛海信智慧生活科技股份有限公司 一种商品类别确定方法、装置、设备及介质
CN113779243A (zh) * 2021-08-16 2021-12-10 深圳市世强元件网络有限公司 一种商品自动分类方法、装置及计算机设备
CN114387524A (zh) * 2022-03-24 2022-04-22 军事科学院系统工程研究院网络信息研究所 基于多层级二阶表征的小样本学习的图像识别方法和系统

Also Published As

Publication number Publication date
EP2697709A4 (en) 2014-11-05
TW201241773A (en) 2012-10-16
JP2016181277A (ja) 2016-10-13
EP2697709A1 (en) 2014-02-19
US20140379724A1 (en) 2014-12-25
US9047369B2 (en) 2015-06-02
HK1171096A1 (zh) 2013-03-15
JP2014512614A (ja) 2014-05-22
JP5956558B2 (ja) 2016-07-27
CN102737057B (zh) 2015-04-01
US20120330961A1 (en) 2012-12-27
WO2012141934A1 (en) 2012-10-18
US9418147B2 (en) 2016-08-16

Similar Documents

Publication Publication Date Title
CN102737057B (zh) 一种商品类目信息的确定方法及装置
CN104717124B (zh) 一种好友推荐方法、装置及服务器
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN103885937B (zh) 基于核心词相似度判断企业中文名称重复的方法
CN103810198A (zh) 一种商品信息的搜索方法及装置
CN103793489B (zh) 一种在线社交网络中社群话题的发现方法
WO2014071782A1 (zh) 用户兴趣推荐方法和装置
CN106547864B (zh) 一种基于查询扩展的个性化信息检索方法
CN109977309B (zh) 基于多关键字和用户偏好的组合兴趣点查询方法
CN105471670B (zh) 流量数据分类方法及装置
CN105677695B (zh) 一种基于内容的计算移动应用相似性的方法
CN105282123A (zh) 一种网络协议识别方法和装置
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN107277115A (zh) 一种内容推送方法及装置
CN103914570A (zh) 基于字符串相似度算法的智能客服搜索方法与系统
CN108304404B (zh) 一种基于改进的Sketch结构的数据频率估计方法
CN103997492B (zh) 一种适配系统及方法
CN106649385B (zh) 基于HBase数据库的数据排序方法和装置
EP3625703A1 (en) System and method for enabling related searches for live events in data streams
CN107025567A (zh) 一种数据处理方法和装置
CN105701511B (zh) 一种提取网络节点社区属性的自适应谱聚类方法
CN105718457A (zh) 基于电子票据的信息推送方法及系统
CN104123393A (zh) 一种短信文本的分类方法和系统
CN110472019A (zh) 舆情搜索方法及装置
CN103885950A (zh) 一种获取缩略词与poi间对应关系的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1171096

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1171096

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150401