CN102402535A - 一种建设产品库的方法及系统 - Google Patents

一种建设产品库的方法及系统 Download PDF

Info

Publication number
CN102402535A
CN102402535A CN2010102812710A CN201010281271A CN102402535A CN 102402535 A CN102402535 A CN 102402535A CN 2010102812710 A CN2010102812710 A CN 2010102812710A CN 201010281271 A CN201010281271 A CN 201010281271A CN 102402535 A CN102402535 A CN 102402535A
Authority
CN
China
Prior art keywords
product
descriptor
determinant attribute
library
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102812710A
Other languages
English (en)
Inventor
陈一宁
杨扬
陈冉
彭仁刚
邓钟强
富卫军
周洪喜
刘秋水
孙海波
贾宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2010102812710A priority Critical patent/CN102402535A/zh
Publication of CN102402535A publication Critical patent/CN102402535A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种建设产品库的方法,所述方法包括:获取商品的描述信息;从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点;确定产品库中是否包含所述关键属性对应的产品节点;如果没有,则将所述产品节点添加到所述产品库中。本申请还公开了一种建设产品库的系统,包括:获取单元,聚合单元,排重单元,入库单元。应用上述技术方案,可以实现产品库的自动建设,有效提高产品库的正确性及数据量。

Description

一种建设产品库的方法及系统
技术领域
本申请涉及互联网技术领域,特别是涉及一种建设产品库的方法及系统。
背景技术
目前,随着互联网技术的发展,许多企业和商家会在Internet网上进行商务活动,比如,展示、销售自己的商品等。由于不同的商家会有各种各样不同的商品,而对于购买者来说,如何快速有效地在这纷繁多样的商品中选到自己所需的商品却是一件非常困难的事情,因为需要进行大量的针对不同商家不同商品的搜索。
为此,在现有技术中,提供了多种搜索引擎,通过这些搜索引擎,一方面可以使用户快速查找到自己所需的商品;另一方面也可以使商家全面、有效地向用户展示自己的商品。
对于一个商品,可以从不同的维度去标注,比如商家、产品等。由于一个产品对于搜索、广告、展示等多方面都有很大的作用,因此在搜索引擎的开发中,通常会建立相应的产品库,即产品的集合。
传统的商业搜索中产品库的建设,主要是靠人工方式。这种方式依赖于个人对商业及相关产品的了解,不仅工作量大,无法推广到海量数据,而且出现错误的可能性也很大。
发明内容
为解决上述技术问题,本申请实施例提供一种建设产品库的方法及系统,实现产品库的自动建设,有效提高产品库的正确性及数据量。
本申请实施例提供如下技术方案:
一种建设产品库的方法,包括:
获取商品的描述信息;
从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点;
确定产品库中是否包含所述关键属性对应的产品节点;
如果没有,则将所述产品节点添加到所述产品库中。
优选地,所述获取商品的描述信息包括:
从网站上获取商品的信息源;
从所述信息源中获取商品的描述信息。
可选地,所述信息源包括以下任意一种或多种:格式化描述信息、非格化描述信息、半格式化描述信息、图片描述信息。
可选地,所述从所述信息源中获取商品的描述信息包括:
通过正则表达式从所述信息源中获取商品的描述信息;和/或
通过机器学习方式从所述信息源中获取商品的描述信息。
优选地,所述确定产品库中是否包含所述关键属性对应的产品节点包括:
对所述关键属性进行名称规范处理;
对名称规范处理后的关键属性进行名称归一化处理,生成对应所述产品的主键;
如果所述主键未包含在所述产品库中,则确定所述产品库中未包含所述产品节点。
可选地,所述对名称规范处理后的关键属性进行名称归一化处理包括以下任意一种或多种处理:
同义词归一化处理、格式归一化处理、同义表达归一化处理。
一种建设产品库的系统,包括:
获取单元,用于获取商品的描述信息;
聚合单元,用于从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点;
排重单元,用于确定产品库中是否包含所述关键属性对应的产品节点;
入库单元,用于在所述排重单元确定产品库中未包含所述关键属性对应的产品节点后,将所述产品节点添加到所述产品库中。
优选地,所述获取单元包括:
信息源获取子单元,用于从网站上获取商品的信息源;
属性信息获取子单元,用于从所述信息源中获取商品的描述信息。
可选地,所述聚合单元包括:第一提取子单元,和/或第二提取子单元;
所述第一提取子单元,用于通过正则表达式从所述描述信息中提取出用于描述产品的关键属性;
所述第二提取子单元,用于通过机器学习方式从所述描述信息中提取出用于描述产品的关键属性。
优选地,所述排重单元包括:
规范处理子单元,用于对所述关键属性进行名称规范处理;
归一化处理子单元,用于对名称规范处理后的关键属性进行名称归一化处理,生成对应所述产品的主键;
检查子单元,用于检查所述主键是否包含在所述产品库中,如果否,则确定所述产品库中未包含所述产品节点。
本申请实施例提供的技术方案,通过从商品描述信息中自动提取产品的关键属性,实现产品库的自动建设,有效地提高了产品库的正确性及数据量。该方法可以应用于具有海量数据的环境,并且能够保证产品库建设的高效及准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例建设产品库的方法的一种流程图;
图2是本申请实施例建设产品库的方法的另一种流程图;
图3是本申请实施例建设产品库的系统的一种结构示意图;
图4是本申请实施例建设产品库的系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
在本申请的一个实施例中,提供一种建设产品库的方法,参见图1所示,该方法包括以下基本步骤:
步骤101,获取商品的描述信息。
任何一个商品可以由多种信息来描述,比如,所述描述信息可以包括以下任意一项或多项:商家、品牌、型号、大小、重量等。
上述这些描述信息可以根据先验知识来定义,也可以通过其他方式来获得,比如可以从一些相关网站来获得。
如果通过网站来获得,可以首先从网站上获取商品的信息源,比如,一些电子商务网站、相关企业网站提供的一些商品介绍网页、以及其他一些非电子商务网站比如论坛、博客等,从这些信息源中即可提取出商品的描述信息。
当然,对于不同的商家,其提供的商品的描述信息可能不统一,主要有以下几种方式:
格式化描述信息,比如很多电子商务网站的数据库中都存储了该商品的属性信息,包括但不限于品牌、型号、颜色、尺寸等;
非格化描述信息,比如有商品的标题、详情页、评价、资讯等信息;
半格式化描述信息,比如,某些网页中由用户较为随意地写出了一些类似格式化的信息,但仍需要进行规范调整。例如用户自己定义的表格,表达式等。
图片描述信息,比如,该商品的各种描述图片。
当然,还可以有其他格式的描述信息,对此本申请实施例中并不做限定。
步骤102,从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点。
对于任意一个商品,可以从商家和产品这两种维度来描述。而每一个产品也都可以由一组属性信息进行描述,例如,手机的品牌、型号、大小、重量等。其中包含了一些关键属性,一组关键属性可以唯一定义一个产品节点。
因此,从步骤101中获取的商品的描述信息中可以提取出用于描述产品的关键属性,例如一组关键属性可以包括:品牌和型号。当然,在步骤101中可能获取了多个商品的描述信息,而且每个商品对应的产品种类可能不同,因此,在步骤102中可以得到对应一种或多种产品的关键属性,而每种产品对应的关键属性中可以包含一个或多个所述描述信息。
对于不同的种类的产品,其对应的关键属性可以不同,对于相同种类的产品,则对应相同的关键属性。
在从所述描述信息中提取用于描述产品的关键属性时,首先需要确定关键属性。一般,关键属性根据类目不同可以是不同的,例如在手机类目中,品牌和型号可以成为关键属性,在书籍类目中可以将ISBN(InternationalStandard Book Number,国际标准书号)作为关键属性。在本申请实施例中,可以根据一些人工得到的先验知识,例如确定属于一个产品类别的商品等,进行自动分析,确定关键属性。
关键属性确定后,根据抽取出的不同格式的描述信息,可以采用不同的方法提取关键属性。例如从“商家热卖Nokia手机,大品牌,高销量,N97一代机皇”中抽取关键属性:品牌:Nokia;型号:N97。
具体地,可以通过正则表达式从所述描述信息中提取出所述关键属性,例如Nokia N系列手机的型号,可以使用“N+[0-9]+”的正则表达式来抽取商品的关键属性。
另外,还可以通过机器学习方式从所述描述信息中提取出所述关键属性,比如,可以采用CRF(Conditional Random Field,条件随机场)算法、HMM(Hidden Markov Model,隐马尔可夫模型)算法等来抽取所述关键属性。
通过机器学习方式进行关键属性的抽取过程主要包括以下步骤:
1.训练数据获取:可以由人工标注产生训练数据;
2.特征选取:所述特征可以包括词汇的属性、上下文的词汇、标点等;
3.模型训练:采用训练数据,通过相应的机器学习算法进行模型的训练;
4.属性抽取:采用训练好的模型,可以用相应的机器学习算法,对于信息进行标注,例如标出Nokia为品牌,N97为型号等。
当然,在实际应用中,还可以采用其他方式从所述商品的描述信息中提取产品的关键属性,也可以同时综合采用多种方式提取产品的关键属性,在此不再一一举例说明。
步骤103,确定产品库中是否包含所述关键属性对应的产品节点。
所述产品库可以是已建立的一个产品库,也可以是一个需要新建的产品库。
产品库的格式可以是一个数据库,包括很多的列,每一个列为产品的一个属性。还有一些列可以包括产品的图片,描述信息的字段。
例如,产品库中的信息如下表1所示:
  品牌   型号   重量   大小   图片   描述信息
  Nokia   N97   100g   10cm*8cm   XX.jpg   一代机皇
  三星   U608   80g   8cm*10cm   YY.jpg   超轻超薄
表1
前面提到,一组关键属性可以唯一定义一个产品节点,因此,为了方便应用并提高产品库的查询速度,可以直接使用所述关键属性作为所述产品库的主键。这样,在确定产品库中是否包含所述关键属性对应的产品节点时,可以将步骤102中提取出的关键属性与所述产品库中已有的信息进行比较,如果不重复,则表明所述产品库中未包含所述关键属性对应的产品节点;否则表明所述产品库中已有该产品节点。
当然,本申请该实施例并不限定所述产品库的形式及其使用的主键,比如,还可以通过数字的方式建立每种产品的索引,并将该索引作为所述产品库的主键。这样,在确定产品库中是否包含所述关键属性对应的产品节点时,可以通过该索引进行判断。
如果在步骤102中得到了分别用于描述不同产品的多组关键属性,则可以依次确定产品库中是否包含每组关键属性对应的产品节点。如果未包含所述产品节点,则需要将该产品节点添加到所述产品库中;如果已包含所述产品节点,则无需再将该产品节点添加到所述产品库中,以避免所述产品库中的产品节点产生重复。
步骤104,如果没有,则将所述产品节点添加到所述产品库中。
本申请实施例提供的建设产品库的方法,通过从商品描述信息中提取产品的关键属性,实现产品库的自动建设,有效地提高了产品库的正确性及数据量。该方法可以应用于具有海量数据的环境,并且能够保证产品库建设的高效及准确。
利用本申请实施例提供的建设产品库的方法建设的产品库,不仅可以为用户提供与现有技术中产品库所具有的功能,而且还可以很方便地向用户展现产品的所有属性信息及个性化信息,比如推荐信息、图片信息、价格信息等,从而可以帮助用户很好地进行商品的选择。另外,在商品管理方面,每一个商品的上架都需要上挂到一个产品库的节点上,这样可以使得商品更有结构,更便于管理。
前面提到,一组关键属性可以唯一定义一个产品节点,而一组关键属性中可以包含一个或多个描述信息。也就是说,对于不同的产品,可以有不同的关键属性,而且其中的各描述信息可以有一种或多种表达方式。
因此,为了保证自动建立的产品库中产品节点没有遗漏及重复,在本申请的另一个实施例中,提供一种建设产品库的方法,参见图2所示,该方法包括以下基本步骤:
步骤201,获取商品的描述信息。
步骤202,从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点。
步骤203,对所述关键属性进行名称规范处理。
对所述关键属性进行名称规范处理是指,确定对应一个产品的一组关键属性需要包括哪些描述信息、不应包括哪些描述信息。因为不同种类的产品可以用不同的信息来描述,比如,MP3的关键属性中可以包含:品牌+型号+容量,防晒霜的关键属性中可以包含:品牌+单品名称+SPF值+PA值等。
当然,对于一个产品,究竟使用哪些描述信息表示,可以根据应用需要来确定,对于同一个产品,在不同的应用环境下,其关键属性所包含的信息也可以不同。
步骤204,对名称规范处理后的关键属性进行名称归一化处理,生成对应所述产品的主键。
由于商品的描述信息可以从多种不同的信息源中获得,而且对于同一种描述信息,可能会存在着多种表达方式,因此,为了避免产品节点的重复,可以在对所述关键属性进行名称规范处理后,进一步对其做归一化处理,也就是说,将用不同方式表示的描述信息进行统一。
所述名称归一化处理具体可以包括但不限于下列三种方式:
同义词归一化处理,即对描述信息中的同义词进行检测并统一,例如女香==女士香水,香奈儿==Channel;
格式归一化处理,例如对描述信息中的简繁体、全半角、空格、标点符号等进行归一化;
同义表达归一化处理,例如香奈尔机遇女士香水==香奈尔邂逅女士香水。
经过上述名称规范处理和名称归一化处理,可以最大限度地避免产生重复的产品节点。不仅可以进一步提高产品库中产品节点的覆盖范围,而且可以有效地避免产品库中产品节点的重复。
步骤205,根据所述主键确定所述产品节点是否包含在所述产品库中。
具体过程与前面的步骤103的实现过程类似,在此不再赘述。
同样,如果在步骤202中得到了分别用于描述不同产品的多组关键属性,则可以依次确定产品库中是否包含每组关键属性对应的产品节点。如果未包含所述产品节点,则需要将该产品节点添加到所述产品库中;如果已包含所述产品节点,则无需再将该产品节点添加到所述产品库中,从而进一步避免所述产品库中的产品节点产生重复。
步骤206,如果没有,则将所述产品节点添加到所述产品库中。
本申请实施例提供的建设产品库的方法,通过从商品描述信息中提取产品的关键属性,实现产品库的自动建设,有效地提高了产品库的正确性及数据量。该方法可以应用于具有海量数据的环境,并且能够保证产品库建设的高效及准确。进一步地,通过对提取的产品的关键属性进行名称规范处理和名称归一化处理,不仅提高了产品库中产品节点的覆盖范围,而且还有效地避免了产品库中产品节点的重复。
利用本申请实施例提供的建设产品库的方法建设的产品库,不仅可以为用户提供与现有技术中产品库所具有的功能,而且还可以很方便地向用户展现产品的所有属性信息及个性化信息,比如推荐信息、图片信息、价格信息等,从而可以帮助用户很好地进行商品的选择。另外,在商品管理方面,每一个商品的上架都需要上挂到一个产品库的节点上,这样可以使得商品更有结构,更便于管理。
相应于上面的方法实施例,本申请还提供一种建设产品库的系统,参见图3,是所述系统的一种结构示意图。
在该实施例中,所述系统包括:
获取单元301,用于获取商品的描述信息;
聚合单元302,用于从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点;
排重单元303,用于确定产品库中是否包含所述关键属性对应的产品节点;
入库单元304,用于在所述排重单元303确定产品库中未包含所述关键属性对应的产品节点后,将所述产品节点添加到所述产品库中。
其中,所述获取单元301可以包括:
信息源获取子单元,用于从网站上获取商品的信息源;
属性信息获取子单元,用于从所述信息源中获取商品的描述信息。
所述聚合单元302可以采用多种方式实现从所述描述信息中提取出用于描述产品的关键属性,比如,所述聚合单元302可以包括:第一提取子单元,和/或第二提取子单元;其中:
所述第一提取子单元,用于通过正则表达式从所述描述信息中提取出用于描述产品的关键属性;
所述第二提取子单元,用于通过机器学习方式从所述描述信息中提取出用于描述产品的关键属性。
本申请实施例提供的建设产品库的系统,通过从商品描述信息中提取产品的关键属性,实现产品库的自动建设,有效地提高了产品库的正确性及数据量。该方法可以应用于具有海量数据的环境,并且能够保证产品库建设的高效及准确。
利用本申请实施例提供的建设产品库的系统建设的产品库,不仅可以为用户提供与现有技术中产品库所具有的功能,而且还可以很方便地向用户展现产品的所有属性信息及个性化信息,比如推荐信息、图片信息、价格信息等,从而可以帮助用户很好地进行商品的选择。另外,在商品管理方面,每一个商品的上架都需要上挂到一个产品库的节点上,这样可以使得商品更有结构,更便于管理。
在上述实施例中,所述排重单元303在确定产品库中是否包含所述关键属性对应的产品节点时,可以直接使用聚合单元302得到的关键属性与所述产品库中已有的信息进行比较,如果不重复,则确定所述产品库中未包含所述关键属性对应的产品节点;否则确定所述产品库中已有该产品节点。
前面提到,一组关键属性可以唯一定义一个产品节点,而一组关键属性中可以包含一个或多个描述信息。也就是说,对于不同的产品,可以有不同的关键属性,而且其中的各描述信息可以有一种或多种表达方式。
因此,为了进一步保证自动建立的产品库中产品节点没有遗漏及重复,在本申请的另一个实施例中,提供一种建设产品库的系统,参见图4所示,该系统的另一种结构示意图。
在该实施例中,所述系统包括:
获取单元401,用于获取商品的描述信息;
聚合单元402,用于从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点;
排重单元403,用于确定产品库中是否包含所述关键属性对应的产品节点;
入库单元403,用于在所述排重单元303确定产品库中未包含所述关键属性对应的产品节点后,将所述产品节点添加到所述产品库中。
其中,所述排重单元403包括:
规范处理子单元431,用于对所述关键属性进行名称规范处理;
归一化处理子单元432,用于对名称规范处理后的关键属性进行名称归一化处理,生成对应所述产品的主键;
检查子单元433,用于检查所述主键是否包含在所述产品库中,如果否,则确定所述产品库中未包含所述产品节点。
本申请实施例提供的建设产品库的系统,通过从商品描述信息中提取产品的关键属性,实现产品库的自动建设,有效地提高了产品库的正确性及数据量。该方法可以应用于具有海量数据的环境,并且能够保证产品库建设的高效及准确。进一步地,通过对提取的产品的关键属性进行名称规范处理和名称归一化处理,不仅提高了产品库中产品节点的覆盖范围,而且还有效地避免了产品库中产品节点的重复。
为了描述的方便,描述以上系统时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种建设产品库的方法,其特征在于,包括:
获取商品的描述信息;
从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点;
确定产品库中是否包含所述关键属性对应的产品节点;
如果没有,则将所述产品节点添加到所述产品库中。
2.根据权利要求1所述的方法,其特征在于,所述获取商品的描述信息包括:
从网站上获取商品的信息源;
从所述信息源中获取商品的描述信息。
3.根据权利要求2所述的方法,其特征在于,所述信息源包括以下任意一种或多种:格式化描述信息、非格化描述信息、半格式化描述信息、图片描述信息。
4.根据权利要求1所述的方法,其特征在于,所述从所述描述信息中提取出用于描述产品的关键属性包括:
通过正则表达式从所述描述信息中提取出用于描述产品的关键属性;和/或
通过机器学习方式从所述描述信息中提取出用于描述产品的关键属性。
5.根据权利要求1所述的方法,其特征在于,所述确定产品库中是否包含所述关键属性对应的产品节点包括:
对所述关键属性进行名称规范处理;
对名称规范处理后的关键属性进行名称归一化处理,生成对应所述产品的主键;
如果所述主键未包含在所述产品库中,则确定所述产品库中未包含所述产品节点。
6.根据权利要求5所述的方法,其特征在于,所述对名称规范处理后的关键属性进行名称归一化处理包括以下任意一种或多种处理:
同义词归一化处理、格式归一化处理、同义表达归一化处理。
7.一种建设产品库的系统,其特征在于,包括:
获取单元,用于获取商品的描述信息;
聚合单元,用于从所述描述信息中提取出用于描述产品的关键属性,一组关键属性对应一个产品节点;
排重单元,用于确定产品库中是否包含所述关键属性对应的产品节点;
入库单元,用于在所述排重单元确定产品库中未包含所述关键属性对应的产品节点后,将所述产品节点添加到所述产品库中。
8.根据权利要求7所述的系统,其特征在于,所述获取单元包括:
信息源获取子单元,用于从网站上获取商品的信息源;
属性信息获取子单元,用于从所述信息源中获取商品的描述信息。
9.根据权利要求7所述的系统,其特征在于,所述聚合单元包括:第一提取子单元,和/或第二提取子单元;
所述第一提取子单元,用于通过正则表达式从所述描述信息中提取出用于描述产品的关键属性;
所述第二提取子单元,用于通过机器学习方式从所述描述信息中提取出用于描述产品的关键属性。
10.根据权利要求7所述的系统,其特征在于,所述排重单元包括:
规范处理子单元,用于对所述关键属性进行名称规范处理;
归一化处理子单元,用于对名称规范处理后的关键属性进行名称归一化处理,生成对应所述产品的主键;
检查子单元,用于检查所述主键是否包含在所述产品库中,如果否,则确定所述产品库中未包含所述产品节点。
CN2010102812710A 2010-09-13 2010-09-13 一种建设产品库的方法及系统 Pending CN102402535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102812710A CN102402535A (zh) 2010-09-13 2010-09-13 一种建设产品库的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102812710A CN102402535A (zh) 2010-09-13 2010-09-13 一种建设产品库的方法及系统

Publications (1)

Publication Number Publication Date
CN102402535A true CN102402535A (zh) 2012-04-04

Family

ID=45884750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102812710A Pending CN102402535A (zh) 2010-09-13 2010-09-13 一种建设产品库的方法及系统

Country Status (1)

Country Link
CN (1) CN102402535A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425711A (zh) * 2012-05-25 2013-12-04 株式会社理光 基于多对象实例的对象值对齐方法
CN103810544A (zh) * 2012-11-06 2014-05-21 金蝶软件(中国)有限公司 一种获取技能标签的方法及相关装置
WO2016141821A1 (zh) * 2015-03-12 2016-09-15 阿里巴巴集团控股有限公司 一种产品信息处理的方法及服务器
CN106021350A (zh) * 2016-05-10 2016-10-12 湖北工程学院 艺术品收藏与管理方法及系统
CN107608995A (zh) * 2016-07-12 2018-01-19 阿里巴巴集团控股有限公司 一种产品链对象数据库的建立、查询方法、装置和系统
CN108563892A (zh) * 2018-04-24 2018-09-21 河海大学常州校区 电机泵组单元的参量快速配置设计方法
CN110096643A (zh) * 2019-03-27 2019-08-06 青岛高校信息产业股份有限公司 产品潜客标签库生成方法和装置
CN113407599A (zh) * 2021-06-30 2021-09-17 上海万物新生环保科技集团有限公司 一种基于文本数据的标准化处理方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289158A1 (en) * 2004-06-25 2005-12-29 Jochen Weiss Identifier attributes for product data stored in an electronic database
CN201199369Y (zh) * 2008-04-01 2009-02-25 张明 可搜索产品的网络销售系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289158A1 (en) * 2004-06-25 2005-12-29 Jochen Weiss Identifier attributes for product data stored in an electronic database
CN201199369Y (zh) * 2008-04-01 2009-02-25 张明 可搜索产品的网络销售系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张仁爱: "产品库平台系统的研究与实现", 《万方数据库》, 31 May 2010 (2010-05-31) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425711A (zh) * 2012-05-25 2013-12-04 株式会社理光 基于多对象实例的对象值对齐方法
CN103810544A (zh) * 2012-11-06 2014-05-21 金蝶软件(中国)有限公司 一种获取技能标签的方法及相关装置
WO2016141821A1 (zh) * 2015-03-12 2016-09-15 阿里巴巴集团控股有限公司 一种产品信息处理的方法及服务器
CN106033431A (zh) * 2015-03-12 2016-10-19 阿里巴巴集团控股有限公司 一种产品信息处理的方法及服务器
CN106021350A (zh) * 2016-05-10 2016-10-12 湖北工程学院 艺术品收藏与管理方法及系统
CN107608995A (zh) * 2016-07-12 2018-01-19 阿里巴巴集团控股有限公司 一种产品链对象数据库的建立、查询方法、装置和系统
CN108563892A (zh) * 2018-04-24 2018-09-21 河海大学常州校区 电机泵组单元的参量快速配置设计方法
CN108563892B (zh) * 2018-04-24 2022-04-01 河海大学常州校区 电机泵组单元的参量快速配置设计方法
CN110096643A (zh) * 2019-03-27 2019-08-06 青岛高校信息产业股份有限公司 产品潜客标签库生成方法和装置
CN113407599A (zh) * 2021-06-30 2021-09-17 上海万物新生环保科技集团有限公司 一种基于文本数据的标准化处理方法及设备

Similar Documents

Publication Publication Date Title
CN102402535A (zh) 一种建设产品库的方法及系统
Pournarakis et al. A computational model for mining consumer perceptions in social media
US10180967B2 (en) Performing application searches
CN107729937A (zh) 用于确定用户兴趣标签的方法及装置
CN103874994A (zh) 用于自动概括电子文档的内容的方法和装置
KR102355212B1 (ko) 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징
CN105247507A (zh) 品牌的影响力得分
CN103425691A (zh) 一种搜索方法和系统
CN102880624A (zh) 网站导航工具系统
CN102486791A (zh) 书签智能分类的方法和服务器
CN107205042B (zh) 一种信息精准推送方法及系统
CN104077415A (zh) 搜索方法及装置
CN110717801A (zh) 一种商品信息推送方法及装置
CN103365876B (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN103412958A (zh) 一种搜索结果显示方法和装置
CN107608980A (zh) 基于dpi大数据分析的信息推送方法和系统
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN103020128A (zh) 与终端设备交互数据的方法与装置
CN107798622A (zh) 一种识别用户意图的方法和装置
CN106250402A (zh) 一种网站分类方法及装置
CN109408714A (zh) 一种多模型融合的推荐系统和方法
CN110363206A (zh) 数据对象的聚类、数据处理及数据识别方法
US20180349963A1 (en) Bulk Processing of Textual Search Engine Queries
CN109840788A (zh) 用于分析用户行为数据的方法及装置
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1166395

Country of ref document: HK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120404

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1166395

Country of ref document: HK