CN102193936A - 一种数据分类的方法及装置 - Google Patents
一种数据分类的方法及装置 Download PDFInfo
- Publication number
- CN102193936A CN102193936A CN2010101221412A CN201010122141A CN102193936A CN 102193936 A CN102193936 A CN 102193936A CN 2010101221412 A CN2010101221412 A CN 2010101221412A CN 201010122141 A CN201010122141 A CN 201010122141A CN 102193936 A CN102193936 A CN 102193936A
- Authority
- CN
- China
- Prior art keywords
- commodity
- participle
- segmentation sequence
- related data
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Abstract
本申请涉及数字处理领域,公开了一种商品分类的方法及装置,用于提高商品分类流程的执行效率。该方法为:获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。
Description
技术领域
本申请涉及数据处理领域,特别涉及一种数据分类的方法及装置。
背景技术
在电子商务网站中,各种商品数据通常是以文本、数据表等形式进行存储。一个电子商务网站所需要管理的商品数据数以千万计,因此,如何将商品数据按照其描述的信息内容进行分类,将相似的商品数据进行统一管理,以降低系统的管理复杂度,减轻系统的运行负荷,是电子商务网站运营时首先需要考虑的问题。
目前,在各类电子商务网站内,通常采用聚类算法对各种商品数据进行分类,即根据预设的一系列规则、条件,通过相似性分析,将商品数据划分为多种类别。现有技术下,最常采用的聚类算法是分层聚类算法。
所谓分层聚类算法,是一种自底向上的策略,即首先将每个分类对象作为单独的一个原子簇,然后合并这些原子簇为级别更高的簇,直到所有的分类对象均集中在同一个簇中,或者,达到某个终止条件。
在电子商务网站中,一件商品的相关数据通常包括多种,例如,商品的标识、类目、属性等等。而电子商务网站内设置的商品数目数以万计,相应地,其相关数据可多达数十万种,如,一件商品归属的类目为“手机”,该商品的某一属性为“手机品牌”,而该属性的取值可以为“A品牌”或“B品牌”等等。因此,采用分层聚类算法对电子商务网站中的各种商品的相关数据进行分类,计算量非常大,以致于单机无法完成,需要服务器集群进行统一计算。显然,这会大大地浪费系统资源,也耗费大量的计算时间,从而不能及时有效地完成商品的相关数据的分类,降低了商品相关数据分类流程的执行效率。
发明内容
本申请实施例提供一种数据分类的方法及装置,用以提高商品相关数据分类流程的执行效率。
本申请实施例提供的具体实施方式如下:
一种数据分类的方法,包括:
获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
一种用于进行商品分类的装置,包括:
提取单元,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
划分单元,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
选取单元,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
合并单元,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
本申请实施例中,通过从商品标题和属性信息中划分并提取出的分词序列,来标识某一类商品,并将分词序列相同的商品进行合并,这样,这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。
附图说明
图1为本申请实施例中管理装置功能结构图;
图2为本申请实施例中对商品数据进行分类流程图;
图3为本申请实施例中对分类结果进行优化流程图。
具体实施方式
为了提高商品相关数据分类流程的执行效率,减轻系统的运行负荷,本申请实施例中,在进行商品相关数据分类时,获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
其中,将分词序列相同的商品进行合并时,包括将分词序列相同的商品的相关数据直接进行合并;或者,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。以下实施例中,将以第二种情况为例进行说明。
下面结合附图对本申请优选的实施方式进行详细说明。
参阅图1所示,本申请实施例中,用于进行商品分类的管理装置包括提取单元10、划分单元11、选取单元12和合并单元13,其中,
提取单元10,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
划分单元11,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
选取单元12,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
合并单元13,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
参阅图1所示,本实施例中,上述管理装置进一步包括处理单元14,用于针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。
基于上述原理,参阅图2所示,本申请实施例中,管理装置对电子商务网站内包含的所有商品数据进行分类的详细流程如下:
步骤200:获取需要进行分类的各商品的相关数据,并提取出其中的商品标题及相应的属性信息。
通常情况下,用户在电子商务网站发布商品信息时,会在商品发布网页中填写各种信息,如标题、属性等。填写好的网页由用户客户端上传至网站服务器。网站服务器接收到该网页后,提取网页中包含的标题信息。并对该标题进行分词处理。例如,某电吹风的标题为:**品牌D3506型号电吹风,显然,商品标题中往往包含有可以区分该商品的关键字,因此,对商品标题的提取是很必要的。
而商品的属性信息中往往包含针对商品的详细描述,例如,某电吹风的属性信息为:上市时间、颜色类型、风嘴形态、市场价、人气指数等等。本申请实施例中,属性及属性值均以ID形式进行设置,如,某商品的颜色属性为绿色,可以表示为:属性A:2000,A为颜色属性的ID,2000为绿色的ID。本实施例中,在进行商品合并时同时考虑了商品标题和属性信息的相同程度,因此,在步骤200中同时提取了商品标识和属性信息。实际应用中,也可以在执行商品合并的步骤中再提取属性信息,步骤200仅为举例。
步骤210:对各商品标题进行分词,并确定各分词的权重,其中,分词的权重用于表示该分词的历史出现频率相关信息;如、用户历史搜索次数,或/和商户设置次数及分布概率。
本实施例中,采用hadoop分布式计算系统(hadoop是一种分布式计算的框架),对商品标题和属性信息进行分词。例如,将商品标题“**品牌D3506型号电吹风”划分为以下分词:“**品牌”、“D3506型号”和“电吹风”。本实施例中,较佳地,可以使用分布式的hadoop,即采用多台(如,50台到300台)机器组成的运算集群来执行hadoop程序。
为了提高分词的精准性,本实施例中,较佳地,在执行完分词操作后,管理装置根据数据库中的历史参考信息,将能够反映商品品牌、产品类型的核心分词进行保留,如,“**品牌”、“**款式”等等,相应地,需要将对商品分类没有参考价值的多余分词进行删除,如“正品”、“促销”、“特价”等等。
步骤220:针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列。
本实施例中,所谓的预设条件设置为:在商品标题中选取权重取值最高的两个分词、以及从属性信息中选取权重取值最高的五个分词。以上预设条件仅为举例,分词的选取方式和选取数量可以根据实际应用环境而自行设定,在此不再赘述。
步骤230:将针对各商品选取的分词序列进行比较,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。
本实施例中,将商品的相关数据进行合并,即是将这些商品归属至同一类目下,例如,将各商品的相关数据以同一组文本或数据表的形式进行存储,在后续管理中,将其作为同一种商品进行呈现、发布、修改等等操作。
本实施例中,根据步骤200~步骤230将各商品的相关数据进行分类后,为每一类商品设置一商品ID,用于唯一标识该类商品,实际试验数据表明,采用上述方法,可以将实际涵盖几亿商品的电子商务网站中商品的数量,归类缩减至几千万左右的商品类目,从而大大减少了电子商务网站的管理对象的数目,降低了商品相关数据的管理复杂度,减轻了网站的运算负担。
执行完上述步骤后,针对步骤210中获得的分词的划分结果,需要重新调整各分词的权重,调整权重的操作可以在步骤210执行完毕后立即执行,也可以在步骤200~步骤230全部执行完毕后再执行。其中,较佳地,需要对包含产品型号的分词的权重进行重点设置,因为产品型号由数字字母等符号组成,在商品分类过程中的参考价值最大,因此,针对产品型号这一类型的分词,需要将其权重值设置得较高。
基于上述实施例,为了进一步提高商品归类结果的准确性,本实施例中,在执行完步骤200~步骤230后,在针对分类完毕的各类商品分别设置相应的商品ID之前,需要对分类结果作进一步优化,参阅图3所示,优化的详细流程如下:
步骤300:根据分类结果确定用于区分每一类商品的分词序列。
所谓的分词序列即是执行步骤200~步骤230后,获得的每一类商品的标志性分词组合,例如,经过分词后,将商品标题和属性信息中包含分词“**品牌”,“**款式”、“红颜色”、“DF0753”和“L码”的商品归属至同一类中,那么,该类商品的分词序列即是“**品牌款式红颜色DF0753L码”。
步骤310:分别计算任意两类商品的分词序列的相似度。
本实施例中,采用以下公式计算任意两类商品的分词序列的相似度:
其中,TD1和TD2为分别进行比较的两类商品的分词序列,例如,
TD1=(word11,score11),(word12,score12),(word13,score13)
TD2=(word21,score21),(word22,score22),(word23,score23)
word为某分词,score为其权重。
Prop1和prop2为分别进行比较的两类商品对应的主属性值(主属性,也就是重要的属性,例如手机最重要的属性就是品牌和型号,而颜色、重量就是一般的属性。主属性值表示具体的属性,例如:品牌是一个主属性,通过余弦计算相似性的大小。相似性最大,两个商品就越相似。
λ是一个控制权重的系数。λ1和λ2是不同的两个系数。在计算相似性的时候,分别表明是标题重要还是属性更重要。在λ1=2,λ2=1的时候。就表明标题的重要性是属性重要性的两倍。
a,b为预设的参量,n1和n2分别用于表示进行相似度比较的两类商品中各自包含的商品数目,a、b用于控制相似度的取值,以间接控制两类商品进行合并的可能性,如,当两类商品各自包含的商品数目都很多时,可以通过a和b的取值对相似度的取值进行调节,令采用计算得到的相似度取值变小,从而使两类商品被合并在一起的机会变小。
例如,a=50,b=20 n1=100,n2==10,那么,相似度=e-λ1*|TD1-TD2|*e-λ2*|pro p1-prop2|*1/(1+e^(50/20))=1/(1+e^2.5)=0.07585818≈7%。
步骤320:将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品进行合并。
例如,在步骤310中,计算得到两类商品的分词序列的相似度为7%,假设设定阈值为5,则相似度取值远远小于设定阈值,这说明,这两类商品不能进行合并。
之所以执行上述步骤300-步骤320,是因为分词序列不同的两类商品也可能是同一种商品,只是商户设置的商品标题和属性信息不完全相同而已,因此,通过执行步骤300~步骤320对步骤200~步骤230中获得的分类结果进行优化,使其更为精确。实际应用中,若为了进一步优化分类结果,可以将步骤300~步骤320按照设定次数进行多数迭代,使最终获得的分类结果中包含的商品类目进一步缩减。
采用上述方法,可以缩减几千万左右的商品,进一步缩减至几百万,同时整个过程只需要几个小时,从而再次大大减少了电子商务网站的管理对象的数目,也进一步降低了其管理商品相关数据的复杂度,减轻了其运算负担。
综上所述,本申请实施例中,通过从商品标题和属性信息中划分并提取出的分词序列,来标识某一类商品,并将分词序列相同的商品的相关数据进行合并,这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。
基于上述方案,本申请实施例中,继续通过分词序列之间的相似度来实现分类结果的优化,从而进一步提高了分类结果的准确性,也进一步减少了需要处理的商品数据的数量,提高了商品分类流程的执行效率。
显然,本领域的技术人员可以对本申请中的实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例中的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请中的实施例也意图包含这些改动和变型在内。
Claims (13)
1.一种数据分类的方法,其特征在于,包括:
获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
2.如权利要求1所述的方法,其特征在于,对各商品标题进行分词划分后,根据划分结果,调整各分词的权重取值。
3.如权利要求1所述的方法,其特征在于,所述将分词序列相同的商品的相关数据进行合并,包括:
将分词序列相同的商品的相关数据直接进行合并;
或者
获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。
4.如权利要求1、2或3所述的方法,其特征在于,将分词序列相同的商品的相关数据进行合并后,包括:
分别计算任意两类商品的分词序列的相似度;
将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。
5.如权利要求4所述的方法,其特征在于,计算所述任意两类商品的分词序列的相似度时,采用以下公式:
其中,TD1和TD2为分别进行比较的两类商品的分词序列,prop1和prop2为分别进行比较的两类商品对应的主属性值,λ1和λ2是预设的控制系数,a和b为预设的参量,n1和n2分别用于表示进行相似度比较的两类商品中各自包含的商品数目。
6.如权利要求4所述的方法,其特征在于,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并后,按照预设次数执行迭代操作。
7.如权利要求1、2或3所述的方法,其特征在于,针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。
8.一种用于进行商品分类的装置,其特征在于,包括:
提取单元,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
划分单元,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
选取单元,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
合并单元,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
9.如权利要求6所述的装置,其特征在于,所述划分单元对各商品标题进行分词划分后,根据划分结果,调整各分词的权重取值。
10.如权利要求6所述的装置,其特征在于,所述合并单元将分词序列相同的商品的相关数据进行合并时,将分词序列相同的商品的相关数据直接进行合并;或者,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。
11.如权利要求7、8或9所述的装置,其特征在于,将分词序列相同的商品的相关数据进行合并后,分别计算任意两类商品的分词序列的相似度,再将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,以及将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。
12.如权利要求10所述的装置,其特征在于,所述合并单元将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并后,按照预设次数执行迭代操作。
13.如权利要求7、8或9所述的装置,其特征在于,还包括:
处理单元,用于针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101221412A CN102193936B (zh) | 2010-03-09 | 2010-03-09 | 一种数据分类的方法及装置 |
US12/932,659 US20110225161A1 (en) | 2010-03-09 | 2011-03-01 | Categorizing products |
PCT/US2011/000388 WO2011112236A1 (en) | 2010-03-09 | 2011-03-02 | Categorizing products |
JP2012557037A JP2013522719A (ja) | 2010-03-09 | 2011-03-02 | 製品のカテゴリ分類 |
EP11753706.8A EP2545511A4 (en) | 2010-03-09 | 2011-03-02 | CATEGORIZATION OF PRODUCTS |
HK12100209.3A HK1159815A1 (en) | 2010-03-09 | 2012-01-09 | Method and apparatus for data categorizing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101221412A CN102193936B (zh) | 2010-03-09 | 2010-03-09 | 一种数据分类的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102193936A true CN102193936A (zh) | 2011-09-21 |
CN102193936B CN102193936B (zh) | 2013-09-18 |
Family
ID=44560907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101221412A Active CN102193936B (zh) | 2010-03-09 | 2010-03-09 | 一种数据分类的方法及装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20110225161A1 (zh) |
EP (1) | EP2545511A4 (zh) |
CN (1) | CN102193936B (zh) |
HK (1) | HK1159815A1 (zh) |
WO (1) | WO2011112236A1 (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332137A (zh) * | 2011-09-23 | 2012-01-25 | 纽海信息技术(上海)有限公司 | 商品匹配方法及系统 |
CN103235822A (zh) * | 2013-05-03 | 2013-08-07 | 富景天策(北京)气象科技有限公司 | 数据库的生成及查询方法 |
CN103294798A (zh) * | 2013-05-27 | 2013-09-11 | 北京尚友通达信息技术有限公司 | 基于二元切词和支持向量机的商品自动分类方法 |
CN103377216A (zh) * | 2012-04-24 | 2013-10-30 | 苏州引角信息科技有限公司 | 产品信息库的构建方法及系统 |
CN103729365A (zh) * | 2012-10-12 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
CN104008101A (zh) * | 2013-02-21 | 2014-08-27 | 纽海信息技术(上海)有限公司 | 货物分类检验方法及检验装置 |
WO2014187233A1 (en) * | 2013-05-20 | 2014-11-27 | Tencent Technology (Shenzhen) Company Limited | Method,device and storing medium for searching |
CN104408635A (zh) * | 2014-12-01 | 2015-03-11 | 银联智惠信息服务(上海)有限公司 | 商户类别信息识别方法和装置 |
CN105589847A (zh) * | 2015-12-22 | 2016-05-18 | 北京奇虎科技有限公司 | 带权重的文章标识方法和装置 |
CN106570573A (zh) * | 2015-10-13 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 预测包裹属性信息的方法及装置 |
WO2017157200A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 特征词汇提取方法及装置 |
CN107203542A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 词组提取方法及装置 |
CN107766394A (zh) * | 2016-08-23 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 业务数据处理方法及其系统 |
CN108171586A (zh) * | 2018-01-23 | 2018-06-15 | 北京值得买科技股份有限公司 | 一种商品聚类方法及装置 |
CN108388555A (zh) * | 2018-02-01 | 2018-08-10 | 口碑(上海)信息技术有限公司 | 基于行业类别的商品去重方法及装置 |
CN108491873A (zh) * | 2018-03-19 | 2018-09-04 | 广州建翎电子技术有限公司 | 一种基于数据分析的商品分类方法 |
CN109543940A (zh) * | 2018-10-12 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 活动评估方法、装置、电子设备及存储介质 |
CN110147483A (zh) * | 2017-09-12 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 一种标题重建方法及装置 |
CN110647630A (zh) * | 2019-09-30 | 2020-01-03 | 浙江执御信息技术有限公司 | 检测同款商品的方法及装置 |
US10678878B2 (en) | 2013-05-20 | 2020-06-09 | Tencent Technology (Shenzhen) Company Limited | Method, device and storing medium for searching |
CN111625620A (zh) * | 2019-02-28 | 2020-09-04 | 北京京东尚科信息技术有限公司 | 信息处理方法和装置 |
CN111723566A (zh) * | 2019-03-21 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 产品信息的重构方法和装置 |
CN112181968A (zh) * | 2020-09-29 | 2021-01-05 | 京东数字科技控股股份有限公司 | 统一商品信息的方法、装置、系统及存储介质 |
TWI778481B (zh) * | 2020-03-30 | 2022-09-21 | 南韓商韓領有限公司 | 用於基於ai的產品整合及去冗餘的電腦實行系統及使用ai對產品進行整合及去冗餘的方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130268328A1 (en) * | 2012-04-09 | 2013-10-10 | Yahoo! Inc. | Generating a deal score to indicate a relative value of an offer |
CN103577989B (zh) * | 2012-07-30 | 2017-11-14 | 阿里巴巴集团控股有限公司 | 一种基于产品识别的信息分类方法及信息分类系统 |
US9110983B2 (en) * | 2012-08-17 | 2015-08-18 | Intel Corporation | Traversing data utilizing data relationships |
CN103678335B (zh) * | 2012-09-05 | 2017-12-08 | 阿里巴巴集团控股有限公司 | 商品标识标签的方法、装置及商品导航的方法 |
US9483741B2 (en) | 2013-03-28 | 2016-11-01 | Wal-Mart Stores, Inc. | Rule-based item classification |
US9436919B2 (en) | 2013-03-28 | 2016-09-06 | Wal-Mart Stores, Inc. | System and method of tuning item classification |
US10489842B2 (en) * | 2013-09-30 | 2019-11-26 | Ebay Inc. | Large-scale recommendations for a dynamic inventory |
CN103544264A (zh) * | 2013-10-17 | 2014-01-29 | 常熟市华安电子工程有限公司 | 一种商品标题优化工具 |
CN103605815B (zh) * | 2013-12-11 | 2016-08-31 | 焦点科技股份有限公司 | 一种适用于b2b电子商务平台的商品信息自动分类推荐方法 |
US20150331936A1 (en) * | 2014-05-14 | 2015-11-19 | Faris ALQADAH | Method and system for extracting a product and classifying text-based electronic documents |
US9607098B2 (en) | 2014-06-02 | 2017-03-28 | Wal-Mart Stores, Inc. | Determination of product attributes and values using a product entity graph |
CN106919543A (zh) * | 2015-12-24 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 确定商品对象标题文本的方法及装置 |
US10200759B1 (en) * | 2017-07-28 | 2019-02-05 | Rovi Guides, Inc. | Systems and methods for identifying and correlating an advertised object from a media asset with a demanded object from a group of interconnected computing devices embedded in a living environment of a user |
US11829396B1 (en) * | 2022-01-25 | 2023-11-28 | Wizsoft Ltd. | Method and system for retrieval based on an inexact full-text search |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
US6751600B1 (en) * | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
US20040143600A1 (en) * | 1993-06-18 | 2004-07-22 | Musgrove Timothy Allen | Content aggregation method and apparatus for on-line purchasing system |
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
US20090285549A1 (en) * | 2007-01-25 | 2009-11-19 | Fujitsu Limited | Favorite program extracting device and method |
US20090327243A1 (en) * | 2008-06-27 | 2009-12-31 | Cbs Interactive, Inc. | Personalization engine for classifying unstructured documents |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2943447B2 (ja) * | 1991-01-30 | 1999-08-30 | 三菱電機株式会社 | テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 |
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
US5331554A (en) * | 1992-12-10 | 1994-07-19 | Ricoh Corporation | Method and apparatus for semantic pattern matching for text retrieval |
US5438628A (en) * | 1993-04-19 | 1995-08-01 | Xerox Corporation | Method for matching text images and documents using character shape codes |
US6714933B2 (en) * | 2000-05-09 | 2004-03-30 | Cnet Networks, Inc. | Content aggregation method and apparatus for on-line purchasing system |
US6742003B2 (en) * | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
US7076485B2 (en) * | 2001-03-07 | 2006-07-11 | The Mitre Corporation | Method and system for finding similar records in mixed free-text and structured data |
US7716161B2 (en) * | 2002-09-24 | 2010-05-11 | Google, Inc, | Methods and apparatus for serving relevant advertisements |
US20040093200A1 (en) * | 2002-11-07 | 2004-05-13 | Island Data Corporation | Method of and system for recognizing concepts |
US20040102957A1 (en) * | 2002-11-22 | 2004-05-27 | Levin Robert E. | System and method for speech translation using remote devices |
US7516070B2 (en) * | 2003-02-19 | 2009-04-07 | Custom Speech Usa, Inc. | Method for simultaneously creating audio-aligned final and verbatim text with the assistance of a speech recognition program as may be useful in form completion using a verbal entry method |
WO2005027092A1 (ja) * | 2003-09-08 | 2005-03-24 | Nec Corporation | 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム |
US20080235018A1 (en) * | 2004-01-20 | 2008-09-25 | Koninklikke Philips Electronic,N.V. | Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content |
JP4366249B2 (ja) * | 2004-06-02 | 2009-11-18 | パイオニア株式会社 | 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置 |
WO2006046390A1 (ja) * | 2004-10-29 | 2006-05-04 | Matsushita Electric Industrial Co., Ltd. | 情報検索装置 |
US8903827B2 (en) * | 2004-10-29 | 2014-12-02 | Ebay Inc. | Method and system for categorizing items automatically |
EP1848192A4 (en) * | 2005-02-08 | 2012-10-03 | Nippon Telegraph & Telephone | END DEVICE, SYSTEM, METHOD AND PROGRAM FOR INFORMATION COMMUNICATION AND RECORDING MEDIUM WHICH RECORDED THE PROGRAM |
US20070055526A1 (en) * | 2005-08-25 | 2007-03-08 | International Business Machines Corporation | Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis |
US7574449B2 (en) * | 2005-12-02 | 2009-08-11 | Microsoft Corporation | Content matching |
JP4961755B2 (ja) * | 2006-01-23 | 2012-06-27 | 富士ゼロックス株式会社 | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム |
US7698140B2 (en) * | 2006-03-06 | 2010-04-13 | Foneweb, Inc. | Message transcription, voice query and query delivery system |
US20100138451A1 (en) * | 2006-04-03 | 2010-06-03 | Assaf Henkin | Techniques for facilitating on-line contextual analysis and advertising |
US20070294610A1 (en) * | 2006-06-02 | 2007-12-20 | Ching Phillip W | System and method for identifying similar portions in documents |
JP5223673B2 (ja) * | 2006-06-29 | 2013-06-26 | 日本電気株式会社 | 音声処理装置およびプログラム、並びに、音声処理方法 |
JP4125780B2 (ja) * | 2006-11-09 | 2008-07-30 | 松下電器産業株式会社 | コンテンツ検索装置 |
US8122032B2 (en) * | 2007-07-20 | 2012-02-21 | Google Inc. | Identifying and linking similar passages in a digital text corpus |
US7945525B2 (en) * | 2007-11-09 | 2011-05-17 | International Business Machines Corporation | Methods for obtaining improved text similarity measures which replace similar characters with a string pattern representation by using a semantic data tree |
US20090132385A1 (en) * | 2007-11-21 | 2009-05-21 | Techtain Inc. | Method and system for matching user-generated text content |
US8077984B2 (en) * | 2008-01-04 | 2011-12-13 | Xerox Corporation | Method for computing similarity between text spans using factored word sequence kernels |
US20090292677A1 (en) * | 2008-02-15 | 2009-11-26 | Wordstream, Inc. | Integrated web analytics and actionable workbench tools for search engine optimization and marketing |
US7958136B1 (en) * | 2008-03-18 | 2011-06-07 | Google Inc. | Systems and methods for identifying similar documents |
JP5224868B2 (ja) * | 2008-03-28 | 2013-07-03 | 株式会社東芝 | 情報推薦装置および情報推薦方法 |
US8145482B2 (en) * | 2008-05-25 | 2012-03-27 | Ezra Daya | Enhancing analysis of test key phrases from acoustic sources with key phrase training models |
US8060513B2 (en) * | 2008-07-01 | 2011-11-15 | Dossierview Inc. | Information processing with integrated semantic contexts |
US8577930B2 (en) * | 2008-08-20 | 2013-11-05 | Yahoo! Inc. | Measuring topical coherence of keyword sets |
US20100250526A1 (en) * | 2009-03-27 | 2010-09-30 | Prochazka Filip | Search System that Uses Semantic Constructs Defined by Your Social Network |
US8306807B2 (en) * | 2009-08-17 | 2012-11-06 | N T repid Corporation | Structured data translation apparatus, system and method |
US20110258054A1 (en) * | 2010-04-19 | 2011-10-20 | Sandeep Pandey | Automatic Generation of Bid Phrases for Online Advertising |
US9560206B2 (en) * | 2010-04-30 | 2017-01-31 | American Teleconferencing Services, Ltd. | Real-time speech-to-text conversion in an audio conference session |
KR101196935B1 (ko) * | 2010-07-05 | 2012-11-05 | 엔에이치엔(주) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 |
US8407215B2 (en) * | 2010-12-10 | 2013-03-26 | Sap Ag | Text analysis to identify relevant entities |
-
2010
- 2010-03-09 CN CN2010101221412A patent/CN102193936B/zh active Active
-
2011
- 2011-03-01 US US12/932,659 patent/US20110225161A1/en not_active Abandoned
- 2011-03-02 WO PCT/US2011/000388 patent/WO2011112236A1/en active Application Filing
- 2011-03-02 EP EP11753706.8A patent/EP2545511A4/en not_active Withdrawn
-
2012
- 2012-01-09 HK HK12100209.3A patent/HK1159815A1/xx unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143600A1 (en) * | 1993-06-18 | 2004-07-22 | Musgrove Timothy Allen | Content aggregation method and apparatus for on-line purchasing system |
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
US6751600B1 (en) * | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
US20090285549A1 (en) * | 2007-01-25 | 2009-11-19 | Fujitsu Limited | Favorite program extracting device and method |
US20090327243A1 (en) * | 2008-06-27 | 2009-12-31 | Cbs Interactive, Inc. | Personalization engine for classifying unstructured documents |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332137A (zh) * | 2011-09-23 | 2012-01-25 | 纽海信息技术(上海)有限公司 | 商品匹配方法及系统 |
CN103377216A (zh) * | 2012-04-24 | 2013-10-30 | 苏州引角信息科技有限公司 | 产品信息库的构建方法及系统 |
CN103729365A (zh) * | 2012-10-12 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
CN104008101A (zh) * | 2013-02-21 | 2014-08-27 | 纽海信息技术(上海)有限公司 | 货物分类检验方法及检验装置 |
CN104008101B (zh) * | 2013-02-21 | 2019-02-12 | 北京京东尚科信息技术有限公司 | 货物分类检验方法及检验装置 |
CN103235822B (zh) * | 2013-05-03 | 2016-05-25 | 富景天策(北京)气象科技有限公司 | 数据库的生成及查询方法 |
CN103235822A (zh) * | 2013-05-03 | 2013-08-07 | 富景天策(北京)气象科技有限公司 | 数据库的生成及查询方法 |
US10678878B2 (en) | 2013-05-20 | 2020-06-09 | Tencent Technology (Shenzhen) Company Limited | Method, device and storing medium for searching |
WO2014187233A1 (en) * | 2013-05-20 | 2014-11-27 | Tencent Technology (Shenzhen) Company Limited | Method,device and storing medium for searching |
CN103294798B (zh) * | 2013-05-27 | 2016-08-31 | 北京尚友通达信息技术有限公司 | 基于二元切词和支持向量机的商品自动分类方法 |
CN103294798A (zh) * | 2013-05-27 | 2013-09-11 | 北京尚友通达信息技术有限公司 | 基于二元切词和支持向量机的商品自动分类方法 |
CN104408635A (zh) * | 2014-12-01 | 2015-03-11 | 银联智惠信息服务(上海)有限公司 | 商户类别信息识别方法和装置 |
CN106570573B (zh) * | 2015-10-13 | 2022-05-27 | 菜鸟智能物流控股有限公司 | 预测包裹属性信息的方法及装置 |
CN106570573A (zh) * | 2015-10-13 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 预测包裹属性信息的方法及装置 |
CN105589847A (zh) * | 2015-12-22 | 2016-05-18 | 北京奇虎科技有限公司 | 带权重的文章标识方法和装置 |
CN105589847B (zh) * | 2015-12-22 | 2019-02-15 | 北京奇虎科技有限公司 | 带权重的文章标识方法和装置 |
CN107203542A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 词组提取方法及装置 |
CN107203507A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 特征词汇提取方法及装置 |
WO2017157200A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 特征词汇提取方法及装置 |
CN107766394A (zh) * | 2016-08-23 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 业务数据处理方法及其系统 |
CN107766394B (zh) * | 2016-08-23 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 业务数据处理方法及其系统 |
CN110147483A (zh) * | 2017-09-12 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 一种标题重建方法及装置 |
CN110147483B (zh) * | 2017-09-12 | 2023-09-29 | 阿里巴巴集团控股有限公司 | 一种标题重建方法及装置 |
CN108171586A (zh) * | 2018-01-23 | 2018-06-15 | 北京值得买科技股份有限公司 | 一种商品聚类方法及装置 |
CN108388555A (zh) * | 2018-02-01 | 2018-08-10 | 口碑(上海)信息技术有限公司 | 基于行业类别的商品去重方法及装置 |
CN108491873B (zh) * | 2018-03-19 | 2019-05-14 | 广州蓝深科技有限公司 | 一种基于数据分析的商品分类方法 |
CN108491873A (zh) * | 2018-03-19 | 2018-09-04 | 广州建翎电子技术有限公司 | 一种基于数据分析的商品分类方法 |
CN109543940A (zh) * | 2018-10-12 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 活动评估方法、装置、电子设备及存储介质 |
CN109543940B (zh) * | 2018-10-12 | 2024-04-09 | 中国平安人寿保险股份有限公司 | 活动评估方法、装置、电子设备及存储介质 |
CN111625620A (zh) * | 2019-02-28 | 2020-09-04 | 北京京东尚科信息技术有限公司 | 信息处理方法和装置 |
CN111723566A (zh) * | 2019-03-21 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 产品信息的重构方法和装置 |
CN111723566B (zh) * | 2019-03-21 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 产品信息的重构方法和装置 |
CN110647630A (zh) * | 2019-09-30 | 2020-01-03 | 浙江执御信息技术有限公司 | 检测同款商品的方法及装置 |
TWI778481B (zh) * | 2020-03-30 | 2022-09-21 | 南韓商韓領有限公司 | 用於基於ai的產品整合及去冗餘的電腦實行系統及使用ai對產品進行整合及去冗餘的方法 |
CN112181968A (zh) * | 2020-09-29 | 2021-01-05 | 京东数字科技控股股份有限公司 | 统一商品信息的方法、装置、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
HK1159815A1 (en) | 2012-08-03 |
EP2545511A1 (en) | 2013-01-16 |
CN102193936B (zh) | 2013-09-18 |
EP2545511A4 (en) | 2016-03-16 |
WO2011112236A1 (en) | 2011-09-15 |
US20110225161A1 (en) | 2011-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102193936B (zh) | 一种数据分类的方法及装置 | |
CN108182279B (zh) | 基于文本特征的对象分类方法、装置和计算机设备 | |
CN106201465B (zh) | 面向开源社区的软件项目个性化推荐方法 | |
CN110458627B (zh) | 一种面向用户动态偏好的商品序列个性化推荐方法 | |
CN103870973B (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
CN109918560B (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN108874921A (zh) | 提取文本特征词的方法、装置、终端设备及存储介质 | |
CN103823896A (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN103559199B (zh) | 网页信息抽取方法和装置 | |
CN103207913A (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN108182605A (zh) | 一种基于用户画像的用户行为预测方法及系统 | |
CN105095434A (zh) | 时效需求识别方法及装置 | |
CN108090178A (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN104951441A (zh) | 一种对对象进行排序的方法及装置 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN103761221A (zh) | 用于识别敏感文本信息的系统和方法 | |
CN104142960A (zh) | 互联网数据分析系统 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
CN113239268A (zh) | 一种商品推荐方法、装置及系统 | |
CN112989053A (zh) | 一种期刊推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1159815 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1159815 Country of ref document: HK |