CN102193936B - 一种数据分类的方法及装置 - Google Patents

一种数据分类的方法及装置 Download PDF

Info

Publication number
CN102193936B
CN102193936B CN2010101221412A CN201010122141A CN102193936B CN 102193936 B CN102193936 B CN 102193936B CN 2010101221412 A CN2010101221412 A CN 2010101221412A CN 201010122141 A CN201010122141 A CN 201010122141A CN 102193936 B CN102193936 B CN 102193936B
Authority
CN
China
Prior art keywords
commodity
participle
segmentation sequence
related data
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010101221412A
Other languages
English (en)
Other versions
CN102193936A (zh
Inventor
钟灵
刘华雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2010101221412A priority Critical patent/CN102193936B/zh
Priority to US12/932,659 priority patent/US20110225161A1/en
Priority to EP11753706.8A priority patent/EP2545511A4/en
Priority to PCT/US2011/000388 priority patent/WO2011112236A1/en
Priority to JP2012557037A priority patent/JP2013522719A/ja
Publication of CN102193936A publication Critical patent/CN102193936A/zh
Priority to HK12100209.3A priority patent/HK1159815A1/xx
Application granted granted Critical
Publication of CN102193936B publication Critical patent/CN102193936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

本申请涉及数字处理领域,公开了一种商品分类的方法及装置,用于提高商品分类流程的执行效率。该方法为:获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。

Description

一种数据分类的方法及装置
技术领域
本申请涉及数据处理领域,特别涉及一种数据分类的方法及装置。
背景技术
在电子商务网站中,各种商品数据通常是以文本、数据表等形式进行存储。一个电子商务网站所需要管理的商品数据数以千万计,因此,如何将商品数据按照其描述的信息内容进行分类,将相似的商品数据进行统一管理,以降低系统的管理复杂度,减轻系统的运行负荷,是电子商务网站运营时首先需要考虑的问题。
目前,在各类电子商务网站内,通常采用聚类算法对各种商品数据进行分类,即根据预设的一系列规则、条件,通过相似性分析,将商品数据划分为多种类别。现有技术下,最常采用的聚类算法是分层聚类算法。
所谓分层聚类算法,是一种自底向上的策略,即首先将每个分类对象作为单独的一个原子簇,然后合并这些原子簇为级别更高的簇,直到所有的分类对象均集中在同一个簇中,或者,达到某个终止条件。
在电子商务网站中,一件商品的相关数据通常包括多种,例如,商品的标识、类目、属性等等。而电子商务网站内设置的商品数目数以万计,相应地,其相关数据可多达数十万种,如,一件商品归属的类目为“手机”,该商品的某一属性为“手机品牌”,而该属性的取值可以为“A品牌”或“B品牌”等等。因此,采用分层聚类算法对电子商务网站中的各种商品的相关数据进行分类,计算量非常大,以致于单机无法完成,需要服务器集群进行统一计算。显然,这会大大地浪费系统资源,也耗费大量的计算时间,从而不能及时有效地完成商品的相关数据的分类,降低了商品相关数据分类流程的执行效率。
发明内容
本申请实施例提供一种数据分类的方法及装置,用以提高商品相关数据分类流程的执行效率。
本申请实施例提供的具体实施方式如下:
一种数据分类的方法,包括:
获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并;
分别计算任意两类商品的分词序列的相似度,将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。
一种用于进行商品分类的装置,包括:
提取单元,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
划分单元,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
选取单元,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
合并单元,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并,分别计算任意两类商品的分词序列的相似度,再将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,以及将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。
本申请实施例中,通过从商品标题和属性信息中划分并提取出的分词序列,来标识某一类商品,并将分词序列相同的商品进行合并,这样,这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。
附图说明
图1为本申请实施例中管理装置功能结构图;
图2为本申请实施例中对商品数据进行分类流程图;
图3为本申请实施例中对分类结果进行优化流程图。
具体实施方式
为了提高商品相关数据分类流程的执行效率,减轻系统的运行负荷,本申请实施例中,在进行商品相关数据分类时,获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
其中,将分词序列相同的商品进行合并时,包括将分词序列相同的商品的相关数据直接进行合并;或者,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。以下实施例中,将以第二种情况为例进行说明。
下面结合附图对本申请优选的实施方式进行详细说明。
参阅图1所示,本申请实施例中,用于进行商品分类的管理装置包括提取单元10、划分单元11、选取单元12和合并单元13,其中,
提取单元10,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
划分单元11,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
选取单元12,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
合并单元13,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。
参阅图1所示,本实施例中,上述管理装置进一步包括处理单元14,用于针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。
基于上述原理,参阅图2所示,本申请实施例中,管理装置对电子商务网站内包含的所有商品数据进行分类的详细流程如下:
步骤200:获取需要进行分类的各商品的相关数据,并提取出其中的商品标题及相应的属性信息。
通常情况下,用户在电子商务网站发布商品信息时,会在商品发布网页中填写各种信息,如标题、属性等。填写好的网页由用户客户端上传至网站服务器。网站服务器接收到该网页后,提取网页中包含的标题信息。并对该标题进行分词处理。例如,某电吹风的标题为:**品牌D3506型号电吹风,显然,商品标题中往往包含有可以区分该商品的关键字,因此,对商品标题的提取是很必要的。
而商品的属性信息中往往包含针对商品的详细描述,例如,某电吹风的属性信息为:上市时间、颜色类型、风嘴形态、市场价、人气指数等等。本申请实施例中,属性及属性值均以ID形式进行设置,如,某商品的颜色属性为绿色,可以表示为:属性A:2000,A为颜色属性的ID,2000为绿色的ID。本实施例中,在进行商品合并时同时考虑了商品标题和属性信息的相同程度,因此,在步骤200中同时提取了商品标识和属性信息。实际应用中,也可以在执行商品合并的步骤中再提取属性信息,步骤200仅为举例。
步骤210:对各商品标题进行分词,并确定各分词的权重,其中,分词的权重用于表示该分词的历史出现频率相关信息;如、用户历史搜索次数,或/和商户设置次数及分布概率。
本实施例中,采用hadoop分布式计算系统(hadoop是一种分布式计算的框架),对商品标题和属性信息进行分词。例如,将商品标题“**品牌D3506型号电吹风”划分为以下分词:“**品牌”、“D3506型号”和“电吹风”。本实施例中,较佳地,可以使用分布式的hadoop,即采用多台(如,50台到300台)机器组成的运算集群来执行hadoop程序。
为了提高分词的精准性,本实施例中,较佳地,在执行完分词操作后,管理装置根据数据库中的历史参考信息,将能够反映商品品牌、产品类型的核心分词进行保留,如,“**品牌”、“**款式”等等,相应地,需要将对商品分类没有参考价值的多余分词进行删除,如“正品”、“促销”、“特价”等等。
步骤220:针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列。
本实施例中,所谓的预设条件设置为:在商品标题中选取权重取值最高的两个分词、以及从属性信息中选取权重取值最高的五个分词。以上预设条件仅为举例,分词的选取方式和选取数量可以根据实际应用环境而自行设定,在此不再赘述。
步骤230:将针对各商品选取的分词序列进行比较,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。
本实施例中,将商品的相关数据进行合并,即是将这些商品归属至同一类目下,例如,将各商品的相关数据以同一组文本或数据表的形式进行存储,在后续管理中,将其作为同一种商品进行呈现、发布、修改等等操作。
本实施例中,根据步骤200~步骤230将各商品的相关数据进行分类后,为每一类商品设置一商品ID,用于唯一标识该类商品,实际试验数据表明,采用上述方法,可以将实际涵盖几亿商品的电子商务网站中商品的数量,归类缩减至几千万左右的商品类目,从而大大减少了电子商务网站的管理对象的数目,降低了商品相关数据的管理复杂度,减轻了网站的运算负担。
执行完上述步骤后,针对步骤210中获得的分词的划分结果,需要重新调整各分词的权重,调整权重的操作可以在步骤210执行完毕后立即执行,也可以在步骤200~步骤230全部执行完毕后再执行。其中,较佳地,需要对包含产品型号的分词的权重进行重点设置,因为产品型号由数字字母等符号组成,在商品分类过程中的参考价值最大,因此,针对产品型号这一类型的分词,需要将其权重值设置得较高。
基于上述实施例,为了进一步提高商品归类结果的准确性,本实施例中,在执行完步骤200~步骤230后,在针对分类完毕的各类商品分别设置相应的商品ID之前,需要对分类结果作进一步优化,参阅图3所示,优化的详细流程如下:
步骤300:根据分类结果确定用于区分每一类商品的分词序列。
所谓的分词序列即是执行步骤200~步骤230后,获得的每一类商品的标志性分词组合,例如,经过分词后,将商品标题和属性信息中包含分词“**品牌”,“**款式”、“红颜色”、“DF0753”和“L码”的商品归属至同一类中,那么,该类商品的分词序列即是“**品牌款式红颜色DF0753L码”。
步骤310:分别计算任意两类商品的分词序列的相似度。
本实施例中,采用以下公式计算任意两类商品的分词序列的相似度:
Figure GDA00003110818300061
其中,TD1和TD2为分别进行比较的两类商品的分词序列,例如,
TD1=(word11,score11),(word12,score12),(word13,score13)
TD2=(word21,score21),(word22,score22),(word23,score23)
word为某分词,score为其权重。
Prop1和prop2为分别进行比较的两类商品对应的主属性值(主属性,也就是重要的属性,例如手机最重要的属性就是品牌和型号,而颜色、重量就是一般的属性。主属性值表示具体的属性,例如:品牌是一个主属性,通过余弦计算相似性的大小。相似性最大,两个商品就越相似。
λ是一个控制权重的系数。λ1和λ2是不同的两个系数。在计算相似性的时候,分别表明是标题重要还是属性更重要。在λ1=2,λ2=1的时候。就表明标题的重要性是属性重要性的两倍。
a,b为预设的参量,n1和n2分别用于表示进行相似度比较的两类商品中各自包含的商品数目,a、b用于控制相似度的取值,以间接控制两类商品进行合并的可能性,如,当两类商品各自包含的商品数目都很多时,可以通过a和b的取值对相似度的取值进行调节,令采用
Figure GDA00003110818300071
计算得到的相似度取值变小,从而使两类商品被合并在一起的机会变小。
例如,a=50,b=20n1=100,n2==10,那么,
相似度=e-λ1*|TD1-TD2|*e-λ2*|prop1-prop2|*1/(1+e^(50/20))=1/(1+e^2.5)=0.07585818≈7%。
步骤320:将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品进行合并。
例如,在步骤310中,计算得到两类商品的分词序列的相似度为7%,假设设定阈值为5,则相似度取值远远小于设定阈值,这说明,这两类商品不能进行合并。
之所以执行上述步骤300-步骤320,是因为分词序列不同的两类商品也可能是同一种商品,只是商户设置的商品标题和属性信息不完全相同而已,因此,通过执行步骤300~步骤320对步骤200~步骤230中获得的分类结果进行优化,使其更为精确。实际应用中,若为了进一步优化分类结果,可以将步骤300~步骤320按照设定次数进行多数迭代,使最终获得的分类结果中包含的商品类目进一步缩减。
采用上述方法,可以缩减几千万左右的商品,进一步缩减至几百万,同时整个过程只需要几个小时,从而再次大大减少了电子商务网站的管理对象的数目,也进一步降低了其管理商品相关数据的复杂度,减轻了其运算负担。
综上所述,本申请实施例中,通过从商品标题和属性信息中划分并提取出的分词序列,来标识某一类商品,并将分词序列相同的商品的相关数据进行合并,这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。
基于上述方案,本申请实施例中,继续通过分词序列之间的相似度来实现分类结果的优化,从而进一步提高了分类结果的准确性,也进一步减少了需要处理的商品数据的数量,提高了商品分类流程的执行效率。
显然,本领域的技术人员可以对本申请中的实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例中的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请中的实施例也意图包含这些改动和变型在内。

Claims (11)

1.一种数据分类的方法,其特征在于,包括: 
获取需要进行分类的各商品的相关数据,并提取出其中的商品标题; 
对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率; 
针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列; 
将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并; 
分别计算任意两类商品的分词序列的相似度,将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。 
2.如权利要求1所述的方法,其特征在于,对各商品标题进行分词划分后,根据划分结果,调整各分词的权重取值。 
3.如权利要求1所述的方法,其特征在于,所述将分词序列相同的商品的相关数据进行合并,包括: 
将分词序列相同的商品的相关数据直接进行合并; 
或者 
获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。 
4.如权利要求1所述的方法,其特征在于,计算所述任意两类商品的分词序列的相似度时,采用以下公式: 
Figure FDA00003110818200011
其中,TD1和TD2为分别进行比较的两类商品的分词序列,prop1和prop2为分别进行比较的两类商品对应的主属性值,λ1和λ2是预设的控制系数,a 和b为预设的参量,n1和n2分别用于表示进行相似度比较的两类商品中各自包含的商品数目 。
5.如权利要求1所述的方法,其特征在于,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并后,按照预设次数执行迭代操作。 
6.如权利要求1、2或3所述的方法,其特征在于,针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。 
7.一种用于进行商品分类的装置,其特征在于,包括: 
提取单元,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题; 
划分单元,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率; 
选取单元,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列; 
合并单元,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并,分别计算任意两类商品的分词序列的相似度,再将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,以及将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。 
8.如权利要求7所述的装置,其特征在于,所述划分单元对各商品标题进行分词划分后,根据划分结果,调整各分词的权重取值。 
9.如权利要求7所述的装置,其特征在于,所述合并单元将分词序列相同的商品的相关数据进行合并时,将分词序列相同的商品的相关数据直接进行合并;或者,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。 
10.如权利要求7所述的装置,其特征在于,所述合并单元将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并后,按照预设次数执行迭代操作。 
11.如权利要求7、8或9所述的装置,其特征在于,还包括: 
处理单元,用于针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。 
CN2010101221412A 2010-03-09 2010-03-09 一种数据分类的方法及装置 Active CN102193936B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2010101221412A CN102193936B (zh) 2010-03-09 2010-03-09 一种数据分类的方法及装置
US12/932,659 US20110225161A1 (en) 2010-03-09 2011-03-01 Categorizing products
EP11753706.8A EP2545511A4 (en) 2010-03-09 2011-03-02 CATEGORIZATION OF PRODUCTS
PCT/US2011/000388 WO2011112236A1 (en) 2010-03-09 2011-03-02 Categorizing products
JP2012557037A JP2013522719A (ja) 2010-03-09 2011-03-02 製品のカテゴリ分類
HK12100209.3A HK1159815A1 (en) 2010-03-09 2012-01-09 Method and apparatus for data categorizing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101221412A CN102193936B (zh) 2010-03-09 2010-03-09 一种数据分类的方法及装置

Publications (2)

Publication Number Publication Date
CN102193936A CN102193936A (zh) 2011-09-21
CN102193936B true CN102193936B (zh) 2013-09-18

Family

ID=44560907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101221412A Active CN102193936B (zh) 2010-03-09 2010-03-09 一种数据分类的方法及装置

Country Status (5)

Country Link
US (1) US20110225161A1 (zh)
EP (1) EP2545511A4 (zh)
CN (1) CN102193936B (zh)
HK (1) HK1159815A1 (zh)
WO (1) WO2011112236A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统
US20130268328A1 (en) * 2012-04-09 2013-10-10 Yahoo! Inc. Generating a deal score to indicate a relative value of an offer
CN103377216A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 产品信息库的构建方法及系统
CN103577989B (zh) * 2012-07-30 2017-11-14 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类系统
US9110983B2 (en) * 2012-08-17 2015-08-18 Intel Corporation Traversing data utilizing data relationships
CN103678335B (zh) * 2012-09-05 2017-12-08 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN103729365A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN104008101B (zh) * 2013-02-21 2019-02-12 北京京东尚科信息技术有限公司 货物分类检验方法及检验装置
US9436919B2 (en) 2013-03-28 2016-09-06 Wal-Mart Stores, Inc. System and method of tuning item classification
US9483741B2 (en) 2013-03-28 2016-11-01 Wal-Mart Stores, Inc. Rule-based item classification
CN103235822B (zh) * 2013-05-03 2016-05-25 富景天策(北京)气象科技有限公司 数据库的生成及查询方法
US10678878B2 (en) 2013-05-20 2020-06-09 Tencent Technology (Shenzhen) Company Limited Method, device and storing medium for searching
CN104077337B (zh) * 2013-05-20 2015-11-25 腾讯科技(深圳)有限公司 搜索方法及装置
CN103294798B (zh) * 2013-05-27 2016-08-31 北京尚友通达信息技术有限公司 基于二元切词和支持向量机的商品自动分类方法
US10489842B2 (en) * 2013-09-30 2019-11-26 Ebay Inc. Large-scale recommendations for a dynamic inventory
CN103544264A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种商品标题优化工具
US20150331936A1 (en) * 2014-05-14 2015-11-19 Faris ALQADAH Method and system for extracting a product and classifying text-based electronic documents
US9607098B2 (en) 2014-06-02 2017-03-28 Wal-Mart Stores, Inc. Determination of product attributes and values using a product entity graph
CN104408635A (zh) * 2014-12-01 2015-03-11 银联智惠信息服务(上海)有限公司 商户类别信息识别方法和装置
CN106570573B (zh) * 2015-10-13 2022-05-27 菜鸟智能物流控股有限公司 预测包裹属性信息的方法及装置
CN105589847B (zh) * 2015-12-22 2019-02-15 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN106919543A (zh) * 2015-12-24 2017-07-04 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
CN107203542A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 词组提取方法及装置
CN107203507B (zh) * 2016-03-17 2019-08-13 阿里巴巴集团控股有限公司 特征词汇提取方法及装置
CN107766394B (zh) * 2016-08-23 2021-12-21 阿里巴巴集团控股有限公司 业务数据处理方法及其系统
US10200759B1 (en) * 2017-07-28 2019-02-05 Rovi Guides, Inc. Systems and methods for identifying and correlating an advertised object from a media asset with a demanded object from a group of interconnected computing devices embedded in a living environment of a user
CN110147483B (zh) * 2017-09-12 2023-09-29 阿里巴巴集团控股有限公司 一种标题重建方法及装置
CN108171586A (zh) * 2018-01-23 2018-06-15 北京值得买科技股份有限公司 一种商品聚类方法及装置
CN108388555A (zh) * 2018-02-01 2018-08-10 口碑(上海)信息技术有限公司 基于行业类别的商品去重方法及装置
CN108491873B (zh) * 2018-03-19 2019-05-14 广州蓝深科技有限公司 一种基于数据分析的商品分类方法
CN111625620A (zh) * 2019-02-28 2020-09-04 北京京东尚科信息技术有限公司 信息处理方法和装置
CN111723566B (zh) * 2019-03-21 2024-01-23 阿里巴巴集团控股有限公司 产品信息的重构方法和装置
CN110647630A (zh) * 2019-09-30 2020-01-03 浙江执御信息技术有限公司 检测同款商品的方法及装置
US20210304121A1 (en) * 2020-03-30 2021-09-30 Coupang, Corp. Computerized systems and methods for product integration and deduplication using artificial intelligence
CN112181968A (zh) * 2020-09-29 2021-01-05 京东数字科技控股股份有限公司 统一商品信息的方法、装置、系统及存储介质
US11829396B1 (en) * 2022-01-25 2023-11-28 Wizsoft Ltd. Method and system for retrieval based on an inexact full-text search

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US5331554A (en) * 1992-12-10 1994-07-19 Ricoh Corporation Method and apparatus for semantic pattern matching for text retrieval
US5438628A (en) * 1993-04-19 1995-08-01 Xerox Corporation Method for matching text images and documents using character shape codes
US6714933B2 (en) * 2000-05-09 2004-03-30 Cnet Networks, Inc. Content aggregation method and apparatus for on-line purchasing system
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US6742003B2 (en) * 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US7076485B2 (en) * 2001-03-07 2006-07-11 The Mitre Corporation Method and system for finding similar records in mixed free-text and structured data
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US20040093200A1 (en) * 2002-11-07 2004-05-13 Island Data Corporation Method of and system for recognizing concepts
WO2004049110A2 (en) * 2002-11-22 2004-06-10 Transclick, Inc. Language translation system and method
US7516070B2 (en) * 2003-02-19 2009-04-07 Custom Speech Usa, Inc. Method for simultaneously creating audio-aligned final and verbatim text with the assistance of a speech recognition program as may be useful in form completion using a verbal entry method
JP4466564B2 (ja) * 2003-09-08 2010-05-26 日本電気株式会社 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
JP4366249B2 (ja) * 2004-06-02 2009-11-18 パイオニア株式会社 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置
CN100550014C (zh) * 2004-10-29 2009-10-14 松下电器产业株式会社 信息检索装置
US8903827B2 (en) * 2004-10-29 2014-12-02 Ebay Inc. Method and system for categorizing items automatically
EP1848192A4 (en) * 2005-02-08 2012-10-03 Nippon Telegraph & Telephone END DEVICE, SYSTEM, METHOD AND PROGRAM FOR INFORMATION COMMUNICATION AND RECORDING MEDIUM WHICH RECORDED THE PROGRAM
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US7574449B2 (en) * 2005-12-02 2009-08-11 Microsoft Corporation Content matching
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US7698140B2 (en) * 2006-03-06 2010-04-13 Foneweb, Inc. Message transcription, voice query and query delivery system
US20100138451A1 (en) * 2006-04-03 2010-06-03 Assaf Henkin Techniques for facilitating on-line contextual analysis and advertising
US20070294610A1 (en) * 2006-06-02 2007-12-20 Ching Phillip W System and method for identifying similar portions in documents
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal
CN101496011B (zh) * 2006-11-09 2011-08-03 松下电器产业株式会社 内容检索装置
WO2008090609A1 (ja) * 2007-01-25 2008-07-31 Fujitsu Limited 嗜好番組抽出装置
US8122032B2 (en) * 2007-07-20 2012-02-21 Google Inc. Identifying and linking similar passages in a digital text corpus
US7945525B2 (en) * 2007-11-09 2011-05-17 International Business Machines Corporation Methods for obtaining improved text similarity measures which replace similar characters with a string pattern representation by using a semantic data tree
US20090132385A1 (en) * 2007-11-21 2009-05-21 Techtain Inc. Method and system for matching user-generated text content
US8077984B2 (en) * 2008-01-04 2011-12-13 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
US20090292677A1 (en) * 2008-02-15 2009-11-26 Wordstream, Inc. Integrated web analytics and actionable workbench tools for search engine optimization and marketing
US7958136B1 (en) * 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents
JP5224868B2 (ja) * 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
US8214346B2 (en) * 2008-06-27 2012-07-03 Cbs Interactive Inc. Personalization engine for classifying unstructured documents
US8060513B2 (en) * 2008-07-01 2011-11-15 Dossierview Inc. Information processing with integrated semantic contexts
US8577930B2 (en) * 2008-08-20 2013-11-05 Yahoo! Inc. Measuring topical coherence of keyword sets
US20100250526A1 (en) * 2009-03-27 2010-09-30 Prochazka Filip Search System that Uses Semantic Constructs Defined by Your Social Network
US8306807B2 (en) * 2009-08-17 2012-11-06 N T repid Corporation Structured data translation apparatus, system and method
US20110258054A1 (en) * 2010-04-19 2011-10-20 Sandeep Pandey Automatic Generation of Bid Phrases for Online Advertising
US9560206B2 (en) * 2010-04-30 2017-01-31 American Teleconferencing Services, Ltd. Real-time speech-to-text conversion in an audio conference session
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8407215B2 (en) * 2010-12-10 2013-03-26 Sap Ag Text analysis to identify relevant entities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103605815B (zh) * 2013-12-11 2016-08-31 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法

Also Published As

Publication number Publication date
EP2545511A4 (en) 2016-03-16
CN102193936A (zh) 2011-09-21
WO2011112236A1 (en) 2011-09-15
HK1159815A1 (en) 2012-08-03
US20110225161A1 (en) 2011-09-15
EP2545511A1 (en) 2013-01-16

Similar Documents

Publication Publication Date Title
CN102193936B (zh) 一种数据分类的方法及装置
CN108182279B (zh) 基于文本特征的对象分类方法、装置和计算机设备
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN107357793B (zh) 信息推荐方法和装置
US7885859B2 (en) Assigning into one set of categories information that has been assigned to other sets of categories
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
CN103838756A (zh) 一种确定推送信息的方法及装置
CN110909182A (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN105095210A (zh) 一种筛选推广关键词的方法和装置
CN103810162A (zh) 推荐网络信息的方法和系统
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN105095434A (zh) 时效需求识别方法及装置
KR102344075B1 (ko) 데이터 마이닝기반 온라인 마케팅 플랫폼
CN106776859A (zh) 基于用户偏好的移动应用App推荐系统
CN111581923A (zh) 文案生成方法、装置、设备和计算机可读存储介质
CN106919997B (zh) 一种基于lda的电子商务的用户消费预测方法
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN113704620B (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
CN112801425B (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
CN107766576A (zh) 一种微博用户兴趣特征的提取方法
Jiang et al. Durable product review mining for customer segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1159815

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1159815

Country of ref document: HK