CN103092861B - 一种商品代表图的选取方法和系统 - Google Patents

一种商品代表图的选取方法和系统 Download PDF

Info

Publication number
CN103092861B
CN103092861B CN201110341926.3A CN201110341926A CN103092861B CN 103092861 B CN103092861 B CN 103092861B CN 201110341926 A CN201110341926 A CN 201110341926A CN 103092861 B CN103092861 B CN 103092861B
Authority
CN
China
Prior art keywords
commodity
commodity image
image
local feature
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110341926.3A
Other languages
English (en)
Other versions
CN103092861A (zh
Inventor
王从德
孔祥衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110341926.3A priority Critical patent/CN103092861B/zh
Publication of CN103092861A publication Critical patent/CN103092861A/zh
Priority to HK13107584.2A priority patent/HK1180414A1/zh
Application granted granted Critical
Publication of CN103092861B publication Critical patent/CN103092861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种商品代表图的选取方法和系统,其中,所述方法包括:提取商品图像集合中各商品图像的局部特征;根据所述各商品图像的局部特征,计算所述商品图像集合中商品图像之间的相似度;按照所述相似度,从所述商品图像集合中选取目标商品图像子类;从所述目标商品图像子类中提取累积相似度最高的商品图像为商品代表图。本申请可以实现海量商品数据中选取商品代表图的自动化,提高商品代表图选取的效率。

Description

一种商品代表图的选取方法和系统
技术领域
本申请涉及图像识别的技术领域,特别是涉及一种商品代表图的选取方法和系统。
背景技术
电子商务(ElectronicCommerce,EC)是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于网络通讯技术,买卖双方可不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付,以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。电子商务涵盖的范围很广,一般可分为企业对企业(Business-to-Business,B2B)、企业对消费者(Business-to-Customer,B2C)或消费者对消费者(Customer-to-Customer,C2C)等模式。近几年来,国内电子商务迅速发展,各种B2B、C2C、B2C模式的电子商务网站(俗称购物网站),如淘宝网、当当网、卓越亚马逊、拍拍网、京东商城等,已被用户认可和接受。
在电子商务网站中,图片是展现商品信息的关键方式。对于同一种商品,可能会有多张商品展示图片。尤其是在C2C模式的购物网站中,往往不同的商家可能会使用内容各异的商品展示图片来表示同一件商品。在这个商品展示图片的集合中,存在一张或多张图片,能较好地表达商品的主要信息,这种图可以称之为商品代表图。在有限的展示位内,选取合适的商品代表图来进行展现,对商家、消费者和购物网站来说都很重要。同时,从技术层面来看,选择合适的商品代表图,能去除冗余信息,是提高系统效率的有效手段。
目前商品代表图的挑选主要是依靠人工选择。由于电子商务网站商品数量的高速增长,人工挑选商品代表图的方式在时间和人力成本上越来越高,以至于无法承受。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种商品代表图的选取机制,用以实现海量商品数据中选取商品代表图的自动化,提高商品代表图选取的效率。
发明内容
本申请的目的在于,提供一种商品代表图的选取方法,用以实现海量商品数据中选取商品代表图的自动化,提高商品代表图选取的效率。
相应的,本申请还提供了一种商品代表图的选取系统,用以保证上述方法在实际中的实现和应用。
为了解决上述问题,本申请公开了一种商品代表图的选取方法,包括:
提取商品图像集合中各商品图像的局部特征;
根据所述各商品图像的局部特征,计算所述商品图像集合中商品图像之间的相似度;
按照所述相似度,从所述商品图像集合中选取目标商品图像子类;
从所述目标商品图像子类中提取累积相似度最高的商品图像为商品代表图。
优选的是,所述按照相似度从所述商品图像集合中选取目标商品图像子类的步骤进一步包括:
当所述商品图像集合中商品图像的数量大于第一预设阈值时,按照所述相似度,对所述商品图像集合中的商品图像进行聚类,获得商品图像子类;
提取商品图像数量大于第二预设阈值的商品图像子类为目标商品图像子类。
优选的是,所述按照相似度从所述商品图像集合中选取目标商品图像子类的步骤进一步包括:
当所述商品图像集合中商品图像的数量小于第一预设阈值时,则直接将所述商品图像集合作为目标商品图像子类。
优选的是,所述经聚类获得的商品图像子类为多个,所提取的目标商品图像子类包括多个,所述的方法还包括:
汇总从多个目标商品图像子类中提取的商品代表图,形成商品代表图集合。
优选的是,所述的方法还包括:
从所述商品代表图集合中进一步提取累积相似度最高的商品图像作为唯一的商品代表图。
优选的是,所述的方法还包括:
定期对所述商品代表图进行增量更新。
优选的是,所述根据各商品图像的局部特征计算商品图像集合中商品图像之间相似度的步骤包括:
当所述商品图像集合中商品图像的数量小于第三预设阈值时,根据所述各商品图像的局部特征两两计算商品图像之间的相似度。
优选的是,所述根据各商品图像的局部特征两两计算商品图像之间相似度的步骤进一步包括:
若第一商品图像的局部特征有a个,第二商品图像的局部特征有b个,并且a<b;则分别针对第一商品图像的某个局部特征,计算第二商品图像中与其向量距离最近的局部特征;
若所述向量距离小于第四预设阈值,则判定所述第一商品图像的当前局部特征与第二商品图像中的当前局部特征为匹配的局部特征对;
按预置规则滤除所述匹配的局部特征对中的错误局部特征对,获得最终匹配的局部特征对;
依据所述最终匹配的局部特征对的数量计算所述第一商品图像和第二商品图像的相似度。
优选的是,所述按预置规则滤除匹配的局部特征对中的错误局部特征,获得最终匹配的局部特征对的步骤进一步包括:
对于第一商品图像中匹配上的局部特征,按所在的行坐标进行排序;
对于第二商品图像中匹配上的局部特征,按照所述第一商品图像中对应匹配的局部特征的顺序,判断是否存在逆序的局部特征;
若是,则判定所述逆序的局部特征所对应的匹配局部特征对为错误局部特征对;
从所有匹配的局部特征对中滤除所述错误局部特征对,获得最终匹配的局部特征对。
优选的是,所述依据最终匹配的局部特征对的数量计算所述第一商品图像和第二商品图像的相似度的步骤进一步包括:
通过以下公式计算所述第一商品图像和第二商品图像的相似度:
m/max(a,b);
其中,m为最终匹配的局部特征对的数量,a为第一商品图像中局部特征的数量,b为第二商品图像中局部特征的数量。
优选的是,所述的方法还包括:
若所有商品图像子类中的商品图像数量均小于第二预设阈值,则选择商品图像数量最多的商品图像子类,作为唯一的目标商品图像子类。
优选的是,所述第一预设阈值为5~10中任一值;所述第二预设阈值为5;所述第三预设阈值为1000;所述第四预设阈值为150~250中任一值。
本申请实施例还公开了一种商品代表图的选取系统,包括:
局部特征提取模块,用于提取商品图像集合中各商品图像的局部特征;
相似度计算模块,用于根据所述各商品图像的局部特征,计算所述商品图像集合中商品图像之间的相似度;
目标子类确定模块,用于按照所述相似度,从所述商品图像集合中选取目标商品图像子类;
商品代表图选取模块,用于从所述目标商品图像子类中提取累积相似度最高的商品图像为商品代表图。
与现有技术相比,本申请包括以下优点:
本申请实施例通过在对商品代表图特性的合理假设下,基于商品图像的内容匹配,基于局部特征的图像相似度计算,自动挑选出商品代表图,从而实现了海量商品数据中选取商品代表图的自动化,提高商品代表图选取的效率。
附图说明
图1是本申请一种商品代表图的选取方法实施例的步骤流程图;
图2是本申请一种商品代表图的选取系统实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的核心构思在于,通过在对商品代表图特性的合理假设下,基于局部特征的图像相似度计算,自动挑选出商品代表图。
参照图1,其示出了本申请一种商品代表图的选取方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、提取商品图像集合中各商品图像的局部特征;
本申请实施例所提出的商品代表图的自动挑选方案,是基于以下两个假设:
1.最典型的商品图像被使用的频率最高;
2.商品或代表商品属性的主要视觉特征,会在内容各异的商品图像中重复出现,即,关于同一商品的不同图像具有相似性。
因而,在本申请实施例中,所述商品图像集合是从不同的商家使用的,表示同一件商品的,内容各异的商品图像集合。在具体实现中,可以通过直接搜索商品的关键属性形成所述商品图像集合。比如,搜索诺基亚N95,可以获取该手机的所有商品图像。或如,搜索某本书的ISBN号,可以获取该书的所有封面图像。
当然,上述商品图像集合收集的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种图像收集方法均是可行的,本申请对此不限制作。
步骤102、根据所述各商品图像的局部特征,计算所述商品图像集合中商品图像之间的相似度;
本申请实施例涉及到基于局部特征的图像相似度计算。相对于图像的颜色、纹理、轮廓等全局特征而言,图像的局部特征是指从图像局部提取的特征,包括图像中的特殊的点、线、区域的形状和尺度等,即局部特征描述的是图像在局部区域的纹理、颜色等信息。基于局部特征的图像相似度计算,是指通过计算两张图像中匹配的局部特征点的数量,来衡量图像的相似度。采用局部特征计算图像的相似度具有良好的不变性和鲁棒性。
对于给定的某商品的一组商品图像集合,可以采用现有技术中的任一种特征提取算法提取各商品图像的局部特征,如Harris角点提取算法、SIFT特征(Scale-invariantfeaturetransform,尺度不变特征转换)提取算法、MSER特征提取算法等,本申请对此无需加以限制。
在本申请的一种优选实施例中,所述步骤102具体可以包括如下子步骤:
子步骤S21,当所述商品图像集合中商品图像的数量小于第三预设阈值时,根据所述各商品图像的局部特征两两计算商品图像之间的相似度。
作为实际应用中的一种示例,所述第三预设阈值可以为1000。也就是说,在当前商品图像集合中商品图像的数量小于1000时,则根据各商品图像的局部特征两两计算商品图像之间的相似度。当然,根据不同的使用场景,所述第三预设阈值还可以设置为其它值,本申请对此不作限制。
更具体而言,可以通过以下操作子步骤根据各商品图像的局部特征两两计算商品图像之间相似度:
子步骤S211、若第一商品图像的局部特征有a个,第二商品图像的局部特征有b个,并且a<b;则分别针对第一商品图像的某个局部特征,计算第二商品图像中与其向量距离最近的局部特征;
子步骤S212、若所述向量距离小于第四预设阈值,则判定所述第一商品图像的当前局部特征与第二商品图像中的当前局部特征为匹配的局部特征对;
作为实际应用中的一种具体示例,若为采用SIFT特征提取算法提取的商品图像中的局部特征,那么所述第四预设阈值可以设置为150~250中的任一值。当然,在具体应用中,对于不同的局部特征,所使用的阈值往往也是不一样的,本申请对所述阈值的设定不作限制。
子步骤S213、按预置规则滤除所述匹配的局部特征对中的错误局部特征对,获得最终匹配的局部特征对;
更为优选的是,所述预置规则可以为:
对于第一商品图像中匹配上的局部特征,按所在的行坐标进行排序;
对于第二商品图像中匹配上的局部特征,按照所述第一商品图像中对应匹配的局部特征的顺序,判断是否存在逆序的局部特征;
若是,则判定所述逆序的局部特征所对应的匹配局部特征对为错误局部特征对;
从所有匹配的局部特征对中滤除所述错误局部特征对,获得最终匹配的局部特征对。
子步骤S214、依据所述最终匹配的局部特征对的数量计算所述第一商品图像和第二商品图像的相似度。
在具体实现中,可以通过以下公式计算所述第一商品图像和第二商品图像的相似度:
m/max(a,b);
其中,m为最终匹配的局部特征对的数量,a为第一商品图像中局部特征的数量,b为第二商品图像中局部特征的数量。
例如,假设从第一商品图像A中提取出的局部特征有a个,从第二商品图像B中提取出的局部特征有b个,且a<b。对于A图中的某个局部特征,计算B图中和它(即A图中的那个局部特征)向量距离最近的局部特征(B图中的局部特征),如果向量距离小于第三预设阈值k,则认为这是一对匹配的局部特征,即匹配的局部特征对,然后针对所有匹配的局部特征对进行错误匹配滤除。所述错误匹配滤除的操作可以为,对于所有匹配上的A图中的局部特征,按行坐标从小到大排序编号。并对于B图中匹配上的对应的局部特征,相应编上A图中对应局部特征的编号。在B图中产生了逆序的匹配特征对,则认为是错误的特征匹配,予以去除。
例如,假设A图中提取的局部特征包括:f1、f2、f3和f4,B图中提取的局部特征包括:f1’、f2’、f3’和f4’,通过计算A图和B图的局部特征之间的向量距离,得到的匹配特征对为{(f1,f1’),(f2,f3’),(f3,f2’),(f4,f4’)}。对A图的局部特征按照行坐标从小到大排序,并进行编号为(f1->1,f2->2,f3->3,f4->4),然后对B图中相应的局部特征,按照A图对应局部特征的编号进行编号为(f1’->1,f2’->3,f3’->2,f4’->4)。由于f3’的编号比f2’的编号大,所以判定这里产生了逆序,于是将(f3,f2’)这组匹配特征对去除掉。最终得到的匹配特征对为3对,采用上述相似度计算公式,计算A图和B图的相似度为3/max(5,4)=0.6。
步骤103、当所述商品图像集合中商品图像的数量大于第一预设阈值时,按照所述相似度对所述商品图像集合中的商品图像进行聚类,获得商品图像子类;
作为本申请实施例具体应用的一种示例,所述第一预设阈值可以为5~10中任一值。当然,本申请对所述阈值的设置并不加以限制。
在具体应用中,本领域技术人员可以根据实际情况采用任一种聚类算法按照相似度对所述商品图像集合中的商品图像进行聚类,如KMEANS聚类算法,聚类算法通常涉及以下操作步骤:
第一步,随机选择T张图片作为聚类中心;
第二步,计算每个图片和聚类中心的距离,将该图片归到距离最近的中心所在的那个类;
第三步,更新每个类的中心,选择每个类中和其他图片平均相似度最高的图片作为聚类中心;
第四步,迭代上述第二步和第三步,直到每个类的聚类中心不再变化。
对于本领域技术人员实际采用何种聚类算法,本申请并不加以限制。
在具体实现中,当所述商品图像集合中商品图像的数量小于第一预设阈值时,则可以直接将所述商品图像集合作为目标商品图像子类。
步骤104、提取商品图像数量大于第二预设阈值的商品图像子类为目标商品图像子类;
统计每个商品图像子类中的商品图像数量。将商品图像数量大于第二预设阈值的子类,作为目标商品图像子类。
在具体实现中,若所有商品图像子类中的商品图像数量均小于第二预设阈值,则可以选择商品图像数量最多的商品图像子类,作为唯一的目标商品图像子类。
作为本申请实施例具体应用的一种示例,所述第二预设阈值可以为5。当然,本申请对所述阈值的设置并不加以限制。
步骤105、从所述目标商品图像子类中提取累积相似度最高的商品图像为商品代表图。
对于每个目标商品图像子类,统计每张商品图像的累积相似度,即计算当前商品图像和目标商品图像子类里面其他商品图像的相似度之和。把累积相似度最高的商品图像作为该目标商品图像子类的商品代表图。
例如,假设某目标商品图像子类中有A、B、C三张商品图像,A图与B图的相似度为similarity(A,B)=0.5,A图与C图的相似度为similarity(A,C)=0.6,B图与C图的相似度为similarity(B,C)=0.7。在这种情况下,可以计算出:
A图的累积相似度为similarity(A,B)+similarity(A,C)=0.5+0.6=1.1;
B图的累积相似度为similarity(A,B)+similarity(B,C)=0.5+0.7=1.2;
C图的累积相似度为similarity(A,C)+similarity(B,C)=0.6+0.7=1.3。
由于C图的累积相似度最高,所以C是这个目标商品图像子类中的商品代表图。
在具体实现中,可能需要多张商品代表图,则可以直接汇总从多个目标商品图像子类中提取的商品代表图,形成商品代表图集合。
在某些应用中,可能只需要一张商品代表图,则可以将商品代表图集合作为一个类,从所述商品代表图集合中进一步提取累积相似度最高的商品图像作为唯一的商品代表图。如果是从唯一目标商品图像子类中提取的商品代表图,则得到的就是唯一的商品代表图。
为使本领域技术人员更好地理解本申请,以下提供几种本申请实施例在实际应用中的示例。
示例一、去除冗余的商品图像。
采用本申请实施例所选取出来的商品代表图的重要性,要高于其他非商品代表图像。在某些存储和计算资源比较紧张的情况下,可以只使用商品代表图,比如,图像搜索引擎可以只索引商品代表图,而无需进行全局搜索。
示例二、排查不恰当的商品主图。
对于某一个已经发布,或正在发布的商品,可以通过其商品ID(或者商品的主要属性,比如书籍的ISBN号)和商品库中的商品进行匹配,然后将卖家提供的商品主图和商品代表图一一比对,如果都不满足一定的相似性要求,则认为该商品使用了不恰当的商品主图。
示例三、协助卖家挑选商品代表图。
对于某一个已经发布,或正在发布的的商品,判断卖家是否使用了不恰当的商品主图(如采用上述示例二判断)。若是,则提示卖家可以使用商品代表图集合中的一张图像替换当前的商品主图。
当然,上述应用仅仅用作示例说明,本申请对所述商品代表图的应用情形无需加以限制。
在具体实现中,本申请实施例还可以包括以下步骤:
定期对所述商品代表图进行增量更新。
增量更新可以有效节约资源,提高数据更新的效率。作为一种示例,所述增量更新可以按照如下方式进行:
对于某个商品图像集合,定期搜索图片源,发现同一商品的新增图像以后,按以下步骤做增量更新:
第一步:将新增的商品图像和商品图像子类的中心进行相似度计算,将新增的商品图像归入距离中心最近的那个类。如果这个类已经是目标商品图像子类,进行第二步,否则进行第三步。
第二步:新增的商品图像归入的这个类已经是目标商品图像子类,表示已经有子类的商品代表图。计算新增的商品图像的累积相似度,判断是否大于原有子类中商品代表图的累积相似度。若是,则用新增图片替换原有子类中商品代表图,作为新的子类的商品代表图。
第三步:新增的商品图像归入的这个类还不是目标商品图像子类,加入新增的商品图像后,若商品图像数量上述大于第二预设阈值,满足作为目标商品图像子类的条件,则将该类增选为目标商品图像子类,并计算出其中每张图像的累积相似度,得到该子类商品代表图。将该子类商品代表图加入商品代表图集合。然后进行第四步。
第四步:如果商品代表图集合有变化,比如有替换或新增,同时又需要唯一商品代表图,则重新对代表图集合计算唯一商品代表图。
当然,上述增量更新的方法也仅仅用作示例,在实际中,本领域技术人员采用任一种增量更新的方法,或采用全量更新的方法也都是可行的,本申请对此不作限制。
需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参考图2,其示出了一种商品代表图的选取系统实施例的结构框图,具体可以包括如下模块:
局部特征提取模块201,用于提取商品图像集合中各商品图像的局部特征;
相似度计算模块202,用于根据所述各商品图像的局部特征,计算所述商品图像集合中商品图像之间的相似度;
目标子类确定模块203,用于按照所述相似度,从所述商品图像集合中选取目标商品图像子类;
商品代表图选取模块204,用于从所述目标商品图像子类中提取累积相似度最高的商品图像为商品代表图。
在本申请的一种优选实施例中,所述目标子类确定模块203可以包括如下子模块:
聚类子模块,用于在所述商品图像集合中商品图像的数量大于第一预设阈值时,按照所述相似度,对所述商品图像集合中的商品图像进行聚类,获得商品图像子类;
子类提取子模块,用于提取商品图像数量大于第二预设阈值的商品图像子类为目标商品图像子类;
在本申请的另一种优选实施例中,所述目标子类确定模块203可以包括如下子模块:
目标子类直接确定子模块,用于当所述商品图像集合中商品图像的数量小于第一预设阈值时,则直接将所述商品图像集合作为目标商品图像子类。
在本申请的一种优选实施例中,所述经聚类获得的商品图像子类可以为多个,所提取的目标商品图像子类也包括多个,在具体实现中,可能需要多张商品代表图,在这种情况下,本申请实施例还可以包括如下模块:
商品代表图汇总模块,用于汇总从多个目标商品图像子类中提取的商品代表图,形成商品代表图集合。
在某些应用中,可能只需要一张商品代表图,在这种情况下,本申请实施例还可以包括如下模块:
唯一商品代表图确定模块,用于从所述商品代表图集合中进一步提取累积相似度最高的商品图像作为唯一的商品代表图。
在具体实现中,本申请实施例还可以包括如下模块:
增量更新模块,用于定期对所述商品代表图进行增量更新。
在本申请的一种优选实施例中,所述相似度计算模块可以包括如下子模块:
两两计算子模块,用于当所述商品图像集合中商品图像的数量小于第三预设阈值时,根据所述各商品图像的局部特征两两计算商品图像之间的相似度。
作为本申请优选实施例具体应用的一种示例,所述两两计算子模块进一步包括以下单元:
向量距离计算单元,用于在第一商品图像的局部特征有a个,第二商品图像的局部特征有b个,并且a<b时,分别针对第一商品图像的某个局部特征,计算第二商品图像中与其向量距离最近的局部特征;
匹配特征对确定单元,用于在所述向量距离小于第四预设阈值时,判定所述第一商品图像的当前局部特征与第二商品图像中的当前局部特征为匹配的局部特征对;
错误特征滤除单元,用于按预置规则滤除所述匹配的局部特征对中的错误局部特征对,获得最终匹配的局部特征对;
计算单元,用于依据所述最终匹配的局部特征对的数量计算所述第一商品图像和第二商品图像的相似度。
更为优选的是,所述错误特征滤除单元进一步包括以下子单元:
排序子单元,用于对于第一商品图像中匹配上的局部特征,按所在的行坐标进行排序;
查错子单元,用于对于第二商品图像中匹配上的局部特征,按照所述第一商品图像中对应匹配的局部特征的顺序,判断是否存在逆序的局部特征;若是,则判定所述逆序的局部特征所对应的匹配局部特征对为错误局部特征对;
滤除子单元,用于从所有匹配的局部特征对中滤除所述错误局部特征对,获得最终匹配的局部特征对。
在实际中,所述计算单元可以通过以下公式计算所述第一商品图像和第二商品图像的相似度:
m/max(a,b);
其中,m为最终匹配的局部特征对的数量,a为第一商品图像中局部特征的数量,b为第二商品图像中局部特征的数量。
在具体实现中,本申请实施例还可以包括以下模块:
目标商品图像子类确定模块,用于在若所有商品图像子类中的商品图像数量均小于第二预设阈值时,选择商品图像数量最多的商品图像子类,作为唯一的目标商品图像子类。
作为本申请实施例具体应用的示例,所述第一预设阈值可以为5——10中任一值;所述第二预设阈值可以为5;所述第三预设阈值可以为1000;所述第四预设阈值可以为150——250中任一值。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上对本申请所提供的一种商品代表图的选取方法和一种商品代表图的选取系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种商品代表图的选取方法,其特征在于,包括:
提取商品图像集合中各商品图像的局部特征;
根据所述各商品图像的局部特征,计算所述商品图像集合中商品图像之间的相似度;
按照所述相似度,从所述商品图像集合中选取目标商品图像子类;
从所述目标商品图像子类中提取累积相似度最高的商品图像为商品代表图,所述累积相似度为当前商品图像和目标商品图像子类里面其他商品图像的相似度之和;
其中,所述按照相似度从所述商品图像集合中选取目标商品图像子类的步骤进一步包括:
当所述商品图像集合中商品图像的数量大于第一预设阈值时,按照所述相似度,对所述商品图像集合中的商品图像进行聚类,获得商品图像子类;
提取商品图像数量大于第二预设阈值的商品图像子类为目标商品图像子类。
2.根据权利要求1所述的方法,其特征在于,所述按照相似度从所述商品图像集合中选取目标商品图像子类的步骤进一步包括:
当所述商品图像集合中商品图像的数量小于第一预设阈值时,则直接将所述商品图像集合作为目标商品图像子类。
3.根据权利要求1所述的方法,其特征在于,所述经聚类获得的商品图像子类为多个,所提取的目标商品图像子类包括多个,所述的方法还包括:
汇总从多个目标商品图像子类中提取的商品代表图,形成商品代表图集合。
4.根据权利要求3所述的方法,其特征在于,还包括:
从所述商品代表图集合中进一步提取累积相似度最高的商品图像作为唯一的商品代表图。
5.根据权利要求1或2或3或4所述的方法,其特征在于,还包括:
定期对所述商品代表图进行增量更新。
6.根据权利要求1或2或3或4所述的方法,其特征在于,所述根据各商品图像的局部特征计算商品图像集合中商品图像之间相似度的步骤包括:
当所述商品图像集合中商品图像的数量小于第三预设阈值时,根据所述各商品图像的局部特征两两计算商品图像之间的相似度。
7.根据权利要求6所述的方法,其特征在于,所述根据各商品图像的局部特征两两计算商品图像之间相似度的步骤进一步包括:
若第一商品图像的局部特征有a个,第二商品图像的局部特征有b个,并且a<b;则分别针对第一商品图像的某个局部特征,计算第二商品图像中与其向量距离最近的局部特征;
若所述向量距离小于第四预设阈值,则判定所述第一商品图像的当前局部特征与第二商品图像中的当前局部特征为匹配的局部特征对;
按预置规则滤除所述匹配的局部特征对中的错误局部特征对,获得最终匹配的局部特征对;
依据所述最终匹配的局部特征对的数量计算所述第一商品图像和第二商品图像的相似度。
8.根据权利要求7所述的方法,其特征在于,所述按预置规则滤除匹配的局部特征对中的错误局部特征,获得最终匹配的局部特征对的步骤进一步包括:
对于第一商品图像中匹配上的局部特征,按所在的行坐标进行排序;
对于第二商品图像中匹配上的局部特征,按照所述第一商品图像中对应匹配的局部特征的顺序,判断是否存在逆序的局部特征;
若是,则判定所述逆序的局部特征所对应的匹配局部特征对为错误局部特征对;
从所有匹配的局部特征对中滤除所述错误局部特征对,获得最终匹配的局部特征对。
9.根据权利要求8所述的方法,其特征在于,所述依据最终匹配的局部特征对的数量计算所述第一商品图像和第二商品图像的相似度的步骤进一步包括:
通过以下公式计算所述第一商品图像和第二商品图像的相似度:
m/max(a,b);
其中,m为最终匹配的局部特征对的数量,a为第一商品图像中局部特征的数量,b为第二商品图像中局部特征的数量。
10.根据权利要求1或2或3或4所述的方法,其特征在于,还包括:
若所有商品图像子类中的商品图像数量均小于第二预设阈值,则选择商品图像数量最多的商品图像子类,作为唯一的目标商品图像子类。
11.根据权利要求7或8或9所述的方法,其特征在于,所述第一预设阈值为5~10中任一值;所述第二预设阈值为5;所述第三预设阈值为1000;所述第四预设阈值为150~250中任一值。
12.一种商品代表图的选取系统,其特征在于,包括:
局部特征提取模块,用于提取商品图像集合中各商品图像的局部特征;
相似度计算模块,用于根据所述各商品图像的局部特征,计算所述商品图像集合中商品图像之间的相似度;
目标子类确定模块,用于按照所述相似度,从所述商品图像集合中选取目标商品图像子类;
商品代表图选取模块,用于从所述目标商品图像子类中提取累积相似度最高的商品图像为商品代表图,所述累积相似度为当前商品图像和目标商品图像子类里面其他商品图像的相似度之和;
其中,所述目标子类确定模块包括:
聚类子模块,用于在所述商品图像集合中商品图像的数量大于第一预设阈值时,按照所述相似度,对所述商品图像集合中的商品图像进行聚类,获得商品图像子类;
子类提取子模块,用于提取商品图像数量大于第二预设阈值的商品图像子类为目标商品图像子类。
CN201110341926.3A 2011-11-02 2011-11-02 一种商品代表图的选取方法和系统 Active CN103092861B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110341926.3A CN103092861B (zh) 2011-11-02 2011-11-02 一种商品代表图的选取方法和系统
HK13107584.2A HK1180414A1 (zh) 2011-11-02 2013-06-28 種商品代表圖的選取方法和系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110341926.3A CN103092861B (zh) 2011-11-02 2011-11-02 一种商品代表图的选取方法和系统

Publications (2)

Publication Number Publication Date
CN103092861A CN103092861A (zh) 2013-05-08
CN103092861B true CN103092861B (zh) 2016-01-06

Family

ID=48205441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110341926.3A Active CN103092861B (zh) 2011-11-02 2011-11-02 一种商品代表图的选取方法和系统

Country Status (2)

Country Link
CN (1) CN103092861B (zh)
HK (1) HK1180414A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090882B (zh) 2013-11-14 2016-06-01 深圳市腾讯计算机系统有限公司 一种广告订单的快速聚类方法及系统、服务器
CN104376052B (zh) * 2014-11-03 2017-07-14 杭州淘淘搜科技有限公司 一种基于商品图像的同款商品合并方法
CN106294425B (zh) * 2015-05-26 2019-11-19 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及系统
CN106557728B (zh) * 2015-09-30 2019-06-18 佳能株式会社 查询图像处理和图像检索方法和装置以及监视系统
CN106919591A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 网站的产品展示方法及装置
CN105844302A (zh) * 2016-04-07 2016-08-10 南京新与力文化传播有限公司 基于深度学习的自动计算商品潮流指数的方法
CN106453351A (zh) * 2016-10-31 2017-02-22 重庆邮电大学 基于Web页面特征的金融类钓鱼网页检测方法
CN107330750B (zh) * 2017-05-26 2019-03-08 北京三快在线科技有限公司 一种推荐产品配图方法及装置,电子设备
CN111783805A (zh) * 2019-04-04 2020-10-16 京东方科技集团股份有限公司 图像检索方法及装置、电子设备、可读存储介质
CN110209854B (zh) * 2019-05-06 2021-08-31 无线生活(北京)信息技术有限公司 图片确定方法及装置
CN110222177A (zh) * 2019-05-24 2019-09-10 雷恩友力数据科技南京有限公司 一种基于k-均值聚类算法的初始聚类中心确定方法及装置
CN112115901A (zh) * 2020-09-25 2020-12-22 广州市派客朴食信息科技有限责任公司 一种高准确度的食物识别方法
CN112686123A (zh) * 2020-12-25 2021-04-20 科大讯飞股份有限公司 虚假视频检测方法和装置、电子设备及存储介质
CN115482415A (zh) * 2022-09-21 2022-12-16 北京沃东天骏信息技术有限公司 模型训练方法、图像分类方法和装置
CN117453936B (zh) * 2023-10-19 2024-03-26 山东三木众合信息科技股份有限公司 一种数据整理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888469A (zh) * 2009-05-13 2010-11-17 富士通株式会社 图像处理方法和图像处理设备
CN101937549A (zh) * 2010-10-09 2011-01-05 姚建 网络购物导航系统
CN102024049A (zh) * 2010-12-08 2011-04-20 中国科学院自动化研究所 一种用于电子商务平台上的图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009155991A1 (en) * 2008-06-27 2009-12-30 Nokia Corporation Image retrieval based on similarity search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101888469A (zh) * 2009-05-13 2010-11-17 富士通株式会社 图像处理方法和图像处理设备
CN101937549A (zh) * 2010-10-09 2011-01-05 姚建 网络购物导航系统
CN102024049A (zh) * 2010-12-08 2011-04-20 中国科学院自动化研究所 一种用于电子商务平台上的图像检索方法

Also Published As

Publication number Publication date
HK1180414A1 (zh) 2013-10-18
CN103092861A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103092861B (zh) 一种商品代表图的选取方法和系统
Cavallo Are online and offline prices similar? Evidence from large multi-channel retailers
CN107330445B (zh) 用户属性的预测方法和装置
WO2022156529A1 (zh) 企业用户的商品推荐方法和装置
CN102722481B (zh) 一种用户收藏夹数据的处理方法及搜索方法
TWI512653B (zh) Information providing method and apparatus, method and apparatus for determining the degree of comprehensive relevance
CN109033101B (zh) 标签推荐方法及装置
CN106021337A (zh) 一种基于大数据分析的智能推荐方法及系统
CN111400507B (zh) 实体匹配方法及其装置
CN110033097B (zh) 基于多个数据域确定用户与物品的关联关系的方法及装置
CN112966763A (zh) 一种分类模型的训练方法、装置、电子设备及存储介质
CN104820879A (zh) 一种用户行为信息的分析方法和装置
US20160063081A1 (en) Multidimensional Graph Analytics
CN105023178B (zh) 一种基于本体的电子商务推荐方法
CN102346751A (zh) 一种信息推送方法及设备
CN106484698A (zh) 一种搜索关键词的推送方法和装置
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
CN105303447A (zh) 利用网络信息进行信用评级的方法和系统
CN115423555A (zh) 一种商品推荐方法、装置、电子设备及存储介质
CN107451157B (zh) 异常数据识别方法、装置及系统、搜索方法及装置
CN110020171A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN114741433B (zh) 一种社群挖掘方法、装置、设备及存储介质
Mohammadnezhad et al. An effective model for improving the quality of recommender systems in mobile e-tourism
CN115293291A (zh) 排序模型的训练方法、排序方法、装置、电子设备及介质
CN113761002A (zh) 信息推送方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1180414

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1180414

Country of ref document: HK