CN104090882B - 一种广告订单的快速聚类方法及系统、服务器 - Google Patents

一种广告订单的快速聚类方法及系统、服务器 Download PDF

Info

Publication number
CN104090882B
CN104090882B CN201310567574.2A CN201310567574A CN104090882B CN 104090882 B CN104090882 B CN 104090882B CN 201310567574 A CN201310567574 A CN 201310567574A CN 104090882 B CN104090882 B CN 104090882B
Authority
CN
China
Prior art keywords
advertisement
advertising image
image
advertisement order
orders
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310567574.2A
Other languages
English (en)
Other versions
CN104090882A (zh
Inventor
黄丕培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201310567574.2A priority Critical patent/CN104090882B/zh
Publication of CN104090882A publication Critical patent/CN104090882A/zh
Priority to PCT/CN2014/091135 priority patent/WO2015070798A1/en
Priority to US15/151,899 priority patent/US9977995B2/en
Application granted granted Critical
Publication of CN104090882B publication Critical patent/CN104090882B/zh
Priority to US15/957,276 priority patent/US10650274B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及互联网技术领域,公开一种广告订单的快速聚类方法及系统、服务器,该方法包括:从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。实施本发明实施例,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。

Description

一种广告订单的快速聚类方法及系统、服务器
技术领域
本发明涉及互联网技术领域,具体涉及一种广告订单的快速聚类方法及系统、服务器。
背景技术
在广告推荐中,通常会存在大量不同的广告订单包含完全相同或极其相似的广告图像的情况,在一些较为极端的情况下,甚至会有多达数千条不同的广告订单包含完全相同或极其相似的广告图像。而在实践中发现,包含完全相同或极其相似的广告图像的不同广告订单所携带的冗余信息通常是不同的,这导致了这类广告订单的稀疏分散,从而影响了这类广告订单投放的效果。
发明内容
本发明实施例公开了一种广告订单的快速聚类方法及系统、服务器,用于实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
本发明实施例第一方面公开了一种广告订单的快速聚类方法,包括:
从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
利用所述广告图像的场景全局语义特征,获取所述广告图像的图像指纹;
根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
本发明实施例第二方面公开了一种广告订单的快速聚类系统,包括:
特征提取单元,用于从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
指纹获取单元,用于利用所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
相似度计算单元,用于根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
第一判断单元,用于判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
存储单元,用于在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
本发明实施例第三方面公开了一种用于广告订单快速聚类的服务器,所述服务器用于:
从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
本发明实施例中,从广告订单包含的广告图像中提取出该广告图像的场景全局语义特征后,可以利用该广告图像的场景全局语义特征获取该广告图像的图像指纹,在此基础上,可以根据获取的任意两条广告订单包含的广告图像的图像指纹计算这任意两条广告订单的相似度,并且在判断这任意两条广告订单的相似度超过预设的相似度阈值时,将这任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。本发明实施例中,任意两条广告订单的相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施本发明实施例,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种广告订单的快速聚类方法的流程图;
图2是本发明实施例公开的一种普通Hash算法与LSH算法进行GIST特征聚类时的效果对比图;
图3是本发明实施例公开的一种根据SimHash算法和广告图像的GIST特征获取该广告图像的图像指纹的过程示意图;
图4是本发明实施例公开的另一种广告订单的快速聚类方法的流程图;
图5是本发明实施例公开的一种完全相同或极其相似的广告图像的广告订单的示意图;
图6是本发明实施例公开的一种采用计算层、收集层分开作业的方式来执行广告订单的快速聚类的方法流程图;
图7是本发明实施例公开的一种广告订单的快速聚类系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种广告订单的快速聚类方法及系统,用于实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种广告订单的快速聚类方法的流程图。其中,图1所描述的广告订单的快速聚类方法适用于各种需要进行广告投放的服务器。如图1所示,该广告订单的快速聚类方法可以包括以下步骤。
S101、从广告订单包含的广告图像中提取出该广告图像的场景全局语义(GIST)特征。
本发明实施例中,可以由服务器从广告订单包含的广告图像中提取出该广告图像的场景全局语义(GIST)特征。
本发明实施例中,GIST特征作为一种图像全局特征的描述算子,可以描述自然度、开放度、粗糙度、膨胀度及险峻度这五种空间包络,适用于场景识别与广告图像的相似度检索。
本发明实施例中,步骤S101中的广告订单可以是已投放的广告订单,也可以是待投放的广告订单,本发明实施例不作限定。
S102、根据该广告图像的GIST特征获取该广告图像的图像指纹。
本发明实施例中,可以由服务器根据该广告图像的GIST特征并结合局部敏感哈希(LocalSensitiveHashing,LSH)算法获取该广告图像的图像指纹。
本发明实施例中,与普通Hash算法相比较,使用LSH算法可以实现更好的GIST特征聚类。如图2所示,圆点表示广告图像中相同或相似GIST特征,使用LSH算法可以实现比普通Hash算法更好的GIST特征聚类,从而可以为后续利用该广告图像的GIST特征并结合LSH算法获取该广告图像的图像指纹做准备。
本发明实施例中,服务器具体可以根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹。其中,SimHash算法作为LSH算法中的一种高效的降维技术,它可以将高维向量映射为位数较小的指纹,并能保留原始特征的汉明相似度关系,其中,根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹的过程具体可以描述如下:
(1)、将f维的GIST特征向量V初始化为0,f位的二进制S初始化为0。
(2)、对每一维GIST特征:用传统的hash算法对该特征产生一个f位的签名b。对i从1到f:如果b的第i位为1,则V的第i个元素加上该维GIST特征的权重;否则,V的第i个元素减去该维GIST特征的权重。
(3)如果V的第i个元素大于0,则S的第i位为1,否则为0。
(4)输出S作为该广告图像的图像指纹。
如图3所示,对每一维的GIST特征,可以采用传统的hash算法对该特征产生一个6位的签名b(如100110),并且利用hash算法产生的各个签名b和权重进行运算,最终可以输出一个6位的图像指纹110001。
S103、根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的相似度。
本发明实施例中,可以由服务器根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的相似度。
本发明实施例中,服务器可以根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为这任意两条广告订单的汉明相似度。
举例来说,若获取的任意两条广告订单包含的广告图像的图像指纹之间有n(n大于等于1)个相同比特位的比特值不同,则这任意两条广告订单的汉明相似度为n。
S104、判断这任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将这任意两条广告订单存储至数据库中的同一聚类标识(ID)对应的广告订单集合中。
本发明实施例中,可以由服务器判断这任意两条广告订单的汉明相似度是否超过预设的相似度阈值,如果是,可以由服务器将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。
本发明实施例中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中,可以实现包含完全相同或极其相似的广告图像的这任意两条广告订单的快速聚类,进一步地,后续可以充分利用已投放的这类广告订单的投放路径来指导快速聚类的这类广告订单的精准投放,从而有利于提升这类广告订单投放效果。
在图1所描述的方法中,从广告订单包含的广告图像中提取出该广告图像的GIST特征后,可以根据LSH算法和该广告图像的GIST特征获取该广告图像的图像指纹,在此基础上,可以根据获取的任意两条广告订单包含的广告图像的图像指纹计算这任意两条广告订单的汉明相似度,并且在判断这任意两条广告订单的汉明相似度超过预设的相似度阈值时,将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。在图1所描述的方法中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图1所描述的方法,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
请参阅图4,图4是本发明实施例公开的一种广告订单的快速聚类方法的流程图。其中,图4所描述的广告订单的快速聚类方法适用于各种需要进行广告投放的服务器。如图4所示,该广告订单的快速聚类方法可以包括以下步骤。
S401、服务器收集广告订单,该广告订单包括广告订单ID和广告图像,广告图像携带有统一资源定位符(UniformResourceLocator,URL)。
本发明实施例中,步骤S201中服务器收集的广告订单可以是已投放的广告订单,也可以是待投放的广告订单,本发明实施例不作限定。
S402、服务器从广告订单包含的广告图像中提取出该广告图像的GIST特征。
本发明实施例中,GIST特征作为一种图像全局特征的描述算子,可以描述自然度、开放度、粗糙度、膨胀度及险峻度这五种空间包络,适用于场景识别与广告图像的相似度检索。
S403、服务器根据LSH算法和该广告图像的GIST特征,获取该广告图像的图像指纹。
本发明实施例中,服务器具体可以根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹。其中,SimHash算法作为LSH算法中的一种高效的降维技术,它可以将高维向量映射为位数较小的指纹,并能保留原始特征的汉明相似度关系,其中,根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹的过程具体可以描述如下:
(1)、将f维的向量V初始化为0,f位的二进制S初始化为0。
(2)、对每一维GIST特征:用传统的hash算法对该特征产生一个f位的签名b。对i从1到f:如果b的第i位为1,则V的第i个元素加上该维GIST特征的权重;否则,V的第i个元素减去该维GIST特征的权重。
(3)如果V的第i个元素大于0,则S的第i位为1,否则为0。
(4)输出S作为该广告图像的图像指纹。
本发明实施例中,使用SimHash算法的主要优点有:
A、一次性扫描数据完成聚类,快速。
B、不需要指定聚类中心个数,适合分布式环境。
C、生成的图像指纹在一定程度上表征两广告订单之间的相似度,为使用MinHash算法再对图像指纹进行进一步的聚类压缩,提供了可能。
S404、服务器根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的汉明相似度。
本发明实施例中,服务器可以根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为这任意两条广告订单的汉明相似度。
举例来说,若获取的任意两条广告订单包含的广告图像的图像指纹之间有n(n大于等于1)个相同比特位的比特值不同,则这任意两条广告订单的汉明相似度为n。
S405、服务器判断这任意两条广告订单的汉明相似度是否超过预设的相似度阈值,如果是,执行步骤S406;如果否,结束本流程。
本发明实施例中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像。
举例来说,如图5所示,图5中的a、b两条广告订单均包含了完全相同或极其相似的广告图像,则服务器判断这任意两条广告订单的汉明相似度超过预设的相似度阈值。
本发明实施例中,预设的相似度阈值的大小可以根据实际需要进行设置,本发明实施例不作限定。
S406、服务器将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。
本发明实施例中,将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中,可以实现包含完全相同或极其相似的广告图像的这任意两条广告订单的快速聚类,进一步地,后续可以充分利用已投放的这类广告订单的投放路径来指导快速聚类的这类广告订单的精准投放,从而有利于提升这类广告订单投放效果。
S407、服务器收集待投放广告订单,待投放广告订单包括广告订单ID和广告图像,广告图像携带有URL。
S408、服务器判断待投放广告订单包括的广告图像携带的URL是否与数据库中任意一条广告订单包含的广告图像携带的URL相同,若是,则执行步骤S409;若否,结束本流程。
S409、服务器将待投放广告订单存储至该任意一条广告订单所属的广告订单集合中。
在图4所描述的方法中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图4所描述的方法,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
本发明实施例中,上述图1、图2所描述的方法在具体实现中,可以采用计算层、收集层分开作业的方式来进行,其中,计算层主要在流程内完成收集广告订单、广告图像的相似度计算和聚类,收集层主要在流程内收集广告订单,更新数据库中的广告订单所属的广告订单集合,从而可以有效地保证了整个系统的实时性,降低了系统的出错率。
请参阅图6,图6是本发明实施例公开的一种采用计算层、收集层分开作业的方式来执行广告订单的快速聚类的方法流程图。如图6所示,计算层主要在流程内完成收集广告订单、提取广告图像的GIST特征、广告图像的相似度计算和广告订单聚类,进一步地,如图6所示,在计算层中,可以从广告订单更新数据库中收集广告订单,还可以将广告图像的GIST特征存储到GIST特征数据库。而收集层主要在流程内收集广告订单,更新数据库中的广告订单所属的广告订单集合,进一步地,收集层还可以将收集的广告订单按照广告订单集合中已投放广告订单的投放路径,将收集的广告订单上传至分布式文件系统(HDFS)进行发布,从而可以提高收集的广告订单投放效果。
请参阅图7,图7是本发明实施例公开的一种广告订单的快速聚类系统的结构图。如图7所示,该广告订单的快速聚类系统700可以包括:
特征提取单元701,用于从广告订单包含的广告图像中提取出该广告图像的GIST特征;
指纹获取单元702,用于利用该广告图像的GIST特征获取该广告图像的图像指纹;
相似度计算单元703,用于根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的相似度;
第一判断单元704,用于判断这任意两条广告订单的相似度是否超过预设的相似度阈值;
存储单元705,用于在第一判断单元的判断结果为是时,将相似度计算单元703计算汉明相似度的这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。
本发明实施例中,指纹获取单元702具体用于利用广告图像的场景全局语义特征并结合LSH算法获取广告图像的图像指纹。
在一个实施例中,图7所示的广告订单的快速聚类系统700还可以包括:
收集单元706,用于在特征提取单元701从广告订单包含的广告图像中提取出该广告图像的GIST特征之前,收集广告订单,广告订单包括广告订单ID和广告图像,广告图像携带有URL。
相应地,特征提取单元701可以从收集单元706收集的广告订单包含的广告图像中提取出该广告图像的GIST特征。
在一个实施例中,相似度计算单元703具体用于根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为这任意两条广告订单的汉明相似度。
在一个实施例中,收集单元706还用于在存储单元705将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中之后,收集待投放广告订单,待投放广告订单包括广告订单ID和广告图像,广告图像携带有URL;
相应地,图7所示的广告订单的快速聚类系统700还可以包括:
第二判断单元707,用于判断待投放广告订单包括的广告图像携带的URL是否与数据库中任意一条广告订单包含的广告图像携带的URL相同;
相应地,存储单元705还用于在第二判断单元707的判断结果为相同时,将待投放广告订单存储至该任意一条广告订单所属的广告订单集合中。
本发明实施例中,LSH算法包括Simhash算法。其中,使用SimHash算法的主要优点有:
A、一次性扫描数据完成聚类,快速。
B、不需要指定聚类中心个数,适合分布式环境。
C、生成的图像指纹在一定程度上表征两广告订单之间的相似度,为使用MinHash算法再对图像指纹进行进一步的聚类压缩,提供了可能。
在图7所描述的系统中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图7所描述的系统,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
本发明实施例还公开了一种用于广告订单快速聚类的服务器,所述服务器用于:
从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
在一个实施方式中,所述服务器从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征之前,还执行以下操作:
收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
在一个实施方式中,所述服务器利用所述广告图像的场景全局语义特征获取所述广告图像的图像指纹的方式具体为:
根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告图像的图像指纹。
在一个实施方式中,所述服务器根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度的方式具体为:
根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告订单的汉明相似度。
在一个实施方式中,所述服务器将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中之后,还执行以下操作包括:
收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中任意一条广告订单包含的广告图像携带的URL相同;
若相同,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合中。
在上述服务器中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施上述描述的服务器,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
本领域普通技术人员可以理解图1所描述的方法中的全部或部分步骤是可以通过程序来指令服务器相关的硬件来完成,该程序可以存储于交易平台服务器一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-OnlyMemory,ROM)、随机存取器(RandomAccessMemory,RAM)、磁盘或光盘等。
以上对本发明实施例公开的广告订单的快速聚类方法及系统、服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种广告订单的快速聚类方法,其特征在于,包括:
从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征,所述场景全局语义特征作为一种图像全局特征的描述算子,所述广告订单为已投放的广告订单或待投放的广告订单;
根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
2.根据权利要求1所述的方法,其特征在于,所述从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征之前,所述方法还包括:
收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
3.根据权利要求2所述的方法,其特征在于,所述根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹包括:
根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告图像的图像指纹。
4.根据权利要求3所述的方法,其特征在于,所述根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度包括:
根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告订单的汉明相似度。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中之后,所述方法还包括:
收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL;
判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中任意一条广告订单包含的广告图像携带的URL相同;
若相同,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合中。
6.根据权利要求3所述的方法,其特征在于,所述局部敏感哈希LSH算法包括SimHash算法。
7.一种广告订单的快速聚类系统,其特征在于,包括:
特征提取单元,用于从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征,所述场景全局语义特征作为一种图像全局特征的描述算子,所述广告订单为已投放的广告订单或待投放的广告订单;
指纹获取单元,用于根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
相似度计算单元,用于根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
第一判断单元,用于判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
存储单元,用于在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
收集单元,用于在所述特征提取单元从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征之前,收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
9.根据权利要求8所述的系统,其特征在于,
所述指纹获取单元,用于根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告图像的图像指纹。
10.根据权利要求9所述的系统,其特征在于,
所述相似度计算单元,用于根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告订单的汉明相似度。
11.根据权利要求8~10任一项所述的系统,其特征在于,
所述收集单元,还用于在所述存储单元将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中之后,收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL;
所述系统还包括:
第二判断单元,用于判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中任意一条广告订单包含的广告图像携带的URL相同;
所述存储单元,还用于在所述第二判断单元的判断结果为相同时,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合中。
12.根据权利要求9所述的系统,其特征在于,所述局部敏感哈希LSH算法包括SimHash算法。
CN201310567574.2A 2013-11-14 2013-11-14 一种广告订单的快速聚类方法及系统、服务器 Active CN104090882B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310567574.2A CN104090882B (zh) 2013-11-14 2013-11-14 一种广告订单的快速聚类方法及系统、服务器
PCT/CN2014/091135 WO2015070798A1 (en) 2013-11-14 2014-11-14 Image clustering method, image clustering system, and image clustering server
US15/151,899 US9977995B2 (en) 2013-11-14 2016-05-11 Image clustering method, image clustering system, and image clustering server
US15/957,276 US10650274B2 (en) 2013-11-14 2018-04-19 Image clustering method, image clustering system, and image clustering server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310567574.2A CN104090882B (zh) 2013-11-14 2013-11-14 一种广告订单的快速聚类方法及系统、服务器

Publications (2)

Publication Number Publication Date
CN104090882A CN104090882A (zh) 2014-10-08
CN104090882B true CN104090882B (zh) 2016-06-01

Family

ID=51638598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310567574.2A Active CN104090882B (zh) 2013-11-14 2013-11-14 一种广告订单的快速聚类方法及系统、服务器

Country Status (3)

Country Link
US (2) US9977995B2 (zh)
CN (1) CN104090882B (zh)
WO (1) WO2015070798A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090882B (zh) 2013-11-14 2016-06-01 深圳市腾讯计算机系统有限公司 一种广告订单的快速聚类方法及系统、服务器
US10200381B2 (en) 2015-08-05 2019-02-05 Mcafee, Llc Systems and methods for phishing and brand protection
CN107292642B (zh) * 2016-03-31 2020-12-08 苏宁云计算有限公司 一种基于图像的商品推荐方法及系统
US10977481B2 (en) * 2016-06-24 2021-04-13 Skusub LLC System and method for object matching using 3D imaging
CN109003107B (zh) * 2017-06-06 2020-12-04 北京嘀嘀无限科技发展有限公司 区域划分方法及装置
CN108629015A (zh) * 2018-05-08 2018-10-09 多盟睿达科技(中国)有限公司 一种快速分类移动广告方法及系统
WO2020132895A1 (en) 2018-12-25 2020-07-02 Zhejiang Dahua Technology Co., Ltd. Systems and methods for image segmentation
CN110580507B (zh) * 2019-09-02 2023-04-07 同济大学 一种城市肌理分类识别方法
CN112668635B (zh) * 2020-12-25 2022-05-27 浙江大华技术股份有限公司 图像归档方法、装置、设备及计算机存储介质
CN114549090B (zh) * 2022-04-25 2022-07-19 深圳市明珞锋科技有限责任公司 一种根据批发订单进行季度数据核算的数据处理系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365879A (zh) * 2012-03-29 2013-10-23 北京百度网讯科技有限公司 一种用于获取页面相似度的方法与设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101162470B (zh) * 2007-11-16 2011-04-20 北京交通大学 一种基于分层匹配的视频广告识别方法
CN101710334B (zh) * 2009-12-04 2012-01-25 大连理工大学 基于图像哈希的大规模图像库检索方法
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
CA2814401C (en) 2010-11-11 2013-12-31 Google Inc. Vector transformation for indexing, similarity search and classification
CN103092861B (zh) * 2011-11-02 2016-01-06 阿里巴巴集团控股有限公司 一种商品代表图的选取方法和系统
KR101916665B1 (ko) * 2011-12-05 2018-11-09 한국전자통신연구원 만화 출판물에 대한 핑거프린팅 시스템 및 방법
US9239848B2 (en) * 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
CN103294676A (zh) * 2012-02-24 2013-09-11 北京明日时尚信息技术有限公司 一种基于gist全局特征和sift局部特征的网络图片内容重复检测方法
CN103324650A (zh) * 2012-10-23 2013-09-25 深圳市宜搜科技发展有限公司 一种图像检索方法及系统
US9785655B2 (en) * 2013-04-04 2017-10-10 Ramot At Tel-Aviv University Ltd. Dynamic maps for exploring and browsing of images
KR101463864B1 (ko) * 2013-08-07 2014-11-21 (주)엔써즈 직접 반응 광고 검출 및 분류 시스템 및 방법
CN104090882B (zh) 2013-11-14 2016-06-01 深圳市腾讯计算机系统有限公司 一种广告订单的快速聚类方法及系统、服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365879A (zh) * 2012-03-29 2013-10-23 北京百度网讯科技有限公司 一种用于获取页面相似度的方法与设备

Also Published As

Publication number Publication date
CN104090882A (zh) 2014-10-08
WO2015070798A1 (en) 2015-05-21
US20180239986A1 (en) 2018-08-23
US9977995B2 (en) 2018-05-22
US10650274B2 (en) 2020-05-12
US20160253577A1 (en) 2016-09-01

Similar Documents

Publication Publication Date Title
CN104090882B (zh) 一种广告订单的快速聚类方法及系统、服务器
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
Harouni et al. Online Persian/Arabic script classification without contextual information
CN102982153B (zh) 一种信息检索方法及其装置
JP5917719B2 (ja) 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体
CN110765770A (zh) 一种合同自动生成方法及装置
CN105354307A (zh) 一种图像内容识别方法及装置
CN104199842B (zh) 一种基于局部特征邻域信息的相似图片检索方法
JP6211407B2 (ja) 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
CN106156755A (zh) 一种人脸识别中的相似度计算方法及系统
CN103324650A (zh) 一种图像检索方法及系统
CN106294350A (zh) 一种文本聚合方法及装置
CN109886330A (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
CN105740808A (zh) 人脸识别方法和装置
CN103345496A (zh) 多媒体信息检索方法和系统
CN103049496A (zh) 一种对多个用户进行用户群划分的方法、装置与设备
CN104636492B (zh) 一种基于模糊积分特征融合的动态数据分级方法
CN112307133A (zh) 安全防护方法、装置、计算机设备及存储介质
CN103744903B (zh) 一种基于草图的场景图像检索方法
CN106802958A (zh) Cad数据到gis数据的转换方法及系统
CN104699783A (zh) 基于个性化视觉字典自适应调整的社交图像检索方法
CN104462151A (zh) 评估网页发布时间的方法和相关装置
Wang et al. Temperature forecast based on SVM optimized by PSO algorithm
CN103902965A (zh) 空域共生图像表示方法及其在图像分类、识别中的应用
CN107423294A (zh) 一种社群图像检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant