CN112069348A - 对象匹配方法、装置和服务平台 - Google Patents

对象匹配方法、装置和服务平台 Download PDF

Info

Publication number
CN112069348A
CN112069348A CN202010940333.8A CN202010940333A CN112069348A CN 112069348 A CN112069348 A CN 112069348A CN 202010940333 A CN202010940333 A CN 202010940333A CN 112069348 A CN112069348 A CN 112069348A
Authority
CN
China
Prior art keywords
picture
information
candidate
similarity
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010940333.8A
Other languages
English (en)
Inventor
田俊文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010940333.8A priority Critical patent/CN112069348A/zh
Publication of CN112069348A publication Critical patent/CN112069348A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出一种对象匹配方法、装置和服务平台,涉及数据处理技术领域。本公开的一种对象匹配方法,包括:获取第一对象的图片和预定维度的特征信息;根据第一对象的图片和待选对象的图片,获取候选对象集合,并获取候选对象集合中的对象与第一对象的图片相似度信息;根据第一对象的预定维度的特征信息和候选对象集合中对象的预定维度的特征信息,获取候选对象集合中的对象与第一对象的预定维度的相似度信息;根据图片相似度信息和预定维度的相似度信息,基于机器学习模型在候选对象集合中确定一个或多个第二对象。通过这样的方法,能够使对象的匹配不受编码的限制,提高了对象匹配的全面性。

Description

对象匹配方法、装置和服务平台
技术领域
本公开涉及数据处理技术领域,特别是一种对象匹配方法、装置和服务平台。
背景技术
随着线上购物平台的丰富化、渠道的多样化发展,不同的商家可能会在同一平台上线同一物品。同一物品的产品本身参数可以相同或相似,同时也会存在某些不同之处,如价格、服务等。
相关技术中往往需要利用物品独一无二的物品编码,通过编码匹配的方式实现相同物品的识别。
发明内容
本公开的一个目的在于提高对象匹配的全面性。
根据本公开的一些实施例的一个方面,提出一种对象匹配方法,包括:获取第一对象的图片和预定维度的特征信息;根据的图片和待选对象的图片,获取候选对象集合,并获取候选对象集合中的对象与第一对象的图片相似度信息;根据第一对象的预定维度的特征信息和候选对象集合中对象的预定维度的特征信息,获取候选对象集合中的对象与第一对象的预定维度的相似度信息;根据图片相似度信息和预定维度的相似度信息,基于机器学习模型在候选对象集合中确定一个或多个第二对象。
在一些实施例中,预定维度包括对象的标题、对象的价格、对象归属的类目、或对象属性中的一项或多项,其中,对象属性包括对象产地、编码、尺寸、重量、保质期或颜色中的一项或多项。
在一些实施例中,根据第一对象的图片和待选对象的图片,获取候选对象集合,并获取候选对象集合中的对象与第一对象的图片相似度信息包括:从第一对象的图片中获取非混乱背景的第一对象图片;确定待选对象的图片与非混乱背景的第一对象图片的相似度;获取待选对象中,对象的图片与非混乱背景的第一对象图片的相似度超过预定相似度阈值的对象,形成候选对象集合;将候选对象集合中的对象的图片与非混乱背景的第一对象图片的相似度,作为对应对象与第一对象的图片相似度信息。
在一些实施例中,从第一对象的图片中获取非混乱背景的第一对象图片包括:在第一对象的图片中识别并丢弃纯色图片;在剩余的图片中识别白色背景色的图片;在剩余的图片中识别单张图片内不同位置的背景色的灰度值差值在预定灰度差阈值范围内的图片;将背景色的灰度值的差值在预定灰度差阈值范围内的图片和白色背景色的图片,作为非混乱背景的第一对象图片。
在一些实施例中,预定维度的相似度信息中包括预定维度中每个维度的相似度信息,根据第一对象的预定维度的特征信息和候选对象集合中对象的预定维度的特征信息,获取候选对象集合中对象与第一对象的预定维度的相似度信息包括:针对预定维度中的每个维度,获取第一对象的特征信息和候选对象集合中对象的对应维度的特征信息;根据对应维度的预定相似度运算策略,确定对应维度的相似度信息。
在一些实施例中,根据对应维度的预定相似度运算策略,确定对应维度的相似度信息包括以下一项或多项:在对应维度为对象标题的情况下,获取第一对象与候选对象集合中对象的对象标题的文本相似度信息,作为对象标题的相似度信息;在对应维度为对象价格的情况下,获取第一对象与候选对象集合中对象的价格差的绝对值与第一对象价格的比值,作为对象价格的相似度信息;在对应维度为类目标识的情况下,根据第一对象与候选对象集合中对象的类目编码的是否相同确定类目标识的相似度信息;或在对应维度为对象属性的情况下,根据第一对象与候选对象集合中对象的对象属性是否相同确定对象属性的相似度信息。
在一些实施例中,基于机器学习模型在候选对象集合中确定第二对象包括:将图片相似度信息和预定维度的相似度信息输入多个机器学习模型,其中,机器学习模型的数量不小于3;获取每个机器学习模型针对候选对象集合中对象是否与第一对象相同的单模型判断结果;在单模型判断结果为对象与第一对象相同的单模型判断结果的数量大于预定判断阈值的情况下,确定判断结果为当前对象为与第一对象相同,作为第二对象;根据候选对象集合中每个对象的判断结果,确定一个或多个第二对象。
在一些实施例中,机器学习模型包括LR(Logistic Regression,逻辑回归)模型、GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)模型、XGBoost(eXtremeGradient Boosting,极端梯度提升)模型、SVM(Support Vector Machine,支持向量机)、随机森林或强分类器Adaboost(Adaptive Boosting,自适应增强)中的多种。
在一些实施例中,机器学习模型为根据相同对象的图片相似度信息和相同对象的预定维度的相似度信息训练生成。
在一些实施例中,对象匹配方法还包括以下至少一项:根据第二对象的信息补充第一对象的信息;根据第二对象的价格限定第一对象的许可价格范围;或向用户推送第二对象。
通过这样的方法,能够先基于图片得到第一对象的候选的相同的对象集合,进而得到候选对象与第一对象在各个维度的相似度,通过机器学习模型确定相同的对象,从而使第二对象的匹配不受单一编码的限制,提高了对象匹配的全面性。
根据本公开的另一些实施例的一个方面,提出一种对象匹配装置,包括:第一对象信息获取单元,被配置为获取第一对象的图片和预定维度的特征信息;候选集合获取单元,被配置为根据第一对象的图片和待选对象的图片获取候选对象集合;相似度获取单元,被配置为获取候选对象集合中的对象与第一对象的图片相似度信息;以及根据第一对象的预定维度的特征信息和候选对象集合中对象的预定维度的特征信息,获取候选对象集合中的对象与第一对象的预定维度的相似度信息;第二对象确定单元,被配置为根据图片相似度信息和预定维度的相似度信息,基于机器学习模型在候选对象集合中确定第二对象。
在一些实施例中,对象匹配装置还包括:应用单元,被配置为执行以下至少一项:根据第二对象的信息补充第一对象的信息;根据第二对象的价格限定第一对象的许可价格范围;或向用户推送第二对象。
根据本公开的一些实施例的一个方面,提出一种对象匹配装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种对象匹配方法。
这样的装置能够先基于图片得到第一对象的候选的相同的对象集合,进而得到候选对象与第一对象在各个维度的相似度,通过机器学习模型确定第二对象,从而使第二对象的匹配不受单一的编码的限制,提高了对象匹配的全面性。
根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种对象匹配方法的步骤。
通过执行这样的存储介质上的指令,能够先基于图片得到第一对象的候选的第二对象集合,进而得到候选对象与第一对象在各个维度的相似度,通过机器学习模型确定第二对象,从而使第二对象的匹配不受单一的编码的限制,提高了对象匹配的全面性。
根据本公开的一些实施例的一个方面,提出一种服务平台,包括:对象信息存储器,被配置为存储对象的图片和至少一项预定维度的特征信息;和上文中任意一种对象匹配装置。
这样的服务平台能够使对象的匹配不受单一编码的限制,提高了对象匹配的全面性,从而为用户提供更加全面的第二对象,提高用户体验。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开的对象匹配方法的一些实施例的流程图。
图2为本公开的对象匹配方法中获取图片相似度信息的一些实施例的流程图。
图3为本公开的对象匹配方法中基于机器学习模型确定第二对象的一些实施例的流程图。
图4A为本公开的对象匹配装置的一些实施例的示意图。
图4B为本公开的对象匹配装置的一些实施例的运行逻辑图。
图5为本公开的对象匹配装置的另一些实施例的示意图。
图6为本公开的对象匹配装置的又一些实施例的示意图。
图7为本公开的服务平台的一些实施例的示意图。
具体实施方式
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
发明人发现,相关技术中识别相同物品的方法具有较大的局限性。首先,物品编码并非所有物品都有,如某些自制的物品即不具备编码;其次,平台上保存的编码等信息并不一定保证准确,会出现使用另一件商品物品编码的情况。因此,仅使用物品编码来确定相同物品列表,会缺失掉很多正确匹配,导致基于此基础能力的应用可用性差甚至不可用。
本公开的对象匹配方法的一些实施例的流程图如图1所示。在需要获取与某物品(以下称为第一对象)的相同的物品(称为第二对象)时,执行如下操作:
在步骤101中,获取第一对象的图片和预定维度的特征信息。在一些实施例中,预定维度包括对象的标题、对象的价格、对象归属的类目、或对象属性中的一项或多项。对象属性可以包括对象产地、编码、尺寸、重量、保质期或颜色中的一项或多项。在一些实施例中,第一对象的图片可以包括多张。
在步骤102中,根据第一对象的图片和待选对象的图片,获取候选对象集合,并获取候选对象集合中的对象与第一对象的图片相似度信息。
在一些实施例中,可以通过预定的图像匹配算法计算第一对象的图片与每个待选对象的图片的相似度。在一些实施例中,可以设置相似度阈值,大于该阈值的相似度所对应的待选对象可加入候选对象集合。
在一些实施例中,可以调用平台的图片搜索应用获取候选对象集合,通过图片搜索应用的内部接口得到图片搜索过程中生成的图片相似度信息。
在步骤103中,根据第一对象的预定维度的特征信息和候选对象集合中对象的预定维度的特征信息,获取候选对象集合中的对象与第一对象的预定维度的相似度信息。在一些实施例中,可以根据具体的维度的特点设置相应的相似度算法。在一些实施例中,预定维度的相似度信息与维度一一对应,在预定维度包括多个维度的情况下,包括多个维度的相似度信息。
在步骤104中,根据图片相似度信息和预定维度的相似度信息,基于机器学习模型在候选对象集合中确定第一对象所对应的一个或多个第二对象。在一些实施例中,机器学习模型为根据相同的对象的图片相似度信息和预定维度的相似度信息训练生成。在一些实施例中,训练数据中的图片相似度信息和预定维度的相似度信息,为采用与上述步骤102、103中相同的算法处理相同对象的图片和预定维度的信息后生成。
通过这样的方法,能够先基于图片得到第一对象的候选的第二对象集合,进而得到候选对象与第一对象在各个维度的相似度,通过机器学习模型确定第二对象,从而使对象的匹配不受单一编码的限制,提高了对象匹配的全面性;综合多维度的信息进行判断,提高了准确率和可靠性。
在一些实施例中,在得到第二对象后,还可以进行后续的应用,例如:在一些实施例中,根据第二对象的信息补充第一对象的信息,例如补充对象的参数,能够方便上架时填写信息,无需逐项填写,降低使用者的负担,提高上线效率;也能够在第一对象已经展示但信息不全的情况下,利用第二对象的信息补全,提高展示信息的全面性。
在一些实施例中,可以根据第二对象的价格限定第一对象的许可价格范围,从而避免价格过高或过低,有利于维持平台稳定运行。
在一些实施例中,还可以在用户观看第一对象时向用户推送第二对象,为用户提供更多的选择,提高用户的选择效率。
本公开的对象匹配方法中获取图片相似度信息的一些实施例的流程图如图2所示。
在步骤201中,从第一对象的图片中获取非混乱背景的第一对象图片。非混乱背景的第一对象图片可以包括:包含第一对象图像的白色背景的图片、或包含第一对象图像的单张图片中背景色的灰度差在预定灰度差阈值范围内的图片。
在一些实施例中,可以先在第一对象的图片中识别并丢弃纯色图片,从而删除实际上不包含第一对象图像的干扰图片。在剩余的图片中识别白色背景色的图片;在剩余的图片中识别单张图片内不同位置的背景色的灰度值差值在预定灰度差阈值范围内的图片;将背景色的灰度值的差值在预定灰度差阈值范围内的图片和白色背景色的图片,作为非混乱背景的第一对象图片。
在一些实施例中,为了在第一对象的图片中识别并丢弃纯色图片,可以先获取图片整体像素值方差;若在该图片中像素值的方差小于预定第一方差阈值,则确定该图片为纯色图片,丢弃纯色图片。
在一些实施例中,为了在丢弃纯色图片后的剩余的图片中识别白色背景色的图片,可以先根据图片大小定位图片的每个边角,获取边角的像素值,并确定边角的像素值的方差。若边角的像素值的方差小于预定第二方差阈值,则确定图片为白色背景的图片。
在一些实施例中,为了在剩余的图片中识别背景色的灰度值的差值在预定灰度差阈值范围内的图片,可以先将图片转换为灰度图,通过高斯滤波器检测图像边缘,获取左右两个条形区域(或上下两个条形区域)的像素分布,确定条形区域的像素差。若条形区域的像素差小于第三方差阈值,则确定图片为纯色背景的图片。
在完成筛选出对象图片中白色背景和纯色背景的图片,并将其作为非混乱背景的第一对象图片后,执行步骤202。
在一些实施例中,可以选择非混乱背景的第一对象图片中单张图片的背景最干净(灰度像素差最小的图片)执行后续操作,从而降低运算量。
在步骤202中,确定待选对象的图片与非混乱背景的第一对象图片的相似度。在一些实施例中,可以利用预定的图片计算方法计算待选对象的图片与非混乱背景的第一对象图片的相似度;在一些实施例中,可以调用平台的图像搜索功能内部接口,得到运算过程中的图片相似度。
在步骤203中,获取待选对象中,对象的图片与非混乱背景的第一对象图片的相似度超过预定相似度阈值的对象,形成候选对象集合。
在一些实施例中,若待选对象中,单个对象的多张图片分别与非混乱背景的第一对象的一张或多张图片进行相似度运算,得到多个相似度信息,则可以通过预定方式生成唯一的一个相似度值,作为该单个对象与第一对象的图片相似度。在一些实施例中,预定方式可以为取最大值、最小值,或者求平均值等。
在步骤204中,将候选对象集合中的对象的图片与非混乱背景的第一对象图片的相似度,作为对应对象与第一对象的图片相似度信息。
通过这样的方法,能够通过图片比较的方式从海量对象中确定候选对象集合,从而在该候选对象集合中进行进一步确认,降低后续运算时的运算量;充分利用了图片对于对象的展示效果,提高了对象匹配的全面性;先对图片进行预处理,提高图片匹配的准确度。
在一些实施例中,预定维度中可以包括多个具体维度的信息,例如包括对象的标题、对象的价格、对象归属的类目和对象属性等,则预定维度的相似度信息中可以包括预定维度中每个维度的相似度信息。在一些实施例中,可以针对预定维度中的每个维度,获取第一对象的特征信息和候选对象集合中对象的对应维度的特征信息;进而根据对应维度的预定相似度运算策略,确定对应维度的相似度信息。
通过这样的方法,能够对于不同维度的信息采用不同的相似度计算策略,从而使得相似度的运算结果更加合理和准确,提高对象匹配的准确性。
在一些实施例中,在对应维度为对象标题的情况下,可以获取第一对象与候选对象集合中对象的对象标题的文本相似度信息,作为对象标题的相似度信息。在一些实施例中,可以先使用分词模型将对象标题切分,再使用TF-IDF(Term Frequency–InverseDocument Frequency,词频-逆文档频率)算法将对象标题转化成维度相同的向量表示,再通过余弦距离计算公式,计算对象标题之间的文本相似度。
在TF-IDF公式中,TF为词频,表示匹配第一对象和候选集各对象标题文本中,各词出现的频率,IDF为逆文档频率,总对象标题数目除以包含该词语之对象标题的数目,再将得到的商取以10为底的对数。TF-IDF算法可以过滤掉文本中常见的词语,保留重要的词语。将对象标题转换为向量后,就可以计算余弦距离作为对象标题的相似度。
在一些实施例中,在对应维度为对象价格的情况下,获取第一对象与候选对象集合中对象的价格差的绝对值与第一对象价格的比值,作为对象价格的相似度信息。在一些实施例中,定义匹配候选对象集合中对象的价格与第一对象的价格差值的绝对值为a,匹配第一对象价格为b,则价格差异比率为a/b。a/b代表了匹配候选集各个对象在匹配第一对象价格基础上的变化。例如第一对象A价格为100,候选对象B价格为1000,则价格差异比率为9。实际数据中,价格差异比率越小越能代表是相同的对象。
在一些实施例中,在对应维度为类目标识的情况下,根据第一对象与候选对象集合中对象的类目编码的是否相同确定类目标识的相似度信息。在一些实施例中,平台往往会对不同对象进行类目划分,每个对象有对应的类目编码,相同类目标志标识匹配第一对象A和匹配候选集对象之一B是否是同一个类目编码。在类目编码相同的情况下,设定类目标识的相似度为第一相似度;不同的情况下,设定类目标识的相似度为第二相似度,其中,第一相似度大于第二相似度。
在一些实施例中,在对应维度为对象属性的情况下,根据第一对象与候选对象集合中对象的对象属性是否相同确定对象属性的相似度信息。在一些实施例中,对象属性包含多个维度,常见属性有对象产地、对象编码、长、宽、高、体积、毛重、保质期、颜色等等。以对象颜色属性举例说明,匹配第一对象A颜色属性为红,候选集对象之一B颜色属性为黄,则该属性不一致,候选集对象之一B颜色属性为红,则该属性一致。在属性一致的情况下,设定对象属性的相似度为第三相似度;不同的情况下,设定对象属性的相似度为第四相似度,其中,第三相似度大于第四相似度。
在一些实施例中,可以根据已有的对象信息扩展预定维度,当需要引入信息时,只需加入对应的特征计算模块,并对神经网络模型进行对应的计算,即可方便的实现系统扩展,提高对象匹配的准确度。
本公开的对象匹配方法中基于机器学习模型确认第二对象的一些实施例的流程图如图3所示。
在步骤301中,将图片相似度信息和预定维度的相似度信息输入多个机器学习模型,其中,机器学习模型的数量不小于3。
在一些实施例中,机器学习模型包括LR模型、GBDT模型和XGBoost模型。在一些实施例中,机器学习模型可以包括LR模型、GBDT模型、XGBoost模型、SVM、随机森林或Adaboost中的多种。
在一些实施例中,机器学习模型为根据多组相同对象的图片相似度信息和对应对象的预定维度的相似度信息训练生成,例如,在训练过程中将相同对象的图片相似度信息和预定维度的相似度信息输入各个机器学习模型中,根据每个机器学习模型的单模型判断结果或根据所有机器学习模型的单模型判断结果的综合判断结果,对机器学习模型进行参数调节。完成训练后固定机器学习模型的参数,在后续使用过程中参数不再发生变化。
在步骤302中,获取每个机器学习模型针对候选对象集合中对象是否与第一对象相同的单模型判断结果。
在步骤303中,判断单模型判断结果为对象与第一对象相同的单模型判断结果的数量是否大于预定判断阈值。若单模型判断结果的数量为对象与第一对象相同的数量大于预定判断阈值,则执行步骤305;否则执行步骤304。在一些实施例中,可以基于投票的原理,采用少数服从多数的原则进行判断,例如,在机器学习模型的数量为3的情况下,可以设定预定判断阈值为1,则当存在两个机器学习模型输出的结果为对象与第一对象相同时,判断该对象为第二对象;否则非第二对象。
在一些实施例中,可以设定机器学习模型的数量n为奇数,从而以少数服从多数为原则,预定判断阈值为(n-1)/2;在另一些实施例中,也可以设定机器学习模型的数量n为偶数,则当输出对象是与第一对象相同,和对象与第一对象的不同的单模型判断结果的数量相同时,可以发出异常响应,供工作人员人工筛选。
在步骤304中,当前对象非第二对象,进而执行步骤306。
在步骤305中,当前对象为第二对象,进而执行步骤306。
在步骤306中,判断候选对象集合中是否每个对象均已经过机器学习模型处理。若完成对于每个候选对象集合中的对象的判断,则执行步骤307;否则,执行步骤301,将后续对象的相似度信息输入机器学习模型中。
在步骤307中,确定触发执行了上述步骤305的对象属于第二对象。
通过这样的方法,能够利用多个机器学习模型的判断结果输出最终结果,对比单模型方法具有更强的鲁棒性,同时判定准确性更高,提高了对象匹配的准确度和可靠性。
本公开的对象匹配装置的一些实施例的示意图如图4A所示。
第一对象信息获取单元401能够获取第一对象的图片和预定维度的特征信息。在一些实施例中,预定维度包括对象的标题、对象的价格、对象归属的类目、或对象属性中的一项或多项。对象属性可以包括对象产地、编码、尺寸、重量、保质期或颜色中的一项或多项。在一些实施例中,第一对象的图片可以包括多张。
候选集合获取单元402能够根据第一对象的图片和待选对象的图片,获取候选对象集合,并获取候选对象集合中的对象与第一对象的图片相似度信息。在一些实施例中,候选集合获取单元402可以采用上文中图2所示实施例中的方法获取候选对象集合,以及获取候选对象集合中的对象与第一对象的图片相似度信息。
相似度获取单元403能够根据第一对象的预定维度的特征信息和候选对象集合中对象的预定维度的特征信息,获取候选对象集合中的对象与第一对象的预定维度的相似度信息。在一些实施例中,可以根据具体的维度的特点设置相应的相似度算法。在一些实施例中,预定维度的相似度信息与维度一一对应,在预定维度包括多个维度的情况下,包括多个维度的相似度信息。在一些实施例中,相似度获取单元403可以采用上文中提到的相似度运算方法获取预定维度的相似度信息。
第二对象确定单元404能够根据图片相似度信息和预定维度的相似度信息,基于机器学习模型在候选对象集合中确定一个或多个第二对象。在一些实施例中,机器学习模型为根据多组相同的对象的图片相似度信息和对应对象的预定维度的相似度信息训练生成。在一些实施例中,第二对象确定单元404可以采用上文中如图3所示的实施例中的方法确定第二对象。
在一些实施例中,本公开的对象匹配装置的一些实施例的运行逻辑可以如图4B所示。
当对象匹配装置获取第一对象的信息,包括图片信息和预定维度的特征信息后,对象匹配装置基于数据库获取待选对象的预定维度的特征信息和图片,如图4B中411部分所示,其中,预定维度除了图中示出的标题等之外,还可以包括多种,根据需要进行设置、添加。
对于待选对象的图片,如412中所示,进行非混乱背景图像的提取,并通过与第一对象图片的匹配获取候选对象集合。
在413中,对候选对象集合中的对象的各项预定维度的特征信息,与第一对象的对应维度的特征信息进行相似度计算。
在414中,将各个预定维度的相似度和图片相似度输入多个机器学习模型中,如图中所示的第一至第三模型中。投票器获得各个模型的输出结果,并通过投票的方式确定当前处理的对象是否为第二对象,直至对全部候选对象集合中的对象处理完成,获取第二对象。
这样的对象匹配装置能够先基于图片得到第一对象的候选的第二对象集合,进而得到候选对象与第一对象在各个维度的相似度,通过机器学习模型确定第二对象,从而使对象的匹配不受单一编码的限制,提高了对象匹配的全面性。
在一些实施例中,如图4A所示,对象匹配装置还可以包括应用单元405,能够在得到第二对象后进行后续的应用。在一些实施例中,应用单元405根据第二对象的信息补充第一对象的信息,例如补充对象的参数,能够方便上架时填写信息,无需逐项填写,提高上线效率,也能够在第一对象已经展示但信息不全的情况下利用第二对象的信息补全,方便用户得到更加全面的信息。
在一些实施例中,应用单元405可以根据第二对象的价格限定第一对象的许可价格范围,从而避免价格过高或过低,有利于维持平台稳定运行。
在一些实施例中,应用单元405还可以在用户观看第一对象时向用户推送第二对象,为用户提供更多的选择,提高用户的选择效率。
本公开对象匹配装置的一个实施例的结构示意图如图5所示。对象匹配识别装置包括存储器501和处理器502。其中:存储器501可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中对象匹配方法的对应实施例中的指令。处理器502耦接至存储器501,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器502用于执行存储器中存储的指令,能够提高对象匹配的全面性。
在一个实施例中,还可以如图6所示,对象匹配装置600包括存储器601和处理器602。处理器602通过BUS总线603耦合至存储器601。该对象匹配装置600还可以通过存储接口604连接至外部存储装置605以便调用外部数据,还可以通过网络接口606连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高了对象匹配的全面性。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现对象匹配方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开的服务平台的一些实施例的示意图如图7所示。
对象信息存储器71能够存储对象的图片和至少一项预定维度的特征信息。在一些实施例中,预定维度包括对象的标题、对象的价格、对象归属的类目、或对象属性中的一项或多项。对象属性可以包括对象产地、编码、尺寸、重量、保质期或颜色中的一项或多项。
对象匹配装置72可以为上文中提到的任意一种,能够基于对象信息存储器71中存储的对象的预定维度的信息和图片,识别一个或多个第二对象。
这样的服务平台能够使对象的匹配不受单一编码的限制,提高了对象匹配的全面性,从而为用户提供更加全面的物品,提高用户体验。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

Claims (15)

1.一种对象匹配方法,包括:
获取第一对象的图片和预定维度的特征信息;
根据所述第一对象的图片和待选对象的图片,获取候选对象集合,并获取所述候选对象集合中的对象与所述第一对象的图片相似度信息;
根据所述第一对象的预定维度的特征信息和所述候选对象集合中对象的预定维度的特征信息,获取所述候选对象集合中的对象与所述第一对象的预定维度的相似度信息;
根据所述图片相似度信息和所述预定维度的相似度信息,基于机器学习模型在所述候选对象集合中确定一个或多个第二对象。
2.根据权利要求1所述的对象匹配方法,其中,
所述预定维度包括对象的标题、对象的价格、对象归属的类目、或对象属性中的一项或多项,其中,所述对象属性包括对象产地、编码、尺寸、重量、保质期或颜色中的一项或多项。
3.根据权利要求1所述的对象匹配方法,其中,所述根据所述第一对象的图片和待选对象的图片,获取候选对象集合,并获取所述候选对象集合中的对象与所述第一对象的图片相似度信息包括:
从所述第一对象的图片中获取非混乱背景的第一对象图片;
确定待选对象的图片与所述非混乱背景的第一对象图片的相似度;
获取所述待选对象中,对象的图片与所述非混乱背景的第一对象图片的相似度超过预定相似度阈值的对象,形成所述候选对象集合;
将所述候选对象集合中的对象的图片与所述非混乱背景的第一对象图片的相似度,作为对应对象与所述第一对象的图片相似度信息。
4.根据权利要求3所述的对象匹配方法,其中,所述从所述第一对象的图片中获取非混乱背景的第一对象图片包括:
在所述第一对象的图片中识别并丢弃纯色图片;
在剩余的图片中识别白色背景色的图片;
在所述剩余的图片中识别单张图片内不同位置的背景色的灰度值差值在预定灰度差阈值范围内的图片;
将所述背景色的灰度值的差值在预定灰度差阈值范围内的图片和所述白色背景色的图片,作为所述非混乱背景的第一对象图片。
5.根据权利要求1所述的对象匹配方法,其中,所述预定维度的相似度信息中包括所述预定维度中每个维度的相似度信息,所述根据所述第一对象的预定维度的特征信息和所述候选对象集合中对象的预定维度的特征信息,获取所述候选对象集合中的对象与所述第一对象的预定维度的相似度信息包括:
针对所述预定维度中的每个维度,获取所述第一对象的特征信息和所述候选对象集合中对象的对应维度的特征信息;
根据所述对应维度的预定相似度运算策略,确定所述对应维度的相似度信息。
6.根据权利要求5所述的对象匹配方法,其中,所述根据所述对应维度的预定相似度运算策略,确定所述对应维度的相似度信息包括以下一项或多项:
在所述对应维度为对象标题的情况下,获取所述第一对象与所述候选对象集合中对象的对象标题的文本相似度信息,作为对象标题的相似度信息;
在所述对应维度为对象价格的情况下,获取所述第一对象与所述候选对象集合中对象的价格差的绝对值与所述第一对象价格的比值,作为对象价格的相似度信息;
在所述对应维度为类目标识的情况下,根据所述第一对象与所述候选对象集合中对象的类目编码的是否相同确定类目标识的相似度信息;或
在所述对应维度为对象属性的情况下,根据所述第一对象与所述候选对象集合中对象的对象属性是否相同确定对象属性的相似度信息。
7.根据权利要求1所述的对象匹配方法,其中,所述基于机器学习模型在所述候选对象集合中一个或多个所述第二对象包括:
将所述图片相似度信息和所述预定维度的相似度信息输入多个机器学习模型,其中,所述机器学习模型的数量不小于3;
获取每个所述机器学习模型针对所述候选对象集合中对象是否与第一对象相同的单模型判断结果;
在所述单模型判断结果为对象与第一对象相同的所述单模型判断结果的数量大于预定判断阈值的情况下,确定判断结果为当前对象为所述第二对象;
根据所述候选对象集合中每个对象的判断结果,确定一个或多个所述第二对象。
8.根据权利要求7所述的对象匹配方法,其中,所述机器学习模型包括逻辑回归LR模型、梯度提升迭代决策树GBDT模型、极端梯度提升XGBoost模型、支持向量机SVM、随机森林或自适应增强Adaboost中的多种。
9.根据权利要求1~8所述的对象匹配方法,其中,所述机器学习模型为根据多组相同对象的图片相似度信息和对应对象的预定维度的相似度信息训练生成。
10.根据权利要求1~8任意一项所述的对象匹配方法,还包括以下至少一项:
根据所述第二对象的信息补充所述第一对象的信息;
根据所述第二对象的价格限定所述第一对象的许可价格范围;或
向用户推送所述第二对象。
11.一种对象匹配装置,包括:
第一对象信息获取单元,被配置为获取第一对象的图片和预定维度的特征信息;
候选集合获取单元,被配置为根据所述第一对象的图片和待选对象的图片获取候选对象集合;
相似度获取单元,被配置为获取候选对象集合中的对象与所述第一对象的图片相似度信息;以及根据所述第一对象的预定维度的特征信息和所述候选对象集合中对象的预定维度的特征信息,获取所述候选对象集合中的对象与所述第一对象的预定维度的相似度信息;
第二对象确定单元,被配置为根据所述图片相似度信息和所述预定维度的相似度信息,基于机器学习模型在所述候选对象集合中确定一个或多个第二对象。
12.根据权利要求11所述的对象匹配装置,还包括:应用单元,被配置为执行以下至少一项:
根据所述第二对象的信息补充所述第一对象的信息;
根据所述第二对象的价格限定所述第一对象的许可价格范围;或
向用户推送所述第二对象。
13.一种对象匹配装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至10任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至10任意一项所述的方法的步骤。
15.一种服务平台,包括:
对象信息存储器,被配置为存储对象的图片和至少一项预定维度的特征信息;和
权利要求11~13任意一项所述的对象匹配装置。
CN202010940333.8A 2020-09-09 2020-09-09 对象匹配方法、装置和服务平台 Pending CN112069348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010940333.8A CN112069348A (zh) 2020-09-09 2020-09-09 对象匹配方法、装置和服务平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010940333.8A CN112069348A (zh) 2020-09-09 2020-09-09 对象匹配方法、装置和服务平台

Publications (1)

Publication Number Publication Date
CN112069348A true CN112069348A (zh) 2020-12-11

Family

ID=73664552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010940333.8A Pending CN112069348A (zh) 2020-09-09 2020-09-09 对象匹配方法、装置和服务平台

Country Status (1)

Country Link
CN (1) CN112069348A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298749A (zh) * 2014-10-14 2015-01-21 杭州淘淘搜科技有限公司 一种图像视觉和文本语义融合商品检索方法
CN106708916A (zh) * 2015-11-18 2017-05-24 财团法人资讯工业策进会 商品图片搜寻方法及商品图片搜寻系统
US20180060358A1 (en) * 2016-08-24 2018-03-01 Baidu Usa Llc Method and system for selecting images based on user contextual information in response to search queries
CN109146640A (zh) * 2018-08-30 2019-01-04 湖北工业大学 一种线上商品搜索方法及系统
CN110110117A (zh) * 2017-12-20 2019-08-09 阿里巴巴集团控股有限公司 一种商品搜索方法、装置以及系统
CN110400201A (zh) * 2019-07-30 2019-11-01 中国工商银行股份有限公司 信息展示方法、装置、电子设备以及介质
CN110532413A (zh) * 2019-07-22 2019-12-03 平安科技(深圳)有限公司 基于图片匹配的信息检索方法、装置、计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298749A (zh) * 2014-10-14 2015-01-21 杭州淘淘搜科技有限公司 一种图像视觉和文本语义融合商品检索方法
CN106708916A (zh) * 2015-11-18 2017-05-24 财团法人资讯工业策进会 商品图片搜寻方法及商品图片搜寻系统
US20180060358A1 (en) * 2016-08-24 2018-03-01 Baidu Usa Llc Method and system for selecting images based on user contextual information in response to search queries
CN110110117A (zh) * 2017-12-20 2019-08-09 阿里巴巴集团控股有限公司 一种商品搜索方法、装置以及系统
CN109146640A (zh) * 2018-08-30 2019-01-04 湖北工业大学 一种线上商品搜索方法及系统
CN110532413A (zh) * 2019-07-22 2019-12-03 平安科技(深圳)有限公司 基于图片匹配的信息检索方法、装置、计算机设备
CN110400201A (zh) * 2019-07-30 2019-11-01 中国工商银行股份有限公司 信息展示方法、装置、电子设备以及介质

Similar Documents

Publication Publication Date Title
CN106446816B (zh) 人脸识别方法及装置
CN108460389B (zh) 一种识别图像中对象的类型预测方法、装置及电子设备
CN109002562B (zh) 一种仪器识别模型训练方法和装置及仪器识别方法和装置
US9864928B2 (en) Compact and robust signature for large scale visual search, retrieval and classification
US9582518B2 (en) Image processing apparatus, image processing method, and storage medium
CN108334805B (zh) 检测文档阅读顺序的方法和装置
US11210555B2 (en) High-dimensional image feature matching method and device
US20150092997A1 (en) Person recognition apparatus, person recognition method, and non-transitory computer readable recording medium
US9489566B2 (en) Image recognition apparatus and image recognition method for identifying object
CN103455542A (zh) 多类识别器以及多类识别方法
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
CN111144370B (zh) 单据要素抽取方法、装置、设备及存储介质
US10614312B2 (en) Method and apparatus for determining signature actor and identifying video based on probability of appearance of signature actor
JP6426441B2 (ja) 密度計測装置、密度計測方法、およびプログラム
CN111741331B (zh) 一种视频片段处理方法、装置、存储介质及设备
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN112465012A (zh) 机器学习建模方法、装置、电子设备和可读存储介质
US10216988B2 (en) Information processing device, information processing method, and computer program product
CN112069348A (zh) 对象匹配方法、装置和服务平台
CN103793714A (zh) 多分类识别器、数据识别装置、多分类识别方法及数据识别方法
CN115984671A (zh) 模型在线更新方法、装置、电子设备及可读存储介质
CN107766373B (zh) 图片所属类目的确定方法及其系统
JP2014099027A (ja) 画像特徴量算出装置、学習装置、識別装置、およびそのプログラム
CN113569070A (zh) 图像检测方法和装置、电子设备、存储介质
CN112287763A (zh) 图像处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination