CN109242042B

CN109242042B - 图片训练样本挖掘方法、装置、终端及计算机可读存储介质

Info

Publication number: CN109242042B
Application number: CN201811141183.3A
Authority: CN
Inventors: 孟骧龙; 严灿祥
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-12-20
Anticipated expiration: 2038-09-28
Also published as: CN109242042A

Abstract

本发明提出一种图片训练样本挖掘方法、装置和终端，所述方法包括：根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本；根据图片描述文本训练得到通用文本相似度模型；利用通用文本相似度模型和类别特征参数训练得到垂类模型，类别特征参数与根据图片描述文本分类得到的训练样本类别相对应；利用垂类模型对所述候选图片进行分类，得到多个候选图片分类集合；将每个候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本。在给定图片查询条件时，能够有效的自动挖掘图片训练样本，降低人工成本，满足不同客户的自定义需求，提高训练样本的生产效率。

Description

图片训练样本挖掘方法、装置、终端及计算机可读存储介质

技术领域

本发明涉及信息处理技术，尤其涉及一种图片训练样本挖掘方法、装置、终端和计算机可读存储介质。

背景技术

计算机视觉技术的成熟为图像分类、图像检索、视频分析、视频或图片的广告、自动驾驶、智能医疗等领域带来突破性的进展。为了能够达到更高的图像分类检索准确率和图像识别率，在训练视觉模型时需要针对不同的应用场景收集数据，如花的识别、红酒的识别、动物的识别、狗的识别等。同时，为了增加视觉模型的泛化能力，需要大量的图片训练样本。

目前，图片训练样本的挖掘方式有以下三种方案：(1)全人工标注：收集图片集合，利用人工的方法把需要的训练图片样本从集合中筛选出来。虽然筛选图片的精度比较高，但是由于需要控制人力成本和速度，只能应用在小规模和对数据量要求不高的场景，所以应用范围比较有限。(2)半人工标注：与方案(1)相似，但收集图片集合的过程由机器来取代，通过已经训练好的模型在图片库中挖掘把高置信度的样本交予人工干预确认。虽然样本筛选精度高，但是在数据量比较庞大的情况下，还是需要较多的人工工作，挖掘出的样本很难达到通过简单人工干预就能提纯的效果。而且，由于样本标出率依赖初始筛选模型的性能，当现有模型不支持该类别时，无法实现半自动挖掘。当初始自动筛选的模型能力有限，模型精度较低时，需要选取预测置信度较高的样本，可以保证较低的人工成本。然而，因为过滤掉了大部分低置信样本，样本的标出率较低，整个样本的生产周期变长。如果降低初始模型预测置信度，则会增大人工成本的代价，整个周期也会被拉长。(3)自动化方法：利用现有的图片检索系统的线上高展示结果和用户的点击行为进行挖掘。训练得到的样本精度较高，但是由于图片检索系统的性能是有限，无法保证高质量的训练样本。用户点击行为是个有效提升精度的方法，但因该数据的用户隐私问题和数据私密性极少公开使用，即使同一公司内部也很难得到。

因此，如何高效自动的生成大量可用于训练的样本的方法显得尤为重要。在背景技术中公开的上述信息仅用于加强对本发明的背景的理解，因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。

发明内容

本发明实施例提供一种图片训练样本挖掘方法、装置、终端和计算机可读存储介质，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种图片训练样本挖掘方法，包括：

根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本；

根据所述图片描述文本训练得到通用文本相似度模型；

利用所述通用文本相似度模型和类别特征参数训练得到垂类模型，所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应；

利用所述垂类模型对所述候选图片进行分类，得到多个候选图片分类集合；

将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本。

在一种实施方式中，利用所述通用文本相似度模型和类别特征参数训练得到垂类模型之前，还包括：

根据所述图片描述文本分类得到多个所述训练样本类别；

在每个所述训练样本类别对应的多个垂类网站中抓取垂类数据，所述垂类数据包括分类后的图片和对应的图片描述文本；

根据所述分类后的图片和图片描述文本提取所述类别特征参数。

在一种实施方式中，将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本的步骤包括：

将所述候选图片分类集合中的图片输入至所述文本语义相似度模型中，输出第一图片集合；

利用所述第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型；

将所述候选图片分类集合中的图片输入至所述图片内容相似度模型中，输出第二图片集合。

在一种实施方式中，输出第二图片集合之后，还包括：

利用所述第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型；

将所述第二图片集合中的图片输入至所述新文本语义相似度模型中，输出第三图片集合；

利用所述第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型；

将所述第二图片集合中的图片输入至所述新图片内容相似度模型中，输出第四图片集合。

在一种实施方式中，输出第四图片集合之后，还包括：

判断所述第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致；

若一致，则输出所述第四图片集合，以构成所述图片训练样本；

若不一致，则返回执行将所述第四图片集合中的图片作为所述第二图片集合中的图片的操作，直至输出图片内容相似度和文本语义相似度一致的所述图片训练样本。

第二方面，本发明实施例提供了一种图片训练样本挖掘装置，包括：

候选图片获取模块，用于根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本；

通用文本相似度模型训练模块，用于根据所述图片描述文本训练得到通用文本相似度模型；

垂类模型训练模块，用于利用所述通用文本相似度模型和类别特征参数训练得到垂类模型，所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应；

候选图片分类模块，用于利用所述垂类模型对所述候选图片进行分类，得到多个候选图片分类集合；

样本训练模块，用于将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本。

在一种实施方式中，所述装置还包括：

图片描述文本分类模块，用于根据所述图片描述文本分类得到多个所述训练样本类别；

垂类数据抓取模块，用于在每个所述训练样本类别对应的多个垂类网站中抓取垂类数据，所述垂类数据包括分类后的图片和对应的图片描述文本；

类别特征参数提取模块，用于根据所述分类后的图片和图片描述文本提取所述类别特征参数。

在一种实施方式中，所述样本训练模块包括：

第一分类单元，用于将所述候选图片分类集合中的图片输入至所述文本语义相似度模型中，输出第一图片集合；

图片内容相似度模型训练单元，用于利用所述第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型；

第二分类单元，用于将所述候选图片分类集合中的图片输入至所述图片内容相似度模型中，输出第二图片集合。

在一种实施方式中，所述样本训练模块还包括：

文本语义相似度模型更新单元，用于利用所述第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型；

第三分类单元，用于将所述第二图片集合中的图片输入至所述新文本语义相似度模型中，输出第三图片集合；

图片内容相似度模型更新单元，利用所述第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型；

第四分类单元，将所述第二图片集合中的图片输入至所述新图片内容相似度模型中，输出第四图片集合。

在一种实施方式中，所述样本训练模块还包括：

判断单元，用于判断所述第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致；

图片训练样本输出单元，用于若一致，则输出所述第四图片集合，以构成所述图片训练样本；若不一致，则返回执行将所述第四图片集合中的图片作为所述第二图片集合中的图片的操作，直至输出图片相似度和文本语义相似度一致的所述图片训练样本。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，图片训练样本挖掘终端的结构中包括处理器和存储器，所述存储器用于存储支持图片训练样本挖掘终端执行上述第一方面中图片训练样本挖掘方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述图片训练样本挖掘终端还可以包括通信接口，用于图片训练样本挖掘终端与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种计算机可读存储介质，用于存储图片训练样本挖掘终端所用的计算机软件指令，其包括用于执行上述第一方面中图片训练样本挖掘方法为图片训练样本挖掘终端所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：在给定的图片查询条件时，能够有效的自动挖掘图片训练样本，有效降低人工成本，高效的满足不同客户的自定义需求，极大的提高训练样本的生产效率。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例提供的图片训练样本挖掘方法示意图；

图2为本发明实施例提供的文本语义相似度模型和图片内容相似度模型循环使用的示意图；

图3为本发明实施例提供的图片训练样本挖掘方法示意图；

图4为本发明实施例提供的通用文本相似度模型和类别特征参数训练垂类模型的示意图；

图5为本发明实施例提供的候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中得到的第二图片集合的方法示意图；

图6为本发明实施例提供的第二图片集合的图片输入至文本语义相似度模型和图片内容相似度模型中得到的第四图片集合的方法示意图；

图7为本发明实施例提供的图片训练样本挖掘装置示意图；

图8为本发明实施例提供的样本训练模块示意图；

图9为本发明实施例提供的图片训练样本挖掘终端示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体的实施方式中，如图1所示，提供了一种图片训练样本挖掘方法，包括：

步骤S100：根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本。

图片查询条件可以是通过搜索引擎提供的文本输入框输入的文本查询式，图片查询条件还可以是图片形式。根据输入的图片查询条件进行图片训练样本初筛，得到候选图片样本集合。候选图片样本集合包括多个候选图片，以及用于描述候选图片的图片描述文本。其中，图片描述文本可以是图片文本标题或者人为添加的语义描述，是人工对候选图片的标注信息。候选图片样本集合的建立能够根据图片查询条件扩充大量的语义，包含全网搜索引擎搜集的数据。

步骤S200：根据图片描述文本训练得到通用文本相似度模型。

利用搜索引擎搜集全部图片描述文本，训练一个通用文本相似度模型，消除了根据用全网搜索引擎得到的候选图片样本集合的噪声。

步骤S300：利用通用文本相似度模型和类别特征参数训练得到垂类模型，类别特征参数与根据图片描述文本分类得到的训练样本类别相对应。

对图片描述文本进行分类，可以得到多个训练样本类别的图片描述文本。针对各个训练样本类别分别训练对应的垂类模型。由于每个训练样本类别对应的分类后的候选图片和图片描述文本分布不同，因此，在通用文本相似度模型的基础上增加类别特征参数，以实现与此训练样本类别对应的垂类模型的功能。这样，既保证了通用文本相似度模型的兜底作用，也提高了每个垂类模型的训练精度。

步骤S400：利用垂类模型对候选图片进行分类，得到多个候选图片分类集合。

将全部的候选图片输入至垂类模型中，输出分类后的多个图片，构成了与训练样本类别对应的候选图片分类集合。

步骤S500：将每个候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本。

如图2所示，由于文本语义相似度模型和图片内容相似度模型在自动挖掘图片训练样本时是有限的，所以采用两个模型循环使用，最终输出语义和图像一致的图片训练样本。

首先，将候选图片分类集合中满足文本语义相似度阈值的图片提取出来，构成多个图片集合。由于提取出来的每个图片集合中，包括了一些文本语义相似度较大但图片内容相似度较小的图片，因此将图片内容相似度较小的图片进行拆分。例如，语义相似度较大的图片集合“拼接玩具”可以包括两种玩具图片，一种是智力玩具图片，其图片内容如套环等，另一种是配套玩具图片，图片内容如乐高和积木等。由于这两种图片内容相差较大，将其拆成两种图片。同时，将候选图片分类集合中满足图片内容相似度阈值的图片提取出来，构成多个图片集合。由于提取出来的每个图片集合中，包括了一些文本语义相似度较小但图片内容相似度较大的图片，因此将文本语义相似度较小但图片内容相似度较大的图片进行合并。例如，文本语义相似度较小但图片相似度较大的图片可以是文本语义是“手机壳”的图片和文本语义是“手机保护套”图片等。由于这两种图片内容一致，但是文本语义相差较大，因此，将图片内容相似度较大的图片进行集合。上述经过拆分合并之后的图片构成新的图片集合。然后，将新的图片集合输入至图片内容相似度模型中，收集满足图片相似度阈值的图片，最终得到图片训练样本。

本实施例提供的图片训练样本挖掘方法，在给定图片查询条件时，能够有效的自动挖掘图片训练样本，降低人工成本，满足不同客户的自定义需求，极大的提高训练样本的生产效率。

在一种实施方式中，如图3所示，利用通用文本相似度模型和类别特征参数训练得到垂类模型之前，还包括：

步骤S301：根据图片描述文本分类得到多个训练样本类别；

步骤S302：在每个训练样本类别对应的多个垂类网站中抓取垂类数据，垂类数据包括分类后的图片和对应的图片描述文本；

步骤S303：根据分类后的图片和图片描述文本提取类别特征参数。

在一种示例中，如图4所示，训练样本类别可以包括自然景物/建筑、图书/音像、汽车用品、人造物体/商品、卡通、植物、动物、宇宙自然、人物、疾病和其它各类别。每个训练样本类别对应至少一个垂类网站。例如，自然景物/建筑对应有全球风景图片素材类网站，汽车用品对应汽车之家等网站，商品对应淘宝等网站。各个垂类网站已经将步骤S100中提到的候选图片样本集合中的候选图片和图片描述文本进行了分类，每个垂类网站对应分类后的图片和对应的图片描述文本。

在一种实施方式中，如图5所示，将每个候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本的步骤包括：

步骤S510：将候选图片分类集合中的图片输入至文本语义相似度模型中，输出第一图片集合；

步骤S520：利用第一图片集合中语义相似度大于第一阈值的图片训练得到图片内容相似度模型。

步骤S530：将候选图片分类集合中的图片输入至图片内容相似度模型中，输出第二图片集合。

一种示例中，候选图片分类集合中的图片经过文本语义相似度模型进行分类之后，得到多个类别的图片集合，每个类别的图片集合可称之为第一图片集合。例如，在“卡通”类别对应的候选图片分类集合中，经过分类之后，得到关于“唐老鸭”、“米老鼠”等类别的第一图片集合。在第一图片集合中，包括了一些图片描述文本的语义接近，但是图片内容可能不同的图片。例如，第一图片集合是关于“唐老鸭”的图片集合，那么集合中的图片之间文本语义相似，语义中都包含了语义“唐老鸭”，但是图片内容不同，可能是唐老鸭的挂件、唐老鸭的毛绒玩具或者印有唐老鸭的衣服。将语义相似度大于第一阈值的图片筛选出来，用来训练图片内容模型。例如，通过对很多图片中包含了“唐老鸭”的语义描述进行分析，筛选出“唐老鸭”饰品的图片，那么利用所有“唐老鸭”饰品的图片训练图片内容相似度模型。最后，将候选图片分类集合中的图片输入至训练出来的图片内容相似度模型中，得到第二图片集合。第二图片集合包括了更多的“唐老鸭”饰品的图片。

需要指出的是，可以直接将第二图片集合作为图片训练样本输出。

在一种实施方式中，如图6所示，输出第二图片集合之后，还包括：

步骤S540：利用第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型；

步骤S550：将第二图片集合中的图片输入至新文本语义相似度模型中，输出第三图片集合；

步骤S560：利用第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型；

步骤S570：将第二图片集合中的图片输入至新图片内容相似度模型中，输出第四图片集合。

具体的，将文本语义相似度模型和图片相似度模型进行更新，利用更新之后的模型在第二图片集合中继续筛选图片，筛选的过程和得到第二图片集的方法类似，在此不再赘述。

图片内容相似度模型利用三元组损失函数以及分类损失函数两种不同的约束条件对图片进行分类，输出。在三元组损失函数的训练过程中，初期负样本从其他垂类收集，保证了类间的区分能力。训练初期收敛会比较快，中期加入类内的负样本，增加训练难度，但同时保证类间也有较好的性能。后期由于简单的类间样本的对模型的收敛不起作用，所以全部负样本都从类内采集，同时选取那些文本语义相似度较大但图片内容相似度较小的样本。

需要指出的是，可以直接将第四图片集合作为图片训练样本输出。

在一种实施方式中，输出第四图片集合之后，还包括：

判断第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致；

若一致，则输出第四图片集合，以构成图片训练样本；若不一致，则返回执行将第四图片集合中的图片作为第二图片集合中的图片的操作，直至输出图片相似度和文本语义相似度一致的图片训练样本。

具体的，判断图片内容相似度是否一致，且文本语义相似度是否一致，只有当两项都一致的时候才能输出图片训练样本。否则，则返回重新筛选。

需要指出的是，判断的过程还可以在得到第二图片集合之后进行，判断第二图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致，若一致，则输出第二图片集合，以构成图片训练样本；若不一致，则返回执行将第二图片集合中的图片作为候选图片分类集合中的图片的操作，直至输出图片相似度和文本语义相似度一致的图片训练样本。

实施例二

在一种具体的实施方式中，如图7所示，提供了一种图片训练样本挖掘装置，包括：

候选图片获取模块10，用于根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本；

通用文本相似度模型训练模块20，用于根据图片描述文本训练得到通用文本相似度模型；

垂类模型训练模块30，用于利用通用文本相似度模型和类别特征参数训练得到垂类模型，类别特征参数与根据图片描述文本分类得到的训练样本类别相对应；

候选图片分类模块40，用于利用垂类模型对所述候选图片进行分类，得到多个候选图片分类集合；

样本训练模块50，用于将每个候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本。

在一种实施例中，如图8所示，所述装置还包括：

图片描述文本分类模块31，用于根据图片描述文本分类得到多个训练样本类别；

垂类数据抓取模块32，用于在每个训练样本类别对应的多个垂类网站中抓取垂类数据，垂类数据包括分类后的图片和对应的图片描述文本；

类别特征参数提取模块33，用于根据分类后的图片和图片描述文本提取类别特征参数。

在一种实施例中，样本训练模块50包括：

第一分类单元，用于将候选图片分类集合中的图片输入至所述文本语义相似度模型中，输出第一图片集合；

图片内容相似度模型训练单元，用于利用第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型；

第二分类单元，用于将候选图片分类集合中的图片输入至所述图片内容相似度模型中，输出第二图片集合。

在一种实施例中，样本训练模块50还包括：

文本语义相似度模型更新单元，用于利用第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型；

第三分类单元，用于将第二图片集合中的图片输入至新文本语义相似度模型中，输出第三图片集合；

图片内容相似度模型更新单元，利用第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型；

第四分类单元，将第二图片集合中的图片输入至新图片内容相似度模型中，输出第四图片集合。

在一种实施例中，样本训练模块50还包括：

判断单元，用于判断第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致；

图片训练样本输出单元，用于若一致，则输出第四图片集合，以构成图片训练样本；若不一致，则返回执行将第四图片集合中的图片作为所述第二图片集合中的图片的操作，直至输出图片相似度和文本语义相似度一致的所述图片训练样本。

实施例三

本发明实施例提供了一种图片训练样本挖掘终端，如图9所示，包括：

存储器400和处理器500，存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的图片训练样本挖掘方法。存储器400和处理器500的数量可以为一个或多个。

通信接口600，用于存储器400和处理器500与外部进行通信。

存储器400可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器400、处理器500以及通信接口600独立实现，则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器400、处理器500以及通信接口600集成在一块芯片上，则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。

实施例四

一种计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时实现如实施例一包括的任一所述的图片训练样本挖掘方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图片训练样本挖掘方法，其特征在于，包括：

根据所述图片描述文本训练得到通用文本相似度模型；

将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本；

所述将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本的步骤包括：

2.根据权利要求1所述的方法，其特征在于，利用所述通用文本相似度模型和类别特征参数训练得到垂类模型之前，还包括：

根据所述图片描述文本分类得到多个所述训练样本类别；

3.根据权利要求1所述的方法，其特征在于，输出第二图片集合之后，还包括：

4.根据权利要求3所述的方法，其特征在于，输出第四图片集合之后，还包括：

5.一种图片训练样本挖掘装置，其特征在于，包括：

样本训练模块，用于将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中，得到每个类别对应的图片训练样本；

所述样本训练模块包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的装置，其特征在于，所述样本训练模块还包括：

8.根据权利要求7所述的装置，其特征在于，所述样本训练模块还包括：

9.一种图片训练样本挖掘终端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。