CN110569380B

CN110569380B - 一种图像标签获取方法、装置及存储介质和服务器

Info

Publication number: CN110569380B
Application number: CN201910872887.6A
Authority: CN
Inventors: 吴韬; 徐敘遠; 龚国平; 杨喻茸
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2021-06-04
Anticipated expiration: 2039-09-16
Also published as: CN110569380A

Abstract

本发明实施例公开了一种图像标签获取方法、装置及存储介质和服务器，应用于信息处理技术领域。图像标签获取装置会先检测待处理图像中包含主要物体的区域即主体区域，并对这些主体区域的子图像进行特征提取，进而再根据提取的特征即预置的特征标签库，获取到主体区域对应的标签。其中，待处理图像的主体区域中子图像的特征信息可以表示待处理图像中主要物体的特征，再根据子图像的特征信息得到标签时，能避免待处理图像中画面场景结构的信息对标签获取的影响，使得最终得到的标签较为准确地表示待处理图像。

Description

一种图像标签获取方法、装置及存储介质和服务器

技术领域

本发明涉及信息处理技术领域，特别涉及一种图像标签获取方法、装置及存储介质和服务器。

背景技术

现有基于图像内容的检索或推荐方法主要是通过提取输入图像或视频帧的特征信息作为索引，以进行多媒体信息的检索或推荐，其中，提取的特征信息主要有传统的图像特征比如，尺度不变特征变换(Scale-invariant feature transform，SIFT)或者卷积神经网络(Convolutional Neural Networks，CNN)提取的特征。

上述现有的基于图像内容的检索或推荐过程中，提取的特征信息会综合考虑图像整个画面的特征，这样，往往会受到整个画面场景结构的影响，使得检索或推荐的结果可能会出现很多场景类似或者背景相似，但是并不是用户需要的检索或推荐结果。

发明内容

本发明实施例提供一种图像标签获取方法、装置及存储介质和服务器，实现了根据待处理图像中主体区域的子图像的特征信息获取标签，以避免待处理图像中画面场景结构的信息对标签获取的影响。

本发明实施例一方面提供一种图像标签获取方法，包括：

对待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域；

对所述待处理图像中至少一个主体区域的子图像进行特征提取，得到至少一组特征信息；

根据所述至少一组特征信息，从预置的特征标签库中，获取与所述至少一组特征信息之间的相似度在预置范围内的特征对应的标签，得到所述至少一个主体区域对应的标签。

本发明实施例另一方面提供一种图像标签获取装置，包括：

区域检测单元，用于对待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域；

特征提取单元，用于对所述待处理图像中至少一个主体区域的子图像进行特征提取，得到至少一组特征信息；

标签获取单元，用于根据所述至少一组特征信息，从预置的特征标签库中，获取与所述至少一组特征信息之间的相似度在预置范围内的特征对应的标签，得到所述至少一个主体区域对应的标签。

本发明实施例另一方面提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如本发明实施例第一方面所述的图像标签获取方法。

本发明实施例另一方面提供一种服务器，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如本发明实施例所述的图像标签获取方法。

可见，在本实施例的方法中，图像标签获取装置会先检测待处理图像中包含主要物体的区域即主体区域，并对这些主体区域的子图像进行特征提取，进而再根据提取的特征即预置的特征标签库，获取到主体区域对应的标签。其中，待处理图像的主体区域中子图像的特征信息可以表示待处理图像中主要物体的特征，再根据子图像的特征信息得到标签时，能避免待处理图像中画面场景结构的信息对标签获取的影响，使得最终得到的标签较为准确地表示待处理图像。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像标签获取方法的示意图；

图2是本发明一个实施例提供的一种图像标签获取方法的流程图；

图3是本发明一个实施例中图像中主体区域的示意图；

图4是本发明一个实施例中训练物体检测模型的方法流程图；

图5是本发明一个实施例中训练特征提取模型的方法流程图；

图6是本发明一个应用实施例中图像标签获取方法所应用于的系统的结构示意图；

图7是本发明一个应用实施例中在图像标签获取装置中设置特征标签库方法的示意图；

图8是本发明一个应用实施例中获取待处理图像的标签的方法的示意图；

图9是本发明另一个应用实施例中图像标签获取方法所应用于的区块链系统的结构示意图；

图10是本发明另一个应用实施例中区块结构示意图；

图11是本发明实施例提供的一种图像标签装置的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种图像标签获取方法，主要可以应用于图像检索或图像推荐等应用中，如图1所示，具体是由图像标签获取装置按照如下步骤获取待获取图像的标签：

对待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域(图中以n个主体区域为例说明)；对所述待处理图像中至少一个主体区域的子图像进行特征提取，得到至少一组特征信息；根据所述至少一组特征信息，从预置的特征标签库中，获取与所述至少一组特征信息之间的相似度在预置范围内的特征对应的标签，得到所述至少一个主体区域对应的标签。

这样，待处理图像的主体区域中子图像的特征信息可以表示待处理图像中主要物体的特征，再根据子图像的特征信息得到标签时，能避免待处理图像中画面场景结构的信息对标签获取的影响，使得最终得到的标签较为准确地表示待处理图像。

本发明实施例提供一种图像标签获取方法，主要是图像标签获取装置所执行的方法，流程图如图2所示，包括：

步骤101，对待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域。

可以理解，在一种情况下，用户可以直接将某一图像，或某一视频输入到图像标签获取装置，而图像标签获取装置会接收到用户输入的图像，并将用户输入图像作为待处理图像，或接收到用户输入的视频，并将用户输入视频中的视频帧作为待处理图像，并发起本实施例的流程。

在另一种情况下，用户可以操作终端，使得终端向该图像标签获取装置发起推荐或检索请求，以请求检索或推荐与用户输入图像或用户输入视频相关的多媒体信息，则图像标签获取装置在接收到请求后，可以根据终端的请求，将用户输入图像或用户输入视频中的视频帧作为待处理图像，并发起本实施例的流程，获取待处理图像的标签，进而向终端返回与获取的标签相关的多媒体信息。在这种情况下，图像标签获取装置具体为检索或推荐服务器。

上述待处理图像中包含的主要物体一般是待处理图像中处于前景位置的物体，比如某一图像的前景中包含人体(或动物)，其主要物体为人体(或动物)，而图像中的风景非主要物体；又比如在另一图像的前景中包含某一建筑物，其主要物体是该建筑物，而图像中的其它自然风景非主要物体等。

待处理图像中包含主要物体的区域是主要物体所在的区域，该区域是大于或等于该主要物体轮廓的区域，因此该区域的轮廓组成的图形可以是不规则图形，也可以是规则图形，为了简化计算，可以设定该区域的轮廓为规则图形，比如矩形或圆形等。例如图3所示的图像中包含的主要物体为圣诞老人，主要物体的区域则是能够包含圣诞来人轮廓的区域，具体为图中所示的矩形区域。

具体地，图像标签获取装置在执行本步骤的检测时，一种检测方法包括：可以采用预置的物体检测模型检测待处理图像中包含主要物体的区域，得到至少一个物体区域，如果检测得到的物体区域为一个，说明待处理图像中只包括一个物体图像，则将该一个物体区域作为待处理图像的主体区域。如果检测得到的物体区域为多个，可以直接将这多个物体区域作为待处理图像的主体区域；或者将对多个物体区域进行过滤后得到的物体区域作为待处理图像的主体区域。其中，预置的物体检测模型的运行逻辑是预先设置在图像标签获取装置中的，可以通过一定的方法训练得到，具体可以是单次多边框检测器(SingleShot MultiBox Detector，SSD)等机器学习模型。

其中，在对多个物体区域进行过滤时，可以将多个物体区域中符合预置过滤条件的物体区域进行过滤，这里预置过滤条件包括但不限于如下任一条件：缺少主要部位的物体区域(比如缺少头部的人体区域)，及物体区域的大小与待处理图像大小的比值小于预置值等。

需要说明的是，在执行本步骤时，图像标签获取装置还可以采用其它传统的主体区域检测方法，比如方向梯度直方图(Histogram of Oriented Gradient，HOG)或其它深度学习方法等，在这里不进行赘述。

步骤102，对待处理图像中至少一个主体区域的子图像进行特征提取，得到至少一组特征信息。

具体地，图像标签获取装置可以采用预置的特征提取模型对至少一个主体区域对应的子图像进行特征提取，这里，预置的特征提取模型是预先设置在图像标签获取装置中的，可以通过一定的方法训练得到，具体可以是人体特征提取网络(Human FeatureExtraction Networks，HFEN)，或CNN网络等机器学习模型；图像标签获取装置也可以采用传统的特征提取方法对子图像进行特征提取，比如SIFT方法等。

步骤103，根据至少一组特征信息，从预置的特征标签库中，获取与至少一组特征信息之间的相似度在预置范围内的特征对应的标签，得到至少一个主体区域对应的标签，而待处理图像的标签包括至少一个主体区域对应的标签。

具体地，预置的特征标签库可以有多种形式，比如，特征标签库可以包括多组拼接信息，每组拼接信息包括物体的特征信息与标签信息的拼接信息，这里物体的特征信息具体可以为特征向量，而标签信息主要指文字形式的标签对应的编码信息，即通过数字形式表示某一标签，比如用00表示物体所属类型，用11表示物体所出现的场所信息等。这样，针对上述步骤102得到的任意一组特征信息，图像标签获取装置可以先分别计算该组特征信息与各组拼接信息中物体的特征信息之间的相似度；再得到与该组特征信息之间的相似度在预置范围内(比如小于预置值)的物体的特征信息所在拼接信息中的标签信息，进而可以得知该组特征信息对应主体区域的标签，则待处理图像的标签包括各个主体区域的标签。

或者，特征标签库可以包括物体的特征信息与标签信息的对应关系，这样，针对上述步骤102得到的任意一组特征信息，图像标签获取装置可以先分别计算该组特征信息与对应关系中各个物体的特征信息之间的相似度；再得到对应关系中，与该组特征信息之间的相似度在预置范围内(比如小于预置值)的物体的特征信息对应的标签信息，进而可以得知该组特征信息对应主体区域的标签。

其中，各个主体区域的标签为主体区域中主要物体的属性信息，比如，主要物体为人体，则对应标签可以为：人物名称，人物所在剧集的名称，人物所在单位名称等。上述预置的特征标签库可以是预先设置在图像标签获取装置中的，具体地，可以先选取多个入库图像，这些入库图像中包含的主要物体有多种类型，并采用上述预置的物体检测模型和特征提取模型得到每个入库图像中各个主要物体所在区域(即主体区域)的子图像的特征信息；然后设置这些子图像的标签，并根据各个子图像的特征信息与相应的标签确定特征标签库，并储存到图像标签获取装置中。其中，主要物体的多种类型可以包括但不限于如下类型：人体类型、动物类型和建筑物类型等。

在一个具体的实施例中，图像标签获取装置可以通过如下步骤对上述预置的物体检测模型进行训练，流程图如图4所示，包括如下人工智能的机器学习的方法步骤：

步骤201，确定物体检测初始模型。

可以理解，图像标签获取装置在确定物体检测初始模型时，会确定物体检测初始模型所包括的多层结构和各层机构中参数的初始值。具体地，物体检测初始模型用于提取图像的特征，并根据图像的特征确定图像中主要物体所在区域的信息，即主体区域的信息。

物体检测初始模型的多层结构可以是SSD结构等；物体检测初始模型的参数是指物体检测初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

步骤202，确定第一训练样本，第一训练样本中包括多个第一样本图像，及每个第一样本图像中主要物体所在区域的标注信息。

步骤203，通过物体检测初始模型分别确定各个第一样本图像中主要物体所在区域的信息。

具体地，物体检测初始模型提取各个第一样本图像的特征，并根据第一样本图像的特征确定第一样本图像中主要物体所在区域的信息，即主体区域的信息。

步骤204，根据物体检测初始模型确定的各个第一样本图像中主要物体所在区域的信息，及第一训练样本中的标注信息，调整物体检测初始模型中的参数值，以得到最终的物体检测模型，该最终的物体检测模型即为上述预置的物体检测模型。

具体地，图像标签获取装置会先根据上述步骤203中确定的物体检测初始模型得到的结果，及第一训练样本中的标注信息，计算与物体检测初始模型相关的损失函数，该损失函数用于指示物体检测初始模型预测各个第一样本图像中主体区域的信息的误差，比如交叉熵损失函数等。而物体检测初始模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的物体检测初始模型中参数的参数值，并使得上述损失函数的计算值降至最低。

因此，在计算得到损失函数后，图像标签获取装置需要根据计算的损失函数调整物体检测初始模型中的参数值，以得到最终的物体检测模型。具体地，当计算的损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的损失函数的函数值减小。

需要说明的是，上述步骤203到204是通过物体检测初始模型预测到的第一样本图像中主体区域的信息，对物体检测初始模型中的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对参数值的调整满足一定的停止条件为止。

因此，图像标签获取装置在执行了上述实施例步骤201到204之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的物体检测初始模型，返回执行上述步骤203到204。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

在另一个具体的实施例中，图像标签获取装置可以通过如下步骤对上述预置的特征提取模型进行训练，流程图如图5所示，包括如下人工智能的机器学习的方法步骤：

步骤301，确定分类初始模型。

可以理解，图像标签获取装置在确定分类初始模型时，会确定分类初始模型所包括的多层结构和各层机构中参数的初始值。具体地，分类初始模型可以包括特征提取子模型和分类子模型，特征提取子模型用于提取图像的特征信息，分类子模型用于根据图像的特征信息确定图像中物体的类型。

分类初始模型的多层结构可以是HFEN网络结构或是深度可分离卷积结构(depthwise separable convolution，DSC)等；分类初始模型的参数是指分类初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

需要说明的是，上述特征提取子模型可以采用深层特征与浅层特征结合的方式进行提取特征，即特征提取子模型将对图像提取的深层特征(可以表示图像的语义信息)与提取的浅层特征(可以表示结构上的相似性)拼接得到图像最终的特征信息，能够更好的提升最终获取标签的准确率。

步骤302，确定第二训练样本，第二训练样本中包括多个第二样本图像，及每个第二样本图像中物体类型的标注信息。

需要说明的是，图像标签获取装置选取的每个第二样本图像中尽量包括一个物体，且多个第二样本图像中的物体可以包括多种类型，比如人体类型，动物类型和建筑物类型等，具体地，可以从某一视频中抽取多个视频帧，比如同一运动的物体出现在的多个视频帧。

步骤303，通过分类初始模型分别确定各个第二样本图像中物体的类型。

具体地，分类初始模型中的特征提取子模型提取各个第二样本图像的特征信息，分类子模型根据各个第二样本图像的特征信息确定第二样本图像中物体的类型。

步骤304，根据分类初始模型确定的各个第二样本图像中物体的类型，及第二训练样本中的标注信息，调整分类初始模型中的参数值，以得到最终的分类模型，这里最终的分类模型包括最终的特征提取子模型和最终的分类子模型，其中，最终的特征提取子模型即为上述预置的特征提取模型。

具体地，图像标签获取装置会先根据上述步骤303中确定的分类初始模型得到的结果，及第二训练样本中的标注信息，计算与分类初始模型相关的损失函数，该损失函数用于指示分类初始模型预测各个第二样本图像中物体类型的误差，比如三元组损失函数(TripletLoss)等。而分类初始模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤301中确定的分类初始模型中参数的参数值，并使得上述损失函数的计算值降至最低。

因此，在计算得到损失函数后，图像标签获取装置需要根据计算的损失函数调整分类初始模型中的参数值，以得到最终的分类模型。具体地，当计算的损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的损失函数的函数值减小。

需要说明的是，上述步骤303到304是通过分类初始模型预测到的第二样本图像中物体的类型，对分类初始模型中的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤303到304，直到对参数值的调整满足一定的停止条件为止。在得到最终的分类模型后，图像标签获取装置可以将最终的分类模型中最终的特征提取子模型的运行逻辑预置到图像标签获取装置中。

因此，图像标签获取装置在执行了上述实施例步骤301到304之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的分类初始模型，返回执行上述步骤303到304。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

需要说明的是，训练上述物体检测模型和分类模型的方法都属于人工智能的机器学习(Machine Learning,ML)方法，其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

以下以一个具体的应用实例来说明本发明中的图像标签获取方法，可以理解的是，在实际应用过程中，本发明的图像标签获取方法可以应用于终端，即上述的图像标签获取装置设置在终端；本发明的图像标签获取方法也可以应用于服务器中，即将上述的图像标签获取装置设置在服务器。本应用实例中以图像标签方法应用于服务器为例来说明，具体应用于如图6的系统中，在该系统中包括终端与服务器，其中，终端用于向服务器发起请求，该请求可以为检索请求或推荐请求，请求服务器检索或推荐与用户输入图像或用户输入视频相关的多媒体信息；上述的图像标签获取装置设置在服务器，用于接收到终端的请求后，根据该请求先执行图像标签获取方法得到相应的标签，并向终端返回与获取的标签相关的多媒体信息。

进一步地，系统中的终端，还用于向服务器发起对特征标签库的设置请求等。还可以向服务器发送训练物体检测模型和特征提取模型的训练样本等信息。

且在本实施例中，待处理图像的主要物体为人体，对应的主体区域为人体区域，在服务器中预置的物体检测模型和特征提取模型分别为人体检测模型和人体特征提取模型。本实施例的方法还可以包括如下两个部分：

(1)如图7所示，可以通过终端在服务器中设置特征标签库，包括：

步骤401，用户可以通过终端选取入库视频，终端在接收到用户选取的入库视频后，将用户选取的入库视频发送给服务器，由服务器对入库视频进行抽帧采样得到视频帧。

步骤402，服务器采用人体检测模型，比如SSD检测视频帧中人体所在的区域，得到多个人体区域；将符合预置过滤条件的人体区域进行过滤，比如将缺少头部的人体区域，或大小与视频帧大小的比值小于预置值的人体区域过滤，得到过滤后人体区域。

步骤403，服务器采用人体特征提取模型，比如HFEN网络等对视频帧中过滤后人体区域的子图像进行特征提取，得到多组特征信息。

步骤404，用户可以通过终端设置各个过滤后人体区域中子图像的标签，终端接收到用户设置的各个过滤后人体区域中子图像的标签，将这些标签发送给服务器。其中，每个人体区域的标签可以包括多个，每个人体区域的标签主要受该区域中人体图像的服饰、人脸、配饰等影响，对于不同人体区域的子图像会有不同的标签。这些标签后续有非常广泛的用途，主要包括辅助图像的检索、帮助推荐具有相似标签的多媒体，以及图像分类等应用。

步骤405，服务器将上述步骤403提取得到的每组特征信息，与上述步骤404中接收的用户设置的相应人体区域的标签相关联，将特征信息与标签的对应关系储存成特征标签库。

(2)如图8所示，可以通过如下步骤获取待处理图像的标签，该待处理图像中包含人体图像，包括：

步骤501，用户可以操作终端，使得终端向服务器发起请求，该请求用于请求服务器检索或推荐与用户输入图像或用户输入视频相关的多媒体信息；服务器接收到请求后，根据接收的请求将用户输入图像或用户输入视频中的视频帧作为待处理图像，并针对待处理图像发起如下的步骤。

步骤502，服务器采用人体检测模型先检测待处理图像的多个人体区域，并对多个人体区域进行过滤得到过滤后人体区域。

步骤503，服务器采用人体特征提取模型对待处理图像中过滤后人体区域的子图像进行特征提取，得到多组特征信息。

步骤504，服务器计算上述步骤503中得到的各组特征信息，与预置的特征标签库中的特征信息的相似度，确定相似度较高的多个特征信息对应的标签，即为待处理图像的标签，包括多个人体区域的子图像的标签。

步骤505，服务器可以根据待处理图像的标签，检索到与该标签相关的多媒体信息，返回给用户的终端进行显示。

可见，通过本实施例的方法，在具体应用中，用户可以利用一张图片或者一小段视频在终端进行搜索，由终端显示相关的完整视频/视频片段，提升用户在视频平台(即上述服务器)的搜索体验；同时服务器能检索得到视频中视频帧的标签，可以更加准确的为用户推荐具有相同/相似标签的视频或图片等信息。另外，本实施例的方法是基于待处理图像中包含的人体图像出发，因此可以帮助审核视频中出现的违规情况，提升审核的效率和准确率。

以下以另一个具体的应用实例来说明本发明中的图像标签获取方法，本实施例的方法可以应用于如图9的系统中，该系统是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，如图9是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图9示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其它节点，供其它节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其它节点，其它节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其它节点，其它节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

在本实施例中，应用实现的业务还包括：

2.4)实现图像标签获取功能，并根据实现图像标签获取功能相关的数据形成记录数据，具体地，应用可以执行上述图像标签获取装置所执行的所有方法步骤，在此不进行赘述；其中，应用还会根据执行上述图像标签获取方法过程中所需的特征标签库、预置的物体分类模型及预置的特征提取模型等数据形成记录数据。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图10所示是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储记录数据的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。本发明实施例还提供一种图像标签获取装置，其结构示意图如图11所示，具体可以包括：

区域检测单元10，用于对待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域。

该区域检测单元10，具体用于通过预置的物体检测模型检测所述待处理图像中包含主要物体的区域，得到至少一个物体区域；如果所述物体区域为一个，将所述一个物体区域作为所述主体区域；如果所述物体区域为多个，将所述多个物体区域作为所述主体区域；或将对所述多个物体区域进行过滤后得到的物体区域作为所述主体区域。其中，对所述多个物体区域进行过滤时，将所述多个物体区域中符合预置过滤条件的物体区域进行过滤。

这里预置过滤条件包括如下任一条件：缺少主要部位的物体区域，及物体区域的大小与所述待处理图像大小的比值小于预置值。

特征提取单元11，用于对所述区域检测单元10检测的待处理图像中至少一个主体区域的子图像进行特征提取，得到至少一组特征信息。

标签获取单元12，用于根据所述特征提取单元11提取的至少一组特征信息，从预置的特征标签库中，获取与所述至少一组特征信息之间的相似度在预置范围内的特征对应的标签，得到所述至少一个主体区域对应的标签。这里所述的特征标签库中包括：多组拼接信息，每组所述拼接信息包括物体的特征信息与标签信息的拼接信息；或，所述预置的特征标签库中包括物体的特征信息与标签信息的对应关系。

进一步地，图像标签获取装置还可以包括：

第一训练单元13，用于确定物体检测初始模型；确定第一训练样本，所述第一训练样本中包括多个第一样本图像，及每个第一样本图像中主要物体所在区域的标注信息；通过所述物体检测初始模型分别确定各个所述第一样本图像中主要物体所在区域的信息；根据所述物体检测初始模型确定的各个第一样本图像中主要物体所在区域的信息，及所述第一训练样本中的标注信息，调整所述物体检测初始模型中的参数值，以得到最终的物体检测模型。该第一训练单元13通过人工智能的机器学习方法训练得到物体检测模型后，上述区域检测单元10就可以根据第一训练单元13得到的物体检测模型进行主体区域的检测。

第二训练单元14，用于确定分类初始模型，所述分类初始模型包括所述特征提取子模型和分类子模型，所述特征提取子模型用于提取图像的特征信息，所述分类子模型用于根据所述图像的特征信息确定所述图像中物体的类型；确定第二训练样本，所述第二训练样本中包括多个第二样本图像，及每个第二样本图像中物体类型的标注信息；通过所述分类初始模型中的特征提取子模型分别确定各个所述第二样本图像的特征信息，及通过所述分类子模型根据所述各个第二样本图像的特征信息确定所述第二样本图像中物体的类型；根据所述分类初始模型确定的各个第二样本图像中物体的类型，及所述第二训练样本中的标注信息，调整所述分类初始模型中的参数值，以得到最终的分类模型，包括最终的特征提取子模型和最终的分类子模型。该第二训练单元14用于通过人工智能的机器学习方法来训练最终的分类模型后，上述特征提取单元11，具体用于采用第二训练单元14训练得到的最终的分类模型中最终的特征提取子模型对所述待处理图像中至少一个主体区域的子图像进行特征提取，得到至少一组特征信息。

该第二训练单元14，还用于当对所述参数值的调整次数等于预置的次数时，或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

标签入库单元15，用于选取入库图像，所述入库图像中包含的主要物体有多种类型；获取所述入库图像中主体区域的子图像的特征信息，及设置所述子图像的标签；根据所述入库图像中子图像的特征信息与相应的标签确定特征标签库。这样，上述的标签获取单元12会根据标签入库单元15确定的特征标签库得到各个主体区域对应的标签。

可见，在本实施例的图像标签获取装置中，区域检测单元10会先检测待处理图像中包含主要物体的区域即主体区域，特征提取单元11对这些主体区域的子图像进行特征提取，进而标签获取单元12再根据提取的特征即预置的特征标签库，获取到主体区域对应的标签。其中，待处理图像的主体区域中子图像的特征信息可以表示待处理图像中主要物体的特征，再根据子图像的特征信息得到标签时，能避免待处理图像中画面场景结构的信息对标签获取的影响，使得最终得到的标签较为准确地表示待处理图像。

本发明实施例还提供一种服务器，其结构示意图如图12所示，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括图像标签获取的应用程序，且该程序可以包括上述图像标签获取装置中的区域检测单元10，特征提取单元11，标签获取单元12，第一训练单元13，第二训练单元14和标签入库单元15，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中储存的图像标签获取的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，和/或，一个或一个以上操作系统223，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由图像标签获取装置所执行的步骤可以基于该图12所示的服务器的结构。

本发明实施例还提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述图像标签获取装置所执行的图像标签获取方法。

本发明实施例还提供一种服务器，包括处理器和存储介质，所述处理器，用于实现各个指令；所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如上述图像标签获取装置所执行的图像标签获取方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的图像标签获取方法、装置及存储介质和服务器进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像标签获取方法，其特征在于，包括：

获取推荐或检索请求，以请求推荐或检索相关的多媒体信息，根据所述推荐或检索请求确定待处理图像，对所述待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域；

根据所述至少一组特征信息，从预置的特征标签库中，获取与所述至少一组特征信息之间的相似度在预置范围内的特征对应的标签，得到所述至少一个主体区域对应的标签，其中，所述至少一个主体区域对应的标签包括所述主体区域中主要物体的属性信息，如果所述主要物体为人体，对应的标签受人体图像的服饰、人脸和配饰的影响，包括人物名称、人物所在剧集的名称或人物所在单位名称；

所述对所述待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域，具体包括：

通过预置的物体检测模型检测所述待处理图像中包含主要物体的区域，得到至少一个物体区域；

如果所述物体区域为一个，将所述一个物体区域作为所述主体区域；

如果所述物体区域为多个，将所述多个物体区域作为所述主体区域；或将对所述多个物体区域进行过滤后得到的物体区域作为所述主体区域；

所述方法还包括：

确定物体检测初始模型；所述物体检测初始模型用于提取图像的特征，并根据图像的特征确定图像中主要物体所在区域的信息，即主体区域的信息；

确定第一训练样本，所述第一训练样本中包括多个第一样本图像，及每个第一样本图像中主要物体所在区域的标注信息；

通过所述物体检测初始模型分别确定各个所述第一样本图像中主要物体所在区域的信息；

根据所述物体检测初始模型确定的各个第一样本图像中主要物体所在区域的信息，及所述第一训练样本中的标注信息，调整所述物体检测初始模型中的参数值，以得到最终的物体检测模型，所述最终的物体检测模型为所述预置的物体检测模型；

当前对所述参数值的调整不满足预置的停止条件时，针对调整参数值后的物体检测初始模型，返回执行所述确定第一样本图像中主要物体所在区域的信息及调整物体检测初始模型中参数值的步骤，其中，所述预置的停止条件包括如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数。

2.如权利要求1所述的方法，其特征在于，所述对所述多个物体区域进行过滤，具体包括：

将所述多个物体区域中符合预置过滤条件的物体区域进行过滤。

3.如权利要求2所述的方法，其特征在于，所述预置过滤条件包括如下任一条件：缺少主要部位的物体区域，及物体区域的大小与所述待处理图像大小的比值小于预置值。

4.如权利要求1至3任一项所述的方法，其特征在于，所述对所述待处理图像中至少一个主体区域的子图像进行特征提取，具体包括：

采用预置的特征提取模型对所述待处理图像中至少一个主体区域的子图像进行特征提取，得到至少一组特征信息。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

确定分类初始模型，所述分类初始模型包括所述特征提取子模型和分类子模型，所述特征提取子模型用于提取图像的特征信息，所述分类子模型用于根据所述图像的特征信息确定所述图像中物体的类型；

确定第二训练样本，所述第二训练样本中包括多个第二样本图像，及每个第二样本图像中物体类型的标注信息；

通过所述分类初始模型中的特征提取子模型分别确定各个所述第二样本图像的特征信息，及通过所述分类子模型根据所述各个第二样本图像的特征信息确定所述第二样本图像中物体的类型；

根据所述分类初始模型确定的各个第二样本图像中物体的类型，及所述第二训练样本中的标注信息，调整所述分类初始模型中的参数值，以得到最终的分类模型，所述最终的分类模型包括最终的特征提取子模型和最终的分类子模型，所述最终的特征提取子模型为所述预置的特征提取模型。

6.如权利要求5所述的方法，其特征在于，当对所述分类初始模型中参数值的调整次数等于预置的次数时，或当当前调整的所述分类初始模型的固定参数值与上一次调整的所述分类初始模型的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

7.如权利要求1至3任一项所述的方法，其特征在于，所述特征标签库中包括多组拼接信息，每组所述拼接信息包括物体的特征信息与标签信息的拼接信息；或，

所述特征标签库中包括物体的特征信息与标签信息的对应关系。

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

选取入库图像，所述入库图像中包含的主要物体有多种类型；

获取所述入库图像中主体区域的子图像的特征信息，及设置所述子图像的标签；

根据所述入库图像中子图像的特征信息与相应的标签确定所述特征标签库。

9.如权利要求7所述的方法，其特征在于，所述方法应用于区块链系统中一节点，所述方法还包括：所述区块链系统中一节点根据所述特征标签库形成记录数据。

10.一种图像标签获取装置，其特征在于，包括：

区域检测单元，用于获取推荐或检索请求，以请求推荐或检索相关的多媒体信息，根据所述推荐或检索请求确定待处理图像，对所述待处理图像中包含主要物体的区域进行检测，得到至少一个主体区域；

所述区域检测单元，具体用于通过预置的物体检测模型检测所述待处理图像中包含主要物体的区域，得到至少一个物体区域；如果所述物体区域为一个，将所述一个物体区域作为所述主体区域；如果所述物体区域为多个，将所述多个物体区域作为所述主体区域；或将对所述多个物体区域进行过滤后得到的物体区域作为所述主体区域；

标签获取单元，用于根据所述至少一组特征信息，从预置的特征标签库中，获取与所述至少一组特征信息之间的相似度在预置范围内的特征对应的标签，得到所述至少一个主体区域对应的标签，其中，所述至少一个主体区域对应的标签包括所述主体区域中主要物体的属性信息，如果所述主要物体为人体，对应的标签受人体图像的服饰、人脸和配饰的影响，包括人物名称、人物所在剧集的名称或人物所在单位名称；

第一训练单元，用于确定物体检测初始模型；所述物体检测初始模型用于提取图像的特征，并根据图像的特征确定图像中主要物体所在区域的信息，即主体区域的信息；确定第一训练样本，所述第一训练样本中包括多个第一样本图像，及每个第一样本图像中主要物体所在区域的标注信息；通过所述物体检测初始模型分别确定各个所述第一样本图像中主要物体所在区域的信息；根据所述物体检测初始模型确定的各个第一样本图像中主要物体所在区域的信息，及所述第一训练样本中的标注信息，调整所述物体检测初始模型中的参数值，以得到最终的物体检测模型，所述最终的物体检测模型为所述预置的物体检测模型；当前对所述参数值的调整不满足预置的停止条件时，针对调整参数值后的物体检测初始模型，返回执行所述确定第一样本图像中主要物体所在区域的信息及调整物体检测初始模型中参数值的步骤，其中，所述预置的停止条件包括如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数。

11.一种存储介质，其特征在于，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如权利要求1至9任一项所述的图像标签获取方法。

12.一种服务器，其特征在于，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如权利要求1至9任一项所述的图像标签获取方法。