CN104899820A

CN104899820A - 为图像添加标签的方法、系统和装置

Info

Publication number: CN104899820A
Application number: CN201410088783.3A
Authority: CN
Inventors: 周莜; 戴佳瑶; 瞿佳; 谢奕
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2014-03-11
Filing date: 2014-03-11
Publication date: 2015-09-09
Anticipated expiration: 2034-03-11
Also published as: CN104899820B

Abstract

本发明公开了为图像添加标签的方法、系统和装置：在进行静态图像展示或进行视频文件播放的过程中，当确定当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像，所述子图像的数量为M，M为正整数；并针对每幅子图像，分别进行以下处理：生成该子图像的指纹；分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配；从匹配成功的指纹中选定一个指纹，并将所述指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，展示到当前图像中的预定位置。应用本发明所述方案，能够节省人力成本，且具有广泛适用性。

Description

为图像添加标签的方法、系统和装置

技术领域

本发明涉及图像处理技术，特别涉及为图像添加标签的方法、系统和装置。

背景技术

当用户通过互联网等观看某一视频文件时，可能会希望了解视频中所出现的某种类型的物品的一些基本信息。

为了满足用户的上述需求，现有技术中，通常采用人工在视频进度中打上物品标签的方式，即在视频文件中出现所述类型的物品的不同时间点，分别通过人工的方式在图像中添加标签，即展示介绍物品的一些基本信息。

但是，互联网中的视频文件数量巨大，如果都采用上述人工添加标签的方式，几乎是不可能完成的任务，因此只能选择性地对部分视频文件进行上述处理。

可见，现有方式不但会耗费大量的人力成本，而且不具有广泛适用性。

发明内容

有鉴于此，本发明提供了为图像添加标签的方法、系统和装置，能够节省人力成本，且具有广泛适用性。

为了达到上述目的，本发明的技术方案是这样实现的：

一种为图像添加标签的方法，包括：

在进行静态图像展示或进行视频文件播放的过程中，当确定当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像，所述子图像的数量为M，M为正整数；

针对每幅子图像，分别进行以下处理：

生成该子图像的指纹；分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配；

从匹配成功的指纹中选定一个指纹，将所述指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，展示到当前图像中的预定位置。

一种为图像添加标签的系统，包括：

图像处理装置，用于在进行静态图像展示或进行视频文件播放的过程中，当确定当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像，并发送给为图像添加标签的装置，所述子图像的数量为M，M为正整数；将接收自所述为图像添加标签的装置的标签展示到当前图像中的预定位置；

所述为图像添加标签的装置，用于针对每幅子图像，分别进行以下处理：生成该子图像的指纹；分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配；从匹配成功的指纹中选定一个指纹，将所述指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，发送给所述图像处理装置。

一种图像处理装置，包括：

第一处理模块，用于在进行静态图像展示或进行视频文件播放的过程中，当确定当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像，并发送，所述子图像的数量为M，M为正整数；

第二处理模块，用于将接收到的标签展示到当前图像中的预定位置。

一种为图像添加标签的装置，包括：

第三处理模块，用于接收包含预定类型的物品的子图像，并发送给第四处理模块，所述子图像的数量为M，M为正整数；

所述第四处理模块，用于针对每幅子图像，分别进行以下处理：生成该子图像的指纹；分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配；从匹配成功的指纹中选定一个指纹，将所述指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，并发送。

可见，采用本发明所述方案，可自动地为图像添加标签，从而克服了现有技术中存在的问题，不但能够节省人力成本，而且可适用于任意的视频文件以及静态图像，具有广泛适用性。

附图说明

图1为本发明为图像添加标签的方法实施例的流程图。

图2为本发明64种颜色组合方式及其分别对应的像素点数示意图。

图3为本发明为图像添加标签的系统实施例的组成结构示意图。

具体实施方式

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案作进一步的详细说明。

图1为本发明为图像添加标签的方法实施例的流程图。如图1所示，包括步骤11～14。

步骤11：在进行静态图像展示或进行视频文件播放的过程中，当确定当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像，所述子图像的数量为M，M为正整数。

本实施例中，假设所述预定类型为服装。

那么，针对当前图像，可首先采用人脸识别技术确定出其中是否出现了人脸，如果是，则可确定其中出现了服装类型的物品，并可基于人脸识别技术定位出人在图像中的基本位置，之后，可利用Adaboost分类器等，从当前图像中切割出服装的子图像，所述子图像的个数可能为一个，也可能为多个；每个子图像中的服装可为上衣、裤子或裙子等，具体实现均为现有技术。

步骤12：针对每幅子图像，分别按照步骤13～14所示方式进行处理。

步骤13：生成该子图像的指纹（Finger Print），并分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配。

所述指纹也可称为特征值，在实际应用中，每幅图像的指纹可包括：第一指纹和第二指纹。

相应地，本步骤中，针对每幅子图像，可分别生成该子图像的第一指纹和第二指纹，同样地，指纹库中需要预先生成并保存有各不同物品图像的第一指纹和第二指纹。

在得到该子图像的第一指纹和第二指纹后，首先，可分别计算指纹库中所保存的各第一指纹与该子图像的第一指纹的相似度，并确定相似度大于预定第一阈值的第一指纹数是否大于预定第二阈值；如果是，则将相似度大于第一阈值的第一指纹作为匹配成功的指纹；如果否，则分别计算指纹库中所保存的各第二指纹与该子图像的第二指纹的相似度，并将相似度大于第一阈值的第一指纹以及相似度大于第一阈值的第二指纹作为匹配成功的指纹。

也就是说，优先使用第一指纹来查找能够匹配成功的指纹，如果查找到的指纹数过少，再使用第二指纹来进行查找。

第一阈值和第二阈值的具体取值均可根据实际需要而定，比如，第一阈值可为85％，第二阈值可为5个。

较佳地，第一指纹的生成方式可为：针对每幅图像，分别生成该图像的颜色分布直方图（Color Histogram），并将生成的颜色分布直方图对应的向量作为该图像的第一指纹。

第二指纹的生成方式可为：针对每幅图像，分别生成该图像的感知哈希值，并将生成的感知哈希值作为该图像的第二指纹。

以下分别对第一指纹和第二指纹的生成方式进行详细说明。

1）第一指纹

任何一种颜色都是由红、绿、蓝三原色（RGB）所构成的，通常，每种原色均可取256个值，即0～255，那么，整个颜色空间共存在1600万种颜色（256的三次方），如果针对这1600万种颜色生成颜色分布直方图，计算量将会非常巨大，因此本发明所述方案中提出了一种简化后的方式。

即将红、绿、蓝三原色的取值0～255分别划分为四个区间，其中，第一区间的取值为0～63，第二区间的取值为64～127，第三区间的取值为128～191，第四区间的取值为192～255；按照红、绿、蓝三原色所属区间的不同，共可确定出64种（4的三次方）不同的颜色组合方式，任何一种颜色必然属于这64种颜色组合方式中的一种。

这样，对于每幅图像来说，可针对其中的每个像素点，分别根据该像素点的红、绿、蓝三原色的取值所属的区间，确定出该像素点对应的颜色组合方式，并分别统计每种颜色组合方式对应的像素点数，进而根据统计结果生成该图像的颜色分布直方图。

图2为本发明64种颜色组合方式及其分别对应的像素点数示意图。如图2所示，四个区间分别用0、1、2、3表示，那么，“0、0、0、7414”即表示图像中共有7414个像素点符合以下情况：红原色的取值位于0～63的范围内，绿原色的取值位于0～63的范围内，蓝原色的取值也位于0～63的范围内，“0、0、1、230”表示图像中共有230个像素点符合以下情况：红原色的取值位于0～63的范围内，绿原色的取值也位于0～63的范围内，蓝原色的取值位于64～127的范围内。

基于图2所示，可进一步得到一个64维的向量（7414，230，0，0，8，...，109，0，0，3415，53929），该向量即为图像的第一指纹。

2）第二指纹

对于每幅图像，可依此按照步骤A～D所示方式进行处理。

A、将该图像缩小为8×8大小，这一步的作用是去除图像中的细节，只保留结构、明暗等基本信息，从而摒弃不同尺寸、不同比例带来的图像差异。

如何进行图像缩小为现有技术。

B、将缩小后的图像转换为64级的灰度图像，即进行简化色彩处理，每个像素点的灰度值只能为0～63中的一种。

如何进行图像转换为现有技术。

C、对转换后的灰度图像进行二值化处理，包括：计算转换后的灰度图像中的各像素点的灰度平均值，即计算64个像素点的灰度值的平均值；分别将转换后的灰度图像中的各像素点的灰度值与所述灰度平均值进行比较，如果该像素点的灰度值大于或等于所述灰度平均值，则将该像素点的取值设置为1，否则，设置为0。

D、将取值为1或0的各像素点的取值按照预定顺序进行组合，得到一个长度为64位的整数，作为该图像的感知哈希值。

比如，可按照第1行中的第1个像素点的取值、第1行的第2个像素点的取值、…、第1行中的第8个像素点的取值、第2行中的第1个像素点的取值、…、第2行中的第8个像素点的取值、…、第8行中的第1个像素点的取值、…、第8行中的第8个像素点的取值的顺序，得到一个长度为64位的整数。

步骤14：从匹配成功的指纹中选定一个指纹，将指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，展示到当前图像中的预定位置。

本步骤中，可针对每幅子图像，直接将匹配成功的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹，或者，也可以按照预定规则对匹配成功的指纹进行筛选，将筛选后剩余的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹。

之后，可将指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，展示到当前图像中的预定位置，所述预定信息可包括：品牌、价格、购买链接地址等，如何进行展示不作限制。

如前所述，本实施例中，假设所述预定类型为服装，那么，针对匹配成功的指纹，可采用以下筛选方式：确定该子图像中的服装适合的性别；针对每个匹配成功的指纹，分别确定该指纹对应的服装适合的性别是否与该子图像中的服装适合的性别相同，如果是，则保留该指纹，否则，丢弃该指纹。

另外，当进行视频文件播放时，所述筛选可进一步包括：对视频文件的名称进行关键词提取；针对每个匹配成功的指纹，分别确定该指纹对应的服装是否与所述关键词的描述相符合，如果是，则保留该指纹，否则，丢弃该指纹。

在实际应用中，针对服装这一类型，通常会在指纹库中保存以下信息：服装图像、指纹以及描述信息，其中，描述信息中可包括：品牌、价格、购买链接地址、适合的性别、款式等，特殊地，如果与电视剧或电影中的人物所穿的同款，通常还会包括与××（电视剧名或电影名）中的××（剧中人物名）同款等信息。

这样，针对每幅子图像，可通过对该子图像对应的人脸进行性别识别等，获知该子图像中的服装适合的性别，并可针对匹配成功的每个指纹，分别根据其对应的服装的描述信息确定该指纹对应的服装适合的性别是否与该子图像中的服装适合的性别相同，如果是，则保留该指纹，否则，丢弃该指纹。另外，假设视频文件的名称为“××（电视剧名）第一集”，从中提取出的关键词为“××（电视剧名）”，并假设某一匹配成功的指纹对应的服装的描述信息中说明该服装与该电视剧中的××（剧中人物名）所穿的同款，那么则保留该指纹。

需要说明的是，对于同一款式但不同颜色的两件服装，本发明所述方案中会将其作为两个不同的物品进行处理，因为其对应的指纹等会不同。

指纹库中所保存的信息可根据实际需要进行动态更新。

另外，考虑到视频文件的特殊性，即当人物出现在视频中时，通常会持续一段时间，如果这段时间内针对每帧图像均执行本发明所述方案，相当于是针对同一件服装不断地生成和展示标签，造成工作上的重复和浪费，为此，可采用以下处理方式；当确定距离最近一次生成标签的时长超过预定时长、且当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像。

再有，在一个视频文件中，同一人物可能在不同的时间段出现，而且所穿的服装可能相同，这种情况下，如果每次出现时，均按照本发明所述方案进行处理，也会造成工作上的重复和浪费，为此，可采用以下处理方式：针对每幅子图像，在生成该子图像的指纹之后，进一步确定该子图像的指纹是否与所保存的一个指纹的相似度大于预定第三阈值，如果是，则丢弃该子图像的指纹，并结束针对该子图像的处理，否则，保存该子图像的指纹，并继续针对该子图像的处理。第三阈值的具体取值可根据实际需要而定，比如，可为85％。

基于上述介绍，图3为本发明为图像添加标签的系统实施例的组成结构示意图。如图3所示，包括：图像处理装置和为图像添加标签的装置。

为图像添加标签的装置，用于针对每幅子图像，分别进行以下处理：生成该子图像的指纹；分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配；从匹配成功的指纹中选定一个指纹，将所述指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，发送给所述图像处理装置。

上述图像处理装置和为图像添加标签的装置也可合并为一个装置，视实际需要而定。

具体地，图像处理装置中可包括：

为图像添加标签的装置中可包括：

第四处理模块，用于针对每幅子图像，分别进行以下处理：生成该子图像的指纹；分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配；从匹配成功的指纹中选定一个指纹，将所述指纹库中所保存的、与选定的指纹对应的物品的预定信息作为标签，并发送。

其中，

每幅图像的指纹可包括：第一指纹和第二指纹；

第四处理模块可分别计算所述指纹库中所保存的各第一指纹与该子图像的第一指纹的相似度，并确定相似度大于预定第一阈值的第一指纹数是否大于预定第二阈值；如果是，则将相似度大于所述第一阈值的第一指纹作为匹配成功的指纹；如果否，则分别计算所述指纹库中所保存的各第二指纹与该子图像的第二指纹的相似度，并将相似度大于所述第一阈值的第一指纹以及相似度大于所述第一阈值的第二指纹作为匹配成功的指纹。

较佳地，

每幅图像的第一指纹为：该图像的颜色分布直方图对应的向量；

每幅图像的第二指纹为：该图像的感知哈希值。

另外，

第四处理模块可将匹配成功的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹；

或者，第四处理模块还可按照预定规则对匹配成功的指纹进行筛选，将筛选后剩余的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹。

相应地，

第四处理模块可进一步用于，获取该子图像中的物品适合的性别；针对每个匹配成功的指纹，分别确定该指纹对应的物品适合的性别是否与该子图像中的物品适合的性别相同，如果是，则保留该指纹，否则，丢弃该指纹；

第四处理模块还可进一步用于，当进行视频文件播放时，获取视频文件的名称中的关键词，并针对每个匹配成功的指纹，分别确定该指纹对应的物品是否与所述关键词的描述相符合，如果是，则保留该指纹，否则，丢弃该指纹。

图3所示系统实施例的具体工作流程请参照前述方法实施例中的相应说明，此处不再赘述。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种为图像添加标签的方法，其特征在于，包括：

针对每幅子图像，分别进行以下处理：

2.根据权利要求1所述的方法，其特征在于，

每幅图像的指纹包括：第一指纹和第二指纹；

所述分别将该子图像的指纹与指纹库中预先生成并保存的、属于所述预定类型的各不同物品图像的指纹进行匹配包括：

分别计算所述指纹库中所保存的各第一指纹与该子图像的第一指纹的相似度，并确定相似度大于预定第一阈值的第一指纹数是否大于预定第二阈值；

如果是，则将相似度大于所述第一阈值的第一指纹作为匹配成功的指纹；

如果否，则分别计算所述指纹库中所保存的各第二指纹与该子图像的第二指纹的相似度，并将相似度大于所述第一阈值的第一指纹以及相似度大于所述第一阈值的第二指纹作为匹配成功的指纹。

3.根据权利要求2所述的方法，其特征在于，

所述第一指纹的生成方式包括：针对每幅图像，分别生成该图像的颜色分布直方图，并将生成的颜色分布直方图对应的向量作为该图像的第一指纹；

所述第二指纹的生成方式包括：针对每幅图像，分别生成该图像的感知哈希值，并将生成的感知哈希值作为该图像的第二指纹。

4.根据权利要求3所述的方法，其特征在于，

所述生成该图像的颜色分布直方图包括：

将红、绿、蓝三原色的取值0～255分别划分为四个区间，其中，第一区间的取值为0～63，第二区间的取值为64～127，第三区间的取值为128～191，第四区间的取值为192～255；按照红、绿、蓝三原色所属区间的不同，确定出64种不同的颜色组合方式；

针对该图像中的每个像素点，分别根据该像素点的红、绿、蓝三原色的取值所属的区间，确定出该像素点对应的颜色组合方式；

分别统计每种颜色组合方式对应的像素点数，并根据统计结果生成该图像的颜色分布直方图。

5.根据权利要求3所述的方法，其特征在于，

所述生成该图像的感知哈希值包括：

将该图像缩小为8×8大小，并将缩小后的图像转换为64级的灰度图像；

计算转换后的灰度图像中的各像素点的灰度平均值；

分别将转换后的灰度图像中的各像素点的灰度值与所述灰度平均值进行比较，如果该像素点的灰度值大于或等于所述灰度平均值，则将该像素点的取值设置为1，否则，设置为0；

将取值为1或0的各像素点的取值按照预定顺序进行组合，得到一个长度为64位的整数，作为该图像的感知哈希值。

6.根据权利要求1所述的方法，其特征在于，

所述从匹配成功的指纹中选定一个指纹包括以下之一：

将匹配成功的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹；

按照预定规则对匹配成功的指纹进行筛选，将筛选后剩余的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹。

7.根据权利要求6所述的方法，其特征在于，

所述按照预定规则对匹配成功的指纹进行筛选包括：

确定该子图像中的物品适合的性别；

针对每个匹配成功的指纹，分别确定该指纹对应的物品适合的性别是否与该子图像中的物品适合的性别相同，如果是，则保留该指纹，否则，丢弃该指纹。

8.根据权利要求7所述的方法，其特征在于，

当进行视频文件播放时，所述按照预定规则对匹配成功的指纹进行筛选进一步包括：

对视频文件的名称进行关键词提取；

针对每个匹配成功的指纹，分别确定该指纹对应的物品是否与所述关键词的描述相符合，如果是，则保留该指纹，否则，丢弃该指纹。

9.根据权利要求1所述的方法，其特征在于，

所述当确定当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像包括：

在进行视频文件播放的过程中，当确定距离最近一次添加标签的时长超过预定时长、且当前图像中出现预定类型的物品时，从当前图像中切割出包含所述预定类型的物品的子图像；

所述生成该子图像的指纹之后，进一步包括：确定该子图像的指纹是否与所保存的一个指纹的相似度大于预定第三阈值，如果是，则丢弃该子图像的指纹，并结束针对该子图像的处理，否则，保存该子图像的指纹，并继续针对该子图像的处理。

10.根据权利要求1～9中任一项所述的方法，其特征在于，所述预定类型为服装。

11.一种为图像添加标签的系统，其特征在于，包括：

12.一种图像处理装置，其特征在于，包括：

13.一种为图像添加标签的装置，其特征在于，包括：

14.根据权利要求13所述的装置，其特征在于，

每幅图像的指纹包括：第一指纹和第二指纹；

所述第四处理模块分别计算所述指纹库中所保存的各第一指纹与该子图像的第一指纹的相似度，并确定相似度大于预定第一阈值的第一指纹数是否大于预定第二阈值；如果是，则将相似度大于所述第一阈值的第一指纹作为匹配成功的指纹；如果否，则分别计算所述指纹库中所保存的各第二指纹与该子图像的第二指纹的相似度，并将相似度大于所述第一阈值的第一指纹以及相似度大于所述第一阈值的第二指纹作为匹配成功的指纹。

15.根据权利要求14所述的装置，其特征在于，

每幅图像的第二指纹为：该图像的感知哈希值。

16.根据权利要求13所述的装置，其特征在于，

所述第四处理模块将匹配成功的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹；

或者，所述第四处理模块按照预定规则对匹配成功的指纹进行筛选，将筛选后剩余的指纹中与该子图像的指纹相似度最高的指纹作为选定的指纹。

17.根据权利要求16所述的装置，其特征在于，

所述第四处理模块进一步用于，获取该子图像中的物品适合的性别；针对每个匹配成功的指纹，分别确定该指纹对应的物品适合的性别是否与该子图像中的物品适合的性别相同，如果是，则保留该指纹，否则，丢弃该指纹。

18.根据权利要求17所述的装置，其特征在于，

所述第四处理模块进一步用于，当进行视频文件播放时，获取视频文件的名称中的关键词，并针对每个匹配成功的指纹，分别确定该指纹对应的物品是否与所述关键词的描述相符合，如果是，则保留该指纹，否则，丢弃该指纹。