CN108268875B

CN108268875B - 一种基于数据平滑的图像语义自动标注方法及装置

Info

Publication number: CN108268875B
Application number: CN201611257596.9A
Authority: CN
Inventors: 简宋全; 李青海; 侯大勇; 邹立斌
Original assignee: Guangdong Kingpoint Data Science And Technology Co ltd
Current assignee: Guangdong Kingpoint Data Science And Technology Co ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2020-12-08
Anticipated expiration: 2036-12-30
Also published as: CN108268875A

Abstract

本实发明公开一种基于数据平滑的图像语义自动标注方法及装置,通过使用跨媒体相关模型是一种基于图像内容的自动标注模型，利用概率统计方法，获得每个关键字作为图像标注的概率；该模型在图像标注领域取得了较好的成绩，也是比较稳定的一种方法，因此，本发明实施例在跨媒体相关模型数据平滑的基础上，提取鲁棒性更强的特征，发明了一种效率更高、准确率更高的图像语义自动标注方法，在一定程度上解决“语义鸿沟”问题、同时解决了传统的语义标注中通过人工的方式对每幅图像进行关键词描述的过程，节省了人力和时间成本，具有较高的应用前景。

Description

一种基于数据平滑的图像语义自动标注方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于数据平滑的图像语义自动标注方法及装置。

背景技术

随着数字影像技术与互联网技术的迅速发展，互联网上有约数以百亿的图像，并且每天都在以数百万的速度增长。如何设计一种从海量图片中快速有效地检索出用户需要的图片的方法有着巨大的现实意义，这也是图像检索领域关注的内容。

图像语义自动标注是指利用计算机视觉技术，让计算机对图像中的内容进行理解，从而给图像自动标注出文本语义的过程。也就是说，图像语义自动标注是让计算机对图像的语义进行准确地描述和理解的过程，其本质上就是建立图像和文本语义之间的关联。图像语义自动标注通常用于图像检索、图像分类和相册管理等不同的场景。图像语义标注已经成为图像检索中的研究热点。通过图像语义标注就可以将图像的检索问题转化为技术成熟、效率高的文本检索问题。但是传统的语义标注是通过人工的方式对每幅图像进行关键词描述，在现在数据爆炸的时代这种方式显然是既费时效率又低。

目前，现有的图像语义自动标注的方法存在以下三点问题：1)、现有的图像语义在动标注犯法是将图像的语义标注作为分类问题来解决的，通常需要人工事先选择、标注语义类别，才能训练语义分类器。因此，对每个类别进行图像的人工标注费时费力，并且其无法穷尽整个语义空间，导致图像的语义描述很不完整；2)、每个语义类别均对应一个语义分类器，在对图像进行语义标注时，需要将所有的语义分类器进行测试，从中挑选置信度较高的语义类别作为图像的语义标注。但是如果语义类别数目巨大，则对图像进行语义标注时的计算量也会非常巨大，从而实现由的图像语义自动标注的方法无法在实时性要求较高的场景中应用；3)、在抽取的图像的地层特征到语义信息之间存在语义鸿沟，因此，现有的图像自动标注的方法在获取语义类别是，具有的稳定性和一致性都很差；4)、由于训练集的不足，往往会导致数据稀疏问题，在统计每个关键词出现在每幅图像中的次数时就会出现很多0，但这往往是由于训练集的限制，实际上它们真实的概率不是0.这就对所标注模型产生了很大的误差。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种基于数据平滑的图像语义自动标注方法及装置。

根据本发明实施例的一个方面，提供一种基于数据平滑的图像语义自动标注方法，包括：

S1：输入初始图像集，将初始图像集进行预处理形成训练图像集；

S2：根据训练图像集提取视觉词元信息；

S3：根据训练图像集提取关键字信息

S4：根据关键字和视觉词元信息生成初始标注矩阵；

S5：根据关键字信息生成词间相关性矩阵；

S6：利用词间相关性矩阵对出示标注矩阵进行调整，得到最终的标注矩阵；

S7：将最终的标注矩阵进行标注。

该方法一方面解决了传统的语义标注中通过人工的方式对每幅图像进行关键词描述的过程，节省了人力和时间成本，避免了图像的低层特征和语义信息之间的语义鸿沟，提高了图像语义自动标注的稳定性和一致性；另一方面，该方法是利用跨媒体相关模型对图像内容进行自动标注，具有提取鲁棒性更强、效率更高、准确率更高的图像语义自动标注方法。

较佳的，所述将初始图像集进行预处理形成训练图像集中的预处理包括：

将图像尺寸大小归一化处理、图像恢复处理。

较佳的，所述图像恢复处理所使用的方法是维纳滤波法。

较佳的，所述根据训练图像集形成视觉词元步骤包括：

将训练图像集进行分割、再根据训练图像集的颜色和纹理提取视觉特征，将视觉特征量化形成视觉词元。

较佳的，所述将训练图像集进行分割的方法包括采用N-cut算法将训练图像集中的每幅图像都进行分割。

较佳的，所述根据训练图像集的颜色和纹理提取视觉特征的步骤包括：

先对分割后的训练图像提取颜色特征和纹理特征作为局部特征描述算子，再提取主成分分析的尺度不变特征(PCA-SIFT)作为全局特征，最后将局部特征和全局特征融合成一个长特征向量作为视觉特征。

本发明实施例利用PCA-SIFT进行全局特征和局部特征的检索，再将两个特征进行融合，解决了传统的语义标注中通过人工的方式对每幅图像进行关键词描述的过程，节省了人力和时间成本，避免了图像的低层特征和语义信息之间的语义鸿沟，提高了图像语义自动标注的稳定性和一致性

较佳的，所述根据训练图像集提取关键字和视觉词元信息的步骤包括：

先统计出每个关键字出现在每幅图像的标注中的次数，再统计出关键字在训练图像集标注中的总次数；然后统计出视觉词元b出现在每幅图像中的次数，一幅图像的多个区域可能属于同一个聚类；最后统计出视觉词元b出现在全部训练图像集中的次数。

较佳的，所述根据关键字和视觉词元信息生成初始标注矩阵的步骤包括：

利用Add-one平滑技术将提取的关键字和视觉词元信息进行数据平滑处理，生成初始标注矩阵。

较佳的，所述Add-one平滑技术处理包括对每一个次数都加1，更新次数。计算

再根据公式

最后将将关键字与视觉词元的联合分布边缘化求得P(w|b₁L b_m)≈P(w|I)；

其中w_i(i＝1L n)为关键字，b_i(i＝1L m)为视觉词元，训练图像为 J_i＝{b₁L b_m，w₁L w_n}，T为训练图像集，I＝{b₁L b_m}为测试图像。

较佳的，所述根据关键字信息生成词间相关性矩阵的步骤包括将根据S2训练图像集中提取的关键字信息进行统计，根据公式计算出词间相关性矩阵。

较佳的，所述将关键字信息进行统计包括：统计出任意两个关键字的共生次数，记为K(w₁，w₂)；

先统计每个关键字在训练图像集中作为标注出现的次数。

较佳的，所述根据公式计算出词间相关性矩阵步骤为：

先根据公式计算出词间相关性矩阵

其中N_T训练集大小，K(w₁，w₂)为对称矩阵。再对矩阵进行归一化处理，记为矩阵S。

较佳的，所述利用词间相关性矩阵对出示标注矩阵进行调整，得到最终的标注矩阵包括：

将词间相关性矩阵S作用到初始标注矩阵Y，按照下式进行迭代计算，直到收敛：

R＝β·S+(1-β)Y

其中β为平滑系数。

最后得到最终的标注矩阵。

较佳的，所述将标注矩阵进行排序，从排序后的标注矩阵中选取预设列数的元素形成最终标注矩阵的步骤为对得到的最终的标注矩阵按照概率大小进行排序，从中取前5列元素作为最终的标注关键字得到的最终的标注矩阵。

本发明实施例利用跨媒体相关模型对图像内容进行自动标注，具有提取鲁棒性更强、效率更高、准确率更高的图像语义自动标注方法。

根据本发明实施例的另一个方面，提供一种基于数据平滑的图像语义自动标注装置，包括：

输入模块101，用于输入初始图像信息；

提取模块201：用于根据图像中的颜色、纹理以及文字信息提取视觉词元和关键字信息；

生成模块301，用于根据图像中的颜色、纹理以及文字信息生成标注信息；以及

标注模块401，用于根据标注信息对图像进行标注。

较佳的，所述生成模块包括：

获取单元，用于对所述视觉词元信息进行分类，获取分类后的至少一个视觉词元；用于对所述关键字信息进行分词以获取至少一个分词，并以获取所述至少一个分词的语义内容和语义类型。

较佳的，所述生成模块301包括：

筛选单元，用于根据所述语义内容和语义类型对所述至少一个视觉词元分类、分词进行筛选以将筛选之后的视觉词元分类、分词加入至语义集合。

较佳的，所述生成模块301包括：生成单元，用于根据语义信息集合生成标注信息。

附图说明

为了更清楚地说明本发明各实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明一种基于数据平滑的图像语义自动标注方法的流程图；

图2是本发明一种基于数据平滑的图像语义自动标注装置的结构示意图；

图3是本发明实施例一种基于数据平滑的图像语义自动标注装置运行结构示意图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

实施例1

S1：输入初始图像集，将图像进行预处理形成训练图像集；

S11所述将图像预处理包括：

图像尺寸大小归一化处理、图像恢复；

S12所述图像恢复的方法包括维纳滤波法。

S2：根据训练图像集提取视觉词元信息；

S21将训练图像集进行分割；

具体地，采用N-cut算法将训练图像集中的每幅图像都进行分割；

S22根据图像集的颜色和纹理提取视觉特征；

S221对分割后的训练图像提取颜色特征和纹理特征作为局部特征描述算子，

S222提取主成分分析的尺度不变特征(PCA-SIFT)作为全局特征，

S223将局部特征和全局特征融合成一个长特征向量；

S23将视觉特征量化形成视觉词元；

S231采用K-均值方法对分割区域进行量化，

S232根据特征向量进行聚类，使得分割后的区域属于某一类别，

S233进行编号，得到视觉词元。

S3：根据训练图像集提取关键字信息；

S31统计出每个关键字出现在每幅图像的标注中的次数，一般为0或者1，记为R(w，J)；

S32统计出关键字在训练图像集标注中的总次数，记为R(w，T)；

S33统计出视觉词元b出现在每幅图像中的次数R(b，J)，一幅图像的多个区域可能属于同一个聚类，所以R(b，J)可能大于1，；

S34统计出视觉词元b出现在全部训练图像集中的次数R(b，T)。

S4：根据关键字和视觉词元信息生成初始标注矩阵；

S41利用Add-one平滑技术对统计信息进行处理；

S411利用Add-One技术对每一个次数都加1，更新次数。

S412计算

S413根据公式

S414将关键字与视觉词元的联合分布边缘化求得P(w|b₁L b_m)≈P(w|I)；

S42根据每个关键词作为图像标注的概率P(w|I)，生成初始标注矩阵Y。

S5：根据关键字信息生成词间相关性矩阵；

S51根据S2训练图像集的标注信息，生成矩阵；

S511统计出任意两个关键字的共生次数，记为K(w₁，w₂)；

S512统计每个关键字在训练图像集中作为标注出现的次数，记为n₁；

S513根据公式计算出词间相关性矩阵

其中N_T训练集大小，K(w₁，w₂)为对称矩阵。

S52对矩阵进行归一化处理，记为矩阵S。

S6：利用词间相关性矩阵对初始标注矩阵进行调整，得到最终的标注矩阵。

S61将词间相关性矩阵S作用到初始标注矩阵Y，按照下式进行迭代计算，直到收敛：

R＝β·S+(1-β)Y

其中β为平滑系数。

S62得到最终的标注矩阵。

S7：对得到的最终的标注矩阵按照概率大小进行排序，从中取前5个作为最终的标注关键字。

本发明实施例的一种基于数据平滑的图像语义自动标注方法，通过输入图像集预处理形成训练图像集，采用N-cut算法来分割提取图像中的颜色、纹理等信息特征，生成初始标注模型、词间相关性矩阵标注模型，调整后生成最终的标注模型，最后利用跨媒体相关模型对图像内容进行自动标注；既节省的传统语义标注所使用的人力和时间，又避免了图像低层特征和语义信息之间的语义鸿沟，提高了图像语义自动标注的稳定性和一致性，还增强了提取鲁棒性、图像语义自动标注的效率性、准确性。

为了实现上述实施例，本发明还提供一种基于数据平滑的图像语义自动标注的装置。

一种基于数据平滑的图像语义自动标注的装置，包括：输入模块101，用于输入初始图像信息；提取模块201：用于根据图像中的颜色、纹理以及文字信息提取视觉词元和关键字信息；生成模块301，用于根据图像中的颜色、纹理以及文字信息生成标注信息；以及标注模块401，用于根据标注信息对图像进行标注。

图2是本发明一个实施例的一种基于数据平滑的图像语义自动标注的装置的结构示意图。

如图2所示，基于数据平滑的图像语义自动标注的装置包括：输入模块，01、提取模块201、生成模块301、标注模块401。

具体地，输入模块101用于输入图像信息。更具体地，将采集的图像尺寸大小归一化处理、图像恢复处理，其中，图像恢复处理所使用的方法为维纳滤波法。维纳滤波法是一种基于最小均方误差准则、对平稳过程的最优估计的图片恢复处理方法。

具体地，提取模块201用于提取图像中的颜色和纹理信息；更具体地，提取模块201可以对输入模块101处理过的训练图像集采用N-cut算法进行分割，在获取分割后图像的颜色和纹理特征信息后进行提取视觉特征，再采用K-均值方法进行分割量化，提取出视觉词元。

具体地，生成模块301用于根据文字信息生成标注信息，更具体地，生成模块301通过获取单元将提取模块201提取出视觉词元信息进行分类，获取分类后的至少一个视觉词元；将提取模块201提取出的关键字信息进行分词以获取至少一个分词，并以获取所述至少一个分词的语义内容和语义类型；再通过筛选单元，根据所述语义内容和语义类型对所述至少一个视觉词元、分词进行筛选以将筛选之后的视觉词元分类、分词加入至语义集合；最后再通过生成单元利用Add-one平滑技术根据语义信息集合生成标注信息。

具体地，标注模块401用于根据标注信息对图像进行标注；更具体地，标注模块401将生成模块301生成的最终的标注矩阵按照概率大小的顺序进行标注。

本发明实施例的一种基于数据平滑的图像语义自动标注的装置，通过输入图像集进行预处理，并根据处理后的图像进行提取信息，进而生成标注信息对图像语义进行标注，一方面解决了传统的语义标注中通过人工的方式对每幅图像进行关键词描述的过程，节省了人力和时间成本，避免了图像的地层特征和语义信息之间的语义鸿沟，提高了图像语义自动标注的稳定性和一致性；另一方面，克服了训练集不足所导致的的数据稀疏问题，提供了具有提取鲁棒性更强、效率更高、准确率更高的图像语义自动标注方法。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于数据平滑的图像语义自动标注方法，其特征在于，包括：

S1：输入初始图像集，将所述图像集进行预处理形成训练图像集；

S2：根据训练图像集提取视觉词元信息，其中，将所述训练图像集进行分割，再根据训练图像集的颜色和纹理提取视觉特征，将所述视觉特征量化形成所述视觉词元信息，对分割后的所述训练图像提取颜色特征和纹理特征作为局部特征描述算子，再提取主成分分析的尺度不变特征作为全局特征，最后将局部特征和全局特征融合成一个长特征向量作为所述视觉特征；

S3：根据训练图像集提取关键字信息；

S4：根据关键字和视觉词元信息生成初始标注矩阵；

S5：根据关键字信息和所述训练图像集的标注信息生成词间相关性矩阵，

步骤S5具体包括：将所述视觉词元信息进行分类，获取分类后的至少一个视觉词元；

将所述关键字信息进行分词以获取至少一个分词，并获取所述至少一个分词的语义内容和语义类型；

根据所述语义内容和所述语义类型对所述至少一个所述视觉词元、所述分词进行筛选以将筛选之后的所述视觉词元分类、所述分词加入至语义集合；

根据所述语义集合生成所述标注信息；

根据所述标注信息生成矩阵，并对矩阵进行归一化处理得到词间相关性矩阵S；

S6：利用词间相关性矩阵对初始标注矩阵进行调整，得到标注矩阵；

S7：将标注矩阵进行排序，从排序后的标注矩阵中选取预设列数的元素形成最终标注矩阵；

根据所述最终标注矩阵按照概率大小的顺序进行标注。

2.如权利要求1所述的方法，其特征在于，所述将图像集进行预处理形成训练图像集中的预处理包括：

将图像尺寸大小归一化处理、图像恢复处理。

3.如权利要求2所述的方法，其特征在于，所述根据关键字和视觉词元信息生成初始标注矩阵的步骤包括：

利用Add-one 平滑技术将提取的关键字和视觉词元信息进行数据平滑处理，生成初始标注矩阵。

4.如权利要求3所述的方法，其特征在于，所述根据关键字信息生成词间相关性矩阵的步骤包括：

将根据S2训练图像集中提取的关键字信息进行统计，根据公式计算出词间相关性矩阵。