CN100437582C

CN100437582C - 图像内容语义标注方法

Info

Publication number: CN100437582C
Application number: CNB2006100538679A
Authority: CN
Inventors: 陈纯; 卜佳俊; 黄鹏; 刘康苗; 康志明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2006-10-17
Filing date: 2006-10-17
Publication date: 2008-11-26
Anticipated expiration: 2026-10-17
Also published as: CN1936892A

Abstract

本发明公开了一种图像内容语义标注方法。它将图像处理技术和机器学习技术以及自然语言处理等相关技术结合起来实现对图像内容的语义标注：利用图像处理、机器学习和自然语言语义处理等技术，将图像视觉特征的语义标注术和图像文本特征语义标注结合起来对图像内容进行语义标注；同时还支持根据具体用户的标注特点校正底层的标注映射规则库，使得标注结果更加符合具体用户的标注需求。本发明的图像内容语义标注方法能够广泛应用于需要进行图像检索的各个应用当中，它提高了现存图像内容标注方法的标注精确度并且拓展了它的适用范围，直接为图像检索方法的改进提供了有力的推动。

Description

图像内容语义标注方法

技术领域

本发明涉及一种图像标注的图像内容语义标注方法，特别涉及使用图像处理技术、自然语言处理技术和机器学习技术，利用图像内容的视觉特征和相关文本等属性信息对图像内容进行语义标注。

背景技术

近年来随着日益改进的数字图象技术以及因特网的简易可用性，数字图像的普及性正在迅速增长，每天有越来越多的数字图象变为可用。设计一个能够快速准确地检索用户需要的图像的方法有着巨大的现实意义。目前主要有两种图像检索方式。一种是基于图像关键字的检索，另一种是基于内容的图像检索CBIR，它们之间的差别在于图像内容的标注方式不同。

被应用于图像关键字检索的图像关键字标注目前主要有两种方法生成：一个或多个人手工选择的关键字标注、图像关键字标注自动生成装置自动生成。

1)人工生成图像关键字标注是早期图像检索方法中的主要方法，与图像关键字标注自动生成方法相比有精确度高的特点。但是人工生成图像关键字标注方法主要有两个缺点：一是需要手工检查并且仔细标注每一图像，这些步骤需要大量的劳动且成本非常高，尤其是随着因特网的普及和数字图像规模越来越大的情况下；二是不同的用户由于各自的世界观和专业领域知识，对于相同的图像的内容有着各自的理解因而对图像做出不同的语义标注，这导致了图像内容语义标注的不一致性。

2)图像关键字标注自动生成装置主要是利用除图像内容之外的其它属性信息来生成图像关键字标注。目前图像关键字自动标注方法主要针对因特网等一些附带丰富文本等相关信息的图像。这个方法和手工方法相比最大的优势是不需要人工干涉，缺点是图像的精确度相对于手工方式来说比较低。

近年来一些使用基于图像内容的图像检索的图像管理系统开始形成。通常，基于图像内容的图像检索系统抽取图像的颜色、纹理和形状等视觉特征作为图像内容的标注，图像检索的时候查找出和被检索图像视觉特征近似的一个或多个图像当作检索结果返回。为抽取图像的视觉特征并且通过计算图像之间视觉特征相似度需要进行大规模的计算，而且基于图像内容的图像检索系统抽取出的视觉特征对于人来说是不可辨别的，不具备视觉上和语义上的可辨性，因此很难对图像检索条件进行描述。

由此，需要发明一种使用范围广泛、易于计算和精确度高的图像内容的语义标注的方法。

发明内容

本发明的目的在于提供一种使用范围广泛、易于计算和精确度高的图像内容的语义标注方法。本发明中的图像内容语义标注方法应用自然语言语义处理技术把图像视觉特征语义标注方法和图像文本特征语义标注方法结合在一起对图像内容进行语义标注。不同的用户对于完全相同的图像内容的理解存在差异性，与此对应的图像内容语义标注也随着用户的不同而存在差异性，但是通过图像内容语义标注学习接口，本发明中的图像内容语义标注方法利用机器学习和自然语言处理相关技术，可以为特定用户建立起图像内容语义标注偏好模型，使图像内容语义标注结果更加接近具体用户的标注偏好。

本发明解决其技术问题采用的技术方案如下：

1.本发明中图像内容语义标注方法的步骤是，

1)首先，通过图像语义标注接口将图像原始数据输入图像数据处理层，抽取出图像视觉特征和图像文本特征；

2)其次，将步骤1)抽取出的图像视觉特征输入图像视觉特征标注层，这个模块能够完成以下的功能：首先访问预先建立的图像视觉特征标注映射规则库，抽取出和图像视觉特征相符的映射规则，然后访问图像内容语义标注映射存储层，从中取出和映射规则对应的标注作为图像视觉特征的语义标注；

3)再次，将步骤1)抽取出的图像文本特征输入图像文本特征标注层，这个模块利用自然语言语义处理层中的自然语言语义处理技术抽取出图像文本特征的语义标注；

4)最后，在图像内容语义标注层，使用自然语言语义处理技术，把图像视觉特征的语义标注和图像文本特征的语义标注融合起来作为图像内容语义标注输出，经过一个是否为学习模式的条件判断：如果处于学习模式下，将语义标注结果反馈给标注映射规则学习层；如果不是处于学习模式下，将语义标注结果输出给用户。

2.本发明中的用户图像内容语义标注偏好模型学习步骤是：

1)首先，由权利要求1的步骤4)计算得到的图像内容的语义标注经过一个是否为学习模式的条件判断，在学习模式下被输入到标注映射规则学习层中；

2)其次，用户通过映射规则学习接口输入用户自定义的图像内容语义标注数据；

3)再次，在标注映射规则学习层中，计算步骤1)中得到的标注结果和步骤2)中用户输入的自定义图像内容语义标注数据之间的差异性，如果差异性较大，使用相关机器学习技术创建相应的标注映射规则或者是校正标注映射规则库中相应的标注映射规则；

4)重复执行步骤1)至步骤3)，直到步骤3)中的差异性很小，或者是达到预定的迭代上限，最后将具有用户偏好的语义标注映射存储在图像内容语义标注映射存储层当中。

本发明和传统的图像内容标注方法相比，具有的有益效果是：

本发明在保持直接使用图像视觉特征作为标注时具备的准确度高的优点的同时，通过直接将视觉特征映射到关键字有效地解决了其计算复杂度高的缺陷和图像视觉特征作为标注时的视觉上和语义上的不可辨别性。

本发明对图像数据进行粗加工得到了图像视觉特征和图像文本特征，然后利用机器学习技术和图像处理技术从图像视觉特征中得到图像视觉特征语义标注，利用自然语言处理技术从图像文本特征和图像视觉特征语义标注中得到图像内容语义标注。由于充分利用了图像数据信息，提高了现存的图像内容标注的精确度。

本发明方法具备有效的学习功能，能够建立起与具体用户对于图像进行语义标注时的偏好相一致的标注映射规则以满足不同用户的标注需求，这使得本发明中的图像内容语义标注方法具有更好的健壮性和更加广泛的适用性。

附图说明

附图是图像内容语义标注方法的整体框架的图形表示。

具体实施方式

本发明的图像内容语义标注方法提供用户两个功能：图像内容语义标注功能和用户图像内容语义标注偏好学习功能。用户图像内容语义标注偏好学习功能是对图像内容语义标注功能的补充和完善。

1.图像内容语义的实施步骤

如附图所示本发明的图像内容语义标注方法当执行图像标注时有四个步骤：图像原始数据处理、图像视觉特征语义标注、图像文本特征语义标注和图像内容语义标注。

1)首先，利用本发明的图像内容语义标注方法的图像标注接口将相关图像原始数据输入图像数据处理层以抽取出图像视觉特征和图像文本特征：

a)抽取图像原始数据的颜色特征、纹理特征和形状特征作为图像视觉特征。图像的颜色特征有多种表示方式，例如采用颜色直方图、颜色矩阵或者颜色相关图表示。类似的图像的纹理可以采用Tamura纹理、自回归纹理或者共生矩阵纹理特征表示，而形状特征可以采用傅立叶描述符方法或者是形状无关矩阵方法描述。但是在本发明的方法中不关注于具体采用哪种方式生成这些特征值或者采用哪种形式表现这些特征值，只要这些特征值能够准确的描述图像相应的内容和被有效地应用于本发明中的图像标注方法即可；

b)使用各种语义词典可以将具备有语义性质的语义文本特征抽取出来形成图像文本特征，这个步骤可以将许多干扰文本过滤掉，提高后续标注工作的精确度和效率。针对英语语义词典可以采用WordNet，而针对中文语义词典可以采用HowNet；

2)其次，将步骤1)抽取的图像视觉特征输入图像视觉特征标注层。这个模块能够访问一个预先建立的图像视觉特征的标注映射规则库，取出和当前图像视觉特征一致的标注映射规则，这时图像视觉特征被转化成了若干对应的标注映射规则，之后根据这些标注映射规则，访问图像内容语义标注映射存储层，得到和映射规则对应的标注作为图像视觉特征语义标注。前面提到的图像视觉特征语义标注映射规则库可以使用决策树、神经网络、支持向量机和统计语言概率模型等机器学习和自然语言语义处理相关技术建立，除此之外现在还存在多种其它建立这个规则库的方法，但本发明不关注于采用哪种具体方法实现这个规则库的建立，只需要被创建的映射规则能够满足准确地将图像视觉特征映射到语义标注上这个功能需求即可；

3)再次，将步骤1)抽取的图像文本特征输入图像文本特征标注层。这个模块根据图像文本特征的各种属性来抽取文本特征的语义标注。例如对于来自也网页的图像文本特征，这些文本特征的属性信息包括的文本数据的来源、格式、与图像的相对位置、是否为网页标题、是否采用斜体字和粗体字等。这些文本特征的属性信息可以被应用于计算相应图像文本特征的权值，权值越大的文本特征对图像内容的语义描述越好，从中取出权值最大的一些文本特征作为图像文本特征的语义标注；

4)最后，图像内容语义标注模块使用自然语言语义处理技术，使用语义词典计算图像视觉特征的语义标注和图像文本特征的语义标注之间的相似性，然后把相似高的语义标注融合起来作为图像内容语义标注结果，在经过一个是否在学习模式下运行的条件判断之后，如果条件判断为假，将标注结果输出给用户，否则的话将标注结果输入到标注映射规则学习层。图像视觉特征的语义标注和图像文本特征的语义标注的具体融合步骤是：从图像文本特征的语义标注中抽取出和图像视觉特征的语义标注相似度高的标注形成标注集X，然后从图像视觉特征的语义标注中抽取出和标注集X相似度高的标注形成标注集Y，最后X+Y就是输出给用户的图像内容标注。

2.图像内容语义标注映射规则学习功能

用户通过图像语义标注接口输入图像的原始数据，并通过映射规则学习接口输入图像的标注，能够建立起图像视觉特征到图像视觉特征语义标注之间的映射规则。用户通过输入带有自己标注偏好的图像内容语义标注，可以利用本发明方法的这个映射规则学习功能建立具有用户标注偏好的标注映射规则。如附图所示在图像内容语义标注实施步骤的基础之上，图像内容语义标注映射规则学习分为三个步骤：图像内容语义标注、图像标注结果输入、图像内容语义标注映射规则学习。

1)首先，将图像原始数据输入到图像语义标注接口，通过计算得到图像的内容语义标注结果，在通过一个是否为学习模式的条件判断为真之后，图像内容语义标注结果被输入到标注映射规则学习层中；

2)其次，将用户输入的图像内容语义标注结果输入到标注映射规则学习层中；

3)最后，如果步骤1)中计算出的图像内容语义标注结果和用户提供的具有用户标注偏好的语义标注之间的差异性比较大，则使用神经网络或者是决策树等机器学习相关技术，反复进行学习和产生新的映射规这一过程，直到根据新的映射规则得到的图像内容语义标注结果和用户提供的语义标注之间的差异性较小。完成学习过程之后，新的映射规则与之前的映射规则相比，标注结果更加接近具体用户的标注偏好。最后将新的标注映射规则存储在视觉特征标注映射规则库当中，完成视觉特征标注映射规则库的校正。除了上面提到的神经网络等技术之外还存在多种方法可以实现映射规则的学习功能，本发明方法不关注于具体的映射规则学习方法，只需要它能够有效地满足用户标注偏好映射规则学习的功能即可。

Claims

1.一种图像内容语义标注方法，其特征在于：

2)其次，将步骤1)抽取出的图像视觉特征输入图像视觉特征标注层，这个模块能够完成以下的功能：首先访问预先建立的视觉特征标注映射规则库，抽取出和图像视觉特征相符的映射规则，然后访问图像内容语义标注映射存储层，从中取出和映射规则对应的标注作为图像视觉特征的语义标注；

2.一种根据权利要求1所述的图像内容语义标注方法，其特征在于：