CN104484666A

CN104484666A - 一种基于人机交互的图像高级语义解析的方法

Info

Publication number: CN104484666A
Application number: CN201410790684.XA
Authority: CN
Inventors: 林格; 罗甜; 罗笑南
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2015-04-01
Also published as: WO2016095487A1

Abstract

本发明实施例公开了一种基于人机交互的图像高级语义解析的方法，包括：基于便携式扫描设备扫描源图像；对源图像中的目标进行识别；将源图像中的内容进行过滤和解析，并提炼出有效的知识；组织语义将图像内容用语音形式传递给用户。实施本发明实施例针对视力障碍群体和自学能力较弱的群体，只需凭借简单的扫描工作，无需借助视觉系统通过计算机描述图像，能够帮助这样的弱势群体体会另一个不同的世界，也可以作为娱乐生活的一部分。操作简单，移植性良好。

Description

一种基于人机交互的图像高级语义解析的方法

技术领域

本发明涉及人机交互技术领域，尤其涉一种基于人机交互的图像高级语义解析的方法。

背景技术

随着互联网的普及，存储技术、多媒体技术和数据库技术快速发展，人们在图像应用上所提出的要求日益增长。物理学界认为，人类特有的三种信息是语言、符号和图像，信息的传播在很大程度上依赖于视觉，至少有80％的外界信息是通过视觉感知获得的,视觉是人和动物最重要的感觉。一幅图像中包含的语义信息相当丰富，但是不是任何群体都有正常的视觉功能或有良好的理解能力，所以如何借助计算机自动解析图像是一项有意义且具有挑战的任务。而最终得到准确的语义解析与表达实现过程中需要借助计算机自动对图像进行标注。

图像语义的研究主要集中在基于图像各层语义的分类及检索、低层语义特征的提取、中层对象语义的描述等方面。进入20世纪90年代后，基于内容的图像检索(Content-Based Image Retrieval，CBIR)成为一个研究热点，也成为多媒体数据库、数字图书馆等重大研究项目中的关键技术。CBIR从一定程度上解决了基于文本的图像检索的局限性，它通过计算图像视觉特征(如颜色、纹理、形状等)间的相似度来匹配图像，以及运用可视化的查询方式来代替基于文本的图像检索。实现了使用颜色、纹理、形状及区域等图像视觉内容特征的检索和“以图找图”的检索模式的飞跃。基于内容的图像检索融合了图像理解、模式识别信息技术等领域知识，是多种高新技术的合成。一些研究者重点对图像底层视觉特征提取及表示进行研究，并取得了一定的成果。然而，在实际应用中，传统的CBIR系统的检索结果往往难以令人满意，不能满足人们按照语义检索图像的需求，这主要因为用户往往对所需的图像只存在有关图像描述的对象、事件以及表达的情感等含义上的一些高层概念(如度假、城市、肖像等)，用户需要的是图像语义的查询，而不是图像的底层视觉特征。这里提到的图像的含义就是图像的高层语义特征，它包含了人们对图像内容的理解，这种理解要根据人的认知知识来判断，并不能够直接从图像的底层特征获得。这就产生了基于内容的图像检索系统中存在的“语义鸿沟”问题，即人对图像内容的理解与计算机自动提取的图像视觉特征间存在的巨大的差异。进入21世纪，图像检索围绕图像语义(Image Semantic)这一热点展开，其目的是使计算机检索图像的能力达到人的理解水平，实现更为贴近用户理解能力的自然而简洁的查询方式，并提高图像检索的精度。基于语义的图像检索(Semantic-Based Image Retrieval，SBIR)立足于图像的语义特征，研究如何将图像的底层视觉特征映射到图像高层语义，以及如何描述这些高层语义。随着2001年9月“多媒体内容描述接口”MPEG-7标准的推出和逐渐完善，数字化图像将具有统一的视觉特征描述参数和表达复杂语义关系的描述定义语言，这将有利于基于语义的图像检索技术取得突破性进展，并走向实用化和通用化。图像语义自动标注是基于语义的图像检索的关键环节，已经成为图像检索中的研究热点。图像语义的自动标注就是为图像添加关键字来表示图像的语义内容，能够将图像的视觉特征转化为图像的标注字信息，继承了关键字检索的高效率，也克服了手工标注费时费力的缺点。算法的步骤一般有两个方面：首先对标注了同一语义的所有图像底层特征组成的集合进行统计学习，得到该语义类的训练模型；其次对于一幅待标注的图像，同样提取图像底层特征，根据已求得的语义类的训练模型，获得属于该图像语义的概率，因而可以求得在待标注的图像中，所有语义概念或者说文本关键字出现的概率。对图像的语义概率按序排列，选择概率最高的若干个关键词作为此图像的语义标签。图像语义的自动标注作为图像检索领域研究的热点，具有广泛的应用前景，主要包括医学图像分类、数字化图书馆的建立和管理、数码照片的检索和管理、视频检索、卫星遥感图像处理等方面。

在图像语义描述中，图像内容描述具有“像素-区域-目标-场景”的层次包含关系，而语义描述的本质就是采用合理的构词方式进行词汇编码(Encoding)和注解(Annotation)的过程。这种过程与图像内容的各层描述密切相关，图像像素和区域信息源于中低层数据驱动，根据结构型数据的相似特性对像素(区域)进行“标记”(Labeling)，可为高层语义编码提供有效的低层实体对应关系。目标和场景的中层“分类”(Categorization)特性也具有明显的编码特性，每一类别均可视为简单的语义描述，为多语义分析的拓展提供较好的原型描述。

我们描述一幅图像的不同属性，例如这些底层特征，颜色、纹理、边缘或形状等，已经成为了计算机视觉领域中重要课题，识别出一幅图像中的这些信息也许在大多数实践应用中提供了有用的信息。但是，这绝对不是人类同这个视觉世界进行交流的层次，也不是对视力障碍群体所提供的描述方式。我们需要做的不仅是一幅场景中识别出许多单独的目标，还要分辨出不同的环境并感知进行的复杂的活动和社交关系。这是图像理解的高层语义识别，图1为图像理解过程的示意图。

人机交互(human-computer interaction,HCI)是一门研究系统与用户之间的交互关系的学问。人与计算机系统相互沟通的平台，是人机对话的接口。以人为中心、自然、高效的交互是发展新一代人机交互技术的主要目标。人机交互技术的发展经历了3个阶段，其中，第3代人机交互界面——多模态用户界面，在多媒体界面的基础上，采用语音识别、视线跟踪、手势输入等新技术，使用户可用多种形态或多个通道以自然、并行和协作的方式进行交互，系统通过整合多通道精确和非精确信息，快速捕捉用户的意向，有效地提高人机交互的自然性和效率。

根据图像标注方法的发展进程，目前文献中用于解决“语义鸿沟”问题的方法按其侧重点大致可分为三类：基于机器学习的方法；基于相关反馈的方法；基于本体的方法。

(1)基于机器学习的方法

目前采用机器学习和统计模型学习进行图像自动语义标注大体上可分为有监督语义标注和无监督语义标注两大类。有监督的分类方法首先通过学习、训练事先给定的经过语义标注的一组样本图像，获得图像语义分类器，然后利用分类器将未标注或未归类的图像归并到某一语义类。最常用的有监督学习技术有贝叶斯分类器和支持向量机(Support Vector Machine，SVM)技术。无监督语义标注根据图像内容将库中图像(或图像区域)聚类到某些有意义的集合，使得位于同一聚类内的图像的相似度尽可能大，而位于不同聚类的图像的相似度尽可能小。然后利用统计方法为每个聚类加一个类标签，以获得各个图像聚类中的语义信息。简单来说它的目标在于对输入数据进行合理有效的组织或聚类。该方法对于手工标注的训练集要求较低，训练数据和语义概念具有可扩展性。但是严格地说，单纯的图像聚类并不能为一个新的图像获取显式的语义标签，需要与其他技术结合使用来进行图像的自动语义标注，充分发挥其效率，并达到较高的检索精度。

(2)基于相关反馈的方法

相关反馈(Relevance Feedback,RF)的基本思想是指在检索过程中，用户根据先前检索结果借助权重调整已有的查询要求以给检索系统提供更多更直接的信息，从而使系统更好地满足用户的要求。简单的说，反馈的过程是用户和检索系统之间的一个交互过程，系统根据用户对当前检索结果的评价来调整用户的初始查询以及匹配模型的参数，从而达到对检索结果的优化。相关反馈在本质上还是一个学习过程，它的方法具有与人类学习方法类似的思路，是一种很有价值的研究语义映射的方法，在视觉特征层次和语义层次都能获得较好的检索效果。其具有样本数少、实时性要求强等特点，但是有可能产生检索时间过长，结果振荡等问题。

(3)基于对象本体的方法

本体(Ontology)在文本信息检索中有广泛的应用，但在图像检索领域起步较晚。本体指的是特定领域公认的关于该领域的对象(实际对象和逻辑对象)及其关系的概念化表述。它指出图像中不同的对象可以用简单描述词的集合来定义，如“天空”定义为“在上方的、均匀的、蓝色的”区域。通过将颜色、位置、大小和形状等底层特征离散化后与映射到这些简单语义上，最终可以得到对象语义。对于类型比较单一的图像库，基于本体的方法能得到较好的效果。而对大型图像数据库而言，这一方法效果不佳。下图给出了一幅当前通过计算机自动实现标注的示意图，如图2中所示。

目前，在计算机视觉领域，大多数研究者将研究工作集中在目标识别和目标分类上，关于场景环境的分类也有许多模型被提出，但是一幅静态的图像中对事件的识别这类研究很少。而且大多数基于内容检索图像、对图像进行标注都是单一进行的，没有连贯性的将这些工作结合起来。则将一幅图像用计算机如何描述并用语言组织反馈给用户有很好的研究价值。

发明内容

本发明的目的在于克服现有技术的不足，本发明所提出的基于人机交互的图像高级语义解析的方法，能够帮助这样的弱势群体体会另一个不同的世界，也可以作为娱乐生活的一部分。

为了解决上述问题，本发明提出了一种基于人机交互的图像高级语义解析的方法，包括：

基于便携式扫描设备扫描源图像；

对源图像中的目标进行识别；

将源图像中的内容进行过滤和解析，并提炼出有效的知识；

组织语义将图像内容用语音形式传递给用户。

所述基于便携式扫描设备扫描源图像包括：

基于ARM的便携式扫描设备扫描源图像。

所述对源图像中的目标进行识别包括：

对图像的特征提取采用SIFT局部特征提取，同时结合HOG特征和GIST全局特征，能够更全面的获取图像信息。

所述将源图像中的内容进行过滤和解析，并提炼出有效的知识包括：

采取词袋模型图像分类方法提炼出有效的知识。

所述词袋模型图像分类方法包括：

通过图像分割或随机采样等方式检测特征点；

对图像提取局部特征，并生成描述符；

将关于这些特征点的描述符利用聚类的方法，其中每一个聚类中心为一个视觉单词；

将每个视觉单词出现的频率统计成视觉单词直方图。

所述组织语义将图像内容用语音形式传递给用户包括：

采用潜在语义提取技术将图像内容用语音形式传递给用户。

实施本发明实施例，本发明主要是针对视力障碍群体和自学能力较弱的群体，只需凭借简单的扫描工作，无需借助视觉系统通过计算机描述图像，能够帮助这样的弱势群体体会另一个不同的世界，也可以作为娱乐生活的一部分。操作简单，移植性良好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是现有技术中的图像处理过程流程图；

图2是现有技术中的自动图像标注示例图；

图3是本发明实施例中的基于人机交互的图像高级语义解析的方法流程图；

图4是本发明实施例中的描设备结构原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对任意一幅图像(彩色图像或黑白图)，借助一个手持便携式的扫描设备进行整体扫描，使得源图像信息录入该系统，系统对图像中的目标进行识别，并将其内容进行过滤和解析，提炼出有效知识，组织语义将图像内容用语音形式传递给用户。例如：一幅水上划船的图像，通过系统识别出一个人，一条船，一片湖，一根鱼竿，天空，树木等目标，系统进行目标分析及图像语义的组织，最后将用语音设备输出信息：人在湖上钓鱼。该系统发明主要目的在于帮助有视力障碍的患者(弱视，盲人等)或不识字的老人以及学前儿童在无人力协助情况下有效的识别图像内容，让该群体去了解不能接触的外界。这种基于人机交互的高级语义解析系统具有很好的兼容性及移植性，操作便捷。系统的工作流程图如图3中所示。

(1)基于ARM的便携式扫描设备(硬件)

硬件层主要由系统核心部分、扫描部分和人机接口部分组成。另外，为了扩充其功能及适应多种应用场合，预留了一些扩展接口。微处理器选用目前常见的三星S3C2410X芯片，芯片内核是带16KB数据Cache和16KB指令Cache的ARM9TDMI核，工作频率203MHz。存贮器采用64MB的NAND Flash和64MB的SDRAM。扫描部分采用SDIO掌上型扫描卡。基于微线性CMOS映像技术的此款SDIO ISC扫描卡，可扫描所有主流的线性条码。人机接口部分用三星公司的LT V350QV-F05型3.5寸TFT触摸屏，配以触摸板，可同时实现显示及键盘功能，有利于减小设备的体积。以太网口用于数据的传输和下载。预留U SB、RS232等接口以方便该设备的功能扩充。

(2)特征提取技术

由于SIFT特征对光照、尺度等具有不变性，对图像的特征提取采用SIFT局部特征提取，同时结合HOG特征和GIST全局特征，能够更全面的获取图像信息。

(3)BOW模型描述

随着局部特征在计算机视觉领域的广泛应用,基于局部特征的图像分类识别方法也得到了更为广泛的关注。由于局部特征在提取吋,每幅图像检测得到的特征点数目不统一,使得在机器训练时无法入手,并且这些方法都是基于特征点来进行匹配,其计算量大的缺点凸显而无法满足日益增大的图像数据库的需求。为了克服这些问题,美国斯坦福大学的Ll-feifei等学者首先将词袋模型作为一种特征表示应用到计算机图像处理领域。词袋模型图像分类方法不仅能很好的解决图像局部特征不统一的问题,而且表示方法也比较简单,训练分类快速,得到了极大的发展。受文本检索方法的启示,词袋模型由于其高性能受到国内外的学者越来越多的关注。词袋模型已经被广泛地应用于图像分类和检索中：

词袋模型生成主要步骤为:

①通过图像分割或随机采样等方式检测特征点。

②对图像提取局部特征(SIFT)，并生成描述符。

③将关于这些特征点的描述符利用聚类的方法(通常采用K-means聚类)形成视觉词典(Visual Vocabulary)，其中每一个聚类中心为一个视觉单词。

④将每个视觉单词出现的频率统计成视觉单词直方图。

(4)潜在语义提取技术

自然语言处理(NLP)的很多应用都需要探究隐藏在字、词背后的涵义,简单的字面匹配绝难奏效,关键在于同义词和一词多义的把握.潜在语义分析(LSA)为此提供了部分解决问题的方法,即利用奇异值分解(SVD)将高维度的词汇-文档共现矩阵映射到低维度的潜在语义空间，使得表面毫不相关的词体现出深层次的联系。概率潜在语义分析(PLSA)作为潜在语义分析(LSA)的变种，拥有更坚实的数学基础及易于利用的数据生成模型，且已被证实能够为信息提取提供更好的词汇匹配。给定一个文档集合D＝{d1,d2,…,dM}和一个词集合W＝{w1,w2,…,wN}以及一个文档和词的共现频率矩阵N≡(nij)，n(di,wj)表示词wj在文档dj中出现的频率。使用Z＝{z1,z2,…,zK}表示潜在语义的集合，K为人工指定的一个常数。概率潜在语义分析假设“文档—词”对之间是条件独立的，并且潜在语义在文档或词上分布也是条件独立的.在上面假设的前提下，可使用下列公式来表示“文档—词”的条件概率:

式(1)中的为潜在语义在词上的分布概率，也解释为词对潜在语义的贡献度。表示文档中的潜在语义分布概率，也解释为文档中具有相应潜在语义的概率。概率潜在语义分析根据极大似然估计原则,通过求取如下对数似然函数的极大值来计算PLSA的参数：

\underset{d &Element; D}{Σ} \underset{w &Element; W}{Σ} n (d_{i}, w_{j}) \log P (d_{i}, w_{j}) - - - (2)

在有隐含变量的模型中，极大似然估计的标准过程是期望最大(EM)算法，EM算法替于两个步骤直至收敛。

在E步，利用当前估计的参数值来计算隐含变量的后验概率。

P (z d, w) = \frac{P (z) P (z d) P (w z)}{{Σ_{z}}^{'} P (z^{'}) P (z^{'} d) P (w z^{'})} - - - (3)

p (z) = \frac{Σ_{d, w} n (d, w) P (z d, w)}{Σ_{d, w} n (d, w)} - - - (6)

在M步，利用上一步的期望值来最大化当前的参数估计。

相对于潜在语义分析中的SVD分解，EM算法具有线性的收敛速度，且简单实现，能使似然函数达到局部最优。

在构建了图像区域BOW描述后，我们就可以利用PLSA来进行区域潜在语义的发现.我们将图像中的每个区域看作一个单独的文档，用d来表示,而视觉词汇就看作文档中的词汇，用w来表示,图像的区域潜在语义用z来表示，n(di,wj)表示视觉词汇wj在区域dj中出现的频率。

基于PLSA方法的区域潜在语义提取可分成两个步骤:

学习阶段:对由训练图像生成的所有图像区域集合，应用PLSA来进行训练,通过EM算法迭代公式(3)(4)(5)(6)直到收敛，从而得到这里实际上就是区域潜在语义模型，它描述了在图像区域中潜在语义出现时视觉词汇的分布规律。

推断阶段:对于测试图像的所有区域,保持不变，同样用EM算法迭代公式(3)(5)(6)直至收敛，从而得到每个分块区域的表示了分块区域具有潜在语义z的概率。

假设我们定义区域潜在语义的个数为T，L层空间金字塔分块得到的区域数为N＝(4L-1)/3。对于每一个分块区域di，我们可以得到一个T维的特征向量考虑到区域的潜在语义在空间上的分布也有助于图像场景分类,因此,我们最终将图像所有分块区域的T维特征向量连接为一个向量

[p (z 1 \hat{u} d 1), \cdot \cdot \cdot, p (zT \hat{u} d 1), \cdot \cdot \cdot, p (z 1 \hat{u} dN), \cdot \cdot \cdot, p (zT \hat{u} dN)],

这就是我们定义的图像区域潜在语义特征。获得图像区域潜在语义特征后,我们就可以构建SVM分类器模型来对图像进行场景分类。

本发明主要是针对视力障碍群体和自学能力较弱的群体，只需凭借简单的扫描工作，无需借助视觉系统通过计算机描述图像，能够帮助这样的弱势群体体会另一个不同的世界，也可以作为娱乐生活的一部分。操作简单，移植性良好。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的基于人机交互的图像高级语义解析的方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于人机交互的图像高级语义解析的方法，其特征在于，包括：

基于便携式扫描设备扫描源图像；

对源图像中的目标进行识别；

将源图像中的内容进行过滤和解析，并提炼出有效的知识；

组织语义将图像内容用语音形式传递给用户。

2.如权利要求1所述的基于人机交互的图像高级语义解析的方法，其特征在于，所述基于便携式扫描设备扫描源图像包括：

基于ARM的便携式扫描设备扫描源图像。

3.如权利要求2所述的基于人机交互的图像高级语义解析的方法，其特征在于，所述对源图像中的目标进行识别包括：

4.如权利要求3所述的基于人机交互的图像高级语义解析的方法，其特征在于，所述将源图像中的内容进行过滤和解析，并提炼出有效的知识包括：

采取词袋模型图像分类方法提炼出有效的知识。

5.如权利要求4所述的基于人机交互的图像高级语义解析的方法，其特征在于，所述词袋模型图像分类方法包括：

通过图像分割或随机采样等方式检测特征点；

对图像提取局部特征，并生成描述符；

将每个视觉单词出现的频率统计成视觉单词直方图。

6.如权利要求5所述的基于人机交互的图像高级语义解析的方法，其特征在于，所述组织语义将图像内容用语音形式传递给用户包括：

采用潜在语义提取技术将图像内容用语音形式传递给用户。