CN109657691B

CN109657691B - 一种基于能量模型的图像语义标注方法

Info

Publication number: CN109657691B
Application number: CN201910074245.1A
Authority: CN
Inventors: 田东平
Original assignee: Baoji University of Arts and Sciences
Current assignee: Baoji University of Arts and Sciences
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-08-18
Anticipated expiration: 2039-01-25
Also published as: CN109657691A

Abstract

本发明属于计算机应用技术领域，公开了一种基于能量模型的图像语义标注方法，包括：使用马尔科夫随机场方法分割图像，得到两组图像数据；将图像数据送入图像识别层进行初步识别；将初步识别的结果送入信息提取层进行特征信息提取并进行编码；将编码送入归纳层进行能量模型建立；建立能量模型，将两组编码进行比较分析、运算，直到能量最小；输出图片标注信息结果。本发明分离了开发人员的关注，提高了系统可维护性、避免了人工分割图像、对称分割图像的语义单一问题，将图像的语义理解分为信息提取和归纳，较好地解决了“语义鸿沟”问题。

Description

一种基于能量模型的图像语义标注方法

技术领域

本发明属于计算机应用技术领域，尤其涉及一种基于能量模型的图像语义标注方法。

背景技术

目前，业内常用的现有技术是这样的：随着数字影像技术与互联网技术迅速发展，互联网上有着数以百亿计的图像，进行图像的语义标记是搜索引擎快速检索、图像分类识别与存储的关键技术。目前，商业化图像搜索引擎都是以文本关键字的形式来查询，其关键字主要依靠人工标注及Web文本，工作量巨大且缺乏一定的客观性。此外，人工和Web文本因为“语义鸿沟”的原因，都不能很好匹配用户的检索意图。基于以上应用缺陷，图像自动标注可以改善目前的检索困境。能量模型(EnergybasedModel，EBM)是一种具有普适意义的模型，可以说它是一种模型框架，在它的框架下囊括传统的判别模型和生成模型，图变换网络，条件随机场，最大化边界马尔科夫网络以及一些流形学习的方法等。EBM通过对变量的每个配置施加一个有范围限制的能量来捕获变量之间的依赖关系。EBM有两个主要的任务，一个是推断(Inference)，它主要是在给定观察变量的情况，找到使能量值最小的那些隐变量的配置；另一个是学习(Learning)，它主要是寻找一个恰当的能量函数，使样本中正确的输入输出的能量比错误的输入输出的能量低。基于能量的模型(EBM)把我们所关心变量的各种组合和一个标量能量联系在一起。玻尔兹曼机(Boltzmann Machine，BM)是一种特殊形式的对数线性的马尔科夫随机场(Markov Random Field，MRF)，即能量函数是自由变量的线性函数。通过引入隐含单元，我们可以提升模型的表达能力，表示非常复杂的概率分布。限制性玻尔兹曼机(RBM)进一步加一些约束，在RBM中不存在可见单元与可见单元的链接，也不存在隐含单元与隐含单元的链接。

综上所述，现有技术存在的问题是：现有人工标注及Web文本，工作量巨大且缺乏一定的客观性。

发明内容

针对现有技术存在的问题，本发明提供了一种基于能量模型的图像语义标注方法。

本发明是这样实现的，一种基于能量模型的图像语义标注方法，所述基于能量模型的图像语义标注方法包括：

第一步，使用马尔科夫随机场方法分割图像，对分割结果进行进一步优化，提高分割的精确性，得到两组图像数据；将图像数据送入图像识别层进行初步识别；

将MRF图像分割方法应用于图像处理领域，该方法空间约束性强，能够有效地描述空间像素与像素之间的依赖关系。图像分割的建模过程可概述如下

平面上的点集记为S，即S＝{s₁，s₂，…，s_M×N}，其中[M，N]表示图像尺寸。将图像分割问题本质表述为图像标记问题，即将图像每个像素点的分类标号组成的标号场记为ω，

第二步，将初步识别的结果送入信息提取层进行特征信息提取并进行编码；将编码送入归纳层进行能量模型建立；

信息提取模块的输入是经过信息采集模块处理后的HTML文件，输出是结构化的人物属性信息。信息提取主要分为两个部分:半结构化信息提取和自由文本信息提取。输入的每一个HTML文件都要经过以上两个部分的信息提取，输出的结构化信息作为信息聚合模块的输入；

第三步，建立能量模型，将两组编码进行比较分析、运算，直到能量最小；输出图片标注信息结果。

进一步，所述马尔科夫随机场方法分割为：二维图片几何中心为初始状态，向四周随机找下一个分割点，下一个分割点位置只与前一分割点有关，依次类推，直到最后一个分割点与之前任意分割节点重合，完成一次分割。

进一步，能量模型中最大化的边界马尔科夫网络，对分割点的每个配置施加一个有范围限制的能量捕获分割点之间的依赖关系。

本发明的另一目的在于提供一种实现所述基于能量模型的图像语义标注方法的基于能量模型的图像语义标注系统，所述基于能量模型的图像语义标注系统包括图像：

图像分割层，使用马尔科夫随机场分割图像；

图像识别层，对分割的图像进行初步识别；

信息提取层，分析图像分割层分割的图像的功能特征、价值特征、对象特征、关系特征、行为特征、情感特征、场景特征；

归纳层，将信息提取层提取的各种特征归纳为规律、对象、概念三类；高层语义层，将归纳层的信息解析为高层语义。

综上所述，本发明的优点及积极效果为：使用分层的方法，分离了开发人员的关注，提高了系统可维护性；使用马尔科夫随机场分割图像，避免了人工分割图像、对称分割图像的语义单一问题；将图像的语义理解分为信息提取和归纳，较好地解决了“语义鸿沟”问题。

附图说明

图1是本发明实施例提供的基于能量模型的图像语义标注方法流程图。

图2是本发明实施例提供的基于能量模型的图像语义标注系统结构示意图；

图中：1、高层语义层；2、归纳层；3、信息提取层；4、图像分割层；5、图像识别层。

图3是本发明实施例提供的信息提取模块的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有人工标注及Web文本，工作量巨大且缺乏一定的客观性的问题；本发明使用分层的方法，分离了开发人员的关注，提高了系统可维护性；使用马尔科夫随机场分割图像，避免了人工分割图像、对称分割图像的语义单一问题。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于能量模型的图像语义标注方法包括以下步骤：

S101：使用马尔科夫随机场方法分割图像，对分割结果进行进一步优化，提高分割的精确性，得到两组图像数据；将图像数据送入图像识别层进行初步识别；

S102：将初步识别的结果送入信息提取层进行特征信息提取并进行编码；将编码送入归纳层进行能量模型建立；

S103：建立能量模型，将两组编码进行比较分析、运算，直到能量最小；输出图片标注信息结果。

在本发明的优选实施例中，步骤S101具体包括：将MRF图像分割方法应用于图像处理领域，该方法空间约束性强，能够有效地描述空间像素与像素之间的依赖关系；图像分割的建模过程可概述如下：

平面上的点集记为S，即S＝{s₁，s₂，…，s_M×N}，其中[M，N]表示图像尺寸；将图像分割问题本质表述为图像标记问题，即将图像每个像素点的分类标号组成的标号场记为ω，

在本发明的优选实施例中，步骤S102具体包括：信息提取模块的输入是经过信息采集模块处理后的HTML文件，输出是结构化的人物属性信息。信息提取主要分为两个部分:半结构化信息提取和自由文本信息提取。输入的每一个HTML文件都要经过以上两个部分的信息提取，输出的结构化信息作为信息聚合模块的输入；

如图2所示，本发明实施例提供的基于能量模型的图像语义标注系统，包括图像分割层5、图像识别层4、信息提取层3、归纳层2、高层语义层1。

图像分割层5使用马尔科夫随机场分割图像；图像识别层4对分割的图像进行初步识别；信息提取层3分析图像分割层分割的图像的功能特征、价值特征、对象特征、关系特征、行为特征、情感特征、场景特征；归纳层2将信息提取层提取的各种特征归纳为规律、对象、概念三类；高层语义层1将归纳层的信息解析为高层语义，即人类的语义。使用分层的方法，分离了开发人员的关注，提高了系统可维护性；使用马尔科夫随机场分割图像，避免了人工分割图像、对称分割图像的语义单一问题；将图像的语义理解分为信息提取和归纳，较好地解决了“语义鸿沟”问题。

其中。马尔科夫随机场方法分割为：二维图片几何中心为初始状态，向四周随机找下一个分割点，下一个分割点位置只与前一分割点有关，依次类推，直到最后一个分割点与之前任意分割节点重合，完成一次分割。

其中，能量模型中最大化的边界马尔科夫网络，对分割点的每个配置施加一个有范围限制的能量来捕获分割点之间的依赖关系。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于能量模型的图像语义标注方法，其特征在于，所述基于能量模型的图像语义标注方法包括：

第一步，使用马尔科夫随机场方法分割图像，得到两组图像数据；将图像数据送入图像识别层进行初步识别；

所述马尔科夫随机场方法分割为：二维图片几何中心为初始状态，向四周随机找下一个分割点，下一个分割点位置只与前一分割点有关，依次类推，直到最后一个分割点与之前任意分割节点重合，完成一次分割；

第三步，建立能量模型，将两组编码进行比较分析、运算，直到能量最小；输出图片标注信息结果；

能量模型中最大化的边界马尔科夫网络，对分割点的每个配置施加一个有范围限制的能量捕获分割点之间的依赖关系。

2.如权利要求1所述的基于能量模型的图像语义标注方法，其特征在于，所述第一步具体包括：将MRF图像分割方法应用于图像处理领域，图像分割的建模过程包括：

平面上的点集记为S，S＝{s₁，s₂，…，s_M×N}，其中[M，N]表示图像尺寸；将图像分割问题本质表述为图像标记问题，将图像每个像素点的分类标号组成的标号场记为ω，

3.如权利要求1所述的基于能量模型的图像语义标注方法，其特征在于，所述第二步信息提取模块的输入经过信息采集模块处理后的HTML文件，输出是结构化的人物属性信息；信息提取分为两个部分:半结构化信息提取和自由文本信息提取；输入的每一个HTML文件都要经过以上两个部分的信息提取，输出的结构化信息作为信息聚合模块的输入。

4.一种实现权利要求1所述基于能量模型的图像语义标注方法的基于能量模型的图像语义标注系统，其特征在于，所述基于能量模型的图像语义标注系统包括图像：

图像分割层，使用马尔科夫随机场分割图像；

图像识别层，对分割的图像进行初步识别；

5.一种应用权利要求1～3任意一项所述基于能量模型的图像语义标注方法的互联网图像处理平台。