CN109657691B - 一种基于能量模型的图像语义标注方法 - Google Patents
一种基于能量模型的图像语义标注方法 Download PDFInfo
- Publication number
- CN109657691B CN109657691B CN201910074245.1A CN201910074245A CN109657691B CN 109657691 B CN109657691 B CN 109657691B CN 201910074245 A CN201910074245 A CN 201910074245A CN 109657691 B CN109657691 B CN 109657691B
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- energy model
- information extraction
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Abstract
本发明属于计算机应用技术领域,公开了一种基于能量模型的图像语义标注方法,包括:使用马尔科夫随机场方法分割图像,得到两组图像数据;将图像数据送入图像识别层进行初步识别;将初步识别的结果送入信息提取层进行特征信息提取并进行编码;将编码送入归纳层进行能量模型建立;建立能量模型,将两组编码进行比较分析、运算,直到能量最小;输出图片标注信息结果。本发明分离了开发人员的关注,提高了系统可维护性、避免了人工分割图像、对称分割图像的语义单一问题,将图像的语义理解分为信息提取和归纳,较好地解决了“语义鸿沟”问题。
Description
技术领域
本发明属于计算机应用技术领域,尤其涉及一种基于能量模型的图像语义标注方法。
背景技术
目前,业内常用的现有技术是这样的:随着数字影像技术与互联网技术迅速发展,互联网上有着数以百亿计的图像,进行图像的语义标记是搜索引擎快速检索、图像分类识别与存储的关键技术。目前,商业化图像搜索引擎都是以文本关键字的形式来查询,其关键字主要依靠人工标注及Web文本,工作量巨大且缺乏一定的客观性。此外,人工和Web文本因为“语义鸿沟”的原因,都不能很好匹配用户的检索意图。基于以上应用缺陷,图像自动标注可以改善目前的检索困境。能量模型(EnergybasedModel,EBM)是一种具有普适意义的模型,可以说它是一种模型框架,在它的框架下囊括传统的判别模型和生成模型,图变换网络,条件随机场,最大化边界马尔科夫网络以及一些流形学习的方法等。EBM通过对变量的每个配置施加一个有范围限制的能量来捕获变量之间的依赖关系。EBM有两个主要的任务,一个是推断(Inference),它主要是在给定观察变量的情况,找到使能量值最小的那些隐变量的配置;另一个是学习(Learning),它主要是寻找一个恰当的能量函数,使样本中正确的输入输出的能量比错误的输入输出的能量低。基于能量的模型(EBM)把我们所关心变量的各种组合和一个标量能量联系在一起。玻尔兹曼机(Boltzmann Machine,BM)是一种特殊形式的对数线性的马尔科夫随机场(Markov Random Field,MRF),即能量函数是自由变量的线性函数。通过引入隐含单元,我们可以提升模型的表达能力,表示非常复杂的概率分布。限制性玻尔兹曼机(RBM)进一步加一些约束,在RBM中不存在可见单元与可见单元的链接,也不存在隐含单元与隐含单元的链接。
综上所述,现有技术存在的问题是:现有人工标注及Web文本,工作量巨大且缺乏一定的客观性。
发明内容
针对现有技术存在的问题,本发明提供了一种基于能量模型的图像语义标注方法。
本发明是这样实现的,一种基于能量模型的图像语义标注方法,所述基于能量模型的图像语义标注方法包括:
第一步,使用马尔科夫随机场方法分割图像,对分割结果进行进一步优化,提高分割的精确性,得到两组图像数据;将图像数据送入图像识别层进行初步识别;
将MRF图像分割方法应用于图像处理领域,该方法空间约束性强,能够有效地描述空间像素与像素之间的依赖关系。图像分割的建模过程可概述如下
第二步,将初步识别的结果送入信息提取层进行特征信息提取并进行编码;将编码送入归纳层进行能量模型建立;
信息提取模块的输入是经过信息采集模块处理后的HTML文件,输出是结构化的人物属性信息。信息提取主要分为两个部分:半结构化信息提取和自由文本信息提取。输入的每一个HTML文件都要经过以上两个部分的信息提取,输出的结构化信息作为信息聚合模块的输入;
第三步,建立能量模型,将两组编码进行比较分析、运算,直到能量最小;输出图片标注信息结果。
进一步,所述马尔科夫随机场方法分割为:二维图片几何中心为初始状态,向四周随机找下一个分割点,下一个分割点位置只与前一分割点有关,依次类推,直到最后一个分割点与之前任意分割节点重合,完成一次分割。
进一步,能量模型中最大化的边界马尔科夫网络,对分割点的每个配置施加一个有范围限制的能量捕获分割点之间的依赖关系。
本发明的另一目的在于提供一种实现所述基于能量模型的图像语义标注方法的基于能量模型的图像语义标注系统,所述基于能量模型的图像语义标注系统包括图像:
图像分割层,使用马尔科夫随机场分割图像;
图像识别层,对分割的图像进行初步识别;
信息提取层,分析图像分割层分割的图像的功能特征、价值特征、对象特征、关系特征、行为特征、情感特征、场景特征;
归纳层,将信息提取层提取的各种特征归纳为规律、对象、概念三类;高层语义层,将归纳层的信息解析为高层语义。
综上所述,本发明的优点及积极效果为:使用分层的方法,分离了开发人员的关注,提高了系统可维护性;使用马尔科夫随机场分割图像,避免了人工分割图像、对称分割图像的语义单一问题;将图像的语义理解分为信息提取和归纳,较好地解决了“语义鸿沟”问题。
附图说明
图1是本发明实施例提供的基于能量模型的图像语义标注方法流程图。
图2是本发明实施例提供的基于能量模型的图像语义标注系统结构示意图;
图中:1、高层语义层;2、归纳层;3、信息提取层;4、图像分割层;5、图像识别层。
图3是本发明实施例提供的信息提取模块的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有人工标注及Web文本,工作量巨大且缺乏一定的客观性的问题;本发明使用分层的方法,分离了开发人员的关注,提高了系统可维护性;使用马尔科夫随机场分割图像,避免了人工分割图像、对称分割图像的语义单一问题。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于能量模型的图像语义标注方法包括以下步骤:
S101:使用马尔科夫随机场方法分割图像,对分割结果进行进一步优化,提高分割的精确性,得到两组图像数据;将图像数据送入图像识别层进行初步识别;
S102:将初步识别的结果送入信息提取层进行特征信息提取并进行编码;将编码送入归纳层进行能量模型建立;
S103:建立能量模型,将两组编码进行比较分析、运算,直到能量最小;输出图片标注信息结果。
在本发明的优选实施例中,步骤S101具体包括:将MRF图像分割方法应用于图像处理领域,该方法空间约束性强,能够有效地描述空间像素与像素之间的依赖关系;图像分割的建模过程可概述如下:
在本发明的优选实施例中,步骤S102具体包括:信息提取模块的输入是经过信息采集模块处理后的HTML文件,输出是结构化的人物属性信息。信息提取主要分为两个部分:半结构化信息提取和自由文本信息提取。输入的每一个HTML文件都要经过以上两个部分的信息提取,输出的结构化信息作为信息聚合模块的输入;
如图2所示,本发明实施例提供的基于能量模型的图像语义标注系统,包括图像分割层5、图像识别层4、信息提取层3、归纳层2、高层语义层1。
图像分割层5使用马尔科夫随机场分割图像;图像识别层4对分割的图像进行初步识别;信息提取层3分析图像分割层分割的图像的功能特征、价值特征、对象特征、关系特征、行为特征、情感特征、场景特征;归纳层2将信息提取层提取的各种特征归纳为规律、对象、概念三类;高层语义层1将归纳层的信息解析为高层语义,即人类的语义。使用分层的方法,分离了开发人员的关注,提高了系统可维护性;使用马尔科夫随机场分割图像,避免了人工分割图像、对称分割图像的语义单一问题;将图像的语义理解分为信息提取和归纳,较好地解决了“语义鸿沟”问题。
其中。马尔科夫随机场方法分割为:二维图片几何中心为初始状态,向四周随机找下一个分割点,下一个分割点位置只与前一分割点有关,依次类推,直到最后一个分割点与之前任意分割节点重合,完成一次分割。
其中,能量模型中最大化的边界马尔科夫网络,对分割点的每个配置施加一个有范围限制的能量来捕获分割点之间的依赖关系。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于能量模型的图像语义标注方法,其特征在于,所述基于能量模型的图像语义标注方法包括:
第一步,使用马尔科夫随机场方法分割图像,得到两组图像数据;将图像数据送入图像识别层进行初步识别;
所述马尔科夫随机场方法分割为:二维图片几何中心为初始状态,向四周随机找下一个分割点,下一个分割点位置只与前一分割点有关,依次类推,直到最后一个分割点与之前任意分割节点重合,完成一次分割;
第二步,将初步识别的结果送入信息提取层进行特征信息提取并进行编码;将编码送入归纳层进行能量模型建立;
第三步,建立能量模型,将两组编码进行比较分析、运算,直到能量最小;输出图片标注信息结果;
能量模型中最大化的边界马尔科夫网络,对分割点的每个配置施加一个有范围限制的能量捕获分割点之间的依赖关系。
3.如权利要求1所述的基于能量模型的图像语义标注方法,其特征在于,所述第二步信息提取模块的输入经过信息采集模块处理后的HTML文件,输出是结构化的人物属性信息;信息提取分为两个部分:半结构化信息提取和自由文本信息提取;输入的每一个HTML文件都要经过以上两个部分的信息提取,输出的结构化信息作为信息聚合模块的输入。
4.一种实现权利要求1所述基于能量模型的图像语义标注方法的基于能量模型的图像语义标注系统,其特征在于,所述基于能量模型的图像语义标注系统包括图像:
图像分割层,使用马尔科夫随机场分割图像;
图像识别层,对分割的图像进行初步识别;
信息提取层,分析图像分割层分割的图像的功能特征、价值特征、对象特征、关系特征、行为特征、情感特征、场景特征;
归纳层,将信息提取层提取的各种特征归纳为规律、对象、概念三类;高层语义层,将归纳层的信息解析为高层语义。
5.一种应用权利要求1~3任意一项所述基于能量模型的图像语义标注方法的互联网图像处理平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910074245.1A CN109657691B (zh) | 2019-01-25 | 2019-01-25 | 一种基于能量模型的图像语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910074245.1A CN109657691B (zh) | 2019-01-25 | 2019-01-25 | 一种基于能量模型的图像语义标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657691A CN109657691A (zh) | 2019-04-19 |
CN109657691B true CN109657691B (zh) | 2020-08-18 |
Family
ID=66121609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910074245.1A Expired - Fee Related CN109657691B (zh) | 2019-01-25 | 2019-01-25 | 一种基于能量模型的图像语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657691B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800260B (zh) * | 2021-04-09 | 2021-08-20 | 北京邮电大学 | 基于深度哈希能量模型的多标签图像检索方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077352A (zh) * | 2014-05-27 | 2014-10-01 | 浙江大学 | 基于能量模型的图像语义标注方法 |
CN104636761A (zh) * | 2015-03-12 | 2015-05-20 | 华东理工大学 | 一种基于多层分割的图像语义标注方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101447080B (zh) * | 2008-11-19 | 2011-02-09 | 西安电子科技大学 | 基于非下采样Contourlet变换的HMT图像分割方法 |
CN101577010B (zh) * | 2009-06-11 | 2011-09-14 | 清华大学 | 基于图像库的图像合成质量自动评测方法 |
-
2019
- 2019-01-25 CN CN201910074245.1A patent/CN109657691B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077352A (zh) * | 2014-05-27 | 2014-10-01 | 浙江大学 | 基于能量模型的图像语义标注方法 |
CN104636761A (zh) * | 2015-03-12 | 2015-05-20 | 华东理工大学 | 一种基于多层分割的图像语义标注方法 |
Non-Patent Citations (1)
Title |
---|
基于马尔科夫随机场的车型识别;施纯;《中国优秀硕士学位论文全文数据库信息科技辑》;20180815(第8期);第1-46页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109657691A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664996B (zh) | 一种基于深度学习的古文字识别方法及系统 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN114419642A (zh) | 一种文档图像中键值对信息的抽取方法、装置及系统 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN115311130A (zh) | 一种多风格中国书法文字图像风格迁移方法、系统及终端 | |
CN110866129A (zh) | 一种基于跨媒体统一表征模型的跨媒体检索方法 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN115115883A (zh) | 一种基于多模态特征融合的证照分类方法及系统 | |
CN116266259A (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN117635275B (zh) | 基于大数据的智能电商运营商品管理平台及方法 | |
CN109657691B (zh) | 一种基于能量模型的图像语义标注方法 | |
CN112966676B (zh) | 一种基于零样本学习的文档关键信息抽取方法 | |
CN116630726B (zh) | 基于多模态的鸟类分类方法及系统 | |
CN117610658A (zh) | 一种基于人工智能的知识图谱数据动态更新方法及系统 | |
CN117173730A (zh) | 一种基于多模态信息的文档图像智能分析及处理方法 | |
CN116821696A (zh) | 表格问答模型的训练方法、装置、设备及存储介质 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN114120074B (zh) | 基于语义增强的图像识别模型的训练方法和训练装置 | |
CN114169320A (zh) | 一种基于词向量矩阵分解技术的多源数据融合方法及系统 | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN112231473A (zh) | 一种基于多模态深度神经网络模型的商品分类方法 | |
Hamplová et al. | Cuneiform Stroke Recognition and Vectorization in 2D Images. | |
CN117953224B (zh) | 一种开放词汇3d全景分割方法及系统 | |
CN117473980B (zh) | 一种便携式文档格式文件的结构化解析方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200818 Termination date: 20210125 |