CN105718883B - 一种基于稀疏因子分析的图像视觉属性挖掘方法 - Google Patents
一种基于稀疏因子分析的图像视觉属性挖掘方法 Download PDFInfo
- Publication number
- CN105718883B CN105718883B CN201610035845.3A CN201610035845A CN105718883B CN 105718883 B CN105718883 B CN 105718883B CN 201610035845 A CN201610035845 A CN 201610035845A CN 105718883 B CN105718883 B CN 105718883B
- Authority
- CN
- China
- Prior art keywords
- image
- matrix
- attribute
- visual
- perceptual property
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000000007 visual effect Effects 0.000 title abstract description 10
- 238000005065 mining Methods 0.000 title abstract description 5
- 238000000556 factor analysis Methods 0.000 title abstract 2
- 239000011159 matrix material Substances 0.000 claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000009412 basement excavation Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract 1
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于稀疏因子分析的图像视觉属性挖掘方法。技术方案包括下述步骤:第一步,计算图像集合的特征矩阵。对图像集合I中的每一幅图像Ii计算一个D维的梯度方向直方图特征向量,得到图像集合的特征矩阵X。第二步,挖掘图像集合的视觉属性。初始化视觉属性矩阵A为X的前K列,初始化视觉属性混合系数矩阵Y为单位对角矩阵,采用交替优化进行迭代,得到最优的视觉属性矩阵A。本发明自动挖掘图像视觉属性,避免了属性学习需要大量人工标记样本的缺点,通过在视觉属性混合系数矩阵优化时引入稀疏约束,大大提高了视觉属性的区分性能。
Description
技术领域
本发明涉及图像分析技术领域,特别涉及图像分析中的语义描述技术领域,更具体地说,涉及一种基于稀疏因子分析的图像视觉属性挖掘方法。
背景技术
图像视觉属性(visual attribute)增进了人与计算机对图像内容的一致理解。基于图像视觉属性的语义描述方法在图像目标识别、图像检索和图像内容标记等多个领域取得了很大成功。然而现有的图像视觉属性学习方法通过图像附带的自然语言描述定义视觉属性,需要大量的人工标记图像,存在两方面问题:一是人工标记图像效率低下,不适用于大规模图像集合;二是不同的人对同一副图像的内容理解有差别,引入人工标记偏差。
发明内容
本发明要解决的技术问题是:克服现有图像视觉属性学习方法中的人工标记过程效率低下和标记过程中引入的语义偏差问题,基于数据驱动的思想,采用无监督优化方法直接从大规模图像集合中挖掘同时具有语义性和区分性的图像视觉属性。
本发明的技术方案是:一种基于稀疏因子分析的图像视觉属性挖掘方法,具体包括下述步骤:
第一步,计算图像集合的特征矩阵。
对图像集合I={Ii|i=1,2,...,N}中的每一幅图像Ii计算一个D维的梯度方向直方图特征向量xi∈RD,得到图像集合的特征矩阵X∈RD×N,其中xi表示为列向量,D的取值根据图像大小和梯度方向直方图特征提取参数确定。
第二步,挖掘图像集合的视觉属性。
设定最大迭代次数(根据经验值确定),初始化视觉属性矩阵A∈RD×K(K为属性的种类数,根据经验值确定,K<min{D,N})为X的前K列,初始化视觉属性混合系数矩阵Y∈RK×N为单位对角矩阵,采用交替优化进行迭代:
①固定A不变,调整Y,采用NNQP(non-negative quadratic programming,非负二次规划)方法优化下式:
其中Y≥0 (公式一)
其中yi为Y的第i列,||||F为计算F范数,||||1为计算1范数,设经过优化Y变为Y′。
②固定Y′不变,调整A,采用NNQP方法优化下式:
其中A≥0 (公式二)
设经过优化A变为A′。
③对A′的列进行范数归一化得到A″。
④判断是否满足最大迭代次数(根据需要确定),是则结束迭代,视觉属性矩阵A″即为所求结果;否则令A=A″,Y=Y′,返回①。
本发明的有益效果是:
(1)自动挖掘视觉属性的语义。本发明对基于图像视觉属性的生成过程进行建模并利用大规模图像数据推断模型参数,自动挖掘图像视觉属性,避免了属性学习需要大量人工标记样本的缺点。
(2)视觉属性具有区分性。本发明通过在视觉属性混合系数矩阵优化时引入稀疏约束,大大提高了视觉属性的区分性能。
附图说明
图1是本发明的流程示意图;
图2为人脸图像集合上挖掘的视觉属性;
图3为椅子图像集合和台灯图像集合上挖掘的视觉属性及包含该属性图像。
具体实施方式
下面结合附图对本发明提供的基于稀疏因子分析的图像视觉属性挖掘方法进行详细说明。
图1是本发明的流程示意图。如图所示,包括两个步骤:第一步,计算图像集合的特征矩阵,第二步,挖掘图像集合的视觉属性。
图2为采用Caltech101数据集中的435幅人脸图像挖掘的视觉属性结果,第一步对每幅图像提取梯度直方图特征(特征提取参数为:图像分解为8像素×8像素的单元格,在每个单元格内统计0°-180°的梯度方向直方图,然后采用2单元格×2单元格块进行归一化,为每个单元格生成一个描述符(或称特征向量),最后串联所有单元格描述符生成图像的梯度直方图特征),第二步设定最大迭代次数为1000和属性的种类数K为12,进行交替优化迭代,挖掘的视觉属性向量图像化后如图2所示,可以看到挖掘的视觉属性有效地刻画了人脸的结构性区分信息。图2的12幅图是视觉属性矩阵的每一列图像化得到的结果。
图3为采用Caltech101数据集中的61幅椅子图像集和61幅台灯图像集提取梯度直方图特征(特征提取参数为:图像分解为8像素×8像素的单元格,在每个单元格内统计0°-180°的梯度方向直方图,然后采用2单元格×2单元格块进行归一化,为每个单元格生成一个描述符,最后串联所有单元格描述符生成图像的梯度直方图特征),设定最大迭代次数为1000和属性的种类数K为20时挖掘的视觉属性矩阵向量图像化结果,随机选择其中的一个向量(即一列数据,也称视觉属性向量),该向量对应的混合系数矩阵中相应的分量按照大小排列前4的图像。图3(a)为椅子图像集上的结果,图3(b)为台灯图像集上的结果,其中最左列为挖掘的视觉属性向量图像化结果,从左到右图像中包含的属性的强度依次减弱,可以看到挖掘的视觉属性具有语义性,尽管图像的外观有差别但内容语义相似。
Claims (1)
1.一种基于稀疏因子分析的图像视觉属性挖掘方法,其特征在于,包括下述步骤:
第一步,计算图像集合的特征矩阵:
对图像集合Ι={Ii|i=1,2,...,N}中的每一幅图像Ii计算一个D维的梯度方向直方图特征向量xi∈RD,得到图像集合的特征矩阵X∈RD×N,其中xi表示为列向量,D的取值根据图像大小和梯度方向直方图特征提取参数确定;
第二步,挖掘图像集合的视觉属性:
根据经验设定最大迭代次数,初始化视觉属性矩阵A∈RD×K,K为属性的种类数且K<min{D,N},A的取值为X的前K列,初始化视觉属性混合系数矩阵Y∈RK×N,Y为单位对角矩阵,然后进行下述迭代:
①固定A不变,调整Y,采用非负二次规划方法优化下式:
其中Y≥0 (公式一)
其中yi为Y的第i列,设经过优化Y变为Y′;
②固定Y′不变,调整A,采用非负二次规划方法优化下式:
其中A≥0 (公式二)
设经过优化A变为A′;
③对A′的列进行l2范数归一化得到A″;
④判断是否满足最大迭代次数,是则结束迭代,视觉属性矩阵A″即为所求结果;否则令A=A″,Y=Y′,返回①。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610035845.3A CN105718883B (zh) | 2016-01-19 | 2016-01-19 | 一种基于稀疏因子分析的图像视觉属性挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610035845.3A CN105718883B (zh) | 2016-01-19 | 2016-01-19 | 一种基于稀疏因子分析的图像视觉属性挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105718883A CN105718883A (zh) | 2016-06-29 |
CN105718883B true CN105718883B (zh) | 2019-01-15 |
Family
ID=56147474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610035845.3A Expired - Fee Related CN105718883B (zh) | 2016-01-19 | 2016-01-19 | 一种基于稀疏因子分析的图像视觉属性挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718883B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866421A (zh) * | 2010-01-08 | 2010-10-20 | 苏州市职业大学 | 基于离散度约束非负稀疏编码的自然图像特征提取方法 |
CN102968635A (zh) * | 2012-11-23 | 2013-03-13 | 清华大学 | 一种基于稀疏编码的图像视觉特征提取方法 |
CN103218460A (zh) * | 2013-05-14 | 2013-07-24 | 清华大学 | 基于最优线性稀疏重构的图像标签补全方法 |
CN103810252A (zh) * | 2014-01-21 | 2014-05-21 | 南京信息工程大学 | 一种基于群稀疏特征选择的图像检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100403601B1 (ko) * | 2001-12-21 | 2003-10-30 | 삼성전자주식회사 | 영상의 윤곽선 보정 장치 및 방법 |
-
2016
- 2016-01-19 CN CN201610035845.3A patent/CN105718883B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866421A (zh) * | 2010-01-08 | 2010-10-20 | 苏州市职业大学 | 基于离散度约束非负稀疏编码的自然图像特征提取方法 |
CN102968635A (zh) * | 2012-11-23 | 2013-03-13 | 清华大学 | 一种基于稀疏编码的图像视觉特征提取方法 |
CN103218460A (zh) * | 2013-05-14 | 2013-07-24 | 清华大学 | 基于最优线性稀疏重构的图像标签补全方法 |
CN103810252A (zh) * | 2014-01-21 | 2014-05-21 | 南京信息工程大学 | 一种基于群稀疏特征选择的图像检索方法 |
Non-Patent Citations (2)
Title |
---|
基于稀疏编码的图像语义分类器模型;梁天一等;《华东理工大学学报(自然科学版)》;20071231;第33卷(第6期);第827-830页 |
基于视觉特性的图像稀疏表示;尚倩;《计算机工程与应用》;20111231;第47卷(第5期);第199-201页 |
Also Published As
Publication number | Publication date |
---|---|
CN105718883A (zh) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | A large chinese text dataset in the wild | |
Poco et al. | Extracting and retargeting color mappings from bitmap images of visualizations | |
Liu et al. | Adaptive partial differential equation learning for visual saliency detection | |
WO2022001623A1 (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN111858954A (zh) | 面向任务的文本生成图像网络模型 | |
CN110674741B (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN102651128B (zh) | 一种基于采样的图像集分割方法 | |
CN104732506A (zh) | 一种基于人脸语义分析的人物照片颜色风格转换方法 | |
CN110795925B (zh) | 基于人工智能的图文排版方法、图文排版装置及电子设备 | |
CN110059697A (zh) | 一种基于深度学习的肺结节自动分割方法 | |
CN107807914A (zh) | 情感倾向的识别方法、对象分类方法及数据处理系统 | |
CN107423689B (zh) | 智能交互式人脸关键点标注方法 | |
CN103778443B (zh) | 基于主题模型方法和领域规则库实现场景分析描述的方法 | |
CN111563563B (zh) | 一种手写体识别的联合数据的增强方法 | |
Wang et al. | Affective image colorization | |
CN103679208A (zh) | 基于广电字幕识别的训练数据自动生成和深度学习方法 | |
CN109726725A (zh) | 一种基于大间隔类间互异性多核学习的油画作者识别方法 | |
CN104484347B (zh) | 一种基于地理信息的层次化视觉特征提取方法 | |
CN114511452B (zh) | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 | |
Li et al. | Neural abstract style transfer for chinese traditional painting | |
CN106997379A (zh) | 一种基于图片文本点击量的相近文本的合并方法 | |
CN113806574A (zh) | 一种软硬件一体化的人工智能图像识别数据处理方法 | |
CN105718883B (zh) | 一种基于稀疏因子分析的图像视觉属性挖掘方法 | |
CN110348022A (zh) | 一种相似度分析的方法、装置、存储介质及电子设备 | |
CN108898188A (zh) | 一种图像数据集辅助标记系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20181220 Address after: 410073 Deya Road, Kaifu District, Changsha, Hunan Province, No. 109 Applicant after: National University of Defense Technology Address before: 410073 Deya Road, Kaifu District, Changsha, Hunan Province, No. 109 Applicant before: NATIONAL University OF DEFENSE TECHNOLOGY |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190115 |
|
CF01 | Termination of patent right due to non-payment of annual fee |