CN102253996B - 一种多视角阶段式的图像聚类方法 - Google Patents

一种多视角阶段式的图像聚类方法 Download PDF

Info

Publication number
CN102253996B
CN102253996B CN 201110191264 CN201110191264A CN102253996B CN 102253996 B CN102253996 B CN 102253996B CN 201110191264 CN201110191264 CN 201110191264 CN 201110191264 A CN201110191264 A CN 201110191264A CN 102253996 B CN102253996 B CN 102253996B
Authority
CN
China
Prior art keywords
class
data
image
stage
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110191264
Other languages
English (en)
Other versions
CN102253996A (zh
Inventor
骆俊武
郎波
程波
李未
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201110191264 priority Critical patent/CN102253996B/zh
Publication of CN102253996A publication Critical patent/CN102253996A/zh
Application granted granted Critical
Publication of CN102253996B publication Critical patent/CN102253996B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多视角阶段式的图像聚类方法:(1)通过爬虫程序从Web页面上获取海量图像,并对图像的描述信息进行预处理得到相应的文档集。(2)离线提取出图像集的视觉特征和文档集的语义特征,将结果持久化到文件或者数据库。(3)针对图像检索引擎中用户的某次具体查询,基于已提取的特征,采用阶段式的图像聚类算法,对检索结果进行动态聚类,并为每个聚类提取出主题关键字,作为类标签,重新组织结果后返回给用户。

Description

一种多视角阶段式的图像聚类方法
技术领域
本发明是在数据挖掘的范畴下,借助图像处理,自然语言处理,数据聚类等方法提出的一种图像聚类方法。
背景技术
随着Intemet的发展以及网络带宽和终端计算能力的不断增强,图像被越来越多地运用于内容的表达和信息的承载上,传统的图像搜索引擎是基于关键字检索的,由于自然语言的多义性,检索的结果往往不能令用户满意,另外,大量不同主题的搜索结果被统一地以缩略图或摘要的形式展现出来,用户需要花费大量的时间定位自己所需要的图像。
多视角阶段式的图像聚类方法就是为了解决这一问题而提出,它充分地利用图像的视觉及语义等多模态特征,采用改进的划分和层次两阶段聚类算法,来挖掘图像之间的深层关系并重新组织检索结果,帮助用户更方便地浏览相关图像,从而加快用户搜索目标图像的速度。
发明内容
本发明要解决的技术问题:如何对图像检索引擎的查询结果进行动态聚类,生成有主题意义的类别,为用户搜索目标图像提供方便。
本发明采用的技术方案:一种多视角阶段式的图像聚类方法。其特征在于步骤如下:
(1)通过爬虫程序从Web页面上获取海量图像集,并进一步根据图像的描述信息及图像所在页面的上下文信息,得到相应的文档集;
(2)离线提取出图像集的视觉特征和文档集的语义特征,将结果持久化到文件或者数据库;
(3)针对图像检索引擎中用户的某次具体查询,基于已提取的特征,采用阶段式的图像聚类算法,对检索结果进行动态聚类,并为每个聚类提取出主题关键字,作为类标签,重新组织结果后返回给用户。
根据本发明的又一个方面,其中步骤(2)又进一步包括:
(2a)训练阶段:将所有文档集当作背景语料进行训练,通过分词、特征选择后筛选出有代表性的词作为特征词库;
(2b)提取阶段:对前景语料进行分词后,筛选出特征词库中存在的词,然后计算它们的TFIDF值作为权重,并采用VSM模型表示,再经过降维处理后形成最终的语义特征向量。
根据本发明的又一个方面,其中步骤(3)又进一步包括:
(3a)假设需要将N个数据划分k类,当k已知时,则:
(i)第1阶段离群点的剔除:计算N个数据两两之间的距离dij,以及数据i与其他数据的距离总和Pi,假设Pi服从高斯分布N(μ,δ2),分别以样本均值和标准偏差作为总体均值和总体标准差的估计值,将Pi>μ+2σ的数据点作为离群点剔除;
(ii)假设剔除离群点后剩余的数据总数为M,首先采用随机抽样方法生成初始聚类中心,再采用K-Means算法将M个数据划分成m个子类,其中 m = max ( 2 * k , n ) ;
(iii)在m个子类上,执行CURE(Clustering Using Representatives)算法,基于最小距离原则不断地合并相距最近的两类,直到聚类数目为1.5*k时终止;
(iv)第2阶段离群点的剔除:统计每类数目Ci,假设Ci服从高斯分布N(μ,δ2),以样本均值和标准偏差作为总体均值和总体标准差的估计值,将Ci<μ-2σ的类中的所有数据点作为离群点剔除;
(v)再次执行步骤(iii),直到聚类数目为k时终止,再基于最小距离原则,将离群点划分到相距最近的类中;
(vi)基于TFIDF和信息熵的线性组合模型,为每类提取出主题关键字作为类标签;
(3b)假设需要将N个数据划分k类,当k未知时,定义如下有效性准则函数:
V K = Σ j = 1 n Σ i = 1 c [ | | x j - v i | | 2 ] + 1 c Σ i = 1 c | | v i - v ‾ | | 2 min i ≠ k | | v i - v k | | 2
其中xj表示第j个数据点,vi表示第i类的中心点,v为k个中心点的平均值,||||表示模长;
(i)确定聚类数k的范围,
Figure BDA0000074618240000032
其中N为数据集大小;
(ii)采用穷举方法,对
Figure BDA0000074618240000033
分别执行(3a)中的所有步骤,并计算出上述有效性准则函数值Vk.
(iii)作出有效性准则函数值Vk的曲线图,取Vk出现拐点时的k作为最终的类别数。
附图说明
图1为阶段式多视角的图像聚类方法结构图;
图2为两阶段聚类算法的基本流程图。
具体实施方式
下面参考附图1,对本发明的实施例进行详细的说明。
研究表明,传统的图像搜索引擎是基于关键字检索的,由于自然语言的多义性,检索的结果往往不能令用户满意,另外,大量不同主题的搜索结果被统一地以缩略图或摘要的形式展现出来,用户需要花费大量的时间定位自己所需要的图像。这就有必要提出一种聚类方法来挖掘图像之间的深层关系并重新组织检索结果,帮助用户更方便地浏览相关图像,从而加快用户搜索目标图像的速度。
具体而言,本发明所提出的聚类方法如图1所示。
本发明主要包括的核心思想:充分利用图像的视觉及语义等多模态特征,借助图像处理,自然语言处理,数据聚类等方法,对用户的查询结果进行动态聚类并重新组织结果。
首先对web图像进行预处理,得到图像集和相应的文档集;然后,分别借助图像处理技术和自然语言处理技术提取出图像的视觉特征和语义特征;最后,对于用户的具体查询结果,基于已提取的特征和本发明的阶段式聚类算法进行动态聚类,并为每类提取出主题关键字作为类标签,重新组织结果后返回给用户。
本发明所提出的阶段式聚类算法基本流程如图2所示,在描述该算法前先定义如下变量:
1.设N是图像数据集的大小;
2.设k是最终的聚类数;
3.设dij是数据i和数据j之间的距离;
4.设Pi是数据i到其他数据的距离总和;
5.设Ci是第i个聚类的数据总数;
6.设M是第一阶段剔除离群点后剩余的数据总数;
6.设m是执行K-Means聚类后得到的子类数;
7.设fij是词tj在类si中的加权频率;
8.设F(tj)和E(tj)分别为词tj的TFIDF值和信息熵。
本发明的算法描述如下:
1.第1阶段离群点的剔除:计算N个数据两两之间的距离dij,以及数据i与其他数据的距离总和Pi,假设Pi服从高斯分布N(μ,δ2),分别以样本均值和标准偏差作为总体均值和总体标准差的估计值,将Pi>μ+2σ的数据点作为离群点剔除;
2.采用随机抽样方法生成m个初始聚类中心,采用K-Means算法将剔除离群点后剩余的数据划分成m个子类,其中
Figure BDA0000074618240000041
3.在m个子类上,执行CURE算法,基于最小距离原则不断地合并相距最近的两类,直到聚类数目为1.5*k时终止;
4.第2阶段离群点的剔除:统计每类数目Ci,假设Ci服从高斯分布N(μ,δ2),以样本均值和标准偏差作为总体均值和总体标准差的估计值,将Ci<μ-2σ的类中的所有数据点作为离群点剔除;
5.再次执行步骤(3),直到聚类数目为k时终止,再基于最小距离原则,将离群点划分到相距最近的类中;
6.基于TFIDF和信息熵的线性组合模型,为每类提取出主题关键字作为类标签,其中TFIDF和信息熵的计算公式如下:
Figure BDA0000074618240000051
E(tj)=-fji×log(fji)
计算词tj两种属性值后,将它们进行线性加权得到最终的词语权值。按照该权值从大到小排序,取最高值的几个关键词作为该类的主题关键词。
P(tj)=a×F(tj)+b×E(tj)
其中,a,b的取值可根据具体的应用系统调整,满足a+b=1.
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其作出各种修改。

Claims (2)

1.一种多视角阶段式的图像聚类方法,其特征在于步骤如下: 
(1)通过爬虫程序从Web页面上获取海量图像集,并进一步根据图像的描述信息及图像所在页面的上下文信息,得到相应的文档集; 
(2)离线提取出图像集的视觉特征和文档集的语义特征,将结果持久化到文件或者数据库; 
(3)针对图像检索引擎中用户的某次具体查询,基于已提取的特征,采用阶段式的图像聚类算法,对检索结果进行动态聚类,并为每个聚类提取出主题关键字,作为类标签,重新组织结果后返回给用户; 
所述的步骤(3)进一步包括: 
(3a)假设需要将N个数据划分k类,当k已知时,则: 
(i)第1阶段离群点的剔除:计算N个数据两两之间的距离dij,以及数据i与其他数据的距离总和Pi,假设Pi服从高斯分布N(μ,δ2),分别以样本均值和标准偏差作为总体均值和总体标准差的估计值,将Pi>μ+2δ的数据点作为离群点剔除; 
(ii)假设剔除离群点后剩余的数据总数为M,首先采用随机抽样方法生成初始聚类中心,再采用K-Means算法将M个数据划分成m个子类,其中 
Figure FDA00002841349000011
(iii)在m个子类上,执行CURE算法,基于最小距离原则不断地合并相距最近的两类,直到聚类数目为1.5*k时终止; 
(iv)第2阶段离群点的剔除:统计每类数目Ci,假设Ci服从高斯分布N(μ,δ2),以样本均值和标准偏差作为总体均值和总体标准差的估计值,将Ci<μ-2δ的类中的所有数据点作为离群点剔除; 
(v)再次执行CURE算法,基于最小距离原则不断地合并相距最近的两类,直到聚类数目为k时终止,再基于最小距离原则,将步骤(iv)所述的离群点划分到相距最近的类中; 
(vi)基于TFIDF和信息熵的线性组合模型,为每类提取出主题关键字作为类标签;具体的: 
基于TFIDF和信息熵的线性组合模型,为每类提取出主题关键字作为类标签,其中TFIDF和信息熵的计算公式如下: 
Figure FDA00002841349000021
E(tj)=-fji×log(fji
计算词tj两种属性值后,将它们进行线性加权得到最终的词语权值,按照该权值从大到小排序,取最高值的关键词作为该类的主题关键词;其中fji是词tj在类si中的加权频率,F(tj)和E(tj)分别为词tj的TFIDF值和信息熵; 
(3b)假设需要将N个数据划分k类,当k未知时,定义如下有效性准则函数: 
Figure FDA00002841349000022
其中xj表示第j个数据点,vi表示第i类的中心点,
Figure FDA00002841349000031
为k个中心点的平均值,||||表示模长; 
(i)确定聚类数k的范围,其中N为数据集大小; 
(ii)采用穷举方法,对
Figure FDA00002841349000033
分别执行(3a)中的所有步骤,并计算出上述有效性准则函数值Vk; 
作出有效性准则函数值Vk的曲线图,取Vk出现拐点时的k作为最终的类别数。 
2.根据权利要求1所述的一种多视角阶段式的图像聚类方法,其特征在于:所述的步骤(2)进一步包括: 
(2a)训练阶段:将所有文档集当作背景语料进行训练,通过分词、特征选择后筛选出有代表性的词作为特征词库;(2b)提取阶段:对前景语料进行分词后,筛选出特征词库中存在的词,然后计算它们的TFIDF,即Term Frequency/Inverted Document Frequency值作为权重,并采用Vector Space Model即VSM模型表示,再经过降维处理后形成最终的语义特征向量。 
CN 201110191264 2011-07-08 2011-07-08 一种多视角阶段式的图像聚类方法 Expired - Fee Related CN102253996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110191264 CN102253996B (zh) 2011-07-08 2011-07-08 一种多视角阶段式的图像聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110191264 CN102253996B (zh) 2011-07-08 2011-07-08 一种多视角阶段式的图像聚类方法

Publications (2)

Publication Number Publication Date
CN102253996A CN102253996A (zh) 2011-11-23
CN102253996B true CN102253996B (zh) 2013-08-21

Family

ID=44981260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110191264 Expired - Fee Related CN102253996B (zh) 2011-07-08 2011-07-08 一种多视角阶段式的图像聚类方法

Country Status (1)

Country Link
CN (1) CN102253996B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945370B (zh) * 2012-10-18 2015-10-28 浙江大学 基于多标签二视角支持向量机的分类方法
CN103336806B (zh) * 2013-06-24 2016-08-10 北京工业大学 一种基于词出现间距的内在与外在模式熵差的关键词排序方法
CN105590115A (zh) * 2015-12-18 2016-05-18 北京畅景立达软件技术有限公司 视角不变的人体特征表示方法
CN106156791B (zh) * 2016-06-15 2021-03-30 北京京东尚科信息技术有限公司 业务数据分类方法和装置
CN106228120B (zh) * 2016-07-14 2019-08-02 南京航空航天大学 查询驱动的大规模人脸数据标注方法
CN108062421A (zh) * 2018-01-09 2018-05-22 焦点科技股份有限公司 一种大规模图片多尺度语义检索方法
CN108363821A (zh) * 2018-05-09 2018-08-03 深圳壹账通智能科技有限公司 一种信息推送方法、装置、终端设备及存储介质
CN109447098B (zh) * 2018-08-27 2022-03-18 西北大学 一种基于深度语义嵌入的图像聚类算法
CN109469919B (zh) * 2018-11-12 2020-07-28 南京工程学院 一种基于权重聚类的电站空预器堵灰监测方法
US20220027681A1 (en) * 2018-12-03 2022-01-27 Siemens Mobility GmbH Method and apparatus for classifying data
CN109766470A (zh) * 2019-01-15 2019-05-17 北京旷视科技有限公司 图像检索方法、装置及处理设备
CN110096596B (zh) * 2019-05-08 2023-05-05 广东工业大学 一种基于概念分解的多视图文本聚类方法、装置及设备
CN110297935A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 图像检索方法、装置、介质及电子设备
CN115375934B (zh) * 2022-10-25 2023-04-11 北京鹰瞳科技发展股份有限公司 用于对进行聚类的模型进行训练分析的方法和相关产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271476B (zh) * 2008-04-25 2010-07-21 清华大学 网络图像搜索中基于聚类的相关反馈检索方法
US7890512B2 (en) * 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning
CN101694657B (zh) * 2009-09-18 2011-11-09 浙江大学 面向Web2.0标签图片共享空间的图片检索聚类方法
CN102096800B (zh) * 2009-12-14 2014-11-19 北京中星微电子有限公司 一种图像信息获取方法及装置

Also Published As

Publication number Publication date
CN102253996A (zh) 2011-11-23

Similar Documents

Publication Publication Date Title
CN102253996B (zh) 一种多视角阶段式的图像聚类方法
CN107102989B (zh) 一种基于词向量、卷积神经网络的实体消歧方法
CN107193803B (zh) 一种基于语义的特定任务文本关键词提取方法
CN109033387B (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
WO2019085236A1 (zh) 检索意图识别方法、装置、电子设备及可读存储介质
CN103838864A (zh) 一种视觉显著性与短语相结合的图像检索方法
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN103902988B (zh) 一种基于Modular积图与最大团的草图形状匹配方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
CN102194012B (zh) 微博话题检测方法及系统
CN103577462B (zh) 一种文档分类方法及装置
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN106844786A (zh) 一种基于文本相似度的舆情地域热点发现方法
CN110569405A (zh) 一种基于bert的政务公文本体概念抽取方法
CN103562919A (zh) 利用网络的信息检索方法及相应的语音对话方法
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN102902826A (zh) 一种基于基准图像索引的图像快速检索方法
CN106339486A (zh) 一种基于大规模词汇树的增量学习的图像检索方法
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN106202038A (zh) 基于迭代的同义词挖掘方法及装置
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130821

Termination date: 20140708

EXPY Termination of patent right or utility model