CN107818341A - 一种基于改进K‑means算法的颜色提取方法 - Google Patents

一种基于改进K‑means算法的颜色提取方法 Download PDF

Info

Publication number
CN107818341A
CN107818341A CN201711009324.1A CN201711009324A CN107818341A CN 107818341 A CN107818341 A CN 107818341A CN 201711009324 A CN201711009324 A CN 201711009324A CN 107818341 A CN107818341 A CN 107818341A
Authority
CN
China
Prior art keywords
cluster
point
threshold value
color
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711009324.1A
Other languages
English (en)
Inventor
朱培恺
刘敬浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201711009324.1A priority Critical patent/CN107818341A/zh
Publication of CN107818341A publication Critical patent/CN107818341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Abstract

本发明涉及一种基于改进K‑means算法的颜色提取方法,包括:利用K‑means随机选取初始聚类中心的方法进行聚类;分析HSV空间模型,计算颜色相似度阈值;聚类结果中某一簇中的点与聚类中心在颜色相似度大于阈值的点超过该簇数据总量的25%则认为合格;在不合格的簇中,找出与其他点的颜色相似度大于阈值最多的点,并将该点作为一个新的聚类中心,与新聚类中心相似度大于阈值的点作为这个新簇的成员点,计算平均值作为最终的聚类中心;在原来的旧簇中去除掉步骤5)所产生新簇的点,剩余的点构成另一个新簇,用均值作为聚类中心,重复步骤2)‑5),但阈值保持原有量不随之减少,直至没有新的簇产生,剩余点作为噪声点抛出。

Description

一种基于改进K-means算法的颜色提取方法
技术领域
本发明属于计算机图像处理技术领域,涉及一种颜色提取算法。
背景技术
近些年来,随着人工智能的飞速发展,人们的生活变得越来越便利,而图像识别技术作为人工智能的重要组成部分,被研究人员倍加重视。图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。在图像识别技术的研究领域,以图像形状和大小为研究对象的文献较多,而颜色作为图像的重要特征,相关参考文献却相对较少。但在现实生活中,对图像颜色的识别却是至关重要的。
通过对传统K-means算法的研究发现,该算法在颜色提取方面,最需要解决的是聚类精度的问题。造成这一问题的主要原因是聚类初始点的选取和均值迭代造成聚类结果以偏概全,导致最后得到的结果往往不能有效概括图片的特性,或是没有提取出较为醒目的区域颜色。
发明内容
本发明的目的是克服现有技术的上述不足,提供一种基于改进K-means算法的颜色提取方法。本发明基于密度优化最终聚类结果,通过HSV色彩空间模型的颜色相似性来判断最终聚类结果是否能够有效代表其所在簇中所有点的颜色信息。技术方案如下:
一种基于改进K-means算法的颜色提取方法,包括下列步骤:
1)选取RGB颜色空间模型,对图片像素点数据进行归一化处理;
2)利用K-means随机选取初始聚类中心的方法进行聚类;
3)分析HSV空间模型,计算颜色相似度阈值;
4)以颜色相似度阈值为判断条件,分析步骤2)的K-means算法的聚类结果,若步骤二的聚类结果中某一簇中的点与聚类中心在颜色相似度大于阈值的点超过该簇数据总量的25%则认为合格;若没有则认为不合格;
5)在不合格的簇中,找出与其他点的颜色相似度大于阈值最多的点,并将该点作为一个新的聚类中心,与新聚类中心相似度大于阈值的点作为这个新簇的成员点,计算平均值作为最终的聚类中心;
6)在原来的旧簇中去除掉步骤5)所产生新簇的点,剩余的点构成另一个新簇,用均值作为聚类中心,重复步骤2)-5),但阈值保持原有量不随之减少,直至没有新的簇产生,剩余点作为噪声点抛出;
7)输出聚类结果。
本发明的有益效果如下:
1.本发明提出一种通过密度优化聚类结果的方法,取消了均值迭代在聚类结果上的决定地位,提高了K-means聚类在图像颜色提取方面的精度。
2.本发明将基于密度的思想用于处理最终的聚类结果,缩小了密度算法所处理的数据集大小,相较传统的基于密度的改进思想在运行速度上也有很大的优化。
附图说明
图1本发明的流程图。
具体实施方式
传统K-means算法对初始聚类中心比较敏感,因此初始点选取的随机性就直接影响了聚类的准确性和稳定性。本实施例以电影海报为例,电影海报用色丰富,为了得到更好的视觉体验,海报上的颜色之间有着较好的过渡,导致它的RGB数据和传统用于数据挖掘的数据相比,具有低维度且分布较为均匀的特点。所以传统的K-means改进算法在用于提取电影海报主色时无法取得很好的效果,本文就是针对RGB数据的这种特性,提出了基于密度的聚类结果优化算法。
1颜色空间的选择
通常利用K-means对图像颜色进行聚类,使用的空间模型有RGB颜色空间、HSI颜色空间、HSV颜色空间和Lab颜色空间等,各颜色空间在聚类方面各有优缺点。
对比RGB,其余三个颜色空间都需要进行相应的空间转换,计算相对复杂,以HSV为例,HSV颜色空间模型由三种属性表示。其中H表示色调,取值为0°~360°;S表示饱和度,指同种颜色的深浅程度;V表示亮度,指颜色的明暗程度,取值为0~1,其中最暗为0,最亮为1。RGB空间到HSV空间的转换的过程为,首先将r,g,b归一化到0到1之间的数,然后按照如下公式进行转化:
max=max(r,g,b);min=min(r,g,b);
mid=v-min;
如果r=max&g=min,h=(5+b')×60;
如果r=max&g≠min,h=(1-g')×60;
如果g=max&b=min,h=(1+r')×60;
如果g=max&b≠min,h=(3-b')×60;
如果b=max&r=min,h=(3+g')×60;
其他情况h=(5-r')×60;
s=mid/v;
v=max;
该模型无法直接使用三个维度的值进行K-means聚类,需要很好的协调三个分量之间的关系,举例来说,当V趋近于0或者1时,无论S和H怎么变化,颜色都基本不会发生改变,所以这一点就限制了欧氏距离的直接计算。
设HSV空间颜色Ci=(hi,si,vi)和Cj=(hj,sj,vj),则色彩Ci和Cj的相似性距离可用以下公式计算:
令hi'=si coshi;si'=si sinhi
dij∈[0,1],dij的数值越趋近于1,说明两个颜色越相似。
HSI的缺陷和HSV的基本一致。虽然这两类颜色空间模型不适合直接用在聚类上,但它对于颜色差异识别能力很强,在聚类结果密度的判定上有着很好的效果。
而Lab空间是一种颜色分布均匀的空间。但是它的问题则在于转换过程最为复杂,且最终得到的数据形式只适合用于颜色的分割的判决条件,而不适合直接用于K-means聚类。
RGB颜色空间是最常用的颜色空间。虽然它有独立的三个维度,可由于R、G、B三色是有联系的,导致该颜色空间的三个维度之间有很强的相关性。所以RGB颜色空间不便于通过三个维度值的变化来表达颜色的变化规律。但与此同时RGB颜色空间呈立方体状,能有效直观的反应数据,而且颜色的变化同样和距离远近存在关联。
所以最终选取RGB颜色空间模型进行聚类分析,并用HSV空间弥补RGB空间在颜色差异判断方面的不足,来计算颜色相似度。对图像像素点RGB属性进行归一化处理后直接聚类,而在最后的聚类结果判定时,将数据转化为HSV再进行判定,这样既能获取颜色的差异程度,同时也避免了使用HSV模型3个维度长度不等需要预处理的问题。
2基于密度的聚类结果优化方法
K-means算法是使用簇内的平均值来作为新的聚类中心不断迭代的,在最后迭代稳定之后也是采用平均值来代表整个簇内所有点的特征,但是对于有些图像的颜色信息来说,取平均值的偏移会造成聚类结果得到的颜色不能充分体现其所在簇的特征。为了改进这个缺陷,本发明采用基于密度的聚类结果改进方法,方法如下:
(1)设置用于处理噪声点的阈值,利用K-means算法进行实验,若第一次聚类后某一簇中数据量小于阈值则停止迭代并重新随机选取初始聚类中心,以此避免了初始聚类中心落在离散区域的问题,可得到较为稳定的聚类结果。
(2)计算步骤一最终得到的聚类中心与该簇中其他点的dij值,若满足dij>0.9的点的个数超过该簇数据总量的25%,则判定为合格,若没有直接判定为不合格,跳转到步骤三。
(3)在不合格的簇内,计算簇内与其他点的相似度dij>0.9的个数最多的点,并将该点作为一个新的聚类中心。与新聚类中心相似度大于阈值的点作为这个新簇的成员点,计算平均值作为最终的聚类中心。
(4)在原来的旧簇中去除掉步骤三所产生新簇的点,剩余的点构成另一个新簇,用均值作为聚类中心,重复步骤(2)-(4)但阈值保持原有量不随之减少,直至没有新的簇产生,剩余点作为噪声点抛出。
因为剩余点一般都为离散点,相较密集点而言距离新产生的聚类中心更远,会增加聚类误差,且如果不抛出剩余点,取平均的计算方式会导致最终的聚类中心在一定程度上偏离高密度区域。
本发明与基于密度选取初始聚类点的改进思路都是基于密度的,传统改进方法是用在了初始点选取的方向上,以大量的运算时间为代价,换取了聚类的稳定性和最小的误差值。但这样的优化在处理图像方面用处较小。本发明将密度用于最终聚类结果的处理上,作用范围仅仅限制在了一个簇而不是整体数据中,对于密度的计算量大大减小,节约了算法的运行时间并得到了优秀的聚类结果。
根据不同的图像可以进行图像预处理,降低图像的分辨率可以提高算法的运行速度,在使用本发明算法时如果数据量过大,建议使用分布式并行运算。根据本发明得到的结果可以有效提高根据颜色匹配图像的精度,和在基于密度思想中较快的运算速度。计算结果可以用于颜色方面较高精度的匹配,或用于将颜色作为推荐算法的一个属性时,提供更高精度的颜色信息。
本发明不但能够有效的提取出小面积醒目主色,更为精确的定位图片颜色信息,相比传统的基于密度提取初始聚类初始点的思想,本发明还通过缩小处理数据集的范围有效的降低算法运算时间,解决了传统思想运算满效果差的弊端。

Claims (1)

1.一种基于改进K-means算法的颜色提取方法,包括下列步骤:
1)选取RGB颜色空间模型,对图片像素点数据进行归一化处理。
2)利用K-means随机选取初始聚类中心的方法进行聚类;
3)分析HSV空间模型,计算颜色相似度阈值;
4)以颜色相似度阈值为判断条件,分析步骤2)的K-means算法的聚类结果,若步骤二的聚类结果中某一簇中的点与聚类中心在颜色相似度大于阈值的点超过该簇数据总量的25%则认为合格;若没有则认为不合格;
5)在不合格的簇中,找出与其他点的颜色相似度大于阈值最多的点,并将该点作为一个新的聚类中心,与新聚类中心相似度大于阈值的点作为这个新簇的成员点,计算平均值作为最终的聚类中心;
6)在原来的旧簇中去除掉步骤5)所产生新簇的点,剩余的点构成另一个新簇,用均值作为聚类中心,重复步骤2)-5),但阈值保持原有量不随之减少,直至没有新的簇产生,剩余点作为噪声点抛出;
7)输出聚类结果。
CN201711009324.1A 2017-10-25 2017-10-25 一种基于改进K‑means算法的颜色提取方法 Pending CN107818341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711009324.1A CN107818341A (zh) 2017-10-25 2017-10-25 一种基于改进K‑means算法的颜色提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711009324.1A CN107818341A (zh) 2017-10-25 2017-10-25 一种基于改进K‑means算法的颜色提取方法

Publications (1)

Publication Number Publication Date
CN107818341A true CN107818341A (zh) 2018-03-20

Family

ID=61603095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711009324.1A Pending CN107818341A (zh) 2017-10-25 2017-10-25 一种基于改进K‑means算法的颜色提取方法

Country Status (1)

Country Link
CN (1) CN107818341A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598012A (zh) * 2020-05-19 2020-08-28 恒睿(重庆)人工智能技术研究院有限公司 一种图片聚类管理方法、系统、设备及介质
CN112268901A (zh) * 2020-11-04 2021-01-26 南京龙渊微电子科技有限公司 一种基于k-means算法的溶液浓度识别方法
US11763422B2 (en) 2021-07-01 2023-09-19 International Business Machines Corporation Fast color clustering for preprocessing an image
CN117409200A (zh) * 2023-10-19 2024-01-16 重庆科技学院 基于聚类分析的岩石矿物组分及孔隙自动分割方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100316290A1 (en) * 2009-06-16 2010-12-16 Alibaba Group Holding Limited Method and system for near-duplicate image searching
CN102663401A (zh) * 2012-04-18 2012-09-12 哈尔滨工程大学 一种图像特征提取和描述方法
JP2015060315A (ja) * 2013-09-17 2015-03-30 株式会社リコー 代表色抽出装置、代表色抽出方法、プログラムおよび記録媒体
CN105427260A (zh) * 2015-11-27 2016-03-23 优渊商贸(上海)有限公司 图像处理方法及装置
CN106202352A (zh) * 2016-07-05 2016-12-07 华南理工大学 基于贝叶斯网络的室内家居风格与颜色搭配设计的方法
CN106295676A (zh) * 2016-07-26 2017-01-04 重庆邮电大学 一种基于Hadoop的自适应RK‑means算法
CN106874923A (zh) * 2015-12-14 2017-06-20 阿里巴巴集团控股有限公司 一种商品的风格分类确定方法及装置
EP3227830A1 (en) * 2014-12-03 2017-10-11 Ventana Medical Systems, Inc. Methods, systems, and apparatuses for quantitative analysis of heterogeneous biomarker distribution

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100316290A1 (en) * 2009-06-16 2010-12-16 Alibaba Group Holding Limited Method and system for near-duplicate image searching
CN102663401A (zh) * 2012-04-18 2012-09-12 哈尔滨工程大学 一种图像特征提取和描述方法
JP2015060315A (ja) * 2013-09-17 2015-03-30 株式会社リコー 代表色抽出装置、代表色抽出方法、プログラムおよび記録媒体
EP3227830A1 (en) * 2014-12-03 2017-10-11 Ventana Medical Systems, Inc. Methods, systems, and apparatuses for quantitative analysis of heterogeneous biomarker distribution
CN105427260A (zh) * 2015-11-27 2016-03-23 优渊商贸(上海)有限公司 图像处理方法及装置
CN106874923A (zh) * 2015-12-14 2017-06-20 阿里巴巴集团控股有限公司 一种商品的风格分类确定方法及装置
CN106202352A (zh) * 2016-07-05 2016-12-07 华南理工大学 基于贝叶斯网络的室内家居风格与颜色搭配设计的方法
CN106295676A (zh) * 2016-07-26 2017-01-04 重庆邮电大学 一种基于Hadoop的自适应RK‑means算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FATEN ABU SHMMALA: "Color based image segmentation using different versions of k-means in two spaces", 《GLOBAL ADVANCED RESEARCH JOURNAL OF ENGINEERING, TECHNOLOGY AND INNOVATION》 *
周炜奔: "基于密度的K-means聚类中心选取的优化算法", 《计算机应用研究》 *
张雪芹: "一种基于改进SURF和K-Means聚类的布料图像匹配算法", 《华东理工大学学报(自然科学版)》 *
韩海: "基于K-means算法的RGB图像色彩聚类", 《江汉大学学报:自然科学版》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598012A (zh) * 2020-05-19 2020-08-28 恒睿(重庆)人工智能技术研究院有限公司 一种图片聚类管理方法、系统、设备及介质
CN112268901A (zh) * 2020-11-04 2021-01-26 南京龙渊微电子科技有限公司 一种基于k-means算法的溶液浓度识别方法
US11763422B2 (en) 2021-07-01 2023-09-19 International Business Machines Corporation Fast color clustering for preprocessing an image
CN117409200A (zh) * 2023-10-19 2024-01-16 重庆科技学院 基于聚类分析的岩石矿物组分及孔隙自动分割方法

Similar Documents

Publication Publication Date Title
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
US20220100793A1 (en) Method for retrieving footprint images
CN102012939B (zh) 综合颜色和局部不变特征匹配的动画场景自动标注方法
CN107818341A (zh) 一种基于改进K‑means算法的颜色提取方法
CN103035013B (zh) 一种基于多特征融合的精确运动阴影检测方法
CN115082683A (zh) 一种基于图像处理的注塑缺陷检测方法
CN109101938B (zh) 一种基于卷积神经网络的多标签年龄估计方法
CN104182763A (zh) 一种基于花朵特征的植物种类识别系统
CN109800698A (zh) 基于深度网络的图标检测方法
CN102663723B (zh) 一种基于颜色样本与电场模型的图像分割方法
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN108629783A (zh) 基于图像特征密度峰值搜索的图像分割方法、系统及介质
CN103295013A (zh) 一种基于成对区域的单幅图像阴影检测方法
CN106228554A (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN109815864A (zh) 一种基于迁移学习的人脸图像年龄识别方法
CN108073940B (zh) 一种非结构化环境中的3d目标实例物体检测的方法
CN109447111A (zh) 一种基于子类训练样本的遥感监督分类方法
CN105844213B (zh) 一种绿色果实识别方法
CN104881668B (zh) 一种基于代表性局部模式的图像指纹提取方法及系统
CN102938053A (zh) 一种基于计算机视觉的甘蔗特征提取与识别方法
CN111368865B (zh) 遥感影像储油罐检测方法、装置、可读存储介质及设备
CN112529901B (zh) 一种复杂环境下的裂缝识别方法
CN108510483B (zh) 一种采用vlad编码和svm的计算生成彩色图像篡改检测方法
CN108520539B (zh) 一种基于稀疏学习可变模型的图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20201120

AD01 Patent right deemed abandoned