CN105956113B - 基于粒子群优化的视频数据挖掘高维聚类方法 - Google Patents

基于粒子群优化的视频数据挖掘高维聚类方法 Download PDF

Info

Publication number
CN105956113B
CN105956113B CN201610293257.XA CN201610293257A CN105956113B CN 105956113 B CN105956113 B CN 105956113B CN 201610293257 A CN201610293257 A CN 201610293257A CN 105956113 B CN105956113 B CN 105956113B
Authority
CN
China
Prior art keywords
sample point
sample
value
cluster centre
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610293257.XA
Other languages
English (en)
Other versions
CN105956113A (zh
Inventor
陈志�
杨天明
岳文静
龚凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610293257.XA priority Critical patent/CN105956113B/zh
Publication of CN105956113A publication Critical patent/CN105956113A/zh
Application granted granted Critical
Publication of CN105956113B publication Critical patent/CN105956113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于粒子群算法视频数据挖掘高维聚类分析方法。该方法首先对视频数据集提取特征属性,把这些属性数值化,形成样本;之后对样本数据进行适当改造,使得样本点每一维属性都改成其对应维最大值的百分比。本发明通过适当改造样本,能够解决部分噪声数据的影响;通过基于粒子群的聚类分析算法,能够提高聚类分析算法的收敛速度,减弱初始聚类中心点选择的敏感性。

Description

基于粒子群优化的视频数据挖掘高维聚类方法
技术领域
本发明利用粒子群优化来进行视频数据挖掘高维聚类,缓解视频数据聚类分析的“维度灾难”,属于数据挖掘、多媒体处理和进化计算交叉领域应用技术领域。
背景技术
视频数据挖掘是通过综合分析试听特性和语义,在视频中发现隐含的、有效的、有价值的、可理解的模式,进而发现知识,得出事件的趋势和关联为用户提供问题求解层次的决策支持能力。
聚类分析是研究数据间逻辑上或物理上的相互关系的技术,它通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类。聚类分析的结果不仅可以揭示数据间的内在联系与区别,同时也为进一步的数据分析与知识发现提供了重要的依据,如数据间的关联规则,分类模式以及数据的变化趋势等。粒子群优化算法(PSO)从随机解出发,通过迭代寻找最优解。在每一次迭代中,粒子通过跟踪两个“极值”来更新自己。第一个“极值”就是粒子本身所找到的最优解,这个解叫做个体极值。另一个“极值”是整个种群目前找到的最优解,这个极值是全局极值。本发明利用粒子群优化算法来构建一种多视频数据挖掘高维聚类方法方案。
发明内容
技术问题:噪声数据对多视频数据挖掘聚类结果具有不良影响,同时现有多视频数据挖掘聚类方法的实际正确率和效率有待优化提高,本发明方法主要解决
上述问题,提出一种基于粒子群优化的视频数据挖掘高维聚类方法。
技术方案:本发明首先对原始视频数据进行预处理,通过对不同属性特征的抽取,根据聚类分析数据类型要求,形成样本表示;然后,对原始样本数据进行适当的改造;最后,根据粒子群优化算法,改善不同的分组,使得同组对象彼此相似,不同组对象彼此相异,形成样本簇,对视频进行分类。
本发明所述的视频数据挖掘高维聚类分析方法包含以下步骤:
步骤1)用户输入n个视频文件,分别从这些视频文件提取特征值,形成n个t维样本点,所有样本点组成初始样本。所述n是用户输入视频文件数目,所述t是指单个视频抽取所有画面中像素点个数的3倍,所述特征值是指相像素点的三通道色彩强度值共有t个特征值,所述样本点是指用t个特征值作为作为坐标值的点。每个视频文件特征值提取具体步骤为:
步骤1.1)按时间均匀的抽取视频的中的m帧画面;
步骤1.2)按行访问每一帧画面的每个像素点,记录每个像素点的三个通道的色彩强度值,将这些强度值作为样本点坐标值。这些样本点为Pi=(ai1,ai2,ai3,...,ait),所述i=1...n
步骤2)计算样本点每一维坐标的最大值(max1,max2,max3,…,maxt)。样本点P1,P2,P3,…,Pn每一个坐标值都除以其对应维的最大值得到如下新样本点:
步骤3)解析步骤2)得到的新样本点,确定聚类中心点,进行分类,具体步骤如下:
步骤3.1)求出每个类中样本点个数的的期望值:
所述N是指样本点个数的期望值,所述n是指样本点个数,所述k聚类中心的个数。
步骤3.2)计算聚类中心的粗略位置所述粗略位置是指距离聚类中心较近的位置,所述G表示未被分类的样本点集合,所述NG表示未分类样本点的个数,所述Zi是指样本点,i∈{1,2,3,...n}。
步骤3.3)计算集合G中每个样本点到C*的欧式距离取距离最小的样本点做为聚类中心C。若有多个相等的最小距离的样本点,则随机取其一做为聚类中心C。
步骤3.4)计算集合G中每个样本点到C的欧式距离d。控制距离阈值σ,使得满足d<σ的样本点个数N′满足条件:|N-N′|取最小值。
步骤3.5)若还有未曾分类的样本点,则转置步骤3.2)。所有样本点分类完后,k个聚类中心:
步骤4)运用粒子群优化算法,进行M次迭代,一次迭代流程如下:
步骤4.1)计算样本点的适应度所述表示第t次迭代时第i个样本点所在位置,所述dii表示样本点到对应聚类中心的欧式距离,所述dij表示样本点到其他聚类中心的欧式距离,所述k表示聚类中心的个数。做为聚类中心的样本点,不计算其适应度。
所述适应度是对聚类划分正确率的判断,用样本与自身对应聚类中心的距离和与其他聚类中心距离均值的比来表示,作为聚类中心的样本点不参与运算。适应度的数值越小,表示该样本点的划分越合理。
步骤4.2)计算适应度个体最优和全局最优位置,第i个点第t+1次迭代的个体最优样本点为第t+1迭代的全体最优样本点为
对于每个样本点,将其适应度与本身在迭代过程中所经过的最优位置的适应度进行比较,若更好,则作为当前的个体最优位置。对于每个粒子,将其适应度与全局所经历的最优位置的适应度比较,若更好,则将其最为当前全局最优位置;
步骤4.3)通过计算来更新每个样本点的速度和位置。所述惯性因子ω∈[0,1]。当ω取值较大时算法全局收敛性比较好,当ω取值较小时,算法具有较强的局部搜索能力。加速常数c1,c2通常取1,随机数r1,r2∈[0,1]。分别是指第i个样本点在第t-1次迭代和第t次迭代时的速度,初始速度 分别指第i个样本点在第t次迭代和t+1次迭代时的位置。
步骤4.4)更新聚类中心。计算每个样本点的欧式距离,距离最近的样本点作为用同样的方法更新所述分别指第t次迭代时与第t+1此迭代时第i个聚类中心,这里i取1到k之间的整数值。
步骤4.5)重新分类,计算样本点的欧式距离,将划分到与其距离最近的聚类中心。
步骤4.5)当迭代次数没有到达M次,则转到步骤4.1);
步骤5)形成样本簇,根据样本簇对这些样本所在的视频进行分类。
有益效果:本发明先将提取的样本点,进行适当的改造。从而有效的缓解了“维度灾难”的影响,便于样本点聚类划分。采用基于粒子群的优化算法,加快了聚类算法的收敛性。具体来说,本发明所属的方法具有如下的有益效果:
(1)本发明将样本点的每一维“特征值”都除以对应的最大值,使得每一种属性的“特征值”都以百分比进行显示。从而在一定程度上解决了高维向量噪声信息产生的影响;
(2)初始分类让聚类中心更加接近样本点密度较大的区域提高了聚类划分的正确率;
(3)采用粒子群优化算法,解决了以往聚类算法收敛性慢和初始值敏感性的缺点。提高了聚类算法的效率和正确率。
附图说明
图1为基于粒子群优化的视频数据挖掘高维聚类方法流程图。
具体实施方式
下面结合图1对本发明具体实施做更详细的描述:
1)有很多方法去提取每个视频文件的特征值,这里给出Opencv提取视频文件特征值的步骤:
1.1)创建视频捕捉器
1.2)抽取每一帧画面
1.3)访问捕捉到画面的像素点,获取三通道色彩强度值
1.4)将色彩强度值作为特征值,进行存储
1.5)释放视频流捕捉器
假设Opencv提取与的样本如下:
{(1,1),(2,3),(3,2),(5,4),(6,5),(7,3),(7,8),(6,10),(8,8)}
2)改造样本点
计算每一维的最大值,分别为max1=8,max2=10。将样本点的每一维都除以对应维的最大值,得到如下新样点:
3)解析上面得到的新样本,确定聚类中心点,并且进行分类,具体步骤如下:
3.1)样本点个数为n=9,设置聚类中心点个数k=3,每一类的聚类中心点个数的期望值
3.2)通过公式计算得到第一个聚类中心粗略位置为C*=(0.611,0.478)
3.3)计算样本点与C*=(0.611,0.478)的距离,通过比较得知样本点与C*=(0.611,0.478)的距离最近,取第一个聚类中心
3.4)计算没有分类的样本点到的距离d,控制距离阈值σ=0.3,使得满足d<σ的样本点个数N′=3,满足|N-N′|取最小值。这三个点是:
将它们划分到表示的类中。
3.5)若还有未分类的样本点,则转置32)。最终可计算出第二个聚类中心粗略位置C*=(0.563,0.533),第二个聚类中心点划分到第二个类的三个点是:
最后一个类的聚类中心是这个类包含如下三个点:
整理得,三个聚类中心分别包含的样本点为:
4)基于粒子群优化算法的一次迭代过程如下:
4.1)计算每个点的适应度:
例如求第一个样本点的适应度第一个样本点与自身对应的聚类中心的欧式距离为同样计算出d12=0.583,d13=1.026。所以
依次求出其他样本点的适应度(作为聚类中心的样本点不计算):
聚类中心不计算
聚类中心不计算
聚类中心不计算
4.2)计算适应度个体最优位置和全局最优位置:
将这些适应度与相应的样本点的个体最优适应度进行对比,若适应度更优,则更新个体最优样本点位置和适应度,若样本点没有计算过适应度则不记录它的个体最优,同样通过比较更新全局最优适应度和位置,得到的9个样本点的个体最优值为如下:
zbest1(1)=0.334
zbest2(1)=0.269
zbest3(1)无记录
zbest4(1)无记录
zbest5(1)=0.398
zbest6(1)=0.533
zbest7(1)无记录
zbest8(1)=0.335
zbest9(1)=0.335
因为是第一次迭代,所以个体最优位置就是样本点位置。全局最优值为gbest(1)=0.269,且最优位置为(0.25,0.3)。
4.3)根据粒子群迭代公式,更新粒子(样本点)运动速度和位置。
初始速度为设为0,及公式中惯性因子ω取0.5,c1,c2加速常数常取1,随机数r1,r2都取0.5。用公式
依次求得各样本点的对应速度向量为:
根据更新样本点,得到的新样本点如下:
4.4)重新确定新的聚类中心。样本点发生了变动聚类中心可能已经不落在样本点上了,计算刚刚得到的新样本点对应聚类中心的欧式距离,取距离聚类中心最近的样本点作为一个新的样本点。得到的三个新聚类中心分别如下:
4.5)重新分类。计算新样本点到3个聚类中心的欧式距离,到哪个聚类中心距离最近就划到哪一类当中。新的分类如下:
第一次迭代已经完成。

Claims (4)

1.一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征在于该方法包含以下步骤:
步骤1)用户输入n个视频文件,分别从这些视频文件提取特征值,形成n个t维样本点,所有样本点组成初始样本,所述n是用户输入视频文件数目,所述t是指单个视频抽取所有画面中像素点个数的3倍,所述特征值是指相像素点的三通道色彩强度值共有t个特征值,所述样本点是指用个特征值作为坐标值的点;
步骤2)计算样本点每一维坐标的最大值(max1,max2,max3,…,maxt),样本点P1,P2,P3,…,Pn每一个坐标值都除以其对应维的最大值得到如下新样本点:
步骤3)解析步骤2)得到的新样本点,确定聚类中心点,进行分类;
步骤4)运用粒子群优化算法,进行M次迭代;
步骤5)形成样本簇,根据样本簇对这些样本所在的视频进行分类。
2.根据权利要求1所述的一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征在于步骤1)中,分别从这些视频文件提取特征值的具体步骤为:
步骤1.1)按时间均匀的抽取视频的中的m帧画面;
步骤1.2)按行访问每一帧画面的每个像素点,记录每个像素点的三个通道的色彩强度值,将这些强度值作为样本点坐标值,这些样本点为Pi=(ai1,ai2,ai3,…,ait),所述i=1…n。
3.根据权利要求1所述的一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征在于步骤3)中,确定聚类中心点,进行分类,具体步骤如下:
步骤3.1)求出每个类中样本点个数的的期望值:N=n/k
所述N是指样本点个数的期望值,所述n是指样本点个数,所述k是聚类中心的个数;
步骤3.2)计算聚类中心的粗略位置所述粗略位置是指距离聚类中心较近的位置,所述G表示未被分类的样本点集合,所述NG表示未分类样本点的个数,所述Zi是指样本点,i∈{1,2,3,…n};
步骤3.3)计算集合G中每个样本点到C*的欧式距离取距离最小的样本点做为聚类中心C;若有多个相等的最小距离的样本点,则随机取其一做为聚类中心C;
步骤3.4)计算集合G中每个样本点到C的欧式距离d,控制距离阈值σ,使得满足d<σ的样本点个数N′满足条件:|N-N′|取最小值;
步骤3.5)若还有未曾分类的样本点,则转置步骤3.2),所有样本点分类完后,k个聚类中心:
4.根据权利要求1所述的一种基于粒子群优化的视频数据挖掘高维聚类方法,其特征在于步骤4)运用粒子群优化算法,进行M次迭代,其中每一次迭代流程如下:
步骤4.1)计算样本点的适应度所述表示第t次迭代时第i个样本点所在位置,所述dii表示样本点到对应聚类中心的欧式距离,所述dij表示样本点到其他聚类中心的欧式距离,所述k是聚类中心的个数,做为聚类中心的样本点,不计算其适应度;
所述适应度是对聚类划分正确率的判断,用样本与自身对应聚类中心的距离和与其他聚类中心距离均值的比来表示,作为聚类中心的样本点不参与运算,适应度的数值越小,表示该样本点的划分越合理;
步骤4.2)计算适应度个体最优和全局最优位置,第i个点第t+1次迭代的个体最优样本点为第t+1迭代的全体最优样本点为
对于每个样本点,将其适应度与本身在迭代过程中所经过的最优位置的适应度进行比较,若更好,则作为当前的个体最优位置,对于每个粒子,将其适应度与全局所经历的最优位置的适应度比较,若更好,则将其最为当前全局最优位置;
步骤4.3)通过计算来更新每个样本点的速度和位置,所述ω是惯性因子,ω∈[0,1];当ω取值较大时算法全局收敛性比较好,当ω取值较小时,算法具有较强的局部搜索能力,加速常数c1,c2通常取1,随机数r1,r2∈[0,1];分别是指第i个样本点在第t-1次迭代和第t次迭代时的速度,初始速度 分别指第i个样本点在第t次迭代和t+1次迭代时的位置;
步骤4.4)更新聚类中心,计算每个样本点的欧式距离,距离最近的样本点作为用同样的方法更新所述分别指第次迭代时与第此迭代时第i个聚类中心,这里i取1到k之间的整数值;
步骤4.5)重新分类,计算样本点的欧式距离,将划分到与其距离最近的聚类中心;
步骤4.5)当迭代次数没有到达M次,则转到步骤4.1)。
CN201610293257.XA 2016-05-05 2016-05-05 基于粒子群优化的视频数据挖掘高维聚类方法 Active CN105956113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610293257.XA CN105956113B (zh) 2016-05-05 2016-05-05 基于粒子群优化的视频数据挖掘高维聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610293257.XA CN105956113B (zh) 2016-05-05 2016-05-05 基于粒子群优化的视频数据挖掘高维聚类方法

Publications (2)

Publication Number Publication Date
CN105956113A CN105956113A (zh) 2016-09-21
CN105956113B true CN105956113B (zh) 2019-05-31

Family

ID=56914452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610293257.XA Active CN105956113B (zh) 2016-05-05 2016-05-05 基于粒子群优化的视频数据挖掘高维聚类方法

Country Status (1)

Country Link
CN (1) CN105956113B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570528A (zh) * 2016-11-08 2017-04-19 上海师范大学 一种初始聚类中心选取方法及聚类方法
CN112667876B (zh) * 2020-12-24 2024-04-09 湖北第二师范学院 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104954873A (zh) * 2014-03-26 2015-09-30 Tcl集团股份有限公司 一种智能电视视频定制方法及系统
CN105512618A (zh) * 2015-11-27 2016-04-20 北京航空航天大学 视频跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257767A1 (en) * 2013-03-09 2014-09-11 Bigwood Technology, Inc. PSO-Guided Trust-Tech Methods for Global Unconstrained Optimization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104954873A (zh) * 2014-03-26 2015-09-30 Tcl集团股份有限公司 一种智能电视视频定制方法及系统
CN105512618A (zh) * 2015-11-27 2016-04-20 北京航空航天大学 视频跟踪方法

Also Published As

Publication number Publication date
CN105956113A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
Jadhav et al. Comparative study of K-NN, naive Bayes and decision tree classification techniques
CN107992887B (zh) 分类器生成方法、分类方法、装置、电子设备及存储介质
CN108141645A (zh) 具有成对深度排序的视频重点检测
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN110390017B (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN110738647B (zh) 融合多感受野特征映射与高斯概率模型的老鼠检测方法
Wu et al. End-to-end chromosome Karyotyping with data augmentation using GAN
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
WO2008148343A1 (fr) Dispositif de détection d'objet photographié spécial et dispositif d'apprentissage et procédé associé
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN110688940A (zh) 一种快速的基于人脸检测的人脸追踪方法
CN114844840B (zh) 一种基于计算似然比的分布外网络流量数据检测方法
CN102243641A (zh) 大规模数据的高效聚类方法
Chen et al. An effective feature selection scheme for healthcare data classification using binary particle swarm optimization
CN106528705A (zh) 一种基于rbf神经网络的重复记录检测方法和系统
CN110458022A (zh) 一种基于域适应的可自主学习目标检测方法
CN103778913A (zh) 一种病理嗓音的识别方法
Zhu et al. Self-supervised universal domain adaptation with adaptive memory separation
WO2020135054A1 (zh) 视频推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 66, New Model Road, Gulou District, Nanjing City, Jiangsu Province, 210000

Applicant after: Nanjing Post & Telecommunication Univ.

Address before: 210023 9 Wen Yuan Road, Ya Dong new town, Nanjing, Jiangsu.

Applicant before: Nanjing Post & Telecommunication Univ.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160921

Assignee: NUPT INSTITUTE OF BIG DATA RESEARCH AT YANCHENG

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2021980013920

Denomination of invention: High dimensional clustering method for video data mining based on particle swarm optimization

Granted publication date: 20190531

License type: Common License

Record date: 20211202

EE01 Entry into force of recordation of patent licensing contract