CN103678483A - 基于自适应概率超图和半监督学习的视频语义分析方法 - Google Patents

基于自适应概率超图和半监督学习的视频语义分析方法 Download PDF

Info

Publication number
CN103678483A
CN103678483A CN201310507908.7A CN201310507908A CN103678483A CN 103678483 A CN103678483 A CN 103678483A CN 201310507908 A CN201310507908 A CN 201310507908A CN 103678483 A CN103678483 A CN 103678483A
Authority
CN
China
Prior art keywords
mrow
msub
hypergraph
mfrac
msup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310507908.7A
Other languages
English (en)
Inventor
詹永照
孙佳瑶
毛启容
牛德姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201310507908.7A priority Critical patent/CN103678483A/zh
Publication of CN103678483A publication Critical patent/CN103678483A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于自适应概率超图和增量式半监督学习的视频语义分析方法,该方法包括以下步骤:S1:采用自适应概率超图的构建方法构建超图模型;S2:采用谱图分割原理对超图模型进行半监督学习;S3:采用增量机制对基于自适应概率超图的半监督模型进行完善;以及S4:采用完善后的超图模型对测试视频的语义进行分析。本发明的方案通过将自适应概率超图的构建和增量式半监督学习方法结合应用,消除普通超图模型构造时对半径参数的敏感性,提高模型的准确性和鲁棒性;而且在增量式半监督学习机制下,显著提高语义查准和查全结果。

Description

基于自适应概率超图和半监督学习的视频语义分析方法
技术领域
本发明涉及视频语义检测技术领域,具体而言涉及一种基于自适应概率超图和增量式半监督学习模型的视频语义分析方法。 
背景技术
为了实现复杂视频的多语义学习,提出了用超图模型描述复杂视频的多个语义概念之间的关联信息,实验证明超图模型可以很好的完成各种聚类和分类任务。但这类超图模型的缺点之一,是它同等地对待超边内的所有顶点,而忽略了这些顶点之间的差异,会导致一些信息的丢失,可能对视频语义的分析检测结果造成一定的影响。另外,模型的构造方法对超边产生过程中的半径参数k(即超边半径参数)比较敏感,参数的大小不同直接导致超边条数和超边内顶点数目的变化,而这个参数是人为给定且固定不变的,因此无法事先找到合适的半径参数。对此,现有技术中提出了一种自适应的超图构造方法,自动设置多个半径参数,形成多组超边,通过比较得到实验效果最佳的那组超边使用的半径参数。此方法虽然能够自适应地确定较好的半径参数,但参数的选择范围仍然是人为给定的有限的几个,且计算量大,无法做到完全的自适应。 
海量的视频数据使得人工获取足够的视频语义标记是不现实的,因此在语义模型构建过程中有必要充分利用大量未标记的视频数据完善语义模型。与监督学习相比,半监督学习可以有效地从未标记样本中挖掘学习有用信息来提高模型的语义检测准确率;与无监督学习相比,半监督学习更注重提高模型的语义检测准确率。 
发明内容
本发明目的在于提供一种基于自适应概率超图和增量式半监督学习的视频语义分析方法,将自适应概率超图的构建和增量式半监督学习方法结合应用,消除普通超图模型构造时对半径参数的敏感性,提高模型对语义分析检测的准确性和鲁棒性;而且在增量式半监督学习机制下,显著提高语义查准和查全结果。 
为达成上述目的,本发明所采用的技术方案如下: 
基于自适应概率超图和增量式半监督学习的视频语义分析方法,包括以下步骤: 
S1:采用自适应概率超图的构建方法构建超图模型; 
S2:采用谱图分割原理对超图模型进行半监督学习; 
S3:采用增量机制对基于自适应概率超图的半监督学习模型进行完善;以及 
S4:采用完善后的超图模型对测试视频的语义进行分析。 
进一步,在前述超图构造过程中,先定义一个自适应阈值函数,如果顶点的亲密度函数值大于该阈值时,判定该顶点属于某条超边,其实现过程如下: 
S11:令训练集合中的视频数目用m表示,用人工免疫有序聚类的方法提取视频的关键帧,并提取关键帧的特征向量,将这些特征融合成n维的融合特征并计算其平均值作为单个视频的特征向量,定义在实数域R上的该n维视频特征向量数据空间,记为X=Rn;为每一个视频定义一个包含q种语义的语义向量y={k1,k2,...,kq},其中ki取0或1;Y表示所有训练视频中的q种语义的语义向量集合,该包含m个视频段的训练集合,可记为D={(xi,yi)|1≤i≤m,xi∈X,yi∈Y},其中,xi是输入空间X中的一个视频特征向量,yi是xi的真实语义集合,若视频语义未标记,则yi为零向量,将集合D中的每个视频段特征向量xi∈X映射为概率超图中的一个顶点vi; 
S12:定义概率超图G=(V,E,W)由顶点集合
Figure BDA0000401556890000028
、超边集合E={e1,e2,...,em}和超边的权重集合W={w1,w2,...,wm}构成,其中n表示顶点数据的维度;对于每一条超边ei都有一个相关联的正实数wi表示这条超边的权值,对于任一顶点vi,首先根据亲密度函数A(i,j)计算该顶点与其它各顶点之间的亲密度: 
公式(1): A ( i , j ) = exp ( - Dis ( i , j ) Dis ‾ )
其中i和j是顶点的索引,Dis(i,j)是两顶点之间的欧式距离,
Figure BDA0000401556890000022
是平均距离; 
S13:将步骤S12计算得到的亲密度函数值按从大到小进行排序,分别得到其最大值max(A)、最小值min(A)和平均值mean(A),再定义阈值计算公式如下: 
公式(2): η = max ( A ) - min ( A ) max ( A ) - mean ( A ) 2
S14:对于任意顶点vj(j≠i),当满足条件
Figure BDA0000401556890000024
时,顶点vj∈ei;否则
Figure BDA0000401556890000025
自适应概率超图用一个|V|×|E|的关联矩阵H=(h(vi,ej))|V|×|E|表示: 
公式(3):
Figure BDA0000401556890000027
S15:超边权重w(ei)的定义如下: 
公式(4): w ( e i ) = Σ v j ∈ e i A ( i , j )
S16:每个顶点vi∈V的度计算如下: 
公式(5): d ( v i ) = Σ e j ∈ E w ( e j ) h ( v i , e j )
S17:每个超边ej∈E的度计算如下: 
公式(6): δ ( e j ) = Σ v i ∈ e j h ( v i , e j )
分别用Dv、De、W表示顶点度、概率超图的超边度和概率超边权值的对角阵,然后根据式(1)(2)(3)构建概率超图,根据式(4)(5)(6)计算概率超图的顶点度、超边度和超边权重。 
进一步,前述半监督学习过程中,采用谱图分割原理,建立语义分类向量函数矩阵的相关正则化损失函数的最小化模型,求解语义分类向量的函数矩阵,实现对超图模型的半监督学习,其实现过程如下: 
S21、半监督学习模型的训练集中有大量未标记语义的训练样本,将这些样本的q维语义向量全部初始化为零向量,与训练集中已标记样本的语义集进行合并后记为Y,用Y'表示模型学习后得到的所有未标记训练样本的语义向量,用F表示概率超图多语义分类向量的函数矩阵,Fi则表示第i个样本的语义分类向量函数,F的相关正则化损失函数Ω(F)定义为: 
公式(7): Ω ( F ) = 1 2 Σ e ∈ E Σ v i , v j ∈ e w ( e ) h ( v i , e ) h ( v j , e ) δ ( e ) ( F i d ( v i ) - F j d ( v j ) ) 2 + μ Σ i = 1 m ( F i - Y i ) 2
其中μ>0为正规化参数,通过计算得到F的一个最优解F',使得Ω(F)最小,即:F'=argminΩ(F),故对Ω(F)求关于F的微分: 
∂ Ω ∂ F | F = F ′ = F ′ - SF ′ + μ ( F ′ - Y ) = 0 ,
进一步可转化为: 
F ′ - 1 1 + μ SF ′ - μ 1 + μ Y = 0 ,
其中S=Dv -1/2HWDe -1HTDv -1/2(HT是H的转置),令
Figure BDA0000401556890000037
由于I-αS是可逆的,可得F'如下: 
公式(8):F'=β(I-αS)-1Y; 
S22、用F'表示样本属于各类语义的概率,已标记的训练样本其标记保持不变,根据F'的结果修改未标记训练样本的语义向量集合Y',其中向量y'中的各维元素的值由以下规则获取: 
令F'ij表示F'中第i个样本的第j类语义分类函数值,ω(i)=arg max1≤l≤qF'il;若F'ij/F'iω(i)≥info_gap,则y'的第j维元素取1,否则取0。 
进一步,在每次增量迭代的过程中,用已知标记的训练样本和一部分未知标记的训练样本一起重构超图模型,根据定义好的一个筛选函数对未标记样本进行筛选,确定性高的样本被选中,确定性不高的样本则被丢弃,并将选中的样本及学习得到的标记加入到已标记的样本集中,重构超图以完善模型,其实现过程如下: 
初始化:L=已标记的训练样本集; 
S31、从未标记的训练样本集U中选出Nstep个训练样本,构成集合U',当|U|<Nstep时,Nstep=|U|;U=U-U',将已标记的训练样本L与U'一起构建自适应概率超图模型,并根据半监督学习方法S21求出相应的F'; 
S32、根据F'计算一个阈值threshold,用来从U'中筛选出确定性较高的样本加入到L中,threshold计算式如下: 
公式(9): threshold = &lambda; &Sigma; k = 1 | L | + | U &prime; | max j ( F kj &prime; ) | L | + | U &prime; |
其中,|L|+|U'|是统计集合中的元素个数,λ是个平衡调节参数,用于调节这个阈值threshold的取值;当U'中样本得到的语义概率向量的最大元素值小于阈值公式的值threshold,那么该样本就被认为确定性不高而从U'中删去;反之,则将该样本加入到L中; 
S33、根据样本语义概率到语义标记的转换规则S22,得到U'中每个样本的最终语义向量y',并将它加入到已标记的语义向量集合Y中,即L=L+U';当U为空则迭代结束,否则转向S31继续进行下一次的增量学习。 
进一步,前述语义分析是利用完善后的超图模型对测试视频的语义进行分析检测,实现过程如下: 
S41、利用与前述训练集相同的方法提取测试视频片段的关键帧和提取关键帧相应的特征向量; 
S42、把这些特征向量按S11映射成概率超图顶点,与完善后的训练集超图内的样本顶点一起按前述步骤S12~S17构造自适应概率超图; 
S43、利用谱图分割的方法按照前述步骤S21~S22得到各个视频段含有的视频语义。 
由以上本发明的技术方案可知,本发明的有益效果在于通过将自适应概率超图的构建和增量式半监督学习方法结合在一起,在无增量学习机制下,克服了普通超图模型构造时对超边半径参数的敏感性,且该模型的准确性和鲁棒性高于普通超图模型;在增量式学习机制下,采用自适应概率超图半监督学习模型对视频语义进行分析时,有效实现了样本数量迭代增加后模型的动态更新,提高模型对视频语义分析的准确性,语义查准和查全结果比无增量的结果更理想。 
附图说明
图1为自适应概率超图的构造框架图。 
图2为在超图模型上进行增量式半监督学习的流程示意图。 
图3为在训练模型上对测试视频进行语义分析检测的流程示意图。 
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。 
参考图1、图2和图3所示,根据本发明的较优实施例,基于自适应概率超图和半监督增量学习的视频语义分析方法包括以下步骤:S1:采用自适应概率超图的构建方法构建超图模型;S2:采用谱图分割原理对超图模型进行半监督学习;S3:采用增量机制对基于自适应概率超图的半监督模型进行完善;以及S4:采用完善后的超图模型对测试视频的语义进行分析。 
参考图1,在前述超图构造过程中,先定义一个自适应阈值函数,如果顶点的亲密度函数值大于该阈值时,判定该顶点属于某条超边,其具体的实现过程如下: 
S11:设训练集合中的视频数目用m表示,用人工免疫有序聚类的方法提取视频的关键帧,并提取关键帧的特征向量,将这些特征融合成n维的融合特征并计算其平均值作为单个视频的特征向量,定义在实数域R上的该N维视频特征向量数据空间,记为X=Rn;为每一个视频定义一个包含q种语义的语义向量y={k1,k2,...,kq},其中ki取0或1;Y表示所有训练视频中的q种语义的语义向量集合;该包含m个视频段的训练集合,记为D={(xi,yi)|1≤i≤m,xi∈X,yi∈Y},其中,xi是输入空间X中的一个视频特征向量,yi是xi的真实语义集合,若视频语义未标记,则yi为零向量,将集合D中的每个视频段特征向量xi∈X映射为概率超图中的一个顶点vi。 
S12:定义概率超图G=(V,E,W)由顶点集合
Figure BDA0000401556890000051
、超边集合E={e1,e2,...,em}和 超边的权重集合W={w1,w2,...,wm}构成,其中n表示顶点数据的维度;对于每一条超边ei都有一个相关联的正实数wi表示这条超边的权值,对于任一顶点vi,首先根据亲密度函数A(i,j)计算该顶点与其它各顶点之间的亲密度: 
公式(1): A ( i , j ) = exp ( - Dis ( i , j ) Dis &OverBar; )
其中,i和j是顶点的索引,Dis(i,j)是两顶点之间的欧式距离,
Figure BDA0000401556890000062
是平均距离。 
S13:将步骤S12计算得到的亲密度函数值按从大到小进行排序,分别得到其最大值max(A)、最小值min(A)和平均值mean(A);再定义阈值计算公式: 
公式(2): &eta; = max ( A ) - min ( A ) max ( A ) - mean ( A ) 2
该公式既考虑到亲密度函数值的分布情况,兼顾了顶点的位置信息,又消除了超图构建对半径参数的敏感性,克服了传统超图构建存在的缺陷。 
S14:对于任意顶点vj(j≠i),当满足条件时,顶点vj∈ei;否则
Figure BDA0000401556890000065
自适应概率超图用一个|V|×|E|的关联矩阵H=(h(vi,ej))|V|×|E|表示: 
公式(3):
Figure BDA0000401556890000066
S15:超边权重w(ei)的定义如下: 
公式(4): w ( e i ) = &Sigma; v j &Element; e i A ( i , j )
S16:每个顶点vi∈V的度计算如下: 
公式(5): d ( v i ) = &Sigma; e j &Element; E w ( e j ) h ( v i , e j )
S17:每个超边ej∈E的度计算如下: 
公式(6): &delta; ( e j ) = &Sigma; v i &Element; e j h ( v i , e j )
分别用Dv、De、W分别表示顶点度、概率超图的超边度和概率超边权值的对角阵;然后根据公式(1)(2)(3)构建自适应概率超图,再根据公式(4)(5)(6)计算概率超图的顶点度、超边度和超边权重,同一条超边内的顶点具有相同的语义。 
本实施例中,参照图2所示,较佳地,采用谱图分割原理,建立语义分类向量函数矩阵的相关正则化损失函数的最小化模型,求解语义分类向量的函数矩阵,实现对自适应概率超 图模型的半监督学习,其具体实现过程如下: 
S21、半监督学习模型的训练集中有大量未标记语义的训练样本,将这些样本的q维语义向量全部初始化为零向量,与训练集中已标记样本的语义集进行合并后记为Y,用Y'表示模型学习后得到的所有未标记训练样本的语义向量。用F表示概率超图多语义分类向量的函数矩阵,Fi则表示第i个样本的语义分类向量函数。F的相关正则化损失函数Ω(F)定义为: 
公式(7): &Omega; ( F ) = 1 2 &Sigma; e &Element; E &Sigma; v i , v j &Element; e w ( e ) h ( v i , e ) h ( v j , e ) &delta; ( e ) ( F i d ( v i ) - F j d ( v j ) ) 2 + &mu; &Sigma; i = 1 m ( F i - Y i ) 2
其中μ>0为正规化参数,分类方法就是要通过计算得到F的一个最优解F',使得Ω(F)最小,即:F'=argminΩ(F)。故对Ω(F)求关于F的微分: 
&PartialD; &Omega; &PartialD; F | F = F &prime; = F &prime; - SF &prime; + &mu; ( F &prime; - Y ) = 0 ,
进一步可转化为: 
F &prime; - 1 1 + &mu; SF &prime; - &mu; 1 + &mu; Y = 0 ,
其中S=Dv -1/2HWDe -1HTDv -1/2(HT是H的转置),令
Figure BDA0000401556890000074
由于I-αS是可逆的,可得F'如下: 
公式(8):F'=β(I-αS)-1Y。 
S22、用F'表示样本属于各类语义的概率,已标记的训练样本其标记保持不变,根据F'的结果修改未标记训练样本的语义向量集合Y',其中向量y'中的各维元素的值由以下规则获取:令F'ij表示F'中第i个样本的第j类语义分类函数值,ω(i)=arg max1≤l≤qF'il;若F'ij/F'iω(i)≥info_gap,则y'的第j维元素取1,否则取0。 
参照图2所示,较佳地,在每次增量迭代的过程中,用已知标记的训练样本和一部分未知标记的训练样本一起重构超图模型,根据定义好的一个筛选函数对未标记样本进行筛选,确定性高的样本被选中,确定性不高的样本则被丢弃,并将选中的样本及学习得到的标记加入到已标记的样本中,重构超图以完善模型,其实现过程如下: 
初始化:L=已标记的训练样本集; 
S31、从未标记的训练样本集U中选出Nstep(当|U|<Nstep时,Nstep=|U|)个训练样本, 构成集合U',U=U-U',将已标记的训练样本L与U'一起构建自适应概率超图模型,并根据半监督学习方法S21求出相应的F'; 
S32、根据F'计算一个阈值threshold,用来从U'中筛选出确定性较高的样本加入到L中,threshold计算式如下: 
公式(9): threshold = &lambda; &Sigma; k = 1 | L | + | U &prime; | max j ( F kj &prime; ) | L | + | U &prime; |
其中,|L|+|U'|是统计集合中的元素个数,λ是个平衡调节参数,用于调节这个阈值的取值,以保证筛选出的待标记样本具有较高的确定性,又不会使筛选的样本数因阈值过大而过少,失去样本选择一般性。当U'中样本得到的语义概率向量的最大元素值小于阈值公式的值threshold,那么该样本就被认为确定性不高而从U'中删去;反之,则将该样本加入到L中; 
S33、根据样本语义概率到语义标记的转换规则S22,得到U'中每个样本的最终语义向量y',并将它加入到已标记的语义向量集合Y中,即L=L+U'。当U为空则迭代结束,否则转向S31继续进行下一次的增量学习。 
进一步,前述语义分析是利用完善后的超图模型对测试视频的语义进行分析检测,实现过程如下: 
S41、利用与前述训练集相同的方法提取测试视频片段的关键帧和提取关键帧相应的特征向量; 
S42、把这些特征向量按S11映射成概率超图顶点,与完善后的训练集超图内的样本顶点一起按前述步骤S12~S17构造自适应概率超图; 
S43、利用谱图分割的方法按照前述步骤S21~S22得到各个视频段含有的视频语义。 
下面结合具体的实例,针对TRACVID2007新闻视频上对Car、Person、Weather、Mountain、Sky、Road这六类视频进行语义分析,即q=6。 
首先,用人工免疫有序聚类的方法提取360个训练视频片段的关键帧,并提取关键帧的颜色、灰度共生矩阵、形状矩特征和多尺度LBP四类特征。其中颜色特征81维,灰度特征6维,形状特征5维,多尺度LBP特征30维。将这些特征融合成122维的融合特征并计算一个视频片段的所有关键帧特征的平均值作为这个视频片段的特征向量。从训练视频特征集合中选择120个样本作为已标记的训练样本,剩余240个样本作为未标记的训练样本。 
然后,再使用本发明的技术方案来构建和完善模型。首先根据前述步骤S1用已标记的样 本和Nstep(Nstep=3)个未标记样本共同构造初始的自适应概率超图模型。每次增量学习时选择Nstep个未标记样本,再根据步骤S3在增量机制下用谱图分割的原理进行半监督学习,最终得到比较完善的概率超图模型结构。 
为了评测和说明本发明采用的方法对视频语义分析检测的性能,本发明采用最常用的平均查准率MAP(Mean Avg-Precision)和平均查全率MAR(Mean Avg-Recall)作为衡量指标,MAP、MAR是对所有语义概念的平均查准率AR[ci]、平均查全率AR[ci]分别取平均而得到。设Ncorrect[ci]表示测试集中正确检测到的语义ci的视频数目,NpLabel[ci]表示测试集中检测到的语义ci的视频数目,Nlabel[ci]表示测试集中与语义ci相关的实际视频的数目,则MAP、MAR的具体计算方法如下: 
MAP = 1 q &Sigma; i = 1 q AP [ c i ] , MAR = 1 q &Sigma; i = 1 q AR [ c i ]
其中, AP [ c i ] = N correct [ c i ] N pLabel [ c i ] , AR [ c i ] = N correct [ c i ] N label [ c i ] .
对测试视频用相同的方法提取关键帧和得到特征向量,根据步骤S4对视频进行语义分析检测。分别在无增量式半监督学习和增量式半监督学习的情况下,以基于图的多标签半监督学习方法(Graph)、基于超图的方法(HGraph)和基于概率超图的方法(PHGraph)作为比较基准,与本发明的基于自适应概率超图的半监督学习(ada-PHGraph)方法相比较。实现过程中四种对比方法使用的最优参数设置如表1所示。 
表1各参数取值 
参数 Graph HGra PHGraph ada-PHGraph
α 0.9 0.85 0.9 0.85
β 0.1 0.15 0.1 0.15
Nstep(增量学习时用) 3 3 3 3
λ(增量学习时用) 0.75 0.75 0.75 0.75
k(超边半径参数) 11 9 9
info_gap 0.95 0.9 0.9 0.95
在表1给定的参数取值情况下,当所取的未标记训练样本与已标记训练样本的比值分别为0.5、1.0、1.5、2.0时(即未标记训练样本数分别取60、120、180、240个),增量学习机制选出的用于更新模型的未标记样本占其总数的百分比也不同。每次对每类语义概念使用20个样本进行语义分析检测,采用5倍交叉验证法,用对比方法对同样的测试视频进行视频语义分析检测。在无增量学习和有增量学习的机制下,四种对比方法取不同比值时分别对视 频语义进行分析检测,其语义检测结果的衡量指标MAP、MAR的对比如表2所示。 
表2视频语义分析检测结果 
Figure BDA0000401556890000101
由表2的数据可以得出,在相同的学习机制下,本发明所提供的基于自适应概率超图的半监督学习模型得到的结果总体综合指标均优于其他三种对比模型。而本发明所提供的基于自适应概率超图和增量式半监督学习模型对视频语义概念的检测结果总体综合指标最优。 
综上所述,本发明所提供的基于自适应概率超图和增量式半监督学习模型的视频语义分析方法,通过将自适应概率超图的构建和增量式半监督学习方法有机结合,在无增量学习机制下,克服了普通超图模型构造时对半径参数的敏感性,且该模型的准确性和鲁棒性高于普通超图模型;在增量式学习机制下,采用自适应概率超图半监督学习模型对视频语义进行分析时,有效实现了标记样本数量迭代增加后模型的动态更新,提高了模型对视频语义分析的泛化能力,语义查准和查全结果比无增量半监督学习的结果更理想。 
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。 

Claims (5)

1.一种基于自适应概率超图和增量式半监督学习的视频语义分析方法,其特征在于,包括以下步骤:
S1:采用自适应概率超图的构建方法构建超图模型;
S2:采用谱图分割原理对超图模型进行半监督学习;
S3:采用增量机制对基于自适应概率超图的半监督学习模型进行完善;以及
S4:采用完善后的超图模型对测试视频的语义进行分析。
2.根据权利要求1所述的方法,其特征在于,在前述超图构造过程中,先定义一个自适应阈值函数,如果顶点的亲密度函数值大于该阈值时,判定该顶点属于某条超边,其实现过程如下:
S11:令训练集合中的视频数目用m表示,用人工免疫有序聚类的方法提取视频的关键帧,并提取关键帧的特征向量,将这些特征融合成n维的融合特征并计算其平均值作为单个视频的特征向量,定义在实数域R上的该n维视频特征向量数据空间,记为X=Rn;为每一个视频定义一个包含q种语义的语义向量y={k1,k2,...,kq},其中ki取0或1;Y表示所有训练视频中的q种语义的语义向量集合,该包含m个视频段的训练集合,可记为D={(xi,yi)|1≤i≤m,xi∈X,yi∈Y},其中,xi是输入空间X中的一个视频特征向量,yi是xi的真实语义集合,若视频语义未标记,则yi为零向量,将集合D中的每个视频段特征向量xi∈X映射为概率超图中的一个顶点vi
S12:定义概率超图G=(V,E,W)由顶点集合
Figure FDA0000401556880000014
、超边集合E={e1,e2,...,em}和超边的权重集合W={w1,w2,...,wm}构成,其中n表示顶点数据的维度;对于每一条超边ei都有一个相关联的正实数wi表示这条超边的权值,对于任一顶点vi,首先根据亲密度函数A(i,j)计算该顶点与其它各顶点之间的亲密度:
公式(1): A ( i , j ) = exp ( - Dis ( i , j ) Dis &OverBar; )
其中i和j是顶点的索引,Dis(i,j)是两顶点之间的欧式距离,是平均距离;
S13:将步骤S12计算得到的亲密度函数值按从大到小进行排序,分别得到其最大值max(A)、最小值min(A)和平均值mean(A),再定义阈值计算公式如下:
公式(2): &eta; = max ( A ) - min ( A ) max ( A ) - mean ( A ) 2
S14:对于任意顶点vj(j≠i),当满足条件
Figure FDA0000401556880000021
时,顶点vj∈ei;否则
Figure FDA0000401556880000022
自适应概率超图用一个|V|×|E|的关联矩阵H=(h(vi,ej))|V|×|E|表示:
公式(3):
Figure FDA0000401556880000023
S15:超边权重w(ei)的定义如下:
公式(4): w ( e i ) = &Sigma; v j &Element; e i A ( i , j )
S16:每个顶点vi∈V的度计算如下:
公式(5): d ( v i ) = &Sigma; e j &Element; E w ( e j ) h ( v i , e j )
S17:每个超边ej∈E的度计算如下:
公式(6): &delta; ( e j ) = &Sigma; v i &Element; e j h ( v i , e j )
分别用Dv、De、W表示顶点度、概率超图的超边度和概率超边权值的对角阵,然后根据式(1)(2)(3)构建概率超图,根据式(4)(5)(6)计算概率超图的顶点度、超边度和超边权重。
3.根据权利要求2所述的方法,其特征在于,前述半监督学习过程中,采用谱图分割原理,建立语义分类向量函数矩阵的相关正则化损失函数的最小化模型,求解语义分类向量的函数矩阵,实现对超图模型的半监督学习,其实现过程如下:
S21、半监督学习模型的训练集中有大量未标记语义的训练样本,将这些样本的q维语义向量全部初始化为零向量,与训练集中已标记样本的语义集进行合并后记为Y,用Y'表示模型学习后得到的所有未标记训练样本的语义向量,用F表示概率超图多语义分类向量的函数矩阵,Fi则表示第i个样本的语义分类向量函数,F的相关正则化损失函数Ω(F)定义为:
公式(7): &Omega; ( F ) = 1 2 &Sigma; e &Element; E &Sigma; v i , v j &Element; e w ( e ) h ( v i , e ) h ( v j , e ) &delta; ( e ) ( F i d ( v i ) - F j d ( v j ) ) 2 + &mu; &Sigma; i = 1 m ( F i - Y i ) 2
其中μ>0为正规化参数,通过计算得到F的一个最优解F',使得Ω(F)最小,即:F'=argminΩ(F),故对Ω(F)求关于F的微分:
&PartialD; &Omega; &PartialD; F | F = F &prime; = F &prime; - SF &prime; + &mu; ( F &prime; - Y ) = 0 ,
进一步可转化为:
F &prime; - 1 1 + &mu; SF &prime; - &mu; 1 + &mu; Y = 0 ,
其中S=Dv -1/2HWDe -1HTDv -1/2(HT是H的转置),令
Figure FDA0000401556880000032
由于I-αS是可逆的,可得F'如下:
公式(8):F'=β(I-αS)-1Y;
S22、用F'表示样本属于各类语义的概率,已标记的训练样本其标记保持不变,根据F'的结果修改未标记训练样本的语义向量集合Y',其中向量y'中的各维元素的值由以下规则获取:令F'ij表示F'中第i个样本的第j类语义分类函数值,ω(i)=arg max1≤l≤qF'il;若F'ij/F'iω(i)≥info_gap,则y'的第j维元素取1,否则取0。
4.根据权利要求3所述的方法,其特征在于,在每次增量迭代的过程中,用已知标记的训练样本和一部分未知标记的训练样本一起重构超图模型,根据定义好的一个筛选函数对未标记样本进行筛选,确定性高的样本被选中,确定性不高的样本则被丢弃,并将选中的样本及学习得到的标记加入到已标记的样本集中,重构超图以完善模型,其实现过程如下:
初始化:L=已标记的训练样本集;
S31、从未标记的训练样本集U中选出Nstep个训练样本,构成集合U',当|U|<Nstep时,Nstep=|U|;U=U-U',将已标记的训练样本L与U'一起构建自适应概率超图模型,并根据半监督学习方法S21求出相应的F';
S32、根据F'计算一个阈值threshold,用来从U'中筛选出确定性较高的样本加入到L中,threshold计算式如下:
公式(9): threshold = &lambda; &Sigma; k = 1 | L | + | U &prime; | max j ( F kj &prime; ) | L | + | U &prime; |
其中,|L|+|U'|是统计集合中的元素个数,λ是个平衡调节参数,用于调节这个阈值threshold的取值;当U'中样本得到的语义概率向量的最大元素值小于阈值公式的值threshold,那么该样本就被认为确定性不高而从U'中删去;反之,则将该样本加入到L中;
S33、根据样本语义概率到语义标记的转换规则S22,得到U'中每个样本的最终语义向量y',并将它加入到已标记的语义向量集合Y中,即L=L+U';当U为空则迭代结束,否则转向S31继续进行下一次的增量学习。
5.根据权利要求4所述的方法,其特征在于,前述语义分析是利用完善后的超图模型对测试视频的语义进行分析检测,实现过程如下:
S41、利用与前述训练集相同的方法提取测试视频片段的关键帧和提取关键帧相应的特征向量;
S42、把这些特征向量按S11映射成概率超图顶点,与完善后的训练集超图内的样本顶点一起按前述步骤S12~S17构造自适应概率超图;
S43、利用谱图分割的方法按照前述步骤S21~S22得到各个视频段含有的视频语义。
CN201310507908.7A 2013-10-24 2013-10-24 基于自适应概率超图和半监督学习的视频语义分析方法 Pending CN103678483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310507908.7A CN103678483A (zh) 2013-10-24 2013-10-24 基于自适应概率超图和半监督学习的视频语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310507908.7A CN103678483A (zh) 2013-10-24 2013-10-24 基于自适应概率超图和半监督学习的视频语义分析方法

Publications (1)

Publication Number Publication Date
CN103678483A true CN103678483A (zh) 2014-03-26

Family

ID=50316028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310507908.7A Pending CN103678483A (zh) 2013-10-24 2013-10-24 基于自适应概率超图和半监督学习的视频语义分析方法

Country Status (1)

Country Link
CN (1) CN103678483A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050361A (zh) * 2014-06-04 2014-09-17 杭州华亭科技有限公司 一种监狱服刑人员危险性倾向的智能分析预警方法
CN104834757A (zh) * 2015-06-05 2015-08-12 昆山国显光电有限公司 图像语义检索方法及其系统
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN107679040A (zh) * 2017-10-20 2018-02-09 威盛电子股份有限公司 自然语言处理设备以及文法规则侦错方法
CN108388639A (zh) * 2018-02-26 2018-08-10 武汉科技大学 一种基于子空间学习与半监督正则化的跨媒体检索方法
CN108595546A (zh) * 2018-04-09 2018-09-28 武汉科技大学 基于半监督的跨媒体特征学习检索方法
CN109191485A (zh) * 2018-08-29 2019-01-11 西安交通大学 一种基于多层超图模型的多视频目标协同分割方法
CN109492691A (zh) * 2018-11-07 2019-03-19 南京信息工程大学 一种超图卷积网络模型及其半监督分类方法
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN112908465A (zh) * 2021-01-04 2021-06-04 西北工业大学 基于异常检测和半监督的超声关键帧自主识别方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050361B (zh) * 2014-06-04 2017-06-23 杭州华亭科技有限公司 一种监狱服刑人员危险性倾向的智能分析预警方法
CN104050361A (zh) * 2014-06-04 2014-09-17 杭州华亭科技有限公司 一种监狱服刑人员危险性倾向的智能分析预警方法
CN104834757A (zh) * 2015-06-05 2015-08-12 昆山国显光电有限公司 图像语义检索方法及其系统
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN107679040B (zh) * 2017-10-20 2021-09-21 威盛电子股份有限公司 自然语言处理设备以及文法规则侦错方法
CN107679040A (zh) * 2017-10-20 2018-02-09 威盛电子股份有限公司 自然语言处理设备以及文法规则侦错方法
CN108388639A (zh) * 2018-02-26 2018-08-10 武汉科技大学 一种基于子空间学习与半监督正则化的跨媒体检索方法
CN108388639B (zh) * 2018-02-26 2022-02-15 武汉科技大学 一种基于子空间学习与半监督正则化的跨媒体检索方法
CN108595546A (zh) * 2018-04-09 2018-09-28 武汉科技大学 基于半监督的跨媒体特征学习检索方法
CN108595546B (zh) * 2018-04-09 2022-02-15 武汉科技大学 基于半监督的跨媒体特征学习检索方法
CN109191485A (zh) * 2018-08-29 2019-01-11 西安交通大学 一种基于多层超图模型的多视频目标协同分割方法
CN109492691A (zh) * 2018-11-07 2019-03-19 南京信息工程大学 一种超图卷积网络模型及其半监督分类方法
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN112908465A (zh) * 2021-01-04 2021-06-04 西北工业大学 基于异常检测和半监督的超声关键帧自主识别方法
CN112908465B (zh) * 2021-01-04 2023-06-02 西北工业大学 基于异常检测和半监督的超声关键帧自主识别方法

Similar Documents

Publication Publication Date Title
CN103678483A (zh) 基于自适应概率超图和半监督学习的视频语义分析方法
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
CN105608471B (zh) 一种鲁棒直推式标签估计及数据分类方法和系统
CN109871875B (zh) 一种基于深度学习的建筑物变化检测方法
CN109993236B (zh) 基于one-shot Siamese卷积神经网络的少样本满文匹配方法
CN110633758A (zh) 针对小样本或样本不平衡的癌症区域检测定位的方法
CN106682696A (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN103942749B (zh) 一种基于修正聚类假设和半监督极速学习机的高光谱地物分类方法
CN104820841B (zh) 基于低阶互信息和光谱上下文波段选择的高光谱分类方法
CN114913379B (zh) 基于多任务动态对比学习的遥感图像小样本场景分类方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
Wang et al. The poor generalization of deep convolutional networks to aerial imagery from new geographic locations: an empirical study with solar array detection
Xiong et al. MSN: Modality separation networks for RGB-D scene recognition
WO2023115790A1 (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN106980876A (zh) 一种基于鉴别性样本属性学习的零样本图像识别方法
CN107220663B (zh) 一种基于语义场景分类的图像自动标注方法
CN113139594A (zh) 一种机载图像无人机目标自适应检测方法
Gong et al. Refining training samples using median absolute deviation for supervised classification of remote sensing images
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
CN106096622A (zh) 半监督的高光谱遥感图像分类标注方法
CN111461067A (zh) 基于先验知识映射及修正的零样本遥感影像场景识别方法
CN105701227B (zh) 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN110705384A (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN114266321A (zh) 一种基于无约束先验信息模式的弱监督模糊聚类算法
CN103093239B (zh) 一种融合了点对和邻域信息的建图方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140326

WD01 Invention patent application deemed withdrawn after publication