CN107784118B - 一种针对用户兴趣语义的视频关键信息提取系统 - Google Patents

一种针对用户兴趣语义的视频关键信息提取系统 Download PDF

Info

Publication number
CN107784118B
CN107784118B CN201711122828.4A CN201711122828A CN107784118B CN 107784118 B CN107784118 B CN 107784118B CN 201711122828 A CN201711122828 A CN 201711122828A CN 107784118 B CN107784118 B CN 107784118B
Authority
CN
China
Prior art keywords
video
image
semantic
key information
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711122828.4A
Other languages
English (en)
Other versions
CN107784118A (zh
Inventor
王晗
俞璜悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Forestry University
Original Assignee
Beijing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Forestry University filed Critical Beijing Forestry University
Priority to CN201711122828.4A priority Critical patent/CN107784118B/zh
Publication of CN107784118A publication Critical patent/CN107784118A/zh
Application granted granted Critical
Publication of CN107784118B publication Critical patent/CN107784118B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Abstract

本发明涉及针对用户兴趣语义的视频关键信息提取系统及方法,包括图像获取模块、视频预处理模块,联合组权重学习模块以及关键信息提取模块,首先,通过图像获取模块将不同用户对视频的兴趣描述作为关键词从互联网中检索图像;其次,使用联合组权重学习模块对描述不同但语义相关的关键词进行检索,同时习得目标语义模型;然后,利用视频的伴生音频数据辅助预提取可能包含关键信息的视频片段;最后,通过目标语义模型计算各视频片段中是否包含用户感兴趣的关键信息。本发明能够根据用户不同的关注点,对用户感兴趣的内容进行语义建模从而有效指导个性化视频关键信息提取,从互联网中获取的语义知识能够在很大程度上减少数据对于人工标注的依赖。

Description

一种针对用户兴趣语义的视频关键信息提取系统
技术领域
本发明涉及一种针对用户兴趣语义的视频关键信息提取系统,属于图形图像处理领域。
背景技术
传统方法大多基于底层特征对视频精彩片段进行提取,忽略了对用户感兴趣内容的选取。而视频片段提取是一个相对主观的工作,当视频内容较为复杂或者持续时间较长时,不同用户对于同一段视频感兴趣的内容区别较大。例如,对于一场篮球比赛视频,用户感兴趣的内容可能是灌篮、三分球等一些精彩片段,也可能集中在球员的控球姿势、球场走位等技术动作,这导致不同用户对于视频精彩片段提取的期望有所不同。
近年来,通过使用高层语义对视频精彩片段进行提取的研究逐渐引起研究人员的关注。Yao等人提出可根据用户在互联网中的搜索和点击事件挖掘视频语义,从而对视频进行标注;Phillip等人指出图像的语义标签和底层特征决定了其是否能被观看者记住并产生兴趣;Wang等人提出收集联想关键词构建迁移源域,进一步迁移学习后实现视频标注。然而互联网中的视频,通常在由非专业人士随机拍摄,视频中含有大量因抖动引起的模糊现象以及因拍摄场景复杂引起的类内变换,直接对视频本身进行语义建模需要标注大量的视频,费时费力,且视频中可能存在的模糊、抖动情况将给语义建模带来极大困难。互联网中包含大量已标注信息,这些图像通常包含丰富信息,且由用户经过挑选上传,能为语义建模提供丰富且质量较好的训练数据,有效避免为获得用户兴趣语义模型而标注大量视频作为训练数据的繁重工作,通过使用与用户兴趣相关的关键词,在互联网图像搜索引擎中进行检索即可获得大量与用户兴趣语义相关图像集。因此,本文考虑从互联网图像中获取知识,指导基于用户兴趣的视频精彩片段提取。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种针对用户兴趣语义的视频关键信息提取系统,不仅能够获得具有较高质量的视频关键信息,而且通过用户兴趣点的选择可以更加合理、有效的提取出特定视频的语义信息,使结果高效准确。
本发明的技术解决方案:本发明针对用户兴趣语义的视频关键信息提取系统,使用联合组权重习得近义图像组间的最优权重,在此基础上,提取伴生音频特征对视频预处理,融合多种模态特征,使用用户兴趣语义描述构建关键词索引并通过互联网检索获取输入图像数据,将互联网图像中习得的关键视角和语义知识指导视频关键帧提取,从而获得针对特定用户语义信息的视频关键信息。
如图1所示,本发明针对用户兴趣语义的视频关键信息提取系统包括:
图像获取模块:将不同用户对视频的兴趣描述按语义聚类,含义相近的描述互为近义语义,多个近义语义聚类为目标语义,针对每个近义语义构建索引并利用关键词检索技术,获取互联网中与其相匹配的图像信息,构建近义图像组,对图像组进行局部特征(SIFT和HOG特征)和全局特征(GIST特征)提取,作为联合组权重学习模块的输入。
视频预处理模块:分为伴生音频预处理和视频特征提取两部分,在用户导入视频后,对视频中音频信号进行分帧、加窗处理,提取音频信号的短时能量特征,选取能量值高于设定阈值的视频片段,以进一步减少后续步骤的计算量和计算时间,对视频片段进行局部特征(SIFT和HOG特征)和全局特征(GIST特征)提取,作为关键信息提取模块的输入。
联合组权重学习模块:该模块将图像获取模块中构建的近义图像组作为输入数据,使用SVM分类器对每一个图像组进行语义建模,得到近义语义模型。将近义图像组训练所得的近义语义模型通过联合优化学习的方法习得各组权重,从而获得在目标视频上进行关键信息提取的目标语义模型,用于关键信息提取模块的输入;
关键信息提取模块:将视频预处理模块中计算所得的视频特征和联合组权重学习模块构建的目标语义模型作为输入数据;将视频片段均匀分割为若干时长为4s的视频小段,对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容,然后将视频帧代入目标语义模型计算分类值,将视频帧集合内所有帧的计算结果累加得该视频小段的分类值,分类值越大表明越有可能为用户感兴趣内容,将分类值按从小到大的顺序进行排序,提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。本发明的k取值为10。
所述图像获取模块实现过程如下:
(1)针对特定视频,用户以关键词的形式键入兴趣语义描述,系统对关键词进行语义分析,内容相近的关键词描述则语义聚类为同一目标语义,形成特定的多个近义语义关键词索引;
(2)互联网图像具有一定的准确性、实时性,根据所建立的索引,利用关键词搜索技术,从互联网中获取图像;
(3)系统整合所获取的图像,构建近义语义图像组;
(4)提取图像的底层特征,主要步骤如下:
(4.1)首先,提取图像SIFT特征,主要有尺度空间极值检测、关键点定位、方向确定以及关键点描述四个步骤,用来侦测与描述视频中的局部性特征;同时,提取图像HOG特征,具体步骤如下:
(4.1.1)将用户视频帧或互联网图像灰度化,灰度化后图像记作I;
(4.1.2)为进一步调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,采用Gamma校正法对M进行颜色空间归一化处理,处理后图像记作I1
(4.1.3)计算I1中像素的梯度,例如像素点(x,y)的梯度表示为:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分别表示M1中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值。
(4.1.4)将M1划分为若干单元格,统计每个单元格的梯度直方图,形成单元格内HOG特征描述子;
(4.1.5)将图像内的所有单元格的HOG特征描述子串联起来并进行收集整合,得到该图像的HOG特征。
(4.2)本模块提取图像的全局特征,使用GIST特征来描述图像;
所述视频预处理模块实现过程如下:
(1)不同视频音频信号的振幅均值不同,因此首先对音频信号进行归一化处理,将信号强度规范在[-1,1]之间,不考虑信号的绝对强度,只考虑信号的相对强度,公式如下;
Figure BDA0001467753940000031
其中y是归一化后语音序列的幅度,x是归一化前的语音序列幅度。
(2)选取窗函数wn来截断信号,窗函数采用海明窗,计算公式为:
Figure BDA0001467753940000032
其中,N为窗的长度,n为信号量;
(3)为了能根据半生音频信号筛选出视频精彩部分,本系统结合短时能量进行计算,首先计算出窗内的短时能量值,若能量值高于设定阈值,则认为该片段出现精彩内容,设第i时刻第m帧语音信号xi(m)的短时能量谱用Ei表示,Ei计算公式如下:
Figure BDA0001467753940000041
其中xi(m)为语音信号序列,M为语音序列长度。
(4)通过对同类视频的综合分析,得出短时能量的自定阈值,若能量值高于自定阈值,则认为可能含有用户感兴趣内容,保留下来;若低于自定阈值,则舍弃。
所述的联合组权重学习模块实现过程如下:
(1)定义Z={X1,X2,X3,…,XG}为兴趣语义图像集合,G指图像组数量,其中
Figure BDA0001467753940000042
表示第g个近义语义图像组,
Figure BDA0001467753940000043
为图像组Xg的第j张图像,d为图像特征维度,Ng指图像组内图像数量,令
Figure BDA0001467753940000044
表示视频帧特征集,
Figure BDA0001467753940000045
指每帧特征向量,Nt表示视频总帧数;
(2)计算第g个图像组的近义语义模型fg(xg)的公式为:
Figure BDA0001467753940000046
其中
Figure BDA0001467753940000047
为图像特征向量,ωg为特征权重向量,xg为第g组图像中单张图像;
(3)将兴趣语义模型Ft(x)描述为多个近义语义模型加权融合:
Figure BDA0001467753940000048
其中αg表示第g个近义语义模型的权重,定义α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,x表示近义图像组中图像集合;
(4)使用联合优化算法求解不同近义语义模型的权重,将联合学习的优化函数Q(α)表示为如下形式,通过将语义模型的决策值Ft(x)与视频数据真实值Y放入二次项中进行最小化约束,强制二者尽可能接近;将不同近义语义所得结果放入二次项进行约束,最小化近义语义模型在不同视频数据上的误差;另外,加入正则项
Figure BDA0001467753940000049
降低复杂度,其中,λLG>0为优化平衡参数,α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,x表示近义图像组中图像集合,Ft(x)为兴趣语义模型,fg(xg)为第g个图像组的近义语义模型,ng指图像组内图像数量,G指图像组数量:
Figure BDA0001467753940000051
Figure BDA0001467753940000052
(5)将问题转化为求解等式约束的二次规划,使用拉格朗日乘子求解上式最优解α*,将优化函数转化为如下形式,即可求解最优权重,将权重值分配至各个近义语义模型中,得到最终兴趣语义模型,在关键信息提取模块中将视频帧带入兴趣语义模型可提取视频关键信息:
Figure BDA0001467753940000053
由KKT条件可知,当
Figure BDA0001467753940000054
时,得到最优权值α*。其中,Q(α)为优化函数,α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,μ为拉格朗日参数。
所述关键信息提取模块实现步骤如下:
将视频片段均匀分割为设定的时长较短(通常为4s)、连续的视频小段,每一小段尽可能包含视频中的连续动作或完整行为,对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容,然后将视频帧代入目标语义模型计算分类值,将视频帧集合内所有帧的计算结果累加得该视频小段的分类值,分类值越大表明越有可能为用户感兴趣内容,将分类值按从小到大的顺序进行排序,提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。
本发明与现有技术相比的优点在于:
(1)互联网获取图像简单方便,且往往比实验室生成的数据更具有多样性,能极大满足源域数据标签训练的需要;与从一些已经成型的图像或视频数据库获取相比,通过互联网直接获取的数据在保证了准确性的前提下,更能贴合用户视频的特点。
(2)采用音频阈值作为用户视频预处理筛选条件,选取出分贝较高的视频片段,减少了特征提取部分的计算量,提高系统运行效率。
(3)根据用户兴趣点语义型对视频关键信息进行有针对性的提取,解决了不同用户对同一视频关注点不同的问题,使得用户能够有选择的、有针对的获取视频中感兴趣的内容。
(4)本发明不仅能够高效提取互联网用户视频中主要信息,对视频数据进行有效的组织和管理,而且能够根据用户兴趣对视频内容进行有针对性的提取,极大满足用户的自主性,采用从互联网中获取图像,构建符合个人评判标准的互联网图像集,使得最终结果能尽可能贴合用户审美,图像在检索过程中涵盖了大量语义信息,不需要对其进行过多的标注,极大程度的提高了结果的准确性与合理性;另外,采用多种媒体信息融合,结合音频特征对原视频进行预处理,大大降低系统运算量,实验效果良好。
附图说明
图1为本发明系统的模块流程图;
图2为本发明系统中的视频预处理模块实现过程;
图3为本发明系统中的联合组权重学习模块实现过程。
具体实施方式
为了更好地理解本发明,先对一些基本概念进行一下解释说明。
加窗:当对语音信号进行处理时,不可能对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析。做法是从信号中截取一个时间片段,然后用观察的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,无线长的信号被截断以后,其频谱发生了畸变,原来集中的能量被分散到两个较宽的频带中去了,这种现象称之为频谱能量泄漏。为了减少频谱能量泄漏,可采用不同的截取函数对信号进行截断,截断函数称为窗函数,简称为窗。泄漏与窗函数频谱的两侧旁瓣有关,如果两侧瓣的高度趋于零,而使能量相对集中在主瓣,就可以较为接近于真实的频谱,为此,在时间域中可采用不同的窗函数来截断信号。
KKT条件:KKT条件是解决最优化问题的时用到的一种方法。其中最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值。
下面结合附图对本发明进行详细说明
如图1所示,本发明针对用户兴趣语义的视频关键信息提取系统由图像获取模块、视频预处理模块、联合组权重学习模块以及关键信息提取模块构成。
整个实现过程如下:
(1)首先用户启动系统,导入预先下载或录制的用户视频,进入视频预处理模块。系统首先对视频中音频信号进行分帧、加窗处理;再提取音频信号的短时能量特征,选取能量值高于设定阈值的部分视频段;默认该视频段能量值偏高,是出现精彩内容导致人物欢呼等行为所造成,将该片段筛选出来可以进一步减少后续步骤的计算量和计算时间;
(2)用户根据个人兴趣输入对视频感兴趣内容,系统对关键词形成索引,利用关键词搜索技术从互联网中获取相关图像作为训练素材,系统后台将自动构建互联网图像集;
(3)然后分别提取用户视频帧集和互联网图像集的底层特征,具体有(a)局部特征:SIFT特征和HOG特征;(b)全局特征:GIST特征;
(4)下面进行联合组权重构建语义模型阶段,收集不同用户给出的兴趣描述,将兴趣描述此按语义聚类并构建近义语义图像组,图像组从不同角度提供该目标语义的视觉信息,进一步保证分类结果准确,使用联合优化算法思想求解不同近义语义模型的权重,为提高知识迁移有效性,本文对模型进行优化,一方面最小化近义语义模型在不同视频数据上的误差,另一方面最小化目标语义模型的分类结果在已标注数据上的误差,强制目标语义模型的决策值尽可能接近视频数据的真实值;
(5)最后进入关键信息提取模块,将视频片段均匀分割为设定的时长较短、连续的视频小段,每一小段尽可能包含视频中的连续动作或完整行为,对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容,然后将视频帧代入目标语义模型计算分类值,将视频帧集合内所有帧的计算结果累加得该视频小段的分类值,分类值越大表明越有可能为用户感兴趣内容,将分类值按从小到大的顺序进行排序,提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。
上述各模块的具体实现过程如下:
1.互联网图像获取模块
(1)针对特定视频,用户以关键词的形式键入兴趣语义描述,系统对关键词进行语义分析,内容相近的关键词描述则语义聚类为同一目标语义,形成特定的多个近义语义关键词索引;
(2)互联网图像具有一定的准确性、实时性,根据所建立的索引,利用关键词搜索技术,从互联网中获取图像;
(3)系统整合所获取的图像,构建近义语义图像组;
(4)然后提取互联网中图像的底层特征,主要步骤如下:
(4.1)首先,提取图像SIFT特征,主要有尺度空间极值检测、关键点定位、方向确定以及关键点描述四个步骤,用来侦测与描述视频中的局部性特征;同时,提取图像HOG特征,具体步骤如下:
(4.1.1)首先将用户视频帧或互联网图像灰度化,灰度化后图像记作I;
(4.1.2)为进一步调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,采用Gamma校正法对M进行颜色空间归一化处理,处理后图像记作I1
(4.1.3)计算I1中像素的梯度,例如像素点(x,y)的梯度表示为:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分别表示I1中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值。
(4.1.4)将I1划分为若干单元格,统计每个单元格的梯度直方图,形成单元格内HOG特征描述子;
(4.1.5)将图像内的所有单元格的HOG特征描述子串联起来并进行收集整合,得到该图像的HOG特征。
2.视频预处理模块
该模块的实现过程如图2所示:
(1)不同视频音频信号的振幅均值不同,因此首先对音频信号进行归一化处理,将信号强度规范在[-1,1]之间;
(2)选取合适的窗函数来截断信号,以进行后续特征计算的过程,本系统选用海明窗,计算公式为:
Figure BDA0001467753940000081
其中,N为窗的长度,n为信号量。
(3)为了能根据音频信号筛选出视频精彩部分,本系统结合短时能量进行计算,首先计算出窗内的短时能量值,若能量值高于设定阈值,则认为该片段出现精彩内容;
(4)若能量值高于阈值,则认为可能含有用户感兴趣内容,保留下来;若低于阈值,则舍弃。通过预处理能一定程度减少后续步骤的计算量。
4.联合组权重学习模块
该模块的实现过程如图3所示:
(1)定义Z={X1,X2,X3,…,XG}为兴趣语义图像集合,G指图像组数量,其中
Figure BDA0001467753940000082
表示第g个近义语义图像组,
Figure BDA0001467753940000083
为图像组Xg的第j张图像,d为图像特征维度,Ng指图像组内图像数量,令
Figure BDA0001467753940000084
表示视频帧特征集,
Figure BDA0001467753940000085
指每帧特征向量,Nt表示视频总帧数;
(2)计算第g个图像组的近义语义模型fg(xg)的公式为:
Figure BDA0001467753940000086
其中
Figure BDA0001467753940000091
为图像特征向量,ωg为特征权重向量,xg为第g组图像中单张图像;
(3)将兴趣语义模型Ft(x)描述为多个近义语义模型加权融合:
Figure BDA0001467753940000092
其中αg表示第g个近义语义模型的权重,定义α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,x表示近义图像组中图像集合;
(4)使用联合优化算法求解不同近义语义模型的权重,将联合学习的优化函数Q(α)表示为如下形式,通过将语义模型的决策值Ft(x)与视频数据真实值Y放入二次项中进行最小化约束,强制二者尽可能接近;将不同近义语义所得结果放入二次项进行约束,最小化近义语义模型在不同视频数据上的误差;另外,加入正则项
Figure BDA0001467753940000093
降低复杂度,其中,λLG>0为优化平衡参数,α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,x表示近义图像组中图像集合,Ft(x)为兴趣语义模型,fg(xg)为第g个图像组的近义语义模型,ng指图像组内图像数量,G指图像组数量:
Figure BDA0001467753940000094
Figure BDA0001467753940000095
(5)将问题转化为求解等式约束的二次规划,使用拉格朗日乘子求解上式最优解α*,将优化函数转化为如下形式,即可求解最优权重,将权重值分配至各个近义语义模型中,得到最终兴趣语义模型,在关键信息提取模块中将视频帧带入兴趣语义模型可提取视频关键信息:
Figure BDA0001467753940000096
由KKT条件可知,当
Figure BDA0001467753940000097
时,得到最优权值α*。其中,Q(α)为优化函数,α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,μ为拉格朗日参数。
5.关键信息提取模块
将视频片段均匀分割为设定的时长较短、连续的视频小段,每一小段尽可能包含视频中的连续动作或完整行为,对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容,然后将视频帧代入目标语义模型计算分类值,将视频帧集合内所有帧的计算结果累加得该视频小段的分类值,分类值越大表明越有可能为用户感兴趣内容,将分类值按从小到大的顺序进行排序,提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。
总之,本发明能够根据用户不同的关注点,对用户感兴趣的内容进行语义建模从而有效指导关键信息提取,从互联网中获取的语义知识能够大大减少数据对于人工标注的依赖,具有很强的用户针对性,同时通过对近义语义模型的联合权重学习得最终目标语义模型,该模型描述信息全面,符合用户个性。
本发明未详细描述的部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.针对用户兴趣语义的视频关键信息提取系统,其特征在于包括:图像获取模块、视频预处理模块、联合组权重学习模块和关键信息提取模块;其中:
图像获取模块:将不同用户对视频的兴趣描述按语义聚类,含义相近的描述互为近义语义,多个近义语义聚类为目标语义,针对每个近义语义构建索引并利用关键词检索技术,获取互联网中与其相匹配的图像信息,构建近义图像组,对图像组进行局部特征和全局特征提取,作为联合组权重学习模块的输入,所述局部特征包括SIFT特征和HOG特征,所述全局特征为GIST特征;
视频预处理模块:分为伴生音频预处理和视频特征提取两部分,在用户导入视频后,对视频中音频信号进行分帧、加窗处理,提取音频信号的短时能量特征,选取能量值高于设定阈值的视频片段,以进一步减少后续步骤的计算量和计算时间;对视频片段进行局部特征和全局特征提取,作为关键信息提取模块的输入,所述局部特征包括SIFT特征和HOG特征,所述全局特征为GIST特征;
联合组权重学习模块:将图像获取模块中构建的近义图像组作为输入数据,使用SVM分类器对每一个图像组进行语义建模,得到近义语义模型,将近义图像组训练所得的近义语义模型通过联合优化学习的方法习得各组权重,从而获得在目标视频上进行关键信息提取的目标语义模型,用于关键信息提取模块的输入;
关键信息提取模块:将视频预处理模块中计算所得的视频特征和联合组权重学习模块构建的目标语义模型作为输入数据;将视频片段均匀分割为若干时长为4s的视频小段,对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容,然后将视频帧代入目标语义模型计算分类值,将视频帧集合内所有帧的计算结果累加得该视频小段的分类值,分类值越大表明越有可能为用户感兴趣内容,将分类值按从小到大的顺序进行排序,提取分类值最大的前k个视频段作为用户感兴趣的精彩片段;
所述联合组权重学习模块实现过程如下:
(1)定义Z={X1,X2,X3,…,XG}为兴趣语义图像集合,G指图像组数量,其中
Figure FDA0002427998160000011
表示第g个近义语义图像组,
Figure FDA0002427998160000012
为图像组Xg的第j张图像,d为图像特征维度,Ng指图像组内图像数量,令
Figure FDA0002427998160000013
表示视频帧特征集,
Figure FDA0002427998160000014
指视频中的帧图像,Nt表示视频总帧数;
(2)计算第g个图像组的近义语义模型
Figure FDA0002427998160000015
的公式为:
Figure FDA0002427998160000021
其中
Figure FDA0002427998160000022
为图像特征向量,ωg为特征权重向量,
Figure FDA0002427998160000023
为第g组图像中第i张图像;
(3)将兴趣语义模型Ft(xg)描述为多个近义语义模型加权融合:
Figure FDA0002427998160000024
其中αg表示第g个近义语义模型的权重,定义α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,xg表示第g组近义图像组中图像集合;
(4)使用联合优化算法求解不同近义语义模型的权重,将联合学习的优化函数Q(α)表示为如下形式,通过将语义模型的决策值Ft(xg)与视频数据真实值Y放入二次项中进行最小化约束,强制二者尽可能接近;将不同近义语义所得结果放入二次项进行约束,最小化近义语义模型在不同视频数据上的误差;另外,加入正则项
Figure FDA0002427998160000025
降低复杂度,其中,λLG>0为优化平衡参数,α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,xg表示第g组近义图像组中图像集合,Ft(xg)为兴趣语义模型,fg(xg)为第g个图像组的近义语义模型,Ng指图像组内图像数量,G指图像组数量:
Figure FDA0002427998160000026
Figure FDA0002427998160000027
(5)将问题转化为求解等式约束的二次规划,使用拉格朗日乘子求解上式最优解α*,将优化函数转化为如下形式,即可求解最优权重,将权重值分配至各个近义语义模型中,得到最终兴趣语义模型,在关键信息提取模块中将视频帧带入兴趣语义模型可提取视频关键信息:
Figure FDA0002427998160000028
由KKT条件可知,当▽αL(α,μ)=0,▽μL(α,μ)=0时,得到最优权值α*,其中,Q(α)为优化函数,α=(α11,…,αG)T为所有分组权重的集合,αg表示第g个近义语义图像组与兴趣语义的相关性,μ为拉格朗日参数。
2.根据权利要求1所述的针对用户兴趣语义的视频关键信息提取系统,其特征在于:所述视频预处理模块还包括伴生音频预处理部分,在视频特征提取前进行伴生音频特征提取,在用户导入视频后,对视频中音频信号进行分帧、加窗处理后,提取音频信号的短时能量特征,选取能量值高于设定阈值的部分视频段,在后续计算中仅对这部分视频段处理即可,大大减少计算量和计算时间。
3.根据权利要求1或2所述的针对用户兴趣语义的视频关键信息提取系统,其特征在于:所述图像获取模块和视频预处理模块中,提取SIFT特征步骤,包括构建尺度空间、尺度空间极值检测、方向确定以及特征生成四个步骤,用来侦测与描述视频中的局部性特征,具体如下:
(1)将一副二维图像通过高斯核函数进行平滑处理,利用不同尺度的高斯差分和与图像卷积建立该二维图像在不同尺度下的图像;
(2)为找寻极值点,将每一采样点与其同尺度的8个相邻点3×3和上下相邻尺度对应的9×2个点共26个点比较,某采样点若在本层尺度空间以及上下两层的26个领域中是最大或最小值时,就认为该采样点是图像在该尺度下的一个特征点;
(3)下面计算特征点方向,以特征点为中心的邻域窗口内采样,并用直方图统计邻域像素的梯度方向,梯度直方图的范围是0~360度,其中每45度一个柱,总共8个柱,或者每10度一个柱,总共36个柱,直方图的峰值则代表该特征点处邻域梯度的主方向,即作为该特征点的方向;
(4)对于每一特征点形成128,即4×4×8维特征向量,每个特征点有三个信息:位置,所处尺度、方向,将向量归一化处理后,确定一个SIFT特征向量。
4.根据权利要求1或2所述的针对用户兴趣语义的视频关键信息提取系统,其特征在于:所述图像获取模块和视频预处理模块中,提取图像HOG特征具体步骤如下:
(1)首先将用户视频帧或互联网图像灰度化,灰度化后图像记作I;
(2)为进一步调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,采用Gamma校正法对M进行颜色空间归一化处理,处理后图像记作I1
(3)计算I1中像素的梯度,像素点(x,y)的梯度表示为:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分别表示I1中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值;
(4)将I1划分为若干单元格,统计每个单元格的梯度直方图,形成单元格内HOG特征描述子;
(5)将图像内的所有单元格的HOG特征描述子串联起来并进行收集整合,得到图像的HOG特征。
5.根据权利要求2所述的针对用户兴趣语义的视频关键信息提取系统,其特征在于:所述视频预处理模块中,伴生音频预处理部分实现过程如下:
(1)不同视频音频信号的振幅均值不同,首先对音频信号进行归一化处理,公式如下;
Figure FDA0002427998160000041
其中y是归一化后语音序列的幅度,x是归一化前的语音序列幅度;
(2)选取窗函数wn来截断信号,窗函数采用海明窗,计算公式为:
Figure FDA0002427998160000042
其中,N为窗的长度,n为信号量;
(3)计算窗函数内能量值,若能量值高于设定阈值,则认为该视频段出现精彩内容,设第i时刻第m帧语音信号xi(m)的短时能量谱用Ei表示,Ei计算公式如下:
Figure FDA0002427998160000043
其中xi(m)为语音信号序列,M为语音序列长度;
(4)通过对同类视频的综合分析,得出短时能量的自定阈值,若能量值高于自定阈值,则认为可能含有用户感兴趣内容,保留下来;若低于自定阈值,则舍弃。
6.根据权利要求1所述的针对用户兴趣语义的视频关键信息提取系统,其特征在于:所述关键信息提取模块实现步骤如下:将视频片段均匀分割为设定的时长较短、连续的视频小段,每一小段尽可能包含视频中的连续动作或完整行为,对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容,然后将视频帧代入目标语义模型计算分类值,将视频帧集合内所有帧的计算结果累加得该视频小段的分类值,分类值越大表明越有可能为用户感兴趣内容,将分类值按从小到大的顺序进行排序,提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。
CN201711122828.4A 2017-11-14 2017-11-14 一种针对用户兴趣语义的视频关键信息提取系统 Expired - Fee Related CN107784118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711122828.4A CN107784118B (zh) 2017-11-14 2017-11-14 一种针对用户兴趣语义的视频关键信息提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711122828.4A CN107784118B (zh) 2017-11-14 2017-11-14 一种针对用户兴趣语义的视频关键信息提取系统

Publications (2)

Publication Number Publication Date
CN107784118A CN107784118A (zh) 2018-03-09
CN107784118B true CN107784118B (zh) 2020-08-28

Family

ID=61433059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711122828.4A Expired - Fee Related CN107784118B (zh) 2017-11-14 2017-11-14 一种针对用户兴趣语义的视频关键信息提取系统

Country Status (1)

Country Link
CN (1) CN107784118B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734208B (zh) * 2018-05-15 2020-12-25 重庆大学 基于多模态深度迁移学习机制的多源异构数据融合系统
CN108924576A (zh) * 2018-07-10 2018-11-30 武汉斗鱼网络科技有限公司 一种视频标注方法、装置、设备及介质
CN109190482B (zh) * 2018-08-06 2021-08-20 北京奇艺世纪科技有限公司 多标签视频分类方法及系统、系统训练方法及装置
CN109214374B (zh) * 2018-11-06 2020-12-18 北京达佳互联信息技术有限公司 视频分类方法、装置、服务器及计算机可读存储介质
CN111382754B (zh) * 2018-12-27 2024-03-01 中国移动通信集团山西有限公司 用户聚类方法、装置、设备和介质
CN109905778B (zh) * 2019-01-03 2021-12-03 上海大学 基于组稀疏编码的单个非结构化视频的可扩展缩略的方法
CN110166828A (zh) * 2019-02-19 2019-08-23 腾讯科技(深圳)有限公司 一种视频处理方法和装置
CN109831684B (zh) * 2019-03-11 2022-08-19 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN113128261A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法及装置、视频处理方法及装置
CN112560622B (zh) * 2020-12-08 2023-07-21 中国联合网络通信集团有限公司 虚拟对象动作控制方法、装置及电子设备
CN113269067B (zh) * 2021-05-17 2023-04-07 中南大学 基于深度学习的周期性工业视频片段关键帧两阶段提取方法
CN113642422A (zh) * 2021-07-27 2021-11-12 东北电力大学 一种连续中文手语识别方法
CN113656539B (zh) * 2021-07-28 2023-08-18 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
CN117061189B (zh) * 2023-08-26 2024-01-30 上海六坊信息科技有限公司 一种基于数据加密的数据包传输方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法
CN102332031A (zh) * 2011-10-18 2012-01-25 中国科学院自动化研究所 一种基于视频集合层级主题结构的检索结果聚类方法
CN102523536A (zh) * 2011-12-15 2012-06-27 清华大学 视频语义可视化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101753097B1 (ko) * 2014-12-30 2017-07-19 광주과학기술원 차량검출방법, 차량검출을 위한 데이터베이스의 구조, 및 차량검출을 위한 데이터베이스 구축방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604325A (zh) * 2009-07-17 2009-12-16 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法
CN102332031A (zh) * 2011-10-18 2012-01-25 中国科学院自动化研究所 一种基于视频集合层级主题结构的检索结果聚类方法
CN102523536A (zh) * 2011-12-15 2012-06-27 清华大学 视频语义可视化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户兴趣的视频片段提取方法;邹玲 等;《中国科技论文》;20180130;第13卷(第2期);202-207 *

Also Published As

Publication number Publication date
CN107784118A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
CN107784118B (zh) 一种针对用户兴趣语义的视频关键信息提取系统
Hsu et al. Progressive domain adaptation for object detection
Deng et al. Image aesthetic assessment: An experimental survey
Zhao et al. Temporal action detection with structured segment networks
Huang et al. Decoupling localization and classification in single shot temporal action detection
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN102549603B (zh) 基于相关性的图像选择
CN103324677B (zh) 一种可分级的快速图像gps位置估计方法
CN100589532C (zh) 字幕区域提取装置和方法
Tang et al. Fast video shot transition localization with deep structured models
CN103200463A (zh) 一种视频摘要生成方法和装置
CN113011504B (zh) 基于视角权重和特征融合的虚拟现实场景情感识别方法
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN110460838B (zh) 一种镜头切换的检测方法、装置及计算机设备
CN108846047A (zh) 一种基于卷积特征的图片检索方法及系统
Li et al. Face anti-spoofing with deep neural network distillation
CN113784171A (zh) 视频数据处理方法、装置、计算机系统及可读存储介质
Li et al. Real-time pedestrian detection with deep supervision in the wild
Wang et al. Fast and accurate action detection in videos with motion-centric attention model
CN115129934A (zh) 一种多模态视频理解方法
Lei et al. Temporal attention learning for action quality assessment in sports video
CN113936236A (zh) 一种基于多模态特征的视频实体关系及交互识别方法
Wang et al. A Dense-aware Cross-splitNet for Object Detection and Recognition
Mironică et al. An in-depth evaluation of multimodal video genre categorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200828

Termination date: 20211114

CF01 Termination of patent right due to non-payment of annual fee