CN107784118B

CN107784118B - 一种针对用户兴趣语义的视频关键信息提取系统

Info

Publication number: CN107784118B
Application number: CN201711122828.4A
Authority: CN
Inventors: 王晗; 俞璜悦
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2020-08-28
Anticipated expiration: 2037-11-14
Also published as: CN107784118A

Abstract

本发明涉及针对用户兴趣语义的视频关键信息提取系统及方法，包括图像获取模块、视频预处理模块，联合组权重学习模块以及关键信息提取模块，首先，通过图像获取模块将不同用户对视频的兴趣描述作为关键词从互联网中检索图像；其次，使用联合组权重学习模块对描述不同但语义相关的关键词进行检索,同时习得目标语义模型；然后，利用视频的伴生音频数据辅助预提取可能包含关键信息的视频片段；最后，通过目标语义模型计算各视频片段中是否包含用户感兴趣的关键信息。本发明能够根据用户不同的关注点，对用户感兴趣的内容进行语义建模从而有效指导个性化视频关键信息提取，从互联网中获取的语义知识能够在很大程度上减少数据对于人工标注的依赖。

Description

一种针对用户兴趣语义的视频关键信息提取系统

技术领域

本发明涉及一种针对用户兴趣语义的视频关键信息提取系统，属于图形图像处理领域。

背景技术

传统方法大多基于底层特征对视频精彩片段进行提取，忽略了对用户感兴趣内容的选取。而视频片段提取是一个相对主观的工作，当视频内容较为复杂或者持续时间较长时，不同用户对于同一段视频感兴趣的内容区别较大。例如，对于一场篮球比赛视频，用户感兴趣的内容可能是灌篮、三分球等一些精彩片段，也可能集中在球员的控球姿势、球场走位等技术动作，这导致不同用户对于视频精彩片段提取的期望有所不同。

近年来，通过使用高层语义对视频精彩片段进行提取的研究逐渐引起研究人员的关注。Yao等人提出可根据用户在互联网中的搜索和点击事件挖掘视频语义，从而对视频进行标注；Phillip等人指出图像的语义标签和底层特征决定了其是否能被观看者记住并产生兴趣；Wang等人提出收集联想关键词构建迁移源域，进一步迁移学习后实现视频标注。然而互联网中的视频，通常在由非专业人士随机拍摄，视频中含有大量因抖动引起的模糊现象以及因拍摄场景复杂引起的类内变换，直接对视频本身进行语义建模需要标注大量的视频，费时费力，且视频中可能存在的模糊、抖动情况将给语义建模带来极大困难。互联网中包含大量已标注信息，这些图像通常包含丰富信息，且由用户经过挑选上传，能为语义建模提供丰富且质量较好的训练数据，有效避免为获得用户兴趣语义模型而标注大量视频作为训练数据的繁重工作，通过使用与用户兴趣相关的关键词，在互联网图像搜索引擎中进行检索即可获得大量与用户兴趣语义相关图像集。因此，本文考虑从互联网图像中获取知识，指导基于用户兴趣的视频精彩片段提取。

发明内容

本发明的技术解决问题：克服现有技术的不足，提供一种针对用户兴趣语义的视频关键信息提取系统，不仅能够获得具有较高质量的视频关键信息，而且通过用户兴趣点的选择可以更加合理、有效的提取出特定视频的语义信息，使结果高效准确。

本发明的技术解决方案：本发明针对用户兴趣语义的视频关键信息提取系统，使用联合组权重习得近义图像组间的最优权重，在此基础上，提取伴生音频特征对视频预处理，融合多种模态特征，使用用户兴趣语义描述构建关键词索引并通过互联网检索获取输入图像数据，将互联网图像中习得的关键视角和语义知识指导视频关键帧提取，从而获得针对特定用户语义信息的视频关键信息。

如图1所示，本发明针对用户兴趣语义的视频关键信息提取系统包括：

图像获取模块：将不同用户对视频的兴趣描述按语义聚类，含义相近的描述互为近义语义，多个近义语义聚类为目标语义，针对每个近义语义构建索引并利用关键词检索技术，获取互联网中与其相匹配的图像信息，构建近义图像组，对图像组进行局部特征(SIFT和HOG特征)和全局特征(GIST特征)提取，作为联合组权重学习模块的输入。

视频预处理模块：分为伴生音频预处理和视频特征提取两部分，在用户导入视频后，对视频中音频信号进行分帧、加窗处理，提取音频信号的短时能量特征，选取能量值高于设定阈值的视频片段，以进一步减少后续步骤的计算量和计算时间，对视频片段进行局部特征(SIFT和HOG特征)和全局特征(GIST特征)提取，作为关键信息提取模块的输入。

联合组权重学习模块：该模块将图像获取模块中构建的近义图像组作为输入数据，使用SVM分类器对每一个图像组进行语义建模，得到近义语义模型。将近义图像组训练所得的近义语义模型通过联合优化学习的方法习得各组权重，从而获得在目标视频上进行关键信息提取的目标语义模型，用于关键信息提取模块的输入；

关键信息提取模块：将视频预处理模块中计算所得的视频特征和联合组权重学习模块构建的目标语义模型作为输入数据；将视频片段均匀分割为若干时长为4s的视频小段，对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容，然后将视频帧代入目标语义模型计算分类值，将视频帧集合内所有帧的计算结果累加得该视频小段的分类值，分类值越大表明越有可能为用户感兴趣内容，将分类值按从小到大的顺序进行排序，提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。本发明的k取值为10。

所述图像获取模块实现过程如下：

(1)针对特定视频，用户以关键词的形式键入兴趣语义描述，系统对关键词进行语义分析，内容相近的关键词描述则语义聚类为同一目标语义，形成特定的多个近义语义关键词索引；

(2)互联网图像具有一定的准确性、实时性，根据所建立的索引，利用关键词搜索技术，从互联网中获取图像；

(3)系统整合所获取的图像，构建近义语义图像组；

(4)提取图像的底层特征，主要步骤如下：

(4.1)首先，提取图像SIFT特征，主要有尺度空间极值检测、关键点定位、方向确定以及关键点描述四个步骤，用来侦测与描述视频中的局部性特征；同时，提取图像HOG特征，具体步骤如下：

(4.1.1)将用户视频帧或互联网图像灰度化，灰度化后图像记作I；

(4.1.2)为进一步调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，采用Gamma校正法对M进行颜色空间归一化处理，处理后图像记作I₁；

(4.1.3)计算I₁中像素的梯度，例如像素点(x,y)的梯度表示为：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

其中G_x(x,y),G_y(x,y),H(x,y)分别表示M₁中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值。

(4.1.4)将M₁划分为若干单元格，统计每个单元格的梯度直方图，形成单元格内HOG特征描述子；

(4.1.5)将图像内的所有单元格的HOG特征描述子串联起来并进行收集整合，得到该图像的HOG特征。

(4.2)本模块提取图像的全局特征，使用GIST特征来描述图像；

所述视频预处理模块实现过程如下：

(1)不同视频音频信号的振幅均值不同，因此首先对音频信号进行归一化处理，将信号强度规范在[-1,1]之间，不考虑信号的绝对强度，只考虑信号的相对强度，公式如下；

其中y是归一化后语音序列的幅度，x是归一化前的语音序列幅度。

(2)选取窗函数w_n来截断信号，窗函数采用海明窗，计算公式为：

其中，N为窗的长度，n为信号量；

(3)为了能根据半生音频信号筛选出视频精彩部分，本系统结合短时能量进行计算，首先计算出窗内的短时能量值，若能量值高于设定阈值，则认为该片段出现精彩内容，设第i时刻第m帧语音信号x_i(m)的短时能量谱用E_i表示，E_i计算公式如下：

其中x_i(m)为语音信号序列，M为语音序列长度。

(4)通过对同类视频的综合分析，得出短时能量的自定阈值，若能量值高于自定阈值，则认为可能含有用户感兴趣内容，保留下来；若低于自定阈值，则舍弃。

所述的联合组权重学习模块实现过程如下：

(1)定义Z＝{X¹,X²,X³,…,X^G}为兴趣语义图像集合，G指图像组数量，其中

表示第g个近义语义图像组，

为图像组X^g的第j张图像，d为图像特征维度，N_g指图像组内图像数量，令

表示视频帧特征集，

指每帧特征向量，N_t表示视频总帧数；

(2)计算第g个图像组的近义语义模型f_g(x^g)的公式为：

其中

为图像特征向量，ω^g为特征权重向量，x^g为第g组图像中单张图像；

(3)将兴趣语义模型F_t(x)描述为多个近义语义模型加权融合：

其中α_g表示第g个近义语义模型的权重，定义α＝(α₁,α₁,…,α_G)^T为所有分组权重的集合，α_g表示第g个近义语义图像组与兴趣语义的相关性，x表示近义图像组中图像集合；

(4)使用联合优化算法求解不同近义语义模型的权重，将联合学习的优化函数Q(α)表示为如下形式，通过将语义模型的决策值F_t(x)与视频数据真实值Y放入二次项中进行最小化约束，强制二者尽可能接近；将不同近义语义所得结果放入二次项进行约束，最小化近义语义模型在不同视频数据上的误差；另外，加入正则项

降低复杂度，其中，λ_L,λ_G＞0为优化平衡参数,α＝(α₁,α₁,…,α_G)^T为所有分组权重的集合，α_g表示第g个近义语义图像组与兴趣语义的相关性，x表示近义图像组中图像集合,F_t(x)为兴趣语义模型，f_g(x^g)为第g个图像组的近义语义模型，n_g指图像组内图像数量，G指图像组数量：

(5)将问题转化为求解等式约束的二次规划，使用拉格朗日乘子求解上式最优解α^*，将优化函数转化为如下形式，即可求解最优权重，将权重值分配至各个近义语义模型中，得到最终兴趣语义模型，在关键信息提取模块中将视频帧带入兴趣语义模型可提取视频关键信息：

由KKT条件可知，当

时，得到最优权值α^*。其中，Q(α)为优化函数，α＝(α₁,α₁,…,α_G)^T为所有分组权重的集合，α_g表示第g个近义语义图像组与兴趣语义的相关性,μ为拉格朗日参数。

所述关键信息提取模块实现步骤如下：

将视频片段均匀分割为设定的时长较短(通常为4s)、连续的视频小段，每一小段尽可能包含视频中的连续动作或完整行为，对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容，然后将视频帧代入目标语义模型计算分类值，将视频帧集合内所有帧的计算结果累加得该视频小段的分类值，分类值越大表明越有可能为用户感兴趣内容，将分类值按从小到大的顺序进行排序，提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。

本发明与现有技术相比的优点在于：

(1)互联网获取图像简单方便，且往往比实验室生成的数据更具有多样性，能极大满足源域数据标签训练的需要；与从一些已经成型的图像或视频数据库获取相比，通过互联网直接获取的数据在保证了准确性的前提下，更能贴合用户视频的特点。

(2)采用音频阈值作为用户视频预处理筛选条件，选取出分贝较高的视频片段，减少了特征提取部分的计算量，提高系统运行效率。

(3)根据用户兴趣点语义型对视频关键信息进行有针对性的提取，解决了不同用户对同一视频关注点不同的问题，使得用户能够有选择的、有针对的获取视频中感兴趣的内容。

(4)本发明不仅能够高效提取互联网用户视频中主要信息，对视频数据进行有效的组织和管理，而且能够根据用户兴趣对视频内容进行有针对性的提取，极大满足用户的自主性，采用从互联网中获取图像，构建符合个人评判标准的互联网图像集，使得最终结果能尽可能贴合用户审美，图像在检索过程中涵盖了大量语义信息，不需要对其进行过多的标注，极大程度的提高了结果的准确性与合理性；另外，采用多种媒体信息融合，结合音频特征对原视频进行预处理，大大降低系统运算量，实验效果良好。

附图说明

图1为本发明系统的模块流程图；

图2为本发明系统中的视频预处理模块实现过程；

图3为本发明系统中的联合组权重学习模块实现过程。

具体实施方式

为了更好地理解本发明，先对一些基本概念进行一下解释说明。

加窗：当对语音信号进行处理时，不可能对无限长的信号进行测量和运算，而是取其有限的时间片段进行分析。做法是从信号中截取一个时间片段，然后用观察的信号时间片段进行周期延拓处理，得到虚拟的无限长的信号，无线长的信号被截断以后，其频谱发生了畸变，原来集中的能量被分散到两个较宽的频带中去了，这种现象称之为频谱能量泄漏。为了减少频谱能量泄漏，可采用不同的截取函数对信号进行截断，截断函数称为窗函数，简称为窗。泄漏与窗函数频谱的两侧旁瓣有关，如果两侧瓣的高度趋于零，而使能量相对集中在主瓣，就可以较为接近于真实的频谱，为此，在时间域中可采用不同的窗函数来截断信号。

KKT条件：KKT条件是解决最优化问题的时用到的一种方法。其中最优化问题通常是指对于给定的某一函数，求其在指定作用域上的全局最小值。

下面结合附图对本发明进行详细说明

如图1所示，本发明针对用户兴趣语义的视频关键信息提取系统由图像获取模块、视频预处理模块、联合组权重学习模块以及关键信息提取模块构成。

整个实现过程如下：

(1)首先用户启动系统，导入预先下载或录制的用户视频，进入视频预处理模块。系统首先对视频中音频信号进行分帧、加窗处理；再提取音频信号的短时能量特征，选取能量值高于设定阈值的部分视频段；默认该视频段能量值偏高，是出现精彩内容导致人物欢呼等行为所造成，将该片段筛选出来可以进一步减少后续步骤的计算量和计算时间；

(2)用户根据个人兴趣输入对视频感兴趣内容，系统对关键词形成索引，利用关键词搜索技术从互联网中获取相关图像作为训练素材，系统后台将自动构建互联网图像集；

(3)然后分别提取用户视频帧集和互联网图像集的底层特征，具体有(a)局部特征：SIFT特征和HOG特征；(b)全局特征：GIST特征；

(4)下面进行联合组权重构建语义模型阶段，收集不同用户给出的兴趣描述，将兴趣描述此按语义聚类并构建近义语义图像组，图像组从不同角度提供该目标语义的视觉信息，进一步保证分类结果准确，使用联合优化算法思想求解不同近义语义模型的权重，为提高知识迁移有效性，本文对模型进行优化，一方面最小化近义语义模型在不同视频数据上的误差，另一方面最小化目标语义模型的分类结果在已标注数据上的误差，强制目标语义模型的决策值尽可能接近视频数据的真实值；

(5)最后进入关键信息提取模块，将视频片段均匀分割为设定的时长较短、连续的视频小段，每一小段尽可能包含视频中的连续动作或完整行为，对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容，然后将视频帧代入目标语义模型计算分类值，将视频帧集合内所有帧的计算结果累加得该视频小段的分类值，分类值越大表明越有可能为用户感兴趣内容，将分类值按从小到大的顺序进行排序，提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。

上述各模块的具体实现过程如下：

1.互联网图像获取模块

(3)系统整合所获取的图像，构建近义语义图像组；

(4)然后提取互联网中图像的底层特征，主要步骤如下：

(4.1.1)首先将用户视频帧或互联网图像灰度化，灰度化后图像记作I；

(4.1.3)计算I₁中像素的梯度，例如像素点(x,y)的梯度表示为：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

其中G_x(x,y),G_y(x,y),H(x,y)分别表示I₁中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值。

(4.1.4)将I₁划分为若干单元格，统计每个单元格的梯度直方图，形成单元格内HOG特征描述子；

2.视频预处理模块

该模块的实现过程如图2所示：

(1)不同视频音频信号的振幅均值不同，因此首先对音频信号进行归一化处理，将信号强度规范在[-1,1]之间；

(2)选取合适的窗函数来截断信号，以进行后续特征计算的过程，本系统选用海明窗，计算公式为：

其中，N为窗的长度，n为信号量。

(3)为了能根据音频信号筛选出视频精彩部分，本系统结合短时能量进行计算，首先计算出窗内的短时能量值，若能量值高于设定阈值，则认为该片段出现精彩内容；

(4)若能量值高于阈值，则认为可能含有用户感兴趣内容，保留下来；若低于阈值，则舍弃。通过预处理能一定程度减少后续步骤的计算量。

4.联合组权重学习模块

该模块的实现过程如图3所示：

表示第g个近义语义图像组，

表示视频帧特征集，

指每帧特征向量，N_t表示视频总帧数；

(2)计算第g个图像组的近义语义模型f_g(x^g)的公式为：

其中

(3)将兴趣语义模型F_t(x)描述为多个近义语义模型加权融合：

由KKT条件可知，当

5.关键信息提取模块

将视频片段均匀分割为设定的时长较短、连续的视频小段，每一小段尽可能包含视频中的连续动作或完整行为，对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容，然后将视频帧代入目标语义模型计算分类值，将视频帧集合内所有帧的计算结果累加得该视频小段的分类值，分类值越大表明越有可能为用户感兴趣内容，将分类值按从小到大的顺序进行排序，提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。

总之，本发明能够根据用户不同的关注点，对用户感兴趣的内容进行语义建模从而有效指导关键信息提取，从互联网中获取的语义知识能够大大减少数据对于人工标注的依赖，具有很强的用户针对性，同时通过对近义语义模型的联合权重学习得最终目标语义模型，该模型描述信息全面，符合用户个性。

本发明未详细描述的部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.针对用户兴趣语义的视频关键信息提取系统，其特征在于包括：图像获取模块、视频预处理模块、联合组权重学习模块和关键信息提取模块；其中：

图像获取模块：将不同用户对视频的兴趣描述按语义聚类，含义相近的描述互为近义语义，多个近义语义聚类为目标语义，针对每个近义语义构建索引并利用关键词检索技术，获取互联网中与其相匹配的图像信息，构建近义图像组，对图像组进行局部特征和全局特征提取，作为联合组权重学习模块的输入,所述局部特征包括SIFT特征和HOG特征，所述全局特征为GIST特征；

视频预处理模块：分为伴生音频预处理和视频特征提取两部分，在用户导入视频后，对视频中音频信号进行分帧、加窗处理，提取音频信号的短时能量特征，选取能量值高于设定阈值的视频片段，以进一步减少后续步骤的计算量和计算时间；对视频片段进行局部特征和全局特征提取，作为关键信息提取模块的输入，所述局部特征包括SIFT特征和HOG特征，所述全局特征为GIST特征；

联合组权重学习模块：将图像获取模块中构建的近义图像组作为输入数据，使用SVM分类器对每一个图像组进行语义建模，得到近义语义模型，将近义图像组训练所得的近义语义模型通过联合优化学习的方法习得各组权重，从而获得在目标视频上进行关键信息提取的目标语义模型，用于关键信息提取模块的输入；

关键信息提取模块：将视频预处理模块中计算所得的视频特征和联合组权重学习模块构建的目标语义模型作为输入数据；将视频片段均匀分割为若干时长为4s的视频小段，对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容，然后将视频帧代入目标语义模型计算分类值，将视频帧集合内所有帧的计算结果累加得该视频小段的分类值，分类值越大表明越有可能为用户感兴趣内容，将分类值按从小到大的顺序进行排序，提取分类值最大的前k个视频段作为用户感兴趣的精彩片段；

所述联合组权重学习模块实现过程如下：

表示第g个近义语义图像组，

表示视频帧特征集，

指视频中的帧图像，N_t表示视频总帧数；

(2)计算第g个图像组的近义语义模型

的公式为：

其中

为图像特征向量，ω^g为特征权重向量，

为第g组图像中第i张图像；

(3)将兴趣语义模型F_t(x^g)描述为多个近义语义模型加权融合：

其中α_g表示第g个近义语义模型的权重，定义α＝(α₁,α₁,…,α_G)^T为所有分组权重的集合，α_g表示第g个近义语义图像组与兴趣语义的相关性，x^g表示第g组近义图像组中图像集合；

(4)使用联合优化算法求解不同近义语义模型的权重，将联合学习的优化函数Q(α)表示为如下形式，通过将语义模型的决策值F_t(x^g)与视频数据真实值Y放入二次项中进行最小化约束，强制二者尽可能接近；将不同近义语义所得结果放入二次项进行约束，最小化近义语义模型在不同视频数据上的误差；另外，加入正则项

降低复杂度，其中，λ_L,λ_G＞0为优化平衡参数,α＝(α₁,α₁,…,α_G)^T为所有分组权重的集合，α_g表示第g个近义语义图像组与兴趣语义的相关性，x^g表示第g组近义图像组中图像集合,F_t(x^g)为兴趣语义模型，f_g(x^g)为第g个图像组的近义语义模型，N_g指图像组内图像数量，G指图像组数量：

由KKT条件可知，当▽_αL(α,μ)＝0，▽_μL(α,μ)＝0时，得到最优权值α^*，其中，Q(α)为优化函数，α＝(α₁,α₁,…,α_G)^T为所有分组权重的集合，α_g表示第g个近义语义图像组与兴趣语义的相关性,μ为拉格朗日参数。

2.根据权利要求1所述的针对用户兴趣语义的视频关键信息提取系统，其特征在于：所述视频预处理模块还包括伴生音频预处理部分，在视频特征提取前进行伴生音频特征提取，在用户导入视频后，对视频中音频信号进行分帧、加窗处理后，提取音频信号的短时能量特征，选取能量值高于设定阈值的部分视频段，在后续计算中仅对这部分视频段处理即可，大大减少计算量和计算时间。

3.根据权利要求1或2所述的针对用户兴趣语义的视频关键信息提取系统，其特征在于：所述图像获取模块和视频预处理模块中，提取SIFT特征步骤，包括构建尺度空间、尺度空间极值检测、方向确定以及特征生成四个步骤，用来侦测与描述视频中的局部性特征，具体如下：

(1)将一副二维图像通过高斯核函数进行平滑处理，利用不同尺度的高斯差分和与图像卷积建立该二维图像在不同尺度下的图像；

(2)为找寻极值点，将每一采样点与其同尺度的8个相邻点3×3和上下相邻尺度对应的9×2个点共26个点比较，某采样点若在本层尺度空间以及上下两层的26个领域中是最大或最小值时，就认为该采样点是图像在该尺度下的一个特征点；

(3)下面计算特征点方向，以特征点为中心的邻域窗口内采样，并用直方图统计邻域像素的梯度方向，梯度直方图的范围是0～360度，其中每45度一个柱，总共8个柱,或者每10度一个柱，总共36个柱,直方图的峰值则代表该特征点处邻域梯度的主方向，即作为该特征点的方向；

(4)对于每一特征点形成128，即4×4×8维特征向量，每个特征点有三个信息：位置，所处尺度、方向，将向量归一化处理后，确定一个SIFT特征向量。

4.根据权利要求1或2所述的针对用户兴趣语义的视频关键信息提取系统，其特征在于：所述图像获取模块和视频预处理模块中，提取图像HOG特征具体步骤如下：

(1)首先将用户视频帧或互联网图像灰度化，灰度化后图像记作I；

(2)为进一步调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，采用Gamma校正法对M进行颜色空间归一化处理，处理后图像记作I₁；

(3)计算I₁中像素的梯度，像素点(x,y)的梯度表示为：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

其中G_x(x,y),G_y(x,y),H(x,y)分别表示I₁中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值；

(4)将I₁划分为若干单元格，统计每个单元格的梯度直方图，形成单元格内HOG特征描述子；

(5)将图像内的所有单元格的HOG特征描述子串联起来并进行收集整合，得到图像的HOG特征。

5.根据权利要求2所述的针对用户兴趣语义的视频关键信息提取系统，其特征在于：所述视频预处理模块中，伴生音频预处理部分实现过程如下：

(1)不同视频音频信号的振幅均值不同，首先对音频信号进行归一化处理，公式如下；

其中y是归一化后语音序列的幅度，x是归一化前的语音序列幅度；

其中，N为窗的长度，n为信号量；

(3)计算窗函数内能量值，若能量值高于设定阈值，则认为该视频段出现精彩内容，设第i时刻第m帧语音信号x_i(m)的短时能量谱用E_i表示，E_i计算公式如下：

其中x_i(m)为语音信号序列，M为语音序列长度；

6.根据权利要求1所述的针对用户兴趣语义的视频关键信息提取系统，其特征在于：所述关键信息提取模块实现步骤如下：将视频片段均匀分割为设定的时长较短、连续的视频小段，每一小段尽可能包含视频中的连续动作或完整行为，对视频小段每秒抽取一帧构成视频帧集合用于表征该视频小段内容，然后将视频帧代入目标语义模型计算分类值，将视频帧集合内所有帧的计算结果累加得该视频小段的分类值，分类值越大表明越有可能为用户感兴趣内容，将分类值按从小到大的顺序进行排序，提取分类值最大的前k个视频段作为用户感兴趣的精彩片段。