CN102521382B

CN102521382B - 一种对视频词典进行压缩的方法

Info

Publication number: CN102521382B
Application number: CN201110433394.6A
Authority: CN
Inventors: 胡卫明; 魏青帝
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-12-21
Filing date: 2011-12-21
Publication date: 2015-04-22
Anticipated expiration: 2031-12-21
Also published as: CN102521382A

Abstract

本发明是一种对视频词典进行压缩的方法，包括步骤：S1：基于已经得到的视觉词典或称旧词典，计算训练集中每个特征的稀疏表示。S2：根据稀疏表示计算旧词典中每个单词的权重。S3：根据词典中单词的权重，产生新的视觉词典或称新词典。本发明使用稀疏表示学习单词权重的方法压缩视频词典，压缩了词典的规模，提高了后续识别工作的速度，同时增强了特征描述的鲁棒性，保证了后续识别工作的效果。本发明可以用来压缩计算机视频领域中常见的视频词典，可以在缩减词典规模的同时，保证后续工作的效果。

Description

一种对视频词典进行压缩的方法

技术领域

本发明场景视频实时监控技术领域，涉及计算机应用技术，特别涉及场景视频实时监控所需要建立视频词典的目标建模与识别方法。

背景技术

国内近几年在城市的重要位置安装了监控摄像头，在多起犯罪案件中，视频监控录像都提供了很重要的破案线索。但是目前公共场所装有的摄像头大都只能记录当时的场景，作为事后调查的依据，而不能做到实时自动报警。实时监控对算法的速度有一定的要求，而基于视频词典的算法的速度和准确率都和视频词典的规模紧密相关。视频词典压缩算法可以在同时保证准确率的条件下，大幅度提升算法速度。

近几年由于公共安全的需要，智能监控方面的需求迅速增加。1997年美国国防高级研究项目署设立了以卡内基梅隆大学为首、麻省理工学院等高校参与的视觉监控重大项目VSAM(visual surveillance andmonitoring)，主要研究用于战场及普通民用场景监控的自动视频理解技术。马里兰大学的W4系统不仅能够定位和分割出人的身体部分，而且通过建立外观模型能实现对多人的跟踪，同时可以检测人是否携带物体等简单行为。最近，欧洲的VISONTRAIN计划将人的行为分析与理解作为一个很重要的方面进行研究。英国伦敦大学(University ofLondon)的Queen Mary视觉实验室的项目INSIGHT(Video Analysis andSelective Zooming using Semantic Models of Human Presenee andActivity)，旨在对公共场合下，人的异常行为以及侵略性行为的检测与识别问题进行研究。美国中佛罗里达大学(University of centralFlorida)、澳大利亚Curtin科技大学(Curtin University ofTechnology)等对室内环境下人的行为进行了分析和识别。新加坡信息通信研究所(Institute for Infocomm Research)、英国伦敦大学等对人的户外行为进行了分析与识别。目前公开的技术方案均难以兼顾速度和效果。

发明内容

本发明的目的是缩减视频词典的规模，使视频词典在不影响后续操作的结果的条件下缩减规模。为此，本发明提供一种对视频词典进行压缩的方法，用于缩减视觉词典的规模。

为了解决现有技术的问题，本发明提出一种对视频词典进行压缩的方法，所压缩包括步骤：

步骤S1：基于已经得到的视觉词典，对视频词典的词和训练库中的视频信息进行计算，得到训练库中的视频信息，将训练库中的视频信息生成基于视频词典的稀疏表示；

步骤S2：利用学习权重算法并依据对视频词典的稀疏表示进行统计计算，得到稀疏表示，生成视频词典中每个单词的权重；

步骤S3：根据单词的权重，将视频词典中单词按照权重排序，选择视频词典中的单词，生成新视频词典。

优选实施例，所述学习权重算法是选用第一种学习权重法SRC+l₁、第二种学习权重法SRC+l₀、第三种学习权重法MAX+l₁、第四种学习权重法MAX+l₀、第五种学习权重法MAXs+1₁、第六种学习权重法MAXs+l₀算法中的一种，统计稀疏表示的结果，其中l₁、l₀分别表示范数。

优选实施例，所述选择视频词典中的单词是选取最重要的k个词组成新视频词典。

学习旧视觉词典中单词的权重，此步骤首先计算训练库基于旧词典的稀疏表示，然后再依据稀疏表示的结果得到单词的权重；

根据单词的权重产生新视觉词典，此步骤按照一定的规则，选取单词产生新的视觉词典。

本发明的有益效果：本发明使用稀疏表示学习单词权重的方法压缩视频词典，压缩了词典的规模，提高了后续识别工作的速度，同时增强了特征描述的鲁棒性，保证了后续识别工作的效果。图像实时监控对算法的速度有一定的要求，而基于视频词典的算法的速度和准确率都和视频词典的规模紧密相关。视频词典压缩算法可以在同时保证准确率的条件下，大幅度提升算法速度，从而提高了图像实时监控算法的速度。本发明可以用来压缩计算机视频领域中常见的视频词典，可以在缩减词典规模的同时，保证后续工作的效果。

附图说明

图1为本发明系统结构框图。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的执行环境由以下三个模块组构成：稀疏表示模块，该模块的功能是计算训练库在视频词典上的稀疏表示。学习权重模块，该模块的功能是根据稀疏表示学习出视频词典中各个词的权重。产生新视频词典模块，该模块的功能是依据视频词典中词的权重产生新视频词典。本发明的整体框架见图1。

下面详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。

步骤S1：基于已经得到的视觉词典，对视频词典的词和训练库中的视频信息进行计算，得到训练库中的视频信息，将训练库中的视频信息生成基于视频词典的稀疏表示；所述视频词典也称为旧词典；

当我们使用时空兴趣点(space-time interesting point)作为运动特征的时候，由于人体运动的周期性和不同人做同一个运动的相似性，许多兴趣点特征是非常相近的。因此，一个特征点(词)可以表示为一些典型特征点(词)的线性组合。假如我们有一个视频词典(Visual Codebook)包含n个词v_i＝v₁，v₂，…，v_n，i＝1，2，3，...n。那么一个新来的词t可以被线性表示为：

t＝Vx＝x₁v₁+x₂v₂+…+x_nv_n (1)

其中x＝(x₁，x₂，…，x_n)^T是系数向量，T是转置。如果视频词典V足够完备，那么x＝[0，…，0，β，…，0，…，0]^T就会是一个稀疏向量，也就是新来的词t在视频词典V上的稀疏表示。我们可以通过解优化问题公式(2)来得到新来的词t在视频词典V上的稀疏表示：

x＝arg min||x||₁ subject to Vx＝t， (2)

其中||x||₁是l₁范数。这个优化问题可以通过线性规划中的方法来求解。

步骤S2：学习视频视频词典中单词的权重。

压缩视频词典的第二步是通过学习第一步得到的稀疏表示，生成视频词典中每个词的权重。然后我们就可以根据这个权重按照不同的算法生成新词典。我们一共使用了六种方法处理权重W。前两种方法使用SRC(Sparse Representation-based Classification)方法定义为：令n维向量表示为δ_j(sr_i)表示一个向量只有第j维个元素是sr_i的第j维元素，别的元素都为0。于是以下约等式成立其中V_old表示视频词典，feature_i代表要被稀疏表示的特征，代表feature_i在视频词典上的稀疏表示形式。

第一种学习权重算法SRC+l₁

然后我们可以通过公式(3)确定构成要被稀疏表示的特征feature_i的主要成分词。这个主要成分词对应的n维向量sr_i中的系数作为这个词的权重累加起来。

\arg \min_{j} {| | {feature}_{i} - V_{old} δ_{j} ({sr}_{i}) | |}_{2} - - - (3)

在累加权重的时候有六种选择：

第一种学习权重算法SRC+l₁使用请给出SRC方法取l₁范数，

第二种学习权重算法SRC+l₀是用SRC方法取l₀范数。

第三种学习权重算法MAX+l₁和第四种学习权重算法MAX+l₀直接取sr中最大的权重系数对应的词作为主要成分词。累加权重时同样一个使用l₁范数，一个使用l₀范数。

第五种学习权重算法MAXs+l₁、第六种学习权重算法MAXs+l₀取权重系数最大的k个词作为主要成分词。也可以认为当k取1时第五种学习权重算法MAXs+l_l、第六种学习权重算法MAXs+l₀等同于第三种学习权重算法MAX+l₁、第四种学习权重算法MAX+xl₀。

学习权重法算法框图中SR是稀疏表示向量。1～total的循环遍历所有要被稀疏表示的特征feature。w_temp表示权重中的一个维度。W是最后得到的视频词典中词的权重。[value，index]＝sort(X，′descend′)的功能是将实数序列X按降序排列，数值保存在value中，原序号保存在index中。

第一种学习权重算法的步骤如下：

步骤11：在整个训练集上，使用SRC方法确定构成要被稀疏表示的特征feature_i的主要成分词；

步骤12：在整个训练集上，使用l₁范数累加主要成分词的权重；

步骤13：在整个训练集上实现前两个步骤，最终得到权重系数W。

第二种学习权重算法SRC+l₀

第二种学习权重算法SRC+l₀的步骤如下：

步骤21：在整个训练集上，使用SRC方法确定构成feature_i的主要成分词；

步骤22：在整个训练集上，使用l₀范数累加主要成分词的权重；

步骤23：在整个训练集上实现前两个步骤，最终得到权重系数W。

第三种学习权重算法MAX+l₁

第三种学习权重算法的步骤如下：

步骤31：在整个训练集上取sr中最大的权重系数对应的词作为主要成分词；

步骤32：在整个训练集上使用l₁范数累加主要成分词的权重；

步骤33：在整个训练集上实现前两个步骤，最终得到权重系数W。

第四种学习权重算法MAX+l₀

第四种学习权重算法的步骤如下：

步骤41：在整个训练集上，取sr中最大的权重系数对应的词作为主要成分词；步骤42：在整个训练集上，使用l₀范数累加主要成分词的权重；

步骤43：在整个训练集上实现前两个步骤，最终得到权重系数W。

第五种学习权重算法MAXs+l₁

第五种学习权重算法的步骤如下：

步骤51：在整个训练集上，将sr中的权重系数降序排列，选取满足公式

\frac{{&Sum;}_{k = 1}^{temp} W_{k}}{{&Sum;}_{j = 1}^{n} W_{j}} &GreaterEqual; 90 %

的temp个权重系数对应的词作为主要成分词；

步骤52：在整个训练集上，使用l₁范数累加主要成分词的权重；

步骤53：在整个训练集上实现前两个步骤，最终得到权重系数W。

第六种学习权重算法MAXs+l₀

第六种学习权重算法的步骤如下：

步骤61：在整个训练集上，将sr中的权重系数降序排列，选取满足公式

\frac{Σ_{k = 1}^{temp} W_{k}}{Σ_{j = 1}^{n} W_{j}} &GreaterEqual; 90 %

的temp个权重系数对应的词作为主要成分词；

步骤62：在整个训练集上，使用l₀范数累加主要成分词的权重；

步骤63：在整个训练集上实现前两个步骤，最终得到权重系数W。

以上六种方法的性能不尽相同，实际操作中可凭经验选择效果最好的一种。

步骤S3：根据单词的权重，将视频词典中单词按照权重排序，选择视频词典中的单词，产生新视频词典。

单词的权重表示该词的使用频率既重要性，按算法7选取单词产生新的视频词典。

生成新词典算法7

如算法7所示，生成新词典算法具体步骤如下：

步骤71：将sr中的权重系数降序排列，选取满足公式

\frac{Σ_{k = 1}^{temp} W_{k}}{Σ_{j = 1}^{n} W_{j}} &GreaterEqual; α

的temp个权重系数对应的词组成新视频词典；其中α用来调节新视频词典的压缩比。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内。

Claims

1.一种对视频词典进行压缩的方法，其特征在于，包括步骤如下：

步骤S1：基于已经得到的视频词典其中，所述视频词典包含n个词i＝1，2，3，…n，d和n表示空间的维数，对视频词典的词和训练库中的视频信息进行计算，将训练库中的视频信息生成基于视频词典的稀疏表示，其中，一个新来的词t在视频词典V上的稀疏表示为x＝(x₁，x₂，…，x_n)^T，其中，x₁，x₂，…，x_n表示词t的线性表示t＝V_x＝x₁v₁+x₂v₂+…+x_nv_n的系数，T表示转置；

步骤S2：利用学习权重算法并依据对视频词典的稀疏表示进行统计计算，生成视频词典中每个单词的权重；

步骤S3：根据单词的权重，将视频词典中单词按照权重排序，生成新视频词典；

所述学习权重算法是选用第一种学习权重法SRC+l₁、第二种学习权重法SRC+l₀、第三种学习权重法MAX+l₁、第四种学习权重法MAX+l₀、第五种学习权重法MAXs+l₁、第六种学习权重法MAXs+l₀算法中的一种，统计稀疏表示的结果，其中l₁、l₀分别表示范数，

第一种学习权重算法SRC+l₁的步骤如下：

步骤11：在整个训练集上，使用SRC方法确定构成要被稀疏表示的特征的主要成分词；

步骤13：在整个训练集上实现前两个步骤，最终得到权重；

第二种学习权重算法SRC+l₀的步骤如下：

步骤21：在整个训练集上，使用SRC方法确定构成要被稀疏表示的特征的主要成分词；

步骤23：在整个训练集上实现前两个步骤，最终得到权重；

第三种学习权重算法MAX+l₁的步骤如下：

步骤31：在整个训练集上取n维稀疏表示向量sr中最大的权重系数对应的词作为主要成分词；

步骤33：在整个训练集上实现前两个步骤，最终得到权重；

第四种学习权重算法MAX+l₀的步骤如下：

步骤41：在整个训练集上，取n维稀疏表示向量sr中最大的权重系数对应的词作为主要成分词；

步骤42：在整个训练集上，使用l₀范数累加主要成分词的权重；

步骤43：在整个训练集上实现前两个步骤，最终得到权重；

第五种学习权重算法MAXs+l₁的步骤如下：

步骤51：在整个训练集上，将n维稀疏表示向量sr中的权重系数降序排列，选取满足公式

\frac{Σ_{k = 1}^{temp} W_{k}}{Σ_{j = 1}^{n} W_{j}} &GreaterEqual; 90 %

的temp个权重系数对应的词作为主要成分词，W_k表示第k个权重，W_j表示第j个权重；

步骤53：在整个训练集上实现前两个步骤，最终得到权重；

第六种学习权重算法MAXs+l₀的步骤如下：

步骤61：在整个训练集上，将n维稀疏表示向量sr中的权重系数降序排列，选取满足公式

\frac{Σ_{k = 1}^{temp} W_{k}}{Σ_{j = 1}^{n} W_{j}} &GreaterEqual; 90 %

步骤63：在整个训练集上实现前两个步骤，最终得到权重。