CN102521382B - 一种对视频词典进行压缩的方法 - Google Patents
一种对视频词典进行压缩的方法 Download PDFInfo
- Publication number
- CN102521382B CN102521382B CN201110433394.6A CN201110433394A CN102521382B CN 102521382 B CN102521382 B CN 102521382B CN 201110433394 A CN201110433394 A CN 201110433394A CN 102521382 B CN102521382 B CN 102521382B
- Authority
- CN
- China
- Prior art keywords
- weight
- word
- training set
- dictionary
- whole training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 47
- 239000004615 ingredient Substances 0.000 claims description 28
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种对视频词典进行压缩的方法,包括步骤:S1:基于已经得到的视觉词典或称旧词典,计算训练集中每个特征的稀疏表示。S2:根据稀疏表示计算旧词典中每个单词的权重。S3:根据词典中单词的权重,产生新的视觉词典或称新词典。本发明使用稀疏表示学习单词权重的方法压缩视频词典,压缩了词典的规模,提高了后续识别工作的速度,同时增强了特征描述的鲁棒性,保证了后续识别工作的效果。本发明可以用来压缩计算机视频领域中常见的视频词典,可以在缩减词典规模的同时,保证后续工作的效果。
Description
技术领域
本发明场景视频实时监控技术领域,涉及计算机应用技术,特别涉及场景视频实时监控所需要建立视频词典的目标建模与识别方法。
背景技术
国内近几年在城市的重要位置安装了监控摄像头,在多起犯罪案件中,视频监控录像都提供了很重要的破案线索。但是目前公共场所装有的摄像头大都只能记录当时的场景,作为事后调查的依据,而不能做到实时自动报警。实时监控对算法的速度有一定的要求,而基于视频词典的算法的速度和准确率都和视频词典的规模紧密相关。视频词典压缩算法可以在同时保证准确率的条件下,大幅度提升算法速度。
近几年由于公共安全的需要,智能监控方面的需求迅速增加。1997年美国国防高级研究项目署设立了以卡内基梅隆大学为首、麻省理工学院等高校参与的视觉监控重大项目VSAM(visual surveillance andmonitoring),主要研究用于战场及普通民用场景监控的自动视频理解技术。马里兰大学的W4系统不仅能够定位和分割出人的身体部分,而且通过建立外观模型能实现对多人的跟踪,同时可以检测人是否携带物体等简单行为。最近,欧洲的VISONTRAIN计划将人的行为分析与理解作为一个很重要的方面进行研究。英国伦敦大学(University ofLondon)的Queen Mary视觉实验室的项目INSIGHT(Video Analysis andSelective Zooming using Semantic Models of Human Presenee andActivity),旨在对公共场合下,人的异常行为以及侵略性行为的检测与识别问题进行研究。美国中佛罗里达大学(University of centralFlorida)、澳大利亚Curtin科技大学(Curtin University ofTechnology)等对室内环境下人的行为进行了分析和识别。新加坡信息通信研究所(Institute for Infocomm Research)、英国伦敦大学等对人的户外行为进行了分析与识别。目前公开的技术方案均难以兼顾速度和效果。
发明内容
本发明的目的是缩减视频词典的规模,使视频词典在不影响后续操作的结果的条件下缩减规模。为此,本发明提供一种对视频词典进行压缩的方法,用于缩减视觉词典的规模。
为了解决现有技术的问题,本发明提出一种对视频词典进行压缩的方法,所压缩包括步骤:
步骤S1:基于已经得到的视觉词典,对视频词典的词和训练库中的视频信息进行计算,得到训练库中的视频信息,将训练库中的视频信息生成基于视频词典的稀疏表示;
步骤S2:利用学习权重算法并依据对视频词典的稀疏表示进行统计计算,得到稀疏表示,生成视频词典中每个单词的权重;
步骤S3:根据单词的权重,将视频词典中单词按照权重排序,选择视频词典中的单词,生成新视频词典。
优选实施例,所述学习权重算法是选用第一种学习权重法SRC+l1、第二种学习权重法SRC+l0、第三种学习权重法MAX+l1、第四种学习权重法MAX+l0、第五种学习权重法MAXs+11、第六种学习权重法MAXs+l0算法中的一种,统计稀疏表示的结果,其中l1、l0分别表示范数。
优选实施例,所述选择视频词典中的单词是选取最重要的k个词组成新视频词典。
学习旧视觉词典中单词的权重,此步骤首先计算训练库基于旧词典的稀疏表示,然后再依据稀疏表示的结果得到单词的权重;
根据单词的权重产生新视觉词典,此步骤按照一定的规则,选取单词产生新的视觉词典。
本发明的有益效果:本发明使用稀疏表示学习单词权重的方法压缩视频词典,压缩了词典的规模,提高了后续识别工作的速度,同时增强了特征描述的鲁棒性,保证了后续识别工作的效果。图像实时监控对算法的速度有一定的要求,而基于视频词典的算法的速度和准确率都和视频词典的规模紧密相关。视频词典压缩算法可以在同时保证准确率的条件下,大幅度提升算法速度,从而提高了图像实时监控算法的速度。本发明可以用来压缩计算机视频领域中常见的视频词典,可以在缩减词典规模的同时,保证后续工作的效果。
附图说明
图1为本发明系统结构框图。
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明的执行环境由以下三个模块组构成:稀疏表示模块,该模块的功能是计算训练库在视频词典上的稀疏表示。学习权重模块,该模块的功能是根据稀疏表示学习出视频词典中各个词的权重。产生新视频词典模块,该模块的功能是依据视频词典中词的权重产生新视频词典。本发明的整体框架见图1。
下面详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。
步骤S1:基于已经得到的视觉词典,对视频词典的词和训练库中的视频信息进行计算,得到训练库中的视频信息,将训练库中的视频信息生成基于视频词典的稀疏表示;所述视频词典也称为旧词典;
当我们使用时空兴趣点(space-time interesting point)作为运动特征的时候,由于人体运动的周期性和不同人做同一个运动的相似性,许多兴趣点特征是非常相近的。因此,一个特征点(词)可以表示为一些典型特征点(词)的线性组合。假如我们有一个视频词典(Visual Codebook)包含n个词vi=v1,v2,…,vn,i=1,2,3,...n。那么一个新来的词t可以被线性表示为:
t=Vx=x1v1+x2v2+…+xnvn (1)
其中x=(x1,x2,…,xn)T是系数向量,T是转置。如果视频词典V足够完备,那么x=[0,…,0,β,…,0,…,0]T就会是一个稀疏向量,也就是新来的词t在视频词典V上的稀疏表示。我们可以通过解优化问题公式(2)来得到新来的词t在视频词典V上的稀疏表示:
x=arg min||x||1 subject to Vx=t, (2)
其中||x||1是l1范数。这个优化问题可以通过线性规划中的方法来求解。
步骤S2:学习视频视频词典中单词的权重。
压缩视频词典的第二步是通过学习第一步得到的稀疏表示,生成视频词典中每个词的权重。然后我们就可以根据这个权重按照不同的算法生成新词典。我们一共使用了六种方法处理权重W。前两种方法使用SRC(Sparse Representation-based Classification)方法定义为:令n维向量表示为δj(sri)表示一个向量只有第j维个元素是sri的第j维元素,别的元素都为0。于是以下约等式成立其中Vold表示视频词典,featurei代表要被稀疏表示的特征,代表featurei在视频词典上的稀疏表示形式。
第一种学习权重算法SRC+l1
然后我们可以通过公式(3)确定构成要被稀疏表示的特征featurei的主要成分词。这个主要成分词对应的n维向量sri中的系数作为这个词的权重累加起来。
在累加权重的时候有六种选择:
第一种学习权重算法SRC+l1使用请给出SRC方法取l1范数,
第二种学习权重算法SRC+l0是用SRC方法取l0范数。
第三种学习权重算法MAX+l1和第四种学习权重算法MAX+l0直接取sr中最大的权重系数对应的词作为主要成分词。累加权重时同样一个使用l1范数,一个使用l0范数。
第五种学习权重算法MAXs+l1、第六种学习权重算法MAXs+l0取权重系数最大的k个词作为主要成分词。也可以认为当k取1时第五种学习权重算法MAXs+ll、第六种学习权重算法MAXs+l0等同于第三种学习权重算法MAX+l1、第四种学习权重算法MAX+xl0。
学习权重法算法框图中SR是稀疏表示向量。1~total的循环遍历所有要被稀疏表示的特征feature。wtemp表示权重中的一个维度。W是最后得到的视频词典中词的权重。[value,index]=sort(X,′descend′)的功能是将实数序列X按降序排列,数值保存在value中,原序号保存在index中。
第一种学习权重算法的步骤如下:
步骤11:在整个训练集上,使用SRC方法确定构成要被稀疏表示的特征featurei的主要成分词;
步骤12:在整个训练集上,使用l1范数累加主要成分词的权重;
步骤13:在整个训练集上实现前两个步骤,最终得到权重系数W。
第二种学习权重算法SRC+l0
第二种学习权重算法SRC+l0的步骤如下:
步骤21:在整个训练集上,使用SRC方法确定构成featurei的主要成分词;
步骤22:在整个训练集上,使用l0范数累加主要成分词的权重;
步骤23:在整个训练集上实现前两个步骤,最终得到权重系数W。
第三种学习权重算法MAX+l1
第三种学习权重算法的步骤如下:
步骤31:在整个训练集上取sr中最大的权重系数对应的词作为主要成分词;
步骤32:在整个训练集上使用l1范数累加主要成分词的权重;
步骤33:在整个训练集上实现前两个步骤,最终得到权重系数W。
第四种学习权重算法MAX+l0
第四种学习权重算法的步骤如下:
步骤41:在整个训练集上,取sr中最大的权重系数对应的词作为主要成分词;步骤42:在整个训练集上,使用l0范数累加主要成分词的权重;
步骤43:在整个训练集上实现前两个步骤,最终得到权重系数W。
第五种学习权重算法MAXs+l1
第五种学习权重算法的步骤如下:
步骤51:在整个训练集上,将sr中的权重系数降序排列,选取满足公式
的temp个权重系数对应的词作为主要成分词;
步骤52:在整个训练集上,使用l1范数累加主要成分词的权重;
步骤53:在整个训练集上实现前两个步骤,最终得到权重系数W。
第六种学习权重算法MAXs+l0
第六种学习权重算法的步骤如下:
步骤61:在整个训练集上,将sr中的权重系数降序排列,选取满足公式
的temp个权重系数对应的词作为主要成分词;
步骤62:在整个训练集上,使用l0范数累加主要成分词的权重;
步骤63:在整个训练集上实现前两个步骤,最终得到权重系数W。
以上六种方法的性能不尽相同,实际操作中可凭经验选择效果最好的一种。
步骤S3:根据单词的权重,将视频词典中单词按照权重排序,选择视频词典中的单词,产生新视频词典。
单词的权重表示该词的使用频率既重要性,按算法7选取单词产生新的视频词典。
生成新词典算法7
如算法7所示,生成新词典算法具体步骤如下:
步骤71:将sr中的权重系数降序排列,选取满足公式
的temp个权重系数对应的词组成新视频词典;其中α用来调节新视频词典的压缩比。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内。
Claims (1)
1.一种对视频词典进行压缩的方法,其特征在于,包括步骤如下:
步骤S1:基于已经得到的视频词典其中,所述视频词典包含n个词i=1,2,3,…n,d和n表示空间的维数,对视频词典的词和训练库中的视频信息进行计算,将训练库中的视频信息生成基于视频词典的稀疏表示,其中,一个新来的词t在视频词典V上的稀疏表示为x=(x1,x2,…,xn)T,其中,x1,x2,…,xn表示词t的线性表示t=Vx=x1v1+x2v2+…+xnvn的系数,T表示转置;
步骤S2:利用学习权重算法并依据对视频词典的稀疏表示进行统计计算,生成视频词典中每个单词的权重;
步骤S3:根据单词的权重,将视频词典中单词按照权重排序,生成新视频词典;
所述学习权重算法是选用第一种学习权重法SRC+l1、第二种学习权重法SRC+l0、第三种学习权重法MAX+l1、第四种学习权重法MAX+l0、第五种学习权重法MAXs+l1、第六种学习权重法MAXs+l0算法中的一种,统计稀疏表示的结果,其中l1、l0分别表示范数,
第一种学习权重算法SRC+l1的步骤如下:
步骤11:在整个训练集上,使用SRC方法确定构成要被稀疏表示的特征的主要成分词;
步骤12:在整个训练集上,使用l1范数累加主要成分词的权重;
步骤13:在整个训练集上实现前两个步骤,最终得到权重;
第二种学习权重算法SRC+l0的步骤如下:
步骤21:在整个训练集上,使用SRC方法确定构成要被稀疏表示的特征的主要成分词;
步骤22:在整个训练集上,使用l0范数累加主要成分词的权重;
步骤23:在整个训练集上实现前两个步骤,最终得到权重;
第三种学习权重算法MAX+l1的步骤如下:
步骤31:在整个训练集上取n维稀疏表示向量sr中最大的权重系数对应的词作为主要成分词;
步骤32:在整个训练集上使用l1范数累加主要成分词的权重;
步骤33:在整个训练集上实现前两个步骤,最终得到权重;
第四种学习权重算法MAX+l0的步骤如下:
步骤41:在整个训练集上,取n维稀疏表示向量sr中最大的权重系数对应的词作为主要成分词;
步骤42:在整个训练集上,使用l0范数累加主要成分词的权重;
步骤43:在整个训练集上实现前两个步骤,最终得到权重;
第五种学习权重算法MAXs+l1的步骤如下:
步骤51:在整个训练集上,将n维稀疏表示向量sr中的权重系数降序排列,选取满足公式
的temp个权重系数对应的词作为主要成分词,Wk表示第k个权重,Wj表示第j个权重;
步骤52:在整个训练集上,使用l1范数累加主要成分词的权重;
步骤53:在整个训练集上实现前两个步骤,最终得到权重;
第六种学习权重算法MAXs+l0的步骤如下:
步骤61:在整个训练集上,将n维稀疏表示向量sr中的权重系数降序排列,选取满足公式
的temp个权重系数对应的词作为主要成分词,Wk表示第k个权重,Wj表示第j个权重;
步骤62:在整个训练集上,使用l0范数累加主要成分词的权重;
步骤63:在整个训练集上实现前两个步骤,最终得到权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110433394.6A CN102521382B (zh) | 2011-12-21 | 2011-12-21 | 一种对视频词典进行压缩的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110433394.6A CN102521382B (zh) | 2011-12-21 | 2011-12-21 | 一种对视频词典进行压缩的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102521382A CN102521382A (zh) | 2012-06-27 |
CN102521382B true CN102521382B (zh) | 2015-04-22 |
Family
ID=46292295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110433394.6A Active CN102521382B (zh) | 2011-12-21 | 2011-12-21 | 一种对视频词典进行压缩的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521382B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045420A (ja) * | 2014-08-25 | 2016-04-04 | カシオ計算機株式会社 | 発音学習支援装置およびプログラム |
CN107392305A (zh) * | 2016-05-13 | 2017-11-24 | 三星电子株式会社 | 实现和执行神经网络的方法及计算机可读介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556690A (zh) * | 2009-05-14 | 2009-10-14 | 复旦大学 | 基于词典学习和稀疏表示的超分辨率算法 |
CN102096819A (zh) * | 2011-03-11 | 2011-06-15 | 西安电子科技大学 | 利用稀疏表示与字典学习进行图像分割的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7047193B1 (en) * | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
CN101840516A (zh) * | 2010-04-27 | 2010-09-22 | 上海交通大学 | 基于稀疏分数的特征选择方法 |
CN102122353A (zh) * | 2011-03-11 | 2011-07-13 | 西安电子科技大学 | 利用增量字典学习与稀疏表示进行图像分割的方法 |
-
2011
- 2011-12-21 CN CN201110433394.6A patent/CN102521382B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556690A (zh) * | 2009-05-14 | 2009-10-14 | 复旦大学 | 基于词典学习和稀疏表示的超分辨率算法 |
CN102096819A (zh) * | 2011-03-11 | 2011-06-15 | 西安电子科技大学 | 利用稀疏表示与字典学习进行图像分割的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102521382A (zh) | 2012-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102136066B (zh) | 一种视频序列中人体动作的识别方法 | |
Bashir et al. | Object trajectory-based activity classification and recognition using hidden Markov models | |
CN105320944B (zh) | 一种基于人体骨架运动信息的人体行为预测方法 | |
Nguyen et al. | Learning and detecting activities from movement trajectories using the hierarchical hidden Markov model | |
Celebi et al. | Gesture recognition using skeleton data with weighted dynamic time warping. | |
Wei et al. | Concurrent action detection with structural prediction | |
CN104123007B (zh) | 一种多维加权的3d动态手势识别方法 | |
CN106205609B (zh) | 一种基于音频事件和主题模型的音频场景识别方法及其装置 | |
CN110133610A (zh) | 基于时变距离-多普勒图的超宽带雷达动作识别方法 | |
CN102043967A (zh) | 一种有效的运动目标行为建模与识别方法 | |
CN103150546B (zh) | 视频人脸识别方法和装置 | |
CN101299241A (zh) | 基于张量表示的多模态视频语义概念检测方法 | |
CN109598451A (zh) | 一种基于pca与lstm神经网络的非侵入式负荷辨识方法 | |
Ren et al. | Semantic facial descriptor extraction via axiomatic fuzzy set | |
CN102495997A (zh) | 基于视频检测与gis图像可视化的阅览室智能管理系统 | |
CN102521382B (zh) | 一种对视频词典进行压缩的方法 | |
CN110210540A (zh) | 基于注意力机制的跨社交媒体用户身份识别方法及系统 | |
Wang et al. | Missing data imputation with OLS-based autoencoder for intelligent manufacturing | |
CN100534132C (zh) | 基于判别光流张量和hmm的视频语义单元检测方法 | |
Shen et al. | A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning | |
Abdul-Ameer et al. | Development smart eyeglasses for visually impaired people based on you only look once | |
Wang et al. | Human activity recognition using smart phone embedded sensors: A linear dynamical systems method | |
CN105224952A (zh) | 基于最大间隔马尔可夫网模型的双人交互行为识别方法 | |
Ahmed et al. | Adaptive pooling of the most relevant spatio-temporal features for action recognition | |
Shan et al. | Learning skeleton stream patterns with slow feature analysis for action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |