CN110163144A - 一种从视频中自动识别人体行为的方法 - Google Patents
一种从视频中自动识别人体行为的方法 Download PDFInfo
- Publication number
- CN110163144A CN110163144A CN201910415244.9A CN201910415244A CN110163144A CN 110163144 A CN110163144 A CN 110163144A CN 201910415244 A CN201910415244 A CN 201910415244A CN 110163144 A CN110163144 A CN 110163144A
- Authority
- CN
- China
- Prior art keywords
- feature
- video
- level image
- low
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20064—Wavelet transform [DWT]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种从视频中自动识别人体行为的方法及装置,引入小波分析理论,把原始视频帧分解到不同的频率和方向上,从而可以方便地从不同频率和方向上提取人体运动底层特征。使用相似度来表示贡献程度,从而可以避免因BoF码书的尺度不同而导致错误的指定方式,也可以表现不同底层特征对同一个视觉单词统计的贡献度。构建的BoTF特征编码方式可以有效地对底层特征的时间信息进行编码,从而克服BoF编码无序的缺点。基于小波变化和图相关理论设计一个多尺度特征提取和特征编码方法,解决DT方法缺失频率和方向以及BoF特征编码模型缺乏时间特征的问题,从而可以处理复杂的运动视频,并大大提高人体行为识别的正确率。
Description
技术领域
本申请涉及人体行为识别技术领域,具体涉及一种从视频中自动识别人体行为的方法及装置。
背景技术
目前,智能视频监控技术在智能安防和公共安全领域都具有重要的应用价值。智能视频监控技术是一个跨领域的应用研究,人体行为识别是其中一个重要的研究内容,而从监控视频中自动提取人体行为运动特征是其中关键的技术点。
传统的运动底层特征自动提取主要包括尺度不变特征变换(Scale-InvariantFeature Transform,SIFT)、Harris角点检测、时空体数据(Spatial Temporal Volume,STV)特征和密集轨迹追踪(Dense Trajectories,DT)等特征提取方法。DT是目前广泛使用的一种运动特征提取方法。该方法通过追踪各个尺度下的特征点生成运动轨迹,再根据这些轨迹提取运动底层特征,包括:轨迹形状(Trajectory Shapes,TS)、方向梯度直方图(Histogram of Oriented Gradients,HOG)、光流直方图(Histogram of Optical Flows,HOF)和运动边界直方图(Motion Boundary Histogram,MBH)。然后,使用视觉词袋模型(Bagof Features,BoF)对底层特征进行编码,生成运动特征描述。最后使用通用的机器学习分类器支持向量机(Support Vector Machine,SVM)进行人体行为分类。
当前,DT方法还存在以下问题,在底层特征提取的时候,缺少对图像信号频率和运行方向信息的提取,导致这两方面的特征信息丢失。而且由于生成的轨迹只包含非常短的时间信息,且BoF把底层特征编码为无序的特征描述,丢失了大量的人体运动时序信息,从而导致无法提取执行时间较长或与执行顺序非常相关的动作行为。以上缺点导致现有的方法无法提取复杂的人体运动行为特征,进而导致当前人体行为智能识别系统的正确识别率偏低。
发明内容
本申请为了解决上述技术问题,提出了如下技术方案:
第一方面,本申请实施例提供了一种从视频中自动识别人体行为的方法,所述方法包括:将从视频图像中获取的原始视频帧分解到不同尺度上并进行小波变换分解;分别对所述多尺度分解后的视频帧和小波分解后的视频帧进行密集采样获取视频帧中的特征点;在不同尺寸、频率和方向上分别追踪每个所述特征点,获得密集轨迹;根据每个轨迹和每个轨迹对应的STV时空体数据确定底层特征;分别对所述底层特征进行BoF编码和BoTF编码,所述BoF编码确定底层特征的统计分布,所述BoTF编码实现对底层特征的时间信息的编码;将所述BoF编码和BoTF编码后的底层特征进行加权特征融合,确定所述视频图像中的人体行为信息。
采用上述实现方式,引入小波分析理论,把多尺度分解后的视频帧分解到不同的频率和方向上,从而可以方便地从不同频率和方向上提取人体运动底层特征。使用相似度来表示贡献程度,从而可以避免因BoF码书的尺度不同而导致错误的指定方式,也可以表现不同底层特征对同一个视觉单词统计的贡献度。
构建的BoTF特征编码方式可以有效地对时间特征进行编码,从而克服BoF编码无序的缺点。基于小波变化和图相关理论设计一个多尺度特征提取和特征编码方法,解决DT方法缺失频率和方向以及BoF特征编码模型缺乏时间特征的问题,从而可以处理复杂的人体运动视频,并大大提高人体行为识别的正确率。
结合第一方面,在第一方面第一种可能的实现方式中,所述将从视频图像中获取的原始视频帧分解到不同尺度上并进行小波变换分解,包括:通过网格划分的方式将原始视频帧划分到多个尺度下;使用离散小波对所述多尺度分解后的视频帧进行小波变换分解。
结合第一方面,在第一方面第二种可能的实现方式中,所述分别对所述多尺度分解后的视频帧和小波分解后的视频帧进行密集采样以获取视频帧中的特征点,包括:在所述多尺度分解后的视频帧和所述小波分解后的视频帧上划分W×W(W=5)的窗口;然后在每一个窗口上选择一个像素点作为特征点,其中:为了去除缺乏变化的区域中的特征点,该步骤中计算每个特征点自相关的特征值,并设置阈值去除无效的特征点。
结合第一方面,在第一方面第三种可能的实现方式中,所述在不同尺寸、频率和方向上分别追踪每个所述特征点,获得密集轨迹,包括:对于每一个特征点,使用中值滤波在密集光流场下计算下一帧所匹配的特征点,当特征点连续追踪到一定数目的视频帧时,获得所述密集轨迹。
结合第一方面第三种可能的实现方式,在第一方面第四种可能的实现方式中,所述根据每个轨迹和每个轨迹对应的STV时空体数据确定底层特征,包括:根据每个轨迹建立与所述轨迹对齐的所述STV时空体数据;根据每个轨迹和每个轨迹对应的STV时空体数据分别确定轨迹形状TS特征、方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征。
结合第一方面第四种可能的实现方式,在第一方面第五种可能的实现方式中,所述分别对所述底层特征进行BoF编码和BoTF编码包括:BoF编码:把所述TS特征、HOG特征、HOF特征和MBH特征分别分配到top-N个视觉单词上,将每个特征与目标视觉单词的相似度作为贡献权重;BoTF编码:使用图相关理论构建BoTF编码模型,然后利用BoTF编码模型对所述TS特征、HOG特征、HOF特征和MBH特征进行编码。
结合第一方面第五种可能的实现方式,在第一方面第六种可能的实现方式中,所述将所述BoF编码和BoTF编码后的底层特征进行加权特征融合,确定所述视频图像中的人体行为信息包括:将所述BoF编码和BoTF编码后的底层特征融合为一个最终的视频特征描述,fv=[λBoF,μBoTF];其中,λ和μ分别代表BoF和BoTF的权重,fv代表最终的融合特征描述。
结合第一方面第四种可能的实现方式,在第一方面第七种可能的实现方式中,所述根据每个轨迹和每个轨迹对应的STV时空体数据分别确定轨迹形状TS特征、方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征,包括:
确定轨迹形状TS特征:
方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征:
其中,w代表光流场,w′x表示x方向的运动边界,w′y为y方向上的运动边界,(xt,yt)为光流场中x方向和y方向上坐标。
结合第一方面第五种可能的实现方式,在第一方面第八种可能的实现方式中,所述BoF编码:把所述TS特征、HOG特征、HOF特征和MBH特征分别分配到top-N个视觉单词上,将每个特征与目标视觉单词的相似度作为贡献权重,包括:该步骤引入软分类方法计算统计直方图,即把一个底层特征分配到top-N个视觉单词上,把该底层特征与目标视觉单词的相似度作为贡献权重,软分类的BoF编码方式表示如下:
其中,tk为某一个视频第k个视觉单词的权值,K为视觉单词的数量,Mi代表所有底层特征中第i个相似的视觉单词是k的特征数量,使用欧几里得距离进行归一化,sim(j,k)表示特征j和视觉单词k的相似度。
结合第一方面第八种可能的实现方式,在第一方面第九种可能的实现方式中,所述BoTF编码:使用图相关理论构建BoTF编码模型,然后利用BoTF编码模型对所述TS特征、HOG特征、HOF特征和MBH特征进行编码,包括:
在底层特征中引入时间维度,即[t,f],其中t为时间值,f为原有的底层特征向量,将所有的底层特征在时间轴上排序,然后选取一个时间中心点(tc),那么它周围的底层特征就可以根据距离形成不同的簇[tc,{f}l]。簇的聚集方式如下:
其中l代表簇的编号,有正和负两个方向,d=±1表示方向,s为帧的步长,通常取值为s=30;
针对每一个簇,计算每个视觉单词和簇中底层特征的相关性,如下所示:
h(tc,l)=(c1,c2,...,ck)
其中,ci代表在该簇中,属于视觉单词i的底层特征数量;
计算所有簇的相关图,则可以得到该视觉中心tc的BoTF特征编码,如下所示:
BoTFtc=[h(tc,1),h(tc,-1),...,h(tc,l),h(tc,-l)]
第二方面,本申请实施例提供了一种从视频中自动识别人体行为的装置,包括处理器;存储器,用于存储计算机可执行指令;当所述处理器执行所述计算机可执行指令时,所述处理器执行第一方面或第一方面任一可能的实现方式的从视频中自动识别人体行为的方法。
附图说明
图1为本申请实施例提供的一种从视频中自动识别人体行为的方法的流程示意图;
图2为本申请实施例提供的一种根据轨迹建立STV时空体数据的示意图;
图3为本申请实施例提供的一种BoTF特征编码示意图;
图4为本申请实施例提供的一种从视频中自动识别人体行为的装置示意图。
具体实施方式
下面结合附图与具体实施方式对本方案进行阐述。
图1为本申请实施例提供的一种从视频中自动识别人体行为的方法的流程示意图,参见图1,所述从视频中自动识别人体行为的方法包括:
S101,将从视频图像中获取的原始视频帧分解到不同尺度上并进行小波变换分解。
与DT方法类似,第一步也需要把视频帧分解到不同的尺度上,通过网格划分的方式把原始帧划分到多个尺度下。但与DT方法不同的是,本申请不仅在多尺度分解后的视频帧上进行密集采样,还需要把多尺度分解后的视频帧进行小波变换分解并采样。
使用离散小波对多尺度分解后的视频帧进行小波变换分解。使用小波变换分解可以把多尺度分解后的视频帧分解为四个部分:cA,cH,cV和cD,其中cA是近似系数,表示视频帧图像的低频信号,cH、cV和cD分别为水平方向、垂直方向和对角线方向上的详细系数,代表图像中的高频信号。小波变换方法可以把多尺度分解后的视频帧分解到不同的频率和方向,从而实现进一步提取不同频率和方向上的人体运动底层特征。该步骤使用Mallat快速小波变换,如下所示:
其中,X为原始一维信号,A为近似系数,D为详细系数。二维小波变换可以通过执行“两步”一维小波变换得到。
S102,分别对所述多尺度分解后的视频帧和小波分解后的视频帧进行密集采样以获取视频帧中的特征点。
在多尺度分解后的帧(Frame)和所述小波分解后的视频帧上(cA,cH,cV和cD)分别进行密集采样。该步骤在原始帧和小波系数上划分W×W(W=5)的窗口,然后在每一个窗口上选择一个像素点作为特征点。为了去除缺乏变化的区域中的特征点,该步骤计算了每个特征点自相关的特征值,并设置阈值去除无效的特征点。
S103,在不同尺寸、频率和方向上分别追踪每个所述特征点,获得密集轨迹。
对于每一个特征点,使用中值滤波在密集光流场下计算下一帧所匹配的特征点,当特征点连续追踪到一定数目的视频帧时,获得所述密集轨迹。如下所示:
Pt+1=Pt=(xt,yt)+(M*ωt)
当某个特征点在连续追踪L(15)帧时,就形成了密集轨迹(Pt,Pt+1,Pt+2,…,Pt+14)。
S104,根据每个轨迹和每个轨迹对应的STV时空体数据确定底层特征。
针对每一个轨迹,可以建立与之对齐的STV时空体数据,一个示意性实施例,如图2所示,宽为N(32),长度为L(15),并把这个STV时空体数据划分为nx×ny×nt个单元(Cell)。该步骤建立的STV时空体数据比DT方法更为丰富,除了包含从原始帧建立的STV时空体数据外,还包含了从4个小波系数上建立的STV时空体数据。
根据每个轨迹建立与所述轨迹对齐的所述STV时空体数据;根据每个轨迹和每个轨迹对应的STV时空体数据分别确定轨迹形状TS特征、方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征。
具体地,确定轨迹形状TS特征:
方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征:
其中,w代表光流场,w′x表示x方向的运动边界,w′y为y方向上的运动边界,(xt,yt)为光流场中x方向和y方向上坐标。
S105,分别对所述底层特征进行BoF编码和BoTF编码,所述BoF编码确定底层特征的统计分布,所述BoTF编码实现对底层特征的时间信息的编码。
BoF编码:把所述TS特征、HOG特征、HOF特征和MBH特征分别分配到top-N个视觉单词上,将每个特征与目标视觉单词的相似度作为贡献权重。
具体地,该步骤引入软分类方法计算统计直方图,即把一个底层特征分配到top-N个视觉单词上,把该底层特征与目标视觉单词的相似度作为贡献权重,软分类的BoF编码方式表示如下:
其中,tk为某一个视频第k个视觉单词的权值,K为视觉单词的数量,Mi代表所有底层特征中第i个相似的视觉单词是k的特征数量,使用欧几里得距离进行归一化,sim(j,k)表示特征j和视觉单词k的相似度。
BoTF编码:使用图相关理论构建BoTF编码模型,然后利用BoTF编码模型对所述TS特征、HOG特征、HOF特征和MBH特征进行编码。
具体地,在底层特征中引入时间维度,即[t,f],其中t为时间值,f为原有的底层特征向量,将所有的底层特征在时间轴上排序,如图3所示,然后选取一个时间中心点(tc),那么它周围的底层特征就可以根据距离形成不同的簇[tc,{f}l];簇的聚集方式如下:
其中l代表簇的编号,有正和负两个方向,d=±1表示方向,s为帧的步长,通常取值为s=30;
针对每一个簇,计算每个视觉单词和簇中底层特征的相关性,如下所示:
h(tc,l)=(c1,c2,...,ck)
其中,ci代表在该簇中,属于视觉单词i的底层特征数量。
计算所有簇的相关图,则可以得到该视觉中心tc的BoTF特征编码,如下所示:
BoTFtc=[h(tc,1),h(tc,-1),...,h(tc,l),h(tc,-l)]
S106,将所述BoF编码和BoTF编码后的底层特征进行加权特征融合,确定所述视频图像中的人体行为信息。
本申请通过引入小波变换的特征提取方法就可以从视频中提取不同频率、尺度和方向上的运动特征。这些特征通过BoF和BoTF结合的编码方法,可以更全面地编码运动特征。本发明方法提取的运动特征和特征编码使用通用的分类器即可完成对人体行为的识别,并可以显著提升识别效果。
由上述实施例可知,本实施例提供了一种从视频中自动识别人体行为的方法,所述方法包括:将从视频图像中获取的原始视频帧分解到不同尺度上并进行小波变换分解;分别对所述多尺度分解后的视频帧和小波分解后的视频帧进行密集采样以获取视频帧中的特征点;在不同尺寸、频率和方向上分别追踪每个所述特征点,获得密集轨迹;根据每个轨迹和每个轨迹对应的STV时空体数据确定底层特征;分别对所述底层特征进行BoF编码和BoTF编码,所述BoF编码确定底层特征的统计分布,所述BoTF编码实现对底层特征的时间信息的编码;将所述BoF编码和BoTF编码后的底层特征进行加权特征融合,确定所述视频图像中的人体行为信息。引入小波分析理论,把多尺度分解后的视频帧分解到不同的频率和方向上,从而可以方便地从不同频率和方向上提取人体运动底层特征。使用相似度来表示贡献程度,从而可以避免因BoF码书的尺度不同而导致错误的指定方式,也可以表现不同底层特征对同一个视觉单词统计的贡献度。构建的BoTF特征编码方式可以有效地对底层特征的时间信息进行编码,从而克服BoF编码无序的缺点。基于小波变化和图相关理论设计一个多尺度特征提取和特征编码方法,解决DT方法缺失频率和方向以及BoF特征编码模型缺乏时间特征的问题,从而可以处理复杂的运动视频,并大大提高人体行为识别的正确率。
与上述实施例提供的一种从视频中自动识别人体行为的方法相对应,本申请还提供了一种从视频中自动识别人体行为的装置实施例。参见图4,所述从视频中识别人体行为的装置20包括:处理器201、存储器202和通信接口203。
在图4中,处理器201、存储器202和通信接口203可以通过总线相互连接;总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器201通常是控制从视频中自动识别人体行为的装置20的整体功能,例如从视频中自动识别人体行为的装置20的启动、以及从视频中自动识别人体行为的装置启动后对视频中的人体行为进行识别等。此外,处理器201可以是通用处理器,例如,中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。处理器也可以是微处理器(MCU)。处理器还可以包括硬件芯片。上述硬件芯片可以是专用集成电路(ASIC),可编程逻辑器件(PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(CPLD),现场可编程逻辑门阵列(FPGA)等。
存储器202被配置为存储计算机可执行指令以支持装置20数据的操作。存储器201可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
启动从视频中自动识别人体行为的装置20后,处理器201和存储器202上电,处理器201读取并执行存储在存储器202内的计算机可执行指令,以完成上述的从视频中自动识别人体行为方法实施例中的全部或部分步骤。
通信接口203用于从视频中自动识别人体行为的装置20传输数据,例如实现与视频获取设备、传输设备之间的数据通信。通信接口203包括有线通信接口,还可以包括无线通信接口。其中,有线通信接口包括USB接口、Micro USB接口,还可以包括以太网接口。无线通信接口可以为WLAN接口,蜂窝网络通信接口或其组合等。
在一个示意性实施例中,本申请实施例提供的从视频中自动识别人体行为的装置20还包括电源组件,电源组件为从视频中自动识别人体行为的装置20的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为从视频中自动识别人体行为的装置20生成、管理和分配电力相关联的组件。
通信组件,通信组件被配置为便于从视频中自动识别人体行为的装置20和其他设备之间有线或无线方式的通信。从视频中自动识别人体行为的装置20可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在一个示意性实施例中,从视频中自动识别人体行为的装置20可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、从视频中自动识别人体行为的装置、处理器或其他电子元件实现。
本申请说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于视频中自动识别人体行为的装置实施例而言,由于其中的方法基本相似于方法的实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当然,上述说明也并不仅限于上述举例,本申请未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述;以上实施例及附图仅用于说明本申请的技术方案并非是对本申请的限制,如来替代,本申请仅结合并参照优选的实施方式进行了详细说明,本领域的普通技术人员应当理解,本技术领域的普通技术人员在本申请的实质范围内所做出的变化、改型、添加或替换都不脱离本申请的宗旨,也应属于本申请的权利要求保护范围。
Claims (10)
1.一种从视频中自动识别人体行为的方法,其特征在于,所述方法包括:
将从视频图像中获取的原始视频帧分解到不同尺度上并进行小波变换分解;
分别对多尺度分解后的视频帧和小波分解后的视频帧进行密集采样获取视频帧中的特征点;
在不同尺寸、频率和方向上分别追踪每个所述特征点,获得密集轨迹;
根据每个轨迹和每个轨迹对应的STV时空体数据确定底层特征;
分别对所述底层特征进行BoF编码和BoTF编码,所述BoF编码确定底层特征的统计分布,所述BoTF编码实现对底层特征的时间信息的编码;
将所述BoF编码和BoTF编码后的底层特征进行加权特征融合,确定所述视频信息中的人体行为信息。
2.根据权利要求1所述的从视频中自动识别人体行为的方法,其特征在于,所述将从视频图像中获取的原始视频帧分解到不同尺度上并进行小波变换分解,包括:
通过网格划分的方式将原始视频帧划分到多个尺度下;
使用离散小波对所述多尺度分解后的视频帧进行小波变换分解。
3.根据权利要求1所述的从视频中自动识别人体行为的方法,其特征在于,所述分别对多尺度分解后的视频帧和小波分解后的视频帧进行密集采样获取视频帧中的特征点,包括:
在所述多尺度分解后的视频帧和所述小波分解后的视频帧上划分W×W(W=5)的窗口;
然后在每一个窗口上选择一个像素点作为特征点,其中:为了去除缺乏变化的区域中的特征点,该步骤中计算每个特征点自相关的特征值,并设置阈值去除无效的特征点。
4.根据权利要求1所述的从视频中自动识别人体行为的方法,其特征在于,所述在不同尺寸、频率和方向上分别追踪每个所述特征点,获得密集轨迹,包括:对于每一个特征点,使用中值滤波在密集光流场下计算下一帧所匹配的特征点,当特征点连续追踪到一定数目的视频帧时,获得所述密集轨迹。
5.根据权利要求4所述的从视频中自动识别人体行为的方法,其特征在于,所述根据每个轨迹和每个轨迹对应的STV时空体数据确定底层特征,包括:
根据每个轨迹建立与所述轨迹对齐的所述STV时空体数据;
根据每个轨迹和每个轨迹对应的STV时空体数据分别确定轨迹形状TS特征、方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征。
6.根据权利要求5所述的从视频中自动识别人体行为的方法,其特征在于,所述分别对所述底层特征进行BoF编码和BoTF编码包括:
BoF编码:采用软分类方法,把所述TS特征、HOG特征、HOF特征和MBH特征分别分配到top-N个视觉单词上,将每个特征与目标视觉单词的相似度作为贡献权重;
BoTF编码:使用图相关理论构建BoTF编码模型,然后利用BoTF编码模型对所述TS特征、HOG特征、HOF特征和MBH特征进行编码。
7.根据权利要求6所述的从视频中自动识别人体行为的方法,其特征在于,所述将所述BoF编码和BoTF编码后的底层特征进行加权特征融合,确定所述视频图像中的人体行为信息包括:
将所述BoF编码和BoTF编码后的底层特征融合为一个最终的视频特征描述,fv=[λBoF,μBoTF];其中,λ和μ分别代表BoF和BoTF的权重,fv代表最终的融合特征描述。
8.根据权利要求5所述的从视频中自动识别人体行为的方法,其特征在于,所述根据每个轨迹和每个轨迹对应的STV时空体数据分别确定轨迹形状TS特征、方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征,包括:
确定轨迹形状TS特征:
方向梯度直方图HOG特征、光流直方图HOF特征和运动边界直方图MBH特征:
其中,w代表光流场,w′x表示x方向的运动边界,w′y为y方向上的运动边界,(xt,yt)为光流场中x方向和y方向上坐标。
9.根据权利要求6所述的从视频中自动识别人体行为的方法,其特征在于,所述BoF编码:把所述TS特征、HOG特征、HOF特征和MBH特征分别分配到top-N个视觉单词上,将每个特征与目标视觉单词的相似度作为贡献权重,包括:该步骤引入软分类方法计算统计直方图,即把一个底层特征分配到top-N个视觉单词上,把该底层特征与目标视觉单词的相似度作为贡献权重,软分类的BoF编码方式表示如下:
其中,tk为某一个视频第k个视觉单词的权值,K为视觉单词的数量,Mi代表所有底层特征中第i个相似的视觉单词是k的特征数量,使用欧几里得距离进行归一化,sim(j,k)表示特征j和视觉单词k的相似度。
10.根据权利要求9所述的从视频中自动识别人体行为的方法,其特征在于,所述BoTF编码:使用图相关理论构建BoTF编码模型,然后利用BoTF编码模型对所述TS特征、HOG特征、HOF特征和MBH特征进行编码,包括:
在底层特征中引入时间维度,即[t,f],其中t为时间值,f为原有的底层特征向量,将所有的底层特征在时间轴上排序,然后选取一个时间中心点(tc),那么它周围的底层特征就可以根据距离形成不同的簇[tc,{f}l],簇的聚集方式如下:
其中l代表簇的编号,有正和负两个方向,d=±1表示方向,s为帧的步长,通常取值为s=30;
针对每一个簇,计算每个视觉单词和簇中底层特征的相关性,如下所示:
h(tc,l)=(c1,c2,...,ck)
其中,ci代表在该簇中,属于视觉单词i的底层特征数量;
计算所有簇的相关图,则可以得到该视觉中心tc的BoTF特征编码,如下所示:
BoTFtc=[h(tc,1),h(tc,-1),...,h(tc,l),h(tc,-l)]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910415244.9A CN110163144A (zh) | 2019-05-17 | 2019-05-17 | 一种从视频中自动识别人体行为的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910415244.9A CN110163144A (zh) | 2019-05-17 | 2019-05-17 | 一种从视频中自动识别人体行为的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110163144A true CN110163144A (zh) | 2019-08-23 |
Family
ID=67631208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910415244.9A Pending CN110163144A (zh) | 2019-05-17 | 2019-05-17 | 一种从视频中自动识别人体行为的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163144A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116493282A (zh) * | 2023-04-12 | 2023-07-28 | 曲靖阳光新能源股份有限公司 | 基于机器视觉的单品硅片快速分选系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160290A (zh) * | 2015-07-03 | 2015-12-16 | 东南大学 | 一种基于改进型稠密轨迹的移动边界采样的行为识别方法 |
CN105844204A (zh) * | 2015-01-14 | 2016-08-10 | 北京三星通信技术研究有限公司 | 人体行为识别方法和装置 |
CN105956517A (zh) * | 2016-04-20 | 2016-09-21 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于密集轨迹的动作识别方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
-
2019
- 2019-05-17 CN CN201910415244.9A patent/CN110163144A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844204A (zh) * | 2015-01-14 | 2016-08-10 | 北京三星通信技术研究有限公司 | 人体行为识别方法和装置 |
CN105160290A (zh) * | 2015-07-03 | 2015-12-16 | 东南大学 | 一种基于改进型稠密轨迹的移动边界采样的行为识别方法 |
CN105956517A (zh) * | 2016-04-20 | 2016-09-21 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于密集轨迹的动作识别方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
Non-Patent Citations (1)
Title |
---|
邵延华 等: "基于稠密轨迹特征的红外人体行为识别", 《光电子 激光》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116493282A (zh) * | 2023-04-12 | 2023-07-28 | 曲靖阳光新能源股份有限公司 | 基于机器视觉的单品硅片快速分选系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gong et al. | Multi-scale orderless pooling of deep convolutional activation features | |
Cao et al. | Weakly supervised vehicle detection in satellite images via multi-instance discriminative learning | |
Guo et al. | Global-local attention network for aerial scene classification | |
CN104881637B (zh) | 基于传感信息及目标追踪的多模信息系统及其融合方法 | |
Sheng et al. | High-resolution satellite scene classification using a sparse coding based multiple feature combination | |
Vezhnevets et al. | Weakly supervised semantic segmentation with a multi-image model | |
JP5866360B2 (ja) | 画像評価装置、画像評価方法、プログラム、および集積回路 | |
Baran et al. | A smart camera for the surveillance of vehicles in intelligent transportation systems | |
CN103679192B (zh) | 基于协方差特征的图像场景类型判别方法 | |
Saghafi et al. | Review of person re‐identification techniques | |
Saleh et al. | Incorporating network built-in priors in weakly-supervised semantic segmentation | |
CN104751198A (zh) | 图像中的目标物的识别方法及装置 | |
CN102622607A (zh) | 一种基于多特征融合的遥感图像分类方法 | |
CN105488519B (zh) | 一种基于视频尺度信息的视频分类方法 | |
CN109284675A (zh) | 一种用户的识别方法、装置及设备 | |
CN105825233B (zh) | 一种基于在线学习随机蕨分类器的行人检测方法 | |
Sekma et al. | Human action recognition based on multi-layer fisher vector encoding method | |
CN109344842A (zh) | 一种基于语义区域表达的行人重识别方法 | |
CN106529472B (zh) | 基于大尺度高分辨率高光谱图像的目标探测方法及装置 | |
Zhang et al. | A CNN based functional zone classification method for aerial images | |
CN110163144A (zh) | 一种从视频中自动识别人体行为的方法 | |
Zhao et al. | Region-based mixture models for human action recognition in low-resolution videos | |
Tafazzoli et al. | Vehicle make and model recognition using local features and logo detection | |
Wang et al. | Deep learning for scene-independent crowd analysis | |
Tong et al. | Object detection for panoramic images based on MS‐RPN structure in traffic road scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190823 |