CN110688927B - 一种基于时序卷积建模的视频动作检测方法 - Google Patents
一种基于时序卷积建模的视频动作检测方法 Download PDFInfo
- Publication number
- CN110688927B CN110688927B CN201910890368.2A CN201910890368A CN110688927B CN 110688927 B CN110688927 B CN 110688927B CN 201910890368 A CN201910890368 A CN 201910890368A CN 110688927 B CN110688927 B CN 110688927B
- Authority
- CN
- China
- Prior art keywords
- video
- proposal
- action
- time sequence
- iou
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于时序卷积建模的视频动作检测方法,首先采用动作提案生成技术产生尽可能包含完整动作的提案片段;其次使用非极大值抑制配合加权IoU筛选出完整且重叠度高的提案,随后对提案进行稀疏采样得到指定数量的视频帧;采用深度网络模型提取视频帧的时空特征;然后对得到的帧级时空特征按演化模式划分成三个阶段,随后使用时序卷积对每个阶段的特征分别进行时序建模。最后使用分类器和回归器来预测动作类别和检测动作发生的时间区间。应用本发明可以克服提案的不完整性,同时最大限度的保留视频流的时序信息,进而更为精确的检测视频中的动作。
Description
技术领域
本发明涉及图像、视频处理技术领域,具体是涉及一种基于时序卷积建模的视频动作检测方法。
背景技术
动作检测是近几年视频分析领域中备受关注的研究方向之一,它既要求识别动作类别又要定位出动作在未裁剪、任意长视频中发生的时间区间。
自THUMOS’14挑战赛将时空定位任务切换为时序定位任务以来,近几年动作检测领域取得了快速的进展,然而高精度、高效率的动作检测依旧是视频分析领域的一个大难点。任务的难点在于它既有静态图像处理存在的背景,噪点,遮挡,模糊等所有常见干扰,还有复杂多变的动作姿态,场景。一个高精度网络必须具备高度的抽象能力,学习动作的潜在模式区别,理解不同动作中人与特定物体的关联,区分场景对动作识别的贡献和干扰。也就是说,该任务不仅要求模型具备理解视频高级语义的能力,还要求对提取的不同高级语义进行综合判断。当前的动作检测的性能制约了它在监控,服务型机器人,视频检索等智能视觉系统中的应用。
2016年以前,大多动作检测方法都采用手工特征取得了不错的效果。此类模型通常做法是先提取HOG,MBH,DT等运动描述符(Motion descriptors),然后编码特征,最后用诸如SVM等分类器进行分类。例如在THUMOS’14、15挑战赛上,大部分模型都采用了经过FV编码的iDT特征。然而,随着应用的视频场景变得更复杂,数据集也变得更大,传统的手工特征(hand-craftedfeatures)带来了昂贵的开销,渐渐被弃用。受到R-CNN的启发,Shou等人提出一种多阶段的模型(S-CNN)完全采用CNN特征。虽然该模型用于解决动作定位问题,但它的本质是一个分类网络,它将滑动窗口产生的片段作为输入,若该片段被网络识别为某一类别,则该片段的持续时间默认为视频中动作发生的区间。该方法的检测精度过度依赖于提案片段的召回率。为了进一步解决精度问题,部分方法尝试利用边界回归。Xu等人通过参考Faster R-CNN引入一个回归网络来回归提案与真实动作片段之间中点和长度的相对偏移。前面提到的两种方式都使用Tran等人提出的C3D网络提取深度特征,其优势是采用3D卷积来处理视频所包含的时序信息且模型的设计简单。但是,它具有比2D ConvNets更多的参数由于多出的时序维度,这使得它难以训练。实践中发现它的性能常常不如双流网络。Dai等人提出一个时序上下文网络(TCN)来更好的利用视频的时序信息。具体地,在提案产生阶段将片段拓展为原来的两倍,然后在不同尺度的特征集中选取一对特征,并使用时序卷积获取上下文信息,最后将两个特征合并成固定维度的表征用于排序和分类。
发明内容
本发明的目的在于克服现有时序动作检测技术的不足而提供一种基于时序卷积建模的视频动作检测方法,以最大限度的保留视频的时序信息,同时引导网络模型抽象出动作开始和结束阶段的高级语义,帮助更好的定位动作。
为了实现上述目的,本发明采用如下技术方案:
一种基于时序卷积建模的视频动作检测方法,具体实施步骤如下:
步骤一:动作提案生成
对整个视频流应用动作提案生成技术来产生尽可能包含动作的大量视频片段,再通过非极大值抑制(NMS)技术配合本发明提出的加权IoU作为搜索元素,从生成的大量剪辑片段中筛选与真实实例重叠度较高剪辑片段用于网络模型的输入。
步骤二:片段特征提取
对通过筛选的剪辑片段按预设值进行拓展,形成带有上下文信息的视频片段。再对其进行稀疏采样得到指定数量的视频帧,最后使用深度网络模型提取视频帧的时空特征。
步骤三:时序卷积建模
将得到的视频帧的时空特征根据动作的时序演变模式分为开始,演化,结束三个阶段。针对每个阶段均使用一个时序卷积层对连续多帧的时空特征进行时序建模,提取出前后多帧之间的时序关系信息。
步骤四:分类与回归
经过时序上下文建模之后的特征被分别送入分类器和回归器,分类器用于预测该剪辑片段的动作内容属于某一类的置信值,回归器用于细化定位动作发生的开始和结束时间。
作为优选,步骤一中:
假设每个视频中的真实动作实例表示为这里的Ig代表视频V中真实动作实例的数量,和分别代表真实动作实例的开始时间和结束时间。视频中第m个提案片段中的动作实例表示为 Ip代表提案中动作实例的个数。首先计算提案片段中的第j个动作实例与该视频所有真实动作实例的时序区间的交集和并集的比值, IoU可以反映二者之间的重叠度。再计算两者的时序区间的交集和真实实例区间的比值,本方法将其称之为IoT,可以表示为它能够反映出动作提案片段的完整性。将IoT作为IoU调制系数从而得到加权IoU:
IoUw=IoT*IoU
作为优选,步骤三中:
三个阶段的时空特征可以表示为一个时序卷积层可以被简单表示为Conv(lin,cout,k,s),这里的lin,cout,kands分别代表输入数据长度,输出通道数,卷积核大小以及卷积核步长(stride)。经过时序卷积后的阶段特征可表示为:
其中,W和b表示时序卷积层的权重和偏置(bias)。
可选的,将步骤四中分类器得到各类别的置信值作为softmax函数的输入,计算得到片段属于特定类别的置信度。回归器预测提案片段区间与真实动作实例片段区间的中心点和长度的相对变化,通过坐标转换公式可计算出预测的实际时间区间。
可选的,在本发明方法训练的过程中,针对分类器采用交叉熵损失函数计算置信值的损失,针对回归器采用smooth L1损失函数计算预测偏移量的损失,计算两种损失的加权平均值作为融合损失,最终优化器根据融合损失来优化网络模型。本发明的损失函数如下所示:
Loss=Lcls+βLreg
β表示回归损失的系数,它被用于保持损失平衡,默认设置为1。
本发明提出一种基于时序卷积建模的视频动作检测方法,首先采用动作提案生成技术产生尽可能包含完整动作的提案片段;其次使用非极大值抑制算法配合加权IoU筛选出完整且重叠度高的提案,随后对提案进行稀疏采样得到指定数量的视频帧;采用深度网络模型提取提案视频帧的时空特征;然后对得到的帧级时空特征按演化模式划分成三个阶段,随后使用时序卷积对每个阶段的特征分别进行时序建模。最后使用分类器和回归器来预测动作类别和回归动作发生的时间区间。应用本发明可以克服提案的不完整性,同时最大限度的保留视频流的时序信息,进而更为精确的检测视频中的动作。
附图说明
为了更清楚地说明本发明的技术方案,下面将对方法描述中所需要使用的附图作简单地介绍。
图1是本发明所述一种基于时序卷积建模的视频动作检测方法的流程图。
图2是本发明实施例提供的一种时序卷积建模子模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。图1为本发明提供的一种基于时序卷积建模的视频时序动作检测方法的流程图,该方法包括如下步骤:
S100,通过动作提案生成技术遍历视频流产生尽可能包含动作的提案片段。
上述动作不限类型和复杂程度,也可以是某一种活动,如赛跑,骑马等等。
一种实现方式中,可以在视频序列上通过滑动不同尺度的窗口来产生多尺度动作提案。还可以进一步利用二分类模型剔除部分背景片段保留动作片段,从而优化提案的质量。
另一种实现方式中,可以对所有的视频帧进行预测判断其是动作的概率,然后对得到的概率序列利用分组技术组成包含动作的片段,能够进一步提高动作提案中包含完整动作的概率。
S110,对提案片段进行进一步地筛选,剔除冗余。训练时还需对提案片段进行标签分配,对提案的帧序列进行稀疏采样,得到预设数量的视频帧,具体的:
A)使用非极大值抑制算法,剔除与重叠度较大提案相近的冗余提案。
B)提案标签的分配就是根据预先设置正、负样本的阈值将大于正样本阈值(包含动作内容较为完整)的标记为模型训练的正样本,小于负样本阈值(基本不含动作内容)的标记为负样本。
上述的两个步骤均涉及到评价指标,一种实现方式中使用IoU作为评价指标,另一种实现方式是使用加权IoU作为评价指标。
作为优选,加权IoU不仅能够体现提案与真实动作实例的重叠度,更能体现提案包含动作的完整性,这对于动作检测的精确性有很大影响。
C)稀疏采样旨在减少输入数据的冗余,降低计算成本。采样时根据预设的各阶段比例,分阶段采样指定比例的帧。同时保证一批数据中的正负样本处于合适比例,提升模型训练效果。
假设一个未裁剪的视频表示为有Lv帧。每个视频中的真实动作实例表示为这里的Ig代表视频V中真实动作实例的数量,和分别代表真实动作实例的开始时间和结束时间。首先,采用提案生成技术,对视频V生成多尺度的提案集,表示为Ls表示该视频中片段提案的数量。
视频中第m个提案片段中的动作实例表示为Ip代表提案中动作实例的个数。首先计算提案片段中的第j个动作实例与该视频所有真实动作实例的时序区间的交集和并集的比值,IoU可以反映二者之间的重叠度。再计算两者的时序区间的交集和真实实例区间的比值,本方法将其称之为IoT,可以表示为它能够反映出动作提案片段的完整性。将IoT作为IoU调制系数从而得到加权IoU:
IoUw=IoT*IoU
S120,将采样得到的视频帧进行数据增强以及归一化处理,再使用深度网络模型提取的时空特征。一种实现方式是使用双流网络,分别从RGB图像帧和光流图像帧中获取空间特征和时序特征。另一种方式是利用3D卷积网络从RGB图像帧序列中直接获取时空特征。
时序卷积上下文建模子模块能够利用候选提案片段的帧级特征来学习动作各阶段中相邻的帧之间的潜在关联,例如身体各部位的运动等。该模块如图2所示,给定一个动作片段的帧级特征Ff,将其人为的划分为三个阶段:开始,演化和结束,得到三个阶段特征,表示为然后,对每个阶段的特征应用一个对应的时序卷积层用于该阶段内的多帧特征的筛选和组合。一个时序卷积层可以被简单表示为Conv(lin,cout,k,s),这里的lin,cout,k and s分别代表输入数据长度,输出通道数,卷积核大小以及卷积核步长(stride)。时序卷积后的阶段特征可表示为:
最后对各阶段的融合特征进行简单的联接得到片段级特征F={Fp,p=0,1,2},从而实现对时序上下文的建模。时序卷积层的使用不仅减少了特征帧的数量而且极大限度的保留了各阶段的上下文信息。
S140,经过时序建模之后的特征被分别送入分类器和回归器,分类器用于预测该剪辑片段的动作内容属于某一类的置信值,根据置信值大小可判断分类器的预测的类别,还可以将各类别的置信值作为softmax函数的输入,计算得到片段属于特定类别的置信度。回归器预测提案片段区间与真实动作实例片段区间的中心点和长度的相对变化,精细化定位动作发生的开始和结束时间。最终可以通过坐标转换公式将预测的偏移量转化为实际时间区间。
可选的,在本发明方法训练的过程中,针对分类器采用交叉熵损失函数计算置信值的损失,针对回归器采用smooth L1损失函数计算预测偏移量的损失,计算两种损失的加权平均值作为融合损失,最终优化器根据融合损失来优化网络模型。本发明的损失函数如下所示:
Loss=Lcls+βLreg
β表示回归损失的系数,它被用于保持损失平衡,默认设置为1。
本发明提出一种基于时序卷积建模的视频动作检测方法,首先采用动作提案生成技术产生尽可能包含完整动作的提案片段;其次使用非极大值抑制算法配合加权IoU筛选出完整且重叠度高的提案,随后对提案进行稀疏采样得到指定数量的视频帧;采用深度网络模型提取提案视频帧的时空特征;然后对得到的帧级时空特征按演化模式划分成三个阶段,随后使用时序卷积对每个阶段的特征分别进行时序建模。最后使用分类器和回归器来预测动作类别和检测动作发生的时间区间。应用本发明可以克服提案的不完整性,同时最大限度的保留视频流的时序信息,进而更为精确的检测视频中的动作。
Claims (3)
1.一种基于时序卷积建模的视频动作检测方法,其特征在于,所述方法包括:
采用动作提案生成技术产生尽可能包含完整动作的提案片段;
使用非极大值抑制配合加权IoU筛选出完整且重叠度高的提案,并对提案进行稀疏采样得到指定数量的视频帧;采用深度网络模型提取提案视频帧的时空特征;对得到的帧级时空特征按演化模式划分成三个阶段,随后使用时序卷积对每个阶段的时空特征分别进行时序建模;使用分类器和回归器来预测动作类别和回归动作发生的时间区间,进而更为精确的检测视频中的动作;
使用非极大值抑制算法配合加权IoU筛选出完整且重叠度高的提案,并对提案进行稀疏采样得到指定数量的视频帧,包括:
计算提案片段与对应真实动作实例之间的加权IoU并将其作为非极大值抑制算法的搜索元素,执行算法以剔除冗余的提案片段;
在训练过程中,将加权IoU作为正负样本分配的评价准则,预先设置合适的加权IoU大小作为阈值;根据预设的阈值将提案片段分为正样本集和负样本集;网络输入时,对提案片段进行稀疏采样,同时保证各演化阶段的帧数为预设比例;
利用以下公式计算每个提案片段与真实动作片段之间的加权IoU值:
假设一个未裁剪的视频表示为有Lv帧,每个视频中的真实动作实例表示为这里的Ig代表视频V中真实动作实例的数量,和分别代表真实动作实例的开始时间和结束时间;首先,采用提案生成技术,对视频V生成多尺度的提案集,表示为Ls表示该视频中片段提案的数量;
视频中第m个提案片段中的动作实例表示为Ip代表提案中动作实例的个数;首先计算提案片段中的第j个动作实例与该视频所有真实动作实例的时序区间的交集和并集的比值,IoU可以反映二者之间的重叠度;再计算两者的时序区间的交集和真实实例区间的比值,本方法将其称之为IoT,可以表示为它能够反映出动作提案片段的完整性;将IoT作为IoU调制系数从而得到加权IoU:
IoUw=IoT*IoU。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910890368.2A CN110688927B (zh) | 2019-09-20 | 2019-09-20 | 一种基于时序卷积建模的视频动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910890368.2A CN110688927B (zh) | 2019-09-20 | 2019-09-20 | 一种基于时序卷积建模的视频动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688927A CN110688927A (zh) | 2020-01-14 |
CN110688927B true CN110688927B (zh) | 2022-09-30 |
Family
ID=69109647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910890368.2A Active CN110688927B (zh) | 2019-09-20 | 2019-09-20 | 一种基于时序卷积建模的视频动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688927B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021197298A1 (en) * | 2020-04-01 | 2021-10-07 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for action recognition in video and electronic device |
CN111860289B (zh) * | 2020-07-16 | 2024-04-02 | 北京思图场景数据科技服务有限公司 | 一种时序动作检测方法、装置及计算机设备 |
CN112949544A (zh) * | 2021-03-17 | 2021-06-11 | 上海大学 | 一种基于3d卷积网络的动作时序检测方法 |
CN113569757B (zh) * | 2021-07-29 | 2024-04-05 | 西安交通大学 | 一种时序动作定位方法、系统、终端设备及可读存储介质 |
CN113569824B (zh) * | 2021-09-26 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 模型处理方法、相关设备、存储介质及计算机程序产品 |
CN114445732A (zh) * | 2021-12-22 | 2022-05-06 | 北京理工大学 | 一种面向视频的时间动作检测方法 |
CN114842559B (zh) * | 2022-06-29 | 2022-10-14 | 山东省人工智能研究院 | 基于多模态时间感知和注意力的视频交互动作检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664931A (zh) * | 2018-05-11 | 2018-10-16 | 中国科学技术大学 | 一种多阶段视频动作检测方法 |
WO2018191555A1 (en) * | 2017-04-14 | 2018-10-18 | Drishti Technologies. Inc | Deep learning system for real time analysis of manufacturing operations |
CN109522846A (zh) * | 2018-11-19 | 2019-03-26 | 深圳博为教育科技有限公司 | 一种起立监测方法、装置、服务器及起立监测系统 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN109919122A (zh) * | 2019-03-18 | 2019-06-21 | 中国石油大学(华东) | 一种基于3d人体关键点的时序行为检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229280B (zh) * | 2017-04-20 | 2020-11-13 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
-
2019
- 2019-09-20 CN CN201910890368.2A patent/CN110688927B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018191555A1 (en) * | 2017-04-14 | 2018-10-18 | Drishti Technologies. Inc | Deep learning system for real time analysis of manufacturing operations |
CN108664931A (zh) * | 2018-05-11 | 2018-10-16 | 中国科学技术大学 | 一种多阶段视频动作检测方法 |
CN109522846A (zh) * | 2018-11-19 | 2019-03-26 | 深圳博为教育科技有限公司 | 一种起立监测方法、装置、服务器及起立监测系统 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN109919122A (zh) * | 2019-03-18 | 2019-06-21 | 中国石油大学(华东) | 一种基于3d人体关键点的时序行为检测方法 |
Non-Patent Citations (2)
Title |
---|
Temporally enhanced image object proposals for online video object and;Jiong Yang等;《Journal of Visual Communication and Image Representation》;20180303;第245-256页 * |
基于时空信息的时序动作检测方法研究;胡齐齐 等;《微电子学与计算机》;20190228;第88-92页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110688927A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688927B (zh) | 一种基于时序卷积建模的视频动作检测方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN113688723B (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN108399380A (zh) | 一种基于三维卷积和Faster RCNN的视频动作检测方法 | |
CN109949317A (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110263666B (zh) | 一种基于非对称多流的动作检测方法 | |
CN110135386B (zh) | 一种基于深度学习的人体动作识别方法和系统 | |
CN110443784B (zh) | 一种有效的显著性预测模型方法 | |
CN110866510A (zh) | 一种基于关键帧检测的视频描述系统和方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN110827265B (zh) | 基于深度学习的图片异常检测方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN116939320B (zh) | 一种生成式多模态互利增强视频语义通信方法 | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
CN115311605B (zh) | 基于近邻一致性和对比学习的半监督视频分类方法及系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111199238A (zh) | 一种基于双流卷积神经网络的行为识别方法及设备 | |
CN111625661B (zh) | 一种音视频片段分类方法及装置 | |
CN113591674A (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
Yang et al. | Semantic change driven generative semantic communication framework | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN116524402A (zh) | 基于多头自注意力的多时间跨度上下文建模动作识别方法 | |
CN114758285B (zh) | 基于锚自由和长时注意力感知的视频交互动作检测方法 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |