CN116170638B - 用于在线动作检测任务的自注意力视频流压缩方法及系统 - Google Patents

用于在线动作检测任务的自注意力视频流压缩方法及系统 Download PDF

Info

Publication number
CN116170638B
CN116170638B CN202310049872.6A CN202310049872A CN116170638B CN 116170638 B CN116170638 B CN 116170638B CN 202310049872 A CN202310049872 A CN 202310049872A CN 116170638 B CN116170638 B CN 116170638B
Authority
CN
China
Prior art keywords
term history
long
short
attention
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310049872.6A
Other languages
English (en)
Other versions
CN116170638A (zh
Inventor
张伟
曹淑强
李晓磊
宋然
程吉禹
李智亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202310049872.6A priority Critical patent/CN116170638B/zh
Publication of CN116170638A publication Critical patent/CN116170638A/zh
Application granted granted Critical
Publication of CN116170638B publication Critical patent/CN116170638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提出了用于在线动作检测任务的自注意力视频流压缩方法及系统,包括:提取视频流的特征并划分为长期历史特征和短期历史特征;基于自注意力对于长期历史特征进行压缩;对短期历史特征及压缩后的长期历史特征基于注意力进行融合建模;利用所建模型对长视频流数据进行处理输出当前帧的动作预测概率分布。使用基于自注意力机制的关键帧筛选策略,实现了对长视频流数据的有效压缩并保证了在线推理的高效性。

Description

用于在线动作检测任务的自注意力视频流压缩方法及系统
技术领域
本发明属于视频处理技术领域,尤其涉及用于在线动作检测任务的自注意力视频流压缩方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着大量视频数据采集设备的部署,每天都会产生大量的视频。如何对在线的视频流进行实时的分析逐渐成为工业界的一个重要需求,例如,异常行为的监控,自动驾驶。
给定输入的视频流,在线动作检测旨在利用缓存的超长历史信息实时的对正在发生的动作进行分析理解。目前在线动作检测算法可以分为以下几种。一些方法仅对持续几秒的短期历史进行上下文建模,舍弃了已经缓存的长期历史。另外一些方法则将历史视频流划分为短期历史和长期历史,对短期历史进行精细化的建模,长期历史进行粗粒度的建模。长期历史和短期历史为当前帧的识别提供了超长的感受野,有效的改善了当前动作的识别。
如果对缓存的长期历史同样进行精细化的上下文建模,会带来巨大的计算负担难以在实际场景中应用,存在历史序列建模的困难。现有的方法大多采用Cross-Attention机制,利用一组可学习的Query对长期历史序列进行大规模的聚类压缩,以便于后续的融合处理。然而,这种通用的压缩方式却忽略了数据内部的结构特征,难以有效的提取序列中的关键信息。
发明内容
为克服上述现有技术的不足,本发明提供了用于在线动作检测任务的自注意力视频流压缩方法,基于自注意力的关键信息筛选方法为当前动作的识别提供了丰富的上下文信息。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了用于在线动作检测任务的自注意力视频流压缩方法,包括:
提取视频流的特征并划分为长期历史特征和短期历史特征;
基于自注意力对于长期历史特征进行压缩;
对短期历史特征及压缩后的长期历史特征基于注意力进行融合建模;
利用所建模型对长视频流数据进行处理在线输出当前帧的动作预测概率分布。
作为进一步的技术方案,对于长期历史特征进行压缩,具体步骤为:
取长期历史视频帧作为输入,并计算平滑后的注意力矩阵;
计算注意力矩阵每行注意力分数的标准差,并从大到小进行排序,取排序靠前的设定序列作为压缩后的序列;
经过设定次筛选,得到压缩后的长期历史特征。
作为进一步的技术方案,对短期历史特征及压缩后的长期历史特征进行融合建模,具体步骤为:
取压缩后的长期历史特征和短期历史特征作为输入;
长期历史特征和短期历史特征分别经过一层自注意力层来对序列进行平滑;
然后长期历史特征和短期历史特征进行序列拼接,并对拼接后的序列输入Co-Attention层进行融合。
第二方面,公开了用于在线动作检测任务的自注意力视频流压缩系统,包括:
特征提取模块,被配置为:提取视频流的特征并划分为长期历史特征和短期历史特征;
特征压缩模块,被配置为:对于长期历史特征进行压缩;
建模模块,被配置为:对短期历史特征及压缩后的长期历史特征进行融合建模;
概率分布预测模块,被配置为:利用所建模型对长视频流数据进行处理输出当前帧的动作预测概率分布。
以上一个或多个技术方案存在以下有益效果:
本发明基于自注意力机制的关键帧筛选策略,有效的挖掘长期历史序列的内在结构特征,为当前动作的识别提供了丰富的上下文信息。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
参见附图1所示,本实施例公开了用于在线动作检测任务的自注意力视频流压缩方法,包括:
首先使用视频骨干网络(例如two-stream、I3D等)提取视频流的特征,并划分为长期历史特征和短期历史特征。对于长期历史特征采用History Encoder(HE)进行压缩,压缩后的长期历史特征和短期历史特征通过Current Decoder(CD)进行融合建模,输出当前帧的动作预测概率分布,即将增强后的短期历史送入分类器,sigmoid函数得到概率分布,取最新帧的结果当作最后的预测结果。
需要说明的是,本实施例子中在线视频动作检测任务,能实时的识别视频流中正在发生的动作,其中,视频流表示只有历史信息可以使用。
具体过程:取缓存区的视频数据作为输入,将视频序列分为长期历史特征和短期历史特征,长期历史特征利用自注意力机制进行压缩。短期历史特征则利用注意力机制融合长期历史特征,并输出当前帧的检测结果。长期历史特征和短期历史特征都来自缓存的视频流数据。短期历史特征比较短,但是与当前时刻最接近。长期历史特征比较长,但是却与当前时刻相聚比较远。
上述视频骨干网络把在线视频流作为输入。在线视频流就是若干帧RGB图像所组成的序列;与离线视频处理不同的是,上述序列中最新的一帧为当前帧,不包含任何未来帧的信息。
关于提取视频流的特征:视频序列数据预处理之后便为数字张量T*H*W,T代表视频的帧数,H,W代表视频的分辨率。
所建模型包括视频骨干模块、长期历史压缩模块、短期历史建模;视频骨干网络负责实时提取视频特征,长期历史压缩模块负责压缩超长的视频序列;短期历史建模模块负责建模短期历史并融合压缩的长期历史信息来帮助对当前帧的识别。
接下来分别阐述各个模块的设计细节:
长期历史压缩:(History Encoder,HE),取LL帧长期历史视频帧即长期历史特征作为输入,并按照如下公式计算平滑后的注意力矩阵AttnL
其中,QK,是注意力的参数矩阵,具体的,QKT代表Query和Key矩阵,代表注意力矩阵的缩放系数即特征张量的维度数量,K、/>α代表超参数,其中,K代表压缩后的序列长度,/>表示历史序列的压缩率,α表示平滑系数。
然后,计算注意力矩阵每行注意力分数的标准差σ(i),并从大到小进行排序,取TopK作为压缩后的序列。
经过N次筛选,得到压缩后的长期历史EL
其中,一次筛选就是网络的一层;下面介绍一层的结构:
计算输入序列的注意力矩阵;
计算矩阵每一行的方差,并进行排序取TopK行的分数;
TopK的注意力分数对序列元素进行加权得到压缩后的序列。
注意力机制会自适应的关注序列中最重要的元素。已有的工作证明,自注意力机制中的注意力矩阵是稀疏的,因此舍弃掉冗余的元素既能够加速又不会对性能产生较大的影响。
因此,本实施例子通过计算每行的方差作为排序指标,取TopK元素,并去掉冗余的序列元素。
短期历史建模步骤:(Current Decoder,CD),取压缩后的长期历史特征EL和短期历史特征ES作为输入。EL和ES分别经过一层自注意力层来对序列进行平滑。然后对EL和ES进行序列拼接得到E,并输入Co-Attention层进行融合。最后取ES对应的输出,输入分类器得到当前帧的概率预测。
其中,EL和ES进行Co-Attention计算,具体的,序列拼接得到E,E进行自注意力运算。由于自注意力运算不改变序列的长度,因此输入和输出序列仍有对应关系。这里取ES的输出指ES对应位置的输出。
针对“在线动作检测”任务,本实施例子技术方案使用基于自注意力机制的关键帧筛选策略,实现了对长视频流数据的有效压缩并保证了在线推理的高效性。
实施例二
本实施例的目的是提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
实施例四
本实施例的目的是提供了用于在线动作检测任务的自注意力视频流压缩系统,包括:
特征提取模块,被配置为:提取视频流的特征并划分为长期历史特征和短期历史特征;
特征压缩模块,被配置为:对于长期历史特征进行压缩;
建模模块,被配置为:对短期历史特征及压缩后的长期历史特征进行融合建模;
概率分布预测模块,被配置为:利用所建模型对长视频流数据进行处理输出当前帧的动作预测概率分布。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (6)

1.用于在线动作检测任务的自注意力视频流压缩方法,其特征是,包括:
提取视频流的特征并划分为长期历史特征和短期历史特征;
基于自注意力对于长期历史特征进行压缩;
对短期历史特征及压缩后的长期历史特征基于注意力进行融合建模;
利用所建模型对长视频流数据进行处理在线输出当前帧的动作预测概率分布;
所建模型包括视频骨干模块、长期历史压缩模块、短期历史建模;视频骨干模块负责实时提取视频特征,长期历史压缩模块负责压缩超长的视频序列;短期历史建模模块负责建模短期历史并融合压缩的长期历史特征来帮助对当前帧的识别;
长期历史压缩:取LL帧长期历史视频帧即长期历史特征作为输入,并按照如下公式计算平滑后的注意力矩阵AttnL
其中,Q和K分别代表Query和Key矩阵,代表注意力矩阵的缩放系数即特征张量的维度数量,/>α代表超参数,其中,k代表压缩后的序列长度,/>表示历史序列的压缩率,α表示平滑系数;
计算注意力矩阵每行注意力分数的标准差σ(i),并从大到小进行排序,取TopK行作为压缩后的序列;
经过N次筛选,得到压缩后的长期历史特征EL
其中,一次筛选就是网络的一层;下面介绍一层的结构:
计算输入序列的注意力矩阵;
计算矩阵每一行的方差,并进行排序取TopK行的分数;
TopK行的注意力分数对序列元素进行加权得到压缩后的序列;
短期历史建模步骤:取压缩后的长期历史特征EL和短期历史特征ES作为输入;取压缩后的长期历史特征EL和短期历史特征ES分别经过一层自注意力层来对序列进行平滑;然后对压缩后的长期历史特征EL和短期历史特征ES进行序列拼接得到E,并输入CoAttention层进行融合;最后取短期历史特征ES对应的输出,输入分类器得到当前帧的概率预测;取出短期历史特征ES的输出指短期历史特征ES对应位置的输出。
2.如权利要求1所述的用于在线动作检测任务的自注意力视频流压缩方法,其特征是,使用视频骨干模块提取视频流的特征,视频骨干模块把在线视频流作为输入,在线视频流就是若干帧RGB图像所组成的序列;该序列中最新的一帧为当前帧,不包含任何未来帧的信息。
3.如权利要求1所述的用于在线动作检测任务的自注意力视频流压缩方法,其特征是,提取视频流的特征为:视频序列数据预处理之后便为数字张量T*H*W,T代表视频的帧数,H,W代表视频的分辨率。
4.在线动作检测任务的自注意力视频流压缩系统,其特征是,包括:
特征提取模块,被配置为:提取视频流的特征并划分为长期历史特征和短期历史特征;
特征压缩模块,被配置为:对于长期历史特征进行压缩;
建模模块,被配置为:对短期历史特征及压缩后的长期历史特征进行融合建模;
概率分布预测模块,被配置为:利用所建模型对长视频流数据进行处理输出当前帧的动作预测概率分布;所建模型包括视频骨干模块、长期历史压缩模块、短期历史建模;视频骨干模块负责实时提取视频特征,长期历史压缩模块负责压缩超长的视频序列;短期历史建模模块负责建模短期历史并融合压缩的长期历史特征来帮助对当前帧的识别;
长期历史压缩:取LL帧长期历史视频帧即长期历史特征作为输入,并按照如下公式计算平滑后的注意力矩阵AttnL
其中,Q和K分别代表Query和Key矩阵,代表注意力矩阵的缩放系数即特征张量的维度数量,/>α代表超参数,其中,k代表压缩后的序列长度,/>表示历史序列的压缩率,α表示平滑系数;
计算注意力矩阵每行注意力分数的标准差σ(i),并从大到小进行排序,取TopK行作为压缩后的序列;
经过N次筛选,得到压缩后的长期历史特征EL
其中,一次筛选就是网络的一层;下面介绍一层的结构:
计算输入序列的注意力矩阵;
计算矩阵每一行的方差,并进行排序取TopK行的分数;
TopK行的注意力分数对序列元素进行加权得到压缩后的序列;
短期历史建模步骤:取压缩后的长期历史特征EL和短期历史特征ES作为输入;取压缩后的长期历史特征EL和短期历史特征ES分别经过一层自注意力层来对序列进行平滑;然后对压缩后的长期历史特征EL和短期历史特征ES进行序列拼接得到E,并输入CoAttention层进行融合;最后取短期历史特征ES对应的输出,输入分类器得到当前帧的概率预测;取出短期历史特征ES的输出指短期历史特征ES对应位置的输出。
5.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-3任一所述的方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-3任一所述的方法的步骤。
CN202310049872.6A 2023-02-01 2023-02-01 用于在线动作检测任务的自注意力视频流压缩方法及系统 Active CN116170638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310049872.6A CN116170638B (zh) 2023-02-01 2023-02-01 用于在线动作检测任务的自注意力视频流压缩方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310049872.6A CN116170638B (zh) 2023-02-01 2023-02-01 用于在线动作检测任务的自注意力视频流压缩方法及系统

Publications (2)

Publication Number Publication Date
CN116170638A CN116170638A (zh) 2023-05-26
CN116170638B true CN116170638B (zh) 2024-04-30

Family

ID=86412713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310049872.6A Active CN116170638B (zh) 2023-02-01 2023-02-01 用于在线动作检测任务的自注意力视频流压缩方法及系统

Country Status (1)

Country Link
CN (1) CN116170638B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008409A (zh) * 2019-04-12 2019-07-12 苏州市职业大学 基于自注意力机制的序列推荐方法、装置及设备
CN110740318A (zh) * 2018-07-20 2020-01-31 英特尔公司 用于视频处理和视频译码的自动自适应长期参考帧选择
CN111246292A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于片段一致性的压缩视频动作识别方法及装置
CN113887286A (zh) * 2021-08-31 2022-01-04 际络科技(上海)有限公司 基于在线视频理解网络的驾驶员行为监控方法
CN114926900A (zh) * 2022-05-10 2022-08-19 电子科技大学 一种前背景分离的人体动作在线检测方法
CN115346269A (zh) * 2022-07-15 2022-11-15 西北工业大学 一种手势动作识别的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740318A (zh) * 2018-07-20 2020-01-31 英特尔公司 用于视频处理和视频译码的自动自适应长期参考帧选择
CN110008409A (zh) * 2019-04-12 2019-07-12 苏州市职业大学 基于自注意力机制的序列推荐方法、装置及设备
CN111246292A (zh) * 2020-01-19 2020-06-05 中国石油大学(华东) 基于片段一致性的压缩视频动作识别方法及装置
CN113887286A (zh) * 2021-08-31 2022-01-04 际络科技(上海)有限公司 基于在线视频理解网络的驾驶员行为监控方法
CN114926900A (zh) * 2022-05-10 2022-08-19 电子科技大学 一种前背景分离的人体动作在线检测方法
CN115346269A (zh) * 2022-07-15 2022-11-15 西北工业大学 一种手势动作识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Exploiting More Information in Sparse Point Cloud for 3D Single Object Tracking;Yubo Cui , Jiayao Shan , Zuoxu Gu, Zhiheng Li, and Zheng Fang;IEEE ROBOTICS AND AUTOMATION LETTERS;20221031;第7卷(第4期);11926 *
基于骨架映射图的人体动作识别与检测;候博翔;硕士电子期;20190915;全文 *

Also Published As

Publication number Publication date
CN116170638A (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN114092742B (zh) 一种基于多角度的小样本图像分类装置和方法
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN111526434A (zh) 基于转换器的视频摘要方法
CN114724060A (zh) 基于掩码自编码器的无监督视频异常检测方法和装置
CN111104855B (zh) 一种基于时序行为检测的工作流识别方法
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN115082306A (zh) 一种基于蓝图可分离残差网络的图像超分辨率方法
CN116170638B (zh) 用于在线动作检测任务的自注意力视频流压缩方法及系统
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN110826545A (zh) 一种视频类别识别的方法及相关装置
CN116229315A (zh) 基于由粗到细粒度信息捕捉的时序动作检测方法及装置
CN113033430B (zh) 基于双线性的多模态信息处理的人工智能方法、系统及介质
CN111476131B (zh) 一种视频处理方法和装置
CN109815911B (zh) 基于深度融合网络的视频运动物体检测系统、方法及终端
CN114218434A (zh) 一种自动标注方法、自动标注装置和计算机可读存储介质
CN115240106B (zh) 任务自适应的小样本行为识别方法及系统
CN117152142B (zh) 一种轴承缺陷检测模型构建方法及系统
CN113887371B (zh) 一种用于低分辨率人脸识别的数据增强方法
CN113744306B (zh) 基于时序内容感知注意力机制的视频目标分割方法
CN117391968A (zh) 一种人脸图像复原方法、系统、存储介质及设备
CN116189280A (zh) 基于子空间分类的小样本行为识别方法及系统
CN116994264A (zh) 一种文本识别方法、芯片及终端
CN117593574A (zh) 输电线路绝缘子闪络故障监测方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant