CN111541900A - 基于gan的安防视频压缩方法、装置、设备及存储介质 - Google Patents
基于gan的安防视频压缩方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111541900A CN111541900A CN202010350553.5A CN202010350553A CN111541900A CN 111541900 A CN111541900 A CN 111541900A CN 202010350553 A CN202010350553 A CN 202010350553A CN 111541900 A CN111541900 A CN 111541900A
- Authority
- CN
- China
- Prior art keywords
- video
- compression
- network
- resolution
- compressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种基于GAN的安防视频压缩方法、装置、设备及存储介质,包括:采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;该模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;设定视频扫描神经网络的输出类别,反向传播训练该网络;交替训练压缩超分辨率重建网络和编解码重建网络,得到训练好的模型;使用视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略模型;采用压缩超分辨率重建网络或编解码重建网络分段进行视频压缩。这样通过GAN网络技术实现视频压缩,压缩率高;且快速扫描分割视频,有针对性的压缩,可以最大程度的压缩视频数据以节省容量。
Description
技术领域
本发明涉及视频压缩技术领域,特别是涉及一种基于GAN的安防视频压缩方法、装置、设备及存储介质。
背景技术
目前,视频监控作为现代安防系统中至关重要的子系统,在城市治安、交通管理、楼宇安防等方面发挥着不可替代的作用,安防监控设备都是24小时工作,将产生大量的视频数据。随着智慧城市和5G技术的发展,采集的视频数据质量越来越高,对安防视频数据存储时间也有更高的要求,这对数据存储带来巨大挑战。
传统的H.265编解码技术一定程度上解决了5G环境下传输的问题,但对于视频存储,传统的视频压缩技术无法实现更高的压缩比,并且安防领域视频基于安防应用包含大量应用无关视频内容。
因此,如何实现更高效的安防视频压缩,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于GAN的安防视频压缩方法、装置、设备及存储介质,可以。其具体方案如下:
一种基于GAN的安防视频压缩方法,包括:
采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;所述安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;
设定所述视频扫描神经网络的输出类别,反向传播训练所述视频扫描神经网络,以及交替训练所述压缩超分辨率重建网络和所述编解码重建网络,得到训练好的安防视频压缩模型;
使用所述视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略模型;
根据选择的所述策略模型,采用所述压缩超分辨率重建网络或所述编解码重建网络分段进行视频压缩。
优选地,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,所述压缩超分辨率重建网络包括分辨率压缩模块,超分辨率解压模块和辨别器;
所述分辨率压缩模块,用于压缩原始视频流的分辨率;
所述超分辨率解压模块,采用3D-ResNet处理视频,用于将压缩后的视频流通过解压生成具有原始分辨率的第一视频流;
所述辨别器,用于对所述第一视频流和原始视频流进行区分。
优选地,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,训练所述压缩超分辨率重建网络,具体包括:
利用所述分辨率压缩模块对分割形成的原始视频流进行分辨率压缩;
将经分辨率压缩后的视频流输入至所述超分辨率解压模块中,生成所述第一视频流;
固定所述辨别器,更新所述超分辨率解压模块的网络参数,使所述辨别器无法区分所述第一视频流和所述原始视频流;
固定所述超分辨率解压模块的网络参数,训练所述辨别器,所述第一视频流为负样例,所述原始视频流为正样例,使所述辨别器与所述超分辨率解压网络组成的网络输出的值越大越好。
优选地,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,所述编解码重建网络包括压缩编码器、压缩解码器和与所述压缩超分辨率重建网络共用的所述辨别器;
所述压缩编码器,用于对原始视频流进行向量编码,生成向量流;
所述压缩解码器,用于根据向量流生成第二视频流;
所述辨别器,还用于对所述第二视频流和原始视频流进行区分。
优选地,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,训练所述编解码重建网络,具体包括:
将分割形成的原始视频流输入到所述压缩编码器中,生成向量流;
将生成的所述向量流输入至所述压缩解码器中,生成第二视频流;
固定所述辨别器,更新所述压缩编码器和所述压缩解码器的网络参数,使所述辨别器无法区分所述第二视频流和所述原始视频流;
固定所述压缩编码器和所述压缩解码器的网络参数,训练所述辨别器,所述第二视频流为负样例,所述原始视频流为正样例,使所述辨别器、所述压缩编码器和所述压缩解码器组成的网络输出的值越大越好。
优选地,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,采用所述压缩超分辨率重建网络或所述编解码重建网络进行压缩,具体包括:
若采用所述压缩超分辨率重建网络,则使用所述分辨率压缩模块直接进行压缩;
若采用所述编解码重建网络,则使用所述压缩编码器直接进行压缩;
将包含类别标记和所采用网络的元数据添加到压缩视频中,完成组装。
优选地,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,在采用所述压缩超分辨率重建网络或所述编解码重建网络进行压缩之后,还包括:
读取所述压缩视频中的元数据,根据类别选择不同的策略模型,进行视频解码;
若采用所述压缩超分辨率重建网络,则使用所述超分辨率解压模块进行解码;
若采用所述编解码重建网络,则使用所述压缩解码器解码重建视频;
循环执行上述步骤,直至完成视频组装。
本发明实施例还提供了一种基于GAN的安防视频压缩装置,包括:
模型构建模块,用于采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;所述安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;
模型训练模块,用于设定所述视频扫描神经网络的输出类别,反向传播训练所述视频扫描神经网络,以及交替训练所述压缩超分辨率重建网络和所述编解码重建网络,得到训练好的安防视频压缩模型;
策略选择模块,用于使用所述视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略模型;
视频压缩模块,用于根据选择的所述策略模型,采用所述压缩超分辨率重建网络或所述编解码重建网络分段进行视频压缩。
本发明实施例还提供了一种基于GAN的安防视频压缩设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述基于GAN的安防视频压缩方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述基于GAN的安防视频压缩方法。
从上述技术方案可以看出,本发明所提供的一种基于GAN的安防视频压缩方法、装置、设备及存储介质,包括:采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;设定视频扫描神经网络的输出类别,反向传播训练视频扫描神经网络,以及交替训练压缩超分辨率重建网络和编解码重建网络,得到训练好的安防视频压缩模型;使用视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略模型;根据选择的策略模型,采用压缩超分辨率重建网络或编解码重建网络分段进行视频压缩。
本发明采用GAN网络和深度学习技术,构建了基于安防视频的压缩模型,模型主要由视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络构成;与传统的视频压缩编解码技术相比,采用压缩超分辨率重建网络和编解码重建网络进行视频压缩,神经网络学习到视频帧间相关性,压缩率更高;且充分考虑到安防视频的特点,存在大量的与应用无关的视频,采用视频扫描神经网络快速扫描分割视频,有针对性的进行压缩,动态选择策略最大程度的压缩视频数据以节省容量。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的基于GAN的安防视频压缩方法的流程图;
图2为本发明实施例提供的模型网络的结构示意图;
图3为本发明实施例提供的模型训练的流程图;
图4为本发明实施例提供的视频压缩的流程图;
图5为本发明实施例提供的视频解压的流程图;
图6为本发明实施例提供的基于GAN的安防视频压缩装置的结构示意图。
具体实施方式
生成式对抗网络(Generative Adversarial Networks,GAN)是一种深度学习模型,最初由Ian Goodfellow提出,是近年来复杂分布上无监督学习最重要的方法之一。GAN模型通过框架中的两个模块生成器(Generator)和判别器(Discriminator)的互相博弈学习产生高质量的输出,其目标是训练一个生成模型完美的拟合真实数据分布使得判别模型无法区分。生成模型的作用是模拟真实数据的分布,判别模型的作用是判断一个样本是真实的样本还是生成的样本,通过轮流训练判别器和生成器,令其相互对抗,从复杂概率分布中采样,最终完成神经网络的训练。GAN网络被广泛应用于生成领域,GAN可以产生令人印象深刻的结果,并且可以控制平滑且合理的语义变化,成为最重要的学习任意复杂数据分布的生成模型框架。
基于此,本发明正是有效利用GAN和深度学习技术,结合安防领域应用特点,实现更高效的安防视频压缩。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于GAN的安防视频压缩方法,如图1所示,包括以下步骤:
S101、采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;
具体地,在视频分割及标注分类后,根据结构设定压缩策略(即策略模型),采用GAN网络和深度学习技术构建基于安防视频的压缩模型;
S102、设定视频扫描神经网络的输出类别,反向传播训练视频扫描神经网络,以及交替训练压缩超分辨率重建网络和编解码重建网络,得到训练好的安防视频压缩模型;
在实际应用中,基于现有模型,结合大量安防领域训练数据对模型进行训练,对于GAN网络部分,交替训练生成器和判别器,最终形成网络模型;另外,可以根据安防应用的反馈进行有针对性的训练,调整模型参数,形成更加准确、符合应用要求的压缩模型;
S103、使用视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略网络;
S104、根据选择的策略网络,采用压缩超分辨率重建网络或编解码重建网络分段进行视频压缩;
具体地,步骤S103和步骤S104是在视频压缩过程中,将待压缩视频根据扫描结果分段,结合压缩策略选择不同的网络进行压缩,输出压缩后视频。
在本发明实施例提供的上述基于GAN的安防视频压缩方法中,采用GAN网络和深度学习技术,构建了基于安防视频的压缩模型,模型主要由视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络构成;与传统的视频压缩编解码技术相比,采用压缩超分辨率重建网络和编解码重建网络进行视频压缩,神经网络学习到视频帧间相关性,压缩率更高;且充分考虑到安防视频的特点,存在大量的与应用无关的视频,采用视频扫描神经网络快速扫描分割视频,有针对性的进行压缩,动态选择策略最大程度的压缩视频数据以节省容量。
需要说明的是,如图2所示,视频扫描神经网络Scan主要负责快速扫描视频流,根据安防视频领域特点选择压缩策略,Scan网络主体是由3D-CNN卷积网络构成,是一个分类器,将判断其分段压缩策略。
在具体实施时,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,如图2所示,压缩超分辨率重建网络CR-GAN是GAN网络,先采用压缩分辨率再由GAN网络生成超分辨率重建视频的方式,可以包括分辨率压缩Cp模块,超分辨率解压Gr模块和辨别器D;
分辨率压缩Cp模块,用于压缩原始视频流Vt(即待压缩视频流Vt)的分辨率;
超分辨率解压Gr模块主体是CNN网络,采用3D-ResNet处理视频,用于将压缩后的视频流通过Gr网络生成具有原始分辨率的第一视频流Vg1;
辨别器D,用于对第一视频流Vg1和原始视频流Vt进行区分。
进一步地,在具体实施时,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,步骤S102训练压缩超分辨率重建网络,具体可以包括:首先,利用分辨率压缩模块对分割形成的原始视频流进行分辨率压缩;然后,将经分辨率压缩后的视频流输入至超分辨率解压模块中,生成第一视频流;之后,固定辨别器,更新超分辨率解压模块的网络参数,使辨别器无法区分第一视频流和原始视频流;最后,固定超分辨率解压模块的网络参数,训练辨别器,第一视频流为负样例,原始视频流为正样例,使辨别器与超分辨率解压网络组成的网络输出的值越大越好。
在具体实施时,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,如图2所示,编解码重建网络ED-GAN是GAN网络,采用编解码方式重构视频的方式,可以包括压缩编码器Ge、压缩解码器Gd和与压缩超分辨率重建网络CR-GAN共用的辨别器D;
压缩编码器Ge主体是CNN+RNN,用于对原始视频流Vt进行向量编码,生成向量流Sv;
压缩解码器Gd,用于根据向量流Sv生成第二视频流Vg2;
辨别器D,还用于对第二视频流Vg2和原始视频流Vt进行区分。
在具体实施时,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,步骤S102训练编解码重建网络,具体可以包括:首先,将分割形成的原始视频流输入到压缩编码器中,生成向量流;然后,将生成的向量流输入至压缩解码器中,生成第二视频流;之后,固定辨别器,更新压缩编码器和压缩解码器的网络参数,使辨别器无法区分第二视频流和原始视频流;最后,固定压缩编码器和压缩解码器的网络参数,训练辨别器,第二视频流为负样例,原始视频流为正样例,使辨别器、压缩编码器和压缩解码器组成的网络输出的值越大越好。
如图3所示,下面以一个具体实例来详细描述下模型训练过程的具体步骤:
步骤一、收集大量安防视频数据,根据业务需求进行视频分割并进行标注分类;
步骤二、基于现有安防应用需求,设定视频扫描神经网络Scan的输出类别,采用反向传播技术训练网络;
步骤三、训练压缩超分辨率重建网络CR-GAN和编解码重建ED-GAN网络;
步骤四、利用分辨率压缩Cp模块对于待压缩视频流Vt进行分辨率压缩,得到压缩后视频流Sp;
步骤五、将Sp输入到超分辨率解压Gr网络中,生成原始分辨率视频流Vg1;
步骤六、固定辨别器D,更新超分辨率解压Gr模型参数,使得辨别器D无法区分两组视频,Vg1和Vt的距离(相似度)越小越好;
步骤七、固定超分辨率解压Gr网络参数,训练辨别器D,生成视频Vg1为负样例,原始视频Vt为正样例,使得辨别器D与Gr组成的网络Gr+D输出的值越大越好;
步骤八、将待压缩视频流Vt输入到压缩编码器Ge网络中,生成向量流Sv,再将Sv输入到压缩解码器Gd网络中,生成视频流Vg2;
步骤九、固定辨别器D,更新压缩编码器Ge和压缩解码器Gd网络参数,使得辨别器D无法区分两组视频Vt和Vg2;
步骤十、固定压缩编码器Ge和压缩解码器Gd网络参数训练辨别器D,生成视频Vg2为负样例,原始视频Vt为正样例,使得辨别器D组成的网络Ge+Gd+D输出的值越大越好;
步骤十一、交替训练压缩超分辨率重建网络CR-GAN和编解码重建ED-GAN网络,得到最终的网络模型。
在具体实施时,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,步骤S104采用压缩超分辨率重建网络或编解码重建网络进行压缩,具体可以包括:若采用压缩超分辨率重建网络,则使用分辨率压缩模块直接进行压缩;若采用编解码重建网络,则使用压缩编码器直接进行压缩;将包含类别标记和所采用网络的元数据添加到压缩视频中,完成组装。
如图4所示,下面以一个具体实例来详细描述下视频压缩过程的具体步骤:
第一步、使用所述的视频扫描神经网络Scan模块快速扫描视频,按照设定的类别进行视频分割;
第二步、根据类别选择不同的策略模型,分段对视频压缩;
第三步、如果采用压缩超分辨率重建方式,则使用所述的分辨率压缩Cp模块直接压缩;
第四步、如果采用编解码重建方式,则使用所述的压缩编码器Ge网络进行压缩;
第五步、添加类别标记、采用网络等元数据到压缩视频中,循环执行第二步至第四步,完成组装。
在具体实施时,在本发明实施例提供的上述基于GAN的安防视频压缩方法中,在采用压缩超分辨率重建网络或编解码重建网络进行压缩之后,还包括:
读取压缩视频中的元数据,根据类别选择不同的策略网络,进行视频解码;
若采用压缩超分辨率重建网络,则使用超分辨率解压模块进行解码;
若采用编解码重建网络,则使用压缩解码器解码重建视频;
循环执行上述步骤,直至完成视频组装。
具体地,视频解压过程,根据不同的压缩策略,利用GAN网络重建视频。
如图5所示,下面以一个具体实例来详细描述下视频解压过程的具体步骤:
第六步、读取压缩视频中的元数据,根据类别选择不同的策略模型,进行视频解码;
第七步、如果采用压缩超分辨率重建方式,则使用所述的超分辨率解压Gr模块进行解码;
第八步、如果编解码重建方式,则使用所述的压缩解码器Gd解码重建视频;
第九步、循环执行第六步至第九步,直到完成视频组装。
基于同一发明构思,本发明实施例还提供了一种基于GAN的安防视频压缩装置,由于该基于GAN的安防视频压缩装置解决问题的原理与前述一种基于GAN的安防视频压缩方法相似,因此该基于GAN的安防视频压缩装置的实施可以参见基于GAN的安防视频压缩方法的实施,重复之处不再赘述。
在具体实施时,本发明实施例提供的基于GAN的安防视频压缩装置,如图6所示,具体包括:
模型构建模块11,用于采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;
模型训练模块12,用于设定视频扫描神经网络的输出类别,反向传播训练视频扫描神经网络,以及交替训练压缩超分辨率重建网络和编解码重建网络,得到训练好的安防视频压缩模型;
策略选择模块13,用于使用视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略网络;
视频压缩模块14,用于根据选择的策略网络,采用压缩超分辨率重建网络或编解码重建网络分段进行视频压缩。
在本发明实施例提供的上述基于GAN的安防视频压缩装置中,可以通过上述四个模块的相互作用,将安防视频关键帧进行帧内压缩,并通过GAN网络技术实现数据压缩和生成超分辨率视频完成视频重建,结合安防应用特点,采用神经网络判断视频内容对于实际应用的有效性来设定压缩参数,动态选择网络完成视频压缩,最大程度的压缩视频数据以节省容量。
关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
相应的,本发明实施例还公开了一种基于GAN的安防视频压缩设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现前述实施例公开的基于GAN的安防视频压缩方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的基于GAN的安防视频压缩方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本发明实施例提供的一种基于GAN的安防视频压缩方法、装置、设备及存储介质,包括:采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;设定视频扫描神经网络的输出类别,反向传播训练视频扫描神经网络,以及交替训练压缩超分辨率重建网络和编解码重建网络,得到训练好的安防视频压缩模型;使用视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略模型;根据选择的策略模型,采用压缩超分辨率重建网络或编解码重建网络分段进行视频压缩。这样采用GAN网络和深度学习技术,构建基于安防视频的压缩模型,与传统的视频压缩编解码技术相比,采用压缩超分辨率重建网络和编解码重建网络进行视频压缩,神经网络学习到视频帧间相关性,压缩率更高;且充分考虑到安防视频的特点,存在大量的与应用无关的视频,采用视频扫描神经网络快速扫描分割视频,有针对性的进行压缩,动态选择策略最大程度的压缩视频数据以节省容量。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的基于GAN的安防视频压缩方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于GAN的安防视频压缩方法,其特征在于,包括:
采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;所述安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;
设定所述视频扫描神经网络的输出类别,反向传播训练所述视频扫描神经网络,以及交替训练所述压缩超分辨率重建网络和所述编解码重建网络,得到训练好的安防视频压缩模型;
使用所述视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略模型;
根据选择的所述策略模型,采用所述压缩超分辨率重建网络或所述编解码重建网络分段进行视频压缩。
2.根据权利要求1所述的基于GAN的安防视频压缩方法,其特征在于,所述压缩超分辨率重建网络包括分辨率压缩模块,超分辨率解压模块和辨别器;
所述分辨率压缩模块,用于压缩原始视频流的分辨率;
所述超分辨率解压模块,采用3D-ResNet处理视频,用于将压缩后的视频流通过解压生成具有原始分辨率的第一视频流;
所述辨别器,用于对所述第一视频流和原始视频流进行区分。
3.根据权利要求2所述的基于GAN的安防视频压缩方法,其特征在于,训练所述压缩超分辨率重建网络,具体包括:
利用所述分辨率压缩模块对分割形成的原始视频流进行分辨率压缩;
将经分辨率压缩后的视频流输入至所述超分辨率解压模块中,生成所述第一视频流;
固定所述辨别器,更新所述超分辨率解压模块的网络参数,使所述辨别器无法区分所述第一视频流和所述原始视频流;
固定所述超分辨率解压模块的网络参数,训练所述辨别器,所述第一视频流为负样例,所述原始视频流为正样例,使所述辨别器与所述超分辨率解压网络组成的网络输出的值越大越好。
4.根据权利要求3所述的基于GAN的安防视频压缩方法,其特征在于,所述编解码重建网络包括压缩编码器、压缩解码器和与所述压缩超分辨率重建网络共用的所述辨别器;
所述压缩编码器,用于对原始视频流进行向量编码,生成向量流;
所述压缩解码器,用于根据向量流生成第二视频流;
所述辨别器,还用于对所述第二视频流和原始视频流进行区分。
5.根据权利要求4所述的基于GAN的安防视频压缩方法,其特征在于,训练所述编解码重建网络,具体包括:
将分割形成的原始视频流输入到所述压缩编码器中,生成向量流;
将生成的所述向量流输入至所述压缩解码器中,生成第二视频流;
固定所述辨别器,更新所述压缩编码器和所述压缩解码器的网络参数,使所述辨别器无法区分所述第二视频流和所述原始视频流;
固定所述压缩编码器和所述压缩解码器的网络参数,训练所述辨别器,所述第二视频流为负样例,所述原始视频流为正样例,使所述辨别器、所述压缩编码器和所述压缩解码器组成的网络输出的值越大越好。
6.根据权利要求5所述的基于GAN的安防视频压缩方法,其特征在于,采用所述压缩超分辨率重建网络或所述编解码重建网络进行压缩,具体包括:
若采用所述压缩超分辨率重建网络,则使用所述分辨率压缩模块直接进行压缩;
若采用所述编解码重建网络,则使用所述压缩编码器直接进行压缩;
将包含类别标记和所采用网络的元数据添加到压缩视频中,完成组装。
7.根据权利要求6所述的基于GAN的安防视频压缩方法,其特征在于,在采用所述压缩超分辨率重建网络或所述编解码重建网络进行压缩之后,还包括:
读取所述压缩视频中的元数据,根据类别选择不同的策略模型,进行视频解码;
若采用所述压缩超分辨率重建网络,则使用所述超分辨率解压模块进行解码;
若采用所述编解码重建网络,则使用所述压缩解码器解码重建视频;
循环执行上述步骤,直至完成视频组装。
8.一种基于GAN的安防视频压缩装置,其特征在于,包括:
模型构建模块,用于采集大量安防视频数据并进行视频分割及标注分类,构建安防视频压缩模型;所述安防视频压缩模型包括视频扫描神经网络、压缩超分辨率重建网络和编解码重建网络;
模型训练模块,用于设定所述视频扫描神经网络的输出类别,反向传播训练所述视频扫描神经网络,以及交替训练所述压缩超分辨率重建网络和所述编解码重建网络,得到训练好的安防视频压缩模型;
策略选择模块,用于使用所述视频扫描神经网络快速扫描待压缩视频,按照设定的类别进行视频分割,并根据类别选择不同的策略模型;
视频压缩模块,用于根据选择的所述策略模型,采用所述压缩超分辨率重建网络或所述编解码重建网络分段进行视频压缩。
9.一种基于GAN的安防视频压缩设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的基于GAN的安防视频压缩方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于GAN的安防视频压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350553.5A CN111541900B (zh) | 2020-04-28 | 2020-04-28 | 基于gan的安防视频压缩方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350553.5A CN111541900B (zh) | 2020-04-28 | 2020-04-28 | 基于gan的安防视频压缩方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111541900A true CN111541900A (zh) | 2020-08-14 |
CN111541900B CN111541900B (zh) | 2022-05-17 |
Family
ID=71980174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010350553.5A Active CN111541900B (zh) | 2020-04-28 | 2020-04-28 | 基于gan的安防视频压缩方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111541900B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112565777A (zh) * | 2020-11-30 | 2021-03-26 | 通号智慧城市研究设计院有限公司 | 基于深度学习模型视频数据传输方法、系统、介质及设备 |
CN112839256A (zh) * | 2020-12-30 | 2021-05-25 | 珠海极海半导体有限公司 | 视频播放方法、装置和电子设备 |
CN114900714A (zh) * | 2022-04-12 | 2022-08-12 | 科大讯飞股份有限公司 | 一种基于神经网络的视频生成方法及相关装置 |
CN112116906B (zh) * | 2020-08-27 | 2024-03-22 | 山东浪潮科学研究院有限公司 | 一种基于gan网络的现场混音方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301400A (zh) * | 2017-06-23 | 2017-10-27 | 深圳市唯特视科技有限公司 | 一种语义导向的半监督视频对象分割方法 |
CN109615582A (zh) * | 2018-11-30 | 2019-04-12 | 北京工业大学 | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110248191A (zh) * | 2019-07-15 | 2019-09-17 | 山东浪潮人工智能研究院有限公司 | 一种基于深层卷积神经网络的视频压缩方法 |
US20190373293A1 (en) * | 2019-08-19 | 2019-12-05 | Intel Corporation | Visual quality optimized video compression |
-
2020
- 2020-04-28 CN CN202010350553.5A patent/CN111541900B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301400A (zh) * | 2017-06-23 | 2017-10-27 | 深圳市唯特视科技有限公司 | 一种语义导向的半监督视频对象分割方法 |
CN109615582A (zh) * | 2018-11-30 | 2019-04-12 | 北京工业大学 | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110248191A (zh) * | 2019-07-15 | 2019-09-17 | 山东浪潮人工智能研究院有限公司 | 一种基于深层卷积神经网络的视频压缩方法 |
US20190373293A1 (en) * | 2019-08-19 | 2019-12-05 | Intel Corporation | Visual quality optimized video compression |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116906B (zh) * | 2020-08-27 | 2024-03-22 | 山东浪潮科学研究院有限公司 | 一种基于gan网络的现场混音方法、装置、设备及介质 |
CN112565777A (zh) * | 2020-11-30 | 2021-03-26 | 通号智慧城市研究设计院有限公司 | 基于深度学习模型视频数据传输方法、系统、介质及设备 |
CN112839256A (zh) * | 2020-12-30 | 2021-05-25 | 珠海极海半导体有限公司 | 视频播放方法、装置和电子设备 |
CN114900714A (zh) * | 2022-04-12 | 2022-08-12 | 科大讯飞股份有限公司 | 一种基于神经网络的视频生成方法及相关装置 |
CN114900714B (zh) * | 2022-04-12 | 2023-11-21 | 科大讯飞股份有限公司 | 一种基于神经网络的视频生成方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111541900B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111541900B (zh) | 基于gan的安防视频压缩方法、装置、设备及存储介质 | |
Gündüz et al. | Beyond transmitting bits: Context, semantics, and task-oriented communications | |
Qin et al. | Semantic communications: Principles and challenges | |
Dong et al. | Peco: Perceptual codebook for bert pre-training of vision transformers | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN111782768B (zh) | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 | |
CN112863180B (zh) | 交通速度预测方法、装置、电子设备及计算机可读介质 | |
Zhang et al. | Generative steganography by sampling | |
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN113011570A (zh) | 一种卷积神经网络模型的自适应高精度压缩方法及系统 | |
CN109815496A (zh) | 基于容量自适应收缩机制载体生成式文本隐写方法及装置 | |
CN110232564A (zh) | 一种基于多模态数据的交通事故法律自动决策方法 | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
Zhou et al. | ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
CN113328755A (zh) | 一种面向边缘计算的压缩数据传输方法 | |
Li et al. | Towards communication-efficient digital twin via ai-powered transmission and reconstruction | |
CN116208772A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN116385946A (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN113949880B (zh) | 一种极低码率人机协同图像编码训练方法及编解码方法 | |
CN115604131A (zh) | 一种链路流量预测方法、系统、电子设备及介质 | |
CN115295018A (zh) | 基于贝叶斯网络的基音周期调制信息隐藏检测方法 | |
CN115270917A (zh) | 一种两阶段处理多模态服装图像生成方法 | |
CN115496175A (zh) | 新建边缘节点接入评估方法、装置、终端设备及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220424 Address after: 250098 building S02, No. 1036, Gaoxin Inspur Road, Jinan, Shandong Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd. Address before: 250104 1st floor, R & D building, 2877 Kehang Road, Suncun Town, high tech Zone, Jinan City, Shandong Province Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |