CN115115718A - 基于ai算法的视频压缩和解压方法 - Google Patents
基于ai算法的视频压缩和解压方法 Download PDFInfo
- Publication number
- CN115115718A CN115115718A CN202110304431.7A CN202110304431A CN115115718A CN 115115718 A CN115115718 A CN 115115718A CN 202110304431 A CN202110304431 A CN 202110304431A CN 115115718 A CN115115718 A CN 115115718A
- Authority
- CN
- China
- Prior art keywords
- video
- pes
- information
- algorithm
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及数据处理方法领域,具体为一种基于AI算法的视频压缩和解压方法。一种基于AI算法的视频压缩和解压方法,包括一、压缩和二、解压缩,其特征是:一、压缩时,按如下步骤依次实施:步骤1,分析;步骤2,获取;步骤3,提取;步骤4,压缩;二、解压缩时,包括3个步骤。本发明大大节省视频文件的存储空间。
Description
技术领域
本发明涉及数据处理方法领域,具体为一种基于AI算法的视频压缩和解压方法。
背景技术
现有的视频都是按照传统的编码方式压缩储存的,图像压缩的效率不高,占用的存储空间大。在数据量几何增长的今天,如何更好更省地存储视频就成为了一个对优化社会资源很重要的问题。在一些视频复杂度不是非常高的情况下,例如各种场景中的监控录像,背景内容变化不大,采用常规方法压缩视频内容会降低存储空间的利用率,影响存储容量。
发明内容
为了克服现有技术的缺陷,提供一种提升视频压缩效率、节省存储空间的数据处理,本发明公开了一种基于AI算法的视频压缩和解压方法。
本发明通过如下技术方案达到发明目的:
一种基于AI算法的视频压缩和解压方法,包括一、压缩和二、解压缩,其特征是:
一、压缩时,按如下步骤依次实施:
步骤1,分析:
通过视频codec分析视频文件,获取所述视频文件中的视频信息,并判断所述视频文件是否包含音频信息,如果所述视频文件包含音频信息,则利用所述视频文件的格式所对应的编译器算法,分离出音频信息;
视频文件格式有多种,这面采用mpg格式为例,如何分离视频信息和音频信息:
如果mpg文件以0x000001B3作为起始码,则所述mpg文件只包括视频信息,如果以0x000001BA为开头,则所述mpg文件包括视频信息和音频信息;
一个mpg文件内有多个pack,每个pack即为一个已被分割开的mpg文件,如果遇到0x000001BA或者0x000001B3,则表示一个pack结束,一个pack内会包含pack_header,system_hader以及PES_packets,PES_packets是包含图像信息和音频信息的数据包;
如果PES_packets开头为0x000001E0~0x000001EF,则表示是所述mpg文件中视频信息的PES起始代码,如果为0x000001C0~0x000001DF,则表示是所述mpg文件中音频信息的PES起始代码,每一个PES_packet遇到下一个0x000001E0~0x000001EF或者0x000001C0~0x000001DF,则表示该PES_packet结束;
通过分析所述mpg文件格式中的pack和pack中的PES_packets,分离出所述mpg文件中的视频信息和音频信息;
步骤2,获取:
获取所述视频信息中的一帧图像:利用算法,获取需要的目标(比如人物,车,或其他事先训练好的AI模型)在所述图像中的位置(能否阐述获取一帧图片的算法),随后除去目标,获取所述图像的其他元素并视为所述图像的背景,所述背景存储为文件并命名文件名为时间戳.png;
同样以mpg文件格式为例,在每个PES_packet中,获取包含时间标记的时间信息,从所述时间信息中识别出PES_packet中包含哪些时间节点的图像,再从所述PES_packet中单独提出某一帧的图像,同时确认压缩的精度,比如是否需要精确捕捉人物的动作,作为参数输入步骤2;
步骤3,提取:
利用提前训练好的神经网络模型(参照压缩算法模型步骤),从每一帧中提取出需要保存的信息,比如人物A在该帧图像中的位置(x,y,z),物体Z在该帧图像中的位置(x,y,z);
通过和之前的压缩结果对比,分析所述需要保存的信息如人物A或者物体Z是否出现过在之前的图像中,如果没有出现过,保存所述需要保存的信息的截图,命名为peopleA.jpg或objectZ.jpg,或者类似能识别的命名方式,每一帧压缩完的类json文件格式,取名为kson;
如果需要压缩精度较高,则提高同一个人物相似度的判断(比如挥手和走路视为不同的动作),需要保存图片命名为peopleAActionA.jpg;
步骤4,压缩:
获取下一帧,比较背景相似度,如果背景没有变化,重复步骤2和3,但其中的存储背景不重复进行,如果背景有变化,需再存一张背景,如此直至完成压缩;
二、解压缩时,按如下步骤依次实施:
步骤1:
读取上述描写的文字文件格式,读取一个kson还原一张图片,还原方法为利用算法,参考解压算法训练步骤,把背景和文字中物体和人物结合,通过预存的背景和人物/物体图像结合生成还原成目标精度的图像;
还原的算法是通过机器学习生成的算法,输入为解压算法产生的数据,输出为连续的图片,通过时间戳升序排序,再结合音频信息,合成视频信息;
生成的图像和原图像相似度通过SIFT、SURF等公开的算法去计算,使原图像和生成图像所表达的意义相同;
步骤2:
读取下一个kson循环这个过程;
步骤3:
如果有音频信息,配上预存的音频信息,还原成视频文件的原有格式。
所述的基于AI算法的视频压缩和解压方法,其特征是:神经网络模型训练按如下步骤依次实施:
步骤1:
确定目标视频压缩内容所要保存的信息(比如视频中只想要保留出现过的人物信息,或者只保留出现过的车辆信息);
步骤2:
准备好目标训练图像数据(比如人物/车)或者利用第三方准备好的或公开的数据进行训练,利用交叉验证的方式训练(循环取90%的图像作为训练数据,剩余的10%作为测试数据,保证每10%的数据都会被当做测试数据测试);
利用卷积神经网络按如下a~e训练:
a. 确认网络模型,包括网络有几层,哪些是卷积层,池化层,激活层,全连接层,
b. 初始化神经网络,随机初始化每一个神经元的连接权重,以及隐含层阈值和输出层阈值,并给定学习速率和激活层函数确定,
c. 正向传播计算,
d. 误差计算并方向传播优化模型,
e. 判断算法是否迭代结束,即是否达到目标准确度,如果不是则重复c~d;
步骤3:
测试模型准确率,利用准备好的测试数据,测试准确度,循环模型训练步骤b~e,直到所有数据都测试完毕,至此模型可以以不低于95%的准确率来识别输入图像中是否有目标物体,并可以确定长方形轮廓。
所述的基于AI算法的视频压缩和解压方法,其特征是:
一、压缩时:
步骤1中:
所述视频文件为mpg格式,
如果mpg文件以0x000001B3作为起始码,则所述mpg文件只包括视频信息,如果以0x000001BA为开头,则所述mpg文件包括视频信息和音频信息;
一个mpg文件内有多个pack,每个pack即为一个已被分割开的mpg文件,如果遇到0x000001BA或者0x000001B3,则表示一个pack结束,一个pack内会包含pack_header,system_hader以及PES_packets,PES_packets是包含图像信息和音频信息的数据包;
如果PES_packets开头为0x000001E0~0x000001EF,则表示是所述mpg文件中视频信息的PES起始代码,如果为0x000001C0~0x000001DF,则表示是所述mpg文件中音频信息的PES起始代码,每一个PES_packet遇到下一个0x000001E0~0x000001EF或者0x000001C0~0x000001DF,则表示该PES_packet结束;
通过分析所述mpg文件格式中的pack和pack中的PES_packets,分离出所述mpg文件中的视频信息和音频信息;
步骤2中:
在每个PES_packet中,获取包含时间标记的时间信息,从所述时间信息中识别出PES_packet中包含哪些时间节点的图像,再从所述PES_packet中单独提出某一帧的图像,同时确认压缩的精度,比如是否需要精确捕捉人物的动作,作为参数输入步骤2。
视频文件的本质是连续的图像加上声音文件。本发明是把每张图片转换成json形式的文字表达(特殊目标,比如某个人,需存为图片),这样连续的图片形成的视频,就成为了一个每一帧为json的文本文件和少许图片。从而可以大幅度提升视频压缩的效率,大大节省几何级数增长的监控录像需要的存储社会资源。
采用本发明,原本100MB的视频,可以在按秒计算的时间内,被压缩成几十KB的文字文件,以及几M的图片文件,压缩效率大大提升,按每天以PB计算的视频生成量,本方法可以节省非常多的存储空间。而解压缩的算法也能在分钟级完成解压,对于一些需要存储,但是不需要经常调用的视频来说,是非常好的使用方法。
附图说明
图1是本发明的流程示意图。
具体实施方式
以下通过具体实施例进一步说明本发明。
实施例1
一种基于AI算法的视频压缩和解压方法,包括一、压缩和二、解压缩,如图1所示,具体如下:
一、压缩时,按如下步骤依次实施:
步骤1,分析:
通过视频codec分析视频文件,获取所述视频文件中的视频信息,并判断所述视频文件是否包含音频信息,如果所述视频文件包含音频信息,则利用所述视频文件的格式所对应的编译器算法,分离出音频信息;
视频文件格式有多种,这面采用mpg格式为例,如何分离视频信息和音频信息:
如果mpg文件以0x000001B3作为起始码,则所述mpg文件只包括视频信息,如果以0x000001BA为开头,则所述mpg文件包括视频信息和音频信息;
一个mpg文件内有多个pack,每个pack即为一个已被分割开的mpg文件,如果遇到0x000001BA或者0x000001B3,则表示一个pack结束,一个pack内会包含pack_header,system_hader以及PES_packets,PES_packets是包含图像信息和音频信息的数据包;
如果PES_packets开头为0x000001E0~0x000001EF,则表示是所述mpg文件中视频信息的PES起始代码,如果为0x000001C0~0x000001DF,则表示是所述mpg文件中音频信息的PES起始代码,每一个PES_packet遇到下一个0x000001E0~0x000001EF或者0x000001C0~0x000001DF,则表示该PES_packet结束;
通过分析所述mpg文件格式中的pack和pack中的PES_packets,分离出所述mpg文件中的视频信息和音频信息;
步骤2,获取:
获取所述视频信息中的一帧图像:利用算法,获取需要的目标(比如人物,车,或其他事先训练好的AI模型)在所述图像中的位置(能否阐述获取一帧图片的算法),随后除去目标,获取所述图像的其他元素并视为所述图像的背景,所述背景存储为文件并命名文件名为时间戳.png,比如21_39_12.png;
同样以mpg文件格式为例,在每个PES_packet中,获取包含时间标记的时间信息,从所述时间信息中识别出PES_packet中包含哪些时间节点的图像,再从所述PES_packet中单独提出某一帧的图像,同时确认压缩的精度,比如是否需要精确捕捉人物的动作,作为参数输入步骤2;
步骤3,提取:
利用提前训练好的神经网络模型(参照压缩算法模型步骤),从每一帧中提取出需要保存的信息,比如人物A在该帧图像中的位置(x,y,z),物体Z在该帧图像中的位置(x,y,z);
通过和之前的压缩结果对比,分析所述需要保存的信息人物A或者物体Z是否出现过在之前的图像中,如果没有出现过,保存所述需要保存的信息的截图,命名为peopleA.jpg或objectZ.jpg,或者类似能识别的命名方式,每一帧压缩完的类json文件格式,取名为kson;
如果需要压缩精度较高,则提高同一个人物相似度的判断(比如挥手和走路视为不同的动作),需要保存图片命名为peopleAActionA.jpg;
步骤4,压缩:
获取下一帧,比较背景相似度,如果背景没有变化,重复步骤2和3,但其中的存储背景不重复进行,如果背景有变化,需再存一张背景,如此直至完成压缩;
以下为算法产生的数据格式的一个实例:
{timestamp: ISODate(’2019-01-01 12:11:11:15,
Objects:[{Id:item1, positionX:100,postionY:110,positionZ:12},…],
People:[{Id:people1,positionX:222,positionY:12,positionZ:22},…]
]}
二、解压缩时,按如下步骤依次实施:
步骤1:
读取上述描写的文字文件格式,读取一个kson还原一张图片,还原方法为利用算法,参考解压算法训练步骤,把背景和文字中物体和人物结合,通过预存的背景和人物/物体图像结合生成还原成目标精度的图像;
还原的算法是通过机器学习生成的算法,输入为解压算法产生的数据,输出为连续的图片,通过时间戳升序排序,再结合音频信息,合成视频信息;
生成的图像和原图像相似度通过SIFT、SURF等公开的算法去计算,使原图像和生成图像所表达的意义相同;
步骤2:
读取下一个kson循环这个过程;
步骤3:
如果有音频信息,配上预存的音频信息,还原成视频文件的原有格式。
本实施例中,神经网络模型训练按如下步骤依次实施:
步骤1:
确定目标视频压缩内容所要保存的信息(比如视频中只想要保留出现过的人物信息,或者只保留出现过的车辆信息);
步骤2:
准备好目标训练图像数据(比如人物/车)或者利用第三方准备好的或公开的数据进行训练,利用交叉验证的方式训练(循环取90%的图像作为训练数据,剩余的10%作为测试数据,保证每10%的数据都会被当做测试数据测试);
利用卷积神经网络按如下a~e训练:
a. 确认网络模型(网络有几层,哪些是卷积层,池化层,激活层,全连接层),
b. 初始化神经网络,随机初始化每一个神经元的连接权重,以及隐含层阈值和输出层阈值,并给定学习速率和激活层函数确定,
c. 正向传播计算,
d. 误差计算并方向传播优化模型,
e. 判断算法是否迭代结束,即是否达到目标准确度,如果不是则重复c~d;
步骤3:
测试模型准确率,利用准备好的测试数据,测试准确度,循环模型训练步骤b~e,直到所有数据都测试完毕,至此模型可以以不低于95%的准确率来识别输入图像中是否有目标物体,并可以确定长方形轮廓。
Claims (3)
1.一种基于AI算法的视频压缩和解压方法,包括一、压缩和二、解压缩,其特征是:
一、压缩时,按如下步骤依次实施:
步骤1,分析:
通过视频codec分析视频文件,获取所述视频文件中的视频信息,并判断所述视频文件是否包含音频信息,如果所述视频文件包含音频信息,则利用所述视频文件的格式所对应的编译器算法,分离出音频信息;
步骤2,获取:
获取所述视频信息中的一帧图像:利用算法,获取需要的目标在所述图像中的位置,随后除去目标,获取所述图像的其他元素并视为所述图像的背景,所述背景存储为文件并命名文件名为时间戳.png;
步骤3,提取:
利用提前训练好的神经网络模型,从每一帧中提取出需要保存的信息;
通过和之前的压缩结果对比,分析所述需要保存的信息是否出现过在之前的图像中,如果没有出现过,保存所述需要保存的信息的截图,命名为peopleA.jpg或objectZ.jpg,或者类似能识别的命名方式,每一帧压缩完的类json文件格式,取名为kson;
如果需要压缩精度较高,则提高同一个人物相似度的判断,需要保存图片命名为peopleAActionA.jpg;
步骤4,压缩:
获取下一帧,比较背景相似度,如果背景没有变化,重复步骤2和3,但其中的存储背景不重复进行,如果背景有变化,需再存一张背景,如此直至完成压缩;
二、解压缩时,按如下步骤依次实施:
步骤1:
读取上述描写的文字文件格式,读取一个kson还原一张图片,还原方法为利用算法,参考解压算法训练步骤,把背景和文字中物体和人物结合,通过预存的背景和人物/物体图像结合生成还原成目标精度的图像;
还原的算法是通过机器学习生成的算法,输入为解压算法产生的数据,输出为连续的图片,通过时间戳升序排序,再结合音频信息,合成视频信息;
生成的图像和原图像相似度通过SIFT或SURF算法去计算,使原图像和生成图像所表达的意义相同;
步骤2:
读取下一个kson循环这个过程;
步骤3:
如果有音频信息,配上预存的音频信息,还原成视频文件的原有格式。
2.如权利要求1所述的基于AI算法的视频压缩和解压方法,其特征是:神经网络模型训练按如下步骤依次实施:
步骤1:确定目标视频压缩内容所要保存的信息;
步骤2:准备好目标训练图像数据或者利用第三方准备好的或公开的数据进行训练,利用交叉验证的方式训练;
利用卷积神经网络按如下①~⑤训练:
①确认网络模型(网络有几层,哪些是卷积层,池化层,激活层,全连接层),
②初始化神经网络,随机初始化每一个神经元的连接权重,以及隐含层阈值和输出层阈值,并给定学习速率和激活层函数确定,
③正向传播计算,
④误差计算并方向传播优化模型,
⑤判断算法是否迭代结束,即是否达到目标准确度,如果不是则重复③~④;
步骤3:
测试模型准确率,利用准备好的测试数据,测试准确度,循环模型训练步骤②~⑤,直到所有数据都测试完毕,至此模型可以以不低于95%的准确率来识别输入图像中是否有目标物体,并可以确定长方形轮廓。
3.如权利要求1或2所述的基于AI算法的视频压缩和解压方法,其特征是:
一、压缩时:
步骤1中:
所述视频文件为mpg格式,
如果mpg文件以0x000001B3作为起始码,则所述mpg文件只包括视频信息,如果以0x000001BA为开头,则所述mpg文件包括视频信息和音频信息;
一个mpg文件内有多个pack,每个pack即为一个已被分割开的mpg文件,如果遇到0x000001BA或者0x000001B3,则表示一个pack结束,一个pack内会包含pack_header,system_hader以及PES_packets,PES_packets是包含图像信息和音频信息的数据包;
如果PES_packets开头为0x000001E0~0x000001EF,则表示是所述mpg文件中视频信息的PES起始代码,如果为0x000001C0~0x000001DF,则表示是所述mpg文件中音频信息的PES起始代码,每一个PES_packet遇到下一个0x000001E0~0x000001EF或者0x000001C0~0x000001DF,则表示该PES_packet结束;
通过分析所述mpg文件格式中的pack和pack中的PES_packets,分离出所述mpg文件中的视频信息和音频信息;
步骤2中:
在每个PES_packet中,获取包含时间标记的时间信息,从所述时间信息中识别出PES_packet中包含哪些时间节点的图像,再从所述PES_packet中单独提出某一帧的图像,同时确认压缩的精度,比如是否需要精确捕捉人物的动作,作为参数输入步骤2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304431.7A CN115115718A (zh) | 2021-03-22 | 2021-03-22 | 基于ai算法的视频压缩和解压方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304431.7A CN115115718A (zh) | 2021-03-22 | 2021-03-22 | 基于ai算法的视频压缩和解压方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115115718A true CN115115718A (zh) | 2022-09-27 |
Family
ID=83322954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110304431.7A Pending CN115115718A (zh) | 2021-03-22 | 2021-03-22 | 基于ai算法的视频压缩和解压方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115115718A (zh) |
-
2021
- 2021-03-22 CN CN202110304431.7A patent/CN115115718A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611847B (zh) | 基于尺度注意力空洞卷积网络的视频动作检测方法 | |
CN111445418B (zh) | 图像去雾处理方法、装置及计算机设备 | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN110826684B (zh) | 卷积神经网络的压缩方法、装置、电子设备和介质 | |
CN109919032B (zh) | 一种基于动作预测的视频异常行为检测方法 | |
CN111353395A (zh) | 一种基于长短期记忆网络的换脸视频检测方法 | |
CN111242180B (zh) | 一种基于轻量化卷积神经网络的图像识别方法及系统 | |
CN113269787A (zh) | 一种基于门控融合的遥感图像语义分割方法 | |
CN112801068B (zh) | 一种视频多目标跟踪与分割系统和方法 | |
CN111582230A (zh) | 基于空时特征的视频行为分类方法 | |
CN115618051A (zh) | 一种基于互联网的智慧校园监控视频存储方法 | |
CN110769259A (zh) | 一种视频目标跟踪轨迹内容的图像数据压缩方法 | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN117011266A (zh) | 输电线路防震锤隐患检测方法、装置和计算机设备 | |
CN115115718A (zh) | 基于ai算法的视频压缩和解压方法 | |
CN116563938A (zh) | 基于动态时空卷积的动态手势识别方法 | |
CN116168213A (zh) | 人流量数据的识别方法和人流量数据识别模型的训练方法 | |
CN114694080A (zh) | 一种监控暴力行为检测方法、系统、装置及可读存储介质 | |
CN113971780A (zh) | 基于CNN和累加隐层状态ConvLSTM的视频人体行为识别方法 | |
CN110489592B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN114329050A (zh) | 视觉媒体数据去重处理方法、装置、设备和存储介质 | |
CN113205503A (zh) | 一种卫星海岸带影像质量评价方法 | |
CN113192009B (zh) | 一种基于全局上下文卷积网络的人群计数方法及系统 | |
CN111785296B (zh) | 基于重复旋律的音乐分段边界识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |