CN115150623A - 一种基于人工智能分类方式的视频图像压缩去冗余方法 - Google Patents
一种基于人工智能分类方式的视频图像压缩去冗余方法 Download PDFInfo
- Publication number
- CN115150623A CN115150623A CN202210773564.3A CN202210773564A CN115150623A CN 115150623 A CN115150623 A CN 115150623A CN 202210773564 A CN202210773564 A CN 202210773564A CN 115150623 A CN115150623 A CN 115150623A
- Authority
- CN
- China
- Prior art keywords
- objects
- video stream
- coded
- class
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
基于人工智能分类方式的视频图像压缩去冗余方法,包括:S1:给定一个待编码的原始视频流;S2:对原始视频流内所有图像内容按帧进行对象分类;S3:对分类出的各个对象数据进行特征提取;S4:选定一类对象,利用人工智能比对算法,对视频流中的选定的同类对象进行多次比对,得出该类的比对结果;S5:若多个同类对象比对结果相似度高,则只编码其中一个对象;S6:对剩余相似度高的对象不进行编码,直接做标记处理;S7:对相似度低的同类对像进行正常编码;S8:选定S3中的其他未编码对象,重复步骤S4‑S7,直至所有的分类对象都完全编码;以及S9:对其他未分类的图像进行正常编码,直至视频流编码完成。本发明方法进一步节省存储空间,增加了传输效率。
Description
技术领域
本发明属于视频压缩编码领域,特别地,涉及一种基于人工智能分类方式的视频图像压缩去冗余方法。
背景技术
在数字视频信号中,产生原始图像的数据量是相当大的,不利于直接存储和传输,为此有必要进行数据视频的压缩处理。当前视频压缩标准比较多,如H264、H265、H266等视频标准。在所有视频压缩标准里,图像冗余技术一直作为视频压缩的重要手段,直接参与图像处理,把一些无关信息当做冗余去掉,或者把一些重复特征信息只做一次处理,这么做不紧节约了数据存储,同时又提高数据传输效率,为后续的图像传输与存储提供行之有效的方法。常见的冗余技术有符号冗余,图像相似性冗余,结构相似性冗余等,这些冗余技术已广泛应用到视频压缩编码中。但是背景技术存在的主要问题和解决上述问题的难度是:随着超高清视频内容的不断普及,视频分辨率越大,编码后的码率就越大,所需要压缩比更高,需要网络传输带宽更高,所以已有的去冗余技术已不能够满足超高分辨率的视频压缩在有限带宽下的传输要求,这就需要更高压缩比、更低码率的视频压缩技术,为此在当前冗余技术前提下,本发明提出了一种基于人工智能分类方式的视频图像压缩去冗余方法,该方法通过人工智能方式对相同类的图像识别后去编码,同类对象在视频中出现次数越多,去编码的内容就越多,实际编码的内容就越少,编码后的码率就越低。解决以上问题及缺陷的意义为:可有效提高视频压缩比,降低视频编码码率,对利用当下有限带宽传输超高清编码视频具备一定的可行性,从而促进视频编码传输产业从高清市场向超高清分辨率迈出重要的一步。
发明内容
本发明提供了一种基于人工智能分类方式的视频图像压缩去冗余方法,通过人工智能对图像内的各区域对象进行分类处理,通过推理判断出相似特征的对像,去掉重复特征区域,达到再次去冗余目的,从而进一步节省存储空间,增加了传输效率,可有效提高视频压缩比,降低视频编码码率。
本发明的技术方案如下:
本发明的基于人工智能分类方式的视频图像压缩去冗余方法,包括以下步骤:S1:给定一个待编码的原始视频流,并准备好分类算法与类的特征提取、类对像比对算法;S2:使用分类算法对原始视频流内所有图像内容按帧进行对象分类;S3:对分类出的各个对象数据进行特征提取,得到一串二进制特征码,并把特征码进行数据存储;S4:选定一类对象,利用人工智能比对算法,对视频流中的选定的同类对象进行多次比对,得出该类的比对结果;S5:若多个同类对象的比对结果相似度达0.9或以上,则只编码其中一个对象;S6:对剩余相似度高的对象不进行编码,直接做标记处理,以去除冗余;S7:对相似度低的同类对像进行正常编码;S8:选定S3中的其他未编码对象,重复步骤S4-S7,直至所有的分类对象都完全编码;以及S9:对其他未分类的图像进行正常编码,直至视频流编码完成。
优选地,在上述基于人工智能分类方式的视频图像压缩去冗余方法中,原始视频流内图片中的对象为人脸。
优选地,在上述基于人工智能分类方式的视频图像压缩去冗余方法中,包括以下步骤:S1:提供一段未编码的视频流;S2:使用人脸识别算法验证视频流,人脸识别检测到视频流中的不同的人脸;S3:对不同人的人脸进行特征数据存储;S4:选中其中一张人脸,并与其他人脸进行特征比对;S5:比对所人人脸,若人脸比对特征相似度值高于或等于0.9,只取一张进行编码;S6:剩余相似度高的人脸直接做标记处理,不进行编码,以去掉大量重复人脸数据编码;S7:对相似度低的人脸则直接进行正常编码;S8:在步骤S3中,选择其他人脸,重复步骤S4-S7,直至所有人脸都已比对完成;S9:对其他非人脸数据正常编码。
根据本发明的技术方案,产生的有益效果是:
本发明方法进一步提高了压缩编码效率,视频流中的某相同对象出现次数越多,使用本发明方法的压缩比就越高,并且能达到进一步去冗余的目的。不同对象类型越多,在视频流中出现的频率越高,最后能去冗余的数据量就越大,由此,本发明方法具备一定的去冗余效果,进一步节省存储空间,增加了传输效率。
为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明的基于人工智能分类方式的视频图像压缩去冗余方法的流程图。
具体实施方式
为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
如图1所示,本发明的基于人工智能分类方式的视频图像压缩去冗余方法,包括以下步骤:
S1:给定一个待编码的原始视频流,并准备好分类算法与类的特征提取、类对像比对算法;
S2:使用分类算法对原始视频流内所有图像内容按帧进行对象分类;
S3:对分类出的各个对象数据进行特征提取,得到一串二进制特征码,并把特征码进行数据存储;
S4:选定一类对象,利用人工智能比对算法,对视频流中的选定的同类对象进行多次比对,得出该类的比对结果;
S5:若多个同类对象的比对结果相似度达0.9或以上(比对结果相似度最高值为1),则只编码其中一个对象;
S6:对剩余相似度高的对象不进行编码,直接做标记处理,以去除冗余;
S7:对相似度低的同类对像进行正常编码;
S8:选定S3中的其他未编码对象,重复步骤S4-S7,直至所有的分类对象都完全编码;以及
S9:对其他未分类的图像进行正常编码,直至该视频流编码完成。
本发明的基于人工智能分类方式的视频图像压缩去冗余方法,通过人工智能方式对相同类的图像识别后去编码,同类对象在视频中出现次数越多,去编码的内容就越多,实际编码的内容就越少,编码后的码率就越低,可有效提高视频压缩比,降低视频编码码率,对利用当下有限带宽传输超高清编码视频具备一定的可行性,从而促进视频编码传输产业从高清市场向超高清分辨率迈出重要的一步。
原始视频流内图片中的对象以人脸为例,本发明的基于人工智能分类方式的视频图像压缩去冗余方法的具体步骤如下,
S1:提供一段未编码的视频流;
S2:使用人脸识别算法验证该视频流,人脸识别检测到该视频流中的不同的人脸;
S3:对不同人的人脸进行特征数据存储;
S4:选中其中一张人脸,并与其他人脸进行特征比对;
S5:比对所人人脸,若人脸比对特征相似度值高于或等于0.9,只取一张进行编码;
S6:剩余相似度高的人脸直接做标记处理,不进行编码,以去掉大量重复人脸数据编码;
S7:对相似度低的人脸则直接进行正常编码;
S8:在步骤S3中,选择其他人脸,重复步骤S4-S7,直至所有人脸都已比对完成;
S9:对其他非人脸数据正常编码。
本发明方法进一步提高了压缩编码效率,根据实施方案,一段视频流中的对象各不相同,出现次数相对较少,则编码压缩比与本发明基本一致,但是一段视频流中的某相同对象出现次数越多,使用本发明方法的压缩比就越高,并且能达到进一步去冗余的目的。同时,理论分析可得,不同对象类型越多,在视频流中出现的频率越高,最后能去冗余的数据量就越大,例如,某人脸在视频流中出现100次,则只编码一次,其余只做标记处理,为此可节省99次的编码时间和编码冗余。综上,本发明方法具备一定的去冗余效果。为此,我们以H264编码为例,一般来说,H264编码压缩比为100:1,针对一个时长1分钟,60帧/秒的视频流,举例人脸大小约200x200像素,RGB 8bit,依据本发明计算的人脸出现次数频率与压缩比之间的关系如下表1:
表1
如表1所示,当人脸次数频率出现较高时,本发明编码后的视频就更小,说明进一步提高了压缩比。
以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。
Claims (3)
1.一种基于人工智能分类方式的视频图像压缩去冗余方法,其特征在于,包括以下步骤:
S1:给定一个待编码的原始视频流,并准备好分类算法与类的特征提取、类对像比对算法;
S2:使用所述分类算法对所述原始视频流内所有图像内容按帧进行对象分类;
S3:对分类出的各个对象数据进行特征提取,得到一串二进制特征码,并把所述特征码进行数据存储;
S4:选定一类对象,利用人工智能比对算法,对所述视频流中的选定的同类对象进行多次比对,得出该类的比对结果;
S5:若多个同类对象的比对结果相似度达0.9或以上,则只编码其中一个对象;
S6:对剩余相似度高的对象不进行编码,直接做标记处理,以去除冗余;
S7:对相似度低的同类对像进行正常编码;
S8:选定S3中的其他未编码对象,重复步骤S4-S7,直至所有的分类对象都完全编码;以及
S9:对其他未分类的图像进行正常编码,直至所述视频流编码完成。
2.根据权利要求1所述的基于人工智能分类方式的视频图像压缩去冗余方法,其特征在于,所述原始视频流内图片中的对象为人脸。
3.根据权利要求2所述的基于人工智能分类方式的视频图像压缩去冗余方法,其特征在于,包括以下步骤:
S1:提供一段未编码的视频流;
S2:使用人脸识别算法验证所述视频流,人脸识别检测到所述视频流中的不同的人脸;
S3:对不同人的人脸进行特征数据存储;
S4:选中其中一张人脸,并与其他人脸进行特征比对;
S5:比对所人人脸,若人脸比对特征相似度值高于或等于0.9,只取一张进行编码;
S6:剩余相似度高的人脸直接做标记处理,不进行编码,以去掉大量重复人脸数据编码;
S7:对相似度低的人脸则直接进行正常编码;
S8:在步骤S3中,选择其他人脸,重复步骤S4-S7,直至所有人脸都已比对完成;
S9:对其他非人脸数据正常编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210773564.3A CN115150623A (zh) | 2022-07-01 | 2022-07-01 | 一种基于人工智能分类方式的视频图像压缩去冗余方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210773564.3A CN115150623A (zh) | 2022-07-01 | 2022-07-01 | 一种基于人工智能分类方式的视频图像压缩去冗余方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115150623A true CN115150623A (zh) | 2022-10-04 |
Family
ID=83409951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210773564.3A Pending CN115150623A (zh) | 2022-07-01 | 2022-07-01 | 一种基于人工智能分类方式的视频图像压缩去冗余方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115150623A (zh) |
-
2022
- 2022-07-01 CN CN202210773564.3A patent/CN115150623A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106231214B (zh) | 基于可调宏块的高速cmos传感器图像近似无损压缩方法 | |
CN116723337B (zh) | 一种hdmi高清数据优化传输方法及系统 | |
US8873625B2 (en) | Enhanced compression in representing non-frame-edge blocks of image frames | |
US20230291909A1 (en) | Coding video frame key points to enable reconstruction of video frame | |
CN111787335B (zh) | 基于ambtc压缩技术和霍夫曼编码的可逆信息隐藏方法 | |
CN108650509B (zh) | 一种多尺度自适应近似无损编解码方法及系统 | |
Yasuda et al. | Data compression for check processing machines | |
CN110677624B (zh) | 基于深度学习的面向监控视频的前景和背景并行压缩方法 | |
WO2009129418A1 (en) | System and method for separated image compression | |
CN107682699B (zh) | 一种近无损图像压缩方法 | |
CN112770116B (zh) | 用视频压缩编码信息提取视频关键帧的方法 | |
US20190149827A1 (en) | Image-processing apparatus and lossless image compression method using intra-frame prediction | |
CN115150623A (zh) | 一种基于人工智能分类方式的视频图像压缩去冗余方法 | |
Piau et al. | Learning on entropy coded images with cnn | |
JP3359215B2 (ja) | 多値画像符号化装置 | |
Banerjee et al. | An efficient image compression algorithm for almost dual-color image based on k-means clustering, bit-map generation and RLE | |
US7031531B1 (en) | Image encoding device and method therefor, image decoding apparatus and method therefor, and computer-readable recorded medium on which image encoding program and image decoding program are recorded | |
CN112104872B (zh) | 图像传输方法及装置 | |
Peng et al. | An optimized algorithm based on generalized difference expansion method used for HEVC reversible video information hiding | |
Akare et al. | Compression of old marathi manuscript images using context-based, adaptive, lossless image coding | |
CN111491166A (zh) | 基于内容分析的动态压缩系统及方法 | |
Kavitha et al. | Lossy compression through segmentation on low depth-of-field images | |
Pan et al. | Video compression coding via colorization: a generative adversarial network (gan)-based approach | |
US20220398699A1 (en) | Image processing method and apparatus for machine vision | |
CN114125437B (zh) | 适用于轨道交通的图像重压缩检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |