CN111294614A - 用于数字图像、音频或视频数据处理的方法和设备 - Google Patents
用于数字图像、音频或视频数据处理的方法和设备 Download PDFInfo
- Publication number
- CN111294614A CN111294614A CN201911234128.3A CN201911234128A CN111294614A CN 111294614 A CN111294614 A CN 111294614A CN 201911234128 A CN201911234128 A CN 201911234128A CN 111294614 A CN111294614 A CN 111294614A
- Authority
- CN
- China
- Prior art keywords
- representation
- dimension
- linear mapping
- elements
- reversible linear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012545 processing Methods 0.000 title claims abstract description 29
- 230000002441 reversible effect Effects 0.000 claims abstract description 140
- 238000013507 mapping Methods 0.000 claims abstract description 128
- 230000005540 biological transmission Effects 0.000 claims abstract description 27
- 230000001419 dependent effect Effects 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 9
- 125000004122 cyclic group Chemical group 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000001125 extrusion Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/10—Selection of transformation methods according to the characteristics of the input images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Processing (AREA)
Abstract
用于数字图像、音频或视频数据处理的方法和设备。数字图像数据、数字视频数据或数字音频数据增强的计算机实现方法以及编码或解码该数据特别用于传输或存储的计算机实现方法,其中表示所述数字数据的部分的元素包括元素在多个数据元素的有序输入数据中的位置的指示,多个元素取决于可逆线性映射被变换成表示,可逆线性映射将多个元素的输入映射到表示,可逆线性映射包括至少一个自回归卷积。取决于表示来修改表示以确定经修改的表示。传输和/或存储表示。取决于表示来确定表示输出数据的多个元素,其中表示取决于可逆线性映射的逆被变换。当确定经修改的表示时,取决于它确定表示输出数据的多个元素,经修改的表示取决于可逆线性映射的逆被变换。
Description
技术领域
本发明涉及一种用于数字图像、音频或视频数据处理的方法和设备。特别地,本发明涉及一种用于基于生成建模对数字图像、音频或视频数据的增强、传输或存储的计算机实现的方法和设备。
背景技术
已经使用基于似然性的方法和非基于似然性的方法来进行生成建模。基于似然性的方法基于自回归模型和生成流。
Tim Salimans, Andrej Karpathy, Xi Chen, 和Diederik P Kingma的“Pixel-cnn++: Improving the pixelcnn with discretized logistic mixture likelihoodand other modifications.”arXiv 预印本 arXiv:1701.05517, 2017 以及 Aaron vanden Oord, Nal Kalchbrenner, Lasse Espeholt, Oriol Vinyals, Alex Graves, 等人的“Conditional image generation with pixelcnn decoders”在《神经信息处理系统进展》(Advances In Neural Information Processing Systems) pp. 4790-4798, 2016公开了自回归模型的各方面。
发明内容
在一个方面,提供了用于数字图像、音频或视频数据的增强、传输或存储的具有显著改进性能的计算机实现的方法。该计算机实现的方法提供了特别是针对图像变换、针对图像识别、针对异常检测和/或针对图像验证的改进的性能。附加地或可替换地,该计算机实现的方法提供对至少部分自主的车辆或机器人的控制。
在另一方面,提供了特别是根据该计算机实现的方法实现神经网络的显著改进的设计的对应设备。
一种用于数字图像增强的计算机实现的方法包括:表示数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示,通道维度指示该像素在数字图像中的通道,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中表示增强数字图像像素的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的图像提供有效的数据处理。
有利地,该计算机实现的方法包括根据该方法处理数字视频的多个数字图像。这允许用于视频数据的顺序图像处理。
一种用于数字视频增强的计算机实现的方法包括:表示数字视频的数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示以及时间维度的指示,该通道维度指示该像素在数字图像中的通道,该时间维度指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中表示增强的数字视频的像素的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的视频提供有效的数据处理。
一种用于数字音频增强的计算机实现的方法包括:表示数字音频样本的部分的元素包括空间维度的指示,其中空间维度的指示是恒定值,特别是一个恒定值,并且其中该元素包括时间维度的指示,时间维度指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中表示增强的数字音频样本的部分的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的音频提供有效的数据处理。
有利地,数字音频样本包括音频通道,其中该元素包括通道维度的指示,通道维度指示音频样本中的音频通道,并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中包括通道维度的指示并且表示增强的数字音频样本的部分的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换。这为处理具有多个通道的音频提供了进一步的改进。
一种用于编码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法包括:表示数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示,通道维度指示该像素在数字图像中的通道,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中该表示被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的编码提供有效的数据处理。
一种用于解码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法,包括:从传输接收表示或从存储读取表示,并且其中表示经解码的数字图像的像素的多个元素取决于该表示被确定,其中该表示取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素的输入映射到该表示,其中该多个元素中表示数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示,通道维度指示该像素在数字图像中的通道,其中表示数字图像像素的多个元素取决于可逆线性映射而可变换成该表示,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的解码提供有效的数据处理。
有利地,对于数字视频传输或存储,根据该编码或解码方法来处理数字视频的多个数字图像。这特别地允许用于视频数据的顺序处理。
一种用于编码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法,包括:表示数字视频的数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示以及时间维度的指示,该通道维度指示该像素在数字图像中的通道,该时间维度指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中该表示被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的编码提供有效的数据处理。
一种用于解码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法,包括:从传输接收表示或从存储读取表示,并且其中表示经解码的数字视频的像素的多个元素取决于该表示被确定,其中该表示取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素的输入映射到该表示,其中表示数字视频的数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示以及时间维度的指示,该通道维度指示该像素在数字图像中的通道,该时间维度指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素取决于可逆线性映射而可变换成该表示,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的解码提供有效的数据处理。
一种用于编码数字音频数据的计算机实现的方法,其特征在于,表示数字音频样本的部分的元素包括空间维度的指示,其中空间维度的第一指示和第二指示是恒定值,特别是一个恒定值,并且其中该元素包括时间维度的指示,时间维度指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,并且其中该表示被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的编码提供有效的数据处理。
有利地,数字音频样本包括音频通道,其中该元素包括通道维度的指示,通道维度指示音频样本中的音频通道,并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示,并且其中该表示被传输或存储。这允许对具有若干通道的音频进行高效处理。
一种用于解码数字音频数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,从传输接收表示或从存储读取表示,并且其中表示经解码的数字音频数据的部分的多个元素取决于该表示被确定,其中该表示取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素的输入映射到该表示,其中表示数字音频数据的部分的元素包括空间维度的指示,其中空间维度的第一指示和第二指示是恒定值,特别是一个恒定值,并且其中该元素包括时间维度的指示,时间维度指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素取决于可逆线性映射而可变换成表示,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的解码提供有效的数据处理。
有利地,数字音频样本包括音频通道,其中该元素包括通道维度的指示,通道维度指示音频样本中的音频通道,并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射而可变换成表示,其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示,并且其中包括通道维度的指示并且表示经解码的数字音频数据的部分的多个元素取决于该表示被确定,并且其中可逆线性映射包括至少一个自回归卷积。这允许对具有若干通道的音频进行高效处理。
有利地,用于可逆线性映射的卷积神经网络根据输入确定该表示。这进一步改进了效率。
有利地,该表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。针对卷积连续使用不同的滤波器(即,核)进一步改进效率。
有利地,自回归卷积对输入施加一次序,使得对于特定元素的表示值仅取决于表示如下输入的输入元素:该输入在所施加的次序中、在该次序中的特定元素之前。该次序可以是图像或视频的数字表示中的像素的次序、音频数据的次序等。这提供了非常灵活和高效的处理。
有利地,输入维度的输入通过多个连续自回归卷积被映射到该表示,其中连续卷积的维度等于或小于输入维度。该约束促进具有允许可逆线性映射的自回归卷积的高效的卷积神经网络。
有利地,针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改该表示。通过修改该表示,这些应用可显著地改进。
有利地,取决于沿着维度N一个接一个地级联特别是具有相同大小的多个(N-1)维核来确定用于映射的N维核。这样,用于(N-1)维可逆卷积的核被扩展以用于N维可逆卷积。
有利地,确定N维核包括将(N-1)维核与作为最后维度条目的N维核相关联,其中N维核的最后维度条目的大小定义了中心值,其中对于具有小于中心值的索引的N维核的最后维度中的N维核的任何条目,分配任意值,其中对于具有大于中心值的索引的最后维度中的任何条目,分配零。这样,在N维可逆卷积中仅考虑过去的值。
有利地,取决于该表示、取决于处理该表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据,控制至少部分自主的车辆或机器人。这为这样的设备的可显著改进的控制提供了框架。
一种设备包括处理器和存储装置,存储装置包括特别地用于卷积神经网络的指令,其中当所述指令被处理器执行时,处理器被适配为执行至少一个计算机实现的方法。
该设备有利地包括被适配为输出图像变换、图像识别、异常检测和/或图像验证的结果的输出。
该设备有利地包括致动器,致动器被适配为取决于该表示、取决于处理该表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。
附图说明
从以下描述和附图中,另外的有利方面将是清楚的。在附图中:
图1描绘了用于具有单个通道的自回归卷积的填充的可视化,
图2描绘了当使用两个连续的自回归卷积时,在2D中新出现的(emerging)卷积的可视化,
图3描绘了新出现的方形卷积的构造,
图4描绘了流模块的各方面,
图5描绘了多尺度架构的各方面,
图6描绘了用于增强数字图像数据的方法中的步骤,
图7描绘了用于数字视频增强的方法中的步骤,
图8描绘了用于数字音频数据增强的方法中的步骤,
图9描绘了用于编码和解码数字图像数据的方法中的步骤,
图10描绘了用于编码和解码数字视频数据的方法中的步骤,
图11描绘了用于编码和解码数字音频数据的方法中的步骤。
具体实施方式
示例包括变分自动编码器、自回归模型和生成流。
出于可处理性(tractability)的原因,变分自动编码器最大化关于似然性的下界。自回归模型和生成流通过利用双射变量变换直接最大化似然性。
将自回归模型、生成流以及该方法的以下描述背后的数学背景如下给出。
该方法旨在借助于双射随机变量变换来学习生成模型分布。
在机器学习的上下文中,函数f例如通过神经网络建模,并且然后被训练为使所有训练样本的似然性最大化。
在两个约束之下进行对应神经网络的构造:
首先,雅可比的对数行列式应该是可处理的。其次,函数f的逆是可处理的,使得新的样本可以被生成为。由于这两个约束限制了函数f的设计空间,因此得到的模型可能仅是近似。换言之,设计用于描述函数f的神经网络对于达到具有可伸缩的可处理性的良好建模准确性是关键的。
当对训练数据样本建模时,排序施加了顺序结构。然而,这样的结构可能与真实数据生成过程不一致,因此损害准确性。此外,当使用经训练的自回归模型生成样本时,x的每个条目必须遵循给定的次序而被顺序地生成。这限制了其用于延迟关键的应用。
在另一方面,生成流不对数据施加任何特定的结构。样本生成可以并行进行,这使得它们可伸缩。然而,生成流变换到目前为止已受到限制,即函数f的设计空间进一步变窄。
在Laurent Dinh, Jascha Sohl-Dickstein和Samy Bengio的“Densityestimation using real nvp.”arXiv预印本arXiv:1605.08803, 2016中,作者使用了一种分离数据的特定维度的机制。通过其他维度使特定维度上的仿射变换参数化。
在Diederik P Kingma和Prafulla Dhariwal的“Glow: Generative flow withinvertible 1x1 convolutions.”arXiv预印本arXiv:1807.03039, 2018中,作者提出了1乘1可逆卷积,其是在使用真实nvp进行密度估计中使用的通道排列的广义化。
下面描述的方法使用在下面描述中被称为可逆2D卷积的更具表达性的变换。在该上下文中的2D是指二维,即在变换中确定二维卷积。该变换在下面被称为可逆线性映射。该上下文中的线性映射是指矩阵向量乘法,如果矩阵是可逆的,则该矩阵向量乘法是可逆的。可逆自回归卷积是一种特殊类型的线性映射。它的相关联矩阵是三角形的。可逆2D卷积利用自回归结构来计算确切的逆,并且与针对生成流设计的层兼容。更具体地,基于自回归卷积提供可逆2D卷积。并且为高效的新出现的可逆卷积提供方形感受野(receptive field)。
在以下描述中,使用数字图像数据处理来描述该方法。表示数字图像的像素的元素包括空间维度D1、D2的指示d1、d2以及通道维度C的指示c。在该上下文中,像素是指包括数字图像的部分的表示(例如c、d1、d2)的元组。在该示例中,元素通过索引c、d1、d2来表示像素。
空间维度d1、d2指示像素在数字图像中的位置。在一个方面,笛卡尔坐标(即空间维度的第一指示d1和空间维度的第二指示d2)可以从数字图像的左下角开始用于矩形数字图像。非矩形(例如椭圆形或圆形)的数字图像可以通过添加像素以创建具有矩形空间维度的数字图像而被处理。
通道维度C指示像素在数字图像中的通道。通道维度一般不受限制。对于数字彩色图像而言,通道维度包括例如数字彩色图像的颜色通道。更具体地,可以根据加性颜色模型、例如使用红R、绿G、蓝B颜色来编码数字图像。例如,颜色通道R、G、B被编码为通道号R=0、G=1、B=2。可以相像地使用减性颜色模型,例如使用青色、品红色、黄色和黑色的CMYK颜色模型。
在以灰度编码的数字图像中,通道维度可以反映可用于编码的黑色阴影(shade)。在黑白数字图像中,通道维度可以被减小到单个通道。
下面描述可逆自回归卷积、2D卷积的新出现的卷积、可逆的新出现的方形卷积和可逆循环卷积的各方面。这些为此后描述的神经网络架构提供了基础。
可逆自回归卷积
自回归卷积对图像中的像素施加一次序,该次序强制值仅受一像素“之前”而不是“之后”的像素制约。这些卷积是自回归的,即顺序地回归下面的像素值。在示例中,通过卷积滤波器上的零填充来强制该次序。图1示意性地描绘了用于具有单个通道的自回归卷积的填充的可视化。图1中的白色区域标示填充。在图1中,卷积滤波器是行向量。从图1的左侧到图1的右侧,描绘了1D、2D和3D卷积填充。1D、2D和3D是指卷积的维度,即1D是指一维卷积,2D是指二维卷积,并且3D是指三维卷积。图1中的1D卷积滤波器具有3乘1像素的维度,其中最左边的像素被零填充。2D卷积滤波器具有3乘3像素的维度,其中最低的像素行和第二行的最右边的像素被零填充。3D卷积滤波器使用具有不同的零填充像素的3乘3维度的三个卷积滤波器。在图1中,一个通道的像素在标示滤波器的较大矩形中被标示为小方形。
作为示例,具有单个通道的音频信号的输入是时间维度,而空间维度和通道维度变为一个。对于该输入,例如使用1D卷积。作为另一个示例,灰度图像的输入是高度和宽度,因为空间维度D1、D2和通道维度C以及时间维度变为一个。对于具有若干颜色通道的彩色图像,输入是高度、宽度、通道。对于该输入,使用3D卷积。对于视频信号,输入是高度、宽度、时间、通道。对于该输入,使用4D卷积。
用于1D卷积的核k例如是作为核的行向量。用于2D卷积的核k例如是作为核的矩阵。对于卷积的每个维度,核维度增加一个维度。用于3D卷积的核k具有立方维度。
从1D、2D和3D进行广义化以用于N维可逆卷积,其中N是正整数N,下面的归纳掩蔽策略适用:
给定用于(N-1)维卷积的核,该核被扩展到用于N维卷积的核。
N维核可以被看作是沿着维度N一个接一个地级联具有相同大小的多个(N-1)维核。于是最后维度的大小KN等于(N-1)维核的数量。由k为最后维度的条目做索引,范围从0到KN -1。k的中心值被标示为kct并且等于floor()。KN个(N-1)维核中的每一个都可以与N维核相关联,N维核具有呈现在0与KN -1之间的特定值的最后维度条目k。给定用于(N-1)维可逆卷积的核,通过三个步骤扩展该核以用于N维可逆卷积。首先,(N-1)维核与N维核相关联,N维核具有等于kct的最后维度条目k。其次,对于最后维度中其索引小于kct的任何条目,N维核可以呈现任意值。第三,对于最后维度中其索引大于kct的任何条目,N维核仅可以呈现零。
例如,5维核具有(K1,K2,K3,K4,K5)的大小。K5代表核在其最后维度N=5中的维度大小,而K1、K2、K3、K4是核的前4个维度的维度大小。在K5 = 5的情况下,最后维度的中心条目等于kct = 2。对于具有最后维度索引k < kct的5维核的条目,可以使用非零值。对于具有k >kct的其他条目,使用值零。这意味着卷积不依赖于未来的值,即在输入次序中在kct之后的值。使用过去的信息,即在输入次序中在kct之前的值。对于k = kct——其指示在输入次序中维度N中的现在(present),基于已被定义的(N-1)卷积的核来查看所有先前的维度。
自回归卷积的线性变换原则上可被表达为三角形矩阵。为了以线性时间计算雅可比行列式,仅需查找该矩阵的对角条目。
可通过顺序地遍历通过所施加的次序来计算自回归卷积的逆。
可利用被称为前向/后向替换(substitution)的过程来计算等式(4)中给出的卷积的逆,
可逆自回归卷积对输入施加一次序,使得对于特定元素的表示值仅取决于表示如下输入的输入元素:该输入在所施加的次序中、在该次序中的斑点元素(speck element)之前。
输入维度的输入通过多个连续自回归卷积被映射到表示,其中连续卷积的维度等于或小于输入维度。
在一个方面,该表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。
在用于实现该方法的人工神经网络中,上述被实现为卷积层。这样的卷积层不仅可适用于人工神经网络的输入层,而且还可适用于人工神经网络的隐藏层。
如上所述,特别是用于可逆线性映射的卷积神经网络根据输入确定表示。更具体地,该表示是取决于至少一个可逆自回归卷积而根据输入确定的。
在该上下文中的特别是用于两个输入通道的线性映射是指来自第一通道的第一输入和来自第二通道的第二输入通过自回归卷积被映射到潜在变量。一般而言,可逆线性映射包括至少一个自回归卷积。并且该卷积是可逆的,因为它们是自回归的。
在该上下文中的可逆自回归卷积是指通过自回归卷积的线性映射,该自回归卷积对输入施加一次序,使得输入的表示值仅取决于表示如下输入的元素:该输入在所施加的次序中、在该次序中的特定输入元素之前。在该次序中的特定输入元素之后的输入元素被零填充。通过以自回归卷积施加的次序计算逆,该线性映射、即自回归卷积是可逆的。
2D卷积的新出现的卷积
自回归卷积当被独立使用时是更不具表达性的。图1中的卷积被限制到使用数字图像坐标的上方或左边的值。然而,可以通过合成不同的自回归卷积来克服该限制。通过执行连续的自回归卷积,构造具有丰富感受野的新出现的卷积是可能的。在图2中描绘了使用两个接续的自回归卷积的新出现的卷积的感受野。
在图2中,每行在两个左列中指示使用不同卷积滤波器应用于数字图像的两个接续的卷积。在该示例中,右列中的第一卷积滤波器对于所有行都是相同的。在该示例中,中间列中的第二卷积滤波器相对于第一卷积滤波器旋转、取逆或者旋转并取逆。右列指示根据接续的卷积的有效卷积滤波器。图2中的白色区域标示填充。
可逆的新出现的方形卷积
两个自回归卷积可以被修改以获得具有方形感受野的等效卷积。这在图3中被示意性地描绘。可以利用两种方法高效地计算用于3乘3滤波器的新出现的方形卷积:
a)卷积可以被表达为两个连续的2乘2卷积。
此外,任何d乘d卷积都可以通过两个连续的自回归k乘k卷积来表达,其中k =(d +1)/2。仅在采样期间有必要计算逆,该逆将被计算为分解的卷积的逆。
可逆循环卷积
两个信号的傅里叶变换的乘法等效于其卷积的傅里叶变换。卷积层的计算是互相关的聚合,如等式(6)中所示。注意到,因为傅里叶变换假设周期函数,所以获得的卷积是循环的。这些卷积是1乘1卷积的广义化。换言之,1x1卷积是循环卷积的特例。
每个相关可以写成频域中的乘法。令函数标示傅里叶变换并且标示傅里叶逆变换。令和作为频域中的输出、输入和滤波器信号。因为这些是互相关,因此标示的镜像和复共轭。在频域中,卷积输出被计算为滤波器和输入的频域表示之间的逐元素(elementwise)乘法(由标示)。
由于傅里叶变换及其逆变换是酉变换,因此傅里叶变换的行列式等于一。频域中的变换的行列式可以写成滤波器的对数行列式之和(9)。
人工神经网络架构
下面参考图4描述实现生成流的示例性人工神经网络架构。在步骤402中,对输入执行激活标准化,简称“actnorm”。
人工神经网络执行例如特别是使用每通道的尺度和偏置参数以及对于小批量大小1的仿射变换。
该步骤中的参数可以是可训练的,并且被初始化,例如使得第一小批量数据在actnorm之后具有均值0和标准偏差1。
此后,在步骤404中执行1x1卷积。1x1卷积特别地具有相等数量的输入和输出通道。
此后,在步骤406中执行如上所述的可逆卷积。例如,在该步骤中可以执行2D卷积的新出现的卷积、可逆的新出现的方形卷积或可逆的循环卷积。
此后,在步骤408中执行1x1卷积。1x1卷积特别地具有相等数量的输入和输出通道。
此后,在步骤410中执行仿射耦合层以确定生成流的输出。
步骤402至410被包括在新的流模块400中,该流模块400作为流模块被包括在如图5中所描绘的多尺度架构500中。
可以如“Glow: Generative flow with invertible 1x1 convolutions”中所描述的那样来实现步骤402、404、408和410以及多尺度架构500。
在多尺度架构500中, K意味着按顺序次序的K次流操作。三个步骤——挤压、流操作和分裂作为整块被重复L次。在每次,分裂生成一个zl 作为最终z表示的部分输出,并且将另一个馈送到下一个挤压、流操作和分裂,这输出zl+1。最后的挤压、流操作和分裂与在结束处的挤压和流操作一起生成z的最后部分(即zL)。
基于该方法技术,在以下部分中描述了计算机实现的方法的各方面,这些方面显著改进了数字图像、音频或视频数据的增强、传输或存储的性能。计算机实现的方法提供了特别是针对图像变换、针对图像识别、针对异常检测和/或针对图像验证的改进的性能。该计算机实现的方法可以在对至少部分自主的车辆或机器人的控制中使用。
增强数字图像数据
下面参考图6描述了用于增强数字图像数据的方法。
例如根据可逆线性映射来确定该表示。
上述方法可以应用于数字音频或数字视频处理。下面将描述数字音频或数字视频处理的各方面。
数字视频增强
在一个方面,根据上述用于数字图像增强的方法,数字视频的多个数字图像特别是顺序地被处理以用于数字视频增强。
参考图7描述了用于数字视频增强的计算机实现的方法。
空间维度D1、D2指示像素在数字图像中的位置,如针对数字图像处理所描述的。通道维度C指示像素在数字图像中的通道,如针对数字图像处理所描述的。
时间维度T指示数字图像在视频时间线中的位置。
数字音频增强
参考图8描述了用于数字音频增强的计算机实现的方法。
例如根据可逆线性映射来确定该表示
在该方面,在步骤802中,包括通道维度C的指示c并且表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示。可逆线性映射将包括通道维度C的指示c的多个元素的输入映射到表示。例如根据如下可逆线性映射来确定该表示
编码和解码数字图像数据、传输或存储
参考图9描述了用于编码数字图像数据的方法以及用于解码数字图像数据的方法。
此后,在步骤904中,并且附加于或代替于如步骤604中描述的修改表示,传输或存储该表示。这提供了可靠和/或高效的传输或存储。
编码和解码数字视频数据、传输或存储
在一个方面,根据特别是用于传输或存储的用于编码数字图像数据的方法以及用于解码数字图像数据的方法来处理数字视频的多个数字图像。
在另一方面,参考图10描述了特别是用于传输或存储的用于编码数字视频数据的方法以及用于解码数字视频数据的方法。
编码和解码数字音频数据、传输或存储
参考图11描述了特别是用于传输或存储的用于编码数字音频数据的方法以及用于解码数字音频数据的方法。
在一个方面,处理数字音频数据样本的一个通道。在另一方面,处理多个通道。
在上述修改表示的步骤中,例如针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改表示。数字音频和数字视频数据也可以出于变换、识别、异常检测和/或验证的目的而被处理。
在一个方面,取决于上述表示中的至少一个、取决于处理这些表示中的至少一个的结果和/或由通过如上所述的可逆线性映射的逆所确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。
Claims (27)
2.一种用于数字视频增强的计算机实现的方法,其特征在于,根据权利要求1所述的方法处理数字视频的多个数字图像。
8.一种用于数字视频传输或存储的计算机实现的方法,其特征在于,根据权利要求6或7所述的方法处理数字视频的多个数字图像。
10.一种用于解码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,从传输接收表示或从存储读取表示,并且其中表示经解码的数字视频的像素的多个元素取决于表示被确定,其中表示取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素的输入映射到表示,其中表示数字视频的数字图像像素的元素包括空间维度的指示,空间维度指示所述像素在数字图像中的位置,并且其中元素包括通道维度的指示以及时间维度的指示,通道维度指示所述像素在数字图像中的通道,时间维度指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素取决于可逆线性映射而可变换成表示,并且其中可逆线性映射包括至少一个自回归卷积。
15.根据前述权利要求中的一项所述的计算机实现的方法,其中,用于可逆线性映射的卷积神经网络根据输入确定所述表示。
16.根据前述权利要求中的一项所述的计算机实现的方法,其中,所述表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。
17.根据前述权利要求中的一项所述的计算机实现的方法,其中,自回归卷积对输入施加一次序,使得对于特定元素的表示值仅取决于表示如下输入的输入元素:所述输入在所施加的次序中、所述次序中的特定元素之前。
18.根据前述权利要求中的一项所述的计算机实现的方法,其中,输入维度的输入通过多个连续自回归卷积被映射到所述表示,其中连续卷积的维度等于或小于输入维度。
19.根据前述权利要求中的一项所述的计算机实现的方法,包括,取决于沿着维度N一个接一个地级联特别是具有相同大小的多个(N-1)维核来确定用于映射的N维核。
21.根据前述权利要求中的一项所述的计算机实现的方法,其中,针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改所述表示。
22.根据前述权利要求中的一项所述的计算机实现的方法,其中,取决于所述表示、取决于处理所述表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据,控制至少部分自主的车辆或机器人。
23.一种设备,包括处理器和存储装置,存储装置包括特别地用于卷积神经网络的指令,其中当所述指令被处理器执行时,处理器被适配为执行根据权利要求1至21中的一项所述的计算机实现的方法。
24.根据权利要求23所述的设备,包括输出,其被适配为根据权利要求19输出图像变换、图像识别、异常检测和/或图像验证的结果。
25.根据权利要求23或24所述的设备,包括致动器,其被适配为取决于所述表示、取决于处理所述表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。
26.一种计算机可读介质,包括指令,所述指令当由计算机执行时,使得计算机施行权利要求1至22中任一项所述的方法的步骤。
27.一种计算机程序,包括指令,所述指令当由计算机执行时,使得计算机施行权利要求1至22中任一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18210716.9 | 2018-12-06 | ||
EP18210716.9A EP3664017B1 (en) | 2018-12-06 | 2018-12-06 | Method and device for digital image or video data processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111294614A true CN111294614A (zh) | 2020-06-16 |
CN111294614B CN111294614B (zh) | 2023-10-31 |
Family
ID=64664052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911234128.3A Active CN111294614B (zh) | 2018-12-06 | 2019-12-05 | 用于数字图像、音频或视频数据处理的方法和设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11276140B2 (zh) |
EP (1) | EP3664017B1 (zh) |
CN (1) | CN111294614B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3664017B1 (en) * | 2018-12-06 | 2022-03-02 | Robert Bosch GmbH | Method and device for digital image or video data processing |
US12073842B2 (en) * | 2019-06-24 | 2024-08-27 | Qualcomm Incorporated | Psychoacoustic audio coding of ambisonic audio data |
CN112862724B (zh) * | 2021-03-12 | 2022-09-09 | 上海壁仞智能科技有限公司 | 用于计算的方法、计算设备和计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184272A1 (en) * | 2001-06-05 | 2002-12-05 | Burges Chris J.C. | System and method for trainable nonlinear prediction of transform coefficients in data compression |
US20050276504A1 (en) * | 2004-06-14 | 2005-12-15 | Charles Chui | Image clean-up and pre-coding |
US20130051668A1 (en) * | 2010-02-16 | 2013-02-28 | Apple Inc. | Method and system for generating enhanced images |
CN105100814A (zh) * | 2014-05-06 | 2015-11-25 | 同济大学 | 图像编码、解码方法及装置 |
US20150340016A1 (en) * | 2014-01-05 | 2015-11-26 | Peter Lablans | Apparatus and Methods to Display a Modified Image |
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
US20180025257A1 (en) * | 2016-01-25 | 2018-01-25 | Google Inc. | Generating images using neural networks |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5995539A (en) * | 1993-03-17 | 1999-11-30 | Miller; William J. | Method and apparatus for signal transmission and reception |
US5611030A (en) * | 1994-09-16 | 1997-03-11 | Apple Computer, Inc. | Subjectively pleasing color gamut mapping in a color computer graphics system |
CN101448162B (zh) * | 2001-12-17 | 2013-01-02 | 微软公司 | 处理视频图像的方法 |
US7876974B2 (en) * | 2003-08-29 | 2011-01-25 | Vladimir Brajovic | Method for improving digital images and an image sensor for sensing the same |
JP4594688B2 (ja) * | 2004-06-29 | 2010-12-08 | オリンパス株式会社 | 画像符号化処理方法、画像復号化処理方法、動画圧縮処理方法、動画伸張処理方法、画像符号化処理プログラム、画像符号化装置、画像復号化装置、画像符号化/復号化システム、拡張画像圧縮伸張処理システム |
TWI479898B (zh) * | 2010-08-25 | 2015-04-01 | Dolby Lab Licensing Corp | 擴展影像動態範圍 |
WO2012142285A2 (en) * | 2011-04-12 | 2012-10-18 | Dolby Laboratories Licensing Corporation | Quality assessment for images that have extended dynamic ranges or wide color gamuts |
WO2015007510A1 (en) * | 2013-07-16 | 2015-01-22 | Koninklijke Philips N.V. | Method and apparatus to create an eotf function for a universal code mapping for an hdr image, method and process to use these images |
EP3664017B1 (en) * | 2018-12-06 | 2022-03-02 | Robert Bosch GmbH | Method and device for digital image or video data processing |
-
2018
- 2018-12-06 EP EP18210716.9A patent/EP3664017B1/en active Active
-
2019
- 2019-12-03 US US16/701,755 patent/US11276140B2/en active Active
- 2019-12-05 CN CN201911234128.3A patent/CN111294614B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184272A1 (en) * | 2001-06-05 | 2002-12-05 | Burges Chris J.C. | System and method for trainable nonlinear prediction of transform coefficients in data compression |
US20050276504A1 (en) * | 2004-06-14 | 2005-12-15 | Charles Chui | Image clean-up and pre-coding |
US20130051668A1 (en) * | 2010-02-16 | 2013-02-28 | Apple Inc. | Method and system for generating enhanced images |
US20150340016A1 (en) * | 2014-01-05 | 2015-11-26 | Peter Lablans | Apparatus and Methods to Display a Modified Image |
CN105100814A (zh) * | 2014-05-06 | 2015-11-25 | 同济大学 | 图像编码、解码方法及装置 |
US20180025257A1 (en) * | 2016-01-25 | 2018-01-25 | Google Inc. | Generating images using neural networks |
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
Non-Patent Citations (6)
Title |
---|
AARON OORD ET AL.: "Conditional Image Generation with PixelCNN Decoders", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》, pages 4790 * |
DIEDERIK P KINGMA ET AL: "Glow: Generative Flow with Invertible 1x1 Convolutions", 《ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853》 * |
MATHIEU GERMAIN ET AL: "MADE: Masked Autoencoder for Distribution Estimation", Retrieved from the Internet <URL:https://arxiv.org/abs/1502.03509> * |
POORIA ZAMANI; HAMID SOLTANIAN-ZADEH: "Compressive sensing cardiac cine MRI using invertible non-linear transform", 《2014 22ND IRANIAN CONFERENCE ON ELECTRICAL ENGINEERING (ICEE)》 * |
何姣: "基于retinex理论的视频图像增强应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
宋璐;冯艳平;卫亚博: "基于灰度DAG熵最大化量化分辨率医学图像增强", 《四川大学学报(自然科学版)》, vol. 55, no. 2, pages 316 - 322 * |
Also Published As
Publication number | Publication date |
---|---|
US20200184595A1 (en) | 2020-06-11 |
US11276140B2 (en) | 2022-03-15 |
EP3664017B1 (en) | 2022-03-02 |
EP3664017A1 (en) | 2020-06-10 |
CN111294614B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parmar et al. | Image transformer | |
Huang et al. | Flowformer: A transformer architecture for optical flow | |
CN111696148A (zh) | 基于卷积神经网络的端到端立体匹配方法 | |
CN112396645B (zh) | 一种基于卷积残差学习的单目图像深度估计方法和系统 | |
CN111294614B (zh) | 用于数字图像、音频或视频数据处理的方法和设备 | |
CN110533712A (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN109598732B (zh) | 一种基于三维空间加权的医学图像分割方法 | |
CN106339753A (zh) | 一种有效提升卷积神经网络稳健性的方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN114223019A (zh) | 用于参数有效的语义图像分割的反馈解码器 | |
KR20200144398A (ko) | 클래스 증가 학습을 수행하는 장치 및 그의 동작 방법 | |
CN111709516A (zh) | 神经网络模型的压缩方法及压缩装置、存储介质、设备 | |
US20240282014A1 (en) | Attention-Based Method for Deep Point Cloud Compression | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN114418853A (zh) | 基于相似图像检索的图像超分辨率优化方法、介质及设备 | |
CN114821058A (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN114037770B (zh) | 一种基于离散傅里叶变换的注意力机制的图像生成方法 | |
CN110288603B (zh) | 基于高效卷积网络和卷积条件随机场的语义分割方法 | |
CN116486107B (zh) | 一种光流计算方法、系统、设备及介质 | |
CN117765236A (zh) | 一种基于细粒度决策机制的多模态显著性目标检测方法 | |
CN115861401B (zh) | 一种双目与点云融合深度恢复方法、装置和介质 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
CN113191947B (zh) | 一种图像超分辨率的方法及系统 | |
CN118333847B (zh) | 一种2d-3d坐标系转换方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |