CN111294614A - 用于数字图像、音频或视频数据处理的方法和设备 - Google Patents

用于数字图像、音频或视频数据处理的方法和设备 Download PDF

Info

Publication number
CN111294614A
CN111294614A CN201911234128.3A CN201911234128A CN111294614A CN 111294614 A CN111294614 A CN 111294614A CN 201911234128 A CN201911234128 A CN 201911234128A CN 111294614 A CN111294614 A CN 111294614A
Authority
CN
China
Prior art keywords
representation
dimension
linear mapping
elements
reversible linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911234128.3A
Other languages
English (en)
Other versions
CN111294614B (zh
Inventor
E.胡格博姆
D.张
M.韦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN111294614A publication Critical patent/CN111294614A/zh
Application granted granted Critical
Publication of CN111294614B publication Critical patent/CN111294614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/10Selection of transformation methods according to the characteristics of the input images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)

Abstract

用于数字图像、音频或视频数据处理的方法和设备。数字图像数据、数字视频数据或数字音频数据增强的计算机实现方法以及编码或解码该数据特别用于传输或存储的计算机实现方法,其中表示所述数字数据的部分的元素包括元素在多个数据元素的有序输入数据中的位置的指示,多个元素取决于可逆线性映射被变换成表示,可逆线性映射将多个元素的输入映射到表示,可逆线性映射包括至少一个自回归卷积。取决于表示来修改表示以确定经修改的表示。传输和/或存储表示。取决于表示来确定表示输出数据的多个元素,其中表示取决于可逆线性映射的逆被变换。当确定经修改的表示时,取决于它确定表示输出数据的多个元素,经修改的表示取决于可逆线性映射的逆被变换。

Description

用于数字图像、音频或视频数据处理的方法和设备
技术领域
本发明涉及一种用于数字图像、音频或视频数据处理的方法和设备。特别地,本发明涉及一种用于基于生成建模对数字图像、音频或视频数据的增强、传输或存储的计算机实现的方法和设备。
背景技术
已经使用基于似然性的方法和非基于似然性的方法来进行生成建模。基于似然性的方法基于自回归模型和生成流。
Tim Salimans, Andrej Karpathy, Xi Chen, 和Diederik P Kingma的“Pixel-cnn++: Improving the pixelcnn with discretized logistic mixture likelihoodand other modifications.”arXiv 预印本 arXiv:1701.05517, 2017 以及 Aaron vanden Oord, Nal Kalchbrenner, Lasse Espeholt, Oriol Vinyals, Alex Graves, 等人的“Conditional image generation with pixelcnn decoders”在《神经信息处理系统进展》(Advances In Neural Information Processing Systems) pp. 4790-4798, 2016公开了自回归模型的各方面。
发明内容
在一个方面,提供了用于数字图像、音频或视频数据的增强、传输或存储的具有显著改进性能的计算机实现的方法。该计算机实现的方法提供了特别是针对图像变换、针对图像识别、针对异常检测和/或针对图像验证的改进的性能。附加地或可替换地,该计算机实现的方法提供对至少部分自主的车辆或机器人的控制。
在另一方面,提供了特别是根据该计算机实现的方法实现神经网络的显著改进的设计的对应设备。
一种用于数字图像增强的计算机实现的方法包括:表示数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示,通道维度指示该像素在数字图像中的通道,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中表示增强数字图像像素的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的图像提供有效的数据处理。
有利地,该计算机实现的方法包括根据该方法处理数字视频的多个数字图像。这允许用于视频数据的顺序图像处理。
一种用于数字视频增强的计算机实现的方法包括:表示数字视频的数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示以及时间维度的指示,该通道维度指示该像素在数字图像中的通道,该时间维度指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中表示增强的数字视频的像素的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的视频提供有效的数据处理。
一种用于数字音频增强的计算机实现的方法包括:表示数字音频样本的部分的元素包括空间维度的指示,其中空间维度的指示是恒定值,特别是一个恒定值,并且其中该元素包括时间维度的指示,时间维度指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中表示增强的数字音频样本的部分的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的音频提供有效的数据处理。
有利地,数字音频样本包括音频通道,其中该元素包括通道维度的指示,通道维度指示音频样本中的音频通道,并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示,其中取决于该表示来修改该表示以确定经修改的表示,并且其中包括通道维度的指示并且表示增强的数字音频样本的部分的多个元素取决于经修改的表示被确定,其中经修改的表示取决于可逆线性映射的逆被变换。这为处理具有多个通道的音频提供了进一步的改进。
一种用于编码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法包括:表示数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示,通道维度指示该像素在数字图像中的通道,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中该表示被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的编码提供有效的数据处理。
一种用于解码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法,包括:从传输接收表示或从存储读取表示,并且其中表示经解码的数字图像的像素的多个元素取决于该表示被确定,其中该表示取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素的输入映射到该表示,其中该多个元素中表示数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示,通道维度指示该像素在数字图像中的通道,其中表示数字图像像素的多个元素取决于可逆线性映射而可变换成该表示,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的解码提供有效的数据处理。
有利地,对于数字视频传输或存储,根据该编码或解码方法来处理数字视频的多个数字图像。这特别地允许用于视频数据的顺序处理。
一种用于编码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法,包括:表示数字视频的数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示以及时间维度的指示,该通道维度指示该像素在数字图像中的通道,该时间维度指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,其中该表示被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的编码提供有效的数据处理。
一种用于解码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法,包括:从传输接收表示或从存储读取表示,并且其中表示经解码的数字视频的像素的多个元素取决于该表示被确定,其中该表示取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素的输入映射到该表示,其中表示数字视频的数字图像像素的元素包括空间维度的指示,空间维度指示该像素在数字图像中的位置,并且其中该元素包括通道维度的指示以及时间维度的指示,该通道维度指示该像素在数字图像中的通道,该时间维度指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素取决于可逆线性映射而可变换成该表示,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的解码提供有效的数据处理。
一种用于编码数字音频数据的计算机实现的方法,其特征在于,表示数字音频样本的部分的元素包括空间维度的指示,其中空间维度的第一指示和第二指示是恒定值,特别是一个恒定值,并且其中该元素包括时间维度的指示,时间维度指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将该多个元素的输入映射到该表示,并且其中该表示被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的编码提供有效的数据处理。
有利地,数字音频样本包括音频通道,其中该元素包括通道维度的指示,通道维度指示音频样本中的音频通道,并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射被变换成表示,其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示,并且其中该表示被传输或存储。这允许对具有若干通道的音频进行高效处理。
一种用于解码数字音频数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,从传输接收表示或从存储读取表示,并且其中表示经解码的数字音频数据的部分的多个元素取决于该表示被确定,其中该表示取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素的输入映射到该表示,其中表示数字音频数据的部分的元素包括空间维度的指示,其中空间维度的第一指示和第二指示是恒定值,特别是一个恒定值,并且其中该元素包括时间维度的指示,时间维度指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素取决于可逆线性映射而可变换成表示,并且其中可逆线性映射包括至少一个自回归卷积。自回归卷积允许可逆线性映射的逆,并且为增强的解码提供有效的数据处理。
有利地,数字音频样本包括音频通道,其中该元素包括通道维度的指示,通道维度指示音频样本中的音频通道,并且包括通道维度的指示并表示音频样本的部分的多个元素取决于可逆线性映射而可变换成表示,其中可逆线性映射将包括通道维度的指示的多个元素的输入映射到该表示,并且其中包括通道维度的指示并且表示经解码的数字音频数据的部分的多个元素取决于该表示被确定,并且其中可逆线性映射包括至少一个自回归卷积。这允许对具有若干通道的音频进行高效处理。
有利地,用于可逆线性映射的卷积神经网络根据输入确定该表示。这进一步改进了效率。
有利地,该表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。针对卷积连续使用不同的滤波器(即,核)进一步改进效率。
有利地,自回归卷积对输入施加一次序,使得对于特定元素的表示值仅取决于表示如下输入的输入元素:该输入在所施加的次序中、在该次序中的特定元素之前。该次序可以是图像或视频的数字表示中的像素的次序、音频数据的次序等。这提供了非常灵活和高效的处理。
有利地,输入维度的输入通过多个连续自回归卷积被映射到该表示,其中连续卷积的维度等于或小于输入维度。该约束促进具有允许可逆线性映射的自回归卷积的高效的卷积神经网络。
有利地,针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改该表示。通过修改该表示,这些应用可显著地改进。
有利地,取决于沿着维度N一个接一个地级联特别是具有相同大小的多个(N-1)维核来确定用于映射的N维核。这样,用于(N-1)维可逆卷积的核被扩展以用于N维可逆卷积。
有利地,确定N维核包括将(N-1)维核与作为最后维度条目的N维核相关联,其中N维核的最后维度条目的大小定义了中心值,其中对于具有小于中心值的索引的N维核的最后维度中的N维核的任何条目,分配任意值,其中对于具有大于中心值的索引的最后维度中的任何条目,分配零。这样,在N维可逆卷积中仅考虑过去的值。
有利地,取决于该表示、取决于处理该表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据,控制至少部分自主的车辆或机器人。这为这样的设备的可显著改进的控制提供了框架。
一种设备包括处理器和存储装置,存储装置包括特别地用于卷积神经网络的指令,其中当所述指令被处理器执行时,处理器被适配为执行至少一个计算机实现的方法。
该设备有利地包括被适配为输出图像变换、图像识别、异常检测和/或图像验证的结果的输出。
该设备有利地包括致动器,致动器被适配为取决于该表示、取决于处理该表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。
附图说明
从以下描述和附图中,另外的有利方面将是清楚的。在附图中:
图1描绘了用于具有单个通道的自回归卷积的填充的可视化,
图2描绘了当使用两个连续的自回归卷积时,在2D中新出现的(emerging)卷积的可视化,
图3描绘了新出现的方形卷积的构造,
图4描绘了流模块的各方面,
图5描绘了多尺度架构的各方面,
图6描绘了用于增强数字图像数据的方法中的步骤,
图7描绘了用于数字视频增强的方法中的步骤,
图8描绘了用于数字音频数据增强的方法中的步骤,
图9描绘了用于编码和解码数字图像数据的方法中的步骤,
图10描绘了用于编码和解码数字视频数据的方法中的步骤,
图11描绘了用于编码和解码数字音频数据的方法中的步骤。
具体实施方式
在用于生成建模的基于似然性的方法中,通过最大化训练样本
Figure 266812DEST_PATH_IMAGE001
的似然性来对数据分布
Figure 810051DEST_PATH_IMAGE002
进行建模:
Figure 589788DEST_PATH_IMAGE003
(1)
示例包括变分自动编码器、自回归模型和生成流。
出于可处理性(tractability)的原因,变分自动编码器最大化关于似然性的下界。自回归模型和生成流通过利用双射变量变换直接最大化似然性。
将自回归模型、生成流以及该方法的以下描述背后的数学背景如下给出。
该方法旨在借助于双射随机变量变换来学习生成模型分布。
假设函数f的存在,该函数f将x(诸如图像)映射到随机变量z上,即
Figure 984997DEST_PATH_IMAGE004
当f是可逆的并且因此是双射的(
Figure 924003DEST_PATH_IMAGE005
)时,复概率密度
Figure 746466DEST_PATH_IMAGE006
等于在简单概率密度
Figure 13499DEST_PATH_IMAGE007
之下的变换的概率密度乘以雅可比行列式
Figure 174435DEST_PATH_IMAGE008
(2)
利用z的可处理的先验概率密度
Figure 843314DEST_PATH_IMAGE009
,于是可以评估概率密度函数
Figure 836678DEST_PATH_IMAGE010
在机器学习的上下文中,函数f例如通过神经网络建模,并且然后被训练为使所有训练样本的似然性最大化。
在两个约束之下进行对应神经网络的构造:
首先,雅可比的对数行列式应该是可处理的。其次,函数f的逆是可处理的,使得新的样本可以被生成为
Figure 591007DEST_PATH_IMAGE011
。由于这两个约束限制了函数f的设计空间,因此得到的模型可能仅是近似。换言之,设计用于描述函数f的神经网络对于达到具有可伸缩的可处理性的良好建模准确性是关键的。
为了设计函数f,自回归模型利用以下因式分解对数据概率密度
Figure 328019DEST_PATH_IMAGE012
建模:
Figure 976038DEST_PATH_IMAGE013
(3)
即,x的第i个元素
Figure 405882DEST_PATH_IMAGE014
取决于先前的元素
Figure 647508DEST_PATH_IMAGE015
。利用该自回归结构,下面的函数f的逆的雅可比是三角形的,因此易于评估等式(2)。
为了定义等式(3)中的因式分解,必须预先指定x的所有元素的排序,例如,如果x是图像并且
Figure 922631DEST_PATH_IMAGE014
代表一个像素,则逐行或逐列地预先指定x的所有元素的排序。
当对训练数据样本建模时,排序施加了顺序结构。然而,这样的结构可能与真实数据生成过程不一致,因此损害准确性。此外,当使用经训练的自回归模型生成样本时,x的每个条目必须遵循给定的次序而被顺序地生成。这限制了其用于延迟关键的应用。
在另一方面,生成流不对数据施加任何特定的结构。样本生成可以并行进行,这使得它们可伸缩。然而,生成流变换到目前为止已受到限制,即函数f的设计空间进一步变窄。
在Laurent Dinh, Jascha Sohl-Dickstein和Samy Bengio的“Densityestimation using real nvp.”arXiv预印本arXiv:1605.08803, 2016中,作者使用了一种分离数据的特定维度的机制。通过其他维度使特定维度上的仿射变换参数化。
在Diederik P Kingma和Prafulla Dhariwal的“Glow: Generative flow withinvertible 1x1 convolutions.”arXiv预印本arXiv:1807.03039, 2018中,作者提出了1乘1可逆卷积,其是在使用真实nvp进行密度估计中使用的通道排列的广义化。
下面描述的方法使用在下面描述中被称为可逆2D卷积的更具表达性的变换。在该上下文中的2D是指二维,即在变换中确定二维卷积。该变换在下面被称为可逆线性映射。该上下文中的线性映射是指矩阵向量乘法,如果矩阵是可逆的,则该矩阵向量乘法是可逆的。可逆自回归卷积是一种特殊类型的线性映射。它的相关联矩阵是三角形的。可逆2D卷积利用自回归结构来计算确切的逆,并且与针对生成流设计的层兼容。更具体地,基于自回归卷积提供可逆2D卷积。并且为高效的新出现的可逆卷积提供方形感受野(receptive field)。
在以下描述中,使用数字图像数据处理来描述该方法。表示数字图像的像素的元素
Figure 192201DEST_PATH_IMAGE016
包括空间维度D1、D2的指示d1、d2以及通道维度C的指示c。在该上下文中,像素是指包括数字图像的部分的表示(例如c、d1、d2)的元组。在该示例中,元素
Figure 527367DEST_PATH_IMAGE017
通过索引c、d1、d2来表示像素。
空间维度d1、d2指示像素在数字图像中的位置。在一个方面,笛卡尔坐标(即空间维度的第一指示d1和空间维度的第二指示d2)可以从数字图像的左下角开始用于矩形数字图像。非矩形(例如椭圆形或圆形)的数字图像可以通过添加像素以创建具有矩形空间维度的数字图像而被处理。
通道维度C指示像素在数字图像中的通道。通道维度一般不受限制。对于数字彩色图像而言,通道维度包括例如数字彩色图像的颜色通道。更具体地,可以根据加性颜色模型、例如使用红R、绿G、蓝B颜色来编码数字图像。例如,颜色通道R、G、B被编码为通道号R=0、G=1、B=2。可以相像地使用减性颜色模型,例如使用青色、品红色、黄色和黑色的CMYK颜色模型。
在以灰度编码的数字图像中,通道维度可以反映可用于编码的黑色阴影(shade)。在黑白数字图像中,通道维度可以被减小到单个通道。
下面描述可逆自回归卷积、2D卷积的新出现的卷积、可逆的新出现的方形卷积和可逆循环卷积的各方面。这些为此后描述的神经网络架构提供了基础。
可逆自回归卷积
自回归卷积对图像中的像素施加一次序,该次序强制值仅受一像素“之前”而不是“之后”的像素制约。这些卷积是自回归的,即顺序地回归下面的像素值。在示例中,通过卷积滤波器上的零填充来强制该次序。图1示意性地描绘了用于具有单个通道的自回归卷积的填充的可视化。图1中的白色区域标示填充。在图1中,卷积滤波器是行向量。从图1的左侧到图1的右侧,描绘了1D、2D和3D卷积填充。1D、2D和3D是指卷积的维度,即1D是指一维卷积,2D是指二维卷积,并且3D是指三维卷积。图1中的1D卷积滤波器具有3乘1像素的维度,其中最左边的像素被零填充。2D卷积滤波器具有3乘3像素的维度,其中最低的像素行和第二行的最右边的像素被零填充。3D卷积滤波器使用具有不同的零填充像素的3乘3维度的三个卷积滤波器。在图1中,一个通道的像素在标示滤波器的较大矩形中被标示为小方形。
作为示例,具有单个通道的音频信号的输入是时间维度,而空间维度和通道维度变为一个。对于该输入,例如使用1D卷积。作为另一个示例,灰度图像的输入是高度和宽度,因为空间维度D1、D2和通道维度C以及时间维度变为一个。对于具有若干颜色通道的彩色图像,输入是高度、宽度、通道。对于该输入,使用3D卷积。对于视频信号,输入是高度、宽度、时间、通道。对于该输入,使用4D卷积。
用于1D卷积的核k例如是作为核的行向量。用于2D卷积的核k例如是作为核的矩阵。对于卷积的每个维度,核维度增加一个维度。用于3D卷积的核k具有立方维度。
从1D、2D和3D进行广义化以用于N维可逆卷积,其中N是正整数N,下面的归纳掩蔽策略适用:
给定用于(N-1)维卷积的核,该核被扩展到用于N维卷积的核。
N维核可以被看作是沿着维度N一个接一个地级联具有相同大小的多个(N-1)维核。于是最后维度的大小KN等于(N-1)维核的数量。由k为最后维度的条目做索引,范围从0到KN -1。k的中心值被标示为kct并且等于floor(
Figure 256289DEST_PATH_IMAGE019
)。KN个(N-1)维核中的每一个都可以与N维核相关联,N维核具有呈现在0与KN -1之间的特定值的最后维度条目k。给定用于(N-1)维可逆卷积的核,通过三个步骤扩展该核以用于N维可逆卷积。首先,(N-1)维核与N维核相关联,N维核具有等于kct的最后维度条目k。其次,对于最后维度中其索引小于kct的任何条目,N维核可以呈现任意值。第三,对于最后维度中其索引大于kct的任何条目,N维核仅可以呈现零。
例如,5维核具有(K1,K2,K3,K4,K5)的大小。K5代表核在其最后维度N=5中的维度大小,而K1、K2、K3、K4是核的前4个维度的维度大小。在K5 = 5的情况下,最后维度的中心条目等于kct = 2。对于具有最后维度索引k < kct的5维核的条目,可以使用非零值。对于具有k >kct的其他条目,使用值零。这意味着卷积不依赖于未来的值,即在输入次序中在kct之后的值。使用过去的信息,即在输入次序中在kct之前的值。对于k = kct——其指示在输入次序中维度N中的现在(present),基于已被定义的(N-1)卷积的核来查看所有先前的维度。
自回归卷积的线性变换原则上可被表达为三角形矩阵。为了以线性时间计算雅可比行列式,仅需查找该矩阵的对角条目。
可通过顺序地遍历通过所施加的次序来计算自回归卷积的逆。
假设卷积
Figure 335103DEST_PATH_IMAGE020
,其中滤波器k在其边界外部利用零被无限地填充,并且以坐标(0,0)为中心。通道c中z的
Figure 957714DEST_PATH_IMAGE021
元素等于
Figure 729361DEST_PATH_IMAGE023
(4)
其中c是通道的索引,并且
Figure 680000DEST_PATH_IMAGE021
是空间索引,即在数字图像的示例中的维度d1、维度d2。数字图像的表示
Figure 562505DEST_PATH_IMAGE024
是由元素的线性映射产生的潜在变量z。
可利用被称为前向/后向替换(substitution)的过程来计算等式(4)中给出的卷积的逆,
Figure 541088DEST_PATH_IMAGE025
(5)
以自回归卷积施加的次序计算逆
Figure 483636DEST_PATH_IMAGE026
可逆自回归卷积对输入施加一次序,使得对于特定元素的表示值仅取决于表示如下输入的输入元素:该输入在所施加的次序中、在该次序中的斑点元素(speck element)之前。
输入维度的输入通过多个连续自回归卷积被映射到表示,其中连续卷积的维度等于或小于输入维度。
在一个方面,该表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。
在用于实现该方法的人工神经网络中,上述被实现为卷积层。这样的卷积层不仅可适用于人工神经网络的输入层,而且还可适用于人工神经网络的隐藏层。
如上所述,特别是用于可逆线性映射的卷积神经网络根据输入确定表示。更具体地,该表示是取决于至少一个可逆自回归卷积而根据输入确定的。
在该上下文中的特别是用于两个输入通道的线性映射是指来自第一通道的第一输入和来自第二通道的第二输入通过自回归卷积被映射到潜在变量。一般而言,可逆线性映射包括至少一个自回归卷积。并且该卷积是可逆的,因为它们是自回归的。
在该上下文中的可逆自回归卷积是指通过自回归卷积的线性映射,该自回归卷积对输入施加一次序,使得输入的表示值仅取决于表示如下输入的元素:该输入在所施加的次序中、在该次序中的特定输入元素之前。在该次序中的特定输入元素之后的输入元素被零填充。通过以自回归卷积施加的次序计算逆,该线性映射、即自回归卷积是可逆的。
2D卷积的新出现的卷积
自回归卷积当被独立使用时是更不具表达性的。图1中的卷积被限制到使用数字图像坐标的上方或左边的值。然而,可以通过合成不同的自回归卷积来克服该限制。通过执行连续的自回归卷积,构造具有丰富感受野的新出现的卷积是可能的。在图2中描绘了使用两个接续的自回归卷积的新出现的卷积的感受野。
在图2中,每行在两个左列中指示使用不同卷积滤波器应用于数字图像的两个接续的卷积。在该示例中,右列中的第一卷积滤波器对于所有行都是相同的。在该示例中,中间列中的第二卷积滤波器相对于第一卷积滤波器旋转、取逆或者旋转并取逆。右列指示根据接续的卷积的有效卷积滤波器。图2中的白色区域标示填充。
可逆的新出现的方形卷积
两个自回归卷积可以被修改以获得具有方形感受野的等效卷积。这在图3中被示意性地描绘。可以利用两种方法高效地计算用于3乘3滤波器的新出现的方形卷积:
a)卷积可以被表达为两个连续的2乘2卷积。
b)可以对滤波器(g和h)进行卷积以获得等效的3乘3滤波器。然后通过滤波器
Figure 921571DEST_PATH_IMAGE027
与特征图(feature map)f之间的卷积获得卷积的输出:
Figure 342188DEST_PATH_IMAGE028
注意到,在深度学习框架中,卷积实际上通常是互相关(cross-correlation)。等式中
Figure 939391DEST_PATH_IMAGE029
标示互相关,并且
Figure 52841DEST_PATH_IMAGE031
标示卷积。在描述中,两个操作均被称为卷积。
此外,任何d乘d卷积都可以通过两个连续的自回归k乘k卷积来表达,其中k =(d +1)/2。仅在采样期间有必要计算逆,该逆将被计算为分解的卷积的逆。
可逆循环卷积
两个信号的傅里叶变换的乘法等效于其卷积的傅里叶变换。卷积层的计算是互相关的聚合,如等式(6)中所示。注意到,因为傅里叶变换假设周期函数,所以获得的卷积是循环的。这些卷积是1乘1卷积的广义化。换言之,1x1卷积是循环卷积的特例。
Figure 978071DEST_PATH_IMAGE033
(6)
每个相关可以写成频域中的乘法。令函数
Figure 202379DEST_PATH_IMAGE034
标示傅里叶变换并且
Figure 263876DEST_PATH_IMAGE035
标示傅里叶逆变换。令
Figure 174326DEST_PATH_IMAGE036
Figure 586852DEST_PATH_IMAGE037
作为频域中的输出、输入和滤波器信号。因为这些是互相关,因此
Figure 614851DEST_PATH_IMAGE038
标示
Figure 796434DEST_PATH_IMAGE039
的镜像和复共轭。在频域中,卷积输出被计算为滤波器和输入的频域表示之间的逐元素(elementwise)乘法(由
Figure 845161DEST_PATH_IMAGE040
标示)。
Figure 744984DEST_PATH_IMAGE041
(7)
如果我们在每个频率分量u、v处分离计算,则求和等效于矩阵乘法。输出向量
Figure 311095DEST_PATH_IMAGE042
可以写成矩阵
Figure 612763DEST_PATH_IMAGE043
和输入向量
Figure 865015DEST_PATH_IMAGE044
的乘法,如(8)中所示。这里
Figure 252134DEST_PATH_IMAGE045
Figure 621936DEST_PATH_IMAGE046
矩阵。可以通过取得傅里叶逆变换来检索输出特征图
Figure 512531DEST_PATH_IMAGE047
Figure 309586DEST_PATH_IMAGE048
(8)
由于傅里叶变换及其逆变换是酉变换,因此傅里叶变换的行列式等于一。频域中的变换的行列式可以写成滤波器的对数行列式之和(9)。
Figure 43056DEST_PATH_IMAGE049
(9)
如(10)中所示,对循环卷积取逆需要针对每个频率u、v对矩阵
Figure 216548DEST_PATH_IMAGE050
的逆。通过傅里叶逆变换获得输入特征图
Figure 227229DEST_PATH_IMAGE051
Figure 195185DEST_PATH_IMAGE052
(10)
人工神经网络架构
下面参考图4描述实现生成流的示例性人工神经网络架构。在步骤402中,对输入执行激活标准化,简称“actnorm”。
人工神经网络执行例如特别是使用每通道的尺度和偏置参数以及对于小批量大小1的仿射变换。
该步骤中的参数可以是可训练的,并且被初始化,例如使得第一小批量数据在actnorm之后具有均值0和标准偏差1。
此后,在步骤404中执行1x1卷积。1x1卷积特别地具有相等数量的输入和输出通道。
此后,在步骤406中执行如上所述的可逆卷积。例如,在该步骤中可以执行2D卷积的新出现的卷积、可逆的新出现的方形卷积或可逆的循环卷积。
此后,在步骤408中执行1x1卷积。1x1卷积特别地具有相等数量的输入和输出通道。
此后,在步骤410中执行仿射耦合层以确定生成流的输出。
步骤402至410被包括在新的流模块400中,该流模块400作为流模块被包括在如图5中所描绘的多尺度架构500中。
可以如“Glow: Generative flow with invertible 1x1 convolutions”中所描述的那样来实现步骤402、404、408和410以及多尺度架构500。
在多尺度架构500中, K意味着按顺序次序的K次流操作。三个步骤——挤压、流操作和分裂作为整块被重复L次。在每次,分裂生成一个zl 作为最终z表示的部分输出,并且将另一个馈送到下一个挤压、流操作和分裂,这输出zl+1。最后的挤压、流操作和分裂与在结束处的挤压和流操作一起生成z的最后部分(即zL)。
基于该方法技术,在以下部分中描述了计算机实现的方法的各方面,这些方面显著改进了数字图像、音频或视频数据的增强、传输或存储的性能。计算机实现的方法提供了特别是针对图像变换、针对图像识别、针对异常检测和/或针对图像验证的改进的性能。该计算机实现的方法可以在对至少部分自主的车辆或机器人的控制中使用。
增强数字图像数据
下面参考图6描述了用于增强数字图像数据的方法。
在步骤602中,表示数字图像像素的多个元素
Figure 917416DEST_PATH_IMAGE053
取决于可逆线性映射被变换成表示
Figure 629020DEST_PATH_IMAGE054
可逆线性映射将多个元素
Figure 494208DEST_PATH_IMAGE055
的输入映射到表示
Figure 633065DEST_PATH_IMAGE054
例如根据可逆线性映射来确定该表示。
Figure 216493DEST_PATH_IMAGE057
在步骤604中,取决于表示
Figure 590843DEST_PATH_IMAGE058
修改表示
Figure 576116DEST_PATH_IMAGE058
以确定经修改的表示
Figure 885875DEST_PATH_IMAGE060
在步骤606中,取决于经修改的表示
Figure 956599DEST_PATH_IMAGE061
,确定表示增强的数字图像的像素的多个元素
Figure 370525DEST_PATH_IMAGE062
。取决于可逆线性映射的逆来变换经修改的表示
Figure 210305DEST_PATH_IMAGE063
取决于可逆线性映射的逆来变换经修改的表示
Figure 690965DEST_PATH_IMAGE064
,例如根据
Figure 983406DEST_PATH_IMAGE065
上述方法可以应用于数字音频或数字视频处理。下面将描述数字音频或数字视频处理的各方面。
数字视频增强
在一个方面,根据上述用于数字图像增强的方法,数字视频的多个数字图像特别是顺序地被处理以用于数字视频增强。
参考图7描述了用于数字视频增强的计算机实现的方法。
表示数字视频的数字图像像素的元素
Figure 840504DEST_PATH_IMAGE066
包括空间维度D1、D2的指示d1、d2、通道维度C的指示c、时间维度T的指示t。在该上下文中,像素是指包括数字视频的部分的表示(例如,c、t、d1、d2)的元组。
空间维度D1、D2指示像素在数字图像中的位置,如针对数字图像处理所描述的。通道维度C指示像素在数字图像中的通道,如针对数字图像处理所描述的。
时间维度T指示数字图像在视频时间线中的位置。
在步骤702中使用该附加维度。在步骤702中,线性映射将多个元素
Figure 925003DEST_PATH_IMAGE067
的输入映射到表示
Figure 576564DEST_PATH_IMAGE068
。例如根据如下可逆线性映射来确定该表示
Figure 621881DEST_PATH_IMAGE069
这意味着表示数字图像像素的多个元素
Figure 17090DEST_PATH_IMAGE066
取决于该可逆线性映射被变换成表示
Figure 191982DEST_PATH_IMAGE070
在步骤704中,取决于表示
Figure 280023DEST_PATH_IMAGE071
修改表示
Figure 547057DEST_PATH_IMAGE071
以确定经修改的表示
Figure 745957DEST_PATH_IMAGE072
在步骤706中,取决于经修改的表示
Figure 149256DEST_PATH_IMAGE073
确定表示增强的数字视频的像素的多个元素
Figure 267254DEST_PATH_IMAGE074
。经修改的表示
Figure 21583DEST_PATH_IMAGE075
取决于可逆线性映射的逆被变换,例如根据
Figure 758595DEST_PATH_IMAGE077
数字音频增强
参考图8描述了用于数字音频增强的计算机实现的方法。
表示数字音频样本的部分的元素
Figure 281980DEST_PATH_IMAGE078
包括空间维度D1、D2的第一指示d1和第二指示d2。并且空间维度D1、D2的第一指示d1和第二指示d2是恒定值,特别是一个恒定值。
元素
Figure 603503DEST_PATH_IMAGE079
包括时间维度T的指示t。时间维度T指示音频样本在音频时间线中的位置。
在步骤802中,表示音频样本的部分的多个元素
Figure 579549DEST_PATH_IMAGE080
取决于可逆线性映射被变换成表示
Figure 120252DEST_PATH_IMAGE081
。可逆线性映射将多个元素
Figure 763723DEST_PATH_IMAGE082
的输入映射到表示
Figure 98889DEST_PATH_IMAGE081
。在一个方面,仅有一个音频通道,即在该示例中没有使用通道维度。
例如根据可逆线性映射来确定该表示
Figure 686865DEST_PATH_IMAGE083
在步骤804中,取决于表示
Figure 765680DEST_PATH_IMAGE084
修改表示
Figure 263657DEST_PATH_IMAGE084
以确定经修改的表示
Figure 769725DEST_PATH_IMAGE085
在步骤806中,取决于经修改的表示
Figure 877620DEST_PATH_IMAGE085
确定表示增强的数字音频样本的部分的多个元素
Figure 760126DEST_PATH_IMAGE086
经修改的表示
Figure 112610DEST_PATH_IMAGE085
取决于可逆线性映射的逆被变换,例如根据
Figure 55158DEST_PATH_IMAGE088
在另一方面,数字音频样本包括音频通道。在该示例中,元素
Figure 493092DEST_PATH_IMAGE089
包括通道维度C的指示c。通道维度C指示音频样本中的音频通道。
在该方面,在步骤802中,包括通道维度C的指示c并且表示音频样本的部分的多个元素
Figure 38343DEST_PATH_IMAGE089
取决于可逆线性映射被变换成表示
Figure 510913DEST_PATH_IMAGE090
。可逆线性映射将包括通道维度C的指示c的多个元素
Figure 358783DEST_PATH_IMAGE089
的输入映射到表示
Figure 284014DEST_PATH_IMAGE090
。例如根据如下可逆线性映射来确定该表示
Figure 868841DEST_PATH_IMAGE091
在步骤804中,取决于表示
Figure 195917DEST_PATH_IMAGE090
来修改该表示
Figure 480268DEST_PATH_IMAGE090
以确定经修改的表示
Figure 892795DEST_PATH_IMAGE092
在步骤806中,取决于经修改的表示
Figure 655215DEST_PATH_IMAGE092
确定包括通道维度C的指示c并且表示增强的数字音频样本的部分的多个元素
Figure 227010DEST_PATH_IMAGE093
。经修改的表示
Figure 682262DEST_PATH_IMAGE092
取决于可逆线性映射的逆被变换,例如根据
Figure 582085DEST_PATH_IMAGE095
编码和解码数字图像数据、传输或存储
参考图9描述了用于编码数字图像数据的方法以及用于解码数字图像数据的方法。
在步骤902中,如在用于增强数字图像数据的方法中的步骤602中所描述的那样确定表示
Figure 148196DEST_PATH_IMAGE096
此后,在步骤904中,并且附加于或代替于如步骤604中描述的修改表示,传输或存储该表示。这提供了可靠和/或高效的传输或存储。
在步骤906中,从传输接收表示
Figure 544804DEST_PATH_IMAGE096
或者从存储读取表示
Figure 170958DEST_PATH_IMAGE096
此后,在步骤908中,如步骤606中所描述的,取决于表示
Figure 558077DEST_PATH_IMAGE096
来确定表示经解码的数字图像的像素的多个元素
Figure 662299DEST_PATH_IMAGE097
编码和解码数字视频数据、传输或存储
在一个方面,根据特别是用于传输或存储的用于编码数字图像数据的方法以及用于解码数字图像数据的方法来处理数字视频的多个数字图像。
在另一方面,参考图10描述了特别是用于传输或存储的用于编码数字视频数据的方法以及用于解码数字视频数据的方法。
如步骤702中所描述的,表示数字图像的像素的多个元素
Figure 818474DEST_PATH_IMAGE098
被变换成表示
Figure 740162DEST_PATH_IMAGE099
此后,在步骤1004中,并且附加于或代替于如步骤704中描述的修改表示,传输或存储表示
Figure 348998DEST_PATH_IMAGE100
。这提供了可靠和/或高效的传输或存储。
在步骤1006中,从传输接收表示
Figure 522491DEST_PATH_IMAGE099
或者从存储读取表示
Figure 533172DEST_PATH_IMAGE099
此后,在步骤1008中,如步骤706中所描述的,确定表示经解码的数字视频的像素的多个元素
Figure 392806DEST_PATH_IMAGE101
编码和解码数字音频数据、传输或存储
参考图11描述了特别是用于传输或存储的用于编码数字音频数据的方法以及用于解码数字音频数据的方法。
在一个方面,处理数字音频数据样本的一个通道。在另一方面,处理多个通道。
在步骤1102中,为了处理一个通道,表示音频样本的部分的多个元素
Figure 488938DEST_PATH_IMAGE102
被变换成表示
Figure 934963DEST_PATH_IMAGE103
,如步骤802中所描述的。为了处理多个通道,处理包括通道维度C的指示c的多个元素
Figure 924784DEST_PATH_IMAGE104
,如步骤802中所描述的。
此后,在步骤1104中,传输或存储表示
Figure 63641DEST_PATH_IMAGE105
或包括通道维度C的指示c的表示
Figure 647070DEST_PATH_IMAGE106
在步骤1106中,从存储传输或读取表示
Figure 896785DEST_PATH_IMAGE105
或包括通道维度C的指示c的表示
Figure 882059DEST_PATH_IMAGE106
此后,在步骤1108中,如在步骤806中所描述那样,确定表示经解码的数字音频数据的部分的多个元素
Figure 83495DEST_PATH_IMAGE107
或包括通道维度C的指示c的多个元素
Figure 154219DEST_PATH_IMAGE108
在上述修改表示的步骤中,例如针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改表示。数字音频和数字视频数据也可以出于变换、识别、异常检测和/或验证的目的而被处理。
在一个方面,取决于上述表示中的至少一个、取决于处理这些表示中的至少一个的结果和/或由通过如上所述的可逆线性映射的逆所确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。

Claims (27)

1.一种用于数字图像增强的计算机实现的方法,其特征在于,表示数字图像像素的元素
Figure 379086DEST_PATH_IMAGE001
包括空间维度
Figure 296226DEST_PATH_IMAGE002
的指示
Figure DEST_PATH_IMAGE003
,空间维度
Figure 138280DEST_PATH_IMAGE002
指示所述像素在数字图像中的位置,并且其中元素
Figure 533489DEST_PATH_IMAGE001
包括通道维度
Figure 347862DEST_PATH_IMAGE005
的指示
Figure 484838DEST_PATH_IMAGE006
,通道维度
Figure 751872DEST_PATH_IMAGE005
指示所述像素在数字图像中的通道,其中表示数字图像像素的多个元素
Figure 950772DEST_PATH_IMAGE007
取决于可逆线性映射被变换成表示
Figure 619651DEST_PATH_IMAGE008
,其中可逆线性映射将多个元素
Figure 613014DEST_PATH_IMAGE009
的输入映射到表示
Figure 429661DEST_PATH_IMAGE008
,其中取决于表示
Figure 166672DEST_PATH_IMAGE008
修改表示
Figure 690058DEST_PATH_IMAGE008
以确定经修改的表示
Figure 119902DEST_PATH_IMAGE010
,并且其中表示增强的数字图像的像素的多个元素
Figure 174577DEST_PATH_IMAGE011
取决于经修改的表示
Figure 449700DEST_PATH_IMAGE012
被确定,其中经修改的表示
Figure 93171DEST_PATH_IMAGE010
取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。
2.一种用于数字视频增强的计算机实现的方法,其特征在于,根据权利要求1所述的方法处理数字视频的多个数字图像。
3.一种用于数字视频增强的计算机实现的方法,其特征在于,表示数字视频的数字图像像素的元素
Figure 428338DEST_PATH_IMAGE014
包括空间维度
Figure 157259DEST_PATH_IMAGE002
的指示
Figure 298391DEST_PATH_IMAGE015
,空间维度
Figure 796368DEST_PATH_IMAGE002
指示所述像素在数字图像中的位置,并且其中元素
Figure 568015DEST_PATH_IMAGE014
包括通道维度
Figure 518653DEST_PATH_IMAGE017
的指示
Figure 712743DEST_PATH_IMAGE006
以及时间维度
Figure 65227DEST_PATH_IMAGE018
的指示
Figure 7775DEST_PATH_IMAGE019
,通道维度
Figure 445710DEST_PATH_IMAGE017
指示所述像素在数字图像中的通道,时间维度
Figure 928644DEST_PATH_IMAGE018
指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素
Figure 401214DEST_PATH_IMAGE014
取决于可逆线性映射被变换成表示
Figure 514663DEST_PATH_IMAGE020
,其中可逆线性映射将多个元素
Figure 439894DEST_PATH_IMAGE021
的输入映射到表示
Figure 664202DEST_PATH_IMAGE022
,其中取决于表示
Figure 538748DEST_PATH_IMAGE020
修改表示
Figure 823099DEST_PATH_IMAGE023
以确定经修改的表示
Figure 235626DEST_PATH_IMAGE024
,并且其中表示增强的数字视频的像素的多个元素
Figure 263624DEST_PATH_IMAGE025
取决于经修改的表示
Figure 507524DEST_PATH_IMAGE024
被确定,其中经修改的表示
Figure 697197DEST_PATH_IMAGE024
取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。
4.一种用于数字音频增强的计算机实现的方法,其特征在于,表示数字音频样本的部分的元素
Figure 597020DEST_PATH_IMAGE027
包括空间维度的指示,其中空间维度的指示是恒定值,特别是一个恒定值,并且其中元素
Figure 163130DEST_PATH_IMAGE028
包括时间维度
Figure 464799DEST_PATH_IMAGE018
的指示
Figure 128168DEST_PATH_IMAGE019
,时间维度
Figure 515287DEST_PATH_IMAGE018
指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素
Figure 885089DEST_PATH_IMAGE030
取决于可逆线性映射被变换成表示
Figure 775684DEST_PATH_IMAGE031
,其中可逆线性映射将多个元素
Figure 635056DEST_PATH_IMAGE032
的输入映射到表示
Figure 243892DEST_PATH_IMAGE034
,其中取决于表示
Figure DEST_PATH_IMAGE033
来修改表示
Figure 417384DEST_PATH_IMAGE035
以确定经修改的表示
Figure 428065DEST_PATH_IMAGE036
,并且其中表示增强的数字音频样本的部分的多个元素
Figure DEST_PATH_IMAGE037
取决于经修改的表示
Figure 209071DEST_PATH_IMAGE038
被确定,其中经修改的表示
Figure 305203DEST_PATH_IMAGE036
取决于可逆线性映射的逆被变换,并且其中可逆线性映射包括至少一个自回归卷积。
5.根据权利要求4所述的计算机实现的方法,其中,数字音频样本包括音频通道,其中元素
Figure 16807DEST_PATH_IMAGE039
包括通道维度
Figure 944312DEST_PATH_IMAGE017
的指示
Figure 83169DEST_PATH_IMAGE006
,通道维度
Figure 666597DEST_PATH_IMAGE017
指示音频样本中的音频通道,并且包括通道维度
Figure 916313DEST_PATH_IMAGE017
的指示
Figure 901586DEST_PATH_IMAGE006
并表示音频样本的部分的多个元素
Figure 522929DEST_PATH_IMAGE039
取决于可逆线性映射被变换成表示
Figure 593654DEST_PATH_IMAGE031
,其中可逆线性映射将包括通道维度
Figure 647060DEST_PATH_IMAGE017
的指示
Figure 486840DEST_PATH_IMAGE006
的多个元素
Figure 29817DEST_PATH_IMAGE039
的输入映射到表示
Figure 322258DEST_PATH_IMAGE040
,其中取决于表示
Figure 179356DEST_PATH_IMAGE041
修改表示
Figure 873642DEST_PATH_IMAGE042
以确定经修改的表示
Figure 338253DEST_PATH_IMAGE043
,并且其中包括通道维度
Figure 383569DEST_PATH_IMAGE017
的指示
Figure 778778DEST_PATH_IMAGE006
并表示增强的数字音频样本的部分的多个元素
Figure 327571DEST_PATH_IMAGE044
取决于经修改的表示
Figure 415613DEST_PATH_IMAGE043
被确定,其中经修改的表示
Figure 744963DEST_PATH_IMAGE043
取决于可逆线性映射的逆被变换。
6.一种用于编码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,表示数字图像像素的元素
Figure 943863DEST_PATH_IMAGE045
包括空间维度
Figure 347163DEST_PATH_IMAGE046
的指示
Figure 606106DEST_PATH_IMAGE015
,空间维度
Figure 674949DEST_PATH_IMAGE046
指示所述像素在数字图像中的位置,并且其中元素
Figure 411961DEST_PATH_IMAGE045
包括通道维度
Figure 935347DEST_PATH_IMAGE047
的指示
Figure 365191DEST_PATH_IMAGE048
,通道维度
Figure 403554DEST_PATH_IMAGE047
指示所述像素在数字图像中的通道,其中表示数字图像像素的多个元素
Figure 944257DEST_PATH_IMAGE045
取决于可逆线性映射被变换成表示
Figure 587728DEST_PATH_IMAGE049
,其中可逆线性映射将多个元素
Figure 922894DEST_PATH_IMAGE045
的输入映射到表示
Figure 651816DEST_PATH_IMAGE050
,其中表示
Figure 543679DEST_PATH_IMAGE050
被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。
7.一种用于解码数字图像数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,从传输接收表示
Figure 41657DEST_PATH_IMAGE050
或从存储读取表示
Figure 547725DEST_PATH_IMAGE050
,并且其中表示经解码的数字图像的像素的多个元素
Figure 763942DEST_PATH_IMAGE051
取决于表示
Figure 646448DEST_PATH_IMAGE050
被确定,其中表示
Figure 61248DEST_PATH_IMAGE050
取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素
Figure 3797DEST_PATH_IMAGE052
的输入映射到表示
Figure 441731DEST_PATH_IMAGE050
,其中多个元素
Figure DEST_PATH_IMAGE053
中表示数字图像像素的元素
Figure 173933DEST_PATH_IMAGE045
包括空间维度
Figure 646502DEST_PATH_IMAGE054
的指示
Figure DEST_PATH_IMAGE055
,空间维度
Figure 494373DEST_PATH_IMAGE046
指示所述像素在数字图像中的位置,并且其中元素
Figure 419603DEST_PATH_IMAGE056
包括通道维度
Figure 706228DEST_PATH_IMAGE047
的指示
Figure 33304DEST_PATH_IMAGE048
,通道维度
Figure 317655DEST_PATH_IMAGE047
指示所述像素在数字图像中的通道,其中表示数字图像像素的多个元素
Figure DEST_PATH_IMAGE057
取决于可逆线性映射而可变换成表示
Figure 543231DEST_PATH_IMAGE050
,并且其中可逆线性映射包括至少一个自回归卷积。
8.一种用于数字视频传输或存储的计算机实现的方法,其特征在于,根据权利要求6或7所述的方法处理数字视频的多个数字图像。
9.一种用于编码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,表示数字视频的数字图像像素的元素
Figure 305651DEST_PATH_IMAGE058
包括空间维度
Figure 487234DEST_PATH_IMAGE002
的指示
Figure 942486DEST_PATH_IMAGE059
,空间维度
Figure 842309DEST_PATH_IMAGE002
指示所述像素在数字图像中的位置,并且其中元素
Figure 470736DEST_PATH_IMAGE060
包括通道维度
Figure 506825DEST_PATH_IMAGE005
的指示
Figure 132979DEST_PATH_IMAGE006
以及时间维度
Figure DEST_PATH_IMAGE061
的指示
Figure 834612DEST_PATH_IMAGE062
,通道维度
Figure 938834DEST_PATH_IMAGE005
指示所述像素在数字图像中的通道,时间维度
Figure 95009DEST_PATH_IMAGE018
指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素
Figure 892063DEST_PATH_IMAGE060
取决于可逆线性映射被变换成表示
Figure 563216DEST_PATH_IMAGE063
,其中可逆线性映射将多个元素
Figure 736709DEST_PATH_IMAGE064
的输入映射到表示
Figure 747390DEST_PATH_IMAGE063
,其中表示
Figure 715346DEST_PATH_IMAGE065
被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。
10.一种用于解码数字视频数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,从传输接收表示
Figure 624527DEST_PATH_IMAGE066
或从存储读取表示
Figure 70552DEST_PATH_IMAGE066
,并且其中表示经解码的数字视频的像素的多个元素
Figure 201319DEST_PATH_IMAGE067
取决于表示
Figure 402493DEST_PATH_IMAGE066
被确定,其中表示
Figure 985921DEST_PATH_IMAGE068
取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素
Figure 235637DEST_PATH_IMAGE069
的输入映射到表示
Figure 220911DEST_PATH_IMAGE066
,其中表示数字视频的数字图像像素的元素
Figure 904571DEST_PATH_IMAGE070
包括空间维度
Figure 975295DEST_PATH_IMAGE071
的指示
Figure 841751DEST_PATH_IMAGE015
,空间维度
Figure 681531DEST_PATH_IMAGE002
指示所述像素在数字图像中的位置,并且其中元素
Figure 162191DEST_PATH_IMAGE072
包括通道维度
Figure 516949DEST_PATH_IMAGE017
的指示
Figure 688560DEST_PATH_IMAGE006
以及时间维度
Figure 569798DEST_PATH_IMAGE018
的指示
Figure 547592DEST_PATH_IMAGE019
,通道维度
Figure 655225DEST_PATH_IMAGE017
指示所述像素在数字图像中的通道,时间维度
Figure 863484DEST_PATH_IMAGE018
指示数字图像在视频时间线中的位置,其中表示数字图像像素的多个元素
Figure 412277DEST_PATH_IMAGE025
取决于可逆线性映射而可变换成表示
Figure 500318DEST_PATH_IMAGE068
,并且其中可逆线性映射包括至少一个自回归卷积。
11.一种用于编码数字音频数据的计算机实现的方法,其特征在于,表示数字音频样本的部分的元素
Figure DEST_PATH_IMAGE073
包括空间维度
Figure 829669DEST_PATH_IMAGE002
的指示
Figure 762990DEST_PATH_IMAGE015
,其中空间维度
Figure 743453DEST_PATH_IMAGE002
的第一指示和第二指示是恒定值,特别是一个恒定值,并且其中元素
Figure 2396DEST_PATH_IMAGE074
包括时间维度
Figure 491146DEST_PATH_IMAGE018
的指示
Figure 556054DEST_PATH_IMAGE019
,时间维度
Figure 79439DEST_PATH_IMAGE061
指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素
Figure 243704DEST_PATH_IMAGE074
取决于可逆线性映射被变换成表示
Figure 298379DEST_PATH_IMAGE075
,其中可逆线性映射将多个元素
Figure 839082DEST_PATH_IMAGE074
的输入映射到表示
Figure 216973DEST_PATH_IMAGE075
,并且其中表示
Figure 817719DEST_PATH_IMAGE075
被传输或存储,并且其中可逆线性映射包括至少一个自回归卷积。
12.根据权利要求11所述的计算机实现的方法,其中,数字音频样本包括音频通道,其中元素
Figure 281061DEST_PATH_IMAGE072
包括通道维度
Figure 687772DEST_PATH_IMAGE017
的指示
Figure 185749DEST_PATH_IMAGE006
,通道维度
Figure 691817DEST_PATH_IMAGE017
指示音频样本中的音频通道,并且包括通道维度
Figure 908035DEST_PATH_IMAGE017
的指示
Figure 105054DEST_PATH_IMAGE006
并表示音频样本的部分的多个元素
Figure 457538DEST_PATH_IMAGE076
取决于可逆线性映射被变换成表示
Figure 134507DEST_PATH_IMAGE078
,其中可逆线性映射将包括通道维度
Figure 634759DEST_PATH_IMAGE017
的指示
Figure 320955DEST_PATH_IMAGE006
的多个元素
Figure 527945DEST_PATH_IMAGE076
的输入映射到表示
Figure DEST_PATH_IMAGE079
,并且其中表示
Figure 641395DEST_PATH_IMAGE080
被传输或存储。
13.一种用于解码数字音频数据以便可靠和/或高效传输或存储的计算机实现的方法,其特征在于,从传输接收表示
Figure 379675DEST_PATH_IMAGE075
或从存储读取表示
Figure 603983DEST_PATH_IMAGE081
,并且其中表示经解码的数字音频数据的部分的多个元素
Figure DEST_PATH_IMAGE082
取决于表示
Figure 931059DEST_PATH_IMAGE081
被确定,其中表示
Figure 277727DEST_PATH_IMAGE075
取决于可逆线性映射的逆被变换,其中可逆线性映射将多个元素
Figure 424674DEST_PATH_IMAGE083
的输入映射到表示
Figure 452673DEST_PATH_IMAGE075
,其中表示数字音频数据的部分的元素
Figure DEST_PATH_IMAGE084
包括空间维度
Figure 634256DEST_PATH_IMAGE054
的指示
Figure 401092DEST_PATH_IMAGE055
,其中空间维度
Figure 300915DEST_PATH_IMAGE046
的第一指示和第二指示是恒定值,特别是一个恒定值,并且其中元素
Figure 867026DEST_PATH_IMAGE085
包括时间维度
Figure 903115DEST_PATH_IMAGE018
的指示
Figure 529268DEST_PATH_IMAGE019
,时间维度
Figure 713125DEST_PATH_IMAGE018
指示音频样本在音频时间线中的位置,其中表示音频样本的部分的多个元素
Figure 82927DEST_PATH_IMAGE086
取决于可逆线性映射而可变换成表示
Figure 239101DEST_PATH_IMAGE087
,并且其中可逆线性映射包括至少一个自回归卷积。
14.根据权利要求13所述的计算机实现的方法,其中,数字音频样本包括音频通道,其中元素
Figure 36156DEST_PATH_IMAGE088
包括通道维度
Figure 458041DEST_PATH_IMAGE047
的指示
Figure 365954DEST_PATH_IMAGE048
,通道维度
Figure 376636DEST_PATH_IMAGE047
指示音频样本中的音频通道,并且包括通道维度
Figure 344592DEST_PATH_IMAGE047
的指示
Figure 440724DEST_PATH_IMAGE048
并表示音频样本的部分的多个元素
Figure 214645DEST_PATH_IMAGE089
取决于可逆线性映射而可变换成表示
Figure 345412DEST_PATH_IMAGE087
,其中可逆线性映射将包括通道维度
Figure 484269DEST_PATH_IMAGE047
的指示
Figure 802118DEST_PATH_IMAGE048
的多个元素
Figure 317413DEST_PATH_IMAGE089
的输入映射到表示
Figure 617201DEST_PATH_IMAGE087
,并且其中包括通道维度
Figure 926959DEST_PATH_IMAGE047
的指示
Figure 732104DEST_PATH_IMAGE048
并表示经解码的数字音频数据的部分的多个元素取决于表示
Figure 687608DEST_PATH_IMAGE087
被确定,并且其中可逆线性映射包括至少一个自回归卷积。
15.根据前述权利要求中的一项所述的计算机实现的方法,其中,用于可逆线性映射的卷积神经网络根据输入确定所述表示。
16.根据前述权利要求中的一项所述的计算机实现的方法,其中,所述表示取决于输入和第一卷积滤波器的第一自回归卷积、并且取决于第一自回归卷积和第二卷积滤波器的连续第二自回归卷积而被确定。
17.根据前述权利要求中的一项所述的计算机实现的方法,其中,自回归卷积对输入施加一次序,使得对于特定元素的表示值仅取决于表示如下输入的输入元素:所述输入在所施加的次序中、所述次序中的特定元素之前。
18.根据前述权利要求中的一项所述的计算机实现的方法,其中,输入维度的输入通过多个连续自回归卷积被映射到所述表示,其中连续卷积的维度等于或小于输入维度。
19.根据前述权利要求中的一项所述的计算机实现的方法,包括,取决于沿着维度N一个接一个地级联特别是具有相同大小的多个(N-1)维核来确定用于映射的N维核。
20.根据权利要求19所述的计算机实现的方法,其中,确定N维核包括将(N-1)维核与作为最后维度条目
Figure 168268DEST_PATH_IMAGE092
的N维核相关联,其中N维核的最后维度的大小定义了中心值
Figure 726288DEST_PATH_IMAGE092
,其中对于具有小于中心值
Figure 317806DEST_PATH_IMAGE092
的索引
Figure 277672DEST_PATH_IMAGE094
的N维核的最后维度中的N维核的任何条目,分配任意值,其中对于具有大于中心值
Figure 742283DEST_PATH_IMAGE092
的索引
Figure 522020DEST_PATH_IMAGE094
的最后维度中的任何条目,分配零。
21.根据前述权利要求中的一项所述的计算机实现的方法,其中,针对图像变换、针对图像识别、针对异常检测和/或针对图像验证来修改所述表示。
22.根据前述权利要求中的一项所述的计算机实现的方法,其中,取决于所述表示、取决于处理所述表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据,控制至少部分自主的车辆或机器人。
23.一种设备,包括处理器和存储装置,存储装置包括特别地用于卷积神经网络的指令,其中当所述指令被处理器执行时,处理器被适配为执行根据权利要求1至21中的一项所述的计算机实现的方法。
24.根据权利要求23所述的设备,包括输出,其被适配为根据权利要求19输出图像变换、图像识别、异常检测和/或图像验证的结果。
25.根据权利要求23或24所述的设备,包括致动器,其被适配为取决于所述表示、取决于处理所述表示的结果和/或取决于通过可逆线性映射的逆确定的音频数据、视频数据或图像数据来控制至少部分自主的车辆或机器人。
26.一种计算机可读介质,包括指令,所述指令当由计算机执行时,使得计算机施行权利要求1至22中任一项所述的方法的步骤。
27.一种计算机程序,包括指令,所述指令当由计算机执行时,使得计算机施行权利要求1至22中任一项所述的方法的步骤。
CN201911234128.3A 2018-12-06 2019-12-05 用于数字图像、音频或视频数据处理的方法和设备 Active CN111294614B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18210716.9 2018-12-06
EP18210716.9A EP3664017B1 (en) 2018-12-06 2018-12-06 Method and device for digital image or video data processing

Publications (2)

Publication Number Publication Date
CN111294614A true CN111294614A (zh) 2020-06-16
CN111294614B CN111294614B (zh) 2023-10-31

Family

ID=64664052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911234128.3A Active CN111294614B (zh) 2018-12-06 2019-12-05 用于数字图像、音频或视频数据处理的方法和设备

Country Status (3)

Country Link
US (1) US11276140B2 (zh)
EP (1) EP3664017B1 (zh)
CN (1) CN111294614B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3664017B1 (en) * 2018-12-06 2022-03-02 Robert Bosch GmbH Method and device for digital image or video data processing
US12073842B2 (en) * 2019-06-24 2024-08-27 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
CN112862724B (zh) * 2021-03-12 2022-09-09 上海壁仞智能科技有限公司 用于计算的方法、计算设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184272A1 (en) * 2001-06-05 2002-12-05 Burges Chris J.C. System and method for trainable nonlinear prediction of transform coefficients in data compression
US20050276504A1 (en) * 2004-06-14 2005-12-15 Charles Chui Image clean-up and pre-coding
US20130051668A1 (en) * 2010-02-16 2013-02-28 Apple Inc. Method and system for generating enhanced images
CN105100814A (zh) * 2014-05-06 2015-11-25 同济大学 图像编码、解码方法及装置
US20150340016A1 (en) * 2014-01-05 2015-11-26 Peter Lablans Apparatus and Methods to Display a Modified Image
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995539A (en) * 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
US5611030A (en) * 1994-09-16 1997-03-11 Apple Computer, Inc. Subjectively pleasing color gamut mapping in a color computer graphics system
CN101448162B (zh) * 2001-12-17 2013-01-02 微软公司 处理视频图像的方法
US7876974B2 (en) * 2003-08-29 2011-01-25 Vladimir Brajovic Method for improving digital images and an image sensor for sensing the same
JP4594688B2 (ja) * 2004-06-29 2010-12-08 オリンパス株式会社 画像符号化処理方法、画像復号化処理方法、動画圧縮処理方法、動画伸張処理方法、画像符号化処理プログラム、画像符号化装置、画像復号化装置、画像符号化/復号化システム、拡張画像圧縮伸張処理システム
TWI479898B (zh) * 2010-08-25 2015-04-01 Dolby Lab Licensing Corp 擴展影像動態範圍
WO2012142285A2 (en) * 2011-04-12 2012-10-18 Dolby Laboratories Licensing Corporation Quality assessment for images that have extended dynamic ranges or wide color gamuts
WO2015007510A1 (en) * 2013-07-16 2015-01-22 Koninklijke Philips N.V. Method and apparatus to create an eotf function for a universal code mapping for an hdr image, method and process to use these images
EP3664017B1 (en) * 2018-12-06 2022-03-02 Robert Bosch GmbH Method and device for digital image or video data processing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184272A1 (en) * 2001-06-05 2002-12-05 Burges Chris J.C. System and method for trainable nonlinear prediction of transform coefficients in data compression
US20050276504A1 (en) * 2004-06-14 2005-12-15 Charles Chui Image clean-up and pre-coding
US20130051668A1 (en) * 2010-02-16 2013-02-28 Apple Inc. Method and system for generating enhanced images
US20150340016A1 (en) * 2014-01-05 2015-11-26 Peter Lablans Apparatus and Methods to Display a Modified Image
CN105100814A (zh) * 2014-05-06 2015-11-25 同济大学 图像编码、解码方法及装置
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AARON OORD ET AL.: "Conditional Image Generation with PixelCNN Decoders", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》, pages 4790 *
DIEDERIK P KINGMA ET AL: "Glow: Generative Flow with Invertible 1x1 Convolutions", 《ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853》 *
MATHIEU GERMAIN ET AL: "MADE: Masked Autoencoder for Distribution Estimation", Retrieved from the Internet <URL:https://arxiv.org/abs/1502.03509> *
POORIA ZAMANI; HAMID SOLTANIAN-ZADEH: "Compressive sensing cardiac cine MRI using invertible non-linear transform", 《2014 22ND IRANIAN CONFERENCE ON ELECTRICAL ENGINEERING (ICEE)》 *
何姣: "基于retinex理论的视频图像增强应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
宋璐;冯艳平;卫亚博: "基于灰度DAG熵最大化量化分辨率医学图像增强", 《四川大学学报(自然科学版)》, vol. 55, no. 2, pages 316 - 322 *

Also Published As

Publication number Publication date
US20200184595A1 (en) 2020-06-11
US11276140B2 (en) 2022-03-15
EP3664017B1 (en) 2022-03-02
EP3664017A1 (en) 2020-06-10
CN111294614B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
Parmar et al. Image transformer
Huang et al. Flowformer: A transformer architecture for optical flow
CN111696148A (zh) 基于卷积神经网络的端到端立体匹配方法
CN112396645B (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN111294614B (zh) 用于数字图像、音频或视频数据处理的方法和设备
CN110533712A (zh) 一种基于卷积神经网络的双目立体匹配方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN109598732B (zh) 一种基于三维空间加权的医学图像分割方法
CN106339753A (zh) 一种有效提升卷积神经网络稳健性的方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN114223019A (zh) 用于参数有效的语义图像分割的反馈解码器
KR20200144398A (ko) 클래스 증가 학습을 수행하는 장치 및 그의 동작 방법
CN111709516A (zh) 神经网络模型的压缩方法及压缩装置、存储介质、设备
US20240282014A1 (en) Attention-Based Method for Deep Point Cloud Compression
CN114418030A (zh) 图像分类方法、图像分类模型的训练方法及装置
CN114418853A (zh) 基于相似图像检索的图像超分辨率优化方法、介质及设备
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN114037770B (zh) 一种基于离散傅里叶变换的注意力机制的图像生成方法
CN110288603B (zh) 基于高效卷积网络和卷积条件随机场的语义分割方法
CN116486107B (zh) 一种光流计算方法、系统、设备及介质
CN117765236A (zh) 一种基于细粒度决策机制的多模态显著性目标检测方法
CN115861401B (zh) 一种双目与点云融合深度恢复方法、装置和介质
US20230073175A1 (en) Method and system for processing image based on weighted multiple kernels
CN113191947B (zh) 一种图像超分辨率的方法及系统
CN118333847B (zh) 一种2d-3d坐标系转换方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant