CN113508399A - 用于更新神经网络的方法和装置 - Google Patents
用于更新神经网络的方法和装置 Download PDFInfo
- Publication number
- CN113508399A CN113508399A CN202080016829.4A CN202080016829A CN113508399A CN 113508399 A CN113508399 A CN 113508399A CN 202080016829 A CN202080016829 A CN 202080016829A CN 113508399 A CN113508399 A CN 113508399A
- Authority
- CN
- China
- Prior art keywords
- parameters
- neural network
- media
- updating
- media data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 203
- 238000000034 method Methods 0.000 title claims abstract description 116
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 abstract description 11
- 230000004913 activation Effects 0.000 description 8
- 238000001994 activation Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本文描述了一种生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法,其中该方法包括以下步骤:(a)确定用于更新所述神经网络的至少一组参数;(b)对所述至少一组参数和媒体数据进行编码以生成所述媒体比特流;和(c)将所述媒体比特流传输到所述解码器,以便利用所述至少一组参数更新所述神经网络。本文还描述了一种用于更新在解码器中实现的神经网络的方法、一种用于生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的装置、一种用于更新在解码器中实现的神经网络的装置和一种计算机程序产品,该计算机程序产品包括具有指令的计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时使所述设备实施上述方法。
Description
相关申请的交叉引用
本申请要求以下优先权申请的优先权:2019年3月15日提交的美国临时申请62/818,879(卷号:D19009USP1)和2019年5月15日提交的欧洲申请19174542.1(卷号:D19009EP),上述申请在此通过引用并入本文。
技术领域
本公开大体上涉及生成媒体比特流以传输用于更新解码器中的神经网络和用于由解码器更新神经网络的参数的方法和装置。
虽然本文将特别参考本公开描述一些实施例,但是应当理解,本公开不限于这样的使用领域并且适用于更广泛的上下文。
背景技术
在整个公开内容中对背景技术的任何讨论都不应被视为承认此类技术是广为人知的或构成本领域公知常识的一部分。
最近,神经网络由于其不断提高的可靠性而越来越受关注。
通常,深度神经网络生成器是通过与是所谓的鉴别器在真-假的基础上进行交互来训练的。特别地,在训练过程中,生成器用于生成所谓的假数据,而鉴别器试图将这个假数据与真数据区分开来。通过迭代这个程序,生成器最终被训练成生成接近真数据的假数据(在一定程度上鉴别器无法将其与真数据区分开来)。最近的工作主要基于深度卷积生成对抗网络(GAN)。GAN已经成功地被用于例如各种计算机视觉和图像处理任务,以及语音和音频相关的应用。
一旦在特定任务上成功训练了深度神经网络(例如,深度神经网络生成器),它就可以例如在解码器上应用于该特定任务。然而,对于在解码器中实现并作用于已经从编码器所提供的比特流中提取的媒体内容的经训练的神经网络,该神经网络可能会也可能不会产生令人满意的结果,这取决于在编码器处对媒体内容进行编码时已存在的特定编码约束。当编码约束可能会随着时间而改变时,情况更是如此。例如,编码的媒体内容的比特率或帧率的变化可能对神经网络处理媒体内容的结果的质量有影响。
因此,需要允许在使解码器实现的神经网络适应特定要求方面具有更大灵活性的方法和装置。尤其需要使解码器实现的神经网络能够处理媒体内容以在媒体内容的编码阶段处理可变编码约束的方法和装置。
发明内容
鉴于上述需要,本公开提供了一种生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法、一种更新在解码器中实现的神经网络的方法以及相应的装置和计算机程序产品,上述方法、装置和计算机程序产品分别具有相应的独立权利要求的特征。
根据本公开的第一方面,提供了一种生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法(例如,传输这种媒体比特流的方法)。该方法可以包括(a)确定用于更新神经网络的至少一组参数的步骤。该方法还可以包括(b)对所述至少一组参数和媒体数据进行编码以生成媒体比特流的步骤。这可以涉及将所述至少一组参数和媒体数据编码到比特流中。该方法还可以包括(c)将媒体比特流传输(输出)到解码器以便利用(例如,使用)所述至少一组参数更新神经网络的步骤。输出/传输媒体比特流可涉及经由有线或无线连接来传输媒体比特流,或将媒体比特流存储在有形介质上并将有形介质提供给解码器。
在一些实施例中,媒体数据可以包括音频数据和/或视频数据中的一个或多个。
在一些实施例中,可以基于一组语法元素将所述至少一组参数编码(到媒体比特流中)。这可涉及生成(创建)语法元素。
在一些实施例中,在步骤(a)中,可以确定用于更新神经网络的两组或更多组参数,并且所述一组组语法元素可以包括标识用于要执行的神经网络的相应更新的相应一组参数的一个或多个语法元素。
在一些实施例中,在解码器中实现的神经网络可以用于媒体数据的处理,并且,在媒体比特流中,用于更新神经网络的所述至少一组参数可以与(例如,在使用所述至少一组参数更新神经网络之后)由神经网络处理的(那部分)媒体数据时间对齐。例如,媒体数据可以被分成媒体数据的部分(例如,媒体数据的帧)。然后,对于每个部分,用于更新处理该部分的神经网络的相应的至少一组参数可以与该部分时间对齐。对于基于帧的媒体数据,每一帧可包括媒体数据和能够用于处理该媒体数据的至少一组对应参数。
在一些实施例中,可以基于编解码器模式、媒体数据的内容和编码约束中的一个或多个来确定所述至少一组参数。在一些实施例中,编解码器模式可以包括比特率、视频和/或音频帧率和所使用的核心编解码器(例如,ASF或SSF等)中的一个或多个。在一些实施例中,媒体数据的内容可以包括语音、音乐和掌声中的一个或多个。在一些实施例中,编码约束可以包括对于性能可扩展性的约束和对于自适应处理(例如,对于自适应流)的约束中的一个或多个。在一些实施例中,所述至少一组参数在要由相应更新的神经网络处理的媒体数据之前被包括在媒体比特流中。
在一些实施例中,媒体数据可以是MPEG-H音频格式或MPEG-I音频格式,并且媒体比特流可以是MHAS格式的分组化的媒体比特流。所述至少一组参数(更新参数)和相应的媒体数据可以一起打包在媒体比特流中。
在一些实施例中,可以通过将所述至少一组参数封装到(可能是新的)MHAS分组类型的一个或多个MHAS分组中来对所述至少一组参数进行编码。
在一些实施例中,媒体数据可以是AC-4、AC-3或EAC-3格式。
在一些实施例中,所述至少一组参数可以作为一个或多个有效载荷元素被编码在媒体比特流中。
在一些实施例中,媒体数据可以是MPEG-4或MPEG-D USAC格式。
在一些实施例中,所述至少一组参数可以作为一个或多个有效载荷元素或一个或多个数据流元素被编码在媒体比特流中。
在一些实施例中,所述至少一组参数包括用于更新神经网络的一个或多个层的权重的参数,包括标识用于更新权重的参数是表示相对值还是绝对值的标识符。
在一些实施例中,神经网络可以具有层结构并且所述至少一组参数可以包括用于至少更新神经网络的面向媒体数据的层(即,多个层中的第一层)和/或输出层(即,所述多个层中的最后一层)的权重的参数。在一个示例中,神经网络具有三层或更多层,其中在面向媒体数据的层和输出层之间有至少一层。
在一些实施例中,通过仅对用于更新神经网络的所述多个层的权重的所述至少一组参数当中的、用于更新面向媒体数据的层和/或输出层的权重的参数以及媒体数据进行编码来生成媒体比特流。换句话说,用于更新其他层的权重的参数未被编码在比特流中。在第一示例中,确定用于更新在解码器处实现的神经网络的所有层的权重的参数,但是在媒体比特流中仅编码用于更新面向媒体数据的层和/或输出层的权重的参数。在第二示例中,仅确定用于更新面向媒体数据的层和/或输出层的权重的参数,即,对于其他层并未确定参数。
根据本公开的第二方面,提供了一种用于更新在解码器中实现的神经网络的方法。该方法可以包括(a)接收包括媒体数据和用于更新神经网络的至少一组参数的编码的媒体比特流的步骤。该方法还可以包括(b)对接收到的媒体比特流进行解码以获得解码的媒体数据和用于更新神经网络的所述至少一组参数的步骤。该方法还可以包括(c)由解码器利用(例如,使用)所述至少一组参数来更新神经网络的步骤。
在一些实施例中,媒体数据可以包括音频数据和/或视频数据中的一个或多个。
在一些实施例中,该方法还可以包括接收一组语法元素并由解码器利用(例如,使用)所述至少一组参数来更新神经网络。这可以基于所接收的一组语法元素。
在一些实施例中,在步骤(a)中,用于更新神经网络的两组或更多组参数可以被包括在所接收的编码的媒体比特流中,并且所接收的所述一组语法元素可以包括标识用于要执行的神经网络的相应更新的相应一组参数的一个或多个语法元素。
在一些实施例中,神经网络可以用于媒体数据的处理,并且在所接收的编码的媒体比特流中,所述至少一组参数可以与(例如,在使用所述至少一组参数之后)由神经网络处理的(那部分)媒体数据时间对齐。
在一些实施例中,神经网络可以具有层结构并且至少神经网络的面向媒体数据的层和/或输出层的权重可以由解码器利用(例如,使用)所述至少一组参数来更新。
在一些实施例中,所接收的媒体比特流包括仅用于更新面向媒体数据的层和/或输出层的参数,即,在媒体比特流中不包括用于更新神经网络的其他层的参数。解码步骤可以包括对接收到的媒体比特流进行解码以获得解码的媒体数据和用于更新面向媒体数据的层和/或输出层的权重的参数。更新神经网络的步骤可以包括使用所接收的参数更新神经网络的面向媒体数据的层和/或输出层的权重。例如,仅更新面向媒体数据的层和/或输出层,而不更新其他层。
根据本公开的第三方面,提供了一种用于生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的装置(例如用于传输这种媒体比特流的装置)。该装置可以包括处理器,处理器被配置为执行包括(a)确定用于更新神经网络的至少一组参数的步骤的方法。该方法还可以包括(b)对所述至少一组参数和媒体数据进行编码以生成媒体比特流的步骤。该方法进一步可以包括(c)将媒体比特流传输到解码器以便利用(例如,使用)所述至少一组参数来更新神经网络的步骤。
根据本公开的第四方面,提供了一种用于更新在解码器中实现的神经网络的装置。该装置可以包括(a)接收器,用于接收编码的媒体比特流,所述编码的媒体比特流包括媒体数据和用于更新神经网络的至少一组参数。该装置还可以包括(b)解码器,用于对所接收的媒体比特流进行解码以获得解码的媒体数据和用于更新神经网络的所述至少一组参数。该装置进一步可以包括(c)更新器,用于利用(例如,使用)所述至少一组参数来更新神经网络。
在一些实施例中,接收器还可以接收一组语法元素,并且更新器可以基于所述一组语法元素利用(例如,使用)所述至少一组参数来更新神经网络。
在一些实施例中,用于更新神经网络的两组或更多组参数可以被包括在由接收器接收的编码的媒体比特流中,并且所接收的一组语法元素可以包括标识用于要执行的神经网络的相应更新的相应一组参数的一个或多个语法元素。
根据本公开的第五方面,提供了一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令适于在由具有处理能力的设备(例如,处理器)执行时使该设备实施生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法。
根据本公开的第六方面,提供了一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令适于在由具有处理能力的设备(例如,处理器)执行时使该设备实施用于更新在解码器中实现的神经网络的方法。
应当理解,方法步骤和装置特征可以以多种方式互换。特别地,如本领域技术人员将理解的,所公开的方法的细节可以被实现为适于执行该方法的一些或全部或所述步骤的装置,反之亦然。特别地,应当理解,根据本公开的方法涉及操作相应装置的方法。还应理解的是,关于该方法的相应陈述同样适用于相应的装置。还应进一步理解,关于编码器/发送器侧的相应陈述同样适用于解码器/接收器侧。
附图说明
现在将参考附图仅通过示例描述本公开的示例实施例,其中:
图1图示了生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法的示例的流程图,
图2图示了用于更新在解码器中实现的神经网络的方法的示例的流程图,并且
图3示意性地图示了被实现为包括编码器级和解码器级的多层生成器的神经网络的示例。
具体实施方式
概述
在本公开的上下文中,深度神经网络可用于处理音频和/或视频媒体数据。对于音频,神经网络的可能应用包括媒体分析、媒体增强(例如,编码音频增强)、媒体分类(语音、电影、音乐、掌声等)、媒体生成(例如,生成缺失或全新媒体数据的深度生成模型)或对话增强。对于视频,神经网络的可能应用包括去块化(deblocking)或运动增强(例如,用于体育节目)。
神经网络可以接收可能被划分成合适的部分(例如,帧)的媒体内容作为输入,并输出一个或多个经处理的(例如,增强的)媒体内容(音频和/或视频)、媒体内容的分析结果、媒体内容的分类或新生成的媒体内容。
正如已经发现的那样,例如对于语音内容来说,解码器/客户端中现有神经网络的权重的微小变化通常能够显著提高已处理的媒体内容的质量。以生成对抗网络(GAN)作为神经网络的示例,已经观察到,当使用深度神经网络生成器(G)以比特率X增强编码音频时,(从为比特率X预先训练的模型开始)只需要很少的训练时间使其也能在(不同的)比特率Y下工作。换句话说,预先训练的模型已经在比特率Y下工作,并且仅仅增量训练似乎足以实现最佳性能。类似的观察适用于不同类型的媒体内容(例如,对语音进行预先训练并适应掌声)。
为了确定增量更新,GAN的训练可以基于迁移学习。迁移学习是其中被训练为执行特定任务的神经网络适于不同任务的方法。
在本公开的上下文中,基于在编码(标准化的)的媒体比特流中与相应的媒体数据一起传输的更新参数来更新解码器实现的神经网络。更新参数可以与相应的媒体数据一起打包到媒体比特流中。在解码器处对媒体比特流进行解码,提取更新参数和相应的媒体数据,更新参数用于在处理相应的媒体数据之前更新神经网络,并且更新后的神经网络处理相应的媒体数据。
换句话说,本公开至少部分地涉及在(标准化的)媒体比特流上将要应用于接收设备(例如,解码器)中的现有神经网络的更新(更新参数)与要由神经网络处理的相应的媒体数据一起输送。优选地,这些更新与媒体数据打包在一起,其中更新后的神经网络在媒体数据上应用其增强。更优选地,这涉及与媒体数据一起传输的时间对齐的更新(更新参数),这也意味着可以基于当前媒体内容微调媒体增强神经网络。
因此,广义上讲,本公开涉及在媒体比特流中将神经网络更新与编码的媒体一起传送到解码系统。这适用于视频、音频和其他媒体相关内容(例如,触觉,等等)。下面进一步提供了关于在不同类型的比特流内可以在何处传输参数更新的非限制性示例的列表。
而且,如下文将更详细地描述的,本公开中描述的方法和装置以及用于更新神经网络的参数的底层传送机制可能与ETSI AC-4、ETSI AC-3/EAC-3、ISO/IEC 23008-3(MPEG-H音频)、ISO/IEC 14496-3(MPEG-4音频)及所有相关标准(例如,3GPP等)、ISO/IEC 23003-3(USAC)和ISO/IEC 23090-4(MPEG-I音频)相关。
首先,参考图1,其中图示了一种生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法。在步骤S 101中,确定至少一组参数(更新参数)以用于更新在解码器中实现的神经网络。解码器可以理解为用于更新神经网络的所述至少一组参数的接收设备。为了将所述至少一组参数传输到解码器,在步骤102中,对所述至少一组参数和媒体数据进行编码以生成媒体比特流。即,所述至少一组参数被编码到媒体比特流中。要由适当地更新的(即,使用所述至少一组参数更新的)神经网络处理的相应的媒体数据与所述至少一组参数一起被编码到媒体比特流中。对于分组化的媒体比特流,可以将媒体数据和所述至少一组参数打包在一起。通常,所述至少一组参数优选地在媒体比特流中与相应的媒体数据时间对齐。然后在步骤103中,将生成的媒体比特流提供(例如,输出或传输)到解码器以用于更新神经网络。通过生成包括所述至少一组参数和媒体数据的媒体比特流,用于更新神经网络的所述至少一组参数因此能够与媒体数据一起被输送到解码器。在一些实施例中,媒体数据可以包括音频数据和/或视频数据中的一个或多个。
接下来参考图2,其中图示了用于更新在解码器中实现的神经网络的方法。在步骤S 201中,接收包括媒体数据和用于更新神经网络的至少一组参数的编码的媒体比特流。在步骤S 202中,对编码的媒体比特流进行解码以获得解码的媒体数据和所述至少一组参数。然后,在步骤S 203中由解码器使用所述至少一组参数来更新神经网络。
在一些实施例中,神经网络可以用于媒体数据的处理,并且在接收到的编码的媒体比特流中,所述至少一组参数可以与神经网络所处理的媒体数据时间对齐。如图2的示例中的步骤S 204所示,在所述至少一组参数与媒体数据时间对齐的情况下,神经网络可以由解码器利用所述至少一组参数更新,以随后处理解码的媒体数据。在一些实施例中,媒体数据可以包括音频数据和/或视频数据中的一个或多个。
上述方法可以在各自的装置中实现。上述方法还可以通过相应的计算机程序产品来实现。
更新参数在媒体比特流中的传输
在一些实施例中,所述至少一组参数可以基于一组语法元素来编码。语法元素可以允许在所生成的媒体比特流中传输(传送)所述至少一组参数,并且此外还可以允许解码器更新神经网络。在一些实施例中,该组语法元素可以由解码器接收,并且解码器利用所述至少一组参数对神经网络的更新可以基于所接收的这组语法元素。
例如,以下语法元素可以用于传输媒体比特流中的所述至少一组参数:
表1:用于在媒体比特流中传输用于更新神经网络的至少一组参数的语法元素的示例。
参考表1的示例,可以使用其中描述的语法元素将用于神经网络更新的所述至少一组参数的所需比特打包到媒体比特流中。然而,语法元素可以根据用于传输所述至少一组参数的相应媒体比特流的编解码器来修改。例如,可以使用ISO/IEC 23003-3、USAC中指定的escaped_value()-syntax来替换ETSI 103 190中指定的variable_bits()-syntax。
再次参考表1的示例,与语法元素一起使用的语义可以如下:
neural_network_id可用于标识解码器中必须更新的神经网络。
nn_update_byte可用于以特定格式承载用于更新神经网络的所述至少一组参数。
upd_type可用于标识要利用所述至少一组参数执行的更新的类型,例如:
0–相对更新(从原始权重中添加或减去的传输值,包括梯度)
1–绝对更新(传输值可以替换原始权重)
值得注意的是,将0和1分配给相对更新和绝对更新是一个非限制性示例,并且在某些实施方式中分配可能是相反的。在当前上下文中重要的是upd_type可以以某种方式指示相对更新和绝对更新。
update_id可用于标识用于要执行的更新的这组参数,即,区分不同组的更新参数。这允许避免混淆来自不同组的更新参数的参数。一般而言,语法元素可包括标识用于要执行的神经网络的相应更新的相应一组参数的一个或多个语法元素。
number_of_upd_packages可以表示相关的neural_network_id的更新分组的总数。仅当解码器(客户端)已接收到所有相关的更新包时,才会应用利用所述至少一组参数进行的更新。
upd_sequence_counter可用于标识相关更新的特定分组。
nn_update_byte可用于承载所述至少一组参数(例如,权重的更新)。这些字节的格式可能取决于neural_network_id和其他值(例如,upd_type)。
虽然要更新的神经网络的结构不受限制,但在一些实施例中,神经网络可以具有(多)层结构,并且至少一组参数可以包括用于至少更新神经网络的面向媒体数据的层和/或输出层的权重的参数。在一些实施例中,至少神经网络的面向媒体数据的层和/或输出层的权重因此可以由解码器利用所述至少一组参数更新。在一些实施例中,可以仅更新神经网络的面向媒体数据的层和/或输出层。例如,对于鉴别模型(即,对输入媒体内容进行分类的神经网络),可以只更新输出层。
例如,表2中所示的以下语法元素可用于利用所述至少一组参数来更新神经网络:
表2:用于利用所述至少一组参数来更新神经网络的语法元素的示例。
参考表2的示例,与语法元素一起使用的语义可以如下:
layer_id可用于标识必须更新权重的层。
weight_num_in_layer可用于标识层中的哪个权重必须更新。
weight_value可用于承载必须更新的权重的值。它可以根据upd_type的值来解释,即,相对更新与绝对更新:
如果upd_type=0带符号字节
如果upd_type=1不带符号字节
同样,0和1的分配被理解为非限制性示例。
在一些实施例中,在解码器中实现的神经网络可用于媒体数据的处理(例如,增强、分析、分类等)。然后,媒体比特流中的用于更新神经网络的所述至少一组参数(更新参数)可以与利用所述至少一组参数更新时的神经网络所处理的媒体数据时间对齐。换句话说,如果要处理的媒体数据到达解码器,则解码器实现的神经网络必须通过打算用于该特定部分的媒体数据的参数进行更新。因此,各更新参数必须至少与相应的媒体数据(其处理需要这些更新参数)同时到达,可能在其之前到达。
在此上下文中,时间对齐可以指将所述至少一组参数和媒体数据编码到媒体比特流中的顺序。例如,所述至少一组参数可以在要由相应更新的神经网络处理的媒体数据之前被编码在媒体比特流中。在媒体数据是表示掌声的音频数据的情况下,被确定用于更新神经网络以处理表示掌声的媒体数据的所述至少一组参数在所述媒体数据之前被编码在比特流中。替代地或附加地,所述至少一组参数可以被编码在媒体比特流中,使得要由利用所述至少一组参数更新的神经网络处理的相应媒体数据相对于所述至少一组参数被延迟。由此,可以避免神经网络在处理媒体数据时由于更新未完成而造成的任何延迟。如有必要,更新参数可以被缓存在解码器中,并用于在相应媒体数据到达解码器时更新神经网络。
例如,对于基于帧的格式,所述至少一组参数可以被编码在与要由利用该至少一组参数更新的神经网络处理的媒体数据相同的帧中。替代地,所述至少一组参数可以被编码在较早的帧中,在包括所述至少一组参数的帧和包括要由利用上述至少一组参数更新的神经网络处理的媒体数据的帧之间存在以帧为单位的固定偏移量。
在一些实施例中,可以基于编解码器模式、媒体数据的内容和编码约束中的一个或多个来确定所述至少一组参数。
在一些实施例中,编解码器模式可以包括比特率、视频和/或音频帧率以及所使用的核心编解码器中的一个或多个。如果例如基于比特率确定所述至少一组参数,则这可用于使媒体比特流中的所述至少一组参数相对于具有该比特率的相应媒体数据时间对齐。对于视频和/或音频帧率以及所使用的核心编解码器,这同样适用。
在一些实施例中,媒体数据的内容可以是音频数据的语音、音乐和掌声中的一个或多个。同样,媒体数据的内容可以是视频数据。如果例如基于音频数据和/或视频数据的相应内容确定了所述至少一组参数,则这可以用于使媒体比特流中的所述至少一组参数相对于具有该内容的相应媒体数据时间对齐。
在一些实施例中,编码约束可以包括对于可扩展性性能的约束和对于自适应处理的约束中的一个或多个。如果例如基于相应的编码约束确定了所述至少一组参数,则这也可以用于使媒体比特流中的所述至少一组参数相对于编码约束适用于的相应媒体数据时间对齐。
虽然媒体数据的格式不受限制,但在一些实施例中,媒体数据可以是MPEG-H音频格式(ISO/IEC 23008-3)或MPEG-I音频格式,并且媒体比特流可以是MHAS格式的分组化的比特流。在一些实施例中,然后可以通过将所述至少一组参数封装到新的MHAS分组类型的一个或多个MHAS分组中来对所述至少一组参数进行编码。例如,传输所需有效载荷的一种可能方式可以是分配新的MHAS分组类型的PACTYP_NN_UPDATE。
解码器可以通过解释MHAS分组类型来识别用于更新相应的(预定义的)神经网络的有效载荷。为此,在MPEG-H音频标准中,语法元素可以如下表3中所示的那样进行修正。
表3:MPEG-H音频标准中用于传输媒体比特流中的所述至少一组参数的修正语法元素的示例。
参考表3的示例,neural_network_update_byte可以承载之前描述的语法元素neural_network_update()的字节。另外,这取决于要更新的神经网络(的性质),可以使用比特流扩展机制usacExtElement。
在一些实施例中,媒体数据可以是AC-4、AC-3、EAC-3、MPEG-4或MPEG-D USAC格式。此外,在一些实施例中,然后可以在媒体比特流中将所述至少一组参数编码为一个或多个有效载荷元素或一个或多个数据流元素(DSE)。
在AC-4(ETSI 103 190)的情况下,传输媒体比特流中的所述至少一组参数的示例可以是经由emdf_payloads_substream()元素传输(或传送)neural_network_update()元素(见表1。为了实现这一点,可以使用免费的emdf_payload_id以便能够标识这个EMDF有效载荷。然后,neural_network_update()元素中包含的每个字节都可以作为emdf_payload_byte传输(传送)。
在AC-3和EAC-3(ETSI 102 366)的情况下,传输媒体比特流中的所述至少一组参数的示例可以是经由如ETSI 102 366附件H中描述的emdf_container()元素传输(或传送)neural_network_update()元素。为了实现这一点,可以使用免费的emdf_payload_id以使得能够标识EMDF有效载荷。该ID可以与AC-4情况下的相同,以便实现EMDF框架的原则。然后,neural_network_update()元素中包含的每个字节都可以作为emdf_payload_byte传输(传送)。
在MPEG-4(AAC、HE-AACv1、HE-AACv2)的情况下,可以使用由MPEG-4定义的至少两个独立的扩展机制来传输媒体比特流中的用于更新神经网络的所述至少一组参数。当使用第一扩展机制时,所述至少一组参数可以作为数据流元素(DSE)内的数据流传输,如以下示例所示:
替代地或附加地,可以使用MPEG-4的extension_type EXT_DATA_ELEMEN。在这种情况下,neural_network_update()语法元素的字节可以作为extension_payload()传送。
在MPEG-D USAC的情况下,可以基于23003-3中定义的USAC扩展元素来传输用于更新神经网络的所述至少一组参数。新的usacExtElementType可以被命名为ID_EXT_ELE_NN_UPDATE,23003-3的表17“UsacExtElementConfig()的语法”中的相应语法元素可以如以下示例中那样进行修正:
神经网络结构
虽然神经网络的结构不受限制,但神经网络可以具有(多)层结构。将基于以下非限制性示例来描述这种层结构。
参考图3的示例,神经网络可以是例如在生成对抗网络设置中训练以处理音频数据的所谓生成器。虽然这种生成器的结构一般不受限制,但是生成器可以包括编码器级和解码器级。生成器的编码器级和解码器级可以是全卷积的。解码器级可以镜像编码器级,并且编码器级以及解码器级可以各自包括L个的层,其中每个层L中有N个滤波器。L可以是>1的自然数并且N可以是>1的自然数。N个滤波器的大小(也称为核大小)不受限制,并且可以根据应用需求来选择。然而,L个层中的每一层中的滤波器大小可以相同。
在图3的示例中,要处理的原始音频数据可以在第一步骤1中被输入到生成器中。所示的第一编码器层3因此可以是面向媒体数据的层。在编码器级的L个层中的每一层中,滤波器的数量可以增加。每个滤波器可以对输入到每个编码器层的音频数据进行操作,步长为2。在这种情况下,深度随着宽度(信号的持续时间)变窄而变大。因此,可以执行因子为2的可学习的下采样。替代地,滤波器可以在每个编码器层中以步长1进行操作,然后以因子2进行下采样(如在已知的信号处理中那样)。
在至少一个编码器层和至少一个解码器层中,可以另外执行非线性操作作为激活。非线性操作可以包括参数化修正线性单元(PReLU)、修正线性单元(ReLU)、渗漏型修正线性单元(LReLU)、指数线性单元(eLU)和缩放指数线性单元(SeLU)中的一个或多个。然而,取决于生成器的应用,也可以想到其他激活。
如图3的示例中所示,各个解码器层7、8和9可以镜像编码器层5、4和3。虽然每一层中的滤波器的数量和每一层中的滤波器宽度在解码器级中与编码器级中可以相同,但是从窄宽度(信号的持续时间)开始的音频信号的上采样可以通过两种替代方法来执行。小数步长卷积(也称为转置卷积)操作可用于解码器级的层中,以将音频信号的宽度增加到整个持续时间,即,被输入到生成器的音频信号的帧。
替代地,在解码器级的每一层中,在如在传统信号处理中那样执行上采样因子为2的上采样和插值后,滤波器可以以步长1对输入到每一层中的音频数据进行操作。
在最后一步11中输出经处理的音频数据之前,输出层(卷积层)10可以跟在解码器级之后。在输出层中,激活可以不同于在至少一个编码器层和在至少一个解码器层中执行的激活。激活可以是任何非线性函数,其被限定在与输入到生成器中的音频信号相同的范围内。例如,要增强的时间信号可以被限制在+/-1之间。然后,激活可以基于例如tanh操作。
在编码器级和解码器级之间,可以修改音频数据。修改可以基于编码音频特征空间(也称为瓶颈层)12。编码音频特征空间中的修改可以例如通过将随机噪声向量(z)与原始音频数据的向量表示(c)串联来完成作为编码器级中最后一层的输出。随机噪声向量可以被设置为z=0。
跳过连接(skip connection)2可以存在于编码器级和解码器级的同质层之间,以保持编码音频的时间结构或纹理,因为上述编码音频特征空间因此可以被绕过,从而防止信息丢失。可以使用串联和信号添加中的一个或多个来实现跳过连接。由于跳过连接的实现,滤波器输出的数量可能“几乎”翻倍。
参考图3中的示例,作为神经网络的非限制性示例的生成器的结构可以如下:
1/输入:原始音频数据
3/编码器层L=1:滤波器数量N=16,滤波器大小=31,激活=PreLU
4/编码器层L=2:滤波器数量N=32,滤波器大小=31,激活=PreLU
.
.
.
5/编码器层L=11:滤波器数量N=512,滤波器大小=31
6/编码器层L=12:滤波器数量N=1024,滤波器大小=31
12/编码音频特征空间
7/解码器层L=1:滤波器数量N=512,滤波器大小=31
.
.
.
8/解码器层L=10:滤波器数量N=32,滤波器大小=31,激活PreLU
9/解码器层L=11:滤波器数量N=16,滤波器大小=31,激活PreLU
10/输出层:滤波器数量N=1,滤波器大小=31,激活tanh
11/输出:增强型音频数据
2/跳过连接
值得注意的是,上述结构仅代表非限制性示例。根据这种生成器的应用,编码器级中和解码器级中的层的数量可以分别缩小或放大。此外,本公开的上下文中的神经网络被理解为不限于GAN相关的模型。例如,虽然上面的示例指的是生成网络模型,但神经网络也可以是基于鉴别网络模型的神经网络。一般而言,本公开适用于适合处理媒体内容(例如,音频和/或视频内容)的任何类型的神经网络。
回到图3中所示的生成器的示例,可以在基于与鉴别器的真-假交互的生成对抗网络设置中促进生成器的训练。为了确定用于更新这种神经网络的至少一组参数,发明人已经发现可以基于包括预先训练的生成器和未训练的鉴别器的生成对抗网络设置来确定所述至少一组参数。在此设置中,生成器可以用非常有限的(不同配置的)训练数据和时间进行增量更新,从而提高其新(更新)配置的性能。使用这种方法,生成器中的所有权重都可以被增量地更新。然而,对于在新域上操作的神经网络来说,最重要的层可能是面向信号(例如,面向媒体数据)的层。因此,为了将更新参数限制为仅几个权重(并因此降低比特率负担),可以冻结预先训练的生成器的所有权重,并且可以仅更新生成器的面向媒体数据(信号)的层和/或输出层。
解释
除非另外特别说明,如从以下讨论中显而易见的,应当理解,在本公开全文中,利用诸如“处理”、“运算”、“计算”、“确定”、“分析”等术语的讨论指的是计算机或计算系统或类似电子计算设备将表示为物理(例如,电子)量的数据操纵和/或转换为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指处理例如来自寄存器和/或存储器的电子数据以将该电子数据转换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可由一个或多个处理器执行,这些处理器接受包含一组指令的计算机可读(也称为机器可读)代码,这些指令当由这些处理器中的一个或多个执行时实施本文描述的方法中的至少一个。能够(顺序地或以其他方式)执行指定要采取的动作的一组指令的任何处理器被包括在内。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统还可以包括存储器子系统,该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统用于组件之间的通信。处理系统还可以是具有通过网络耦合的处理器的分布式处理系统。如果处理系统需要显示器,则可以包括这样的显示器,例如液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理系统还包括输入设备,例如,诸如键盘之类的字母数字输入单元、诸如鼠标之类的定点控制设备等中的一个或多个。处理系统还可以包括诸如磁盘驱动单元之类的存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。因此,存储器子系统包括承载计算机可读代码(例如,软件)的计算机可读载体介质,所述计算机可读代码包括一组指令,以在由一个或多个处理器执行时导致执行本文中描述的方法中的一个或多个。请注意,当方法包括几个元素(例如,几个步骤)时,除非特别说明,否则不暗示这些元素的排序。软件可以驻留在硬盘中,或者也可以在由计算机系统执行期间完全或至少部分驻留在RAM和/或处理器内。因此,存储器和处理器也构成承载计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或被包括在计算机程序产品中。
在替代示例实施例中,所述一个或多个处理器作为独立设备运行或者在联网部署中可以连接(例如,联网)到其他处理器,所述一个或多个处理器在服务器-用户网络环境中可以作为服务器或用户机器操作,或者在对等或分布式网络环境中作为对等机器。所述一个或多个处理器可以形成个人计算机(PC)、平板电脑、个人数字助理(PDA)、蜂窝电话、网络设备、网络路由器、交换机或桥接器,或能够(顺序地或以其他方式)执行指定该机器要采取的动作的一组指令的任何机器。
注意,术语“机器”还应被视为包括单独或联合执行一组(或多组)指令以执行本文讨论的任何一个或多个方法的机器的任何集合。
因此,本文描述的每种方法的一个示例实施例是承载一组指令的计算机可读载体介质的形式,例如,用于在一个或多个处理器(例如,作为网络服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、诸如专用装置之类的装置、诸如数据处理系统之类的装置或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质承载包括一组指令的计算机可读代码,该组指令当在一个或多个处理器上执行时使所述一个或多个处理器实现一种方法。因此,本公开的方面可以采取方法、完全硬件的示例实施例、完全软件的示例实施例或结合软件和硬件方面的示例实施例的形式。此外,本公开可以采取承载体现在介质中的计算机可读程序代码的载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式。
还可以经由网络接口设备在网络上传输或接收软件。虽然载体介质在示例实施例中是单个介质,但术语“载体介质”应当被理解为包括存储所述一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关联的高速缓存和服务器)。术语“载体介质”还应被理解为包括能够存储、编码或承载一组指令以供处理器中的一个或多个执行并且使所述一个或多个处理器执行本公开的任何一个或多个方法的任何介质。载体介质可以采用多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘和磁光盘。易失性介质包括动态存储器,例如主存储器。传输介质包括同轴电缆、铜线和光纤,包括构成总线子系统的电线。传输介质也可以采用声波或光波的形式,例如在无线电波和红外数据通信期间产生的那些。例如,术语“载体介质”相应地被理解为包括但不限于:固态存储器,体现在光介质和磁介质中的计算机产品;承载可被至少一个处理器或一个或多个处理器检测到的传播信号并表示一组指令的介质,该组指令在被执行时实现方法;以及网络中的承载可被所述一个或多个处理器中的至少一个处理器检测到的传播信号并表示该组指令的传输介质。
应当理解,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统的一个(或多个)适当的处理器来执行。还将理解,本公开不限于任何特定的实现方式或编程技术,并且本公开可以使用用于实现本文所述功能的任何适当的技术来实现。本公开不限于任何特定的编程语言或操作系统。
在本公开全文中提到“一个示例实施例”、“一些示例实施例”或“示例实施例”意味着结合示例实施例描述的特定特征、结构或特性被包括在本公开的至少一个示例实施例中。因此,在本公开全文中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都指代相同的示例实施例。此外,在一个或多个示例实施例中,特定特征、结构或特性可以以任何合适的方式组合,如本领域普通技术人员从本公开中显而易见的。
如本文所用,除非另有说明,否则使用序数形容词“第一”、“第二”、“第三”等来描述一个共同的对象仅表明所指的是相似对象的不同实例,并不旨在暗示如此描述的对象必须在时间上、空间上、排序上或以任何其他方式具有给定的顺序。
在下面的权利要求书和本文的描述中,术语“包含”、“由……组成”或“其包含”中的任何一个是开放术语,其意味着至少包括之后的元素/特征,但不排除其他元素/特征。因此,当在权利要求书中使用时,术语“包含”不应被解释为限制于其后列出的手段或元素或步骤。例如,包括A和B的设备的表述范围不应限于仅由元素A和B组成的设备。本文所用的术语“包括”或“其包括”中的任何一个也是开放术语,其也意味着至少包括该术语之后的元素/特征,但不排除其他元素/特征。因此,“包括”与“包含”同义,并且“包括”意指“包含”。
应当理解,在本公开的示例实施例的以上描述中,为了理清本公开并帮助理解各种创造性方面中的一个或多个,本公开的各种特征有时被组合在单个示例实施例、图或其描述中。然而,这种公开方法不应被解释为反映权利要求书需要比每个权利要求中明确记载的特征更多的特征的意图。相反,如下面的权利要求书所反映的,创造性方面在于少于单个前述公开的示例实施例的所有特征。因此,说明书后面的权利要求书特此明确并入本说明书中,其中每个权利要求独立作为本公开的单独示例实施例。
此外,虽然本文中描述的一些示例实施例包括其他示例实施例中的一些特征但不包括其他特征,但是不同示例实施例的特征的组合打算在本公开的范围内,并且形成不同的示例实施例,如本领域技术人员将理解的那样。例如,在下面的权利要求书中,可以以任何组合使用任何要求保护的示例实施例。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他情况下,为了不混淆对本说明书的理解,没有详细示出众所周知的方法、结构和技术。
因此,虽然已经描述了被认为是本公开的最佳模式的内容,但是本领域技术人员将认识到在不脱离本公开的精神的情况下可以对其进行其他和进一步的修改,并且旨在要求保护所有这些变化和修改都落入本公开的范围内。例如,上面给出的任何公式仅仅表示可以使用的程序。可以从框图中添加或删除功能,并且操作可以在功能框中间互换。在本公开范围内描述的方法中可以添加或删除步骤。
可以从以下列举的示例实施例(EEE)理解本发明的各个方面:
1.一种生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法,其中所述方法包括以下步骤:
(a)确定用于更新神经网络的至少一组参数;
(b)对所述至少一组参数和媒体数据进行编码以生成媒体比特流;和
(c)将媒体比特流传输到所述解码器,以用于利用所述至少一组参数来更新神经网络。
2.根据EEE 1的方法,其中媒体数据包括音频数据和/或视频数据中的一个或多个。
3.根据EEE 1或EEE 2的方法,其中基于一组语法元素对所述至少一组参数进行编码。
4.根据EEE 3的方法,其中在步骤(a)中确定用于更新神经网络的两组或更多组参数,并且其中所述一组语法元素包括标识用于要执行的神经网络的相应更新的相应一组参数的一个或多个语法元素。
5.根据EEE 1-4中任一项所述的方法,其中在解码器中实现的神经网络用于媒体数据的处理,并且其中,在媒体比特流中,用于更新神经网络的所述至少一组参数与由神经网络处理的媒体数据时间对齐。
6.根据EEE 5的方法,其中基于编解码器模式、媒体数据的内容和编码约束中的一个或多个来确定所述至少一组参数。
7.根据EEE 6的方法,其中编解码器模式包括比特率、视频和/或音频帧率和使用的核心编解码器中的一个或多个。
8.根据EEE 6或EEE 7的方法,其中媒体数据的内容包括语音、音乐和掌声中的一个或多个。
9.根据EEE 6-8中任一项所述的方法,其中编码约束包括对于性能可扩展性的约束和对于自适应处理的约束中的一个或多个。
10.根据EEE 1-9中任一项所述的方法,其中媒体数据是MPEG-H音频格式或MPEG-I音频格式,并且格式媒体比特流是MHAS格式的分组化的媒体比特流。
11.根据EEE 10的方法,其中通过将所述至少一组参数封装到新的MHAS分组类型的一个或多个MHAS分组中来对所述至少一组参数进行编码。
12.根据EEE 1-11中任一项所述的方法,其中媒体数据是AC-4、AC-3或EAC-3格式。
13.根据EEE 12的方法,其中在媒体比特流中将所述至少一组参数编码为一个或多个有效载荷元素。
14.根据EEE 1-13中任一项所述的方法,其中媒体数据是MPEG-4或MPEG-D USAC格式。
15.根据EEE 14的方法,其中在媒体比特流中将所述至少一组参数编码为一个或多个有效载荷元素或一个或多个数据流元素。
16.根据EEE 1-15中任一项所述的方法,其中神经网络具有层结构并且所述至少一组参数包括用于至少更新神经网络的面向媒体数据的层和/或输出层的权重的参数。
17.一种用于更新在解码器中实现的神经网络的方法,所述方法包括以下步骤:
(a)接收包括媒体数据和用于更新神经网络的至少一组参数的编码的媒体比特流;
(b)对接收到的媒体比特流进行解码,以获得解码的媒体数据和用于更新神经网络的所述至少一组参数;和
(c)由解码器利用所述至少一组参数来更新神经网络。
18.根据EEE 17的方法,其中媒体数据包括音频数据和/或视频数据中的一个或多个。
19.根据EEE 17或EE 18的方法,其中所述方法还包括接收一组语法元素,并且其中由解码器利用所述至少一组参数更新神经网络基于所接收的一组语法元素。
20.根据EEE 19的方法,其中在步骤(a)中,用于更新神经网络的两组或更多组参数被包括在所接收的编码的媒体比特流中,并且其中所接收的一组语法元素包括标识用于要执行的神经网络的相应更新的相应一组参数的一个或多个语法元素。
21.根据EEE 17-20中任一项所述的方法,其中神经网络用于媒体数据的处理,并且其中,在所接收的编码的媒体比特流中,所述至少一组参数与由神经网络处理的媒体数据时间对齐。
22.根据EEE 17-21中任一项所述的方法,其中神经网络具有层结构,并且其中至少神经网络的面向媒体数据的层和/或输出层的权重由解码器利用所述至少一组参数进行更新。
23.一种用于生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的装置,其中所述装置包括被配置为执行包括以下步骤的方法的处理器:
(a)确定用于更新神经网络的至少一组参数;
(b)对所述至少一组参数和媒体数据进行编码以生成媒体比特流;和
(c)将媒体比特流传输到所述解码器,以便利用所述至少一组参数来更新神经网络。
24.一种用于更新在解码器中实现的神经网络的装置,所述装置包括:
(a)接收器,用于接收编码的媒体比特流,所述编码的媒体比特流包括媒体数据和用于更新神经网络的至少一组参数;
(b)解码器,用于对所接收的媒体比特流进行解码以获得解码的媒体数据和用于更新神经网络的所述至少一组参数;和
(c)更新器,用于利用所述至少一组参数来更新神经网络。
25.根据EEE 24的装置,其中接收器进一步接收一组语法元素,并且更新器基于所述一组语法元素利用所述至少一组参数来更新神经网络。
26.根据EEE 25的装置,其中用于更新神经网络的两组或更多组参数被包括在由接收器接收的编码的媒体比特流中,并且其中所接收的一组语法元素包括标识用于要执行的神经网络的相应更新的相应一组参数的一个或多个语法元素。
27.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时使设备实施根据EEE 1-16中任一项所述的方法。
28.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时使设备实施根据EEE 17-22中任一项所述的方法。
Claims (19)
1.一种生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的方法,所述神经网络具有多个层,其中面向媒体数据的层为所述多个层中的第一层并且输出层为所述多个层中的最后一层,其中所述方法包括以下步骤:
(a)确定用于更新所述神经网络的所述多个层的权重的至少一组参数,所述至少一组参数包括用于更新所述面向媒体数据的层和/或所述输出层的权重的参数;
(b)通过仅对用于更新所述神经网络的所述多个层的权重的所述至少一组参数当中的、用于更新所述面向媒体数据的层和/或所述输出层的权重的参数以及媒体数据进行编码来生成所述媒体比特流,所述媒体数据包括音频数据和/或视频数据中的一个或多个;和
(c)将所述媒体比特流传输到所述解码器,以便利用用于更新所述面向媒体数据的层和/或所述输出层的权重的参数来更新所述神经网络。
2.根据权利要求1所述的方法,其中所述至少一组参数是基于一组语法元素而编码的。
3.根据权利要求2所述的方法,其中在步骤(a)中,用于更新所述神经网络的两组或更多组参数被确定,并且其中所述一组语法元素包括标识用于要执行的所述神经网络的相应更新的相应一组参数的一个或多个语法元素。
4.根据权利要求1-3中任一项所述的方法,其中在所述解码器中实现的所述神经网络被用于媒体数据的处理,并且其中在所述媒体比特流中,用于更新所述神经网络的所述至少一组参数与由所述神经网络处理的所述媒体数据时间对齐。
5.根据权利要求4所述的方法,其中所述至少一组参数是基于编解码器模式、所述媒体数据的内容和编码约束中的一个或多个而确定的。
6.根据权利要求5所述的方法,其中所述编解码器模式包括比特率、视频和/或音频帧率和所使用的核心编解码器中的一个或多个。
7.根据权利要求5或权利要求6所述的方法,其中所述媒体数据的内容包括语音、音乐和掌声中的一个或多个。
8.根据权利要求5-7中任一项所述的方法,其中所述编码约束包括对于性能可扩展性的约束和对于自适应处理的约束中的一个或多个。
9.根据权利要求5-8中任一项所述的方法,其中所述至少一组参数在将由相应的更新的神经网络处理的所述媒体数据之前被包括在所述媒体比特流中。
10.根据权利要求1-9中任一项所述的方法,其中所述媒体数据是MPEG-H音频格式或MPEG-I音频格式,并且所述媒体比特流是MHAS格式的分组化的媒体比特流。
11.根据权利要求10所述的方法,其中所述至少一组参数是通过将所述至少一组参数封装到新的MHAS分组类型的一个或多个MHAS分组中而编码的。
12.根据权利要求1-11中任一项所述的方法,其中所述媒体数据是AC-4、AC-3、EAC-3格式、MPEG-4或MPEG-D USAC格式。
13.根据权利要求12所述的方法,其中所述至少一组参数作为一个或多个有效载荷元素被编码在所述媒体比特流中。
14.根据权利要求13所述的方法,其中所述至少一组参数作为一个或多个有效载荷元素或一个或多个数据流元素被编码在所述媒体比特流中。
15.根据权利要求1-14中任一项所述的方法,其中所述至少一组参数包括标识用于更新权重的参数是表示相对值还是绝对值的标识符。
16.一种更新在解码器中实现的神经网络的方法,所述神经网络具有多个层,其中面向媒体数据的层为所述多个层中的第一层并且输出层为所述多个层中的最后一层,所述方法包括以下步骤:
(a)接收编码的媒体比特流,所述编码的媒体比特流包括媒体数据和用于更新所述神经网络的所述面向媒体数据的层和/或所述输出层的权重的参数;
(b)对所接收的媒体比特流进行解码,以获得解码的媒体数据和用于更新所述神经网络的所述面向媒体数据的层和/或所述输出层的权重的参数;和
(c)由所述解码器利用所接收的用于更新所述神经网络的所述面向媒体数据的层和/或所述输出层的权重的参数来更新所述面向媒体数据的层和/或所述输出层。
17.一种用于生成媒体比特流以传输用于更新在解码器中实现的神经网络的参数的装置,所述神经网络具有多个层,其中面向媒体数据的层为所述多个层中的第一层并且输出层为所述多个层中的最后一层,其中所述装置包括被配置为执行包括以下步骤的方法的处理器:
(a)确定用于更新所述神经网络的所述多个层的权重的至少一组参数,所述至少一组参数包括用于更新所述面向媒体数据的层和/或所述输出层的权重的参数;
(b)通过仅对用于更新所述神经网络的所述多个层的权重的所述至少一组参数当中的、用于更新所述面向媒体数据的层和/或所述输出层的权重的参数以及媒体数据进行编码来生成所述媒体比特流,所述媒体数据包括音频数据和/或视频数据中的一个或多个;和
(c)将所述媒体比特流传输到所述解码器以便利用用于更新所述面向媒体数据的层和/或所述输出层的权重的参数来更新所述神经网络。
18.一种用于更新在解码器中实现的神经网络的装置,所述神经网络具有多个层,其中面向媒体数据的层为所述多个层中的第一层并且输出层为所述多个层中的最后一层,所述装置包括:
(a)接收器,被配置为接收编码的媒体比特流,所述编码的媒体比特流包括媒体数据和用于更新所述神经网络的所述面向媒体数据的层和/或所述输出层的权重的参数;
(b)解码器,被配置为对所接收的媒体比特流进行解码以获得解码的媒体数据和用于更新所述神经网络的所述面向媒体数据的层和/或所述输出层的权重的参数;和
(c)更新器,被配置为利用所接收的用于更新所述神经网络的所述面向媒体数据的层和/或所述输出层的权重的参数来更新所述面向媒体数据的层和/或所述输出层的权重。
19.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时使所述设备实施根据权利要求1-15中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962818879P | 2019-03-15 | 2019-03-15 | |
US62/818,879 | 2019-03-15 | ||
EP19174542 | 2019-05-15 | ||
EP19174542.1 | 2019-05-15 | ||
PCT/EP2020/055869 WO2020187587A1 (en) | 2019-03-15 | 2020-03-05 | Method and apparatus for updating a neural network |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113508399A true CN113508399A (zh) | 2021-10-15 |
Family
ID=69699916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080016829.4A Pending CN113508399A (zh) | 2019-03-15 | 2020-03-05 | 用于更新神经网络的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220156584A1 (zh) |
EP (1) | EP3938962A1 (zh) |
JP (1) | JP7196331B2 (zh) |
CN (1) | CN113508399A (zh) |
WO (1) | WO2020187587A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4289136A1 (en) * | 2021-02-05 | 2023-12-13 | Nokia Technologies Oy | High-level syntax for signaling neural networks within a media bitstream |
US20220353521A1 (en) * | 2021-04-30 | 2022-11-03 | Tencent America LLC | Method and apparatus for content-adaptive online training in neural image compression |
WO2024180650A1 (ja) * | 2023-02-28 | 2024-09-06 | 日本電信電話株式会社 | 学習装置、信号生成器、学習方法及びプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050025053A1 (en) * | 2003-08-01 | 2005-02-03 | Izzat Izzat Hekmat | Dynamic rate adaptation using neural networks for transmitting video data |
CN1625880A (zh) * | 2002-01-30 | 2005-06-08 | 皇家飞利浦电子股份有限公司 | 在具有可变带宽的网络上流式传输多媒体数据 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CN105142096A (zh) * | 2015-08-14 | 2015-12-09 | 湘潭大学 | 物联网中基于神经网络的跨媒体数据融合方法 |
CN105868829A (zh) * | 2015-02-06 | 2016-08-17 | 谷歌公司 | 用于数据项生成的循环神经网络 |
US20180122403A1 (en) * | 2016-02-16 | 2018-05-03 | Red Pill VR, Inc. | Real-time audio source separation using deep neural networks |
WO2018150083A1 (en) * | 2017-02-16 | 2018-08-23 | Nokia Technologies Oy | A method and technical equipment for video processing |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0232679A (ja) * | 1988-07-22 | 1990-02-02 | Hitachi Ltd | ニューラルネットによるデータ通信方法および装置 |
US5907822A (en) * | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
US20110274162A1 (en) * | 2010-05-04 | 2011-11-10 | Minhua Zhou | Coding Unit Quantization Parameters in Video Coding |
RU2653858C1 (ru) * | 2014-05-28 | 2018-05-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио |
EP3310058B1 (en) * | 2015-06-12 | 2023-02-22 | Panasonic Intellectual Property Management Co., Ltd. | Image coding method, image decoding method, image coding device and image decoding device |
JP7208889B2 (ja) * | 2017-03-09 | 2023-01-19 | 株式会社半導体エネルギー研究所 | 放送システム |
-
2020
- 2020-03-05 JP JP2021549873A patent/JP7196331B2/ja active Active
- 2020-03-05 WO PCT/EP2020/055869 patent/WO2020187587A1/en active Application Filing
- 2020-03-05 US US17/438,908 patent/US20220156584A1/en active Pending
- 2020-03-05 CN CN202080016829.4A patent/CN113508399A/zh active Pending
- 2020-03-05 EP EP20707146.5A patent/EP3938962A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CN1625880A (zh) * | 2002-01-30 | 2005-06-08 | 皇家飞利浦电子股份有限公司 | 在具有可变带宽的网络上流式传输多媒体数据 |
US20050025053A1 (en) * | 2003-08-01 | 2005-02-03 | Izzat Izzat Hekmat | Dynamic rate adaptation using neural networks for transmitting video data |
CN105868829A (zh) * | 2015-02-06 | 2016-08-17 | 谷歌公司 | 用于数据项生成的循环神经网络 |
CN105142096A (zh) * | 2015-08-14 | 2015-12-09 | 湘潭大学 | 物联网中基于神经网络的跨媒体数据融合方法 |
US20180122403A1 (en) * | 2016-02-16 | 2018-05-03 | Red Pill VR, Inc. | Real-time audio source separation using deep neural networks |
WO2018150083A1 (en) * | 2017-02-16 | 2018-08-23 | Nokia Technologies Oy | A method and technical equipment for video processing |
Non-Patent Citations (4)
Title |
---|
GENG LI ET AL.: "DDP: Distributed Network Updates in SDN", 《2018 IEEE 38TH INTERNATIONAL CONFERENCE ON DISTRIBUTED COMPUTING SYSTEMS (ICDCS)》, 23 July 2018 (2018-07-23), pages 1468 - 1473, XP033376000, DOI: 10.1109/ICDCS.2018.00150 * |
YINHAO ZHU ET AL.: "Bayesian deep convolutional encoder–decoder networks for surrogate modeling and uncertainty quantification", 《ARXIV》, 21 January 2018 (2018-01-21), pages 1 - 52 * |
周大山: "AVS-M视频解码器的设计和优化", 《中国优秀硕士学位论文全文数据库》, no. 01, 15 January 2007 (2007-01-15), pages 1 - 59 * |
曾涛: "基于神经网络的自适应媒体播放研究及流媒体客户端实现", 《中国优秀博硕士学位论文全文数据库 (硕士)》, no. 08, 15 August 2006 (2006-08-15), pages 1 - 107 * |
Also Published As
Publication number | Publication date |
---|---|
US20220156584A1 (en) | 2022-05-19 |
WO2020187587A1 (en) | 2020-09-24 |
JP2022522685A (ja) | 2022-04-20 |
EP3938962A1 (en) | 2022-01-19 |
JP7196331B2 (ja) | 2022-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113508399A (zh) | 用于更新神经网络的方法和装置 | |
US8509931B2 (en) | Progressive encoding of audio | |
JP2021525905A (ja) | 低ビットレート符号化オーディオの増強を制御する方法及び機器 | |
US20230377584A1 (en) | Real-time packet loss concealment using deep generative networks | |
CN112751820B (zh) | 使用深度学习实现数字语音丢包隐藏 | |
US20220059107A1 (en) | Method, apparatus and system for hybrid speech synthesis | |
CN113763973A (zh) | 音频信号增强方法、装置、计算机设备和存储介质 | |
CN113889076A (zh) | 语音识别及编解码方法、装置、电子设备及存储介质 | |
JP2006031016A (ja) | 音声コーディング/デコーディング方法及びその装置 | |
CN114067800A (zh) | 语音识别方法、装置和电子设备 | |
US20230394287A1 (en) | General media neural network predictor and a generative model including such a predictor | |
CN115867965A (zh) | 低频效果声道的帧丢失隐藏 | |
US20230386500A1 (en) | Method and appartus for audio processing using a nested convolutional neural network architechture | |
EP3084761B1 (en) | Audio signal encoder | |
US20240055006A1 (en) | Method and apparatus for processing of audio data using a pre-configured generator | |
WO2023237640A1 (en) | Loss conditional training and use of a neural network for processing of audio using said neural network | |
CN116615781A (zh) | 用于使用预先配置的生成器处理音频数据的方法和装置 | |
CN116368495A (zh) | 使用嵌套卷积神经网络架构进行音频处理的方法和装置 | |
WO2024084325A1 (en) | Multiscale inter-prediction for dynamic point cloud compression | |
CN117616498A (zh) | 使用神经网络和向量量化器压缩音频波形 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |