CN113096672B - 一种应用于低码率下的多音频对象编解码方法 - Google Patents

一种应用于低码率下的多音频对象编解码方法 Download PDF

Info

Publication number
CN113096672B
CN113096672B CN202110312781.8A CN202110312781A CN113096672B CN 113096672 B CN113096672 B CN 113096672B CN 202110312781 A CN202110312781 A CN 202110312781A CN 113096672 B CN113096672 B CN 113096672B
Authority
CN
China
Prior art keywords
side information
audio object
module
decoding
code stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110312781.8A
Other languages
English (en)
Other versions
CN113096672A (zh
Inventor
胡瑞敏
吴玉林
王晓晨
胡晨昊
柯善发
张灵鲲
刘文可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110312781.8A priority Critical patent/CN113096672B/zh
Publication of CN113096672A publication Critical patent/CN113096672A/zh
Application granted granted Critical
Publication of CN113096672B publication Critical patent/CN113096672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明公开了一种应用于低码率下的多音频对象编解码方法,编码阶段本方法首先将输入的多个音频对象变换到频域;然后将频域的音频对象信号下混得到混合信号,并计算单个音频对象子带被细分后的边信息矩阵;其次利用卷积自编码器中的编码模块对边信息矩阵进行降维表达;最后将混合信号和降维后的边信息合成码流。解码阶段首先分解接收到的码流,得到下混信号和边信息;然后在卷积自编码器解码器网络中引入稠密连接模块从边信息的低维结构中重构原始高维的边信息数据,最后将重建的频域音频对象信号变换为时域信号。本发明可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。

Description

一种应用于低码率下的多音频对象编解码方法
技术领域
本发明属于数字音频信号处理技术领域,涉及一种利用卷积自编码器和稠密连接混合网络压缩边信息与重建的音频对象编码解码方法,适用于低码率下的空间音频个性化交互系统,允许在用户根据自身需求调整音频对象。
背景技术
三维(3D)音频表示具有3个自由度(例如方位角,仰角和距离)的音频对象。它可以在3D空间中的任何位置形成声音图像。3D音频技术主要用于娱乐系统,以提供身临其境和个性化的体验。沉浸式的空间声音表示方式分为三种:基于声道的编码技术、基于高阶环境音的编码技术和基于对象的编码技术。基于声道的声音表示是将每个声道信号馈送到相对于听者位置固定的扬声器上。虽然基于声道的编码技术已经很成熟,然而该技术所产生的音频内容与特定的扬声器配置相关联,且该技术受到通道数量的限制,并且不能满足用户对音频对象个性化操作的需求,尤其是在沉浸式场景中,例如虚拟现实和增强现实的体感互动游戏。基于高阶环境音的编码技术使用系数信号来重建3D空间声场。虽然系数信号与声道或对象都没有直接关系,但基与高阶环境音的编码技术不适合对声音场景中单个对象的控制。基于对象的编码方法中每个音频对象位置完全独立于扬声器位置,结合个性化的渲染系统,将对象信号渲染到目标位置。因此基于对象的编码方法克服了产生的音频内容对扬声器位置的依赖。而且实现声音场景中高度沉浸式效果,例如鸟儿或直升机在头顶飞过,雨水从天空中落下,雷声从任何方向传来的听音效果。基于对象的编码框架已成功用于Dolby Atmos。
基于对象编码的典型代表是空间音频对象编码(Spatial Audio Object Coding,SAOC),SAOC的核心思想是只需一个下混和边信息参数就可以传输多个目标信号,从而可以同时以低比特率对各种音频对象进行编码。但是,当音频对象的数量增加且码率较低时,SAOC重建的音频对象将带来频谱混叠。
发明内容
为解决上述技术问题,本发明提供一种应用于低码率下的多音频对象编解码方法,本发明能够在低码率下全面提升音频对象信号的解码质量,提高编码效率。
本发明提供一种应用于低码率下的多音频对象编解码方法,用于音频对象边信息的降维表达,其中音频对象边信息的降维表达包括以下步骤:
步骤A1:对输入的J个独立音频信号通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱;
步骤A2:对步骤A1得到的每帧频谱数据进行精细的子带划分;其中,根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量;
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵;
步骤A5:对A4得到的边信息矩阵传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,然后根据查表法对边信息值进行量化,获得边信息码流;
步骤A6:将步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
本发明提供一种应用于低码率下的多音频对象编解码方法,用于从低维结构中重建原始高维数据,具体包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
步骤B2:步骤B1得到的下混信号码流解码得到下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
步骤B4:将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中,得到重建后的音频对象边信息;
步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱;
步骤B6:根据B5得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号。
与现有的音频对象编码相比,本发明的优势在于:利用卷积自编码器(Convolutional Auto Encoder,CAE)的编码模块中提取了边信息的有效特征,减少边信息参数的维数以节省比特率。并在卷积自编码器的解码模块中引入稠密连接(DenseNet),增强解码神经网络各层之间的特征传递。从而很好地重建音频对象。因此,本发明可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。
附图说明
图1是本发明实施例的编码流程图。
图2是本发明实施例的解码流程图。
图3是本发明实施例的卷积自编码器模型结构框图。
具体实施方式
为了便于本领域的技术人员理解和实施本发明,下面结合附图以及具体实施示例对本发明的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明:
本发明在现有音频对象编码方法的基础上开展研究,提出了一种应用于低码率下的多音频对象编解码方法。首先利用卷积自编码器中的编码模块对边信息进行降维表达,然后在卷积自编码器解码模块中引入稠密连接,增强解码神经网络各层之间的特征传递,实现从边信息的低维结构中重构原始高维的边信息数据,从而边信息的低维特征得到充分利用,达到降低码率的目的。
本发明提供的一种应用于低码率下的多音频对象编解码方法,包括编码方法和解码方法;
请见图1,本实施例的编码方法,具体实现包括以下步骤:
步骤A1:输入为多个音频对象的时域信号S1,S2,…,SJ,如架子鼓、贝斯、人声等不同种类的音频对象信号,其采样频率是44.1kHz,位深度是16位,音频格式是wav格式。
本实施例中,对输入的J个独立音频信号S1,S2,…,SJ通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱O1,O2,…,OJ
本实施例中,对时通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象的频谱矩阵,矩阵的行数(列数)等于帧数,列数(行数)等于频点数。
应注意的是,此处规定的帧长,窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A2:对步骤A1得到的频谱O1,O2,…,OJ对每帧数据进行精细的子带划分;
本实施例中,根据子带数量对恢复音频对象频谱混叠失真的影响,利用评价指标SDR确定精细的子带划分数量。
本实施例中,由于ERB将每帧信号划分为28个子带,所以在2ERB子带的基础上,每个子带均匀细分为10个子带。
应该注意的是,此处规定的细分子带的数量只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
本实施例中,将所有对象的频谱信息进行矩阵相加,得到下混信号数据,下混信号的计算如下式所示:
Figure GDA0003583833260000041
其中,sign()为符号函数,用于获取变量的符号;Oj(i,m)是第j个对象的频谱信息,j是对象的序号,b是频点的序号。
本实施例中,下混信号采用AAC编码器进行编码,码率控制为128kbps,得到下混信号码流;
应注意的是,对最终下混信号采用AAC 128kbps编码仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵G1,G2,…,GJ
本实施例中,对象的边信息为
Figure GDA0003583833260000042
其中,Pj(i,b)表示对象j在子带(i,b)的能量,I是总帧数,J是对象的个数,B是子带数量;1≤i≤I,1≤j≤J,1≤b≤B。
步骤A5:对A4得到的边信息矩阵G1,G2,…,GJ,传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,获得边信息码流;
本实施例利用卷积自编码器的编码器模块对边信息进行降维表达,从而减少边原始信息的数据量。然后根据查表法对边信息值进行量化,最后把对应的量化索引形成码流输出。
步骤A6:步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
本实施例合成输出码流指将最终下混信号的码流与边信息码流进行整合。最终下混信号码流指经AAC编码后的输出码流,边信息码流指卷积自编码器编码器模块输出的量化索引码流。
请见图2,本实施例的解码方法,具体实现包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
本实施例中,根据解码端接收到的码流,利用码流解析得到下混信号码流和边信息码流。
步骤B2:步骤B1得到的下混信号码流经过AAC解码得到下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
步骤B4:将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中,得到重建后的音频对象边信息;
本实施例中,将步骤B3得到的边信息输入卷积自编码器的解码器模块中,其中卷积自编码器解码器模块中加入稠密连接网络,增强解码神经网络各层之间的特征传递,得到重建后的音频对象边信息
Figure GDA0003583833260000051
实现从边信息的低维结构中重构原始高维的边信息数据,边信息的低维特征的得到充分利用,达到降低码率的目的。
请见图3,本发明实施例中,卷积自编码器解码模块中加入稠密连接网络,其结构包括三个模块:模块1、模块2和模块3;
模块1由卷积层、重塑层、池化层和展平层组成,用于对输入的边信息数据通过卷积神经网络提取特征,并利用池化技术对提取的特征进行压缩处理,卷积层对特征进行进一步的低维表达处理;
模块2由重塑层、反卷积层和反卷积层组成,重塑层与两反卷积层稠密连接,用于对边信息数据特征的低维表达进行解码,其中稠密连接的引入是为了增强解码神经网络各层之间的特征传递;
模块3由反卷积层、重塑层和卷积层组成,用于对边信息数据特征的低维表达进行进一步解码,该操作可以看做是模块1的逆向操作。
本实施例中,将解码后的边信息输入到引入稠密连接的卷积自编码器的解码部分,从低维的边信息结构中重建出高维边信息数据。
步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱;
本实施例中,重建的音频对象频谱
Figure GDA0003583833260000052
其中,
Figure GDA0003583833260000053
是重建的音频对象j的频域,
Figure GDA0003583833260000054
是经过编解码的下混信号,
Figure GDA0003583833260000055
是去量化的边信息;m是频点的序号,Ab-1和Ab-1代表子带b的开始频点和结束频点;1≤i≤I,1≤j≤J,1≤b≤B,Ab-1≤m≤Ab-1。
步骤B6:根据B5得到的音频对象频谱
Figure GDA0003583833260000061
进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号
Figure GDA0003583833260000062
本实施例中,利用逆改进离散余弦变换IMDCT进行频域-时域变换,最终得到重建的音频对象的时域信号。
本发明利用卷积自编码器(Convolutional Auto Encoder,CAE)的编码模块中提取了边信息的有效特征,减少边信息参数的维数以节省比特率。并在卷积自编码器的解码模块中引入稠密连接,增强解码神经网络各层之间的特征传递。从而很好地重建音频对象。因此,本发明可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种应用于低码率下的多音频对象编解码方法,其特征在于:包括编码方法和解码方法;
所述编码方法,具体实现包括以下步骤:
步骤A1:对输入的J个独立音频信号通过改进离散余弦变换MDCT进行时域-频域变换,得到对象信号的频谱;
步骤A2:对步骤A1得到的每帧频谱数据进行精细的子带划分;其中,根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量;
步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵;
步骤A5:对A4得到的边信息矩阵传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,然后根据查表法对边信息值进行量化,获得边信息码流;
步骤A6:将步骤A3和步骤A5得到的码流合成输出码流,传输到解码端;
所述解码方法,具体实现包括以下步骤:
步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
步骤B2:步骤B1得到的下混信号码流解码得到下混信号;
步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
步骤B4:将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中,得到重建后的音频对象边信息;
步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱;
步骤B6:根据B5得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号;
其中,在卷积自编码器解码模块中加入稠密连接网络,实现从边信息的低维结构中重构原始高维的边信息数据;
所述卷积自编码器解码模块中加入稠密连接网络,其结构包括三个模块:模块1、模块2和模块3;
所述模块1由卷积层、重塑层、池化层和展平层组成,用于对输入的边信息数据通过卷积神经网络提取特征,并利用池化技术对提取的特征进行压缩处理,卷积层对特征进行进一步的低维表达处理;
所述模块2,由重塑层、反卷积层和反卷积层组成,所述重塑层与两反卷积层稠密连接,用于对边信息数据特征的低维表达进行解码;
所述模块3,由反卷积层、重塑层和卷积层组成,用于对边信息数据特征的低维表达进行进一步解码,该操作是模块1的逆向操作。
2.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A1中,通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域-频域变换,得到单个对象的频谱。
3.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A2中,根据子带数量对恢复音频对象频谱混叠失真的影响,利用评价指标SDR确定精细的子带划分数量。
4.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A3中,将所有对象的频谱信息进行矩阵相加,得到下混信号数据。
5.根据权利要求1-4任意一项所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A4中,对象的边信息为
Figure FDA0003583833250000021
其中,Pj(i,b)表示对象j在子带(i,b)的能量,I是总帧数,J是对象的个数,B是子带数量;1≤i≤I,1≤j≤J,1≤b≤B。
6.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤B2中,利用AAC解码下混信号码流,得到编码前的下混信号。
7.根据权利要求5所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤B5中,重建的音频对象频谱
Figure FDA0003583833250000022
其中,
Figure FDA0003583833250000023
是重建的音频对象j的频域,
Figure FDA0003583833250000024
是经过编解码的下混信号,
Figure FDA0003583833250000025
是去量化的边信息;m是频点的序号,Ab-1和Ab-1代表子带b的开始频点和结束频点;1≤i≤I,1≤j≤J,1≤b≤B,Ab-1≤m≤Ab-1。
8.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤B6中,利用逆改进离散余弦变换IMDCT进行频域-时域变换,最终得到重建的音频对象的时域信号。
CN202110312781.8A 2021-03-24 2021-03-24 一种应用于低码率下的多音频对象编解码方法 Active CN113096672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110312781.8A CN113096672B (zh) 2021-03-24 2021-03-24 一种应用于低码率下的多音频对象编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110312781.8A CN113096672B (zh) 2021-03-24 2021-03-24 一种应用于低码率下的多音频对象编解码方法

Publications (2)

Publication Number Publication Date
CN113096672A CN113096672A (zh) 2021-07-09
CN113096672B true CN113096672B (zh) 2022-06-14

Family

ID=76669589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110312781.8A Active CN113096672B (zh) 2021-03-24 2021-03-24 一种应用于低码率下的多音频对象编解码方法

Country Status (1)

Country Link
CN (1) CN113096672B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
CN108596213A (zh) * 2018-04-03 2018-09-28 中国地质大学(武汉) 一种基于卷积神经网络的高光谱遥感图像分类方法及系统
CN110739000A (zh) * 2019-10-14 2020-01-31 武汉大学 一种适应于个性化交互系统的音频对象编码方法
CN111476342A (zh) * 2019-01-23 2020-07-31 斯特拉德视觉公司 利用了1xH卷积的CNN方法及装置
CN111508524A (zh) * 2020-03-05 2020-08-07 合肥工业大学 语音来源设备的识别方法和系统
CN112365896A (zh) * 2020-10-15 2021-02-12 武汉大学 一种基于栈式稀疏自编码器的面向对象编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
CN108596213A (zh) * 2018-04-03 2018-09-28 中国地质大学(武汉) 一种基于卷积神经网络的高光谱遥感图像分类方法及系统
CN111476342A (zh) * 2019-01-23 2020-07-31 斯特拉德视觉公司 利用了1xH卷积的CNN方法及装置
CN110739000A (zh) * 2019-10-14 2020-01-31 武汉大学 一种适应于个性化交互系统的音频对象编码方法
CN111508524A (zh) * 2020-03-05 2020-08-07 合肥工业大学 语音来源设备的识别方法和系统
CN112365896A (zh) * 2020-10-15 2021-02-12 武汉大学 一种基于栈式稀疏自编码器的面向对象编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张钢等.基于多尺度AlexNet网络的健康因子构建方法.《系统工程与电子技术》.2020,(第01期), *

Also Published As

Publication number Publication date
CN113096672A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
US11798568B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data
CA2697830C (en) A method and an apparatus for processing a signal
JP6346278B2 (ja) ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム
JP2022160597A (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
EP2297728B1 (en) Apparatus and method for adjusting spatial cue information of a multichannel audio signal
CN107610710B (zh) 一种面向多音频对象的音频编码及解码方法
CN109448741B (zh) 一种3d音频编码、解码方法及装置
CN110739000B (zh) 一种适应于个性化交互系统的音频对象编码方法
WO2008100099A1 (en) Methods and apparatuses for encoding and decoding object-based audio signals
US11854560B2 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder-decoder spatial analysis
CN110660401B (zh) 一种基于高低频域分辨率切换的音频对象编解码方法
JP2022548038A (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
CN108417219B (zh) 一种适应于流媒体的音频对象编解码方法
CN113314132B (zh) 交互式音频系统中的音频对象编码方法、解码方法及装置
CN113096672B (zh) 一种应用于低码率下的多音频对象编解码方法
CN112365896B (zh) 一种基于栈式稀疏自编码器的面向对象编码方法
CN113314131B (zh) 一种基于两级滤波的多步音频对象编解码方法
CN113314130B (zh) 一种基于频谱搬移的音频对象编解码方法
CN117136406A (zh) 组合空间音频流

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant