CN111462767B - 音频信号的增量编码方法及装置 - Google Patents

音频信号的增量编码方法及装置 Download PDF

Info

Publication number
CN111462767B
CN111462767B CN202010277596.5A CN202010277596A CN111462767B CN 111462767 B CN111462767 B CN 111462767B CN 202010277596 A CN202010277596 A CN 202010277596A CN 111462767 B CN111462767 B CN 111462767B
Authority
CN
China
Prior art keywords
audio
code stream
data
auxiliary data
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010277596.5A
Other languages
English (en)
Other versions
CN111462767A (zh
Inventor
黄旭
潘兴德
吴超刚
谭敏强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wavarts Technologies Co ltd
Original Assignee
Wavarts Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wavarts Technologies Co ltd filed Critical Wavarts Technologies Co ltd
Priority to CN202010277596.5A priority Critical patent/CN111462767B/zh
Publication of CN111462767A publication Critical patent/CN111462767A/zh
Priority to PCT/CN2020/140741 priority patent/WO2021203753A1/zh
Application granted granted Critical
Publication of CN111462767B publication Critical patent/CN111462767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种音频信号的增量编码方法及装置,涉及数字音频制作技术领域,解决了重复编码而导致音频质量下降的技术问题,其技术方案要点是在原有音频信号的基础上,区分未修改的声音数据和修改的数据,并仅对修改的数据做压缩编码,未修改的数据首先从原始码流中解析出其压缩数据,并和修改数据生成的压缩数据组织成新的码流,即对修改部分做增量编码,避免未修改数据的音质损失并降低编码复杂度。

Description

音频信号的增量编码方法及装置
技术领域
本公开涉及数字音频制作技术领域,尤其涉及一种音频信号的增量编码方法基装置。
背景技术
音频技术经过多年发展,立体声、5.1、7.1环绕声等系统已经获得了广泛的应用,但这些系统因缺乏声音的高度信息,最多只能呈现二维的声音。在真实的世界中,全景声(也称三维声)是声音最真实的呈现和表达方式,无论自然界、艺术领域或视听娱乐领域,全景声都是未来的发展趋势。
全景声有时也被称为三维声、沉浸声,全景声信号一般分为音频数据和辅助数据。音频数据可以是单声道或多声道信号,如单声道、立体声、4.0声道、5.1声道、7.1声道、9.1声道、11.1声道、13.1声道、22.2声道以及上述声道类型的任意组合,如7.1声道信号+4.0声道信号+6个立体声信号;辅助数据一般用于定义音频数据的空间位置或渲染方式,能够提升音频数据的呈现效果,比如三维定位信息,能使音频的空间感、沉浸感更强,以及音效(如均衡器、混响等)处理信息,能使音频更加多元化,丰富听觉体验。有时,也将一个音频数据及其辅助数据统一称为声音对象,将没有辅助数据的音频数据称为声床。目前已经商用的典型全景声技术可以参考三维全景声国家标准AVS2-P3(GB/T 33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)、Dolby Atmos和WANOS等。
在全景声信号中,音频数据可以是单声道信号、立体声信号、单层多声道信号、多层多声道信号(即多个声道信号组合,分布在不同高度平面)等。例如,有些全景声信号采用中间层及顶层的两层平面(如5.1.4就是5.1和4.0两种多声道音频信号的组合,5.1在中间层,4.0在顶层),有些全景声信号采用三层平面等。有些全景声信号只有多层音频数据,但没有辅助数据,例如SMPTE的22.2三维声系统和AURO 9.1系统等。有些全景声信号则既有多层多声道信号,也有辅助数据,例如MPEG-H、Dolby Atmos和DTS:X系统。当然,作为一个极端的例子,全景声信号也可以全部是单声道或立体声信号和辅助数据。
全景声音格式和AAC、AC3、MP3等格式一样,也属于压缩音频格式。目前在制作压缩音频信号时普遍采用两类制作工具。第一类是数字音频工作站(Digital AudioWorkstation,DAW,比如Pro Tools、Nuendo、Cubase、Logic Pro、Adobe Audition等),这些软件广泛应用于电影和音乐的制作,能够使用专业的音频插件,制作出高质量的音频信号。
第二类是一些音视频应用软件,如K歌、短视频、配音软件等等。这些软件广泛深入大众生活,以潜移默化的方式改变着人们的日常生活和工作。这类音视频应用软件支持常规音频格式(包括PCM格式,以及mp3、aac、wma等目前常用的压缩音频格式)的编辑制作,并在互联网的加持下,能够随时随地上传分享自己的作品以及观看其他人的作品,具有很强的娱乐性和互动性。
随着音频制作的日益普及,制作方式也变得五花八门,比如在已有音频信号基础上直接进行二次制作。在互联网应用中,多人可以用接力的方式共同完成一部作品(如多人配音、合唱、合奏等),每个人在前一个人的作品(即已有压缩音频信号)基础上进行编辑制作,把自己的制作成果融入作品中,然后传给下一个人继续制作。以目前的技术,在已有音频信号基础上进行二次制作的方法如图1所示(参考申请号为2020102093909中国发明申请),包括以下步骤:
(101)导入已有音频信号S0,并将其包含的每个声音元素(以下简称音轨)及其对应的辅助数据解出,分别记作音轨集合C和辅助数据集合E。辅助数据和音轨对应,每个音轨可包含0个、1个或多个辅助数据。
(102)进行编辑制作,制作过程通过添加、删除、替换或三种方式的任意组合对已有音轨/辅助数据进行编辑;此步骤可重复进行,完成后生成音轨集合C'和辅助数据集合E'。
(103)将音轨集合C'和辅助数据集合E'编码成新的压缩音频信号S0'。
例如,一个乐队按照申请号为2020102093909的中国发明申请所述的可拆解和再编辑的方式,共同制作一首摇滚乐,如图2所示。第一个人录入吉他音轨C1并为其添加均衡器E1,然后将C1和E1编码(生成的压缩码流记作S0')并上传;第二个人将S0'解码,将其包含的吉他音轨及其均衡器解出,记作C1'和E1,然后录入自己的贝斯音轨C2并为其添加混响效果E2,然后将C1'、E1、C2、E2编码(生成的压缩码流记作S0”)并上传;第三个人解出C1”、E1、C2'、E2,录入键盘音轨C3,编码成S0”',以此类推。
然而,现有的音频编解码技术需要对声音节目中的所有声音元素重新编码。这种处理方式,一方面需要较高编码的复杂度,另一方面是声音质量(尤指未修改部分的声音质量)会随着多次编码而快速下降。上例中,第一个人需要将C1、E1编码,第二个人需要将C1'、E1、C2、E2编码,第三个人需要将C1”、E1、C2'、E2、C3编码,以此类推,最后一个人需要编码的数据是最多的。另外,吉他音轨C1是第一个人录入的原声,质量最好,且始终未被修改过,但经过编码之后,再解出的C1'质量就会下降,C1”质量更差;同理,贝斯音轨C2'质量也比C2差。
发明内容
本公开提供了一种音频信号的增量编码方法及装置,其技术目的是:在原有音频信号的基础上,区分未修改的声音数据和修改的数据,并仅对修改的数据做压缩编码,未修改的数据首先从原始码流中解析出其压缩数据,并和修改数据生成的压缩数据组织成新的码流,即对修改部分做增量编码,避免未修改数据的音质损失并降低编码复杂度。
本公开的上述技术目的是通过以下技术方案得以实现的:
一种音频信号的增量编码方法,包括:
P1:输入压缩音频信号S;
P2:对所述S进行解码得到解码后的音频信号T0;
P3:对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后,得到T;
P4:对所述T进行分类,得到所述T中包括的未修改的音频信号T1和修改的音频信号T2;
P5:查找所述T1在所述S中对应的码流字段S1;
P6:对所述T2进行编码得到音频码流S2;
P7:将所述S1和所述S2复用成新的音频码流S'。
进一步地,所述T0和所述T均由音轨数据组成,或由音轨数据和辅助数据共同组成。
进一步地,所述T1仅包括音轨数据,或仅包括辅助数据,或包括音轨数据和辅助数据,或无任何数据。
进一步地,若所述T2仅包含音轨数据,则所述步骤P6仅对音轨数据进行编码。
进一步地,若所述T2仅包含辅助数据,则所述步骤P6仅对辅助数据进行编码。
进一步地,若所述T2包含音轨数据和辅助数据,则所述步骤P6对音轨数据和辅助数据同时进行编码。
一种音频信号的增量编码装置,包括:
音频信号输入模块,输入压缩音频信号S;
音频解码模块,对所述S进行解码得到解码后的音频信号T0,所述T0包括音轨数据集合A0和辅助数据集合B0;
音频编辑模块,对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后,得到T,所述T包括音轨数据集合A1和辅助数据集合B1;
音频分类模块,对所述T进行分类,得到所述T中包括未修改的音频信号T1和修改的音频信号T2;
查找模块,查找所述T1在所述S中对应的码流字段为S1;
音频编码模块,对所述T2进行编码得到音频码流S2;
音频复用模块,将所述S1和所述S2复用成新的音频码流S'。
进一步地,所述音频编辑模块包括:
音轨编辑单元,对所述音轨数据集合A0进行添加、删除或替换或三种方式的任意组合的编辑后,生成新的音轨数据集合A1;
辅助数据编辑单元,对所述辅助数据集合B0进行添加、删除或替换或三种方式的任意组合的编辑后,生成新的辅助数据集合B1。
进一步地,所述音频分类模块包括:
音轨分类单元,将所述A1分为未修改部分的音轨和修改部分的音轨;
辅助数据分类单元,将所述B1分为未修改部分的辅助数据和修改部分的辅助数据。
本公开的有益效果在于:音频信号输入模块输入压缩音频信号S;音频解码模块对所述S进行解码得到解码后的音频信号T0,所述T0包括音轨数据集合A0和辅助数据集合B0;音频编辑模块对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后,得到T,所述T包括音轨数据集合A1和集合辅助数据B1;音频分类模块对所述T进行分类,得到所述T中包括未修改的音频信号T1和修改的音频信号T2;查找模块查找所述T1在所述S中对应的码流字段为S1;音频编码模块对所述T2进行编码得到音频码流S2;音频复用模块将所述S1和所述S2复用成新的音频码流S'。
在原有音频信号的基础上,区分未修改的声音数据和修改的数据,并仅对修改的数据做压缩编码,未修改的数据首先从原始码流中解析出其压缩数据,并和修改数据生成的压缩数据组织成新的码流,即对修改部分做增量编码,避免未修改数据的音质损失并降低编码复杂度。
附图说明
图1为现有音频信号二次制作的方法流程图;
图2为现有音频信号二次制作的具体实施例流程图;
图3为本发明方法流程图;
图4为本发明装置示意图;
图5为本发明装置具体实施的示意图;
图6为本发明实施例一流程图;
图7为本发明实施例二流程图;
图8为本发明实施例三流程图。
具体实施方式
下面将结合附图对本公开技术方案进行详细说明。
本发明提供的音频信号的增量编码方法,如图3所示,包括如下步骤:
P1:输入压缩音频信号S;
P2:对S进行解码得到解码后的音频信号T0;对S进行解码即将S中包含的所有音轨数据和辅助数据完全分离(参考申请号为2020102093909的中国发明申请专利),生成原始音轨数据集合A0和辅助数据集合B0;
P3:对T0中的音轨数据及其辅助数据进行添加、删除或替换或三种方式的任意组合的编辑后,得到T;此步骤可反复进行,编辑完成后生成T,T则包括音轨数据集合A1和辅助数据集合B1;
P4:对T进行分类,得到T中包括未修改的音频信号T1和修改的音频信号T2;即将T和T0中的数据进行逐一比对,将修改的数据和未修改的数据分别标记出来;
P5:在原有的压缩音频信号S中,找到未修改的音频信号T1对应的码流字段S1并保留;
P6:对修改的音频信号T2进行编码得到音频码流S2;
P7:将S1和所述S2复用成新的音频码流S'。
图4为本发明所述的音频信号的增量编码装置的示意图,如图4所示,该增量编码装置包括音频信号输入模块、音频解码模块、音频编辑模块、音频分类模块、查找模块、音频编码模块和音频复用模块。图5为增量编码装置具体实施例的示意图,由图5可知,音频编辑模块包括音轨编辑单元和辅助数据编辑单元,音频分类模块包括音轨分类单元和辅助数据分类单元。
实施例一:对已有音频信号中的音轨进行编辑制作,如图6所示,具体步骤如下:
601:导入已有音频信号,记作S1;
602:将S1解码,得到音轨集合,记作C[0,...,k-1],表示S1中包含k个音轨,k≥0;
603:对音频进行编辑制作,同时将每个音轨的改动情况进行标记,包含如下情况:
(1)添加音轨:将添加的音轨数量记作k1,并将添加的音轨放在C[k,k+1,...,k+k1-1]中,即目前音轨共有k+k1个;同时设立标记集合P[0,...,k+k1-1],将P[k,...,k+k1-1]标记为“添加”;更新k值,使其始终等于当前音轨总数,即k=k+k1,k1≥0;
(2)删除音轨:删除第n1至n2个音轨,将C[n1,...,n2]的音轨数据清空;将P[n1,...,n2]标记为“删除”(如果已标记为“添加”则覆盖原有标记);k值保持不变(n1至n2虽然被删除,但音轨位置依然存在);0≤n1≤n2≤k-1;
(3)替换音轨:替换第n3至n4个音轨,则C[n3,...,n4]的音轨数据发生变化,将P[n3,...,n4]标记为“替换”(如果已标记为“添加”则覆盖原有标记),k值保持不变;0≤n3≤n4≤k-1;
此步骤可重复进行;
604:将制作前后的音轨进行逐一对比,此时音轨总数为k,则将标记集合P[0,...,k-1]中的所有“添加”、“替换”标记对应的音轨视为修改部分M[](集合中储存的是音轨编号,下同),“删除”标记对应的音轨视为修改部分N[],P中其他元素视为未修改部分L[];
605:利用原始音频信号S1、音轨标记集合P[],将制作后的音轨编码成新的音频信号。新建空码流S',先将S1的帧头放入S'中,然后逐个扫描P[]中的每个元素i:若P[i]∈L[],则将S1中的第i个音频码流直接放入S'中(从第0个音轨起,按顺序依次排放,下同);若P[i]∈M[],则将音轨C[i]编码,放入S'中;若P[i]∈N[],则不进行任何操作;扫描完成后,重新整理音轨编号并更新帧头,此时输出的S'即为新的音频码流;S'中的音轨总数小于等于k。
实施例二:对已有音频信号中的辅助数据进行编辑制作,如图7所示,具体步骤如下:
(701)导入已有音频信号,记作S1;
(702)将S1解码,得到音轨和辅助数据集合,其中音轨集合记作C[0,...,k-1],表示S1中包含k个音轨;将辅助数据集合记作E[0,...,k-1][](由于每个音轨都可能包含辅助数据,故用二维数组表示,下同),其中每个音轨分别记作E[0][0,...,m0-1]、E[1][0,...,m1-1]、...、E[k-1][mk-1-1],表示每个音轨的辅助数据数量分别是m0、m1、...、mk-1;k≥0,m0、m1、...、mk-1≥0;
(703)对音频进行编辑制作,同时将每个辅助数据的改动情况进行标记,包含如下情况:
(1)添加辅助数据:对第i个音轨添加辅助数据,将添加的辅助数据数量记作ni,并将添加的辅助数据放在E[i][mi,...,mi+ni-1],即目前第i个音轨共有mi+ni个辅助数据;同时为每个音轨设立辅助数据标记集合Q[i][0,...,mi+ni-1],将Q[i][mi,...,mi+ni-1]标记为“添加”;更新mi值,使其始终等于第i个音轨总数,即mi=mi+ni;0≤i≤k-1,ni≥0;
(2)删除辅助数据:从第i个音轨上删除第n1i至n2i个辅助数据,将E[i][n1i,...,n2i]的辅助数据数据清空;将Q[i][n1i,...,n2i]标记为“删除”(如果已标记为“添加”则覆盖原有标记);mi值保持不变(n1i,...,n2i虽然被删除,但辅助数据位置依然存在);0≤n1i≤n2i≤mi-1;
(3)替换辅助数据:在第i个音轨上替换第n3i至n4i个辅助数据,则E[i][n3i,...,n4i]的辅助数据数据发生变化,将Q[i][n3i,...,n4i]标记为“替换”(如果已标记为“添加”则覆盖原有标记),mi值保持不变;0≤n3i≤n4i≤mi-1;
此步骤可重复进行;
(704)对于每个音轨,将制作前后的辅助数据进行逐一对比。此时每个音轨上的辅助数据总数为mi,则将标记集合Q[i][0,...,mi-1]中的所有“添加”“替换”标记对应的辅助数据视为修改部分M[i][](集合中储存的是辅助数据编号,下同),“删除”标记对应的音轨视为修改部分N[i][],Q中其他元素视为未修改部分L[i][];
(705)利用原始音频信号S1、辅助数据标记集合Q[][],将制作后的音轨和辅助数据编码成新的音频信号。新建空码流S',先将S1的帧头放入S'中,然后对每个音轨逐个扫描Q[i][0,...,mi-1]中的每个辅助数据标记(记作j):若Q[i][j]∈L[i][],则将S1中第i个音轨码流附属的第j个辅助数据码流字段直接放入S'中(从第0个音轨起,按顺序依次排放;对于每个音轨,从第0个辅助数据起,按顺序依次排放,下同);若Q[i][j]∈M[i][],则将辅助数据E[i][j]编码,放入S'中;若Q[i][j]∈N[i][],则不进行任何操作。扫描完成后,重新整理辅助数据编号并更新帧头,同时将第i个音轨码流字段直接放入S'的对应位置中;将k个音轨全部扫描完成后,此时输出的S'即为新的音频码流;S'中每个音轨的辅助数据总数小于等于mi。
实施例三:对音频信号中的音轨和辅助数据进行编辑制作以及二次/多次制作,如图8所示,具体如下:
(801)导入已有音频信号,记作S1;
(802)将S1解码,得到音轨和辅助数据集合,其中音轨集合记作C[0,...,k-1],表示S1中包含k个音轨;将辅助数据集合记作E[0,...,k-1][],其中每个音轨分别记作E[0][0,...,m0-1]、E[1][0,...,m1-1]、...、E[k-1][mk-1-1],表示每个音轨的辅助数据数量分别是m0、m1、...、mk-1;k≥0,m0、m1、...、mk-1≥0;
(803)对音频进行编辑制作,包含如下情况:
(1)添加音轨:将添加的音轨数量记作k1,并将添加的音轨放在C[k,k+1,...,k+k1-1],即目前音轨共有k+k1个;同时设立标记集合P[0,...,k+k1-1],将P[k,...,k+k1-1]标记为“添加”;更新k值,使其始终等于当前音轨总数,即k=k+k1;k1≥0;
(2)删除音轨:删除第n1至n2个音轨,将C[n1,...,n2]的音轨数据及其辅助数据清空;将P[n1,...,n2]标记为“删除”(如果已标记为“添加”则覆盖原有标记);k值保持不变(n1,...,n2虽然被删除,但音轨位置依然存在);0≤n1≤n2≤k-1;
(3)替换音轨:替换第n3至n4个音轨,则C[n3,...,n4]的音轨数据发生变化,将P[n3,...,n4]标记为“替换”(如果已标记为“添加”则覆盖原有标记),k值保持不变;0≤n3≤n4≤k-1;
(4)添加辅助数据:对第i个音轨添加辅助数据,将添加的辅助数据数量记作ni,并将添加的辅助数据放在E[i][mi,...,mi+ni-1],即目前第i个音轨共有mi+ni个辅助数据;同时为每个音轨设立辅助数据标记集合Q[i][0,...,mi+ni-1],将Q[i][mi,...,mi+ni-1]标记为“添加”;更新mi值,使其始终等于第i个音轨总数,即mi=mi+ni;0≤i≤k-1,ni≥0;
(5)删除辅助数据:从第i个音轨上删除第n5i至n6i个辅助数据,将E[i][n5i,...,n6i]的辅助数据数据清空;将Q[i][n5i,...,n6i]标记为“删除”(如果已标记为“添加”则覆盖原有标记);mi值保持不变(n5i至n6i虽然被删除,但辅助数据位置依然存在);0≤n5i≤n6i≤mi-1;
(6)替换辅助数据:在第i个音轨上替换第n7i至n8i个辅助数据,则E[i][n7i,...,n8i]的辅助数据数据发生变化,将Q[i][n7i,...,n8i]标记为“替换”(如果已标记为“添加”则覆盖原有标记),mi值保持不变;0≤n7i≤n8i≤mi-1;
此步骤可重复进行;
(804)将制作前后的音轨和辅助数据进行对比:此时音轨总数为k,则将标记集合P[0,...,k-1]中的所有“添加”“替换”标记对应的音轨视为修改部分M1[](集合中储存的是音轨编号,下同),“删除”标记对应的音轨视为修改部分N1[],P中其他元素视为未修改部分L1[];此时每个音轨上的辅助数据总数为mi,则将标记集合Q[i][0,...,mi-1]中的所有“添加”“替换”标记对应的辅助数据视为修改部分M2[i][](集合中储存的是辅助数据编号,下同),“删除”标记对应的音轨视为修改部分N2[i][],Q中其他元素视为未修改部分L2[i][];
(805)利用原始音频信号S1、音轨标记集合P[]、辅助数据标记集合Q[][],将制作后的音轨和辅助数据编码成新的音频信号。
新建空码流S',先将S1的帧头放入S'中,然后按照音轨逐个扫描:
(1)对于音轨数据,逐个扫描P[]中的每个元素i:若P[i]∈L1[],则将S1中的第i个音频码流直接放入S'中(从第0个音轨起,按顺序依次排放);若P[i]∈M1[],则将音轨C[i]编码,放入S'中;若P[i]∈N1[],则不进行任何操作;
(2)对于辅助数据数据,扫描Q[i][0,...,mi-1]中的每个辅助数据标记(记作j):若Q[i][j]∈L2[i][],则将S1中第i个音轨码流附属的第j个辅助数据码流字段直接放入S'中(从第0个辅助数据起,按顺序依次排放);若P[i][j]∈M2[i][],则将辅助数据E[i][j]编码,放入S'中;若P[i][j]∈N2[i][],则不进行任何操作。
扫描完成后,重新整理音轨和辅助数据编号并更新帧头,此时输出的S'即为新的音频码流;S'中的音轨总数≤k,每个音轨的辅助数据总数小于等于mi。
(806)若需要二次/多次制作,则将步骤(705)输出的压缩音频信号S'作为已有音频信号S1,开始下一次制作过程,重复步骤(701)至(706);制作完毕后,输出最终的压缩音频流。
作为具体实施例地,上述处理过程中描述的所有音频信号,音频声道数包括单声道、立体声、4.0声道、5.1声道、7.1声道、9.1声道、11.1声道、13.1声道、22.2声道以及上述声道种类的任意组合形式;每个音频信号均可包含一个或多个音轨,每个音轨都可包含0个、1个或多个辅助数据。编码格式包括常规音频格式(如MP3、AAC、AC3等)、全景声音频格式(如Atmos、WANOS、AVS、MPEG-H)等。
以上为本公开示范性实施例,本公开的保护范围由权利要求书及其等效物限定。

Claims (9)

1.一种音频信号的增量编码方法,其特征在于,包括:
P1:输入压缩音频信号S;
P2:对所述S进行解码得到解码后的音频信号T0;
P3:对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后,得到T,并设立T的标记集合P,在所述集合P中对编辑的数据进行了标记;
P4:根据所述集合P,对所述T进行分类,得到所述T中包括未修改的音频信号T1和修改的音频信号T2;
P5:查找所述T1在所述S中对应的码流字段S1;
P6:对所述T2进行编码得到音频码流S2;
P7:将所述S1和所述S2复用成新的音频码流S';
所述将所述S1和所述S2复用成新的音频码流S',包括:
新建空码流S',先将所述S1的帧头放入所述空码流S'中,依次扫描所述集合P中的每个元素,若所述元素为未标记的元素,则将所述元素在所述S中对应的码流字段S1放入所述空码流S'中,若所述元素为标记的元素,则将对所述元素编码后对应的音频码流S2放入所述空码流S'中。
2.如权利要求1所述的音频信号的增量编码方法,其特征在于,所述T0和所述T均由音轨数据组成,或由音轨数据和辅助数据共同组成。
3.如权利要求2所述的音频信号的增量编码方法,其特征在于,所述T1仅包括音轨数据,或仅包括辅助数据,或包括音轨数据和辅助数据,或无任何数据。
4.如权利要求3所述的音频信号的增量编码方法,其特征在于,若所述T2仅包含音轨数据,则所述步骤P6仅对音轨数据进行编码。
5.如权利要求3所述的音频信号的增量编码方法,其特征在于,若所述T2仅包含辅助数据,则所述步骤P6仅对辅助数据进行编码。
6.如权利要求3所述的音频信号的增量编码方法,其特征在于,若所述T2包含音轨数据和辅助数据,则所述步骤P6对音轨数据和辅助数据同时进行编码。
7.一种音频信号的增量编码装置,其特征在于,包括:
音频信号输入模块,输入压缩音频信号S;
音频解码模块,对所述S进行解码得到解码后的音频信号T0,所述T0包括音轨数据集合A0和辅助数据集合B0;
音频编辑模块,对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后,得到T,并设立T的标记集合P,在所述集合P中对编辑的数据进行了标记,所述T包括音轨数据集合A1和辅助数据集合B1;
音频分类模块,根据所述集合P,对所述T进行分类,得到所述T中包括未修改的音频信号T1和修改的音频信号T2;
查找模块,查找所述T1在所述S中对应的码流字段为S1;
音频编码模块,对所述T2进行编码得到音频码流S2;
音频复用模块,将所述S1和所述S2复用成新的音频码流S';
所述音频复用模块,具体用于:
新建空码流S',先将所述S1的帧头放入所述空码流S'中,依次扫描所述集合P中的每个元素,若所述元素为未标记的元素,则将所述元素在所述S中对应的码流字段S1放入所述空码流S'中,若所述元素为标记的元素,则将对所述元素编码后对应的音频码流S2放入所述空码流S'中。
8.如权利要求7所述的音频信号的增量编码装置,其特征在于,所述音频编辑模块包括:
音轨编辑单元,对所述音轨数据集合A0进行添加、删除或替换或三种方式的任意组合的编辑后,生成新的音轨数据集合A1;
辅助数据编辑单元,对所述辅助数据集合B0进行添加、删除或替换或三种方式的任意组合的编辑后,生成新的辅助数据集合B1。
9.如权利要求8所述的音频信号的增量编码装置,其特征在于,所述音频分类模块包括:
音轨分类单元,将所述A1分为未修改部分的音轨和修改部分的音轨;
辅助数据分类单元,将所述B1分为未修改部分的辅助数据和修改部分的辅助数据。
CN202010277596.5A 2020-04-10 2020-04-10 音频信号的增量编码方法及装置 Active CN111462767B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010277596.5A CN111462767B (zh) 2020-04-10 2020-04-10 音频信号的增量编码方法及装置
PCT/CN2020/140741 WO2021203753A1 (zh) 2020-04-10 2020-12-29 音频信号的增量编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277596.5A CN111462767B (zh) 2020-04-10 2020-04-10 音频信号的增量编码方法及装置

Publications (2)

Publication Number Publication Date
CN111462767A CN111462767A (zh) 2020-07-28
CN111462767B true CN111462767B (zh) 2024-01-09

Family

ID=71682376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277596.5A Active CN111462767B (zh) 2020-04-10 2020-04-10 音频信号的增量编码方法及装置

Country Status (2)

Country Link
CN (1) CN111462767B (zh)
WO (1) WO2021203753A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07307706A (ja) * 1994-05-13 1995-11-21 Fujitsu Ltd 中継交換切替え制御方式
US6611694B1 (en) * 1999-03-10 2003-08-26 Telefonaktiebolaget Lm Ericsson (Publ) Arrangement for improving the speech quality, especially for VoIP (Voice over IP) calls
CN1532809A (zh) * 2003-03-22 2004-09-29 三星电子株式会社 采用带宽扩展技术编码和/或解码音频数据的方法和装置
CN1750404A (zh) * 2002-08-21 2006-03-22 中山正音数字技术有限公司 对多声道数字音频信号进行压缩编码的编码方法
CN101517637A (zh) * 2006-09-18 2009-08-26 皇家飞利浦电子股份有限公司 音频对象的编码与解码
CN102456340A (zh) * 2010-10-19 2012-05-16 盛大计算机(上海)有限公司 基于互联网的卡拉ok对唱方法及系统
CN102682776A (zh) * 2012-05-28 2012-09-19 深圳市茁壮网络股份有限公司 一种音频数据的处理方法和服务器
CN102754159A (zh) * 2009-10-19 2012-10-24 杜比国际公司 指示音频对象的部分的元数据时间标记信息
CN103050123A (zh) * 2011-10-17 2013-04-17 多玩娱乐信息技术(北京)有限公司 一种传输语音信息的方法和系统
CN103177725A (zh) * 2008-10-06 2013-06-26 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
CN103295568A (zh) * 2013-05-30 2013-09-11 北京小米科技有限责任公司 一种异步合唱方法和装置
CN105336348A (zh) * 2015-11-16 2016-02-17 合一网络技术(北京)有限公司 视频编辑中多音频轨道的处理系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889917A (en) * 1995-03-25 1999-03-30 Sony Corporation Method and apparatus for editing an audio-visual signal having audio data that is in the form of block units which are not synchronous with the fields/frames of video data
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
JP6088444B2 (ja) * 2011-03-16 2017-03-01 ディーティーエス・インコーポレイテッドDTS,Inc. 3次元オーディオサウンドトラックの符号化及び復号
CN109801639B (zh) * 2017-11-16 2020-12-18 全景声科技南京有限公司 一种符合ac-3格式的全景声信号的编解码方法
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07307706A (ja) * 1994-05-13 1995-11-21 Fujitsu Ltd 中継交換切替え制御方式
US6611694B1 (en) * 1999-03-10 2003-08-26 Telefonaktiebolaget Lm Ericsson (Publ) Arrangement for improving the speech quality, especially for VoIP (Voice over IP) calls
CN1750404A (zh) * 2002-08-21 2006-03-22 中山正音数字技术有限公司 对多声道数字音频信号进行压缩编码的编码方法
CN1532809A (zh) * 2003-03-22 2004-09-29 三星电子株式会社 采用带宽扩展技术编码和/或解码音频数据的方法和装置
CN101517637A (zh) * 2006-09-18 2009-08-26 皇家飞利浦电子股份有限公司 音频对象的编码与解码
CN103177725A (zh) * 2008-10-06 2013-06-26 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
CN102754159A (zh) * 2009-10-19 2012-10-24 杜比国际公司 指示音频对象的部分的元数据时间标记信息
CN102456340A (zh) * 2010-10-19 2012-05-16 盛大计算机(上海)有限公司 基于互联网的卡拉ok对唱方法及系统
CN103050123A (zh) * 2011-10-17 2013-04-17 多玩娱乐信息技术(北京)有限公司 一种传输语音信息的方法和系统
CN102682776A (zh) * 2012-05-28 2012-09-19 深圳市茁壮网络股份有限公司 一种音频数据的处理方法和服务器
CN103295568A (zh) * 2013-05-30 2013-09-11 北京小米科技有限责任公司 一种异步合唱方法和装置
CN105336348A (zh) * 2015-11-16 2016-02-17 合一网络技术(北京)有限公司 视频编辑中多音频轨道的处理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余兆明.《数字电视原理》.西安电子科技大学出版社,2009,第222-225页. *

Also Published As

Publication number Publication date
CN111462767A (zh) 2020-07-28
WO2021203753A1 (zh) 2021-10-14

Similar Documents

Publication Publication Date Title
CN102171754B (zh) 编码装置以及解码装置
CN103649706B (zh) 三维音频音轨的编码及再现
DE60002483T2 (de) Skalierbares kodierungsverfahren für hochqualitätsaudio
Brandenburg MP3 and AAC explained
CN101617360B (zh) 用于编码和解码具有各种声道的多对象音频信号的设备和方法
Levine et al. A sines+ transients+ noise audio representation for data compression and time/pitch scale modifications
CN101641970B (zh) 用于组合和分离数字音频数据集的方法和设备
CN105323702B (zh) 混音方法及系统
JP2006031012A (ja) マルチチャンネルオーディオデータ符号化方法、マルチチャンネルオーディオデータ復号化方法、マルチチャンネルオーディオデータ符号化装置、マルチチャンネルオーディオデータ復号化装置、マルチチャンネルオーディオデータを符号化するためのプログラムを記録した媒体及びマルチチャンネルオーディオデータを復号化するためのプログラムを記録した記録媒体
US20060136080A1 (en) Audio fidelity meter
CN105580073A (zh) 音频解码器、音频编码器、用于基于已编码表示提供至少四个音频声道信号的方法、用于基于至少四个音频声道信号提供已编码表示的方法、及使用带宽扩展的计算机程序
CN1930914A (zh) 参数多声道编码系统中基于频率的音频声道编码
CN101039440A (zh) 用于数字屏幕广告的视频文件创建系统
CN1457483A (zh) 内容提供系统和信息处理方法
CN111462767B (zh) 音频信号的增量编码方法及装置
CN101490745B (zh) 用于编码和解码基于对象的音频信号的方法和装置
CN106465028A (zh) 音频信号处理装置和方法、编码装置和方法以及程序
WO2021190039A1 (zh) 可拆解和再编辑音频信号的处理方法及装置
CN106790558B (zh) 一种影片多版本整合存储和提取系统
CN108550369A (zh) 一种可变长度的全景声信号编解码方法
Kalliris et al. Media management, sound editing and mixing
US6782365B1 (en) Graphic interface system and product for editing encoded audio data
CN106663435A (zh) 编码装置和方法、解码装置和方法、以及程序
US20090060449A1 (en) Shooting apparatus and shooting method, information processing apparatus and information processing method, and program
CN1934640B (zh) 用于写入到音频cd的设备和方法以及音频cd

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant