CN107516531A - 语音声响编码装置和解码装置、语音声响编码和解码方法 - Google Patents

语音声响编码装置和解码装置、语音声响编码和解码方法 Download PDF

Info

Publication number
CN107516531A
CN107516531A CN201710759624.5A CN201710759624A CN107516531A CN 107516531 A CN107516531 A CN 107516531A CN 201710759624 A CN201710759624 A CN 201710759624A CN 107516531 A CN107516531 A CN 107516531A
Authority
CN
China
Prior art keywords
group
energy
subband
bit
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710759624.5A
Other languages
English (en)
Other versions
CN107516531B (zh
Inventor
刘宗宪
S.纳吉塞蒂
押切正浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN107516531A publication Critical patent/CN107516531A/zh
Application granted granted Critical
Publication of CN107516531B publication Critical patent/CN107516531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明的语音声响编码装置包括:转换单元,将语音声响信号从时域转换到频域;估计单元,对于将语音声响信号的频谱分割所得的多个子带,分别估计表示能级的能量包络线;量化单元,将能量包络线进行量化;群组确定单元,将量化的能量包络线分组为多个群组;第一比特分配单元,对多个群组分配比特;第二比特分配单元,将对多个群组分配的比特按每个群组分配给子带;以及编码单元,使用对子带分配的比特,编码频谱。多个群组的每一个由多个子带构成,群组确定单元在确定多个群组时,将能量包络线具有极大值的子带即优势频带、以及与优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将优势群组以外的连续的子带确定为非优势群组。

Description

语音声响编码装置和解码装置、语音声响编码和解码方法
本申请是国际申请日为2013年11月26日、申请号为201380063794.X、发明名称为“语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法”的发明专利申请的分案申请。
技术领域
本发明涉及使用转换编码方式的语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法。
背景技术
作为能够高效地编码0.02-20kHz频带的全频带(FB:Full band)语音信号或音乐信号的方式,有以ITU-T(International Telecommunication Union TelecommunicationStandardization Sector:国际电信联盟-电信标准化部门)标准化的技术。该技术中,将输入信号转换到频域,编码最大20kHz的频带(转换编码)。
这里,转换编码是指如下所述的编码方式,即使用离散余弦转换(DCT:DiscreteCosine Transform)或修正离散余弦转换(MDCT:Modified Discrete Cosine Transform)等时间频率转换,将输入信号从时域转换到频域,从而能够使信号正确地应对和匹配听觉特性。
在转换编码时,频谱系数被分割为多个频率子带。在各子带的编码时,将更多的量化比特分配到对人耳的知觉重要的频带,从而能够整体上提高音质。
为了实现此目的,正在研究高效的比特分配方法,例如已知有非专利文献1公开的技术。以下,使用图1和图2来说明专利文献1公开的比特分配方法。
图1是表示专利文献1公开的语音声响编码装置的结构的方框图。以48kHz采样的输入信号被输入到语音声响编码装置的瞬态检测器11及转换单元12。
瞬态检测器11从输入信号中检测与语音的开始端部或结束端部对应的瞬态帧、或与除此以外的语音区间对应的正常帧中的任一者,转换单元12根据由瞬态检测器11检测出的帧是瞬态帧还是正常帧,将高频率分辨率转换或低频率分辨率转换适用于输入信号的帧,获取频谱系数(或转换系数)。
范数估计单元13将由转换单元12获得的频谱系数分割为带宽不同的频带。另外,范数估计单元13估计分割的各频带的范数(或能量)。
范数量化单元14基于由范数估计单元13估计出的各频带的范数,求包含所有频带的范数的频谱包络线,并将求得的频谱包络线进行量化。
频谱标准化单元15根据由范数量化单元14量化的范数,将由转换单元12获得的频谱系数进行标准化。
范数调整单元16基于自适应频谱加权来调整由范数量化单元14量化的范数。
比特分配单元17使用经范数调整单元16调整的量化范数,对帧内的每个频带分配可使用的比特。
点阵矢量编码单元18将经频谱标准化单元15标准化的频谱系数,以由比特分配单元17对每个频带分配的比特进行点阵矢量编码。
噪声电平调整单元19估计点阵矢量编码单元18中的编码前的频谱系数的电平,对估计出的电平进行编码。由此求噪声电平调整索引。
多路复用器20对转换单元12所获取的输入信号的帧结构、即表示是正常帧还是瞬态帧的瞬态信号标志、经范数量化单元14量化的范数、由点阵矢量编码单元18获得的点阵码矢量、及由噪声电平调整单元19获得的噪声电平调整索引进行复用而形成比特流,并将比特流发送到语音声响解码装置。
图2是表示专利文献1公开的语音声响解码装置的结构的方框图。从语音声响编码装置发送的比特流在语音声响解码装置中被接收,并由解复用器21进行解复用。
范数逆量化单元22将量化后的范数进行逆量化,求包含所有频带的范数的频谱包络线,范数调整单元23基于自适应频谱加权来调整经范数逆量化单元22逆量化后的范数。
比特分配单元24使用经范数调整单元23调整的范数,对帧内的每个频带分配可使用的比特。即,比特分配单元24重新计算为了对经标准化的频谱系数的点阵矢量码进行解码所需的比特分配。
点阵解码单元25将瞬态信号标志解码,基于解码所得的瞬态信号标志所表示的帧结构、及由比特分配单元24分配的比特来解码点阵码矢量,获取频谱系数。
频谱填补(spectral fill)生成器26使用基于经点阵解码单元25解码的频谱系数所制作的码本,重新生成未被分配比特的低频率的频谱系数。另外,频谱填补生成器26使用噪声电平调整索引,调整重新生成的频谱系数的电平。而且,频谱填补生成器26使用低频率的经编码的频谱系数,重新生成高频率的未经编码的频谱系数。
加法器27将解码所得的频谱系数及重新生成的频谱系数合并,生成标准化的频谱系数。
包络线形成单元28对由加法器27生成的标准化频谱系数,适用经范数逆量化单元22逆量化的频谱包络线,从而生成全频带频谱系数。
逆转换单元29对由包络线形成单元28生成的全频带频谱系数,适用逆修正离散余弦转换(IMDCT:Inverse Modified Discrete Cosine Transform)等逆转换,以转换为时域信号。这里,在正常帧的情况下适用高频率分辨率的逆转换,在瞬态帧的情况下适用低频率分辨率的逆转换。
在G.719中,频谱系数被分割为频谱群组。如图3所示,各频谱群组被分割为等长度的子矢量的频带。子矢量在群组间具有不同的长度,该长度随着频率的增加而增加。对于转换的分辨率,在低频率时,使用更高的频率分辨率,在高频率时,使用更低的频率分辨率。如在G.719中所述的那样,通过分组,能够高效地使用可在编码中使用的比特预算。
另外,在G.719中,比特分配方法在编码装置及解码装置中相同。这里,使用图4来说明比特分配方法。
如图4所示,在步骤(以下省略为“ST”)31中,为了调整心理声响加权及屏蔽(masking)效果,在比特分配前调整量化的范数。
在ST32中,识别所有子带中具有最大范数的子带,在ST33中,在具有最大范数的子带中,对各频谱系数分配1比特。即,仅分配相当于频谱系数的数的比特。
在ST34中,根据分配的比特,使范数减少,在ST35中,判定剩余的可分配比特数是否为8比特以上。在剩余的可分配比特数为8比特以上时,返回ST32,在剩余的可分配比特数小于8比特时,结束比特分配流程。
这样,比特分配方法使用经调整的量化范数,在子带间分配帧内的可使用比特。并且,以分配给各子带的比特,通过点阵矢量编码来编码标准化的频谱系数。
现有技术文献
专利文献
非专利文献1:ITU-T Recommendation G.719,“Low-complexity full-bandaudio coding for high-quality conversation applications,”ITU-T,2009.
发明内容
发明要解决的问题
但是,上述比特分配方法存在如下问题,即在对频谱带进行分组时,由于未考虑输入信号特性,因此无法进行高效的比特分配,从而无法期望进一步的高音质化。
本发明的目的在于,提供进行高效的比特分配,实现音质提高的语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法。
解决问题的方案
本发明的语音声响编码装置采用下述结构,即该语音声响编码装置包括:转换单元,将语音声响信号从时域转换到频域;估计单元,对于将所述语音声响信号的频谱分割所得的多个子带,分别估计表示能级的能量包络线;量化单元,将所述能量包络线进行量化;群组确定单元,将量化的所述能量包络线分组为多个群组;第一比特分配单元,对所述多个群组分配比特;第二比特分配单元,将对所述多个群组分配的比特按每个群组分配给子带;以及编码单元,使用对所述子带分配的比特,编码所述频谱,所述多个群组的每一个由多个子带构成,所述群组确定单元在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
本发明的语音声响解码装置采用下述结构,即该语音声响解码装置包括:逆量化单元,将量化的频谱包络线进行逆量化;群组确定单元,将逆量化的所述频谱包络线分组为多个群组;第一比特分配单元,对所述多个群组分配比特;第二比特分配单元,将对所述多个群组分配的比特按每个群组分配给子带;解码单元,使用对所述子带分配的比特,解码语音声响信号的频谱;包络线形成单元,对解码的所述频谱适用进行了逆量化的所述频谱包络线,再现解码频谱;以及逆转换单元,将所述解码频谱从频域逆转换到时域,所述多个群组的每一个由多个子带构成,所述群组确定单元在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
本发明的语音声响编码方法包括以下步骤:将语音声响信号从时域转换到频域;对于将所述语音声响信号的频谱分割所得的多个子带,分别估计表示能级的能量包络线;量化所述能量包络线;将量化的所述能量包络线分组成多个群组;进行对所述多个群组分配比特的第一比特分配;进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配;以及使用对所述子带分配的比特,编码所述频谱,所述多个群组的每一个由多个子带构成,在所述分组的步骤中,在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
本发明的语音声响解码方法包括以下步骤:将量化的频谱包络线逆量化;将逆量化的所述频谱包络线分组成多个群组;进行对所述多个群组分配比特的第一比特分配;进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配;使用对所述子带分配的比特,解码语音声响信号的频谱;对解码的所述频谱适用进行了逆量化的所述频谱包络线,再现解码频谱;以及将所述解码频谱从频域逆转换到时域,所述多个群组的每一个由多个子带构成,在所述分组的步骤中,在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
本发明的语音声响编码装置采用下述结构,即该语音声响编码装置包括:转换单元,将输入信号从时域转换到频域;估计单元,对于将所述输入信号的频谱分割所得的多个子带,分别估计表示能级的能量包络线;量化单元,将所述能量包络线进行量化;群组确定单元,将量化的所述能量包络线分组为多个群组;第一比特分配单元,对所述多个群组分配比特;第二比特分配单元,将对所述多个群组分配的比特按每个群组分配给子带;以及编码单元,使用对所述子带分配的比特,编码所述频谱,所述多个群组的每一个由多个子带构成,所述群组确定单元将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
本发明的语音声响解码装置采用下述结构,即该语音声响解码装置包括:逆量化单元,将量化的频谱包络线进行逆量化;群组确定单元,将逆量化的所述频谱包络线分组为多个群组;第一比特分配单元,对所述多个群组分配比特;第二比特分配单元,将对所述多个群组分配的比特按每个群组分配给子带;解码单元,使用对所述子带分配的比特,解码语音声响信号的频谱;包络线形成单元,对解码的所述频谱适用进行了逆量化的所述频谱包络线,再现解码频谱;以及逆转换单元,将所述解码频谱从频域逆转换到时域,所述多个群组的每一个由多个子带构成,所述群组确定单元将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
本发明的语音声响编码方法包括以下步骤:将输入信号从时域转换到频域;对于将所述输入信号的频谱分割所得的多个子带,分别估计表示能级的能量包络线;量化所述能量包络线;将量化的所述能量包络线分组为多个群组;对所述多个群组分配比特;将对所述多个群组分配的比特按每个群组分配给子带;以及使用分配给所述子带的比特,编码所述频谱,在所述分组的步骤中,所述多个群组的每一个由多个子带构成,将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
本发明的语音声响解码方法包括以下步骤:将量化的频谱包络线逆量化;将逆量化的所述频谱包络线分组成多个群组;对所述多个群组分配比特;将对所述多个群组分配的比特按每个群组分配给子带;使用对所述子带分配的比特,解码语音声响信号的频谱;对解码的所述频谱适用进行了逆量化的所述频谱包络线,再现解码频谱;以及将所述解码频谱从频域逆转换到时域,在所述分组的步骤中,所述多个群组的每一个由多个子带构成,将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
发明效果
根据本发明,能够进行高效的比特分配而实现音质提高。
附图说明
图1是表示专利文献1公开的语音声响编码装置的结构的方框图。
图2是表示专利文献1公开的语音声响解码装置的结构的方框图。
图3是表示专利文献1公开的正常模式下的频谱系数的分组的图。
图4是表示专利文献1公开的比特分配方法的流程图。
图5是表示本发明的一实施方式的语音声响编码装置的结构的方框图。
图6是表示本发明的一实施方式的语音声响解码装置的结构的方框图。
图7是表示图5所示的比特分配单元的内部结构的方框图。
图8的(a)~(c)是用于说明本发明的一实施方式的分组方法的图。
图9是表示范数方差(Norm variance)的图。
具体实施方式
以下,参照附图来详细说明本发明的实施方式。
(一实施方式)
图5是表示本发明的一实施方式的语音声响编码装置100的结构的方框图。以48kHz采样的输入信号被输入到语音声响编码装置100的瞬态检测器101和转换单元102。
瞬态检测器101从输入信号中检测与语音的开始端部或结束端部对应的瞬态帧、或与除此以外的语音区间对应的正常帧中的任一者,并将检测结果输出给转换单元102。转换单元102根据从瞬态检测器101输出的检测结果是瞬态帧还是正常帧,将高频率分辨率转换或低频率分辨率转换适用于输入信号的帧,获取频谱系数(或转换系数),并输出到范数估计单元103及频谱标准化单元105。另外,转换单元102将从瞬态检测器101输出的检测结果即帧结构、即表示是正常帧还是瞬态帧的瞬态信号标志输出到多路复用器110。
范数估计单元103将从转换单元102输出的频谱系数分割为带宽不同的频带,并估计分割的各频带的范数(或能量)。范数估计单元103将估计出的各频带的范数输出到范数量化单元104。
范数量化单元104基于从范数估计单元103输出的各频带的范数,求包含所有频带的范数的频谱包络线,将求得的频谱包络线进行量化,并将量化的频谱包络线输出到频谱标准化单元105及范数调整单元106。
频谱标准化单元105根据从范数量化单元104输出的量化频谱包络线,将从转换单元102输出的频谱系数进行标准化,并将标准化的频谱系数输出到点阵矢量编码单元108。
范数调整单元106基于自适应频谱加权来调整从范数量化单元104输出的量化频谱包络线,并将调整后的量化频谱包络线输出到比特分配单元107。
比特分配单元107使用从范数调整单元106输出的、经调整的量化频谱包络线,对帧内的每个频带分配可使用的比特,并将分配的比特输出到点阵矢量编码单元108。另外,比特分配单元107的细节将后述。
点阵矢量编码单元108将经频谱标准化单元105标准化的频谱系数,以由比特分配单元107对每个频带分配的比特进行点阵矢量编码,并将点阵码矢量输出到噪声电平调整单元109及多路复用器110。
噪声电平调整单元109估计点阵矢量编码单元108中的编码前的频谱系数的电平,对估计出的电平进行编码。由此,求噪声电平调整索引。噪声电平调整索引被输出到多路复用器110。
多路复用器110将从转换单元102输出的瞬态信号标志、从范数量化单元104输出的经量化的频谱包络线、从点阵矢量编码单元108输出的点阵码矢量、以及从噪声电平调整单元109输出的噪声电平调整索引进行复用,形成比特流,并将比特流发送到语音声响解码装置。
图6是表示本发明的一实施方式的语音声响解码装置200的结构的方框图。从语音声响编码装置100发送的比特流在语音声响解码装置200中被接收,并由解复用器201进行解复用。
范数逆量化单元202将从多路复用器输出的经量化的频谱包络线(即范数)进行逆量化,求包含所有频带的范数的频谱包络线,并将求得的频谱包络线输出到范数调整单元203。
范数调整单元203基于自适应频谱加权来调整从范数逆量化单元202输出的频谱包络线,并将调整后的频谱包络线输出到比特分配单元204。
比特分配单元204使用从范数调整单元203输出的频谱包络线,对帧内的每个频带分配可使用的比特。即,比特分配单元204重新计算为了对经标准化的频谱系数的点阵矢量码进行解码所需的比特分配。分配的比特被输出到点阵解码单元205。
点阵解码单元205基于从解复用器201输出的瞬态信号标志所表示的帧结构、以及从比特分配单元204输出的比特,对从解复用器201输出的点阵码矢量进行解码,获取频谱系数。频谱系数被输出到频谱填补生成器206及加法器207。
频谱填补生成器206使用基于从点阵解码单元205输出的频谱系数所制作的码本,重新生成未被分配比特的低频率的频谱系数。另外,频谱填补生成器206使用从解复用器201输出的噪声电平调整索引,调整重新生成的频谱系数的电平。而且,频谱填补生成器206使用低频率的经编码的频谱系数,重新生成高频率的未经编码的频谱系数。电平经调整的低频率的频谱系数及重新生成的高频率的频谱系数被输出到加法器207。
加法器207将从点阵解码单元205输出的频谱系数、以及从频谱填补生成器206输出的频谱系数合并,生成标准化的频谱系数,并将标准化的频谱系数输出到包络线形成单元208。
包络线形成单元208将从范数逆量化单元202输出的频谱包络线适用于由加法器207生成的标准化频谱系数,生成全频带频谱系数(相当于解码频谱)。生成的全频带频谱系数被输出到逆转换单元209。
逆转换单元209将逆修正离散余弦转换(IMDCT:Inverse Modified DiscreteCosine Transform)等逆转换适用于从包络线形成单元208输出的全频带频谱系数,转换为时域信号并将输出信号输出。这里,在正常帧的情况下适用高频率分辨率的逆转换,在瞬态帧的情况下适用低频率分辨率的逆转换。
接下来,使用图7来说明上述比特分配单元107的细节。此外,由于语音声响编码装置100的比特分配单元107与语音声响解码装置200的比特分配单元204为相同的结构,因此,在这里仅说明比特分配单元107,而省略比特分配单元204的说明。
图7是表示图5所示的比特分配单元107的内部结构的方框图。优势频带识别单元301基于从范数调整单元106输出的量化频谱包络线,识别频谱中的范数系数值具有极大值的子带即优势频带,并将识别出的各优势频带分别输出到优势群组确定单元302-1~302N。作为优势频带的确定方法,除了设为范数系数值具有极大值的频带以外,例如可考虑将所有子带中范数系数值具有最大值的频带设为优势频带,或者将具有超过预定的阈值或超过根据所有子带的范数计算的阈值的范数系数值的频带设为优势频带。
优势群组确定单元302-1~302N以从优势频带识别单元301输出的优势频带为中心,根据输入信号特性来自适应地确定群组宽度。具体而言,群组宽度是以优势频带为中心的两侧的直到范数系数值的下降梯度截止的宽度作为群组宽度。优势群组确定单元302-1~302N将群组宽度中所含的频带确定为优势群组,并将确定的优势群组输出到非优势群组确定单元303。此外,在优势频带位于边缘(可使用频率的端部)时,仅有下降梯度的其中一侧包含在群组中。
非优势群组确定单元303将从优势群组确定单元302-1~302N输出的优势群组以外的连续的子带确定为无优势频带的非优势群组。非优势群组确定单元303将优势群组及非优势群组输出到群组能量计算单元304及范数方差计算单元306。
群组能量计算单元304对于从非优势群组确定单元303输出的优势群组及非优势群组,计算每个群组的能量,并将计算出的能量输出到总能量计算单元305及群组比特分配单元308。每个群组的能量,根据下述式(1)计算。
其中,k表示群组的索引,Energy(G(k))表示群组k的能量,i表示群组2的子带索引,M表示群组k的子带的总数,Norm(i)表示群组n的子带i的范数系数值。
总能量计算单元305将从群组能量计算单元304输出的每个群组的能量全部相加,计算所有群组的总能量。计算出的总能量被输出到群组比特分配单元308。总能量根据下述式(2)计算。
其中,Energytotal表示所有群组的总能量,N表示频谱中的群组的总数,k表示群组的索引,Energy(G(k))表示群组k的能量。
范数方差计算单元306对从非优势群组确定单元303输出的优势群组及非优势群组,计算每个群组的范数方差,并将计算出的范数方差输出到总范数方差计算单元307及群组比特分配单元308。每个群组的范数方差根据下述式(3)计算。
Normvar(G(k))=Normmax(G(k))-Normmin(G(k))...(3)
其中,k表示群组的索引,Normvar(G(k))表示群组k的范数方差,Normmax(G(k))表示群组k的最大范数系数值,Normmin(G(k))表示群组k的最小范数系数值。
总范数方差计算单元307对从范数方差计算单元306输出的每个群组的范数方差,计算所有群组的总范数方差。计算出的总范数方差被输出到群组比特分配单元308。总范数方差根据下述式(4)计算。
其中,Normvartotal表示所有群组的总范数方差,N表示频谱中的群组的总数,k表示群组的索引,Normvar(G(k))表示群组k的范数方差。
群组比特分配单元308(相当于第一比特分配单元)基于从群组能量计算单元304输出的每个群组的能量、从总能量计算单元305输出的所有群组的总能量、从范数方差计算单元306输出的每个群组的范数方差、以及从总范数方差计算单元307输出的所有群组的总范数方差,对每个群组进行比特分配,将对每个群组分配的比特输出到子带比特分配单元309。对每个群组所分配的比特根据下述式(5)计算。
其中,k表示群组的索引,Bits(G(k))表示分配给群组k的比特数,Bitstotal表示可使用的所有比特数,scale1表示根据能量分配的比特的比例,Energy(G(k))表示群组k的能量,Energytotal表示所有群组的总能量,Normvar(G(k))表示群组k的范数方差。
另外,在上述式(5)中,scale1取[0,1]的范围的值,调整根据能量或范数方差分配的比特的比例。scale1的值越大,根据能量所分配的比特越多,在极端情况下,若其值为1,则所有比特都将根据能量来分配。scale1的值越小,根据范数方差分配的比特越多,在极端情况下,若其值为0,则所有比特都将根据范数方差来分配。
群组比特分配单元308通过如上述那样对每个群组进行比特分配,由此,能够对优势群组分配更多的比特,对非优势群组分配更少的比特。
这样,在群组比特分配单元308中,根据能量及范数方差来确定群组的知觉的重要度,从而能够更加强调优势群组。另外,范数方差与屏蔽理论一致,通过使用该范数方差,能够更正确地确定感觉的重要度。
子带比特分配单元309(相当于第二比特分配单元)基于从群组比特分配单元308输出的每个群组的比特,对各群组内的子带分配比特,并将对每个群组的子带分配的比特作为比特分配结果输出到点阵矢量编码单元108。这里,对感觉更为重要的子带,分配更多的比特,对感觉不太重要的子带,分配更少的比特。对群组内的各子带分配的比特根据下述式(6)计算。
其中,BitsG(k)sb(i)表示对群组k的子带i分配的比特,i表示群组k的子带索引,Bits(G(k))表示对群组k分配的比特,Energy(G(k))表示群组k的能量,Norm(i)表示群组k的子带i的范数系数值。
接下来,使用图8说明分组的方法。假设将图8(a)所示的量化频谱包络线输入到峰值频带识别单元301。峰值频带识别单元301基于输入的量化频谱包络线,识别优势频带(dominant frequency bands)9、20(参照图8(b))。
在优势群组生成单元302-1~302-N中,将以优势频带9、20为中心的两侧的直到范数系数值的下降梯度截止的部分确定为同一优势群组。在图8的例子中,对优势频带9,将子带6~12确定为优势群组(群组2),对优势频带20,将子带17~22确定为优势群组(群组4)(参照图8(c))。
在非优势群组确定单元303中,将优势群组以外的连续的频带确定为无优势频带的非优势群组。图8的例子中,将子带1~5(群组1)、子带13~16(群组3)、子带23~25(群组5)分别确定为非优势群组(参照图8(c))。
其结果,量化频谱包络线被分组成5个群组,即2个优势群组(群组2、4)和3个非优势群组(群组1、3、5)。
通过这样的分组方法,能够根据输入信号特性来自适当地确定群组宽度。另外,本方法中,使用在语音声响解码装置中也能够使用的量化的范数系数,因此无须将追加信息发送到语音声响解码装置。
此外,在范数方差计算单元306中,计算每个群组的范数方差。将图8的例子中的群组2中的范数方差Energyvar(G(2))示于图9,以供参考。
接下来说明感觉的重要度。一般而言,在语音声响信号的频谱中存在多个峰值(峰)及谷值(谷)。峰值包含语音声响信号的位于优势频率的频谱成分(优势音成分)。峰值对于感觉非常重要。峰值对感觉的重要度能够根据峰值的能量和谷值的能量之差、即范数方差来判断。理论上,在峰值与相邻的频带相比具有足够大的能量的情况下,该峰值应以充足的比特数而被编码,若以不充足的比特数编码,则混入的编码噪声突出,导致音质下降。另一方面,谷值不由语音声响信号的优势音成分构成,感觉上并不重要。
在本实施方式中的频带的分组方法中,优势频带对应于频谱的峰值,对频带进行分组是将峰值(具有优势频带的优势群组)和谷值(无优势频带的非优势群组)分离。
在群组比特分配单元308中,确定峰值对感觉的重要度。在G.719这一技术中,仅根据能量来确定感觉的重要度,与此相对,本实施方式中,根据能量及范数(能量)方差这两者来确定感觉的重要度,基于确定的感觉的重要度来确定要对各群组分配的比特。
另外,在子带比特分配单元309中,在群组内的范数方差较大的情况下,意味着该群组是峰值之一,峰值对于感觉更为重要,具有最大值的范数系数应正确被编码。因此,对该峰值的子带分配更多的比特。另一方面,在群组内的范数方差非常小的情况下,意味着该群组是谷值之一,谷值对于感觉并不重要,并不一定需要正确地被编码。因此,对该群组的各子带分配较少比特。
这样,根据本实施方式,识别输入语音声响信号的频谱中的范数系数值具有极大值的优势频带,将所有子带分组为包含优势频带的优势群组和不含优势频带的非优势群组,基于每个群组的能量及范数方差,对各群组分配比特,并将对每个子带分配分配的比特,根据群组的范数与能量的比例进一步分配给各子带。由此,能够对感觉上重要的群组及子带分配较多比特,从而能够进行高效的比特分配。其结果是能够实现音质提高。
此外,本实施方式中的范数系数表示子带能量,也称作能量包络线。
2012年12月13日提出的日本专利申请第2012-272571号所包含的说明书、附图及说明书摘要的公开内容全部被引用于本申请。
工业实用性
本发明的语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法,能够适用于无线通信终端装置、无线通信基站装置、电话会议终端装置、视频会议终端装置及互联网语音协议(VoIP)终端装置等。
标号说明
101 瞬态检测器
102 转换单元
103 范数估计单元
104 范数量化单元
105 频谱标准化单元
106、203 范数调整单元
107、204 比特分配单元
108 点阵矢量编码单元
109 噪声电平调整单元
110 多路复用器
201 解复用器
202 范数逆量化单元
205 点阵解码单元
206 频谱填补生成器
207 加法器
208 包络线形成单元
209 逆转换单元
301 优势频带识别单元
302-1~302-N 优势群组确定单元
303 非优势群组确定单元
304 群组能量计算单元
305 总能量计算单元
306 范数方差计算单元
307 总范数方差计算单元
308 群组比特分配单元
309 子带比特分配单元

Claims (20)

1.语音声响编码装置,包括:
转换单元,将语音声响信号从时域转换到频域;
估计单元,对于将所述语音声响信号的频谱分割所得的多个子带,分别估计表示能级的能量包络线;
量化单元,将所述能量包络线进行量化;
群组确定单元,将量化的所述能量包络线分组为多个群组;
第一比特分配单元,对所述多个群组分配比特;
第二比特分配单元,将对所述多个群组分配的比特按每个群组分配给子带;以及
编码单元,使用对所述子带分配的比特,编码所述频谱,
所述多个群组的每一个由多个子带构成,
所述群组确定单元在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
2.如权利要求1所述的语音声响编码装置,还包括:
能量计算单元,计算每个群组的能量;以及
方差计算单元,计算每个群组的能量包络线方差,
所述第一比特分配单元基于计算出的每个所述群组的能量及每个所述群组的能量包络线方差,能量及能量包络线方差中的至少一者越大,将越多的比特分配给群组,能量及能量包络线方差中的至少一者越小,将越少的比特分配给群组。
3.如权利要求1所述的语音声响编码装置,
所述子带的能量包络线越大,所述第二比特分配单元对该子带分配越多的比特,所述子带的能量包络线越小,所述第二比特分配单元对该子带分配越少的比特。
4.如权利要求1所述的语音声响编码装置,
所述优势群组的群组宽度是以优势频带为中心的两侧的直到范数系数值的下降梯度截止的宽度。
5.如权利要求1所述的语音声响编码装置,
当所述优势频带为最高频率的频带或最低频率的频带时,只有形成所述优势频带的单侧的能量包络线的下降梯度的频带包含于优势群组。
6.语音声响解码装置,包括:
逆量化单元,将量化的频谱包络线进行逆量化;
群组确定单元,将逆量化的所述频谱包络线分组为多个群组;
第一比特分配单元,对所述多个群组分配比特;
第二比特分配单元,将对所述多个群组分配的比特按每个群组分配给子带;
解码单元,使用对所述子带分配的比特,解码语音声响信号的频谱;
包络线形成单元,对解码的所述频谱适用进行了逆量化的所述频谱包络线,再现解码频谱;以及
逆转换单元,将所述解码频谱从频域逆转换到时域,
所述多个群组的每一个由多个子带构成,
所述群组确定单元在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
7.如权利要求6所述的语音声响解码装置,还包括:
能量计算单元,计算每个群组的能量;以及
方差计算单元,计算每个群组的能量包络线方差,
所述第一比特分配单元基于计算出的每个所述群组的能量及每个所述群组的能量包络线方差,能量及能量包络线方差中的至少一者越大,将越多的比特分配给群组,能量及能量包络线方差中的至少一者越小,将越少的比特分配给群组。
8.如权利要求6所述的语音声响解码装置,
所述子带的能量包络线越大,所述第二比特分配单元对该子带分配越多的比特,所述子带的能量包络线越小,所述第二比特分配单元对该子带分配越少的比特。
9.如权利要求6所述的语音声响解码装置,
所述优势群组的群组宽度是以优势频带为中心的两侧的直到范数系数值的下降梯度截止的宽度。
10.如权利要求6所述的语音声响解码装置,
当所述优势频带为最高频率的频带或最低频率的频带时,只有形成所述优势频带的单侧的能量包络线的下降梯度的频带包含于优势群组。
11.语音声响编码方法,包括以下步骤:
将语音声响信号从时域转换到频域;
对于将所述语音声响信号的频谱分割所得的多个子带,分别估计表示能级的能量包络线;
量化所述能量包络线;
将量化的所述能量包络线分组成多个群组;
进行对所述多个群组分配比特的第一比特分配;
进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配;以及
使用对所述子带分配的比特,编码所述频谱,
所述多个群组的每一个由多个子带构成,
在所述分组的步骤中,在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
12.如权利要求11所述的语音声响编码方法,还包括以下步骤:
计算每个群组的能量;以及
计算每个群组的能量包络线方差,
在所述第一比特分配中,基于计算出的每个所述群组的能量及每个所述群组的能量包络线方差,能量及能量包络线方差中的至少一者越大,将越多的比特分配给群组,能量及能量包络线方差中的至少一者越小,将越少的比特分配给群组。
13.如权利要求11所述的语音声响编码方法,
在所述第二比特分配中,所述子带的能量包络线越大,对该子带分配越多的比特,所述子带的能量包络线越小,对该子带分配越少的比特。
14.如权利要求11所述的语音声响编码方法,
所述优势群组的群组宽度是以优势频带为中心的两侧的直到范数系数值的下降梯度截止的宽度。
15.如权利要求11所述的语音声响编码方法,
当所述优势频带为最高频率的频带或最低频率的频带时,只有形成所述优势频带的单侧的能量包络线的下降梯度的频带包含于优势群组。
16.语音声响解码方法,包括以下步骤:
将量化的频谱包络线逆量化;
将逆量化的所述频谱包络线分组成多个群组;
进行对所述多个群组分配比特的第一比特分配;
进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配;
使用对所述子带分配的比特,解码语音声响信号的频谱;
对解码的所述频谱适用进行了逆量化的所述频谱包络线,再现解码频谱;以及
将所述解码频谱从频域逆转换到时域,
所述多个群组的每一个由多个子带构成,
在所述分组的步骤中,在确定所述多个群组时,将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组,将所述优势群组以外的连续的子带确定为非优势群组。
17.如权利要求16所述的语音声响解码方法,还包括以下步骤:
计算每个群组的能量;以及
计算每个群组的能量包络线方差,
在所述第一比特分配中,基于计算出的每个所述群组的能量及每个所述群组的能量包络线方差,能量及能量包络线方差中的至少一者越大,将越多的比特分配给群组,能量及能量包络线方差中的至少一者越小,将越少的比特分配给群组。
18.如权利要求16所述的语音声响解码方法,
在所述第二比特分配中,所述子带的能量包络线越大,对该子带分配越多的比特,所述子带的能量包络线越小,对该子带分配越少的比特。
19.如权利要求16所述的语音声响解码方法,
所述优势群组的群组宽度是以优势频带为中心的两侧的直到范数系数值的下降梯度截止的宽度。
20.如权利要求16所述的语音声响解码方法,
当所述优势频带为最高频率的频带或最低频率的频带时,只有形成所述优势频带的单侧的能量包络线的下降梯度的频带包含于优势群组。
CN201710759624.5A 2012-12-13 2013-11-26 语音声响编码装置和解码装置、语音声响编码和解码方法 Active CN107516531B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012272571 2012-12-13
JP2012-272571 2012-12-13
CN201380063794.XA CN104838443B (zh) 2012-12-13 2013-11-26 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380063794.XA Division CN104838443B (zh) 2012-12-13 2013-11-26 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法

Publications (2)

Publication Number Publication Date
CN107516531A true CN107516531A (zh) 2017-12-26
CN107516531B CN107516531B (zh) 2020-10-13

Family

ID=50934002

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201380063794.XA Active CN104838443B (zh) 2012-12-13 2013-11-26 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法
CN201710759624.5A Active CN107516531B (zh) 2012-12-13 2013-11-26 语音声响编码装置和解码装置、语音声响编码和解码方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201380063794.XA Active CN104838443B (zh) 2012-12-13 2013-11-26 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法

Country Status (13)

Country Link
US (3) US9767815B2 (zh)
EP (3) EP3232437B1 (zh)
JP (3) JP6535466B2 (zh)
KR (1) KR102200643B1 (zh)
CN (2) CN104838443B (zh)
BR (1) BR112015013233B8 (zh)
ES (2) ES2706148T3 (zh)
HK (1) HK1249651A1 (zh)
MX (1) MX341885B (zh)
PL (3) PL3457400T3 (zh)
PT (2) PT3232437T (zh)
RU (1) RU2643452C2 (zh)
WO (1) WO2014091694A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037802A (zh) * 2020-05-08 2020-12-04 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3457400T3 (pl) * 2012-12-13 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio
CN105684315B (zh) * 2013-11-07 2020-03-24 瑞典爱立信有限公司 用于编码的矢量分段的方法和设备
KR102023138B1 (ko) 2013-12-02 2019-09-19 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
JP6318904B2 (ja) * 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
SG11201701197TA (en) 2014-07-25 2017-03-30 Panasonic Ip Corp America Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치
US10559315B2 (en) 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
CN109286922B (zh) * 2018-09-27 2021-09-17 珠海市杰理科技股份有限公司 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6358500A (ja) * 1986-08-25 1988-03-14 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 副帯域音声コ−ダ用ビツト割振り方法
CN1195160A (zh) * 1997-04-02 1998-10-07 三星电子株式会社 可变规模语音编码/解码的方法和装置
CN1196611A (zh) * 1997-04-02 1998-10-21 三星电子株式会社 可变规模语音编码/解码的方法和装置
CN101548316A (zh) * 2006-12-13 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法
US20120029923A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3189660B2 (ja) * 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
US6246945B1 (en) * 1996-08-10 2001-06-12 Daimlerchrysler Ag Process and system for controlling the longitudinal dynamics of a motor vehicle
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
JP3466507B2 (ja) * 1998-06-15 2003-11-10 松下電器産業株式会社 音声符号化方式、音声符号化装置、及びデータ記録媒体
KR100548891B1 (ko) * 1998-06-15 2006-02-02 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
CA2368453C (en) * 1999-04-16 2009-12-08 Grant Allen Davidson Using gain-adaptive quantization and non-uniform symbol lengths for audio coding
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP4548348B2 (ja) 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
JP4973397B2 (ja) * 2007-09-04 2012-07-11 日本電気株式会社 符号化装置および符号化方法、ならびに復号化装置および復号化方法
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
US8386266B2 (en) 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
JP5511848B2 (ja) 2009-12-28 2014-06-04 パナソニック株式会社 音声符号化装置および音声符号化方法
US20130030796A1 (en) 2010-01-14 2013-01-31 Panasonic Corporation Audio encoding apparatus and audio encoding method
US20130173275A1 (en) 2010-10-18 2013-07-04 Panasonic Corporation Audio encoding device and audio decoding device
EP2502155A4 (en) * 2010-11-12 2013-12-04 Polycom Inc HIERARCHICAL AUDIO CODING IN A MULTIPOINT ENVIRONMENT
CN105225669B (zh) * 2011-03-04 2018-12-21 瑞典爱立信有限公司 音频编码中的后量化增益校正
US9881625B2 (en) * 2011-04-20 2018-01-30 Panasonic Intellectual Property Corporation Of America Device and method for execution of huffman coding
RU2648595C2 (ru) 2011-05-13 2018-03-26 Самсунг Электроникс Ко., Лтд. Распределение битов, кодирование и декодирование аудио
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
WO2013061531A1 (ja) * 2011-10-28 2013-05-02 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
WO2013118476A1 (ja) 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
PL3457400T3 (pl) * 2012-12-13 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio
KR102023138B1 (ko) * 2013-12-02 2019-09-19 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
JP6358500B2 (ja) 2014-06-06 2018-07-18 株式会社リコー クリーニングブレード、画像形成装置、及びプロセスカートリッジ

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6358500A (ja) * 1986-08-25 1988-03-14 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 副帯域音声コ−ダ用ビツト割振り方法
CN1195160A (zh) * 1997-04-02 1998-10-07 三星电子株式会社 可变规模语音编码/解码的方法和装置
CN1196611A (zh) * 1997-04-02 1998-10-21 三星电子株式会社 可变规模语音编码/解码的方法和装置
CN101548316A (zh) * 2006-12-13 2009-09-30 松下电器产业株式会社 编码装置、解码装置以及其方法
US20120029923A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037802A (zh) * 2020-05-08 2020-12-04 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质
CN112037802B (zh) * 2020-05-08 2022-04-01 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质

Also Published As

Publication number Publication date
EP3457400A1 (en) 2019-03-20
JP6535466B2 (ja) 2019-06-26
BR112015013233A2 (pt) 2017-07-11
EP2933799A4 (en) 2016-01-13
JP7010885B2 (ja) 2022-01-26
US9767815B2 (en) 2017-09-19
PL2933799T3 (pl) 2017-12-29
BR112015013233B1 (pt) 2021-02-23
CN107516531B (zh) 2020-10-13
CN104838443A (zh) 2015-08-12
EP3232437B1 (en) 2018-11-21
EP3457400B1 (en) 2023-08-16
US20170345431A1 (en) 2017-11-30
MX2015006161A (es) 2015-08-07
US10685660B2 (en) 2020-06-16
MX341885B (es) 2016-09-07
WO2014091694A1 (ja) 2014-06-19
BR112015013233B8 (pt) 2021-03-16
KR20150095702A (ko) 2015-08-21
ES2643746T3 (es) 2017-11-24
JP2019191594A (ja) 2019-10-31
KR102200643B1 (ko) 2021-01-08
JP2022050609A (ja) 2022-03-30
ES2706148T3 (es) 2019-03-27
CN104838443B (zh) 2017-09-22
US20190027155A1 (en) 2019-01-24
EP2933799A1 (en) 2015-10-21
RU2643452C2 (ru) 2018-02-01
PT2933799T (pt) 2017-09-05
US10102865B2 (en) 2018-10-16
EP2933799B1 (en) 2017-07-12
PL3232437T3 (pl) 2019-05-31
EP3232437A1 (en) 2017-10-18
PL3457400T3 (pl) 2024-02-19
HK1249651A1 (zh) 2018-11-02
JPWO2014091694A1 (ja) 2017-01-05
EP3457400C0 (en) 2023-08-16
PT3232437T (pt) 2019-01-11
US20150317991A1 (en) 2015-11-05
RU2015121716A (ru) 2017-01-16

Similar Documents

Publication Publication Date Title
CN104838443B (zh) 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法
US10297270B2 (en) Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
JP5485909B2 (ja) オーディオ信号処理方法及び装置
CN107945811B (zh) 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法
CN104485111B (zh) 音频/语音编码装置、音频/语音解码装置及其方法
US9583112B2 (en) Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
CN101939782A (zh) 噪声填充与带宽扩展之间的自适应过渡频率
WO2006003891A1 (ja) 音声信号復号化装置及び音声信号符号化装置
CN101836252A (zh) 用于在音频代码化系统中生成增强层的方法和装置
EP3457402B1 (en) Noise-adaptive voice signal processing method and terminal device employing said method
JP2011013560A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP4736812B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
TWI785753B (zh) 多聲道信號產生器、多聲道信號產生方法及電腦程式
US20070198256A1 (en) Method for middle/side stereo encoding and audio encoder using the same
WO2009129822A1 (en) Efficient encoding and decoding for multi-channel signals
Strahl et al. An adaptive tree-based progressive audio compression scheme
Singh et al. Design of Medium to Low Bitrate Neural Audio Codec
Nithin et al. Low complexity Bit allocation algorithms for MP3/AAC encoding
JPH07170193A (ja) マルチチャネル・オーディオ符号化方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180502

Address after: Munich, Germany

Applicant after: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.

Address before: California, USA

Applicant before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1249651

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant