CN107516531A

CN107516531A - 语音声响编码装置和解码装置、语音声响编码和解码方法

Info

Publication number: CN107516531A
Application number: CN201710759624.5A
Authority: CN
Inventors: 刘宗宪; S.纳吉塞蒂; 押切正浩
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-12-13
Filing date: 2013-11-26
Publication date: 2017-12-26
Anticipated expiration: 2033-11-26
Also published as: EP3457400A1; JP6535466B2; BR112015013233A2; EP2933799A4; JP7010885B2; US9767815B2; PL2933799T3; BR112015013233B1; CN107516531B; CN104838443A; EP3232437B1; EP3457400B1; US20170345431A1; MX2015006161A; US10685660B2; MX341885B; WO2014091694A1; BR112015013233B8; KR20150095702A; ES2643746T3

Abstract

本发明的语音声响编码装置包括：转换单元，将语音声响信号从时域转换到频域；估计单元，对于将语音声响信号的频谱分割所得的多个子带，分别估计表示能级的能量包络线；量化单元，将能量包络线进行量化；群组确定单元，将量化的能量包络线分组为多个群组；第一比特分配单元，对多个群组分配比特；第二比特分配单元，将对多个群组分配的比特按每个群组分配给子带；以及编码单元，使用对子带分配的比特，编码频谱。多个群组的每一个由多个子带构成，群组确定单元在确定多个群组时，将能量包络线具有极大值的子带即优势频带、以及与优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将优势群组以外的连续的子带确定为非优势群组。

Description

语音声响编码装置和解码装置、语音声响编码和解码方法

本申请是国际申请日为2013年11月26日、申请号为201380063794.X、发明名称为“语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法”的发明专利申请的分案申请。

技术领域

本发明涉及使用转换编码方式的语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法。

背景技术

作为能够高效地编码0.02-20kHz频带的全频带(FB：Full band)语音信号或音乐信号的方式，有以ITU-T(International Telecommunication Union TelecommunicationStandardization Sector：国际电信联盟-电信标准化部门)标准化的技术。该技术中，将输入信号转换到频域，编码最大20kHz的频带(转换编码)。

这里，转换编码是指如下所述的编码方式，即使用离散余弦转换(DCT：DiscreteCosine Transform)或修正离散余弦转换(MDCT：Modified Discrete Cosine Transform)等时间频率转换，将输入信号从时域转换到频域，从而能够使信号正确地应对和匹配听觉特性。

在转换编码时，频谱系数被分割为多个频率子带。在各子带的编码时，将更多的量化比特分配到对人耳的知觉重要的频带，从而能够整体上提高音质。

为了实现此目的，正在研究高效的比特分配方法，例如已知有非专利文献1公开的技术。以下，使用图1和图2来说明专利文献1公开的比特分配方法。

图1是表示专利文献1公开的语音声响编码装置的结构的方框图。以48kHz采样的输入信号被输入到语音声响编码装置的瞬态检测器11及转换单元12。

瞬态检测器11从输入信号中检测与语音的开始端部或结束端部对应的瞬态帧、或与除此以外的语音区间对应的正常帧中的任一者，转换单元12根据由瞬态检测器11检测出的帧是瞬态帧还是正常帧，将高频率分辨率转换或低频率分辨率转换适用于输入信号的帧，获取频谱系数(或转换系数)。

范数估计单元13将由转换单元12获得的频谱系数分割为带宽不同的频带。另外，范数估计单元13估计分割的各频带的范数(或能量)。

范数量化单元14基于由范数估计单元13估计出的各频带的范数，求包含所有频带的范数的频谱包络线，并将求得的频谱包络线进行量化。

频谱标准化单元15根据由范数量化单元14量化的范数，将由转换单元12获得的频谱系数进行标准化。

范数调整单元16基于自适应频谱加权来调整由范数量化单元14量化的范数。

比特分配单元17使用经范数调整单元16调整的量化范数，对帧内的每个频带分配可使用的比特。

点阵矢量编码单元18将经频谱标准化单元15标准化的频谱系数，以由比特分配单元17对每个频带分配的比特进行点阵矢量编码。

噪声电平调整单元19估计点阵矢量编码单元18中的编码前的频谱系数的电平，对估计出的电平进行编码。由此求噪声电平调整索引。

多路复用器20对转换单元12所获取的输入信号的帧结构、即表示是正常帧还是瞬态帧的瞬态信号标志、经范数量化单元14量化的范数、由点阵矢量编码单元18获得的点阵码矢量、及由噪声电平调整单元19获得的噪声电平调整索引进行复用而形成比特流，并将比特流发送到语音声响解码装置。

图2是表示专利文献1公开的语音声响解码装置的结构的方框图。从语音声响编码装置发送的比特流在语音声响解码装置中被接收，并由解复用器21进行解复用。

范数逆量化单元22将量化后的范数进行逆量化，求包含所有频带的范数的频谱包络线，范数调整单元23基于自适应频谱加权来调整经范数逆量化单元22逆量化后的范数。

比特分配单元24使用经范数调整单元23调整的范数，对帧内的每个频带分配可使用的比特。即，比特分配单元24重新计算为了对经标准化的频谱系数的点阵矢量码进行解码所需的比特分配。

点阵解码单元25将瞬态信号标志解码，基于解码所得的瞬态信号标志所表示的帧结构、及由比特分配单元24分配的比特来解码点阵码矢量，获取频谱系数。

频谱填补(spectral fill)生成器26使用基于经点阵解码单元25解码的频谱系数所制作的码本，重新生成未被分配比特的低频率的频谱系数。另外，频谱填补生成器26使用噪声电平调整索引，调整重新生成的频谱系数的电平。而且，频谱填补生成器26使用低频率的经编码的频谱系数，重新生成高频率的未经编码的频谱系数。

加法器27将解码所得的频谱系数及重新生成的频谱系数合并，生成标准化的频谱系数。

包络线形成单元28对由加法器27生成的标准化频谱系数，适用经范数逆量化单元22逆量化的频谱包络线，从而生成全频带频谱系数。

逆转换单元29对由包络线形成单元28生成的全频带频谱系数，适用逆修正离散余弦转换(IMDCT：Inverse Modified Discrete Cosine Transform)等逆转换，以转换为时域信号。这里，在正常帧的情况下适用高频率分辨率的逆转换，在瞬态帧的情况下适用低频率分辨率的逆转换。

在G.719中，频谱系数被分割为频谱群组。如图3所示，各频谱群组被分割为等长度的子矢量的频带。子矢量在群组间具有不同的长度，该长度随着频率的增加而增加。对于转换的分辨率，在低频率时，使用更高的频率分辨率，在高频率时，使用更低的频率分辨率。如在G.719中所述的那样，通过分组，能够高效地使用可在编码中使用的比特预算。

另外，在G.719中，比特分配方法在编码装置及解码装置中相同。这里，使用图4来说明比特分配方法。

如图4所示，在步骤(以下省略为“ST”)31中，为了调整心理声响加权及屏蔽(masking)效果，在比特分配前调整量化的范数。

在ST32中，识别所有子带中具有最大范数的子带，在ST33中，在具有最大范数的子带中，对各频谱系数分配1比特。即，仅分配相当于频谱系数的数的比特。

在ST34中，根据分配的比特，使范数减少，在ST35中，判定剩余的可分配比特数是否为8比特以上。在剩余的可分配比特数为8比特以上时，返回ST32，在剩余的可分配比特数小于8比特时，结束比特分配流程。

这样，比特分配方法使用经调整的量化范数，在子带间分配帧内的可使用比特。并且，以分配给各子带的比特，通过点阵矢量编码来编码标准化的频谱系数。

现有技术文献

专利文献

非专利文献1：ITU-T Recommendation G.719，“Low-complexity full-bandaudio coding for high-quality conversation applications，”ITU-T，2009.

发明内容

发明要解决的问题

但是，上述比特分配方法存在如下问题，即在对频谱带进行分组时，由于未考虑输入信号特性，因此无法进行高效的比特分配，从而无法期望进一步的高音质化。

本发明的目的在于，提供进行高效的比特分配，实现音质提高的语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法。

解决问题的方案

本发明的语音声响编码装置采用下述结构，即该语音声响编码装置包括：转换单元，将语音声响信号从时域转换到频域；估计单元，对于将所述语音声响信号的频谱分割所得的多个子带，分别估计表示能级的能量包络线；量化单元，将所述能量包络线进行量化；群组确定单元，将量化的所述能量包络线分组为多个群组；第一比特分配单元，对所述多个群组分配比特；第二比特分配单元，将对所述多个群组分配的比特按每个群组分配给子带；以及编码单元，使用对所述子带分配的比特，编码所述频谱，所述多个群组的每一个由多个子带构成，所述群组确定单元在确定所述多个群组时，将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

本发明的语音声响解码装置采用下述结构，即该语音声响解码装置包括：逆量化单元，将量化的频谱包络线进行逆量化；群组确定单元，将逆量化的所述频谱包络线分组为多个群组；第一比特分配单元，对所述多个群组分配比特；第二比特分配单元，将对所述多个群组分配的比特按每个群组分配给子带；解码单元，使用对所述子带分配的比特，解码语音声响信号的频谱；包络线形成单元，对解码的所述频谱适用进行了逆量化的所述频谱包络线，再现解码频谱；以及逆转换单元，将所述解码频谱从频域逆转换到时域，所述多个群组的每一个由多个子带构成，所述群组确定单元在确定所述多个群组时，将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

本发明的语音声响编码方法包括以下步骤：将语音声响信号从时域转换到频域；对于将所述语音声响信号的频谱分割所得的多个子带，分别估计表示能级的能量包络线；量化所述能量包络线；将量化的所述能量包络线分组成多个群组；进行对所述多个群组分配比特的第一比特分配；进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配；以及使用对所述子带分配的比特，编码所述频谱，所述多个群组的每一个由多个子带构成，在所述分组的步骤中，在确定所述多个群组时，将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

本发明的语音声响解码方法包括以下步骤：将量化的频谱包络线逆量化；将逆量化的所述频谱包络线分组成多个群组；进行对所述多个群组分配比特的第一比特分配；进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配；使用对所述子带分配的比特，解码语音声响信号的频谱；对解码的所述频谱适用进行了逆量化的所述频谱包络线，再现解码频谱；以及将所述解码频谱从频域逆转换到时域，所述多个群组的每一个由多个子带构成，在所述分组的步骤中，在确定所述多个群组时，将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

本发明的语音声响编码装置采用下述结构，即该语音声响编码装置包括：转换单元，将输入信号从时域转换到频域；估计单元，对于将所述输入信号的频谱分割所得的多个子带，分别估计表示能级的能量包络线；量化单元，将所述能量包络线进行量化；群组确定单元，将量化的所述能量包络线分组为多个群组；第一比特分配单元，对所述多个群组分配比特；第二比特分配单元，将对所述多个群组分配的比特按每个群组分配给子带；以及编码单元，使用对所述子带分配的比特，编码所述频谱，所述多个群组的每一个由多个子带构成，所述群组确定单元将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

本发明的语音声响解码装置采用下述结构，即该语音声响解码装置包括：逆量化单元，将量化的频谱包络线进行逆量化；群组确定单元，将逆量化的所述频谱包络线分组为多个群组；第一比特分配单元，对所述多个群组分配比特；第二比特分配单元，将对所述多个群组分配的比特按每个群组分配给子带；解码单元，使用对所述子带分配的比特，解码语音声响信号的频谱；包络线形成单元，对解码的所述频谱适用进行了逆量化的所述频谱包络线，再现解码频谱；以及逆转换单元，将所述解码频谱从频域逆转换到时域，所述多个群组的每一个由多个子带构成，所述群组确定单元将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

本发明的语音声响编码方法包括以下步骤：将输入信号从时域转换到频域；对于将所述输入信号的频谱分割所得的多个子带，分别估计表示能级的能量包络线；量化所述能量包络线；将量化的所述能量包络线分组为多个群组；对所述多个群组分配比特；将对所述多个群组分配的比特按每个群组分配给子带；以及使用分配给所述子带的比特，编码所述频谱，在所述分组的步骤中，所述多个群组的每一个由多个子带构成，将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

本发明的语音声响解码方法包括以下步骤：将量化的频谱包络线逆量化；将逆量化的所述频谱包络线分组成多个群组；对所述多个群组分配比特；将对所述多个群组分配的比特按每个群组分配给子带；使用对所述子带分配的比特，解码语音声响信号的频谱；对解码的所述频谱适用进行了逆量化的所述频谱包络线，再现解码频谱；以及将所述解码频谱从频域逆转换到时域，在所述分组的步骤中，所述多个群组的每一个由多个子带构成，将所述频谱中的能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

发明效果

根据本发明，能够进行高效的比特分配而实现音质提高。

附图说明

图1是表示专利文献1公开的语音声响编码装置的结构的方框图。

图2是表示专利文献1公开的语音声响解码装置的结构的方框图。

图3是表示专利文献1公开的正常模式下的频谱系数的分组的图。

图4是表示专利文献1公开的比特分配方法的流程图。

图5是表示本发明的一实施方式的语音声响编码装置的结构的方框图。

图6是表示本发明的一实施方式的语音声响解码装置的结构的方框图。

图7是表示图5所示的比特分配单元的内部结构的方框图。

图8的(a)～(c)是用于说明本发明的一实施方式的分组方法的图。

图9是表示范数方差(Norm variance)的图。

具体实施方式

以下，参照附图来详细说明本发明的实施方式。

(一实施方式)

图5是表示本发明的一实施方式的语音声响编码装置100的结构的方框图。以48kHz采样的输入信号被输入到语音声响编码装置100的瞬态检测器101和转换单元102。

瞬态检测器101从输入信号中检测与语音的开始端部或结束端部对应的瞬态帧、或与除此以外的语音区间对应的正常帧中的任一者，并将检测结果输出给转换单元102。转换单元102根据从瞬态检测器101输出的检测结果是瞬态帧还是正常帧，将高频率分辨率转换或低频率分辨率转换适用于输入信号的帧，获取频谱系数(或转换系数)，并输出到范数估计单元103及频谱标准化单元105。另外，转换单元102将从瞬态检测器101输出的检测结果即帧结构、即表示是正常帧还是瞬态帧的瞬态信号标志输出到多路复用器110。

范数估计单元103将从转换单元102输出的频谱系数分割为带宽不同的频带，并估计分割的各频带的范数(或能量)。范数估计单元103将估计出的各频带的范数输出到范数量化单元104。

范数量化单元104基于从范数估计单元103输出的各频带的范数，求包含所有频带的范数的频谱包络线，将求得的频谱包络线进行量化，并将量化的频谱包络线输出到频谱标准化单元105及范数调整单元106。

频谱标准化单元105根据从范数量化单元104输出的量化频谱包络线，将从转换单元102输出的频谱系数进行标准化，并将标准化的频谱系数输出到点阵矢量编码单元108。

范数调整单元106基于自适应频谱加权来调整从范数量化单元104输出的量化频谱包络线，并将调整后的量化频谱包络线输出到比特分配单元107。

比特分配单元107使用从范数调整单元106输出的、经调整的量化频谱包络线，对帧内的每个频带分配可使用的比特，并将分配的比特输出到点阵矢量编码单元108。另外，比特分配单元107的细节将后述。

点阵矢量编码单元108将经频谱标准化单元105标准化的频谱系数，以由比特分配单元107对每个频带分配的比特进行点阵矢量编码，并将点阵码矢量输出到噪声电平调整单元109及多路复用器110。

噪声电平调整单元109估计点阵矢量编码单元108中的编码前的频谱系数的电平，对估计出的电平进行编码。由此，求噪声电平调整索引。噪声电平调整索引被输出到多路复用器110。

多路复用器110将从转换单元102输出的瞬态信号标志、从范数量化单元104输出的经量化的频谱包络线、从点阵矢量编码单元108输出的点阵码矢量、以及从噪声电平调整单元109输出的噪声电平调整索引进行复用，形成比特流，并将比特流发送到语音声响解码装置。

图6是表示本发明的一实施方式的语音声响解码装置200的结构的方框图。从语音声响编码装置100发送的比特流在语音声响解码装置200中被接收，并由解复用器201进行解复用。

范数逆量化单元202将从多路复用器输出的经量化的频谱包络线(即范数)进行逆量化，求包含所有频带的范数的频谱包络线，并将求得的频谱包络线输出到范数调整单元203。

范数调整单元203基于自适应频谱加权来调整从范数逆量化单元202输出的频谱包络线，并将调整后的频谱包络线输出到比特分配单元204。

比特分配单元204使用从范数调整单元203输出的频谱包络线，对帧内的每个频带分配可使用的比特。即，比特分配单元204重新计算为了对经标准化的频谱系数的点阵矢量码进行解码所需的比特分配。分配的比特被输出到点阵解码单元205。

点阵解码单元205基于从解复用器201输出的瞬态信号标志所表示的帧结构、以及从比特分配单元204输出的比特，对从解复用器201输出的点阵码矢量进行解码，获取频谱系数。频谱系数被输出到频谱填补生成器206及加法器207。

频谱填补生成器206使用基于从点阵解码单元205输出的频谱系数所制作的码本，重新生成未被分配比特的低频率的频谱系数。另外，频谱填补生成器206使用从解复用器201输出的噪声电平调整索引，调整重新生成的频谱系数的电平。而且，频谱填补生成器206使用低频率的经编码的频谱系数，重新生成高频率的未经编码的频谱系数。电平经调整的低频率的频谱系数及重新生成的高频率的频谱系数被输出到加法器207。

加法器207将从点阵解码单元205输出的频谱系数、以及从频谱填补生成器206输出的频谱系数合并，生成标准化的频谱系数，并将标准化的频谱系数输出到包络线形成单元208。

包络线形成单元208将从范数逆量化单元202输出的频谱包络线适用于由加法器207生成的标准化频谱系数，生成全频带频谱系数(相当于解码频谱)。生成的全频带频谱系数被输出到逆转换单元209。

逆转换单元209将逆修正离散余弦转换(IMDCT：Inverse Modified DiscreteCosine Transform)等逆转换适用于从包络线形成单元208输出的全频带频谱系数，转换为时域信号并将输出信号输出。这里，在正常帧的情况下适用高频率分辨率的逆转换，在瞬态帧的情况下适用低频率分辨率的逆转换。

接下来，使用图7来说明上述比特分配单元107的细节。此外，由于语音声响编码装置100的比特分配单元107与语音声响解码装置200的比特分配单元204为相同的结构，因此，在这里仅说明比特分配单元107，而省略比特分配单元204的说明。

图7是表示图5所示的比特分配单元107的内部结构的方框图。优势频带识别单元301基于从范数调整单元106输出的量化频谱包络线，识别频谱中的范数系数值具有极大值的子带即优势频带，并将识别出的各优势频带分别输出到优势群组确定单元302-1～302N。作为优势频带的确定方法，除了设为范数系数值具有极大值的频带以外，例如可考虑将所有子带中范数系数值具有最大值的频带设为优势频带，或者将具有超过预定的阈值或超过根据所有子带的范数计算的阈值的范数系数值的频带设为优势频带。

优势群组确定单元302-1～302N以从优势频带识别单元301输出的优势频带为中心，根据输入信号特性来自适应地确定群组宽度。具体而言，群组宽度是以优势频带为中心的两侧的直到范数系数值的下降梯度截止的宽度作为群组宽度。优势群组确定单元302-1～302N将群组宽度中所含的频带确定为优势群组，并将确定的优势群组输出到非优势群组确定单元303。此外，在优势频带位于边缘(可使用频率的端部)时，仅有下降梯度的其中一侧包含在群组中。

非优势群组确定单元303将从优势群组确定单元302-1～302N输出的优势群组以外的连续的子带确定为无优势频带的非优势群组。非优势群组确定单元303将优势群组及非优势群组输出到群组能量计算单元304及范数方差计算单元306。

群组能量计算单元304对于从非优势群组确定单元303输出的优势群组及非优势群组，计算每个群组的能量，并将计算出的能量输出到总能量计算单元305及群组比特分配单元308。每个群组的能量，根据下述式(1)计算。

其中，k表示群组的索引，Energy(G(k))表示群组k的能量，i表示群组2的子带索引，M表示群组k的子带的总数，Norm(i)表示群组n的子带i的范数系数值。

总能量计算单元305将从群组能量计算单元304输出的每个群组的能量全部相加，计算所有群组的总能量。计算出的总能量被输出到群组比特分配单元308。总能量根据下述式(2)计算。

其中，Energy_total表示所有群组的总能量，N表示频谱中的群组的总数，k表示群组的索引，Energy(G(k))表示群组k的能量。

范数方差计算单元306对从非优势群组确定单元303输出的优势群组及非优势群组，计算每个群组的范数方差，并将计算出的范数方差输出到总范数方差计算单元307及群组比特分配单元308。每个群组的范数方差根据下述式(3)计算。

Norm_var(G(k))＝Norm_max(G(k))-Norm_min(G(k))...(3)

其中，k表示群组的索引，Norm_var(G(k))表示群组k的范数方差，Norm_max(G(k))表示群组k的最大范数系数值，Norm_min(G(k))表示群组k的最小范数系数值。

总范数方差计算单元307对从范数方差计算单元306输出的每个群组的范数方差，计算所有群组的总范数方差。计算出的总范数方差被输出到群组比特分配单元308。总范数方差根据下述式(4)计算。

其中，Norm_vartotal表示所有群组的总范数方差，N表示频谱中的群组的总数，k表示群组的索引，Norm_var(G(k))表示群组k的范数方差。

群组比特分配单元308(相当于第一比特分配单元)基于从群组能量计算单元304输出的每个群组的能量、从总能量计算单元305输出的所有群组的总能量、从范数方差计算单元306输出的每个群组的范数方差、以及从总范数方差计算单元307输出的所有群组的总范数方差，对每个群组进行比特分配，将对每个群组分配的比特输出到子带比特分配单元309。对每个群组所分配的比特根据下述式(5)计算。

其中，k表示群组的索引，Bits(G(k))表示分配给群组k的比特数，Bits_total表示可使用的所有比特数，scale1表示根据能量分配的比特的比例，Energy(G(k))表示群组k的能量，Energy_total表示所有群组的总能量，Normvar(G(k))表示群组k的范数方差。

另外，在上述式(5)中，scale1取[0，1]的范围的值，调整根据能量或范数方差分配的比特的比例。scale1的值越大，根据能量所分配的比特越多，在极端情况下，若其值为1，则所有比特都将根据能量来分配。scale1的值越小，根据范数方差分配的比特越多，在极端情况下，若其值为0，则所有比特都将根据范数方差来分配。

群组比特分配单元308通过如上述那样对每个群组进行比特分配，由此，能够对优势群组分配更多的比特，对非优势群组分配更少的比特。

这样，在群组比特分配单元308中，根据能量及范数方差来确定群组的知觉的重要度，从而能够更加强调优势群组。另外，范数方差与屏蔽理论一致，通过使用该范数方差，能够更正确地确定感觉的重要度。

子带比特分配单元309(相当于第二比特分配单元)基于从群组比特分配单元308输出的每个群组的比特，对各群组内的子带分配比特，并将对每个群组的子带分配的比特作为比特分配结果输出到点阵矢量编码单元108。这里，对感觉更为重要的子带，分配更多的比特，对感觉不太重要的子带，分配更少的比特。对群组内的各子带分配的比特根据下述式(6)计算。

其中，Bits_G(_k)sb(i)表示对群组k的子带i分配的比特，i表示群组k的子带索引，Bits_(G(k))表示对群组k分配的比特，Energy(G(k))表示群组k的能量，Norm(i)表示群组k的子带i的范数系数值。

接下来，使用图8说明分组的方法。假设将图8(a)所示的量化频谱包络线输入到峰值频带识别单元301。峰值频带识别单元301基于输入的量化频谱包络线，识别优势频带(dominant frequency bands)9、20(参照图8(b))。

在优势群组生成单元302-1～302-N中，将以优势频带9、20为中心的两侧的直到范数系数值的下降梯度截止的部分确定为同一优势群组。在图8的例子中，对优势频带9，将子带6～12确定为优势群组(群组2)，对优势频带20，将子带17～22确定为优势群组(群组4)(参照图8(c))。

在非优势群组确定单元303中，将优势群组以外的连续的频带确定为无优势频带的非优势群组。图8的例子中，将子带1～5(群组1)、子带13～16(群组3)、子带23～25(群组5)分别确定为非优势群组(参照图8(c))。

其结果，量化频谱包络线被分组成5个群组，即2个优势群组(群组2、4)和3个非优势群组(群组1、3、5)。

通过这样的分组方法，能够根据输入信号特性来自适当地确定群组宽度。另外，本方法中，使用在语音声响解码装置中也能够使用的量化的范数系数，因此无须将追加信息发送到语音声响解码装置。

此外，在范数方差计算单元306中，计算每个群组的范数方差。将图8的例子中的群组2中的范数方差Energy_var(G(2))示于图9，以供参考。

接下来说明感觉的重要度。一般而言，在语音声响信号的频谱中存在多个峰值(峰)及谷值(谷)。峰值包含语音声响信号的位于优势频率的频谱成分(优势音成分)。峰值对于感觉非常重要。峰值对感觉的重要度能够根据峰值的能量和谷值的能量之差、即范数方差来判断。理论上，在峰值与相邻的频带相比具有足够大的能量的情况下，该峰值应以充足的比特数而被编码，若以不充足的比特数编码，则混入的编码噪声突出，导致音质下降。另一方面，谷值不由语音声响信号的优势音成分构成，感觉上并不重要。

在本实施方式中的频带的分组方法中，优势频带对应于频谱的峰值，对频带进行分组是将峰值(具有优势频带的优势群组)和谷值(无优势频带的非优势群组)分离。

在群组比特分配单元308中，确定峰值对感觉的重要度。在G.719这一技术中，仅根据能量来确定感觉的重要度，与此相对，本实施方式中，根据能量及范数(能量)方差这两者来确定感觉的重要度，基于确定的感觉的重要度来确定要对各群组分配的比特。

另外，在子带比特分配单元309中，在群组内的范数方差较大的情况下，意味着该群组是峰值之一，峰值对于感觉更为重要，具有最大值的范数系数应正确被编码。因此，对该峰值的子带分配更多的比特。另一方面，在群组内的范数方差非常小的情况下，意味着该群组是谷值之一，谷值对于感觉并不重要，并不一定需要正确地被编码。因此，对该群组的各子带分配较少比特。

这样，根据本实施方式，识别输入语音声响信号的频谱中的范数系数值具有极大值的优势频带，将所有子带分组为包含优势频带的优势群组和不含优势频带的非优势群组，基于每个群组的能量及范数方差，对各群组分配比特，并将对每个子带分配分配的比特，根据群组的范数与能量的比例进一步分配给各子带。由此，能够对感觉上重要的群组及子带分配较多比特，从而能够进行高效的比特分配。其结果是能够实现音质提高。

此外，本实施方式中的范数系数表示子带能量，也称作能量包络线。

2012年12月13日提出的日本专利申请第2012-272571号所包含的说明书、附图及说明书摘要的公开内容全部被引用于本申请。

工业实用性

本发明的语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法，能够适用于无线通信终端装置、无线通信基站装置、电话会议终端装置、视频会议终端装置及互联网语音协议(VoIP)终端装置等。

标号说明

101 瞬态检测器

102 转换单元

103 范数估计单元

104 范数量化单元

105 频谱标准化单元

106、203 范数调整单元

107、204 比特分配单元

108 点阵矢量编码单元

109 噪声电平调整单元

110 多路复用器

201 解复用器

202 范数逆量化单元

205 点阵解码单元

206 频谱填补生成器

207 加法器

208 包络线形成单元

209 逆转换单元

301 优势频带识别单元

302-1～302-N 优势群组确定单元

303 非优势群组确定单元

304 群组能量计算单元

305 总能量计算单元

306 范数方差计算单元

307 总范数方差计算单元

308 群组比特分配单元

309 子带比特分配单元

Claims

1.语音声响编码装置，包括：

转换单元，将语音声响信号从时域转换到频域；

估计单元，对于将所述语音声响信号的频谱分割所得的多个子带，分别估计表示能级的能量包络线；

量化单元，将所述能量包络线进行量化；

群组确定单元，将量化的所述能量包络线分组为多个群组；

第一比特分配单元，对所述多个群组分配比特；

第二比特分配单元，将对所述多个群组分配的比特按每个群组分配给子带；以及

编码单元，使用对所述子带分配的比特，编码所述频谱，

所述多个群组的每一个由多个子带构成，

所述群组确定单元在确定所述多个群组时，将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

2.如权利要求1所述的语音声响编码装置，还包括：

能量计算单元，计算每个群组的能量；以及

方差计算单元，计算每个群组的能量包络线方差，

所述第一比特分配单元基于计算出的每个所述群组的能量及每个所述群组的能量包络线方差，能量及能量包络线方差中的至少一者越大，将越多的比特分配给群组，能量及能量包络线方差中的至少一者越小，将越少的比特分配给群组。

3.如权利要求1所述的语音声响编码装置，

所述子带的能量包络线越大，所述第二比特分配单元对该子带分配越多的比特，所述子带的能量包络线越小，所述第二比特分配单元对该子带分配越少的比特。

4.如权利要求1所述的语音声响编码装置，

所述优势群组的群组宽度是以优势频带为中心的两侧的直到范数系数值的下降梯度截止的宽度。

5.如权利要求1所述的语音声响编码装置，

当所述优势频带为最高频率的频带或最低频率的频带时，只有形成所述优势频带的单侧的能量包络线的下降梯度的频带包含于优势群组。

6.语音声响解码装置，包括：

逆量化单元，将量化的频谱包络线进行逆量化；

群组确定单元，将逆量化的所述频谱包络线分组为多个群组；

第一比特分配单元，对所述多个群组分配比特；

第二比特分配单元，将对所述多个群组分配的比特按每个群组分配给子带；

解码单元，使用对所述子带分配的比特，解码语音声响信号的频谱；

包络线形成单元，对解码的所述频谱适用进行了逆量化的所述频谱包络线，再现解码频谱；以及

逆转换单元，将所述解码频谱从频域逆转换到时域，

所述多个群组的每一个由多个子带构成，

7.如权利要求6所述的语音声响解码装置，还包括：

能量计算单元，计算每个群组的能量；以及

方差计算单元，计算每个群组的能量包络线方差，

8.如权利要求6所述的语音声响解码装置，

9.如权利要求6所述的语音声响解码装置，

10.如权利要求6所述的语音声响解码装置，

11.语音声响编码方法，包括以下步骤：

将语音声响信号从时域转换到频域；

对于将所述语音声响信号的频谱分割所得的多个子带，分别估计表示能级的能量包络线；

量化所述能量包络线；

将量化的所述能量包络线分组成多个群组；

进行对所述多个群组分配比特的第一比特分配；

进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配；以及

使用对所述子带分配的比特，编码所述频谱，

所述多个群组的每一个由多个子带构成，

在所述分组的步骤中，在确定所述多个群组时，将能量包络线具有极大值的子带即优势频带、以及与所述优势频带两侧相邻并形成能量包络线的下降梯度的子带确定为优势群组，将所述优势群组以外的连续的子带确定为非优势群组。

12.如权利要求11所述的语音声响编码方法，还包括以下步骤：

计算每个群组的能量；以及

计算每个群组的能量包络线方差，

在所述第一比特分配中，基于计算出的每个所述群组的能量及每个所述群组的能量包络线方差，能量及能量包络线方差中的至少一者越大，将越多的比特分配给群组，能量及能量包络线方差中的至少一者越小，将越少的比特分配给群组。

13.如权利要求11所述的语音声响编码方法，

在所述第二比特分配中，所述子带的能量包络线越大，对该子带分配越多的比特，所述子带的能量包络线越小，对该子带分配越少的比特。

14.如权利要求11所述的语音声响编码方法，

15.如权利要求11所述的语音声响编码方法，

16.语音声响解码方法，包括以下步骤：

将量化的频谱包络线逆量化；

将逆量化的所述频谱包络线分组成多个群组；

进行对所述多个群组分配比特的第一比特分配；

进行将对所述多个群组分配的比特按每个群组分配给子带的第二比特分配；

使用对所述子带分配的比特，解码语音声响信号的频谱；

对解码的所述频谱适用进行了逆量化的所述频谱包络线，再现解码频谱；以及

将所述解码频谱从频域逆转换到时域，

所述多个群组的每一个由多个子带构成，

17.如权利要求16所述的语音声响解码方法，还包括以下步骤：

计算每个群组的能量；以及

计算每个群组的能量包络线方差，

18.如权利要求16所述的语音声响解码方法，

19.如权利要求16所述的语音声响解码方法，

20.如权利要求16所述的语音声响解码方法，