CN105659321A - 解码装置、编码装置、解码方法、编码方法、终端装置以及基站装置 - Google Patents

解码装置、编码装置、解码方法、编码方法、终端装置以及基站装置 Download PDF

Info

Publication number
CN105659321A
CN105659321A CN201580002275.1A CN201580002275A CN105659321A CN 105659321 A CN105659321 A CN 105659321A CN 201580002275 A CN201580002275 A CN 201580002275A CN 105659321 A CN105659321 A CN 105659321A
Authority
CN
China
Prior art keywords
spectrum
noise
unit
amplitude
additive operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580002275.1A
Other languages
English (en)
Other versions
CN105659321B (zh
Inventor
河岛拓也
江原宏幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to CN202010080563.1A priority Critical patent/CN111370008B/zh
Publication of CN105659321A publication Critical patent/CN105659321A/zh
Application granted granted Critical
Publication of CN105659321B publication Critical patent/CN105659321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明的解码装置是,将对规定的频率以下的低频频谱编码后的核心编码数据和对规定的频率以上的高频频谱基于核心编码数据编码后的扩展频带编码数据进行解码的解码装置(100),包括:将核心编码数据解码后的核心解码频谱的振幅以核心解码频谱的振幅的最大值进行归一化并生成归一化频谱的振幅归一化单元(103);生成噪声频谱的噪声生成单元(104);对归一化频谱进行与噪声频谱的加法运算而生成噪声加法运算归一化频谱的第1加法运算单元(105);以及使用噪声加法运算归一化频谱,将所述扩展频带编码数据解码,并生成噪声加法运算扩展频带频谱的扩展频带解码单元(106)。

Description

解码装置、编码装置、解码方法、编码方法、终端装置以及基站装置
技术领域
本发明涉及将语音信号等解码或编码以降低语音信号和音乐信号(以下,假定为语音信号等。)的音乐噪声的技术。
背景技术
将语音信号等以低比特率进行压缩的语音编码技术,是实现移动通信中的电波等的有效利用的重要技术。而且,近年来对通话语音的质量提高的期待不断增长,期望实现现场感强的通话服务。为了实现这一目标,将频带宽的语音信号等以高比特率编码即可。可是,这种手段(approach)与电波和频带的有效利用相反。
作为将频带宽的信号以低比特率高质量地编码的方法,有将输入信号的频谱分割为低频部分和高频部分的2个频谱,高频频谱置换为复制的低频频谱,即通过将高频频谱以低频频谱替代,使整体的比特率降低的技术(专利文献1)。
基于这样的技术,鉴于高频频谱相对于低频频谱来说能量的偏差小的特性,有对每子带将低频频谱进行归一化(平坦化)后取与高频频谱之间的相关的技术。根据该技术,能够防止直接复制峰值性高的低频频谱造成的音质劣化。可是,在这种技术中,起因于低频频谱以离散的脉冲序列来表现,在估计离散的脉冲序列的包络的方法中有与本来的输入信号的包络偏离这样的缺点。因此,提出取代该归一化方法,对每个子带以离散的脉冲的最大振幅值进行归一化的方法(专利文献2)。
图11是专利文献2记载的编码装置。在这样的编码装置中,输入信号在时间-频率转换单元1010被转换为频域的信号,被作为输入信号频谱输出,同时输入信号频谱的低频部分在核心编码单元1020编码后被作为核心编码数据输出。然后,将核心编码数据解码,生成核心编码低频频谱,将该频谱在子带振幅归一化单元1030中以样本的振幅的最大值进行归一化,生成归一化低频频谱。然后,求与归一化低频频谱之间的相关值为最大的输入信号频谱的高频部分的频带、这样的频带中的归一化低频频谱和输入信号频谱的高频部分之间的增益,将它们在扩展频带编码单元1060中编码,作为扩展频带编码数据输出。
图12是与上述对应的解码装置。编码数据在分离单元2010中被分离为核心编码数据和扩展频带编码数据,核心编码数据在核心解码单元2020中被解码,生成核心编码低频频谱。核心编码低频频谱在子带振幅归一化单元2030中,进行与编码装置侧同样的处理、即用样本的振幅的最大值进行归一化,生成归一化低频频谱。然后,使用归一化低频频谱,在扩展频带解码单元2040中将扩展频带编码数据解码,生成扩展频带频谱。
此外,如图13那样,还公开了按照峰值性的强度,将用样本的最大值进行归一化的子带振幅归一化单元1030和用样本的频谱功率的包络进行归一化的频谱包络归一化单元7020切换来进行归一化的技术。
专利文献2中记载的用样本的最大值进行归一化的技术,在低频频谱稀疏的情况下,即在仅一部分的样本的振幅值较大、其他的样本的振幅值大致为零的情况下特别有效。即,根据专利文献2的技术。即使是稀疏的频谱,也抑制振幅过大的频谱的发生(均匀化),能够得到特性平坦的归一化低频频谱(平滑化)。
现有技术文献
专利文献
专利文献1:日本特表2001-521648号公报
专利文献2:国际公开第2013/035257号
发明内容
可是,脉冲序列稀疏的情况下容易发生频谱孔,这种频谱孔成为被称为音乐噪声的噪声的原因。在专利文献2中,在将低频频谱以样本的振幅的最大值进行归一化的情况下,对于起因于频谱孔的音乐噪声,并未公开采取什么对策。
本发明的一方案,提供使整体的比特率降低,并且抑制音乐噪声而能够解码高质量的语音信号等的解码装置和编码装置。
本发明的一方案,涉及将对规定的频率以下的低频频谱编码后生成的核心编码数据和对所述输入信号的规定的频率以上的高频频谱,基于所述核心编码数据编码生成的扩展频带编码数据进行解码的解码装置。该解码装置包括:
分离单元,分离核心编码数据和扩展频带编码数据;
核心解码单元,解码所述核心编码数据来生成核心解码频谱;
振幅归一化单元,将核心解码频谱的振幅用所述核心解码频谱的振幅的最大值归一化,生成归一化频谱;
噪声生成单元,生成噪声频谱;
第1加法运算单元,对所述归一化频谱进行与所述噪声频谱的加法运算,生成噪声加法运算归一化频谱;
扩展频带解码单元,使用噪声加法运算归一化频谱来解码所述扩展频带编码数据,生成噪声加法运算扩展频带频谱;以及
时间-频率转换单元,将核心解码频谱和噪声加法运算扩展频带频谱结合,同时进行时间-频率转换,将输出信号输出。
再有,这些概括性的并且特定的方案,也可以通过系统、方法、集成电路、计算机程序、或记录介质来实现,也可以通过系统、装置、方法、集成电路、计算机程序和记录介质的任意组合来实现。
根据本发明的一方案中的解码装置,能够解码被抑制了音乐噪声的高质量的语音信号等。
附图说明
图1表示本发明的实施方式1中的解码装置的结构图。
图2表示本发明的实施方式2中的解码装置的结构图。
图3表示本发明的实施方式2中的另一解码装置的结构图。
图4表示本发明的实施方式3中的解码装置的结构图。
图5表示本发明的实施方式3中的噪声生成单元的动作的说明图。
图6表示本发明的实施方式4中的解码装置的结构图。
图7表示本发明的实施方式4中的振幅调整单元的动作的说明图。
图8表示本发明的实施方式4中的另一解码装置的结构图。
图9表示本发明的实施方式4中的另一解码装置的振幅再调整单元的动作的说明图。
图10表示本发明的实施方式5中的编码装置的结构图。
图11表示现有技术的编码装置的结构图。
图12表示现有技术的解码装置的结构图。
图13表示现有技术的编码装置的结构图。
图14表示本发明的实施方式6中的解码装置的结构图。
图15表示本发明的实施方式6中的核心解码频谱振幅调整单元的动作的说明图。
图16表示本发明的实施方式6中的另一解码装置之一的结构图。
图17表示本发明的实施方式6中的另一解码装置之二的结构图。
图18表示本发明的实施方式7中的解码装置的结构图。
图19表示本发明的实施方式7中的解码装置的振幅再调整单元的结构图。
具体实施方式
以下,参照附图说明本发明的实施方式的结构和动作。再有,来自本发明的解码装置的输出信号、以及至编码装置的输入信号,除了仅指狭义的语音信号的情况,假设还包含在频带更宽的音乐信号的情况,语音信号和音乐信号混合的情况。
再有,在本说明书中,“输入信号”不仅是语音信号,而且还包含频带比语音信号宽的音乐信号、语音信号和音乐信号混合的信号的概念。
“噪声频谱”是其振幅不规则地上下的频谱。即使是规则的,但不规则地包含周期长、可以说实质不规则的频谱。
“生成”噪声频谱,除了产生噪声频谱以外,还包含输出预先保存在存储装置等中的噪声频谱的情况。
“结合”和“时间-频率转换”,在时间上哪个先进行是任意的。当然也可以是同时。最终只要进行“结合”和“频率转换”就足够了。
“比特分配信息”,是表示被分配到核心解码频谱的规定的频带中的比特数的信息。
“稀疏信息”,是表示核心解码频谱中的零频谱或非零频谱的分布状况的信息,例如,是直接或间接地表示在核心解码频谱的规定的频带中相对整个频谱的非零频谱或零频谱的比例的信息。
“相关”表示2个频谱的近似性。还包含使用所谓相关值的指标定量地评价近似性的情况。
“终端装置”是指用户侧使用的装置,例如移动电话、智能手机、卡拉OK装置、个人计算机、电视机、IC录音机等的设备与之相当。
“基站装置”,是对终端装置直接或间接地发送信号、或从终端装置直接或间接地接收信号的装置,例如eNodeB、各种服务器、访问点等与之相当。
“非零分量”是指被视为脉冲成立的分量。有一定强度以下的脉冲,未被视为脉冲成立的分量是零分量,不是非零分量。即,原来的归一化频谱中包含的脉冲并不一定全部为非零分量。
(实施方式1)
图1是表示实施方式1的解码装置的结构的框图。图1所示的解码装置100由分离单元101、核心解码单元102、振幅归一化单元103、噪声生成单元104、第1加法运算单元105、扩展频带解码单元106、时间-频率转换单元107构成。此外,分离单元101中连接着天线A。
由天线A接收核心编码数据和扩展频带编码数据。核心编码数据是,在编码装置中将输入信号的规定的频率以下的低频频谱进行编码所得的编码数据。此外,扩展频带编码数据是,将输入信号的规定的频率以上的高频频谱进行编码所得的编码数据。而且,扩展频带编码数据将输入信号的规定的频率以上的高频频谱基于解码核心编码数据所得的核心编码低频频谱来编码。作为具体例子,表示高频频谱和核心编码低频频谱之间的相关为最大的特定的频带的信息即时滞信息、以及特定的频带中的高频频谱和核心编码低频频谱之间的增益被编码。有关这样的编码,在实施方式5中说明具体例子。再有,输入到本发明的解码装置中的振幅频带编码数据不限定于该具体例子。
分离单元101将输入的核心编码数据和扩展频带编码数据进行分离。分离单元101中,核心编码数据输出到核心解码单元102,扩展频带编码数据输出到扩展频带解码单元106。
核心解码单元102对核心编码数据进行解码,生成核心解码频谱。核心解码单元102将核心解码频谱输出到振幅归一化单元103和时间-频率转换单元107。
振幅归一化单元103对核心解码频谱进行归一化,生成归一化频谱。具体地说,振幅归一化单元103将核心解码频谱分割为多个子带,将每个子带的频谱用各子带中包含的频谱的振幅(绝对值)的最大值分别进行归一化。这样一来,归一化后的各子带中的频谱的绝对值的最大值在子带间被统一。由此,在归一化频谱中,不存在振幅过大的频谱。
再有,对核心解码频谱的子带的分割是任意的。此外,子带的分割方法也是任意的,例如子带的频带可以均匀,也可以不均匀。
然后,振幅归一化单元103将归一化频谱输出到第1加法运算单元105和扩展频带解码单元106。
噪声生成单元104生成噪声频谱。噪声频谱是其振幅不规则地上下的频谱。具体地说,作为例子可列举对每个频率分量被随机地分配正负的频谱。如果正负是随机的,则振幅可以是一定值,也可以是在范围内随机地生成的振幅值。
噪声频谱的生成方法,可以每次基于随机数生成,也可以将预先生成的噪声频谱保存在存储器等的存储装置中,将它调用输出。也可以调用多个噪声频谱并相加,或以偶数分量和奇数分量组合,相加或组合时随机地分配极性。此外,也可以检测核心解码频谱中的零频谱部分,生成噪声频谱,以填充该零频谱部分。而且,也可以根据核心解码频谱的特性,生成噪声频谱。
再有,噪声频谱不限一个,也可以从符合规定的条件的多个噪声频谱之中选择1个。生成多个噪声频谱的例子在实施方式3中说明。
然后,噪声生成单元104将噪声频谱输出到第1加法运算单元105。
第1加法运算单元105将归一化频谱和噪声频谱进行加法运算,生成噪声加法运算归一化频谱。由此,至少在归一化频谱的零分量的区域中附加噪声频谱。
然后,第1加法运算单元105将噪声加法运算归一化频谱输出到扩展频带解码单元106。
在本实施方式中,不是对于振幅归一化单元103中归一化前的输入频谱即核心解码频谱,而是对于振幅归一化单元103中归一化后的频谱即归一化频谱附加噪声频谱,这是因为以下的理由。
附加的噪声频谱的振幅通常比核心解码频谱的振幅小,此外核心解码频谱是稀疏的,所以在对15样本左右的较短的每个子带进行归一化的情况下全部零的子带较多。这种情况下,在对于归一化前的核心解码频谱附加噪声频谱的情况下,有以下的课题。
首先,对全部零的子带附加低电平的噪声频谱。由于该噪声频谱以噪声频谱本身为最大值,其作为1被归一化,所以在子带内不存在峰值的情况下噪声整体被放大。相对于此,在子带内存在峰值的情况下,原本存在的峰值的频谱为最大值,所以即使噪声分量归一化也仍然为低电平,或反而因归一化变小。因此,在原本具有全部零的频率分量的子带中被局部地附加振幅较大的噪声频谱。
相对于此,在本实施方式中,对于归一化后的归一化频谱附加噪声频谱,所以能够防止噪声频谱因归一化而过度地放大。
扩展频带解码单元106使用噪声加法运算归一化频谱和归一化频谱,进行扩展频带编码数据的解码。
具体地说,扩展频带解码单元106将扩展频带编码数据进行解码,得到时滞信息和增益。扩展频带解码单元106基于时滞信息和归一化频谱,指定在高频部分即扩展频带中复制的噪声加法运算归一化频谱的频带,将噪声加法运算归一化频谱的规定频带复制在扩展频带中。接着,扩展频带解码单元106通过对于复制后的噪声加法运算归一化频谱乘以解码后的增益,得到噪声加法运算扩展频带频谱。
然后,扩展频带解码单元106将噪声加法运算扩展频带频谱输出到时间-频率转换单元107。
时间-频率转换单元107将构成低频部分的核心解码频谱和构成高频部分的噪声加法运算扩展频带频谱结合,生成解码频谱。然后,时间-频率转换单元107通过对于解码频谱进行正交转换,将解码频谱转换为时域的信号并作为输出信号输出。
从解码装置100输出的输出信号通过未图示的DA转换器、放大器和扬声器等,作为语音信号和音乐信号、或者它们的混合的信号被输出。
以上,根据本实施方式,在归一化频谱中附加噪声频谱,所以即使是归一化频谱稀疏的情况,也能够抑制音乐噪声的发生。即,根据本实施方式,维持通过用频谱的最大值归一化所得的均匀和平滑的效果,发挥弥补这样的归一化的方法具有的缺点的效果。
此外,根据本实施方式,对于振幅归一化单元103中归一化后的归一化频谱附加噪声频谱,所以能够防止噪声频谱因归一化而过度地被放大,发挥能够得到高音质的输出信号的效果。
(实施方式2)
接着,使用图2说明本发明的实施方式2中的解码装置200的结构。与图1具有相同结构的块使用相同的图号。本实施方式的解码装置200与实施方式1中的解码装置100的不同是,本实施方式的解码装置200具有第2加法运算单元201。除此以外的结构要素原则上与实施方式1是同样的,所以省略说明。
第2加法运算单元201对从核心解码单元102输出的核心解码频谱,进行与噪声生成单元104生成的噪声频谱的加法运算,生成噪声加法运算核心解码频谱。然后,第2加法运算单元201将噪声加法运算核心解码频谱输出到时间-频率转换单元107。
时间-频率转换单元107将构成低频部分的噪声加法运算核心解码频谱和构成高频部分的噪声加法运算扩展频带频谱进行结合,生成解码频谱。然后,时间-频率转换单元107通过对于解码频谱进行正交转换,将解码频谱转换为时域的信号并作为输出信号输出。
以上,根据本实施方式,不仅对构成高频部分的归一化频谱,而且对于构成低频部分的核心解码频谱也附加噪声频谱,所以能够抑制从听觉上重要的低频频谱产生的音乐噪声。当然,即使在仅使用核心解码频谱来生成输出信号的情况下,也能够抑制音乐噪声。
(实施方式2的另一例子)
接着,使用图3说明本发明的实施方式2的另一例子即解码装置210的结构。与图1、图2具有相同结构的块使用相同图号。本实施方式的解码装置210与实施方式2中的解码装置200的不同是,本实施方式的解码装置210不是将对第1加法运算单元105输出的噪声频谱从噪声生成单元104直接输出,而是在减法运算单元202中从噪声加法运算核心解码频谱中减去核心解码频谱而生成并输出噪声频谱。除此以外的结构要素原则上与实施方式2是同样的,所以省略说明。
噪声生成单元104检测核心解码频谱的零频谱分量,生成噪声频谱,以填充该零频谱分量。
第2加法运算单元201对从核心解码单元102输出的核心解码频谱,进行与噪声生成单元104生成的噪声频谱的加法运算,生成噪声加法运算核心解码频谱。然后,第2加法运算单元201将噪声加法运算核心解码频谱输出到时间-频率转换单元107和减法运算单元202。
减法运算单元202从噪声加法运算核心解码频谱中减去核心解码频谱,将该差分作为噪声频谱输出到第1加法运算单元105。
以下说明进行这样处理的理由。对核心解码频谱进行与噪声频谱的加法运算的处理,除了通过将对于核心解码频谱进行与独立地生成的噪声频谱的加法运算来实现的情况以外,如本实施方式那样,即使通过检测核心解码频谱的零频谱部分,进行噪声频谱加法运算,以填充该部分,也能够实现。这种情况下,噪声频谱在核心解码频谱上,立即与核心解码频谱为一体,所以需要以另外一些方法得到对第1加法运算单元105输出的噪声频谱。
因此,在本实施方式中,通过设置减法运算单元202,从噪声加法运算核心解码频谱中减去核心解码频谱,取出噪声频谱。
在这种情况下,噪声生成单元104、第2加法运算单元201、和减法运算单元202一起构成本发明的噪声生成单元。
以上,根据本实施方式,对于构成核心解码频谱的频谱之中零频谱以外的频谱,能够不附加噪声频谱,所以能够进行更正确的解码,能够得到高音质的输出信号。
(实施方式3)
接着,使用图4说明本发明的实施方式3的解码装置300的结构。与图1、图2具有相同结构的块使用相同图号。本实施方式的解码装置300和实施方式2中的解码装置200的不同是,本实施方式的解码装置300取代噪声生成单元104而具有噪声生成单元301。除此以外的结构要素原则上与实施方式2是同样的,所以省略说明。
噪声生成单元301可生成多个不同的噪声频谱,能够按照核心解码频谱的特性,使输出的噪声频谱不同。
图5是表示噪声生成单元301的动作的流程图。噪声生成单元301从核心解码单元102接受频带规范(norm)信息(频带平均振幅信息)、比特分配信息、和稀疏信息(S1)。这里,比特分配信息是表示被分配给核心解码频谱的规定的频带的比特数的信息。例如,在ITU-T建议G.722.1或相同G.719中,频谱的规范信息(每个频带的振幅平均值或基于它的信息(换算系数、带能量等))被编码,基于该规范信息,确定比特分配。此外,稀疏信息是表示在核心解码频谱的规定的频带中非零频谱对全频谱的比例(此外,也可以与其相反地定义为零频谱的比例)的信息。
接着,噪声生成单元301使用比特分配信息计算第1噪声振幅调整系数C1(S2)。C1例如通过分配的比特数b的函数F(b)来求。F(b)在b=0时输出固定值Nb,在b>ns时输出0,在0≤b≤ns时输出Nb和0之间的数值,b越接近ns,输出越接近0的数值。例如,是以下的式(1)那样的函数。
F(b)=Nb×(ns-b)/ns(0≤b≤ns)
F(b)=0(b>ns)
......(1)
其中,Nb是0~1.0的常数,是在不被分配了比特时所使用的噪声振幅调整系数的值。ns是常数,是为了将频谱高质量地量化所需要的比特数。如果有该比特数以上的比特,则可用量化误差没有问题的级别进行量化,所以不需要附加噪声。可以对分配了比特的每个频带计算C1,也可以汇总多个频带,对于汇总的频带整体计算C1。
而且,噪声生成单元301使用稀疏信息计算第2噪声振幅调整系数C2(S3)。C2例如作为在成为对象的频带的全频谱数中占有的零频谱的比例Sp,按以下的式(2)定义。
S p = N z L b ... ... ( 2 )
其中,Nz表示零频谱的条数,Lb表示对象频带的全频谱数。零频谱的比例越增加,Sp取越大的值,为0~1.0的变量。取代式(2),也可用使用以下的式(3)。
S p = 1 L b - N z + 1 ... ... ( 3 )
最后,噪声生成单元301使用第1噪声振幅调整系数C1和第2噪声振幅调整系数C2,基于以下的式(4),计算噪声振幅LN(S4)。
LN=|E(i)|·C1·C2
=|E(i)|·F(b)·Sp
......(4)
其中,|E(i)|是第i频带的频带规范信息(频带平均振幅信息)。再有,b和Sp表示对第i频带的分配比特数和稀疏信息。
再有,在本实施方式中使用了C1和C2两者,但也可以仅使用其中的一方来求LN。
以上,在本实施方式中,噪声生成单元301基于频带规范信息、比特分配信息和稀疏信息,确定生成的噪声频谱的振幅。由此,基于量化的粗度,自适应地附加噪声频谱,具有能够避免对可细致地量化的频带过多地附加噪声而导致音质劣化的效果。
再有,本实施方式中,说明了从核心解码单元102输出比特分配信息和稀疏信息的例子,但不限于此。例如,对噪声生成单元301输入核心解码频谱,噪声生成单元301分析核心解码频谱,也可以自然而然得到频带规范信息、比特分配信息、以及稀疏信息。
再有,在本实施方式中,说明了将实施方式2的噪声生成单元104置换为噪声生成单元301,但也可以将实施方式1的噪声生成单元104置换为噪声生成单元301。
再有,在本实施方式中,对每个频带i计算和适用LN,但可以汇总多个频带进行计算和适用,也可以求对每个i算出的LN的平均值,全频带中作为一律的LN来适用。
(实施方式4)
接着,使用图6说明本发明的实施方式4的解码装置400的结构。与图1、图2、图4具有相同结构的块使用相同图号。本实施方式的解码装置400和实施方式2中的解码装置200的不同是,本实施方式的解码装置400具有噪声振幅归一化单元401和振幅调整单元402。除此以外的结构要素原则上与实施方式2是同样的,所以省略说明。
噪声振幅归一化单元401将噪声生成单元104中生成的噪声频谱进行归一化,生成归一化噪声频谱。噪声振幅归一化单元401的动作有与振幅归一化单元103的动作相同的动作,但也可以成为不同的动作。例如,振幅归一化单元103中,在为了进行稀疏而进行使低于阈值的频谱分量为零的处理的情况下,也可以在噪声振幅归一化单元401中将该阈值作为降低的阈值,减轻对于噪声频谱的稀疏的程度。
然后,噪声振幅归一化单元401将噪声归一化频谱输出到振幅调整单元402。
振幅调整单元402调整噪声振幅归一化单元401输出的归一化噪声频谱的振幅。然后,将调整了振幅的归一化噪声频谱输出到第1加法运算单元105。振幅调整单元402的动作的细节,将后述。
第1加法运算单元105将归一化频谱和调整了振幅的归一化噪声频谱进行加法运算,生成噪声加法运算归一化频谱。
然后,第1加法运算单元105将噪声加法运算归一化频谱输出到扩展频带解码单元106。
图7是表示振幅调整单元402的动作的流程图。
振幅调整单元402接受从核心解码单元102输出的核心解码频谱X(j)、频带规范信息|E(i)|、比特分配信息、以及稀疏信息(S1)。
然后,振幅调整单元402对核心解码频谱X(j)和频带规范信息|X(j)|进行分析,得到从核心解码频谱X(j)求得的平均振幅|XE(i)|和解码规范|E(i)|(频带规范信息)之间的误差。然后,使用得到的误差和解码规范(频带规范信息)之比,根据以下的式(5)计算噪声振幅调整系数C0(S2)。再有,i表示频带号,j表示第i频带中包含的频谱的号。
C 0 = α × | E ( i ) | - | X E ( i ) | | E ( i ) | ... ... ( 5 )
其中,α是调整系数,取0~1.0的值。
然后,振幅调整单元402使用比特分配信息,与实施方式3同样,根据(1)式计算噪声振幅调整系数C1(S3)。
而且,振幅调整单元402使用归一化频谱的稀疏信息,与实施方式3同样,根据(2)式计算噪声振幅调整系数C2(S4)。
最后,振幅调整单元402基于(S2)、(S3)、(S4)的结果,按以下的式(6)求噪声振幅LN,调整归一化噪声频谱的振幅(S5)。
L N = | E ( i ) | · C 0 · C 1 · C 2 = | E ( i ) | · α × | E ( i ) | - | X E ( i ) | | E ( i ) | · F ( b ) · S p = α × ( | E ( i ) | - | X E ( i ) | ) · F ( b ) · S p ... ... ( 6 )
再有,在本实施方式中使用了全部的C0、C1、C2,但也可以使用至少一个求LN。
此外,在本实施方式中为了求C2所使用的稀疏信息,使用归一化频谱的稀疏信息,但可使用从核心解码频谱求得的稀疏信息,或也可以并用两者。
而且,也可以将核心解码频谱和对核心解码频谱进行加法运算的噪声频谱的振幅比设为噪声振幅调整系数C3,基于C3,根据以下的式(7)求噪声振幅LN。当然,可以单独使用C3,也可以使用C0、C1、C2、C3的至少一个求LN。
LN=|E(i)|·C0·C1·C2·C3
......(7)
再有,为使噪声电平在帧间稳定,优选LN在帧间进行平滑。要平滑,使用LN(f)=μ×LN(f-1)+(1-μ)×LN(f)的算式即可。这里,LN(f)是帧号f中的LN,μ是平滑系数。μ取0~1之间的值。
以上,根据本实施方式,相对核心解码频谱由振幅归一化单元103归一化,噪声频谱由噪声振幅归一化单元401归一化,通过使核心解码频谱和噪声频谱通过的路径匹配而成为具有共用的性质的频谱(例如,成为振幅大致一律的频谱。),能够将两信号作为以相同均等条件处理的信号。
此外,根据本实施方式,对高频部分中附加的噪声频谱(归一化噪声频谱)通过噪声振幅归一化单元401和振幅调整单元402被输出,低频部分中附加的噪声频谱不通过噪声振幅归一化单元401和振幅调整单元402,所以可使高频部分中附加的噪声频谱(归一化噪声频谱)与低频部分中附加的噪声频谱的特性不同。而且,由此,由于能够减少低频部分和高频部分之间的相关,所以能够生成更具有随机特性的噪声频谱。
而且,根据本实施方式,归一化噪声频谱由振幅调整单元402调整振幅,所以具有能够避免附加过多噪声而导致音质劣化的效果。
再有,本实施方式中,说明了从核心解码单元102输出比特分配信息和稀疏信息的例子,但不限于此。例如,也可以对振幅调整单元402输入核心解码频谱,振幅调整单元402对核心解码频谱进行分析,自身得到频带规范信息、比特分配信息及稀疏信息。
再有,在本实施方式中,说明了将噪声振幅归一化单元401和振幅调整单元402附加在实施方式2的结构中,但也可将它们附加在实施方式1、或实施方式3中。
(实施方式4的其他例子)
接着,使用图8说明本发明的实施方式4的另一解码装置410的结构。与图6具有相同结构块使用相同图号。本实施方式的解码装置410和实施方式4中的解码装置400的不同是,本实施方式的解码装置410具有振幅再调整单元403。除此以外的结构要素原则上与实施方式4是同样的,所以省略说明。
振幅再调整单元403在使用附加了噪声的核心解码频谱生成扩展频带之中,对附加的噪声分量的振幅进行再调整。这种再调整能够如图9那样进行。
在图9中,(a)表示从振幅归一化单元103输出的归一化频谱,(b)是从第1加法运算单元105输出的噪声加法运算归一化频谱。而且如(c)那样,将噪声加法运算归一化频谱基于时滞信息转移到扩展频带中,乘以增益,生成扩展频带的频谱。在(b)中,仅示出扩展频带的最下面的频带即第i频带。图中E(i)表示第i频带的频带规范信息(频带能量),用虚线(d)围住的部分是以时滞信息指定的(由扩展频带解码单元106指定)噪声加法运算归一化频谱,对应的扩展频带(这里为第i频带)乘以合适的增益G后被复制。此外,用虚线(e)围住的部分是扩展频带。附加的噪声分量的振幅再调整如下进行。
首先,确定阈值Th。Th例如设为归一化频谱的最大振幅的一半的值。在归一化频谱的振幅被限定为某个振幅以上的情况下,也可以将归一化频谱的最低振幅值设为Th。此外,也可以设为具有值的归一化频谱的平均振幅值。此外,也可以设为附加的噪声频谱的平均振幅值。再有,也可以将它们的值乘以常数而设为调整后的值。
(b)中用双点划线表示将归一化频谱的最低振幅设为Th情况下的Th和其振幅,但具有比该Th小的振幅的分量被定义作为噪声分量。
接着,将扩展频带编码数据解码所得的增益G乘以Th,求G·Th。
接着,对通过频带扩展生成的第i频带的频谱,选择比阈值G·Th小的振幅的频谱,将其定义为噪声分量,并计算第i频带的噪声分量能量(将其设为EN(i))。
接着,根据以下的式(8),求将EN(i)在时间轴方向上进行了平滑的SEN(i)。
SEN(i)=σ×pSEN(i)+(1-σ)×EN(i)
......(8)
其中,σ表示平滑系数且是接近1的0~1的常数,pSEN(i)表示1帧前的SEN(i)。
然后,以使第i频带的噪声分量的能量为SEN(i)而对于噪声分量乘以
同样地,对于其它的扩展频带的各频带的噪声分量进行振幅的再调整。此外,在扩展频带的各频带的SEN(i)中出现偏差的情况下,也可以进一步进行用于除去该偏差的振幅再调整。具体地说,求扩展频带的全频带中的EN(i)的平均值AEN,为使全频带的EN(i)相等于AEN,对各频带的噪声分量乘以AEN/EN(i)后,适用前述的帧间的平滑处理。
再有,使各频带的噪声分量的能量一致的处理和帧间的平滑处理的顺序是任意的,此外也可以仅进行任一方的处理。
(实施方式5)
在实施方式1至实施方式4中,说明了解码装置的实施方式。本发明也可适用编码装置。以下,使用图10说明本发明的实施方式5的编码装置500的结构。
图10是表示实施方式5的编码装置的结构的框图。图10所示的编码装置500由时间-频率转换单元501、核心编码单元502、振幅归一化单元503、噪声生成单元504、噪声振幅归一化单元505、振幅调整单元506、第1加法运算单元507、频带搜索单元508、增益计算单元509、扩展频带编码单元510、复用单元511、时滞搜索位置候选存储单元512构成。此外,天线A连接到复用单元511。
时间频率转换单元501将时域的语音信号等即输入信号转换为频域的信号,将得到的输入信号频谱输出到核心编码单元502、频带搜索单元508、以及增益计算单元509。
核心编码单元502将输入信号频谱之中低频频谱编码,生成核心编码数据。作为编码的例子,可列举CELP编码和变换编码。核心编码单元502将核心编码数据输出到复用单元511。此外,核心编码单元502将核心编码数据解码所得的核心解码频谱输出到振幅归一化单元503。
振幅归一化单元503、噪声生成单元504、噪声振幅归一化单元505、和振幅调整单元506的动作,与实施方式3和实施方式4中记载的动作相同,所以省略说明。
时滞搜索位置候选存储单元512将归一化频谱的振幅不为零的分量的位置(频率)作为频带搜索的对象的候选位置来存储。然后,时滞搜索位置候选存储单元512将存储的候选位置信息输出到频带搜索单元508。
第1加法运算单元507将归一化频谱和调整了振幅的归一化噪声频谱进行加法运算,生成噪声加法运算归一化频谱。
然后,第1加法运算单元507将噪声加法运算归一化频谱输出到频带搜索单元508和增益计算单元509。
频带搜索单元508、增益计算单元509、以及扩展频带编码单元510进行将输入信号频谱之中的高频频谱编码的处理。
频带搜索单元508搜索使输入信号频谱之中高频频谱和噪声加法运算归一化频谱之间相关最大的特定的频带。搜索通过从时滞搜索位置候选存储单元512输入的候选位置之中选择使所述相关最大的候选来进行。然后,频带搜索单元508将表示搜索到的特定的频带的信息即时滞信息输出到增益计算单元509和扩展频带编码单元510。
增益计算单元509计算特定的频带中的高频频谱和噪声加法运算归一化频谱之间的增益,输出到扩展频带编码单元510。
扩展频带编码单元510将时滞信息和增益编码来生成扩展频带编码数据。然后,扩展频带编码单元510将扩展频带编码数据输出到复用单元511。
复用单元511将核心编码数据和扩展频带编码数据进行复用,通过天线A发送。
以上,根据本实施方式,使用附加了噪声分量的频谱进行高频频谱的搜索(时滞(lag)搜索、相似度搜索),所以可提高频谱形状的匹配精度。
再有,作为表示本实施方式的图列举的图10,成为将解码装置的实施方式即实施方式3和实施方式4合在一起的结构,但也可以成为与实施方式1、2、3、或4对应的结构。而且,也可以为与后述的实施方式6对应的结构。
(实施方式6)
接着,使用图14说明本发明的实施方式6的解码装置600的结构。与表示实施方式4的图6的解码装置400具有相同结构的块,使用相同的图号。本实施方式的解码装置600和解码装置400的不同是,本实施方式的解码装置600有新的阈值计算单元601、核心解码频谱振幅调整单元602,而且取代振幅调整单元402,具有噪声频谱振幅调整单元603。
此外,在本实施方式的解码装置600中,取代噪声生成单元104,具有噪声生成和加法运算单元604以及减法运算单元202,它是在实施方式2的其他例子中说明的、生成噪声频谱、进行加法运算以填充核心解码频谱的零频谱分量的结构。由于除此以外的结构要素原则上与实施方式4是同样的,所以省略说明。
阈值计算单元601使用归一化频谱的稀疏信息,计算将噪声分量和非噪声分量区别的频谱强度的阈值Th。具体的计算方法将后述。再有,取代归一化频谱的稀疏信息,也可以使用核心解码频谱的稀疏信息。
然后,阈值计算单元601将阈值输出到核心解码频谱振幅调整单元602和噪声频谱振幅调整单元603。
核心解码频谱振幅调整单元602调整所述归一化频谱的振幅,以使归一化频谱的非零分量大于所述阈值。具体地说,如图15(a)那样,通过在各个频谱中加入一定的偏移,或按一定的比例放大,以使归一化频谱的非零分量的最小值大于阈值,将归一化频谱全体再提高。
作为放大方法的一例子,考虑将放大后的振幅设为Y,将放大前的振幅设为X,将阈值设为Th,以Y=aX+Th、(再有,a=(Xmax-Th)/Xmax,Xmax是X可取的最大值)表示的换算。
或者,如图15(b)那样,也可以使一定强度(假设为“归零阈值”。)以上的频谱之中最小的频谱大于阈值。例如,在归一化频谱的范围内被归一化为0至10的情况下,也可以将归零阈值设为0.95,使得0.95以上的频谱之中最小的频谱大于阈值Th。这种情况下,0.95以下的频谱归零。即,这种情况下,归零阈值以上的频谱为非零分量,归零阈值以下的频谱为零分量。
再有,如上述,归零阈值可以使用固定值,但也可以将归零阈值设为与其他变量对应的变动值。例如,也可以设为归零阈值=阈值Th×α(α为常数,例如α=1/4)。此外,与其一起,也可以对归零阈值并用上限值或下限值。例如,在归零阈值为0.9以下的情况下,也可以将0.9设为归零阈值。
然后,将调整了振幅的归一化频谱输出到第1加法运算单元105。
噪声频谱振幅调整单元603调整归一化噪声频谱的振幅,以使归一化噪声频谱的最大值为阈值以下。具体地说,在归一化噪声频谱的最大值小于阈值的情况下,在各个频谱中加入一定的偏移(offset),或以一定的比例放大,将归一化噪声频谱的最大值设定为阈值、或其以下。在归一化噪声频谱的最大值大于阈值的情况下,加入负的偏移,即进行减法运算(截取),或以负的比例放大,即进行衰减。这种调整与将归一化噪声频谱用阈值进行归一化是同义的。
然后,将调整了振幅的归一化噪声频谱输出到第1加法运算单元105。
第1加法运算单元105将调整了振幅的归一化频谱和调整了振幅的归一化噪声频谱进行加法运算,作为噪声加法运算归一化频谱输出到扩展频带解码单元106。
以下,说明阈值的求得方法。
阈值有区分噪声分量和非噪声分量的意义。而且,使用式(2)的稀疏度Sp,按以下的式(9)来求阈值Th。a为常数,在本实施例中例如被设定为4。
T h = a ( 1 - S p ) = a ( 1 - N z L b ) ... ... ( 9 )
再有,取代使用了Nz的式(9),也可以使用以下的式(10)求阈值Th。
T h = a × N p L b ... ... ( 10 )
其中,Np表示非零的频谱的条数。
再有,与这些一起,也可以对阈值Th并用上限或下限。
即,根据式(9),稀疏度Sp越大,即零分量越多的离散的脉冲序列,噪声性越低,阈值Th越低。相反地,稀疏度Sp越小,即零分量越少的较密的脉冲序列,噪声性越高,阈值Th越高。
而且,若稀疏度Sp变大(阈值Th变低),则由噪声频谱振幅调整单元603调整的噪声频谱的振幅被抑制得小,振幅小的噪声频谱在加法运算单元105中进行加法运算。即,由于归一化频谱的信号的噪声性较低,所以为了维持该特性,被加法运算的噪声频谱的振幅变小。
相反地,若稀疏度Sp变小(阈值Th变高),则由噪声频谱振幅调整单元603调整的噪声频谱的振幅变大,振幅大的噪声频谱在加法运算单元105中被进行加法运算。即,由于归一化频谱的信号的噪声性较高,所以为了维持该特性,被加法运算的噪声频谱的振幅变大。
再有,在本实施方式中阈值为一个,在核心解码频谱振幅调整单元602和噪声频谱振幅调整单元603中共同地使用。但是,在核心解码频谱振幅调整单元602和噪声频谱振幅调整单元603中,也可以使用其他的阈值。这是因为,阈值具有区分噪声分量和非噪声分量的意义,但归一化频谱中原来包含的低振幅的频谱具有的噪声性和生成的噪声频谱具有的噪声性的其特性有时不同,这种情况下不使用相同的基准而独立地确定各自的基准,这样能够进一步提高音质。例如,通过使核心解码频谱振幅调整单元602中使用的阈值高于噪声频谱振幅调整单元603中使用的阈值,能够将原来的信号即归一化频谱中包含的分量进一步增强。
再有,在式(9)中,为求阈值仅使用了稀疏度,但如实施方式3或实施方式4那样,也可以将频带规范信息或比特分配信息组合或单独使用。例如,在以下的情况下,考虑并用比特分配信息。
由于比特分配增加时能够增加脉冲数,所以更低振幅的脉冲也被编码,量化脉冲数增加。其结果,稀疏度下降。即,稀疏度不仅依赖于编码对象的信号的特征,还依赖于被分配的比特数。因此,在所分配的比特数极大改变的情况下,要校正比特分配的变化造成的影响,也可以调整稀疏度和阈值之间的关系。
此外,在本实施方式中,噪声生成和加法运算单元使用了实施方式2的其他例子的结构,但也可以取代它,使用实施方式1的噪声生成单元104、实施方式2的噪声生成单元104和第2加法运算单元201、实施方式3的噪声生成单元301和第2加法运算单元201。
根据以上的解码装置600,对归一化频谱的振幅和归一化噪声频谱的振幅,能够调整归一化频谱和归一化噪声频谱的振幅两方,同时联动地调整它们,能够附加与归一化频谱的特性相应的最佳的噪声的结果,能够实现输出信号的音质的提高。
更具体地说,归一化频谱的噪声性被增强,能够产生出适合表现高频带的频谱的频谱,所以能够提高基于频带扩展模型的解码装置的输出信号的音质。
(实施方式6的其他例子1)
接着,使用图16说明本发明的实施方式6的其他例子1的解码装置610的结构。与图14具有相同结构的块,使用相同图号。本实施方式的解码装置610和解码装置600之间的不同,主要是阈值计算单元601的动作。
本实施方式的解码装置610的阈值计算单元601将输入的稀疏信息作为核心解码频谱的稀疏信息,基于该稀疏信息,在阈值计算单元601中使用式(9)或式(10)求阈值Th,同时使用该阈值Th,例如采用归零阈值=阈值Th×α那样的运算来求归零阈值。
然后,阈值计算单元601将阈值Th输出到核心解码频谱振幅调整单元602和噪声频谱振幅调整单元603,同时将归零阈值输出到振幅归一化单元103。
振幅归一化单元103将核心解码频谱进行归一化,同时使比归零阈值小的、或归零阈值以下的频谱为零(归零)并输出。
再有,在本实施方式中,将进行归零的块设为振幅归一化单元103,但可以在振幅归一化单元103前后的其中之一设置进行归零的另一个块,也可以由核心解码频谱振幅调整单元602进行。该情况下,归零阈值的输出目的地为进行该归零的块即可。
(实施方式6的其他例子2)
接着,使用图17说明本发明的实施方式6的其他例子2的解码装置620的结构。与图16具有相同结构的块使用相同图号。本实施方式的解码装置620和解码装置600或解码装置610之间的不同是,具有噪声生成和加法运算单元605。
在解码装置600或解码装置610中,噪声生成和加法运算单元604生成噪声频谱、进行加法运算,以填充核心解码频谱的零频谱分量。即,因为是仅在相当于核心解码频谱的零频谱分量的位置进行噪声的加法运算的结构,在振幅归一化单元103等中后发性地归零后的频谱部分中,最终不进行噪声的加法运算。
因此,在本实施方式中,在归零后的频谱部分也进行噪声的加法运算,所以设置噪声生成和加法运算单元605。噪声生成和加法运算单元605检测从第1加法运算单元105输出的噪声加法运算归一化频谱的零频谱,随机地生成噪声并进行加法运算,以填充该零频谱。再有,如至此的说明那样,为了控制进行加法运算的振幅的最大值,也可以将阈值计算单元601中生成的阈值输出到噪声生成和加法运算单元,使用这样的阈值确定振幅的最大值。此外,除了阈值,也可以并用上限值。
再有,也可以取代检测噪声加法运算归一化频谱的零频谱,从进行归零的块、例如从振幅归一化单元103接受归零后的频谱的信息,在归零后的频谱的位置进行噪声的加法运算。
此外,在本实施方式中,将噪声生成和加法运算单元605设置在第1加法运算单元105之后,但也可以取代这种设置,而设置在噪声频谱振幅调整单元603和第1加法运算单元105之间、或设置在噪声振幅归一化单元401和噪声频谱振幅调整单元603之间。这种情况下,从进行归零的块接受归零后的频谱的信息,在归零后的频谱的位置进行噪声的加法运算。
(实施方式7)
接着,使用图18说明本发明的实施方式7的解码装置700的结构。本实施方式的解码装置700是,在实施方式6的其他例子2中的解码装置620中附加了在实施方式4的其他例子中说明的振幅再调整单元403。而且,伴随这种附加,阈值计算单元601中算出的阈值Th也被输出到振幅再调整单元403。除此以外的结构与实施方式6的其他例子2是同样的,所以省略说明。
扩展频带解码单元106中生成的噪声加法运算扩展频带频谱被输出到振幅再调整单元403。振幅再调整单元403的动作基本上与实施方式4的其他例子相同,所以在以下以与实施方式6的其他例子2之间的关系为中心进行说明。此外,对振幅再调整单元403的每个功能分成块来说明。如图19那样,振幅再调整单元403包括噪声能量计算单元701、帧间平滑单元702、以及振幅调整单元703。
噪声能量计算单元701对每个子带计算附加的噪声频谱的能量。附加的噪声频谱可通过使用实施方式6的阈值Th进行检测、分离。在扩展频带解码单元106中,对于由从扩展频带编码数据解码的时滞信息所确定的噪声加法运算归一化频谱,通过乘以从相同扩展频带编码数据解码的增益,生成噪声加法运算扩展频带频谱。因此,对实施方式6的阈值Th乘以了所述增益所得的值,成为噪声加法运算扩展频带频谱中的噪声分量判定的阈值。即,对阈值计算单元601中求得的阈值乘以所述增益来求噪声分量判定阈值,将低于噪声分量判定阈值(以下)的分量判定为该子带中的噪声分量。由于对每个子带编码所述增益,所以也对每个子带计算噪声分量判定阈值。
然后,将每个子带的噪声频谱的能量输出到帧间平滑单元702。
帧间平滑单元702使用接受的每个子带的噪声频谱的能量,进行平滑处理,以使在子带间噪声频谱的能量的变化平滑。平滑处理可使用公知的帧间平滑处理。
例如,帧间平滑处理能够根据以下的式(11)进行。
ESc=σ×Ec+(1-σ)×EScp
......(11)
其中,Esc表示平滑处理后的噪声频谱的能量,Ec表示平滑处理前的噪声频谱的能量,EScp表示前帧中的平滑处理后的噪声频谱的能量,σ表示平滑系数(0<σ<1)。再有,将σ的值越接近0,为越强的平滑。优选0.15左右。
再有,在当前帧的信号相比前帧的信号迅速地衰减的情况下,若进行较强的平滑,则有本来信号电平应该下降时却被维持较高电平的噪声的问题。要应对这样的情况,在另外编码的子带能量信息相比前帧中的平滑处理后的噪声频谱的子带能量(即EScp)较小的情况下,使σ的值接近1来减弱平滑处理。例如,在EScp低于当前帧的解码子带能量的80%的情况下,将σ设定为0.15进行较强的平滑处理,另一方面,在EScp为当前帧的解码子带能量的80%以上(即,当前帧的解码子带能量相比前帧的平滑化噪声频谱子带能量不够大)的情况下,将σ设定为0.8进行较弱的平滑处理。
对输入的噪声加法运算扩展频带频谱,振幅调整单元703使用由帧间平滑单元702算出的Esc,将噪声部分的振幅进行再调整。再调整的方法,与实施方式4的其他例子中说明的方法相同。即,如实施方式4的其他例子中说明的,将作为换算系数相乘。
再有,若换算造成的能量的变化极大,则有可能包含了噪声分量以外的解码信号整体的能量极大偏离原来的大小。这种情况下,若使换算系数为则能够非线性地抑制换算系数的变动,所以能够缓和换算造成的对解码信号整体的能量的不良影响。
以上,根据本实施方式,将通过频带扩展处理合成后的高频信号的噪声分量在时间方向上进行平滑,即使对于振幅变动也进行抑制变动的处理,所以解码信号的噪声分量的电平稳定,可改善听感上的质量。此外,如果与本实施方式的噪声加法运算归一化频谱生成方法组合使用,则不需要将噪声分量的判定信息另外进行编码和传输,可进行有效的噪声分量的附加和使其稳定。
(总结)
以上,用实施方式1至7说明了本发明的解码装置和编码装置。本发明的解码装置和编码装置,可以是系统板或半导体元件为代表那样的半完成品或部件级别的形式,也是包含终端装置或基站装置那样的完成品级别的形式的概念。在本发明的解码装置和编码装置为半完成品或部件级别的形式的情况下,通过天线、DA/AD转换器、放大器、扬声器、和话筒等组合成为完成品级别的形式。
再有,从图1到图8、图10、图14和从图16到图19的框图,表示对专用设计的硬件的结构和动作(方法),同时也包含通过对通用的硬件安装执行本发明的动作(方法)的程序并由处理器执行来实现的情况。作为通用的硬件的电子计算机,例如可列举个人计算机、智能手机等各种移动信息终端、以及移动电话等。
此外,对专用设计的硬件,不限于移动电话或固定电话等的完成品级别(消费电子),还包含系统板或半导体元件等的、半完成品或部件级别的硬件。
工业实用性
本发明的解码装置和编码装置,可应用于与语音信号和音乐信号的记录、传输、再生有关系的设备。
标号说明
100,200,210,300,400,410,600,610,620,700解码装置
101分离单元
102核心解码单元
103,503振幅归一化单元
104,301,504噪声生成单元
105,507第1加法运算单元
106扩展频带解码单元
107,501时间-频率转换单元
201第2加法运算单元
202减法运算单元
401,505噪声振幅归一化单元
402,506,703振幅调整单元
403振幅再调整单元
500编码装置
601阈值计算单元
602核心解码频谱振幅调整单元
603噪声频谱振幅调整单元
604噪声生成和加法运算单元
605噪声生成和加法运算单元

Claims (18)

1.解码装置,将对规定的频率以下的低频频谱编码后的核心编码数据和对规定的频率以上的高频频谱基于所述核心编码数据编码后的扩展频带编码数据进行解码,包括:
分离单元,分离所述核心编码数据和所述扩展频带编码数据;
核心解码单元,解码所述核心编码数据,生成核心解码频谱;
振幅归一化单元,将所述核心解码频谱的振幅用所述核心解码频谱的振幅的最大值归一化,生成归一化频谱;
噪声生成单元,生成噪声频谱;
第1加法运算单元,对所述归一化频谱进行与所述噪声频谱的加法运算,生成噪声加法运算归一化频谱;
扩展频带解码单元,使用所述噪声加法运算归一化频谱,解码所述扩展频带编码数据,生成噪声加法运算扩展频带频谱;以及
时间-频率转换单元,将所述核心解码频谱和所述噪声加法运算扩展频带频谱结合,同时进行时间-频率转换,将输出信号输出。
2.如权利要求1所述的解码装置,还包括:
第2加法运算单元,对所述核心解码频谱进行与所述噪声频谱的加法运算,生成噪声加法运算核心解码频谱,
所述时间-频率转换单元将所述噪声加法运算核心解码频谱和所述噪声加法运算扩展频带频谱结合,同时进行时间-频率转换,将输出信号输出。
3.如权利要求1或权利要求2所述的解码装置,
所述噪声生成单元按照所述核心解码频谱的比特分配信息和所述核心解码频谱的稀疏信息的至少一个来确定所述噪声频谱的振幅。
4.如权利要求1至权利要求3的任意一项所述的解码装置,还包括:
噪声振幅归一化单元,将所述噪声频谱进行归一化来输出归一化噪声频谱;以及
振幅调整单元,按照所述核心解码频谱的比特分配信息、所述核心解码频谱的稀疏信息和所述归一化频谱的稀疏信息的至少一个,调整所述归一化噪声频谱的振幅,
所述第1加法运算单元对所述归一化频谱进行与调整了振幅后的所述归一化噪声频谱的加法运算,生成噪声加法运算归一化频谱。
5.编码装置,包括:
核心编码单元,对输入信号的规定的频率以下的低频频谱编码来生成核心编码数据;
振幅归一化单元,将对所述核心编码数据解码所得的核心解码频谱的振幅用所述核心解码频谱的振幅的最大值进行归一化并生成归一化频谱;
噪声生成单元,生成噪声频谱;
第1加法运算单元,对所述归一化频谱进行与所述噪声频谱的加法运算,生成噪声加法运算归一化频谱;
频带搜索装置,搜索在所述噪声加法运算归一化频谱和所述输入信号的规定的频率以上的高频频谱之间相关为最大的特定的频带;
增益计算装置,计算在所述特定的频带中所述噪声加法运算归一化频谱和所述高频频谱之间的增益;
扩展频带编码单元,编码所述特定的频带和所述增益,生成扩展频带编码数据;以及
复用单元,将所述核心编码数据和所述扩展频带编码数据复用输出。
6.终端装置,包括:
天线,接收所述核心编码数据和所述扩展频带编码数据,并输出到所述分离单元;以及
权利要求1或权利要求2所述的解码装置。
7.基站装置,包括:
天线,接收所述核心编码数据和所述扩展频带编码数据,并输出到所述分离单元;以及
权利要求1或权利要求2所述的解码装置。
8.终端装置,包括:
权利要求5所述的编码装置;以及
天线,发送从所述复用单元输入的所述核心编码数据和所述扩展频带编码数据。
9.基站装置,包括:
权利要求5所述的编码装置;以及
天线,发送从所述复用单元输入的所述核心编码数据和所述扩展频带编码数据。
10.解码方法,将对规定的频率以下的低频频谱编码后的核心编码数据和对规定的频率以上的高频频谱基于所述核心编码数据编码后的扩展频带编码数据用处理器进行解码,包括以下步骤:
将所述核心编码数据和所述扩展频带编码数据分离的步骤;
解码所述核心编码数据,生成核心解码频谱的步骤;
将所述核心解码频谱的振幅用所述核心解码频谱的振幅的最大值进行归一化并生成归一化频谱的步骤;
生成噪声频谱的步骤;
对所述归一化频谱进行与所述噪声频谱的加法运算,生成噪声加法运算归一化频谱的步骤;
使用所述噪声加法运算归一化频谱,对所述扩展频带编码数据进行解码,并生成噪声加法运算扩展频带频谱的步骤;以及
将所述核心解码频谱和所述噪声加法运算扩展频带频谱进行结合,同时进行时间-频率转换,将输出信号输出的步骤。
11.编码方法,将输入信号用处理器编码,包括以下步骤:
将所述输入信号的规定的频率以下的低频频谱编码,生成核心编码数据的步骤;
将所述核心编码数据解码所得的核心解码频谱的振幅,用所述核心解码频谱的振幅的最大值进行归一化并生成归一化频谱的步骤;
生成噪声频谱的步骤;
对所述归一化频谱进行与所述噪声频谱的加法运算,生成噪声加法运算归一化频谱的步骤;
搜索在所述噪声加法运算归一化频谱和所述输入信号的规定的频率以上的高频频谱之间相关为最大的特定的频带的步骤;
计算在所述特定的频带中所述噪声加法运算归一化频谱和所述高频频谱之间的增益的步骤;
将所述特定的频带和所述增益编码,生成扩展频带编码数据的步骤;以及
将所述核心编码数据和所述扩展频带编码数据复用输出的步骤。
12.将权利要求10的解码方法用处理器执行的程序。
13.将权利要求11的编码方法用处理器执行的程序。
14.如权利要求1至权利要求3的任意一项所述的解码装置,还包括:
噪声振幅归一化单元,将所述噪声频谱进行归一化,输出归一化噪声频谱;
阈值计算单元,使用所述归一化频谱或所述核心解码频谱的稀疏信息,计算将噪声分量和非噪声分量区分的频谱强度的阈值;
噪声频谱振幅调整单元,调整所述归一化噪声频谱的振幅,以使所述归一化噪声频谱的最大值为所述阈值以下;以及
核心解码频谱振幅调整单元,调整所述归一化频谱的振幅,以使所述归一化频谱的非零分量大于所述阈值。
15.如权利要求14所述的解码装置,
所述阈值计算单元还使用所述阈值计算将所述归一化频谱的零分量和非零分量区分的归零阈值,
所述振幅归一化单元基于所述归零阈值将所述归一化频谱的所述零分量归零。
16.如权利要求15所述的解码装置,还包括:
噪声加法运算单元,在归零的所述零分量的位置,进行噪声频谱的加法运算。
17.如权利要求1至权利要求4、或权利要求14的任意一项所述的解码装置,还包括:
振幅再调整单元,调整所述噪声加法运算扩展频带频谱的噪声分量的振幅。
18.如权利要求17所述的解码装置,
所述振幅再调整单元包括:
噪声能量计算单元,以所述阈值为基准,检测所述噪声加法运算扩展频带频谱的噪声分量,同时计算所述噪声分量的能量;
帧间平滑单元,使用所述噪声分量的能量,将所述噪声加法运算扩展频带频谱的帧间的能量变化进行平滑,计算表示所述噪声分量能量和平滑处理后的噪声分量的能量之比的换算系数;以及
振幅调整单元,使用所述换算系数,调整所述噪声加法运算扩展频带频谱的噪声分量的振幅。
CN201580002275.1A 2014-02-28 2015-02-06 解码装置和解码方法 Active CN105659321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010080563.1A CN111370008B (zh) 2014-02-28 2015-02-06 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2014039431 2014-02-28
JP2014-039431 2014-02-28
US201461974689P 2014-04-03 2014-04-03
US61/974,689 2014-04-03
JP2014-137861 2014-07-03
JP2014137861 2014-07-03
PCT/JP2015/000537 WO2015129165A1 (ja) 2014-02-28 2015-02-06 復号装置、符号化装置、復号方法、符合化方法、端末装置、および基地局装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010080563.1A Division CN111370008B (zh) 2014-02-28 2015-02-06 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置

Publications (2)

Publication Number Publication Date
CN105659321A true CN105659321A (zh) 2016-06-08
CN105659321B CN105659321B (zh) 2020-07-28

Family

ID=54008503

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010080563.1A Active CN111370008B (zh) 2014-02-28 2015-02-06 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置
CN201580002275.1A Active CN105659321B (zh) 2014-02-28 2015-02-06 解码装置和解码方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010080563.1A Active CN111370008B (zh) 2014-02-28 2015-02-06 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置

Country Status (9)

Country Link
US (3) US10062389B2 (zh)
EP (2) EP3113181B1 (zh)
JP (1) JPWO2015129165A1 (zh)
KR (1) KR102185478B1 (zh)
CN (2) CN111370008B (zh)
ES (1) ES2969736T3 (zh)
MX (1) MX361028B (zh)
RU (1) RU2662693C2 (zh)
WO (1) WO2015129165A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3113181B1 (en) * 2014-02-28 2024-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoding device and decoding method
JP6795093B2 (ja) * 2017-06-02 2020-12-02 富士通株式会社 判定装置、判定方法及び判定プログラム
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec
KR102457573B1 (ko) * 2021-03-02 2022-10-21 국방과학연구소 잡음 신호 생성 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
JP2022167670A (ja) * 2021-04-23 2022-11-04 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131820A (zh) * 2002-04-26 2008-02-27 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
CN102208188A (zh) * 2011-07-13 2011-10-05 华为技术有限公司 音频信号编解码方法和设备
CN102222505A (zh) * 2010-04-13 2011-10-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN102543086A (zh) * 2011-12-16 2012-07-04 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
WO2013141638A1 (ko) * 2012-03-21 2013-09-26 삼성전자 주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680972A (en) 1996-01-16 1997-10-28 Clarke; George Garment hanger system
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3751225B2 (ja) * 2001-06-14 2006-03-01 松下電器産業株式会社 オーディオ帯域拡張装置
JP4296753B2 (ja) * 2002-05-20 2009-07-15 ソニー株式会社 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体
CN102184734B (zh) * 2004-11-05 2013-04-03 松下电器产业株式会社 编码装置、解码装置、编码方法及解码方法
BRPI0517780A2 (pt) * 2004-11-05 2011-04-19 Matsushita Electric Ind Co Ltd aparelho de decodificação escalável e aparelho de codificação escalável
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
ES2796493T3 (es) * 2008-03-20 2020-11-27 Fraunhofer Ges Forschung Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
WO2010098112A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US10269363B2 (en) 2010-03-09 2019-04-23 Nippon Telegraph And Telephone Corporation Coding method, decoding method, apparatus, program, and recording medium
KR102068112B1 (ko) * 2011-02-18 2020-01-20 가부시키가이샤 엔.티.티.도코모 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램
CA2836122C (en) * 2011-05-13 2020-06-23 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
GB2506207B (en) * 2012-09-25 2020-06-10 Grass Valley Ltd Image process with spatial periodicity measure
MY171754A (en) * 2012-11-05 2019-10-28 Panasonic Ip Corp America Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
EP3113181B1 (en) * 2014-02-28 2024-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoding device and decoding method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131820A (zh) * 2002-04-26 2008-02-27 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
CN102222505A (zh) * 2010-04-13 2011-10-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN102208188A (zh) * 2011-07-13 2011-10-05 华为技术有限公司 音频信号编解码方法和设备
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
CN102543086A (zh) * 2011-12-16 2012-07-04 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法
WO2013141638A1 (ko) * 2012-03-21 2013-09-26 삼성전자 주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치

Also Published As

Publication number Publication date
EP3113181B1 (en) 2024-01-03
US20160284357A1 (en) 2016-09-29
EP3113181A1 (en) 2017-01-04
EP4325488A2 (en) 2024-02-21
MX361028B (es) 2018-11-26
WO2015129165A1 (ja) 2015-09-03
EP3113181A4 (en) 2017-03-08
KR102185478B1 (ko) 2020-12-02
US20200160873A1 (en) 2020-05-21
US11257506B2 (en) 2022-02-22
US20180336908A1 (en) 2018-11-22
EP3113181C0 (en) 2024-01-03
EP4325488A3 (en) 2024-05-15
RU2662693C2 (ru) 2018-07-26
KR20160120713A (ko) 2016-10-18
CN111370008A (zh) 2020-07-03
CN111370008B (zh) 2024-04-09
RU2016138285A (ru) 2018-03-29
CN105659321B (zh) 2020-07-28
MX2016008718A (es) 2016-10-13
RU2016138285A3 (zh) 2018-03-29
ES2969736T3 (es) 2024-05-22
JPWO2015129165A1 (ja) 2017-03-30
US10672409B2 (en) 2020-06-02
US10062389B2 (en) 2018-08-28

Similar Documents

Publication Publication Date Title
US9858934B2 (en) Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
US10121480B2 (en) Method and apparatus for encoding audio data
US11257506B2 (en) Decoding device, encoding device, decoding method, and encoding method
US20190356998A1 (en) Methods and apparatus for decoding encoded hoa signals
JP6717746B2 (ja) 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法
CN103650038A (zh) 比特分配、音频编码和解码
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
US20220130402A1 (en) Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium
EP1139336A2 (en) Determination of quantizaion coefficients for a subband audio encoder
KR100914220B1 (ko) 선 스펙트럴 주파수(lsf) 벡터들의 발생
JP6957444B2 (ja) 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法
US11621010B2 (en) Coding apparatus, coding method, program, and recording medium
CN107077856A (zh) 音频参数量化
CN105122358A (zh) 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180428

Address after: Munich, Germany

Applicant after: FRAUNHOFER-GESELLSCHAFT ZUR FORDERUNG DER ANGEWANDTEN FORSCHUNG E.V.

Address before: California, USA

Applicant before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

GR01 Patent grant
GR01 Patent grant