CN113921021A - 解码装置、解码方法、记录介质以及程序 - Google Patents

解码装置、解码方法、记录介质以及程序 Download PDF

Info

Publication number
CN113921021A
CN113921021A CN202111170288.3A CN202111170288A CN113921021A CN 113921021 A CN113921021 A CN 113921021A CN 202111170288 A CN202111170288 A CN 202111170288A CN 113921021 A CN113921021 A CN 113921021A
Authority
CN
China
Prior art keywords
unit
parameter
sequence
decoding
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111170288.3A
Other languages
English (en)
Inventor
守谷健弘
镰本优
原田登
川西隆仁
龟冈弘和
杉浦亮介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Publication of CN113921021A publication Critical patent/CN113921021A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

根据编码装置,在频域中对每预定时间区间的时序信号进行编码,其中,将参数η设为正数,将与时序信号对应的参数η作为对白化频谱序列的直方图进行近似的广义高斯分布的形状参数,按每预定时间区间能够选择多个参数η中的任一个或者参数η可变,上述白化频谱序列是将频域样本串除以通过将与该时序信号对应的频域样本串的绝对值的η次方当作功率谱而估计出的频谱包络所得的序列,所述编码装置包括:编码部,通过至少基于每预定时间区间的参数η而确定的结构的编码处理,对每预定时间区间的时序信号进行编码。

Description

解码装置、解码方法、记录介质以及程序
本申请为以下专利申请的分案申请:申请日为2016年1月27日,申请号为201680007279.3,发明名称为“编码装置、编码方法以及记录介质”。
技术领域
本发明涉及对声音信号等时序信号进行编码或者解码的技术。
背景技术
作为表示声音信号等时序信号的特征的参数,已知LSP等参数(例如,参照非专利文献1)。
由于LSP包含多个值,所以有时难以直接使用于声音的分类或区间估计。例如,由于LSP包含多个值,所以使用了LSP的基于阈值的处理不能说是简单。
另外,虽然没有成为公知,但由发明人提出了参数η。该参数η是在对利用例如3GPPEVS(增强语音服务(Enhanced Voice Services))标准中使用的线性预测包络的频域的系数的量化值进行算术编码的编码方式中,确定算术码的编码对象所属的概率分布的形状参数。参数η与编码对象的分布具有关联性,若适当地确定参数η则能够进行效率高的编码以及解码。
此外,参数η可成为表示时序信号的特征的指标。因此,虽然没有成为公知,但考虑基于参数η而确定适当的编码处理或者解码处理的结构,进行所确定的结构的编码处理或者解码处理。
【现有技术文献】
【非专利文献】
【非专利文献1】守谷健弘,“高圧縮音声符号化の必須技術:線スペクトル対(LSP)”,NTT技術ジャーナル,2014年9月,P.58-60
发明内容
发明要解决的课题
但是,至今还不知道基于参数η而确定适当的编码处理或者解码处理的结构,进行所确定的结构的编码处理或者解码处理的技术。
本发明的目的在于,提供一种基于参数η而确定适当的编码处理或者解码处理的结构,进行所确定的结构的编码处理或者解码处理的编码装置、解码装置、它们的方法、程序以及记录介质。
用于解决课题的手段
根据本发明的一方式的编码装置,在频域中对每预定时间区间的时序信号进行编码,其中,将参数η设为正数,将与时序信号对应的参数η作为对白化频谱序列(whitenedspectral sequence)的直方图进行近似的广义高斯分布的形状参数,按每预定时间区间能够选择多个参数η中的任一个或者参数η可变,上述白化频谱序列是将频域样本串除以通过将与该时序信号对应的频域样本串的绝对值的η次方当作功率谱而估计出的频谱包络所得的序列,所述编码装置包括:编码部,通过至少基于每预定时间区间的参数η而确定的结构的编码处理,对每预定时间区间的时序信号进行编码。
根据本发明的一方式的编码装置,在频域中对每预定时间区间的时序信号进行编码,其中,将参数η设为正数,按每预定时间区间能够选择多个参数η中的任一个或者参数η可变,所述编码装置包括:编码部,按每预定时间区间,通过基于通过将与时序信号对应的频域样本串的绝对值的η次方当作功率谱的频谱包络的估计而估计出的频谱包络的值来改变比特分配或者比特分配实质上发生改变的编码处理,对与时序信号对应的频域样本串进行编码而得到码并输出,输出表示与输出的码对应的参数η的参数码。
根据本发明的一方式的解码装置,其中,将参数η设为正数,将表示参数η的参数码作为表示对白化频谱序列的直方图进行近似的广义高斯分布的形状参数的码,上述白化频谱序列是将频域样本串除以通过将与该参数η对应的频域样本串的绝对值的η次方当作功率谱而估计出的频谱包络所得的序列,所述解码装置包括:参数码解码部,对输入的参数码进行解码而得到参数η;确定部,至少基于得到的参数η而确定解码处理的结构;以及解码部,通过所确定的结构的解码处理而进行所输入的码的解码。
根据本发明的一方式的解码装置,通过频域中的解码而得到与时序信号对应的频域样本串,其中,所述解码装置包括:参数码解码部,对输入的参数码进行解码而得到参数η;线性预测系数解码部,通过对输入的线性预测系数码进行解码,得到能够转换为线性预测系数的系数;非平滑化频谱包络序列生成部,使用得到的参数η,得到非平滑化频谱包络序列,该非平滑化频谱包络序列是将与能够转换为线性预测系数的系数对应的振幅频谱包络的序列进行了1/η次方的序列;以及解码部,根据基于非平滑化频谱包络序列而发生改变的比特分配或者实质上发生改变的比特分配,进行所输入的整数信号码的解码,从而得到与时序信号对应的频域样本串。
发明效果
能够基于参数η而确定适当的编码处理或者解码处理的结构,进行所确定的结构的编码处理或者解码处理。
附图说明
图1是用于说明现有的编码装置的例子的框图。
图2是用于说明现有的编码部的例子的框图。
图3是用于说明广义高斯分布的图。
图4是用于说明编码装置的例子的框图。
图5是用于说明编码方法的例子的流程图。
图6是用于说明编码部的例子的框图。
图7是用于说明编码部的例子的框图。
图8是用于说明编码部的处理的例子的流程图。
图9是用于说明解码装置的例子的框图。
图10是用于说明解码方法的例子的流程图。
图11是用于说明解码部的处理的例子的流程图。
图12是用于说明编码装置的例子的框图。
图13是用于说明编码方法的例子的流程图。
图14是用于说明参数决定部的例子的框图。
图15是用于说明参数决定方法的例子的流程图。
图16是用于说明技术背景的直方图。
图17是用于说明编码装置的例子的框图。
图18是用于说明编码方法的例子的流程图。
图19是用于说明解码装置的例子的框图。
图20是用于说明解码方法的例子的流程图。
图21是用于说明参数决定部的例子的框图。
图22是用于说明参数决定方法的例子的流程图。
图23是用于说明广义高斯分布的图。
具体实施方式
[技术背景]
作为低比特(例如,10kbit/s~20kbit/s左右)的声音信号的编码方法,已知DFT(离散傅里叶转换)或MDCT(变形离散余弦转换)等频域中的对于正交转换系数的自适应编码。例如,作为标准规范技术的MPEG USAC(统一语音和音频编码(Unified Speech andAudio Coding))具有TCX(transform coded excitation:转换编码激励)编码模式,其中,将MDCT系数按每个帧进行归一化而量化后进行可变长编码(例如,参照参考文献1)。
〔参考文献1〕M.Neuendorf,et al.,“MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types”,AES 132ndConvention,Budapest,Hungary,2012.
图1表示基于现有的TCX的编码装置的结构例。以下,说明图1的各部。
<频域转换部11>
在频域转换部11中,被输入作为时域的时序信号的声音信号。声音信号例如是语音信号或者音响信号。
频域转换部11以预定的时间长度的帧为单位,将被输入的时域的声音信号转换为频域的N点的MDCT系数串X(0),X(1),…,X(N-1)。N为正整数。
转换后的MDCT系数串X(0),X(1),…,X(N-1)被输出到包络归一化部15。
<线性预测分析部12>
在线性预测分析部12中,被输入作为时域的时序信号的声音信号。
线性预测分析部12通过以帧为单位进行对于所输入的声音信号的线性预测分析,从而生成线性预测系数α12,…,αp。此外,线性预测分析部12对被生成的线性预测系数α12,…,αp进行编码,从而生成线性预测系数码。线性预测系数码的例子是和与线性预测系数α12,…,αp对应的LSP(线谱对(Line Spectrum Pairs))参数串的量化值的串对应的码即LSP码。p为2以上的整数。
此外,线性预测分析部12生成与被生成的线性预测系数码对应的线性预测系数即量化线性预测系数^α1,^α2,…,^αp
被生成的量化线性预测系数^α1,^α2,…,^αp被输出到平滑化振幅频谱包络序列生成部14以及非平滑化振幅频谱包络序列生成部13。此外,被生成的线性预测系数码被输出到解码装置。
在线性预测分析中,例如使用如下方法:以帧为单位求出对于输入的声音信号的自相关,利用求出的自相关进行Levinson-Durbin算法,从而得到线性预测系数。或者,也可以使用如下方法:对线性预测分析部12输入由频域转换部11求出的MDCT系数串,对将MDCT系数串的各系数的平方值的序列进行了傅里叶逆转换所得的序列,进行Levinson-Durbin算法,从而得到线性预测系数。
<平滑化振幅频谱包络序列生成部14>
在平滑化振幅频谱包络序列生成部14中,被输入由线性预测分析部12生成的量化线性预测系数^α1,^α2,…,^αp
平滑化振幅频谱包络序列生成部14使用量化线性预测系数^α1,^α2,…,^αp,生成通过以下的式(B1)而定义的平滑化振幅频谱包络序列^Wγ(0),^Wγ(1),…,^Wγ(N-1)。将·作为实数,exp(·)是以纳皮尔数为底的指数函数,j是虚数单位。γ是1以下的正的常数,是削弱通过以下的式(B2)而定义的振幅频谱包络序列^W(0),^W(1),…,^W(N-1)的振幅的凹凸的系数,换言之,是将振幅频谱包络序列进行平滑化的系数。
【数1】
Figure BDA0003292737170000051
Figure BDA0003292737170000052
被生成的平滑化振幅频谱包络序列^Wγ(0),^Wγ(1),…,^Wγ(N-1)输出到包络归一化部15和编码部16的方差参数决定部163。
<非平滑化振幅频谱包络序列生成部13>
在非平滑化振幅频谱包络序列生成部13中,被输入由线性预测分析部12所生成的量化线性预测系数^α1,^α2,…,^αp
非平滑化振幅频谱包络序列生成部13使用量化线性预测系数^α1,^α2,…,^αp,生成通过上述的式(B2)而定义的非平滑化振幅频谱包络序列^W(0),^W(1),…,^W(N-1)。
被生成的非平滑化振幅频谱包络序列^W(0),^W(1),…,^W(N-1)输出到编码部16的方差参数决定部163。
<包络归一化部15>
在包络归一化部15中,被输入由频域转换部11所生成的MDCT系数串X(0),X(1),…,X(N-1)以及由平滑化振幅频谱包络序列生成部14所输出的平滑化振幅频谱包络序列^Wγ(0),^Wγ(1),…,^Wγ(N-1)。
包络归一化部15通过使用平滑化振幅频谱包络序列的各值^Wγ(k)对MDCT系数串的各系数X(k)进行归一化,从而生成归一化MDCT系数串XN(0),XN(1),…,XN(N-1)。即,XN(k)=X(k)/^Wγ(k)[k=0,1,…,N-1]。
被生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)输出到编码部16。
在此,为了实现如在听觉上失真减小的量化,包络归一化部15使用削弱振幅频谱包络的序列即平滑化振幅频谱包络序列^Wγ(0),^Wγ(1),…,^Wγ(N-1),以帧为单位对MDCT系数串X(0),X(1),…,X(N-1)进行归一化。
<编码部16>
在编码部16中,被输入由包络归一化部15所生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)、由平滑化振幅频谱包络序列生成部14所输出的平滑化振幅频谱包络序列^Wγ(0),^Wγ(1),…,^Wγ(N-1)、由非平滑化振幅频谱包络序列生成部13所输出的非平滑化振幅频谱包络序列^W(0),^W(1),…,^W(N-1)。
编码部16生成与归一化MDCT系数串XN(0),XN(1),…,XN(N-1)对应的码。
与被生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)对应的码被输出到解码装置。
将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的各系数除以增益(全局增益)g,将对将其结果进行量化的整数值的序列即量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)进行编码而得到的码设为整数信号码。在非专利文献1的技术中,编码部16决定该整数信号码的比特数为预先分配的比特数即分配比特数B以下且尽量成为大的值的增益g。并且,编码部16生成与该决定的增益g对应的增益码和与该决定的增益g对应的整数信号码。
该生成的增益码以及整数信号码作为与归一化MDCT系数串XN(0),XN(1),…,XN(N-1)对应的码而被输出到解码装置。
[编码部16进行的编码处理的具体例]
说明编码部16进行的编码处理的具体例。
图2表示编码部16的具体例的结构例。如图2所示,编码部16例如具备增益取得部161、量化部162、方差参数决定部168、算术编码部169、增益编码部165、判定部166和增益更新部167。以下,说明图2的各部。
<增益取得部161>
增益取得部161根据被输入的归一化MDCT系数串XN(0),XN(1),…,XN(N-1),决定整数信号码的比特数为预先分配的比特数即分配比特数B以下且尽量成为大的值的全局增益g,并输出。增益取得部161得到的全局增益g成为在量化部162中使用的全局增益的初始值。
<量化部162>
量化部162得到将被输入的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的各系数除以由增益取得部161或者增益更新部167得到的全局增益g所得的结果的整数部分的序列即量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1),并输出。
这里,量化部162在第一次执行时使用的全局增益g是由增益取得部161得到的全局增益g、即全局增益的初始值。此外,量化部162在第二次以后执行时使用的全局增益g是由增益更新部167得到的全局增益g、即全局增益的更新值。
<方差参数决定部163>
方差参数决定部163根据被输入的非平滑化振幅频谱包络序列^W(0),^W(1),…,^W(N-1)和被输入的平滑化振幅频谱包络序列^Wγ(0),^Wγ(1),…,^Wγ(N-1),通过下述的式(B3)而得到对于各频率的方差参数
Figure BDA0003292737170000072
并输出。
【数2】
Figure BDA0003292737170000071
<算术编码部164>
算术编码部164使用由方差参数决定部163得到的方差参数
Figure BDA0003292737170000081
对由量化部162得到的量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)进行算术编码而得到整数信号码,并输出整数信号码和作为整数信号码的比特数的消耗比特数C。该算术码进行在各频率k(=0,…,N-1)中的量化归一化完毕系数序列遵照与以下的概率变量X有关的例如由以下的式所示的拉普拉斯分布时成为最佳的比特的分配。
【数3】
Figure BDA0003292737170000082
<判定部166>
判定部166在增益的更新次数为预先决定的次数的情况下,输出整数信号码,且对增益编码部165输出对由增益更新部167得到的全局增益g进行编码的指示信号,在增益的更新次数小于预先决定的次数的情况下,对增益更新部167输出由算术编码部164所测量的消耗比特数C。
<增益更新部167>
增益更新部167在算术编码部164所测量的消耗比特数C多于分配比特数B的情况下,将全局增益g的值更新为大的值并输出,在消耗比特数C少于分配比特数B的情况下,将全局增益g的值更新为小的值,并输出更新后的全局增益g的值。
<增益编码部165>
增益编码部165根据判定部166所输出的指示信号,对增益更新部167得到的全局增益g进行编码而得到增益码,并输出。
判定部166输出的整数信号码和增益编码部165输出的增益码作为与归一化MDCT系数串对应的码而被输出到解码装置。
如以上所示,在基于现有的TCX的编码中,使用削弱非平滑化振幅频谱包络的平滑化振幅频谱包络序列而对MDCT系数串进行归一化之后,对归一化MDCT系数串进行编码。在上述的MPEG-4 USAC等中采用该编码方法。
在现有的编码装置中,通过算术码对拉普拉斯分布进行了最佳的比特分配。并且,由于在算术编码时利用频谱包络的凹凸的信息,所以根据包络的值来生成与上述的拉普拉斯分布的方差对应的方差参数。但是,在编码对象所属的概率分布上有多样性,不是一概遵照拉普拉斯分布。这样,若对属于从假设排除的分布的编码对象进行同样的比特分配,则压缩效率有可能降低。此外,在导入其他分布时,要不是也还与现有的编码装置同样地生成对于该分布的方差参数并准确地编入频谱包络的凹凸的信息的话,改善效率是比较困难的。
另外,与基于非平滑化振幅频谱包络序列的归一化相比,基于平滑化振幅频谱包络的MDCT序列X(0),X(1),…,X(N-1)的归一化不会对MDCT序列X(0),X(1),…,X(N-1)进行白化。具体而言,与将MDCT系数串X(0),X(1),…,X(N-1)通过非平滑化振幅频谱包络序列^W(0),^W(1),…,^W(N-1)进行归一化而得到的归一化后的序列X(0)/^W(0),X(1)/^W(1),…,X(N-1)/^W(N-1)相比,将MDCT系数串X(0),X(1),…,X(N-1)通过平滑化振幅频谱包络序列^Wγ(0),^Wγ(1),…,^Wγ(N-1)进行归一化而得到的归一化MDCT系数串XN(0)=X(0)/^Wγ(0),XN(1)=X(1)/^Wγ(1),…,XN(N-1)=X(N-1)/^Wγ(N-1),只有^W(0)/^Wγ(0),^W(1)/^Wγ(1),…,^W(N-1)/^Wγ(N-1)的凸凹大。因此,若假设将MDCT系数串X(0),X(1),…,X(N-1)通过非平滑化振幅频谱包络序列^W(0),^W(1),…,^W(N-1)进行归一化而得到的归一化后的序列X(0)/^W(0),X(1)/^W(1),…,X(N-1)/^W(N-1)的包络的凸凹成为平坦化以适合编码部16中的编码的程度,则在被输入到编码部16的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)中,留下由^W(0)/^Wγ(0),^W(1)/^Wγ(1),…,^W(N-1)/^Wγ(N-1)的序列(以下,归一化振幅频谱包络序列^WN(0),^WN(1),…,^WN(N-1))表示的包络的凹凸。
图16表示在归一化MDCT序列的包络的凹凸^W(0)/^Wγ(0),^W(1)/^Wγ(1),…,^W(N-1)/^Wγ(N-1)取各值的情况下的、归一化MDCT系数串中包含的各系数的值的出现频度。envelope:0.2-0.3的曲线表示与归一化MDCT序列的包络的凹凸^W(k)/^Wγ(k)为0.2以上且小于0.3的样本k对应的归一化MDCT系数XN(k)的值的频度。envelope:0.3-0.4的曲线表示与归一化MDCT序列的包络的凹凸^W(k)/^Wγ(k)为0.3以上且小于0.4的样本k对应的归一化MDCT系数XN(k)的值的频度。envelope:0.4-0.5的曲线表示与归一化MDCT序列的包络的凹凸^W(k)/^Wγ(k)为0.4以上且小于0.5的样本k对应的归一化MDCT系数XN(k)的值的频度。
看图16的话可知,在归一化MDCT系数串中包含的各系数的值的平均大致为0,但方差与包络的值具有关联性。即,归一化MDCT序列的包络的凹凸越大则表示频度的曲线的脚部越宽,所以可知有归一化MDCT系数的方差大的关联性。为了实现更加有效的压缩,进行利用了该关联性的编码。具体而言,对成为编码的对象的频域系数串的各系数,进行基于频谱包络而改变比特分配或者比特分配实质上发生改变的编码。
为此,例如,在对量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)进行算术编码的情况下,使用基于频谱包络而决定的方差参数。
此外,在编码对象所属的概率分布上有多样性时,若将假设了属于某概率分布(例如,拉普拉斯分布)的编码对象的最佳的比特分配,对属于从该假设排除的概率分布的编码对象进行,则压缩效率有可能下降。
因此,作为编码对象所属的概率分布,使用能够表现各种概率分布的分布、即通过以下的式而表示的广义高斯分布。
【数4】
Figure BDA0003292737170000101
Figure BDA0003292737170000102
广义高斯分布通过改变作为形状参数的参数η(>0),如图3所示,在η=1时为拉普拉斯分布、在η=2时为高斯分布这样能够表现各种分布。η是大于0的预定的数。η的值可以预先决定、或者在作为预定时间区间的每个帧进行选择或可变。此外,上式的
Figure BDA0003292737170000106
是对应于分布的方差的值,将该值作为方差参数而编入频谱包络的凹凸的信息。即,根据频谱包络而生成方差参数
Figure BDA0003292737170000103
对各频率k中的量化归一化完毕系数XQ(k)构成在遵照
Figure BDA0003292737170000104
时成为最佳的算术码,通过基于该结构的算术码而进行编码。
例如,进一步引入除了预测残差的能量σ2以及全局增益g的信息之外还使用的分布的信息,例如通过以下的式(A1)而计算对于量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数的方差参数。
【数5】
Figure BDA0003292737170000105
其中,σ为σ2的平方根。
具体而言,对将MDCT系数的绝对值进行了η次方后的值的序列进行了傅里叶逆转换的序列进行Levinson-Durbin算法,代替量化线性预测系数^α1,^α2,…,^αp而使用对由此得到的线性预测系数进行了量化的β1,^β2,…,^βp,将非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)和平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)分别通过下述的式(A2)和式(A3)
【数6】
Figure BDA0003292737170000111
Figure BDA0003292737170000112
而求出,并将求出的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各系数除以对应的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)的各系数而得到归一化振幅频谱包络序列^HN(0)=^H(0)/^Hγ(0),^HN(1)=^H(1)/^Hγ(1),…,^HN(N-1)=^H(N-1)/^Hγ(N-1),根据归一化振幅频谱包络序列和全局增益g,通过上述的式(A1)而计算方差参数。
这里,式(A1)的σ2/η/g是与熵密切相关的值,要是比特率固定的话每个帧的值的变动小。因此,作为σ2/η/g,还能够使用预先决定的固定值。在这样使用固定值的情况下,不需要为了本发明的方法而新追加信息。
上述技术是基于将在对量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)进行算术编码时的码长作为标准的最小化问题的技术。以下,叙述上述技术的导出。
若充分细致地进行了量化,则将量化归一化完毕系数XQ(k)分别通过方差参数
Figure BDA0003292737170000113
通过使用了形状参数η的广义高斯分布的算术码进行了编码时的码长与
【数7】
Figure BDA0003292737170000121
成比例。为了减小该码长,考虑基于已经成为量化以及编码的线性预测系数而求出方差参数序列
Figure BDA0003292737170000122
上面的式(A4)通过进行式变形,能够改写为
【数8】
Figure BDA0003292737170000123
其中,设为ln是将纳皮尔数作为底的对数,C是对于方差参数的常数,并且,DIS(X|Y)是X离Y的板仓-斋藤距离
【数9】
Figure BDA0003292737170000124
即,对于方差参数序列的码长L的最小化问题归结到
Figure BDA0003292737170000125
和|XQ(k)|η的板仓-斋藤距离的总和的最小化问题。这里,若将方差参数序列
Figure BDA0003292737170000126
和线性预测系数β12,…,βp、预测残差的能量σ2的对应关系决定一个,则能够建立求出将码长最小化的线性预测系数的优化问题,但为了使用现有的高速解法,这里如下建立对应。
【数10】
Figure BDA0003292737170000127
若忽略量化的影响,则量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)能够使用MDCT序列X(0),X(1),…,X(N-1)和平滑化振幅频谱包络^Hγ(0),^Hγ(1),…,^Hγ(N-1)、全局增益g而分别表示为XQ(k)=X(k)/(g^Hγ(k)),所以依赖于式(A5)的方差参数的项通过式(A6),如
【数11】
Figure BDA0003292737170000131
所示,表示为MDCT系数序列的绝对值和全极型的频谱包络的板仓-斋藤距离。已知现有的线性预测分析、即对将功率谱进行了傅里叶逆转换的序列应用Levinson-Durbin算法是求出将功率谱和全极型的频谱包络的板仓-斋藤距离最小化的线性预测系数的操作。因此,上述的码长最小化问题通过对将振幅谱的η次方、即MDCT系数序列的绝对值的η次方进行了傅里叶逆转换的序列应用Levinson-Durbin算法,能够与现有方法相同地求出最优解。
[第一实施方式]
(编码)
图4表示第一实施方式的编码装置的结构例。如图4所示,第一实施方式的编码装置例如具备频域转换部21、线性预测分析部22、非平滑化振幅频谱包络序列生成部23、平滑化振幅频谱包络序列生成部24、包络归一化部25、编码部26和参数决定部27。图5表示由该编码装置所实现的第一实施方式的编码方法的各处理的例子。
以下,说明图4的各部。
<参数决定部27>
在第一实施方式中,能够由参数决定部27按每预定时间区间选择多个参数η中的任一个。
设在参数决定部27中,多个参数η作为参数η的候选而被存储。参数决定部27依次读出多个参数中的一个参数η,并输出到线性预测分析部22、非平滑化振幅频谱包络序列生成部23以及编码部26(步骤A0)。
频域转换部21、线性预测分析部22、非平滑化振幅频谱包络序列生成部23、平滑化振幅频谱包络序列生成部24、包络归一化部25以及编码部26基于参数决定部27依次读出的各参数η,例如进行以下说明的步骤A1至步骤A6的处理,对与相同的预定时间区间的时序信号对应的频域样本串生成码。一般,将参数η设为给定,存在对与相同的预定时间区间的时序信号对应的频域样本串得到2个以上的码的情况。此时,对于与相同的预定时间区间的时序信号对应的频域样本串的码是汇总了这些得到的2个以上的码的码。在该例中,码汇总了线性预测系数码、增益码和整数信号码。由此,得到对于与相同的预定时间区间的时序信号对应的频域样本串的每个参数η的码。
在步骤A6的处理之后,参数决定部27从对与相同的预定时间区间的时序信号对应的频域样本串按每参数η得到的码中选择一个码,并决定与所选择的码对应的参数η(步骤A7)。该决定的参数η成为对于与该相同的预定时间区间的时序信号对应的频域样本串的参数η。并且,参数决定部27将表示所选择的码以及所决定的参数η的码输出到解码装置。参数决定部27进行的步骤A7的处理的细节将在后面叙述。
以下,设由参数决定部27读出一个参数η,对该读出的一个参数η进行处理。
<频域转换部21>
在频域转换部21中,被输入作为时域的时序信号的声音信号。声音信号的例子是语音数字信号或者音响数字信号。
频域转换部21以预定的时间长度的帧为单位,将输入的时域的声音信号转换为频域的N点的MDCT系数串X(0),X(1),…,X(N-1)(步骤A1)。N是正整数。
得到的MDCT系数串X(0),X(1),…,X(N-1)被输出到线性预测分析部22和包络归一化部25。
只要没有特别限定,则设为以后的处理以帧为单位进行。
这样,频域转换部21求出与声音信号对应的、例如MDCT系数串即频域样本串。
<线性预测分析部22>
在线性预测分析部22中,被输入由频域转换部21得到的MDCT系数串X(0),X(1),…,X(N-1)。
线性预测分析部22使用MDCT系数串X(0),X(1),…,X(N-1),对通过以下的式(A7)而定义的~R(0),~R(1),…,~R(N-1)进行线性预测分析而生成线性预测系数β12,…,βp,并对生成的线性预测系数β12,…,βp进行编码而生成线性预测系数码和与线性预测系数码对应的被量化的线性预测系数即量化线性预测系数^β1,^β2,…,^βp(步骤A2)。
【数12】
Figure BDA0003292737170000151
所生成的量化线性预测系数^β1,^β2,…,^βp被输出到非平滑化频谱包络序列生成部23和平滑化振幅频谱包络序列生成部24。另外,在线性预测分析处理的过程中计算出预测残差的能量σ2。此时,计算出的预测残差的能量σ2被输出到编码部26的方差参数决定部268。
此外,所生成的线性预测系数码被发送给参数决定部27。
具体而言,线性预测分析部22首先进行将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η次方当作功率谱的相当于傅里叶逆转换的运算、即式(A7)的运算,从而求出与MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η次方对应的时域的信号串即伪相关函数信号串~R(0),~R(1),…,~R(N-1)。并且,线性预测分析部22使用求出的伪相关函数信号串~R(0),~R(1),…,~R(N-1)进行线性预测分析,生成线性预测系数β12,…,βp。并且,线性预测分析部22通过对所生成的线性预测系数β12,…,βp进行编码,得到线性预测系数码和与线性预测系数码对应的量化线性预测系数^β1,^β2,…,^βp
线性预测系数β12,…,βp是与在将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η次方当作功率谱时的时域的信号对应的线性预测系数。
线性预测分析部22的线性预测系数码的生成通过例如现有的编码技术进行。现有的编码技术是例如将与线性预测系数本身对应的码设为线性预测系数码的编码技术、将线性预测系数转换为LSP参数而将与LSP参数对应的码设为线性预测系数码的编码技术、将线性预测系数转换为PARCOR系数而将与PARCOR系数对应的码设为线性预测系数码的编码技术等。例如,将与线性预测系数本身对应的码设为线性预测系数码的编码技术是如下技术:预先决定多个量化线性预测系数的候选,各候选预先与线性预测系数码相对应地存储,候选中的任一个作为对于所生成的线性预测系数的量化线性预测系数而被决定,得到量化线性预测系数和线性预测系数码。例如,将与线性预测系数本身对应的码设为线性预测系数码的编码技术是如下技术:预先决定多个量化线性预测系数的候选,各候选预先与线性预测系数码相对应地存储,候选中的任一个作为对于所生成的线性预测系数的量化线性预测系数而被决定,得到量化线性预测系数和线性预测系数码。
这样,线性预测分析部22例如使用通过进行将作为MDCT系数串的频域样本串的绝对值的η次方当作功率谱的傅里叶逆转换而得到的伪相关函数信号串进行线性预测分析,生成能够转换为线性预测系数的系数。
<非平滑化振幅频谱包络序列生成部23>
在非平滑化振幅频谱包络序列生成部23中,被输入由线性预测分析部22所生成的量化线性预测系数^β1,^β2,…,^βp
非平滑化振幅频谱包络序列生成部23生成与量化线性预测系数^β1,^β2,…,^βp对应的振幅频谱包络的序列即非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)(步骤A3)。
所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)被输出到编码部26。
非平滑化振幅频谱包络序列生成部23使用量化线性预测系数^β1,^β2,…,^βp,作为非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1),生成通过式(A2)而定义的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
【数13】
Figure BDA0003292737170000161
这样,非平滑化振幅频谱包络序列生成部23通过得到将与由线性预测分析部22所生成的能够转换为线性预测系数的系数对应的振幅频谱包络的序列进行了1/η次方的序列即非平滑化频谱包络序列,进行频谱包络的估计。这里,将c作为任意的数,将由多个值构成的序列进行了c次方的序列是由将多个值中的每个值进行了c次方的值构成的序列。例如,将振幅频谱包络的序列进行了1/η次方的序列是由将振幅频谱包络的各系数进行了1/η次方的值构成的序列。
非平滑化振幅频谱包络序列生成部23进行的1/η次方的处理是由在线性预测分析部22中进行的将频域样本串的绝对值的η次方当作功率谱的处理所引起的。即,非平滑化振幅频谱包络序列生成部23进行的1/η次方的处理是为了将通过在线性预测分析部22中进行的将频域样本串的绝对值的η次方当作功率谱的处理而成为η次方的值返回到原来的值而进行的。
<平滑化振幅频谱包络序列生成部24>
在平滑化振幅频谱包络序列生成部24中,被输入由线性预测分析部22所生成的量化线性预测系数^β1,^β2,…,^βp
平滑化振幅频谱包络序列生成部24生成削弱与量化线性预测系数^β1,^β2,…,^βp对应的振幅频谱包络的序列的振幅的凸凹的序列即平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)(步骤A4)。
所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)被输出到包络归一化部25以及编码部26。
平滑化振幅频谱包络序列生成部24使用量化线性预测系数^β1,^β2,…,^βp和校正系数γ,作为平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1),生成通过式(A3)而定义的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)。
【数14】
Figure BDA0003292737170000171
这里,校正系数γ是预先决定的小于1的常数,且是削弱非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的振幅的凹凸的系数,换言之是将非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)进行平滑化的系数。
<包络归一化部25>
在包络归一化部25中,被输入由频域转换部21得到的MDCT系数串X(0),X(1),…,X(N-1)以及由平滑化振幅频谱包络生成部24所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)。
包络归一化部25通过使用对应的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)的各值对MDCT系数串X(0),X(1),…,X(N-1)的各系数进行归一化,从而生成归一化MDCT系数串XN(0),XN(1),…,XN(N-1)(步骤A5)。
所生成的归一化MDCT系数串被输出到编码部26。
包络归一化部25例如设为k=0,1,…,N-1,将MDCT系数串X(0),X(1),…,X(N-1)的各系数X(k)除以平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)的各值,从而生成归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的各系数XN(k)。即,设为k=0,1,…,N-1,XN(k)=X(k)/^Hγ(k)。
<编码部26>
在编码部26中,被输入由包络归一化部25所生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)、由非平滑化振幅频谱包络生成部23所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)、由平滑化振幅频谱包络生成部24所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)以及由线性预测分析部22所计算出的平均残差的能量σ2
编码部26通过进行例如图8所示的步骤A61至步骤A65的处理,从而进行编码(步骤A6)。
编码部26求出与归一化MDCT系数串XN(0),XN(1),…,XN(N-1)对应的全局增益g(步骤A61),求出对将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的各系数除以全局增益g所得的结果进行了量化的整数值的序列即量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)(步骤A62),根据全局增益g和非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)和平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)和平均残差的能量σ2,通过式(A1)而求出与量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数对应的方差参数
Figure BDA0003292737170000181
(步骤A63),使用方差参数
Figure BDA0003292737170000182
对量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)进行算术编码而得到整数信号码(步骤A64),得到与全局增益g对应的增益码(步骤A65)。
【数15】
Figure BDA0003292737170000191
这里,上述的式(A1)中的归一化振幅频谱包络序列^HN(0),^HN(1),…,^HN是将非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值除以对应的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)的各值所得的值,即,是通过以下的式(A8)而求出的值。
【数16】
Figure BDA0003292737170000192
所生成的整数信号码和增益码作为与归一化MDCT系数串对应的码而被输出到参数决定部27。
通过步骤A61至步骤A65,编码部26实现如下功能:决定整数信号码的比特数为预先分配的比特数即分配比特数B以下且尽量成为大的值的全局增益g,并生成与所决定的全局增益g对应的增益码和与该所决定的全局增益g对应的整数信号码。
在编码部26进行的步骤A61至步骤A65中包括特征性的处理的是步骤A63,通过对全局增益g和量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的每一个进行编码而得到与归一化MDCT系数串对应的码的编码处理本身中,存在包括在非专利文献1中记载的技术的各种公知技术。以下,说明编码部26进行的编码处理的2个具体例。
[编码部26进行的编码处理的具体例1]
作为编码部26进行的编码处理的具体例1,说明不包括循环处理的例子。
图6表示具体例1的编码部26的结构例。如图6所示,具体例1的编码部26例如具备增益取得部261、量化部262、方差参数决定部268、算术编码部269和增益编码部265。以下,说明图6的各部。
<增益取得部261>
在增益取得部261中,被输入由包络归一化部25所生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)。
增益取得部261从归一化MDCT系数串XN(0),XN(1),…,XN(N-1)中,决定整数信号码的比特数为预先分配的比特数即分配比特数B以下且尽量成为大的值的全局增益g并输出(步骤S261)。增益取得部261例如将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的能量的合计的平方根和与分配比特数B具有负相关的常数的乘法值作为全局增益g来获得并输出。或者,增益取得部261也可以将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的能量的合计、分配比特数B、全局增益g的关系预先表格化,通过参照该表格而得到全局增益g并输出。
这样,增益取得部261得到用于对例如归一化MDCT系数串即归一化频域样本串的全部样本进行除法运算的增益。
得到的全局增益g被输出到量化部262以及方差参数决定部268。
<量化部262>
在量化部262中,被输入由包络归一化部25所生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)以及由增益取得部261得到的全局增益g。
量化部262得到将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的各系数除以全局增益g所得的结果的整数部分的序列即量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1),并输出(步骤S262)。
这样,量化部262例如将归一化MDCT系数串即归一化频域样本串的各样本除以增益,且量化而求出量化归一化完毕系数序列。
得到的量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)被输出到算术编码部269。
<方差参数决定部268>
在方差参数决定部268中,被输入由参数决定部27所读出的参数η、由增益取得部261所得到的全局增益g、由非平滑化振幅频谱包络生成部23所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)、由平滑化振幅频谱包络生成部24所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)以及由线性预测分析部22所得到的预测残差的能量σ2
方差参数决定部268根据全局增益g、非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)、平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)和预测残差的能量σ2,通过上述的式(A1)、式(A8),得到方差参数序列
Figure BDA0003292737170000201
的各方差参数并输出(步骤S268)。
得到的方差参数序列
Figure BDA0003292737170000211
被输出到算术编码部269。
<算术编码部269>
在算术编码部269中,被输入由参数决定部27读出的参数η、量化部262得到的量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)以及方差参数决定部268得到的方差参数序列
Figure BDA0003292737170000212
算术编码部269使用方差参数序列
Figure BDA0003292737170000213
的各方差参数作为与量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数对应的方差参数,对量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)进行算术编码而得到整数信号码,并输出(步骤S269)。
算术编码部269在算术编码时,通过算术码进行在量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数遵照广义高斯分布
Figure BDA0003292737170000214
时成为最佳的比特分配,通过基于进行的比特分配的算术码进行编码。
得到的整数信号码被输出到参数决定部27。
也可以横跨量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)中的多个系数而进行算术编码。此时,从式(A1)、式(A8)可知,方差参数序列
Figure BDA0003292737170000215
的各方差参数基于非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1),所以可以说算术编码部269进行基于所估计的频谱包络(非平滑化振幅频谱包络)而比特分配实质上发生改变的编码。
<增益编码部265>
在增益编码部265中,被输入由增益取得部261得到的全局增益g。
增益编码部265对全局增益g进行编码而得到增益码,并输出(步骤S265)。
所生成的整数信号码和增益码作为与归一化MDCT系数串对应的码而被输出到参数决定部27。
本具体例1的步骤S261、S262、S268、S269、S265分别对应于上述的步骤A61、A62、A63、A64、A65。
[编码部26进行的编码处理的具体例2]
作为编码部26进行的编码处理的具体例2,说明包括循环处理的例子。
图7表示具体例2的编码部26的结构例。如图7所示,具体例2的编码部26例如具备增益取得部261、量化部262、方差参数决定部268、算术编码部269、增益编码部265、判定部266和增益更新部267。以下,说明图7的各部。
<增益取得部261>
在增益取得部261中,被输入由包络归一化部25所生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)。
增益取得部261从归一化MDCT系数串XN(0),XN(1),…,XN(N-1)中,决定整数信号码的比特数为预先分配的比特数即分配比特数B以下且尽量成为大的值的全局增益g并输出(步骤S261)。增益取得部261例如将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的能量的合计的平方根和与分配比特数B具有负相关的常数的乘法值作为全局增益g来获得并输出。
得到的全局增益g被输出到量化部262以及方差参数决定部268。
增益取得部261得到的全局增益g成为在量化部262以及方差参数决定部268中使用的全局增益的初始值。
<量化部262>
在量化部262中,被输入由包络归一化部25所生成的归一化MDCT系数串XN(0),XN(1),…,XN(N-1)以及由增益取得部261或者增益更新部267得到的全局增益g。
量化部262得到将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的各系数除以全局增益g所得的结果的整数部分的序列即量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1),并输出(步骤S262)。
这里,量化部262在第一次执行时使用的全局增益g是由增益取得部261得到的全局增益g、即全局增益的初始值。此外,量化部262在第二次以后执行时使用的全局增益g是由增益更新部267得到的全局增益g、即全局增益的更新值。
得到的量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)被输出到算术编码部269。
<方差参数决定部268>
在方差参数决定部268中,被输入由参数决定部27所读出的参数η、由增益取得部261或者增益更新部267得到的全局增益g、由非平滑化振幅频谱包络生成部23所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)、由平滑化振幅频谱包络生成部24所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)以及由线性预测分析部22得到的预测残差的能量σ2
方差参数决定部268根据全局增益g、非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)、平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)和预测残差的能量σ2,通过上述的式(A1)、式(A8),得到方差参数序列
Figure BDA0003292737170000231
的各方差参数并输出(步骤S268)。
这里,方差参数决定部268在第一次执行时使用的全局增益g是由增益取得部261得到的全局增益g、即全局增益的初始值。此外,方差参数决定部268在第二次以后执行时使用的全局增益g是由增益更新部267得到的全局增益g、即全局增益的更新值。
得到的方差参数序列
Figure BDA0003292737170000232
被输出到算术编码部269。
<算术编码部269>
在算术编码部269中,被输入由参数决定部27所读出的参数η、由量化部262得到的量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)以及由方差参数决定部268得到的方差参数序列
Figure BDA0003292737170000233
算术编码部269使用方差参数序列
Figure BDA0003292737170000234
的各方差参数作为与量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数对应的方差参数,对量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)进行算术编码,得到整数信号码和作为整数信号码的比特数的消耗比特数C,并输出(步骤S269)。
算术编码部269在算术编码时,构成在量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数遵照广义高斯分布
Figure BDA0003292737170000235
时成为最佳的算术码,通过基于该结构的算术码进行编码。其结果,对于量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数的比特分配的期待值通过方差参数序列
Figure BDA0003292737170000236
而被决定。
得到的整数信号码以及消耗比特数C被输出到判定部266。
也可以横跨量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)中的多个系数而进行算术编码。此时,从式(A1)、式(A8)可知,由于方差参数序列
Figure BDA0003292737170000237
的各方差参数基于非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1),所以可以说算术编码部269进行基于所估计的频谱包络(非平滑化振幅频谱包络)而比特分配实质上发生改变的编码。
<判定部266>
在判定部266中,被输入由算术编码部269得到的整数信号码。
判定部266在增益的更新次数为预先决定的次数的情况下,输出整数信号码,且对增益编码部265输出对由增益更新部267得到的全局增益g进行编码的指示信号,在增益的更新次数小于预先决定的次数的情况下,对增益更新部267输出由算术编码部264所测量的消耗比特数C(步骤S266)。
<增益更新部267>
在增益更新部267中,被输入由算术编码部264所测量的消耗比特数C。
增益更新部267在消耗比特数C多于分配比特数B的情况下,将全局增益g的值更新为大的值并输出,在消耗比特数C少于分配比特数B的情况下,将全局增益g的值更新为小的值,并输出更新后的全局增益g的值(步骤S267)。
增益更新部267得到的更新后的全局增益g被输出到量化部262以及增益编码部265。
<增益编码部265>
在增益编码部265中,被输入来自判定部266的输出指示以及由增益更新部267得到的全局增益g。
增益编码部265根据指示信号,对全局增益g进行编码而得到增益码并输出(步骤265)。
判定部266输出的整数信号码和增益编码部265输出的增益码作为与归一化MDCT系数串对应的码而被输出到参数决定部27。
即,在本具体例2中,最后进行的步骤S267对应于上述的步骤A61,步骤S262、S263、S264、S265分别对应于上述的步骤A62、A63、A64、A65。
另外,关于编码部26进行的编码处理的具体例2,在国际公开公报WO2014/054556等中进一步详细说明。
[编码部26的变形例]
编码部26也可以通过进行例如以下的处理,进行基于所估计的频谱包络(非平滑化振幅频谱包络)而改变比特分配的编码。
编码部26首先求出与归一化MDCT系数串XN(0),XN(1),…,XN(N-1)对应的全局增益g,求出对将归一化MDCT系数串XN(0),XN(1),…,XN(N-1)的各系数除以全局增益g所得的结果进行了量化的整数值的序列即量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)。
假设与该量化归一化完毕系数序列XQ(0),XQ(1),…,XQ(N-1)的各系数对应的量化比特在有XQ(k)的分布的范围内一致,能够根据包络的估计值而决定该范围。还能够对每多个样本的包络的估计值进行编码,但编码部26例如能够使用如以下的式(A9)那样基于线性预测的归一化振幅频谱包络序列的值^HN(k)来决定XQ(k)的范围。
【数17】
Figure BDA0003292737170000251
在对某k中的XQ(k)进行量化时,为了将XQ(k)的平方误差设为最小,能够基于
【数18】
Figure BDA0003292737170000252
的限制,设定要分配的比特数b(k)
【数19】
Figure BDA0003292737170000253
B是预先决定的正整数。此时,编码部26可以进行四舍五入以使b(k)成为整数或者在小于0的情况下设为b(k)=0等,进行b(k)的再调整的处理。
此外,编码部26还能够汇总多个样本而决定分配比特数,而不是每个样本的分配,对于量化也进行汇总多个样本的每个矢量的量化,而不是每个样本的标量量化。
若样本k的XQ(k)的量化比特数b(k)在上面提供,按每个样本进行编码,则XQ(k)可取-2b(k)-1至2b(k)-1这2b(k)种整数。编码部26以b(k)比特对各样本进行编码而得到整数信号码。
所生成的整数信号码被输出到解码装置。例如,与所生成的XQ(k)对应的b(k)比特的整数信号码从k=0开始依次输出到解码装置。
假设XQ(k)超过上述的-2b(k)-1至2b(k)-1的范围的情况下,被置换为最大值或者最小值。
g过小则在该置换中产生量化失真,g过大则量化误差变大,XQ(k)可取的范围与b(k)相比变得过小,不能有效利用信息。因此,可以进行g的优化。
编码部26对全局增益g进行编码而得到增益码并输出。
如该编码部26的变形例所示,编码部26可以进行算术编码以外的编码。
<参数决定部27>
通过步骤A1至步骤A6的处理,对与相同的预定时间区间的时序信号对应的频域样本串按每个参数η生成的码(在该例中,线性预测系数码、增益码以及整数信号码)被输入到参数决定部27。
参数决定部27从对与相同的预定时间区间的时序信号对应的频域样本串按每个参数η得到的码中选择一个码,并决定与所选择的码对应的参数η(步骤A7)。该决定的参数η成为对于与该相同的预定时间区间的时序信号对应的频域样本串的参数η。并且,参数决定部27将所选择的码以及表示所决定的参数η的参数码输出到解码装置。码的选择基于码的码量以及与码对应的编码失真中的至少一方进行。例如,选择码量最小的码或者编码失真最小的码。
这里,编码失真是指从输入信号得到的频域样本串和通过对所生成的码进行本地解码而得到的频域样本串的误差。编码装置可以具备用于计算编码失真的编码失真计算部。该编码失真计算部具备进行与以下叙述的解码装置相同的处理的解码部,对该解码部所生成的码进行本地解码。之后,编码失真计算部计算从输入信号得到的频域样本串和通过进行本地解码而得到的频域样本串的误差,并设为编码失真。
(解码)
图9表示与编码装置对应的解码装置的结构例。如图9所示,第一实施方式的解码装置例如具备线性预测系数解码部31、非平滑化振幅频谱包络序列生成部32、平滑化振幅频谱包络序列生成部33、解码部34、包络反归一化部35、时域转换部36和参数解码部37。图10表示由该解码装置所实现的第一实施方式的解码方法的各处理的例子。
在解码装置中,至少被输入由编码装置所输出的参数码、与归一化MDCT系数串对应的码以及线性预测系数码。
以下,说明图9的各部。
<参数解码部37>
在参数解码部37中,被输入由编码装置所输出的参数码。
参数解码部37通过对参数码进行解码而求出解码参数η。求出的解码参数η被输出到非平滑化振幅频谱包络序列生成部32、平滑化振幅频谱包络序列生成部33以及解码部34。在参数解码部37中,多个解码参数η作为候选而被存储。参数解码部37求出与参数码对应的解码参数η的候选作为解码参数η。在参数解码部37中存储的多个解码参数η与在编码装置的参数决定部27中存储的多个参数η相同。
<线性预测系数解码部31>
在线性预测系数解码部31中,被输入由编码装置所输出的线性预测系数码。
线性预测系数解码部31按每个帧,对被输入的线性预测系数码通过例如现有的解码技术进行解码,从而得到解码线性预测系数^β1,^β2,…,^βp(步骤B1)。
得到的解码线性预测系数^β1,^β2,…,^βp被输出到非平滑化振幅频谱包络序列生成部32以及非平滑化振幅频谱包络序列生成部33。
这里,现有的解码技术例如是如下技术等:在线性预测系数码为与被量化的线性预测系数对应的码的情况下,得到与对线性预测系数码进行解码而被量化的线性预测系数相同的解码线性预测系数的技术;在线性预测系数码为与被量化的LSP参数对应的码的情况下,得到与对线性预测系数码进行解码而被量化的LSP参数相同的解码LSP参数的技术。此外,众所周知,线性预测系数和LSP参数能够相互转换,根据被输入的线性预测系数码和后级的处理中所需的信息,进行解码线性预测系数和解码LSP参数之间的转换处理即可。以上,包括上述的线性预测系数码的解码处理和根据需要而进行的上述的转换处理的技术成为“基于现有的解码技术的解码”。
这样,线性预测系数解码部31通过对被输入的线性预测系数码进行解码,生成能够转换为与伪相关函数信号串对应的线性预测系数的系数,该伪相关函数信号串通过进行将与时序信号对应的频域样本串的绝对值的η次方当作功率谱的傅里叶逆转换而得到。
<非平滑化振幅频谱包络序列生成部32>
在非平滑化振幅频谱包络序列生成部32中,被输入由参数解码部37求出的解码参数η以及由线性预测系数解码部31得到的解码线性预测系数^β1,^β2,…,^βp
非平滑化振幅频谱包络序列生成部32通过上述的式(A2)而生成与解码线性预测系数^β1,^β2,…,^βp对应的振幅频谱包络的序列即非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)(步骤B2)。
所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)被输出到解码部34。
这样,非平滑化振幅频谱包络序列生成部32得到将与由线性预测系数解码部31所生成的能够转换为线性预测系数的系数对应的振幅频谱包络的序列进行了1/η次方的序列即非平滑化频谱包络序列。
<平滑化振幅频谱包络序列生成部33>
在平滑化振幅频谱包络序列生成部33中,被输入由参数解码部37求出的解码参数η以及由线性预测系数解码部31得到的解码线性预测系数^β1,^β2,…,^βp
平滑化振幅频谱包络序列生成部33通过上述的式A(3)而生成削弱与解码线性预测系数^β1,^β2,…,^βp对应的振幅频谱包络的序列的振幅的凹凸的序列即平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)(步骤B3)。
所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)被输出到解码部34以及包络反归一化部35。
<解码部34>
在解码部34中,被输入由参数解码部37求出的解码参数η、与由编码装置输出的归一化MDCT系数串对应的码、由非平滑化振幅频谱包络生成部32所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)以及由平滑化振幅频谱包络生成部33所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)。
解码部34具备方差参数决定部342。
解码部34例如进行图11所示的步骤B41至步骤B44的处理,从而进行解码(步骤B4)。即,解码部34按每个帧对在与被输入的归一化MDCT系数串对应的码中包含的增益码进行解码而得到全局增益g(步骤B41)。解码部34的方差参数决定部342根据全局增益g和非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)和平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1),通过上述的式(A1),求出方差参数序列
Figure BDA0003292737170000281
的各方差参数(步骤B42)。解码部34根据与方差参数序列
Figure BDA0003292737170000282
的各方差参数对应的算术解码的结构,对在与归一化MDCT系数串对应的码中包含的整数信号码进行算术解码而得到解码归一化完毕系数序列^XQ(0),^XQ(1),…,^XQ(N-1)(步骤B43),对解码归一化完毕系数序列^XQ(0),^XQ(1),…,^XQ(N-1)的各系数乘以全局增益g而生成解码归一化MDCT系数串^XN(0),^XN(1),…,^XN(N-1)(步骤B44)。这样,解码部34可以根据基于非平滑化频谱包络序列而实质上发生改变的比特分配,进行被输入的整数信号码的解码。
另外,在通过[编码部26的变形例]中记载的处理进行了编码的情况下,解码部34例如进行以下的处理。解码部34按每个帧对在与被输入的归一化MDCT系数串对应的码中包含的增益码进行解码而得到全局增益g。解码部34的方差参数决定部342根据非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)和平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1),通过上述的式(A9),求出方差参数序列
Figure BDA0003292737170000292
的各方差参数。解码部34能够基于方差参数序列
Figure BDA0003292737170000291
的各方差参数
Figure BDA0003292737170000293
通过式(A10)而求出b(k),将XQ(k)的值通过其比特数b(k)依次进行解码而得到解码归一化完毕系数序列^XQ(0),^XQ(1),…,^XQ(N-1),对解码归一化完毕系数序列^XQ(0),^XQ(1),…,^XQ(N-1)的各系数乘以全局增益g而生成解码归一化MDCT系数串^XN(0),^XN(1),…,^XN(N-1)。这样,解码部34可以根据基于非平滑化频谱包络序列而发生改变的比特分配,进行被输入的整数信号码的解码。
所生成的解码归一化MDCT系数串^XN(0),^XN(1),…,^XN(N-1)被输出到包络反归一化部35。
<包络反归一化部35>
在包络反归一化部35中,被输入由平滑化振幅频谱包络生成部33所生成的平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)以及由解码部34所生成的解码归一化MDCT系数串^XN(0),^XN(1),…,^XN(N-1)。
包络反归一化部35使用平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1),对解码归一化MDCT系数串^XN(0),^XN(1),…,^XN(N-1)进行反归一化,从而生成解码MDCT系数串^X(0),^X(1),…,^X(N-1)(步骤B5)。
所生成的解码MDCT系数串^X(0),^X(1),…,^X(N-1)被输出到时域转换部36。
例如,包络反归一化部35设为k=0,1,…,N-1,对解码归一化MDCT系数串^XN(0),^XN(1),…,^XN(N-1)的各系数^XN(k)乘以平滑化振幅频谱包络序列^Hγ(0),^Hγ(1),…,^Hγ(N-1)的各包络值^Hγ(k)而生成解码MDCT系数串^X(0),^X(1),…,^X(N-1)。即,设为k=0,1,…,N-1,^X(k)=^XN(k)×^Hγ(k)。
<时域转换部36>
在时域转换部36中,被输入由包络反归一化部35所生成的解码MDCT系数串^X(0),^X(1),…,^X(N-1)。
时域转换部36按每个帧将由包络反归一化部35得到的解码MDCT系数串^X(0),^X(1),…,^X(N-1)转换为时域而得到帧单位的声音信号(解码声音信号)(步骤B6)。
这样,解码装置通过频域中的解码而得到时序信号。
[第二实施方式]
第一实施方式的编码装置以及方法是对多个参数η中的每个参数进行编码而生成码,从按每个参数η生成的码中选择最佳的码,输出所选择的码以及与所选择的码对应的参数码的编码装置以及方法。
相对于此,第二实施方式的编码装置以及方法是首先参数决定部27决定参数η,基于所决定的参数η进行编码而生成码并输出的编码装置以及方法。在第二实施方式中,参数η按每预定时间区间根据参数决定部27成为可变。这里,参数η按每预定时间区间成为可变意味着若预定时间区间变化则参数η也可以变化,设在相同的时间区间中参数η的值不变。
以下,以与第一实施方式不同的部分为中心进行说明。关于与第一实施方式同样的部分,省略重复说明。
(编码)
图12表示第二实施方式的编码装置的结构例。如图12所示,编码装置例如具备频域转换部21、线性预测分析部22、非平滑化振幅频谱包络序列生成部23、平滑化振幅频谱包络序列生成部24、包络归一化部25、编码部26和参数决定部27’。图13表示由该编码装置所实现的编码方法的各处理的例子。
以下,说明图12的各部。
<参数决定部27’>
在参数决定部27’中,被输入作为时序信号的时域的声音信号。声音信号的例子是语音数字信号或者音响数字信号。
参数决定部27’基于被输入的时序信号,通过后述的处理而决定参数η(步骤A7’)。
由参数决定部27’所决定的η被输出到线性预测分析部22、非平滑化振幅频谱包络估计部23、平滑化振幅频谱包络估计部24以及编码部26。
此外,参数决定部27’通过对所决定的η进行编码而生成参数码。所生成的参数码被发送给解码装置。
关于参数决定部27’的细节,将在后面叙述。
频域转换部21、线性预测分析部22、非平滑化振幅频谱包络序列生成部23、平滑化振幅频谱包络序列生成部24、包络归一化部25以及编码部26基于参数决定部27’所决定的参数η,通过与第一实施方式同样的处理而生成码(步骤A1至步骤A6)。在该例中,码是汇总了线性预测系数码、增益码、整数信号码的码。所生成的码被发送给解码装置。
图14表示参数决定部27’的结构例。如图14所示,参数决定部27’例如具备频域转换部41、频谱包络估计部42、白化频谱序列生成部43和参数取得部44。频谱包络估计部42例如具备线性预测分析部421以及非平滑化振幅频谱包络序列生成部422。例如,图2表示由该参数决定部27’所实现的参数决定方法的各处理的例子。
以下,说明图14的各部。
<频域转换部41>
在频域转换部41中,被输入作为时序信号的时域的声音信号。声音信号的例子是语音数字信号或者音响数字信号。
频域转换部41以预定的时间长度的帧为单位,将被输入的时域的声音信号转换为频域的N点的MDCT系数串X(0),X(1),…,X(N-1)。N是正整数。
得到的MDCT系数串X(0),X(1),…,X(N-1)被输出到频谱包络估计部42以及白化频谱序列生成部43。
只要没有特别限定,则设为以后的处理以帧为单位进行。
这样,频域转换部41求出与声音信号对应的、例如MDCT系数串即频域样本串(步骤C41)。
<频谱包络估计部42>
在频谱包络估计部42中,被输入由频域转换部41得到的MDCT系数串X(0),X(1),…,X(N-1)。
频谱包络估计部42基于通过预定的方法而确定的参数η0,进行将与时序信号对应的频域样本串的绝对值的η0次方作为功率谱来使用的频谱包络的估计(步骤C42)。
所估计的频谱包络被输出到白化频谱序列生成部43。
频谱包络估计部42例如通过以下说明的线性预测分析部421以及非平滑化振幅频谱包络序列生成部422的处理,生成非平滑化振幅频谱包络序列,从而进行频谱包络的估计。
设参数η0通过预定的方法而决定。例如,将η0设为大于0的预定的数。例如,设η0=1。此外,可以使用比想要求出当前参数η的帧更早的帧中求出的η。比想要求出当前参数η的帧(以下,设为当前帧)更早的帧是例如比当前帧更早的帧且是当前帧的附近的帧。当前帧的附近的帧是例如当前帧的前一帧。
<线性预测分析部421>
在线性预测分析部421中,被输入由频域转换部41得到的MDCT系数串X(0),X(1),…,X(N-1)。
线性预测分析部421使用MDCT系数串X(0),X(1),…,X(N-1),对通过以下的式(C1)而定义的~R(0),~R(1),…,~R(N-1)进行线性预测分析,生成线性预测系数β12,…,βp,并对所生成的线性预测系数β12,…,βp进行编码而生成线性预测系数码和与线性预测系数码对应的被量化的线性预测系数即量化线性预测系数^β1,^β2,…,^βp
【数20】
Figure BDA0003292737170000321
所生成的量化线性预测系数^β1,^β2,…,^βp被输出到非平滑化频谱包络序列生成部422。
具体而言,线性预测分析部421首先通过进行将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方当作功率谱的相当于傅里叶逆转换的运算、即式(C1)的运算,求出与MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η次方对应的时域的信号串即伪相关函数信号串~R(0),~R(1),…,~R(N-1)。并且,线性预测分析部421使用求出的伪相关函数信号串~R(0),~R(1),…,~R(N-1)进行线性预测分析,生成线性预测系数β12,…,βp。并且,线性预测分析部421通过对所生成的线性预测系数β12,…,βp进行编码,得到线性预测系数码和与线性预测系数码对应的量化线性预测系数^β1,^β2,…,^βp
线性预测系数β12,…,βp是与将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方当作功率谱时的时域的信号对应的线性预测系数。
线性预测分析部421的线性预测系数码的生成例如通过现有的编码技术进行。现有的编码技术例如是如下编码技术等:将与线性预测系数本身对应的码设为线性预测系数码的编码技术;将线性预测系数转换为LSP参数而将与LSP参数对应的码设为线性预测系数码的编码技术;将线性预测系数转换为PARCOR系数而将与PARCOR系数对应的码设为线性预测系数码的编码技术。
这样,线性预测分析部421例如使用通过进行将MDCT系数串即频域样本串的绝对值的η次方当作功率谱的傅里叶逆转换而得到的伪相关函数信号串进行线性预测分析,生成能够转换为线性预测系数的系数(步骤C421)。
<非平滑化振幅频谱包络序列生成部422>
在非平滑化振幅频谱包络序列生成部422中,被输入由线性预测分析部421所生成的量化线性预测系数^β1,^β2,…,^βp
非平滑化振幅频谱包络序列生成部422生成与量化线性预测系数^β1,^β2,…,^βp对应的振幅频谱包络的序列即非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)被输出到白化频谱序列生成部43。
非平滑化振幅频谱包络序列生成部422使用量化线性预测系数^β1,^β2,…,^βp,作为非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1),生成通过式(C2)而定义的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
【数21】
Figure BDA0003292737170000331
这样,非平滑化振幅频谱包络序列生成部422通过基于由线性预测分析部421所生成的能够转换为线性预测系数的系数而得到将与伪相关函数信号串对应的振幅频谱包络的序列进行了1/η0次方的序列即非平滑化频谱包络序列,进行频谱包络的估计(步骤C422)。
<白化频谱序列生成部43>
在白化频谱序列生成部43中,被输入由频域转换部41得到的MDCT系数串X(0),X(1),…,X(N-1)以及由非平滑化振幅频谱包络生成部422所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
白化频谱序列生成部43通过将MDCT系数串X(0),X(1),…,X(N-1)的各系数除以对应的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值,生成白化频谱序列XW(0),XW(1),…,XW(N-1)。
所生成的白化频谱序列XW(0),XW(1),…,XW(N-1)被输出到参数取得部44。
白化频谱序列生成部43例如设为k=0,1,…,N-1,通过将MDCT系数串X(0),X(1),…,X(N-1)的各系数X(k)除以非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值^H(k),从而生成白化频谱序列XW(0),XW(1),…,XW(N-1)的各值XW(k)。即,设为k=0,1,…,N-1,XW(k)=X(k)/^H(k)。
这样,白化频谱序列生成部43得到将例如MDCT系数串即频域样本串除以例如非平滑化振幅频谱包络序列即频谱包络所得的序列即白化频谱序列(步骤C43)。
<参数取得部44>
在参数取得部44中,被输入由白化频谱序列生成部43所生成的白化频谱序列XW(0),XW(1),…,XW(N-1)。
参数取得部44求出将参数η设为形状参数的广义高斯分布对白化频谱序列XW(0),XW(1),…,XW(N-1)的直方图进行近似的参数η(步骤C44)。换言之,参数取得部44决定将参数η设为形状参数的广义高斯分布接近白化频谱序列XW(0),XW(1),…,XW(N-1)的直方图的分布的参数η。
将参数η设为形状参数的广义高斯分布例如以下那样定义。γ是伽马函数。
【数22】
Figure BDA0003292737170000351
Figure BDA0003292737170000352
广义高斯分布通过改变作为形状参数的η,如图3所示,在η=1时为拉普拉斯分布、在η=2时为高斯分布这样能够表现各种分布。
Figure BDA0003292737170000356
是与方差对应的参数。
这里,参数取得部44求出的η例如通过以下的式(C3)而定义。F-1是函数F的逆函数。该式通过所谓的矩量(moment)法而导出。
【数23】
Figure BDA0003292737170000353
Figure BDA0003292737170000354
Figure BDA0003292737170000355
在逆函数F-1被显式定义的情况下,参数取得部44通过计算在对显式定义的逆函数F-1输入了m1/((m2)1/2)的值时的输出值,能够求出参数η。
在逆函数F-1没有被显式定义的情况下,参数取得部44为了计算在式(C3)中定义的η的值,例如,可以通过以下说明的第一方法或者第二方法而求出参数η。
说明用于求出参数η的第一方法。在第一方法中,参数取得部44基于白化频谱序列而计算m1/((m2)1/2),参照预先准备的不同的多个η和与η对应的F(η)的对,取得与最接近所计算的m1/((m2)1/2)的F(η)对应的η。
预先准备的不同的多个η和与η对应的F(η)的对预先存储在参数取得部44的存储部441中。参数取得部44参照存储部441,找出最接近所计算的m1/((m2)1/2)的F(η),并从存储部441读入与所找到的F(η)对应的η并输出。
最接近所计算的m1/((m2)1/2)的F(η)是指与所计算的m1/((m2)1/2)之差的绝对值变得最小的F(η)。
说明用于求出参数η的第二方法。在第二方法中,将逆函数F-1的近似曲线函数作为例如通过以下的式(C3’)表示的~F-1,参数取得部44基于白化频谱序列而计算m1/((m2)1/2),通过计算在对近似曲线函数~F-1输入了所计算的m1/((m2)1/2)时的输出值而求出η。
另外,参数取得部44求出的η可以通过使用不是如式(C3)那样而是如式(C3″)那样预先决定的正整数q1以及q2(其中,q1<q2),将式(C3)设为一般化的式而被定义。
【数24】
Figure BDA0003292737170000361
Figure BDA0003292737170000362
Figure BDA0003292737170000363
另外,在η通过式(C3″)而被定义的情况下,也能够通过与η通过式(C3)而被定义的情况同样的方法来求出η。即,参数取得部44基于白化频谱序列而计算出基于作为其q1次力矩(moment)的mq1和作为其q2次力矩的mq2的值mq1/((mq2)q1/q2)之后,例如,能够与上述的第一以及第二方法同样地,参照预先准备的不同的多个η和与η对应的F’(η)的对,取得与最接近所计算的mq1/((mq2)q1/q2)的F’(η)对应的η,或者将逆函数F’-1的近似曲线函数作为~F’-1,计算在对近似曲线函数~F-1输入了所计算的mq1/((mq2)q1/q2)时的输出值而求出η。
这样,也可以说η是基于阶数(order)不同的2个不同的力矩mq1,mq2的值。例如,可以根据在阶数不同的2个不同的力矩mq1,mq2中阶数更低的力矩的值或者基于它的值(以下,设为前者)与阶数更高的力矩的值或者基于它的值(以下,设为后者)之比的值、基于该比的值的值、或者将前者除以后者所得的值,求出η。基于力矩的值例如将其力矩设为m且将Q作为预定的实数的话是mQ。此外,可以将这些值输入到近似曲线函数~F-1而求出η。与上述同样地,该近似曲线函数~F’-1是在使用的定义域中输出成为正值的单调递增函数即可。
参数决定部27’可以通过循环处理而求出参数η。即,参数决定部27’可以把将在参数取得部44中求出的参数η设为通过预定的方法而确定的参数η0的、频谱包络估计部42、白化频谱序列生成部43以及参数取得部44的处理进一步进行一次以上。
此时,例如,如在图14中虚线所示,在参数取得部44中求出的参数η被输出到频谱包络估计部42。频谱包络估计部42将在参数取得部44中求出的η作为参数η0来使用,进行与上述说明的处理同样的处理,进行频谱包络的估计。白化频谱序列生成部43基于新估计出的频谱包络,进行与上述说明的处理同样的处理,生成白化频谱序列。参数取得部44基于新生成的白化频谱序列,进行与上述说明的处理同样的处理,求出参数η。
例如,频谱包络估计部42、白化频谱序列生成部43以及参数取得部44的处理可以进一步进行预定的次数即τ次。τ是预定的正整数,例如,τ=1或者τ=2。
此外,频谱包络估计部42可以直到本次求出的参数η和前一次求出的参数η之差的绝对值成为预定的阈值以下为止,重复频谱包络估计部42、白化频谱序列生成部43以及参数取得部44的处理。
(解码)
由于第二实施方式的解码装置以及方法与第一实施方式是同样的,所以省略重复说明。
[[第二实施方式的变形例]]
另外,若至少基于参数η而能够确定编码处理的结构,则编码处理可以是任意处理,也可以使用编码部26的编码处理以外的编码处理。
以下,叙述编码处理并不限定于编码部26进行的编码处理的、第二实施方式的变形例。
(编码)
说明第二实施方式的变形例的编码装置以及方法的一例。
如图17所示,第二实施方式的变形例的编码装置例如具备参数决定部27’、音响特征量提取部521、确定部522以及编码部523。通过编码装置的各部进行图18中例示的各处理,从而实现编码方法。
以下,说明编码装置的各部。
<参数决定部27’>
在参数决定部27’中,被输入作为时序信号的帧单位的时域的声音信号。声音信号的例子是语音数字信号或者音响数字信号。
参数决定部27’基于被输入的时序信号,通过后述的处理而决定参数η(步骤FE1)。参数决定部27’按预定的时间长度的每个帧进行处理。即,按每个帧决定参数η。
由参数决定部27’所决定的参数η被输出到确定部522。
图21表示参数决定部27’的结构例。如图21所示,参数决定部27’例如具备频域转换部41、频谱包络估计部42、白化频谱序列生成部43和参数取得部44。频谱包络估计部42例如具备线性预测分析部421以及非平滑化振幅频谱包络序列生成部422。例如,图22表示由该参数决定部27’所实现的参数决定方法的各处理的例子。
以下,说明图21的各部。
<频域转换部41>
在频域转换部41中,被输入作为时序信号的时域的声音信号。
频域转换部41以预定的时间长度的帧为单位,将被输入的时域的声音信号转换为频域的N点的MDCT系数串X(0),X(1),…,X(N-1)。N为正整数。
得到的MDCT系数串X(0),X(1),…,X(N-1)被输出到频谱包络估计部42以及白化频谱序列生成部43。
只要没有特别限定,则设为以后的处理以帧为单位进行。
这样,频域转换部41求出与时序信号对应的、例如MDCT系数串即频域样本串(步骤C41)。
<频谱包络估计部42>
在频谱包络估计部42中,被输入由频域转换部41得到的MDCT系数串X(0),X(1),…,X(N-1)。
频谱包络估计部42基于通过预定的方法而确定的参数η0,进行将与时序信号对应的频域样本串的绝对值的η0次方作为功率谱来使用的频谱包络的估计(步骤C42)。
所估计的频谱包络被输出到白化频谱序列生成部43。
频谱包络估计部42例如通过以下说明的线性预测分析部421以及非平滑化振幅频谱包络序列生成部422的处理,生成非平滑化振幅频谱包络序列,从而进行频谱包络的估计。
设参数η0通过预定的方法而决定。例如,将η0设为大于0的预定的数。例如,设η0=1。此外,可以使用比想要求出当前参数η的帧更早的帧中求出的η。比想要求出当前参数η的帧(以下,设为当前帧)更早的帧是例如比当前帧更早的帧且是当前帧的附近的帧。当前帧的附近的帧是例如当前帧的前一帧。
<线性预测分析部421>
在线性预测分析部421中,被输入由频域转换部41得到的MDCT系数串X(0),X(1),…,X(N-1)。
线性预测分析部421使用MDCT系数串X(0),X(1),…,X(N-1),对通过以下的式(C1)而定义的~R(0),~R(1),…,~R(N-1)进行线性预测分析,生成线性预测系数β12,…,βp,并对所生成的线性预测系数β12,…,βp进行编码而生成线性预测系数码和与线性预测系数码对应的被量化的线性预测系数即量化线性预测系数^β1,^β2,…,^βp
【数25】
Figure BDA0003292737170000391
所生成的量化线性预测系数^β1,^β2,…,^βp被输出到非平滑化频谱包络序列生成部422。
具体而言,线性预测分析部421首先通过进行将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方当作功率谱的相当于傅里叶逆转换的运算、即式(C1)的运算,求出与MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η次方对应的时域的信号串即伪相关函数信号串~R(0),~R(1),…,~R(N-1)。并且,线性预测分析部421使用求出的伪相关函数信号串~R(0),~R(1),…,~R(N-1)进行线性预测分析,生成线性预测系数β12,…,βp。并且,线性预测分析部421通过对所生成的线性预测系数β12,…,βp进行编码,得到线性预测系数码和与线性预测系数码对应的量化线性预测系数^β1,^β2,…,^βp
线性预测系数β12,…,βp是与将MDCT系数串X(0),X(1),…,X(N-1)的绝对值的η0次方当作功率谱时的时域的信号对应的线性预测系数。
线性预测分析部421的线性预测系数码的生成例如通过现有的编码技术进行。现有的编码技术例如是如下编码技术等:将与线性预测系数本身对应的码设为线性预测系数码的编码技术;将线性预测系数转换为LSP参数而将与LSP参数对应的码设为线性预测系数码的编码技术;将线性预测系数转换为PARCOR系数而将与PARCOR系数对应的码设为线性预测系数码的编码技术。
这样,线性预测分析部421例如使用通过进行将MDCT系数串即频域样本串的绝对值的η次方当作功率谱的傅里叶逆转换而得到的伪相关函数信号串进行线性预测分析,生成线性预测系数(步骤C421)。
<非平滑化振幅频谱包络序列生成部422>
在非平滑化振幅频谱包络序列生成部422中,被输入由线性预测分析部421所生成的量化线性预测系数^β1,^β2,…,^βp
非平滑化振幅频谱包络序列生成部422生成与量化线性预测系数^β1,^β2,…,^βp对应的振幅频谱包络的序列即非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)被输出到白化频谱序列生成部43。
非平滑化振幅频谱包络序列生成部422使用量化线性预测系数^β1,^β2,…,^βp,作为非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1),生成通过式(C2)而定义的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
【数26】
Figure BDA0003292737170000401
这样,非平滑化振幅频谱包络序列生成部422通过基于由线性预测分析部421所生成的能够转换为线性预测系数的系数而得到将与伪相关函数信号串对应的振幅频谱包络的序列进行了1/η0次方的序列即非平滑化频谱包络序列,进行频谱包络的估计(步骤C422)。
另外,非平滑化频谱包络序列生成部422可以代替量化线性预测系数^β1,^β2,…,^βp而使用由线性预测分析部421所生成的线性预测系数β12,…,βp,得到非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。此时,线性预测分析部421可以不进行得到量化线性预测系数^β1,^β2,…,^βp的处理。
<白化频谱序列生成部43>
在白化频谱序列生成部43中,被输入由频域转换部41得到的MDCT系数串X(0),X(1),…,X(N-1)以及由非平滑化振幅频谱包络生成部422所生成的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)。
白化频谱序列生成部43通过将MDCT系数串X(0),X(1),…,X(N-1)的各系数除以对应的非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值,生成白化频谱序列XW(0),XW(1),…,XW(N-1)。
所生成的白化频谱序列XW(0),XW(1),…,XW(N-1)被输出到参数取得部44。
白化频谱序列生成部43例如设为k=0,1,…,N-1,通过将MDCT系数串X(0),X(1),…,X(N-1)的各系数X(k)除以非平滑化振幅频谱包络序列^H(0),^H(1),…,^H(N-1)的各值^H(k),从而生成白化频谱序列XW(0),XW(1),…,XW(N-1)的各值XW(k)。即,设为k=0,1,…,N-1,XW(k)=X(k)/^H(k)。
这样,白化频谱序列生成部43得到将例如MDCT系数串即频域样本串除以例如非平滑化振幅频谱包络序列即频谱包络所得的序列即白化频谱序列(步骤C43)。
<参数取得部44>
在参数取得部44中,被输入由白化频谱序列生成部43所生成的白化频谱序列XW(0),XW(1),…,XW(N-1)。
参数取得部44求出将参数η设为形状参数的广义高斯分布对白化频谱序列XW(0),XW(1),…,XW(N-1)的直方图进行近似的参数η(步骤C44)。换言之,参数取得部44决定将参数η设为形状参数的广义高斯分布接近白化频谱序列XW(0),XW(1),…,XW(N-1)的直方图的分布的参数η。
将参数η设为形状参数的广义高斯分布例如以下那样定义。γ是伽马函数。
【数27】
Figure BDA0003292737170000411
Figure BDA0003292737170000412
广义高斯分布通过改变作为形状参数的η,如图23所示,在η=1时为拉普拉斯分布、在η=2时为高斯分布这样能够表现各种分布。
Figure BDA0003292737170000424
是与方差对应的参数。
这里,参数取得部44求出的η例如通过以下的式(C3)而定义。F-1是函数F的逆函数。该式通过所谓的矩量法而导出。
【数28】
Figure BDA0003292737170000421
Figure BDA0003292737170000422
Figure BDA0003292737170000423
在逆函数F-1被显式定义的情况下,参数取得部44通过计算在对显式定义的逆函数F-1输入了m1/((m2)1/2)的值时的输出值,能够求出参数η。
在逆函数F-1没有被显式定义的情况下,参数取得部44为了计算在式(C3)中定义的η的值,例如,可以通过以下说明的第一方法或者第二方法而求出参数η。
说明用于求出参数η的第一方法。在第一方法中,参数取得部44基于白化频谱序列而计算m1/((m2)1/2),参照预先准备的不同的多个η和与η对应的F(η)的对,取得与最接近所计算的m1/((m2)1/2)的F(η)对应的η。
预先准备的不同的多个η和与η对应的F(η)的对预先存储在参数取得部44的存储部441中。参数取得部44参照存储部441,找出最接近所计算的m1/((m2)1/2)的F(η),并从存储部441读入与所找到的F(η)对应的η并输出。
最接近所计算的m1/((m2)1/2)的F(η)是指与所计算的m1/((m2)1/2)之差的绝对值变得最小的F(η)。
说明用于求出参数η的第二方法。在第二方法中,将逆函数F-1的近似曲线函数作为例如通过以下的式(C3’)表示的~F-1,参数取得部44基于白化频谱序列而计算m1/((m2)1/2),通过计算在对近似曲线函数~F-1输入了所计算的m1/((m2)1/2)时的输出值而求出η。
另外,参数取得部44求出的η可以通过使用不是如式(C3)那样而是如式(C3″)那样预先决定的正整数q1以及q2(其中,q1<q2),将式(C3)设为一般化的式而被定义。
【数29】
Figure BDA0003292737170000431
Figure BDA0003292737170000432
Figure BDA0003292737170000433
另外,在η通过式(C3″)而被定义的情况下,也能够通过与η通过式(C3)而被定义的情况同样的方法来求出η。即,参数取得部44基于白化频谱序列而计算出基于作为其q1次力矩的mq1和作为其q2次力矩的mq2的值mq1/((mq2)q1/q2)之后,例如,能够与上述的第一以及第二方法同样地,参照预先准备的不同的多个η和与η对应的F’(η)的对,取得与最接近所计算的mq1/((mq2)q1/q2)的F’(η)对应的η,或者将逆函数F’-1的近似曲线函数作为~F’-1,计算在对近似曲线函数~F-1输入了所计算的mq1/((mq2)q1/q2)时的输出值而求出η。
这样,可以说η是基于阶数不同的2个不同的力矩mq1,mq2的值。例如,可以根据在阶数不同的2个不同的力矩mq1,mq2中阶数更低的力矩的值或者基于它的值(以下,设为前者)与阶数更高的力矩的值或者基于它的值(以下,设为后者)之比的值、基于该比的值的值、或者将前者除以后者所得的值,求出η。基于力矩的值例如将其力矩设为m且将Q作为预定的实数的话是mQ。此外,可以将这些值输入到近似曲线函数~F-1而求出η。与上述同样地,该近似曲线函数~F’-1是在使用的定义域中输出成为正值的单调递增函数即可。
参数决定部27’可以通过循环处理而求出参数η。即,参数决定部27’可以把将在参数取得部44中求出的参数η设为通过预定的方法而确定的参数η0的、频谱包络估计部42、白化频谱序列生成部43以及参数取得部44的处理进一步进行一次以上。
此时,例如,如在图21中虚线所示,在参数取得部44中求出的参数η被输出到频谱包络估计部42。频谱包络估计部42将在参数取得部44中求出的η作为参数η0来使用,进行与上述说明的处理同样的处理,进行频谱包络的估计。白化频谱序列生成部43基于新估计出的频谱包络,进行与上述说明的处理同样的处理,生成白化频谱序列。参数取得部44基于新生成的白化频谱序列,进行与上述说明的处理同样的处理,求出参数η。
例如,频谱包络估计部42、白化频谱序列生成部43以及参数取得部44的处理可以进一步进行预定的次数即τ次。τ是预定的正整数,例如,τ=1或者τ=2。
此外,频谱包络估计部42可以直到本次求出的参数η和前一次求出的参数η之差的绝对值成为预定的阈值以下为止,重复频谱包络估计部42、白化频谱序列生成部43以及参数取得部44的处理。
<音响特征量提取部521>
在音响特征量提取部521中,被输入作为时序信号的帧单位的时域的声音信号。
音响特征量提取部521作为音响特征量,计算表示时序信号的声音的大小的指标(步骤FE2)。所计算的表示声音的大小的指标被输出到确定部522。此外,音响特征量提取部521生成与音响特征量对应的音响特征量码,并输出到解码装置。
表示时序信号的声音的大小的指标只要是表示该时序信号的声音的大小的指标则可以是任意指标。表示时序信号的声音的大小的指标是例如时序信号的能量。
另外,在该例中,由于以下叙述的确定部522不仅基于参数η还基于表示声音的大小的指标来确定编码处理的结构,所以音响特征量提取部521计算表示声音的大小的指标,但在确定部522只使用参数η来进行编码处理的结构的确定且不使用表示声音的大小的指标的情况下,音响特征量提取部521可以不进行表示声音的大小的指标的计算。
<确定部522>
在确定部522中,被输入由参数决定部27’所决定的参数η和由音响特征量提取部521所计算的表示时序信号的声音的大小的指标。此外,根据需要,被输入作为时序信号的帧单位的声音信号。
确定部522至少基于参数η来确定编码处理的结构(步骤FE3),生成能够确定编码处理的结构的确定码并输出到解码装置。此外,由确定部522所确定的关于编码处理的结构的信息被输出到编码部523。
确定部522可以只基于参数η来确定编码处理的结构,也可以基于参数η和除此以外的参数来确定编码处理的结构。
编码处理的结构可以是TCX(转换编码激励(Transform Coded Excitation))、ACELP(代数码激励线性预测(Algebraic Code Excited Linear Prediction))等编码方法,也可以是某编码方法中的作为时间的处理的单位的帧长、对码分配的比特数、能够转换为线性预测系数的系数的阶数(degree)、在编码处理中使用的任意的参数的值。即,可以根据参数η,能够适当地确定某编码方法中的作为时间的处理的单位的帧长、对码分配的比特数、能够转换为线性预测系数的系数的阶数、在编码处理中使用的任意的参数的值。
另外,参照图12以及图13,上述说明的第二实施方式的编码装置以及方法根据参数η来确定在编码处理中使用的参数的值。因此,可以说参照图12以及图13,上述说明的第二实施方式的编码装置以及方法是基于参数η来确定编码处理的结构的第二实施方式的变形例的一例。
能够确定编码处理的结构的确定码只要是能够确定编码处理的结构的码则可以是任意的码。例如,能够确定编码处理的结构的确定码是如下的基于预定的比特串的标志:作为编码处理的结构,在确定了帧长长的TCX时为"11",在确定了帧长短的TCX时为"100"、在确定了ACELP时为"101",例如在确定了只传输噪声级别和确定等低比特的编码处理时为"0"等。能够确定编码处理的结构的确定码例如可以是表示参数η的参数码。
能够确定编码处理的结构的确定码由于只要是根据该确定码而确定编码处理的结构的话还确定对应的解码处理的结构,所以可以说是还能够确定解码处理的结构的确定码。
以下,首先,举例说明基于参数η和表示时序信号的声音的大小的指标来确定编码处理的情况。
确定部522比较表示时序信号的声音的大小的指标和预定的阈值Ce,此外,比较参数η和预定的阈值Cη。作为表示时序信号的声音的大小的指标,例如在使用了平均振幅(每个样本的平均能量的平方根)的情况下,设为Ce=最大振幅值*(1/128)。例如,若是16比特精度,则由于最大振幅值成为32768,所以设为Ce=256。此外,例如,设为Cη=1。
若表示时序信号的声音的大小的指标≥预定的阈值Ce且参数η<预定的阈值Cη,则由于时序信号是将持续音作为主体的管乐器或将弦乐器作为主体的音乐(以下,记载为持续音乐)的可能性高,所以确定部522决定进行适合持续音乐的编码处理。适合持续音乐的编码处理是例如帧长长的TCX编码处理,具体而言,是1024个点的帧的TCX编码处理。
若表示时序信号的声音的大小的指标≥预定的阈值Ce且参数η≥预定的阈值Cη,则时序信号是将语音或者时间变动大的打击乐器等作为主体的音乐的可能性高。
此时,确定部522根据需要而将被输入的时序信号例如进行4分割,制成4个子帧,测定每个子帧的时序信号的能量。确定部522若将4个子帧的能量的算术平均除以几何平均所得的值F=((1/4)Σ4个子帧的能量)/((Π子帧的能量)1/4)为预定的阈值CF以上,则时序信号是时间变动大的音乐的可能性高。此时,确定部522决定进行适合时间变动大的音乐的编码处理。适合时间变动大的音乐的编码处理是例如帧长短的TCX编码处理,具体而言,是256个点的帧的TCX编码处理。例如,设为CE=1.5。
若值F小于预定的阈值CF,则时序信号是语音的可能性高。此时,确定部522决定进行适合语音的编码处理。适合语音的编码处理是例如ACELP、CELP(码激励线性预测(CodeExcited Linear Prediction))等语音编码处理。
若表示时序信号的声音的大小的指标<预定的阈值Ce且参数η≥预定的阈值Cη,则时序信号是无音区间的可能性高。这里,无音区间并不意味着声音完全不存在的区间,而是意味着虽然不存在目的音但存在背景音或周围的噪声的区间。此时,确定部522决定为时序信号是无音区间。
若表示时序信号的声音的大小的指标<预定的阈值Ce且参数η<预定的阈值Cη,则时序信号是音量小的持续音乐即背景音乐(以下,记载为如BGM这样的具有特征的背景音)的可能性高。此时,确定部522决定进行适合如BGM这样的具有特征的背景音的编码处理。适合如BGM这样的具有特征的背景音的编码处理是例如帧长短的TCX编码处理,具体而言,是256个比特点的帧的TCX编码处理。
另外,确定部522可以不仅基于参数η,还基于被输入的表示时序信号的声音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、基音的周期性的程度中的至少一个来确定编码处理的结构。在进一步使用被输入的表示时序信号的声音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、基音的周期性的程度中的至少一个的情况下,音响特征量提取部521计算被输入的表示时序信号的声音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、基音的周期性的程度中由确定部522所使用的音响特征量,并输出到确定部522。此外,音响特征量提取部521生成与所计算的音响特征量对应的音响特征量码,并输出到解码装置。
以下,分别说明(1)基于参数η和表示时序信号的声音的大小的指标的时间性变动来确定编码处理的结构的情况;(2)基于参数η和时序信号的频谱形状来确定编码处理的结构的情况;(3)基于参数η和时序信号的频谱形状的时间性变动来确定编码处理的结构的情况;(4)基于参数η和时序信号的基音的周期性来确定编码处理的结构的情况。
(1)在基于参数η和表示时序信号的声音的大小的指标的时间性变动来确定编码处理的结构的情况下,确定部522判定表示时序信号的声音的大小的指标的时间性变动是否大,此外,判定参数η是否大。
表示时序信号的声音的大小的指标的时间性变动是否大例如能够基于预定的阈值CE'来判定。即,若表示时序信号的声音的大小的指标的时间性变动≥预定的阈值CE',则能够判定为表示时序信号的声音的大小的指标的时间性变动大,否则,能够判定为表示时序信号的声音的大小的指标的时间性变动小。
参数η是否大例如能够基于预定的阈值Cη来判定。即,若参数η≥预定的阈值Cη,则能够判定为参数η大,否则,能够判定为参数η小。
在表示时序信号的声音的大小的指标的时间性变动大且参数大的情况下,时序信号是语音的可能性高。此时,确定部522决定进行适合语音的编码处理。例如,在使用了将构成时序信号的4个子帧的能量的算术平均除以几何平均所得的值F=((1/4)Σ4个子帧的能量)/((Π子帧的能量)1/4)的情况下,设为CE'=1.5。
在表示时序信号的声音的大小的指标的时间性变动大且参数小的情况下,时序信号是时间变动大的音乐的可能性高。此时,确定部522决定进行适合时间变动大的音乐的编码处理。
在表示时序信号的声音的大小的指标的时间性变动小且参数η大的情况下,时序信号是无音区间的可能性高。此时,确定部522决定为时序信号是无音区间。
在表示时序信号的声音的大小的指标的时间性变动小且参数η小的情况下,是将持续音作为主体的管乐器或作为弦乐器的音乐的可能性高。此时,确定部522决定进行适合持续音乐的编码处理。
(2)在基于参数η和时序信号的频谱形状来确定编码处理的结构的情况下,确定部522判定时序信号的频谱形状是否平坦,此外,判定参数η是否大。
时序信号的频谱形状是否平坦能够基于预定的阈值EV来判定。例如,若与时序信号对应的第一次PARCOR系数的绝对值小于预定的阈值EV(例如,EV=0.7),则能够判定为时序信号的频谱形状平坦,否则,能够判定为时序信号的频谱形状不平坦。
在时序信号的频谱形状平坦且参数η大的情况下,时序信号是无音区间的可能性高。此时,确定部522决定为时序信号是无音区间。
在时序信号的频谱形状平坦且参数η小的情况下,时序信号是时间变动大的音乐的可能性高。此时,确定部522决定进行适合时间变动大的音乐的编码处理。
在时序信号的频谱形状不平坦且参数η大的情况下,时序信号是语音的可能性高。此时,确定部522决定进行适合语音的编码处理。
在时序信号的频谱形状不平坦且参数η小的情况下,是将持续音作为主体的管乐器或作为弦乐器的音乐的可能性高。此时,确定部522决定进行适合持续音乐的编码处理。
(3)在基于参数η和时序信号的频谱形状的时间性变动来确定编码处理的结构的情况下,确定部522判定时序信号的频谱形状的时间性变动是否大,此外,判定参数η是否大。
时序信号的频谱形状的时间性变动是否平坦能够基于预定的阈值EV'来判定。例如,若将构成时序信号的4个子帧的第一次PARCOR系数的绝对值的算术平均除以几何平均所得的值FV=((1/4)Σ4个子帧的第一次PARCOR系数的绝对值)/((Π第一次PARCOR系数的绝对值)1/4)为预定的阈值EV'(例如,EV'=1.2)以上,则能够判定为时序信号的频谱形状的时间性变动大,否则,能够判定为时序信号的频谱形状的时间性变动小。
在时序信号的频谱形状的时间性变动大且参数η大的情况下,时序信号是语音的可能性高。此时,确定部522决定进行适合语音的编码处理。
在时序信号的频谱形状的时间性变动大且参数η小的情况下,时序信号是时间变动大的音乐的可能性高。此时,确定部522决定进行适合时间变动大的音乐的编码处理。
在时序信号的频谱形状的时间性变动小且参数η大的情况下,时序信号是无音区间的可能性高。此时,确定部522决定为时序信号是无音区间。
在时序信号的频谱形状的时间性变动小且参数η小的情况下,是将持续音作为主体的管乐器或作为弦乐器的音乐的可能性高。此时,确定部522决定进行适合持续音乐的编码处理。
(4)在基于参数η和时序信号的基音的周期性来确定编码处理的结构的情况下,确定部522判定时序信号的基音的周期性是否大,此外,判定参数η是否大。
时序信号的基音的周期性是否大例如能够基于预定的阈值CP来判定。即,若时序信号的基音的周期性≥预定的阈值CP则基音的周期性大,否则,能够判定为时序信号的基音的周期性小。作为基音的周期性,例如在使用了与基音周期偏离τ个样本的序列的归一化相关函数
【数30】
Figure BDA0003292737170000491
(其中,x(i)为时序串的样本值,N为帧的样本数))的情况下,设为CP=0.8。
在基音的周期性大且参数η大的情况下,时序信号是语音的可能性高。此时,确定部522决定进行适合语音的编码处理。
在基音的周期性大且参数η小的情况下,是将持续音作为主体的管乐器或作为弦乐器的音乐的可能性高。此时,确定部522决定进行适合持续音乐的编码处理。
在基音的周期性小且参数η大的情况下,时序信号是无音区间的可能性高。此时,确定部522决定为时序信号是无音区间。
在基音的周期性小且参数η小的情况下,时序信号是时间变动大的音乐的可能性高。此时,确定部522决定进行适合时间变动大的音乐的编码处理。
<编码部523>
在编码部523中,被输入作为时序信号的帧单位的声音信号和关于确定部522所确定的编码处理的结构的信息。
编码部523通过确定的结构的编码处理,对被输入的时序信号进行编码而生成码(步骤FE4)。所生成的码被输出到解码装置。
在确定了适合持续音乐的编码处理的情况下,例如进行帧长长的TCX(转换编码激励(Transform Coded Excitation))编码处理,具体而言,进行1024个点的帧的TCX编码处理。另外,此时,可以不是将表示由参数决定部27’所决定的参数η的码,而是将表示固定值的η(例如,η=0.8)的码作为参数码而输出到解码装置。
在确定了适合时间变动大的音乐的编码处理的情况下,例如进行帧长短的TCX编码处理,具体而言,进行256个点的帧的TCX编码处理。
在确定了适合如BGM这样的具有特征的背景音的编码处理的情况下,例如进行帧长短的TCX编码处理,具体而言,进行256个点的帧的TCX编码处理。另外,此时,可以不是将表示由参数决定部27’所决定的参数η的码,而是将表示固定值的η(例如,η=0.8)的码作为参数码而输出到解码装置。
在确定了适合语音的编码处理的情况下,例如进行ACELP(代数码激励线性预测Algebraic Code Excited Linear Prediction))、CELP(码激励线性预测(Code ExcitedLinear Prediction))等语音编码处理。
在决定为时序信号是无音区间的情况下,编码部523不对被输入的时序信号进行编码,而是例如进行以下说明的(i)第一方法或者(ii)第二方法的处理。
(i)第一方法
编码部523将表示是无音区间的信息发送给解码装置。表示是无音区间的信息例如以1比特等低比特而被发送。编码部523在发送了表示是无音区间的信息之后,在由确定部522决定为成为处理的对象的时序信号是无音区间的期间,可以不再次发送表示是无音区间的信息。
(ii)第二方法
编码部523将表示是无音区间的信息、时序信号的频谱包络的形状以及时序信号的振幅的信息发送给解码装置。
(解码)
说明解码装置以及方法的一例。
如图19所示,解码装置例如具备确定码解码部525、音响特征量码解码部526、确定部527以及解码部528。解码装置的各部通过进行在图20中例示的各处理,从而实现解码方法。
以下,说明解码装置的各部。
<确定码解码部525>
在确定码解码部525中,被输入由编码装置输出的确定码。
确定码解码部525对确定码进行解码,取得关于编码处理的结构的信息(步骤FD1)。所取得的关于编码处理的结构的信息被输出到确定部527。
在确定码为参数码的情况下,确定码解码部525对参数码进行解码而得到参数η,并将得到的参数η作为关于编码处理的结构的信息而输出到确定部527。
<音响特征量码解码部526>
在音响特征量码解码部526中,被输入由编码装置所输出的音响特征量码。
音响特征量码解码部526对音响特征量码进行解码,得到表示时序信号的声音的大小的指标、表示声音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、基音的周期性的程度中的至少一个即音响特征量(步骤FD2)。得到的音响特征量被输出到确定部527。
另外,在编码侧,只基于参数η而确定编码处理的结构,在没有生成音响特征量以及音响特征量码的情况下,音响特征量码解码部526不进行处理。
<确定部527>
在确定部527中,被输入由确定码解码部525所得到的关于编码处理的结构的信息。此外,在确定部527中,根据需要,被输入由音响特征量码解码部526所得到的音响特征量。
确定部527基于关于编码处理的结构的信息,确定解码处理的结构(步骤FD3)。例如,确定部527确定与由关于编码处理的结构的信息所确定的编码处理的结构对应的解码处理的结构。确定部527也可以根据需要,基于关于编码处理的结构的信息和音响特征量来确定解码处理的结构。所确定的关于解码处理的结构的信息被输出到解码部528。
以下,举例说明作为关于编码处理的结构的信息而被输入参数η,且被输入表示时序信号的声音的大小的指标、表示声音的大小的指标的时间性变动、频谱形状、频谱形状的时间性变动、基音的周期性的程度中的至少一个即音响特征量的情况。
此时,设对解码装置的确定部527预先决定了与编码装置的确定部522进行的编码处理的结构的特定的判断基准同样的判断基准。确定部527根据该判断基准,使用参数η和音响特征量来确定与在确定部522中确定的编码处理的结构对应的解码处理的结构。
关于编码装置的确定部522进行的编码处理的结构的特定的判断基准,由于已在(编码)中进行了说明,所以在此省略重复说明。
例如,作为解码处理的结构,确定适合持续音乐的解码处理、适合时间变动大的音乐的解码处理、适合如BGM这样的具有特征的背景音的解码处理、适合语音的解码处理中的任一个。或者,确定部527决定为时序信号是无音区间。
<解码部528>
在解码部528中,被输入由编码装置所输出的码和由确定部527所确定的关于解码处理的结构的信息。
解码部528通过确定的结构的解码处理,得到作为时序信号的帧单位的声音信号(步骤FD4)。
在确定了适合持续音乐的解码处理的情况下,例如进行帧长长的TCX(转换编码激励(Transform Coded Excitation))解码处理,具体而言,进行1024个点的帧的TCX解码处理。
在确定了适合时间变动大的音乐的解码处理的情况下,例如进行帧长短的TCX解码处理,具体而言,进行256个点的帧的TCX解码处理。
在确定了适合如BGM这样的具有特征的背景音的解码处理的情况下,例如进行帧长短的TCX解码处理,具体而言,进行256个点的帧的TCX解码处理。
在确定了适合语音的解码处理的情况下,例如进行ACELP(代数码激励线性预测Algebraic Code Excited Linear Prediction))、CELP(码激励线性预测(Code ExcitedLinear Prediction))等语音解码处理。
在解码装置接收到表示是无音区间的信息的情况下或者在由确定部527决定为时序信号是无音区间的情况下,解码部528例如进行以下说明的(i)第一方法或者(ii)第二方法的处理。
(i)第一方法
对应于编码侧的(i)第一方法。
解码部528产生预先决定的噪声。
(ii)第二方法
解码部528使用与表示是无音区间的信息一同接收到的、时序信号的频谱包络的形状以及时序信号的振幅的信息,将预先决定的噪声进行变形而输出。噪声的变形方法只要使用在EVS(增强语音服务(Enhanced Voice Service))等中使用的现有的方法即可。
这样,解码部528在获取了表示是无音区间的信息的情况下,可以产生噪声。
[变形例等]
若将线性预测分析部22以及非平滑化振幅频谱包络序列生成部23作为一个频谱包络估计部2A来掌握,则可以说该频谱包络估计部2A进行与时序信号对应的例如将作为MDCT系数串的频域样本串的绝对值的η次方当作功率谱的频谱包络(非平滑化振幅频谱包络序列)的估计。这里,“当作功率谱”意味着在通常使用功率谱时使用η次方的频谱。
此时,可以说频谱包络估计部2A的线性预测分析部22例如使用通过进行将作为MDCT系数串的频域样本串的绝对值的η次方当作功率谱的傅里叶逆转换而得到的伪相关函数信号串进行线性预测分析,得到能够转换为线性预测系数的系数。此外,可以说频谱包络估计部2A的非平滑化振幅频谱包络序列生成部23通过得到将与由线性预测分析部22所得到的能够转换为线性预测系数的系数对应的振幅频谱包络的序列进行了1/η次方的序列即非平滑化频谱包络序列而进行频谱包络的估计。
此外,若将平滑化振幅频谱包络序列生成部24、包络归一化部25以及编码部26作为一个编码部2B来掌握,则可以说该编码部2B对与时序信号对应的例如MDCT系数串即频域样本串的各系数进行基于由频谱包络估计部2A所估计的频谱包络(非平滑化振幅频谱包络序列)而改变比特分配或者比特分配实质上发生改变的编码。
若将解码部34以及包络反归一化部35作为一个解码部3A来掌握,则可以说该解码部3A根据基于非平滑化频谱包络序列而改变的比特分配或者实质上发生改变的比特分配,进行被输入的整数信号码的解码,从而得到与时序信号对应的频域样本串。
若编码部2B进行基于频谱包络(非平滑化振幅频谱包络序列)而改变比特分配或者比特分配实质上发生改变的编码,则可以进行上述说明的算术编码以外的编码处理。此时,解码部3A进行与编码部2B进行的编码处理对应的解码处理。
例如,编码部2B可以使用基于频谱包络(非平滑化振幅频谱包络序列)而决定的Rice参数,对频域样本串进行Golomb-Rice编码。此时,解码部3A可以使用基于频谱包络(非平滑化振幅频谱包络序列)而决定的Rice参数,进行Golomb-Rice解码。
在第一实施方式中,编码装置在决定参数η时可以不将编码处理进行到最后。换言之,参数决定部27可以基于估计码量来决定参数η。此时,编码部2B使用多个参数η中的每一个,得到对于与相同的预定时间区间的时序信号对应的频域样本串的、通过与上述同样的编码处理而得到的码的估计码量。参数决定部27基于得到的估计码量,选择多个参数η中的任一个。例如,选择估计码量最小的参数η。编码部2B通过使用所选择的参数η进行与上述同样的编码处理,得到码并输出。
编码装置也可以还具备在图4或者图12中如虚线所示的分割部28。分割部28基于频域转换部21所生成的例如MDCT系数串即频域样本串,生成由与频域样本串的周期性分量对应的样本构成的第一频域样本串和由与频域样本串的周期性分量对应的样本以外的样本构成的第二频域样本串,并将表示与周期性分量对应的样本的信息作为辅助信息而输出到解码装置。
换言之,第一频域样本串是由与频域样本串的山的部分对应的样本构成的样本串,第二频域样本串是由与频域样本串的谷的部分对应的样本构成的样本串。
例如,将由包括和与频域样本串中的频域样本串对应的时序信号的周期性或者基本频率对应的样本在内的一个或者连续的多个样本、以及包括和与频域样本串中的频域样本串对应的时序信号的周期性或者基本频率的整数倍对应的样本在内的一个或者连续的多个样本中的全部或者一部分样本构成的样本串作为第一频域样本串来生成,将由不包含在频域样本串中的第一频域样本串中的样本构成的样本串作为第二频域样本串来生成。第一频域样本串和第二频域样本串的生成能够使用在国际公开公报WO2012/046685中记载的方法进行。
线性预测分析部22、非平滑化振幅频谱包络序列生成部23、平滑化振幅频谱包络序列生成部24、包络归一化部25、编码部26以及参数决定部27关于第一频域样本串以及第二频域样本串的每一个,进行在第一实施方式或者第二实施方式中说明的编码处理而生成码。即,例如,在进行算术编码的情况下,生成与第一频域样本串对应的参数码、线性预测系数码、整数信号码以及增益码,生成与第二频域样本串对应的参数码、线性预测系数码、整数信号码以及增益码。
这样,通过关于第一频域样本串以及第二频域样本串的每一个进行编码,能够更加有效率地进行编码。
此时,解码装置可以进一步具备在图9中由虚线所示的结合部38。解码装置基于与第一频域样本串对应的码(例如,参数码、线性预测系数码、整数信号码以及增益码),进行在第一实施方式或者第二实施方式中说明的解码处理,求出解码第一频域样本串。此外,解码装置基于与第二频域样本串对应的码(例如,参数码、线性预测系数码、整数信号码以及增益码),进行在第一实施方式或者第二实施方式中说明的解码处理,求出解码第二频域样本串。结合部38使用被输入的辅助信息,将解码第一频域样本串以及解码第二频域样本串适当结合而求出例如作为解码MDCT系数串^X(0),^X(1),…,^X(N-1)的解码频域样本串。时域转换部将解码频域样本串转换为时域而求出时序信号。使用了辅助信息的结合能够使用在国际公开公报WO2012/046685中记载的方法进行。
另外,在比特率低的情况下或想要进一步减少码量的情况下,可以在编码装置中只对第一频域样本串进行编码,只生成与第一频域样本串对应的码,不生成与第二频域样本串对应的码,在解码装置中,可以使用从码得到的第一频域样本串和将样本的值设为0的第二频域样本串而求出解码频域样本串。
此外,线性预测分析部22、非平滑化振幅频谱包络序列生成部23、平滑化振幅频谱包络序列生成部24、包络归一化部25、编码部26以及参数决定部27可以关于将第一频域样本串和第二频域样本串结合而得到的样本串即整列后样本串,进行在第一实施方式或者第二实施方式中说明的编码处理而生成码。例如,在进行算术编码的情况下,生成与整列后样本串对应的参数码、线性预测系数码、整数信号码以及增益码。
这样,通过关于整列后样本串进行编码,能够更加有效率地进行编码。
此时,解码装置进行在第一实施方式或者第二实施方式中说明的解码处理,求出解码整列后样本串,使用被输入的辅助信息,按照与在编码装置中生成了第一频域样本串和第二频域样本串的规则对应的规则,对解码整列后样本串进行整列,例如求出作为解码MDCT系数串^X(0),^X(1),…,^X(N-1)的解码频域样本串。时域转换部36将解码频域样本串转换为时域而求出时序信号。使用了辅助信息的整列能够使用在国际公开公报WO2012/046685中记载的方法进行。
此外,编码装置可以按每个帧选择如下方法中的任一个方法:(1)关于频域样本串进行编码处理而生成码的方法;(2)关于第一频域样本串以及第二频域样本串的每一个进行编码处理而生成码的方法;(3)只关于第一频域样本串进行编码处理而生成码的方法;(4)关于将第一频域样本串和第二频域样本串结合而得到的样本串即整列后样本串进行编码处理而生成码的方法。此时,编码装置还输出表示选择了(1)至(4)中的哪一个方法的码,解码装置根据按每个帧输入的码,进行与上述的任一个方法对应的解码处理。
另外,在编码装置的参数决定部27以及解码装置的参数解码部37中,可以存储有与上述的(1)至(4)的方法的每一个对应的参数η的候选。同样地,在编码装置的线性预测分析部22以及解码装置的线性预测系数解码部31中,可以存储有与上述的(1)至(4)的方法的每一个对应的量化线性预测系数的候选以及解码线性预测系数的候选。
非平滑化振幅频谱包络序列生成部23以及非平滑化振幅频谱包络序列生成部422例如可以基于作为MDCT系数串^X(0),^X(1),…,^X(N-1)的频域样本串的周期性分量,对频谱包络序列(非平滑化振幅频谱包络序列)进行变形而生成周期性综合包络序列。同样地,非平滑化振幅频谱包络序列生成部32例如可以基于作为解码MDCT系数串^X(0),^X(1),…,^X(N-1)的解码频域样本串的周期性分量,对频谱包络序列(非平滑化振幅频谱包络序列)进行变形而生成周期性综合包络序列。此时,编码部26的方差参数决定部268、解码部34以及白化频谱序列生成部43使用周期性综合包络序列来代替频谱包络序列(非平滑化振幅频谱包络序列),进行与上述同样的处理。由于周期性综合包络序列的、由时序信号的基音周期所引起的峰值附近的近似精度好,所以通过使用周期性综合包络序列,能够提高编码效率。
例如,将频域样本串的周期越大则频谱包络序列中的至少频域样本串的周期的整数倍以及周期的整数倍的附近的样本的值越大幅变更而得到的序列设为周期性综合包络序列。此外,也可以将时序信号的周期性的程度越大则频谱包络序列中的至少频域样本串的周期的整数倍以及周期的整数倍的附近的样本的值越大幅变更而得到的序列设为周期性综合包络序列。此外,也可以将频域样本串的周期越大则频谱包络序列中的频域样本串的周期的整数倍的附近的较多样本的值越大幅变更而得到的序列设为周期性综合包络序列。
进一步,可以将N和U设为正整数,将T设为频域样本串的具有周期性的分量的间隔,将L设为间隔T的小数点以下的位数,将v设为1以上的整数,将floor(·)设为舍去小数点以下而返回整数值的函数,将Round(·)设为将小数点第一位进行四舍五入的而返回整数值的函数,设为T’=T×2L,将^H[0],…,^H[N-1]设为频谱包络序列,将δ设为决定频谱包络^H[n]和周期性包络P[k]的混合比率的值,关于(U×T’)/2L-v-1≦k≦(U×T’)/2L+v-1的范围的整数k,如
【数31】
Figure BDA0003292737170000571
或者
Figure BDA0003292737170000572
其中,
h=2.8·(1.125-exp(-0.07·T′/2L)),
PD=0.5·(2.6-exp(-0.05·T′/2L))
那样求出周期性包络序列P[1],…,P[N],使用求出的周期性包络序列P[1],…,P[N]而求出通过以下的式而定义的周期性综合包络序列^HM[1],…,^HM[N]。h以及PD可以是上述的例子以外的预定的值。
【数32】
Figure BDA0003292737170000573
决定频谱包络^H[n]和周期性包络P[k]的混合比率的值即δ可以在编码装置以及解码装置中预先决定,也可以生成表示在编码装置中确定的δ的信息的码并输出到解码装置。在后者的情况下,解码装置通过对被输入的表示δ的信息的码进行解码而求出δ。解码装置的非平滑化振幅频谱包络序列生成部32通过使用求出的δ,能够求出与在编码装置中生成的周期性综合包络序列相同的周期性综合包络序列。
若将图12的频谱包络估计部2A、编码部2B、频域转换部21以及分割部28作为一个编码部2C来掌握,则可以说该编码部2C通过至少基于每预定时间区间的参数η而确定的结构的编码处理,对每预定时间区间的时序信号进行编码。
此外,若将图17的音响特征量提取部521、确定部522以及编码部523作为一个编码部2D来掌握,则可以说该编码部2D通过至少基于每预定时间区间的参数η而确定的结构的编码处理,对每预定时间区间的时序信号进行编码。
这样,能够认为编码部2C以及编码部2D进行同样的处理。
上述说明的处理不仅按照记载的顺序而时序地执行,也可以根据执行处理的装置的处理能力或根据需要而并行地或单独地执行。
此外,可以通过计算机来实现各方法或者各装置中的各种处理。此时,各方法或者各装置的处理内容通过程序而记述。并且,通过在计算机中执行该程序,在计算机上实现各方法或者各装置中的各种处理。
记述了该处理内容的程序能够记录至计算机可读取的记录介质。作为计算机可读取的记录介质,例如可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任意的介质。
此外,该程序的流通例如通过对记录有该程序的DVD、CD-ROM等可移动式记录介质进行销售、转让、借出等而进行。进而,也可以是通过将该程序存储至服务器计算机的存储装置,经由网络,从服务器计算机向其他计算机转发该程序,从而使该程序流通。
执行这样的程序的计算机例如首先将在可移动式记录介质中记录的程序或从服务器计算机转发的程序临时存储在自己的存储装置中。并且,在执行处理时,该计算机读取在自己的记录装置中存储的程序,执行按照所读取的程序的处理。此外,作为该程序的另一实施方式,也可以是计算机从可移动式记录介质直接读取程序,执行按照该程序的处理,进而,也可以在每次从服务器计算机向该计算机转发程序时,依次执行按照所接受到的程序的处理。此外,也可以设为不进行从服务器计算机向该计算机的程序的转发,通过仅根据其执行指示和结果取得而实现处理功能的、所谓的ASP(应用服务提供商(ApplicationService Provider))型的服务来执行上述的处理的结构。另外,在程序中,包括供于电子计算机的处理用的信息且遵照程序的数据(虽然不是对于计算机的直接指令但具有规定计算机的处理的性质的数据等)。
此外,设为在计算机上执行预定的程序而构成了各装置,但这些处理内容的至少一部分也可以通过硬件来实现。

Claims (4)

1.一种解码装置,通过频域中的解码而得到与时序信号对应的频域样本串,其中,
所述解码装置包括:
参数码解码部,从解码参数η的多个候选,得到与输入的参数码对应的解码参数η的候选,作为解码参数η;
线性预测系数解码部,通过对输入的线性预测系数码进行解码,得到解码线性预测系数;
非平滑化频谱包络序列生成部,使用上述得到的解码参数η,通过式(A2)得到非平滑化频谱包络序列;以及
解码部,根据基于上述非平滑化频谱包络序列而发生改变的比特分配或者实质上发生改变的比特分配,进行所输入的整数信号码的解码,从而得到与上述时序信号对应的频域样本串,
N是正整数,将·作为实数,exp(·)是以纳皮尔数为底的指数函数,j是虚数单位,^β1,^β2,…,^βp是上述解码线性预测系数,^H(0),^H(1),…,^H(N-1)是上述非平滑化振幅频谱包络序列,p是2以上的整数,式(A2)为下式
Figure FDA0003292737160000011
2.一种解码方法,通过频域中的解码而得到与时序信号对应的频域样本串,其中,
所述解码方法包括:
参数码解码步骤,从解码参数η的多个候选,得到与输入的参数码对应的解码参数η的候选,作为解码参数η;
线性预测系数解码步骤,通过对输入的线性预测系数码进行解码,得到解码线性预测系数;
非平滑化频谱包络序列生成步骤,使用上述得到的解码参数η,通过式(A2)得到非平滑化频谱包络序列;以及
解码步骤,根据基于上述非平滑化频谱包络序列而发生改变的比特分配或者实质上发生改变的比特分配,进行所输入的整数信号码的解码,从而得到与上述时序信号对应的频域样本串,
N是正整数,将·作为实数,exp(·)是以纳皮尔数为底的指数函数,j是虚数单位,^β1,^β2,…,^βp是上述解码线性预测系数,^H(0),^H(1),…,^H(N-1)是上述非平滑化振幅频谱包络序列,p是2以上的整数,式(A2)为下式
Figure FDA0003292737160000021
3.一种计算机可读取的记录介质,记录了用于使计算机作为权利要求1所述的解码装置的各部来发挥作用的程序。
4.一种程序,用于使计算机作为权利要求1所述的解码装置的各部来发挥作用。
CN202111170288.3A 2015-01-30 2016-01-27 解码装置、解码方法、记录介质以及程序 Pending CN113921021A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2015-017691 2015-01-30
JP2015017691 2015-01-30
JP2015081770 2015-04-13
JP2015-081770 2015-04-13
CN201680007279.3A CN107210042B (zh) 2015-01-30 2016-01-27 编码装置、编码方法以及记录介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201680007279.3A Division CN107210042B (zh) 2015-01-30 2016-01-27 编码装置、编码方法以及记录介质

Publications (1)

Publication Number Publication Date
CN113921021A true CN113921021A (zh) 2022-01-11

Family

ID=56543436

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111170288.3A Pending CN113921021A (zh) 2015-01-30 2016-01-27 解码装置、解码方法、记录介质以及程序
CN201680007279.3A Active CN107210042B (zh) 2015-01-30 2016-01-27 编码装置、编码方法以及记录介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201680007279.3A Active CN107210042B (zh) 2015-01-30 2016-01-27 编码装置、编码方法以及记录介质

Country Status (6)

Country Link
US (1) US10224049B2 (zh)
EP (1) EP3252758B1 (zh)
JP (1) JP6387117B2 (zh)
KR (1) KR101996307B1 (zh)
CN (2) CN113921021A (zh)
WO (1) WO2016121826A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016121824A1 (ja) * 2015-01-30 2016-08-04 日本電信電話株式会社 パラメータ決定装置、方法、プログラム及び記録媒体
CN107408390B (zh) * 2015-04-13 2021-08-06 日本电信电话株式会社 线性预测编码装置、线性预测解码装置、它们的方法以及记录介质
WO2019167706A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 符号化装置、符号化方法、プログラム、および記録媒体

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3299073B2 (ja) * 1995-04-11 2002-07-08 パイオニア株式会社 量子化装置及び量子化方法
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
JP2002055699A (ja) * 2000-08-10 2002-02-20 Mitsubishi Electric Corp 音声符号化装置および音声符号化方法
JP3590342B2 (ja) * 2000-10-18 2004-11-17 日本電信電話株式会社 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
US7065338B2 (en) * 2000-11-27 2006-06-20 Nippon Telegraph And Telephone Corporation Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
CN100394693C (zh) * 2005-01-21 2008-06-11 华中科技大学 一种变长码的编码和解码方法
JP4730144B2 (ja) * 2005-03-23 2011-07-20 富士ゼロックス株式会社 復号化装置、逆量子化方法及びこれらのプログラム
JPWO2007037359A1 (ja) * 2005-09-30 2009-04-16 パナソニック株式会社 音声符号化装置および音声符号化方法
US7813563B2 (en) * 2005-12-09 2010-10-12 Florida State University Research Foundation Systems, methods, and computer program products for compression, digital watermarking, and other digital signal processing for audio and/or video applications
KR100738109B1 (ko) * 2006-04-03 2007-07-12 삼성전자주식회사 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
JP4981174B2 (ja) * 2007-08-24 2012-07-18 フランス・テレコム 確率テーブルの動的な計算によるシンボルプレーン符号化/復号化
US8856049B2 (en) * 2008-03-26 2014-10-07 Nokia Corporation Audio signal classification by shape parameter estimation for a plurality of audio signal samples
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
JP5612698B2 (ja) * 2010-10-05 2014-10-22 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
RU2559709C2 (ru) * 2011-02-16 2015-08-10 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
WO2012122299A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012137617A1 (ja) * 2011-04-05 2012-10-11 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
JP5648123B2 (ja) * 2011-04-20 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置、音声音響復号装置、およびこれらの方法
CN104321814B (zh) * 2012-05-23 2018-10-09 日本电信电话株式会社 频域基音周期分析方法和频域基音周期分析装置
EP3226243B1 (en) 2014-11-27 2022-01-05 Nippon Telegraph and Telephone Corporation Encoding apparatus, decoding apparatus, and method and program for the same
CN107408390B (zh) * 2015-04-13 2021-08-06 日本电信电话株式会社 线性预测编码装置、线性预测解码装置、它们的方法以及记录介质

Also Published As

Publication number Publication date
US10224049B2 (en) 2019-03-05
KR101996307B1 (ko) 2019-07-04
KR20170098278A (ko) 2017-08-29
CN107210042A (zh) 2017-09-26
EP3252758A4 (en) 2018-09-05
EP3252758B1 (en) 2020-03-18
EP3252758A1 (en) 2017-12-06
US20180047401A1 (en) 2018-02-15
JP6387117B2 (ja) 2018-09-05
JPWO2016121826A1 (ja) 2017-11-02
WO2016121826A1 (ja) 2016-08-04
CN107210042B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
JP6422813B2 (ja) 符号化装置、復号装置、これらの方法及びプログラム
JP5356406B2 (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP6272619B2 (ja) オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法
JP6633787B2 (ja) 線形予測復号装置、方法、プログラム及び記録媒体
CN107004422B (zh) 编码装置、解码装置、它们的方法及程序
JP2015525893A (ja) 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化
JP6595687B2 (ja) 符号化方法、符号化装置、プログラム、および記録媒体
CN107210042B (zh) 编码装置、编码方法以及记录介质
CN106663437B (zh) 编码装置、解码装置、编码方法、解码方法、记录介质
CN107430869B (zh) 参数决定装置、方法及记录介质
JP5336942B2 (ja) 符号化方法、復号方法、符号化器、復号器、プログラム
JP2011009868A (ja) 符号化方法、復号方法、符号化器、復号器およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination