CN107430869B - 参数决定装置、方法及记录介质 - Google Patents
参数决定装置、方法及记录介质 Download PDFInfo
- Publication number
- CN107430869B CN107430869B CN201680007107.6A CN201680007107A CN107430869B CN 107430869 B CN107430869 B CN 107430869B CN 201680007107 A CN201680007107 A CN 201680007107A CN 107430869 B CN107430869 B CN 107430869B
- Authority
- CN
- China
- Prior art keywords
- parameter
- sequence
- unit
- spectral envelope
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 230000003595 spectral effect Effects 0.000 claims abstract description 152
- 238000001228 spectrum Methods 0.000 claims abstract description 90
- 238000009826 distribution Methods 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 7
- 230000002087 whitening effect Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 description 23
- 238000013139 quantization Methods 0.000 description 22
- 238000005314 correlation function Methods 0.000 description 9
- 108010076504 Protein Sorting Signals Proteins 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 6
- 230000001131 transforming effect Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/221—Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
- G10H2250/225—MDCT [Modified discrete cosine transform], i.e. based on a DCT of overlapping data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
- G10H2250/571—Waveform compression, adapted for music synthesisers, sound banks or wavetables
- G10H2250/575—Adaptive MDCT-based compression, e.g. using a hybrid subband-MDCT, as in ATRAC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
- H03M7/4006—Conversion to or from arithmetic code
- H03M7/4012—Binary arithmetic codes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
参数决定装置具备:频谱包络估计单元(42),将参数η0及参数η设为正数,使用通过规定的方法而决定的参数η0,将与时序信号对应的频域样本串的绝对值的η0次方视为功率谱而进行频谱包络的估计;白色化频谱序列生成单元(43),得到将频域样本串除以频谱包络后的序列即白色化频谱序列;以及参数取得单元(44),求得以参数η为形状参数的一般化高斯分布近似白色化频谱序列的直方图的参数η。
Description
技术领域
本发明涉及在音信号等时序信号的编码技术中,决定表示音信号等时序信号的特征的参数的技术。
背景技术
作为表示音信号等时序信号的特征的参数,已知LSP等参数(例如,参照非专利文献1)。
由于LSP包含多个值,因此直接使用于音的分类、区间估计则有时处理困难。例如,由于LSP包含多个值,所以基于使用了LSP的阈值的处理不能说容易。
然而,虽然并非公知,但由发明人提出了参数η。该参数η是,例如在3GPP EVS(增强语音服务(Enhanced Voice Services))标准中使用的对利用线性预测包络的频域的系数的量化值进行算术编码的编码方式中,决定算术码的编码对象所属的概率分布的形状参数。参数η与编码对象的分布具有关联性,若适当决定参数η,则能够进行效率高的编码及解码。
此外,参数η能够成为表示时序信号的特征的指标。因此,参数η能够用于上述编码处理以外的技术、例如音的分类、音区间的估计等声音音响关联技术。
进而,由于参数η包含一个值,所以基于使用了参数η的阈值的处理与基于使用了LSP的阈值的处理相比更容易。因此,参数η能够容易地用于音的分类、区间估计。
现有技术文献
非专利文献
非专利文献1:守谷健弘,“高圧縮音声符号化の必須技術:線スペクトル対(LSP)”,NTT技術ジャーナル,2014年9月,P.58-60
发明内容
发明要解决的课题
决定参数η的技术此前没有被提出。
本发明的目的在于,提供决定参数η的参数决定装置、方法、程序及记录介质。
用于解决课题的手段
根据本发明的一方式的参数决定装置,具备:频谱包络估计单元,将参数η0及参数η设为正数,使用通过规定的方法而决定的参数η0,将与时序信号对应的频域样本串的绝对值的η0次方视为功率谱而进行频谱包络的估计;白色化频谱序列生成单元,得到将上述频域样本串除以频谱包络后的序列即白色化频谱序列;以及参数取得单元,求得以参数η为形状参数的一般化高斯分布近似上述白色化频谱序列的直方图的参数η。
发明效果
能够决定参数η。
附图说明
图1是用于说明参数决定装置的例子的框图。
图2是用于说明参数决定方法的例子的流程图。
图3是用于说明一般化高斯分布的图。
图4是用于说明编码装置的例子的框图。
图5是用于说明编码方法的例子的流程图。
图6是用于说明编码单元的处理的例子的流程图。
图7是用于说明编码单元的例子的框图。
图8是用于说明编码单元的例子的框图。
图9是用于说明本发明的解码装置的例子的框图。
图10是用于说明解码方法的例子的流程图。
图11是用于说明解码单元的处理的例子的流程图。
图12是用于说明音分类装置的例子的框图。
图13是用于说明音分类方法的例子的流程图。
具体实施方式
[参数决定装置及方法]
在图1中示出参数决定装置的结构例。参数决定装置例如图1所示那样具备频域变换单元41、频谱包络估计单元42、白色化频谱序列生成单元43、参数取得单元44。频谱包络估计单元42例如具备线性预测分析单元421及非平滑化振幅频谱包络序列生成单元422。在图2中示出通过由例如该参数决定装置实现的参数决定方法的各处理的例子。
以下,说明图1的各单元。
<频域变换单元41>
向频域变换单元41输入作为时序信号的时域的音信号。音信号的例子是声音数字信号或者音响数字信号。
频域变换单元41以规定的时间长度的帧单位,将所输入的时域的音信号变换为频域的N点的MDCT系数串X(0),X(1),……,X(N-1)。N为正整数。
所得到的MDCT系数串X(0),X(1),……,X(N-1)被输出至频谱包络估计单元42及白色化频谱序列生成单元43。
只要没有特别提及,设为以后的处理以帧单位来进行。
这样,频域变换单元41求得与音信号对应的、例如作为MDCT系数串的频域样本串(步骤C41)。
<频谱包络估计单元42>
向频谱包络估计单元42输入频域变换单元41得到的MDCT系数串 X(0),X(1),……,X(N-1)。
频谱包络估计单元42基于通过规定的方法决定的参数η0,进行将与时序信号对应的频域样本串的绝对值的η0次方作为功率谱使用的频谱包络的估计 (步骤C42)。
所估计出的频谱包络被输出至白色化频谱序列生成单元43。
频谱包络估计单元42通过例如以下说明的线性预测分析单元421及非平滑化振幅频谱包络序列生成单元422的处理,生成非平滑化振幅频谱包络序列从而进行频谱包络的估计。
设为参数η0通过规定的方法来决定。例如,将η0设为比0大的规定的数。例如,设为η0=1。此外,也可以使用在与想要求得当前参数η的帧相比更前的帧中求得的η。与想要求得当前参数η的帧(以下,设为当前帧。)相比更前的帧例如是当前帧的更前的帧并且是当前帧的附近的帧。当前帧的附近的帧例如是当前帧的前一帧。
<线性预测分析单元421>
向线性预测分析单元421输入频域变换单元41得到的MDCT系数串 X(0),X(1),……,X(N-1)。
线性预测分析单元421使用MDCT系数串X(0),X(1),……,X(N-1),对由以下的式(C1)定义的进行线性预测分析而生成线性预测系数β1,β2,……,βp,对所生成的线性预测系数β1,β2,……,βp进行编码而生成线性预测系数码和与线性预测系数码对应的量化后的线性预测系数即量化线性预测系数
具体而言,线性预测分析单元421首先通过进行将MDCT系数串 X(0),X(1),……,X(N-1)的绝对值的η0次方视为功率谱的相当于傅里叶逆变换的运算、即式(C1)的运算,求得与MDCT系数串X(0),X(1),……,X(N-1)的绝对值的η0次方对应的时域的信号串即伪相关函数信号串 然后,线性预测分析单元421使用所求得的伪相关函数信号串 进行线性预测分析,生成线性预测系数β1,β2,……,βp。并且,线性预测分析单元421通过对所生成的线性预测系数β1,β2,……,βp进行编码,从而得到线性预测系数码、和与线性预测系数码对应的量化线性预测系数
线性预测系数β1,β2,……,βp是与在将MDCT系数串X(0),X(1),……,X(N-1) 的绝对值的η0次方视为功率谱时的时域的信号对应的线性预测系数。
基于线性预测分析单元421的线性预测系数码的生成例如通过以往的编码技术来进行。以往的编码技术例如是,将与线性预测系数本身对应的码设为线性预测系数码的编码技术、将线性预测系数变换为LSP参数而将与LSP 参数对应的码设为线性预测系数码的编码技术、将线性预测系数变换为 PARCOR系数而将与PARCOR系数对应的码设为线性预测系数码的编码技术等。
这样,线性预测分析单元421使用通过进行将例如MDCT系数串即频域样本串的绝对值的η0次方视为功率谱的傅里叶逆变换而得到的伪相关函数信号串来进行线性预测分析,生成能够变换为线性预测系数的系数(步骤 C421)。
另外,在由参数决定装置生成的参数用于编码以外的情况下,线性预测分析单元421也可以不进行线性预测系数码的生成。
<非平滑化振幅频谱包络序列生成单元422>
这样,非平滑化振幅频谱包络序列生成单元422基于由线性预测分析单元421生成的能够变换为线性预测系数的系数,得到将与伪相关函数信号串对应的振幅频谱包络的序列进行1/η0次方后的序列即非平滑化频谱包络序列,从而进行频谱包络的估计(步骤C422)。
<白色化频谱序列生成单元43>
白色化频谱序列生成单元43通过将MDCT系数串X(0),X(1),……,X(N-1) 的各系数除以对应的非平滑化振幅频谱包络序列 (N-1)的各值,从而生成白色化频谱序列XW(0),XW(1),……,XW(N-1)。
所生成的白色化频谱序列XW(0),XW(1),……,XW(N-1)被输出至参数取得单元44。
白色化频谱序列生成单元43例如设为k=0,1,……,N-1,通过将MDCT系数串X(0),X(1),……,X(N-1)的各系数X(k)除以非平滑化振幅频谱包络序列 的各值从而生成白色化频谱序列 XW(0),XW(1),……,XW(N-1)的各值XW(k)。即,设为k=0,1,……,N-1,
这样,白色化频谱序列生成单元43得到将例如MDCT系数串即频域样本串除以例如非平滑化振幅频谱包络序列即频谱包络后的序列即白色化频谱序列(步骤C43)。
<参数取得单元44>
向参数取得单元44输入白色化频谱序列生成单元43生成的白色化频谱序列XW(0),XW(1),……,XW(N-1)。
参数取得单元44求得以参数η为形状参数的一般化高斯分布近似白色化频谱序列XW(0),XW(1),……,XW(N-1)的直方图的参数η(步骤C44)。换言之,参数取得单元44决定以参数η为形状参数的一般化高斯分布接近于白色化频谱序列XW(0),XW(1),……,XW(N-1)的直方图的分布的参数η。
以参数η为形状参数的一般化高斯分布例如以下那样定义。Γ为伽马函数。
在此,参数取得单元44求得的η例如通过以下的式(C3)定义。F-1为函数 F的逆函数。该式通过所谓动差(Moment)法来导出。
在逆函数F-1以明显的方式被定义的情况下,参数取得单元44能够通过计算在对以明显的方式定义后的逆函数F-1输入了m1/((m2)1/2)的值时的输出值来求得参数η。
在逆函数F-1没有以明显的方式被定义的情况下,参数取得单元44为了计算由式(C3)定义的η的值,也可以通过例如以下说明的第一方法或者第二方法求得参数η。
说明用于求得参数η的第一方法。在第一方法中,参数取得单元44基于白色化频谱序列来计算m1/((m2)1/2),参照预先准备的不同的多个η和与η对应的F(η)的对,取得与最接近于所计算出的m1/((m2)1/2)的F(η)的η。
预先准备的不同的多个η和与η对应的F(η)的对被预先存储至参数取得单元44的存储单元441。参数取得单元44参照存储单元441,找出与所计算出的m1/((m2)1/2)最接近的F(η),将与所找出的F(η)对应的η从存储单元441读入输出。
与所计算出的m1/((m2)1/2)最接近的F(η)是与所计算出的m1/((m2)1/2)之差的绝对值最小的F(η)。
说明用于求得参数η的第二方法。在第二方法中,作为将逆函数F-1的近似曲线函数以例如以下的式(C3’)来表示的参数取得单元44基于白色化频谱序列来计算m1/((m2)1/2),通过计算对近似曲线函数输入了所计算出的 m1/((m2)1/2)时的输出值从而求得η。该近似曲线函数是在所使用的定义域中输出成为正值的单调递增函数即可。
另外,参数取得单元44求得的η也可以不是如式(C3),而是如式(C3”) 那样通过使用预先决定的正整数q1及q2(其中q1<q2)将式(C3)一般化后的式来定义。
另外,在η由式(C3”)定义的情况下,能够通过与η由式(C3)定义的情况同样的方法来求得η。即,参数取得单元44在基于白色化频谱序列而计算了基于其q1次动差即mq1和其q2次动差即mq2的值mq1/((mq2)q1/q2)之后,例如与上述的第一及第二方法同样,参照预先准备的不同的多个η和与η对应的 F’(η)的对,取得与最接近于所计算出的mq1/((mq2)q1/q2)的F’(η)对应的η,或将逆函数F’-1的近似曲线函数设为能够计算对近似曲线函数输入了所计算出的mq1/((mq2)q1/q2)时的输出值而求得η。
这样也可以说η是基于次数不同的两个不同的动差mq1,mq2的值。例如,也可以基于次数不同的两个不同的动差mq1,mq2之中次数低的一方的动差的值或者基于此的值(以下,设为前者。)和次数高的一方的动差的值或者基于此的值(以下,设为后者)之比的值、基于该比的值的值、或者将前者除以后者而得到的值来求得η。基于动差的值例如是将该动差设为m而将Q设为规定的实数时的mQ。此外,也可以将这些值输入至近似曲线函数而求得η。该近似曲线函数与上述同样,是在所使用的定义域中输出成为正值的单调递增函数即可。
[使用了参数决定装置及方法的编码装置、解码装置及它们的方法]
通过参数决定装置及方法求得的参数η能够成为表示时序信号的特征的指标。因此,参数决定装置及方法例如能够用于编码处理、解码处理、音的分类、音区间的估计等声音音响关联技术。
以下,说明使用了参数决定装置及方法的编码装置、解码装置及它们的方法的例子。
(编码)
在图4中示出编码装置的结构例。编码装置如图4所示那样例如具备频域变换单元21、线性预测分析单元22、非平滑化振幅频谱包络序列生成单元 23、平滑化振幅频谱包络序列生成单元24、包络归一化单元25、编码单元 26、参数决定装置27。在图5中示出由该编码装置实现的编码方法的各处理的例子。
以下,说明图4的各单元。
<参数决定装置27>
参数决定装置27是上述说明的图1中例示的参数决定装置。向参数决定装置27输入时序信号即时域的音信号。音信号的例子是声音数字信号或者音响数字信号。
参数决定装置27基于所输入的时序信号,通过上述说明的处理,决定参数η(步骤A7)。所决定的η被输出至线性预测分析单元22、非平滑化振幅频谱包络序列估计单元23及平滑化振幅频谱包络序列估计单元24。
此外,参数决定装置27通过对所决定的η进行编码从而生成参数码。所生成的参数码被发送至解码装置。
<频域变换单元21>
向频域变换单元21输入时域的时序信号即音信号。音信号的例子是声音数字信号或者音响数字信号。
频域变换单元21以规定的时间长度的帧单位,将所输入的时域的音信号变换为频域的N点的MDCT系数串X(0),X(1),……,X(N-1)(步骤A1)。N为正整数。
所得到的MDCT系数串X(0),X(1),……,X(N-1)被输出至线性预测分析单元22和包络归一化单元25。
只要没有特别提及,设为以后的处理以帧单位来进行。
这样,频域变换单元21求得与音信号对应的例如MDCT系数串即频域样本串。
<线性预测分析单元22>
向线性预测分析单元22输入频域变换单元21得到的MDCT系数串 X(0),X(1),……,X(N-1)。
线性预测分析单元22使用MDCT系数串X(0),X(1),……,X(N-1),对由以下的式(A7)定义的进行线性预测分析而生成线性预测系数β1,β2,……,βp,对所生成的线性预测系数β1,β2,……,βp进行编码而生成线性预测系数码和与线性预测系数码对应的量化后的线性预测系数即量化线性预测系数(步骤A2)。
所生成的量化线性预测系数被输出至非平滑化频谱包络序列生成单元23和平滑化振幅频谱包络序列生成单元24。另外,通过线性预测分析处理的过程算出预测残差的能量σ2。在该情况下,所算出的预测残差的能量σ2被输出至方差参数决定单元268。
此外,所生成的线性预测系数码被发送至解码装置。
具体而言,线性预测分析单元22首先通过进行相当于将MDCT系数串 X(0),X(1),……,X(N-1)的绝对值的η次方视为功率谱的傅里叶逆变换的运算、即式(A7)的运算,从而求得与MDCT系数串X(0),X(1),……,X(N-1)的绝对值的η次方对应的时域的信号串即伪相关函数信号串 然后,线性预测分析单元22使用所求得的伪相关函数信号串 进行线性预测分析,生成线性预测系数β1,β2,……,βp。然后,线性预测分析单元22通过对所生成的线性预测系数β1,β2,……,βp进行编码,从而得到线性预测系数码、和与线性预测系数码对应的量化线性预测系数
线性预测系数β1,β2,……,βp是与在将MDCT系数串X(0),X(1),……,X(N-1) 的绝对值的η次方视为功率谱时的时域的信号对应的线性预测系数。
基于线性预测分析单元22的线性预测系数码的生成例如通过以往的编码技术来进行。以往的编码技术例如是将与线性预测系数本身对应的码设为线性预测系数码的编码技术、将线性预测系数变换为LSP参数而将与LSP参数对应的码设为线性预测系数码的编码技术、将线性预测系数变换为PARCOR系数而将与PARCOR系数对应的码设为线性预测系数码的编码技术等。例如,将与线性预测系数本身对应的码设为线性预测系数码的编码技术是,多个量化线性预测系数的候选被预先决定,各候选与线性预测系数码预先相关联而存储,决定候选的其中一个作为对于所生成的线性预测系数的量化线性预测系数,得到量化线性预测系数和线性预测系数码的技术。
这样,线性预测分析单元22使用通过进行例如将MDCT系数串即频域序列的绝对值的η次方视为功率谱的傅里叶逆变换而得到的伪相关函数信号串来进行线性预测分析,生成能够变换为线性预测系数的系数。
<非平滑化振幅频谱包络序列生成单元23>
这样,非平滑化振幅频谱包络序列生成单元23通过得到将与由线性预测分析单元22生成的能够变换为线性预测系数的系数对应的振幅频谱包络的序列进行1/η次方后的序列即非平滑化频谱包络序列,从而进行频谱包络的估计。在此,将c设为任意的数,将由多个值构成的序列进行c次方后的序列是,由将多个值的每一个进行c次方后的值构成的序列。例如,将振幅频谱包络的序列进行1/η次方后的序列是,由将振幅频谱包络的各系数进行1/η次方后的值构成的序列。
基于非平滑化振幅频谱包络序列生成单元23的1/η次方的处理起因于由线性预测分析单元22进行的将频域样本串的绝对值的η次方视为功率谱的处理。即,为了将通过由线性预测分析单元22进行的将频域样本串的绝对值的η次方视为功率谱的处理而η次方后的值返回原来的值,进行基于非平滑化振幅频谱包络序列生成单元23的1/η次方的处理。
<平滑化振幅频谱包络序列生成单元24>
<包络归一化单元25>
包络归一化单元25通过将MDCT系数串X(0),X(1),……,X(N-1)的各系数以对应的平滑化振幅频谱包络序列的各值来归一化,从而生成归一化MDCT系数串XN(0),XN(1),……,XN(N-1)(步骤A5)。
所生成的归一化MDCT系数串被输出至编码单元26。
包络归一化单元25例如设为k=0,1,……,N-1,将MDCT系数串 X(0),X(1),……,X(N-1)的各系数X(k)除以平滑化振幅频谱包络序列 的各值,从而生成归一化MDCT系数串 XN(0),XN(1),……,XN(N-1)的各系数XN(k)。即,设为k=0,1,……,N-1,
<编码单元26>
向编码单元26输入包络归一化单元25生成的归一化MDCT系数串 XN(0),XN(1),……,XN(N-1)、非平滑化振幅频谱包络生成单元23生成的非平滑化振幅频谱包络序列平滑化振幅频谱包络生成单元24生成的平滑化振幅频谱包络序列及线性预测分析单元22算出的平均残差的能量σ2。
编码单元26通过例如进行图6所示的步骤A61至步骤A65的处理来进行编码(步骤A6)。
编码单元26求得与归一化MDCT系数串XN(0),XN(1),……,XN(N-1)对应的全局增益g(步骤A61),求得对将归一化MDCT系数串 XN(0),XN(1),……,XN(N-1)的各系数除以全局增益g后的结果进行量化后的整数值的序列即已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)(步骤A62),根据全局增益g、非平滑化振幅频谱包络序列平滑化振幅频谱包络序列平均残差的能量σ2,通过式(A1)求得与已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)的各系数对应的方差参数(步骤A63),使用方差参数对已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)进行算术编码而得到整数信号码(步骤A64),得到与全局增益g对应的增益码(步骤A65)。
所生成的整数信号码和增益码作为与归一化MDCT系数串对应的码,被输出至解码装置。
编码单元26通过步骤A61至步骤A65,实现以下功能:决定整数信号码的比特数为预先分配的比特数即分配比特数B以下、且成为尽量大的值的全局增益g,生成与所决定的全局增益g对应的增益码、和与该决定的全局增益g对应的整数信号码。
编码单元26进行的步骤A61至步骤A65之中的包含特征性的处理的是步骤A63,对于对全局增益g和已量化归一化系数序列 XQ(0),XQ(1),……,XQ(N-1)的每一个进行编码从而得到与归一化MDCT系数串对应的码的编码处理本身来说,存在包含非专利文献1中记载的技术的各种公知技术。以下说明两个编码单元26进行的编码处理的具体例。
[编码单元26进行的编码处理的具体例1]
作为编码单元26进行的编码处理的具体例1,说明不包含循环处理的例子。
在图7中示出具体例1的编码单元26的结构例。具体例1的编码单元 26如图7所示那样例如具备增益取得单元261、量化单元262、方差参数决定单元268、算术编码单元269、增益编码单元265。以下,说明图7的各单元。
<增益取得单元261>
向增益取得单元261输入包络归一化单元25生成的归一化MDCT系数串XN(0),XN(1),……,XN(N-1)。
增益取得单元261根据归一化MDCT系数串XN(0),XN(1),……,XN(N-1),决定整数信号码的比特数为预先分配的比特数即分配比特数B以下、且成为尽量大的值的全局增益g并进行输出(步骤S261)。增益取得单元261例如得到归一化MDCT系数串XN(0),XN(1),……,XN(N-1)的能量的合计的平方根和与分配比特数B有负相关的常数的乘法值作为全局增益g并进行输出。或者也可以是增益取得单元261将归一化MDCT系数串XN(0),XN(1),……,XN(N-1)的能量的合计、分配比特数B、和全局增益g的关系预先表化,通过参照该表从而得到全局增益g并进行输出。
这样,增益取得单元261得到用于对例如归一化MDCT系数串即归一化频域样本串的全部样本进行除法的增益。
所得到的全局增益g输出至量化单元262及方差参数决定单元268。
<量化单元262>
向量化单元262输入包络归一化单元25生成的归一化MDCT系数串 XN(0),XN(1),……,XN(N-1)及增益取得单元261得到的全局增益g。
量化单元262得到将归一化MDCT系数串XN(0),XN(1),……,XN(N-1)的各系数除以全局增益g后的结果的整数部分的序列即已量化归一化系数序列 XQ(0),XQ(1),……,XQ(N-1)并进行输出(步骤S262)。
这样,量化单元262将例如归一化MDCT系数串即归一化频域样本串的各样本除以增益并进行量化而求得已量化归一化系数序列。
所得到的已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)被输出至算术编码单元269。
<方差参数决定单元268>
向方差参数决定单元268输入增益取得单元261得到的全局增益g、非平滑化振幅频谱包络生成单元23生成的非平滑化振幅频谱包络序列 平滑化振幅频谱包络生成单元24生成的平滑化振幅频谱包络序列及线性预测分析单元22得到的预测残差的能量σ2。
<算术编码单元269>
算术编码单元269使用方差参数序列的各方差参数,对已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)进行算术编码而得到整数信号码作为与已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)的各系数对应的方差参数并进行输出(步骤S269)。
算术编码单元269在算术编码时,构成在已量化归一化系数序列 XQ(0),XQ(1),……,XQ(N-1)的各系数遵照一般化高斯分布时成为最佳的算术码,通过基于该结构的算术码而进行编码。其结果,对已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)的各系数的比特分担的期待值由方差参数序列来决定。
所得到的整数信号码被输出至解码装置。
也可以在包括已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)之中的多个系数上进行算术编码。在该情况下,从式(A1),式(A8)可知,方差参数序列的各方差参数基于非平滑化振幅频谱包络序列 所以可以说算术编码单元269进行基于所估计出的频谱包络(非平滑化振幅频谱包络)而实质上比特分担改变的编码。
<增益编码单元265>
向增益编码单元265输入增益取得单元261得到的全局增益g。
增益编码单元265对全局增益g进行编码而得到增益码并进行输出(步骤S265)。
所生成的整数信号码和增益码作为与归一化MDCT系数串对应的码,被输出至解码装置。
本具体例1的步骤S261、S262、S268、S269、S265分别对应于上述的步骤A61、A62、A63、A64、A65。
[编码单元26进行的编码处理的具体例2]
作为编码单元26进行的编码处理的具体例2,说明包含循环处理的例子。
在图8中示出具体例2的编码单元26的结构例。具体例2的编码单元 26如图8所示那样例如具备增益取得单元261、量化单元262、方差参数决定单元268、算术编码单元269、增益编码单元265、判定单元266、增益更新单元267。以下,说明图8的各单元。
<增益取得单元261>
向增益取得单元261输入包络归一化单元25生成的归一化MDCT系数串XN(0),XN(1),……,XN(N-1)。
增益取得单元261根据归一化MDCT系数串XN(0),XN(1),……,XN(N-1),决定整数信号码的比特数为预先分配的比特数即分配比特数B以下、且成为尽量大的值的全局增益g并进行输出(步骤S261)。增益取得单元261例如得到归一化MDCT系数串XN(0),XN(1),……,XN(N-1)的能量的合计的平方根和与分配比特数B有负相关的常数的乘法值作为全局增益g并进行输出。
所得到的全局增益g被输出至量化单元262及方差参数决定单元268。
增益取得单元261得到的全局增益g成为在量化单元262及方差参数决定单元268中使用的全局增益的初始值。
<量化单元262>
向量化单元262输入包络归一化单元25生成的归一化MDCT系数串 XN(0),XN(1),……,XN(N-1)及增益取得单元261或者增益更新单元267得到的全局增益g。
量化单元262得到将归一化MDCT系数串XN(0),XN(1),……,XN(N-1)的各系数除以全局增益g后的结果的整数部分的序列即已量化归一化系数序列 XQ(0),XQ(1),……,XQ(N-1)并进行输出(步骤S262)。
在此,在量化单元262初次被执行时使用的全局增益g是增益取得单元 261得到的全局增益g、即全局增益的初始值。此外,在量化单元262第2次以后被执行时使用的全局增益g是增益更新单元267得到的全局增益g、即全局增益的更新值。
所得到的已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)被输出至算术编码单元269。
<方差参数决定单元268>
向方差参数决定单元268输入增益取得单元261或者增益更新单元267 得到的全局增益g、非平滑化振幅频谱包络生成单元23生成的非平滑化振幅频谱包络序列平滑化振幅频谱包络生成单元 24生成的平滑化振幅频谱包络序列及线性预测分析单元22得到的预测残差的能量σ2。
在此,在方差参数决定单元268初次被执行时使用的全局增益g是增益取得单元261得到的全局增益g、即全局增益的初始值。此外,在方差参数决定单元268第2次以后被执行时使用的全局增益g是增益更新单元267得到的全局增益g、即全局增益的更新值。
<算术编码单元269>
算术编码单元269使用方差参数序列的各方差参数作为与已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)的各系数对应的方差参数,对已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)进行算术编码,得到整数信号码和整数信号码的比特数即消耗比特数C并进行输出(步骤 S269)。
算术编码单元269在算术编码时,通过算术码进行在已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)的各系数遵照一般化高斯分布时成为最佳的比特分担,通过基于所进行的比特分担的算术码来进行编码。
所得到的整数信号码及消耗比特数C被输出至判定单元266。
也可以在已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)之中的多个系数上进行算术编码。在该情况下,从式(A1),式(A8)可知,方差参数序列的各方差参数基于非平滑化振幅频谱包络序列 所以可以说算术编码单元269进行基于所估计出的频谱包络(非平滑化振幅频谱包络)而实质上比特分担改变的编码。
<判定单元266>
向判定单元266输入算术编码单元269得到的整数信号码。
判定单元266在增益的更新次数为预先决定的次数的情况下,输出整数信号码,且对增益编码单元265输出对增益更新单元267得到的全局增益g 进行编码的指示信号,在增益的更新次数小于预先决定的次数的情况下,对增益更新单元267输出算术编码单元264测量出的消耗比特数C(步骤S266)。
<增益更新单元267>
向增益更新单元267输入算术编码单元264测量的消耗比特数C。
增益更新单元267在消耗比特数C比分配比特数B多的情况下将全局增益g的值更新为较大的值并进行输出,在消耗比特数C比分配比特数B少的情况下将全局增益g的值更新为较小的值,输出更新后的全局增益g的值(步骤S267)。
增益更新单元267得到的更新后的全局增益g被输出至量化单元262及增益编码单元265。
<增益编码单元265>
向增益编码单元265输入来自判定单元266的输出指示及增益更新单元 267得到的全局增益g。
增益编码单元265按照指示信号,对全局增益g进行编码而得到增益码并进行输出(步骤265)。
判定单元266输出的整数信号码、和增益编码单元265输出的增益码作为与归一化MDCT系数串对应的码,被输出至解码装置。
即,在本具体例2中,最后进行的步骤S267对应于上述的步骤A61,步骤S262、S263、S264、S265分别对应于上述的步骤A62、A63、A64、A65。
另外,关于编码单元26进行的编码处理的具体例2,在国际公开公报 WO2014/054556等中更详细地被说明。
[编码单元26的变形例]
编码单元26例如也可以通过进行以下的处理,进行基于所估计出的频谱包络(非平滑化振幅频谱包络)而改变比特分担的编码。
编码单元26首先求得与归一化MDCT系数串XN(0),XN(1),……,XN(N-1) 对应的全局增益g,求得对将归一化MDCT系数串XN(0),XN(1),……,XN(N-1) 的各系数除以全局增益g后的结果进行量化后的整数值的序列即已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)。
假设为关于与该已量化归一化系数序列XQ(0),XQ(1),……,XQ(N-1)的各系数对应的量化比特,XQ(k)的分布在某范围内一致,能够根据包络的估计值来决定其范围。还能够对按多个样本的每个样本的包络的估计值进行编码,但编码单元26能够例如以下的式(A9)那样使用基于线性预测的归一化振幅频谱包络序列的值来决定XQ(k)的范围。
在对某k中的XQ(k)进行量化时,为了将XQ(k)的平方误差设为最小,能够与
的制约一起,还设定所分担的比特数b(k)
B为预先决定的正整数。此时编码单元26也可以进行四舍五入以使b(k) 成为整数、或在比0小的情况下设为b(k)=0等b(k)的再调整的处理。
此外,编码单元26还能够不是进行按每个样本的分担,而是进行将多个样本汇总而决定分配比特数,对量化来说也不是进行按每个样本的标量量化,而是进行按将多个样本汇总后的每个矢量的量化。
若设为样本k的XQ(k)的量化比特数b(k)由上述提供,按每个样本进行编码,则XQ(k)能够取得-2b(k)-1至2b(k)-1这2b(k)种类的整数。编码单元26以b(k) 比特对各样本进行编码而得到整数信号码。
所生成的整数信号码被输出至解码装置。例如,与所生成的XQ(k)对应的 b(k)比特的整数信号码从k=0起依次被输出至解码装置。
如果在XQ(k)超过上述的-2b(k)-1至2b(k)-1的范围的情况下,置换为最大值、或者最小值。
若g过小则在该置换中产生量化失真,若g过大则量化误差变大,XQ(k) 可取的范围与b(k)相比过小,不能进行信息的有效利用。因此,也可以进行g 的最佳化。
编码单元26对全局增益g进行编码而得到增益码并进行输出。
如该编码单元26的变形例那样,编码单元26也可以进行算术编码以外的编码。
(解码)
在图9中示出与编码装置对应的解码装置的结构例。解码装置如图9所示那样例如具有线性预测系数解码单元31、非平滑化振幅频谱包络序列生成单元32、平滑化振幅频谱包络序列生成单元33、解码单元34、包络反归一化单元35、时域变换单元36、参数解码单元37。在图10中示出由该解码装置实现的解码方法的各处理的例子。
向解码装置至少输入编码装置输出的参数码、与归一化MDCT系数串对应的码及线性预测系数码。
以下,说明图9的各单元。
<参数解码单元37>
向参数解码单元37输入编码装置输出的参数码。
参数解码单元37通过对参数码进行解码而求得解码参数η。所求得的解码参数η被输出至非平滑化振幅频谱包络序列生成单元32、平滑化振幅频谱包络序列生成单元33及解码单元34。
<线性预测系数解码单元31>
向线性预测系数解码单元31输入编码装置输出的线性预测系数码。
在此,以往的解码技术例如是,在线性预测系数码为与量化后的线性预测系数对应的码的情况下对线性预测系数码进行解码而得到与量化后的线性预测系数相同的解码线性预测系数的技术、在线性预测系数码为与量化后的 LSP参数对应的码的情况下对线性预测系数码进行解码而得到与量化后的 LSP参数相同的解码LSP参数的技术等。此外,线性预测系数和LSP参数能够相互变换,根据所输入的线性预测系数码和在后级的处理中所需的信息,进行解码线性预测系数和解码LSP参数之间的变换处理即可是公知的。根据以上,将包含上述的线性预测系数码的解码处理和根据需要而进行的上述的变换处理的处理称为“基于以往的解码技术的解码”。
这样,线性预测系数解码单元31通过对所输入的线性预测系数码进行解码,从而生成与通过进行将与时序信号对应的频域序列的绝对值的η次方视为功率谱的傅里叶逆变换而得到的伪相关函数信号串对应的能够变换为线性预测系数的系数。
<非平滑化振幅频谱包络序列生成单元32>
这样,非平滑化振幅频谱包络序列生成单元32得到将与由线性预测系数解码单元31生成的能够变换为线性预测系数的系数对应的振幅频谱包络的序列进行1/η次方后的序列即非平滑化频谱包络序列。
<平滑化振幅频谱包络序列生成单元33>
<解码单元34>
向解码单元34输入参数解码单元37求得的解码参数η、与编码装置输出的归一化MDCT系数串对应的码、非平滑化振幅频谱包络生成单元32生成的非平滑化振幅频谱包络序列及平滑化振幅频谱包络生成单元33生成的平滑化振幅频谱包络序列
解码单元34具备方差参数决定单元342。
解码单元34通过例如进行图11所示的步骤B41至步骤B44的处理来进行解码(步骤B4)。即,解码单元34按每帧对与所输入的归一化MDCT系数串对应的码中包含的增益码进行解码而得到全局增益g(步骤B41)。解码单元34的方差参数决定单元342根据全局增益g、非平滑化振幅频谱包络序列平滑化振幅频谱包络序列 通过上述的式(A1)求得方差参数序列的各方差参数(步骤B42)。解码单元34将与归一化MDCT系数串对应的码中包含的整数信号码按照与方差参数序列的各方差参数对应的算术解码的结构进行算术解码,得到已解码归一化系数序列 (步骤B43),对已解码归一化系数序列的各系数乘以全局增益g,生成解码归一化MDCT系数串 (步骤B44)。这样,解码单元34也可以按照基于非平滑化频谱包络序列而实质上改变的比特分担,进行所输入的整数信号码的解码。
另外,在通过[编码单元26的变形例]中记载的处理进行编码的情况下,解码单元34例如进行以下的处理。解码单元34按每帧对与所输入的归一化 MDCT系数串对应的码中包含的增益码进行解码而得到全局增益g。解码单元34的方差参数决定单元342根据非平滑化振幅频谱包络序列 和平滑化振幅频谱包络序列通过上述的式(A9)而求得方差参数序列的各方差参数。解码单元34能够基于方差参数序列的各方差参数通过式(A10)求得b(k),将XQ(k)的值以该比特数b(k)依次进行解码,得到已解码归一化系数序列对已解码归一化系数序列的各系数乘以全局增益g,生成解码归一化 MDCT系数串这样,解码单元34也可以按照基于非平滑化频谱包络序列而改变的比特分担,进行所输入的整数信号码的解码。
<包络反归一化单元35>
所生成的解码MDCT系数串^X(0),^X(1),……,^X(N-1)被输出至时域变换单元36。
<时域变换单元36>
这样,解码装置通过频域中的解码而得到时序信号。
[使用了参数决定装置及方法的音分类装置及方法]
以下,说明使用了参数决定装置及方法的音分类装置及方法的例子。
音分类装置如图13所示,例如具备参数决定装置51及判定单元52。该音分类装置通过进行以下、图13所例示的处理来实现音分类方法。
参数决定装置51是上述说明的参数决定装置,通过上述说明的处理来决定参数η(步骤E1)。所决定的η被输出至判定单元52。
判定单元52在由参数决定装置及方法决定的参数η比规定的阈值小的情况下,与该参数η对应的时序信号的区间分类为是音乐,在并非如此的情况下分类为声音(步骤E2)。
该音分类装置及方法起因于参数η越小则对应的时序信号的稳态性越大的性质。
[变形例等]
参数决定装置或者方法也可以通过循环处理而求得参数η。即,参数决定装置或者方法也可以进一步进行一次以上将由参数取得单元44求得的参数η设为通过规定的方法而决定的参数η0的频谱包络估计单元42、白色化频谱序列生成单元43及参数取得单元44的处理。
在该情况下,例如,如图1中虚线所示,由参数取得单元44求得的参数η被输出至频谱包络估计单元42。频谱包络估计单元42基于由参数取得单元 44求得的η,进行与上述说明的处理同样的处理而进行频谱包络的估计。白色化频谱序列生成单元43基于新估计出的频谱包络,进行与上述说明的处理同样的处理而生成白色化频谱序列。参数取得单元44基于新生成的白色化频谱序列,进行与上述说明的处理同样的处理而求得参数η。
例如,频谱包络估计单元42、白色化频谱序列生成单元43及参数取得单元44的处理也可以进一步被进行规定的次数即τ回。τ为规定的正整数,例如τ=1或者τ=2。
此外,也可以是频谱包络估计单元42直至此次求得的参数η和上次求得的参数η之差的绝对值成为规定的阈值以下为止,反复进行频谱包络估计单元42、白色化频谱序列生成单元43及参数取得单元44的处理。
若将线性预测分析单元22及非平滑化振幅频谱包络序列生成单元23理解为一个频谱包络估计单元2A,则可以说该频谱包络估计单元2A进行将与时序信号对应的例如MDCT系数串即频域序列的绝对值的η次方视为功率谱的频谱包络(非平滑化振幅频谱包络序列)的估计。在此,“视为功率谱”意味着在通常使用功率谱时,使用η次方的频谱。
在该情况下,可以说频谱包络估计单元2A的线性预测分析单元22使用通过进行将例如MDCT系数串即频域序列的绝对值的η次方视为功率谱的傅里叶逆变换而得到的伪相关函数信号串来进行线性预测分析,得到能够变换为线性预测系数的系数。此外,可以说频谱包络估计单元2A的非平滑化振幅频谱包络序列生成单元23通过得到将与由线性预测分析单元22得到的能够变换为线性预测系数的系数对应的振幅频谱包络的序列进行1/η次方后的序列即非平滑化频谱包络序列来进行频谱包络的估计。
此外,若将平滑化振幅频谱包络序列生成单元24、包络归一化单元25 及编码单元26理解为一个编码单元2B,则可以说该编码单元2B例如对 MDCT系数串即频域序列的各系数进行基于由频谱包络估计单元2A估计出的频谱包络(非平滑化振幅频谱包络序列)而改变比特分担或者实质上比特分担改变的编码。
若将解码单元34及包络反归一化单元35理解为一个解码单元3A,则可以说该解码单元3A按照基于非平滑化频谱包络序列而改变的比特分担或者实质上改变的比特分担,进行所输入的整数信号码的解码从而得到与时序信号对应的频域样本串。
上述说明的处理不仅按照记载的顺序而时序地执行,也可以根据执行处理的装置的处理能力或者根据需要而并行或者单独地执行。
此外,也可以通过计算机来实现各方法或者各装置中的各种处理。在该情况下,各方法或者各装置的处理内容通过程序来记述。并且,通过以计算机来执行该程序,在计算机上实现各方法或者各装置中的各种处理。
记述了该处理内容的程序能够记录至计算机可读取的记录介质。作为计算机可读取的记录介质,例如也可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任意记录介质。
此外,该程序的流通例如通过对记录了该程序的DVD、CD-ROM等可移动记录介质进行销售、转让、借出等来进行。进而,也可以将该程序储存至服务器计算机的存储装置,经由网络从服务器计算机向其他计算机转发该程序,从而使该程序流通。
执行这样的程序的计算机例如首先将在可移动记录介质中记录的程序或从服务器计算机转发的程序暂时储存至自己的存储单元。并且,在执行处理时,该计算机读取在自己的存储单元中储存的程序,执行按照所读取到的程序的处理。此外,作为该程序的其他实施方式,也可以是计算机从可移动记录介质直接读取程序,执行按照该程序的处理。进而,也可以在每次从服务器计算机向该计算机转发程序时,逐次执行按照所接受到的程序的处理。此外,也可以设为不进行从服务器计算机向该计算机的程序的转发,通过仅通过其执行指示和结果取得就实现处理功能的所谓ASP((应用服务提供商 (Application ServiceProvider))型的服务来执行上述的处理的结构。另外,设为在程序中包含供于电子计算机的处理用的信息并且是遵循程序的信息 (不是对于计算机的直接的指令,但具有规定计算机的处理的性质的数据等)。
此外,设为通过在计算机上执行规定的程序而构成各装置,但也可以将这些处理内容的至少一部分在硬件上实现。
Claims (17)
1.一种参数决定装置,其中,包含:
频谱包络估计单元,将参数η0及参数η设为正数,使用通过规定的方法而决定的参数η0,将与时序信号对应的频域样本串的绝对值的η0次方视为功率谱而进行频谱包络的估计;
白色化频谱序列生成单元,得到将上述频域样本串除以上述频谱包络后的序列即白色化频谱序列;以及
参数取得单元,求得以参数η为形状参数的一般化高斯分布近似上述白色化频谱序列的直方图的参数η。
2.如权利要求1所述的参数决定装置,其中,
进一步进行一次以上将由上述参数取得单元求得的参数η设为通过上述规定的方法而决定的参数η0的、上述频谱包络估计单元、上述白色化频谱序列生成单元及上述参数取得单元的处理。
3.如权利要求1或者2所述的参数决定装置,其中,
将q1、q2设为预先决定的不同的正整数,上述参数取得单元基于上述白色化频谱序列的q1次动差即mq1的值和上述白色化频谱序列的q2次动差即mq2的值来求得上述参数η。
5.如权利要求4所述的参数决定装置,其中,
上述参数取得单元基于上述白色化频谱序列而计算mq1/((mq2)q1/q2),参照预先准备的不同的多个η和与η对应的F(η)的对,取得与最接近于所计算出的mq1/((mq2)q1/q2)的F(η)对应的η。
7.如权利要求1所述的参数决定装置,其中,
上述参数决定装置按各帧的每一帧求得参数η,
想要求得当前参数η的帧的通过上述规定的方法决定的参数η0是在与想要求得当前参数η的帧相比更前的帧中求得的η。
8.如权利要求1所述的参数决定装置,其中,
上述时序信号为音信号,
上述参数η为表示上述音信号的特征的参数。
9.一种参数决定方法,其中,包含:
频谱包络估计步骤,将参数η0及参数η设为正数,使用通过规定的方法而决定的参数η0,将与时序信号对应的频域样本串的绝对值的η0次方视为功率谱而进行频谱包络的估计;
白色化频谱序列生成步骤,得到将上述频域样本串除以上述频谱包络后的序列即白色化频谱序列;以及
参数取得步骤,求得以参数η为形状参数的一般化高斯分布近似上述白色化频谱序列的直方图的参数η。
10.如权利要求9所述的参数决定方法,其中,
进一步进行一次以上将由上述参数取得步骤求得的参数η设为通过上述规定的方法而决定的参数η0的、上述频谱包络估计步骤、上述白色化频谱序列生成步骤及上述参数取得步骤的处理。
11.如权利要求9或者10所述的参数决定方法,其中,
将q1、q2设为预先决定的不同的正整数,上述参数取得步骤基于上述白色化频谱序列的q1次动差即mq1的值和上述白色化频谱序列的q2次动差即mq2的值来求得上述参数η。
13.如权利要求12所述的参数决定方法,其中,
上述参数取得步骤基于上述白色化频谱序列来计算mq1/((mq2)q1/q2),参照预先准备的不同的多个η和与η对应的F(η)的对,取得与最接近于所计算出的mq1/((mq2)q1/q2)的F(η)对应的η。
15.如权利要求9所述的参数决定方法,其中,
上述参数决定方法按各帧的每一帧求得参数η,
想要求得当前参数η的帧的通过上述规定的方法而决定的参数η0是在与想要求得当前参数η的帧相比更前的帧中求得的η。
16.如权利要求9所述的参数决定方法,其中,
上述时序信号为音信号,
上述参数η为表示上述音信号的特征的参数。
17.一种计算机可读取的记录介质,记录了用于使计算机作为权利要求1所述的参数决定装置的各单元而发挥作用的程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-017690 | 2015-01-30 | ||
JP2015017690 | 2015-01-30 | ||
PCT/JP2016/052362 WO2016121824A1 (ja) | 2015-01-30 | 2016-01-27 | パラメータ決定装置、方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107430869A CN107430869A (zh) | 2017-12-01 |
CN107430869B true CN107430869B (zh) | 2020-06-12 |
Family
ID=56543434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680007107.6A Active CN107430869B (zh) | 2015-01-30 | 2016-01-27 | 参数决定装置、方法及记录介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10276186B2 (zh) |
EP (2) | EP3751565B1 (zh) |
JP (1) | JP6499206B2 (zh) |
KR (1) | KR102070145B1 (zh) |
CN (1) | CN107430869B (zh) |
WO (1) | WO2016121824A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3270376B1 (en) * | 2015-04-13 | 2020-03-18 | Nippon Telegraph and Telephone Corporation | Sound signal linear predictive coding |
CN110771045B (zh) * | 2017-06-22 | 2024-03-29 | 日本电信电话株式会社 | 编码装置、解码装置、编码方法、解码方法、以及记录介质 |
CN115765898B (zh) * | 2022-11-18 | 2024-04-12 | 中国舰船研究设计中心 | 一种基于最大值双边单调的频谱包络提取方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08288852A (ja) * | 1995-04-11 | 1996-11-01 | Pioneer Electron Corp | 量子化装置及び量子化方法 |
CN1838776A (zh) * | 2005-03-23 | 2006-09-27 | 富士施乐株式会社 | 解码装置、逆量化方法及其程序 |
CN101529929A (zh) * | 2006-09-05 | 2009-09-09 | Gn瑞声达A/S | 具有基于直方图的声环境分类的助听器 |
CN103329199A (zh) * | 2011-01-25 | 2013-09-25 | 日本电信电话株式会社 | 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质 |
CN103460287A (zh) * | 2011-04-05 | 2013-12-18 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序、记录介质 |
WO2014001182A1 (en) * | 2012-06-28 | 2014-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based audio coding using improved probability distribution estimation |
EP2827328A1 (en) * | 2012-05-30 | 2015-01-21 | Nippon Telegraph And Telephone Corporation | Coding method, coding device, program, and recording medium |
CN104321814A (zh) * | 2012-05-23 | 2015-01-28 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序以及记录介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4730144B2 (ja) * | 2005-03-23 | 2011-07-20 | 富士ゼロックス株式会社 | 復号化装置、逆量子化方法及びこれらのプログラム |
US7813563B2 (en) | 2005-12-09 | 2010-10-12 | Florida State University Research Foundation | Systems, methods, and computer program products for compression, digital watermarking, and other digital signal processing for audio and/or video applications |
WO2008028484A1 (en) * | 2006-09-05 | 2008-03-13 | Gn Resound A/S | A hearing aid with histogram based sound environment classification |
US8856049B2 (en) * | 2008-03-26 | 2014-10-07 | Nokia Corporation | Audio signal classification by shape parameter estimation for a plurality of audio signal samples |
PL3252762T3 (pl) | 2012-10-01 | 2019-07-31 | Nippon Telegraph And Telephone Corporation | Sposób kodowania, koder, program i nośnik zapisu |
AU2014204540B1 (en) * | 2014-07-21 | 2015-08-20 | Matthew Brown | Audio Signal Processing Methods and Systems |
EP3226243B1 (en) | 2014-11-27 | 2022-01-05 | Nippon Telegraph and Telephone Corporation | Encoding apparatus, decoding apparatus, and method and program for the same |
CN107210042B (zh) | 2015-01-30 | 2021-10-22 | 日本电信电话株式会社 | 编码装置、编码方法以及记录介质 |
EP3270376B1 (en) | 2015-04-13 | 2020-03-18 | Nippon Telegraph and Telephone Corporation | Sound signal linear predictive coding |
-
2016
- 2016-01-27 CN CN201680007107.6A patent/CN107430869B/zh active Active
- 2016-01-27 EP EP20185357.9A patent/EP3751565B1/en active Active
- 2016-01-27 KR KR1020177019110A patent/KR102070145B1/ko active IP Right Grant
- 2016-01-27 EP EP16743427.3A patent/EP3252768B1/en active Active
- 2016-01-27 US US15/544,452 patent/US10276186B2/en active Active
- 2016-01-27 JP JP2016572109A patent/JP6499206B2/ja active Active
- 2016-01-27 WO PCT/JP2016/052362 patent/WO2016121824A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08288852A (ja) * | 1995-04-11 | 1996-11-01 | Pioneer Electron Corp | 量子化装置及び量子化方法 |
CN1838776A (zh) * | 2005-03-23 | 2006-09-27 | 富士施乐株式会社 | 解码装置、逆量化方法及其程序 |
CN101529929A (zh) * | 2006-09-05 | 2009-09-09 | Gn瑞声达A/S | 具有基于直方图的声环境分类的助听器 |
CN103329199A (zh) * | 2011-01-25 | 2013-09-25 | 日本电信电话株式会社 | 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质 |
CN103460287A (zh) * | 2011-04-05 | 2013-12-18 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序、记录介质 |
CN104321814A (zh) * | 2012-05-23 | 2015-01-28 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序以及记录介质 |
EP2827328A1 (en) * | 2012-05-30 | 2015-01-21 | Nippon Telegraph And Telephone Corporation | Coding method, coding device, program, and recording medium |
WO2014001182A1 (en) * | 2012-06-28 | 2014-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based audio coding using improved probability distribution estimation |
Non-Patent Citations (1)
Title |
---|
"Transform Audio Coding with Arithmetic-Coded Scalar Quantization and Model-Based Bit Allocation";OGERM ET;《IEEE》;20070415;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3751565A1 (en) | 2020-12-16 |
WO2016121824A1 (ja) | 2016-08-04 |
CN107430869A (zh) | 2017-12-01 |
KR20170096136A (ko) | 2017-08-23 |
EP3751565B1 (en) | 2021-09-08 |
US10276186B2 (en) | 2019-04-30 |
EP3252768A1 (en) | 2017-12-06 |
US20180268843A1 (en) | 2018-09-20 |
JP6499206B2 (ja) | 2019-04-10 |
KR102070145B1 (ko) | 2020-01-28 |
EP3252768B1 (en) | 2020-08-19 |
JPWO2016121824A1 (ja) | 2017-10-12 |
EP3252768A4 (en) | 2018-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6422813B2 (ja) | 符号化装置、復号装置、これらの方法及びプログラム | |
JP6633787B2 (ja) | 線形予測復号装置、方法、プログラム及び記録媒体 | |
CN107004422B (zh) | 编码装置、解码装置、它们的方法及程序 | |
CN110289008B (zh) | 周期性综合包络序列生成装置、方法、记录介质 | |
JP6392450B2 (ja) | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 | |
CN107430869B (zh) | 参数决定装置、方法及记录介质 | |
CN107210042B (zh) | 编码装置、编码方法以及记录介质 | |
CN106663437B (zh) | 编码装置、解码装置、编码方法、解码方法、记录介质 | |
JP5336942B2 (ja) | 符号化方法、復号方法、符号化器、復号器、プログラム | |
JP2011009868A (ja) | 符号化方法、復号方法、符号化器、復号器およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |