CN101149926B - 音频信号插补方法及装置 - Google Patents

音频信号插补方法及装置 Download PDF

Info

Publication number
CN101149926B
CN101149926B CN2007101418471A CN200710141847A CN101149926B CN 101149926 B CN101149926 B CN 101149926B CN 2007101418471 A CN2007101418471 A CN 2007101418471A CN 200710141847 A CN200710141847 A CN 200710141847A CN 101149926 B CN101149926 B CN 101149926B
Authority
CN
China
Prior art keywords
spectrum
frequency
frequency spectrum
interpolation
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101418471A
Other languages
English (en)
Other versions
CN101149926A (zh
Inventor
田中正清
铃木政直
白川美由纪
牧内孝志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101149926A publication Critical patent/CN101149926A/zh
Application granted granted Critical
Publication of CN101149926B publication Critical patent/CN101149926B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种音频信号插补方法以及装置。该音频信号插补装置包括频谱改变计算单元,用于确定频谱改变,该频谱改变表示输入音频信号的当前帧的频谱和存储在频谱存储单元中的输入音频信号的前一帧的频谱的各频谱成分之间的差值。插补频带确定单元,采用当前帧的频谱和所述频谱改变确定要被插补的频带。频谱插补单元,通过采用当前帧的频谱或者前一帧的频谱对当前帧的频带中的频谱成分执行插补。

Description

音频信号插补方法及装置
技术领域
本发明总体上涉及音频信号插补方法以及装置,尤其涉及适于通过向其中省略了一些频谱成分的音频信号中插补省略了的频谱成分以改善声音质量的音频信号插补方法和装置。
背景技术
近年来,通过互联网对音乐进行数字发行的服务正在快速普及。通常,在该音乐发行服务中,一般使用诸如AAC(高级音频编码)或者MP3(MPEG1音频层3)的音频编码技术来执行音频信号的压缩和发行。
上述AAC或者MP3的音频编码技术的特征在于,根据人类的主观感受,通过省略对于听觉来说不重要的频谱成分来压缩音频信号。图1A示出了编码前的频谱,而图1B示出了编码后的频谱。假设省略了由图1B中的虚线指出的频谱成分。
在本说明书中,如图1A和1B所示,由各频率的波幅电平表达的全部音频信号被称之为频谱,并且各频率的波幅电平被称为频谱成分。
基于帧执行频谱成分的省略,并且对于每一帧单独确定省略哪些频谱成分,所述帧为针对多个采样的音频信号的集合。
例如,在时刻t的某帧的编码频谱中没有省略图2A的虚线指出的频谱成分,而在时刻t+1的该帧的编码频谱中省略了图2B的虚线指出的频谱成分。因此可能发生频谱成分剧烈移动的现象。
由于人类的听觉对于频谱成分的移动是非常敏感的,因此频谱成分的移动导致人类听觉产生不协调的感觉。并且导致声音质量变差。为了防止由于频谱成分的省略导致的声音质量变差,需要提供一种对省略了的频谱成分进行适当插补的方法。
例如,日本专利第3576936号公开了一种对省略的频谱成分进行插补的方法。在日本专利第3576936号的方法中,将不存在某一频谱成分的频带确定为要被插补的频带。然后采用在其前帧或者后帧中等效于该确定出的频带的相应频带的频谱成分或者临近该确定出的频带的低频侧频带的频谱成分插补该确定的频带。
图3A示出了插补前的频谱而图3B示出了采用临近该确定出的频带的低频侧频带的频谱成分插补该确定出的频带的方法。
在上述传统的方法中,通过将不存在某一频谱成分的频带确定为要被插补的频带而执行该插补。但是,可能存在两种不存在某一频谱成分的频带:其中由于编码而省略了该频谱成分的省略频带;以及一开始就不存在该频谱成分的空白频带。尽管该省略的频带是应该被插补频谱成分的频带,但是空白频带是不准插补频谱成分的频带。
然而,在上述传统方法的情况,省略频带和空白频带均将被插补。因此,会出现由于对于起初不存在频谱成分的空白频带执行了不必要的插补而导致声音质量变差的问题。
发明内容
根据本发明的一方面,提供了一种可以消除上述问题的改进型音频信号插补方法和装置。
根据本发明的一方面,提供了一种适于正确确定应该被插补的频带并防止由于执行了不必要的插补而导致声音质量下降的音频信号插补方法和装置。
在解决或者缓解一个或者更多个上述问题的本发明的实施方式中,本发明提供了一种音频信号插补方法,该方法包括:确定频谱改变(spectral movement),所述频谱改变表示输入音频信号的当前帧的频谱和存储在频谱存储单元中的所述输入音频信号的前一帧的频谱之间的各频谱成分的差值;通过采用当前帧的频谱和频谱改变确定要被插补的频带;以及通过采用当前帧的频谱或者前一帧的频谱对当前帧的频带中的频谱成分执行插补操作。
在解决或者缓解一个或者更多个上述问题的本发明的实施方式中,本发明提供了一种音频信号插补装置,该装置包括:频谱改变计算单元,用于确定频谱改变,所述频谱改变表示输入音频信号的当前帧的频谱和存储在频谱存储单元中的所述输入音频信号的前一帧的频谱之间的各频谱成分的差值;插补频带确定单元,通过采用当前帧的频谱和频谱改变确定要插补的频带;以及频谱插补单元,通过采用当前帧的频谱或者前一帧的频谱对当前帧的频带中的频谱成分执行插补操作。
根据本发明的实施方式,可以正确地确定要被插补的频带,并且不会执行不必要的插补,从而防止了声音质量的下降。
根据本发明的实施方式,可以正确地确定要被插补的频带,并且可以防止由于执行了不必要的插补而导致的声音质量下降。
附图说明
结合附图,通过如下详细描述将使本发明的其他目的、特征和优点更加显而易见。
图1A和图1B是用于说明频谱成分省略的示图;
图2A和图2B是用于说明频谱成分省略的示图;
图3A和图3B是用于说明频谱成分插补的示图;
图4是表示在本发明的实施方式中音频信号插补装置的组成的方框图;
图5是用于说明在本发明的实施方式中插补频带确定方法的流程图;
图6是用于说明在本发明的实施方式中插补频带确定方法的流程图;
图7是用于说明在本发明的实施方式中插补频带确定方法的流程图;
图8是示出在了本发明的实施方式中音频信号插补装置的组成的方框图;
图9是示出了在本发明的实施方式中音频信号插补装置的组成的方框图;
图10是示出了在本发明的实施方式中音频信号插补装置的组成的方框图。
具体实施方式
现在将参照附图对本发明的实施方式进行说明。
未编码的音频信号(或者原始声音)的各频率的振幅会平缓地衰减,而其中通过编码省略了某些频谱成分的编码后音频信号在频谱成分的振幅方面会迅速衰减。根据本发明的原理,除了采用频谱成分的大小以外,还采用频谱改变(即频谱成分的振幅的改变)的大小确定应该被插补的频带,从而在对频带进行插补前可以正确确定由编码省略了频谱成分的频带。
图4是表示在本发明的实施方式中音频信号插补装置的组成的方框图。
在图4的音频信号插补装置中,以帧(即,针对多个采样的音频信号集合)为基础从输入端子11输入通过解码所述编码的音频数据产生的时域音频信号。并将该音频信号提供给时间-频率变换单元12。
在时间-频率变换单元12中,针对每一帧将时域音频信号变换为频域音频信号。任意公知的变换方法(诸如FFT(快速傅立叶变换)以及MDCT(改进的离散余弦变换))均可用于由时间-频率变换单元12执行的时间-频率变换。将产生的频域音频信号(即频谱)分别提供给频谱改变计算单元13、插补频带确定单元15和频谱插补单元16。
频谱改变计算单元13通过采用从时间-频率变换单元12接收的频谱以及从频谱存储单元14读取的前一帧的频谱确定频谱改变,并向插补频带确定单元15提供该频谱改变。
由频谱改变计算单元13确定的频谱改变可以是以下中的任一个:频谱成分从前一帧到当前帧的改变量、前一帧频谱成分的改变量(或者该频谱成分从更前一帧(前一帧的前一帧)到该前一帧的改变量)和当前帧的频谱成分的改变量(或者该频谱成分从前一帧到当前帧的改变量)之间的差值、以及前一帧中从所关心的频谱成分到相邻频谱成分的改变量(或者前一帧中关心的频谱成分和相邻频谱成分之间振幅的差值)与当前帧中从所关心的频谱成分到相邻频谱成分的改变量(或者当前帧中所关心的频谱成分和相邻频谱成分之间振幅的差值)之间的差值。
在计算出当前帧的频谱改变以后,频谱改变计算单元13将当前帧的频谱存储到频谱存储单元14中以计算以后帧的频谱改变。可以针对其中包括多个相邻频谱成分的每个频带执行频谱改变的确定。
插补频带确定单元15基于从频谱改变计算单元13接收的频谱改变以及从时间-频率变换单元12接收的频谱确定要被插补的频带。插补频带确定单元15可以采用以下提供的用于确定要被插补的频带的任意方法。
图5是用于说明在本发明的实施方式中由插补频带确定单元15使用的插补频带确定方法的流程图。
在图5的插补频带确定方法开始后,在步骤S1,插补频带确定单元15确定频谱成分的振幅(波幅电平)是否低于预定阈值X[dBov]。
在步骤S2,插补频带确定单元15确定该频谱成分的振幅从前一帧到当前帧的降低(即,频谱改变)是否高于预定阈值Y[dB]。
当频谱成分的振幅低于阈值X[dBov]并且频谱成分的振幅从前一帧到当前帧的降低高于阈值Y[dB]时,则在步骤S3将该所关心的频带确定为要被插补的频带。
当频谱成分的振幅高于阈值X[dBov]时或者频谱成分的振幅从前一帧到当前帧的降低低于阈值Y[dB]时,则在步骤S4将该所关心的频带确定为不需要插补的频带。在该实施方式中例如将阈值X和Y设定为X=-60,Y=20。
图6是用于说明在本发明的实施方式中由插补频带确定单元15使用的另一插补频带确定方法的流程图。
在图6的插补频带确定方法开始后,在步骤S11,插补频带确定单元15确定频谱成分的振幅是否低于预定阈值X[dBov]。
在步骤S12,插补频带确定单元15确定从更前一帧到前一帧的频谱成分的改变量(Y1[dB])和从前一帧到当前帧的频谱成分的改变量(Y2[dB])之间的差值((Y1-Y2)[dB])是否高于预定阈值α。
当频谱成分的振幅低于阈值X[dBov]并且差值((Y1-Y2)[dB])高于阈值α时,则在步骤S13将该所关心的频带确定为要被插补的频带。
当频谱成分的振幅高于阈值X[dBov]时或者当差值((Y1-Y2)[dB])低于阈值α时,则在步骤S14将该所关心的频带确定为不需要插补的频带。
例如,在该实施方式中将阈值α设定为5。此外,也可以采用与从再前一帧(更前一帧的前一帧)到更前一帧的频谱成分的改变量相关的差。
图7是用于说明在本发明的实施方式中由插补频带确定单元15使用的又一插补频带确定方法的流程图。
在图7的插补频带确定方法开始后,在步骤S21,插补频带确定单元15确定频谱成分的振幅是否低于预定阈值X[dBov]。
在步骤S22,插补频带确定单元15确定前一帧中所关心的频谱成分和相邻频谱成分之间的振幅差值(Z1[dB])与当前帧中该所关心的频谱成分和相邻频谱成分之间的振幅差值(Z2[dB])之间的差值((Z1-Z2)[dB])是否高于预定阈值β。
当频谱成分的振幅低于阈值X[dBov]并且差值((Z1-Z2)[dB])高于预定阈值β时,则在步骤S23将该所关心的频带确定为要插补的频带。
当频谱成分的振幅高于阈值X[dBov]或者差值((Z1-Z2)[dB])低于阈值β时,则在步骤S24将该所关心的频带确定为不需要插补的频带。在该实施方式中例如将阈值β设定为5。
在上述图5到图7的实施方式中,将各阈值X和Y都认为是固定值。另选地,也可以采用随所关心的频带不同而具有不同值的可变阈值。例如,将针对输入的音频信号的高频带的可变阈值X的值设定为X=-50,将针对输入的音频信号的低频带的可变阈值X的值设定为X=-60。类似地,将针对输入的音频信号的高频带的可变阈值Y的值设定为Y=20,将针对输入的音频信号的低频带的可变阈值Y的值设定为Y=15。类似地,可以对各阈值α、β进行设定,使得针对输入的音频信号的低频带的可变阈值的值小于针对输入的音频信号的高频带的可变阈值的值。
此外,可以将各阈值X、Y、α和β动态地改变:通过将当前帧的频谱的所有频带的输入音频信号的平均功率乘以预定系数而产生该阈值的值。另选地,可以根据相关的音频编码方法(诸如AAC或者MP3)选择性采用不同阈值其中之一。另选地,可以通过允许用户任意改变各阈值X、Y、α和β的值的方式配置音频信号插补装置。
返回到图4,频谱插补单元16插补由插补频带确定单元15所确定出的频带的频谱成分。
频谱插补单元16采用的插补方法可以和常规方法一样。即,在由频谱插补单元16执行的插补方法中,针对被确定为要被插补的频带的当前帧中的频谱,采用在前一帧或者后一帧相应频带的频谱成分来插补当前帧的频谱。另选地,可以采用另一种插补方法,即复制该当前帧低频侧的频谱成分,并插补这些分量。
频率-时间变换单元17对每一帧的完成插补后的频谱执行频率时间变换,从而恢复时域音频信号,使得该时域音频信号被输出给输出端子18。
在该实施方式中,除了采用频谱成分的振幅以外还采用频谱改变(各频谱成分从前一帧起振幅的移动)的大小确定要被插补的频带,并对所确定出的频带执行插补。因此,可以防止插补不允许插补的频带,并且也不会发生由于插补了不正确的频带而导致的声音质量降低的情况。可针对由编码而省略了频谱成分的频带适当地执行插补,从而以接近编码前频谱的形式恢复音频信号,并可以改进声音质量。
图8是示出了在本发明的实施方式中音频信号插补装置的组成的方框图。
在图8中,用相同的附图标记表示和图4中的相应元件一样的元件。
在图8的音频信号插补装置中,以帧(即,针对多个采样的音频信号集合)为基础从输入端子11输入通过解码所述编码的音频数据产生的时域音频信号。并将该音频信号提供给时间-频率变换单元12。
在时间-频率变换单元12中,针对每一帧将时域音频信号变换为频域音频信号。任意公知的变换方法(诸如FFT或者MDCT)均可用于由时间-频率变换单元12执行的时间-频率变换。将产生的频域音频信号(即频谱)分别提供给频谱改变计算单元13、插补频带确定单元15和频谱插补单元16。
频谱改变计算单元13通过采用从时间-频率变换单元12接收的当前帧的频谱以及从频谱存储单元20读取的前一帧的频谱确定频谱改变,并向插补频带确定单元15提供该频谱改变。
由频谱改变计算单元13确定的频谱改变可以是如下中的任一个:频谱成分从前一帧到当前帧的改变量、前一帧频谱成分的改变量(或者频谱成分从更前一帧到前一帧的改变量)和当前帧的频谱成分的改变量(或者频谱成分从前一帧到当前帧的改变量)之间的差值,以及前一帧中从所关心的频谱成分到相邻频谱成分的改变量(或者前一帧中关心的频谱成分和相邻频谱成分之间振幅的差值)与当前帧中从所关心的频谱成分到相邻频谱成分的改变量(或者当前帧中所关心的频谱成分和相邻频谱成分之间振幅的差值)之间的差值。
在计算出了当前帧的频谱改变以后,在该实施方式中,频谱改变计算单元13不将当前帧的频谱存储到频谱存储单元20中。可以针对其中包括多个相邻频谱成分的每个频带执行频谱改变的确定。
插补频带确定单元15基于从频谱改变计算单元13接收的频谱改变以及从时间-频率变换单元12接收的频谱确定要被插补的频带。插补频带确定单元15可以采用图5-图7中所示的任意插补频带确定方法。
频谱插补单元16插补由插补频带确定单元15确定出的频带的频谱成分。由频谱插补单元16采用的插补方法可以和常规方法一样。即,在由频谱插补单元16执行的插补方法中,针对当前帧中要被插补的频带采用在前一帧或者后一帧相应频带的频谱成分插补被确定为要被插补的频带的当前帧的频谱。另选地,可以采用另一种插补方法,在该插补方法中,复制该当前帧低频侧的频谱成分,并插补这些成分。
频谱插补单元16将当前帧的插补后的频谱存储到频谱存储单元20中。频率-时间变换单元17对每一帧的插补后的频谱进行频率时间变换,从而恢复时域音频信号,使得将该时域音频信号从输出端子18输出。
在该实施方式中,将当前帧的插补后的频谱存储到频谱存储单元20中,并且采用从频谱存储单元20读取的前一帧的插补后的频谱执行频谱改变的确定。因此,在通过编码在多个连续帧中省略了同一频带的频谱成分时,可以对由于编码而省略了频谱成分的频带正确地执行插补。插补的精度更高,并且可以恢复编码前的频谱,同时声音质量得到改善。
图9是示出了在本发明的实施方式中音频信号插补装置的组成的方框图。
在图9中,用相同的附图标记表示和图4中的相应元件一样的元件。
在AAC或者MP3的音频编码技术中,将时域音频信号(原始声音)变换为频域音频信号,并省略频域音频信号中的一些频谱成分,然后执行编码以产生编码后的音频数据。
在图9的音频信号插补装置中,从输入端子21输入采用AAC或者MP3的音频编码技术产生的编码后的音频数据。并且将该编码后的音频数据提供给频谱解码单元22。频谱解码单元22解码该编码后的音频数据以产生频域音频信号(即频谱)。以帧为单位将产生的频域音频信号分别提供给频谱改变计算单元13、插补频带确定单元15和频谱插补单元16。
频谱改变计算单元13通过采用从频谱解码单元22接收的当前帧的频谱以及从频谱存储单元14读取的前一帧的频谱而确定频谱改变,并向插补频带确定单元15提供该频谱改变。
由频谱改变计算单元13所确定的频谱改变可以是如下中的任一种:频谱成分从前一帧到当前帧的改变量、前一帧频谱成分的改变量(或者频谱成分从更前一帧到前一帧的改变量)和当前帧的频谱成分的改变量(或者频谱成分从前一帧到当前帧的改变量)之间的差值,以及前一帧中从所关心的频谱成分到相邻频谱成分的改变量(或者前一帧中所关心的频谱成分和相邻频谱成分之间振幅的差值)与当前帧中从所关心的频谱成分到相邻频谱成分的改变量(或者当前帧中所关心的频谱成分和相邻频谱成分之间振幅的差值)之间的差值。
在计算出了当前帧的频谱改变以后,在该实施方式中,频谱改变计算单元13将当前帧的频谱存储到频谱存储单元14中,以计算随后帧的频谱改变。可以针对其中包括多个相邻频谱成分的每个频带执行频谱改变的确定。
插补频带确定单元15基于从频谱改变计算单元13接收的频谱改变以及从频谱解码单元22接收的频谱确定要被插补的频带。插补频带确定单元15可以采用图5—图7中所示的任意插补频带确定方法。
频谱插补单元16插补由插补频带确定单元15确定出的频带的频谱成分。由频谱插补单元16采用的插补方法可以和常规方法一样。即,在由频谱插补单元16执行的插补方法中,针对当前帧中要插补的频带采用在前一帧或者后一帧相应频带的频谱成分插补被确定为要被插补的频带的当前帧的频谱。另选地,可以采用另一种插补方法,在该插补方法中,复制该当前帧低频侧的频谱成分,并插补这些分量。
频率-时间变换单元17对每一帧的插补后的频谱执行频率时间变换,从而恢复时域音频信号,使得将该时域音频信号从输出端子18输出。
在该实施方式中,在恢复时域音频信号前,针对在频域中产生的含有编码后音频数据的频域音频信号执行插补。根据该实施方式,省略了图4的实施方式中的用于执行时间-频率变换的装置和过程,并且不会产生在图4的实施方式中分析时域音频信号的频谱时所产生的任何分析误差。因此,插补的精度更高,并且可以恢复编码前的频谱,同时声音质量得到改善。
图10是示出了在本发明的实施方式中音频信号插补装置的组成的方框图。
在图10中,用相同的附图标记表示和图4中的相应元件一样的元件。
在图10的音频信号插补装置中,从输入端子21输出采用AAC或者MP3的音频编码技术产生的编码后的音频数据。并且将该编码后的音频数据提供给频谱解码单元22。频谱解码单元22解码该编码后的音频数据以产生频域音频信号(即频谱)。以帧为单位将产生的频域音频信号分别提供给频谱改变计算单元13、插补频带确定单元15和频谱插补单元16。
频谱改变计算单元13通过采用从频谱解码单元22接收的当前帧的频谱以及从频谱存储单元20读取的前一帧的频谱确定频谱改变,并向插补频带确定单元15提供该频谱改变。
由频谱改变计算单元13确定出的频谱改变可以是如下中任一个:频谱成分从前一帧到当前帧的改变量、前一帧频谱成分的改变量(或者频谱成分从更前一帧到前一帧的改变量)和当前帧的频谱成分的改变量(或者频谱成分从前一帧到当前帧的改变量)之间的差值,以及前一帧中从所关心的频谱成分到相邻频谱成分的改变量(或者前一帧中所关心的频谱成分和相邻频谱成分之间振幅的差值)与当前帧中从所关心的频谱成分到相邻频谱成分的改变量(或者当前帧中所关心的频谱成分和相邻频谱成分之间振幅的差值)之间的差值。
在计算出当前帧的频谱改变以后,在该实施方式中,频谱改变计算单元13不将当前帧的频谱存储到频谱存储单元20中。可以针对其中包括多个相邻频谱成分的每个频带执行频谱改变的确定。
插补频带确定单元15使用从频谱改变计算单元13接收的频谱改变以及从频谱解码单元22接收的频谱来确定要插补的频带。插补频带确定单元15可以采用图5—图7中所示的任意插补频带确定方法。
频谱插补单元16插补由插补频带确定单元15确定出的频带的频谱成分。由频谱插补单元16采用的插补方法可以和常规方法一样。即,在由频谱插补单元16执行的插补方法中,针对当前帧要被插补的频带采用在前一帧或者后一帧相应频带的频谱成分插补被确定为要被插补的频带的当前帧的频谱。另选地,可以采用另一种插补方法,在该插补方法中,复制该当前帧低频侧的频谱成分,并插补这些成分。
频谱插补单元16将当前帧的插补后的频谱存储到频谱存储单元20中。频率-时间变换单元17对每一帧的插补后的频谱执行频率时间变换,并且恢复时域音频信号,从而将该时域音频信号从输出端子18输出。
在该实施方式中,将当前帧的插补后的频谱存储到频谱存储单元20中,并且采用从频谱存储单元20读取前一帧的插补后的频谱来执行频谱改变的确定。因此,在通过编码在多个连续帧中省略了同一频带的频谱成分时可以对由于编码而省略了频谱成分的频带正确地执行插补。插补的精度更高,并且可以恢复编码前的频谱,同时声音质量得到改善。
在上述实施方式中的频谱存储单元14和20等效于权利要求书中的频谱存储单元。上述实施方式中的频谱改变计算单元13等效于权利要求书中的频谱改变计算单元。上述实施方式中的插补频带确定单元15等效于权利要求书中的插补频带确定单元。上述实施方式中的频谱插补单元16等效于权利要求书中的频谱插补单元。上述实施方式中的时间-频率变换单元12等效于权利要求书中的变换单元。并且上述实施方式中的频谱解码单元22等效于权利要求书中的频谱解码单元。

Claims (15)

1.一种音频信号插补方法,该音频信号插补方法包括以下步骤:
确定频谱改变,所述频谱改变指示输入的音频信号的当前帧的频谱和存储在频谱存储单元中的所述输入的音频信号的前一帧的频谱之间各频谱成分的差值;
采用所述当前帧的频谱和所述频谱改变来确定要被插补的频带;以及
采用所述当前帧的频谱或者所述前一帧的频谱来针对所述当前帧进行所述频带中的频谱成分的插补,
其中,将频谱成分从所述前一帧到所述当前帧的改变量确定为所述频谱改变,并且当所述频谱成分的振幅低于第一阈值并且频谱成分的振幅从前一帧到当前帧的降低量高于第二阈值时,将所述频谱成分的频带确定为要被插补的频带。
2.一种音频信号插补装置,该音频信号插补装置包括:
频谱改变计算单元,用于确定频谱改变,该频谱改变指示输入的音频信号的当前帧的频谱和存储在频谱存储单元中的所述输入的音频信号的前一帧的频谱之间的各频谱成分的差值;
插补频带确定单元,其采用所述当前帧的频谱和所述频谱改变来确定要被插补的频带;以及
频谱插补单元,其采用所述当前帧的频谱或者前一帧的频谱来针对所述当前帧进行所述频带中的频谱成分插补,
其中,所述频谱改变计算单元将频谱成分从所述前一帧到所述当前帧的改变量确定为所述频谱改变,并且当所述频谱成分的振幅低于第一阈值并且频谱成分的振幅从前一帧到当前帧的降低量高于第二阈值时,所述插补频带确定单元将所述频谱成分的频带确定为要被插补的频带。
3.根据权利要求2所述的音频信号插补装置,其中,所述频谱改变计算单元将频谱成分从更前一帧到所述前一帧的改变量与频谱成分从所述前一帧到所述当前帧的改变量之间的差值确定为所述频谱改变,并且当所述频谱成分的振幅低于第一阈值并且所述频谱改变高于第三阈值时,所述插补频带确定单元将所述频谱成分的频带确定为要被插补的频带。
4.根据权利要求2所述的音频信号插补装置,其中,所述频谱改变计算单元将所述前一帧中所关心的频谱成分和相邻频谱成分之间振幅的差值与所述当前帧中所述所关心的频谱成分和所述相邻频谱成分之间振幅的差异之间的差值确定为所述频谱改变,并且当所述所关心的频谱成分的振幅低于第一阈值并且所述频谱改变高于第四阈值时,所述插补频带确定单元将所述所关心的频谱成分的频带确定为要被插补的频带。
5.根据权利要求2所述的音频信号插补装置,其中,所述频谱插补单元针对确定的要被插补的当前帧的频带采用前一帧或后一帧相应频带的频谱成分针对所述当前帧在确定出的频带中执行频谱成分的插补。
6.根据权利要求2所述的音频信号插补装置,其中,所述频谱插补单元采用与所述当前帧的低频带侧相邻的频带中的频谱成分针对所述当前帧在所述确定出的频带中执行频谱成分插补。
7.根据权利要求2所述的音频信号插补装置,其中,所述音频信号插补装置还包括变换单元,其将输入的时域音频信号变换为频域音频信号,并且将所述频域音频信号作为所述当前帧的频谱提供给所述频谱改变计算单元。
8.根据权利要求2所述的音频信号插补装置,其中,所述音频信号插补装置还包括解码单元,其解码编码后的音频数据以产生频域音频信号,并将所述频域音频信号作为所述当前帧的频谱提供给所述频谱改变计算单元。
9.根据权利要求2所述的音频信号插补装置,其中,将所述第一阈值设定为可变阈值,使得针对低频侧频谱的所述第一阈值的值小于针对高频侧频谱的所述第一阈值的值。
10.根据权利要求2所述的音频信号插补装置,其中,在所述频谱改变计算单元确定出所述当前帧的频谱改变后,所述频谱改变计算单元将所述当前帧的频谱存储到所述频谱存储单元。
11.根据权利要求2所述的音频信号插补装置,其中,所述频谱插补单元将由所述频谱插补单元对其执行了频谱成分插补的所述当前帧的频谱存储到所述频谱存储单元中。
12.根据权利要求2所述的音频信号插补装置,其中,将所述第二阈值设定为可变阈值,使得针对低频侧频谱的所述第二阈值的值小于针对高频侧频谱的所述第二阈值的值。
13.根据权利要求3所述的音频信号插补装置,其中,将所述第三阈值设定为可变阈值,使得针对低频侧频谱的所述第三阈值的值小于针对高频侧频谱的所述第三阈值的值。
14.根据权利要求4所述的音频信号插补装置,其中,将所述第四阈值设定为可变阈值,使得针对低频侧频谱的所述第四阈值的值小于针对高频侧频谱的所述第四阈值的值。
15.根据权利要求4所述的音频信号插补装置,其中,所述第一阈值和所述第四阈值各被设定为具有动态改变值,各阈值的值根据当前帧的所述频谱的所有频带的输入音频信号的平均功率而改变。
CN2007101418471A 2006-09-20 2007-08-14 音频信号插补方法及装置 Expired - Fee Related CN101149926B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006-254425 2006-09-20
JP2006254425A JP4769673B2 (ja) 2006-09-20 2006-09-20 オーディオ信号補間方法及びオーディオ信号補間装置
JP2006254425 2006-09-20

Publications (2)

Publication Number Publication Date
CN101149926A CN101149926A (zh) 2008-03-26
CN101149926B true CN101149926B (zh) 2011-06-15

Family

ID=38829579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101418471A Expired - Fee Related CN101149926B (zh) 2006-09-20 2007-08-14 音频信号插补方法及装置

Country Status (6)

Country Link
US (1) US7957973B2 (zh)
EP (1) EP1903558B1 (zh)
JP (1) JP4769673B2 (zh)
KR (1) KR100912587B1 (zh)
CN (1) CN101149926B (zh)
DE (1) DE602007002352D1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466670B (en) 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
KR101390433B1 (ko) * 2009-03-31 2014-04-29 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
JP2012177828A (ja) * 2011-02-28 2012-09-13 Pioneer Electronic Corp ノイズ検出装置、ノイズ低減装置及びノイズ検出方法
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1187128A2 (en) * 2000-09-05 2002-03-13 Victor Company of Japan, Ltd. Audio signal processing apparatus and method thereof
CN1457484A (zh) * 2001-03-06 2003-11-19 株式会社Ntt都科摩 音频数据内插装置及方法、音频数据关联信息制作装置及方法、音频数据内插信息发送装置及方法、以及它们的程序和记录媒体
CN1514931A (zh) * 2002-06-07 2004-07-21 ��ʽ���罨�� 语音信号内插的装置、方法和程序
CN1629936A (zh) * 2002-05-07 2005-06-22 索尼株式会社 解码方法、解码装置、程序及记录介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
JP3576936B2 (ja) * 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
JP3576935B2 (ja) * 2000-07-21 2004-10-13 株式会社ケンウッド 周波数間引き装置、周波数間引き方法及び記録媒体
JP3576951B2 (ja) * 2000-10-06 2004-10-13 株式会社ケンウッド 周波数間引き装置、周波数間引き方法及び記録媒体
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1187128A2 (en) * 2000-09-05 2002-03-13 Victor Company of Japan, Ltd. Audio signal processing apparatus and method thereof
CN1457484A (zh) * 2001-03-06 2003-11-19 株式会社Ntt都科摩 音频数据内插装置及方法、音频数据关联信息制作装置及方法、音频数据内插信息发送装置及方法、以及它们的程序和记录媒体
CN1629936A (zh) * 2002-05-07 2005-06-22 索尼株式会社 解码方法、解码装置、程序及记录介质
CN1514931A (zh) * 2002-06-07 2004-07-21 ��ʽ���罨�� 语音信号内插的装置、方法和程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tuomas Virtanen, et al..Separation of harmonic sound sources using sinusoidal modeling.《Acoustics, Speech, and Signal Processing, 2000. ICASSP "00. Proceedings. 2000 IEEE International Conference on》.2000,第2卷 *

Also Published As

Publication number Publication date
KR100912587B1 (ko) 2009-08-19
JP2008076636A (ja) 2008-04-03
DE602007002352D1 (de) 2009-10-22
EP1903558B1 (en) 2009-09-09
US20080071541A1 (en) 2008-03-20
EP1903558A2 (en) 2008-03-26
KR20080026481A (ko) 2008-03-25
EP1903558A3 (en) 2008-09-03
US7957973B2 (en) 2011-06-07
JP4769673B2 (ja) 2011-09-07
CN101149926A (zh) 2008-03-26

Similar Documents

Publication Publication Date Title
CN101149926B (zh) 音频信号插补方法及装置
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
KR101203348B1 (ko) 가중 오버랩 애드 방법
KR101290622B1 (ko) 오디오 복호화 방법 및 장치
KR101445296B1 (ko) 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램
CN101067931B (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与系统
EP2124224A1 (en) A method and an apparatus for processing an audio signal
CN103918029A (zh) 使用过采样谱带复制的上采样
CN103035248A (zh) 音频信号编码方法和装置
CN102044250A (zh) 频带扩展方法及装置
TWI524332B (zh) 用於使用次頻帶時間平滑技術產生頻率增強信號之裝置及方法
CN110619881B (zh) 一种语音编码方法、装置及设备
JP2021526239A (ja) ステレオ信号エンコード方法および装置
US20140019125A1 (en) Low band bandwidth extended
US20220392470A1 (en) Stereo Signal Encoding Method and Apparatus Using a Residual Signal Encoding Parameter
TW200926148A (en) An encoder
TWI785753B (zh) 多聲道信號產生器、多聲道信號產生方法及電腦程式
EP2595147A1 (en) Audio data encoding method and device
KR100686174B1 (ko) 오디오 에러 은닉 방법
KR101108955B1 (ko) 오디오 신호 처리 방법 및 장치
JP2018532153A (ja) オーディオ変換コーディングにおけるオーバーラップ率の信号適応スイッチングのための符号化器、復号器および方法
KR101786863B1 (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계
KR101333162B1 (ko) Imdct 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법
CN103258552B (zh) 调整播放速度的方法
CN101587711B (zh) 基音后处理方法、滤波器以及基音后处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110615

Termination date: 20180814

CF01 Termination of patent right due to non-payment of annual fee