CN106030704B - 用于对音频信号进行编码/解码的方法和设备 - Google Patents

用于对音频信号进行编码/解码的方法和设备 Download PDF

Info

Publication number
CN106030704B
CN106030704B CN201480075642.6A CN201480075642A CN106030704B CN 106030704 B CN106030704 B CN 106030704B CN 201480075642 A CN201480075642 A CN 201480075642A CN 106030704 B CN106030704 B CN 106030704B
Authority
CN
China
Prior art keywords
pitch
audio signal
audio
information
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201480075642.6A
Other languages
English (en)
Other versions
CN106030704A (zh
Inventor
李男淑
金贤郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN106030704A publication Critical patent/CN106030704A/zh
Application granted granted Critical
Publication of CN106030704B publication Critical patent/CN106030704B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供了一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备,其中,在对音频信号进行编码和解码期间产生的误差被减少以提高重建的音频信号的音频质量。对音频信号进行编码的方法包括:检测音频信号的基音,基于检测到的基音确定滤波器系数,基于确定的滤波器系数对音频信号执行第二滤波;以及对从所述第二滤波产生的音频信号进行编码。

Description

用于对音频信号进行编码/解码的方法和设备
技术领域
本发明的一个或更多个实施例涉及一种用于对音频信号进行编码或解码的方法和设备,更具体地,涉及一种用于使用基音滤波器对音频信号进行编码或解码的方法和设备。
背景技术
当对音频信号进行编码时,为了确保短的延迟时间,作为编码的基本单元的帧的长度应该小。可选地,为了确保高的声音质量,帧的长度应该足够长以实现足够的频率分辨率。因此,难以同时获得短的延迟时间和高的声音质量。
一般的音频编码系统为了缩短延迟时间通过根据将被使用的应用减小帧的长度会使声音的质量恶化。可选地,为了缩短延迟时间,一般的音频编码系统可使用排除声音的完全重构的特定类型的窗函数。具体地,在要求短的延迟时间的应用中,短帧导致频率分辨率和声音质量的降低。
在为了短的延迟时间而使用短窗的音频编码系统中,可使用基音滤波器来减少明显发生在具有周期性波形的音乐和语音上的编码失真。
发明内容
技术问题
本发明的一个或更多个实施例包括一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备,其中,在对音频信号进行编码和解码期间所产生的误差被减小以提高重建的音频信号的音频质量。
解决方案
本发明的一个或更多个实施例包括一种用于对音频信号进行编码的方法和设备以及一种用于对音频信号进行解码的方法和设备,其中,在对音频信号进行编码和解码期间产生的误差被减少以提高重建的音频信号的音频质量。
附加的方面将在以下描述中被部分阐述,并且将部分地从所述描述清楚,或可通过本实施例的实践而获知。
根据本发明的一个或更多个实施例,音频编码方法包括:检测音频信号的基音;基于检测到的基音确定滤波器系数;基于确定的滤波器系数对音频信号执行第二滤波;以及对从所述第二滤波产生的音频信号进行编码。
所述音频编码方法还可包括:对音频信号执行第一滤波,其中,检测音频信号的基音的步骤包括:检测从所述第一滤波产生的音频信号的基音。
执行第一滤波的步骤可包括:执行用于提高属于在音频信号中所包括的特定频带的频率分量的幅度的预加重,使得所述幅度大于不属于所述特定频带的其他频率分量的幅度。
检测音频信号的基音的步骤可包括:从音频信号获取关于基音的信息,其中,关于基音的信息包括基音周期、基音增益、基音抽头和指示所述第二滤波是否被执行的标志中的至少一个。
执行第二滤波的步骤可包括:对音频信号执行梳状滤波。
检测音频信号的基音的步骤可包括:从音频信号获取关于基音的信息。对从所述第二滤波产生的音频信号进行编码的步骤可包括:产生并输出比特流,其中,所述比特流包括从所述第二滤波产生的音频信号和关于基音的信息。关于基音的信息可包括基音周期、基音增益、基音抽头和指示所述第二滤波是否被执行的标志中的至少一个。
产生并输出比特流的步骤可包括:产生并输出使得关于基音的信息位于所述比特流的辅助区域中的比特流。
检测音频信号的基音的步骤可包括:从音频信号被划分为的多个帧中的每一帧获取关于基音的信息,其中,关于基音的信息包括基音周期、基音增益、基音抽头和指示所述第二滤波是否被执行的标志。对从所述第二滤波产生的音频信号进行编码的步骤可包括:将关于基音的信息延迟一帧;并且产生并输出比特流,其中,所述比特流包括从所述第二滤波产生的音频信号以及延迟的关于基音的信息。
根据本发明的一个或更多个实施例,一种音频解码方法包括:接收编码信号;对接收到的编码信号进行解码;并且对从所述解码产生的解码信号进行滤波。编码信号是通过以下操作产生的:检测音频信号的基音,基于检测到的基音对音频信号执行第二滤波,并且对从所述第二滤波产生的音频信号进行编码。对解码信号进行滤波的步骤包括:执行所述第二滤波的逆滤波。
在音频解码方法中,编码信号可以是通过以下操作产生的:对音频信号执行第一滤波并检测从所述第一滤波产生的音频信号的基音。
在音频解码方法中,接收编码信号的步骤可包括:接收编码信号,其中,编码信号包括从产生于所述第一滤波的音频信号获取的关于基音的信息。对解码信号进行滤波的步骤可包括:从接收到的编码信号提取关于基音的信息;并且基于关于基音的信息确定用于对解码信号进行滤波的滤波器系数。
根据本发明的一个或更多个实施例,一种音频编码设备包括:基音检测器,检测音频信号的基音;第二滤波器,基于检测到的基音确定滤波器系数,并基于确定的滤波器系数对音频信号执行第二滤波;以及编码器,对从所述第二滤波产生的音频信号进行编码。
音频编码设备还可包括:第一滤波器,对音频信号执行第一滤波;基音检测器,可检测从所述第一滤波产生的音频信号的基音。
在音频编码设备中,第一滤波器可执行用于提高属于所述音频信号中所包括的特定频带的频率分量的幅度的预加重,使得所述幅度大于不属于所述特定频带的其他频率分量的幅度。
在音频编码设备中,基音检测器可从音频信号获取关于基音的信息,其中,关于基音的信息包括基音周期、基音增益、基音抽头和指示所述第二滤波器是否被应用的标志。
在音频编码设备中,第二滤波器可对音频信号执行梳状滤波。
在音频编码设备中,基音检测器可从音频信号获取关于基音的信息,所述编码器可产生并输出比特流,其中,所述比特流包括从所述第二滤波产生的音频信号以及关于基音的信息,并且关于基音的信息可包括基音周期、基音增益、基音抽头和指示所述第二滤波器是否被应用的标志中的至少一个。
在音频编码设备中,编码器可产生并输出使得关于基音的信息位于比特流的辅助区域中的比特流。
在音频编码设备中,基音检测器可从音频信号被划分为的多个帧中的每一帧获取关于基音的信息,其中,关于基音的信息包括基音周期、基音增益、基音抽头和指示第二滤波器是否被应用的标志中的至少一个。编码器可将关于基音的信息延迟一帧,并且产生并输出比特流,其中,所述比特流包括从所述第二滤波的音频信号以及延迟的关于基音的信息。
根据本发明的一个或更多个实施例,一种音频解码设备包括:解码器,接收编码信号并对编码信号进行解码;以及滤波器,对从所述解码产生的解码信号进行滤波。编码信号是通过以下操作产生的:检测音频信号的基音、基于检测到的基音对音频信号执行第二滤波、以及对从所述第二滤波产生的音频信号进行编码,并且所述滤波器执行所述第二滤波的逆滤波。
在音频解码设备中,编码信号可以是通过以下操作产生的:对音频信号执行第一滤波并且检测从所述第一滤波产生的音频信号的基音。
在音频解码设备中,解码器接收编码信号,其中,编码信号包括从产生于所述第一滤波的音频信号获取的关于基音的信息。滤波器可从接收到的编码信号提取关于基音的信息,并且基于关于基音的信息确定用于对解码信号进行滤波的滤波器系数。
根据本发明的一个或更多个实施例,一种音频编码方法包括:通过使用从音频信号获取的关于基音的信息对音频信号进行预滤波;通过使用具有预定重叠部分的窗对从所述预滤波产生的音频信号执行加窗;以及基于所述预定重叠部分通过对从所述加窗产生的音频信号进行编码并通过对关于基音的信息进行编码来产生并输出比特流。
在音频编码方法中,产生并输出比特流的步骤可包括:基于预定的重叠部分来确定编码延迟;以及根据确定的编码延迟对关于基于基音的信息进行延迟并且输出延迟的关于基音的信息。
在音频编码方法中,对音频信号进行预滤波的步骤可包括:从音频信号被划分为的多个帧中中的每一帧获取关于基音的信息。重叠部分的长度可以是窗的50%或更多,并且产生并输出比特流的步骤可包括:基于所述重叠部分将关于基音的信息延迟一帧,并且输出延迟的关于基音的信息。
在音频编码方法中,产生并输出比特流的步骤可包括:产生并输出使得关于基音的信息位于比特流的辅助区域中的比特流。关于基音的信息包括基音周期、基音增益、基音抽头和指示所述预滤波是否被执行的标志中的至少一个。
在音频编码方法中,关于基音的信息可包括指示所述预滤波是否被执行的标志,并且还可包括基音周期、基音增益、基音抽头中的至少一个。产生并输出比特流的步骤可包括:产生并输出使得所述标志位于比特流的头中并且基音周期、基音增益、基音抽头中的至少一个位于比特流的辅助区域中的比特流。
在音频编码方法中,对音频信号进行预滤波的步骤可包括:对音频信号执行第一滤波;从产生于所述第一滤波的音频信号获取关于基音的信息;基于关于基音的信息确定滤波器系数;并且基于确定的滤波器系数对音频信号执行第二滤波。
根据本发明的一个或更多个实施例,一种音频解码方法包括:从接收到的比特流获取频率变换的音频信号和关于基音的信息;对频率变换的音频信号进行逆变换;通过使用具有重叠部分的窗对从所述逆变换产生的音频信号执行加窗;通过使用关于基音的信息对从所述加窗产生的音频信号进行后滤波,其中,所述后滤波对应于在编码期间执行的预滤波,并且关于基音的信息是基于所述重叠部分被编码在接收到的比特流中的。
在音频解码方法中,可根据基于所述重叠部分确定的编码延迟对关于基音的信息进行延迟。
在音频解码方法中,对音频信号进行后滤波的步骤可包括:从接收到的比特流的辅助区域获取关于基音的信息,并且关于基音的信息可包括基音周期、基音增益、基音抽头和指示所述预滤波是否被执行的标志中的至少一个。
根据本发明的一个或更多个实施例,一种音频编码设备包括:预滤波器,通过使用从音频信号获得的关于基音的信息对音频信号进行预滤波;编码器,通过以下操作来产生并输出比特流:通过使用具有预定重叠部分的窗对从所述预滤波产生的音频信号执行加窗,并基于所述预定重叠部分对从所述加窗产生的音频信号进行编码并对关于基音的信息进行编码。
在音频编码设备中,编码器可基于所述预定重叠部分确定编码延迟,根据确定的编码延迟对关于基音的信息进行延迟,并且输出延迟的关于基音的信息。
在音频编码设备中,预滤波器可从音频信号被划分为的多个帧中的每一帧获取关于基音的信息,其中,所述重叠部分的长度可以是窗的50%或更多,编码器可基于所述重叠部分将关于基音的信息延迟一帧,并且输出延迟的关于基音的信息。
在音频编码设备中,编码器可产生并输出使得关于基音的信息位于比特流的辅助区域中的比特流,关于基音的信息可包括基音周期、基音增益、基音抽头和指示预滤波器是否被应用的标志中的至少一个。
在音频编码设备中,关于基音的信息可包括指示预滤波器是否被应用的标志,并且还可包括基音周期、基音增益、基音抽头中的至少一个。编码器可产生并输出使得所述标志位于比特流的头中并且基音周期、基音增益、基音抽头中的至少一个位于比特流的辅助区域中的比特流。
在音频编码设备中,预滤波器可对音频信号执行第一滤波,从产生于所述第一滤波的音频信号获取关于基音的信息,基于关于基音的信息确定滤波器系数,并且通过使用确定的滤波器系数对音频信号执行第二滤波。
根据本发明的一个或更多个实施例,一种音频解码设备包括:解码器,从接收到的比特流获取频率变换的音频信号和关于基音的信息,对频率变换的音频信号进行逆变换,并且通过使用具有预定重叠部分的窗对从所述逆变换产生的音频信号执行加窗;后滤波器,通过使用关于基音的信息对从所述加窗产生的音频信号进行后滤波。后滤波器执行与在编码期间执行的预滤波对应的后滤波,关于基音的信息是基于所述重叠部分被编码在接收到的比特流中的。
在音频解码设备中,可根据基于所述重叠部分确定的编码延迟对关于基音的信息进行延迟。
在音频解码设备中,后滤波器可从接收到的比特流的辅助区域获取关于基音的信息,并且关于基音的信息可包括基音周期、基音增益、基音抽头和指示所述预滤波是否被执行的标志中的至少一个。
根据本发明的一个或更多个实施例,一种记录有程序的非暂时性计算机可读记录介质,其中,所述程序在被计算机执行时执行上述方法。
附图说明
从下面结合附图对实施例的描述中,这些和/或其它方面将变得明显和更容易理解,其中:
图1是一般音频编解码器系统的框图;
图2是执行基音预滤波的一般音频编码设备的框图;
图3是执行基音后滤波的一般音频解码设备的框图;
图4a和图4b是根据本发明的实施例的音频编码设备的框图;
图5是根据本发明的实施例的音频解码设备的框图;
图6是根据本发明的实施例的音频编码方法的流程图;
图7是根据本发明的实施例的音频解码方法的流程图;
图8a至图8e是用于解释发生在一般音频编解码器系统中的延迟的示图;
图9是根据本发明的实施例的音频编码设备的框图;
图10是根据本发明的另一实施例的音频解码设备的框图;
图11a至图11e是用于解释根据本发明的实施例的音频编解码器系统基于帧被解码时的时间点发送关于基音的信息的方法的示图;
图12是根据本发明的另一实施例的音频编码方法的流程图;
图13是根据本发明的另一实施例的音频解码方法的流程图;
图14a至图14e是用于解释根据本发明的实施例的包括关于基音的信息的比特流的结构的示图;
图15a和图15b示出了用于在AC-3编解码器中使用的比特流的结构和用于在E-AC3编解码器中使用的比特流的结构;
图16是根据本发明的实施例的使用心理声学模型的音频编码设备的框图。
具体实施方式
现在将详细参照实施例,所述实施例的示例在附图中示出,其中,同样的附图标号始终指示同样的元件。就此而言,本实施例可具有不同的形式并且不应被解释为限于在此阐述的描述。相应地,仅在下面通过参照附图描述本实施例以解释本描述的各方面。如本文所使用,术语“和/或”包括相关所列项目中的一个或更多个的任意组合和所有组合。当诸如“…中的至少一个”的表述位于整列元件之后时,所述表述修饰整列元件,并且不修饰列表的单个元件。
在本说明书中,下面的术语可根据以下标准来解释,并且甚至在此未使用的术语也可根据下面的点来解释。
在实施例中使用的术语“~单元”或“~器”指示包括软件或硬件的组件,诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC),并且术语“~单元”或“~器”执行特定的作用。然而,“~单元”或“~器”不限于软件或硬件。术语“~单元”或“~器”可被配置为包括在可寻址存储介质中或被配置为再现一个或更多个处理器。因此,术语“~单元”或“~器”通过举例的方式可包括面向对象的软件组件、类组件和任务组件以及进程、函数、属性、过程、子例程、程序代码段、驱动器、固件、微码、电路、数据、数据库、数据结构、表、数组和变量。由组件和单元提供的功能可组合成更小数目的组件和单元中,或还可被分成另外的组件和单元。
术语“窗的大小”指示当通过使用窗对音频信号执行加窗以使得音频信号被划分为时域中的多组帧时,通过对时域中的一组帧应用时频变换而产生的频域中的系数的数量。
在此使用的术语“信息”包括全部的值、参数、系数、分量等等,并且可根据情况被不同地解释,本发明的一个或更多个实施例不限于此。
音频信号在广义上区别于视频信号,并且可以是再现可听的信号。音频信号在狭义上区别于语音信号,并且不具有语音特性或具有一些语音特性。在本说明书中,音频信号可在广义上被解释,并且在区别于语音信号时可在狭义上被解释。
帧是用于对音频信号进行编码或解码的数据单元,并且不限于特定样点数量或特定时间量。
基音滤波表示从音频信号滤除时间段(即基音)以提高编码效率的方法。
根据本发明的实施例,用于对音频信号进行编码/解码的方法和设备可以是用于对音频信号的频率变换系数进行编码/解码的方法和设备,并且还可以是应用了用于对音频信号的频率变换系数进行编码/解码的方法和设备的音频信号处理方法和设备。
为了便于说明,可在本文中描述针对单个窗的音频编码/解码方法和设备的操作。然而,在根据本发明的实施例的音频编码/解码方法和设备中,所描述的操作可被重复用于音频信号被划分成的多个窗中的每一个窗。
现在将参照附图对本发明进行更全面的描述,在所述附图中,本发明的示例性实施例被示出。
图1是一般音频编解码器系统30的框图。
参照图1,一般音频编解码器系统30包括音频编码设备10和音频解码设备20。
音频编码设备10接收输入音频信号并对输入音频信号进行编码。音频编码设备10通过对输入音频信号进行编码来产生压缩的音频比特流。音频解码设备20接收压缩的音频比特流,并对压缩的音频比特流进行解码。音频解码设备20通过对压缩的音频比特流进行解码来产生输出音频信号。
音频编码设备10可逐帧地处理输入音频信号。例如,每个帧可具有2.5毫秒(ms)和40毫秒(ms)之间的帧大小,并且包括与帧大小对应的音频样点。
音频编码设备10的编码器15可将时域音频信号样点转换为频域变换系数。编码器15可对频域变换系数进行量化、编码或压缩。编码器15可将与压缩的频域变换系数对应的比特流直接发送到音频解码设备20,或可在存储介质中存储比特流并随后将存储的比特流发送到音频解码设备20。
音频解码设备20的解码器25对压缩的音频比特流进行解码以恢复量化的变换系数。音频解码设备20可应用逆变换来将量化的变换系数变回时域音频信号样点。音频解码设备20可执行叠加操作以对时域波形在帧边界的不连续性进行平滑。
当音频信号的波形是周期性的时,人的听觉系统对音频信号中的非常小的编码失真更趋于敏感。因此,基音预滤波器11和基音后滤波器21可被用于减少明显发生在具有周期性波形的音乐和音频信号中的编码失真。
基音预滤波器11和基音后滤波器21可减小在谐波分量之间的波谷中产生的量化噪声的大小。基音预滤波器11和基音后滤波器21实现一种噪声整形。现在将参照图2和图3更加详细地描述基音预滤波器11和基音后滤波器21。
图2是执行基音预滤波的音频编码设备10的框图。
参照图2,音频编码设备10的基音预滤波器11可包括预加重单元12、基音检测器13和梳状滤波器14。由于图2的编码器15对应于图1的编码器15,因此将省略对其的重复描述。
预加重单元12可加重输入信号的重要频率分量。预加重单元12可通过增大特定频带中的频率分量的幅度使得所述频率分量的幅度大于不属于所述特定频带的其它频率分量的幅度来加重属于所述特定频带的频率分量。可选地,预加重单元12可通过从输入信号中滤除所述其它频率分量来加重属于所述特定频带的频率分量。
与包括在音频信号的高频带中的分量相比,包括在音频信号的低频带中的分量随时间的改变小。因此,当对音频信号进行处理时,为了从音频信号中提取基音分量,有必要加重包括在音频信号的高频带中的分量。音频编码设备10可通过将高通滤波器用为预加重单元12来去除包括在低频带中的分量。使用高通滤波器实现的预加重单元12可被表示为:
[等式1]
y[n]=x[n]-α×x[n-1]
其中,x[n]表示当前输入到预加重单元12的信号,x[n-1]表示先前输入到预加重单元12的信号,y[n]表示预加重单元12的输出信号,α表示范围可从0.9到1的滤波器系数。
基音检测器13可通过使用各种基音检测算法来检测从预加重单元12输出的音频信号的基音。
梳状滤波器14可基于检测到的基音确定滤波器系数。梳状滤波器14可通过使用确定的滤波器系数将梳状滤波应用于输入音频信号。例如,梳状滤波器14可提高频域中的基音谐波分量之间的波谷。可选地,梳状滤波器14可抑制频域中的基音谐波波峰。
图3是执行基音后滤波的音频解码设备20的框图。
参照图3,音频解码设备20的基音后滤波器21可包括梳状滤波器24和去加重单元22。由于图3的解码器25对应于图1的解码器25,因此将省略对其的重复描述。
图3的梳状滤波器24可以是图2的梳状滤波器14的逆滤波器。因此,梳状滤波器24可使频域中的基音谐波分量之间的波谷衰减。可选地,梳状滤波器24可提高频域中的基音谐波波峰。
由于去加重单元22与预加重单元12互补,因此去加重单元22可以是预加重单元12的逆滤波器。去加重单元22对由音频编码设备10的预加重单元12加重的频率分量进行补偿。换句话说,去加重单元22可降低属于特定频带的频率分量的幅度,使得所述频率分量的幅度小于其它频率分量的幅度。
实施例1
图1至图3的一般音频编解码器系统30的音频编码设备10检测被预加重单元12预加重的输入音频信号的基音以实现准确的基音检测。音频编码设备10通过使用基于检测到的基音而确定的滤波器系数来执行梳状滤波。音频编码设备10在频域中对由预加重单元12预加重的输入音频信号进行编码以产生比特流。然后,音频编码设备10将比特流发送到音频解码设备20。
一般音频编解码器系统30的音频解码设备20对从音频编码设备10接收到的比特流执行频域解码、梳状滤波和去加重。
根据一般音频编解码器系统30,预加重的音频信号经历梳状滤波,并且从梳状滤波产生的信号经历编码、解码和去加重。因此,通过一般音频编解码器系统30输出的输出音频信号具有经由预加重和去加重累计的误差。
根据一般音频编解码器系统30,当音频信号经过音频编码设备10和音频解码设备20时,在音频信号中发生编码误差。由于经由预加重、梳状滤波、编码和解码而获得的信号具有编码误差,所以该信号不同于输入到音频编码设备10的音频信号。因此,即使当输入到音频解码设备20的比特流在去加重单元22中经历去加重时,音频解码设备20也不可能输出准确的原始音频信号。
在根据本发明的实施例的音频编码设备和方法以及音频解码设备和方法中,可对音频信号选择性地应用预加重,从而解决上述问题并且提高重构的音频信号的质量。
图4a是根据本发明的实施例的音频编码设备100的框图。
参照图4a,音频编码设备100可包括滤波单元140和编码器150。
滤波单元140被配置为减少发生在周期性的音频信号中的编码失真。滤波单元140可包括基音检测器120和第二滤波器130。
基音检测器120检测音频信号的基音。检测音频信号的基音的过程可包括从音频信号的每一帧中获取关于基音的信息,其中,音频信号被划分为帧。检测音频信号的基音的操作还可包括:确定第二滤波器130的滤波器系数,将在后面对此进行描述。例如,基音检测器120可从音频信号中获取以下项中的至少一项:基音周期、基音增益、基音抽头和指示第二滤波器130是否已被应用的标志。
第二滤波器130基于由基音检测器120检测到的基音来确定滤波器系数。第二滤波器130基于确定的滤波器系数针对音频信号执行第二滤波。基于由基音检测器120检测到的关于基音的信息,第二滤波器130的增益可被确定。例如,第二滤波器130可针对音频信号执行梳状滤波,但是本发明的实施例不限于此。
例如,当第二滤波器130是全零梳状滤波器时,第二滤波器130的传递函数Hpre(z)可被表示为:
[等式2]
Hpre(z)=(1-bz-p)
其中,p表示从音频信号获得的基音周期,b表示从音频信号获得的基音抽头。在等式2中,b被选取为0≤<b<1。如果确定音频信号不具有足够的周期性,则b可以是0。音频信号的周期性越强,则b越接近1。
根据本发明的实施例,第二滤波器130可被用户选择性地用于对音频信号进行编码。在这种情况下,还可设置单独的开关(未示出)。在第二滤波器130被选择性使用的情况下,为了使图5的音频解码设备200执行与由第二滤波器130执行的第二滤波对应的处理,基音检测器120可产生表示第二滤波器130是否已被应用的标志,并且可将所述标志发送到音频解码设备200。换句话说,基音检测器120可基于音频信号确定第二滤波器130是否将对音频信号执行第二滤波。基音检测器120可将表示所述确定的结果的标志发送到音频解码设备200。例如,用于表示使用或不使用第二滤波器130的标志可被包括在比特流的头中,并且可被随后发送。
编码器150对从第二滤波产生的音频信号进行编码。编码器150可产生并输出包括从第二滤波产生的音频信号的比特流。
详细地讲,编码器150可对包括在从第二滤波产生的音频信号中的多个窗中的每一个窗执行频率变换。编码器150可通过对从第二滤波产生的音频信号执行时频变换(即,时频映射)来产生频率变换系数。可经由正交镜像滤波器组(QMF)、修正离散傅里叶变换(MDCT)、快速傅里叶变换(FFT)等等来实现对音频信号的频率变换,但是本发明的实施例不限于此。
编码器150可对变换系数进行量化。编码器150可对量化的变换系数执行无噪声编码和比特流打包以产生并输出编码的比特流。
编码器150可产生包括从第二滤波产生的音频信号以及关于基音的信息两者的比特流。通过滤波单元140执行的基音滤波是从音频信号中滤除时间段(即,基音)以提高编码效率的方法。相应地,如果现有的编解码器被意图用于基音滤波,则需要保持现有的编解码器与使用基音滤波的编解码器之间的相容性的方法。根据本实施例的编码器150可产生并输出这样的比特流:在该比特流的辅助区域中包括关于基音的信息。
由于在音频编码期间发生的延迟,因此关于基音的信息被发送所经由的帧可与音频信号被发送所经由的帧不同。因此,编码器150可延迟并输出关于基音的信息,使得正被输出的关于基音的信息与正被解码的帧同步。例如,当音频编码设备100使用50%的重叠窗时,编码器150可将关于基音的信息延迟一帧。在这种情况下,音频编码设备100可产生包括从第二滤波产生的音频信号以及延迟的关于基音的信息的比特流。后面将参照图8至图13更加详细地描述输出延迟的关于基音的信息的方法。尽管图9至图13与本发明的实施例2有关,但是它们可被应用到本发明的实施例1。
根据本实施例,音频编码设备100可降低在预加重期间出现的复杂度。根据另一实施例,音频编码设备100可通过对原始音频信号而不是预加重的音频信号进行编码来减少编码误差。
参照图4b,即本发明的另一实施例,滤波单元140除了包括基音检测器120和第二滤波器130外,还可包括第一滤波器110。由于图4b的基音检测器120、第二滤波器130和编码器150与图4a的基音检测器120、第二滤波器130和编码器150分别对应,因此将省略对其的重复描述。
第一滤波器110对音频信号执行第一滤波。第一滤波器110处理音频信号,使得可对音频信号执行基音检测。例如,第一滤波器110可对音频信号执行预加重以加重音频信号的特定频带。所述预加重可包括提高属于特定频带的频率分量的幅度,使得所述频率分量的幅度大于不属于该特定频带的其他频率分量的幅度。可选地,所述预加重可包括降低所述其他频率分量的幅度,使得所述其他频率分量的幅度小于属于所述特定频带的频率分量的幅度。
如果第一滤波器110执行预加重,则图4b的音频编码设备100可检测经预加重的音频信号的基音,并且对未经受预加重的原始音频信号进行编码,由此提高了基音检测的准确度并且也减少了编码误差。
基音检测器120检测从由第一滤波器110进行的第一滤波产生的音频信号的基音。第二滤波器130基于由基音检测器120检测到的基音来确定滤波器系数。第二滤波器130基于确定的滤波器系数针对音频信号执行第二滤波。
图5是根据本发明的实施例的音频解码设备200的框图。
参照图5,音频解码设备200包括解码器250和滤波器240。
解码器250接收比特流并对比特流进行解码。接收到的比特流可以是通过以下操作而产生的比特流:检测原始音频信号的基音,基于检测到的基音对原始音频信号执行第二滤波,并且对从第二滤波产生的音频信号进行编码。可选地,接收到的比特流可以是通过以下操作而产生的比特流:对原始音频信号执行第一滤波,检测从第一滤波产生的音频信号的基音,基于检测到的基音对原始音频信号执行第二滤波,并对从第二滤波产生的音频信号进行编码。因此,在解码器250接收到的比特流包括编码的音频信号。接收到的比特流可包括由音频编码设备100的滤波单元140在基音滤波期间使用的关于基音的信息。
详细地讲,解码器250通过对接收到的比特流进行反量化来产生频率变换系数。解码器250可经由频时变换(即,频时映射)对频率变换系数进行逆变换,以产生并输出解码的信号。频时变换可以是逆QMF(IQMF)、逆MDFT(IMDCT)、逆FFT(IFFT)等等,但是本发明的实施例不限于此。
滤波器240对由解码器250产生的解码的信号进行滤波。滤波器240可针对解码的信号执行被执行用于产生比特流的第二滤波的逆滤波。滤波器240可从接收到的比特流提取关于基音的信息,并且基于从接收到的比特流提取的关于基音的信息来执行与由音频编码设备100执行的第二滤波对应的处理。换句话说,滤波器240可基于包括在接收到的比特流中的参数来重建被音频编码设备100去除的周期性分量。
被滤波器240使用的关于基音的信息可包括以下项中的至少一项:基音周期、基音增益、基音抽头和指示第二滤波器130是否被应用的标志。
根据本发明的实施例,滤波器240可被选择性地用于对音频信号进行解码。滤波器240可基于以下标志被选择性地使用:该标志被包括在接收到的比特流中并且指示第二滤波器130是否被应用于包括在接收到的比特流中的编码信号。例如,表示第二滤波器130是否被应用的标志可被包括在比特流的头中,并且可随后与比特流一起被发送。基于表示第二滤波器130是否被应用的标志,滤波器240可基于第二滤波是否被音频编码设备100执行来执行处理。因此,基于当音频编码设备100对音频信号进行编码时第二滤波器130是否被使用,滤波器240可被使用或可不被使用。
滤波器240可对解码信号执行梳状滤波,但本发明的实施例不限于此。例如,当音频编码设备100的第二滤波器130是全零梳状滤波器时,音频解码设备200的滤波器240的传递函数Hpre(z)可被表示为:
[等式3]
Figure GDA0002436446610000141
其中,p表示从音频信号获得的基音周期,b表示从音频信号获得的基音抽头。在等式3中,b被选取为0≤b<1。当从音频信号中未检测到足够的周期性时,b可以是0。音频信号的周期性越强,b越接近是1。
如上所述,根据本发明的实施例的音频编码设备100和音频解码设备200可通过省略预加重操作和去加重操作来降低音频编解码器系统的复杂度。音频编码设备100可对原始音频信号进行编码而不是对预加重音频信号进行编码,从而减少编码误差并因此提高重建的音频信号的质量。音频编码设备100可通过在基音检测期间使用预加重的音频信号来确保基音检测的准确性,并且还可通过在编码期间使用原始音频信号来提高重建的音频信号的质量。
根据本发明的实施例的音频编码方法包括由图4a的音频编码设备100执行的操作。
音频编码设备100可检测音频信号的基音,并基于检测到的基音确定滤波器系数。音频编码设备100可基于确定的滤波器系数对音频信号执行第二滤波,并对从第二滤波产生的音频信号进行编码。
图6是根据本发明的另一实施例的音频编码方法的流程图。
参照图6,音频编码方法包括由图4b的音频编码设备100执行的操作。因此,尽管在下文中被省略,但是对图4b的音频编码设备100的描述仍可被应用到图6的音频编码方法。
在操作S610,图4b的音频编码设备100可对音频信号执行第一滤波。图4b的音频编码设备100可执行预加重以加重音频信号的特定频带。换句话说,图4b的音频编码设备100可执行预加重以增大属于音频信号中所包括的特定频带的频率分量的幅度,使得所述频率分量的幅度大于其它频率分量的幅度,或执行预加重以减小其它频率分量的幅度。
在操作S620,音频编码设备100可检测从第一滤波产生的音频信号的基音。音频编码设备100可从音频信号被划分为的音频信号的多个帧中的每一帧获取关于基音的信息。音频编码设备100可从音频信号获得指示第二滤波是否被执行的标志、基音周期、基音增益和基音抽头中的至少一个作为关于基音的信息。
在操作S630,音频编码设备100可基于检测到的基音来确定滤波器系数。
在操作S640,音频编码设备100可基于确定的滤波器系数对音频信号执行第二滤波。例如,音频编码设备100可对音频信号执行作为第二滤波的梳状滤波。
在操作S650,音频编码设备100可对从第二滤波产生的音频信号进行编码。音频编码设备100可产生并输出包括从第二滤波产生的音频信号和关于基音的信息两者的比特流。例如,关于基音的信息可被包括在比特流的辅助区域中。音频编码设备100可将关于基音的信息延迟一帧,并且输出延迟的关于基音的信息。音频编码设备100可产生并输出包括从第二滤波产生的音频信号和延迟的关于基音的信息两者的比特流。
图7是根据本发明的实施例的音频解码设备的流程图。
参照图7,音频解码方法包括由图5的音频解码设备200执行的操作。因此,尽管在下文中被省略,但是对图5的音频解码设备200的描述仍可被应用到图7的音频解码方法。
在操作S710,音频解码设备200接收编码信号。例如,音频解码设备200可接收包括在比特流中的编码信号。编码信号可以是通过以下操作而产生的信号:检测原始音频信号的基音,基于检测到的基音对原始音频信号执行第二滤波,并且对从第二滤波产生的音频信号进行编码。可选地,编码信号可以是通过以下操作而产生的信号:对原始音频信号执行第一滤波,检测从第一滤波产生的音频信号的基音,基于检测到的基音对原始音频信号执行第二滤波,并且对从第二滤波产生的音频信号进行编码。音频解码设备200可接收包括从产生于第一滤波的音频信号获得的关于基音的信息的编码信号。
在操作S720,音频解码设备200对接收到的编码信号进行解码。
在操作S730,音频解码设备200对从所述解码产生的解码信号进行滤波。在这种情况下,音频解码设备200可执行在被执行用于产生编码信号的编码过程期间所执行的第二滤波的逆滤波。第二滤波的逆滤波可与第二滤波互补。音频解码设备200可从接收到的编码信号提取关于基音的信息。音频解码设备200可基于关于基音的信息来确定用于对解码信号进行滤波的滤波器系数。音频解码设备200可基于确定的滤波器系数对解码信号执行滤波。
实施例2
在图1至图3的音频编解码器系统30中,音频编码设备10可获得基音的信息,并且通过使用低重叠窗或50%重叠窗来执行加窗,并执行频域编码。所述加窗表示将音频信号划分为小的集合以执行频域编码。
图8a至图8e是用于解释发生在一般音频编解码器系统30中的延迟的示图。图8a至图8e示出包括第(N-2)帧、第(N-1)帧、第N帧和第(N1+1)帧的音频信号被编码和解码的情况。
图8a示出输入到音频编码设备10的音频信号。图8b示出由基音预滤波器11执行的基音检测。图8c示出由编码器15执行的对音频信号和关于基音的信息的编码。
参照图8b,基音预滤波器11检测当前帧801的基音。基音预滤波器11从当前帧801获取基音信息N+1。音频编码设备10从音频信号获取关于基音的信息,将窗804应用于音频信号,然后执行频率变换以执行频域编码。相应地,如图8c中所示,音频编码设备10对当前帧801和基音信息N+1两者进行编码,并且将编码的结果发送到音频解码设备20。
在图1至图3的音频编解码器系统30中,音频解码设备20对包括在压缩比特流中的量化的变换系数进行逆变换以产生并输出解码信号。
图8d示出由解码器25执行的解码过程。图8e示出由基音后滤波器21执行的滤波。如图8d中所示,音频解码设备20可通过使用窗805来对音频信号进行解码,其中,窗805具有与被音频编码设备10应用的窗804相同的大小。音频解码设备20需要等待与当前帧802重叠的下一帧803,以对当前帧802进行逆变换。换句话说,由于等待重叠部分,因此发生了时间延迟。例如,如图8e中所示,如果应用50%的重叠窗,则发生一帧的延迟。
如图8a至图8e中所示,音频编码设备10将帧和从该帧提取的关于基音的信息一起发送至音频解码设备20。然而,音频解码设备20使用关于基音的信息来对出现在该帧之前的帧进行解码。如图8e中所示,音频解码设备20使用基音信号N+1来对当前帧802进行解码。基音信息N+1是由音频编码设备10从下一帧803(即当前帧802的下一帧)获得的信息。
如图8c所示,音频编码设备10发送关于基音的信息所经由的帧与音频编码设备10发送经过频率变换的音频信号所经由的帧相同。然而,当执行频域解码时,发生解码延迟。因此,音频解码设备20通过使用从正被解码的帧的前一帧获取的关于基音的信息来对帧进行解码。
因此,当关于基音的信息被应用于解码的音频信号时,关于基音的信息需要基于解码延迟来被发送以提高重建的音频信号的质量。换句话说,需要这样的方法:在该方法中,在被提取关于基音的信息的帧被解码的时间点使用关于该基音的信息。
在根据本发明的实施例的音频编码设备和方法以及音频解码设备和方法中,基于对被获取关于基音的信息的帧进行解码的时间点来发送关于该基音的信息,从而解决上述问题并提高重建的音频信号的音频质量。
图9是根据本发明的另一实施例的音频编码设备500的框图。
参照图9,音频编码设备500包括预滤波器510和编码器550。
预滤波器510被配置为减少在周期性音频信号的编码和解码期间明显发生的编码失真。预滤波器510从输入音频信号获取关于基音的信息。预滤波器510可通过使用关于基音的信息对输入音频信号执行预滤波。例如,预滤波可以是提高频域中的基音谐波分量之间波谷或抑制基音谐波波峰的操作。
预滤波器510可包括图1和图2的基音预滤波器11。可选地,预滤波器510可包括图4a或图4b的滤波单元140。将省略对其的重复描述。
预滤波器510可对输入音频信号执行第一滤波,并从产生于第一滤波的音频信号获取关于基音的信息。预滤波器510可从音频信号的每一帧获取关于基音的信息,其中,音频信号被划分为帧。预滤波器510可基于关于基音的信息来确定滤波器系数,并通过使用确定的滤波器系数对输入音频信号执行第二滤波。
编码器550可通过使用具有重叠部分的窗对经基音滤波的音频信号执行加窗。编码器550可基于窗的重叠部分对从所述加窗产生的音频信号和关于基音的信息进行编码。基于窗的重叠部分对关于基音的信息进行编码的操作包括:基于窗的重叠部分确定解码延迟,根据确定的解码延迟对关于基音的信息进行延迟,并且对延迟的关于基音的信息进行编码。编码器550可产生并输出包括编码的音频信号和编码的关于基音的信息两者的比特流。
编码器550可基于窗的重叠部分来确定编码延迟。当编码期间使用的窗的长度等于在解码期间使用的窗的长度并且两个窗的重叠部分的长度相等时,编码器550可基于在编码期间使用的窗的重叠部分来计算在解码期间产生的延迟时间。
编码器550根据确定的编码延迟对关于基音的信息进行延迟以输出延迟的基音的信息。为此,编码器550可包括缓冲器(未示出),其中,所述缓冲器针对确定的编码延迟存储关于基音的信息,然后输出延迟的信息。例如,当窗的重叠部分的长度是窗的50%或更多时,编码器550可基于所述重叠部分将关于基音的信息延迟一帧并输出延迟的信息。作为另一个例子,当窗的重叠部分的长度小于窗的50%时,编码器550可基于所述重叠部分将关于基音的信息延迟比一帧短的时间段并输出延迟的信息。
图11a至图11e是用于解释根据本发明的实施例的音频编解码器系统基于帧被解码的时间点发送关于基音的信息的方法。图11a至图11e示出包括第(N-2)帧、第(N-1)帧、第N帧和第(N1+1)帧的音频信号被编码和解码的情况。
图11a示出了输入至音频编码设备500的音频信号。图11b示出了由预滤波器510执行的基音检测。图11c示出了由编码器550执行的对音频信号和关于基音的信息的编码。
参照图11b,预滤波器510检测当前帧1101的基音。预滤波器510从当前帧1101获取基音信息N+1。
音频编码设备500获取音频信号的关于基音的信息,将窗1104应用于音频信号,然后执行频率变换以执行频域编码。编码器550基于窗的重叠部分确定解码延迟,根据确定的解码延迟对关于基音的信息进行延迟,并且对延迟的关于基音的信息进行编码。如图11a至图11e中所示,当音频编解码器系统使用50%的重叠窗时,音频编解码器系统可将关于基音的信息延迟一帧,并输出延迟的关于基音的信息。参照图11c,当编码器550对当前帧1101进行编码并输出包括编码的当前帧1101的比特流时,编码器550将延迟了一帧的基音信息N和当前帧1101一起输出,而不是将与当前帧1101对应的基音信息N+1和当前帧1101一起输出。
当音频编码设备500输出包括关于基音的信息的比特流时,音频编码设备500可基于解码延迟将关于基音的信息存储在缓冲器中并输出延迟的关于基音的信息。
编码器550可产生比特流,使得关于基音的信息被包括在比特流的辅助区域中,从而可实现ABC和现有音频编解码器(例如,高级音频编码(AAC)编解码器、MPEG-1音频层3(MP3)编解码器、增强型低延迟AAC(AAC ELD)编解码器等)之间的相容性。
关于基音的信息可包括指示预滤波器510是否被应用的标志、基音周期、基音增益和基音抽头中的至少一个。指示预滤波器510是否被应用的标志表示指示预滤波是否被执行以使得音频解码设备600(随后将被描述)可执行对应于预滤波的处理的标志。
图14a至图14e是用于解释根据本发明的实施例的包括关于基音的信息的比特流的结构的示图。
参照图14a,普通比特流可包括头1401、附加信息区域1402、原始数据区域1403以及辅助区域1404。
例如,如图14b中所示,根据本发明的另一实施例的编码器550可产生并输出包括紧挨在头1401之后的基音信息1410的比特流。可选地,如图14c中所示,根据本发明的另一实施例的编码器550可产生并输出包括紧挨在附加信息区域1402之后的基音信息1410的比特流。可选地,如图14d中所示,根据本发明的另一实施例的编码器550可产生并输出包括紧挨在原始数据区域1403之后的基音信息1410的比特流。可选地,如图14e中所示,根据本发明的另一实施例的编码器550可产生并输出在辅助区域1404中包括的基音信息1410的比特流。
编码器550可产生并输出比特流,使得以下标志被包括在比特流的头:该标志指示是否在预滤波器510执行了预滤波来产生比特流。并且编码器550可产生并输出比特流,使得除了所述标志之外的关于基音的信息被包括在比特流的一个区域中,如图14b、图14c、图14d或图14e中所示。
换句话说,编码器550可产生并输出比特流,使得除了指示预滤波器510是否被应用的标志之外的关于基音的信息紧位于头、附加信息区域和原始数据区中的至少一个之后。
图15a示出了在AC-3编解码器中使用的比特流的结构,并且图15b示出了在E-AC3编解码器中使用的比特流的结构。在使用图15a和图15b的比特流结构的AC-3编解码器和E-AC3编解码器中,编码器550可产生并输出比特流,使得关于基音的信息被包括在比特流信息(BSI)字段的addbsi(附加信息)字段、音频块字段AB0至音频块字段AB5的skipfld(填充字节)或比特流的辅助区域AUX中。音频编码设备500不限于上述实例,并且可产生并输出在各种预定区域中包括基音信息的比特流。因此,音频编码设备500与诸如约束能量重叠变换(CELT)编解码器、AAC编解码器、MP3编解码器、AAC ELD编解码器、AC-3编解码器和E-AV3编解码器的各种编解码器兼容。
图10是根据本发明的另一实施例的音频解码器600的框图。
参照图10,音频解码设备600包括解码器650和后滤波器610。
解码器650接收压缩的音频比特流,并对压缩的音频比特流进行解码。解码器650获取接收到的压缩音频比特流的关于基音的信息和频率变换的音频信号。解码器650对频率变换的音频信号进行逆变换,并且通过使用具有特定重叠部分的窗对从逆变换产生的音频信号执行加窗。解码器650可通过使用具有与音频编码设备500用来执行加窗的窗相同大小的窗来执行加窗。
音频解码设备600的后滤波器610可对应于音频编码设备500的预滤波器510。后滤波器610被配置为减少在对周期性音频信号进行编码和解码期间明显发生的编码失真。后滤波器610可基于从接收到的压缩的音频比例流中提取的关于基音的信息,执行与音频编码设备500执行的预滤波对应的处理。换句话说,后滤波器610可基于包括在接收到的压缩的音频比特流中的参数,重建被音频编码设备500去除的周期性分量。例如,关于基音的信息可被包括在接收到的压缩的音频比特流的辅助区域中。
如上参照音频编码设备500所述,关于基音的信息可以是根据基于窗的重叠部分确定的编码延迟而被延迟的信息。关于基音的信息可包括基音周期、基音增益、基音抽头和指示预滤波是否被执行的标志中的至少一个。
后滤波器610可通过使用关于基音的信息对从加窗产生的音频信号执行后滤波。后滤波器610可基于关于基音的信息来确定滤波器系数。后滤波器610可基于确定的滤波器系数对从解码器650接收的解码的音频信号执行后滤波。所述后滤波可以是抑制频域内的基音谐波分量之间的波谷或提高基音谐波波峰的操作。
所述后滤波可对应于在编码期间执行的预滤波。因此,根据实施例,音频解码设备600可通过参考被包括在接收到的压缩的音频比特流的头中的指示预滤波是否被执行的标志来选择性地执行后滤波。
后滤波器610可包括图1和图3的基音后滤波器21。可选地,后滤波器610可包括图5的滤波器240。将省略对其的重复描述。
图11d示出了由图10的解码器650执行的解码。图11e示出了图10的后滤波器610执行的滤波。如图11d中所示,音频解码设备600可通过使用与被音频编码设备500应用的窗1104具有相同大小的窗1105来对音频信号进行解码。为了对当前帧1102进行逆变换,音频解码设备600需要等待与当前帧1102重叠的下一帧1103。换句话说,时间延迟根据重叠部分而发生。例如,如图11d中所示,如果应用50%的重叠窗,则发生一帧的延迟。
因此,如图11e中所示,在对当前帧1102进行解码时,音频解码设备600使用与当前帧1102对应的基音信息N。基音信息N是音频编码设备500从第N帧(即当前帧1102)获取的信息。
根据音频编码设备500和音频解码设备600,恰好与正在被音频解码设备600解码的帧对应的关于基音的信息可在所述帧的解码期间被使用。因此,根据本发明的实施例,重建的音频信号的音频质量可被提高。
如上所述,包括在根据本发明的实施例的音频编解码器系统中的音频编码设备500基于编码延迟发送关于基音的信息。相应地,包括在根据本发明的实施例的音频编解码器系统中的音频解码设备600可接收与正被解码的帧同步的关于基音的信息。因此,根据本发明的实施例的音频编解码器系统可支持对包括在编码的音频信号中的帧的随机访问。此外,当编码的音频信号已经被损坏时,根据本发明的实施例的音频编解码器系统可通过使用恰好对应于无差错帧的关于基音的信息来对无差错帧进行解码。
图12是根据本发明的另一实施例的音频编码方法的流程图。
参照图12,音频编码方法包括由图8的音频编码设备500执行的操作。因此,尽管在下文中被省略,但对图8的音频编码设备500的描述仍可被应用于图12的音频编码方法。
在操作S1210,音频编码设备500可通过使用从音频信号获取的关于基音的信息对音频信号执行预滤波。如上参照图4a和图4b的音频编码设备100所述,音频编码设备500可选择性地对音频信号执行预加重。
换句话说,音频编码设备500可对音频信号执行第一滤波,并从产生于第一滤波的音频信号获取关于基音的信息。第一滤波是加重属于特定频带的信号以从音频信号获取关于基音的信息的操作。音频编码设备500可基于获取的关于基音的信息来确定滤波器系数,并通过使用第二滤波器对音频信号执行第二滤波,其中,第二滤波器是使用确定的所述滤波器系数来设计。例如,第二滤波可包括梳状滤波。
音频编码设备500可从音频信号被划分为的音频信号的多个帧中的每一帧获取关于基音的信息。
在操作S1220,音频编码设备500可通过使用具有特定重叠部分的窗对从预滤波产生的音频信号执行加窗。
在操作1230,音频编码设备500可基于窗的重叠部分对从所述加窗产生的音频信号以及关于基音的信息进行编码。音频编码设备500可通过对从所述加窗产生的音频信号以及关于基音的信息进行编码来产生并输出比特流。
音频编码设备500可基于窗的重叠部分确定编码延迟,根据确定的编码延迟对关于基音的信息进行延迟,并且输出延迟的关于基音的信息。例如,当窗的重叠部分的长度是窗的50%或更多时,音频编码设备500可将关于基音的信息延迟一帧。
音频编码设备500可产生并输出这样的比特流:所述比特流包括位于比特流的辅助区域中的关于基音的信息。关于基音的信息可包括基音周期、基音增益、基音抽头和指示预滤波是否被执行的标志中的至少一个。例如,音频编码设备500可产生并输出比特流,使得指示预滤波是否被执行的标志位于比特流的头中并且基音周期、基音增益和基音抽头中的至少一个位于比特流的辅助区域中。
图13是根据本发明的另一实施例的音频解码方法的流程图。
参照图13,音频解码方法包括由图9的音频解码设备600执行的操作。因此,尽管在下文中被省略,但对图9的音频解码设备600的描述仍可被应用于图13的音频解码方法。
在操作S1310,音频解码设备600获取接收到的比特流的频率变换的音频信号和关于基音的信息。由音频解码设备600接收的关于基音的信息可以是基于在编码或解码期间应用的窗的重叠部分而被延迟的信息。
在操作S1320,音频解码设备600通过对频率变换的音频信号进行逆变换来获取时域音频信号样点。
在操作S1330,音频解码设备600通过使用具有特定重叠部分的窗对从逆变换产生的音频信号执行加窗。
在操作S1340,音频解码设备600通过使用关于基音的信息对从所述加窗产生的音频信号执行后滤波。由音频解码设备600执行的后滤波可对应于由音频编码设备500执行的预滤波。当后滤波对应于预滤波时,这可表示后滤波是预滤波的逆过程。音频解码设备600可提取接收到的比特流的辅助区域的关于基音的信息。关于基音的信息可包括指示预滤波的应用或未应用的标志、基音周期、基音增益和基音抽头中的至少一个。
图16是根据本发明的实施例的使用心理声学模型的音频编码设备1600的框图。
参照图16,音频编码设备1600可包括心理声学模型单元1650。
图16的基音预滤波器1610可对应于图4的滤波单元140和图9的预滤波器510。因此,将省略对其的重复描述。
图16的加窗单元1620、频率变换器1630、量化器1640、心理声学模型单元1650、熵编码器1660和比特流形成器1670可对应于图4的编码器150和图9的编码器550。
加窗单元1620可将输入音频信号划分为窗。窗的帧长度可根据应用到音频编码设备1600的应用而变化。
频率变换器1630可对音频信号被划分为的多个窗中的每一个窗执行时频变换。频率变换器1630可通过对窗执行时频变换来产生变换系数。时频变换可通过QMF、MDCT、FFT等来实现,但本发明的实施例不限于此。
心理声学模型单元1650可通过将掩蔽效应应用于输入音频信号来设置掩蔽阈值。
掩蔽效应基于心理声学原理,并且使用人的听觉系统由于小信号被大信号掩蔽而不能正确感知毗邻大信号的小信号的特性。例如,在嘈杂的空间(如公交站)中,人无法听到原本在安静的空间中可闻的对话。
掩蔽阈值是音频信号可闻的最小级别。根据掩蔽效应,低于掩蔽阈值存在的音频信号是不可闻的。
在将心理声学模型应用于音频信号被划分为的多个窗中的一个窗时,在窗中的信号之中具有最大幅度的信号可存在于多个频率尺度因子带中的中间频率尺度因子带中。并且具有比最大信号小得多的幅度的若干信号可存在于在中间频率尺度因子带周围的频率尺度因子带中。最大信号是掩蔽声,并且掩蔽曲线从掩蔽声绘制。被掩蔽曲线掩蔽的小信号可以是被掩蔽的信号或被掩蔽声(maskee)。被掩蔽的信号被去除,并且只有剩余的信号保持为有效的信号。这个过程为称为掩蔽。
量化器1640可通过使用由心理声学模型单元1650确定的掩蔽阈值对通过频率变换器1630获得的窗的变换系数进行量化。
量化器1640会在对变换系数进行量化的同时产生噪声。量化器1640可对变换系数进行量化,使得产生的噪声保持低于掩蔽阈值。量化噪声保持低于掩蔽阈值可表示通过量化产生的噪声的能量由于掩蔽效应被掩蔽。换句话说,低于掩蔽阈值的量化噪声是不可闻的。
熵编码器1660可针对从量化操作产生的量化的音频信号执行熵编码。熵编码器1660可经由霍夫曼编码、区间编码、算术编码等对量化的音频信号进行编码,但是本发明的实施例不限于此。
比特流形成器1670可从由熵编码器1660输出的编码的音频信号产生一个或更多个比特流。
本发明的实施例可被实现在包括由计算机执行的指令代码(诸如由计算机执行的程序模块)的存储介质中。计算机可读介质可以是能够被计算机访问的任意可用介质,并且包括所有易失性/非易失性介质以及可移除/不可移除介质。此外,计算机可读介质可包括所有计算机存储介质和通信介质。计算机存储介质可包括通过特定方法或技术实现的用于存储信息(诸如计算机可读指令代码、数据结构、程序模块或其它数据)的所有易失性/非易失性介质以及可移除/不可移除介质。通信介质典型地包括计算机可读指令代码、数据结构、程序模块或调制数据信号的其他数据(诸如载波或其它传输机制),并且包括任意信息传输介质。
尽管本发明的实施例被公开用于说明的目的,但是本领域的普通技术人员将理解,在不脱离本发明的精神和范围的情况下,可进行多种变换和修改。因此,以上实施例在所有方面应被理解为不是限制性的,而是说明性的。例如,以整体形式被描述的各个元件可被分开使用,并且分开的元件可在被整合的状态下被使用。
虽然本发明已参照其示例性实施例被具体示出和描述,但是本领域的普通技术人员将理解,在不脱离由权利要求所限定的本发明的精神和范围的情况下,可在这些实施例中做出形式和细节上的各种改变。

Claims (9)

1.一种音频编码方法,包括:
执行用于提高属于在音频信号中所包括的特定频带的频率分量的幅度的预加重;
检测经过预加重的音频信号的基音;
基于检测到的基音确定滤波器系数;
基于确定的滤波器系数,对音频信号执行梳状滤波;
通过使用具有预定重叠部分的窗对经过梳状滤波的音频信号执行加窗;
基于所述预定重叠部分,对被执行了加窗的音频信号以及关于基音的信息进行编码;以及
产生并输出比特流。
2.根据权利要求1所述的音频编码方法,其中,检测经过预加重的音频信号的基音的步骤包括:从经过预加重的音频信号获取关于基音的信息,其中,关于基音的信息包括基音周期、基音增益、基音抽头中的至少一个。
3.根据权利要求1所述的音频编码方法,其中,
关于基音的信息包括基音周期、基音增益、基音抽头和指示梳状滤波是否被执行的标志中的至少一个。
4.根据权利要求1所述的音频编码方法,其中,产生并输出比特流的步骤包括:产生并输出使得关于基音的信息位于比特流的辅助区域中的比特流。
5.根据权利要求1所述的音频编码方法,其中,
检测经过预加重的音频信号的基音的步骤包括:从经过预加重的音频信号被划分为的多个帧中的每一帧获取关于基音的信息,并且
对被执行了加窗的音频信号以及关于基音的信息进行编码的步骤包括:
将关于基音的信息延迟一帧,
其中,所述比特流包括被执行了加窗的音频信号和延迟的关于基音的信息。
6.根据权利要求1所述的音频编码方法,其中,产生并输出比特流的步骤包括:
基于所述预定重叠部分来确定编码延迟;以及
根据确定的编码延迟对关于基音的信息进行延迟,并输出延迟的关于基音的信息。
7.一种音频解码方法,包括:
接收编码信号和关于原始音频信号的基音的信息;
对接收到的编码信号进行解码;
基于关于基音的信息确定滤波器系数;以及
基于确定的滤波器系数对从所述解码产生的解码信号进行滤波,
其中,编码信号是基于基音从经过滤波的原始音频信号被编码的,
对从所述解码产生的解码信号进行滤波的步骤对应于在编码信号的编码期间所执行的滤波处理,
其中,接收编码信号和关于原始音频信号的基音的信息的步骤包括:
接收比特流并从接收到的比特流获取经过频率变换的原始音频信号和关于基音的信息,
其中,对接收到的编码信号进行解码的步骤包括:
对经过频率变换的原始音频信号进行逆变换;以及
通过使用具有重叠部分的窗对从所述逆变换产生的经过逆变换的原始音频信号执行加窗,
其中,对从所述解码产生的解码信号进行滤波的步骤包括:
通过使用关于基音的信息对从所述加窗产生的被执行了加窗的经过逆变换的原始音频信号进行后滤波,
其中,所述后滤波对应于在编码期间执行的预滤波。
8.一种音频编码设备,包括:
第一滤波器,执行用于提高属于在音频信号中所包括的特定频带的频率分量的幅度的预加重;
基音检测器,检测经过预加重的音频信号的基音;
梳状滤波器,基于检测到的基音确定滤波器系数,并基于确定的滤波器系数对音频信号执行梳状滤波;以及
编码器,通过使用具有预定重叠部分的窗对经过梳状滤波的音频信号执行加窗,基于所述预定重叠部分对被执行了加窗的音频信号以及关于基音的信息进行编码,并产生且输出比特流。
9.一种记录有程序的非暂时性计算机可读记录介质,其中,所述程序在被计算机执行时执行权利要求1-6中的一项所述的方法。
CN201480075642.6A 2013-12-16 2014-11-25 用于对音频信号进行编码/解码的方法和设备 Expired - Fee Related CN106030704B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2013-0156643 2013-12-16
KR1020130156643A KR102251833B1 (ko) 2013-12-16 2013-12-16 오디오 신호의 부호화, 복호화 방법 및 장치
PCT/KR2014/011365 WO2015093742A1 (en) 2013-12-16 2014-11-25 Method and apparatus for encoding/decoding an audio signal

Publications (2)

Publication Number Publication Date
CN106030704A CN106030704A (zh) 2016-10-12
CN106030704B true CN106030704B (zh) 2020-07-31

Family

ID=53403046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480075642.6A Expired - Fee Related CN106030704B (zh) 2013-12-16 2014-11-25 用于对音频信号进行编码/解码的方法和设备

Country Status (7)

Country Link
US (1) US10186273B2 (zh)
EP (1) EP3069337B1 (zh)
JP (1) JP6573887B2 (zh)
KR (1) KR102251833B1 (zh)
CN (1) CN106030704B (zh)
TW (1) TWI555010B (zh)
WO (1) WO2015093742A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN108550371B (zh) * 2018-03-30 2021-06-01 云知声智能科技股份有限公司 智能语音交互设备快速稳定的回声消除方法
CN108550369B (zh) * 2018-04-14 2020-08-11 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法
US11405739B2 (en) * 2020-12-01 2022-08-02 Bose Corporation Dynamic audio headroom management system
CN112992161A (zh) * 2021-04-12 2021-06-18 北京世纪好未来教育科技有限公司 音频编码方法、音频解码方法、装置、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000768A (zh) * 2006-06-21 2007-07-18 北京工业大学 嵌入式语音编解码的方法及编解码器
CN101903945A (zh) * 2007-12-21 2010-12-01 松下电器产业株式会社 编码装置、解码装置以及编码方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0788091A3 (en) 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
EP0995190B1 (en) * 1998-05-11 2005-08-03 Koninklijke Philips Electronics N.V. Audio coding based on determining a noise contribution from a phase change
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
FI116992B (fi) 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
GB2357231B (en) * 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
WO2003019527A1 (fr) * 2001-08-31 2003-03-06 Kabushiki Kaisha Kenwood Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant
JP4287637B2 (ja) * 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US7844451B2 (en) 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
US7418013B2 (en) 2004-09-22 2008-08-26 Intel Corporation Techniques to synchronize packet rate in voice over packet networks
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
BRPI0517716B1 (pt) 2004-11-05 2019-03-12 Panasonic Intellectual Property Management Co., Ltd. Aparelho de codificação, aparelho de decodificação, método de codificação e método de decodificação.
JP4599558B2 (ja) * 2005-04-22 2010-12-15 国立大学法人九州工業大学 ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
EP1895511B1 (en) * 2005-06-23 2011-09-07 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus
KR100735246B1 (ko) 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
EP1991986B1 (en) * 2006-03-07 2019-07-31 Telefonaktiebolaget LM Ericsson (publ) Methods and arrangements for audio coding
EP2012305B1 (en) 2006-04-27 2011-03-09 Panasonic Corporation Audio encoding device, audio decoding device, and their method
EP2040251B1 (en) 2006-07-12 2019-10-09 III Holdings 12, LLC Audio decoding device and audio encoding device
KR20080034818A (ko) 2006-10-17 2008-04-22 엘지전자 주식회사 부호화/복호화 장치 및 방법
JPWO2008072701A1 (ja) * 2006-12-13 2010-04-02 パナソニック株式会社 ポストフィルタおよびフィルタリング方法
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
US8738385B2 (en) * 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
CN103038825B (zh) * 2011-08-05 2014-04-30 华为技术有限公司 语音增强方法和设备
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
JP2015525374A (ja) * 2012-06-04 2015-09-03 サムスン エレクトロニクス カンパニー リミテッド オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器
US9633652B2 (en) * 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000768A (zh) * 2006-06-21 2007-07-18 北京工业大学 嵌入式语音编解码的方法及编解码器
CN101903945A (zh) * 2007-12-21 2010-12-01 松下电器产业株式会社 编码装置、解码装置以及编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《数字语音编码技术研究》;周波等;《科技情报开发与经济》;20080331;第18卷(第3期);第165-167页 *

Also Published As

Publication number Publication date
JP2017504054A (ja) 2017-02-02
CN106030704A (zh) 2016-10-12
EP3069337B1 (en) 2019-01-02
KR102251833B1 (ko) 2021-05-13
US10186273B2 (en) 2019-01-22
EP3069337A1 (en) 2016-09-21
TW201539432A (zh) 2015-10-16
US20170018280A1 (en) 2017-01-19
EP3069337A4 (en) 2017-05-10
TWI555010B (zh) 2016-10-21
JP6573887B2 (ja) 2019-09-11
WO2015093742A1 (en) 2015-06-25
KR20150069919A (ko) 2015-06-24

Similar Documents

Publication Publication Date Title
US8255211B2 (en) Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering
JP6026678B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
JP5047268B2 (ja) Mdct係数を使用する音声後処理
CN105957532B (zh) 对音频/语音信号进行编码和解码的方法和设备
US11568883B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
EP2860729A1 (en) Audio encoding method and device, audio decoding method and device, and multimedia device employing same
CN106030704B (zh) 用于对音频信号进行编码/解码的方法和设备
JP2012503214A (ja) デジタルオーディオ信号におけるプリエコーの減衰
KR102231756B1 (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
Lin et al. Adaptive bandwidth extension of low bitrate compressed audio based on spectral correlation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200731

Termination date: 20211125