CN102985969A - 编码装置、解码装置和编码方法、解码方法 - Google Patents

编码装置、解码装置和编码方法、解码方法 Download PDF

Info

Publication number
CN102985969A
CN102985969A CN2011800345497A CN201180034549A CN102985969A CN 102985969 A CN102985969 A CN 102985969A CN 2011800345497 A CN2011800345497 A CN 2011800345497A CN 201180034549 A CN201180034549 A CN 201180034549A CN 102985969 A CN102985969 A CN 102985969A
Authority
CN
China
Prior art keywords
low frequency
coding
rate
frequency
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800345497A
Other languages
English (en)
Other versions
CN102985969B (zh
Inventor
押切正浩
堀贵子
江原宏幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN102985969A publication Critical patent/CN102985969A/zh
Application granted granted Critical
Publication of CN102985969B publication Critical patent/CN102985969B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

本发明提供在各层具有多个比特率(多速率)的分层编码(可扩展编码、内嵌编码)中,根据输入信号的特征来确定各层的比特率的组合,由此能够实现高音质的编码和解码的编码装置、解码装置以及编码方法、解码方法。在编码装置(100)中,特征分析单元(101)提取输入信号的特征量。并且,比特率确定单元(102)基于输入信号的特征量,确定进行输入信号的低频部分的编码的低频信号编码单元(104)的编码率(低频编码率)与进行输入信号的高频部分的编码的高频信号编码单元(105)的编码率(高频编码率)的组合。

Description

编码装置、解码装置和编码方法、解码方法
技术领域
本发明涉及对语音信号及/或音乐信号进行编码、解码的编码装置、解码装置以及编码方法、解码方法。
背景技术
以低比特率压缩语音信号的语音编码技术,为移动通信中的电波等的有效利用而十分重要。近年来,对通话语音的质量提高的期待不断增强,期望实现信号频带宽且现场感强的通话服务。
作为对语音信号进行编码的语音编码,存在由ITU-T(InternationalTelecommunication Union Telecommunication Standardization Sector:国际电信联盟远程通信标准化组织)标准化的G726、G729等方式。这些方式能够以窄带(300Hz~3.4kHz)信号(以后称为NB(Narrow Band)信号)为对象,进行比特率为8kbit/s~32kbit/s的编码。作为对象的窄带信号的频带最大为3.4kHz,因此,虽然可理解性没有问题,但是其音质不清楚,缺乏现场感。
另外,在ITU-T和3GPP(The 3rd Generation Partnership Project:第三代合作伙伴计划)中,存在对信号频带为50Hz~7kHz的宽带信号(以后称为WB(Wide Band)信号)进行编码的标准方式(例如,G.722,AMR-WB)。这些方式的比特率为6.6kbit/s~64kbit/s,能够进行宽带信号的编码。虽然宽带信号比窄带信号高音质,但是相对于要求高现场感的通话服务而言,难以说是足够的音质。
另一方面,以往通过线路交换方式实现语音通信,但因线路交换方式占有线路而效率差。因此,兴起了将编码数据分组化并通过IP(Internet Protocol:网际协议)网络传输从而谋求通信线路的有效利用的方式。尤其是在语音通话中适用该技术的方式被称为VoIP(Voice over IP:互联网协议电话)。在移动通信中,例如在3GPP LTE(Long Term Evolution:长期演进)通信系统中利用VoIP。
例如在将AMR-WB适用于VoIP时,AMR-WB的编码数据作为RTP(Real-time Transport Protocol:实时传输协议)分组的有效载荷在IP网络传输。此时,有效载荷的大小作为比特率信息,记述在RTP有效载荷的一部分即标头部的FT(Frame type:帧类型)字段中。RTP有效载荷的标头部由非专利文献1和非专利文献2规定。
为了实现现场感强的语音通信,提出了几个对超宽带(50Hz~14kHz)信号(以后称为SWB(Super Wide Band)信号)进行编码的方式。例如,由ITU-T标准化的G.718 Annex B(非专利文献3,以后称为G.718B)方式能够对SWB信号以28kbit/s~48kbit/s的比特率进行编码。G.718B具有由多个层构成的分层结构,能够以24kbit/s或32kbit/s的2种比特率对低频部分(50Hz~7kHz)的信号进行编码,而且,能够对高频部分(7kHz~14kHz)的信号以4kbit/s、8kbit/s、16kbit/s的3种比特率进行编码。
图1是表示在G.718B时能够采用的比特率模式与低频部分的比特率(以下,称为低频编码率)和高频部分的比特率(以下,称为高频编码率)的组合之间的对应关系的图。如图1所示,G.718B能够对SWB信号以5种比特率模式中的任一种比特率模式进行编码。
现有技术文献
非专利文献
非专利文献1:IETF RFC4867,“RTP Payload Format and File StorageFormat for the Adaptive Multi-Rate(AMR)and Adaptive Multi-Rate Wideband(AMR-WB)Audio Codecs”,April 2007.
非专利文献2:3GPP TS 26.201,“AMR Wideband Speech Codec;FrameStructure”,March 2001.
非专利文献3:Recommendation ITU-T G.718Amendment 2,“New AnnexB on superwideband scalable extension for ITU-T G.718and corrections to mainbody fixed-point C-code and description text”,March 2010.
非专利文献4:IETF RFC3550,“RTP:A Transport Protocol for Real-TimeApplications”,July 2003.
发明内容
发明要解决的问题
如G.718B那样,在是低频编码率和高频编码率分别存在多个的编码方式时,存在相当于低频编码率和高频编码率的组合的数目的整体比特率。因此,在为了表示低频编码率和高频编码率的全部组合而想要确保RTP有效载荷标头的FT字段的区域时,存在标头大小变大,无法进行高效率的通信等问题。
另外,为了抑制标头大小的增大,考虑将整体比特率(以下,称为总编码率)相同的低频编码率和高频编码率的组合限定为一个的方法。但是,存在如下问题:虽然根据输入信号的特性而可变化最佳的组合,但由于限定为一个组合,不能进行有效的编码。
在以G.718B为例时,在整体比特率(总编码率)设定为40kbit/s时,作为低频编码率与高频编码率的组合,存在{24kbit/s,16kbit/s}或{32kbit/s,8kbit/s}的2种组合。本来应该根据输入信号的特性,以分组(帧)为单位来确定哪个组合好。但是,在为了避免FT字段大小的增大而预先设定为{24kbit/s,16kbit/s}或{32kbit/s,8kbit/s}的某一方并且仅通知整体比特率的信息时,产生无法充分地发挥本来具备的编解码性能的问题。
本发明的目的在于,提供在各层具有多个比特率(多速率)的分层编码(可扩展编码、内嵌编码)中,根据输入信号的特征来确定各层的比特率的组合,由此能够实现高音质的编码和解码的编码装置、解码装置以及编码方法、解码方法。
解决问题的方案
本发明的编码装置包括:分析单元,分别对低频部分和高频部分分析输入信号的特征,生成表示分析结果的特征数据;确定单元,基于作为低频编码率和高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率以及所述高频编码率的组合;低频编码单元,使用所述确定的低频编码率进行所述输入信号的低频部分的编码,生成低频编码数据;高频编码单元,使用所述确定的高频编码率进行所述输入信号的高频部分的编码,生成高频编码数据;以及复用单元,复用所述低频编码数据、所述高频编码数据和所述特征数据。
本发明的解码装置包括:分离单元,将复用了使用低频编码率进行输入信号的低频部分的编码而生成的低频编码数据、使用高频编码率进行所述输入信号的高频部分的编码而生成的高频编码数据、以及表示分别对所述低频部分和所述高频部分分析所述输入信号的特征的结果的特征数据的复用数据,分离为所述低频编码数据、所述高频编码数据和所述特征数据;确定单元,基于作为所述低频编码率和所述高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率和所述高频编码率的组合;低频解码单元,使用所述确定的低频编码率,对所述低频编码数据进行解码;以及高频解码单元,使用所述确定的高频编码率,对所述高频编码数据进行解码。
本发明的编码方法包括:分别对低频部分和高频部分分析输入信号的特征,生成表示分析结果的特征数据的步骤;基于作为低频编码率和高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率和所述高频编码率的组合的步骤;使用所述确定的低频编码率进行所述输入信号的低频部分的编码,生成低频编码数据的步骤;使用所述确定的高频编码率进行所述输入信号的高频部分的编码,生成高频编码数据的步骤;以及复用所述低频编码数据、所述高频编码数据和所述特征数据的步骤。
本发明的解码方法包括:将复用了使用低频编码率进行输入信号的低频部分的编码而生成的低频编码数据、使用高频编码率进行所述输入信号的高频部分的编码而生成的高频编码数据、以及表示分别对所述低频部分和所述高频部分分析所述输入信号的特征的结果的特征数据的复用数据,分离为所述低频编码数据、所述高频编码数据和所述特征数据的步骤;基于作为所述低频编码率和所述高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率和所述高频编码率的组合的步骤;使用所述确定的低频编码率,对所述低频编码数据进行解码的步骤;以及使用所述确定的高频编码率,对所述高频编码数据进行解码的步骤。
发明的效果
根据本发明,在各层具有多个比特率(多速率)的分层编码(可扩展编码、内嵌编码)中,根据输入信号的特征,确定各层的比特率的组合,由此能够实现高音质的编码和解码。
附图说明
图1是表示比特率模式与低频编码率和高频编码率的组合之间的对应关系的图。
图2是表示本发明实施方式1的编码装置的结构的方框图。
图3是表示RTP分组的结构的图。
图4是表示比特率模式、比特率信息、有效载荷大小的对应关系的图。
图5是表示本发明实施方式1的解码装置的结构的方框图。
图6是表示本发明实施方式2的编码装置的结构的方框图。
图7是表示本发明实施方式2的解码装置的结构的方框图。
图8是表示分别对各帧模式调查SNR后的结果的图。
图9是表示分别对各帧模式调查SNR后的结果的图。
图10是表示本发明实施方式3的编码装置的结构的方框图。
图11是表示本发明实施方式3的低频信号编码单元的内部结构的方框图。
图12是表示本发明实施方式3的解码装置的结构的方框图。
图13是表示本发明实施方式3的低频信号解码单元的内部结构的方框图。
图14是表示低频编码率和高频编码率的组合的具体例子的图。
标号说明
100、300、500编码装置
101特征分析单元
102、203、301比特率确定单元
103下采样单元
104、501低频信号编码单元
105高频信号编码单元
106、515复用单元
107RTP分组构成单元
200、400、600解码装置
201RTP分组分离单元
202、611分离单元
204、601低频信号解码单元
205高频信号解码单元
206上采样单元
207解码信号生成部
302冗余比特附加单元
401冗余比特删除单元
511帧模式判定单元
512比特率确定单元
513LPC系数编码单元
514声源编码单元
515复用单元
612比特率确定单元
613LPC系数解码单元
614声源解码单元
615合成滤波器
具体实施方式
以下,参照附图详细地说明本发明的实施方式。
在本实施方式中,以G.718B为例进行说明。G.718B是对SWB(50Hz~14kHz)信号进行编码的ITU-T标准的语音编码方式。
G.718B以24kbit/s或32kbit/s的2种比特率对SWB信号的低频部分(50Hz~7kHz)进行编码。而且,G.718B以4kbit/s、8kbit/s、16kbit/s的3种比特率对SWB信号的高频部分(7kHz~14kHz)进行编码。
如图1所示,G.718B能够以5种比特率模式中的任一种比特率模式对SWB信号进行编码。
此时,28kbit/s模式是保证最低限度质量的最低比特率模式,48kbit/s模式是能够获得最高质量的最高比特率模式。其他的模式为中间比特率模式。以网络的状况作为指标之一,预先确定使用哪种模式。作为网络的状况,可以举出网络的拥挤程度,例如,在网络空闲时选择最高比特率模式,在网络上发生拥塞时选择最低比特率模式,在这些状态的中间状态时选择中间比特率。这样,根据网络的拥挤程度,选择编码单元的比特率模式。
首先,使用图2说明本实施方式的编码装置。
图2是表示本实施方式的编码装置的结构的方框图。图2的编码装置100以规定的时间间隔(帧长度)为单位进行编码处理,生成RTP分组,并将该RTP分组传输至后述的解码装置。在本实施方式中,以帧长度为20ms的情况为例进行说明。
图2的编码装置100包括特征分析单元101、比特率确定单元102、下采样单元103、低频信号编码单元104、高频信号编码单元105、复用单元106和RTP分组构成单元107。
编码装置100中,输入SWB信号(例如,采样率为32kHz)作为输入信号,输入信号提供给特征分析单元101、下采样单元103以及高频信号编码单元105。
特征分析单元101分析输入信号的特征而生成特征数据,并将特征数据提供给比特率确定单元102和复用单元106。特征分析单元101的细节,将在后面描述。
比特率确定单元102基于特征数据,确定低频信号编码单元104的编码比特率(低频编码率)以及高频信号编码单元105的编码比特率(高频编码率)。并且,比特率确定单元102将低频编码率的信息通知至低频信号编码单元104,将高频编码率的信息通知至高频信号编码单元105。比特率取定单元102的细节,将在后面描述。
下采样单元103进行输入信号的下采样,生成WB信号(例如,采样率为16kHz)。WB信号提供给低频信号编码单元104。
低频信号编码单元104基于由比特率确定单元102确定的低频编码率,对输入信号的低频部分(低频频谱部)进行编码,生成低频编码数据。低频编码数据提供给复用单元106。在本实施方式中,假设使用G.718B的情况,因此低频信号编码单元104通过G.718编码方式进行WB信号的编码。
高频信号编码单元105基于由比特率确定单元102确定的高频编码率,对输入信号的高频部分(高频频谱部)进行编码,生成高频编码数据。高频编码数据提供给复用单元106。
复用单元106复用特征数据、低频编码数据及高频编码数据,生成复用数据。复用数据提供给RTP分组构成单元107。
RTP分组构成单元107在复用数据(RTP有效载荷)的开头附加RTP标头来生成RTP分组,将RTP分组传输至未图示的解码单元。
这里,使用图3,说明本发明的各实施方式中所用的RTP关联用语。如图3所示,RTP分组包括RTP标头和RTP有效载荷。RTP标头如IETF(InternetEngineering Task Force:互联网工程任务组)的RFC(Request for Comments:征求修正意见书)3550(非专利文献4)所记载那样,与RTP有效载荷的种类(编解码的种类等)无关,是通用的。RTP有效载荷的格式根据RTP有效载荷的种类而不同。如图3所示,RTP有效载荷由标头部和数据部构成,但有时也根据RTP有效载荷的种类而不存在标头部。这里,以存在标头部的情况为例进行说明。在RTP有效载荷的标头部中,包含用于确定语音及/或运动图像等的编码后的数据的比特数的信息等。RTP有效载荷数据部中包含语音及/或运动图像等的编码后的数据。
在使用G.718B时,作为比特率模式,存在28kbit/s模式、32kbit/s模式、36kbit/s模式、40kbit/s模式、48kbit/s模式的5种模式(参照图1)。并且,在该FT字段中,记录能够确定各模式的信息。
在本实施方式中,分别以0、1、2、3、4的比特率信息(3比特)表示28kbit/s模式、32kbit/s模式、36kbit/s模式、40kbit/s模式、48kbit/s模式,与所选择的比特率模式对应的比特率信息记录于FT字段。
此外,图4中示出了比特率模式、比特率信息、有效载荷的数据部的大小之间的对应关系。例如,在记录于FT字段的比特率信息表示0时,是28kbit/s模式,在帧长度为20ms时,有效载荷的数据部的大小为560bit。同样,比特率信息表示1、2、3、4时,有效载荷的数据部的大小分别为640bit、720bit、800bit、960bit。
以下,说明特征分析单元101和比特率确定单元102的细节。此外,以下,以在G.718B支持的比特率模式中,根据网络的状况等指标,选择了40kbit/s模式的情况为例进行说明。
在选择了40kbit/s模式作为G.718B的比特率模式时,作为低频编码率以及高频编码率的组合,存在{24kbit/s,16kbit/s}或{32kbit/s,8kbit/s}的2种组合。
低频编码率和高频编码率的组合存在多个时,比特率确定单元102分析输入信号的特征,并根据该分析结果,从多个组合的候选中选择一组组合。
作为输入信号的特征,与输入信号的低频部分和高频部分中共同包含的信息量相关联的参数是适当的。即,如果在低频部分和高频部分中共同包含的信息量(输入信号的特征量)比较多地包含在低频部分中,则比特率确定单元102将低频部分的比特率(低频编码率)设定的更高。另外,如果该输入信号的特征量比较多地包含在高频部分中,则比特率确定单元102将高频部分的比特率(高频编码率)设定得更高。
在{24kbit/s,16kbit/s}和{32kbit/s,8kbit/s}中,{32kbit/s,8kbit/s}的低频编码率比{24kbit/s,16kbit/s}高。相反地,{24kbit/s,16kbit/s}的高频编码率比{32kbit/s,8kbit/s}高。
因此,如果输入信号的特征量比较多地包含在低频部分中,则比特率确定单元102选择{32kbit/s,8kbit/s}。另外,如果输入信号的特征量在高频部分中包含得较多,则比特率确定单元102选择{24kbit/s,16kbit/s}。
这样,比特率确定单元102根据输入信号的特征,选择适合于输入信号的比特率的组合。此外,比特率确定单元102以帧为单位进行这样的比特率的切换。由此,对每帧进行适合于输入信号的特征的比特率的选择,能够实现高音质的编码。
在本实施方式中,编码装置100使用信号能量作为与低频部分和高频部分中共同包含的信息量相关联的参数。
即,特征分析单元101求输入信号S(k)的低频部分(低频信号)和高频部分(高频信号)的能量。
接着,特征分析单元101对这些低频信号的能量和高频信号的能量在对数域中的差值与规定的阈值进行比较(参照式(1))。
10 log 10 ( Σ k = 0 FL S ( k ) 2 / FL ) - 10 log 10 ( Σ k = FL FH S ( k ) 2 / ( FH - FL ) ) ≥ TH · · · ( 1 )
其中,FL、FH分别表示输入信号S(k)的低频部分的最高频率、高频部分的最高频率。另外,TH表示规定的阈值。另外,式(1)的第1项表示低频信号SL(k)的能量,式(1)的第2项表示高频信号SH(k)的能量。在式(1)中,分别以分贝值表示低频信号SL(k)和高频信号SH(k)的能量,但不限于此,也可以在线形区域比较两信号的能量。
此外,语音信号和音乐信号本来具有低频信号的能量高于高频信号的的倾向。因此,对于式(1)的阈值TH,使用20~30(dB)是适当的。
特征分析单元101以比较结果为特征数据,将其输出至比特率确定单元102和复用单元106。例如,在式(1)成立,输入信号的能量比较多地包含于低频部分时,特征分析单元101输出0作为特征数据。另外,在式(1)不成立,而输入信号的能量比较多地包含在高频部分中时,特征分析单元101输出1作为特征数据。
比特率确定单元102基于特征数据,确定低频信号编码单元104的编码比特率(低频编码率)以及高频信号编码单元105的比特率(高频编码率)。
具体而言,在来自特征分析单元101的特征数据表示0时,输入信号的特征量比较多地包含于低频部分,因此比特率确定单元102在{24kbit/s,16kbit/s}和{32kbit/s,8kbit/s}中,选择低频编码率较高的{32kbit/s,8kbit/s}。并且,比特率确定单元102将低频编码率设定为32kbit/s,将高频编码率设定为8kbit/s。
另一方面,在来自特征分析单元101的特征数据表示1时,输入信号的特征量比较多地包含在高频部分中,因此比特率确定单元102在{24kbit/s,16kbit/s}和{32kbit/s,8kbit/s}中,选择高频编码率较高的{24kbit/s,16kbit/s}。并且,比特率确定单元102将低频编码率设定为24kbit/s,将高频编码率设定为16kbit/s。
这样,在设定低频编码率和高频编码率后,比特率确定单元102将所设定的低频编码率的信息输出至低频信号编码单元104,将所设定的高频编码率的信息输出至高频信号编码单元105。
接着,使用图5说明本实施方式的解码装置。
图5是表示本实施方式的解码装置的结构的方框图。图5的解码装置200具有RTP分组分离单元201、分离单元202、比特率确定单元203、低频信号解码单元204、高频信号解码单元205、上采样单元206以及解码信号生成部207。
RTP分组分离单元201参照从编码装置100发送来的RTP分组中所包含的RTP有效载荷的标头部的FT字段,基于记载于FT字段的比特率信息,确定RTP有效载荷的数据部(复用数据)的大小。如图4所示,在本实施方式中,比特率信息表示0、1、2、3、4时,有效载荷大小分别为560bit、640bit、720bit、800bit、960bit。这样,RTP分组分离单元201根据FT字段中所记述的比特率信息,确定有效载荷大小,根据该有效载荷大小,从RTP分组提取RTP有效载荷的数据部,并作为复用数据输出至分离单元202。
分离单元202将复用数据分离成特征数据、低频编码数据和高频编码数据,并分别输出至比特率确定单元203、低频信号解码单元204和高频信号解码单元205。
与比特率确定单元102同样,比特率确定单元203基于特征数据,确定低频信号解码单元204的比特率(即,低频编码率)以及高频信号解码单元205的比特率(即,高频编码率)。并且,比特率确定单元203将低频编码率的信息通知至低频信号解码单元204,将高频编码率的信息通知至高频信号解码单元205。
低频信号解码单元204基于由比特率确定单元203确定的低频编码率,对低频编码数据进行解码处理,生成解码低频信号。低频信号解码单元204将解码低频信号输出至上采样单元206。
高频信号解码单元205基于由比特率确定单元203确定的高频编码率,对高频编码数据进行解码处理,生成解码高频信号。高频信号解码单元205将解码高频信号输出至解码信号生成单元207。
上采样单元206对解码低频信号进行上采样,生成例如采样率为32kHz的信号。上采样单元206将上采样后的解码低频信号输出至解码信号生成部207。
解码信号生成单元207对于上采样后的解码低频信号和解码高频信号进行加法处理等,生成例如采样率为32kHz的解码信号,并输出解码信号。
如以上所述,在编码装置100中,特征分析单元101提取输入信号的特征量。并且,比特率确定单元102基于输入信号的特征量,确定进行输入信号的低频部分的编码的低频信号编码单元104的编码率(低频编码率)与进行输入信号的高频部分的编码的高频信号编码单元105的编码率(高频编码率)的组合。
即,特征分析单元101分别对低频部分和高频部分获取输入信号的特征量,分析特征量在低频部分或高频部分的哪一方中包含得多,并输出分析结果(特征数据)。并且,比特率确定单元102基于低频编码率和高频编码率的合计、即根据网络的状况等指标预先设定的总编码率和分析结果,从预先设定的低频编码率和高频编码率的组合的候选中,确定低频信号编码单元104和高频信号编码单元105实际使用的低频编码率和高频编码率的组合。
作为输入信号的特征量,特征分析单元101提取输入信号的低频部分和高频部分的能量。并且,特征分析单元101分析低频部分的能量和高频部分的能量在低频部分或高频部分的哪一方中包含得多。
另外,在解码装置200中,分离单元202将复用低频编码数据、高频编码数据、以及表示分别对低频部分和高频部分获取的输入信号的特征量在低频部分或高频部分中的哪一方中包含得多的分析结果(特征数据)所得的复用数据,分离成低频编码数据、高频编码数据和分析结果(特征数据)。并且,比特率确定单元203基于低频编码率和高频编码率的合计、即根据网络的状况等指标预先设定的总编码率和分析结果(特征数据),从预先设定的低频编码率和高频编码率的组合的候选中,确定低频信号解码单元204和高频信号解码单元205实际使用的低频编码率和高频编码率的组合。
由此,能够根据输入信号的特征,自适应地切换输入信号的低频编码率和高频编码率的组合,从而实现高音质化。
此外,在以上的说明中,说明了特征分析单元101使用输入信号的低频部分(低频信号SL(k))以及输入信号的高频部分(高频信号SH(k))的能量作为输入信号的特征量的情况。在这种情况下,对于如音乐信号那样的高频部分的能量大的信号,能够将高频编码率设定得高,能够以较少的运算量实现高音质化。
但是,输入信号的特征量不限于此,只要是低频信号以及高频信号中共同包含的信息即可。例如,特征分析单元101也可以求LPC(Linear PredictiveCoding:线性预测编码)预测增益作为输入信号的特征量。
这是基于下面的想法。即,在低频信号编码单元104中使用CELP(Code-Excited Linear Prediction,码激励线性预测符号)时,CELP性能大概取决于输入信号是否为适于LPC预测模型的信号。也就是说,在输入信号是不适于LPC预测模型的信号(例如音乐信号)时,即使增大低频信号编码单元104的比特率(低频编码率),低频信号编码单元104的性能提高也有限。与之相比,增大高频信号编码单元105的比特率(高频编码率)时,整体的性能提高,有助于音质改善。反之,输入信号是适于LPC预测模型的信号时(例如语音信号),抑制高频信号编码单元105的比特率(高频编码率),增大低频信号编码单元104的比特率(低频编码率)来实现低频信号编码单元104的性能提高,则整体的音质改善。
基于这种想法,特征分析单元101也可以求输入信号的LPC预测增益作为输入信号的特征量,基于LPC预测增益设定特征数据。
特征分析单元101如下计算LPC预测增益。首先,特征分析单元101使用LPC系数α(i)对输入信号s(n)进行线性预测,计算LPC预测残差信号e(n)。
e ( n ) = s ( n ) - Σ I = 1 NP α ( i ) · s ( n - i ) · · · ( 2 )
其中,NP表示LPC系数的阶数。
接着,特征分析单元101在对数域计算输入信号与LPC预测残差信号的能量比,并将其作为LPC预测增益。LPC预测增益如下式那样计算。
G LPC = 10 log 10 ( Σ n = 0 NF s ( n ) 2 / Σ n = 0 NF e ( n ) 2 ) · · · ( 3 )
其中,GL PC表示LPC预测增益,NF表示帧长度。
然后,特征分析单元101对LPC预测增益和规定的阈值进行比较。并且,将比较结果作为特征数据,输出至比特率确定单元102和复用单元106。例如,在LPC预测增益为规定的阈值以上并且输入信号是适于LPC预测模型的信号时,特征分析单元101输出0作为特征数据。另外,在LPC预测增益小于规定的阈值并且输入信号是不适于LPC预测模型的信号时,特征分析单元101输出1作为特征数据。
由此,在来自特征分析单元101的特征数据表示0时,输入信号是适于LPC预测模型的信号,因此比特率确定单元102选择编码率的多个组合{24kbit/s,16kbit/}、{32kbit/s,8kbit/s}中的、低频编码率较高的组合{32kbit/s,8kbit/s}。也就是说,比特率确定单元102将低频编码率设定为32kbit/s,将高频编码率设定为8kbit/s。
另一方面,在来自特征分析单元101的特征数据表示1时,输入信号是不适于LPC预测模型的信号,因此比特率确定单元102选择编码率的多个组合{24kbit/s,16kbit/s}、{32kbit/s,8kbit/s}中的、高频编码率较高的组合{24kbit/s,16kbit/s}。也就是说,比特率确定单元102将低频编码率设定为24kbit/s,将高频编码率设定为16kbit/s。
这样,通过将LPC预测增益用作输入信号的特征量,能够预测低频信号编码单元104的性能。另外,LPC预测增益的计算所需的运算量较少即可,因此能够实现低运算量。
此外,特征分析单元101可以对于输入信号计算LPC系数,也可以对于低频信号计算LPC系数。在后者的情况下,式(2)中使用低频信号slow(n)代替输入信号s(n),来计算LPC预测增益。另外,作为对于低频信号slow(n)的LPC系数,也可以使用在低频信号编码单元104的编码处理中求得的量化前的LPC系数或量化后的LPC系数。在这种情况下,能够在对输入信号的低频部分进行编码之前确定低频编码率和高频编码率的组合,能够削减运算量。
另外,对包含基于LPC预测增益设定的特征数据的复用数据进行解码时的解码装置的结构与解码装置200的结构相同,因此省略图示以及说明。
(实施方式2)
图6是表示本实施方式的编码装置的结构的方框图。另外,在图6中,对与图2相同的结构部分附加通用的标号并省略其说明。图6的编码装置300采用如下结构,即,相对于图2的编码装置100,具有比特率确定单元301以代替比特率确定单元102,在复用单元106与RTP分组构成单元107之间,进一步追加冗余比特附加单元302。
在本实施方式中,说明在G.718B支持的比特率模式中,根据网络的状况等指标,选择了36kbit/s模式的情况。
在选择了36kbit/s模式作为G.718B的比特率模式时,低频编码率和高频编码率的组合仅有{32kbit/s,4kbit/s}。因此,在实施方式1中,比特率确定单元102将低频编码率设定为32kbit/s,将高频编码率设定为4kbit/s。并且,比特率确定单元102将表示低频编码率和高频编码率分别为32kbit/s和4kbit/s的信息输出至低频信号编码单元104和高频信号编码单元105。
但是,在来自特征分析单元101的特征数据表示1时,即判定为输入信号的高频部分中包含比较多的信息时,对于高频编码率,4kbit/s是不充足的,而使用高于4kbit/s的8kbit/s,可实现高音质化。
因此,在本实施方式中,比特率确定单元301选择整体比特率(总编码率)比预先设定的36kbit/s模式低,并且高频编码率比36kbit/s模式高的模式即32kbit/s模式。
也就是说,比特率确定单元301在来自特征分析单元101的特征数据表示1时,将低频信号编码单元104的比特率(低频编码率)设定为24kbit/s,将高频信号编码单元105的比特率(高频编码率)设定为8kbit/s。并且,比特率确定单元301将表示低频编码率和高频编码率分别为24kbit/s和8kbit/s的信息输出至低频信号编码单元104和高频信号编码单元105。
这样,在本实施方式中,在来自特征分析单元101的特征数据表示1时,即,判定为输入信号的高频部分中包含比较多的信息时,比特率模式设定为32kbit/s模式,其高频编码率为高于4kbit/s的8kbit/s。
另一方面,在比特率模式为36kbit/s模式时,有效载荷大小是720比特(参照图4)。与之相对,在比特率模式为32kbit/s模式时,有效载荷大小是640比特(参照图4)。也就是说,由于比特率模式从36kbit/s模式变更为32kbit/s模式,因而有效载荷大小缩短了相当于比特率的差值4kbit/s的80(=720-640)比特。但是,根据网络的状况等指标,已经选择了36kbit/s作为整体比特率(总编码率),因此需要补充不足的80比特。
因此,在本实施方式中,在复用单元106与RTP分组构成单元107之间设置冗余比特附加单元302,冗余比特附加单元302追加由变更比特率而产生的不足比特。
具体而言,冗余比特附加单元302参照由复用单元106发送来的复用数据,并参照特征数据为0还是1。并且,在特征数据为1时,冗余比特附加单元302对复用数据附加不足的80比特(即4kbit/s)的冗余比特,使整体比特率为36kbit/s。然后,将附加了冗余比特后的复用数据输出至RTP分组构成单元107。
由此获得如下的效果。作为第一效果,比特率确定单元301在实现所设定的整体比特率(总编码率)的低频编码率和高频编码率的组合有多个的情况下,与实施方式1的比特率确定单元102同样,根据输入信号的特征,自适应地切换低频编码率和高频编码率。由此,能够实现高音质化。
作为第二效果,冗余比特附加单元302通过对复用数据附加冗余比特,由此能够锁定整体比特率(总编码率)的种类。由此,能够使RTP有效载荷标头的FT字段所需的比特数减少,能够削减RTP有效载荷标头所需的比特数而实现网络利用的高效率化。
在实施方式1中,如图1所示,比特率模式的选择对象有28kbit/s模式、32kbit/s模式、36kbit/s模式、40kbit/s模式、48kbit/s模式的5种模式。因此,RTP有效载荷标头的FT字段需要3比特。与之相对,在本实施方式中,从选择对象中排除了32kbit/s模式。由此,比特率模式的选择对象限定于28kbit/s模式、36kbit/s模式、40kbit/s模式、48kbit/s模式的4种模式,所以能够将FT字段所需的比特数削减为2比特。
这样,在本实施方式中,能够根据输入信号的特征,自适应地切换低频编码率和高频编码率从而实现高音质化,并且能够抑制FT字段所需的比特数从而实现网络利用的高效率化。
图7是表示本实施方式的解码装置的结构的方框图。另外,在图7中,对与图5相同的结构部分附加通用的标号并省略其说明。图7的解码装置400采用如下的结构,即,相对于图5的解码装置200,在RTP分组分离单元201与分离单元202之间进一步追加了冗余比特删除单元401。此外,以下,以在G.718B支持的比特率模式中,根据网络的状况等指标,选择了36kbit/s模式的情况为例进行说明。
冗余比特删除单元401参照复用数据,并参照特征数据为0还是1。冗余比特删除单元401在特征数据为1时,判定为复用数据中附加了80比特(即4kbit/s)的冗余比特。因此,在特征数据为1时,冗余比特删除单元401从复用数据中删除冗余比特,将冗长比特删除后的复用数据输出至分离单元202。另一方面,在特征数据为0时,复用数据中不存在冗余比特,所以冗余比特删除单元401将复用数据直接输出至分离单元202。
此外,以后的动作与实施方式1相同,因此省略说明。
如以上所述,在本实施方式中,比特率确定单元301对编码率的组合的候选进行限定,并基于特征分析单元101的分析结果(特征数据),从限定后的组合的候选中确定低频信号编码单元104和高频信号编码单元105实际使用的编码率的组合。并且,冗余比特附加单元302将与确定的组合的总编码率和预先设定的总编码率的差值相应的冗余比特附加到复用数据。并且,冗余比特删除单元401删除与确定的组合的总编码率和预先设定的总编码率的差值相应的、附加于复用数据的冗余比特。由此,能够锁定整体比特率(总编码率)的种类,能够使RTP有效载荷标头的FT字段所需的比特数减少。其结果,能够削减RTP有效载荷标头所需的比特数,从而实现网络利用的高效率。
(实施方式3)
以下,使用附图说明实施方式3。本实施方式的特征在于,利用从编码装置向解码装置传输的编码数据中包含的信息来确定低频编码率和高频编码率。即,基于能够在编码装置和解码装置两者中利用的信息确定比特率。根据该特征,无需对确定比特率所需的特征数据的信息进行编码,所以能够削减信息量。
这里说明,假设低频信号的编码中使用G.718的情况,使用表示帧中所包含的信号的特征的帧模式来确定比特率的组合的结构。
在G.718中,对每帧分析低频信号,并分类为清音(Unvoice(UC))、浊音(Voice(VC))、过度音(Transition(TC))、普通音(Generic(GC))的4种帧模式。并且,进行适于各帧模式的LPC系数的量化及声源信息的编码,谋求音质的提高。此时,帧模式包含在传输至解码单元的编码数据中。
图8和图9示出了在使用G.718对低频信号进行编码时,对每个帧模式调查SNR(信号噪声比)后的结果。图8是使用约24秒的语音信号时的图,图9是使用45秒的音乐信号时的图。在图8和图9中,横轴是SNR,纵轴是到了该SNR时的帧数。
SNR可以视为表示编码性能的指标。在SNR高时,编码引起的失真被抑制得小,听觉上音质高。反之,在SNR低时,残留较大的编码失真,听觉上音质低。
由图8和图9可知,在帧模式和SNR之间有较强的相关性。即,分类为UC的帧的SNR较低的情况多,除此之外的、被分类为VC、TC、GC的帧的SNR较高的情况多。
因此,在被分类为UC的帧时,低频信号的SNR低,所以将低频编码率设定得高,相应地将高频编码率设定得低。反之,在被分类为VC、TC、GC的帧中,低频信号的SNR高,所以将低频编码率设定得低,相应地将高频编码率设定得高。
此外,这里,以在UC时和VC、TC、GC时确定低频编码率和高频编码率的方法为例进行了说明,但本发明不限定于此,也可以是对各帧模式选择不同比特率的组合的结构。
这样,通过使用帧模式来决定低频编码率和高频编码率,能够不增加信息量而恰当地确定低频编码率和高频编码率,并进行编码和解码。由此,不对表示比特率的组合的信息进行编码,就能够提高音质。
接着,使用图10和图11说明本实施方式的编码装置的结构。另外,在图10中,对于与图2同一名称的功能块省略说明。图10所示的编码装置500与图2所示的编码装置100相比较,没有特征分析单元101和比特率确定单元102。此外,编码装置500的低频信号编码单元501的功能与编码装置100的低频信号编码单元104的功能不同。
低频信号编码单元501使用输入信号的低频部分的编码时所使用的编码信息,确定低频编码率和高频编码率,并将高频编码率的信息输出至高频信号编码单元105。低频信号编码单元501基于低频编码率,对输入信号的低频部分进行编码,生成低频编码数据。低频信号编码单元501将低频编码数据输出至复用单元106。
图11是表示低频信号编码单元501的内部结构的方框图。这里说明使用帧模式作为编码信息来确定低频编码率和高频编码率的结构。
低频信号编码单元501主要由帧模式判定单元511、比特率确定单元512、LPC系数编码单元513、声源编码单元514和复用单元515构成。在低频信号编码单元501中,下采样单元103的输出信号被输入至帧模式判定单元511、LPC系数编码单元513和音源编码单元514。
帧模式判定单元511对下采样单元103的输出信号进行分析,对每帧判定属于清音(UC)、浊音(VC)、过渡音(TC)、普通音(GC)中的哪种。作为分析的方法,使用信号能量、频谱斜率、短期预测增益、长期预测增益等。帧模式判定单元511将表示判定结果的帧模式输出至比特率确定单元512、LPC系数编码单元513、声源编码单元514和复用单元515。
比特率确定单元512基于帧模式决定低频编码率和高频编码率。根据在图8、图9中说明的帧模式与SNR的关系,在选择了UC的帧中,比特率确定单元512将低频编码率设定得高,相应地将高频编码率设定得低。低频信号编码单元501中使用G.718,在比特率模式为40kbit/s时,低频编码率和高频编码率的组合设为{32kbit/s,8kbit/s}。在选择了VC、TC、GC的帧中,将低频编码率设定得低,相应地将高频编码率设定得高。低频信号编码单元501中使用G.718,在比特率模式为40kbit/s时,低频编码率和高频编码率的组合设为{24kbit/s,16kbit/s}。比特率确定单元512将所决定的低频编码率的信息输出至LPC系数编码单元513和声源编码单元514,将高频编码率的信息输出至高频信号编码单元105。
LPC系数编码单元513基于预先确定的多种比特率,进行LPC系数的编码。LPC系数编码单元513对于从下采样单元103输出的下采样后的输入信号进行LPC分析,求LPC系数。该LPC系数被变换为适于量化的参数(例如线性预测对(LSP))。LPC系数编码单元513基于帧模式和低频编码率的信息进行参数的量化,生成LPC系数编码数据。LPC系数编码单元513将LPC系数编码数据输出至复用单元515。另外,LPC系数编码单元513对LPC系数编码数据进行解码,求解码LPC系数,并输出至声源编码单元514。
声源编码单元514进行基于预先确定的多种比特率的音源信息的编码。声源编码单元514基于解码LPC系数、帧模式以及低频编码率的信息,对下采样后的输入信号进行声源信息的编码,生成声源编码数据。声源编码单元514将声源编码数据输出至复用单元515。
复用单元515将帧模式、LPC系数编码数据和声源编码数据进行复用来生成低频编码数据。复用单元515将低频编码数据输出至复用单元106。此外,图11的复用单元515不是必须的结构元素,也可以将帧模式判定信息、LPC系数编码数据以及声源编码数据作为低频编码数据,直接输出至复用单元106。此时,无需图11的复用单元515。
接着,使用图12和图13说明本实施方式的解码装置的结构。此外,在图12所示的解码装置600中,省略说明与图5所示的解码装置200同一名称的功能块。图12的解码装置600与图5的解码装置200相比较,没有比特率确定单元203。而且,解码装置600的低频信号解码单元601的功能与解码装置200的低频信号解码单元204不同。
低频信号解码单元601使用从分离单元202输出的低频编码数据中所包含的信息,确定低频信号解码单元601的比特率(即,低频编码率)和高频信号解码单元205的比特率(即,高频编码率),将高频编码率的信息输出至高频信号解码单元205。低频信号解码单元601基于低频编码率,对低频编码数据进行解码处理,生成解码低频信号。低频信号解码单元601将解码低频信号输出至上采样单元206。
图13是表示低频信号解码单元601的内部结构的方框图。低频信号解码单元601主要由分离单元611、比特率确定单元612、LPC系数解码单元613、声源解码单元614和合成滤波器615构成。
分离单元611将低频编码数据分离为帧模式、LPC系数编码数据和声源编码数据。
比特率确定单元612基于帧模式,确定低频编码率和高频编码率。根据在图8、图9中说明的帧模式和SNR之间的关系,在选择了UC的帧中,将低频编码率设定得高,相应地将高频编码率设定得低。低频信号解码单元601中使用G.718,在比特率模式为40kbit/s时,低频编码率和高频编码率的组合设为{32kbit/s,8kbit/s}。在选择了VC、TC、GC的帧中,将低频编码率设定得低,相应地将高频编码率设定得高。低频信号解码单元601中使用G.718,在比特率模式为40kbit/s时,低频编码率和高频编码率的组合设为{24kbit/s,16kbit/s}。比特率确定单元612将确定的低频编码率的信息输出至LPC系数解码单元613和声源解码单元614,将高频编码率的信息输出至高频信号解码单元205。
LPC系数解码单元613进行基于预先确定的多种比特率的LPC系数的解码。LPC系数解码单元613基于LPC系数编码数据、帧模式和低频编码率的信息,进行LPC系数的解码处理,生成解码LPC系数。LPC系数解码单元613将解码LPC系数输出至合成滤波器615。
声源解码单元614进行基于预先确定的多种比特率的音源信号的解码。声源解码单元614使用帧模式和低频编码率的信息,对于声源编码数据进行解码处理,生成声源信号。声源解码单元614将声源信号输出至合成滤波器615。
合成滤波器615基于解码LPC系数构成合成滤波器。并且,合成滤波器615使声源信号通过该合成滤波器而进行滤波处理,生成解码低频信号。合成滤波器615将解码低频信号输出至上采样单元206。此外,分离单元611不是必须的结构元素,也可以将帧模式、LPC系数编码数据、声源编码数据从图12的分离单元202直接输出至比特率确定单元612、LPC系数解码单元613、声源解码单元614。此时,可以省去分离单元611。
此外,在本发明中,也可以是如下的结构,即,在比特率的确定时使用LPC系数、基音周期、基音增益等编码信息以代替帧模式。
比特率的确定中使用LPC系数的量化信息时,根据量化后的LPC系数计算频谱包络,根据频谱包络所表示的共振峰的大小来决定比特率。作为其具体例,对预先确定的每个子带计算频谱包络的能量,检测该能量达到最大的子带和达到最小的子带,求子带能量的最小值相对最大值之比。将该比与阈值进行比较,在该比超过阈值时,可认为LPC系数高精度地表示输入信号的共振峰,所以选择低频编码率低且高频编码率高的比特率的组合。反之,在该比为阈值以下时,选择低频编码率高且高频编码率低的比特率的组合。
在比特率的确定中使用基音周期时,在基音周期的时间性变化量小于阈值的情况下,可以认为高效率地进行通过自适应码本或基音滤波器的预测。因此,选择低频编码率低且高频编码率高的比特率的组合。反之,在基音周期的时间性变化量为阈值以上时,选择低频编码率高且高频编码率低的比特率的组合。
在比特率的确定中使用基音增益时,在基音增益的大小大于阈值的情况下,可以认为高效率地进行通过自适应码本或基音滤波器的预测。因此,选择低频编码率低且高频编码率高的比特率的组合。反之,在基音周期的时间性变化量为阈值以上时,选择低频编码率高且高频编码率低的比特率的组合。
以上说明了本发明的各实施方式。
此外,在以上的说明中,以G.718B为例进行了说明,但本发明不限于此。如果是分层编码且各层中的至少一层是多速率的编码方式,则能够共享本发明的效果。在各实施方式中,使用多速率的种类较少的G.718B进行了说明,因此仅在整体比特率为40kbit/s时,获得了基于在实施方式1中说明的低频编码率和高频编码率的组合的切换的本发明的效果。但是,在多速率的种类较多时,相对于同一整体比特率存在多个低频编码率和高频编码率的组合。在这种情况下,能够更大地获得本发明的效果。
图14是表示低频编码率和高频编码率的组合的具体例的图。在图14中,示出了低频编码率从8kbit/s起直到20kbit/s为止每2kbit/s得到支持,并且高频编码率从4kbit/s起直到16kbit/s为止每2kbit/s得到支持的例子。在图14中,例如,在整体比特率设定为24kbit/s时,低频编码率和高频编码率的组合存在{20,4}、{18,6}、{16,8}、{14,10}、{12,12}、{10,14}、{8,16}的7种组合。这样,即使是存在多于2种的组合的结构,也能够适用本发明。
另外,在以上的说明中,以生成对于信号频带具有可扩展性的复用数据的编码方式为例进行了说明,但本发明不限于此。对于生成信号频带恒定且对于比特率具有可扩展性的复用数据的编码方式,也能够享受本发明的效果。
另外,在以上的说明中,说明了基于输入信号的特征确定低频编码率和高频编码率的方法,但不限于此。也可以基于低频信号编码单元104(501)以及高频信号编码单元105的运算量,确定低频编码率和高频编码率。这在例如各实施方式中说明的编码装置和解码装置适用于通过电池动作的移动电话或移动终端时很有效。具体而言,在电池的余量变少时,选择运算量少的编码方式动作的低频编码率或高频编码率,由此能够抑制电池电力的消耗。这样,通过基于运算量确定编码率,能够实现移动电话或移动终端长时间工作。
另外,本发明也可以是如下的结构:限制低频编码率而不使其小于规定的值。由此避免解码低频信号的音质极度恶化,能够防止音质的降低。
另外,也可以是如下的结构:进行限制而不使低频编码率和高频编码率的时间性变化太大。例如,使帧间的比特率的变化量最大不大于2kbit/s。若利用图14的例说明,在整体比特率设定为24kbit/s并且需要使低频编码率和高频编码率的组合从{20,4}向{8,16}变化时,在帧间产生高达12kbit/s的比特率的变化。为了避免产生这种急剧的比特率组合的变化,例如以如从{20,4}到{18,6}、从{18,6}到{16,8}这种每前进一帧则比特率变化2kbit/s的方式,对比特率的变化量设置限制。此时,比特率的组合最终成为{8,16}为止,需要6帧的时间。这样,通过以比特率逐渐变化的方式设置限制,能够使由急剧的比特率的变化引起的帧间的音质的变化为最小限度,减轻音质劣化。
另外,本发明不限于上述实施方式,能够进行各种变更来实施。
另外,在上述实施方式中,以由硬件构成本发明的情况为例进行了说明,但本发明在硬件的协作下,也可以由软件实现。
另外,用于上述实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些功能块既可以被单独地集成为单芯片,也可以包含一部分或全部地被集成为单芯片。虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以使用可在LSI制造后编程的FPGA(Field ProgrammableGate Array:现场可编程门阵列),或者可重构LSI内部的电路单元的连接和设定的可重构处理器。
再者,随着半导体的技术进步或随之派生的其它技术的出现,如果出现能够替代LSI的集成电路化的新技术,当然可利用该新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
2010年12月14日提交的日本专利申请特愿第2010-278228号及2011年4月6日提交的日本专利申请特愿第2011-084440号所包含的说明书、说明书附图以及说明书摘要的公开内容全部引用于本申请。
工业实用性
本发明的编码装置、解码装置以及编码方法、解码方法作为进行语音信号及/或音乐信号的编码、解码的编码装置等是有用的。

Claims (22)

1.编码装置,包括:
分析单元,分别对低频部分和高频部分分析输入信号的特征,生成表示分析结果的特征数据;
确定单元,基于作为低频编码率和高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率以及所述高频编码率的组合;
低频编码单元,使用所述确定的低频编码率进行所述输入信号的低频部分的编码,生成低频编码数据;
高频编码单元,使用所述确定的高频编码率进行所述输入信号的高频部分的编码,生成高频编码数据;以及
复用单元,复用所述低频编码数据、所述高频编码数据和所述特征数据。
2.如权利要求1所述的编码装置,
所述分析单元将所述低频部分的能量和所述高频部分的能量之间的差值与阈值的比较结果作为所述特征数据。
3.如权利要求1所述的编码装置,
所述分析单元将所述输入信号与LPC预测残差信号的能量比即LPC预测增益和阈值的比较结果作为所述特征数据。
4.如权利要求1所述的编码装置,
所述确定单元限定所述组合的候选,并从限定后的组合的候选中确定实际地使用的组合,
所述编码装置还包括附加单元,该附加单元对所述复用数据附加与所述确定的组合的总编码率和所述预先设定的总编码率之间的差值相应的冗余比特。
5.如权利要求4所述的编码装置,
在所述特征数据表示所述输入信号的低频部分和高频部分中共同包含的信息量即特征量在所述高频部分中包含得多时,所述确定单元从总编码率比所述预先设定的总编码率低的组合的候选中,确定所述高频编码率比所述低频编码率高的组合作为实际地使用的组合。
6.编码装置,包括:
低频编码单元,基于作为低频编码率和高频编码率的合计的预先设定的总编码率以及输入信号的低频部分的编码时使用的编码信息,确定所述低频编码率以及所述高频编码率的组合,使用所述确定的低频编码率进行输入信号的低频部分的编码,生成低频编码数据;
高频编码单元,使用所述确定的高频编码率进行所述输入信号的高频部分的编码,生成高频编码数据;以及
复用单元,复用所述低频编码数据、所述高频编码数据和所述特征数据。
7.如权利要求6所述的编码装置,
所述编码信息是表示输入信号的低频部分属于清音(UC)、浊音(VC)、过渡音(TC)、普通音(GC)中的哪一个的帧模式。
8.如权利要求6所述的编码装置,
所述编码信息是线性预测编码系数。
9.如权利要求6所述的编码装置,
所述编码信息是基音周期。
10.如权利要求6所述的编码装置,
所述编码信息是基音增益。
11.移动台装置,包括权利要求1所述的编码装置。
12.基站装置,包括权利要求1所述的编码装置。
13.解码装置,包括:
分离单元,将复用了使用低频编码率进行输入信号的低频部分的编码而生成的低频编码数据、使用高频编码率进行所述输入信号的高频部分的编码而生成的高频编码数据、以及表示分别对所述低频部分和所述高频部分分析所述输入信号的特征的结果的特征数据的复用数据,分离为所述低频编码数据、所述高频编码数据和所述特征数据;
确定单元,基于作为所述低频编码率和所述高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率和所述高频编码率的组合;
低频解码单元,使用所述确定的低频编码率,对所述低频编码数据进行解码;以及
高频解码单元,使用所述确定的高频编码率,对所述高频编码数据进行解码。
14.如权利要求13所述的解码装置,
所述确定单元限定所述组合的候选,并从限定后的所述组合的候选中确定实际地使用的组合,
所述解码装置还包括删除单元,根据所述确定的组合的总编码率和所述预先设定的总编码率之间的差值,删除被附加在所述复用数据中的冗余比特。
15.如权利要求14所述的解码装置,
在所述特征数据表示所述输入信号的低频部分和高频部分中共同包含的信息量即特征量在所述高频部分中包含得多时,所述确定单元从总编码率比预先设定的总编码率低的组合的候选中,确定所述高频编码率比所述低频编码率高的组合作为实际地使用的组合。
16.解码装置,包括:
分离单元,将复用了使用低频编码率进行输入信号的低频部分的编码而生成的低频编码数据、使用高频编码率进行所述输入信号的高频部分的编码而生成的高频编码数据、以及输入信号的低频部分的编码时使用的编码信息的复用数据,分离为所述低频编码数据、所述高频编码数据和所述编码信息;
低频解码单元,基于作为所述低频编码率和所述高频编码率的合计的预先设定的总编码率以及所述编码信息,确定所述低频编码率和所述高频编码率的组合,并使用所述确定的低频编码率,对所述低频编码数据进行解码;以及
高频解码单元,使用所述确定的高频编码率,对所述高频编码数据进行解码。
17.移动台装置,包括权利要求13所述的解码装置。
18.基站装置,包括权利要求13所述的解码装置。
19.编码方法,包括:
分别对低频部分和高频部分分析输入信号的特征,生成表示分析结果的特征数据的步骤;
基于作为低频编码率和高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率和所述高频编码率的组合的步骤;
使用所述确定的低频编码率进行所述输入信号的低频部分的编码,生成低频编码数据的步骤;
使用所述确定的高频编码率进行所述输入信号的高频部分的编码,生成高频编码数据的步骤;以及
复用所述低频编码数据、所述高频编码数据和所述特征数据的步骤。
20.编码方法,包括:
基于作为低频编码率和高频编码率的合计的预先设定的总编码率以及输入信号的低频部分的编码时使用的编码信息,确定所述低频编码率和所述高频编码率的组合,使用所述确定的低频编码率进行输入信号的低频部分的编码,生成低频编码数据的步骤;
使用所述确定的高频编码率进行所述输入信号的高频部分的编码,生成高频编码数据的步骤;以及
复用所述低频编码数据、所述高频编码数据和所述特征数据的步骤。
21.解码方法,包括:
将复用了使用低频编码率进行输入信号的低频部分的编码而生成的低频编码数据、使用高频编码率进行所述输入信号的高频部分的编码而生成的高频编码数据、以及表示分别对所述低频部分和所述高频部分分析所述输入信号的特征的结果的特征数据的复用数据,分离为所述低频编码数据、所述高频编码数据和所述特征数据的步骤;
基于作为所述低频编码率和所述高频编码率的合计的预先设定的总编码率以及所述特征数据,确定所述低频编码率和所述高频编码率的组合的步骤;
使用所述确定的低频编码率,对所述低频编码数据进行解码的步骤;以及
使用所述确定的高频编码率,对所述高频编码数据进行解码的步骤。
22.解码方法,包括:
将复用了使用低频编码率进行输入信号的低频部分的编码而生成的低频编码数据、使用高频编码率进行所述输入信号的高频部分的编码而生成的高频编码数据、以及输入信号的低频部分的编码时使用的编码信息的复用数据,分离为所述低频编码数据、所述高频编码数据和所述编码信息的步骤;
基于作为所述低频编码率和所述高频编码率的合计的预先设定的总编码率以及所述编码信息,确定所述低频编码率和所述高频编码率的组合,并利用所述确定的低频编码率,对所述低频编码数据进行解码的步骤;以及
使用所述确定的高频编码率,对所述高频编码数据进行解码的步骤。
CN201180034549.7A 2010-12-14 2011-11-08 编码装置、解码装置和编码方法、解码方法 Expired - Fee Related CN102985969B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2010-278228 2010-12-14
JP2010278228 2010-12-14
JP2011084440 2011-04-06
JP2011-084440 2011-04-06
PCT/JP2011/006236 WO2012081166A1 (ja) 2010-12-14 2011-11-08 符号化装置、復号装置およびそれらの方法

Publications (2)

Publication Number Publication Date
CN102985969A true CN102985969A (zh) 2013-03-20
CN102985969B CN102985969B (zh) 2014-12-10

Family

ID=46244286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180034549.7A Expired - Fee Related CN102985969B (zh) 2010-12-14 2011-11-08 编码装置、解码装置和编码方法、解码方法

Country Status (4)

Country Link
US (1) US9373332B2 (zh)
JP (1) JP5706445B2 (zh)
CN (1) CN102985969B (zh)
WO (1) WO2012081166A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033982A (zh) * 2015-03-13 2016-10-19 中国移动通信集团公司 一种实现超宽带语音互通的方法、装置和终端
CN106663435A (zh) * 2014-09-08 2017-05-10 索尼公司 编码装置和方法、解码装置和方法、以及程序

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2976768A4 (en) * 2013-03-20 2016-11-09 Nokia Technologies Oy AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
KR102244612B1 (ko) 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
CN113259059B (zh) * 2014-04-21 2024-02-09 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
CN113259058A (zh) * 2014-11-05 2021-08-13 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
US10061554B2 (en) * 2015-03-10 2018-08-28 GM Global Technology Operations LLC Adjusting audio sampling used with wideband audio
GB2559200A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
EP4055594A4 (en) * 2019-11-29 2022-12-28 Samsung Electronics Co., Ltd. METHOD, DEVICE AND ELECTRONIC APPARATUS FOR TRANSMITTING AND RECEIVING A VOICE SIGNAL

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1247415A (zh) * 1998-06-15 2000-03-15 松下电器产业株式会社 声音编码方式、声音编码装置、以及数据记录媒体
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2005328542A (ja) * 2004-05-12 2005-11-24 Samsung Electronics Co Ltd 複数のルックアップテーブルを利用したデジタル信号の符号化方法、デジタル信号の符号化装置及び複数のルックアップテーブル生成方法
CN1945695A (zh) * 2005-10-04 2007-04-11 三星电子株式会社 对音频信号编码/解码的方法和设备
CN101197576A (zh) * 2006-12-07 2008-06-11 上海杰得微电子有限公司 一种音频信号编码、解码方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700820A (en) * 1966-04-15 1972-10-24 Ibm Adaptive digital communication system
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
JP3684751B2 (ja) * 1997-03-28 2005-08-17 ソニー株式会社 信号符号化方法及び装置
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
JP3758028B2 (ja) * 2001-05-17 2006-03-22 ソニー株式会社 高能率符号化方法、高能率符号化装置、符号化データ復号方法、符号化データ復号装置、データ伝送方法、データ伝送装置、付加情報付加方法および付加情報付加装置
JP2005215502A (ja) 2004-01-30 2005-08-11 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、およびこれらの方法
US20070094035A1 (en) 2005-10-21 2007-04-26 Nokia Corporation Audio coding
JP2007258841A (ja) * 2006-03-20 2007-10-04 Ntt Docomo Inc チャネル符号化及び復号化を行うための装置及び方法
US20100280833A1 (en) 2007-12-27 2010-11-04 Panasonic Corporation Encoding device, decoding device, and method thereof
JP5448850B2 (ja) 2008-01-25 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
JP2009288560A (ja) 2008-05-29 2009-12-10 Sanyo Electric Co Ltd 音声符号化装置、音声復号装置、及びプログラム
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1247415A (zh) * 1998-06-15 2000-03-15 松下电器产业株式会社 声音编码方式、声音编码装置、以及数据记录媒体
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2005328542A (ja) * 2004-05-12 2005-11-24 Samsung Electronics Co Ltd 複数のルックアップテーブルを利用したデジタル信号の符号化方法、デジタル信号の符号化装置及び複数のルックアップテーブル生成方法
CN1945695A (zh) * 2005-10-04 2007-04-11 三星电子株式会社 对音频信号编码/解码的方法和设备
CN101197576A (zh) * 2006-12-07 2008-06-11 上海杰得微电子有限公司 一种音频信号编码、解码方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663435A (zh) * 2014-09-08 2017-05-10 索尼公司 编码装置和方法、解码装置和方法、以及程序
CN106033982A (zh) * 2015-03-13 2016-10-19 中国移动通信集团公司 一种实现超宽带语音互通的方法、装置和终端
CN106033982B (zh) * 2015-03-13 2018-10-12 中国移动通信集团公司 一种实现超宽带语音互通的方法、装置和终端

Also Published As

Publication number Publication date
CN102985969B (zh) 2014-12-10
US20130132099A1 (en) 2013-05-23
JP5706445B2 (ja) 2015-04-22
JPWO2012081166A1 (ja) 2014-05-22
WO2012081166A1 (ja) 2012-06-21
US9373332B2 (en) 2016-06-21

Similar Documents

Publication Publication Date Title
CN102985969B (zh) 编码装置、解码装置和编码方法、解码方法
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
EP1719119B1 (en) Classification of audio signals
US7613606B2 (en) Speech codecs
CN101512639A (zh) 用于语音/音频发送器和接收器的方法和设备
SG194580A1 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
KR20070001276A (ko) 신호 인코딩
CN1470052A (zh) 宽带语音编解码器中的高频增强层编码
CN103620676A (zh) 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质
JPH08263099A (ja) 符号化装置
US7634402B2 (en) Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof
US20200227061A1 (en) Signal codec device and method in communication system
JP2005241761A (ja) 通信装置及び信号符号化/復号化方法
CN101281748B (zh) 用编码索引实现的空缺子带填充方法及编码索引生成方法
CN1290077C (zh) 用来对相位谱信息进行子抽样的方法和设备
US8380495B2 (en) Transcoding method, transcoding device and communication apparatus used between discontinuous transmission
CN1244090C (zh) 具备背景噪声再现的语音编码
KR20170003596A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
CN101170590B (zh) 一种背景噪声的编码码流传输的方法、系统及装置
Bhatt Implementation and Overall Performance Evaluation of CELP based GSM AMR NB coder over ABE
KR100341398B1 (ko) 씨이엘피형 보코더의 코드북 검색 방법
Sun et al. Speech compression
Chibani Increasing the robustness of CELP speech codecs against packet losses.
JPH09269798A (ja) 音声符号化方法および音声復号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140717

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140717

Address after: California, USA

Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Applicant before: Matsushita Electric Industrial Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170519

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141210