CN102985968A - 处理音频信号的方法和装置 - Google Patents

处理音频信号的方法和装置 Download PDF

Info

Publication number
CN102985968A
CN102985968A CN2011800332092A CN201180033209A CN102985968A CN 102985968 A CN102985968 A CN 102985968A CN 2011800332092 A CN2011800332092 A CN 2011800332092A CN 201180033209 A CN201180033209 A CN 201180033209A CN 102985968 A CN102985968 A CN 102985968A
Authority
CN
China
Prior art keywords
frame
bandwidth
present frame
type
quiet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800332092A
Other languages
English (en)
Other versions
CN102985968B (zh
Inventor
丁奎赫
田惠晶
金洛榕
李炳锡
姜仁圭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN102985968A publication Critical patent/CN102985968A/zh
Application granted granted Critical
Publication of CN102985968B publication Critical patent/CN102985968B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

本发明涉及一种处理音频信号的方法,并且该方法包括步骤:接收音频信号;通过接收用于指示编译模式的网络信息来确定与当前帧对应的编译模式;根据所述编译模式来编码所述音频信号的当前帧;以及,发送所述编码的当前帧,其中,通过带宽和比特率的组合来确定所述编译模式,并且所述带宽包括在窄带、宽带和超宽带中的两个或更多频带。

Description

处理音频信号的方法和装置
技术领域
本发明涉及能够编码或解码音频信号的音频信号处理方法和音频信号处理装置
背景技术
通常,对于包含强语音信号特性的音频信号,执行线性预测编译(LPC)。通过线性预测编译产生的线性预测系数被发送到解码器,并且解码器通过使用该系数的线性预测合成来重新构造音频信号。
发明内容
【技术问题】
通常,音频信号包括各种频率的信号。作为这样的信号的示例,人类可听频率的范围是从20Hz至20kHz,而人的语音频率范围为从200Hz至3kHz。输入音频信号可以不仅包括人类语音的频带,而且包括人类语言极少达到的超过7kHz的高频区域分量。如此一来,如果将适合于窄带(大约4kHz或以下)的编译方案用于宽带(大约8kHz或以下)或超宽带(大约16kHz或以下),则语音质量可能变差。
【技术解决方案】
本发明的一个目的可以通过下述方式被实现:提供一种音频信号处理方法和装置,用于以根据网络状态(和音频信号特性)对于各个帧切换编译模式的方式来应用编译模式。
为了向各个带宽应用适当的编译方案,本发明的另一个目的是提供一种音频信号处理方法和一种音频信号处理装置,用于通过切换用于各个帧的编译模式而根据用于各个帧的带宽来切换编译方案。
本发明的另一个目的是提供一种音频信号处理方法和一种音频信号处理装置,用于除了根据用于各个帧的带宽而切换编译方案之外应用用于各个帧的各种比特率。
本发明的另一个目的是提供一种音频信号处理方法和一种音频信号处理装置,用于在当前帧对应于语音不活动部分时基于带宽来产生相应类型静默帧并且将其发送。
本发明的另一个目的是提供一种音频信号处理方法和一种音频信号处理装置,用于在当前帧对应于语音不活动部分时与带宽无关地产生统一静默帧并且将其发送。
本发明的另一个目的是提供一种音频信号处理方法和一种音频信号处理装置,如果当前帧的带宽与在前帧的带宽不同,则利用与在前帧相同的带宽来平滑当前帧。
【有益效果】
本发明提供了下面的效果和优点。
首先,通过根据来自网络的反馈信息切换用于各个帧的编译模式,可以根据网络的状态(和接收者的终端)来自适应地切换编译方案,使得可以执行适合于通信环境的编码,并且可以以相对低的比特率向发送侧执行发送。
第二,通过除了网络信息之外考虑音频信号特性来切换用于各个帧的编译模式,可以在网络状态允许的程度上自适应地改变带宽或比特率。
第三,在语音活动部分中,通过基于网络信息选择处于或低于可允许比特率的其他带宽而执行切换,可以向接收侧提供良好质量的音频信号。
第四,当在语音活动部分中切换具有相同或不同比特率的带宽时,可以通过在发送侧处基于在前帧的带宽执行平滑来防止因为带宽改变导致的不连续。
第五,在语音不活动部分中,根据(一个或多个)在前帧的(一个或多个)带宽来确定用于当前帧的静默帧的类型,因此可以防止因为带宽切换导致的失真。
第六,在语音不活动部分中,通过应用与在前或当前帧无关的同一静默帧,可以减少在发送时用于控制的功率、资源和模式的数量,可以防止因为带宽切换导致的失真。
第七,如果在从语音活动部分向语音不活动部分的过渡中改变带宽,则通过在接收端处基于在前帧对于当前帧的带宽执行平滑,可以防止因为带宽改变导致的不连续。
附图说明
图1是图示根据本发明的实施例的音频信号处理装置的编码器的配置的框图;
图2是图示包括窄带(NB)编译方案、宽带(WB)编译方案和超宽带(SWB)编译方案的示例的图;
图3是图示在图1中的模式确定单元110的第一示例的图;
图4是图示在图1中的模式确定单元110的第二示例的图;
图5是图示多个编译模式的示例的图;
图6是图示对于各个帧切换的编译模式的示例的图形;
图7是利用带宽表示在图6中的图形的垂直轴的图形;
图8是利用比特率表示在图6中的图形的垂直轴的图形;
图9是概念地图示核心层和增强层的图;
图10是在增强层的比特可变的情况下的图形;
图11是核心层的比特可变的情况的图形;
图12是核心层和增强层的比特可变的情况的图形;
图13是图示静默帧产生单元140的第一示例的图;
图14是图示静默帧出现的过程的图;
图15是图示相关类型的静默帧的语法的示例的图;
图16是图示静默帧产生单元140的第二示例的图;
图17是图示统一静默帧的语法的示例的图;
图18是图示静默帧产生单元140的第三示例的图;
图19是图示第三示例的静默帧产生单元140的图;
图20是示意地图示根据本发明的实施例的解码器的框图;
图21是图示根据本发明的实施例的解码过程的流程图;
图22是示意地图示根据本发明的替代实施例的编码器和解码器的配置的框图;
图23是图示根据替代实施例的解码过程的图;
图24是图示本发明的解码装置的转换单元的框图;
图25是示意地图示实现了根据本发明的一个示例性实施例的音频信号处理装置的产品的配置的框图;
图26是图示实现了根据示例性实施例的音频信号处理装置的产品之间的关系的图;以及
图27是示意地图示实现了根据示例性实施例的音频信号处理装置的移动终端的配置的框图。
具体实施方式
为了实现这样的目的,根据本发明的一种音频信号处理方法包括:接收音频信号;接收指示编译模式的网络信息,并且确定与当前帧对应的编译模式;根据该编译模式来编码该音频信号的该当前帧;并且,发送该编码的当前帧。基于带宽和比特率的组合来确定该编译模式,并且,该带宽包括窄带、宽带和超宽带的至少两个。
根据本发明,该比特率可以包括用于该带宽的每一个的两个或更多的预定支持比特率。
根据本发明,该超宽带是覆盖该宽带和该窄带的频带,以及该宽带是覆盖该窄带的频带。
根据本发明,该方法可以进一步包括:通过分析该音频信号来确定该当前帧是否是语音活动部分,其中,如果该当前帧是语音活动部分,则可以执行该确定和该编码。
根据本发明的另一个方面,在此提供了一种音频信号处理方法,包括:接收音频信号;接收指示最大可允许编译模式的网络信息;基于该网络信息和该音频信号来确定与当前帧对应的编译模式;根据该编译模式来编码该音频信号的该当前帧;并且,发送该编码的当前帧。基于带宽和比特率的组合来确定该编译模式,并且该带宽包括窄带、宽带和超宽带的至少两个。
根据本发明,确定编译模式可以包括:基于该网络信息来确定一个或多个候选编译模式;并且,基于该音频信号的特性来将该候选编译模式之一确定为该编译模式。
根据本发明的另一个方面,在此提供了一种音频信号处理装置,包括:模式确定单元,用于接收指示编译模式的网络信息,并且确定与当前帧对应的编译模式;音频编码单元,用于接收音频信号,用于根据该编译模式来编码该音频信号的该当前帧,并且用于发送该编码的当前帧。基于带宽和比特率的组合来确定该编译模式,并且该带宽包括窄带、宽带和超宽带的至少两个。
根据本发明的另一个方面,在此提供了一种音频信号处理装置,包括:模式确定单元,用于接收音频信号,用于接收指示最大可允许编译模式的网络信息,并且用于基于该网络信息和该音频信号来确定与当前帧对应的编译模式;以及,音频编码单元,用于根据该编译模式来编码该音频信号的该当前帧,并且发送该编码的当前帧。基于带宽和比特率的组合来确定该编译模式,并且该带宽包括窄带、宽带和超宽带的至少两个。
根据本发明的另一个方面,在此提供了一种音频信号处理方法,包括:接收音频信号;通过分析该音频信号来确定当前帧是否是语音活动部分或语音不活动部分;如果该当前帧是语音不活动部分,则基于一个或多个在前帧的带宽将包括第一类型和第二类型的多个类型之一确定为用于该当前帧的静默帧的类型;并且对于该当前帧,产生和发送该确定类型的静默帧。该第一类型包括第一阶的线性预测转换系数,该第二类型包括第二阶的线性预测转换系数,并且该第一阶小于该第二阶。
根据本发明,该多个类型可以进一步包括第三类型,该第三类型包括第三阶的线性预测转换系数,并且该第三阶大于该第二阶。
根据本发明,可以利用第一比特来编码该第一阶的线性预测转换系数,可以使用第二比特来编码该第二阶的线性预测转换系数,并且该第一比特可以小于该第二比特。
根据本发明,该第一、第二和第三类型中的每一个的总比特可以是相同的。
根据本发明的另一个方面,在此提供了一种音频信号处理装置,包括:活动部分确定单元,用于接收音频信号,并且通过分析该音频信号来确定当前帧是否是语音活动部分或语音不活动部分;类型确定单元,如果该当前帧是语音不活动部分,则该类型确定单元用于基于一个或多个在前帧的带宽将包括第一类型和第二类型的多个类型之一确定为用于该当前帧的静默帧的类型;以及,相应类型静默帧产生单元,用于对于该当前帧产生和发送该确定类型的静默帧。该第一类型包括第一阶的线性预测转换系数,该第二类型包括第二阶的线性预测转换系数,并且该第一阶小于该第二阶。
根据本发明的另一个方面,在此提供了一种音频信号处理方法,包括:接收音频信号;通过分析该音频信号来确定当前帧是否是语音活动部分或语音不活动部分;如果该在前帧是语音不活动部分并且该当前帧是语音活动部分,并且如果该当前帧的带宽与该在前帧的静默帧的带宽不同,则从多个类型中确定与该当前帧的带宽对应的类型;并且,产生和发送该确定类型的静默帧。该多个类型包括第一和第二类型,该带宽包括窄带和宽带,并且该第一类型对应于该窄带,并且该第二类型对应于该宽带。
根据本发明的另一个方面,在此提供了一种音频信号处理装置,包括:活动部分确定单元,用于接收音频信号,并且通过分析该音频信号来确定当前帧是否是语音活动部分或语音不活动部分;控制单元,如果在前帧是语音不活动部分并且该当前帧是语音活动部分,并且如果该当前帧的带宽与该在前帧的静默帧的带宽不同,则该控制单元用于从多个类型中确定与该当前帧的带宽对应的类型;以及,相应类型静默帧产生单元,用于产生和发送该确定类型的静默帧。该多个类型包括第一和第二类型,该带宽包括窄带和宽带,并且该第一类型对应于该窄带,并且该第二类型对应于该宽带。
根据本发明的另一个方面,在此提供了一种音频信号处理方法,包括:接收音频信号;确定当前帧是否是语音活动部分或语音不活动部分;以及,如果该当前帧是语音不活动部分,则产生和发送用于当前帧的统一静默帧,而与在前帧的带宽无关。该统一静默帧包括线性预测转换系数和帧能量的平均。
根据本发明,可以向该线性预测转换系数分配28比特,并且可以向该帧能量的平均分配7比特。
根据本发明的另一个方面,在此提供了一种音频信号处理装置,包括:活动部分确定单元,用于接收音频信号,并且用于通过分析该音频信号来确定当前帧是否是语音活动部分或语音不活动部分;以及,统一静默帧产生单元,如果该当前帧是语音不活动部分,则该统一静默帧产生单元用于产生和发送用于当前帧的统一静默帧,而与在前帧的带宽无关。该统一静默帧包括线性预测转换系数和帧能量的平均。
【用于发明的模式】
现在将详细参考本发明的优选实施例,在附图中图示了其示例。应当明白,在说明书和所附的权利要求中使用的术语不应当被解释为限于一般和词典的含义,而是应当在发明人被允许限定用于最佳说明的适当术语的基础上基于根据本发明的精神的含义和概念来解释。在说明书中描述并且在附图中示出的优选实施例仅是说明性的,并且不意欲表示本发明的所有方面,使得可以在不偏离本发明的精神的情况下建立各种等同物和修改。
如在此使用地,下面的术语可以被解释如下;并且,可以以类似的方式来解释其他术语。可以根据上下文将编译解释为编码或解码,并且可以根据上下文将信息解释为覆盖值、参数、系数、元素等的术语。然而,本发明不限于此。
在此,与广义的视频信号相反,音频信号指的是当被再现时可以被听觉识别的信号,并且与在狭义的语音信号相反,音频信号指的是没有语音特性或具有很少的语音特性的信号。在此,音频信号要在广义上被解释,并且当与语音信号相区别时被理解为狭义的音频信号。
另外,编译可以指的是仅编码或可以指的是编码和解码两者。
图1图示根据本发明的实施例的音频信号处理装置的编码器的配置。参见图1,编码器100包括音频编码单元130,并且可以进一步包括模式确定单元110、活动部分确定单元120、静默帧产生单元140和网络控制单元150中的至少一个。
模式确定单元110从网络控制单元150接收网络信息,基于所接收的信息来确定编译模式,并且向音频编码单元130(和静默帧产生单元140)发送所确定的编译模式。在此,网络信息可以指示编译模式或最大可允许编译模式,下面分别参考图3和4给出其每个的说明。而且,可以从带宽和比特率的组合(以及帧是否是静默帧)确定作为用于编码输入音频信号的模式的编译模式。下面参考图5等来给出其说明。
另一方面,活动部分确定单元120通过执行输入音频信号的分析来确定当前帧是否是语音活动部分或语音不活动部分,并且向音频编码单元130、静默帧产生单元140和网络控制单元150等发送活动标记(以下称为“VAD标记”)。在此,该分析对应于语音活动检测(VAD)过程。活动标记指示当前帧是否是语音活动部分或语音不活动部分。
语音不活动部分对应于例如静默部分或具有背景噪声的部分。在不活动部分中使用活动部分的编译方案是无效率的。因此,活动部分确定单元120向音频编码单元130和静默帧产生单元140发送活动标记,使得在语音活动部分(VAD标记=1)中,通过音频编码单元130根据相应的编译方案来编码音频信号,并且在语音不活动部分(VAD标记=0)中,通过静默帧产生单元140产生具有低比特的静默帧。然而,例外地,即使在VAD标记=0的情况下,也可以通过音频编码单元130编码音频信号,将在下面参考图14给出其说明。
音频编码单元130基于由模式确定单元110确定的编译模式,使得窄带编码单元(NB编码单元)131、宽带编码单元(WB编码单元)132和超宽带单元(SWB编码单元)133的至少一个编码输入音频信号,以产生音频帧。
在这一点上,窄带、宽带和超宽带以所指出顺序具有更宽和更高的频带。超宽带(SWB)覆盖宽带(WB)和窄带(NB),并且宽带(WB)覆盖窄带(NB)。
NB编码单元131是用于根据与窄带信号对应的编译方案(以下称为NB编译方案)来编码输入音频信号的装置。WB编码单元132是用于根据与宽带信号对应的编译方案(以下称为WB编译方案)来编码输入音频信号的装置,并且SWB编码单元133是用于根据与超宽带信号对应的编译方案(以下称为SWB编译方案)来编码输入音频信号的装置。虽然已经上述了对于各个频带(即,各个编码单元)使用不同的编译方案的情况,但是可以使用覆盖低频带的嵌入结构的编译方案;或者,也可以使用以上两个结构的混和结构。图2图示具有混和结构的编解码器的示例。
参见图2,NB/WB/SWB编译方案是语音编解码器,其每一个具有多个比特率。SWB编译方案未改变地向较低频带信号应用WB编译方案。NB编译方案对应于编码激励线性预测(CELP)方案,而WB编译方案可以对应于自适应多速率宽带(AMR-WB)方案、CELP方案和修正离散余弦变换(MDCT)方案之一用作核心层,并且增加增强层以便组合为编码错误嵌入结构的方案。SWB编译方案可以对应于向高达8kHz带宽的信号应用WB编译方案,并且对于从8kHz至16kHz的信号编码声谱包络信息和剩余信号能量的方案。在图2中所示的编译方案仅是示例,并且本发明不限于此。
向回参考图1,静默帧产生单元140接收活动标记(VAD标记)和音频信号,并且通常在当前帧对应于语音不活动部分时,基于该活动标记来产生用于音频信号的当前帧的静默帧(SID帧)。下面将描述静默帧产生单元140的各个示例。
网络控制单元150从诸如移动通信网络(包括,基站收发器(BTS)、基站(BSC)、移动交换中心(MSC)、PSTN、IP网络等)的网络接收信道状态信息。网络信息被从信道状态信息提取,并且被传送到模式确定单元110。如上所述,网络信息可以是直接地指示编译模式或指示最大可允许编译模式的信息。而且,网络控制单元150向网络发送音频帧或静默帧。
将参考图3和4来描述模式确定单元110的两个示例。参见图3,根据第一示例的模式确定单元110A接收音频信号和网络信息,并且确定编译模式。在此,可以通过带宽、比特率等的组合来确定编译模式,如图5中所示。
参见图5,图示了总共大约14至16个编译模式。带宽是在用于确定编译模式的因素中的一个因素,并且提供了窄带(NB)、宽带(WB)和超宽带(SWB)的两个或更多。而且,比特率是另一个因素,并且对于每一个带宽提供两个或更多的支持比特率。即,对于窄带(NB)提供6.8kbps、7.6kbps、9.2kbps和12.8kbps的两个或更多,对于宽带(WB)提供6.8kbps、7.6kbps、9.2kbps、12.8kbps、16kbps和24kbps的两个或更多,并且对于超宽带(SWB)提供12.8kbps、16kbps和24kbps的两个或更多。在此,本发明不限于特定比特率。
可以提供对应于两个或更多带宽的支持比特率。例如,在图5中,在NB、WB和SWB的全部中提供12.8,在NB和WB中提供6.8、7.2和9.2,并且在WB和SWB中提供16和24。
用于确定编译模式的最后因素是确定它是否是静默帧,下面将与静默帧产生单元一起描述这一点。
图6图示了对于各个帧切换的编译模式的示例,图7是利用带宽来表示在图6中的图形的水平轴的图形,并且图8是利用比特率来表示在图6中的图形的水平轴的图形。
参见图6,水平轴表示帧,并且垂直轴表示编译模式。可以看出,当帧改变时编译模式改变。例如,可以看出,第n-1帧的编译模式对应于3(在图5中的NB_mode4),第N帧的编译模式对应于10(在图5中的SWB_mode1),并且,第N+1帧的编译模式对应于7(在图5的表格中的WB_mode4)。图7是利用带宽(NB、WB、SWB)来表示在图6中的图形的水平轴的图形,从它也可以看出,当帧改变时带宽改变。图8是利用比特率来表示在图6中的图形的水平轴的图形。关于第n-1帧、第n帧和第n+1帧,可以看出,虽然帧的每一个具有不同的带宽NB、SWB、WB,但是所有的帧具有12.8kbps的支持比特率。
至此,已经参考图5至8描述了编译模式。向回参考图3,模式确定单元110A接收指示最大可允许编译模式的网络信息,并且基于接收的信息来确定一个或多个候选编译模式。例如,在图5中所示的表格中,在最大可允许编译模式是11或以下的情况下,将编译模式0至10确定为候选编译模式,其中,基于音频信号的特性将一个候选编译模式确定为最后的编译模式。例如,取决于输入音频信号的特性(即,取决于信息主要分布在哪个频带),在信息主要分布在窄带(0至4kHz)的情况下,可以选择编译模式0至3之一,在信息主要分布在宽带(0至8kHz)的情况下,可以选择编译模式4至9之一,并且在信息主要分布在超宽带(0至16kHz)的情况下,可以选择编译模式10至12。
参见图4,根据第二示例的模式确定单元110B可以接收网络信息,并且单独基于网络信息来确定编译模式,不像第一示例110A。而且,模式确定单元110B可以基于在前帧的比特率以及网络信息来确定满足平均传输比特率的要求的当前帧的编译模式。虽然在第一示例中的网络信息指示最大可允许编译模式,但是在第二示例中的网络信息指示多个编译模式之一。因为网络信息直接地指示编译模式,可以单独使用这个网络信息来确定编译模式。
另一方面,参考图3和4描述的编译模式可以是核心层的比特率和增强层的比特率的组合,而不是如图5中所示的带宽和比特率的组合。替代地,编译模式可以甚至当在一个带宽中存在增强层时包括核心层的比特率和增强层的比特率的组合。这被汇总如下。
<在不同带宽之间的切换>
A.在NB/WB的情况下
a)在不存在增强层的情况下
b)在存在增强层的情况下(在相同频带中的模式切换)
b.1)仅切换增强层
b.2)仅切换核心层
b.3)切换核心层和增强层两者
B.在SWB的情况下
通过频带划分来划分频带编码层
对于该情况的每一个,应用取决于来源的比特分配方法。如果不存在增强层,则在核心内执行比特分配。如果存在增强层,则对于核心层和增强层执行比特分配。
如上所述,在存在增强层的情况下,核心层的比特率的比特可以对于每一个帧可变地切换(在上面的情况b.1)、b.2)和b.3)下)。显然,甚至在该情况下,也基于网络信息(和音频信号的特性或在前帧的编译模式)来产生编译模式。
首先,将参考图9来描述核心层和增强层的概念。参见图9,图示了多层结构。在核心层中编码原始音频信号。再一次合成编码的核心层,并且,在第一增强层中编码从原始信号去除的第一剩余信号。再一次解码编码的第一剩余信号,并且在第二增强层中编码从第一剩余信号去除的第二剩余信号。如此一来,增强层可以由两个或更多层(N层)构成。
在此,核心网可以是在现有的通信网络中使用的编解码器或新设计的编解码器。它是用于补充除语音信号分量外的音乐分量的结构,并且不限于特定的编译方案。而且,虽然没有增强的比特流结构可以是可能的,但是应当限定至少核心的比特流的最小比率。为此目的,需要用于确定信号分量的活动和音调的程度的块。该核心层可以对应于AMR-WB互操作性(IOP)。上述的结构可以被扩展到窄带(NB)、宽带(WB)和甚至超宽带(SWB全频带(FB))。在频带划分的编解码器结构中,带宽的相互交换可以是可能的。
图10图示了增强层的比特可变的情况,图11图示了核心层的比特可变的情况,并且图12图示了核心层和增强层的比特可变的情况。
参见图10,可以看出,核心层的比特率固定,而不对于各个帧改变,同时增强层的比特率对于各个帧切换。相反,在图11中,增强的比特率固定,而与帧无关,同时核心层的比特率对于各个帧切换。在图12中,可以看出,不仅核心层的比特率而且增强层的比特率可变。
以下,参考图13等,将描述图1的静默帧产生单元140A的各个实施例。首先,图13和图14是关于根据第一示例的静默帧产生单元140A的图。即,图13是图1的静默帧产生单元140的第一示例,图14图示了出现静默帧的过程,并且图15图示了相应类型静默帧的语法的示例。
参见图13,静默帧产生单元140A包括类型确定单元142A和相应类型静默帧产生单元144A。
类型确定单元142A接收(一个或多个)在前帧的(一个或多个)带宽,并且基于接收的(一个或多个)带宽而将来自包括第一类型、第二类型(和第三类型)的多个类型中的一个类型确定为用于当前帧的静默帧的类型。在此,(一个或多个)在前帧的(一个或多个)带宽可以是从图1的模式确定单元110接收的信息。虽然可以从模式确定单元110接收带宽信息,但是类型确定单元142A可以如上所述接收编译模式以便确定带宽。例如,如果编译模式在图5的表格中为0,则将该带宽确定的窄带(NB)。
图14图示了具有语音帧和静默帧的连续帧的示例,其中,活动标记(VAD标记)从1改变为0。参考图14。活动标记从第一至第35帧为1。并且活动标记从第36帧起为0。即,从第一至第35的帧是语音活动部分,并且语音不活动部分在第36帧后开始。然而,在从语音活动部分向语音不活动部分的过渡中,与语音不活动部分对应的一个或多个帧(在附图中的从第36至第42的7个帧)是暂停帧,其中,编码并且发送语音帧(在附图中的S)而不是静默帧,即使活动标记为0。(要向网络发送的发送类型(TX_type)可以在VAD标记是1的部分中和在VAD标记是0并且作为暂停帧的部分中是“SPEECH_GOOD”)
在已经结束了几个暂停帧后的帧中,即,在不活动部分已经开始后的第8帧中(在附图中的第43帧),不产生静默帧。在该情况下,发送类型可以是“SID_FIRST”。在从此起的第三帧(在附图中的第0帧(当前帧(n)))中,产生静默帧。在该情况下,发送类型是“SID_UPDATE”。其后,对于每第八个帧产生静默帧,并且发送类型是“SID_UPDATE”。
在对于当前帧(n)产生静默帧时,图13的类型确定单元142A基于在前帧的带宽来确定静默帧的类型。在此,在前帧指的是在图14中的暂停帧的一个或多个(即,第36帧至第42帧的一个或多个)。确定可以仅基于最后暂停帧或全部暂停帧的带宽。在后一种情况下,确定可以基于最大带宽;然而,本发明不限于此。
图15图示了相应类型静默帧的语法的示例。参见图15,图示了第一类型静默帧(或窄带静默帧)、第二类型静默帧(或宽带类型静默帧)和第三类型静默帧(或超宽带类型帧)的语法的示例。第一类型包括第一阶的线性预测转换系数(O1),它可以被分配第一比特(N1)。第二类型包括第二阶的线性预测转换系数(O2),它可以被分配第二比特(N2)。第三类型包括第三阶的线性预测转换系数(O3),它可以被分配第三比特(N3)。在此,线性预测转换系数可以作为在图1的音频编码单元130中的线性预测编译(LPC)的结果是线性频谱对(LSP)、导抗谱对(ISP)或线频谱频率(LSF)或导抗谱频率(ISF)之一。然而,本发明不限于此。
同时,第一阶至第三阶和第一至第三比特具有下面所示的关系:
第一阶(O1)≤第二阶(O2)≤第三阶(O3
第一比特(N1)≤第二比特(N2)≤第三比特(N3
这是因为优选的是,带宽越宽,则线性预测转换系数的阶越高,并且线性预测转换系数的阶越高,则比特越大。
第一类型的静默帧(NB SID)可以进一步包括作为线性预测转换系数的参考值的参考向量,并且第二和第三类型静默帧(NB SID、WBSID)可以进一步包括抖动标记。而且,静默帧的每一个可以进一步包括帧能量。在此,作为用于指示背景噪声的周期特性的信息的抖动标记可以具有值0和1。例如,使用线性预测转换系数,如果频谱距离的和小,则抖动标记可以被设置为0;如果该和大,则抖动标记可以被设置为1。小距离指示在在前帧中的频谱包络信息相对类似。而且,静默帧的每一个可以进一步包括帧能量。
虽然各个类型的元素的比特不同,总的比特可以相同。在图15中,NB SID(35=3+26+6比特)、WB SID(35=28+6+1比特)和SWB_SID(35=30+4+1比特)的总的比特与35比特相同。
向回参考图14,在如上所述确定当前帧(n)的静默帧的类型中,基于(一个或多个)在前帧(一个或多个暂停帧)的(一个或多个)带宽来进行确定,而不参考当前帧的网络信息。例如,在参考最后暂停帧的带宽的情况下,在图5中,如果第42帧的模式是0(NB_Mode1),则第42帧的带宽是NB,并且因此,用于当前帧的静默帧的类型被确定为与NB对应的第一类型(NB SID)。在参考暂停帧的最大带宽的情况下,如果存在从第36至第42帧的4个宽带(WB),则用于当前帧的静默帧的类型被确定为与宽带对应的第二类型(WB_SID)。在相应类型静默帧产生单元144A中,通过对于当前帧的带宽修改每一个帧的频谱包络信息和剩余能量信息而使用在N个在前帧中的平均值来获得静默帧。例如,如果当前帧的带宽被确定为NB,则对于NB带宽适当地修改在在前帧中的具有SWB带宽或WB带宽的帧的频谱包络信息或剩余能量信息,使得使用N个帧的平均值来产生当前静默帧。可以对于每N个帧而不是每一个帧产生静默帧。在不产生静默帧信息的部分中,频谱包络信息和剩余能量信息被存储和用于以后的静默帧信息产生。向回参考图13,当如上所述类型确定单元142A基于(一个或多个)在前帧(具体地说,暂停帧)的带宽来确定静默帧的类型时,确定与静默帧对应的编译模式。如果在图5的示例中,该类型被确定为第一类型(NB SID),则编译模式可以是18(NB_SID),而如果类型被确定为第三类型(SWB SID),则编译模式可以是20(SWB_SID)。与如上确定的静默帧对应的编译模式被传送到在图1中的网络控制单元150。
相应类型静默帧产生单元144A根据由类型确定单元142A确定的类型来产生用于音频信号的当前帧的第一至第三类型静默帧(NB SID、WB SID、SWB SID)之一。在此,可以取代音频信号使用作为在图1中的音频编码单元130的结果的音频帧。如果当前帧对应于语音不活动部分(VAD标记)并且不是暂停帧,则相应类型静默帧产生单元144A基于从活动部分确定单元120接收的活动标记(VAD标记)来产生相应类型静默帧。在相应类型静默帧产生单元144A中,通过对于当前帧的带宽修改每一个帧的频谱包络信息和剩余能量信息来使用在N个在前帧中的平均值获得静默帧。例如,如果当前帧的带宽被确定为NB,则对于NB带宽适当地修改在在前帧中的具有SWB带宽或WB带宽的帧的频谱包络信息和剩余能量信息,使得使用N个帧的平均来产生当前静默帧。可以对于每N个帧而不是每一个帧产生静默帧。在不产生静默帧信息的部分中,频谱包络信息和剩余能量信息被存储和用于以后的静默帧信息产生。可以通过在相应类型静默帧产生单元144A中对于当前帧的带宽修改N个在前帧中的帧能量信息(剩余能量)而从平均值获得在静默帧中的能量信息。
控制单元146C使用在前帧的带宽信息和音频帧信息(频谱包络和剩余信息),并且参考活动标记(VAD标记)来确定用于当前帧的静默帧的类型。相应类型静默帧产生单元144C基于在控制单元146C中确定的带宽信息使用n个在前帧的音频帧信息产生用于当前帧的静默帧。此时,计算在n个在前帧中的具有不同带宽的音频帧,使得它被转换为当前帧的带宽,以由此产生确定类型的静默帧。
图16图示了图1的静默帧产生单元140的第二示例,并且图17图示了根据第二示例的统一静默帧的语法的示例。参见图16,静默帧产生单元140B包括统一静默帧产生单元144B。如果当前帧对应于语音不活动部分并且不是暂停帧,则统一静默帧产生单元144B基于活动标记(VAD标记)来产生统一静默帧。此时,不像第一示例,作为单个类型(统一类型)产生统一的静默帧,而与(一个或多个)在前帧((一个或多个)暂停帧)的(一个或多个)带宽无关。在使用作为图1的音频编码单元130的结果的音频帧的情况下,来自在前帧的结果被转换为与在前的带宽无关的一种统一类型。例如,如果n个在前帧的带宽信息是SWB、WB、WB、NB、…、SWB、WB(相应的比特率可以不同),则通过平均已经被转换为用于SID的一个预定带宽的n个在前帧的频谱包络信息和剩余信息来产生静默帧信息。频谱包络信息可以表示线性预测系数的阶,并且表示NB、WB和SWB的阶被转换为特定阶。
在图17中图示统一静默帧的语法的示例。通过预定比特(即,28比特)来包括预定阶的线性预测转换系数。可以进一步包括帧能量。
通过产生统一的静默帧而与在前帧的带宽无关,则可以减小在发送时用于控制所需的功率、资源和模式的数量,并且,可以防止因为在语音不活动部分中的带宽切换而出现的失真。
图18是图1的静默帧产生单元140的第三示例,并且图19是图示第三示例的静默帧产生单元140的图。第三示例是第一示例的变化示例。参见图18,静默帧产生单元140C包括控制单元146C,并且可以进一步包括相应类型静默帧产生单元144C。
控制单元146C基于在前帧和当前帧的带宽和活动标记(VAD标记)来确定用于当前帧的静默帧的类型。
向回参考图18,相应类型静默帧产生单元144C根据由控制单元146C确定的类型来产生和输出第一至第三类型的帧之一的静默帧。相应类型静默帧产生单元144C与在第一示例中的元件144A几乎相同。
图20示意地图示了根据本发明的实施例的解码器的配置,并且图21是图示根据本发明的实施例的解码过程的流程图。
参见图20,示意地图示了三种类型的解码器。音频解码装置可以包括三种类型的解码器之一。相应类型静默帧解码单元160A、160B和160C可以被替换为统一静默帧解码单元(在图16中的解码块140B)。
首先,第一类型的解码器200-1包括NB解码单元131A、WB解码单元132A、SWB解码单元133A、转换单元140A和解包单元150的全部。在此,NB解码单元根据如上所述的NB编译方案来解码NB信号,WB解码单元根据WB编译方案来解码WB信号,并且SWB解码单元根据SWB编译方案来解码SWB信号。如果像第一类型的情况而包括所有的解码单元,则可以执行解码而与比特流的带宽无关。转换单元140A对于信号的带宽执行转换和在切换带宽时执行平滑。在输出信号的带宽的转换中,根据用户的选择和对于输出带宽的硬件限制来改变输出信号的带宽。例如,可以根据用户的选择或对于输出带宽的硬件限制而利用WB或NB信号来输出利用SWB比特流解码的SWB输出信号。在切换带宽时执行平滑中,在输出NB帧后,如果当前帧的带宽是除了NB之外的输出信号,则执行关于当前帧的带宽的转换。例如,在输出NB帧后,当前帧是利用SWB比特流输出的SWB信号,执行向WB的带宽转换以便执行平滑。在输出NB帧后,利用WB比特流输出的WB信号被转换为在NB和WB之间的中间带宽,以便执行平滑。即,为了最小化在在前帧和当前帧的带宽之间的差,执行向在在前帧和当前帧之间的中间带宽的转换。
第二类型的解码器200-2仅包括NB编码单元131B和WB编码单元132B,并且不能解码SWB比特流。然而,在转换单元140B中,有可能根据用户的选择或对于输出带宽的硬件限制来以SWB输出。转换单元140B类似于第一类型解码器200-1的转换单元140A地执行输出信号的带宽的转换,并且在带宽切换时执行平滑。
第三类型的解码器200-3仅包括NB解码单元131C,并且能够仅解码NB比特流。因为仅存在一个可解码带宽(NB),所以转换单元140C仅用于带宽转换。因此,解码的NB输出信号可以通过转换单元140C被带宽转换为WB或SWB。
下面参考图21来描述图20的各种类型的解码器的其他方面。
图21图示了在接收终端和基站之间的环境建立机制。在此,单个编解码器和具有嵌入结构的编解码器两者是适用的。例如,将描述具有NB、WB和SWB核心彼此独立,并且比特流的全部或一部分可以不被交换的结构的编解码器的示例。如果接收终端的可解码带宽和接收单元可以输出的信号的带宽被限制,则可以在通信的开始有如下多种情况:
Figure BDA00002701270600211
当从发送侧接收到两个或更多类型的BW比特流时,参考在接收侧的可解码BW和输出带宽的类型根据每一个例程来解码接收的比特流,并且,从接收侧输出的信号被转换为被接收侧支持的BW。例如,如果发送侧能够使用NB/WB/SWB来编码,则接收侧能够利用NB/WB来解码,并且信号输出带宽可以高达SWB,参考图21,当发送侧利用SWB来发送比特流时,接收侧将接收的比特流的ID与用户数据库作比较,以查看它是否可解码(CompareID)。接收侧请求发送WB比特流,因为接收侧不能解码SWB。当发送侧发送WB比特流时,接收侧将其解码,并且可以取决于接收侧的输出能力将输出信号带宽转换为NB或SWB。
图22示意地图示了根据本发明的替代实施例的编码器和解码器的配置。图23图示了根据该替代实施例的解码过程,并且图24图示了根据本发明的该替代实施例的转换单元的配置。
参见图22,在终端的解码芯片中包括所有解码器,使得可以与解码功能相关地解包和解码所有编解码器的比特流。假设解码器具有编码器的大约1/4的复杂度,则在功耗上将不是问题。具体地说,如果不能解码SWB的接收终端接收到SWB比特流,则它需要向发送侧发送反馈信息。如果发送比特流是嵌入格式的比特流,则仅解包和解码在SWB中的WB或NB中的比特流,并且,向发送侧发送关于可解码的BW的信息以便降低发送率。然而,如果比特流被限定为每BW单个编解码器,则需要请求在WB或NB中的重发。对于该情况,需要包括能够将进入接收侧的解码器内的所有的比特流解包和解码的例程。为此,要求终端的解码器包括所有频带的解码器,以便执行向由接收终端提供的BW的转换。其具体示例如下:
<<降低的带宽的示例>>
○接收侧支持高达SWB——如发送地解码。
○接收侧支持高达WB——对于发送的SWB帧,将解码的SWB信号转换为WB。接收侧包括能够解码SWB的模块。
○接收侧仅支持NB——对于发送的WB/SWB帧,将解码的SWB信号转换为NB。接收端包括能够解码WB/SWB的模块。
参见图24,在解码器的转换单元中,核心解码器解码比特流。解码的信号可以在控制单元的控制下被不变地输出或被输入到具有重采样器的后滤波器并且在带宽转换后被输出。如果发送终端能够输出的信号带宽大于输出信号带宽,则解码的信号被上采样为上带宽,然后,扩展带宽,使得在通过后滤波器上采样时产生的扩展带宽的边界上的失真被衰减。相反,如果发送终端能够输出的信号带宽小于输出信号带宽,则解码的信号被下采样,并且其带宽降低,并且可以通过衰减了在降低的带宽的边界上的频谱的后滤波器而被输出。
根据本发明的音频信号处理装置可以被结合在各种产品中。这样的产品可以大体被划分为单独组和便携组。单独组可以包括TV、监控器、机顶盒等,并且便携组可以包括便携多媒体播放器(PMP)、移动电话、导航装置等。
图25示意地图示了实现根据本发明的示例性实施例的音频信号处理装置的产品的配置。参见图25,有线/无线通信单元510使用有线/无线通信方案来接收比特流。具体地,有线/无线通信单元510可以包括有线通信单元510A、红外通信单元510B、蓝牙单元510C、无线LAN通信单元510D和移动通信单元510E。
接收用户信息并且执行用户鉴别的用户鉴别单元520可以包括指纹识别单元、虹膜识别单元、面部识别单元和语音识别单元的至少一个。它们每一个分别接收指纹、虹膜、面部轮廓和语音信息,将接收的信息转换为用户信息,并且通过确定转换的用户信息是否匹配用户信息或先前注册的用户数据而执行用户鉴别。
作为用于输入来自用户的各种指令的输入装置的输入单元530可以包括键盘单元530A、触摸板单元530B、遥控器单元530C和麦克风单元530D的至少一个;然而,本发明不限于此。在此,麦克风单元530D是用于接收语音或音频信号的输入装置。在此,键盘单元530A、触摸板单元530B和遥控器单元530C可以接收用于启动呼叫或激活麦克风单元530B的指令。控制单元550可以在通过键盘单元530B等接收到启动呼叫的指令时使得移动通信单元510E向移动通信网络请求呼叫。
信号编译单元540执行通过麦克风单元530D或有线/无线通信单元510接收的音频信号和/或视频信号的编码或解码,并且在时域中输出音频信号。信号编译单元540包括响应于本发明的上述实施例(即,根据实施例的编码器100和/或解码器200)的音频信号处理设备545。如此一来,可以通过一个或多个处理器来实现音频信号处理设备545和包括它的信号编译单元。
控制单元550从输入装置接收输入信号,并且控制解码单元540和输出单元560的所有处理。输出由解码单元540产生的输出信号的输出单元560可以包括扬声器单元560A和显示单元560B。当输出信号是音频信号时,输出信号通过扬声器被输出,并且当输出信号是视频信号时,输出信号通过显示器被输出。
图26图示了实现根据本发明的示例性实施例的音频信号处理装置的产品之间的关系。图26图示了在与在图25中图示的产品对应的终端和服务器之间的关系,其中,图26(A)图示了通过在第一终端500.1和第二终端500.2之间的有线/无线通信单元的数据或比特流的双向通信,而图26(B)图示了服务器600和第一终端500.1也执行有线/无线通信。
图27示意地图示了实现根据本发明的示例性实施例的音频信号处理装置的移动终端的配置。移动终端700可以包括:移动通信单元710,用于呼叫始发和接收;数据通信单元720,用于数据通信;输入单元730,用于输入用于呼叫始发或音频输入的指令;麦克风单元740,用于输入语音或音频信号;控制单元750,用于控制元件;信号编译单元760;扬声器770,用于输出语音或音频信号;以及,显示器780,用于输出显示。
信号编译单元760执行通过移动通信单元710、数据通信单元720或麦克风单元740接收的音频信号和/或视频信号的编码或解码,并且通过移动通信单元710、数据通信单元720或扬声器770在时域中输出音频信号。信号编译单元760包括对应于本发明的实施例(即,根据该实施例的编码器100和/或解码器200)的音频信号处理设备765。如此一来,可以通过一个或多个处理器来实现音频信号处理设备765和包括它的信号编译单元760。
根据本发明的音频信号处理方法可以被实现为由计算机执行的程序,以便存储在计算机可读存储介质中。而且,具有根据本发明的数据结构的多媒体数据可以被存储在计算机可读存储介质中。计算机可读存储介质可以包括存储由计算机系统可读的数据的所有种类的存储装置。计算机可读存储介质的示例包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储装置以及载波(通过例如因特网的传输)。另外,通过编码方法产生的比特流可以被存储在计算机可读存储介质中或者通过有线/无线通信网络被发送。
对于本领域内的技术人员显然,在不偏离本发明的精神和范围的情况下,可以在本发明中进行各种修改和改变。因此,意欲本发明涵盖本公开的修改和改变,只要它们在所附的权利要求和它们的等同物的范围内。
【工业适用性】
本发明适用于音频信号的编码和解码。

Claims (18)

1.一种音频信号处理方法,包括:
接收音频信号;
接收指示编译模式的网络信息,并且确定与当前帧对应的编译模式;
根据所述编译模式来编码所述音频信号的所述当前帧;并且
发送所述编码的当前帧,其中
基于带宽和比特率的组合来确定所述编译模式,并且
所述带宽包括窄带、宽带和超宽带的至少两个。
2.根据权利要求1所述的方法,其中,所述比特率包括用于所述带宽的每一个的两个或更多的预定支持比特率。
3.根据权利要求1所述的方法,其中
所述超宽带是覆盖所述宽带和所述窄带的频带,以及
所述宽带是覆盖所述窄带的频带。
4.根据权利要求1所述的方法,进一步包括:
通过分析所述音频信号来确定所述当前帧是否是语音活动部分,
其中,如果所述当前帧是所述语音活动部分,则执行所述确定和所述编码。
5.一种音频信号处理方法,包括:
接收音频信号;
接收指示最大可允许编译模式的网络信息;
基于所述网络信息和所述音频信号来确定与当前帧对应的编译模式;
根据所述编译模式来编码所述音频信号的所述当前帧;并且
发送所述编码的当前帧,其中
基于带宽和比特率的组合来确定所述编译模式,并且
所述带宽包括窄带、宽带和超宽带的至少两个。
6.根据权利要求5所述的方法,其中,所述确定编译模式包括:
基于所述网络信息来确定一个或多个候选编译模式;并且
基于所述音频信号的特性来将所述候选编译模式之一确定为所述编译模式。
7.一种音频信号处理装置,包括:
模式确定单元,用于接收指示编译模式的网络信息,并且确定与当前帧对应的编译模式;以及
音频编码单元,用于接收音频信号,用于根据所述编译模式来编码所述音频信号的所述当前帧,并且用于发送所述编码的当前帧,其中
基于带宽和比特率的组合来确定所述编译模式,并且
所述带宽包括窄带、宽带和超宽带的至少两个。
8.一种音频信号处理装置,包括:
模式确定单元,用于接收音频信号,用于接收指示最大可允许编译模式的网络信息,并且用于基于所述网络信息和所述音频信号来确定与当前帧对应的编译模式;以及
音频编码单元,用于根据所述编译模式来编码所述音频信号的所述当前帧,并且用于发送所述编码的当前帧,其中
基于带宽和比特率的组合来确定所述编译模式,并且
所述带宽包括窄带、宽带和超宽带的至少两个。
9.一种音频信号处理方法,包括:
接收音频信号;
通过分析所述音频信号来确定当前帧是否是语音活动部分或语音不活动部分;
如果所述当前帧是所述语音不活动部分,则基于一个或多个在前帧的带宽将包括第一类型和第二类型的多个类型之一确定为用于所述当前帧的静默帧的类型;并且
对于所述当前帧,产生和发送所述确定类型的所述静默帧,其中
所述第一类型包括第一阶的线性预测转换系数,
所述第二类型包括第二阶的线性预测转换系数,并且
所述第一阶小于所述第二阶。
10.根据权利要求9所述的方法,其中
所述多个类型进一步包括第三类型,
所述第三类型包括第三阶的线性预测转换系数,并且
所述第三阶大于所述第二阶。
11.根据权利要求9所述的方法,其中
利用第一比特来编码所述第一阶的线性预测转换系数,
利用第二比特来编码所述第二阶的线性预测转换系数,并且
所述第一比特小于所述第二比特。
12.根据权利要求11所述的方法,其中,所述第一、第二和第三类型中的每一个的总比特相等。
13.一种音频信号处理装置,包括:
活动部分确定单元,用于接收音频信号,并且通过分析所述音频信号来确定当前帧是否是语音活动部分或语音不活动部分;
类型确定单元,如果所述当前帧是所述语音不活动部分,则所述类型确定单元用于基于一个或多个在前帧的带宽将包括第一类型和第二类型的多个类型之一确定为用于所述当前帧的静默帧的类型;以及
相应类型静默帧产生单元,用于对于所述当前帧产生和发送所述确定类型的所述静默帧,其中
所述第一类型包括第一阶的线性预测转换系数,
所述第二类型包括第二阶的线性预测转换系数,并且
所述第一阶小于所述第二阶。
14.一种音频信号处理方法,包括:
接收音频信号;
通过分析所述音频信号来确定当前帧是否是语音活动部分或语音不活动部分;
如果在前帧是所述语音不活动部分并且所述当前帧是所述语音活动部分,并且如果所述当前帧的带宽与所述在前帧的静默帧的带宽不同,则从多个类型中确定与所述当前帧的带宽对应的类型;并且
产生和发送所述确定类型的静默帧,其中
所述多个类型包括第一和第二类型,
所述带宽包括窄带和宽带,并且
所述第一类型对应于所述窄带,并且所述第二类型对应于所述宽带。
15.一种音频信号处理装置,包括:
活动部分确定单元,用于接收音频信号,并且通过分析所述音频信号来确定当前帧是否是语音活动部分或语音不活动部分;
控制单元,如果在前帧是语音不活动部分并且所述当前帧是所述语音活动部分,并且如果所述当前帧的带宽与所述在前帧的静默帧的带宽不同,则所述控制单元用于从多个类型中确定与所述当前帧的带宽对应的类型;以及
相应类型静默帧产生单元,用于产生和发送所述确定类型的静默帧,其中
所述多个类型包括第一和第二类型,
所述带宽包括窄带和宽带,并且
所述第一类型对应于所述窄带,并且所述第二类型对应于所述宽带。
16.一种音频信号处理方法,包括:
接收音频信号;
确定当前帧是否是语音活动部分或语音不活动部分;并且
如果所述当前帧是所述语音不活动部分,则产生和发送用于当前帧的统一静默帧,而与在前帧的带宽无关,
其中,所述统一静默帧包括线性预测转换系数和帧能量的平均。
17.根据权利要求16所述的方法,其中,向所述线性预测转换系数分配28比特,并且向所述帧能量的平均分配7比特。
18.一种音频信号处理装置,包括:
活动部分确定单元,用于接收音频信号,并且用于通过分析所述音频信号来确定当前帧是否是语音活动部分或语音不活动部分;以及
统一静默帧产生单元,如果所述当前帧是所述语音不活动部分,则所述统一静默帧产生单元用于产生和发送用于当前帧的统一静默帧,而与在前帧的带宽无关,
其中,所述统一静默帧包括线性预测转换系数和帧能量的平均。
CN201180033209.2A 2010-07-01 2011-07-01 处理音频信号的方法和装置 Expired - Fee Related CN102985968B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US36050610P 2010-07-01 2010-07-01
US61/360,506 2010-07-01
US38373710P 2010-09-17 2010-09-17
US61/383,737 2010-09-17
US201161490080P 2011-05-26 2011-05-26
US61/490,080 2011-05-26
PCT/KR2011/004843 WO2012002768A2 (ko) 2010-07-01 2011-07-01 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
CN102985968A true CN102985968A (zh) 2013-03-20
CN102985968B CN102985968B (zh) 2015-12-02

Family

ID=45402600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180033209.2A Expired - Fee Related CN102985968B (zh) 2010-07-01 2011-07-01 处理音频信号的方法和装置

Country Status (5)

Country Link
US (1) US20130268265A1 (zh)
EP (1) EP2590164B1 (zh)
KR (1) KR20130036304A (zh)
CN (1) CN102985968B (zh)
WO (1) WO2012002768A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106605263A (zh) * 2014-07-29 2017-04-26 奥兰吉公司 确定用于编码lpd/fd过渡帧的预算
CN113259059A (zh) * 2014-04-21 2021-08-13 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
CN113689810A (zh) * 2020-05-18 2021-11-23 Lg电子株式会社 图像显示设备及其方法
US11887614B2 (en) 2014-04-21 2024-01-30 Samsung Electronics Co., Ltd. Device and method for transmitting and receiving voice data in wireless communication system

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9065576B2 (en) 2012-04-18 2015-06-23 2236008 Ontario Inc. System, apparatus and method for transmitting continuous audio data
AU2014211586B2 (en) * 2013-01-29 2017-02-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for coding mode switching compensation
WO2015147533A2 (ko) 2014-03-24 2015-10-01 삼성전자 주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR102710600B1 (ko) * 2019-02-18 2024-09-27 삼성전자주식회사 실시간 비트레이트 제어 방법 및 이를 위한 전자 장치
WO2022009505A1 (ja) * 2020-07-07 2022-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、復号方法、及び、ハイブリッド符号化システム
CN115206330A (zh) * 2022-07-15 2022-10-18 北京达佳互联信息技术有限公司 音频处理方法、音频处理装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004040830A1 (en) * 2002-10-31 2004-05-13 Nokia Corporation Variable rate speech codec
US20050075873A1 (en) * 2003-10-02 2005-04-07 Jari Makinen Speech codecs
CN101048964A (zh) * 2004-10-26 2007-10-03 诺基亚公司 分组丢失补偿
CN101505202A (zh) * 2009-03-16 2009-08-12 华中科技大学 一种流媒体传输自适应纠错方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
KR100614496B1 (ko) * 2003-11-13 2006-08-22 한국전자통신연구원 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
KR20080091305A (ko) * 2008-09-26 2008-10-09 노키아 코포레이션 서로 다른 코딩 모델들을 통한 오디오 인코딩
CN102460574A (zh) * 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
EP2640052B1 (en) * 2010-11-10 2019-07-24 Panasonic Intellectual Property Corporation of America Terminal and coding mode selection method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004040830A1 (en) * 2002-10-31 2004-05-13 Nokia Corporation Variable rate speech codec
US20050075873A1 (en) * 2003-10-02 2005-04-07 Jari Makinen Speech codecs
CN101048964A (zh) * 2004-10-26 2007-10-03 诺基亚公司 分组丢失补偿
CN101505202A (zh) * 2009-03-16 2009-08-12 华中科技大学 一种流媒体传输自适应纠错方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259059A (zh) * 2014-04-21 2021-08-13 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
CN113259058A (zh) * 2014-04-21 2021-08-13 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
US11887614B2 (en) 2014-04-21 2024-01-30 Samsung Electronics Co., Ltd. Device and method for transmitting and receiving voice data in wireless communication system
CN113259059B (zh) * 2014-04-21 2024-02-09 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
CN106605263A (zh) * 2014-07-29 2017-04-26 奥兰吉公司 确定用于编码lpd/fd过渡帧的预算
CN106605263B (zh) * 2014-07-29 2020-11-27 奥兰吉公司 确定用于编码lpd/fd过渡帧的预算
CN113689810A (zh) * 2020-05-18 2021-11-23 Lg电子株式会社 图像显示设备及其方法
US11665397B2 (en) 2020-05-18 2023-05-30 Lg Electronics Inc. Image display apparatus and method thereof

Also Published As

Publication number Publication date
EP2590164A4 (en) 2013-12-04
US20130268265A1 (en) 2013-10-10
EP2590164A2 (en) 2013-05-08
WO2012002768A3 (ko) 2012-05-03
WO2012002768A2 (ko) 2012-01-05
KR20130036304A (ko) 2013-04-11
EP2590164B1 (en) 2016-12-21
CN102985968B (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN102985968B (zh) 处理音频信号的方法和装置
RU2764287C1 (ru) Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
TW580691B (en) Method and apparatus for interoperability between voice transmission systems during speech inactivity
AU2014320881B2 (en) Adaptive bandwidth extension and apparatus for the same
CN104123946B (zh) 用于在与语音信号相关联的包中包含识别符的系统及方法
KR102039399B1 (ko) 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상
TWI672691B (zh) 解碼方法
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
CN104299618B (zh) 统合地编码语音信号和音频信号的编码方法和解码方法
JP2007538283A (ja) オーディオ用コーダ・モード切り替え支援
JP2008535024A (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
WO2008148321A1 (fr) Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil
JP2004509366A (ja) 複数チャネル信号の符号化及び復号化
CN101622666B (zh) 非因果后置滤波器
CN104995678B (zh) 用于控制平均编码率的系统和方法
CN100527225C (zh) 基于celp的语音代码之间的代码转换方案
AU2008221657B2 (en) Method and arrangement for smoothing of stationary background noise
JP2001005474A (ja) 音声符号化装置及び方法、入力信号判定方法、音声復号装置及び方法、並びにプログラム提供媒体
AU2012331680B2 (en) Audio encoding/decoding based on an efficient representation of auto-regressive coefficients
CN105765653A (zh) 自适应高通后滤波器
CN101572090B (zh) 一种自适应多速率窄带编码方法及编码器
KR100735246B1 (ko) 오디오 신호 전송 장치 및 방법
CN102760441A (zh) 一种背景噪声编码/解码装置、方法和通信设备
JP2762938B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151202

Termination date: 20170701

CF01 Termination of patent right due to non-payment of annual fee