KR101756834B1 - 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 - Google Patents

오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 Download PDF

Info

Publication number
KR101756834B1
KR101756834B1 KR1020080068377A KR20080068377A KR101756834B1 KR 101756834 B1 KR101756834 B1 KR 101756834B1 KR 1020080068377 A KR1020080068377 A KR 1020080068377A KR 20080068377 A KR20080068377 A KR 20080068377A KR 101756834 B1 KR101756834 B1 KR 101756834B1
Authority
KR
South Korea
Prior art keywords
signal
unit
audio
decoding
speech
Prior art date
Application number
KR1020080068377A
Other languages
English (en)
Other versions
KR20100007651A (ko
Inventor
오은미
김중회
주기현
성호상
김미영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41505940&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101756834(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020080068377A priority Critical patent/KR101756834B1/ko
Priority to JP2011518646A priority patent/JP2011528135A/ja
Priority to BRPI0916449A priority patent/BRPI0916449A8/pt
Priority to MYPI2011000202A priority patent/MY154100A/en
Priority to CN201610509620.7A priority patent/CN105913851B/zh
Priority to US12/502,454 priority patent/US8532982B2/en
Priority to CN201610515415.1A priority patent/CN105957532B/zh
Priority to EP09798088.2A priority patent/EP2313888A4/en
Priority to MX2011000557A priority patent/MX2011000557A/es
Priority to CN200980135987.5A priority patent/CN102150202B/zh
Priority to PCT/KR2009/003870 priority patent/WO2010008185A2/en
Publication of KR20100007651A publication Critical patent/KR20100007651A/ko
Priority to IL210664A priority patent/IL210664A/en
Priority to US14/020,006 priority patent/US9355646B2/en
Priority to US15/149,847 priority patent/US9728196B2/en
Publication of KR101756834B1 publication Critical patent/KR101756834B1/ko
Application granted granted Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오/스피치 신호의 부호화 및 복호화 방법 및 장치가 제공된다. 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환하고, 적절한 분해능을 결정하여 부호화하고 복호화함으로써, 오디오 신호, 스피치 신호, 및 오디오 신호가 혼합된 신호를 처리할 수 있다.
부호화, 복호화, temporal resolution, frequency resolution

Description

오디오/스피치 신호의 부호화 및 복호화 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING OF SPEECH AND AUDIO SIGNAL}
하기에서 설명하는 것은 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치에 관한 것이다.
코덱(codec)은 스피치 코덱(speech codec)과 오디오 코덱(audio codec)으로 분류된다. 스피치 코덱은 음성 발성 모델을 이용하여 주로 50Hz에서 7kHz에 이르는 주파수 대역에 해당하는 신호를 부호화하거나 복호화 한다. 이러한 스피치 코덱은 일반적으로 성대와 성도를 모델링함으로써, 음성 신호를 대표하는 파라미터를 추출하여 부호화 및 복호화를 수행한다. 오디오 코덱은 HE-AAC와 같이 심리 음향 모델을 적용하여 주로 0Hz에서 24Hz에 이르는 주파수 대역에 해당하는 신호를 부호화하거나 복호화한다. 이러한 오디오 코덱은 인간의 청각 특성을 이용하여 감도가 낮은 신호를 생략함으로써 부호화 및 복호화를 수행한다.
스피치 코덱은 스피치 신호를 보호화하거나, 복호화하는 데 적합하지만 오디오 신호를 부호화하거나 복호화하는 데 있어서 음질이 저하된다. 오디오 코덱은 오디오 신호를 부호화하거나 복호화할 경우 압축 효과가 뛰어나지만 음성 신호를 부호화/복호화함에 있어서 신호를 압축하는 효율이 떨어진다.
개시되는 실시예는 스피치(speech) 신호, 오디오(audio) 신호 및 스피치 신호와 오디오 신호가 혼합된 신호를 효율적으로 부호화하고 복호화할 수 있도록 한다.
개시되는 실시예에 따른 오디오/스피치 신호의 부호화 장치는, 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환하는 신호 변환부, 상기 신호 변환부가 상기 입력 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하도록 제어하는 심리음향 모델부, 상기 신호 변환부에서 변환된 신호를 음성 발성 모델에 기초하여 부호화하는 높은 시간 분해능 부호화부(high temporal resolution coding tool), 및 상기 신호 변환부 및/또는 높은 시간 분해능 부호화부에서 출력된 신호를 양자화 및 부호화하는 양자화/부호화부를 포함한다.
이때, 중복정보가 제거된 신호를 모델링하기 위한 CELP(Code Excitation Linear Prediction)를 포함할 수 있다.
이때, 상기 오디오 또는 스피치 입력 신호의 고주파수 정보를 처리하는 고주파 신호 처리부 및 상기 오디오 또는 스피치 입력 신호의 스테레오 정보를 처리하 는 스테레오 신호 처리부 중 적어도 하나를 더 포함할 수 있다.
이때, 상기 높은 시간 분해능 부호화부는, 중복정보가 제거된 신호를 모델링하기 위한 CELP(Code Excitation Linear Prediction)를 포함할 수 있다.
이때, 상기 입력 오디오 또는 스피치 신호가, 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 정보에 기초하여, 상기 양자화/부호화부 및 높은 시간 분해능 부호화부에 의한 부호화 중 어느 하나를 선택하는 스위칭부를 더 포함할 수 있다.
이때, 상기 입력 오디오 또는 스피치 신호를 다운 샘플링하는 다운 샘플링부를 더 포함할 수 있다.
이때, 상기 신호 변환부는, FV-MLT 및 MDCT 중 적어도 어느 하나를 포함할 수 있다.
이때, 상기 심리음향 모델부는, 상기 양자화/부호화 부 측으로, 양자화 시의 노이즈에 대한 정보를 제공할 수 있다.
이때, 상기 높은 시간 분해능 부호화부는, 상기 신호 변환부에서 변환된 신호에 음성 발성모델을 적용하여 부호화하고 중복정보를 제거하는 예측부를 더 포함할 수 있다.
개시되는 실시예에 따른 오디오/스피치 신호의 복호화 장치는, 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 높은 주파수 신호(high frequency resolution signal) 또는 높은 시간 신호 (high temporal resolution signal)인지 결정하는 분해능 결정부, 상기 분해능 결정부의 출력신호에 따라 상기 비트스트림을 역양자화하는 역양자화부, 상기 역양자화부로부터 역양자화된 신호를 수신하고, 상기 비트스트림으로부터 역 선형예측에 필요한 부가정보를 검출한 후, 상기 역양자화된 신호와 상기 부가정보를 이용하여 높은 시간 신호를 복원하는 높은 시간 분해능 복호화부(high temporal resolution decoding tool), 및 상기 높은 시간 분해능 복호화부로부터 제공되는 신호 및/또는 상기 역양자화/부호화 부에서 역양자화된 신호를 시간영역의 오디오 또는 스피치신호로 역변환하는 역신호 변환부를 포함할 수 있다.
이때, 상기 역변환된 신호의 고주파수 정보를 처리하는 고주파 신호 처리부, 또는 상기 역변환된 신호의 스테레오 정보를 처리하는 스테레오 신호 처리부를 더 포함할 수 있다.
개시되는 실시예에 따른 오디오/스피치 신호의 부호화 장치는, 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환하는 신호 변환부, 상기 신호 변환부가 상기 입력 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하도록 제어하는 심리음향 모델부, 상기 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하는 시간 노이즈 성형부, 상기 변환된 신호의 스테레오 정보를 부호화하는 하이레이트 스테레오부, 및 상기 시간 노이 즈 성형부 및/또는 하이레이트 스테레오부에서 출력된 신호를 양자화 및 부호화하는 양자화/부호화 부를 포함할 수 있다.
이때, 상기 오디오 또는 스피치 신호의 고주파 신호를 처리하는 고주파 신호 처리부를 더 포함할 수 있다.
개시되는 실시예에 따른 오디오/스피치 신호의 복호화 장치는, 비트스트림을 역양자화하는 역양자화/부호화 부, 상기 역양자화 된 신호를 복호화하는 하이레이트 스테레오 복호화부, 상기 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환한 신호를, 복호화하는 시간 노이즈 성형 복호화부, 및 상기 복호화된 신호를 시간영역의 오디오 또는 스피치신호로 역변환하는 역신호 변환부를 포함한다.
이때, 상기 역변환 된 신호의 고주파 정보를 처리하는 고주파 신호 처리부를 더 포함할 수 있다.
개시되는 실시예에 따른 오디오/스피치 신호의 부호화 장치는, 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환하는 신호 변환부, 상기 신호 변환부가 상기 입력 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하도록 제어하는 심리음향 모델부, 상기 변환된 신호가 로우 레이트(Low rate)인지의 여부를 판단하는 로우 레이트 판단부, 상기 판단 결과 로우 레 이트인 경우, 상기 신호 변환부에서 변환된 신호를 음성 발성 모델에 기초하여 부호화하는 높은 시간 분해능 부호화부(high temporal resolution coding tool), 상기 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하는 시간 노이즈 성형부, 상기 변환된 신호의 스테레오 정보를 변수화된 정보로 코딩하는 하이레이트 스테레오부, 및 상기 신호 변환부 및/또는 높은 시간 분해능 부호화부에서 출력된 신호를 양자화 및 부호화하는 양자화/부호화 부를 포함한다.
이때, 선정된 정보에 기초하여 스테레오 신호 처리부의 동작 여부를 판단하는 스테레오 신호 처리부 판단부, 상기 판단 결과 상기 스테레오 신호 처리부의 동작이 필요한 것으로 판단되는 경우, 입력되는 고주파 신호의 스테레오 정보를 처리하는 스테레오 신호 처리부, 선정된 정보에 기초하여 고주파 신호 처리부의 동작 여부를 판단하는 고주파 신호 처리부 판단부, 및 상기 판단 결과 상기 고주파 신호 처리부의 동작이 필요한 것으로 판단되는 경우, 입력되는 고주파 신호를 처리하는 고주파 신호 처리부를 더 포함할 수 있다.
개시되는 실시예에 따른 오디오/스피치 신호의 부호화 방법은, 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환하는 단계, 상기 입력 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하도록 제어하는 단계, 상기 변환된 신호를 음성 발성 모델에 기초하여 부호화하는 단계, 및 상기 변환된 신호 및/또는 부호화된 신호를 양자화 및 부호화하는 단계를 포함한다.
개시되는 실시예에 따른 오디오/스피치 신호의 복호화 방법은, 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 높은 주파수 신호(high frequency resolution signal) 또는 높은 시간 신호 (high temporal resolution signal)인지 결정하는 단계, 상기 결정에 따라 상기 비트스트림을 역양자화하는 단계, 상기 역양자화된 신호를 수신하고, 상기 비트스트림으로부터 역 선형예측에 필요한 부가정보를 검출한 후, 상기 역양자화된 신호와 상기 부가정보를 이용하여 높은 시간 신호를 복원하는 단계, 및 상기 복원된 신호 및/또는 상기 역양자화된 신호를 시간영역의 오디오 또는 스피치신호로 역변환하는 단계를 포함한다.
개시되는 실시예에 따르면, 스피치(speech) 신호, 오디오(audio) 신호 및 스피치 신호와 오디오 신호가 혼합된 신호를 효율적으로 부호화하고, 복호화할 수 있다.
또한, 개시되는 실시예에 따르면, 부호화 및 복호화를 수행함에 있어서 적은 비트를 사용하면서도 음질을 보다 향상시킬 수 있다.
이하, 첨부된 도면을 참조하여 다양한 실시예들을 상세하게 설명한다.
도 1은 오디오/스피치 신호의 부호화 장치의 구성예를 나타낸다.
도 1을 참조하면, 오디오/스피치 신호의 부호화 장치는, 신호 변환부(110), 심리음향 모델부(Psychoacoustic model: 120), 높은 시간 분해능 부호화부(High temporal resolution coding tool: 130), 양자화/부호화 부(Quantizer: 140), 스테레오 신호 처리부(Parametric Stereo: 150), 고주파 신호 처리부(Spectral Bandwidth Replication: 160), 및 다중화부(170)를 포함한다.
신호 변환부(110)는 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환한다.
심리 음향 모델부(120)는 신호 변환부(110)가 상기 입력 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하도록 제어한다.
즉, 심리음향 모델부(120)는 양자화를 위한 마스킹 역치(masking threshold)를 산정하고, 상기 마스킹 역치에 따라서, 입력 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하도록 제어할 수 있다.
높은 시간 분해능 부호화부(130)는 신호 변환부(110)에서 변환된 신호를 음성 발성 모델에 기초하여 부호화한다.
특히, 심리음향 모델부(120)는 높은 시간 분해능 부호화부(130)의 제어를 위한 정보 신호를, 높은 시간 분해능 부호화부(130) 측으로 제공할 수 있다.
이때, 높은 시간 분해능 부호화부(130)는 신호 변환부(110)에서 변환된 신호 에 음성 발성모델을 적용하여 부호화하고 중복정보를 제거하는 예측부(도시되지 아니함)를 포함하여 구성될 수 있다. 이와 같은 예측부는 단구간 예측기(short-term predictor) 및 장구간 예측기(long-term predictor)를 포함할 수 있다.
양자화/부호화부(140)는 신호 변환부(110) 및/또는 높은 시간 분해능 부호화부(130)에서 출력된 신호를 양자화 및 부호화한다.
이때, 양자화/부호화부(140)는 중복정보가 제거된 신호를 모델링하기 위한 CELP(Code Excitation Linear Prediction)(도시되지 아니함)를 포함하여 구성될 수 있다.
스테레오 신호 처리부(150)는 상기 입력 오디오 또는 스피치 신호의 스테레오 정보를 처리하고, 고주파 신호 처리부(160)는 상기 입력 오디오 또는 스피치 신호의 고주파수 정보를 처리한다.
상기와 같이 제안된 실시예를 구체적인 일례를 들어서, 보다 상세하게 설명하면 다음과 같다.
신호 변환부(110)에 의하여 스펙트럼 계수(Spectral coefficients)는 몇 개의 주파수 밴드들로 나뉘고, 심리음향 모델부(120)에서는 스펙트럼의 특성을 분석하여 각 주파수 밴드의 시간 분해능(temporal resolution) 또는 주파수 분해능(frequency resolution)을 판별한다.
특정 주파수 밴드에서 높은 시간 분해능(high temporal resolution)이 보다 적합한 경우에는, 높은 시간 분해능 부호화부(high temporal resolution coding tool: 130)을 동작 시키기 위하여, 그 주파수 밴드에서의 스펙트럼 계수가 상기 신 호 변환부(110) 내에 포함되어 구성되는 역방향 변환기, 예를 들어 역-MLT(inverse-MTL)에 의하여 변환될 수 있다.
이때, 높은 시간 분해능 부호화부(130)는 단구간 예측기(short-term predictor) 및 장구간 예측기(long-term predictor)를 포함하여 구성될 수 있다.
높은 시간 분해능 부호화부(130)는, 입력 신호가 스피치(음성) 신호인 경우에, 보다 증가된 시간 분해능(Increased temporal resolution)에 의해 스피치 생성 모듈의 특성을 효과적으로 반영할 수 있다. 보다 상세하게 살펴보면, 단구간 예측기(short-term predictor)는, 신호 변환부(110)로부터 수신한 데이터에 적용하여, 시간 도메인(Temporal domain)에서의 샘플들 간의 단구간 중복정보(short-term correlations)을 제거할 수 있으며, 또한, 장구간 예측기(long-term predictor)는 단구간예측(short-term prediction)된 잔여 신호 데이터를 처리하여, 장구간 중복정보 (long-term correlations)을 제거할 수 있다.
양자화/부호화부(140)는 입력 받은 비트레이트(bitrate)의 스텝 크기(step-size)를 계산한다. 양자화된 샘플들 및 양자화/부호화부(140)의 부가 정보들은, 산술 부호화기(arithmetic coding) 혹은 허프만 부호화기(Huffman Coding) 와 같은 통계적 중복정보를 제거하는 툴을 사용하게 된다.
스테레오 신호 처리부(parametric stereo: 150)는 32kbits/sec 보다 낮은 비트레이트(bitrate)에서 동작하게 되며, 일실시예에서 스테레오 신호 처리부(150)는 MPEG 스테레오 신호 처리부를 확장한 것이 적용될 수 있다. 또한, 고주파 신호 처리부(Spectral Bandwidth Replication: 160)는 고주파 신호(High frequency signal)를 효과적으로 코딩할 수 있다.
다중화부(170)에서는 각 모듈의 출력 신호를 비트스트림(bit stream)으로 출력한다. 이때, 비트스트림은 산술부호화나 허프만 부호화 같은 압축 방식을 이용하여 생성될 수 있다.
도 2는 오디오/스피치 신호의 복호화 장치의 구성예를 나타낸다.
도 2를 참조하면, 오디오/스피치 신호의 복호화 장치는, 분해능 결정부(T/F resolution decision: 210), 높은 시간 분해능 복호화부(High temporal resolution decoding tool: 220), 역양자화/부호화 부(Dequantizer: 230), 역 신호 변환부(240), 고주파 신호 처리부(Spectral Bandwidth Replication: 250), 및 스테레오 신호 처리부(Parametric Stereo: 260)를 포함한다.
분해능 결정부(210)는 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 높은 주파수 신호(high frequency resolution signal) 또는 높은 시간 신호 (high temporal resolution signal)인지 결정한다.
역양자화부(230)는 분해능 결정부(210)의 출력신호에 따라 상기 비트스트림을 역양자화한다.
높은 시간 분해능 복호화부(high temporal resolution decoding tool: 220)는 역양자화부(230)로부터 역양자화된 신호를 수신하고, 상기 비트스트림으로부터 역선형 예측에 필요한 부가정보를 검출한 후, 상기 역양자화된 신호와 상기 부가정보를 이용하여 높은 시간 신호를 복원한다.
역신호 변환부(240)는, 높은 시간 분해능 복호화부(220)로부터 제공되는 신호 및/또는 역양자화/부호화부(230)에서 역양자화된 신호를 시간영역의 오디오 또는 스피치신호로 역변환한다.
이때, 역신호 변환부(240)로는 역 FV-MLT(Inverse Frequency Varying Modulated Lapped Transform)가 사용될 수 있다.
고주파 신호 처리부(250)는 역변환된 신호의 고주파수 정보를 처리하고, 스테레오 신호 처리부(260)는 상기 역변환된 신호의 스테레오 정보를 처리하게 된다.
한편, 상기 비트스트림은 역양자화부(230), 고주파 신호 처리부(250), 및 스테레오 신호 처리부(260) 측으로 입력되어, 복호화에 사용될 수 있다.
도 3은 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 3을 참조하면, 오디오/스피치 신호의 부호화 장치는, 신호 변환부(310), 심리음향 모델부(320), 시간 노이즈 성형부(Temporal Noise Shaping: 330), 하이레이트 스테레오부(Highrate Stereo Tool: 340), 양자화/부호화 부(350), 및 고주파 신호 처리부를 포함한다.
신호 변환부(310)는 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환한다.
이때, 신호 변환부(310)로는 MDCT(Modified Discrete Cosine Transform: 310)가 사용될 수 있다.
심리음향 모델부(320)는 신호 변환부(310)가 상기 입력 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환하도록 제어한다.
시간 노이즈 성형부(330)는 상기 오디오 또는 스피치 신호를 높은 주파수 신호 (high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환한다.
하이레이트 스테레오부(340)는 상기 변환된 신호의 스테레오 정보를 부호화한다.
양자화/부호화부(350)는 시간 노이즈 성형부(330) 및/또는 하이레이트 스테레오부(340)에서 출력된 신호를 양자화 및 부호화한다.
고주파 신호 처리부(360)는 상기 오디오 또는 스피치 신호의 고주파 신호를 처리할 수 있다.
다중화부(370)에서는 각 모듈의 출력 신호를 비트스트림으로 출력한다. 이때, 비트스트림은 산술부호화나 허프만 부호화 같은 압축 방식을 이용하여 생성될 수 있음은 상술한 바와 같다.
도 4는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 4를 참조하면, 오디오/스피치 신호의 복호화 장치는, 역양자화/부호화 부(410), 하이레이트 스테레오 복호화부(Hirate Stereo Tool Decoding: 420), 시간 노이즈 성형 복호화부(Temporal Noise Shaping decoding: 430), 역 신호 변환부(440), 및 고주파 신호 처리부(450)를 포함한다.
역양자화/부호화부(410)는 비트스트림을 역양자화한다.
스테레오 복호화부(420)는 상기 역양자화 된 신호를 복호화하고, 시간 노이즈 성형 복호화부(430)는 상기 오디오 또는 스피치 신호를 높은 주파수 신호(high frequency resolution signal) 및/또는 높은 시간 신호(high temporal resolution signal)로 변환한 신호를 복호화한다.
역신호 변환부(440)상기 복호화된 신호를 시간영역의 오디오 또는 스피치신호로 역변환하며 이때, 역신호 변환부(440)로는 역-MDCT(Inverse MDCT)가 사용될 수 있다.
도 5는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 5를 참조하면, 오디오/스피치 신호의 부호화 장치는, 도 1에 도시된 오디오/스피치 신호의 부호화 장치에서 양자화/부호화부(510)에 CELP가 포함되어 구성되는 것과는 달리, CELP가 높은 시간 분해능 부호화부(520)에 포함되어 구성될 수 있다.
즉, 높은 시간 분해능 부호화부(High temporal resolution coding tool: 520)는 단구간 예측기(short-term predictor), 장구간 예측기(long-term predictor), 및 CELP를 포함하여 구성될 수 있다. 이때, CELP는 중복정보가 제거된 신호를 모델링하기 위한 모듈(excitation modeling module)을 의미한다.
높은 시간 분해능 부호화부(520)는, 입력 신호가 스피치 신호인 경우에, 상승된 시간 분해능(Increased temporal resolution)에 의해 스피치 생성 모듈의 특성을 효과적으로 반영할 수 있다.
보다 상세하게 설명하면, 신호 변환부가 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호를 심리음향 모델부(530)의 제어에 의하여 높은 시간 분해능 신호로 변환하는 경우에는, 상기 높은 시간 분해능 신호로 변환된 신호가 스펙트럼 양자화/부호화부(510)에 의하여 양자화 및/또는 부호화되지 않으며, 높은 시간 분해능 부호화부(520) 측에서 상기 신호의 양자화 및/또는 부호화가 수행된다.
또한, 높은 시간 분해능 부호화부(520)에는 CELP가 포함되어 구성되어, CELP는 단구간 중복정보(short-term correlations) 및 장구간 중복정보(long-term correlations)의 잔여 신호를 부호화한다.
도 6은 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 6을 참조하면, 오디오/스피치 신호의 부호화 장치는, 도 1에 도시된 오디오/스피치 신호의 부호화 장치에, 스위칭부(610)를 더 포함하여 구성될 수 있다.
스위칭부(610)는 시간축 코딩 또는 주파수 코딩에 대한 정보에 기초하여, 상기 양자화/부호화부(620)에 의한 신호의 양자화, 또는 시간 분해능 부호화부(630)에 의한 부호화를 선택할 수 있다.
또한, 도 7은 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 7을 참조하면, 오디오/스피치 신호의 복호화 장치는, 도 2에 도시된 오디오/스피치 신호의 복호화 장치에, 스위칭부(710)를 더 포함하여 구성될 수 있다. 즉, 스위칭부(710)에 의하여 높은 시간 분해능 복호화부(720) 또는 스펙트럼 역양자화부(730)의 사용여부를 제어할 수 있다.
도 8은 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 8을 참조하면, 오디오/스피치 신호의 부호화 장치는, 도 1에 도시된 오디오/스피치 신호의 부호화 장치에, 다운 샘플링부(810)를 더 포함하여 구성될 수 있다.
다운샘플링부(810)는 입력 신호를 저주파수 신호로 다운샘플링(downsampling) 한다. 저주파 신호는 다운샘플링을 통해 생성되며, 하이 레이트(high rate) 및 로우 레이트(low rate)의 듀얼 레이트(dual rate)인 경우에 필요하다. 즉, 저주파신호 부호화 방식의 샘플링 주파수가 고주파 신호 처리부 (Spectral Bandwidth Replication) 의 동작 샘플링 레이트의 1/2 혹은 1/4로 낮은 샘플링 레이트에서 동작하는 경에 필요하다. 스테레오 신호 처리부를 적용한 경우에는, 스테레오 신호 처리부에서 다운믹스 신호를 위한 QMF(Quadrature Mirror Filter) 합성(synthesis) 시에 다운샘플링을 수행하게 된다.
이때, 하이 레이트(high rate)는 64kbits/sec 보다 큰 레이트에 해당하고, 로우 레이트(low rate)는 64kbits/sec 보다 작은 레이트에 해당하도록 구성될 수 있다.
도 9는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
분해능 결정부는 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 높은 주파수 신호(high frequency resolution signal) 또는 높은 시간 신호 (high temporal resolution signal) 인지 결정한다.
역양자화부(910)는 분해능 결정부(920)의 출력신호에 따라 상기 비트스트림을 역양자화한다.
높은 시간 분해능 복호화부(high temporal resolution decoding tool:930)는 상기 역양자화부(920)로부터 역양자화된 신호를 수신하고, 상기 비트스트림으로부터 역 선형예측에 필요한 부가정보를 검출한 후, 상기 역양자화된 신호와 상기 부가정보를 이용하여 높은 시간 신호를 복원한다.
역신호 처리부(940)는, 높은 시간 분해능 복호화부(930)로부터 제공되는 신호 및/또는 역양자화 (920)에서 역양자화된 신호를 시간영역의 오디오 또는 스피치 신호로 역변환한다.
이때, 도 9에 도시된 오디오/스피치 신호의 복호화 장치에서는, 업샘플링(u ampling)이 고주파 신호 처리부(950)에서 수행될 수 있다.
도 10은 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 10에 도시된 오디오/스피치 신호의 부호화 장치는, 도 5에 도시된 오디오/스피치 신호의 부호화 장치에 다운샘플링부(1010)를 더 포함할 수 있다.
즉, 저주파 신호가 다운샘플링(downsampling)을 통해 생성된다.
스테레오 신호 처리부(1020)를 적용한 경우에는, 스테레오 신호 처리부(1020)에서 다운믹스 신호를 생성하기 위한 QMF 합성(synthesis) 시에 다운샘플링을 수행한다. 또한, 높은 시간 분해능 부호화부(1030)에서 단구간 예측기(short-term predictor), 장구간 예측기(long-term predictor), 및 CELP까지 포함할 수 있다.
도 11은 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
분해능 결정부(1110)는 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 높은 주파수 신호(high frequency resolution signal) 또는 높은 시간 신호 (high temporal resolution signal)인지 결정한다.
분해능 결정부(1110)가 현재 프레임의 신호를 높은 주파수 신호로 결정한 경우에는, 스펙트럼 역양자화부(1130)는 분해능 결정부(1110)의 출력신호에 따라 상기 비트스트림을 역양자화한다.
한편, 분해능 결정부(1110)가 현재 프레임의 신호를 높은 시간 신호로 결정한 경우에는, 높은 시간 분해능 복호화부(high temporal resolution decoding tool: 1120)가 높은 시간 신호를 복원한다.
역신호 처리부(1140)는, 높은 시간 분해능 복호화부(1120)로부터 제공되는 신호 및/또는 역양자화(1130)에서 역양자화된 신호를 시간영역의 오디오 또는 스피치신호로 역변환한다.
또한, 도 11에 도시된, 오디오/스피치 신호의 복호화 장치에서는, 업샘플링(u ampling)이 고주파 신호 처리부(1150)에서 수행될 수 있다.
도 12는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
보다 상세하게 설명하면, 도 12에 도시된 오디오/스피치 신호의 부호화 장치는, 도 6에 도시된 오디오/스피치 신호의 부호화 장치에, 다운샘플링부(1210)를 더 포함하여 구성될 수 있다.
즉, 저주파 신호가 다운샘플링(down-sampling)을 통해 생성된다.
스테레오 신호 처리부(1220)를 적용한 경우에는, 스테레오 신호 처리부(1220)에서 QMF 합성(synthesis) 시에 다운샘플링을 수행한다.
도시된 부호화 장치 및 복호화 장치의 업/다운 샘플링 팩터(up/down-sampling factor)는 1/2 혹은 1/4가 될 수 있다. 즉, 입력이 48kHz일 경우에는 업/다운 샘플링을 통해 24kHz 혹은 12kHz로 다운샘플링 할 수 있다.
도 13은 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 13을 참조하면, 오디오/스피치 신호의 복호화 장치는, 도 2에 도시된 오디오/스피치 신호의 복호화 장치에, 스위칭부(1310)를 더 포함할 수 있다. 즉, 스위칭부(1310)에 의하여 높은 시간 분해능 복호화부(1320) 또는 스펙트럼 역양자화부(1330)의 사용여부를 제어할 수 있다.
도 14는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 14에 도시된 오디오/스피치 신호의 부호화 장치는, 도 1에 도시된 오디오/스피치 신호 부호화 장치 및 도 3에 도시된 오디오/스피치 신호 부호화 장치를 통합한 형태일 수 있다.
즉, 기설정된 로우 레이트(low rate)와 하이 레이트(high rate)의 정의에 따라, 로우 레이트 판단부(1430)의 판단 결과 로우 레이트인 경우에는, 신호 변환부(1410), 높은 시간 분해능 부호화부(1440) 및/또는 양자화/부호화부(1470)가 동작하고, 하이 레이트인 경우에는 신호 변환부(1410), 시간 노이즈 성형부(TNS: 1450), 및 하이 레이트 스테레오부(1460)가 동작한다.
스테레오 신호 처리부(1481)와 고주파 신호 처리부(1491)는 선정된 기준에 따라 온/오프(on/off)될 수 있으며, 하이 레이트 스테레오부(1460)와 스테레오 신호 처리부(1481)는 동시에 동작하지 않도록 구성될 수 있다.
도 15는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
보다 상세하게 설명하면, 도 15에 도시된 오디오/스피치 신호의 복호화 장치는, 도 2에 도시된 오디오/스피치 신호 복호화 장치 및 도 4에 도시된 오디오/스피치 신호 부호화 장치를 통합한 형태일 수 있다.
즉, 로우 레이트 판단부(1510)의 판단에 따라서, 하이 레이트인 경우에는 하이레이트 스테레오 복호화부(1520), 시간 노이즈 성형 복호화부(1530), 및 역신호 처리부(1540)가 동작하고, 로우 레이트인 경우에는 분해능 결정부(1550), 높은 시간 분해능 복호화부(1560), 역신호 처리부(1540)가 동작할 수 있다. 또한, 고주파 신호 처리부(1570) 및 스테레오 신호 처리부(1580)는 선정된 정보에 따라 동작이 수행될 수 있다.
도 16은 오디오/스피치 신호의 부호화 방법의 일례를 나타내는 흐름도이다.
입력된 오디오 또는 스피치 신호를 주파수 도메인으로 변환하고(S1610), 시간 도메인으로의 변환이 필요한지 여부를 판단한다(S1620).
이때, 상기 입력 오디오 또는 스피치 신호를 다운샘플링하는 과정을 더 포함할 수 있다.
단계(S1620)의 판단 결과에 따라서, 입력 오디오 또는 스피치 신호를 높은 주파수 분해능(high frequency resolution) 및/또는 높은 시간 분해능(high temporal resolution)을 포함하는 신호로 변환한다.
즉, 상기 판단 결과, 시간 도메인으로의 변환이 필요한 경우에는, 높은 시간 신호(high temporal resolution signal)로 변환하여 양자화하고(S1630), 상기 판단 결과, 시간 도메인으로의 변환이 필요하지 않은 경우에는, 양자화 및 부호화(S1640)가 이루어진다.
도 17은 오디오/스피치 신호의 복호화 방법의 일례를 나타내는 흐름도이다.
현재 프레임의 신호가 높은 주파수 신호(high frequency resolution signal) 또는 높은 시간 신호 (high temporal resolution signal)인지 결정한다(S1710).
이때, 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 높은 주파수 신호(high frequency resolution signal) 또는 높은 시간 신호 (high temporal resolution signal)인지 결정할 수 있다.
이후, 출력신호에 따라 상기 비트스트림을 역양자한다(S1720).
상기 역양자화된 신호를 수신하고, 상기 비트스트림으로부터 역 선형예측에 필요한 부가정보를 검출한 후, 상기 역양자화된 신호와 상기 부가정보를 이용하여 높은 시간 신호를 복원한다(S1730).
이후, 상기 높은 시간 분해능 복호화부로부터 제공되는 신호 및/또는 상기 역양자화/부호화부에서 역양자화된 신호를 시간 영역의 오디오 또는 스피치 신호로 역변환한다(S1740).
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 오디오/스피치 신호의 부호화 장치의 구성예를 나타낸다.
도 2는 오디오/스피치 신호의 복호화 장치의 구성예를 나타낸다.
도 3은 제안하는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 4는 제안하는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 5는 제안하는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 6은 제안하는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 7은 제안하는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 8은 제안하는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 9는 제안하는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 10은 제안하는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 11은 제안하는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블 록도이다.
도 12는 제안하는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 13은 제안하는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 14는 제안하는 오디오/스피치 신호의 부호화 장치의 일례를 나타내는 블록도이다.
도 15는 제안하는 오디오/스피치 신호의 복호화 장치의 일례를 나타내는 블록도이다.
도 16은 제안하는 오디오/스피치 신호의 부호화 방법의 일례를 나타내는 흐름도이다.
도 17은 제안하는 오디오/스피치 신호의 복호화 방법의 일례를 나타내는 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
110: 신호 변환부
120: 심리음향 모델부
130: 높은 시간 분해능 부호화부
140: 양자화/부호화 부
150: 스테레오 신호 처리부
160: 고주파 신호 처리부
170: 다중화부

Claims (23)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 상기 시간 영역 코딩으로 부호화되었는지 상기 주파수 영역 코딩으로 부호화되었는지 결정하는 결정부;
    상기 현재 프레임의 신호가 상기 주파수 영역 코딩으로 부호화된 것으로 결정된 경우, 상기 현재 프레임의 신호를 무손실 복호화 및 역양자화하고, 역양자화된 신호를 시간영역으로 역변환하는 역양자화부 및 역신호 변환부;
    상기 현재 프레임의 신호가 상기 시간 영역 코딩으로 부호화된 것으로 결정된 경우, 장구간예측기에 근거한 역선형예측을 이용하여 상기 현재 프레임의 신호를 복원하는 복호화부; 및
    상기 현재 프레임의 신호가 로우레이트인지 하이레이트인지의 판단결과에 대응하여 스테레오 정보를 획득하고, 상기 획득된 스테레오 정보에 근거하여, 상기 시간영역으로 역변환된 신호 또는 상기 복원된 신호로부터 스테레오 신호를 생성하는 스테레오 신호 처리부를 포함하는 것을 특징으로 하는 오디오/스피치 신호의 복호화 장치.
  11. 제10항에 있어서,
    상기 역선형예측에 근거하여 복호화된 신호 혹은 시간영역으로 역변환된 신호의 고주파수 정보를 처리하여 고주파수 대역신호를 생성하는 고주파 신호 처리부를 더 포함하여 구성되는 것을 특징으로 하는 오디오/스피치 신호의 복호화 장치.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 비트스트림에 포함된 시간 영역(time domain) 코딩 또는 주파수 영역(frequency domain) 코딩에 대한 정보에 기초하여, 현재 프레임의 신호가 상기 시간 영역 코딩으로 부호화되었는지 상기 주파수 영역 코딩으로 부호화되었는지 판단하는 단계;
    상기 현재 프레임의 신호가 상기 주파수 영역 코딩으로 부호화된 것으로 판단된 경우, 상기 현재 프레임의 신호를 무손실 복호화 및 역양자화하고, 역양자화된 신호를 시간영역으로 역변환하는 단계;
    상기 현재 프레임의 신호가 상기 주파수 영역 코딩으로 부호화된 것으로 판단된 경우, 상기 현재 프레임의 신호를 장구간예측기에 기반한 역선형예측을 이용하여 상기 현재 프레임의 신호를 복원하는 단계; 및
    상기 현재 프레임의 신호가 로우레이트인지 하이레이트인지의 판단결과에 대응하여 스테레오 정보를 획득하고, 상기 획득된 스테레오 정보에 근거하여, 상기 시간영역으로 역변환된 신호 또는 상기 복원된 신호로부터 스테레오 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오/스피치 신호의 복호화 방법.
  20. 신호가 주파수 도메인에서 부호화되었는지 시간 도메인에서 부호화되었는지 판단하는 단계;
    상기 신호가 상기 주파수 도메인에서 부호화된 경우, 상기 신호를 무손실 복호화 및 역양자화하는 단계;
    상기 신호가 상기 시간 도메인에서 부호화된 경우, 상기 신호를 CELP (Code Excitation Linear Prediction)를 이용하여 복원하는 단계;
    상기 무손실 복호화 및 역양자화된 신호를 시간 도메인 신호로 역변환하는 단계;
    상기 역변환된 신호 또는 상기 복원된 신호를 이용하여 고주파수 대역 신호를 생성하는 단계; 및
    상기 신호가 로우레이트인지 하이레이트인지의 판단결과에 대응하여 스테레오 정보를 획득하고, 상기 획득된 스테레오 정보에 근거하여, 상기 고주파수 대역 신호와 상기 역변환된 신호 또는 상기 고주파수 대역 신호와 상기 복원된 신호로부터 스테레오 신호를 생성하는 단계를 포함하는 오디오 혹은 스피치 신호 복호화방법.
  21. 삭제
  22. 제20항에 있어서, 상기 CELP는 장구간 예측기에 기반하는 오디오 혹은 스피치 신호 복호화방법.
  23. 삭제
KR1020080068377A 2008-07-14 2008-07-14 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 KR101756834B1 (ko)

Priority Applications (14)

Application Number Priority Date Filing Date Title
KR1020080068377A KR101756834B1 (ko) 2008-07-14 2008-07-14 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
CN201610515415.1A CN105957532B (zh) 2008-07-14 2009-07-14 对音频/语音信号进行编码和解码的方法和设备
MX2011000557A MX2011000557A (es) 2008-07-14 2009-07-14 Metodo y aparato de codificacion y decodificacion de señal de audio/voz.
MYPI2011000202A MY154100A (en) 2008-07-14 2009-07-14 Method and apparatus to encode and decode an audio/speech signal
CN201610509620.7A CN105913851B (zh) 2008-07-14 2009-07-14 对音频/语音信号进行编码和解码的方法和设备
US12/502,454 US8532982B2 (en) 2008-07-14 2009-07-14 Method and apparatus to encode and decode an audio/speech signal
JP2011518646A JP2011528135A (ja) 2008-07-14 2009-07-14 オーディオ/音声信号の符号化及び復号化方法とその装置
EP09798088.2A EP2313888A4 (en) 2008-07-14 2009-07-14 METHOD AND APPARATUS FOR ENCODING AND DECODING AN AUDIO / SPEECH SIGNAL
BRPI0916449A BRPI0916449A8 (pt) 2008-07-14 2009-07-14 aparelho para codificar um sinal de áudio/voz, aparelho para decodificar sinal de áudio/voz, aparelho de decodificação de sinal de áudio/voz, método de codificar um sinal de áudio/voz, método de decodificar sinal de áudio/voz, e método de decodificar sinais de áudio e voz
CN200980135987.5A CN102150202B (zh) 2008-07-14 2009-07-14 对音频/语音信号进行编码和解码的方法和设备
PCT/KR2009/003870 WO2010008185A2 (en) 2008-07-14 2009-07-14 Method and apparatus to encode and decode an audio/speech signal
IL210664A IL210664A (en) 2008-07-14 2011-01-13 Method and install and decode audio / speech signal
US14/020,006 US9355646B2 (en) 2008-07-14 2013-09-06 Method and apparatus to encode and decode an audio/speech signal
US15/149,847 US9728196B2 (en) 2008-07-14 2016-05-09 Method and apparatus to encode and decode an audio/speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080068377A KR101756834B1 (ko) 2008-07-14 2008-07-14 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020170084983A Division KR101847076B1 (ko) 2017-07-04 2017-07-04 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100007651A KR20100007651A (ko) 2010-01-22
KR101756834B1 true KR101756834B1 (ko) 2017-07-12

Family

ID=41505940

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080068377A KR101756834B1 (ko) 2008-07-14 2008-07-14 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치

Country Status (10)

Country Link
US (3) US8532982B2 (ko)
EP (1) EP2313888A4 (ko)
JP (1) JP2011528135A (ko)
KR (1) KR101756834B1 (ko)
CN (3) CN105913851B (ko)
BR (1) BRPI0916449A8 (ko)
IL (1) IL210664A (ko)
MX (1) MX2011000557A (ko)
MY (1) MY154100A (ko)
WO (1) WO2010008185A2 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
CA3105050C (en) 2010-04-09 2021-08-31 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
ES2700246T3 (es) 2013-08-28 2019-02-14 Dolby Laboratories Licensing Corp Mejora paramétrica de la voz
CN103473836B (zh) * 2013-08-30 2015-11-25 福建星网锐捷通讯股份有限公司 一种面向安全的具有声音变调功能的室内机及其智能楼宇对讲系统
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
CN105957533B (zh) * 2016-04-22 2020-11-10 杭州微纳科技股份有限公司 语音压缩方法、语音解压方法及音频编码器、音频解码器
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
CN108768587B (zh) * 2018-05-11 2021-04-27 Tcl华星光电技术有限公司 编码方法、设备及可读存储介质
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
CN111341330B (zh) * 2020-02-10 2023-07-25 科大讯飞股份有限公司 音频编解码方法、存取方法及其相关设备及存储装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001065544A1 (en) 2000-02-29 2001-09-07 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction speech coder
JP2004004710A (ja) * 2002-04-11 2004-01-08 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3158932B2 (ja) 1995-01-27 2001-04-23 日本ビクター株式会社 信号符号化装置及び信号復号化装置
JP3342996B2 (ja) * 1995-08-21 2002-11-11 三星電子株式会社 多チャネルオーディオ符号化器及び符号化方法
JP3522012B2 (ja) 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
JP3580777B2 (ja) * 1998-12-28 2004-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
US6947888B1 (en) 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
EP1493146B1 (en) * 2002-04-11 2006-08-02 Matsushita Electric Industrial Co., Ltd. Encoding and decoding devices, methods and programs
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
JP2005141121A (ja) * 2003-11-10 2005-06-02 Matsushita Electric Ind Co Ltd オーディオ再生装置
JP2007528025A (ja) * 2004-02-17 2007-10-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ配信システム、オーディオエンコーダ、オーディオデコーダ、及びそれらの動作方法
CN1677490A (zh) 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2005096508A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Equipement de codage et de decodage audio ameliore, procede associe
EP1873753A1 (en) * 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
KR101037931B1 (ko) 2004-05-13 2011-05-30 삼성전자주식회사 2차원 데이터 처리를 이용한 음성 신호 압축 및 복원장치와 그 방법
KR100634506B1 (ko) 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
CN101010726A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频解码器、方法以及程序
RU2007107348A (ru) * 2004-08-31 2008-09-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство и способ генерирования стереосигнала
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN100561576C (zh) * 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 一种基于量化信号域的立体声及多声道编解码方法与系统
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR101237413B1 (ko) 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
US7809018B2 (en) * 2005-12-16 2010-10-05 Coding Technologies Ab Apparatus for generating and interpreting a data stream with segments having specified entry points
DE602006006346D1 (de) * 2005-12-16 2009-05-28 Dolby Sweden Ab Vorrichtung zum erzeugen und interpretieren eines datenstroms mit einer reihe von segmenten unter verwendung von daten in nachfolgenden datenrahmen
CN101136202B (zh) * 2006-08-29 2011-05-11 华为技术有限公司 音频信号处理系统、方法以及音频信号收发装置
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR100964402B1 (ko) 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
KR101196506B1 (ko) * 2007-06-11 2012-11-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 임펄스형 부분 및 정적 부분을 갖는 오디오 신호를 인코딩하는 오디오 인코더 및 인코딩 방법, 디코더, 디코딩 방법 및 인코딩된 오디오 신호
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101450940B1 (ko) * 2007-09-19 2014-10-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 멀티채널 오디오의 조인트 인핸스먼트
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001065544A1 (en) 2000-02-29 2001-09-07 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction speech coder
JP2004004710A (ja) * 2002-04-11 2004-01-08 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置

Also Published As

Publication number Publication date
US20100010807A1 (en) 2010-01-14
KR20100007651A (ko) 2010-01-22
IL210664A (en) 2014-07-31
US9728196B2 (en) 2017-08-08
BRPI0916449A8 (pt) 2017-11-28
MY154100A (en) 2015-04-30
CN102150202B (zh) 2016-08-03
US20160254005A1 (en) 2016-09-01
US20140012589A1 (en) 2014-01-09
CN105957532A (zh) 2016-09-21
EP2313888A4 (en) 2016-08-03
US8532982B2 (en) 2013-09-10
JP2011528135A (ja) 2011-11-10
US9355646B2 (en) 2016-05-31
CN102150202A (zh) 2011-08-10
CN105957532B (zh) 2020-04-17
EP2313888A2 (en) 2011-04-27
IL210664A0 (en) 2011-03-31
WO2010008185A3 (en) 2010-05-27
CN105913851A (zh) 2016-08-31
MX2011000557A (es) 2011-03-15
WO2010008185A2 (en) 2010-01-21
CN105913851B (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
KR101756834B1 (ko) 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
JP6208725B2 (ja) 帯域幅拡張復号化装置
KR100721537B1 (ko) 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
KR100711989B1 (ko) 효율적으로 개선된 스케일러블 오디오 부호화
KR101435893B1 (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
JP6050199B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
JP3577324B2 (ja) オーディオ信号の符号化方法
JP5117407B2 (ja) オーディオ符号化/復号化で知覚的に重み付けするための装置
EP2041745B1 (en) Adaptive encoding and decoding methods and apparatuses
JP2001522156A (ja) オーディオ信号をコーディングする方法及び装置並びにビットストリームをデコーディングする方法及び装置
US9454972B2 (en) Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
KR101847076B1 (ko) 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
KR101449432B1 (ko) 신호 부호화 및 복호화 방법 및 장치
KR101457897B1 (ko) 대역폭 확장 부호화 및 복호화 방법 및 장치
KR101455648B1 (ko) 상호 운용성을 지원하는 오디오/스피치 신호의부호화/복호화 방법 및 시스템
Herre et al. 18. Perceptual Perceptual Audio Coding of Speech Signals

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL NUMBER: 2015101005147; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20150831

Effective date: 20170223

S901 Examination by remand of revocation
GRNO Decision to grant (after opposition)
A107 Divisional application of patent
GRNT Written decision to grant