KR102230727B1 - 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 - Google Patents

광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR102230727B1
KR102230727B1 KR1020187024171A KR20187024171A KR102230727B1 KR 102230727 B1 KR102230727 B1 KR 102230727B1 KR 1020187024171 A KR1020187024171 A KR 1020187024171A KR 20187024171 A KR20187024171 A KR 20187024171A KR 102230727 B1 KR102230727 B1 KR 102230727B1
Authority
KR
South Korea
Prior art keywords
signal
channel
channels
decoded
parameter
Prior art date
Application number
KR1020187024171A
Other languages
English (en)
Other versions
KR20180105682A (ko
Inventor
스테판 바이어
엘레니 포토풀루우
마르쿠스 멀티루스
기욤 푸치스
엠마누엘 라벨리
마르쿠스 슈넬
스테판 도라
울프강 예거스
마틴 디이츠
고란 마르코비치
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180105682A publication Critical patent/KR20180105682A/ko
Application granted granted Critical
Publication of KR102230727B1 publication Critical patent/KR102230727B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Control Of Eletrric Generators (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치는: 다채널 신호로부터 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 결정하기 위한 파라미터 결정기(100); 정렬된 채널들을 얻기 위해 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 적어도 2개의 채널들을 정렬하기 위한 신호 정렬기(200); 정렬된 채널들을 사용하여 미드 신호 및 사이드 신호를 계산하기 위한 신호 프로세서(300); 인코딩된 미드 신호를 얻기 위해 미드 신호를 인코딩하고 인코딩된 사이드 신호를 얻기 위해 사이드 신호를 인코딩하기 위한 신호 인코더(400); 및 인코딩된 미드 신호, 인코딩된 사이드 신호, 광대역 정렬 파라미터에 관한 정보 및 복수의 협대역 정렬 파라미터들에 관한 정보를 포함하는 인코딩된 다채널 신호를 발생시키기 위한 출력 인터페이스(500)를 포함한다.

Description

광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
본 출원은 스테레오 처리 또는 일반적으로 다채널 처리에 관한 것으로, 여기서 다채널 신호는 스테레오 신호의 경우에는 좌측 채널 및 우측 채널과 같이 2개의 채널들 또는 3개, 4개, 5개 또는 임의의 다른 수의 채널들과 같이 2개보다 많은 채널들을 갖는다.
스테레오 음성 및 특히 대화의 스테레오 음성은 스테레오포닉 음악의 저장 및 방송보다 과학적 주목을 훨씬 덜 받았다. 실제로, 음성 통신들에서는 모노포닉(monophonic) 송신이 여전히 요즘 주로 사용되고 있다. 그러나 네트워크 대역폭 및 용량의 증가에 따라, 스테레오포닉 기술들을 기반으로 한 통신들이 더욱 대중화되고 더 나은 청취 경험을 가져올 것으로 예상된다.
스테레오 오디오 자료의 효율적인 코딩은 효율적인 저장 또는 방송을 위한 음악의 지각 오디오 코딩에서 오랫동안 연구되어왔다. 파형 보존이 중요한 높은 비트 레이트들에서, 미드/사이드(M/S: mid/side) 스테레오로 알려진 합-차 스테레오가 오랫동안 이용되어왔다. 낮은 비트 레이트들의 경우, 인텐시티(intensity) 스테레오 그리고 보다 최근에는 파라메트릭 스테레오 코딩이 도입되었다. 최신 기술은 HeAACv2 및 Mpeg USAC와 같은 서로 다른 표준들에서 채택되었다. 이는 2-채널 신호의 다운믹스(down-mix)를 생성하고 콤팩트한 공간 사이드 정보를 연관시킨다.
조인트 스테레오 코딩은 보통 신호의 높은 주파수 분해능, 즉 낮은 시간 분해능의 시간-주파수 변환을 통해 구축되며, 따라서 대부분의 음성 코더들에서 수행되는 저 지연 및 시간 도메인 처리와 호환되지 않는다. 게다가, 생성된 비트 레이트는 대개는 높다.
다른 한편으로, 파라메트릭 스테레오는 인코더의 전단부에 전처리기로서 그리고 디코더의 후단부에 후처리기로서 배치된 추가 필터 뱅크를 이용한다. 따라서 파라메트릭 스테레오는 MPEG USAC에서 이루어지는 것과 같이 ACELP와 같은 종래의 음성 코더들과 함께 사용될 수 있다. 더욱이, 청각 장면의 파라미터화는 최소량의 사이드 정보로 달성될 수 있는데, 이는 낮은 비트 레이트들에 적합하다. 그러나 파라메트릭 스테레오는 예를 들어, 낮은 지연을 위해 명확하게 설계되지 않은 MPEG USAC에서와 같고, 서로 다른 대화 시나리오들에 일관된 품질을 전달하지 않는다. 공간 장면의 종래의 파라메트릭 표현에서, 스테레오 이미지의 폭은 2개의 합성된 채널들 상에 적용된 역상관기에 의해 인위적으로 재생되고, 인코더에 의해 계산되어 송신되는 채널 간 코히어런스(IC: Inter-channel Coherence)의 파라미터에 의해 제어된다. 대부분의 스테레오 음성의 경우, 스테레오 이미지를 넓히는 이러한 방법은, 음성이 (때로는 공간으로부터의 일부 잔향이 있는) 공간의 특정 위치에 위치된 단일 소스에서 생성되기 때문에 꽤 직접적인 사운드인 자연스러운 분위기의 음성을 재현하는 데 적합하지 않다. 이에 반해, 악기들은 음성보다 훨씬 더 자연스러운 폭을 갖는데, 이는 채널들을 역상관함으로써 더 잘 모방될 수 있다.
문제들은 또한, 마이크로폰들이 서로 떨어져 있거나 입체 음향(binaural) 녹음 또는 렌더링을 위해 A-B 구성과 같이 비일치 마이크로폰들로 음성이 녹음될 때도 발생한다. 이러한 시나리오들은 원격 회의들에서 음성을 캡처하거나 다지점 제어 유닛(MCU: multipoint control unit)에서 원거리 스피커들로 가상 청각 장면을 생성하기 위해 구상될 수 있다. 다음에, 신호의 도달 시간은 X-Y(인텐시티 녹음) 또는 M-S(미드 사이드 녹음)와 같은 일치 마이크로폰들에서 수행되는 녹음과 달리 채널마다 다르다. 다음에, 그러한 시간 정렬되지 않은 두 채널들의 코히어런스의 계산은 잘못 추정될 수 있으며, 이는 인위적인 환경 합성을 실패하게 만든다.
스테레오 처리와 관련된 선행 기술 참조들은 미국 특허 제5,434,948호 또는 미국 특허 제8,811,621호이다.
문서 WO 2006/089570 A1은 거의 투명하거나 투명한 다채널 인코더/디코더 방식을 개시한다. 다채널 인코더/디코더 방식은 추가로 파형 타입의 잔차 신호를 발생시킨다. 이 잔차 신호는 하나 또는 그보다 많은 다채널 파라미터들과 함께 디코더에 송신된다. 순전히 파라메트릭 다채널 디코더와는 대조적으로, 강화된 디코더는 추가 잔차 신호로 인해 개선된 출력 품질을 갖는 다채널 출력 신호를 발생시킨다. 인코더 측에서는, 좌측 채널과 우측 채널 모두 분석 필터 뱅크에 의해 필터링된다. 그 다음, 각각의 부대역 신호에 대해, 정렬 값 및 이득 값이 부대역에 대해 계산된다. 그 다음, 이러한 정렬이 추가 처리 전에 수행된다. 디코더 측에서, 정렬 해제(de-alignment) 및 이득 처리가 수행된 다음, 디코딩된 좌측 신호 및 디코딩된 우측 신호를 발생시키기 위해 합성 필터 뱅크에 의해 대응 신호들이 합성된다.
이러한 선행 기술의 프로시저들은 오디오 신호들에 대해 그리고 구체적으로는, 하나보다 많은 화자가 있는 경우의, 즉 회의 시나리오 또는 대화 음성 장면에서의 음성 신호들에 대해 최적을 제공하지 못하는 것으로 밝혀졌다.
다채널 신호를 인코딩 또는 디코딩하기 위한 개선된 개념을 제공하는 것이 본 발명의 과제이다.
이러한 과제는 제1 항의 다채널 신호를 인코딩하기 위한 장치, 제20 항의 다채널 신호를 인코딩하기 위한 방법, 제21 항의 인코딩된 다채널 신호를 디코딩하기 위한 장치, 또는 제33 항의 인코딩된 다채널 신호를 디코딩하는 방법, 또는 제34 항의 컴퓨터 프로그램에 의해 달성된다.
적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치는 한편으로는 광대역 정렬 파라미터를 그리고 다른 한편으로는 복수의 협대역 정렬 파라미터들을 결정하기 위한 파라미터 결정기를 포함한다. 이러한 파라미터들은 정렬된 채널들을 얻기 위해 이러한 파라미터들을 사용하여 적어도 2개의 채널들을 정렬하기 위한 신호 정렬기에 의해 사용된다. 그 다음, 신호 프로세서가 정렬된 채널들을 사용하여 미드 신호 및 사이드 신호를 계산하고, 그 뒤에 미드 신호 및 사이드 신호가 인코딩되어 인코딩된 출력 신호로 전달되는데, 인코딩된 출력 신호는 파라메트릭 사이드 정보로서 추가로 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 갖는다.
디코더 측에서, 신호 디코더는 인코딩된 미드 신호 및 인코딩된 사이드 신호를 디코딩하여 디코딩된 미드 신호 및 사이드 신호를 얻는다. 그 다음, 이러한 신호들은 디코딩된 제1 채널 및 디코딩된 제2 채널을 계산하기 위한 신호 프로세서에 의해 처리된다. 그 다음, 이러한 디코딩된 채널들은 인코딩된 다채널 신호에 포함된 복수의 협대역 파라미터들에 관한 정보 및 광대역 정렬 파라미터에 관한 정보를 사용하여 정렬 해제되어, 디코딩된 다채널 신호를 얻는다.
특정 구현에서, 광대역 정렬 파라미터는 채널 간 시간 차 파라미터이고, 복수의 협대역 정렬 파라미터들은 채널 간 위상 차들이다.
본 발명은 구체적으로, 하나보다 많은 화자가 있는 경우의 음성 신호들에 대해서뿐만 아니라, 여러 오디오 소스들이 있는 경우의 다른 오디오 신호들에 대해서도, 하나의 또는 두 채널들의 전체 스펙트럼에 적용되는 채널 간 시간 차 파라미터와 같은 광대역 정렬 파라미터를 사용하여, 둘 다 다채널 신호의 2개의 채널들에 매핑되는 오디오 소스들의 서로 다른 위치들이 처리될 수 있다는 결론을 기반으로 한다. 이러한 광대역 정렬 파라미터 외에도, 부대역마다 다른 여러 협대역 정렬 파라미터들이 추가로 두 채널들의 신호의 보다 양호한 정렬을 야기하는 것으로 확인되었다.
따라서 서로 다른 부대역들에 대한 서로 다른 위상 회전들에 대응하는 위상 정렬과 함께 각각의 부대역에서 동일한 시간 지연에 대응하는 광대역 정렬은 이러한 2개의 채널들이 이후에 추가 인코딩되는 미드/사이드 표현으로 다음에 변환되기 전에 두 채널들의 최적 정렬을 야기한다. 최적 정렬이 얻어졌다는 사실 때문에, 한편으로는 미드 신호의 에너지가 가능한 한 높고, 다른 한편으로는 사이드 신호의 에너지가 가능한 한 작아, 가능한 가장 낮은 비트 레이트 또는 특정 비트 레이트에 대한 가능한 최상의 오디오 품질을 갖는 최적의 코딩 결과가 얻어질 수 있다.
구체적으로, 대화 음성 자료의 경우, 일반적으로 2개의 서로 다른 장소들에서 활동 중인 화자들이 있는 것으로 나타난다. 추가로, 통상 첫 번째 장소에서 한 명의 화자만이 말하고 있고, 다음에 두 번째 장소 또는 위치에서 두 번째 화자가 말하고 있는 상황이 있다. 제1 또는 좌측 채널 및 제2 또는 우측 채널과 같은 2개의 채널들 상의 서로 다른 위치들의 영향은 서로 다른 도달 시간들 그리고 이에 따라 서로 다른 위치들로 인해 두 채널들 사이의 특정 시간 지연에 의해 반영되며, 이 시간 지연은 때때로 변하고 있다. 일반적으로, 이러한 영향은 광대역 정렬 파라미터에 의해 해결될 수 있는 광대역 정렬 해제로서 2개의 채널 신호들에서 반영된다.
다른 한편으로는, 특히 잔향 또는 추가 잡음 소스들로부터 오는 다른 효과들이 두 채널들의 광대역의 서로 다른 도달 시간들 또는 광대역 정렬 해제에 중첩되는 개개의 대역들에 대한 개개의 위상 정렬 파라미터들에 의해 처리될 수 있다.
이를 고려하여, 광대역 정렬 파라미터 그리고 광대역 정렬 파라미터 외에 복수의 협대역 정렬 파라미터들 모두의 사용은 양호하고 매우 콤팩트한 미드/사이드 표현을 얻기 위해 인코더 측에서 최적의 채널 정렬을 야기하는 한편, 다른 한편으로는 디코더 측의 디코딩에 후속하는 대응하는 정렬 해제는 특정 비트 레이트에 대한 양호한 오디오 품질을 또는 소정의 요구되는 오디오 품질에 대한 작은 비트 레이트를 야기한다.
본 발명의 이점은 본 발명이 기존의 스테레오 코딩 방식들보다 스테레오 음성의 변환에 훨씬 더 적합한 새로운 스테레오 코딩 방식을 제공한다는 점이다. 본 발명에 따르면, 파라메트릭 스테레오 기술들 및 조인트 스테레오 코딩 기술들은 특히 다채널 신호의 채널들에서, 구체적으로는 음성 소스들의 경우뿐만 아니라 다른 오디오 소스들의 경우에도 발생하는 채널 간 시간 차를 활용함으로써 결합된다.
여러 실시예들은 나중에 논의되는 바와 같이 유용한 이점들을 제공한다.
새로운 방법은 종래의 M/S 스테레오 및 파라메트릭 스테레오로부터의 엘리먼트들을 혼합한 하이브리드 접근 방식이다. 종래의 M/S에서, 채널들은 수동적으로 다운믹스되어 미드 및 사이드 신호를 발생시킨다. 채널들을 더하고 구별하기 전에 주성분 분석(PCA: Principal Component Analysis)으로도 또한 알려진 카루넨-루베 변환(KLT: Karhunen-Loeve transform)을 사용하여 채널을 회전함으로써 프로세스가 더 확장될 수 있다. 미드 신호는 1차 코드 코딩으로 코딩되는 한편, 사이드는 2차 코더로 전달된다. 진화된 M/S 스테레오는 현재 또는 이전 프레임에서 코딩된 미드 채널에 의한 사이드 신호의 예측을 더 사용할 수 있다. 회전 및 예측의 주요 목표는 사이드의 에너지를 최소화하면서 미드 신호의 에너지를 최대화하는 것이다. M/S 스테레오는 파형 보존적이며 이러한 측면에서 임의의 스테레오 시나리오들에 매우 견고하지만 비트 소비 측면에서 매우 고가일 수 있다.
낮은 비트 레이트들에서 최고의 효율을 위해, 파라메트릭 스테레오는 채널 간 레벨 차(ILD: Inter-channel Level difference)들, 채널 간 위상 차(IPD: Inter-channel Phase difference)들, 채널 간 시간 차(ITD: Inter-channel Time difference)들 및 채널 간 코히어런스(IC)들과 같은 파라미터들을 계산하고 코딩한다. 이들은 스테레오 이미지를 콤팩트하게 표현하고 청각 장면의 큐들(소스 위치 추정(source localization), 패닝(panning), 스테레오의 폭…)이다. 그 다음, 목표는 스테레오 장면을 파라미터화하고 디코더에 있을 수 있는 다운믹스 신호만을 코딩하고 송신된 스테레오 큐들의 도움으로 다시 공간화되는 것이다.
본원의 접근 방식은 두 가지 개념들을 혼합했다. 먼저, 스테레오 큐들의 ITD와 IPD가 계산되어 2개의 채널들에 적용된다. 목표는 광대역의 시간 차 및 서로 다른 주파수 대역들의 위상을 표현하는 것이다. 그 다음, 2개의 채널들은 시간 및 위상이 정렬되고, 다음에 M/S 코딩이 수행된다. ITD와 IPD는 스테레오 음성의 모델링에 유용한 것으로 확인되었으며 M/S에서의 KLT 기반 회전의 우수한 대체가 된다. 순수 파라메트릭 코딩과는 달리, 앰비언스(ambience)는 더는 IC들에 의해 모델링되는 것이 아니라, 코딩 및/또는 예측되는 사이드 신호에 의해 직접 모델링된다. 이러한 접근 방식은 특히 음성 신호들을 처리할 때 더욱 견고하다는 것이 확인되었다.
ITD들의 계산 및 처리는 본 발명의 중요한 부분이다. ITD들은 선행 기술인 입체 음향 큐 코딩(BCC: Binaural Cue Coding)에서, 그러나 시간이 지남에 따라 ITD들이 변경된다면 비효율적이었던 방식으로 이미 활용되었다. 이러한 결점을 피하기 위해, 2개의 서로 다른 ITD들 간의 전환들을 원활하게 하고 한 스피커에서 다른 위치들에 위치된 다른 스피커로 끊김 없이 전환하는 것을 가능하게 하기 위해 특정 윈도우 처리(windowing)가 설계되었다.
추가 실시예들은 인코더 측에서, 복수의 협대역 정렬 파라미터들을 결정하기 위한 파라미터 결정이 더 이전에 결정된 광대역 정렬 파라미터와 이미 정렬된 채널들을 사용하여 수행되는 프로시저와 관련된다.
이에 대응하여, 디코더 측에서의 협대역 정렬 해제는 광대역 정렬 해제가 일반적으로 단일 광대역 정렬 파라미터를 사용하여 수행되기 전에 수행된다.
추가 실시예들에서는, 인코더 측에서, 그러나 훨씬 더 중요하게는 디코더 측에서, 어떤 종류의 윈도우 처리 및 중첩-가산 동작 또는 하나의 블록으로부터 다음 블록으로의 임의의 종류의 크로스페이딩(crossfading)이 모든 정렬들에 이어, 그리고 구체적으로는 광대역 정렬 파라미터를 이용한 시간 정렬에 이어 수행되는 것이 바람직하다. 이는 블록마다 시간 또는 광대역 정렬 파라미터가 변경될 때 클릭(click)들과 같은 임의의 가청 아티팩트들을 피한다.
다른 실시예들에서는, 서로 다른 스펙트럼 분해능들이 적용된다. 특히, 채널 신호들에는 DFT 스펙트럼과 같은 높은 주파수 분해능을 갖는 시간-스펙트럼 변환이 수행되는 한편, 보다 낮은 스펙트럼 분해능을 갖는 파라미터 대역들에 대해서는 협대역 정렬 파라미터들과 같은 파라미터들이 결정된다. 일반적으로, 파라미터 대역은 신호 스펙트럼보다 많은 스펙트럼 라인을 가지며, 일반적으로 DFT 스펙트럼으로부터의 한 세트의 스펙트럼 라인들을 갖는다. 더욱이, 심리 음향 문제들을 처리하기 위해 저주파들에서 고주파들로 파라미터 대역들이 증가한다.
추가 실시예들은 레벨 간 차와 같은 레벨 파라미터의 추가 사용 또는 스테레오 채움 파라미터들 등과 같은 사이드 신호를 처리하기 위한 다른 프로시저들에 관한 것이다. 인코딩된 사이드 신호는 실제 사이드 신호 자체에 의해 또는 예측 잔차 신호가 현재 프레임 또는 임의의 다른 프레임의 미드 신호를 사용하여 수행됨으로써, 또는 단지 대역들의 서브세트에서만의 사이드 예측 잔차 신호 또는 사이드 신호 및 단지 나머지 대역들에 대한 예측 파라미터들에 의해, 또는 심지어 어떠한 높은 주파수 분해능 사이드 신호 정보도 없이 모든 대역들에 대한 예측 파라미터들에 의해 표현될 수 있다. 그러므로 위의 마지막 대안에서, 인코딩된 사이드 신호는 각각의 파라미터 대역 또는 단지 파라미터 대역들의 서브세트에 대한 예측 파라미터로만 표현되므로, 나머지 파라미터 대역들에 대해서는 원래의 사이드 신호 상에 어떠한 정보도 존재하지 않는다.
더욱이, 광대역 신호의 전체 대역폭을 반영하는 모든 파라미터 대역들에 대해서가 아니라 파라미터 대역들의 하위 50퍼센트와 같은 한 세트의 하위 대역들에 대해서만 복수의 협대역 정렬 파라미터들을 갖는 것이 바람직하다. 다른 한편으로, 스테레오 채움 파라미터들은 하위 대역들의 쌍에 대해 사용되지 않는데, 이는 적어도 하위 대역들에 대해서는, 파형 정확한 표현이 이용 가능함을 확실히 하기 위해, 이러한 대역들에 대해, 사이드 신호 자체 또는 예측 잔차 신호가 송신되기 때문이다. 다른 한편으로는, 비트 레이트를 더 감소시키기 위해 상위 대역들에 대해 파형 정확한 표현으로 사이드 신호가 송신되는 것이 아니라, 사이드 신호는 일반적으로 스테레오 채움 파라미터들로 표현된다.
더욱이, 동일한 DFT 스펙트럼에 기초하여 하나의 동일한 주파수 도메인 내에서 전체 파라미터 분석 및 정렬을 수행하는 것이 바람직하다. 이를 위해, 채널 간 시간 차 결정을 위해 위상 변환에 의한 일반화된 교차 상관(GCC-PHAT: generalized cross correlation with phase transform) 기술을 사용하는 것이 더욱 바람직하다. 이 프로시저의 바람직한 실시예에서, 스펙트럼 형상에 관한 정보에 기초한 상관 스펙트럼의 평활화― 이 정보는 바람직하게는 스펙트럼 평탄도 측정임 ―는 잡음과 같은 신호들의 경우에는 평활화가 약할 것이고 톤과 같은 신호들의 경우에는 평활화가 더욱 강해질 그러한 방식으로 수행된다.
더욱이, 채널 진폭들이 처리되는 경우에, 특별한 위상 회전을 수행하는 것이 바람직하다. 특히, 위상 회전은 인코더 측에서의 정렬을 위해 그리고 디코더 측에서는 물론 정렬 해제를 위해 2개의 채널들 사이에 분배되는데, 여기서 더 큰 진폭을 갖는 채널이 선두 채널로 간주되고 위상 회전에 의해 영향을 덜 받게 되는데, 즉 더 작은 진폭을 갖는 채널보다 덜 회전될 것이다.
더욱이, 합-차 계산은 두 채널들 모두의 에너지들로부터 파생된 스케일링 계수를 이용한 에너지 스케일링을 사용하여 수행되며, 미드/사이드 계산이 에너지에 너무 많은 영향을 주고 있지 않음을 확실히 하기 위해 특정 범위로 추가로 제한된다. 그러나 다른 한편으로는, 시간 및 위상이 사전에 정렬되었기 때문에, 본 발명의 목적상, 이러한 종류의 에너지 보존은 선행 기술의 프로시저들에서만큼 중요하지는 않다는 점이 주목되어야 한다. 따라서 (인코더 측에서) 좌측 및 우측으로부터의 미드 신호 및 사이드 신호의 계산으로 인해 또는 (디코더 측에서) 미드 및 사이드로부터의 좌측 및 우측 신호의 계산으로 인한 에너지 변동들은 선행 기술에서만큼 중요하지 않다.
이어서, 본 발명의 바람직한 실시예들이 첨부 도면들에 관해 논의된다.
도 1은 다채널 신호를 인코딩하기 위한 장치의 바람직한 구현의 블록도이다.
도 2는 인코딩된 다채널 신호를 디코딩하기 위한 장치의 바람직한 실시예이다.
도 3은 특정 실시예들에 대한 서로 다른 주파수 분해능들 및 다른 주파수 관련 양상들의 예시이다.
도 4a는 채널들을 정렬하기 위해 인코딩하기 위한 장치에서 수행되는 프로시저들의 흐름도를 예시한다.
도 4b는 주파수 도메인에서 수행되는 프로시저들의 바람직한 실시예를 예시한다.
도 4c는 제로 패딩 부분들 및 중첩 범위들을 갖는 분석 윈도우를 사용하여 인코딩하기 위한 장치에서 수행되는 프로시저들의 바람직한 실시예를 예시한다.
도 4d는 인코딩하기 위한 장치 내에서 수행되는 추가 프로시저들에 대한 흐름도를 예시한다.
도 4e는 채널 간 시간 차 추정의 바람직한 구현을 도시하기 위한 흐름도를 예시한다.
도 5는 인코딩하기 위한 장치에서 수행되는 프로시저들의 추가 실시예를 예시하는 흐름도를 예시한다.
도 6a는 인코더의 일 실시예의 블록도를 예시한다.
도 6b는 디코더의 대응하는 실시예의 흐름도를 예시한다.
도 7은 스테레오 시간-주파수 분석 및 합성을 위한 제로 패딩을 갖는 저 중첩 사인 윈도우들을 갖는 바람직한 윈도우 시나리오를 예시한다.
도 8은 서로 다른 파라미터 값들의 비트 소비를 도시하는 표를 예시한다.
도 9a는 바람직한 실시예에서 인코딩된 다채널 신호를 디코딩하기 위한 장치에 의해 수행되는 프로시저들을 예시한다.
도 9b는 인코딩된 다채널 신호를 디코딩하기 위한 장치의 바람직한 구현을 예시한다.
도 9c는 인코딩된 다채널 신호의 디코딩과 관련한 광대역 정렬 해제와 관련하여 수행되는 프로시저를 예시한다.
도 1은 적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치를 예시한다. 다채널 신호(10)는 한편으로는 파라미터 결정기(100)에 입력되고, 다른 한편으로는 신호 정렬기(200)에 입력된다. 파라미터 결정기(100)는 다채널 신호로부터 한편으로는 광대역 정렬 파라미터를 결정하고, 다른 한편으로는 복수의 협대역 정렬 파라미터들을 결정한다. 이러한 파라미터들은 파라미터 라인(12)을 통해 출력된다. 더욱이, 이러한 파라미터들은 또한, 예시된 바와 같이 추가 파라미터 라인(14)을 통해 출력 인터페이스(500)에 출력된다. 파라미터 라인(14) 상에서, 레벨 파라미터들과 같은 추가 파라미터들이 파라미터 결정기(100)로부터 출력 인터페이스(500)로 전달된다. 신호 정렬기(200)는 신호 정렬기(200)의 출력에서 정렬된 채널들(20)을 얻기 위해, 파라미터 라인(12)을 통해 수신된 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호(10)의 적어도 2개의 채널들을 정렬하도록 구성된다. 이러한 정렬된 채널들(20)은 라인(20)을 통해 수신된 정렬된 채널들로부터 미드 신호(31) 및 사이드 신호(32)를 계산하도록 구성된 신호 프로세서(300)에 전달된다. 인코딩하기 위한 장치는 라인(31)으로부터의 미드 신호 및 라인(32)으로부터의 사이드 신호를 인코딩하여 라인(41) 상의 인코딩된 미드 신호 및 라인(42) 상의 인코딩된 사이드 신호를 얻기 위한 신호 인코더(400)를 더 포함한다. 이러한 신호들은 모두 출력 라인(50)에서 인코딩된 다채널 신호를 발생시키기 위한 출력 인터페이스(500)에 전달된다. 출력 라인(50)의 인코딩된 신호는 라인(41)으로부터의 인코딩된 미드 신호, 라인(42)으로부터의 인코딩된 사이드 신호, 라인(14)으로부터의 협대역 정렬 파라미터들 및 광대역 정렬 파라미터들, 그리고 선택적으로 라인(14)으로부터의 레벨 파라미터, 그리고 추가로 선택적으로, 신호 인코더(400)에 의해 발생되어 파라미터 라인(43)을 통해 출력 인터페이스(500)로 전달되는 스테레오 채움 파라미터를 포함한다.
바람직하게는, 신호 정렬기는 파라미터 결정기(100)가 실제로 협대역 파라미터들을 계산하기 전에 광대역 정렬 파라미터를 사용하여 다채널 신호로부터의 채널들을 정렬하도록 구성된다. 따라서 이 실시예에서, 신호 정렬기(200)는 광대역 정렬된 채널들을 연결 라인(15)을 통해 파라미터 결정기(100)로 다시 전송한다. 그리고 나서, 파라미터 결정기(100)는 광대역 특징의 정렬된 다채널 신호에 대한 이미 정렬된 채널로부터 복수의 협대역 정렬 파라미터들을 결정한다. 그러나 다른 실시예들에서, 파라미터들은 이 특정 시퀀스의 프로시저들 없이 결정된다.
도 4a는 연결 라인(15)을 발생시키는 특정 시퀀스의 단계들이 수행되는 바람직한 구현을 예시한다. 단계(16)에서, 광대역 정렬 파라미터는 2개의 채널들을 사용하여 결정되고, 채널 간 시간 차 또는 ITD 파라미터와 같은 광대역 정렬 파라미터가 획득된다. 그 다음, 단계(21)에서, 2개의 채널들은 광대역 정렬 파라미터를 사용하여 도 1의 신호 정렬기(200)에 의해 정렬된다. 그 다음, 단계(17)에서, 다채널 신호의 서로 다른 대역들에 대한 복수의 채널 간 위상 차 파라미터들과 같은 복수의 협대역 정렬 파라미터들을 결정하기 위해 파라미터 결정기(100) 내의 정렬된 채널들을 사용하여 협대역 파라미터들이 결정된다. 그 다음, 단계(22)에서, 각각의 파라미터 대역의 스펙트럼 값들이 이 특정 대역에 대한 대응하는 협대역 정렬 파라미터를 사용하여 정렬된다. 협대역 정렬 파라미터가 이용 가능한 각각의 대역에 대해 단계(22)에서의 이 프로시저가 수행되면, 정렬된 제1 및 제2 또는 좌측/우측 채널들이 도 1의 신호 프로세서(300)에 의한 추가 신호 처리를 위해 이용 가능하다.
도 4b는 도 1의 다채널 인코더의 추가 구현을 예시하는데, 여기서는 주파수 도메인에서 여러 프로시저들이 수행된다.
구체적으로, 다채널 인코더는 시간 도메인 다채널 신호를 주파수 도메인 내의 적어도 2개의 채널들의 스펙트럼 표현으로 변환하기 위한 시간-스펙트럼 변환기(150)를 더 포함한다.
더욱이, 152에 예시된 바와 같이, 도 1의 100, 200 및 300에 예시된 파라미터 결정기, 신호 정렬기 및 신호 프로세서는 모두 주파수 도메인에서 동작한다.
더욱이, 다채널 인코더 그리고 구체적으로, 신호 프로세서는 적어도 미드 신호의 시간 도메인 표현을 생성하기 위한 스펙트럼-시간 변환기(154)를 더 포함한다.
바람직하게는, 스펙트럼 시간 변환기는 블록(152)에 의해 표현된 프로시저들에 의해 또한 결정된 사이드 신호의 스펙트럼 표현을 시간 도메인 표현으로 추가로 변환하고, 도 1의 신호 인코더(400)가 다음에, 미드 신호 및/또는 사이드 신호를 도 1의 신호 인코더(400)의 특정 구현에 따라 시간 도메인 신호들로서 추가로 인코딩하도록 구성된다.
바람직하게는, 도 4b의 시간-스펙트럼 변환기(150)는 도 4c의 단계들(155, 156, 157)을 구현하도록 구성된다. 구체적으로, 단계(155)는 예를 들어, 나중에 도 7에 예시되는 바와 같이, 한 단부에 적어도 하나의 제로 패딩 부분을 그리고 구체적으로는, 초기 윈도우 부분의 제로 패딩 부분 및 종결 윈도우 부분의 제로 패딩 부분을 갖는 분석 윈도우를 제공하는 단계를 포함한다. 더욱이, 분석 윈도우는 윈도우의 전반부에 그리고 윈도우의 후반부에 중첩 범위들 또는 중첩 부분들을 추가로 갖고, 바람직하게는, 경우에 따라 비중첩 범위인 중간 부분을 추가로 갖는다.
단계(156)에서, 각각의 채널은 중첩 범위들을 갖는 분석 윈도우를 사용하여 윈도우 처리된다. 구체적으로, 각각의 채널은 채널의 제1 블록이 얻어지는 방식으로 분석 윈도우를 사용하여 윈도우 처리된다. 이어서, 제1 블록과 특정 중첩 범위를 갖는, 동일한 채널의 제2 블록이 얻어지는 식으로, 예를 들어 5회의 윈도우 처리 동작들에 이어, 각각의 채널의 윈도우 처리된 샘플들의 5개의 블록들이 이용 가능하며, 이러한 블록들은 다음에, 도 4c의 157에 예시된 바와 같이 스펙트럼 표현으로 개별적으로 변환된다. 다른 채널에 대해서도 동일한 프로시저가 수행되어, 단계(157)의 끝에서 스펙트럼 값들의 블록들의 시퀀스 그리고 구체적으로, DFT 스펙트럼 값들 또는 복소 부대역 샘플들과 같은 복소 스펙트럼 값들이 이용 가능하게 된다.
도 1의 파라미터 결정기(100)에 의해 수행되는 단계(158)에서 광대역 정렬 파라미터가 결정되고, 도 1의 신호 정렬기(200)에 의해 수행되는 단계(159)에서 광대역 정렬 파라미터를 사용하여 순환 시프트가 수행된다. 또 도 1의 파라미터 결정기(100)에 의해 수행되는 단계(160)에서 개개의 대역들/부대역들에 대해 협대역 정렬 파라미터들이 결정되고, 단계(161)에서 정렬된 스펙트럼 값들은 특정 대역들에 대해 결정된 대응하는 협대역 정렬 파라미터들을 사용하여 각각의 대역에 대해 회전된다.
도 4d는 신호 프로세서(300)에 의해 수행되는 추가 프로시저들을 예시한다. 구체적으로, 신호 프로세서(300)는 단계(301)에 예시된 바와 같이 미드 신호 및 사이드 신호를 계산하도록 구성된다. 단계(302)에서 사이드 신호의 어떤 종류의 추가 처리가 수행될 수 있고, 그 다음 단계(303)에서 미드 신호 및 사이드 신호의 각각의 블록이 다시 시간 도메인으로 변환되며, 단계(304)에서 합성 윈도우가 단계(303)에 의해 얻어진 각각의 블록에 적용되고, 단계(305)에서 한편으로는 미드 신호에 대한 중첩 가산 동작 그리고 다른 한편으로는 사이드 신호에 대한 중첩 가산 동작이 수행되어 최종적으로 시간 도메인 미드 신호/사이드 신호를 얻는다.
구체적으로, 단계들(304, 305)의 동작들은 미드 신호 및 사이드 신호의 다음 블록에서 미드 신호 또는 사이드 신호의 한 블록으로부터의 일종의 크로스 페이딩이 수행되는 것을 야기하여, 채널 간 시간 차 파라미터 또는 채널 간 위상 차 파라미터와 같은 임의의 파라미터 변화들이 발생하는 경우에도, 그럼에도 이는 도 4d의 단계(305)에 의해 얻어진 시간 도메인 미드 신호/사이드 신호에서 들리지 않을 것이다.
새로운 저 지연 스테레오 코딩은 미드 채널이 1차 모노 코어 코더에 의해 코딩되고, 사이드 채널이 2차 코어 코더에서 코딩되는 일부 공간 큐들을 활용하는 조인트 미드/사이드(M/S) 스테레오 코딩이다. 인코더 및 디코더 원리들이 도 6a, 도 6b에 도시된다.
스테레오 처리는 주로 주파수 도메인(FD: Frequency Domain)에서 수행된다. 선택적으로, 어떤 스테레오 처리는 주파수 분석 이전에 시간 도메인(TD: Time Domain)에서 수행될 수 있다. 이는 스테레오 분석 및 처리를 시도하기 전에 채널들을 시간 정렬하기 위해 주파수 분석 전에 계산되어 적용될 수 있는 ITD 계산에 대한 경우이다. 대안으로, ITD 처리는 주파수 도메인에서 직접 수행될 수 있다. ACELP와 같은 일반적인 음성 코더들은 임의의 내부 시간-주파수 분해가 포함되지 않기 때문에, 스테레오 코딩은 코어 인코더 전에 분석 및 합성 필터 뱅크 및 코어 디코더 이후 분석-합성 필터 뱅크의 다른 스테이지에 의해 여분의 복소 변조된 필터 뱅크를 추가한다. 바람직한 실시예에서, 낮은 중첩 영역을 갖는 오버샘플링된 DFT가 사용된다. 그러나 다른 실시예들에서, 유사한 시간 분해능을 갖는 임의의 복소 값 시간-주파수 분해가 사용될 수 있다.
스테레오 처리는 공간 큐들: 채널 간 시간 차(ITD), 채널 간 위상 차(IPD)들 및 채널 간 레벨 차(ILD)들을 계산하는 것으로 구성된다. ITD 및 IPD들은 두 채널들(L, R)을 시간 및 위상 정렬하기 위해 입력 스테레오 신호에 사용된다. ITD는 광대역 또는 시간 도메인에서 계산되는 한편, IPD들 및 ILD들은 파라미터 대역들의 각각 또는 일부에 대해 계산되는데, 이는 주파수 공간의 불균등한 분해에 해당한다. 2개의 채널들이 정렬되면, 조인트 M/S 스테레오가 적용되고, 여기서 사이드 신호는 다음에 미드 신호로부터 추가로 예측된다. 예측 이득은 ILD들로부터 도출된다.
미드 신호는 1차 코어 코더에 의해 추가로 코딩된다. 바람직한 실시예에서, 1차 코어 코더는 3GPP EVS 표준, 또는 MDCT 변환에 기초하여 음성 코딩 모드, ACELP 그리고 음악 모드 간에 전환할 수 있는, 3GPP EVS 표준으로부터 도출된 코딩이다. 바람직하게는, 시간 도메인 대역폭 확장(TD-BWE: Time Domain BandWidth Extension) 및/또는 지능형 갭 채움(IGF: Intelligent Gap Filling) 모듈들 각각에 의해 ACELP 및 MDCT 기반 코더가 지원된다.
사이드 신호는 ILD들로부터 도출된 예측 이득들을 사용하여 미드 채널에 의해 처음 예측된다. 잔차가 미드 신호의 지연된 버전에 의해 추가로 예측되거나, 바람직한 실시예에서는 MDCT 도메인에서 수행되는 2차 코어 코더에 의해 직접 코딩될 수 있다. 인코더에서의 스테레오 처리는 나중에 설명되는 바와 같이 도 5에 의해 요약될 수 있다.
도 2는 입력 라인(50)에서 수신된 인코딩된 다채널 신호를 디코딩하기 위한 장치의 일 실시예의 블록도를 예시한다.
특히, 신호는 입력 인터페이스(600)에 의해 수신된다. 입력 인터페이스(600)에는 신호 디코더(700) 및 신호 정렬 해제기(900)가 접속된다. 더욱이, 신호 프로세서(800)가 한편으로는 신호 디코더(700)에 접속되고 다른 한편으로는 신호 정렬 해제기에 접속된다.
특히, 인코딩된 다채널 신호는 인코딩된 미드 신호, 인코딩된 사이드 신호, 광대역 정렬 파라미터에 관한 정보 및 복수의 협대역 파라미터들에 관한 정보를 포함한다. 따라서 라인(50) 상의 인코딩된 다채널 신호는 도 1의 출력 인터페이스(500)에 의한 출력과 정확히 동일한 신호일 수 있다.
그러나 중요하게는, 도 1에 예시된 것과는 대조적으로, 특정 형태의 인코딩된 신호에 포함된 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들은 정확히 도 1의 신호 정렬기(200)에 의해 사용된 정렬 파라미터들일 수 있지만, 대안으로는 또한 그 역 값들, 즉 신호 정렬기(200)에 의해 수행되는 것과 정확히 동일한 동작들에 의해 사용될 수 있지만 역 값들을 가져 정렬 해제가 얻어지는 파라미터들일 수 있다는 점이 주목되어야 한다.
따라서 정렬 파라미터들에 관한 정보는 도 1의 신호 정렬기(200)에 의해 사용된 정렬 파라미터 들일 수 있거나 역 값들, 즉 실제 "정렬 해제 파라미터들"일 수 있다. 추가로, 이러한 파라미터들은 일반적으로, 도 8과 관련하여 뒤에 논의되는 바와 같이 특정 형태로 양자화될 것이다.
도 2의 입력 인터페이스(600)는 인코딩된 미드 신호/사이드 신호로부터 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들에 관한 정보를 분리하고, 이 정보를 파라미터 라인(610)을 통해 신호 정렬 해제기(900)에 전달한다. 다른 한편으로는, 인코딩된 미드 신호는 라인(601)을 통해 신호 디코더(700)로 전달되고, 인코딩된 사이드 신호는 신호 라인(602)을 통해 신호 디코더(700)로 전달된다.
신호 디코더는 인코딩된 미드 신호를 디코딩하고 인코딩된 사이드 신호를 디코딩하여 라인(701) 상의 디코딩된 미드 신호 및 라인(702) 상의 디코딩된 사이드 신호를 얻도록 구성된다. 이러한 신호들은 디코딩된 제1 채널 신호 또는 디코딩된 좌측 신호를 계산하기 위해 그리고 디코딩된 제2 채널 또는 디코딩된 우측 채널 신호를 디코딩된 미드 신호 및 디코딩된 사이드 신호로부터 계산하기 위해 신호 프로세서(800)에 의해 사용되며, 디코딩된 제1 채널 및 디코딩된 제2 채널은 각각 라인들(801, 802) 상에 출력된다. 신호 정렬 해제기(900)는 디코딩된 다채널 신호, 즉 라인들(901, 902) 상에 적어도 2개의 디코딩되고 정렬 해제된 채널들을 갖는 디코딩된 신호를 얻기 위해 광대역 정렬 파라미터에 관한 정보를 사용하여 그리고 복수의 협대역 정렬 파라미터들에 관한 정보를 추가로 사용하여, 라인(801) 상의 디코딩된 제1 채널 및 디코딩된 우측 채널(802)을 정렬 해제하도록 구성된다.
도 9a는 도 2로부터의 신호 정렬 해제기(900)에 의해 수행되는 바람직한 일련의 단계들을 예시한다. 구체적으로, 단계(910)는 도 2로부터의 라인들(801, 802) 상에서 이용 가능한 정렬된 좌측 채널 및 우측 채널을 수신한다. 단계(910)에서, 신호 정렬 해제기(900)는 911a 및 911b에서 위상 정렬 해제된 디코딩된 제1 및 제2 또는 좌측 및 우측 채널들을 얻기 위해 협대역 정렬 파라미터들에 관한 정보를 사용하여 개개의 부대역들을 정렬 해제한다. 단계(912)에서, 채널들은 광대역 정렬 파라미터를 사용하여 정렬 해제되어, 913a 및 913b에서 위상 및 시간 정렬 해제된 채널들이 얻어진다.
단계(914)에서는, 915a 또는 915b에서, 아티팩트 감소된 또는 아티팩트가 없는 디코딩된 신호, 즉 일반적으로, 한편으로는 광대역에 대한 그리고 다른 한편으로는 다수의 협대역들에 대한 시변 정렬 해제 파라미터가 있었다 하더라도, 어떠한 아티팩트들도 없는 디코딩된 채널들을 얻기 위해, 윈도우 처리 또는 임의의 중첩-가산 동작 또는 일반적으로 임의의 크로스 페이드 동작을 사용하는 것을 포함하는 임의의 추가 처리가 수행된다.
도 9b는 도 2에 예시된 다채널 디코더의 바람직한 구현을 예시한다.
특히, 도 2의 신호 프로세서(800)는 시간-스펙트럼 변환기(810)를 포함한다.
신호 프로세서는 더욱이, 미드 신호(M) 및 사이드 신호(S)로부터 좌측 신호(L) 및 우측 신호(R)를 계산하기 위해 미드/사이드-좌측/우측 변환기(820)를 포함한다.
그러나 중요하게는, 블록(820)에서 미드/사이드-좌측/우측 변환에 의해 L 및 R을 계산하기 위해, 사이드 신호(S)가 반드시 사용되어야 하는 것은 아니다. 대신에, 나중에 논의되는 바와 같이, 좌측 신호/우측 신호는 채널 간 레벨 차 파라미터(ILD)로부터 도출된 이득 파라미터만을 사용하여 초기에 계산된다. 일반적으로, 예측 이득은 또한 ILD의 한 형태로 간주될 수 있다. 이득은 ILD로부터 도출될 수 있지만 또한 직접 계산될 수 있다. 더는 ILD를 계산하지 않고, 예측 이득을 직접 계산하고 ILD 파라미터보다는 디코더에서 예측 이득을 송신 및 사용하는 것이 바람직하다.
따라서 이 구현에서, 사이드 신호(S)는 바이패스 라인(821)에 의해 예시된 바와 같이, 송신된 사이드 신호(S)를 사용하여 보다 양호한 좌측/우측 신호를 제공하도록 동작하는 채널 업데이터(830)에서만 사용된다.
따라서 변환기(820)는 레벨 파라미터 입력(822)을 통해 획득된 레벨 파라미터를 사용하여 그리고 실제로 사이드 신호(S)는 사용하지 않고 동작하지만, 다음에 채널 업데이터(830)는 사이드(821)를 사용하여, 그리고 특정 구현에 따라, 라인(831)을 통해 수신된 스테레오 채움 파라미터를 사용하여 동작한다. 그 다음, 신호 정렬 해제기(900)는 위상 정렬 해제기 및 에너지 스케일러(910)를 포함한다. 에너지 스케일링은 스케일링 계수 계산기(940)에 의해 도출된 스케일링 계수에 의해 제어된다. 스케일링 계수 계산기(940)는 채널 업데이터(830)의 출력에 의해 공급된다. 입력(911)을 통해 수신된 협대역 정렬 파라미터들에 기초하여 위상 정렬 해제가 수행되고, 블록(920)에서, 라인(921)을 통해 수신된 광대역 정렬 파라미터에 기초하여 시간 정렬 해제가 수행된다. 마지막으로, 디코딩된 신호를 최종적으로 얻기 위해 스펙트럼-시간 변환(930)이 수행된다.
도 9c는 바람직한 실시예에서 도 9b의 블록들(920, 930) 내에서 통상적으로 수행되는 추가 일련의 단계들을 예시한다.
구체적으로, 협대역 정렬 해제된 채널들이 도 9b의 블록(920)에 대응하는 광대역 정렬 해제 기능으로 입력된다. 블록(931)에서 DFT 또는 임의의 다른 변환이 수행된다. 시간 도메인 샘플들의 실제 계산에 후속하여, 합성 윈도우를 이용한 선택적인 합성 윈도우 처리가 수행된다. 합성 윈도우는 바람직하게는 분석 윈도우와 정확히 동일하거나 분석 윈도우, 예를 들어 보간 또는 데시메이션(decimation)으로부터 도출되지만 분석 윈도우로부터의 특정 방식에 의존한다. 이러한 의존성은 2개의 중첩 윈도우들에 의해 정의된 증배율(multiplication factor)들이 중첩 범위의 각각의 포인트에 대해 최대 1을 가산하도록 하는 것이 바람직하다. 따라서 블록(932)에서의 합성 윈도우에 후속하여, 중첩 동작 및 후속하는 가산 동작이 수행된다. 대안으로, 합성 윈도우 처리 및 중첩/가산 동작 대신에, 도 9a와 관련하여 이미 논의된 바와 같이, 아티팩트 감소된 디코딩된 신호를 획득하기 위해 각각의 채널에 대한 후속 블록들 사이의 임의의 크로스 페이드가 수행된다.
도 6b가 고려될 때, 미드 신호에 대한 실제 디코딩 동작들, 즉 한편으로는 "EVS 디코더" 그리고 사이드 신호에 대한 벡터 역양자화(VQ-1) 및 역 MDCT(IMDCT: inverse MDCT) 동작은 도 2의 신호 디코더(700)에 대응한다.
더욱이, 블록들(810)에서의 DFT 동작들은 도 9b의 엘리먼트(810)에 대응하고, 역 스테레오 처리 및 역 시간 시프트의 기능들은 도 2의 블록들(800, 900)에 대응하며, 도 6b에서의 역 DFT 동작들(930)은 도 9b의 블록(930)에서의 대응하는 동작에 대응한다.
다음에, 도 3이 보다 상세히 논의된다. 특히, 도 3은 개개의 스펙트럼 라인들을 갖는 DFT 스펙트럼을 예시한다. 바람직하게는, DFT 스펙트럼 또는 도 3에 예시된 임의의 다른 스펙트럼은 복소 스펙트럼이며, 각각의 라인은 크기 및 위상을 갖는 또는 실수부 및 허수부를 갖는 복소 스펙트럼 라인이다.
추가로, 스펙트럼은 또한 여러 파라미터 대역들로 나뉜다. 각각의 파라미터 대역은 적어도 하나의 그리고 바람직하게는 하나보다 많은 스펙트럼 라인들을 갖는다. 추가로, 파라미터 대역들은 더 낮은 주파수들에서 더 높은 주파수들로 증가한다. 통상적으로, 광대역 정렬 파라미터는 전체 스펙트럼에 대한, 즉 도 3의 예시적인 실시예에서는 대역 1 내지 대역 6 모두를 포함하는 스펙트럼에 대한 단일 광대역 정렬 파라미터이다.
더욱이, 복수의 협대역 정렬 파라미터들은 각각의 파라미터 대역에 대한 단일 정렬 파라미터가 존재하도록 제공된다. 이는 대역에 대한 정렬 파라미터가 항상 해당 대역 내의 모든 스펙트럼 값들에 적용됨을 의미한다.
더욱이, 협대역 정렬 파라미터들 외에도, 레벨 파라미터들이 또한 각각의 파라미터 대역에 제공된다.
대역 1에서부터 대역 6까지 각각의 모든 파라미터 대역에 제공되는 레벨 파라미터들과는 대조적으로, 대역 1, 대역 2, 대역 3 및 대역 4와 같은 제한된 수의 더 하위 대역들에 대해서만 복수의 협대역 정렬 파라미터들을 제공하는 것이 바람직하다.
추가로, 더 하위 대역들을 제외한 특정 수의 대역들에 대해, 이를테면 예시적인 실시예에서는 대역 4, 대역 5 및 대역 6에 대해 스테레오 채움 파라미터들이 제공되는 한편, 더 하위 파라미터 대역 1, 대역 2 및 대역 3에 대해서는 사이드 신호 스펙트럼 값들이 존재하고, 결과적으로는 이러한 하위 대역들에 대해 스테레오 채움 파라미터가 존재하지 않으며, 여기서는 사이드 신호 자체 또는 사이드 신호를 나타내는 예측 잔차 신호를 사용하여 파형 매칭이 얻어진다.
이미 언급한 바와 같이, 도 3의 실시예에서, 파라미터 대역 6에서의 7개의 스펙트럼 라인들 대 파라미터 대역 2에서의 단지 3개의 스펙트럼 라인들과 같이, 더 상위 대역들에 더 많은 스펙트럼 라인들이 존재한다. 그러나 당연히, 파라미터 대역들의 수, 스펙트럼 라인들의 수 및 파라미터 대역 내의 스펙트럼 라인들의 수 그리고 또한 특정 파라미터들에 대한 서로 다른 한계들이 다를 것이다.
그럼에도, 도 8은 도 3과는 대조적으로 실제로 12개의 대역들이 존재하는 특정 실시예에서 파라미터들이 제공되는 대역들의 수 및 파라미터들의 분포를 예시한다.
예시된 바와 같이, 레벨 파라미터(ILD)가 12개의 대역들 각각에 대해 제공되고, 대역당 5 비트로 표현되는 양자화 정확도로 양자화된다.
더욱이, 협대역 정렬 파라미터들(IPD)은 하위 대역들에 대해 2.5㎑의 경계 주파수까지만 제공된다. 추가로, 채널 간 시간 차 또는 광대역 정렬 파라미터는 전체 스펙트럼에 대한 단일 파라미터로서만, 그러나 전체 대역에 대해 8 비트로 표현되는 매우 높은 양자화 정확도로 제공된다.
더욱이, 대역당 3 비트로 표현되는 상당히 대략적으로 양자화된 스테레오 채움 파라미터들이 제공되며 1㎑ 미만의 하위 대역들에 대해서는 그렇지 않은데, 이는 하위 대역들에 대해서는 실제로 인코딩된 사이드 신호 또는 사이드 신호 잔차 스펙트럼 값들이 포함되기 때문이다.
후속적으로, 인코더 측의 바람직한 처리가 도 5와 관련하여 요약된다. 제1 단계에서, 좌측 및 우측 채널의 DFT 분석이 수행된다. 이 프로시저는 도 4c의 단계(155) 내지 단계(157)에 대응한다. 단계(158)에서, 광대역 정렬 파라미터가 계산되고 특히, 바람직한 광대역 정렬 파라미터 채널 간 시간 차(ITD)가 계산된다. 170에 예시된 바와 같이, 주파수 도메인에서 L 및 R의 시간 시프트가 수행된다. 대안으로, 이러한 시간 시프트는 또한 시간 도메인에서 수행될 수 있다. 그 다음, 역 DFT가 수행되고, 시간 도메인에서 시간 시프트가 수행되며, 추가 순방향 DFT가 수행되어, 광대역 정렬 파라미터를 이용한 정렬에 후속하는 스펙트럼 표현들을 다시 한번 갖게 된다.
단계(171)에 예시된 바와 같이, 시프트된 L 표현 및 R 표현에 대해 각각의 파라미터 대역에 대한 ILD 파라미터들, 즉 레벨 파라미터들 및 위상 파라미터들(IPD 파라미터들)이 계산된다. 이 단계는 예를 들어, 도 4c의 단계(160)에 대응한다. 도 4c 또는 도 5의 단계(161)에 예시된 바와 같이, 시간 시프트된 L 표현 및 R 표현이 채널 간 위상 차 파라미터들의 함수로써 회전된다. 이어서, 단계(301)에 예시된 바와 같이 그리고 바람직하게는 나중에 논의되는 에너지 보존 동작과 함께 추가로, 미드 신호 및 사이드 신호가 계산된다. 후속 단계(174)에서, ILD의 함수로써 M에 따른 그리고 선택적으로는 이전 M 신호, 즉 더 이전 프레임의 미드 신호에 따른 S의 예측이 수행된다. 이어서, 바람직한 실시예에서 도 4d의 단계들(303, 304, 305)에 대응하는 미드 신호 및 사이드 신호의 역 DFT가 수행된다.
마지막 단계(175)에서, 시간 도메인 미드 신호(m) 그리고 선택적으로 잔차 신호가 단계(175)에 예시된 바와 같이 코딩된다. 이 프로시저는 도 1의 신호 인코더(400)에 의해 수행되는 것에 대응한다.
역 스테레오 처리시 디코더에서, Side 신호가 DFT 도메인에서 생성되며 먼저 Mid 신호로부터 다음과 같이 예측되며:
Figure 112018083143912-pct00001
여기서 g는 각각의 파라미터 대역에 대해 계산된 이득이고 송신된 채널 간 레벨 차(ILD)들의 함수이다.
그 다음, 예측의 잔차인
Figure 112018083143912-pct00002
가 다음의 두 가지 서로 다른 방법들로 세밀화될 수 있다:
- 잔차 신호의 2차 코딩에 의해:
Figure 112018083143912-pct00003
여기서
Figure 112018083143912-pct00004
는 전체 스펙트럼에 대해 송신되는 전역 이득이다.
- 이전 DFT 프레임으로부터의 이전 디코딩된 Mid 신호 스펙트럼으로 잔차 사이드 스펙트럼을 예측하는, 스테레오 채움으로 알려진 잔차 예측에 의해:
Figure 112018083143912-pct00005
여기서
Figure 112018083143912-pct00006
는 파라미터 대역별 송신되는 예측 이득이다.
두 가지 타입들의 코딩 세밀화는 동일한 DFT 스펙트럼 내에서 혼합될 수 있다. 바람직한 실시예에서, 더 낮은 파라미터 대역들에는 잔차 코딩이 적용되는 한편, 나머지 대역들에는 잔차 예측이 적용된다. 잔차 코딩은 도 1에 도시된 바와 같이 바람직한 실시예에서, 시간 도메인에서 잔차 사이드 신호를 합성하고 이를 MDCT에 의해 변환한 후에 MDCT 도메인에서 수행된다. DFT와 달리, MDCT는 중요한 샘플링이며 오디오 코딩에 더 적합하다. MDCT 계수들은 격자 벡터 양자화에 의해 직접 벡터 양자화되지만 대안으로, 엔트로피 코더가 뒤따르는 스칼라 양자화기에 의해 코딩될 수 있다. 대안으로, 잔차 사이드 신호는 또한 음성 코딩 기술에 의해 시간 도메인에서 또는 직접 DFT 도메인에서 코딩될 수 있다.
1. 시간-주파수 분석: DFT
DFT들에 의해 이루어지는 스테레오 처리로부터의 추가 시간-주파수 분해가 코딩 시스템의 전반적인 지연을 크게 증가시키지 않으면서 우수한 청각 장면 분석을 가능하게 한다는 점이 중요하다. 기본적으로, 10㎳의 시간 분해능(코어 코더의 20㎳ 프레이밍의 2배)이 사용된다. 분석 윈도우와 합성 윈도우는 동일하며 대칭이다. 윈도우는 도 7에서 16㎑의 샘플링 레이트로 표현된다. 발생된 지연을 줄이기 위해 중첩 영역이 제한되고, 이하 설명되는 바와 같이 주파수 도메인에서 ITD를 적용할 때 순환 시프트의 카운터 균형을 맞추기 위해 제로 패딩이 또한 추가되는 것이 확인될 수 있다.
2. 스테레오 파라미터들
스테레오 파라미터들은 스테레오 DFT의 시간 분해능에서 최대로 송신될 수 있다. 최소한 이는 코어 코더의 프레이밍 분해능, 즉 20㎳로 감소될 수 있다. 기본적으로, 과도 신호(transient)들이 검출되지 않으면, 파라미터들은 2개의 DFT 윈도우들에 걸쳐 20㎳마다 계산된다. 파라미터 대역들은 등가 직사각 대역폭들(ERB: Equivalent Rectangular Bandwidths)의 대략 2배 또는 4배에 따른 스펙트럼의 불균등하고 중첩하지 않는 분해를 구성한다. 기본적으로, 16㎑의 주파수 대역폭(32kbps 샘플링 레이트, 초광대역 스테레오)에 대해 총 12개의 대역들에 4배의 ERB 스케일이 사용된다. 도 8은 스테레오 사이드 정보가 약 5kbps로 송신되는 구성의 일례를 요약한 것이다.
3. ITD 및 채널 시간 정렬의 계산
ITD는 위상 변환에 의한 일반화된 교차 상관(GCC-PHAT)을 사용하여 도달 시간 지연(TDOA: Time Delay of Arrival)을 추정함으로써 계산되며:
Figure 112018083143912-pct00007
여기서 L 및 R은 각각 좌측 채널 및 우측 채널의 주파수 스펙트럼들이다. 주파수 분석은 후속 스테레오 처리에 사용되는 DFT와 독립적으로 수행될 수 있거나 공유될 수 있다. ITD를 계산하기 위한 의사 코드는 다음과 같다.
L =fft(window(l));
R =fft(window(r));
tmp = L .* conj( R );
sfm_L = prod(abs(L).^(1/length(L)))/(mean(abs(L))+eps);
sfm_R = prod(abs(R).^(1/length(R)))/(mean(abs(R))+eps);
sfm = max(sfm_L,sfm_R);
h.cross_corr_smooth = (1-sfm)*h.cross_corr_smooth+sfm*tmp;
tmp = h.cross_corr_smooth ./ abs( h.cross_corr_smooth+eps );
tmp = ifft( tmp );
tmp = tmp([length(tmp)/2+1:length(tmp) 1:length(tmp)/2+1]);
tmp_sort = sort( abs(tmp) );
thresh = 3 * tmp_sort( round(0.95*length(tmp_sort)) );
xcorr_time=abs(tmp(- ( h.stereo_itd_q_max - (length(tmp)-1)/2 - 1 ):- ( h.stereo_itd_q_min - (length(tmp)-1)/2 - 1 )));
%smooth output for better detection
xcorr_time=[xcorr_time 0];
xcorr_time2=filter([0.25 0.5 0.25],1,xcorr_time);
[m,i] = max(xcorr_time2(2:end));
if m > thresh
itd = h.stereo_itd_q_max - i + 1;
else
itd = 0;
end
도 4e는 광대역 정렬 파라미터에 대한 일례로서 채널 간 시간 차의 강력하고 효율적인 계산을 획득하기 위해 앞서 예시된 의사 코드를 구현하기 위한 흐름도를 예시한다.
블록(451)에서, 제1 채널(l) 및 제2 채널(r)에 대한 시간 도메인 신호들의 DFT 분석이 수행된다. 이 DFT 분석은 일반적으로 예를 들어, 도 5 또는 도 4c의 단계(155) 내지 단계(157)와 관련하여 논의된 것과 동일한 DFT 분석일 것이다.
그 다음, 블록(452)에 예시된 바와 같이, 각각의 주파수 빈에 대해 교차 상관이 수행된다.
따라서 좌측 및 우측 채널의 전체 스펙트럼 범위에 대해 교차 상관 스펙트럼이 얻어진다.
그 다음, 단계(453)에서 L 및 R의 크기 스펙트럼들로부터 스펙트럼 평탄도 측정치가 계산되고, 단계(454)에서 더 큰 스펙트럼 평탄도 측정치가 선택된다. 그러나 단계(454)에서의 선택이 반드시 더 큰 것의 선택일 필요는 없지만, 두 채널들로부터의 단일 SFM의 이러한 결정은 또한 좌측 채널만 또는 우측 채널만의 선택 및 계산일 수 있고, 또는 두 SFM 값들의 가중 평균의 계산일 수 있다.
그 다음, 단계(455)에서 스펙트럼 평탄도 측정치에 따라 교차 상관 스펙트럼이 시간에 걸쳐 평활화된다.
바람직하게는, 크기 스펙트럼의 기하 평균을 크기 스펙트럼의 산술 평균으로 나눔으로써 스펙트럼 평탄도 측정치가 계산된다. 따라서 SFM에 대한 값들은 0과 1 사이로 한정된다.
그 다음, 단계(456)에서는 평활화된 교차 상관 스펙트럼이 그 크기에 의해 정규화되고, 단계(457)에서는 정규화되고 평활화된 교차 상관 스펙트럼의 역 DFT가 계산된다. 단계(458)에서는, 특정 시간 도메인 필터링이 바람직하게 수행되지만, 이 시간 도메인 필터링은 또한 구현에 따라 고려되지 않을 수 있지만, 나중에 개요가 설명되는 바와 같이 바람직하다.
단계(459)에서, 필터 일반화된 교차 상관 함수의 피크-피킹(peak-picking)에 의해 그리고 특정 임계화 동작을 수행함으로써 ITD 추정이 수행된다.
특정 임계치가 얻어지지 않는다면, ITD는 0으로 설정되고 이 대응하는 블록에 대해 시간 정렬이 수행되지 않는다.
ITD 계산은 또한 다음과 같이 요약될 수 있다. 교차 상관은 스펙트럼 평탄도 측정에 따라 평활화되기 전에 주파수 도메인에서 계산된다. SFM은 0과 1 사이로 한정된다. 잡음과 같은 신호들의 경우, SFM은 하이(즉, 약 1)일 것이고 평활화는 약할 것이다. 톤과 같은 신호의 경우, SFM은 낮을 것이고 평활화는 더 강해질 것이다. 그 다음, 평활화된 교차 상관은 시간 도메인으로 다시 변환되기 전에 그 진폭에 의해 정규화된다. 정규화는 교차 상관의 위상 변환에 대응하며, 저 잡음 및 상대적으로 높은 잔향 환경들에서 일반적인 교차 상관보다 더 우수한 성능을 보여주는 것으로 알려져 있다. 이렇게 획득된 시간 도메인 함수는 보다 견고한 피크 피킹을 달성하기 위해 먼저 필터링된다. 최대 진폭에 해당하는 인덱스는 좌측 채널과 우측 채널 간의 시간 차(ITD)의 추정치에 대응한다. 최대치의 진폭이 주어진 임계치보다 더 낮다면, ITD의 추정치는 신뢰할 수 있는 것으로 간주되지 않고 0으로 설정된다.
시간 정렬이 시간 도메인에 적용된다면, ITD는 별도의 DFT 분석에서 계산된다. 시프트는 다음과 같이 이루어진다:
Figure 112018083143912-pct00008
이는 인코더에서 추가 지연을 필요로 하는데, 이는 처리될 수 있는 최대 절대 ITD와 최대한 동일하다. 시간 경과에 따른 ITD의 변화는 DFT의 분석 윈도우 처리로 평활화된다.
대안으로, 시간 정렬은 주파수 도메인에서 수행될 수 있다. 이 경우, ITD 계산과 순환 시프트는 동일한 DFT 도메인에 있는데, 이 도메인은 이 다른 스테레오 처리와 공유된다. 순환 시프트는 다음과 같이 주어진다:
Figure 112018083143912-pct00009
순환 시프트로 시간 시프트를 시뮬레이션하기 위해 DFT 윈도우들의 제로 패딩이 필요하다. 제로 패딩의 크기는 처리될 수 있는 최대 절대 ITD에 해당한다. 바람직한 실시예에서, 제로 패딩은 양쪽 끝에 3.125㎳의 제로들을 추가함으로써 분석 윈도우들의 양 측면들에 균등하게 분할된다. 그러면 최대 절대 가능 ITD는 6.25㎳이다. A-B 마이크로폰들의 설정에서, 이는 최악의 경우 두 마이크로폰들 사이의 약 2.15 미터의 최대 거리에 해당한다. 시간 경과에 따른 ITD의 변화는 합성 윈도우 처리 및 DFT의 중첩-가산에 의해 평활화된다.
시간 시프트 다음에 시프트된 신호의 윈도우 처리가 이어지는 것이 중요하다. 이는 선행 기술의 입체 음향 큐 코딩(BCC)과의 주요 차이점인데, 여기서는 시간 시프트가 윈도우 처리된 신호에 적용되지만 합성 스테이지에서 추가로 윈도우 처리되지는 않는다. 결과적으로, 시간 경과에 따른 ITD의 임의의 변화는 디코딩된 신호에서 인공적인 과도 신호/클릭을 발생시킨다.
4. IPD들 및 채널 회전의 계산
스테레오 구성에 따라, 각각의 파라미터 대역 또는 적어도 최대 주어진
Figure 112018083143912-pct00010
에 대해 2개의 채널들을 시간 정렬한 후에 IPD들이 계산된다.
Figure 112018083143912-pct00011
그런 다음, IPD들이 두 채널들에 적용되어 이들의 위상들을 정렬한다:
Figure 112018083143912-pct00012
여기서
Figure 112018083143912-pct00013
,
Figure 112018083143912-pct00014
그리고 b는 주파수 인덱스(k)가 속하는 파라미터 대역 인덱스이다. 파라미터(
Figure 112018083143912-pct00015
)는 두 채널들의 위상을 정렬되게 하면서 이들 간의 위상 회전량을 분배하는 역할을 한다.
Figure 112018083143912-pct00016
는 IPD뿐만 아니라, 채널들의 상대적 진폭 레벨인 ILD에도 의존한다. 채널이 더 큰 진폭을 갖는다면, 이는 선두 채널로 간주될 것이며 더 작은 진폭을 갖는 채널보다 위상 회전의 영향을 덜 받을 것이다.
5. 합-차 및 사이드 신호 코딩
미드 신호에서 에너지가 보존되는 방식으로 두 채널들의 시간 및 위상 정렬된 스펙트럼들에 대해 합 차 변환이 수행된다.
Figure 112018083143912-pct00017
여기서
Figure 112018083143912-pct00018
은 1/1.2 내지 1.2, 즉 -1.58 내지 +1.58㏈로 제한된다. 이러한 제한은 M 및 S의 에너지를 조정할 때 아티팩트를 피한다. 시간 및 위상이 미리 정렬될 때 이 에너지 보존이 덜 중요하다는 점에 유의할 가치가 있다. 대안으로, 한계들은 증가 또는 감소될 수 있다.
사이드 신호(S)는 M에 따라 추가로 예측되는데:
Figure 112018083143912-pct00019
여기서
Figure 112018083143912-pct00020
여기서
Figure 112018083143912-pct00021
이다. 대안으로, 최적 예측 이득(g)은 이전 식에 의해 추론된 잔차 및 ILD들의 평균 제곱 에러(MSE: Mean Square Error)를 최소화함으로써 확인될 수 있다.
잔차 신호
Figure 112018083143912-pct00022
는 두 가지 수단들에 의해: M의 지연된 스펙트럼으로 이를 예측함으로써 또는 MDCT 도메인에서 이를 직접 코딩함으로써 모델링될 수 있다.
6. 스테레오 디코딩
미드 신호(X) 및 사이드 신호(S)가 먼저 다음과 같이 좌측 채널(L) 및 우측 채널(R)로 변환되며:
Figure 112018083143912-pct00023
Figure 112018083143912-pct00024
여기서 파라미터 대역별 이득(g)이 ILD 파라미터로부터 도출되며:
Figure 112018083143912-pct00025
여기서
Figure 112018083143912-pct00026
이다.
cod_max_band 이하의 파라미터 대역들의 경우, 2개의 채널들이 디코딩된 사이드 신호로 업데이트된다:
Figure 112018083143912-pct00027
Figure 112018083143912-pct00028
더 높은 파라미터 대역들의 경우, 사이드 신호가 예측되고 채널들이 다음과 같이 업데이트된다:
Figure 112018083143912-pct00029
Figure 112018083143912-pct00030
마지막으로, 채널들은 스테레오 신호의 원래 에너지와 채널 간 위상을 복원하는 것을 목표로 복소 값과 곱해지며:
Figure 112018083143912-pct00031
Figure 112018083143912-pct00032
여기서
Figure 112018083143912-pct00033
여기서 a는 이전에 정의된 대로 정의되고 제한되며,
Figure 112018083143912-pct00034
이고, atan2(x,y)는 y에 대한 x의 4-사분면 역탄젠트이다.
마지막으로, 채널들은 송신된 ITD들에 따라 시간 또는 주파수 도메인에서 시간 시프트된다. 시간 도메인 채널들은 역 DFT들 및 중첩-가산에 의해 합성된다.
본 발명의 특정 특징들은 공간 큐들 및 합-차 조인트 스테레오 코딩의 결합에 관한 것이다. 구체적으로, 공간 큐들의 ITD 및 IPD가 계산되어 스테레오 채널들(좌측 및 우측)에 적용된다. 더욱이, 합-차(M/S 신호들)가 계산되고, 바람직하게는 M에 따른 S의 예측이 적용된다.
디코더 측에서, 광대역 및 협대역 공간 큐들이 합-차 조인트 스테레오 코딩과 함께 결합된다. 특히, 사이드 신호는 ILD와 같은 적어도 하나의 공간 큐를 사용하여 미드 신호에 따라 예측되고, 좌측 채널 및 우측 채널을 얻기 위해 역 합-차가 계산되며, 추가로 광대역 및 협대역 공간 큐들이 좌측 채널 및 우측 채널에 적용된다.
바람직하게는, 인코더는 ITD를 사용하여 처리한 후에 시간 정렬된 채널들에 대해 윈도우 처리 및 중첩-가산 동작을 한다. 더욱이, 디코더는 채널 간 시간 차를 적용한 후에 채널들의 시프트된 또는 정렬 해제된 버전들의 윈도우 처리 및 중첩-가산 동작을 추가로 한다.
GCC-Phat 방법을 이용한 채널 간 시간 차의 계산은 특별히 강력한 방법이다.
새로운 프로시저는 낮은 지연으로 스테레오 오디오 또는 다채널 오디오의 비트 레이트 코딩을 달성하기 때문에 이는 유리한 선행 기술이다. 이는 입력 신호들의 다양한 특징들 및 다채널 또는 스테레오 녹음의 다양한 설정들에 강력하도록 특별히 설계된다. 특히, 본 발명은 비트 레이트 스테레오 음성 코딩에 우수한 품질을 제공한다.
바람직한 프로시저들은 이를테면, 주어진 낮은 비트 레이트에서 일정한 지각 품질을 갖는 음성 및 음악과 유사한 모든 타입들의 스테레오 또는 다채널 오디오 콘텐츠의 브로드캐스팅의 분배에 사용될 수 있다. 이러한 애플리케이션 영역들은 디지털 라디오, 인터넷 스트리밍 또는 오디오 통신 애플리케이션들이다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 또는 비-일시적 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 또는 비-일시적 저장 매체 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

Claims (34)

  1. 적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치로서,
    상기 다채널 신호로부터 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 결정하기 위한 파라미터 결정기(100);
    정렬된 채널들을 얻기 위해 시간 정렬을 위한 상기 광대역 정렬 파라미터 및 위상 정렬을 위한 상기 복수의 협대역 정렬 파라미터들을 사용하여 상기 적어도 2개의 채널들을 정렬하기 위한 신호 정렬기(200);
    상기 정렬된 채널들을 사용하여 미드 신호(mid-signal) 및 사이드 신호(side signal)를 계산하기 위한 신호 프로세서(300);
    인코딩된 미드 신호를 얻기 위해 상기 미드 신호를 인코딩하고 인코딩된 사이드 신호를 얻기 위해 상기 사이드 신호를 인코딩하기 위한 신호 인코더(400); 및
    상기 인코딩된 미드 신호, 상기 인코딩된 사이드 신호, 상기 광대역 정렬 파라미터에 관한 정보 및 상기 복수의 협대역 정렬 파라미터들에 관한 정보를 포함하는 인코딩된 다채널 신호를 발생시키기 위한 출력 인터페이스(500)를 포함하는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  2. 제1 항에 있어서,
    상기 파라미터 결정기(100)는 상기 적어도 2개의 채널들의 광대역 표현을 사용하여 상기 광대역 정렬 파라미터를 결정하도록 구성되고, 상기 광대역 표현은 상기 적어도 2개의 채널들 각각의 적어도 2개의 부대역들을 포함하며,
    상기 신호 정렬기(200)는 상기 적어도 2개의 채널들의 정렬된 광대역 표현을 얻기 위해 상기 적어도 2개의 채널들의 광대역 표현의 광대역 정렬을 수행하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  3. 제1 항에 있어서,
    상기 파라미터 결정기(100)는 상기 적어도 2개의 채널들의 정렬된 광대역 표현의 적어도 하나의 부대역에 대한 개별적인 협대역 정렬 파라미터를 결정하도록 구성되고,
    상기 신호 정렬기(200)는 상기 적어도 2개의 채널들 각각에 대한 복수의 정렬된 부대역들을 포함하는 정렬된 협대역 표현을 얻기 위해 대응하는 부대역에 대한 상기 개별적인 협대역 정렬 파라미터를 사용하여 상기 정렬된 광대역 표현의 각각의 부대역을 개별적으로 정렬하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  4. 제1 항에 있어서,
    상기 신호 프로세서(300)는 상기 적어도 2개의 채널들 각각에 대해 복수의 정렬된 부대역들을 사용하여 상기 미드 신호에 대한 상기 복수의 부대역들 및 상기 사이드 신호에 대한 복수의 부대역들을 계산하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  5. 제1 항에 있어서,
    상기 파라미터 결정기(100)는 상기 다채널 신호의 복수의 부대역들 각각에 대해 상기 광대역 정렬 파라미터로서 채널 간 시간 차 파라미터를 또는 상기 복수의 협대역 정렬 파라미터들로서 채널 간 위상 차를 계산하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  6. 제1 항에 있어서,
    상기 파라미터 결정기(100)는 상기 다채널 신호의 복수의 부대역들 각각에 대한 예측 이득 또는 채널 간 레벨 차를 계산하도록 구성되고,
    상기 신호 인코더(400)는 부대역의 미드 신호를 사용하여 그리고 상기 부대역의 채널 간 레벨 차 또는 예측 이득을 사용하여 상기 부대역의 사이드 신호의 예측을 수행하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  7. 제1 항에 있어서,
    상기 신호 인코더(400)는 상기 사이드 신호로부터 도출된 예측 잔차 신호, 상기 적어도 2개의 채널들 간의 예측 이득 또는 채널 간 레벨 차, 상기 미드 신호 및 지연된 미드 신호를 계산하고 인코딩하도록 구성되거나, 또는
    부대역의 예측 이득은 상기 부대역에서 상기 적어도 2개의 채널들 간의 채널 간 레벨 차를 사용하여 계산되거나, 또는
    상기 신호 인코더는 음성 코더 또는 전환된 음악/음성 코더 또는 시간 도메인 대역폭 확장 인코더 또는 주파수 도메인 갭 채움 인코더를 사용하여 상기 미드 신호를 인코딩하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  8. 제1 항에 있어서,
    스펙트럼 도메인에서 상기 적어도 2개의 채널들의 스펙트럼 표현을 생성하기 위한 시간-스펙트럼 변환기(150)를 더 포함하며,
    상기 파라미터 결정기(100)와 상기 신호 정렬기(200) 그리고 상기 신호 프로세서(300)는 상기 스펙트럼 도메인에서 동작하도록 구성되고,
    상기 신호 프로세서(300)는 상기 미드 신호의 시간 도메인 표현을 생성하기 위한 스펙트럼-시간 변환기(154)를 더 포함하며,
    상기 신호 인코더(400)는 상기 미드 신호의 시간 도메인 표현을 인코딩하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  9. 제1 항에 있어서,
    상기 파라미터 결정기(100)는 스펙트럼 표현을 사용하여 상기 광대역 정렬 파라미터를 계산하도록 구성되고,
    상기 신호 정렬기(200)는 상기 적어도 2개의 채널들에 대한 광대역 정렬된 스펙트럼 값들을 얻기 위해 상기 광대역 정렬 파라미터를 사용하여 상기 적어도 2개의 채널들의 스펙트럼 표현에 순환 시프트(159)를 적용하도록 구성되거나, 또는
    상기 파라미터 결정기(100)는 상기 광대역 정렬된 스펙트럼 값들로부터 상기 복수의 협대역 정렬 파라미터들을 계산하도록 구성되며,
    상기 신호 정렬기(200)는 상기 복수의 협대역 정렬 파라미터들을 사용하여 상기 광대역 정렬된 스펙트럼 값들을 회전(161)시키도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  10. 제8 항에 있어서,
    상기 시간-스펙트럼 변환기(150)는 상기 적어도 2개의 채널들 각각에 분석 윈도우를 적용하도록 구성되며, 상기 분석 윈도우는 그 좌측 또는 우측에 제로 패딩 부분을 갖고, 상기 제로 패딩 부분은 상기 광대역 정렬 파라미터의 최대 값을 결정하거나, 또는
    상기 분석 윈도우는 초기 중첩 영역, 중간 비중첩 영역 및 후행 중첩 영역을 갖거나, 또는
    상기 시간-스펙트럼 변환기(150)는 일련의 중첩 윈도우들을 적용하도록 구성되고, 윈도우의 중첩 부분의 길이와 상기 윈도우의 비중첩 부분의 길이는 함께, 상기 신호 인코더(400)의 프레이밍의 일부(fraction)와 동일한,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  11. 제8 항에 있어서,
    상기 스펙트럼-시간 변환기(154)는 합성 윈도우를 사용하도록 구성되며, 상기 합성 윈도우는 상기 시간-스펙트럼 변환기(150)에 의해 사용되는 분석 윈도우와 동일하거나 상기 분석 윈도우로부터 도출되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  12. 제1 항에 있어서,
    상기 신호 프로세서(300)는 상기 미드 신호 또는 상기 사이드 신호의 시간 도메인 표현을 계산하도록 구성되며,
    상기 시간 도메인 표현을 계산하는 것은,
    윈도우 처리(window)된 현재 블록을 얻기 위해 상기 미드 신호 또는 상기 사이드 신호의 샘플들의 현재 블록을 윈도우 처리하는 것(304),
    윈도우 처리된 후속 블록을 얻기 위해 상기 미드 신호 또는 상기 사이드 신호의 샘플들의 후속 블록을 윈도우 처리하는 것(304), 그리고
    중첩 범위에 대한 시간 도메인 표현을 얻기 위해 상기 중첩 범위에서 윈도우 처리된 현재 블록의 샘플들 및 윈도우 처리된 후속 블록의 샘플들을 추가하는 것(305)을 포함하는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  13. 제1 항에 있어서,
    상기 신호 인코더(400)는, 제1 세트의 부대역들에서 상기 사이드 신호 또는 상기 사이드 신호로부터 도출된 예측 잔차 신호 및 상기 미드 신호를 인코딩하고, 그리고
    상기 제1 세트의 부대역들과는 다른 제2 세트의 부대역들에서, 시간상 더 이른 이득 파라미터 도출 사이드 신호 및 미드 신호를 인코딩하도록 구성되며,
    상기 사이드 신호 또는 예측 잔차 신호는 상기 제2 세트의 부대역들에 대해서는 인코딩되지 않는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  14. 제13 항에 있어서,
    상기 제1 세트의 부대역들은 상기 제2 세트의 부대역들의 주파수들보다 주파수가 더 낮은 부대역들을 갖는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  15. 제1 항에 있어서,
    상기 신호 인코더(400)는 상기 사이드 신호의 MDCT 계수들의 벡터 또는 스칼라 또는 임의의 다른 양자화와 같은 양자화 및 MDCT 변환을 사용하여 상기 사이드 신호를 인코딩하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  16. 제1 항에 있어서,
    상기 파라미터 결정기(100)는 대역폭을 갖는 개별 대역들에 대해 상기 복수의 협대역 정렬 파라미터들을 결정하도록 구성되며, 제1 중심 주파수를 갖는 제1 대역의 제1 대역폭은 제2 중심 주파수를 갖는 제2 대역의 제2 대역폭보다 더 낮고, 상기 제2 중심 주파수는 상기 제1 중심 주파수보다 더 크거나, 또는
    상기 파라미터 결정기(100)는 경계 주파수까지의 대역들에 대해서만 상기 협대역 정렬 파라미터들을 결정하도록 구성되며, 상기 경계 주파수는 상기 미드 신호 또는 상기 사이드 신호의 최대 주파수보다 더 낮고,
    상기 신호 정렬기(200)는 상기 광대역 정렬 파라미터를 사용하여 상기 경계 주파수보다 높은 주파수들을 갖는 부대역들에서 상기 적어도 2개의 채널들만을 정렬하도록 그리고 상기 광대역 정렬 파라미터 및 상기 협대역 정렬 파라미터들을 사용하여 상기 경계 주파수 아래의 주파수들을 갖는 부대역들에서 상기 적어도 2개의 채널들을 정렬하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  17. 제1 항에 있어서,
    상기 파라미터 결정기(100)는 일반화된 교차 상관을 이용한 도달 시간 지연의 추정을 사용하여 상기 광대역 정렬 파라미터를 계산하도록 구성되고, 상기 신호 정렬기(200)는 시간 시프트를 사용하여 시간 도메인에서 또는 순환 시프트를 사용하여 주파수 도메인에서 상기 광대역 정렬 파라미터를 적용하도록 구성되거나, 또는
    상기 파라미터 결정기(100)는,
    상기 적어도 2개의 채널들의 제1 채널과 상기 적어도 2개의 채널들의 제2 채널 간의 교차 상관 스펙트럼을 계산하는 것(452);
    상기 제1 채널 또는 상기 제2 채널 또는 두 채널들 모두에 대한 스펙트럼 형상에 관한 정보를 계산하는 것(453, 454);
    상기 스펙트럼 형상에 관한 정보에 따라 상기 교차 상관 스펙트럼을 평활화하는 것(455);
    선택적으로, 정규화된 교차 상관 스펙트럼을 획득하기 위하여 평활화된 교차 상관 스펙트럼을 정규화하는 것(456);
    평활화되고 선택적으로 정규화된 교차 상관 스펙트럼의 시간 도메인 표현을 결정하는 것(457, 458); 그리고
    상기 광대역 정렬 파라미터로서 채널 간 시간 차를 얻기 위해 상기 시간 도메인 표현을 분석하는 것(459)을 사용하여
    상기 광대역 정렬 파라미터를 계산하도록 구성되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  18. 제1 항에 있어서,
    상기 신호 프로세서(300)는 에너지 스케일링 계수를 사용하여 상기 미드 신호 및 상기 사이드 신호를 계산하도록 구성되며, 상기 에너지 스케일링 계수는 최대한 2 내지 적어도 0.5로 제한되거나, 또는
    상기 파라미터 결정기(100)는 대역 내의 제1 채널 및 제2 채널의 스펙트럼 값들의 곱들의 복소 합의 각도를 결정함으로써 상기 대역에 대한 정규화된 정렬 파라미터를 계산하도록 구성되거나, 또는
    상기 신호 정렬기(200)는 상기 제1 채널과 상기 제2 채널 모두가 채널 회전을 하게 되는 식으로 협대역 정렬을 수행하도록 구성되며,
    더 큰 진폭을 갖는 채널의 채널 회전은 더 작은 진폭을 갖는 채널에 비해 더 작은 정도로 회전되는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 장치.
  19. 적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 방법으로서,
    상기 다채널 신호로부터 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 결정하는 단계(100);
    정렬된 채널들을 얻기 위해 시간 정렬을 위한 상기 광대역 정렬 파라미터 및위상 정렬을 위한 상기 복수의 협대역 정렬 파라미터들을 사용하여 상기 적어도 2개의 채널들을 정렬하는 단계(200);
    상기 정렬된 채널들을 사용하여 미드 신호 및 사이드 신호를 계산하는 단계(300);
    인코딩된 미드 신호를 얻기 위해 상기 미드 신호를 인코딩하고 인코딩된 사이드 신호를 얻기 위해 상기 사이드 신호를 인코딩하는 단계(400); 및
    상기 인코딩된 미드 신호, 상기 인코딩된 사이드 신호, 상기 광대역 정렬 파라미터에 관한 정보 및 상기 복수의 협대역 정렬 파라미터들에 관한 정보를 포함하는 인코딩된 다채널 신호를 발생시키는 단계(500)를 포함하는,
    적어도 2개의 채널들을 갖는 다채널 신호를 인코딩하기 위한 방법.
  20. 삭제
  21. 인코딩된 미드 신호, 인코딩된 사이드 신호, 광대역 정렬 파라미터에 관한 정보 및 복수의 협대역 정렬 파라미터들에 관한 정보를 포함하는 인코딩된 다채널 신호를 디코딩하기 위한 장치로서,
    디코딩된 미드 신호를 얻기 위해 상기 인코딩된 미드 신호를 디코딩하기 위한 그리고 디코딩된 사이드 신호를 얻기 위해 상기 인코딩된 사이드 신호를 디코딩하기 위한 신호 디코더(700);
    상기 디코딩된 미드 신호 및 상기 디코딩된 사이드 신호로부터 디코딩된 제1 채널 및 디코딩된 제2 채널을 계산하기 위한 신호 프로세서(800); 및
    디코딩된 다채널 신호를 얻기 위해 시간 정렬 해제를 위한 상기 광대역 정렬 파라미터에 관한 정보 및 위상 정렬 해제를 위한 상기 복수의 협대역 정렬 파라미터들에 관한 정보를 사용하여 상기 디코딩된 제1 채널 및 상기 디코딩된 제2 채널을 정렬 해제(de-align)하기 위한 신호 정렬 해제기(900)를 포함하는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  22. 제21 항에 있어서,
    상기 신호 정렬 해제기(900)는 상기 디코딩된 제1 채널 및 제2 채널에 대해 정렬 해제된 부대역을 얻기 위해 상기 디코딩된 제1 및 제2 채널들의 상기 복수의 부대역들 중의 부대역과 연관된 협대역 정렬 파라미터를 사용하여 상기 제1 채널 및 상기 제2 채널의 복수의 부대역들 중 각각의 부대역을 정렬 해제하도록 구성되고,
    상기 신호 정렬 해제기는 상기 광대역 정렬 파라미터에 관한 정보를 사용하여 상기 디코딩된 제1 채널 및 제2 채널의 정렬 해제된 부대역들의 표현을 정렬 해제하도록 구성되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  23. 제21 항에 있어서,
    상기 신호 정렬 해제기(900)는 상기 디코딩된 다채널 신호의 상기 디코딩된 제1 채널 또는 상기 디코딩된 제2 채널의 시간 도메인 표현을 계산하도록 구성되며,
    상기 계산은,
    윈도우 처리된 현재 블록을 얻기 위해 상기 디코딩된 다채널 신호의 상기 디코딩된 제1 채널 또는 상기 디코딩된 제2 채널의 샘플들의 현재 블록을 윈도우 처리하는 것;
    윈도우 처리된 후속 블록을 얻기 위해 상기 디코딩된 제1 채널 또는 상기 디코딩된 제2 채널의 샘플들의 후속 블록을 윈도우 처리하는 것; 그리고
    중첩 범위에 대한 시간 도메인 표현을 얻기 위해 상기 디코딩된 제1 채널 또는 상기 디코딩된 제2 채널의 상기 중첩 범위에서 상기 디코딩된 제1 채널 또는 상기 디코딩된 제2 채널의 윈도우 처리된 현재 블록의 샘플들 및 윈도우 처리된 후속 블록의 샘플들을 추가하는 것을 사용하는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  24. 제21 항에 있어서,
    상기 신호 정렬 해제기(900)는 대역폭들을 갖는 개별 부대역들에 대해 복수의 개별 협대역 정렬 파라미터들에 관한 정보를 적용하도록 구성되며, 제1 중심 주파수를 갖는 제1 대역의 제1 대역폭은 제2 중심 주파수를 갖는 제2 대역의 제2 대역폭보다 더 낮고, 상기 제2 중심 주파수는 상기 제1 중심 주파수보다 더 크거나, 또는
    상기 신호 정렬 해제기는 경계 주파수까지의 대역들에 대해서만 개별 대역들에 대해 복수의 개별 협대역 정렬 파라미터들에 관한 정보를 적용하도록 구성되며, 상기 경계 주파수는 상기 디코딩된 제1 채널 또는 상기 디코딩된 제2 채널의 최대 주파수보다 더 낮고,
    상기 신호 정렬 해제기(900)는 상기 광대역 정렬 파라미터에 관한 정보를 사용하여 상기 경계 주파수보다 높은 주파수들을 갖는 부대역들에서 상기 디코딩된 제1 채널 및 상기 디코딩된 제2 채널만을 정렬 해제하도록 그리고 상기 광대역 정렬 파라미터에 관한 정보를 사용하여 그리고 상기 협대역 정렬 파라미터들에 관한 정보를 사용하여 상기 경계 주파수 아래의 주파수들을 갖는 부대역들에서 상기 디코딩된 제1 채널 및 상기 디코딩된 제2 채널을 정렬 해제하도록 구성되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  25. 제21 항에 있어서,
    상기 신호 프로세서(800)는,
    상기 디코딩된 미드 신호 및 상기 디코딩된 사이드 신호의 주파수 도메인 표현을 계산하기 위한 시간-스펙트럼 변환기(810)를 포함하며,
    상기 신호 프로세서(800)는 상기 주파수 도메인에서 상기 디코딩된 제1 채널 및 상기 디코딩된 제2 채널을 계산하도록 구성되고,
    상기 신호 정렬 해제기는 상기 복수의 협대역 정렬 파라미터들에 관한 정보만을 사용하여 또는 상기 복수의 협대역 정렬 파라미터들을 사용하여 그리고 상기 광대역 정렬 파라미터에 관한 정보를 사용하여 정렬된 신호들을 시간 도메인으로 변환하기 위한 스펙트럼-시간 변환기(930)를 포함하는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  26. 제21 항에 있어서,
    상기 신호 정렬 해제기(900)는 상기 광대역 정렬 파라미터에 관한 정보를 사용하여 시간 도메인에서 정렬 해제를 수행하도록 그리고 시간 정렬된 채널들의 시간상 후속하는 블록들을 사용하여 윈도우 처리 동작(932) 또는 중첩 및 가산 동작(933)을 수행하도록 구성되거나, 또는
    상기 신호 정렬 해제기(900)는 상기 광대역 정렬 파라미터에 관한 정보를 사용하여 스펙트럼 도메인에서 정렬 해제를 수행하도록 그리고 정렬 해제된 채널들을 사용하여 스펙트럼-시간 변환(931)을 수행하도록 그리고 상기 정렬 해제된 채널들의 시간상 후속하는 블록들을 사용하여 합성 윈도우 처리(932) 및 중첩 및 가산 동작(933)을 수행하도록 구성되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  27. 제21 항에 있어서,
    상기 신호 디코더는 시간 도메인 미드 신호 및 시간 도메인 사이드 신호를 발생시키도록 구성되고,
    상기 신호 프로세서(800)는 상기 미드 신호 또는 상기 사이드 신호에 대한 윈도우 처리된 샘플들의 후속 블록들을 생성하기 위해 분석 윈도우를 사용하여 윈도우 처리를 수행하도록 구성되며,
    상기 신호 프로세서는 스펙트럼 값들의 후속 블록들을 얻도록 상기 후속하는 블록들을 변환하기 위한 시간-스펙트럼 변환기(810)를 포함하고,
    상기 신호 정렬 해제기(900)는 상기 스펙트럼 값들의 블록들에 대해 상기 협대역 정렬 파라미터들에 관한 정보 및 상기 광대역 정렬 파라미터들에 관한 정보를 사용하여 상기 정렬 해제를 수행하도록 구성되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  28. 제21 항에 있어서,
    상기 인코딩된 다채널 신호는 복수의 예측 이득들 또는 레벨 파라미터들을 포함하고,
    상기 신호 프로세서(800)는 상기 디코딩된 미드 신호의 스펙트럼 값들 및상기 디코딩된 제1 채널 및 상기 디코딩된 제2 채널의 상기 스펙트럼 값들과 연관된 대역에 대한 예측 이득 또는 레벨 파라미터를 사용하여(820), 그리고 상기 디코딩된 사이드 신호의 스펙트럼 값들을 사용함으로써(830) 디코딩된 제1 채널 및 디코딩된 제2 채널의 스펙트럼 값들을 계산하도록 구성되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  29. 제21 항에 있어서,
    상기 신호 프로세서(800)는 스펙트럼 값들과 연관된 대역에 대한 스테레오 채움 파라미터를 사용하여(830) 상기 제1 채널 및 상기 제2 채널의 스펙트럼 값들을 계산하도록 구성되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  30. 제21 항에 있어서,
    상기 신호 정렬 해제기(900) 또는 상기 신호 프로세서(800)는 스케일링 계수를 사용하여 대역에 대한 에너지 스케일링(910)을 수행하도록 구성되며, 상기 스케일링 계수는 상기 디코딩된 미드 신호 및 상기 디코딩된 사이드 신호의 에너지들에 좌우되고(920),
    상기 스케일링 계수는 최대한 2.0 내지 적어도 0.5로 제한되는,인코딩된 다채널 신호를 디코딩하기 위한 장치.
  31. 제28 항에 있어서,
    상기 신호 프로세서(800)는 상기 레벨 파라미터로부터 도출된 이득 계수를 사용하여 상기 제1 채널 및 상기 제2 채널의 스펙트럼 값들을 계산하도록 구성되고,
    상기 이득 계수는 비선형 함수를 사용하여 상기 레벨 파라미터로부터 도출되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  32. 제21 항에 있어서,
    상기 신호 정렬 해제기(900)는 상기 제1 채널 및 제2 채널의 스펙트럼 값들의 회전을 사용하여 채널들에 대한 협대역 정렬 파라미터에 관한 정보를 사용하여 상기 디코딩된 제1 채널 및 제2 채널의 대역을 정렬 해제하도록 구성되며,
    더 큰 진폭을 갖는 하나의 채널의 스펙트럼 값들은 더 작은 진폭을 갖는 다른 채널의 대역의 스펙트럼 값들에 비해 덜 회전되는,
    인코딩된 다채널 신호를 디코딩하기 위한 장치.
  33. 인코딩된 미드 신호, 인코딩된 사이드 신호, 광대역 정렬 파라미터에 관한 정보 및 복수의 협대역 정렬 파라미터들에 관한 정보를 포함하는 인코딩된 다채널 신호를 디코딩하기 위한 방법으로서,
    디코딩된 미드 신호를 얻기 위해 상기 인코딩된 미드 신호를 디코딩하고 디코딩된 사이드 신호를 얻기 위해 상기 인코딩된 사이드 신호를 디코딩하는 단계(700);
    상기 디코딩된 미드 신호 및 상기 디코딩된 사이드 신호로부터 디코딩된 제1 채널 및 디코딩된 제2 채널을 계산하는 단계(800); 및
    디코딩된 다채널 신호를 얻기 위해 상기 광대역 정렬 파라미터에 대한 정보 및 상기 복수의 협대역 정렬 파라미터들에 대한 정보를 사용하여 상기 디코딩된 제1 채널 및 상기 디코딩된 제2 채널을 정렬 해제하는 단계(900)를 포함하는,
    인코딩된 다채널 신호를 디코딩하기 위한 방법.
  34. 컴퓨터 또는 프로세서 상에서 실행될 때, 제19 항의 방법 또는 제33 항의 방법을 수행하기 위한,
    컴퓨터 프로그램이 저장된 저장 매체.
KR1020187024171A 2016-01-22 2017-01-20 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 KR102230727B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16152450 2016-01-22
EP16152450.9 2016-01-22
EP16152453.3 2016-01-22
EP16152453 2016-01-22
PCT/EP2017/051205 WO2017125558A1 (en) 2016-01-22 2017-01-20 Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters

Publications (2)

Publication Number Publication Date
KR20180105682A KR20180105682A (ko) 2018-09-28
KR102230727B1 true KR102230727B1 (ko) 2021-03-22

Family

ID=57838406

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020187024177A KR102219752B1 (ko) 2016-01-22 2017-01-20 채널 간 시간 차를 추정하기 위한 장치 및 방법
KR1020187024233A KR102343973B1 (ko) 2016-01-22 2017-01-20 프레임 제어 동기화을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
KR1020187024171A KR102230727B1 (ko) 2016-01-22 2017-01-20 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
KR1020177037759A KR102083200B1 (ko) 2016-01-22 2017-01-20 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020187024177A KR102219752B1 (ko) 2016-01-22 2017-01-20 채널 간 시간 차를 추정하기 위한 장치 및 방법
KR1020187024233A KR102343973B1 (ko) 2016-01-22 2017-01-20 프레임 제어 동기화을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020177037759A KR102083200B1 (ko) 2016-01-22 2017-01-20 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법

Country Status (20)

Country Link
US (7) US10535356B2 (ko)
EP (5) EP3405949B1 (ko)
JP (10) JP6641018B2 (ko)
KR (4) KR102219752B1 (ko)
CN (6) CN108885877B (ko)
AU (5) AU2017208580B2 (ko)
BR (4) BR112018014916A2 (ko)
CA (4) CA2987808C (ko)
ES (4) ES2790404T3 (ko)
HK (1) HK1244584B (ko)
MX (4) MX2018008889A (ko)
MY (4) MY196436A (ko)
PL (4) PL3405951T3 (ko)
PT (3) PT3405951T (ko)
RU (4) RU2693648C2 (ko)
SG (3) SG11201806241QA (ko)
TR (1) TR201906475T4 (ko)
TW (4) TWI628651B (ko)
WO (4) WO2017125562A1 (ko)
ZA (3) ZA201804625B (ko)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2671711T3 (es) * 2008-09-18 2018-06-08 Electronics And Telecommunications Research Institute Aparato de codificación y aparato de decodificación para transformar entre codificador basado en transformada de coseno discreta modificada y hetero codificador
EP3405949B1 (en) 2016-01-22 2020-01-08 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for estimating an inter-channel time difference
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
ES2938244T3 (es) 2016-11-08 2023-04-05 Fraunhofer Ges Forschung Aparato y procedimiento para codificar o decodificar una señal multicanal usando una ganancia lateral y una ganancia residual
US10475457B2 (en) * 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
RU2749349C1 (ru) 2018-02-01 2021-06-09 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером
US10978091B2 (en) * 2018-03-19 2021-04-13 Academia Sinica System and methods for suppression by selecting wavelets for feature compression in distributed speech recognition
EP3985665A1 (en) * 2018-04-05 2022-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for estimating an inter-channel time difference
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
US11545165B2 (en) 2018-07-03 2023-01-03 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method using a determined prediction parameter based on an energy difference between channels
JP7092048B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
EP3719799A1 (en) 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN110459205B (zh) * 2019-09-24 2022-04-12 京东科技控股股份有限公司 语音识别方法及装置、计算机可存储介质
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
US20220156217A1 (en) * 2019-11-22 2022-05-19 Stmicroelectronics (Rousset) Sas Method for managing the operation of a system on chip, and corresponding system on chip
CN110954866B (zh) * 2019-11-22 2022-04-22 达闼机器人有限公司 声源定位方法、电子设备及存储介质
CN111131917B (zh) * 2019-12-26 2021-12-28 国微集团(深圳)有限公司 音频频谱实时同步方法、播放装置
TWI750565B (zh) * 2020-01-15 2021-12-21 原相科技股份有限公司 真無線多聲道揚聲裝置及其多音源發聲之方法
CN111402906B (zh) * 2020-03-06 2024-05-14 深圳前海微众银行股份有限公司 语音解码方法、装置、引擎及存储介质
US11276388B2 (en) * 2020-03-31 2022-03-15 Nuvoton Technology Corporation Beamforming system based on delay distribution model using high frequency phase difference
CN111525912B (zh) * 2020-04-03 2023-09-19 安徽白鹭电子科技有限公司 一种数字信号的任意重采样方法及系统
CN113223503B (zh) * 2020-04-29 2022-06-14 浙江大学 一种基于测试反馈的核心训练语音选择方法
EP4175269A4 (en) * 2020-06-24 2024-03-13 Nippon Telegraph & Telephone METHOD FOR DECODING SOUND SIGNALS, DEVICE FOR DECODING SOUND SIGNALS, PROGRAM AND RECORDING MEDIUM
WO2021260825A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 音信号符号化方法、音信号符号化装置、プログラム及び記録媒体
MX2023001152A (es) * 2020-07-30 2023-04-05 Fraunhofer Ges Forschung Aparato, metodo y programa de computadora para codificar una se?al de audio o para decodificar una escena de audio codificada.
WO2022074201A2 (en) 2020-10-09 2022-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
EP4226365A2 (en) 2020-10-09 2023-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter conversion
TWI805019B (zh) 2020-10-09 2023-06-11 弗勞恩霍夫爾協會 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式
US20240064483A1 (en) * 2021-01-18 2024-02-22 Panasonic Intellectual Property Corporation Of America Signal processing device and signal processing method
WO2022262960A1 (en) 2021-06-15 2022-12-22 Telefonaktiebolaget Lm Ericsson (Publ) Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture
CN113435313A (zh) * 2021-06-23 2021-09-24 中国电子科技集团公司第二十九研究所 一种基于dft的脉冲频域特征提取方法
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
WO2024053353A1 (ja) * 2022-09-08 2024-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法
WO2024074302A1 (en) 2022-10-05 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Coherence calculation for stereo discontinuous transmission (dtx)
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313028A1 (en) * 2008-06-13 2009-12-17 Mikko Tapio Tammi Method, apparatus and computer program product for providing improved audio processing
US20120045067A1 (en) 2009-05-20 2012-02-23 Panasonic Corporation Encoding device, decoding device, and methods therefor

Family Cites Families (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
US5526359A (en) 1993-12-30 1996-06-11 Dsc Communications Corporation Integrated multi-fabric digital cross-connect timing architecture
US6073100A (en) * 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6549884B1 (en) * 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
WO2003107591A1 (en) * 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
CN100474780C (zh) * 2002-08-21 2009-04-01 广州广晟数码技术有限公司 用于从编码后的音频数据流中解码重建多声道音频信号的解码方法
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7596486B2 (en) 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
WO2006008697A1 (en) * 2004-07-14 2006-01-26 Koninklijke Philips Electronics N.V. Audio channel conversion
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US20070055510A1 (en) 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR100712409B1 (ko) * 2005-07-28 2007-04-27 한국전자통신연구원 벡터의 차원변환 방법
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US8112286B2 (en) * 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN101390158B (zh) * 2006-02-24 2012-03-14 法国电信公司 量化索引的编码方法、解码信号包络方法、编解码模块
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
CA2708861C (en) * 2007-12-18 2016-06-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
CN101267362B (zh) * 2008-05-16 2010-11-17 亿阳信通股份有限公司 一种性能指标值正常波动范围的动态确定方法及其装置
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
AU2009267530A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for generating bandwidth extension output data
EP2410522B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
JP5269914B2 (ja) * 2009-01-22 2013-08-21 パナソニック株式会社 ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
MX2011007925A (es) 2009-01-28 2011-08-17 Dten Forschung E V Fraunhofer Ges Zur Foeerderung Der Angewan Codificador de audio, decodificador de audio, información de audio codificada, métodos para la codificación y decodificación de una señal de audio y programa de computadora.
ES2415155T3 (es) * 2009-03-17 2013-07-24 Dolby International Ab Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica
CN101989429B (zh) * 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
JP5031006B2 (ja) 2009-09-04 2012-09-19 パナソニック株式会社 スケーラブル復号化装置及びスケーラブル復号化方法
EP2486564B1 (en) * 2009-10-21 2014-04-09 Dolby International AB Apparatus and method for generating high frequency audio signal using adaptive oversampling
WO2011110594A1 (en) * 2010-03-10 2011-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
JP5405373B2 (ja) * 2010-03-26 2014-02-05 富士フイルム株式会社 電子内視鏡システム
CA3105050C (en) 2010-04-09 2021-08-31 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
ES2950751T3 (es) * 2010-04-13 2023-10-13 Fraunhofer Ges Forschung Codificador de audio o vídeo, decodificador de audio o vídeo y métodos relacionados para procesar señales de audio o vídeo multicanal usando una dirección de predicción variable
US8463414B2 (en) * 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
KR101517446B1 (ko) 2010-08-12 2015-05-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 직각 대칭 필터 기반 오디오 코덱들의 출력 신호들의 리샘플링
JP6100164B2 (ja) * 2010-10-06 2017-03-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
FR2966634A1 (fr) 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP3035330B1 (en) * 2011-02-02 2019-11-20 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
EP3182409B1 (en) * 2011-02-03 2018-03-14 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
AR085221A1 (es) * 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Aparato y metodo para codificar y decodificar una señal de audio utilizando una porcion alineada anticipada
MX2013009344A (es) * 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Aparato y metodo para procesar una señal de audio decodificada en un dominio espectral.
EP2710592B1 (en) * 2011-07-15 2017-11-22 Huawei Technologies Co., Ltd. Method and apparatus for processing a multi-channel audio signal
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
EP3288033B1 (en) * 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN103366749B (zh) * 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
ES2555579T3 (es) 2012-04-05 2016-01-05 Huawei Technologies Co., Ltd Codificador de audio multicanal y método para codificar una señal de audio multicanal
EP2834814B1 (en) * 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
KR20150012146A (ko) * 2012-07-24 2015-02-03 삼성전자주식회사 오디오 데이터를 처리하기 위한 방법 및 장치
WO2014043476A1 (en) * 2012-09-14 2014-03-20 Dolby Laboratories Licensing Corporation Multi-channel audio content analysis based upmix detection
WO2014046916A1 (en) * 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
SG11201400251XA (en) * 2012-12-27 2014-08-28 Panasonic Corp Video display method
KR101764726B1 (ko) * 2013-02-20 2017-08-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중 중첩 부분을 이용하여 인코딩된 신호를 생성하거나 인코딩된 오디오 신호를 디코딩하는 장치 및 방법
CN105074818B (zh) * 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830056A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
WO2016108655A1 (ko) * 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3242435B1 (en) 2014-12-31 2019-10-23 LG Electronics Inc. Method and apparatus for allocating resources in wireless communication system
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3405949B1 (en) * 2016-01-22 2020-01-08 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for estimating an inter-channel time difference
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313028A1 (en) * 2008-06-13 2009-12-17 Mikko Tapio Tammi Method, apparatus and computer program product for providing improved audio processing
US20120045067A1 (en) 2009-05-20 2012-02-23 Panasonic Corporation Encoding device, decoding device, and methods therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.*

Also Published As

Publication number Publication date
CA3011914C (en) 2021-08-24
RU2017145250A3 (ko) 2019-06-24
MX2017015009A (es) 2018-11-22
US20180322883A1 (en) 2018-11-08
TR201906475T4 (tr) 2019-05-21
US10706861B2 (en) 2020-07-07
CA3012159A1 (en) 2017-07-20
RU2017145250A (ru) 2019-06-24
KR20180105682A (ko) 2018-09-28
JP7161564B2 (ja) 2022-10-26
AU2019213424B2 (en) 2021-04-22
EP3405949A1 (en) 2018-11-28
SG11201806241QA (en) 2018-08-30
CN115148215A (zh) 2022-10-04
EP3503097A3 (en) 2019-07-03
AU2017208579B2 (en) 2019-09-26
WO2017125563A1 (en) 2017-07-27
TW201729561A (zh) 2017-08-16
JP7053725B2 (ja) 2022-04-12
RU2711513C1 (ru) 2020-01-17
EP3284087A1 (en) 2018-02-21
PT3405949T (pt) 2020-04-21
ZA201804625B (en) 2019-03-27
AU2017208579A1 (en) 2018-08-09
PL3284087T3 (pl) 2019-08-30
CA3011915A1 (en) 2017-07-27
PL3405951T3 (pl) 2020-06-29
CA2987808C (en) 2020-03-10
TW201729180A (zh) 2017-08-16
JP2018529122A (ja) 2018-10-04
EP3503097B1 (en) 2023-09-20
JP2019502965A (ja) 2019-01-31
ZA201804776B (en) 2019-04-24
CN108780649A (zh) 2018-11-09
AU2017208576A1 (en) 2017-12-07
CN108780649B (zh) 2023-09-08
TWI628651B (zh) 2018-07-01
JP6412292B2 (ja) 2018-10-24
KR20180104701A (ko) 2018-09-21
RU2705007C1 (ru) 2019-11-01
JP7270096B2 (ja) 2023-05-09
WO2017125562A1 (en) 2017-07-27
MX2018008889A (es) 2018-11-09
JP2019032543A (ja) 2019-02-28
BR112017025314A2 (pt) 2018-07-31
EP3284087B1 (en) 2019-03-06
AU2017208580A1 (en) 2018-08-09
JP2019506634A (ja) 2019-03-07
RU2693648C2 (ru) 2019-07-03
KR102219752B1 (ko) 2021-02-24
JP2021101253A (ja) 2021-07-08
SG11201806216YA (en) 2018-08-30
ZA201804910B (en) 2019-04-24
AU2019213424B8 (en) 2022-05-19
PL3503097T3 (pl) 2024-03-11
US11410664B2 (en) 2022-08-09
EP3405948B1 (en) 2020-02-26
MY189205A (en) 2022-01-31
US20220310103A1 (en) 2022-09-29
JP7258935B2 (ja) 2023-04-17
CN107710323B (zh) 2022-07-19
PT3405951T (pt) 2020-02-05
EP3405949B1 (en) 2020-01-08
KR20180012829A (ko) 2018-02-06
TWI629681B (zh) 2018-07-11
TWI653627B (zh) 2019-03-11
AU2019213424A1 (en) 2019-09-12
ES2727462T3 (es) 2019-10-16
EP3503097A2 (en) 2019-06-26
JP2020060788A (ja) 2020-04-16
CN107710323A (zh) 2018-02-16
MX2018008890A (es) 2018-11-09
JP6730438B2 (ja) 2020-07-29
KR102343973B1 (ko) 2021-12-28
CN108885877B (zh) 2023-09-08
JP2019502966A (ja) 2019-01-31
JP2020170193A (ja) 2020-10-15
AU2017208576B2 (en) 2018-10-18
US20180322884A1 (en) 2018-11-08
US20190228786A1 (en) 2019-07-25
BR112018014916A2 (pt) 2018-12-18
TW201801067A (zh) 2018-01-01
SG11201806246UA (en) 2018-08-30
JP6626581B2 (ja) 2019-12-25
AU2017208575B2 (en) 2020-03-05
PL3405949T3 (pl) 2020-07-27
US10854211B2 (en) 2020-12-01
BR112018014799A2 (pt) 2018-12-18
US20200194013A1 (en) 2020-06-18
HK1244584B (zh) 2019-11-15
ES2790404T3 (es) 2020-10-27
ES2773794T3 (es) 2020-07-14
JP2021103326A (ja) 2021-07-15
EP3405948A1 (en) 2018-11-28
EP3503097C0 (en) 2023-09-20
MX2018008887A (es) 2018-11-09
AU2017208575A1 (en) 2018-07-26
US20180197552A1 (en) 2018-07-12
CA3011915C (en) 2021-07-13
JP6856595B2 (ja) 2021-04-07
CN108885877A (zh) 2018-11-23
EP3405951A1 (en) 2018-11-28
WO2017125558A1 (en) 2017-07-27
JP6641018B2 (ja) 2020-02-05
PT3284087T (pt) 2019-06-11
US11887609B2 (en) 2024-01-30
KR102083200B1 (ko) 2020-04-28
MX371224B (es) 2020-01-09
CA3011914A1 (en) 2017-07-27
TW201732781A (zh) 2017-09-16
US10861468B2 (en) 2020-12-08
MY189223A (en) 2022-01-31
JP6859423B2 (ja) 2021-04-14
AU2017208580B2 (en) 2019-05-09
MY181992A (en) 2021-01-18
MY196436A (en) 2023-04-11
TWI643487B (zh) 2018-12-01
BR112018014689A2 (pt) 2018-12-11
US10424309B2 (en) 2019-09-24
ES2768052T3 (es) 2020-06-19
CA2987808A1 (en) 2017-07-27
CN117238300A (zh) 2023-12-15
JP2022088584A (ja) 2022-06-14
CN108885879B (zh) 2023-09-15
EP3405951B1 (en) 2019-11-13
RU2704733C1 (ru) 2019-10-30
CA3012159C (en) 2021-07-20
AU2019213424A8 (en) 2022-05-19
US20180342252A1 (en) 2018-11-29
WO2017125559A1 (en) 2017-07-27
US10535356B2 (en) 2020-01-14
KR20180103149A (ko) 2018-09-18
CN108885879A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
JP6879979B2 (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
EP3776541B1 (en) Apparatus, method or computer program for estimating an inter-channel time difference

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant