TWI549119B - 根據空間脈衝響應處理音源訊號之方法、訊號處理單元、音源編碼器、音源解碼器以及立體聲轉譯器 - Google Patents

根據空間脈衝響應處理音源訊號之方法、訊號處理單元、音源編碼器、音源解碼器以及立體聲轉譯器 Download PDF

Info

Publication number
TWI549119B
TWI549119B TW103124174A TW103124174A TWI549119B TW I549119 B TWI549119 B TW I549119B TW 103124174 A TW103124174 A TW 103124174A TW 103124174 A TW103124174 A TW 103124174A TW I549119 B TWI549119 B TW I549119B
Authority
TW
Taiwan
Prior art keywords
signal
impulse response
channel
initial
time
Prior art date
Application number
TW103124174A
Other languages
English (en)
Other versions
TW201523585A (zh
Inventor
希孟 福爾格
詹恩 保羅葛斯帝斯
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201523585A publication Critical patent/TW201523585A/zh
Application granted granted Critical
Publication of TWI549119B publication Critical patent/TWI549119B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

根據空間脈衝響應處理音源訊號之方法、訊號處理單元、音源編碼器、音源解碼器以及立體聲轉譯器
本發明係有關於音源編碼/解碼之領域,尤其是有關於空間音源編碼以及空間音源物件編碼,例如3D音源轉譯系統之領域。本發明的實施例係有關於根據一空間脈衝響應處理一音源訊號,以及在此種空間脈衝響應判斷從初期反射音轉換至晚期迴響音的方法。
空間音源編碼工具係此技術領域中所熟知且標準化,例如MPEG環繞標準。空間音源編碼從複數個原始輸入開始,例如,五個或七個輸入聲道,其藉由在再現方案的配置來識別,例如一左聲道、一中間聲道、一右聲道、一左環繞聲道、一右環繞聲道以及一低頻增强聲道。空間音源編碼器可從原始聲道衍生出至少一降混聲道,另外可衍生關於空間線索的參數數據,例如在聲道間相干數值、聲道間相位差異、聲道間時間差異等等的聲道間位準差異。至少一降混聲道係一起傳送指示空間線索的參數化輔助資訊到一空間音源解碼器,由空間音源解碼器解碼此降混聲道以及相關聯的參數數據,以最後取得與原始輸入聲道之近似版本的輸出聲道。聲道在輸出方案之配置可為固定,例如,5.1格式或7.1格式等等。
而且,空間音源物件編碼工具係此技術領域中所熟知以及標準化,例如,MPEG SAOC標準(SAOC=spatial audio object coding)。相比於空間音源編碼從原始聲道開始,空間音源物件編碼係從非自動專為特定轉譯再現方案的音源物件開始。相反地,音源物件在再現場景中的位置為可變 化且可由使用者設定,例如,藉由將特定的轉譯資訊輸入至空間音源物件編碼解碼器。另外,轉譯資訊可傳送作為額外的輔助資訊或是元數據(metadata);轉譯資訊可包含特定音源物件所設置在再現方案之位置的資訊(例如時間方面)。為了取得特定的數據壓縮,係使用一SAOC編碼器來編碼一數量的音源物件,SAOC編碼器係根據特定的降混合資訊來降混合物件以從輸入物件計算至少一運輸聲道。此外,SAOC編碼器係計算參數化輔助資訊,其代表物件間線索,例如物件位準差異(OLD)、物件相干數值等等。當在空間音源編碼(SAC)中,物件間參數數據係針對個別時間平鋪(time tiles)/頻率平鋪(frequency tiles)來計算。針對該音源訊號之特定訊框(例如1024個或是2048個取樣值),係考慮複數個頻率頻帶(例如24個、32個或是64個頻帶)使得參數數據能提供給每一訊框以及每一頻率頻帶。例如,當一音源片具有20個訊框且當每一訊框係細分成32個頻率頻帶,時間/頻率平鋪之數量係為640個。
在3D音源系統中,其理想上要提供一音源訊號之空間印象,彷彿此音源訊號係在一特定空間裡聆聽。在此處境下,例如在一測量基礎上提供此特定空間之空間脈衝響應,其係用於進行將該音源訊號表現給聽眾之處理。理想上係處理該直達聲音以及與晚期迴響音分開表現的初期反射音。此需要判斷初期反射音之結束處以及晚期迴響音的開始處。
本發明之目的在於提供用於根據一空間脈衝響應處理一音源訊號的改良方法。
藉由如申請專利範圍第1項所述之方法、如申請專利範圍第16項所述之訊號處理單元、如申請專利範圍第18項所述之音源編碼器、如申請專利範圍第20項所述之音源解碼器以及如申請專利範圍第24項所述之立體聲轉譯器來達成此目的。
本發明係根據發明人發現在習知方法中所判斷出從初期反射音到晚期迴響音的轉換有過早的問題,其係因為在第一反射發生或是撞擊之前用來判斷該轉換之發生的相關性已經到達一門檻值。基於這些發現 且已知該轉換時間必須大於第一反射之到達時間,因為第一反射係清楚明顯且能確定不是後期散播迴響音,發明人發現有必要避開固定門檻之使用;相反地,根據本發明的方法,門檻之定義係取決於在該複數個初期反射音中的其中一個之撞擊時間上的相關性。此係確保第一反射總會在轉換時間之前。
(1)本發明提供一種根據一空間脈衝響應處理一音源訊號的方法,其包含:將音源訊號與空間脈衝響應之一初期部分以及一晚期迴響音分别處理;以及將經與該空間脈衝響應之初期部分處理的音源訊號以及迴響訊號相結合,其中,在空間脈衝響應中從初期部分到晚期迴響音的轉換係藉由到達一門檻值的一相關性量測來決定,此門檻值之設定係取決於從空間脈衝響應之初期部分中選擇複數個初期反射音中的其中一個的相關性量測。
本發明的方法之優點在於能基於一堅固的轉換點進行音源訊號之改良處理。本發明的方法係無關於空間,也無關於是否使用雙聲道方法以及入射角。相比於先前技術方法,本發明的方法之優點在於其並非強烈地依賴於雙聲道脈衝響應之方位角以及直達聲音與第一撞擊反射之振幅之間的關係。
(2)根據實施例,相關性量測係描述關於空間脈衝響應類似於聽覺能量之衰變,其含有初期狀態以及在初期狀態之後任何時間開始預定義頻率範圍之外的聽覺能量衰變。
(3)根據實施例之判斷轉換包含根據空間脈衝響應判斷聽覺能量之分布,以及判斷複數個相關性測量,其係用於識別在初期狀態的決定分布以及聽覺能量之個別部分中聽覺能量之間的已決定之相關性分布之複數個部分。
(4)根據實施例之判斷分布包含判斷聽覺能量之時間頻率分布,其中分布之一部分包含預定義長度之時間塊,藉由時間頻率分布之複數個時間塊中的第一個來定義初期狀態。
此優點在於能在不同時間分析頻率分布,從而提供頻率分布在時間上特性之表現。
(5)根據實施例之判斷分布包含從空間脈衝響應計算能量衰變去除(energy decay relief,EDR),其中EDR係如下所示計算: 其中E(t,ω)=能量衰變去除,h(τ)=空間脈衝響應,ω=2πf
(6)根據實施例,空間脈衝響應具有一預定義有效長度,以及時間頻率分布之判斷包含使用具有對應於空間脈衝響應之有效長度之長度的窗來計算空間脈衝響應之FFT光譜。
此優點在於FFT/DFT係良好定義且有有效的演算法來計算頻譜值。如果在窗中的數值係已知的,FFT/DFT可在不複雜方式下計算。
(7)根據實施例,在初期狀態的聽覺能量係藉由取得空間脈衝響應之全部有效長度,計算FFT光譜、以及取得絕對值之平方來取得,而時間塊之聽覺能量係藉由將窗移動一與時間塊相關聯的時間來決定,將窗取樣補零至有效長度,計算FFT以及取得絕對值平方。
此優點在於不需要額外的濾波器組或其他相似裝置做EDR之窄頻帶計算;僅需要進行窗之移動。
(8)根據實施例之相關性量測係為一種相關性量測,其描述與含有初期狀態以及在初期狀態之後任何時間開始的聽覺能量衰變類似之聽覺能量衰變。該相關性量測可如下所示計算: 其中ρ(t)=相關性量測, E(1,ω)=全部頻率範圍中在頻率f的能量衰變去除,=初期全部範圍之能量衰變去除之所有的頻率的平均值,E(t,ω)=從時間t開始在頻率f的能量衰變去除,=在時間t開始之全部範圍的能量衰變去除之所有頻率的平均值,ω=2πf
此優點在於上述公式係參考熟知Pearson’s相關性係數(Pearson’s積差相關)。相關性係數可直接從EDR計算而得。
(9)根據實施例,門檻值係根據固定數值以及從複數個初期反射音中選擇其中一個的相關性量測所決定。門檻值可如下所示定義:ρ(t)=c.ρ(t F )其中ρ(t F )=複數個初期反射音中選擇的其中一個的相關性量測,t F =在直達聲音撞擊之後的複數個初期反射音中選擇的其中一個的時間參數,c=常數,其係基於e為歐拉數(Euler number)。
此優點在於門檻值並非固定的,而取決於所選初期反射音,以確保相關性不會太早落在門檻值以下。
(10)根據實施例,複數個初期反射音中所選的其中一個之時間係藉由執行峰度運算子、一門檻值偵測或是一攻擊偵測來決定。
此優點在於反射之撞擊時間可直接且自動從脈衝響應之複數個時間域取樣計算。
(11)根據實施例,複數個初期反射音中所選的其中一個係直達聲音之後的第一反射。
(12)本發明提供一種訊號處理單元,其包含用於接收音源訊號的一輸入端、依本發明方法根據空間脈衝響應用於或是以程式化處理所 接收的音源訊號的處理器、以及用於結合所接收之音源訊號之經處理初期部分以及迴響訊號成一輸出音源訊號的輸出端。訊號處理單元可包含根據空間脈衝響應之初期部分處理所接收之音源訊號的一初期部分處理器、以及根據空間脈衝響應之晚期迴響音處理所接收之音源訊號的晚期迴響音處理器。
(13)本發明提供一音源編碼器用於編碼音源訊號,其中音源編碼器係依本發明方法根據一空間脈衝響應用於或是以程式化處理一待編碼音源訊號。音源編碼器可包含本發明的訊號處理單元。
(14)本發明提供一音源解碼器,用於解碼一編碼音源訊號,其中音源解碼器係依本發明的方法根據空間脈衝響應用於或是以程式化處理一解碼音源訊號。音源解碼器可包含本發明的訊號處理單元。音源解碼器可包含一轉譯器,其相似於立體聲轉譯器,用於或是以程式化接收解碼音源訊號以及根據空間脈衝響應轉譯複數個輸出訊號。
(15)本發明提供一立體聲轉譯器,其包含本發明的訊號處理單元。
100‧‧‧音源編碼器
102‧‧‧前轉譯器/混合器電路、前轉譯器/混合器
104‧‧‧聲道訊號、聲道、訊號
106‧‧‧物件訊號、物件、訊號
108‧‧‧物件元數據、物件元數據資訊
110‧‧‧訊號、物件
112‧‧‧空間音源物件編碼編碼器、SAOC編碼器、選擇性的SAOC編碼器
114‧‧‧SAOC運輸聲道、SAOC數據
116‧‧‧音源編碼編碼器、USAC編碼器
118‧‧‧SAOC輔助資訊、SAOC數據
120、208‧‧‧物件訊號
122‧‧‧聲道訊號以及預先轉譯物件訊號
124‧‧‧物件元數據編碼器、OAM編碼器
126‧‧‧經壓縮的物件元數據資訊、已壓縮的物件元數據、訊號、物件元數據、壓縮的物件元數據cOAM
128‧‧‧經壓縮的輸出訊號mp4、編碼訊號、訊號、多工至3D音源位元流、3D音源位元流
200‧‧‧音源解碼器、接收器
202‧‧‧USAC解碼器
204‧‧‧聲道訊號、輸入訊號、聲道
206‧‧‧預先轉譯物件訊號、輸入訊號、預先轉譯物件
210‧‧‧SAOC運輸聲道訊號、解碼SAOC運輸聲道、SAOC運輸聲道
212‧‧‧經壓縮的物件元數據資訊、已壓縮的物件元數據
214‧‧‧訊號SAOC-SI、SAOC輔助資訊、參數資訊
216‧‧‧物件轉譯器
218‧‧‧物件訊號、轉譯物件訊號、輸入訊號、轉譯物件
220‧‧‧SAOC解碼器
222‧‧‧轉譯物件訊號、輸入訊號、轉譯物件
224‧‧‧OAM解碼器
226‧‧‧混合器
228‧‧‧聲道訊號、訊號、波形、聲道型態、混合器輸出訊號、多聲道音源素材、聲道輸入
230‧‧‧32聲道的揚聲器
232‧‧‧揚聲器轉譯器模組、揚聲器轉譯器、格式轉換器、格式轉換電路
234‧‧‧5.1聲道揚聲器系統、揚聲器訊號
236‧‧‧立體聲轉譯器、立體聲轉譯器模組
238‧‧‧頭載收話器、雙聲道降混、雙聲道布局
240‧‧‧降混處理、降混合器
242‧‧‧配置器、控制器、配置器作為控制器
246‧‧‧訊號、混合器輸出布局訊號
248‧‧‧訊號、再現布局訊號
250‧‧‧降混合器
252‧‧‧中間降混訊號
254‧‧‧雙聲道轉換器
300‧‧‧空間脈衝響應
301‧‧‧直達聲音、初期反射音部
302‧‧‧初期反射音、初期反射音部、晚期迴響音
304‧‧‧晚期迴響音、擴散迴響音、晚期擴散迴響音
400‧‧‧輸入訊號、音源訊號、音源輸入訊號、多聲道音源輸入訊號
402‧‧‧方塊、處理直達聲音、處理器
404‧‧‧方塊、處理初期反射音、處理器
406‧‧‧方塊、處理器、處理晚期迴響音
408、410‧‧‧輸出訊號
412‧‧‧第一加法器
414‧‧‧初期處理訊號
416‧‧‧迴響訊號
418‧‧‧第二加法器
420‧‧‧音源輸出訊號、整體雙聲道輸出訊號、雙聲道音源輸出訊號
422‧‧‧第一處理器、處理器、處理初期部分
424‧‧‧第二處理器、處理器、迴響器、晚期迴響音的處理
428‧‧‧初期部分、捲積結果、訊號
430‧‧‧迴響訊號、訊號、合成迴響訊號
432‧‧‧加法器
434‧‧‧空間脈衝響應、外部資料庫、資料庫
436‧‧‧分析
500、502、504、506、508‧‧‧步驟
600‧‧‧空間脈衝響應
602‧‧‧第一反射
604‧‧‧波形
606‧‧‧在第一反射的相關性數值
608‧‧‧傳統使用的固定門檻值1/e
610‧‧‧乘法器
612‧‧‧第一反射之相關性數值的新門檻值
614‧‧‧轉換點、決定時間
700‧‧‧左聲道
702‧‧‧右聲道
800‧‧‧立體聲轉譯器、雙聲道轉譯器模組、轉譯器模組、雙聲道處理模組、雙聲道轉譯器
802‧‧‧輸入端、輸入音源訊號、輸入訊號、解碼數據流輸入、QMF域音源訊號、多頻道音源訊號、解碼音源數據、Nin聲道QMF域訊號表現、 時間域音源取樣值
804‧‧‧雙聲道空間脈衝響應、空間脈衝響應、QMF域BRIRs
806‧‧‧最高頻帶之指示
808‧‧‧迴響器參數、迴響音時間、頻率相關參數設定、頻率相關迴響音時間
810‧‧‧迴響器參數、能量數值、頻率相關參數設定
812‧‧‧快速捲積處理器、處理器、帶狀快速捲積、快速捲積
814‧‧‧初期處理訊號、兩聲道QMF域捲積結果
816a、816b‧‧‧迴響器、個別迴響器、QMF域迴響器、兩聲道QMF域迴 響音、迴響器模組、頻率域迴響器模組、頻率域迴響器、迴響音模組
818‧‧‧立體聲降混處理器、立體聲降混、QMF域立體聲降混、立體聲降混
820‧‧‧相關性分析處理器、相關性量測、相關性分析
821a、821b‧‧‧增益級、振幅、時間縮放
822‧‧‧降混訊號、QMF域立體聲降混、立體聲降混
824a、824b‧‧‧個別控制訊號
826a、826b‧‧‧個別迴響訊號、兩聲道QMF域晚期迴響音、晚期迴響音、第二中間訊號、迴響器、迴響訊號
828‧‧‧混合器、混合處理
830‧‧‧輸出音源訊號、雙聲道時間域輸出訊號、輸出訊號、音源訊號、雙聲道輸出訊號、時間域輸出訊號
832‧‧‧輸入參數、轉換點、轉換時間、頻率相關參數設定
900‧‧‧輸入混合器
902‧‧‧回授延遲迴路
904‧‧‧聲道間相干修正
第1圖繪示一3D音源系統之一3D音源編碼器之概要圖。
第2圖繪示一3D音源系統之一3D音源解碼器之概要圖。
第3圖繪示用於實現一格式轉換器之範例,該格式轉換器可實現第2圖之3D音源解碼器。
第4圖繪示一立體聲轉譯器之實施例,該立體聲轉譯器可實現在第2圖之3D音源解碼器。
第5圖繪示一空間脈衝響應h(t)之範例。
第6圖(A)繪示根據本發明的一實施例分别處理具有空間脈衝之一初期部分以及一晚期迴響音的音源訊號的一訊號處理單元(例如第4圖之立體聲轉譯器中)之一方塊圖。
第6圖(B)繪示根據本發明的另一實施例之分别處理具有空間脈衝之初 期部分以及晚期迴響音的音源訊號的一訊號處理單元(例如第4圖之立體聲轉譯器中)之一方塊圖。
第7圖繪示根據本發明的實施例之判斷在空間脈衝響應中初期反射音以及晚期迴響音之間的轉換時間之方法之流程圖。
第8圖繪示根據基於FFT的方法決定的脈衝響應達成能量衰變去除(EDR)。
第9圖繪示根據本發明的一實施例判斷轉換時間。
第10圖繪示使用習知方法決定的測量雙聲道空間脈衝響應之左聲道以及右聲道的轉換時間。
第11圖繪示使用本發明的方法決定的測量雙聲道空間脈衝響應之左聲道以及右聲道的轉換時間。
第12圖大略地繪示根據本發明的實施例之立體聲轉譯器中的音源訊號之雙聲道處理。
第13圖大略地繪示根據本發明的實施例之第12圖之立體聲轉譯器之頻率域迴響器中的處理。
以下係描述本發明的方法之實施例根據一空間脈衝響應處理一音源訊號,以及在空間脈衝響應判斷從初期反射音轉換至晚期迴響音。下列描述將從可實現本發明方法的3D音源轉譯器系統之系統概要開始。
第1圖以及第2圖係顯示根據實施例之3D音源系統之演算方塊圖。更具體地,第1圖顯示3D音源編碼器100之概要。音源編碼器100在可選擇地提供的一前轉譯器/混合器電路102接收複數個輸入訊號,更具體地,複數個輸入聲道係提供音源編碼器100複數個聲道訊號104、複數個物件訊號106以及相對應的物件元數據108。由前轉譯器/混合器102(參見訊號110)所處理的物件訊號106可提供至一空間音源物件編碼(SAOC)編碼器112。SAOC編碼器112產生SAOC運輸聲道114,並將其提供至一演說及音源編碼(USAC)編碼器116。此外,訊號SAOC輔助資訊(SAOC-SI)118亦提供至USAC編碼器116。USAC編碼器116進一步從前 轉譯器/混合器直接接收物件訊號120、聲道訊號以及預先轉譯物件訊號122。物件元數據資訊108係施加至一物件元數據(OAM)編碼器124,其提供經壓縮的物件元數據資訊126至USAC編碼器。基於上述輸入訊號,USAC編碼器116產生一經壓縮的輸出訊號mp4,其標示為128。
第2圖顯示3D音源系統之3D音源解碼器200之概要。音源解碼器200係接收第1圖之音源編碼器100產生的編碼訊號128(mp4),更具體地,在一USAC解碼器202接收。USAC解碼器202將所接收之訊號128解碼成聲道訊號204、預先轉譯物件訊號206、物件訊號208以及SAOC運輸聲道訊號210。進一步,USAC解碼器202係輸出經壓縮的物件元數據資訊212以及訊號SAOC-SI 214。物件訊號208係提供至物件轉譯器216,其輸出轉譯複數個物件訊號218。SAOC運輸聲道訊號210係供應至SAOC解碼器220,其輸出轉譯物件訊號222。經壓縮的物件元數據資訊212係供應至OAM解碼器224,其輸出個別控制訊號至物件轉譯器216以及SAOC解碼器220,用以產生轉譯物件訊號218以及轉譯物件訊號222。解碼器更包含混合器226,其接收輸入訊號204、206、218以及222,並輸出複數個聲道訊號228,如第2圖所示。聲道訊號可為直接輸出至一揚聲器,例如32聲道的揚聲器,其標示為230。複數個訊號228可提供至一格式轉換電路232,其作為一控制輸入端接收一再現布局訊號,其指示聲道訊號228被轉換的方式。第2圖繪示的實施例中,係假設該轉換係以這種方式完成且此些訊號可提供至5.1聲道揚聲器系統,其標示為234。而且,複數個聲道訊號228可提供至立體聲轉譯器236以產生兩個輸出訊號,例如頭載收話器,其標示為238。
在本發明的實施例中,在第1圖以及第2圖所繪示的編碼/解碼系統係根據MPEG-D USAC轉譯器,來編碼聲道以及複數個物件訊號(參見複數個訊號104以及106)。為了增加編碼大量物件的效率,可使用MPEG SAOC技術。三種類型之轉譯器可執行轉譯物件至聲道、轉譯聲道至頭載收話器或是轉譯聲道至不同揚聲器方案的任務,(參見第2圖,標號230、234以及238)。當物件訊號係明確地傳送或是使用SAOC作參數化編碼,相對應的物件元數據資訊108係被壓縮(參見訊號126)以及多工至3D音 源位元流128。
以下將更詳細地描述第1圖以及第2圖所示之整體3D音源系統之演算法方塊。
前轉譯器/混合器102可選擇地提供在編碼之前將聲道加物件輸入場景轉換成聲道場景。功能上,其係相同於下面段落將描述的物件轉譯器/混合器。需要物件之預先轉譯以確保在編碼器輸入端決定的訊號熵,基本上無關於同步主動物件訊號之數量。透過物件之前轉譯,不需要傳送物件元數據。離散物件訊號係轉譯至編碼器使用的聲道布局。從相關聯的物件元數據(OAM)取得複數個物件對於每一聲道之權重。
USAC編碼器116係用於揚聲器聲道訊號、離散物件訊號、物件降混訊號以及前轉譯訊號的核心轉譯器。其係根據MPEG-D USAC技術。其根據輸入聲道以及物件分配的幾何以及語意資訊,創建聲道以及物件映射資訊來處理上述訊號之編碼。此映射資訊係描述輸入聲道以及物件如何映射至USAC聲道元件,像是複數個聲道對單元(CPEs)、複數個單一聲道元件(SCEs)、低頻效果(LFEs)以及四聲道元件(QCEs),而CPEs、SCEs以及LFEs以及相對應的資訊係傳送到解碼器。編碼器的比率控制係考慮所有額外的酬載(payloads),像是SAOC數據114與118、或是物件元數據126。物件之編碼係可能用不同的方式,取決於對轉譯器的比率/失真需求以及相互作用需求。根據實施例,後續的物件編碼變化型可能為:
●預先轉譯物件:在編碼之前,物件訊號係預先轉譯以及混合至22.2聲道訊號。後續的編碼鏈可看見22.2個聲道訊號。
●離散物件波形:物件係供應作為單聲道波形給編碼器。編碼器使用單一聲道元件(SCEs)傳送複數個物件,除了聲道訊號。經解碼的物件係在接收器側轉譯以及混合。經壓縮的物件元數據資訊係傳達到接收器/轉譯器。
●參數化物件波形:物件屬性以及其彼此關係係藉由SAOC參數之表示來描述。物件訊號之降混係與USAC一起編碼。參數資訊係並排傳送。降混聲道之數量之選擇係取決於物件之數量以及整體數據率。經壓縮的物件元數據資訊係傳送到SAOC轉譯器。
用於物件訊號的SAOC編碼器112以及SAOC解碼器220可根據MPEG SAOC技術。此系統能夠根據較小量的傳送聲道以及額外的參數數據,例如OLDs、物件間相干性(IOCs)或降混增益(downmix gain)來重建、修改以及轉譯音源物件之數量。比起需要傳送所有的個別物件,額外的參數數據僅需顯著較低數據率,使得編碼有效率。SAOC編碼器112係以物件/聲道訊號作為單聲道波形,並輸出參數資訊(其裝成3D音源位元流128)以及SAOC運輸聲道(其係使用單一聲道元件編碼以及傳送)。SAOC解碼器220係從複數個解碼SAOC運輸聲道210以及參數資訊214,重建複數個物件/聲道訊號以及根據再現布局、經解壓縮的物件元數據資訊,以及可選擇性基於使用者互動資訊,產生輸出音源場景。
提供物件元數據轉譯器(參見OAM編碼器124以及OAM解碼器224)使得對於每一物件,描述3D空間中物件之幾何位置以及容量相關聯的元數據能藉由物件屬性在時間以及空間上的量化而有效地編碼。壓縮的物件元數據cOAM 126係傳送到接收器200作為輔助資訊。
物件轉譯器216係根據給定的再現格式,利用經壓縮物件元數據以產生物件波形。每一物件係根據其元數據而轉譯至特定的輸出聲道。部分結果之總和係導致此方塊之輸出。如果基於聲道的內容以及離散/參數化物件係解碼,則在輸出結果波形228之前或是在提供到與立體聲轉譯器236或揚聲器轉譯器模組232相似的後處理器模組之前,基於聲道的波形以及轉譯物件波形係藉由混合器226混合。
立體聲轉譯器模組236係產生多頻道音源素材之雙聲道降混,使得每一輸入聲道係以一虛擬聲音來源來表現。此處理係在正交鏡像濾波器組(QMF)領域中以訊框方式進行,而立體聲(binauralization)係基於測 量的雙聲道空間脈衝響應。
揚聲器轉譯器232進行在所傳送之聲道型態228以及所需的再現格式之間的轉換。其可亦被稱為“格式轉換器”。格式轉換器係執行轉換至較低數量的輸出聲道,即,其執行降混。
第3圖顯示用於實現格式轉換器232的範例。格式轉換器232亦被稱為揚聲器轉譯器,係進行所傳送的聲道型態以及所需的再現格式之間的轉換。格式轉換器232係執行轉換至較低數量之輸出聲道,即其執行降混(DMX)處理240。降混合器240,其較佳運作在QMF領域,係接收複數個混合器輸出訊號228以及輸出複數個揚聲器訊號234。配置器242亦被稱為控制器,可提供其接收的訊號246作為一控制輸入訊號,訊號246係代表混合器輸出布局,即,判斷由混合器輸出訊號228所呈現數據之布局,而此訊號248係代表欲得的再現布局。根據此資訊,控制器242較佳地自動產生用於輸入與輸出格式之給定結合的最佳化降混矩陣,以及應用這些矩陣於降混合器240。格式轉換器232讓標準揚聲器配置以及非標準揚聲器的位置之任意配置。
第4圖繪示第2圖之立體聲轉譯器236之一實施例。立體聲轉譯器模組可提供多聲道音源素材之雙聲道降混。立體聲可基於一測量雙聲道空間脈衝響應。空間脈衝響應可被認為是真實空間之聽覺屬性之“指纹”。測量以及儲存空間脈衝響應,而任意的聽覺訊號可有此“指纹”,從而讓聽眾處在與此空間脈衝響應相關聯的空間的聽覺屬性之模擬。立體聲轉譯器236可使用頭部相關傳輸功能或是雙聲道空間脈衝響應(BRIR)將複數個輸出聲道程式化或是轉譯成兩個雙聲道。例如,針對移動式裝置,附設於移動式裝置上的頭載收話器或是揚聲器需要雙聲道轉譯。在此種移動式裝置中,由於多種約束,其必須限制解碼器以及轉譯複雜度。除了省略處理方案中的解相關,其較佳的是首先使用降混合器250執行降混至中間降混訊號252,即,降混至較少數量的輸出聲道,其導致只有較少數量輸入聲道用於實際的雙聲道轉換器254。例如,22.2聲道素材可藉由降混合器250降混至5.1中間降混,或者在“快捷(shorycut)”模式下可藉由第2圖中的SAOC解碼器220直接計算中間降混。然後,如果有22.2個輸入聲道待直接轉譯, 相比於施加44個HRTF或是BRIR功能,本雙聲道轉譯僅須施加10個頭部相關傳輸功能(HRTF)或是用於轉譯五個在不同位置之個別聲道的BRIR功能。對於雙聲道轉譯所必須的捲積操作(convolution operations)需要許多處理電力,因此,減少此處理電力而仍然可取得可接受的音源品質係對移動式裝置特別地有用。立體聲轉譯器236產生多聲道音源素材228之雙聲道降混238,使得每一輸入聲道(排除LFE聲道)係藉由虛擬音源來表現。此處理可在QMF領域中以訊框方式產生。立體聲係根據測量雙聲道空間脈衝響應,而當晚期迴響音可分别地處理,在QMF領域之上側(on-top)使用快速捲積經由在偽FFT領域中的捲積方法將直達聲音以及初期反射音可留印在音源素材中。
第5圖顯示空間脈衝響應h(t)300之範例。空間脈衝響應包含三部分:直達聲音301、初期反射音302以及晚期迴響音304。如此,當播放脈衝時,空間脈衝響應描述一密閉迴響聽覺空間之反射行為。初期反射音302係具有增加密度的分離式反射,以及不會再區別個別反射的脈衝響應之部分則被稱為晚期迴響音304。直達聲音301在空間脈衝響應中係容易識別,以及可為與初期反射音相區隔,然而,從初期反射音302轉換成晚期迴響音304係更不明顯。
本發明的方法之後續實施例將更詳細地描述。根據本發明的實施例,音源訊號係分别地與空間脈衝響應之初期部分以及晚期迴響音進行處理。與空間脈衝響應之初期部分進行處理的音源訊號以及迴響訊號係相結合,並輸出作為輸出音源訊號。為了個別處理,空間脈衝響應中從初期部分到晚期迴響音的轉換必須已知。此轉換係藉由到達一門檻值的相關性量測來決定。門檻值之設定係取決於在空間脈衝響應之初期部分中的複數個初期反射音中的選擇其中一個的相關性量測。相關性量測可描述關於空間脈衝響應類似於聽覺能量衰變,該聽覺能量衰變含有初期狀態以及在初期狀態之後任何時間開始一預定義頻率範圍之外的聽覺能量衰變。
根據實施例,音源訊號之個別處理包含在第一處理期間將音源訊號與空間脈衝響應之初期反射音部301與302進行處理,以及在第二處理期間將音源訊號與空間脈衝響應之擴散迴響音304進行處理,第二處 理係不同於第一處理且與第一處理相區隔。從第一處理到第二處理之改變係出現在轉換時間。根據進一步的實施例,在第二處理中擴散(晚期)迴響音304可替換成一合成迴響音。在此情形中,所提供的空間脈衝響應可僅包含初期反射音部301與302(參見第5圖),且不包含晚期擴散迴響音304。
第6圖之(A)部分顯示根據本發明的實施例用於分别將音源訊號與空間脈衝之初期部分以及晚期迴響音進行處理之第一例示性訊號處理單元之方塊圖。可在上述的立體聲轉譯器236執行根據空間脈衝響應之不同部分處理音源訊號。音源輸入訊號400可為非迴響音源素材,例如多聲道音源輸入訊號,其與空間脈衝響應相捲積;或例如使用一假造頭或是耳道式麥克風測量到的一間脈衝響應。此捲積可增益原始的非迴響音源素材之空間印象,彷彿是在與此空間脈衝響應相關聯的空間中聆聽此音源素材。例如,在上述立體聲轉譯器236,為了處理音源輸入訊號400,方塊402係用於處理直達聲音,方塊404係用於處理初期反射音以及方塊406係用於處理晚期迴響音。藉由第一加法器412將個別方塊402到406的輸出訊號408以及410相結合,以產生一初期處理訊號414。處理器406提供的初期處理訊號414以及迴響訊號416係藉由第二加法器418結合,以產生音源輸出訊號420,其係提供給聽眾彷彿音源訊號係在與該空間脈衝響應相關聯的空間中聆聽的印象。
將晚期迴響音302與直達聲音以及初期反射音分開處理的優點在於減少計算複雜度。更具體的是,對全部脈衝響應使用捲積計算是非常消耗計算。因此,為了模擬晚期迴響音,通常使用具有較低複雜度的迴響音演算法來處理音源訊號。脈衝響應之直達聲音部以及初期反射音部係藉由,例如捲積計算,做更精確地計算。進一步的優點在於對迴響音控制之可能性。此讓晚期迴響音可取決於使用者的輸入或是音源訊號之內容而修改測量空間參數。為了達成上述優點,必須已知初期反射音302結束且晚期迴響音304開始的轉換位置(例如時間點)。當晚期迴響音處理開始的太早,則音源訊號可能會有較低的品質而人聽力能發現明顯消失的初期反射音。在另一方面,如果轉換時間發現的太晚,則計算無法有效率,造成初期反射音處理通常比晚期迴響音處理需要消耗更多計算。例如,在時間域取樣的轉 換可提供至立體聲轉譯器作為一輸入參數,然後取決於所接收之轉換,此輸入參數係控制處理器402至406分别地處理音源訊號。
第6圖之(B)部分繪示根據本發明的另一實施例用於分别將音源訊號與空間脈衝之初期部分以及晚期迴響音進行處理之另一例示性訊號處理單元之方塊圖。接收輸入訊號400,例如多聲道音源輸入訊號,以及施加至第一處理器422用以處理初期部分,即根據第5圖之空間脈衝響應300中的直達聲音301以及初期反射音302處理音源訊號。多聲道音源輸入訊號400根據亦施加至第二處理器424以根據空間脈衝響應之晚期迴響音304處理音源訊號。在立體聲演示器中,如上所述,主要是因為降低計算複雜度,所以理想的是處理直達聲音以及從晚期迴響音區分出的初期反射音。例如,直達聲音以及初期反射音之處理可藉由第一處理器422執行之捲積方法留印至音源訊號,而晚期迴響音可被替換成第二處理器424提供之合成迴響音。整體雙聲道輸出訊號420係為處理器422提供之捲積結果428以及處理器424提供之合成迴響訊號430之結合。根據實施例,加法器432結合訊號428以及430以輸出整體雙聲道輸出訊號420。
如上所述,第一處理器422可將音源輸入訊號400與空間脈衝響應之直達聲音以及初期反射音進行捲積運算,可從具有複數個紀錄雙聲道空間脈衝響應的一外部資料庫434提供該空間脈衝響應給第一處理器422。第二處理器或是迴響器424可基於複數個迴響器參數進行操作,而迴響器參數與迴響音RT60以及迴響音能量相似,其可藉由分析436從儲存的雙聲道空間脈衝響應取得。應注意的是分析436並非轉譯器之必要部分,相反地,此係表示個別迴響音參數可從儲存在資料庫434中的個別響應所衍生;此可在外部完成。可藉由計算在八音度或是1/3八音度濾波器組分析中的能量以及RT60迴響音時間,來決定迴響器參數;或者以多個脈衝響應分析之複數個結果之平均值來決定迴響器參數。
此外,處理器422以及424係從資料庫434直接接收或是經由分析436接收輸入參數,其亦有關於在空間脈衝響應中從初期部分到晚期迴響音的轉換。以下將更詳細地描述決定轉換的方法。
根據實施例,轉換分析可用以區別初期反射音以及晚期迴響 音。其可提供至立體聲轉譯器作為一輸入參數(例如,其可從有用於配置迴響器的RT60數值以及能量數值專用檔案/界面中讀取)。該分析可根據一組雙聲道空間脈衝響應(一組用於許多方位角以及海拔角度的BRIR對)。該分析可為一預處理步驟,其針對每一脈衝響應分别地執行,然後取得所有轉換數值的中位數作為該組BRIR之整體轉換數值。然後,整體轉換數值可用於在雙聲道輸出訊號之計算中區分初期反射音以及晚期迴響音。
有幾個已知的方法用於判斷該轉換,然而,現在將描述這些方法的缺點。在先前技術參考文獻[1]中,所述之一方法使用能量衰變去除(EDR)以及一相關性量測來判斷從初期反射音到晚期迴響音的轉換時間。然而,在先前技術參考文獻[1]所述的方法有缺點。
1.該方法強烈地取決於雙聲道脈衝響應之方位角以及直達聲音與第一撞擊反射之振幅之間的關係。
2.該轉換時間係在任意的頻率頻帶進行計算。沒有一般的知識有關於哪一個頻率頻帶可用於整體脈衝響應的右邊轉換時間。
3.沒有資訊係有關於該方法之必要相關性步驟。
另一個已知的方法係藉由空間中回音之散布來描述初期反射音,例如藉由每秒反射之平均數量,並且當此數量超過一預定義的門檻值(參見先前技術參考文獻[2])時,判斷為晚期迴響音之開始。此方法係依賴該空間之特性,即空間體積,但其通常是未知的。空間體積不能容易從測量脈衝響應得出。因此,此方法並非適合應用於從測量脈衝響應計算轉換。而且,目前沒有如何常識有關於反射音必須多密才被稱為晚期迴響音。
另一可能性,在先前技術參考文獻[3]所描述係比較在脈衝響應窗中一時間上的實際分布與時間域之高斯分布。係假設晚期迴響音有一正常分布。在正常分布中大約1/3(精確地1/e)的取樣在平均值之一標準差外,而大約2/3的取樣在平均值之一標準差內。明顯地,初期反射音有更多取樣在一個標準差之內,而較少在一個標準差之外。在一個標準差之外的取樣對在一個標準差之內的取樣之間的比率可用於定義轉換時間。然而,此 方法之缺點在於因為該比率有時在門檻值附近波動而該轉換係難以用此手段定義。該手段亦強烈地取決於用以計算比率之滑行窗之尺寸以及類型。
除了上述方法,峰度(Kurtosis)(隨機訊號之更高量級的累積量)可用以判斷轉換時間。當其向脈衝響應之後期部接近時,可快速降低,如先前技術參考文獻[4]概述。然而,針對轉換之門檻值(使用當其第一次到達零時迅速降低或是時間之任一)的定義並非清楚的。
另有一方法,其不依賴測量脈衝響應之分析,但是依賴空間體積,如同文獻[2]所描述。此方法假設轉換時間僅取決於此體積,但是其不考慮邊界之擴散屬性。因此,此結果僅會是轉換時間之一近似值而並非所需的精確值,當不需要精確地判斷此轉換時間時則可避免此缺點。進一步,空間之體積通常不是已知的且不容易地從測量脈衝響應中得到。
其他已知的方法則完全地環境且定義此轉換時間為簡單的80ms,例如,請見先前技術參考文獻[5]。然而,此數值係完全脫離空間特性或是測量脈衝響應,因此對於從脈衝響應之提醒分隔出晚期迴響音之目的而言太不準確。
除了改良的音源訊號處理之外,根據本發明之實施例亦提供判斷在空間脈衝響應中初期反射音以及晚期迴響音之間的轉換時間的改良方法,以產生更精確的轉換時間之判斷。將於下面段落描述之實施例,係提供簡單且有效可能以使用FFT分析從測量脈衝響應中計算出轉換時間。
第7圖顯示根據本發明的實施例之判斷在空間脈衝響應中初期反射音以及晚期迴響音之間的轉換時間之方法之流程圖。為了判斷從初期反射音到晚期迴響音的轉換時間,在第一步驟500中決定此聽覺能量之一時間頻率分布。例如,根據實施例此能量衰變去除(E(t,f),EDR)可在步驟500中計算。此EDR可為直接從一測量(例如雙聲道)空間脈衝響應中計算,以及可解釋成一此共用能量衰變曲線(Schroeder integration EDC(d))之頻率域擴張,其顯示在時間t之後在脈衝響應中的剩餘能量。取代使用此寬帶脈衝響應,EDR係從一時間頻率表現所衍生出,且為此目的可使用許多不同時間頻率表現。一旦此聽覺能量之時間頻率分布已經在步驟500決定,則在步驟502決定此時間頻率分布之一時間塊上的聽覺能量以及在初 期狀態之整體聽覺能量之間的相關性量測。在步驟504中決定此相關性量測是否到達一定義的門檻值(例如,落在此定義門檻值的下方)。如果未達到此門檻值,本方法進行步驟506,選擇下一個時間塊以及目前時間塊之後續分布,並針對下一個時間塊重複進行步驟502以及504。如此,根據步驟502至506,相關性量測係對於步驟500決定的EDR之每一時間塊之間的相關性數值與初期狀態之整體能量進行計算。當此相關性量測到達此定義門檻值(例如,落在此定義門檻值之下)時,則表示到達轉換時間。換句話說,當在步驟504中決定對於目前時間塊,其相關性量測係低於此門檻值,則本方法進行步驟508將目前時間塊之時間輸出作為此轉換時間。
以下將更詳細地描述本發明的方法之一實施例。最初,可將測量雙聲道脈衝響應作為輸入訊號用於此轉換時間之計算。然後,Page分布或是Levin分佈係用於此能量衰變去除(EDR)之計算。此Page分布係參考過去執行光譜之衍生物,而時間相反訊號之Page分布被稱為Levin分布(亦參見先前技術參考文獻[2])。此分布係描述瞬間功率譜,以及脈衝響應h(t)(例如,請見第5圖)之EDR如下所示計算: 其中E(t,ω)=能量衰變去除,h(τ)=空間脈衝響應,ω=2πf
根據上述公式之計算係在直達聲音301(參見第5圖)開始,而隨著時間增加此能量衰變去除包含更不明顯的反射以及更多隨機迴響音。根據所述之實施例,為了容易計算,此能量衰變去除以1毫秒長度的時間塊進行計算。藉由上述功能,如第7圖中已描述之步驟500中決定此聽覺能量之時間頻率分布。
接著,在第7圖中已經描述關於步驟502至步驟506,根據Pearson's積差相關(即相關性係數)決定此相關性量測ρ(t)。具體而言,根據如下所示之實施例,決定在此初期狀態時整體能量中每一時間塊的聽覺能量之相關性: 其中E(1,ω)=全部頻率範圍中在頻率f的能量衰變去除,=初期全部範圍之能量衰變去除之所有的頻率的平均值,E(t,ω)=從時間t開始在頻率f的能量衰變去除,=在時間t開始之全部範圍的能量衰變去除之所有頻率的平均值,ω=2πf
上述相關性係描述含有初期狀態以及在任何時間t開始衰變之衰變之相似性。其係從寬帶EDR計算,使用EDR之全部頻率範圍於計算中,從而比較完全最初的能量狀況與在時間t的狀況。
本發明不限於對所有頻率之相關性之計算。相反地,此相關性亦可對預定義的頻率範圍內計算。此頻率範圍可從待處理之音源訊號中決定。例如,對於特定的音源訊號,此頻率範圍可限制於一預定義的範圍,例如,可聽見頻率的範圍。根據實施例,此頻率範圍可為20Hz至20kHz。應注意的是亦可選擇其他範圍,例如依經驗決定。
根據實施例,可使用EDR之有效FFT為基礎的工具。可應用具有測量脈衝響應之有效長度的窗,而假設測量脈衝響應之有效長度213係等於8192個頻率窗。在此計算期間,此窗係移動單一時間塊之離散長度,而此窗之一端係為零。根據實施例,係使用1ms長度之時間塊,而為了EDR之簡單以及有效的計算,應用後續的方法:
(1)取得此測量脈衝響應之全部有效長度以計算FFT光譜,而此絕對值係對E(1,ω)之平方。
(2)此窗係以1ms之離散時間方塊長度向脈衝響應之末端移動,直到到達此脈衝響應之末端。此窗取樣係墊零至有效長度(即超過有效長度的取樣被設定為零),然後計算FFT光譜產生E(t,ω)。
上述方法之優點在於不需要額外的濾波器組或其他相似裝置做EDR之窄頻帶計算;僅需要進行窗之移動。第8圖係顯示根據上述基於FFT的方法為了達成脈衝響應的能量衰變去除之範例。
如在第7圖已經描述關於步驟504以及步驟508,在上述方法決定的相關性係與一預定義的門檻值進行比較。此門檻值越小,則越多轉換時間向脈衝響應之末端移動。例如,為雙聲道脈衝響應,如果門檻值選為1/e0.3679(亦參見先前技術參考文獻[2]),因為在第一反射發生或是撞擊之前相關性已落在門檻值下,所以在一些方位角度會太早轉換。然而,因為此第一反射係清楚明顯的且確定不是晚期擴散迴響音,所以已知此轉換時間必須在第一反射之到達時間之後。根據實施例,此門檻值並非定義為固定門檻值。相反地,根據本發明的方法,此門檻值之定義係取決於在第一反射之撞擊時間的相關性。依此定義,可確保此第一反射總會在轉換時間之前。根據實施例,如步驟508所示,當以下等式成立時,此轉換時間被視為到達:ρ(t)=cρ(t F )其中p(t F )=複數個初期反射音中選擇的其中一個的相關性量測,t F =從直達聲音撞擊之後的複數個初期反射音中選擇的其中一個的時間參數,c=常數,其基於e係為歐拉數。
根據實施例,此固定數值可為1/e,然而本發明不受限於此 數值。根據實施例,此固定數值可近似於1/e,例如在預定義的小數位置(參見下方)做捨入。
在所述之實施例中,t F 係此直達聲音撞擊後的第一反射之時間塊參數。
第9圖繪示根據本發明的方法之轉換時間判斷,此門檻值係藉由在第一反射之撞擊點以及1/e之固定數值的相關性之相乘,取決於脈衝響應來計算。圖中,空間脈衝響應600之振幅係以取樣之數量所表示,亦標示第一反射602。波形604係指示採用公式(2)取得的相關性數值。在606,顯示在第一反射的相關性數值,在此範例中顯示0.58之數值。而且,在608顯示傳統使用的固定門檻值1/e。用於第一反射的相關性數值606以及原始固定數值1/e係輸入乘法器610,其產生取決於在第一反射之相關性數值的新門檻值,其在所述之實施例中係顯示在612,為數值0.21。如此,相比於習知方法,轉換點614係進一步向右邊移動,使得所有在轉換點614之後的取樣係視為晚期迴響音304,而在之前的取樣係視為初期反射音302。明顯的是此導致的決定時間614係更堅固。例如,在雙聲道空間脈衝響應中,其代表所計算的轉換時間在方位角係更穩定許多。此可從第10圖以及第11圖之比較看出。第10圖顯示當使用先前技術參考文獻[1]所述之方法對左聲道700以及右聲道702使用EDC工具以及固定門檻值1/e來測量雙聲道空間脈衝響應的轉換時間。在耳朵以及方位角的相關性係清楚可見,在轉換時間有深降至10ms,其係由於在第一反射撞擊之前相關性ρ(t)落在門檻值下面。第11圖顯示根據本發明的方法所計算出的左聲道700以及右聲道702之轉換時間。相比於第10圖說明的習知方法,可觀察到此導致的轉換時間更少取決於耳朵以及方位角。
根據實施例,當相關性第一次落於門檻值下方或是等於門檻值時視為到達轉換時間,且之後不再增加門檻值。在所計算之相關性功能中與取樣相關的時間數值戲脈衝響應之晚期迴響音被視為開始的時間。根據本發明的方法,第一反射之撞擊時間可藉由執行峰度運算子來決定,如先前技術參考文獻[6]所描述。或者,第一反射可藉由其他方法偵測,例如,藉由門檻值偵測或是,例如先前技術參考文獻[7]所述之藉由攻擊偵測。
根據實施例,e-1=0.3679係用為指示隨機流程中低相關性的數值,例如先前技術參考文獻[1]中所標示。根據實施例,此數值係使用小數點後的四位數,使得e-1近似0.3679。根據其他實施例,亦可使用更多或是更少小數點後的位數,明顯的是所偵測的轉換時間係根據與e-1之精確值之間的差異而改變。例如,當使用數值0.368,其導致轉換時間的最小改變係低於1ms。
根據進一步的實施例,此脈衝響應可為有限頻帶,而在此情況下,EDR可在有限的頻率範圍中計算,亦可計算EDR之有限頻率範圍的相關性。亦可使用相替換的頻率轉換或是濾波器組,例如,完全在FFT領域操作的方法,從而當使用FFT為基礎的濾波/捲積計算時可節省額外的轉換。
應注意的是,上述的實施例係已參考第一反射的相關性數值。然而,其他實施例可使用針對多個初期反射音中的另一個來計算相關性數值。
如上所述,根據實施例,本發明的方法可使用於雙聲道處理器中對音源訊號作雙聲道處理。後續的實施例將描述音源訊號之雙聲道處理。雙聲道處理可執行作為解碼器處理,用以將解碼訊號轉換成雙聲道降混訊號,其當以頭載收話器聆聽時可提供一環繞聲音體驗。
第12圖係顯示根據本發明的實施例之用於音源訊號雙聲道處理的立體聲轉譯器800之示意圖。第12圖亦提供在立體聲轉譯器中進行QMF域處理之概要。在輸入端802,立體聲轉譯器800係接收待處理音源訊號,例如,含有N個聲道以及64個QMF頻帶的輸入訊號。此外,立體聲轉譯器800係接收用於控制音源訊號之處理的複數個輸入參數。此複數個輸入參數包含用於2xN個聲道以及64個QMF頻帶的雙聲道空間脈衝響應(BRIR)804,最高頻帶之指示Kmax 806係用於音源輸入訊號與BRIRs 804之初期反射音部、以及上述的迴響器參數808以及810(RT60以及迴響音能量)的捲積計算。立體聲轉譯器800包含快速捲積處理器812,其用於對輸入音源訊號802以及所接收之BRIRs 804之初期部分進行處理。處理器812在輸出端產生含有兩個聲道以及複數個Kmax QMF頻帶的初期處理訊號 814。除了具有快速捲積處理器812的初期處理分支,立體聲轉譯器800亦包含含有兩個迴響器816a與816b此迴響音分支進一步包含一立體聲降混處理器818以及相關性分析處理器820,兩者亦接收此輸入音源訊號802。此外,兩個增益級821a與821b係提供在立體聲降混處理器818以及個別迴響器816a與816b之間,用於控制立體聲降混處理器818所提供的降混訊號822之增益。立體聲降混處理器818基於輸入訊號802提供具有兩個頻帶以及64個QMF頻帶的降混訊號822。增益級821a與821b之增益係藉由相關性分析處理器820所提供之個別控制訊號824a與824b所控制。增益控制降混訊號係輸入至個別迴響器816a與816b以產生個別迴響訊號826a與826b。初期處理訊號814以及迴響訊號826a與826b係由混合器828所接收,其將所接收之訊號組合成具有兩個聲道以及64個QMF頻帶的輸出音源訊號830。此外,根據本發明,快速捲積處理器812以及迴響器816a與816b係接收額外的輸入參數832,其指示如上文所述之決定在空間脈衝響應804中從初期部分到晚期迴響音的轉換。
雙聲道轉譯器模組800(例如,第2圖或是第4圖之立體聲轉譯器236)具有解碼數據流輸入802。此訊號係藉由QMF分析濾波器組處理,如ISO/IEC 14496-3:2009第4.B.18.2小節,轉譯器模組800亦可處理QMF領域輸入數據;在此情況下,可省略分析濾波器組。雙聲道空間脈衝響應(BRIRs)804係以複數個複QMF域濾波器來表示。從時間域雙聲道空間脈衝響應到複QMF濾波表現的轉換係概述在ISO/IEC 23003-1:2006附錄B。BRIRs 804係受限於複QMF域中的時槽特定數量,使得其僅包含初期反射音部301、302(參見第5圖),而不包含晚期擴散迴響音304。從初期反射音到晚期迴響音的轉換點832係如上所述來決定,例如,藉由在雙聲道處理之預處理步驟中的BRIRs 804之分析。然後,藉由帶狀快速捲積812處理QMF域音源訊號802以及QMF域BRIRs 804,以執行雙聲道處理。QMF域迴響器816a與816b係用於產生兩聲道QMF域晚期迴響音826a與826b。迴響音模組816a與816b使用一組取決於頻率的迴響音時間808以及能量數值810,以適應迴響音之特性。迴響音之波形係根據音源輸入訊號802之立體聲降混818,其係取決於多頻道音源訊號802之相關性分析適 應性地縮放振幅821a與821b。然後,兩聲道QMF域捲積結果814以及兩聲道QMF域迴響音816a與816b相結合,兩個QMF合成濾波器組計算雙聲道時間域輸出訊號830,如ISO/IEC 14496-3:2009第4.6.18.4.2小節所概述。轉譯器亦可產生QMF域輸出數據;然後,可省略合成濾波器組。
定義
饋入雙聲道轉譯器模組800的音源訊號802係在後續內容被稱為輸入訊號。雙聲道處理結果之音源訊號830被稱為輸出訊號。雙聲道轉譯器模組800之輸入訊號802係為核心解碼器之音源輸出訊號(例如,請參見第2圖所示之訊號228)。可使用後續的變數定義:
處理
以下描述輸入訊號之處理。雙聲道轉譯器模組在長度L等於2048個輸入音源訊號之時域取樣的鄰近未重疊的複數個訊框上運作,並在針對每個模組處理長度L的輸入訊框輸出一L個取樣的訊框。
(1)初始化以及預處理
在開始處理核心解碼器(例如,參見第2圖所示之解碼器200)傳送音源取樣之前,進行雙聲道處理方塊之初始化。初始化包含幾個處理步驟。
(a)讀取分析數值
迴響器模組816a與816b採取迴響音時間808以及能量數值810之頻率相關設定作為輸入參數。這些數值係從雙聲道處理模組800之初始化界面讀取。此外,讀取在時間域取樣值中從初期反射音到晚期迴響音的轉換時間832。對於每一取樣,此些數值可儲存在一二元化檔案,其以32位元、浮動數值、little-endian順序寫入。處理所需的讀取數值係在下面的表格描述:
(b)讀取以及預處理BRIRs
從兩個專用檔案讀取雙聲道空間脈衝響應804,此兩個檔案係個別地儲存在左耳和右耳BRIRs。BRIRs之時間域取樣值係儲存在整數wave檔案,且wave檔案中每個取樣值具有24位元之解析度以及32聲道。檔案中的BRIRs之順序係在後續的表格描述:
如果沒有在複數個揚聲器位置中的其中一個測量BRIR,則wave檔案中相對應的聲道係包含零值。LFE聲道不用於雙聲道處理。
在預處理步驟,雙聲道空間脈衝響應(BRIRs)之給定設定係從時間域濾波器轉換成複值QMF域濾波器。在複值QMF域的給定時間域濾波器之執行係根據ISO/IEC FDIS23003-1:2006 Annex B執行。根據ISO/IEC FDIS23003-1:2006,附加B,表格B.1使用濾波器轉換的原型濾波 器係數。時間域表現,1 v L trans係處理以得到複值QMF域濾波器,1 n L trans,n
(2)音源訊號處理
雙聲道轉譯器模組800之音源處理方塊係從核心解碼器取得用於Nin輸入聲道的時間域音源取樣值802,並產生Nout=2聲道組成的雙聲道輸出訊號830。
此處理係以下列數據做為輸入●來自核心解碼器的解碼音源數據802,●BRIR設定804之初期反射音部之複QMF域表現,以及●頻率相關參數設定808、810、832,其由QMF域迴響器816a與816b使用以產生晚期迴響音826a與826b。
(a)音源訊號之QMF分析
在第一處理步驟,雙聲道轉譯器模組係將此聲道時間域輸入 訊號(來自核心解碼器)的L=2048個時間域取樣值,轉換成維度Ln=32個QMF時槽(槽參數n)以及K=64頻率頻帶(頻帶參數K)的Nin聲道QMF域訊號表現802。
如ISO/IEC 14496-3:2009第4.B.18.2小節所述的QMF分析,以及在ISO/IEC 14496-3:2009第8.6.4.2小節所述之修改,係在時間域訊號之訊框上執行以得到一QMF域訊號(1 v L且1 n L n )之訊框。
(b)QMF域音源訊號以及QMF域BRIRs之快速捲積計算
接著,執行帶狀快速捲積812以處理QMF域音源訊號802以及QMF域BRIRs 804。可對輸入訊號802以及每一個BRIR 804之每一個聲道的每一QMF頻率頻帶執行FFT分析。
由於一FFT分析在QMF域的複數值係在QMF域訊號表現之實部上執行以及一FFT分析係在QMF域訊號表現之虛部上執行。然後,結合其複數個結果係以形成最後的帶狀複值偽FFT域訊號 以及帶狀複值BRIRs。
,針對左耳,針對右耳。
根據複值QMF域BRIR濾波器L trans,n 之長度以及QMF域時槽L n 之訊框長度決定FFT轉換之長度。
L FFT=L trans,n +L n -1.
然後,將複值偽FFT域訊號訊號與複值偽FFT域訊號BRIR濾波器相乘以形成複數個快速捲積結果。向量m conv係用於對應BRIR數據組中的BRIR對的輸入訊號之聲道的訊號。
針對所有的QMF頻率頻帶k(1 k K max)帶狀完成相乘處理。藉由代表18kHz或是出現在來自核心解碼器的音源訊號之最大訊號頻率的QMF頻帶決定最高頻帶K max
f max=min(frnax,decoder,18kHz).
在每一個QMF頻率頻帶k(1 k K max),加總每一個音源輸入聲道與每一個BRIR對相乘結果,以產生一中間兩聲道K max頻帶偽FFT域訊號。
偽FFT捲積結果在QMF域頻率頻帶k
接著,執行帶狀FFT合成將捲積結果轉換回QMF域,以產生一具有L FFT個時槽(1 n L FFT且1 k K max)的中間兩聲道K max頻帶QMF域訊號。
針對每一個具有L=32個時槽的QMF域輸入訊號訊框,係返回一具有L=32個時槽的捲積結果訊號訊框。剩餘的L FFT-32個時槽係儲存以及在後續的訊框執行一重疊相加處理。
(c)產生晚期迴響音
第二中間訊號826a與826b,又稱迴響音訊號,係藉由頻率域迴響器模組816a與816b產生。頻率域迴響器816a與816b係以下列數據作為輸入:
●輸入訊號之一訊框之QMF域立體聲降混822
●參數設定包含頻率相關迴響音時間808以及能量數值810。
頻率域迴響器816a與816b係回傳一兩聲道QMF域晚期迴響音尾部。
根據此最高頻率計算此頻率相關參數設定之最高使用頻帶數量。
首先,藉由輸入訊號聲道之加權總和,執行輸入訊號之一訊框之一QMF域立體聲降混818以形成迴響器之輸入。降混合矩陣M DMX係包含權重增益。其係在實數值以及非負值,而降混合矩陣之維度係N out×N in。其包含非零數值,其中輸入訊號之聲道係映射至兩個輸出聲道中的其中一個。
代表左半邊揚聲器位置的聲道係映射至左輸出聲道,而代表位於右半邊上的聲道係映射至右輸出聲道。這些聲道之訊號係以係數1做加權。代表揚聲器在中間平面的聲道係映射至此雙聲道訊號的兩個輸出聲道。這些聲道之輸入訊號係以係數做加權。
此外,在降混中執行能量等化步驟。其適應一降混聲道之帶狀能量,使其等於包含在降混聲道中的輸入訊號聲道之帶狀能量之總和。藉由與實數係數帶狀相乘以產生能量等化。
參數c eq,k係受限於[0.5,2]之區間內。引進常數ε以避免除零的情形發生。降混亦在頻率f max上限制頻寬;所有的高頻頻帶的數值係設定為零。
第13圖係大略地表示在根據本發明的實施例之雙聲道轉譯器800之頻率域迴響器816a與816b的處理。
在頻率域迴響器,係使用一輸入混合器900來計算立體聲輸入之單聲道降混。其係在第二輸入聲道上不相干應用90°相移來完成。
然後,在每一個頻率頻帶k,單聲道訊號送入回授延遲迴路902,以產生一複數個脈衝之退順序。接著,複數個相並聯的FIR解相關器以衰減方式分配訊號能量致複數個脈衝之間的間隔中,並產生複數個輸出聲道之間的非相關性。衰減濾波振實密度係應用於產生此能量衰減。濾波振 實階段操作係受限於四個選項以實現一稀疏且無乘法器的解相關器。
在迴響音之計算之後,聲道間相干(ICC)修正904係包含每一個QMF頻率頻帶的迴響器模組。在ICC修正步驟中,頻率相關直接增益gdirect以及交混增益gcross係用於適應此ICC。
針對不同頻率頻帶之能量以及迴響音時間之數量係包含在輸入參數設定。數值係給定在頻率點之數量,其係內部映射至K=64個QMF頻率頻帶。
使用兩個頻率域迴響器之實例以計算最後的中間訊號。此訊號係第一迴響器之第一實例之第一輸出聲道,而是迴響器之第二實例之第二輸出聲道。其係結合至具有2個聲道、64個頻帶以及32個時槽之維度的最後迴響音訊號訊框。
根據輸入訊號訊框之相關性量測820,立體聲降混822係進行兩個時間縮放821a與821b,以確保迴響器輸出之正確的縮放比例。比例因素係定義為[N DMX,act」間隔內的值,其係線性決定於在0以及1之間的相關性係數c corr的數值, 其中表示跨過聲道之一時槽的標準差,此運算子{*}表示複共軛而為實際的訊號訊框中QMF域訊號之零平均值。
c corr係計算兩次:一次是包含在立體聲降混之左聲道的所有在實際的訊號訊框活躍的聲道A,B,而另一次是包含在立體聲降混之右聲道的所有在實際的訊號訊框活躍的聲道A,B
N DMX,act是輸入聲道之數量,其降混至一降混聲道A(在降混矩陣M DMX之列中的矩陣元素之數量係不等於零),而且在目前訊框活躍。
然後比例因素是:
藉由一第一級低通濾波器將比例因素平滑於複數個音源訊 號訊框,此第一級低通濾波器係導致平滑的比例因素
以相同方式,藉由時間域相關性分析在第一音源輸入數據訊框中初始化比例因素。
此第一迴響器實例之輸入係以比例因素縮放,而第二迴響器實例之輸入係以此比例因素縮放。
(d)結合捲積結果以及晚期迴響音
接著,藉由混合處理828,其係帶狀相加兩個訊號,以結合捲積結果814,,以及用於一QMF域音源輸 入訊框的迴響器826a、826b之輸出。應注意的是, 因為捲積係僅產生在上至K max的頻帶,所以在高於K max的上頻帶係零。
藉由混合處理中的時槽數量d-((L trans-20.64+1)/64+0.5)+1延遲晚期迴響音輸出。
此延遲d係考慮到BRIRs中從初期反射音道晚期反射音的轉換時間,以及20個QMF時槽之迴響器之最初延遲,和用於BRIRs之QMF分析的0.5個QMF時槽之分析延遲一樣,以確保晚期迴響音插入在合理的時槽。藉由+計算在一時槽中的此結合訊號
(e)雙聲道QMF域訊號之QMF合成
根據ISO/IEC 14496-3:2009第4.6.18.4.2小節,藉由QMF合成,將QMF域輸出訊號之32個時槽之一兩聲道訊框轉換成一具有長度L兩聲道時間域訊號訊框。最後產生時間域輸出訊號830
雖然一些態樣已經在裝置之內容中描述,清楚的是這些態樣亦代表相對應的方法之描述,而方塊或是裝置係對應方法步驟或是方法步 驟之特徵。同樣地,在方法步驟之內容中描述的態樣亦代表相對應的方塊或是項目或是相對應裝置之特徵的描述。一些或所有的本方法步驟可藉由(或是使用)硬體裝置執行,例如像是微處理器、可程式化電腦或是電子電路。在一些實施例中,一些最重要的方法步驟可藉由此種裝置執行。
取決於特定的執行需求,本發明的實施例可在硬體或是在軟體上實現。此實現可使用非暫時性儲存媒體,例如數位儲存媒體,例如儲存有電子可讀取控制訊號的軟碟、DVD、藍光、CD、ROM、PROM以及EPROM、EEPROM或是FLASH記憶體,其能與一可程式化電腦系統合作(或是能夠配合)以執行上述方法。因此,此數位儲存媒體係電腦可讀取。
根據本發明之一些實施例包含具有電子可讀取控制訊號的數據載體,其能夠與可程式化電腦系統配合,以執行上述方法中的其中一個。
一般而言,本發明之實施例可實現為一具有程式碼的電腦程式產品,當此電腦程式產品在一電腦上執行時此程式碼係操作以執行上述方法中的其中一個。例如,此程式碼可儲存在機器可讀取載體上。
其他實施例包含用以執行上述方法中的其中一個的電腦程式,其儲存在機器可讀取載體上。
換句話說,因此發明的方法之實施例係為具有當此電腦程式在電腦上執行時,能執行上述方法中的其中一個的程式碼的電腦程式。
因此,本發明的方法之另一實施例數據載體(或是數位儲存媒體或是電腦可讀取媒體)包含紀錄用以執行上述方法中的其中一個的電腦程式。數據載體,此數位儲存媒體或是紀錄媒體係有形實體及/或非暫時性的。
因此,本發明的方法之另一實施例係為一數據流或是一串訊號,其代表用於執行上述方法中的其中一個的電腦程式。例如,數據流或是此串訊號可配置經由數據通訊連接傳輸,例如網際網路。
另一實施例包含一處理方式,例如,電腦或是可程式化邏輯裝置,用以或是以程式化執行上述方法中的其中一個。
另一實施例包含一安裝有用於執行上述方法中的其中一個之電腦程式的電腦。
根據本發明之另一實施例包含用以傳輸(例如電性或光學)用於執行上述方法中的其中一個的電腦程式到接收器的裝置或是系統。例如,此接收器可為一電腦、移動式裝置、記憶體裝置或其他相似裝置。例如,此裝置或是系統可包含用於傳輸電腦程式至接收器的檔案伺服器。
在一些實施例中,可程式化邏輯裝置(例如場效可程式化閘極陣列)可用以執行上述方法之一些或是全部功能。在一些實施例中,為了執行上述方法中的其中一個,場效可程式化閘極陣列可配合微處理器。通常,此方法可藉由任何硬體裝置較佳執行。
雖然本發明描述了數個實施例,但對其進行變更、置換及等同均落入本發明的圍之內。還有應當注意的是,有很多替換本發明之實施方法及組成之方式。因此,下文所附的權利項應當被理解為包含所有此類的變更、置換及等同,這些均未脫離本創作之精神與範疇。
參考文獻:
[1] T. Hidaka et al: “A new definition of boundary point between early reflections and late reverberation in room impulse responses”. Forum Acusticum, 2005.
[2] Jot et al: “Analysis and synthesis of room reverberation based on a statistical time frequency model”.
[3] J.S. Abel, P. Huang: “A Simple, Robust Measure of Reverberation Echo Density”. AES Convention, San Francisco, 2006.
[4] R. Stewart, M. Sandler: “Statistical Measures of Early Reflections of Room Impulse Responses”. DAFx, 2007.
[5] Reilly et al: “Using Auralisation for Creating Animated 3-D Sound Fields Across Multiple Speakers”. AES Convention, New York, 1995.
[6] Usher, J.: “An improved method to determine the onset timings of reflections in an acoustic impulse response”. Journal of the Acoustical Society of America, (2010, volume 127) band 4, p. 172-177.
[7] Masri, P.: ,,Computer Modelling of Sound for Transformation and Synthesis of Musical Signals“. PhD thesis, University of Bristol, 1996.
400‧‧‧音源輸入訊號、多聲道音源輸入訊號
420‧‧‧音源輸出訊號、雙聲道音源輸出訊號
422‧‧‧處理初期部分
424‧‧‧晚期迴響音的處理
428‧‧‧初期部分
430‧‧‧合成迴響訊號
432‧‧‧加法器
434‧‧‧外部資料庫
436‧‧‧分析

Claims (23)

  1. 一種根據一空間脈衝響應(300,804)處理一音源訊號的方法(400,802),包含:分别地對該音源訊號(400,802)與該空間脈衝響應(300,804)之一初期部分(301,302)以及一晚期迴響音(304)進行處理(402,404,406,422,424,812,816a,816b);以及將經該空間脈衝響應(300,804)之該初期部分(414,428,814)處理的該音源訊號與該迴響訊號(416,430,826a,826b)結合,其中在該空間脈衝響應(300,804)中從該初期部分(301,302)到該晚期迴響音(304)的轉換係藉由到達一門檻值的一相關性量測來決定,該門檻值係取決於該空間脈衝響應(300,804)之該初期部分(301,302)中該複數個初期反射音(302,602)中所選的其中一個的該相關性量測而設定;以及其中該相關性量測係描述關於空間脈衝響應(300,804)類似於聽覺能量衰變,該聽覺能量衰變含有該初期狀態以及在該初期狀態之後任何時間開始一預定義頻率範圍之外的該聽覺能量衰變。
  2. 如申請專利範圍第1項所述之方法,其中判斷該轉換包含:根據該空間脈衝響應(300,804)判斷(500)一聽覺能量分布;以及判斷(502)複數個相關性測量,該相關性測量係代表在該決定分布之該個別部分中的該聽覺能量以及在一初期狀態的聽覺能量之間的相關性之該決定分布之複數個部分。
  3. 如申請專利範圍第2項所述之方法,其中判斷該分布包含判斷該聽覺能量之一時間頻率分布,以及該分布之一部分包含一預定義長度之一時間塊,藉由該時間頻率分布之複數個時間塊中的第一個來定義該初期狀態。
  4. 如申請專利範圍第2項所述之方法,其中判斷該分布包含從該空間脈衝響應(300,804)計算該能量衰變去除(EDR)。
  5. 如申請專利範圍第4項所述之方法,其中EDR係如下所示計算: 其中E(t,ω)=能量衰變去除,h(τ)=空間脈衝響應(300,804),ω=2πf。
  6. 如申請專利範圍第3項所述之方法,其中該空間脈衝響應(300,804)具有一預定義有效長度,其中判斷該時間頻率分布包含使用具有對應於該空間脈衝響應之該有效長度的一長度的一窗來計算該空間脈衝響應(300,804)之該FFT光譜。
  7. 如申請專利範圍第6項所述之方法,其中該初期狀態中的該聽覺能量係藉由取得該空間脈衝響應(300,804)之該全部有效長度、計算該FFT光譜以及取得絕對值之平方來決定;以及一時間塊之該聽覺能量係藉由對該窗移動與該時間塊相關聯的一時間,補零該窗取樣至該有效長度、計算該FFT以及取得絕對值之平方來決定。
  8. 如申請專利範圍第1項所述之方法,其中該相關性量測係如下所示計算: 其中ρ(t)=相關性量測,E(1,ω)=全部頻率節圍中在頻率f的能量衰變去除,=初期全部範圍之能量衰變去除之所有的頻率的平均值,E(t,ω)=從時間t開始在頻率f的能量衰變去除,=在時間t開始之全部範圍的能量衰變去除之所有頻率的平均值,ω=2πf。
  9. 如申請專利範圍第1項所述之方法,其中該門檻值係根據一固定數值以 及從該複數個初期反射音(302,602)中選擇其中一個的該相關性量測所決定。
  10. 如申請專利範圍第9項所述之方法,其中該固定數值係1/e,其中該門檻值係如下所示定義:ρ(t)=cρ(t F )其中ρ(t F )=該複數個初期反射音(302,602)中選擇的其中一個的相關性量測,t F =在直達聲音(300)撞擊之後的複數個初期反射音(302,602)中選擇的其中一個的時間參數,c=常數,其基於,e係為歐拉數(Euler number)。
  11. 如申請專利範圍第1項所述之方法,其中判斷該轉換包含:判斷該複數個初期反射音(302,602)中選擇的其中一個的該時間。
  12. 如申請專利範圍第11項所述之方法,其中該複數個初期反射音(302,602)中所選的其中一個之該時間係藉由一執行峰度運算子、一門檻值偵測或是一攻擊偵測來決定。
  13. 如申請專利範圍第1項所述之方法,其中該複數個初期反射音中所選的其中一個係該第一反射音(602)。
  14. 一種無形電腦程式產品,包含儲存指令的一電腦可讀取媒體,當該電腦可讀取媒體在一電腦上執行時,執行申請專利範圍第1項至第13項其中任一項所述之方法。
  15. 一種訊號處理單元,包含:一輸入端,用於接收一音源訊號(400,802);一處理器,依如申請專利範圍第1項至第13項其中任一項所述之方法根據一空間脈衝響應(300,804)以處理該所接收之音源訊號(400,802);以及一輸出端,將經該所接收之音源訊號之該經處理初期部分(414,428,814)與該迴響訊號(416,430,826a,826b)結合(418,432,828) 成一輸出音源訊號。
  16. 如申請專利範圍第15項所述之訊號處理單元,包含:一初期部分處理器(402,404,422,812),用於根據該空間脈衝響應(300,804)之該初期部分(301,302,602)處理所接收之音源訊號(400,802);以及一晚期迴響音處理器(406,424,816a,816b),用於根據該空間脈衝響應(300,804)之該晚期迴響音(304)處理所接收之音源訊號(400,802)。
  17. 一種音源編碼器,用於編碼一音源訊號,其中該音源編碼器係依如申請專利範圍第1項至第12項其中任一項所述之方法編碼根據一空間脈衝響應(300,804)以處理一待編碼之音源訊號。
  18. 如申請專利範圍第17項所述之音源編碼器,其中該音源編碼器包含一如申請專利範圍第15項或是第16項所述之訊號處理單元。
  19. 一種音源解碼器,用於解碼一編碼音源訊號,其中該音源解碼器,係依如申請專利範圍第1項至第13項其中任一項所述之方法根據一空間脈衝響應(300,804)以處理一解碼音源訊號(400,802)。
  20. 如申請專利範圍第19項所述之音源解碼器,其中該音源解碼器包含一如申請專利範圍第15項或是第16項所述之訊號處理單元。
  21. 如申請專利範圍第19項所述之音源解碼器,更包含一轉譯器,用以接收該解碼音源訊號(400,802)以及根據該空間脈衝響應(300,804)轉譯複數個輸出訊號。
  22. 如申請專利範圍第21項所述之音源解碼器,其中該轉譯器包含一立體聲轉譯器。
  23. 一種立體聲轉譯器,包含如申請專利範圍第15項或第16項所述之訊號處理單元。
TW103124174A 2013-07-22 2014-07-14 根據空間脈衝響應處理音源訊號之方法、訊號處理單元、音源編碼器、音源解碼器以及立體聲轉譯器 TWI549119B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13177362 2013-07-22
EP13189230.9A EP2830043A3 (en) 2013-07-22 2013-10-18 Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer

Publications (2)

Publication Number Publication Date
TW201523585A TW201523585A (zh) 2015-06-16
TWI549119B true TWI549119B (zh) 2016-09-11

Family

ID=48874134

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103124174A TWI549119B (zh) 2013-07-22 2014-07-14 根據空間脈衝響應處理音源訊號之方法、訊號處理單元、音源編碼器、音源解碼器以及立體聲轉譯器

Country Status (20)

Country Link
US (6) US10433097B2 (zh)
EP (4) EP2830043A3 (zh)
JP (1) JP6205493B2 (zh)
KR (1) KR101838623B1 (zh)
CN (2) CN110648651B (zh)
AR (1) AR096995A1 (zh)
AU (1) AU2014295254B2 (zh)
BR (1) BR112016001249B1 (zh)
CA (1) CA2918855C (zh)
ES (2) ES2933375T3 (zh)
FI (1) FI3594939T3 (zh)
MX (1) MX359218B (zh)
MY (1) MY176181A (zh)
PL (2) PL3025327T3 (zh)
PT (2) PT3594939T (zh)
RU (1) RU2643867C2 (zh)
SG (1) SG11201600367RA (zh)
TW (1) TWI549119B (zh)
WO (1) WO2015010983A1 (zh)
ZA (1) ZA201601114B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105009207B (zh) 2013-01-15 2018-09-25 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
KR102150955B1 (ko) 2013-04-19 2020-09-02 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
US9584938B2 (en) * 2015-01-19 2017-02-28 Sennheiser Electronic Gmbh & Co. Kg Method of determining acoustical characteristics of a room or venue having n sound sources
EP4002888A1 (en) 2015-02-12 2022-05-25 Dolby Laboratories Licensing Corporation Headphone virtualization
CA3219512A1 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
EP3822968B1 (en) 2016-10-28 2023-09-06 Panasonic Intellectual Property Corporation of America Binaural rendering apparatus and method for playing back of multiple audio sources
US11089425B2 (en) 2017-06-27 2021-08-10 Lg Electronics Inc. Audio playback method and audio playback apparatus in six degrees of freedom environment
JP6886890B2 (ja) * 2017-08-08 2021-06-16 株式会社竹中工務店 減衰時間分析方法、装置、及びプログラム
US10388268B2 (en) 2017-12-08 2019-08-20 Nokia Technologies Oy Apparatus and method for processing volumetric audio
JP2021508380A (ja) 2017-12-19 2021-03-04 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化の改良のための方法、機器、およびシステム
CN111107481B (zh) 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
CN109846477B (zh) * 2019-01-29 2021-08-06 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
CN111123202B (zh) * 2020-01-06 2022-01-11 北京大学 一种室内早期反射声定位方法及系统
CN111179958A (zh) * 2020-01-08 2020-05-19 厦门亿联网络技术股份有限公司 一种语音晚期混响抑制方法及系统
JP7447533B2 (ja) 2020-02-19 2024-03-12 ヤマハ株式会社 音信号処理方法および音信号処理装置
EP4120250A4 (en) * 2020-03-09 2024-03-27 Nippon Telegraph & Telephone SOUND SIGNAL REDUCING MIXING METHOD, SOUND SIGNAL CODING METHOD, SOUND SIGNAL REDUCING MIXING DEVICE, SOUND SIGNAL CODING DEVICE, PROGRAM AND RECORDING MEDIUM
CN112146745B (zh) * 2020-09-09 2023-01-03 中国船舶重工集团公司第七一五研究所 一种水池混响时间的精确测量方法
WO2022103290A1 (en) 2020-11-12 2022-05-19 "Stc"-Innovations Limited" Method for automatic quality evaluation of speech signals using neural networks for selecting a channel in multimicrophone systems
AT523644B1 (de) * 2020-12-01 2021-10-15 Atmoky Gmbh Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
CN112652290B (zh) * 2020-12-14 2023-01-20 北京达佳互联信息技术有限公司 产生混响音频信号的方法及音频处理模型的训练方法
CN113375788B (zh) * 2021-05-31 2022-05-20 哈尔滨工程大学 一种基于矩阵填充的水声传感器网络环境数据采集方法
US11705148B2 (en) * 2021-06-11 2023-07-18 Microsoft Technology Licensing, Llc Adaptive coefficients and samples elimination for circular convolution
CN116160955B (zh) * 2023-04-25 2023-08-29 科大讯飞(苏州)科技有限公司 一种车辆主动声浪增强方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188769B1 (en) * 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
TW201142826A (en) * 2010-02-18 2011-12-01 Dolby Lab Licensing Corp Audio decoder and decoding method using efficient downmixing
TW201246060A (en) * 2010-12-22 2012-11-16 Genaudio Inc Audio spatialization and environment simulation

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
DK1072089T3 (da) * 1998-03-25 2011-06-27 Dolby Lab Licensing Corp Fremgangsmåde og apparat til bearbejdning af audiosignaler
US7107110B2 (en) * 2001-03-05 2006-09-12 Microsoft Corporation Audio buffers with audio effects
WO2006047387A2 (en) 2004-10-26 2006-05-04 Burwen Technology Inc Unnatural reverberation
US7715575B1 (en) * 2005-02-28 2010-05-11 Texas Instruments Incorporated Room impulse response
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
KR100873639B1 (ko) * 2007-01-23 2008-12-12 삼성전자주식회사 헤드폰에서 출력되는 음상을 외재화하는 장치 및 방법.
KR100899836B1 (ko) * 2007-08-24 2009-05-27 광주과학기술원 실내 충격응답 모델링 방법 및 장치
JP4769238B2 (ja) * 2007-08-24 2011-09-07 日本電信電話株式会社 信号分離装置、信号分離方法、プログラム及び記録媒体
US20100119075A1 (en) * 2008-11-10 2010-05-13 Rensselaer Polytechnic Institute Spatially enveloping reverberation in sound fixing, processing, and room-acoustic simulations using coded sequences
EP2389016B1 (en) * 2010-05-18 2013-07-10 Harman Becker Automotive Systems GmbH Individualization of sound signals
KR101217544B1 (ko) * 2010-12-07 2013-01-02 래드손(주) 음질 향상 효과를 가지는 오디오 신호를 생성하는 오디오 장치 및 방법
US9462387B2 (en) 2011-01-05 2016-10-04 Koninklijke Philips N.V. Audio system and method of operation therefor
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
KR101174111B1 (ko) * 2012-02-16 2012-09-03 래드손(주) 오디오 신호의 디지털 노이즈를 저감시키는 장치 및 방법
CN102592606B (zh) * 2012-03-23 2013-07-31 福建师范大学福清分校 一种补偿小空间听音声环境的均衡信号处理方法
CN102928067B (zh) * 2012-10-16 2014-12-17 华南理工大学 一种用于测量房间声学参数的系统及方法
WO2014111829A1 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188769B1 (en) * 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
TW201142826A (en) * 2010-02-18 2011-12-01 Dolby Lab Licensing Corp Audio decoder and decoding method using efficient downmixing
TW201246060A (en) * 2010-12-22 2012-11-16 Genaudio Inc Audio spatialization and environment simulation

Also Published As

Publication number Publication date
MY176181A (en) 2020-07-24
CN105580070B (zh) 2019-10-29
WO2015010983A1 (en) 2015-01-29
US20210289311A1 (en) 2021-09-16
MX2016000849A (es) 2016-04-27
EP4125087A1 (en) 2023-02-01
US20220159405A1 (en) 2022-05-19
CN105580070A (zh) 2016-05-11
US10721582B2 (en) 2020-07-21
ZA201601114B (en) 2017-11-29
JP6205493B2 (ja) 2017-09-27
MX359218B (es) 2018-09-19
BR112016001249A2 (zh) 2017-07-25
US10433097B2 (en) 2019-10-01
PT3594939T (pt) 2022-12-07
TW201523585A (zh) 2015-06-16
EP3025327B1 (en) 2019-10-02
US20200322750A1 (en) 2020-10-08
CA2918855A1 (en) 2015-01-29
US20160142854A1 (en) 2016-05-19
PT3025327T (pt) 2020-01-06
EP3594939A1 (en) 2020-01-15
US11856388B2 (en) 2023-12-26
PL3594939T3 (pl) 2023-03-06
AU2014295254B2 (en) 2017-01-19
US10972858B2 (en) 2021-04-06
PL3025327T3 (pl) 2020-04-30
KR101838623B1 (ko) 2018-03-14
JP2016532149A (ja) 2016-10-13
RU2016105519A (ru) 2017-08-25
KR20160039201A (ko) 2016-04-08
EP2830043A3 (en) 2015-02-18
BR112016001249B1 (pt) 2022-03-15
ES2933375T3 (es) 2023-02-06
EP3594939B1 (en) 2022-11-02
AR096995A1 (es) 2016-02-10
SG11201600367RA (en) 2016-02-26
ES2758757T3 (es) 2020-05-06
CN110648651A (zh) 2020-01-03
US20190387353A1 (en) 2019-12-19
US11265672B2 (en) 2022-03-01
CN110648651B (zh) 2023-08-25
RU2643867C2 (ru) 2018-02-06
US20240129687A1 (en) 2024-04-18
CA2918855C (en) 2018-07-31
FI3594939T3 (fi) 2023-01-31
EP3025327A1 (en) 2016-06-01
EP2830043A2 (en) 2015-01-28
AU2014295254A1 (en) 2016-03-10

Similar Documents

Publication Publication Date Title
TWI549119B (zh) 根據空間脈衝響應處理音源訊號之方法、訊號處理單元、音源編碼器、音源解碼器以及立體聲轉譯器
JP7241447B2 (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법