SE527670C2 - Naturtrogenhetsoptimerad kodning med variabel ramlängd - Google Patents

Naturtrogenhetsoptimerad kodning med variabel ramlängd

Info

Publication number
SE527670C2
SE527670C2 SE0400417A SE0400417A SE527670C2 SE 527670 C2 SE527670 C2 SE 527670C2 SE 0400417 A SE0400417 A SE 0400417A SE 0400417 A SE0400417 A SE 0400417A SE 527670 C2 SE527670 C2 SE 527670C2
Authority
SE
Sweden
Prior art keywords
coding
signal
subframes
side signal
signals
Prior art date
Application number
SE0400417A
Other languages
English (en)
Other versions
SE0400417L (sv
SE0400417D0 (sv
Inventor
Ingemar Johansson
Anisse Taleb
Stefan Bruhn
Daniel Enstroem
Original Assignee
Ericsson Telefon Ab L M
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from SE0303501A external-priority patent/SE0303501D0/sv
Application filed by Ericsson Telefon Ab L M filed Critical Ericsson Telefon Ab L M
Priority to SE0400417A priority Critical patent/SE527670C2/sv
Publication of SE0400417D0 publication Critical patent/SE0400417D0/sv
Priority to BRPI0419281-8A priority patent/BRPI0419281B1/pt
Priority to AT04820553T priority patent/ATE371924T1/de
Priority to AU2004298708A priority patent/AU2004298708B2/en
Priority to DE602004008613T priority patent/DE602004008613T2/de
Priority to EP07109801A priority patent/EP1845519B1/en
Priority to PCT/SE2004/001867 priority patent/WO2005059899A1/en
Priority to BRPI0410856A priority patent/BRPI0410856B8/pt
Priority to CA2690885A priority patent/CA2690885C/en
Priority to US11/011,765 priority patent/US7809579B2/en
Priority to AT07109801T priority patent/ATE443317T1/de
Priority to JP2006518596A priority patent/JP4335917B2/ja
Priority to CN200710138487XA priority patent/CN101118747B/zh
Priority to EP04820553A priority patent/EP1623411B1/en
Priority to MXPA05012230A priority patent/MXPA05012230A/es
Priority to PL04820553T priority patent/PL1623411T3/pl
Priority to CNB2004800186630A priority patent/CN100559465C/zh
Priority to RU2005134365/09A priority patent/RU2305870C2/ru
Priority to CA2527971A priority patent/CA2527971C/en
Priority to DE602004023240T priority patent/DE602004023240D1/de
Priority to ZA200508980A priority patent/ZA200508980B/xx
Publication of SE0400417L publication Critical patent/SE0400417L/sv
Publication of SE527670C2 publication Critical patent/SE527670C2/sv
Priority to HK08106066.8A priority patent/HK1115665A1/xx
Priority to HK06112026.7A priority patent/HK1091585A1/xx
Priority to RU2007121143/09A priority patent/RU2425340C2/ru
Priority to JP2007216374A priority patent/JP4589366B2/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Endoscopes (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

20 25 30 527 670 2 bearbetas signalerna för de olika kanalerna tillsammans, snarare än separat och individuellt. De två mest allmänt använda samstereokodningsteknikerna är kända som "Mitten/Sida“-stereokodning (M / S) (eng. Mid/ Side) och intensitetsstereokodning, vilket normalt tillämpas på delband av de stereo- eller multikanalssignaler som ska kodas.
M/S-stereokodning liknar den beskrivna proceduren i stereo-FM-radio, på det sättet att den kodar och överför summa- och differenssignalerna för kanalemas delband och därigenom utnyttjar redundans mellan kanalernas delband. Strukturen och driften för en kodare som baserar sig på M/ S- stereokodning beskrivs t.ex. i det amerikanska patentet US 5,285,498 av J.D. Johnston.
Intensitetsstereo å andra sidan klarar av att använda brist på stereo- samband. Den överför den gemensamma intensiteten för kanalerna (i de olika delbanden) tillsammans med någon positionsinformation som indikerar hur intensiteten fördelas mellan kanalerna. Intensitetsstereo tillhandahåller endast information om kanalernas spektrala magnitud. Fasinformation transporteras inte. Av denna orsak och eftersom den tídsrelaterade interkanalinformationen (mer specifikt tidsskillnaden mellan kanalerna) är av stor psykoakustisk relevans särskilt vid lägre frekvenser kan intensitetsstereo endast användas vid höga frekvenser över t.ex. 2 kHz. Ett intensitetskodningsförfarande beskrivs t.ex. i det europeiska patentet EPO4974l3 av R. Veldhuis et al.
Ett nyligen utvecklat stereokodningsförfarande beskrivs t.ex. i en konferensartikel med titeln "Binaural cue coding applied to stereo and multi- channel audio compression", 112th AES convention, maj 2002, München, Tyskland av C. Faller et al. Detta förfarande är ett parametriskt ljudkodningsförfarande för multikanaler. Den grundläggande principen är att kombinera ingångssignalerna från N kanaler ci, cg, cN till en monosignal m på kodningssidan. Monosignalen ljudkodas genom användning av någon konventionell monoljudkodek. Parallellt därmed 10 15 20, 25 30 ~ 527 67Û 3 härleds parametrar från kanalsignalerna, vilka beskriver multikanalsbilden.
Parametrarna kodas och överförs till avkodaren, tillsammans med ljudbitströmmen. Avkodaren avkodar först monosignalen m' och regenererar sedan kanalsígnalerna ef, c2',..., cN', baserat på den parametriska beskrivningen av multikanalsbilden.
Principen för förfarandet med binaural inpassningskodning (BCC, eng.
"Binaural Cue Coding") är att den överför den kodade monosignalen och så kallade kodade nivåskillnader mellan kanalerna och tidsskillnader mellan kanalerna för BCC-parametrar. BCC-parametrarna innefattar delband av den ursprungliga ingångssignalen med flera kanaler. Avkodaren regenererar de olika kanalsignalerna genom att applicera nivå- och fasanpassningar för varje delband av monosígnalen, baserat på BCC- parametrarna. Fördelen över t.ex. M/ S- eller intensitetsstereo är att stereoinformation som innefattar tidsrelaterad interkanalinformation överförs med mycket lägre bithastigheter. Denna teknik fordrar emellertid beräkningskrävande tid-frekvens-transfonner för var och en av kanalerna, både vid kodaren och vid avkodaren.
Vidare hanterar BCC inte det faktum att mycket av stereoinforrnationen, speciellt vid låga frekvenser, är diffus, dvs. den kommer inte från någon speciell riktning. Diffusa ljudfålt finns i båda kanalerna av en stereoupptagning men de är till stor del ur fas i förhållande till varandra. Om en algoritm såsom BCC utsätts för upptagningar med en stor del diffusa ljudfålt, kommer den återskapade stereobilden bli förvirrad och hoppa från vänster till höger eftersom BCC-algoritmen endast kan rikta signalen i specifika frekvensband till höger eller vänster.
Ett möjligt medel för att koda stereosignalen och tillförsäkra en bra reproduktion av diffusa ljudfålt är att använda ett kodningsscherna som är mycket likt den teknik som används i rundsändning av FM stereoradio, nämligen att koda monosignalen (vänster+höger) och skillnadssignalen (vänster-höger) separat. 10 15 20 25 30 527 670 En teknik, beskriven i det amerikanska patentet US 5,434,948 av C.E. Holt et al., använder en liknande teknik som i BCC för att koda monosignalen och sidoinformation. I detta fall består sidoinformationen av prediktorfilter och eventuellt en restsignal. Prediktorfiltren, skattade genom en minsta- kvadrat-algoritm möjliggör, när de appliceras på monosignalen, prediktion av ljudsignaler med flera kanaler. Med denna teknik kan man nå kodning med mycket låg bithastíghet av ljudkällor med flera kanaler, emellertid på bekostnad av en kvalitetsförsämring, vilken diskuteras vidare nedan.
Slutligen, för fullständighetens skull, måste en teknik som används i 3D-ljud nämnas. Denna teknik syntetiserar de högra och vänstra kanalsignalerna genom filtrering av ljudkällesignaler med så kallade huvudrelaterade ñlter.
Denna teknik fordrar emellertid att de olika ljudkällesignalerna är separerade och kan alltså inte allmänt tillämpas för stereo- eller multikanalskodning.
SAMMANFATTNING Ett problem med existerande kodningsscheman baserade på kodning av signalramar, i synnerhet en huvudsignal och en eller flera sidosignaler, är att uppdelningen av ljudinformation i ramar kan introducera oattraktiva perceptionsartefakter. Att dela upp informationen i ramar av relativt lång varaktighet minskar allmänt den genomsnittliga fordrade bithastigheten.
Detta kan vara fördelaktigt, t.ex. för musik som innehåller en stor mängd diffust ljud. För transientrik musik eller tal kommer emellertid de snabba tidsvariationerna att smetas ut över ramens varaktighet, vilket ger upphov till spöklika ljud eller till och med för-eko-problem. Att koda korta ramar kommer istället att ge en mer noggrann representation av ljudet, vilket minimerar energin, men fordrar högre överföringsbithastígheter och större beräkningsresurser. Kodningseffektiviteten som sådan kan alltså minska med mycket korta ramlängder. Införandet av fler ramgränser kan också 10 15 20 25 30 527 670 5 introducera diskontinuiteter i kodningsparametrar, vilket kan uppträda som perceptionsartefakter.
Ett ytterligare problem med scheman baserade på kodning av en huvudsignal och en eller flera sídosignaler är att de ofta fordrar relativt stora beräkningsresurser. I synnerhet när korta ramar används är hantering av diskontinuiteter i parametrar från en ram till en annan en komplicerad uppgift. När långa ramar används kan skattningsfel för transienta ljud orsaka mycket stora sidosignaler, vilket i sin tur ökar kravet på överföringshastighet.
Ett syfte med den föreliggande uppfinningen är därför att tillhandahålla ett kodningsförfarande och en kodningsanordning som förbättrar Perceptions- kvaliteten för ljudsignaler med flera kanaler, i synnerhet för att undvika artefakter såsom för-ekande, spökliknande ljud eller ramdiskontinuitets- artefakter. Ett ytterligare syfte med den föreliggande uppfinningen är att tillhandahålla ett kodningsförfarande och en kodningsanordning som fordrar mindre processkraft och som har mer konstanta bithastighetsbehov vid överföring.
De ovanstående syftena åstadkoms med förfaranden och anordningar enligt de bifogade patentkraven. I allmänna ordalag används polyfona signaler för att skapa en huvudsignal, typiskt sett en monosignal, och en sidosignal.
Huvudsignalen kodas enligt kodningsprinciper enligt teknikens ståndpunkt.
Ett antal kodningsscheman för sidosignalen tillhandahålls. Varje kodningsschema kännetecknas av en uppsättning delramar av olika längder.
Delramarnas totala längd motsvarar längden för kodningsschemats kodningsram. Uppsättningarna av delramar innefattar åtminstone en delram. Det kodningsschema som ska användas på sidosignalen väljs åtminstone delvis beroende på de polyfona signalernas aktuella signal- innehåll. 10 15 20 25 30 527 670 6 I en utföringsform äger valet rum antingen före kodningen, baserat på signalkarakteristikanalys. I en annan utföringsform kodas sidosignalen med vart och ett av kodningsschemana, och baserat på mätningar av kodningens kvalitet väljs det bästa kodningsschemat.
I en föredragen utföringsform skapas en restsidosignal såsom skillnaden mellan sidosignalen och huvudsignalen skalad med en balansfaktor.
Balansfaktorn väljs för att minimera restsidosignalen. Den optimerade restsidosignalen och balansfaktorn kodas och tillhandahålls som parametrar som representerar sidosígnalen. På avkodarsidan används balansfaktorn, restsidosignalen och huvudsignalen för att återställa sidosignalen.
I en vidare föredragen utföringsform innefattar sidosignalens kodning en energikonturskalníng för att undvika för-eko-effekter. Vidare kan olika kodningsscheman innefatta olika kodningsprocedurer i de separata delramarna.
Huvudfördelen med den föreliggande uppfinningen är att bibehållandet av ljudsignalernas perception förbättras. Vidare tillåter den föreliggande uppfinningen fortfarande överföring av multikanalsignaler vid mycket låga bithastigheter.
KORT FIGURBESKRIVNING Uppfinningen, tillsammans med ytterligare syften och fördelar därmed, kan bäst förstås genom hänvisning till den följande beskrivningen ord tillsammans med de medföljande ritningarna, i vilka: FIG. 1 är ett blockschema över ett system för överföring av polyfona signaler; FIG. 2a är ett blockdiagrarn av en kodare i en sändare; FIG. 2b är ett blockdiagram för en avkodare i en mottagare; FIG. 3a är ett diagram som illustrerar kodningsramar av olika längder; 10 15 20 25 30 527 670 7 FIG. 3b och 3c är blockdiagram av utföringsformer av sidosignalkodar- enheter enligt den föreliggande uppfinningen; FIG. 4 är ett blockdiagram av en utföringsform av en kodare som använder balansfaktorskodning av sídosignalen; FIG. 5 är ett blockdiagram av en utföringsform av en kodare för multisignalssystem; FIG. 6 är ett blockdiagram av en utföringsform av en avkodare som är lämplig för avkodning av signaler från anordningen i fig. 5; FIG. 7a och b är diagram som illustrerar en för-eko-artefakt; FIG. 8 är ett blockdiagram av en utföringsform av en sidosignalskodar- enhet enligt den föreliggande uppfinningen, vilken använder olika kodningsprinciper i olika delramar; FIG. 9 illustrerar användningen av olika kodningsprinciper i olika frekvensdelband; FIG. 10 är ett flödesdiagram över de grundläggande stegen i en utföringsform av ett kodningsförfarande enligt den föreliggande uppfinningen; samt FIG. 11 är ett flödesdiagram över de grundläggande stegen i en utföringsform av ett avkodningsförfarande enligt den föreliggande uppfinningen.
DETALJERAD BESKRIVNING Fig. 1 illustrerar ett typiskt system 1, i vilket den föreliggande uppfinningen med fördel kan utnyttjas. En sändare 10 innefattar en antenn 12 som inbegriper tillhörande maskinvara och programvara för att kunna sända radiosignaler 5 till en mottagare 20. Sändaren 10 innefattar bland andra delar en multikanalskodare 14, vilken omvandlar signaler för ett antal ingängskanaler 16 till utgångssignaler som är lämpade för radiosändning.
Exempel på lämpliga multikanalskodare 14 beskrivs i detalj längre ner.
Ingångskanalernas 16 signaler kan tillhandahållas från t.ex. en ljudsignalslagring 18, såsom en datañl med digital representation av ljudupptagníngar, magnetbands- eller vinylskiveinspelningar av ljud etc. 10 15 20 25 30 527 670 8 Ingångskanalernas 16 signaler kan även tillhandahållas "levande", t.ex. från en uppsättning mikrofoner 19. Ljudsignalerna digitaliseras, om de inte redan är i digital form, innan de kommer in i multikanalskodaren 14.
Vid mottagarsidan 20, hanterar en antenn 22 med tillhörande maskinvara och programvara den faktiska mottagningen av de radiosignaler 5 som representerar polyfona ljudsignaler. Här utförs typiska funktionaliteter, såsom t.ex. felkorrigering. En avkodare 24 avkodar de mottagna radiosignalerna 5 och omvandlar det ljuddata som bärs därav till signaler för ett antal utgångskanaler 26. Utgångssignalerna kan tillhandahållas till t.ex. högtalare 29 för omedelbar presentation, eller kan lagras i någon sorts ljudsignalslagring 28.
Systemet l kan tillexempel vara ett telefonkonferenssystem, ett system för tillhandahållande av ljudservice eller andra ljudtillämpningar. I vissa system, såsom t.ex. telefonkonferenssystem måste kommunikationen vara av duplextyp, medan t.ex. distribution av musik från en servicetillhanda- hållare till en abonnent kan vara av en väsentligen enkelriktad typ.
Signalernas överföring från sändaren 10 till mottagaren 20 kan också utföras med vilka andra medel som helst, t.ex. såväl olika sorters elektromagnetiska vågor, kablar eller fibrer som kombinationer därav.
Fig. 2a illustrerar en utföringsform av en kodare enligt den föreliggande uppfinningen. I denna utföringsform är den polyfona signalen en stercosignal som innefattar två kanaler a och b, mottagna vid ingångar 16A respektive l6B. Signalerna i kanal a och b tillhandahålls till en förbearbetningsenhet 32, där olika signalkonditionerande procedurer kan utföras. De (kanske modifierade) signalerna från förbearbetningsenhetens 32 utgång summeras i en additionsenhet 34. Denna additionsenhet 34 delar även summan med en faktor två. Signalen xmono som bildas på detta sätt är en huvudsignal för stereosignalen, eftersom den i grunden innefattar allt data från båda kanalerna. I denna utföringsform representerar alltså huvudsignalen en ren "mono"-signal. Huvudsignalen xmono tillhandahålls till 10 15 20 25 30 527 670 9 en huvudsignalskodarenhet 38, vilken kodar huvudsignalen enligt någon lämplig kodningsprincip. Sådana principer ñnns tillgängliga vid teknikens ståndpunkt och diskuteras alltså inte vidare här. Huvudsignalskodar- enheten 38 ger en utgångssignal pmom som utgörs av kodade parametrar som representerar en huvudsignal.
I en subtraktionsenhet 36 tillhandahålls en skillnad (dividerad med en faktor två) mellan kanalsignalerna som en sidosignal xslae. l denna utföringsform representerar sidosignalen skillnaden mellan de två kanalerna i stereosignalen. Sidosignalen xside tillhandahålls till en sidosignalskodarenhet 30. Föredragna utföringsformer av sidosignalskodarenheten 30 kommer att diskuteras vidare nedan. Enligt en sidosignalskodningsprocedur, vilken kommer att beskrivas mer i detalj nedan, överförs sidosignalen xside till kodningsparametrar pad, som representerar en sidosignal xside. I vissa utföringsformer äger denna kodning rum genom att utnyttja även information från huvudsignalen xmono. Pilen 42 indikerar ett sådant tillhandahållande, där den ursprungliga okodade huvudsignalen xmono utnyttjas. I ytterligare andra utföringsforrner kan den huvudsignals- information som används i sidosignalskodarenheten 30 härledas från de kodningsparametrar pmm, som representerar huvudsignalen, såsom indikeras av den streckade linjen 44.
De kodningsparametrar pmono som representerar huvudsignalen xmono är en första utgångssígnal, och de kodningsparametrar pside som representerar sidosignalen xside är en andra utgångssignal. I ett typiskt fall multiplexeras dessa två utgångssignaler pmono, psme som tillsammans representerar hela stereoljudet till en överföringssignal 52 i en multiplexeringsenhet 40. I andra utföringsformer kan emellertid överföringen av de första och andra utgångssignalerna pmono, psme ske separat.
I fig. 2b illustreras en utföringsform av en avkodare 24 enligt den föreliggande uppfinningen som ett blockschema. Den mottagna signalen 54 som innefattar kodningsparametrar som representerar huvud- och 10 15 20 25 30 527 670 10 sidosignalsinformationen tillhandahålls till en demultiplexeríngsenhet 56, vilken separerar en första respektive andra ingångssignal. Den första ingångssignalen som motsvarar kodningsparametrarna pmom för en huvudsignal tillhandahålls till en huvudsignalsavkodarenhet 64. På ett konventionellt sätt används de kodningsparametrar pmom, som representerar huvudsignalen för att bilda en avkodad huvudsignal x"m°n°, vilken är så lik huvudsignalen xmono (lig. 2a) i kodaren 14 (fig. 2a) som möjligt.
På. liknande sätt tillhandahålls den andra ingångssignalen som motsvarar en sidosignal till en sidosignalsavkodarenhet 60. Här används de kodnings- parametrar pside som representerar sidosignalen för att återställa en avkodad sidosignal x"sme. I vissa utföringsformer utnyttjar avkodningsproceduren information om huvudsignalen x"m.,,m, såsom indikeras av pil 65.
De avkodade huvud- och sidosignalerna xfinonc, x"smc tillhandahålls till en additionsenhet 70, vilken tillhandahåller en utgångssignal som är en representation av den ursprungliga signalen för kanal a. På liknande sätt tillhandahåller en differens som tillhandahålls av en subtraktionsenhet 68 en utgångssignal som är en representation av den ursprungliga signalen för kanal b. Dessa kanalsígnaler kan efterbearbetas i en efterbearbetningsenhet 74 enligt signalbearbetningsprocedurer enligt teknikens ståndpunkt.
Slutligen tillhandahålls kanalsignalerna a och b till avkodarens utgångar 26A och 26B.
Såsom nämndes i sammanfattningen utförs kodning typiskt sett i en ram i taget. En ram innefattar ljudsarnpel inom en fördeñnierad tidsperiod. I den nedre delen av ñg. 3a illustreras en ram SF2 med en tidsvaraktighet L.
Ljudsamplen inom den icke streckade delen ska kodas tillsammans. De föregående samplen och de efterföljande samplen kodas i andra ramar.
Uppdelningen av samplen i ramar kommer i alla fall att införa några diskontinuiteter vid ramgränserna. Förändrade ljud kommer att ge förändrade kodningsparametrar, vilka i princip ändras vid varje ramgräns.
Detta kommer att ge upphov till perceptionsfel. Ett sätt att kompensera 10 15 20 25 30 527 670 ll något för detta är att basera kodningen, inte endast på de sampel som ska kodas, utan också på sampel i ramens absoluta omgivning, såsom indikeras av de streckade delarna. På ett sådant sätt kommer det att bli en mjukare övergång mellan de olika ramarna. Som ett alternativ, eller komplement, kan ibland interpoleringstekniker också utnyttjas för att minska perceptions- artefakter som orsakas av ramgränser. Alla sådana procedurer fordrar emellertid stora tillkommande beräkningsresurser, och för vissa specifika kodningstekniker kan det också vara svårt att tillhandahålla med vilka resurser som helst.
Ur denna synvinkel är det fördelaktigt att utnyttja så långa ramar som möjligt, eftersom antalet ramgränser kommer att vara litet. Även kodningseffektiviteten blir typiskt sett hög och den nödvändiga överföringsbithastigheten kommer typiskt sett att minimeras. Emellertid ger långa ramar problem med för-eko-artefakter och spökliknande ljud.
Genom att istället utnyttja korta ramar, såsom SFl eller till och med SFO, vilka har varaktigheterna L/2 respektive L/ 4, inser fackmannen att kodníngseffektiviteten kan minska, överföringsbíthastigheten kan behöva vara högre och problemen med rarngränsartefakter kommer att öka. Kortare ramar lider emellertid mindre av t.ex. andra perceptionsartefakter, såsom spökliknande ljud och för-ekande. För att kunna minimera kodningsfelet så mycket som möjligt bör man använda en så kort ramlängd som möjligt.
Enligt den föreliggande uppfinningen kommer ljudperceptionen att förbättras genom att använda en ramlängd för kodning av sidosignalen som är beroende på det aktuella signalinnehållet. Eftersom olika ramlängders påverkan på ljudperceptionen kommer att skilja sig beroende på naturen av det ljud som ska kodas, kan en förbättring erhållas genom att låta själva signalens natur påverka den ramlängd som används. Huvudsignalen kodning är inte den föreliggande uppñnningens objekt och beskrivs därför inte i detalj. Emellertid kan eller kan inte de ramlängder som används för huvudsignalen vara lika med de ramlängder som används för sidosignalen. 10 15 20 25 30 527 670 12 På grund av små tidsvariationer, kan det t.ex. i vissa fall vara fördelaktigt att koda sidosignalen med användning av relativt långa ramar. Detta kan vara fallet med inspelningar med ett stort mått av diffust ljudfält såsom konsertinspelningar. I andra fall, såsom samtal med stereotal, kan korta ramar vara att föredra. Avgörandet vilken ramlängd som är att föredra kan göras på två grundläggande sätt.
En utföringsform av en sidosignalskodarenhet 30 enligt den föreliggande uppfinningen illustreras i fig. 3b, i vilken ett beslut i sluten krets utnyttjas.
En grundläggande kodningsram av längd L används här. Ett antal kodningsscheman 81, kännetecknade av en separat uppsättning 80 av delramar 90, skapas. Varje uppsättning 80 av delramar 90 innefattar en eller flera delramar 90 av lika eller olika längder. Den totala längden av uppsättningen 80 av delramar 90 är emellertid alltid lika med den grundläggande kodningsramlängden L. Med hänvisning till fig. 3b kännetecknas det översta kodningsschemat av en uppsättning av delramar som innefattar endast en delram med längd L. Nästa uppsättning av delramar innefattar två ramar av längd L/ 2. Den tredje uppsättningen innefattar två ramar med längd L/ 4, åtföljda av en L/ 2-ram.
Signalen Xside som tillhandahölls till sidosignalskodarenheten 30 kodas av alla kodningsscheman 81. I det översta kodningsschemat kodas hela den grundläggande kodningsramen i ett stycke. I de andra kodningsschemana kodas emellertid signalen xsmc i varje delram separat från varandra.
Resultatet från varje kodningsschema tillhandahålls till en väljare 85. Ett organ 83 för naturtrogenhetsmätning bestämmer ett naturtrogenhetsmått för var och en av de kodade signalerna. Naturtrogenhetsmåttet är ett objektivt kvalitetsvärde, företrädesvis ett signal-till-brus-mått eller ett viktat signal-till-brus-förhållande. De naturtrogenhetsmått som är förknippade med varje kodningsschema jämförs och resultatet styr ett omkopplingsorgan 87 för att välja ut de kodningsparametrar som representerar sidosignalen 10 15 20 25 30 527 670 13 från det kodníngsschema som ger det bästa naturtrogenhetsmättet som utgängssignalen pad, från sidosignalskodarenheten 30.
Företrädesvis testas alla möjliga kombinationer av ramlängder och den uppsättning av delramar som ger den bästa objektiva kvaliteten, t.ex. signal- till-brus-förhållande väljs.
I den föreliggande utföringsformen väljs längderna för de delramar som används enligt: l. där 1,, är delramarnas längder, I, är kodningsramens längd och n är ett heltal. I den föreliggande utföringsforrnen väljs n mellan O och 3. Vilka ramlängder som helst kan emellertid vara möjliga att använda, så länge som uppsättningens totala längd hålls konstant.
I fig. 3c illustreras en annan utföringsform av en sidosignalskodarenhet 30 enligt den föreliggande uppfinningen. Här är ramlängdsbeslutet ett beslut i öppen krets, baserat på signalens statistik. Med andra ord, sidosignalens spektrala kännetecken kommer att användas som en grund för att besluta vilket kodníngsschema som ska användas. Såsom tidigare är olika kodningsscheman kännetecknade av olika uppsättningar av delramar tillgängliga. I denna utföringsform är emellertid väljaren 85 placerad före den faktiska kodningen. lngängssidosignalen xsme kommer in i väljaren 85 och en signalanalyseringsenhet 84. Resultatet av analysen blir insignalen till en omkopplare 86, i vilken endast ett av kodningsschemana 81 utnyttjas.
Utsignalen från det kodningsschemat kommer också att bli utgångssignalen pad, från sidosignalskodarenheten 30.
Fördelen med ett beslut i öppen krets är att endast en faktisk kodning behöver genomföras. Nackdelen är emellertid att analysen av signalkännetecknen kan 10 15 20 25 30 527 670 14 vara verkligen mycket komplicerad och det kan vara svårt att förutse möjliga beteenden på förhand för att kunna ge ett lärnpligt val i omkopplaren 86. En stor mängd statistisk analys av ljud måste utföras och inbegripas i signalanalysenheten 84. Vilken liten ändring som helst i kodningsschemana kan vända upp och ned på det statistiska beteendet.
Genom att använda val i sluten krets (fig. 3b) kan kodningsscheman bytas ut utan att göra några ändringar i resten av enheten. Å andra sidan, om många kodningsscheman måste undersökas kommer beräkningsfordringarna att vara höga.
Fördelen med en sådan variabel rarnlängdskodning för sidosignalen är att man kan välja mellan å ena sidan en fin tidsupplösning och grov frekvensupplösning och å andra sidan en grov tidsupplösning och fin frekvensupplösning. De ovanstående utföringsforrnerna kommer att bevara stereobilden på bästa möjliga sätt.
Det finns även vissa fordringar på de faktiska kodningarna som utnyttjas i de olika kodningsschemana. I synnerhet när valet i sluten krets används måste beräkningsresurserna för att utföra ett antal av mer eller mindre samtidiga kodningar vara stora. Ju mer komplicerad kodningsprocessen är, ju mer beräkningskraít behövs. Vidare är en låg bithastighet vid överföring att föredra.
Förfarandet som presenterades i US 5,434,948 använder en filtrerad version av monosignalen (huvudsignalen) för att efterlikna sido- eller differenssignalen. Filterparametrarna optimeras och tillåts variera i tiden.
Filterparametrarna överförs sedan, vilka representerar en kodning av sidosignalen. I en utföringsforrn överförs även en restsidosignal. I många fall skulle ett sådant angreppssätt vara möjligt att använda som ett sidosignalskodningsförfarande inom den föreliggande uppfinningens omfattning. Detta angreppssätt har emellertid vissa nackdelar. Kvantiseringen av filterkoefñcienterna och eventuell restsidosignal fordrar ofta relativt höga 10 15 20 25 30 527 670 15 bithastigheter för överföring, eftersom filterordningen måste vara hög för att tillhandahålla en noggrann sidosignalsskattning. Filterskattningen själv kan vara problematisk, i synnerhet i fall med transientrik musik. Skattningsfel kommer att ge en modifierad sidosignal som ibland är större i magnitud än den omodiñerade signalen. Detta kommer att leda till högre bithastighetskrav.
Vidare, om en ny uppsättning av ñlterkoefñcienter beräknas varje N:te sampel, behöver filterkoefficienterna interpoleras för att uppnå en mjuk övergång från en uppsättning av filterkoefficienter till en annan, såsom diskuterats ovan.
Interpolering av filterkoefñcienter är en komplicerad uppgift och fel i interpoleringen kommer uppenbara sig i större sidofelssignaler, vilka leder till att högre bithastigheter behövs för differensfelssignalkodaren.
Ett medel för att undvika behovet av interpolering är att uppdatera filterkoefficienterna på en sampel-för-sampel-bas och att lita på baklänges adaptiv analys. För att detta ska fungera bra fordras att bithastigheten för restkodaren är ganska hög. Detta är därför inget bra alternativ för stereokodning med låg bithastighet.
Det förekommer fall, t.ex. ganska vanligt med musik, där mono- och differenssignalerna är nästan okorrelerade. Filterskattningen blir då mycket bekymmersam med den tillkommande risken att helt enkelt göra saker värre för differensfelssignalkodaren.
Lösningen enligt US 5,434,948 kan fungera ganska bra i fall där filterkoefficienterna varierar mycket långsamt i tiden, t.ex. konferens- telefonisystem. I fallet med musiksignaler fungerar inte detta angreppssätt så bra eftersom filtren behöver ändras mycket snabbt för att följa stereobilden.
Detta betyder att delramslängder av mycket skilda storlekar måste utnyttjas, _ vilket betyder att antalet kombinationer att testa snabbt ökar. Detta betyder i sin tur att fordringarna för att beräkna alla möjliga kodningsschernan blir opraktiskt höga. 10 15 20 25 30 527 670 16 I en föredragen utföringsform grundar sig därför kodníngen av sidosignalen på idén att reducera redundansen mellan mono- och sidosignalen genom att balansfaktor istället för ett bithastighetsförbrukande prediktorfilter. Resten från denna operation kodas använda en enkel komplext sedan. Storleken av en sådan rest är relativt liten och föranleder inte mycket höga bithastighetsbehov för överföring. Denna idé är verkligen mycket lämplig att kombinera med angreppssättet med variabel ramuppsättning som beskrivits tidigare, eftersom beräkningskomplexiteten är låg.
Användningen av en balansfaktor kombinerad med angreppssättet med variabel ramlängd avlägsnar behovet av komplex interpolering och de förknippade problem som interpolering kan orsaka. Vidare ger användningen av en enkel balansfaktor istället för ett komplext filter färre problem med skattningar eftersom möjliga skattningsfel för balansfaktorn har mindre inverkan. Den föredragna lösningen kommer att kunna återskapa både panorerande signaler och diffusa ljudfält med god kvalitet och med begränsade bithastighetsfordringar och beräkningsresurser.
Fig. 4 illustrerar en föredragen utföringsform för en stereokodare enligt den föreliggande uppfinningen. Denna utföringsform är mycket lik den som visas i fig. 2a, emellertid med sídosignalskodarenhetens 30 detaljer avslöjade.
Kodaren 14 i denna utföringsform har inte någon förbearbetningsenhet och ingångssignalema tillhandahålls direkt till additions- och subtraktion- senheterna 34, 36. Monosignalen xmono multipliceras med en viss balansfaktor gm i en multiplikator 33. I en subtraktionsenhet 35 subtraheras den multiplicerade monosignalen från sidosignalen xside, dvs. väsentligen skillnaden mellan de två kanalerna, för att ge en sidorestsignal. Balansfaktorn gsm bestäms baserat på mono- och sidosignalernas innehåll av optimeraren 37 för att minimera sidorestsignalen enligt ett kvalitetskriterium. Kvalitets- kriteriet är företrädesvis ett minsta-kvadratkriterium. Sidorestsignalen kodas i en sidorestkodare 39 enligt vilka kodningsprocedurer som helst. Företrädesvis är sidorestkodaren 39 en transformkodare för låg bithastighet eller en CELP- kodare (kodboksexciterad linjär prediktion, eng. "Codebook Excited Linear 10 15 20 25 30 527 670 17 Prediction"). De kodningsparametrar psmc som representerar sidosignalen innefattar då de kodningsparametrar psid., fesidum som representerar sidorest- signalen och den optimerade balansfaktorn 49.
I utfóringsforrnen i fig. 4 är den monosignal 42 som används för syntetisering av sidosignalema monokodarens 38 målsignal xmom. Såsom nämnts ovan (i samband med fig. 2a), kan monokodarens 38 lokala syntetiseringssignal också utnyttjas. I det senare fallet kan den totala kodarfördröjningen öka och sidosignalens beräkningskomplexitet kan öka. Å andra sidan kan kvaliteten bli bättre eftersom det då är möjligt att reparera kodningsfel orda i monokodaren.
På. ett mer matematiskt sätt kan det grundläggande kodningsschemat beskrivas såsom följer. Beteckna de tvä kanalsignalema såsom a och b, vilka kan vara den vänstra och högra kanalen i ett stereopar. Kanalsignalerna kombineras till en monosignal genom addition och till en sidosignalgenom en subtraktion. I ekvationsform beskrivs operationerna som: xmán) = 0-5(a(f=)+ 1201)) x,.»l.,(fl)= 0-5(<1(n)-b(fl)) - Det är fördelaktigt att skala ner xmono- och xside-signalerna med en faktor två.
Det antyds här att andra sätt att skapa xmøno och Xside finns. Man kan till exempel använda: XMÅH) = w(n)+ (1 - r)b(~) nu. (n) = w(n)- (1 - r)b(n) O S 7 S 1.0 .
En modifierad eller restsidosignal beräknas pä block av insignalerna enligt: xsideruiduul (n) = xxide (n) _ f(xmono.xxide )xmmm (n) Y 10 15 20 25 527 670 18 där flxmuno, Xsme) är en balansfaktorfunktion som baserad på blocket av N sampel, dvs. en delram, från sido- och monosignalerna strävar efter att avlägsna så. mycket som möjligt från sidosignalen. Med andra ord, balansfaktorn används för att minimera restsidosignalen. I specialfallet där den minimeras i en minstakvadratbemärkelse, är detta ekvivalent med att minimera restsídosignalens xsme fesidum energi.
I det ovan nämnda specialfallet beskrivs f (xmmpxflde) som: R f(xmono 9 xsídu) = RM MM frameend RM", 1 í z xfilflllß (n)xm07|0 rwframesrarr frame/nd Rsm = [ E xxide (ràxmono (n 2 n=finmesinrt där xsidc är sidosignalen och Xmono är monosignalen. Notera att funktionen grundar sig på ett block som börjar vid "frame start" och slutar vid "frame end".
Det är möjligt att lägga till viktning i frekvensdomänen till beräkningen av balansfaktorn. Detta görs genom att falta xside- och xmono-signalerna med ett viktningsfilters impulssvar. Det är sedan möjligt att flytta skattningsfelet till ett frekvensområde där de är mindre lätta att höra. Detta kallas perceptionsviktning.
En kvantiserad version av det balansfaktorvärde som ges av funktionen f (xmo,,,,x,,.d,) överförs till avkodaren. Det är att föredra att ta hänsyn till kvantiseringen redan när den modifierade sidosignalen skapas. Uttrycket nedan erhålls då: 10 15 20 25 527 670 19 xside rexidual (n) = xxide 01)- g Q x mono (n) _ R ,,, gg = Q-'lßßírll ~ Qg(..) är en kvantiseringsfunktion som appliceras på den balansfaktor som ges av funktionen f (xmww,x_,,de). Balansfaktorn överförs på överförings- kanalen. I normala vänster-höger-panorerande signaler begränsas balans- faktorn till intervallet [-l.O 1.01. Om å andra sidan kanalerna är ur fas i förhållande till varandra kan balansfaktorn sträcka sig bortom dessa gränser.
Som ett extra medel för att stabilisera stereobilden kan man begränsa balansfaktorn om den normaliserade korskorrelationen mellan mono- och sidosignalen är liten såsom den ges av ekvationen nedan: gg =Q§'lQ-ll§llš;:ll* där R _ .VTI .gsm V Rs: Rmm fi-ameend Run = [ E xside (ràxmrmo (n ' n-fmme :um Dessa situationer uppträder ganska ofta med t.ex. klassisk musik eller studiomusik med en stor andel diffust ljud, där i vissa fall a- och b-kanalerna i stort sett skulle kunna släcka ut varandra vid vissa tillfällen när en monosignal skapas. Effekten på balansfaktorn är att den kan hoppa snabbt, vilket orsakar en förvirrad stereobild. Fixeringen ovan mildrar detta problem. 10 15 20 25 30 527 670 20 Det filterbaserade angreppssättet i US 5,434,948 har liknande problem, men i det fallet är inte lösningen så enkel.
Om E: är kodningsfunktionen (t.ex. en transformkodare] för restsidosignalen och En, är monosignalens kodningsfunktion, då kan de avkodade a"- och b"- signalerna i avkodaränden beskrivas som (det antas här att 7 = 0.5 ): a'(n) = + gQ )x;nno (n) + xzide (n) bin) = (1 - g., )»;.,.. (~>- (n) xçíde = Ex. 1 (xxide rexidual xfïiflïlfl = (XUNOPIO En viktig fördel med att beräkna balansfaktorn för varje ram är att man undviker användningen av interpolering. Istället, såsom beskrevs ovan, utförs normalt rambearbetningen med överlappande ramar.
Den kodningsprincip som använder balansfaktorer verkar särskilt bra i fall av musiksignaler, där snabba ändringar typiskt sett behövs för att följa stereobilden.
På senare tid har multikanalskodning blivit populärt. Ett exempel är 5.1-kanal omgivningsljud (eng. 5.lchannel surround sound) i DVD-filmer. Kanalerna arrangeras där som: front vänster, front mitten, front höger, bakre vänster, bakre höger och Subwoofer. I fig. 5 visas en utföringsform av en kodare som kodar de tre frontkanalerna i ett sådant arrangemang under användning av interkanalredundanser enligt den föreliggande uppfinningen.
Tre kanalsignaler L, C, R tillhandahålls på tre ingångar 16A-C, och monosignalen xmom skapas genom en summa av alla tre signaler. En mittensignalkodarenhet 130 är tillagd, vilken tar emot mittensignalen xcentfe.
Monosignalen 42 är i denna utföringsform den kodade och avkodade monosignalen x"m°n°, och multipliceras med en viss balansfaktor gQ i en lO 15 20 25 30 527 670 21 multiplikator 133. I en subtraktionsenhet 135 subtraheras den multiplicerade monosignalen från mittensígnalen Xcenue för att ge en mittenrestsignal. Balansfaktorn gQ bestäms grundat på mono- och mitten- signalernas innehåll av en optimerare 137 för att minimera mittenrest- signalen enligt kvalitetskriteriet. Mittenrestsignalen kodas i en mittenrest- kodare 139 enligt någon kodarprocedur. Företrädesvis är mittenrestkodaren 139 en transformkodare för låg bithastighet eller en CELP-kodare. De kodningsparametrar pwme som representerar mittensígnalen innefattar dä kodningsparametrarna pcenue fesiauai som representerar mittenrestsignalen samt den optimerade balansfaktorn 149. Míttenrestsignalen och den skalade monosignalen adderas i en additionsenhet 235, vilken skapar en modifierad mittensignal 142 som är kompenserad för kodningsfel.
Sidosignalen xside, dvs. skillnaden mellan de vänstra L och högra R kanalerna tillhandahålls till sidosignalskodarenheten 30 som i tidigare utföringsformer. Här beror emellertid optimeraren 37 på den modifierade mittensignal 142 som tillhandahålls av mittensignalskodarenheten 130.
Sidorestsignalen kommer därför att skapas som en optimal linjärkombination av monosignalen 42, den modifierade mittensígnalen 142 och sidosignalen i subtraktionsenheten 35.
Konceptet med variabel ramlängd som beskrevs ovan kan tillämpas på någon av sido- och mittensignalerna, eller på båda.
Fig. 6 illustrerar en avkodarenhet som är lämplig för att ta emot kodade ljudsignaler från kodarenheten i fig. 5. Den mottagna signalen 54 delas in i kodningsparametrar pmom som representerar huvudsignalen, kodnings- parametrar Damm.- som representerar míttensignalen och kodningsparametrar pad, som representerar sidosignalen. I avkodaren 64 används de kodningsparametrar pmm, som representerar huvudsignalen för att skapa en huvudsignal x"m0n0. I avkodaren 160 används de kodningsparametrar pmm som representerar mittensígnalen för att skapa en mittensignal :Ckenzl-e, baserad på huvudsignalen xflnono. l avkodaren 60 avkodas de kodnings- 10 15 20 25 527 670 22 parametrar pside som representerar sidosignalen, vilket skapar en sidosignal xäde, baserat på huvudsignal xfinono och mittensignal xkentfe.
Proceduren kan uttryckas matematiskt såsom följer: Ingångssignalerna Xiefi, Xfight och xwm kombineras till en monokanal enligt: xmonn (n) = æçlq/l (n) + ßxrighl (n) + xx centre (n ) ' a , ,ß och g är i den återstående sektionen satta till 1,0 för enkelhets skull, men de kan sättas till godtyckliga värden. a -, ß- and x-värdena kan antingen vara konstanta eller bero på signalinnehållen för att betona en eller två kanaler för att erhålla en optimal kvalitet.
Den normaliserade korskorrelationen mellan mono- och mittensignalen beräknas såsom: där frameend _ Rcc = í E xcenlrv (n lxcenlre (n) n=frames1ari frameend _ Rmrn = I: E xmono (n)xmono (n) n =finmestarl frameend _ Rem = í 2 xcemne (roxmnnr: (n) ' n=fi1zme slarv 10 15 20 25 527 670 23 xcem är mittensignalen och xmm år monosignalen. Monosignalen kommer från monomålsignalen men det är möjligt att även använda monokodarens lokala syntetisering.
Mittenrestsignalen som ska kodas år: xcenlre rcsidual (n) = xcenlre (n) _ g Q 'x mono (n) _ R gß = Q! (24%))- Qg år en kvantiseringsfunktion som ska appliceras på balansfaktorn.
Balansfaktorn överförs på överföringskanalen.
Om EC är kodningsfunktionen (t.ex. en transformkodare) för mittenrest- signalen och Em är kodningsfunktionen för monosignalen kan då den avkodade xjem, -signalen i avkodaren beskrivas som: n _ :r v: xcentre (n ) '_ g Q xmono (n) + x centre residual (n) I ___ -l xcenlrefesidual _ E: c (xcenlre residual xrçiana = E: (Em (xmonn Sidorestsignalen som ska kodas är: x side residual (n) = (xleji (n) _ xrighr (n _ gQrm xrzrnno (n) _ gQsc xzenlre (n ) 1 där gQm och ggn är kvantiserade värden av de parametrar gm och gu som minimerar uttrycket: frame end (xlcfl (n) _ xrighl _ gsmxgnna (n) _ gxrxzenlre ' n=framesrarr 10 15 20 25 30 527 670 24 17 kan till exempel vara lika med 2 för en minsta-kvadrat-minimering av felet. gm- och gR -parametrarna kan kvantiseras tillsammans eller separat.
Om E, är sidorestsignalens kodningsfunktion ges då de avkodade xfefl- och xflgh, -kanalssignalerna som: xlïfi (n) = xrfrono (n) _ xgenlrc (n) + xxïde (n) xííghl (n) = 'xr';1ono(n) _ 'xzenlre (n) _ 'xš-'ide (n) xšde (n) = 'xçlkierexídual + gQsm xrçronf: (n ) + gQscxgenlre (n) n _ -l xsideresidual _ E: .r (xslderexizlunl ' En av de perceptionsartefakter som är mest störande är för-eko-effekten. I fig. 7a-b illustrerar diagram en sådan artefakt. Antag en signalkomponent som har den tidsutveckling som visas av kurva 100. I början, med start från tO finns signalkomponenten inte närvarande i ljudsamplet. Vid en tid t mellan t1 och t2 uppträder plötsligt signalkomponenten. Når signal- komponenten kodas med användning av en ramlångd av t2-t1 kommer signalkomponentens inträffande att "smetas ut" över hela ramen, såsom indikeras i kurva 101. Om en avkodning av kurvan 101 äger rum uppträder signalkomponenten en tid At före signalkomponentens avsedda uppträdande, och ett "för-eko" upplevs.
För-eko-artefakterna blir mer betonade om långa kodningsramar används.
Genom att använda kortare ramar undertrycks artefakten något. Ett annat sätt att handha de för-eko-problem som beskrivs ovan är att utnyttja det faktum att monosignalen finns tillgänglig vid både kodar- och avkodaränden.
Detta gör det möjligt att skala sidosignalen enligt monosignalens energi- kontur. I avkodarånden utförs den inversa skalningen och en del av för-eko- problemen kan alltså mildras.
En energikontur för monosignalen beräknas över ramen såsom: 10 15 20 25 527 670 25 m+L Ec(m) =[ zw(n)xf,w,m(n):\, frame start S m S frame end , n=m-L där w(n) år en fönsterbildande funktion. Den enklaste fönsterbildande funktionen är ett rektangulärt fönster, men andra fönstertyper såsom ett Hamming-fönster kan vara mer önskvärt.
Sidorestsignalen skalas då som: side resulual (n ) x ¿_,,de,e_,,,,uu,(n) = W , frame start S n S frame end .
L' I en mer generell form kan ekvationen ovan skrivas såsom: gc__\_,.de,e_,,d,,a, (n) = frame start S n S frame end , där f år en monoton kontinuerlig funktion. I avkodaren beräknas energikonturen på den avkodade monosignalen och appliceras på den avkodade sidosignalen som: än* (n) = xfw (n) f (E, (n)), framestart S n S frame end .
Eftersom denna energikonturskalning på något sätt år ett alternativ till användningen av kortare ramlångder år detta koncept särskilt väl låmpat att kombineras med konceptet med variabel ramlängd, beskrivet vidare ovan.
Genom att ha vissa kodningsscheman som tillämpar energikonturskalning, vissa som inte gör det och vissa som tillämpar energikonturskalning endast under vissa delramar, kan en flexiblare uppsättning av kodningsscheman tillhandahållas. I ñg. 8 illustreras en utföringsform av en signalkodarenhet 30 enligt den föreliggande uppfinningen. Här innefattar de olika 10 15 20 25 30 527 670 26 kodningsschemana 81 streckade delramar 91, vilka representerar kodning som tillämpar energikonturskalningen och icke streckade delramar 92, vilka representerar kodningsprocedurer som inte tillämpar energikontur- skalningen. På detta sätt är kombinationer inte endast av delramar av olika längder utan även av delramar med skiftande kodningsprinciper tillgängliga.
I det föreliggande förklarande exemplet skiljer sig tillämpningen av energikonturskalning mellan olika kodningsscheman. I ett mera allmänt fall kan vilka kodningsprinciper som helst kombineras med konceptet med variabel längd på ett analogt sätt.
Uppsättningen av kodningsscheman i fig. 8 innefattar scheman som hanterar t.ex. för-eko-artefakter på olika sätt. I vissa scheman används längre delramar med för-eko-minimering enligt energikonturprincipen. I andra scheman utnyttjas kortare delramar utan energikonturskalning.
Beroende på signalinnehållet kan ett av alternativen vara mer fördelaktigt.
För mycket allvarliga för-eko-fall kan kodningsscheman som utnyttjar korta ramar med energikonturskalning vara nödvändiga.
Den föreslagna lösningen kan användas i hela frekvensbandet eller i en eller flera distinkta delband. Användningen av delband kan tillämpas antingen på både huvud- och sidosignalerna, eller på en av dem separat. En föredragen utföringsform innefattar en uppdelning av sidosignalen i flera frekvensband.
Orsaken är helt enkelt att det är enklare att avlägsna den möjliga redundansen i ett isolerat frekvensband än i hela frekvensbandet. Detta är särskilt viktigt vid kodning av musiksignaler med rikt spektralt innehåll.
En möjlig användning är att koda frekvensbandet under en förutbestämd tröskel med det ovanstående förfarandet. Den förutbestämda tröskeln kan företrädesvis vara 2 kHz eller änne mer företrädesvis 1 kHz. För den återstående delen av frekvensområdet av intresse kan man antingen koda ett annat tillkommande frekvensband med det ovanstående förfarandet eller använda ett fullständigt annat förfarande. 10 15 20 25 30 » 527 670 27 Ett motiv till att använda det ovanstående förfarandet företrädesvis för låga frekvenser är att diffusa ljudfält allmänt sett har litet energiinnehåll vid höga frekvenser. Den naturliga orsaken är att ljudabsorption typiskt sett ökar med frekvens. Dessutom verkar de diffusa ljudfältskomponenterna spela en mindre viktig roll för det mänskliga ljudsystemet vid högre frekvenser. Därför är det fördelaktigt att använda denna lösning vid låga frekvenser (under l eller 2 kHz) och lita till andra, ännu mer biteffektiva kodningsscheman vid högre frekvenser. Det faktum att schemat endast tillämpas vid låga frekvenser ger en stor inbesparing i bithastighet eftersom den nödvändiga bithastigheten med det föreslagna förfarandet är proportionell mot den fordrade bandbredden. I de flesta fall kan monokodaren koda hela frekvensbandet, medan den föreslagna sidosignalskodningen föreslås utföras endast i den nedre delen av frekvensbandet, såsom schematiskt illustreras av ñg. 9. Referenssiffra 301 hänvisar till ett kodningsschema enligt den föreliggande uppfinningen för sídosignalen, referenssiffra 302 hänvisar till andra kodningsscheman för sidosignalen och referenssiffra 303 hänvisar till ett kodningsschema för sidosignalen.
Det finns också den möjligheten att använda det föreslagna förfarandet för flera distinkta frekvensband.
I fig. 10 illustreras huvudstegen för en utföringsform av ett kodnings- förfarande enligt den föreliggande uppfinningen som ett flödesdiagram.
Proceduren börjar i steg 200. I steg 210 kodas en huvudsignal härledd från de polyfoniska signalerna. I steg 212 tillhandahålls kodningsscheman, vilka innefattar delramar med olika längder och/ eller ordning. En sidosignal som härleds i steg 214 från de polyfoniska signalerna kodas genom ett kodningsschema som beror åtminstone delvis på de föreliggande polyfoniska signalernas faktiska signalinnehåll. Proceduren slutar i steg 299.
I flg. ll illustreras huvudstegen för en utföringsform av ett avkodningsförfarande enligt den föreliggande uppfinningen som ett flödesdiagram. Proceduren börjar i steg 200. I steg 220 avkodas en mottagen 10 15 20 527 670 28 kodad huvudsignal. I steg 222 tillhandahålls kodningsscheman, vilka innefattar delramar med olika längder och/ eller ordning. En mottagen sidosignal avkodas i steg 224 genom ett utvalt kodningsschema. I steg 226 kombineras de avkodade huvud- och sidosignalema till en polyfonisk signal.
Proceduren slutari steg 299.
Utföringsformerna som beskrivs ovan ska förstår som några illustrativa exempel av den föreliggande uppfinningen. Det inses av fackmannen att olika modifieringar, kombinationer och ändringar kan göras på utföringsformema utan att avlägsna sig från den föreliggande uppfinningens omfång. I synnerhet kan olika dellösningar i de olika utföringsformerna kombineras i andra uppställningar, där det så är tekniskt möjligt. Den föreliggande uppfinningens omfång definieras emellertid av de medföljande kraven.
REFERENSER Europeiskt patent 0497413 US patent 5,285,498 US patent 5,434,948 "Binaural cue coding applied to stereo and multi~channel audio compression", 112th AES convention, maj 2002, München, Tyskland av C.
Faller et al.

Claims (26)

10 15 20 25 30 527 670 29 PATENTKRAV
1. Ett förfarande för kodning av polyfoniska signaler, innefattande stegen: generering (210) av en första utsignal (pmono), Vilken ål' kodningsparametrar som representerar en huvudsignal som baserar sig på signaler för åtminstone en första och en andra kanal (a, b; L, R); och generering (214) av en andra utsignal (psidc), vilken är kodningsparametrar som representerar en sidosignal som baserar sig på signaler för åtminstone den första och den andra kanalen (a, b; L, R) inom en kodningsram (80), kännetecknat av det ytterligare steget: tillhandahållande (212) av åtminstone två kodningsscheman (81), vart och ett av de åtminstone två kodningsschemana kännetecknas av en respektive uppsättning av delramar (90) som tillsammans utgör kodningsramen (80), varvid summan av delramarnas (90) längder i varje kodningsschema är lika med kodníngsramens (80) längd; varje uppsättning av delramar (90) innefattar åtminstone en delram (90): varvid steget generering (214) av den andra utsignalen (psme) innefattar steget att välja ut ett kodningsschema (81) åtminstone till en del beroende på den föreliggande sidosignalens (xsme) signalinnehåll; varvid den andra utsignalen (psfde) kodas i var och en av delramarna (90) i den utvalda uppsättningen av delramar (90) separat.
2. Ett förfarande enligt patentkrav 1, kännetecknat av att steget generering (214) av den andra utsignalen (psme) i sin tur innefattar stegen: generering av kodningsparametrar som representerar en sidosignal (xside), vilken är en första linjärkombination av signaler från åtminstone den första och den andra kanalen (a, b; L, R), inom alla delramar (90) för var och en av de åtminstone två uppsåttningarna av delramar (90) separat; beräkning av ett totalt naturtrogenhetsmått för vart och ett av de åtminstone två kodningsschemana (8l); samt 10 15 20 25 30 527 670 30 utväljande av kodningssignalen från det kodningsschema (81) som har det bästa naturtrogenhetsmåttet såsom de kodningsparametrar (psiae) som representerar sidosignalen.
3. Ett förfarande enligt patentkrav 2, kännetecknat av att naturtrogenhetsmåttet grundar sig på ett signal-till-brus-mått.
4. Ett förfarande enligt något av patentkraven 1 till 3, kännetecknat av att delramarna (90) har längder Isf enligt: l. där lf är kodningsramens (80) längd och n är ett heltal.
5. Ett förfarande enligt patentkrav 4, kännetecknat av att n är mindre än ett förutbestämt värde.
6. Ett förfarande enligt patentkrav 5, kännetecknat av att de åtminstone två kodningsschemana (81) innefattar alla permutationer av delramslångder (90).
7. Ett förfarande enligt något av patentkraven 1 till 6, kännetecknat av att steget generering (210) av kodningsparametrar (pmom) som representerar huvudsignalen i sin tur innefattar stegen: skapande av en huvudsignal (Xmono) såsom en andra linjärkornbination av signaler från åtminstone den första och den andra kanalen (a, b; L, R); samt kodning av huvudsignalen till kodningsparametrar (pmom) som representerar huvudsignalen, varvid steget kodning av sidosignalen i sin tur innefattar stegen: skapande av en sidorestsignal (xsme fesiauai) såsom en differens mellan sidosignalen och huvudsignalen (xmono) skalad med en balansfaktor (gsm); 10 15 20 25 30 527 670 31 vilken balansfaktor (gsm) är bestämd såsom den faktor som minimerar sidorestsignalen enligt ett kvalitetskriteriurn; kodning av sidorestsignalen och balansfaktorn (gsm) som de kodningsparametrar (psme) som representerar sidosignalen.
8. Ett förfarande enligt patentkrav 7, kännetecknat av att kvalitetskriteriet grundar sig på ett minsta-kvadrat-mått.
9. Ett förfarande enligt något av patentkraven 1 till 8, kännetecknat av att steget kodning av sidosignalen vidare innefattar steget: skalning av sidosignalen (Xsidc) till en energikontur för huvudsignalen (xmm).
10. Ett förfarande enligt patentkrav 9, kännetecknat av att skalningen av sidosignalen (xsme) är en division med en faktor som är en monoton kontinuerlig funktion av huvudsignalens (xmono) energikontur.
11. Ett förfarande enligt patentkrav 10, kännetecknat av att den monotona kontinuerliga funktionen är en kvadratrotsfunktion.
12. Ett förfarande enligt patentkrav 10 eller ll, kânnetecknat av att huvudsignalens, xmm, , energikontur, EC , beräknas över en delram enligt: m+L EC (m) = í 2w(n)x,fm,,,, , framestart S m S frame end n=m-L där L är en godtycklig faktor, n är ett summeringsindex, m är samplet inom delramen och w(n) är en fönsterskapande funktion.
13. Ett förfarande enligt patentkrav 12, kännetecknat av att den fönsterskapande funktionen är en rektangulär fönsterskapande funktion.
14. Ett förfarande enligt patentkrav 12, kännetecknat av att den fönsterskapande funktionen är en Hamming-fönsterfunktion. 10 15 20 25 30 527 670 32
15. Ett förfarande enligt något av patentkraven 1 till 14, kännetecknat av att de åtminstone två kodningsschernana (81) innefattar olika kodningsprinciper för sidosignalen (xside).
16. Ett förfarande enligt patentkrav 15, kännetecknat av att åtminstone ett första kodningsschema av de åtminstone två kodningsschemana (81) innefattar en första kodningsprincip för sidosignalen (xside) för alla delramar (90) och åtminstone ett andra kodningsschema av de åtminstone två kodningsschemana (81) innefattar en andra kodningsprincip för sidosignalen (Xsme) för alla delramar (90).
17. Ett förfarande enligt patentkrav 15 eller 16, kännetecknat av att åtminstone ett kodningsschema av de åtminstone två kodningsschemana (81) innefattar den första kodningsprincipen för sidosignalen (xside) för en delram och den andra kodningsprincipen för sidosignalen (Xsme) för en annan delram.
18. Ett förfarande enligt patentkrav 1, kännetecknat av att steget generering (214) av den andra utsignalen (paus) i sin tur innefattar stegen: analysering av spektrala kännetecken för en sidosignal (xside), vilken är en första linjär kombination av signaler från åtminstone den första och den andra kanalen (a, b; L, R); utväljande av en uppsättning delramar (90) grundat på de analyserade spektrala kännetecknen; samt kodning av sidosignalen (xside) inom alla delramar (90) i den utvalda uppsättningen av delramar (90) separat.
19. Ett förfarande enligt något av patentkraven 1 till 18, kännetecknat av att steget generering (214) av en andra utsignal (psme) tillämpas i ett begränsat frekvensband.
20. Ett förfarande enligt patentkrav 19, kännetecknat av att steget generering (214) av en andra utsignal (pside) tillämpas endast för frekvenser under 2 kHz. 10 15 20 25 30 527 670 33
21. Ett förfarande enligt patentkrav 20, kännetecknat av att steget generering (214) av en andra utsignal (pside) tillämpas endast för frekvenser under 1 kl-Iz.
22. Ett förfarande enligt något av patentkraven 1 till 21, kännetecknat av att de polyfona signalerna representerar musiksignaler.
23. Ett förfarande för avkodning av polyfona signaler, innefattande stegen: avkodning (220) av kodningsparametrar (pmono) som representerar en huvudsignal; avkodning (224) av kodningsparametrar (psme) som representerar en sidosignal inom en kodningsram (80); samt kombinering (226) av åtminstone den avkodade huvudsignalen (x"m0n<>) och den avkodade sidosignalen (xkide) till signaler för åtminstone en första och en andra kanal (a, b; L, R), kännetecknat av steget: tillhandahållande (222) av åtminstone två kodningsscheman (81), vart och ett av de åtminstone två kodningsschemana (81) kännetecknas av en uppsättning av delramar (90) som tillsammans utgör kodningsramen (80), varvid summan av delramarnas (90) längder i varje kodningsschema (81) är lika med kodningsramens (80) längd; varvid varje uppsättning av delramar (90) innefattar åtminstone en de1ram(90), varvid steget avkodning (224) av de kodningsparametrar (psme) som representerar sidosignalen i sin tur innefattar steget avkodning av de kodningsparametrar (pside) som representerar sidosignalen separat i delramarna (90) för ett av de åtminstone två kodningsschemana (81).
24. Kodningsapparat (14), innefattande: ingångsorgan (16; 16A-C) för polyfona signaler (a, b; L, R, C) som innefattar åtminstone en första och en andra kanal (a, b; L, R), 10 15 20 25 30 527 670 34 organ (38) för generering av en första utsignal (pmono) som är kodníngsparametrar som representerar en huvudsignal som grundar sig på signaler från åtminstone den första och den andra kanalen (a, b; L, R); och organ (38) för generering av en andra utsignal (pside) som år kodningsparametrar som representerar en sidosignal som grundar sig på signaler från åtminstone den första och den andra kanalen (a, b; L, R) inom en kodningsram (80); samt utgångsorgan (52); kännetecknar! av organ för tillhandahållande av åtminstone två kodningsscheman (81), vart och ett av de åtminstone två kodningsschemana (81) kännetecknas av en respektive uppsättning av delramar (90) som tillsammans utgör kodningsramen (80), varvid summan av delramarnas (90) längder i varje kodningsschema (81) är lika med kodningsramens (80) längd; varje uppsättning av delramar (90) innefattar åtminstone en delram (90): varvid organet (30) för generering av den andra utsignalen (pside) i sin tur innefattar organ (86, 87) för att välja ut ett kodningsschema (81) åtrninstone till en del beroende på den föreliggande sidosignalens (xsme) signalinnehåll; organ för kodning av sidosignalen (Xsme) i var och en av delramarna (90) i det utvalda kodningsschemat separat.
25. Avkodarapparat (24), innefattande: ingångsorgan (54) för kodningsparametrar (pmom) som representerar en huvudsignal och kodningsparametrar (pside) som representerar en sidosignal; organ (64) för avkodning av de kodningsparametrar (pmono) som representerar huvudsignalen; organ (60) för avkodning av de kodningsparametrar (pslde) som representerar sidosignalen inom en kodningsram (80); och organ (68, 70) för kombinering av åtminstone den avkodade huvudsignalen (x“m0n°) och den avkodade sidosignalen (xäide) till signaler för åtminstone en första och en andra kanal (a, b; L, R); samt 10 15 20 527 670 35 utgångsorgan (26; 26A-C), kännetecknar! av att organet (60) för avkodning av de kodningsparametrar (pi-ide) som representerar sidosignalen i sin tur innefattar: organ för tillhandahållande av åtminstone två. kodningsscheman (81), vart och ett av de åtminstone två kodningsschemana (81) kännetecknas av en respektive uppsättning av delramar (90) som tillsammans utgör kodningsramen (80), varvid summan av delramarnas (90) längder i varje kodningsschema är lika med kodningsramens (80) längd; varvid varje uppsättning av delramar (90) innefattar åtminstone en delram (90); samt organ för avkodning av de kodningsparametrar (pside) som representerar sidosignalen separat i delramarna (90) för en av de åtminstone två kodningsschemana (81).
26. Ljudsystem (1) innefattande åtminstone ett av: en kodningsapparat (14) enligt krav 24, och en avkodningsapparat (24) enligt krav 25.
SE0400417A 2003-12-19 2004-02-20 Naturtrogenhetsoptimerad kodning med variabel ramlängd SE527670C2 (sv)

Priority Applications (25)

Application Number Priority Date Filing Date Title
SE0400417A SE527670C2 (sv) 2003-12-19 2004-02-20 Naturtrogenhetsoptimerad kodning med variabel ramlängd
DE602004023240T DE602004023240D1 (de) 2003-12-19 2004-12-15 Kodierung und Dekodierung von Mehrkanaltonsignalen basierend auf einer Haupt- und Nebensignal Darstellung
ZA200508980A ZA200508980B (en) 2003-12-19 2004-12-15 Fidelity-optimised variable frame length encoding
JP2006518596A JP4335917B2 (ja) 2003-12-19 2004-12-15 忠実度最適化可変フレーム長符号化
MXPA05012230A MXPA05012230A (es) 2003-12-19 2004-12-15 Codificacion de longitud de cuadro variable optimizada en fidelidad.
AU2004298708A AU2004298708B2 (en) 2003-12-19 2004-12-15 Fidelity-optimised variable frame length encoding
DE602004008613T DE602004008613T2 (de) 2003-12-19 2004-12-15 Treueoptimierte kodierung mit variabler rahmenlänge
EP07109801A EP1845519B1 (en) 2003-12-19 2004-12-15 Encoding and decoding of multi-channel audio signals based on a main and side signal representation
PCT/SE2004/001867 WO2005059899A1 (en) 2003-12-19 2004-12-15 Fidelity-optimised variable frame length encoding
BRPI0410856A BRPI0410856B8 (pt) 2003-12-19 2004-12-15 métodos de codificar e de decodificar sinais multicanais, aparelho codificador, e, aparelho decodificador
CA2690885A CA2690885C (en) 2003-12-19 2004-12-15 Fidelity-optimised variable frame length encoding
US11/011,765 US7809579B2 (en) 2003-12-19 2004-12-15 Fidelity-optimized variable frame length encoding
AT07109801T ATE443317T1 (de) 2003-12-19 2004-12-15 Kodierung und dekodierung von mehrkanaltonsignalen basierend auf einer haupt- und nebensignal darstellung
BRPI0419281-8A BRPI0419281B1 (pt) 2003-12-19 2004-12-15 Métodos de codificar e de decodificar sinais multicanais, e, aparelhos codificador e decodificador
CN200710138487XA CN101118747B (zh) 2003-12-19 2004-12-15 保真度优化的预回声抑制编码
EP04820553A EP1623411B1 (en) 2003-12-19 2004-12-15 Fidelity-optimised variable frame length encoding
AT04820553T ATE371924T1 (de) 2003-12-19 2004-12-15 Treueoptimierte kodierung mit variabler rahmenlänge
PL04820553T PL1623411T3 (pl) 2003-12-19 2004-12-15 Zoptymalizowane pod względem wierności odtwarzania kodowanie ze zmienną długością ramki
CNB2004800186630A CN100559465C (zh) 2003-12-19 2004-12-15 保真度优化的可变帧长编码
RU2005134365/09A RU2305870C2 (ru) 2003-12-19 2004-12-15 Оптимизированное по точности кодирование с переменной длиной кадра
CA2527971A CA2527971C (en) 2003-12-19 2004-12-15 Fidelity-optimised variable frame length encoding
HK06112026.7A HK1091585A1 (en) 2003-12-19 2006-11-01 Fidelity-optimised variable frame length encoding
HK08106066.8A HK1115665A1 (en) 2003-12-19 2006-11-01 Fidelity-optimised pre-echo suppressing encoding
RU2007121143/09A RU2425340C2 (ru) 2003-12-19 2007-06-05 Оптимизированное по точности кодирование с подавлением упреждающего эхо
JP2007216374A JP4589366B2 (ja) 2003-12-19 2007-08-22 忠実度最適化可変フレーム長符号化

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE0303501A SE0303501D0 (sv) 2003-12-19 2003-12-19 Filter-based parametric multi-channel coding
SE0400417A SE527670C2 (sv) 2003-12-19 2004-02-20 Naturtrogenhetsoptimerad kodning med variabel ramlängd

Publications (3)

Publication Number Publication Date
SE0400417D0 SE0400417D0 (sv) 2004-02-20
SE0400417L SE0400417L (sv) 2005-06-20
SE527670C2 true SE527670C2 (sv) 2006-05-09

Family

ID=31996354

Family Applications (1)

Application Number Title Priority Date Filing Date
SE0400417A SE527670C2 (sv) 2003-12-19 2004-02-20 Naturtrogenhetsoptimerad kodning med variabel ramlängd

Country Status (15)

Country Link
EP (2) EP1845519B1 (sv)
JP (2) JP4335917B2 (sv)
CN (2) CN101118747B (sv)
AT (2) ATE371924T1 (sv)
AU (1) AU2004298708B2 (sv)
BR (2) BRPI0419281B1 (sv)
CA (2) CA2690885C (sv)
DE (2) DE602004008613T2 (sv)
HK (2) HK1115665A1 (sv)
MX (1) MXPA05012230A (sv)
PL (1) PL1623411T3 (sv)
RU (2) RU2305870C2 (sv)
SE (1) SE527670C2 (sv)
WO (1) WO2005059899A1 (sv)
ZA (1) ZA200508980B (sv)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US8090586B2 (en) 2005-05-26 2012-01-03 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
JP4639966B2 (ja) * 2005-05-31 2011-02-23 ヤマハ株式会社 オーディオデータ圧縮方法およびオーディオデータ圧縮回路並びにオーディオデータ伸張回路
WO2007004828A2 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8185403B2 (en) 2005-06-30 2012-05-22 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
JP2009500656A (ja) 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
US8032240B2 (en) * 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of processing an audio signal
JP4859925B2 (ja) 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
WO2007055463A1 (en) 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
JP5173811B2 (ja) 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
US7751485B2 (en) 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
KR100878828B1 (ko) 2005-10-05 2009-01-14 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
CN101283250B (zh) 2005-10-05 2013-12-04 Lg电子株式会社 信号处理的方法和装置以及编码和解码方法及其装置
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
US7752053B2 (en) 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
US8204740B2 (en) 2006-02-06 2012-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Variable frame offset coding
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
EP2124486A1 (de) * 2008-05-13 2009-11-25 Clemens Par Winkelabhängig operierende Vorrichtung oder Methodik zur Gewinnung eines pseudostereophonen Audiosignals
CN102037507B (zh) 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
WO2010016270A1 (ja) * 2008-08-08 2010-02-11 パナソニック株式会社 量子化装置、符号化装置、量子化方法及び符号化方法
JP5295372B2 (ja) * 2008-09-17 2013-09-18 フランス・テレコム デジタルオーディオ信号におけるプリエコーの減衰
JP5309944B2 (ja) 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
JP5793675B2 (ja) * 2009-07-31 2015-10-14 パナソニックIpマネジメント株式会社 符号化装置および復号装置
US8977546B2 (en) * 2009-10-20 2015-03-10 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device and method for both
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
CN102770913B (zh) * 2009-12-23 2015-10-07 诺基亚公司 稀疏音频
US8442837B2 (en) 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
EP2544466A1 (en) 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102302012B1 (ko) * 2012-11-15 2021-09-13 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
RU2728535C2 (ru) 2015-09-25 2020-07-30 Войсэйдж Корпорейшн Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
CN107742521B (zh) 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN109215668B (zh) 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN110728986B (zh) 2018-06-29 2022-10-18 华为技术有限公司 立体声信号的编码方法、解码方法、编码装置和解码装置
CN112233682A (zh) * 2019-06-29 2021-01-15 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US5694332A (en) * 1994-12-13 1997-12-02 Lsi Logic Corporation MPEG audio decoding system with subframe input buffering
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US5796842A (en) * 1996-06-07 1998-08-18 That Corporation BTSC encoder
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
JP3335605B2 (ja) * 2000-03-13 2002-10-21 日本電信電話株式会社 ステレオ信号符号化方法
WO2002091363A1 (en) * 2001-05-08 2002-11-14 Koninklijke Philips Electronics N.V. Audio coding
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
CN1219415C (zh) * 2002-07-23 2005-09-14 华南理工大学 一种5.1通路环绕声的耳机重发的信号处理方法

Also Published As

Publication number Publication date
ATE443317T1 (de) 2009-10-15
CA2690885A1 (en) 2005-06-30
EP1845519B1 (en) 2009-09-16
AU2004298708A1 (en) 2005-06-30
MXPA05012230A (es) 2006-02-10
JP2007529021A (ja) 2007-10-18
JP4589366B2 (ja) 2010-12-01
BRPI0419281B1 (pt) 2018-08-14
RU2305870C2 (ru) 2007-09-10
DE602004008613T2 (de) 2008-06-12
HK1115665A1 (en) 2008-12-05
BRPI0410856B1 (pt) 2019-10-01
CN101118747B (zh) 2011-02-23
CA2527971C (en) 2011-03-15
CA2527971A1 (en) 2005-06-30
DE602004023240D1 (de) 2009-10-29
WO2005059899A1 (en) 2005-06-30
ATE371924T1 (de) 2007-09-15
RU2425340C2 (ru) 2011-07-27
RU2005134365A (ru) 2006-05-27
EP1623411B1 (en) 2007-08-29
AU2004298708B2 (en) 2008-01-03
EP1845519A2 (en) 2007-10-17
HK1091585A1 (en) 2007-01-19
EP1845519A3 (en) 2007-11-07
DE602004008613D1 (de) 2007-10-11
JP2008026914A (ja) 2008-02-07
JP4335917B2 (ja) 2009-09-30
BRPI0410856B8 (pt) 2019-10-15
CN100559465C (zh) 2009-11-11
CA2690885C (en) 2014-01-21
CN101118747A (zh) 2008-02-06
BRPI0410856A (pt) 2006-07-04
RU2007121143A (ru) 2008-12-10
ZA200508980B (en) 2007-03-28
EP1623411A1 (en) 2006-02-08
CN1816847A (zh) 2006-08-09
SE0400417L (sv) 2005-06-20
SE0400417D0 (sv) 2004-02-20
PL1623411T3 (pl) 2008-01-31

Similar Documents

Publication Publication Date Title
SE527670C2 (sv) Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7809579B2 (en) Fidelity-optimized variable frame length encoding
US7761290B2 (en) Flexible frequency and time partitioning in perceptual transform coding of audio
JP5455647B2 (ja) オーディオデコーダ
JP4809370B2 (ja) マルチチャネル音声符号化における適応ビット割り当て
US20090204397A1 (en) Linear predictive coding of an audio signal
EP2997572B1 (en) Audio object separation from mixture signal using object-specific time/frequency resolutions
JP5773124B2 (ja) 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
JP5163545B2 (ja) オーディオ復号装置及びオーディオ復号方法
KR20070088329A (ko) 멀티채널 합성장치 제어 신호를 발생하기 위한 장치 및방법과 멀티채널 합성을 위한 장치 및 방법
CN101010725A (zh) 多信道信号编码装置以及多信道信号解码装置
EP2690621A1 (en) Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
US8644526B2 (en) Audio signal decoding device and balance adjustment method for audio signal decoding device
RU2803142C1 (ru) Устройство повышающего микширования звука, выполненное с возможностью работы в режиме с предсказанием или в режиме без предсказания
RU2798024C1 (ru) Устройство повышающего микширования звука, выполненное с возможностью работы в режиме с предсказанием или в режиме без предсказания
AU2007237227B2 (en) Fidelity-optimised pre-echo suppressing encoding