DK172908B1 - Talekodning - Google Patents

Talekodning Download PDF

Info

Publication number
DK172908B1
DK172908B1 DK198904256A DK425689A DK172908B1 DK 172908 B1 DK172908 B1 DK 172908B1 DK 198904256 A DK198904256 A DK 198904256A DK 425689 A DK425689 A DK 425689A DK 172908 B1 DK172908 B1 DK 172908B1
Authority
DK
Denmark
Prior art keywords
pulse
pulses
excitation
factors
speech
Prior art date
Application number
DK198904256A
Other languages
English (en)
Other versions
DK425689D0 (da
DK425689A (da
Inventor
Martin Roger Lester Hodges
Original Assignee
British Telecomm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888800120A external-priority patent/GB8800120D0/en
Priority claimed from GB888801998A external-priority patent/GB8801998D0/en
Application filed by British Telecomm filed Critical British Telecomm
Publication of DK425689D0 publication Critical patent/DK425689D0/da
Publication of DK425689A publication Critical patent/DK425689A/da
Application granted granted Critical
Publication of DK172908B1 publication Critical patent/DK172908B1/da

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

DK 172908 B1 i . Denne opfindelse angår talekodning, og isar anlæg, hvori et talesignal kan dannes ved at lede udgangssignalet fra en excitationskilde gennem et syntesefilter. Kodningsproblemet ' bliver derefter at danne de nødvendige excitations- og filterparametre ud fra indgangstalen (dvs. talesignalet fra indgangen). LPC (linear predictive coding, dvs. lineær forudsigelig 5 kodning)-parametre for filteret kan afledes ved brug af velkendt teknik, og den nærværende opfindelse angår excitationskilden.
Anlæg, hvori en stemme/ikke stemme-beslutning foretages på indgangstalen for at skifte mellem en støjkilde og en repeterende impulskilde, har en tendens til at give den udsendte tale en unaturlig kvalitet, og det har været foreslået at anvende en enkelt "multiimpuls" 10 excitationskilde, hvori der dannes en sekvens af impulser, idet der ikke foretages nogen forudgående antagelser vedrørende arten af sekvensen. Det har vist sig med denne fremgangsmåde, at blot nogle få impulser (f.eks. 8 i 10 ms ramme) er tilstrækkelig til at opnå rimelige resultater. Se B.S. Atal og J.R. Remde: "A New Model of LPC Excitation for producing Natural-sounding Speech at Low Bit Rates", Proc. IEEE ICASSP, Paris, side 15 614, 1982.
Nærmere bestemt angår den foreliggende opfindelse en talekoder omfattende midler til at udlede parametre for et syntesefilter ud fra et indgangs-talesignal, midler til at danne en kodet repræsentation for en excitation bestående af et antal impulser inden for en tidsramme svarende til et større antal talesampler, der er indrettet i funktion til at vælge amplituderne 20 og timingen (tidsindstillingen) af impulser forat reducere forskellen mellem indgangstalesignalet og filterets reaktion eller karakteristik på excitationen ved: at udlede amplituden og timingen for en første impuls, som allerede repræsenterer en excitation, der tenderer til at reducere forskellen og derefter udledes én eller flere yderligere impulser, som kombineret med den første og eventuelt mellemliggende impulser repræsen-25 terer en excitation, der sørger for at reducere den nævnte forskel.
En sådan talekoder er beskrevet i "Efficient Computation and Encoding of the Multipulse Excitation for LPC, M. Berouti et al., ICASSP’ 84. IEEE International Conference on s , 2 DK 172908 B1
Acoustics, Speech and Signal Processing, 19.-21. marts 1984, San Diego, CA, bind I, side 10.1.1 - 10.1.4, IEEE New York, US.
Ifølge den foreliggende opfindelse indeholder talekoderen også midler til at multiplicere impulsamplituderne med faktorer fj, som kun afhænger af deres position i udledningssekven-5 sen, idet faktorerne for hver impuls efter den første er større end faktoren, som blev anvendt til den første impuls, og større end eller lig med faktorerne anvendt til enhver mellemliggende impuls, og en bagudrettet adaptiv kvantiseringsenhed til kvantisering af produkterne.
Herved opnår man ifølge opfindelsen at gøre den adaptive kvantisering mere virkningsfuld og tillader enten at reducere kvantiseringsstøj eller antallet af anvendte bit til indkodning af 10 amplituderne.
Nogle udførelses former for opfindelsen vil i det følgende blive beskrevet under henvisning til de ledsagende tegninger, hvor fig. 1 er et blokdiagram af én udførelsesform for en talekoder, fig. 2 et blokdiagram af en dekoder til brug sammen med koderen i fig. 1, og 15 fig. 3 et blokdiagram af en anden udførelsesform for en koder.
I koderen i fig. 1 behandles indførte talesignaler i samplet (fortrinsvis digital) form på en indgang 1 af en predictor 2 for at danne et udgangssignal (f.eks. i form af et sæt filterkoeffi-cienter), som definerer et syntesefilter med en spektral karakteristik i lighed med den for talesignaler. Predictoranalysen kan være en hvilken som helst af de konventionelt anvendte 20 i såkaldte LPC (linear predictive coding eller lineær forudsigelig kodning)-talekodere.
Således som det er almindeligt i sådanne anlæg, udføres analysen på rammer af tale, som indgangssamplerne opdeles i. Typisk kan rammelængden være 20 ms. Følgelig frembringes et sæt koefficienter for hver 20 ms og tilføres via ledninger 3 til en udgangsmultiplekser 4.
:--.1 i 3 DK 172908 B1
Ligesom filterrepræsentationen danner koderen også en repræsentation for en excitation, som skal dannes ved dekoderen for at drive syntesefilteret forat frembringe en approksima-» tion til den oprindelige tale. Koderen i fig. I har en multiimpulsafledningsenhed 5, som ud fra udgangstalesamplerne (prøverne) og LPC-koefficienterne udleder amplituderne (på 5 udgangen 6) og positioner (på udgangen 7) for impulserne i en "multiimpuls" excitations-ramme, som nævnt ovenfor. Mens den typiske underblok (dvs. en del af LPC-rammen) størrelse på 10 ms med otte impulser kan anvendes, anvender den i fig. 1 viste udførelsesform en underblokvarighed på 4 ms med tre impulser. Dette foretrækkes for at indføre mindre forsinkelse i kodningsprocessen. Formålet med multiimpulsudledningener at finde 10 impulspositioner og amplituder, som formindsker fejlen mellem den dekodede syntetiske tale og den oprindelige tale.
Hvis man antager, at en underblok består af n taleprøver, repræsenterer denne n indgangsta-leprøver S0....SnI, og n syntetiserede prøver S0.,.Snl, som kan betragtes som vektorers, s’.
Excitationen består af impulser af en amplitude a*, som det antages har tilladelse til al 15 forekomme på et hvilken som helst af de n mulige tidspunkter inden for rammen, men der er kun et begrænset antal af dem (f.eks. k). Excitationen kan således udtrykkes som en n-dimentional vektor a med komponenter men kun k af disse er forskellige fra nul.
Hensigten er at finde de 2k ukendte (k-amplituder og k-impulspositioner), som formindsker fejlen: 20 eJ = (s-S’)2 (I)
Den mængde beregninger, som er nødvendige for at foretage dette, er betydelig, og den procedure, der foreslås af Atal og Remde var som følger: (1) Find amplituden og positionen for én impuls alene for at give en minimal fejl, (2) Find amplituden og positionen for en anden impuls, som kombineret med denne 25 første impuls giver en minimal fejl. Positionerne og amplituderne for de tidligere fundne ompulser fastholdes i dette trin.
** * 4 DK 172908 B1 (3) Gentag for yderligere impulser.
Denne fremgangsmåde anvendes i udledningsenheden 5 i fig. 1. De tidligere udledte impulser tages der hensyn til i de senere udedninger i en underblok, der er angivet i fig. 1 med tilbagekoblingsvejene 8, 9. Bemærk, at den rækkefølge, hvori impulserne udledes, ikke har 5 relation til deres aktuelle position i underblokken.
Impulsamplituderne a; føres via en badudrettet, tilbagekoblet adaptiv kvantiseringsenhed 10, beskrevet nedenfor. Først multipliceres de imidlertid (i en multiplikator 11) med en statistisk faktor fi. I praksis viser det sig, at den første impuls, som udledes, i almindelighed er den største, og de derefter udledte impulser tenderer til at blive stadig mindre, i hvert fald for 10 de første få impulser. Selv om impulsernes størrelse kan variere, viser en statistisk analyse på tråningssekvenserne (indlæringssekvenserne) at i gennemsnit er dette således, og multiplikationsenheden 11 forsynes med faktorer, således at impulsamplituderne i gennemsnit på 3 multiplikatorudgangen tenderer til at være den samme, uanset hvilken impuls den er i * udledningssekvensen. For det tilfælde, der betragtes her på tre impulser, er de anvendte 15 faktorer: første impuls, som skal udledes f0 = 1 anden impuls, som skal udledes f, 0 8/5 og tredje impuls, som skal udledes f2 = 8/3 (den fjerde til sjette impuls, hvis de er til stede, kan angives med faktorerne 8/3, 8/3 og 4).
20 Formålet med dette trin er at gøre den adaptive kvantisering mere virkningsfuld og tillade enten at reducere kvantiseringsstøj eller antallet af anvendte bit til indkodning af amplituden eller begge dele.
Hvor der anvendes el større antal impulser, kan passende faktorer udledes ved analyse af ! samplesekvenser af tale for at finde de gennemsnitlige størrelser for impulser sammenlignet 25 med den først afledte impuls. Multiplikationsfaktoren er derefter det reciproke af denne ......1 DK 17290$ B1 5 værdi. En simpel, men dog ikke optimal tilnærmelse for en sådan situation, er at anvende en faktor på én for den først udledte impuls og to for den næste.
Den adaptive kvantiseringsenhed 10 er en 3-bit Jayant-kvantifiseringsenhed og har en optimal ulineær Max-kvantiseringsenhed 12 med følgende karakteristik: 5 label!
Indgangsområde Udgang Udgangskode
Under-1,748 -2,152 1/4 -1,748 til-1,5 -1,344 1/3 -1,5 til 0,50006 -0,7560 1/2 10 -0,50006 til 0 -0,2451 1/1 0 til 0,50006 0,2451 0/1 0,5006 til 1,5 0,7560 0/2 1,5 til 1,748 1,344 0/3 over 1,748 2,152 0/4 15 Udgangskoden repræsenterer simpelthen værdierne af de tre udgangsbit - nummeret eller antallet før 7" i fortegnsbitten og nummeret 1.....4, der følger efter, betegner det binære tal 0.....11.
En skaleringsenhed 13 danner en skalafaktor til en neddeler 14 på kvantiseringsindgangen.
Skalafaktoren S (oprindelig 1) ændres ved, at skalafaktoren s afhængig af kvantiseringskode-20 ordet, som udsendes for en given impulsamplitudeværdi, forøges eller formindskes fra sin gamle væri til en ny værdi, som skal anvendes for den næste impulsamplitude, skm = sk.| · mk.,
Hver k er givet ved: DK 172908 B1 6
label Z
Udeangskode m 1 0,875 2 0,875 5 3 1,000 4 1,500
Bemærk, at disse faktorer er forskellige fra dem, der er foreslået af Jayant. Ligeledes, at skalafaktoren ikke tilbagestilles ved slutningen af en underblok eller ramme.
Et yderligere træk, som kan anvendes til at gøre tilpasningen hurtigere er, at hvis to på 10 hinanden følgende udgangskoder har værdien 4, vil den anden forekomst resultere i en forøgelse af skalafaktoren med en faktor 2,25 (svarende til 2 forøgelser på 1,5). Dette er vist i ramme 1 med en forsinkelse 15 og en 4,4 detektor 16.
Udgangsmultiplekseren 4 modtog de kvantiserede amplituder fra kvantiseringsenheden 10 og positionsinformation fra udledningsenheden 5, samt LPC-koefficienterne og kombinerer 15 disse til et enkelt udgangssignal 17.
I En dekoder er vist i fig. 2, hvor en demultiplekser 24 adskiller koefficienterne, amplituder- ! ne og positionsinformationen og fremfører koefficienterne for at opdatere et syntesefilter 30.
Impulsamplitudekodeordene passerer via en omvendt kvantiseringsenhed 22, som fjerner e den ulineæritet, som blev indført af kvantiseringsenheden 12 - dvs. den konverterer de 20 modtagne kodeord til værdierne, som er givet i midtersøjlen af tabel 1. Skalafaktoren s fås ud fra amplitudekodeordene ved enhederne 23, 25, 26 i alle henseender identiske med h enhederne 13, 15, 16 i fig. 1 og den omvendte kvantifiseringsudgang multipliceres af s i en multipliceringsenhed 31. Faktorerne f anvendes derefter på et neddelingsnetværk 32, hvis udgangssignal repræsenterer de originale amplituder (men med kvantiseringsfejl) og som 25 tilføres sammen med impulspositionsinformation til en excitationsgenerator 33.
Ϊ4 , y il im
' '11 TS
7 DK 17290$ B1
Udgangssignalet fra excitationsgeneratoren 33 filtreres af filteret 30 for at danne dekodet tale på en udgang 34.
Det har allerede været nævnt, at multiimpulsudledningsenheden i de senere impulsudledninger tager hensyn til virkningen af de tidligere udledte impulser via tilbagekoblingsvejene 8, 5 9. Det er fordelagtigt at tage hensyn til den aktuelle virkning af disse impulser på deko deren, og derfor indgår kvantiseringen fortrinsvis i denne sløjfe. I den modificerede kodeen-hed, vist i fig. 3, tilbagekobles impulsamplituderne derfor fra udgangen via en lokal dekoder 40, som har en omvendt kvantisering 22', multiplikator 31 ’ og neddeler 32'. Skalafaktoren kan naturligvis fås fra kvantiseringsenheden 10. Dekoderen i fig. 2 kan også anvendes 10 sammen med denne kodeenhed.
En del multiimpulskodningsskemaer, der anvender sekventiel impulsudledning, benytter reoptimeringstrin. Dette skyldes, at de tidligere udledte impulser er udledt uden hensyn til arten af de impulser, der udledes senere, og resultaterne kan forbedres ved at tilføre en korrektion til amplituderne og/eller positionerne af impulserne. Se f.eks. GB patenterne nr.
15 2.173.678 Bog nr. 2.195.120 B.
I tilfældet af fig. 1, kan enhver af disse former for teknik anvendes som hidtil. I tilfældet i fig. 2, kan positionsreoptimering anvendes om ønsket. I fig. 3, hvor der anvendes kvantisering i sløjfen, indebærer dette, at kvantisering af impuls i udføres før impulsen i+1 udledes, og yderligere justering af impulsen i vil muligvis ikke lade sig gøre uden i alvorlig 20 grad at påvirke kvantiseringsprocessen.
n

Claims (5)

  1. 9 DK 172908 B1
  2. 1. Talekoder omfattende: midler (2) til ud fra et indgangssignal at udlede parametre for et syntesefilter, 5 midler (5) til at danne en kodet repræsentation for en excitation bestående af et antal impul-’ ser inden for en tidsramme svarende til et større antal talesampler, hvilke midler er indrettet ! til i drift at vælge amplituder og timing for impulser for at reducere forskellen mellem * indgangstalesignalet og filterets respons eller karakteristik på excitationen ved: - at udlede amplituden og tidspositionen for en første impuls, som alene repræsenterer en 10 excitation, som søger at reducere nævnte forskel, og successivt udlede en eller flere yderli gere impulser, som kombineret med den første og enhver mellemliggende impuls repræsen-^ terer en excitation, der søger at reducere nævnte forskel, kendetegnet ved midler (11) til at multiplicere impulsamplituderne med faktorer (Q, som kun afhænger af deres fi position i udledningssekvensen, idet faktorerne for hver impuls efter den første er større end _ 15 faktoren, som blev anvendt til den første impuls, og større end eller lig med faktorerne ™ anvendt til enhver mellemliggende impuls, ogen bagudrettet adaptiv kvantiseringsenhed (10) 1 til kvantisering af produkterne.
  3. 2. Talekoder ifølge krav I,kendetegnet ved, at faktoren er én for den første im- “ puls.
  4. 3. Talekoder ifølge krav 1 eller 2, kendetegnet ved, at mindst tre impulser udledes. ^ 4. Talekoder ifølge krav 3,kendetegnet ved, at faktorerne for de første tre impulser T i udledningsorden er i hovedsagen 1, 8/5 og 8/3. -rm 4 ’ ϋ DK 172908 B1
  5. 5. Talekoder ifølge ethvert af de foregående krav, kendetegnet ved, at udledningsmidlerne (5) er indrettet til, når de udleder yderligere impuls(er), at anvende værdierne af impulserne af den første og enhver mellemliggende impuls, som opnås fra kvantiseringsud-gangen via en lokal dekoder (40). *
DK198904256A 1988-01-05 1989-08-29 Talekodning DK172908B1 (da)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
GB8800120 1988-01-05
GB888800120A GB8800120D0 (en) 1988-01-05 1988-01-05 Speech coding
GB888801998A GB8801998D0 (en) 1988-01-29 1988-01-29 Speech coding
GB8801998 1988-01-29
PCT/GB1988/001152 WO1989006418A1 (en) 1988-01-05 1988-12-29 Speech coding
GB8801152 1988-12-29

Publications (3)

Publication Number Publication Date
DK425689D0 DK425689D0 (da) 1989-08-29
DK425689A DK425689A (da) 1989-08-29
DK172908B1 true DK172908B1 (da) 1999-09-27

Family

ID=26293268

Family Applications (1)

Application Number Title Priority Date Filing Date
DK198904256A DK172908B1 (da) 1988-01-05 1989-08-29 Talekodning

Country Status (11)

Country Link
US (1) US5058165A (da)
EP (1) EP0324283B1 (da)
JP (1) JP2992045B2 (da)
AU (1) AU608944B2 (da)
CA (1) CA1334690C (da)
DE (2) DE3879664T4 (da)
DK (1) DK172908B1 (da)
ES (1) ES2039655T3 (da)
HK (1) HK130196A (da)
NO (1) NO301097B1 (da)
WO (1) WO1989006418A1 (da)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
US4724535A (en) * 1984-04-17 1988-02-09 Nec Corporation Low bit-rate pattern coding with recursive orthogonal decision of parameters
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
CA1252568A (en) * 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
US4944013A (en) * 1985-04-03 1990-07-24 British Telecommunications Public Limited Company Multi-pulse speech coder
JPH0650439B2 (ja) * 1986-07-17 1994-06-29 日本電気株式会社 マルチパルス駆動形音声符号化器
GB8621932D0 (en) * 1986-09-11 1986-10-15 British Telecomm Speech coding

Also Published As

Publication number Publication date
DK425689D0 (da) 1989-08-29
US5058165A (en) 1991-10-15
DK425689A (da) 1989-08-29
EP0324283B1 (en) 1993-03-24
DE3879664T4 (de) 1993-10-07
WO1989006418A1 (en) 1989-07-13
NO893532L (no) 1989-09-04
JPH02502857A (ja) 1990-09-06
DE3879664T2 (de) 1993-07-01
CA1334690C (en) 1995-03-07
HK130196A (en) 1996-07-26
AU608944B2 (en) 1991-04-18
EP0324283A1 (en) 1989-07-19
ES2039655T3 (es) 1993-10-01
NO893532D0 (no) 1989-09-04
AU2921989A (en) 1989-08-01
NO301097B1 (no) 1997-09-08
DE3879664D1 (de) 1993-04-29
JP2992045B2 (ja) 1999-12-20

Similar Documents

Publication Publication Date Title
CA2242437C (en) Voice coding and decoding system
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
EP0307122B1 (en) Speech coding
US6408268B1 (en) Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
US5953697A (en) Gain estimation scheme for LPC vocoders with a shape index based on signal envelopes
EP0869477B1 (en) Multiple stage audio decoding
US4864621A (en) Method of speech coding
US5839098A (en) Speech coder methods and systems
DK172908B1 (da) Talekodning
US5719993A (en) Long term predictor
Lefebvre et al. 8 kbit/s coding of speech with 6 ms frame-length
US6856955B1 (en) Voice encoding/decoding device
JPH11259098A (ja) 音声符号化/復号化方法
JPH06202699A (ja) 音声符号化装置及び音声復号化装置及び音声符号化復号化方法
JPH06130994A (ja) 音声符号化方法
JP3202212B2 (ja) 音声符号化装置及び音声符号化方法
Berouti et al. Reducing signal delay in multipulse coding at 16kb/s
JP3017747B2 (ja) 音声符号化装置
JPH0566800A (ja) 音声符号化・復号化方法
JPH0446440B2 (da)
GB2258978A (en) Speech processing apparatus
JPH05315968A (ja) 音声符号化装置
JPH0632034B2 (ja) 音声符号化方法
JPH02153399A (ja) 音声符号化方式
JPH05127699A (ja) コード励振線形予測符号化方式

Legal Events

Date Code Title Description
B1 Patent granted (law 1993)
PBP Patent lapsed

Country of ref document: DK