SE516526C2 - Metod och anordning vid automatisk extrahering av prosodisk information - Google Patents

Metod och anordning vid automatisk extrahering av prosodisk information

Info

Publication number
SE516526C2
SE516526C2 SE9303623A SE9303623A SE516526C2 SE 516526 C2 SE516526 C2 SE 516526C2 SE 9303623 A SE9303623 A SE 9303623A SE 9303623 A SE9303623 A SE 9303623A SE 516526 C2 SE516526 C2 SE 516526C2
Authority
SE
Sweden
Prior art keywords
declination
speech
variation
difference
tone
Prior art date
Application number
SE9303623A
Other languages
English (en)
Other versions
SE9303623D0 (sv
SE9303623L (sv
Inventor
Bertil Lyberg
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9303623A priority Critical patent/SE516526C2/sv
Publication of SE9303623D0 publication Critical patent/SE9303623D0/sv
Priority to EP94850185A priority patent/EP0664537B1/en
Priority to DE69425874T priority patent/DE69425874T2/de
Priority to US08/329,865 priority patent/US5677992A/en
Priority to JP6293858A priority patent/JPH07181997A/ja
Publication of SE9303623L publication Critical patent/SE9303623L/sv
Publication of SE516526C2 publication Critical patent/SE516526C2/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

I IIIU u I ' g u g u u 516 526 z harklar sig, är hes, i fall omgivningsljud är starka och påverka analysen osv.
Vid analys av tal präglas den taligenkännande utrustningen på ett antal personer för att erhålla en hög igenkänningsgrad.
REDOGÖRELSE FÖR UPPFINNINGEN TEKNISKT PROBLEM I samband med artificiell återgivning av ett talat språk föreligger behov att språket återges naturtroget och med korrekt accentue- ring. Vid automatisk översättning av ett tal till ett andra språk är accentueringarna av avgörande betydelse vid översättningen.
Betydelsen av ett ord kan således ha vitt skilda betydelser i bero- ende av betoningen. I andra sammanhang kan betydelsen av en och samma sats erhålla olika innebörd beroende på var beto- ningen placerats. Betydande arbetsinsatser har nedlagts på detta omrâde. Vidare bestämmer betoningar av satser och delar av sat- ser partier som framhävs i språket. Behov föreligger att dessa framhävanden återges i det andra språket på ett riktigt sätt. Inte heller i detta avseende är metoder kända som löser problemet.
I andra sammanhang är det önskvärt att tal som produceras rent artificiellt återges naturtroget med korrekt accentuering. Detta förhållande föreligger i den ökande flora av maskiner som fram- ställer tal i olika sammanhang. Det av maskiner i dag framställda talet är för många människor svåruppfattat och svårtydbart. Det föreligger således starka behov att finna metoder och anordningar som framställer ett för de flesta människor tydbart tal. Att män- niskan uppfattar manskinproducerat tal som svårförståeligt med- för att ett motstånd mot dylika anordningar finns. Behov förelig- ger således att minska detta motstånd.
Vid översättning av och till språk med utvecklad satsaccentbeto- ning och/ eller tonläge i enstaka ord är identifiering av or- dets/ satsens egentliga betydelse mycket svår. Besvär föreligger även när översättning skall ske till dessa språk till följd av svå- righeterna att ge rätta betoningar. Förhållandet att betoningarna kan felplaceras ökar risken för feltolkning eller att betydelsen går helt förlorad för den lyssnande parten. 516 526 f' ":= ; ;3; '. u H J. J. n .- Vid manövrering och dirigering av olika system föreligger behov att utnyttja det talade ordet. Exempel på dylika områden är exem- pelvis den ökande floran av tjänster som införs i olika telenät.
För att nyttja tjänsterna måste användaren för närvarande nyttja olika koder. Att ihågkomma ett fåtal enkla koder är möjligt men om koderna dessutom förutsätter att viss tilläggsinformation skall inmatas kompliceras bilden. I dessa fall blir man tvungen att inneha någon form av rninneslappar eller dylikt. I vissa fall tror man sig kanske minnas koden och inmatningsordningen för olika informationer. Sker inmatningen fel kan t.ex tidpunkter el- ler datum bli felaktiga. Någon bekräftelse att systemet mottagit in- formationen riktigt erhålls normalt inte. Om mottagande system kunde motta informationen verbalt skulle användarna, abonnen- terna, kunna utnyttja tjänster och andra funktioner på ett effekti- vare sätt. Att verbalt minnas tjänster i till exempel ett telefonnät i är lättare än att minnas en speciell sifferkod. Vidare föreligger motstånd mot nyttjandet av dylika tjänster i exempelvis ett tele- fonnät om kodifieringen är besvärlig.
Vid dirigering i exempelvis ett telefonnät eller ett trafiksystem innebär en verbal ordergivning till mekaniska och elektroniska system en avsevärd lättnad för operatörerna. Operatörer utnyttjar i dag inskrivning av information via tangentbord eller dylikt. Vid dylik inmatning är tiden betydligt längre än om verbala order kan utnyttjas.
Att utnyttja det talade ordet för ordergivning till olika system är ett uttalat önskemål inom många områden utöver de som ovan relaterats.
Föreliggande uppfinning avser att lösa ovan relaterade problem.
LÖSNINGEN Föreliggande uppfinning avser metod och anordning för faststäl- lande av betoningar i en talad sekvens. Ur en i det talade talet igenkänd sekvens skapas en modell av talet. Genom att jämföra den talade sekvensen med det modellerade talet erhålls en skill- nad dem emellan. Skillnaden utnyttjas dels för att korrigera det modellerade talet, dels för att fastställa betoningar i den talade se- volvo' i 000000 00 O!!! v o 516 526 . _ kvensen. Efter att ha fastställf betoningarna i talet är det möjligt att bestämma enstaka ord och satsers betydelse på ett entydigt sätt.
Detta utnyttjas därefter i olika sammanhang exempelvis vid översättning av ett första språk till ett andra språk med bibehållen betydelse och intonation. Uppfinningen är vidare användbar vid verbal kommunikation människa till maskin. 00900 uiøbø av: tiil Uppfinningen avser således en metod att ur en talad sekvens fast- ställa betoningar i talet. En modell av den talade sekvensen bildas.
Modellen jämförs med den talade sekvensen varvid en differens dem emellan erhålls. Skillnaden påverkar modellen som härvid korrigeras att bättre överensstämma med den talade sekvensen.
Betoningar i talet blir härvid fastställbara.
I en utveckling av uppfinningen fastställs den talade sekvensens och det modellerade talets grundton och variation. Kvoten mel- lan respektive grundton och variation bildas. Kvoterna jämförs därefter med varandra. Den fastställda skillnaden mellan kvo- terna påverkar modellen som korrigeras att bättre överens- stämma med den talade sekvensen. Vidare kan satsaccentplace- ringarna härledas av skillnaden mellan kvoterna.
Relativa satsbetoningar fastställs genom klassning av kvoten mel- lan grundtonens variation och deklination varvid framhävda partier eller enstaka ord är fastställbara.
Vidare är talets tonhöjd bestämbar genom grundtonens deklina- tion.
Anordningen innefattar ett första organ som extraherar talets grundton. Vidare framställs ett artificiellt tal i ett andra organ.
Grundtonerna för den talade sekvensen och det artificiella talet fastställs och jämförs med varandra. Den fastställda skillnaden påverkar därefter det andra organet varvid det artificiella talet korrigeras. Vidare fastställs med ledning härav betoningar i den talade sekvensen.
Det första organet fastställer vidare en första kvot mellan den ta- lade sekvensens grundtons variation och deklination. Det andra organet framställer förutom det artificiella talet en andra kvot mellan det artificiella talets grundton och deklination. Det tredje 516 526 4 5 .
I I IIO UIQ CI I' organ jämför nämnda första och andra kvoter. En skillnad bildas varvid sataccentplaceringar är fastställbara.
Tredje organet klassar kvoten mellan grundtonens variation och deklination. Genom klassningen fastställer organet relativa sats- betoningar samt framhävda partier eller ord.
Genom tredje organets kontroll av grundtonens deklination fast- ställs talets tonhöjd.
Relationen mellan grundtonens variation och deklination utnytt- jas av tredje organet för fastställande av talets grundtonsdynamik.
FÖRDELAR Uppfinningen medger att det talade ordet kan utnyttjas på ett i dag utökat sätt. Det är således möjligt att beordra system att ändra funktioner med verbala order. I exempelvis dagens telefonistsys- tem ger det abonnenten möjlighet att dirigera tjänster av olika slag medels ordergivning med rösten.
I sammanhang där ett språk översätts till ett andra språk ger upp- finningen en ökad möjlighet att erhålla en korrekt översättning av ord. Exempelvis förekommer i vissa språk att likalydande ord med olika betoningar har vitt skilda betydelser. Möjlighet att sär- skilja dessa ord ges med uppfinningen genom att accentueringar kan fastställas. Vidare kan satsaccentbetoningar ändra en sats be- tydelse eller innebörd. Genom att uppfinningen kan fastställa dessa kan rätt betydelse vid en översättning till ett andra språk er- hållas. Vidare medges att satsaccenplaceringar eller betoningar på vissa ord i ett första språk ges motsvarande placering i ett andra språk vid översättningen.
I andra sammanhang där röstsvar erhålls från maskiner är det möjligt att erhålla ett naturtroget språk som ökar förståelsen ge- nom att betoningarna är naturliga. Detta medför att en kommu- nikation människa maskin är möjlig på ett naturligt sätt som ej upplevs konstlat av människan.
FIGURBESKRIVNING Fig 1 visar ett blockschema över uppfinningen.
II IQII 516é 526 - I . I I III Il! IC il Fig 2 visar ett diagram med inritad grundtonsdeklination och en grundton överlagrad grundtonsdeklinationen.
FÖREDRAGEN UrFömNGsFoRM I det följande beskrivs uppfinningside'n med hänvisning till fi- gurerna och beteckningarna däri.
En talad sekvens, tal i fig l, inmatas i systemet. Talet mottas i en taligenkänningsutrustning, 1, vari en textsträng igenkänns.
Taligenkänningen utnyttjar ett till taligenkänningsutrustningen anslutet lexikon. Taligenkänningsutrustníngen alstrar en text- sträng och en associerad allofonsträng med lexikala betoningar.
I satsanalysatorn, 2, analyseras textsträngens syntaktiska struktur.
Denna information samt textsträngen och allofonsträngen inma- tas i en modellerande enhet, 3. Ur den inmatade informationen modelleras grundtonen som F(t)=F(t)decl+F(t)var där F(t)decl är grundtonens deklination och F(t)var är grundtonens variation.
Detta innebär att den modellerade grundtonen utgörs av varia- tionen för grundtonen överlagrad på grundtonens deklination.
Av fig 2 framgår innebörden av denna konstruktion. Vidare ex- traheras grundtonen ur textsträngen i grundtonsextraktorn, 4.
Därefter detekteras grundtonens minpunkter, 5. Grundtonens minpunkter överensstämmer segmentmässigt med de mínvär- den som genereras av grundtonsmodellgeneratorn, 3. Ur grund- tonens minvärden bestäms grundtonens deklination för satsen, 6. Grundtonens deklination, bestämd i 6, jämförs därefter i 7 med den modellerade grundtonens deklination från 3. En differens bildas mellan grundtonens declination och den modellerade grundtonens deklination. Den genererade differensen återförs till modellgeneratorn, 3. I modellgeneratorn utnyttjas differensen för alstrande av korrektion av den modellerade signalen.
Grundtonsdeklinationen, som alstrats i 6, överförs till 8.
Grundtonen som utgörs av grundtonens declination adderad med grundtonens variation överförs från grundtonsextraktorn, 4, till 8. Grundtonens variation bestäms därefter genom att sub- trahera grundtonens deklination, vilken fastställts i 6, från grundtonen. Därefter bildas kvoten mellan grundtonens varia- tion och grundtonens deklination vilket värde pâförs 9. Detta ut- 516 526 ¿ v tryck är oberoende av talarens tonhöjdsläge. Vidare bildas en kvot mellan den modellerade grundtonens variation och dekli- nation. En differens bildas mellan nämnda kvoter. Differensen återkopplas till modellgeneratorn, 3. Varefter parametervärdena vid moduleringen påverkas och grundtonens deklination och variation i modellen korrigeras. Vidare erhålls vid optimering SA(satsaccent)-placeringar genom att SA tillåts genomlöpa sat- sens möjliga SA-placeringar. Genom klassning av kvoten mellan grundtonens variation och deklination, i de erhållna SA-place- ringarna, bestäms de relativa satsbetoningarna i satsen och de av talaren framhävda orden erhålls. Genom bestämning av grund- tonsdeklinationen är dessutom talarens tonhöjd klassningsbar.
Vidare anger svinget i grundtonsvariationen i relation till grund- tonsdeklinationen talarens grundtonsdynamik.
Uppfinningen är inte begränsad till den i ovan visade utförings- formen utan kan underkasta sig modifikationer inom ramen för efterföljande patentkrav och uppfinningstanke.
IQ n IOUOÜI

Claims (7)

516 526 s PATENTKRAV
1. Metod att ur hela eller delar (sekvenser) av ett reellt tal fastställa satsbetoningar, och att ett artificiellt tal, här kallat modell, bildas ur en i det reella talet igenkänd sekvens, kännetecknad därav att i modellen väljs parti eller partier för förväntade placeringar för nämnda satsbetoningar, att modellen jämförs med det reella talet, och en skillnad mellan modellens och det reella talets betoningsplaceringar och/eller karaktäristika fastställes och bringas påverka modellen, och att satsbetoningarna i det reella talet (sekvensen) fastställes med hjälp av nämnda skillnad, att en kvot mellan talets grundtons variation och deklination bildas och jämförs med en kvot, mellan modellens grundtons variation och deklination, varvid skillnaden mellan kvotema anger satsaccentplaceringama.
2. Metod enligt patentkrav 1, kännetecknad därav att relativa satsbetoningar i talet erhålls genom klassning av kvoten mellan grundtonens variation och deklination varvid framhävda partier eller enstaka ord fastställs.
3. Metod enligt patentkrav 1, kännetecknad därav att talets grundtonsdynamik ges av relationen mellan grundtonens variation och deklination.
4. Anordning att av hela eller delar (sekvenser) av ett reellt tal fastställa satsbetoningar, kännetecknad därav att ett första organ extraherar talets grundton, att ett andra organ framställer ett artificiellt tal och dess grundton, att andra organet fastställer förväntade placeringar för nämnda satsbetoningar, att det reella talet jämförs med det artificiella talet vawid det andra organet fastställer en skillnad mellan det artificiella talet och det reella talets betoningsplaceringar och/eller karakteristika och att satbetoningama i det reella talet (sekvensen) fastställs med hjälp av nämnda skillnad, att det första organet framställer en första kvot mellan den talade sekvensens grundtons variation och deklination, att det andra organet framställer en andra kvot mellan det artificiella talets grundton och deklination, och att ett tredje organ fastställer skillnaden mellan den första och andra kvoten varvid satsaccentbetoningama i talet fastställs.
5. Anordning enligt patentkrav 4, kännetecknad därav att det tredje organet klassar kvoten mellan grundtonens variation och deklination och fastställer framhävda partier i en sats eller enstaka ord.
6. Anordning enligt något av patentkraven 4-5, kännetecknad därav att det tredje organet genom bestämning av grundtonens deklination fastställer talets tonhöjd. 516 526 f?
7. Anordning enligt något av patentkraven 4-6, kännetecknad därav att det tredje organet fastställer relationen mellan grundtonens variation och deklination, varvid talets grundtonsdynamik fastställs.
SE9303623A 1993-11-03 1993-11-03 Metod och anordning vid automatisk extrahering av prosodisk information SE516526C2 (sv)

Priority Applications (5)

Application Number Priority Date Filing Date Title
SE9303623A SE516526C2 (sv) 1993-11-03 1993-11-03 Metod och anordning vid automatisk extrahering av prosodisk information
EP94850185A EP0664537B1 (en) 1993-11-03 1994-10-24 Method and arrangement in automatic extraction of prosodic information
DE69425874T DE69425874T2 (de) 1993-11-03 1994-10-24 Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
US08/329,865 US5677992A (en) 1993-11-03 1994-10-27 Method and arrangement in automatic extraction of prosodic information
JP6293858A JPH07181997A (ja) 1993-11-03 1994-11-01 韻律学的情報を自動的に抽出する方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9303623A SE516526C2 (sv) 1993-11-03 1993-11-03 Metod och anordning vid automatisk extrahering av prosodisk information

Publications (3)

Publication Number Publication Date
SE9303623D0 SE9303623D0 (sv) 1993-11-03
SE9303623L SE9303623L (sv) 1995-05-04
SE516526C2 true SE516526C2 (sv) 2002-01-22

Family

ID=20391624

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9303623A SE516526C2 (sv) 1993-11-03 1993-11-03 Metod och anordning vid automatisk extrahering av prosodisk information

Country Status (5)

Country Link
US (1) US5677992A (sv)
EP (1) EP0664537B1 (sv)
JP (1) JPH07181997A (sv)
DE (1) DE69425874T2 (sv)
SE (1) SE516526C2 (sv)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
US6109923A (en) 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
SE514684C2 (sv) * 1995-06-16 2001-04-02 Telia Ab Metod vid tal-till-textomvandling
SE9600959L (sv) * 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
SE520065C2 (sv) 1997-03-25 2003-05-20 Telia Ab Anordning och metod för prosodigenerering vid visuell talsyntes
SE519679C2 (sv) * 1997-03-25 2003-03-25 Telia Ab Metod vid talsyntes
DE19806927A1 (de) * 1998-02-19 1999-08-26 Abb Research Ltd Verfahren und Einrichtung zur Übertragung natürlicher Sprache
IL129399A (en) 1999-04-12 2005-03-20 Liberman Amir Apparatus and methods for detecting emotions in the human voice
CN1338834A (zh) * 2000-08-19 2002-03-06 华为技术有限公司 基于网络协议的低速语音编码方法
US6850882B1 (en) 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
WO2005057424A2 (en) * 2005-03-07 2005-06-23 Linguatec Sprachtechnologien Gmbh Methods and arrangements for enhancing machine processable text information
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3070698D1 (en) * 1979-05-28 1985-07-04 Univ Melbourne Speech processor
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk

Also Published As

Publication number Publication date
DE69425874D1 (de) 2000-10-19
SE9303623D0 (sv) 1993-11-03
EP0664537A2 (en) 1995-07-26
EP0664537A3 (en) 1997-05-28
US5677992A (en) 1997-10-14
EP0664537B1 (en) 2000-09-13
JPH07181997A (ja) 1995-07-21
SE9303623L (sv) 1995-05-04
DE69425874T2 (de) 2001-04-26

Similar Documents

Publication Publication Date Title
US5761640A (en) Name and address processor
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US7593842B2 (en) Device and method for translating language
EP0984428B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
SE516526C2 (sv) Metod och anordning vid automatisk extrahering av prosodisk information
CN106251859A (zh) 语音识别处理方法和装置
EP0749109A2 (en) Speech recognition for tonal languages
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
Gibbon et al. Spoken language system and corpus design
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
US7409340B2 (en) Method and device for determining prosodic markers by neural autoassociators
CN112634866B (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
EP0876660B1 (en) Method, device and system for generating segment durations in a text-to-speech system
EP0767950B1 (en) Method and device for adapting a speech recognition equipment for dialectal variations in a language
CN111193834A (zh) 基于用户声音特征分析的人机交互方法、装置和电子设备
CN112509550A (zh) 语音合成模型训练方法、语音合成方法、装置及电子设备
CN112216267A (zh) 一种韵律预测的方法、装置、设备及存储介质
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
CN112002302B (zh) 一种语音合成方法和装置
De Mori A descriptive technique for automatic speech recognition
CN116597809A (zh) 多音字消歧方法、装置、电子设备及可读存储介质
EP0919052B1 (en) A method and a system for speech-to-speech conversion
CN115762471A (zh) 一种语音合成方法、装置、设备及存储介质
SE519273C2 (sv) Förbättringar av , eller med avseende på, tal-till-tal- omvandling
CN1629933B (zh) 用于语音合成的设备、方法和转换器

Legal Events

Date Code Title Description
NUG Patent has lapsed