HU176776B - Method and apparatus for synthetizing speech - Google Patents

Method and apparatus for synthetizing speech Download PDF

Info

Publication number
HU176776B
HU176776B HU77EI760A HUEI000760A HU176776B HU 176776 B HU176776 B HU 176776B HU 77EI760 A HU77EI760 A HU 77EI760A HU EI000760 A HUEI000760 A HU EI000760A HU 176776 B HU176776 B HU 176776B
Authority
HU
Hungary
Prior art keywords
phonemes
computer
output
speech
frequency
Prior art date
Application number
HU77EI760A
Other languages
English (en)
Inventor
Ljubomir J Antonov
Original Assignee
Edinen Zentar Phys
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Edinen Zentar Phys filed Critical Edinen Zentar Phys
Publication of HU176776B publication Critical patent/HU176776B/hu

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Analogue/Digital Conversion (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

A találmány tárgya eljárás és berendezés beszéd szintetizálására, amely a számítógépes technika területén a számítógép és az ember között kapcsolatot teremtő egységként használható.
Ismertek már eljárások és berendezések beszéd szintetizálására, amelyek teljes szavak vagy szótagok reprodukcióján alapultak, és az ilyen berendezések nagy kapacitású mágneslemezes tárakat használtak. Az ilyen berendezések szókincse a tár kapacitására való tekintet nélkül mindenképpen korlátozott volt.
Ismertek ezenkívül olyan eljárások és berendezések is beszéd szintetizálására, ahol a különböző fonémákat megfelelő amplitúdójú és frekvenciájú szinuszos rezgések összekeveréséből állítják elő. Ezek a berendezések nagyon bonyolult felépítésűek és nehézkes behangolású analóg generátorok felhasználását igénylik.
A találmány célja ezért olyan eljárás és berendezés létrehozása beszéd szintetizálására, amely csak kis kapacitású tárat használ és nem igényel nagy bonyolultságú egységeket és nehézkes behangoiást.
A kitűzött célt a találmány szerinti eljárással összhangban úgy érjük el, hogy a beszéd szintetizálását olyan fonémákra alapítjuk, amelyeket digitális elektronikus áramkörök segítségével szintetizálunk és ezt követően digitál-analóg átalakítók segítségével analóg jellé alakítunk. Egy adott szöveg fonémáinak szintézisét annak alapján végezzük el, hogy a tárban rögzítjük a különböző formáns eloszlású fonémák hangperiódusait, zajfonéma elemeket, a hangsúlyozás helyére vonatkozó információt, melyek jellemzőek a vonatkozó fonémák amplitúdó sajátosságaira, az adott fonéma szintéziséhe szükséges hang és zaj elemek sorozatát, a fonémák kvázivéletlen változásának táblázatait, valamint a mondathangsúlyozás elemzéséből kapott adatokat, a szünetek időtartamát és a fonémák között a fő átmenetek megvalósításához tartozó hang elemek időtartamát. A szintetizálandó szöveg mondatait program szerint nyelvtanilag elemezzük, hogy a szóban forgó mondat alapvető jellemzőit megállapíthassuk. Ilyen jellemző például a hangmagasságának, mint frekvencia jellemzőnek a változási jellege, a hangerőnek, mint amplitúdó jellemzőnek a változása és a beszédszünetek hossza. A fonémák sorozatát olyan szempontból is elemezzük, hogy megvizsgáljuk a szomszédos fonémák kölcsönhatását és megállapítjuk a sorozaton belül a fonémák változásának módját és helyét. A mondat alapvető tulajdonságainak vizsgálata alapján minden fonéma esetében a fonémát kapcsolatba hozzuk hangrezgési periódusok egy meghatározott típusával és a periódusok számával, ahol a hangrezgéshez jellegzetes formáns eloszlás tartozik, és minden fonémát társítjuk ezenkívül megfelelő időtartamú és ehhez tartozó spektrális eloszlású zajfonéma elemek meghatározott típusával és számával. Egy adott nyelvre jellemző hivatkozott hangrezgési periódusokat és zajfonéma elemeket digitális alakban tárban tároljuk, mint a megfelelő rezgések amplitúdó értékeinek sorozatát. A fonémák megfelelő frekvencia jellemzőinek előállításához a rezgési amplitúdó kiolvasása a periódus befejeződése előtt megszakítható, vagy a periódus befejeződését követően nullértékekkel folytatható. A be széd természetességének elérése céljából a kiolvasás során a rezgési periódusok amplitúdóit és hosszát kvázivéletlen módon változtatjuk, és abból a célból, hogy zaj és vegyes fonémák szintetizálásakor egyenletes spektrális eloszlást kapjunk, a zaj elemek kiolvasási részeinek kvázivéletlen kezdeti elmeket adunk kvázivéletlen időtartammal és kvázivéletlen kiolvasási iránnyal. Abból acélból, hogy ugyanazon tárolt elemekből különböző fonémákat állítsunk elő, a tárban rögzített amplitúdó értékek kiolvasási frekvenciáját változtatjuk, és hogy ugyanazon tárolt elemekből különböző fonémákat kapjunk, változtatjuk a fonémák amplitúdó jellemzőit, továbbá vegyes fonémák előállításához hangperiódusok és zajrészek kombinációit használjuk. A fonéma átmenetek simaságának biztosítása céljából olyan periódusokat használunk, melyek formáns eloszlása a fonémák közötti átmenetnek felel meg, és a fonéma átmenetek simaságának elérése céljából ezenkívül a vonatkozó átmenet tartományában az amplitúdókat lecsökkentjük. Azokat a digitális adatokat, amelyeket az adott nyelv fonéma tartalma és alapvető jellemzői elemzése alapján kaptunk, felhasználjuk a tárban rögzített beszédelemek visszaadásának vezérlésére. A fonémák amplitúdó jellemzőit úgy alakítjuk ki, hogy a digitális értékekből átalakítással kapott szintetizált fonémák analóg jelének az erősítését olyan analóg jellel befolyásoljuk, amely a fonéma amplitúdó jellemzői digitális értékének felel meg.
A találmány szerinti eljárás foganatosítására alkalmas berendezés számítógépet tartalmaz, amelynek kimenete fixtár címregiszter számlálójához csatlakozik. A számítógép másik kimenete a számlálási irányt meghatározó regiszterhez csatlakozik, és ennek kimenete a címregiszter számlálóval van összekötve. A számítógép két másik kimenete a számlálási frekvenciát meghatározó regiszterhez és a kiolvasandó címek számát meghatározó regiszterhez csatlakozik és ezen regiszterek kimenete előírt számú és frekvenciájú impulzust keltő impulzusgenerátorral van összekötve. Az impulzusgenerátor kimenete a címregiszter számláló számlálási bemenetével van összekötve. A számítógép egy további kimenete digitál-analóg átalakítóhoz csatlakozik, amelynek kimenete erősítő-modulátor erősítést változtató bemenetéhez csatlakozik. A fixtár kimenete második digitál-analóg átalakítóhoz csatlakozik, és ennek kimenete az erősítő-modulátor bemenetével van összekötve. Az erősítő-modulátor kimenete hangszóróhoz és távközlő vonalhoz csatlakozik. A vezérlőegység kimenete a számítógép bemenetéhez, ennek egy másik kimenete pedig a vezérlőegység bemenetéhez csatlakozik.
A találmány szerinti eljárás egy foganatosítási módjánál a periódusok hosszának változtatását ± 40%-os határokon belül végezzük el, és a periódusok hosszának, valamint kiolvasás során a rezgési amplitúdóknak a kvázivéletlen változtatásait ±3%-os határokon belül tartjuk. A beszéd természetességének elérése céljából ezenkívül a hangrezgések periódushosszát és amplitúdóját kvázivéletlen módon változtatjuk, és vegyes fonémák létrehozása céljából kvázivéletlen módon változtatjuk a modulált amplitúdójú zajrezgések periódushosszát és az „R” fonéma létrehozása céljából az amplitúdómodulált hangrezgések periódushosszát.
A találmány szerinti megoldás előnye, hogy mechanikai mozgó elemeket nem tartalmazó viszonylag kis kapacitású tárat igényel, a szintézishez nincs szüksége bo nyolult hangolást igénylő analóg jelleggörbéjű generátorok alkalmazására, a mondat sajátos követelményeitől függő fonémák szintézisénél nagymértékű flexibilitást tesz lehetővé, a fonémák alakjának változtatását a tár tartalmának egyszerű megváltoztatásával lehetővé teszi, lehetőséget biztosít a hangrezgések és amplitúdójuk periodicitásának kvázivéletlen változásai utánzására, amely a beszéd hűségéhez nagymértékben hozzájárul, biztosítja a szöveg szükséges hangsúlyának és hanglejtésének elérését, nem igényli a számítógépben gyors hozzáférésű memória alkalmazását, elősegíti a gyártást, mert a behangolási műveletekre nincs szükség, ugyanakkor helyt ad nagymértékben integrált úi elektronikus elemek, például tárak, mikroszámítógépek alkalmazására, amelyek kis méretek, súly és alacsony ár mellett a berendezést megbízhatóvá teszik.
A találmányt a továbbiakban egy kiviteli példa kapcsán, a rajz alapján ismertetjük részletesebben.
A rajzon az 1. ábra a találmány szerinti berendezés tömbvázlata, a 2. ábra emberi hangon kiejtett ,,ΠΉΗΑ” szó felvett amplitúdó görbéje, a 3. ábra a találmány szerint szintetizált „RUHA” szó felvett amplitúdó görbéje, a 4. ábra emberi hangon kiejtett „MIMMI” szó felvett amplitúdó görbéje, az 5, ábra a találmány szerinti szintetizált „MIMMI” szó amplitúdó görbéje, a 6. ábra az emberi hangon kiejtett „MIMMI” szó szonogrammja, és a 7. ábra a találmány szerint szintetizált „MIMMI” szó szonogrammja.
Az 1. ábrán a találmány szerinti berendezés tömbvázlatát tüntettük fel, amelyen látható, hogy a berendezés 1 számítógépet tartalmaz, amelynek 2 kimenete 4 fixtár 3 címregiszter számlálójához csatlakozik. Az 1 számítógép 5 kimenete a számlálási irányt meghatározó 6 regiszterhez csatlakozik, amelynek kimenete a 3 címregiszter számlálóval van összekötve. Az 1 számítógép 7 és 8 kimenetei a számlálás frekvenciáját meghatározó 9 regiszterhez, illetve a kiolvasási címek számát tartalmazó 10 regiszterhez csatlakoznak. A 9 és 10 regiszterek kimenetei 11 impulzusgenerátorral vannak összekötve. All impulzusgenerátor kimenete a 3 címregiszter számláló számláló bemenetével is össze van kötve. Az 1 számítógép 12 kimenete amplitúdó szabályozó 13 regiszteren keresztül 14 digitál-analóg átalakítóhoz csatlakozik, amelynek kimenete 15 erősítő-modulátor erősítést változtató bemenetével van összekötve. A 4 fixtár kimenete olyan 16 digitál-analóg átalakítóhoz csatlakozik, amelynek kimenete a 15 erősítő-modulátor bemenetével van összekötve. A 15 erősítő-modulátor kimenete 17 hangszóróhoz és 18 távközlő vonalhoz csatlakozik. A 19 vezérlőegység kimenete az 1 számítógép 21 bemenetével, az 1 számítógép 20 kimenete pedig a 19 vezérlőegység bemenetével van összekötve.
A leírás egységes értelmezése céljából az alábbiakban néhány fontosabb kifejezés kiegészítő magyarázatát adjuk meg:
„beszédszintézis” — valamilyen berendezés által kiadott akusztikus kimeneti jel észlelését jelenti, amelyben valamilyen nyelvű, nem feltétlenül bulgár nyelvű emberi beszéd felismerhető;
„formáns eloszlás” — egy meghatározott beszédhanghoz (fonémához) tartozó frekvenciaeloszlás;
„beszédelemek” — a beszédet, mint akusztikus függvényt jellemző görbék részei;
„beszédet kísérő hangok” — egy kifejezés kezdetén vagy végén, vagy például írásjeleknél a be- vagy kilégzés által keltett hangok;
„hangperiódusok” — ezek képezik a beszédhangot (fonémát) alkotó periódusokat.
A továbbiakban a fonémák alábbi csoportjait vizsgáljuk meg, ahol a csoportosítás a szintézis módszerével is összefüggő néhány jellemző tulajdonságtól függ. Ilyen fonéma csoportok a hangfonémák, zajfonémák és vegyes fonémák. Mindezen csoportokban léteznek rövid és hosszú ideig tartó fonémák. A hangfonémákat úgy kapjuk meg, hogy egy memóriában tárolt hangperiódusok sorozatát szekvenciálisán reprodukáljuk. A hangperiódusokat egy adott formáns eloszlásra jellemző valós beszédről készült felvétel vagy szintézis segítségével előre beírjuk a memóriába. Az adott hangfonéma szintéziséhez tartozó periódusok számát és típusát a választott nyelv fonémájának a jellege, a szomszédos fonémák jellege és típusa, a hangsúly helye, a mondat hangsúlyozása stb. határozzák meg. Ilyen módon a nyelvtani fonéma egység a szintézis szempontjából különböző periódusú sorozatok sokaságának felel meg.
A konkrétan szükséges hangperiódus kombinációkat, ezek számát, időtartamát és amplitúdóját meghatározott algoritmus szerint valós idejű (reál time) program segítségével számítjuk ki, majd ezeket olyan lejátszó egységhez továbbítjuk, amely alkalmas ezek reprodukálására. A szintetizált beszéd természetes jellegét a különböző periódusok időtartamának és amplitúdójának a kvázi véletlen módosításával érjük el.
A zajfonémákat úgy szintetizáljuk, hogy egy megfelelő zajfonéma tárolt szektorának kiválasztott részeiből kvázivéletlen szekvenciális reprodukciót képezünk, vagy a tárból az erre vonatkozó fonémaszektorokat amplitúdó modulációval olvassuk ki, és az amplitúdó modulációt és az időtartamokat a szintézis algoritmusával összhangban határozzuk meg.
A vegyes fonémákat részben a hangfonémákhoz, részben pedig a zajfonémákhoz hasonlóan szintetizáljuk ahol a zajrészeken a hangrészek periódusával járulékos amplitúdó modulációt végzünk.
Példák:
A cirill „P” (azaz a latin „R”) fonéma esetében a szintetizált hangot a nyelv rezgésének frekvenciájával amplitúdó moduláljuk.
A bulgár nyelv esetét választva (cirill ábc mellett) az „A”, „E”, „H”, „O”, „B”, „Y”, „W”, „Π”, „M”, „H” és „P” fonémákat hangfonémaként lehet szintetizálni: a „Φ”, „C”, „m”, „X”, „II”, <r, „K”, „Π” és „T” fonémák szintetizálása zajfonémákból, és a „B”, „3”, „X”. „B”, „3”, „Γ”, „33” és „3X” fonémáké vegyes fonémaként oldható meg.
A fonémák közötti kapcsolatot úgy valósítjuk meg, hogy utólag meghatározott hangperiódusokat vezetünk be, amelyre a formáns eloszlás egyenletes átmeneteinek megvalósítása céljából van szükség.
A beszédszintézishez alkalmazható berendezés alapegységét képezi a 4 fixtár, mert a beszédszintézis vázolt módszerével összhangban a szükséges információk ebben vannak rögzítve. Ezek az információk a hang- és zaj fonémák, és a beszédet kísérő hangok részei amplitúdóira vonatkozó digitális értékeket jelölnek. A 4 fixtárban rögzített különböző beszédelemek amplitúdóinak értékeit képező sorozatok hossza és kezdeti címe képezi a tárból való kiolvasást vezérlő információt, amelyet az 1 számítógép memóriája tárol. Egy adott nyelven a szintézis megvalósításához a 4 fixtárban rögzítendő beszédelemek választékát a szóban forgó nyelv fonetikai sajátosságaival összhangban úgy kell kialakítani, hogy a választott elemek a nyelv fonetikája tekintetében teljes rendszert alkossanak. Az 1 számítógép memóriájában az ismertetett eljárást megvalósító program van rögzítve, amely összhangban van a választott nyelv hangsúlyozásával és hanglejtésével.
A program bemeneti információját olyan állandó szöveg képezi, amely szükség esetén fonetikai jeleket is tartalmaz, és ez a szöveg a választott nyelven egy rögzített mondatot képvisel. Az 1 számítógép a mondatot nyelvtani és fonetikai elemzésnek veti alá az adott nyelv szabályaival összhangban, hogy feltárja ennek frekvencia és amplitúdó jellemzőit, valamint a szünetek helyét és időtartamát, és a beszédet kísérő hangokat. Ezt követően ezen tulajdonságoktól és a mondatban levő szomszédos fonémák kölcsönhatásától függően meghatározzuk minden fonéma összetételét (az öt alkotó periódusok típusát), amplitúdó jellemzőit és időtartamát. A szintetizált mondat minden beszédeleme esetében ezenkívül meghatározzuk a beszédelem amplitúdóját, időtartamát, a 4 fixtárban elfoglalt kezdeti címét és a kiolvasás irányát. A mondat ilyen módon a felsorolt értékekkel jellemzett beszédelemek és szünetek sorozatára van felosztva. A beszédelemek sorozatára jellemző minden ilyen értéket az 1 számítógép valós idejű program alapján vesz és ezeket felkérésre egymás után a beszédszintézist vezérlő berendezés megfelelő egységeihez továbbítja. Ezen adatok segítségével a 4 fixtárból a 3 címregiszter számláló által jelzett kezdeti címen a számlálási irányt meghatározó 6 regiszter által kijelölt kiolvasási irányban egy beszédelemet hozunk ki. A 4 fixtárból való kiolvasás sebességét a kiolvasási frekvencia 9 regiszter értéke határozza meg, és a kiolvasási adatok számát a kiolvasási címek számához tartozó 10 regiszter értéke jelöli ki. A 9 és 10 regiszterek információja vezérli a 11 impulzusgenerátor működését, amely időben változtatja a 3 címregiszter számláló tartalmát.
Az így meghatározott beszédelem amplitúdója értékét szekvenciálisán a 16 digitál-analóg átalakítóhoz vezetjük, a 9 regiszterben tárolt előre meghatározott kiolvasási sebességgel. A 16 digitál-analóg átalakító kimenete a 15 erősítő-modulátor bemenetéhez csatlakozik, amelynek erősítését az a 14 digitál-analóg átalakító kimenete vezérli, amelyet a szintetizált beszéd ezen időpontra vonatkozó amplitúdója reprodukálásához szükséges digitális adatok átalakításához használunk. Ezeket a digitális adatokat az 1 számítógép határozza meg és az amplitúdó vezérlő 13 regiszteren keresztül adja ki. A 15 erősítő-modulátor által felerősített jelet hanggá való átalakítás céljából a 17 hangszóróhoz és a 18 távközlő vonalhoz vezetjük. A beszédelem reprodukciójának befejező dése után a 19 vezérlőegység a szintézis folytatásához szükséges újabb adatok előállítására vonatkozó utasítást küld az 1 számítógép részére. A 4 fixtárból való kiolvasás és az ezt követő beszedetem reprodukció ideje alatt az 1 számítógép szabaddá válik, és eközben a szintézis vezérléséhez szükséges új adatok előkészítéséhez tartozó elemzéseket végez.
Ha az 1 számítógépet megfelelően gyors működésű számítógép képezi, akkor egyetlen számítógép több szintetizáló berendezés vezérlését is elláthatja. Az 1 számítógép általános rendeltetésű számítógéppel, kis számítógéppel vagy mikroprocesszorral egyaránt megvalósítható.
A 2. ábrán „Π” fonéma kiejtéséhez tartozó rövid beütést, az ezt követő „H” fonémák több periódusát, és az „A” fonémák hosszabb sorozatát tüntettük fel. Ezt követi két olyan hangperiódus csoport, amelyek a „H”és „A” fonémáknak felelnek meg. Ez a rögzített amplitúdó karakterisztika természetes módon kiejtett szóra vonatkozik, melynek simasága és formáns átmenetei természetesen hangzanak.
A 3. ábrán vázolt szintetizált szóban egymást követően az alábbi hangperiódusok követik egymást: „Π”, két periódus „W”, olyan „E” periódusok, melyek az „M” és az ezt követő „A” között a formáns átmenet simaságát biztosítják, majd „A”, „H” és „A” fonémák periódusai, melyek hosszát úgy választottuk meg, hogy az alaptónus sima változását eredményezzék.
A 4. és 5. ábrák közötti kapcsolat ezzel analóg, amikor is az első „M” és az első „I” fonémák közé az alap formáns átmenet kisimítása céljából „Ü” fonémát iktattunk közbe.
A 4. és az 5. ábrákon vázolt szavak szonogram megfelelőit a 6. és 7.ábrákon tüntettük fel. A 6. ábrán vázolt természetes beszéd egy szavának szonogramja formánsokban sokkal gazdagabb, de erre való tekintet nélkül a fül a szintetizált szót helyesen érzékeli.

Claims (7)

1. Eljárás beszéd szintetizálására, azzal jellemezve, hogy minden fonémát memóriában tárolt fonéma elemekből hozunk létre, ezeket egymás után a memóriából kiolvassuk, ahol a kiolvasási sebességet, irányt és az elemek számát az egyes fonémák típusával és hosszával, valamint a mondat jellegzetességeivel és a szomszédos fonémák típusával összhangban választjuk meg, a szintetizálandó szöveget a nyelv szabályai szerint mondatról mondatra nyelvtanilag és fonetikailag elemezzük, és ezzel sorjában meghatározzuk a mondat alapvető jellemzőit, és ezen értékeket állandó szövegként rögzítjük, melyek szükség esetén fonetikai jeleket, mint például a hangmagasság változásait frekvencia jellemzőként, a hangerő változásait amplitúdó jellemzőként és a szünetek időtartamát tartalmazzák, majd a fonémákból alkotott sorozatot elemezzük és figyelembe vesszük a szomszédos fonémák között fennálló kölcsönhatást, meghatározzuk a sorozaton belül a fonémák változásának helyeit és módját, ezt követően minden fonéma tekintetében a mondat alapvető tulajdonságainak figyelembevételével hangrezgések adott számú periódusát és típusát valóságos beszédből és/vagy mesterségesen előállított beszédből létrehozott jellegzetes formáns eloszlással hasonlítjuk össze, és az összehasonlítást meghatározott időtartamú, amplitúdójú és spektrális eloszlású zajfonémák meghatározott típusaira és adott számú idöszektorára elvégezzük, és a nyelvre előre kijelölt hivatkozott hangrezgési periódusokat és zajfonéma elemeket digitális alakban memóriában olyan módon tároljuk, hogy ezek a megfelelő rezgés amplitúdó értékeinek sorozatát képezik, és a fonémák megfelelő frekvencia tulajdonsága eléréséhez a rezgési amplitúdók értékeinek a sorozatát a frekvencia növekedési periódus befejeződése előtt megszakítjuk, és a periódusok befejezését követően nullértékekkel folytatjuk, és a frekvencia csökkentése és a beszéd természetességének biztosítása miatt kiolvasáskor a rezgési amplitúdók periódusainak hosszát kvázivéletlen módon változtatjuk, és zaj és vegyes fonémák szintetizálásakor egységes spektrális eloszlás biztosítására a zajelemek kiolvasási részeit kvázivéletlen kezdeti címekkel indítjuk, a kiolvasást kvázivéletlen időtartamra és irányra végezzük el, és ugyanazon tárolt zajelemekből különböző fonémák létrehozására az elemek tárolt értékeinek a kiolvasási frekvenciáját változtatjuk, vagy ugyanezért a fonémák amplitúdó jellemzőit változtatjuk, és a vegyes fonémákat úgy hozzuk létre, hogy hangperiódusokat és zajrészeket egymással összekapcsolunk, és a fonéma átmenetek simaságának biztosítására a fonémák közötti átmenet jellegének megfelelő formáns eloszlású periódusokat alkalmazunk, és a rezgési amplitúdókat a megfelelő átmeneti tartományban lecsökkentjük, továbbá a memóriában rögzített beszédelemek reprodukcióját a mondat fonéma összetételének és alapjellemzőinek elemzésekor előkészített digitális adatok alapján vezéreljük, és a fonémák amplitúdó jellemzőit a digitális értékek átalakításával kapott szintetizált fonémák analóg jelének az erősítésével vezéreljük, és a vezérlést a fonémák amplitúdó jellemzői digitális értékeinek megfelelő analóg jel segítségével végezzük el.
2. Az 1. igénypont szerinti eljárás foganatosításának módja, azzal jellemezve, hogy a periódusok hosszát ± 40%-os határokon belül változtatjuk.
3. Az 1. igénypont szerinti eljárás foganatosításának módja, azzal jellemezve, hogy a rezgési amplitúdók periódushosszának a kvázivéletlen változtatásait a kiolvasáskor ± 3%-os határokon belül tartjuk.
4. Az 1. igénypont szerinti eljárás foganatosításának módja, azzal jellemezve, hogy a beszéd természetességének biztosításához a hangrezgési periódusokat és ezek amplitúdóit kvázivéletlen módon változtatjuk, vegyes fonémák előállításához a modulált amplitúdó-zaj rezgések periódusát, végül az „R” fonéma előállításához a modulált hangrezgések periódusát kvázivéletlen módon változtatjuk.
5. Berendezés beszéd szintetizálására, amely számítógépet tartalmaz, azzal jellemezve, hogy a számítógép (1) kimenete címregiszter számlálón (3) keresztül fixtárhoz (4) csatlakozik, a számítógép (1) második kimenete számlálási irányt meghatározó regiszterrel (
6) van összekötve, amelynek kimenete a címregiszter számlálóval (3) van összekötve, a számítógép (1) harmadik és negyedik kimenete (7, 8) a számlálási frekvenciát meghatározó regiszterhez (9) illetve a kiolvasási címek számát meghatározó regiszterhez (10) csatlakozik, és ezen regiszterek (9, 10) előírt számú és frekvenciájú impulzust előállító impulzusgenerátorral (11) vannak összekötve, az impulzusgenerátor (11) kimenete a címregiszter számláló (3) számláló bemenetéhez csatlakozik, a számítógép (1) ötödik kimenete (12) amplitúdó szabályozó regiszteren (13) keresztül digitál-analóg átalakítóval (14) van összekötve, kimenete pedig erősítő-modulátor (15) erősítést változtató bemenetével van összekötve, a fixtár (4) kimenete második digitál-analóg átalakítóhoz (16) csatlakozik, és ennek kimenete az erősítő-modulátor (15) bemenetével van összekötve, az erősítő-modulátor (15) kimenete hangszóróhoz (17) és távközlő vonalhoz (18) csatlakozik; a vezérlőegység (19) a számítógép bemenetével (21) van összekötve, és a számítógép (1) hatodik kimenete (20) a vezérlőegység (19) bemenetéhez csatlako5 zik.
7 rajz, 7 ábra
A kiadásért felel: a Közgazdasági és Jogi Könyvkiadd igazgatója
81.1423.66-42 Alföldi Nyomda, Debrecen — Felelős vezető: Benkő Irtván igazgató
Nemzetközi osztályozás:
G 10 L 1 00
176776 Nemzetközi osztályozás:
Nemzetközi osztályozás: G 10 L 1/00 t
G ÍO L 1/00
Nemzetközi osztályozás:
G 10 L 1/00
HU77EI760A 1976-09-08 1977-09-05 Method and apparatus for synthetizing speech HU176776B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BG7600034160A BG24190A1 (en) 1976-09-08 1976-09-08 Method of synthesis of speech and device for effecting same

Publications (1)

Publication Number Publication Date
HU176776B true HU176776B (en) 1981-05-28

Family

ID=3902565

Family Applications (1)

Application Number Title Priority Date Filing Date
HU77EI760A HU176776B (en) 1976-09-08 1977-09-05 Method and apparatus for synthetizing speech

Country Status (10)

Country Link
US (1) US4278838A (hu)
JP (1) JPS5953560B2 (hu)
BG (1) BG24190A1 (hu)
DD (1) DD143970A1 (hu)
DE (1) DE2740520A1 (hu)
FR (1) FR2364522A1 (hu)
GB (1) GB1592473A (hu)
HU (1) HU176776B (hu)
SE (1) SE7709773L (hu)
SU (1) SU691918A1 (hu)

Families Citing this family (197)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2020077B (en) * 1978-04-28 1983-01-12 Texas Instruments Inc Learning aid or game having miniature electronic speech synthesizer chip
JPS56161600A (en) * 1980-05-16 1981-12-11 Matsushita Electric Ind Co Ltd Voice synthesizer
DE3104551C2 (de) * 1981-02-10 1982-10-21 Neumann Elektronik GmbH, 4330 Mülheim Elektronischer Textgeber zur Abgabe von Kurztexten
US4398059A (en) * 1981-03-05 1983-08-09 Texas Instruments Incorporated Speech producing system
US4685135A (en) * 1981-03-05 1987-08-04 Texas Instruments Incorporated Text-to-speech synthesis system
US4470150A (en) * 1982-03-18 1984-09-04 Federal Screw Works Voice synthesizer with automatic pitch and speech rate modulation
JPS58168096A (ja) * 1982-03-29 1983-10-04 日本電気株式会社 複数言語音声合成装置
JPS58175074A (ja) * 1982-04-07 1983-10-14 Toshiba Corp 構文分析方式
US4579533A (en) * 1982-04-26 1986-04-01 Anderson Weston A Method of teaching a subject including use of a dictionary and translator
WO1983003914A1 (en) * 1982-04-26 1983-11-10 Gerald Myer Fisher Electronic dictionary with speech synthesis
US4731847A (en) * 1982-04-26 1988-03-15 Texas Instruments Incorporated Electronic apparatus for simulating singing of song
JPS6050600A (ja) * 1983-08-31 1985-03-20 株式会社東芝 規則合成方式
US4527274A (en) * 1983-09-26 1985-07-02 Gaynor Ronald E Voice synthesizer
JPS6145747U (ja) * 1984-08-30 1986-03-26 パイオニア株式会社 カセツト型テ−プレコ−ダ
US4695975A (en) * 1984-10-23 1987-09-22 Profit Technology, Inc. Multi-image communications system
US4788649A (en) * 1985-01-22 1988-11-29 Shea Products, Inc. Portable vocalizing device
JPS61145356U (hu) * 1985-02-27 1986-09-08
US4589138A (en) * 1985-04-22 1986-05-13 Axlon, Incorporated Method and apparatus for voice emulation
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
JP2595235B2 (ja) * 1987-03-18 1997-04-02 富士通株式会社 音声合成装置
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
DE68913669T2 (de) * 1988-11-23 1994-07-21 Digital Equipment Corp Namenaussprache durch einen Synthetisator.
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
US5091931A (en) * 1989-10-27 1992-02-25 At&T Bell Laboratories Facsimile-to-speech system
AU632867B2 (en) * 1989-11-20 1993-01-14 Digital Equipment Corporation Text-to-speech system having a lexicon residing on the host processor
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US6150011A (en) * 1994-12-16 2000-11-21 Cryovac, Inc. Multi-layer heat-shrinkage film with reduced shrink force, process for the manufacture thereof and packages comprising it
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US5832434A (en) * 1995-05-26 1998-11-03 Apple Computer, Inc. Method and apparatus for automatic assignment of duration values for synthetic speech
US5751907A (en) * 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
DE19610019C2 (de) 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6230135B1 (en) 1999-02-02 2001-05-08 Shannon A. Ramsay Tactile communication apparatus and method
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR20020067921A (ko) * 2000-10-23 2002-08-24 소니 가부시끼 가이샤 각식 로봇 및 각식 로봇의 행동 제어 방법, 및 기억 매체
US7280969B2 (en) * 2000-12-07 2007-10-09 International Business Machines Corporation Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US6988068B2 (en) * 2003-03-25 2006-01-17 International Business Machines Corporation Compensating for ambient noise levels in text-to-speech applications
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
CN1831896A (zh) * 2005-12-08 2006-09-13 曲平 一种语音发声装置
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
KR100699050B1 (ko) 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
RU2591640C1 (ru) * 2015-05-27 2016-07-20 Александр Юрьевич Бредихин Способ модификации голоса и устройство для его осуществления (варианты)
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN113593521B (zh) * 2021-07-29 2022-09-20 北京三快在线科技有限公司 语音合成方法、装置、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4130730A (en) * 1977-09-26 1978-12-19 Federal Screw Works Voice synthesizer

Also Published As

Publication number Publication date
FR2364522B3 (hu) 1980-07-04
BG24190A1 (en) 1978-01-10
JPS5953560B2 (ja) 1984-12-25
SU691918A1 (ru) 1979-10-15
US4278838A (en) 1981-07-14
DE2740520A1 (de) 1978-04-20
FR2364522A1 (fr) 1978-04-07
GB1592473A (en) 1981-07-08
DD143970A1 (de) 1980-09-17
SE7709773L (sv) 1978-03-09
JPS5367301A (en) 1978-06-15

Similar Documents

Publication Publication Date Title
HU176776B (en) Method and apparatus for synthetizing speech
US5704007A (en) Utilization of multiple voice sources in a speech synthesizer
US5930755A (en) Utilization of a recorded sound sample as a voice source in a speech synthesizer
EP0140777B1 (en) Process for encoding speech and an apparatus for carrying out the process
EP1643486B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US20040073428A1 (en) Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
US7047194B1 (en) Method and device for co-articulated concatenation of audio segments
US5321794A (en) Voice synthesizing apparatus and method and apparatus and method used as part of a voice synthesizing apparatus and method
US7558727B2 (en) Method of synthesis for a steady sound signal
JP4510631B2 (ja) 音声波形の連結を用いる音声合成
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JPH08248993A (ja) 音韻時間長制御方法
JP3081300B2 (ja) 残差駆動型音声合成装置
JPS5880699A (ja) 音声合成方式
JPH02153397A (ja) 音声収録装置
JPH113096A (ja) 音声合成方法及び音声合成システム
JP6159436B2 (ja) 読み記号列編集装置および読み記号列編集方法
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JP4305022B2 (ja) データ作成装置、プログラム及び楽音合成装置
JPH04125699A (ja) 残差駆動型音声合成装置
Butler et al. Articulatory constraints on vocal tract area functions and their acoustic implications
May et al. Speech synthesis using allophones
Sorace The dialogue terminal
Goudie et al. Implementation of a prosody scheme in a constructive synthesis environment
Yea et al. Formant synthesis: Technique to account for source/tract interaction