FI96247B - Menetelmä puheen muuntamiseksi - Google Patents

Menetelmä puheen muuntamiseksi Download PDF

Info

Publication number
FI96247B
FI96247B FI930629A FI930629A FI96247B FI 96247 B FI96247 B FI 96247B FI 930629 A FI930629 A FI 930629A FI 930629 A FI930629 A FI 930629A FI 96247 B FI96247 B FI 96247B
Authority
FI
Finland
Prior art keywords
speaker
sound
speech
cross
calculated
Prior art date
Application number
FI930629A
Other languages
English (en)
Swedish (sv)
Other versions
FI930629A (fi
FI930629A0 (fi
FI96247C (fi
Inventor
Marko Vaenskae
Original Assignee
Nokia Telecommunications Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Telecommunications Oy filed Critical Nokia Telecommunications Oy
Publication of FI930629A0 publication Critical patent/FI930629A0/fi
Priority to FI930629A priority Critical patent/FI96247C/fi
Priority to US08/313,195 priority patent/US5659658A/en
Priority to JP6517698A priority patent/JPH07509077A/ja
Priority to AT94905743T priority patent/ATE172317T1/de
Priority to PCT/FI1994/000054 priority patent/WO1994018669A1/en
Priority to EP94905743A priority patent/EP0640237B1/en
Priority to CN94190055A priority patent/CN1049062C/zh
Priority to DE69413912T priority patent/DE69413912T2/de
Priority to AU59730/94A priority patent/AU668022B2/en
Publication of FI930629A publication Critical patent/FI930629A/fi
Publication of FI96247B publication Critical patent/FI96247B/fi
Application granted granted Critical
Publication of FI96247C publication Critical patent/FI96247C/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Description

96247
Menetelmä puheen muuntamiseksi
Keksintö koskee menetelmää puheen muuntamiseksi, jossa menetelmässä ensimmäisen puhujan tuottamasta puhe-5 signaalista otetaan näytteitä heijastuskertoimien laskemiseksi .
Puherajoitteisten henkilöiden puhe on usein epäselvää ja siinä esiintyviä äänteitä on vaikea tunnistaa. Puherajoitteisten henkilöiden puheen laatu aiheuttaa on-10 gelmia erityisesti silloin, kun käytetään jotain tietoliikennelaitetta tai -verkkoa välittämään ja siirtämään pu-herajoitteisen henkilön tuottama puhesignaali vastaanottajalle. Tällöin tietoliikenneverkon rajoitetusta siirtokapasiteetista ja akustisista ominaisuuksista johtuen puhe-15 rajoitteisen henkilön tuottama puhe on vastaanottajan entistä vaikeammin tunnistettavissa ja ymmärrettävissä. Toisaalta, riippumatta siitä käytetäänkö jotain puhesignaaleja siirtävää tietoliikennelaitetta- tai verkkoa on kuulijan aina vaivalloista tunnistaa ja ymmärtää puherajoit-20 teisen henkilön puhe.
Lisäksi toisinaan on olemassa tarve pyrkiä muuttamaan puhujan tuottama puhe siten, että puheen äänteet saataisiin korjattua parempaan äänneasuun tai että tuon puhujan tuottaman puheen äänteet muunnettaisiin toisen puhujan 25 samoiksi äänteiksi, jolloin itseasiassa puhujan puhe kuulostaisi toisen puhujan puheelta.
Tämän keksinnön tarkoituksena on tuottaa menetelmä, jolla puhujan puhetta voidaan muuttaa tai korjata siten, että kuulijan kuulema puhe tai vastaanottajan saama kor-30 jattu tai muutettu puhesignaali vastaa joko jonkin toisen puhujan tuottamaa puhetta tai siten että se vastaa saman puhujan jollakin halutulla tavalla korjattua puhetta.
Tämä uudentyyppinen menetelmä puheen muuntamiseksi saavutetaan keksinnönmukaisella menetelmällä, jolle on 35 tunnusomaista seuraavat menetelmävaiheet: heijastuskertoi- 2 96247 mistä lasketaan ensimmäisen puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen tunnusluvut, mainittuja ensimmäisen puhujan häviöttömän putken sylinteriosien poikkipinta-alojen tunnuslukuja verra-5 taan ainakin yhden aikaisemman puhujan tallennettuihin vastaaviin äännekohtaisiin puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen tunnuslukuihin äänteiden tunnistamiseksi, ja tunnistettuja äänteitä vastaavien tunnuksien antamiseksi, lasketaan 10 muistiin tallennettujen, mainittua äännettä edustavien puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen tunnuslukujen ja seuraavien samaa äännettä edustavien vastaavien tunnuslukujen erotukset, haetaan tunnistetun äänteen tunnuksen perusteella 15 muistista jonkin toisen puhujan samaa äännettä vastaavat puhujakohtaiset tuon puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen tunnusluvut, muodostetaan summa summaamalla mainitut erotukset ja mainitut toisen puhujan puhujakohtainen samaa äännettä 20 vastaava tuon toisen puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen tunnusluvut, lasketaan mainitusta summasta uudet heijastusker-toimet, ja mainituista uusista heijastuskertoimista muodostetaan uusi puhesignaali.
25 Keksintö perustuu siihen ajatukseen, että puhesig naalia analysoidaan LPC (Linear prediction codig) -menetelmän avulla ja puhesignaalille muodostetaan puhujan ääniväylää mallintava parametristö, tyypillisesti heijastus-kertoimien tunnusluvut. Sitten keksinnön mukaisesti muun-30 nettavasta äänestä tunnistetaan äänteet vertaamalla muunnettavan äänteen heijastuskertoimista laskettuja häviöttömän putken sylinteripoikkipinta-aloja aikaisemmin saatuihin useiden puhujien vastaaviin samalle äänteelle laskettuihin sylinteripoikkipinta-aloihin. Tämän jälkeen las-35 ketään kulloisenkin puhujan kunkin äänteen poikkipinta- ti 3 96247 aloille jokin tunnusluku, tyypillisesti keskiarvo. Seu-raavaksi vähennetään tästä tunnusluvusta kulloistakin äännettä vastaavat äänneparametrit, eli puhujan häviöttömän ääniväylän sylinteripoikkipinta-alat, jolloin saadaan ero-5 tus, joka siirretään seuraavaan muunnosvaiheeseen yhdessä äänteen tunnuksen kanssa. Sitä ennen on sovittu imitoitavan puhujan, eli kohdehenkilön kutakin äänteen tunnusta vastaavan äänneparametrien tunnusluvuista, joten summaa-malla mainittu erotus ja muistista haettu kohdehenkilön 10 saman äänteen äänneparametrien tunnusluku voidaan muodostaa alkuperäinen äänne uudelleen, mutta sellaisena kuin kohdehenkilö olisi sen lausunut. Tällöin tuon erotuksen lisääminen tuo mukaan puheessa olevien äänteiden välisen informaation, eli äänet, jotka eivät ole mukana niissä 15 äänteissä, joiden tunnuksien perusteella on haettu noita äänteitä vastaavat tunnusluvut, tyypillisesti puhujan ää-niväylän häviöttömän putken sylinteripoikkipinta-alojen keskiarvot, muistista.
Tällaisen menetelmän puheen muuntamiseksi etuna on 20 se, että menetelmä mahdollistaa puhujan fyysistä ominaisuuksista johtuvien puheen äänteissä esiintyvien virheiden ja epätarkkuuksien korjaamisen siten, että puhe on kuulijan helpommin ymmärrettävissä.
Keksinnön mukainen menetelmä mahdollistaa edelleen 25 puhujan puheen muuntamisen sellaiseksi, että puhe kuulostaa toisen puhujan puheelta.
Keksinnössä käytettävän häviöttömän putken mallin sylinteriosien poikkipinta-alat voidaan helposti laskea tavanomaisissa puheenkoodausalgoritmeissa muodostetuista 30 ns. heijastuskertoimista. Luonnollisesti pinta-alasta voidaan määrittää vertailuparametriksi muukin poikkimitta, kuten säde tai halkaisija. Toisaalta putken poikkileikkauksella voi olla ympyrämuodon sijasta jokin muukin muoto.
4 96247
Keksintöä selitetään lähemmin seuraavassa viitaten oheisiin piirustuksiin, joissa kuviot 1 ja 2 havainnollistavat puhujan ääniväylän mallintamista häviöttömän putken avulla, joka muodostuu 5 peräkkäisistä puhujan ääniväylää mallintavan häviöttömän putken sylinteriosista, kuvio 3 esittää havainnollistaa häviöttömän putken mallien muuttumista puheen aikana, ja kuvio 4 esittää vuokaavion, joka havainnollistaa 10 äänteiden tunnistamista ja niiden muuntamista haluttujen parametrien mukaisiksi, kuvio 5a esittää lohkokaavion, joka havainnollistaa keksinnön mukaista puheenmuuntimessa tapahtuvaa puheenkoodausta äännetasolla, 15 kuvio 5b esittää tapahtumakaavion, joka havainnol listaa keksinnön mukaista puhesignaalin muunnoksen puhe-signaalin uudelleen muodostusvaihetta äännetasolla, kuvio 6 esittää toiminnallisen ja yksinkertaistetun lohkokaavion keksinnön mukaisen menetelmän erään suoritus-20 muodon toteuttavasta puheenmuuntimesta.
Nyt viitataan kuvioon 1, jossa on esitetty perspektiivikuvana peräkkäisistä sylinteriosuuksista C1-C8 muodostuva häviöttömän putken malli, joka muodostaa karkean mallin ihmisen ääniväylälle. Kuvion 1 häviöttömän putken 25 malli on nähtävissä sivukuvana kuviossa 2. Ihmisen ääni-väylällä tarkoitetaan yleensä ihmisen äänijänteiden, kurkun, nielunsuun ja huulten muodostamaa äänikäytävää, jolla ihminen muodostaa puheäänet. Kuvioissa 1 ja 2 sylinteriosa Cl kuvaa välittömästi äänijänteiden välisen ääniraon 30 (glottis) jälkeen olevan ääniväylän osuuden muotoa, sylin-teriosuus C8 kuvaa ääniväylän muotoa huulien kohdalla ja välissä olevat sylinteriosuudet C2-C7 kuvaavat ääniraon ja huulten välissä olevien diskreettien ääniväyläosuuksien muotoa. Ääniväylän muodolle on ominaista, että se vaihte-35 lee jatkuvasti puhumisen aikana, kun muodostetaan erilai- 11 96247 5 siä äänteitä. Samalla tavoin myös ääniväylän eri osia kuvaavien diskreettien sylintereiden C1-C8 halkaisijat ja pinta-alat vaihtelevat puhumisen aikana. Tämän saman keksijän aikaisemmassa patenttihakemuksessa FI-912088 on kui-5 tenkin esitetty, että suurehkosta määrästä hetkellisiä ääniväylän muotoja laskettu keskimääräinen ääniväylän muoto on kullekin puhujalle ominainen vakio, jota voidaan käyttää äänteiden kompaktimpaan siirtoon tietoliikennejärjestelmässä, puhujan tunnistamiseen tai jopa puhujan äänen 10 muuntamiseen. Samalla tavoin myös ääniväylää mallintavan häviöttömän putken mallin sylintereiden C1-C8 poikkipinta-alojen hetkellisistä arvoista pitkällä aikavälillä lasketut sylinteriosuuksien C1-C8 poikkipinta-alojen keskiarvot ovat suhteellisen tarkkaan vakioita. Edelleen myös sylin-15 tereiden poikkimittojen ääriarvot määräytyvät todellisen ääniväylän äärimitoista ja ovat siten puhujalle ominaisia suhteellisen tarkkoja vakioita.
Keksinnön mukaisessa menetelmässä käytetään hyväksi alalla hyvin tunnetussa lineaarisessa ennustavassa koo-20 dauksessa (LPC=Linear Predictive Coding) välituloksena muodostettavia ns. heijastuskertoimia eli ns. PARCOR-ker-toimia rk, joilla on tietty yhteys ääniväylän muotoon ja rakenteeseen. Heijastuskertoimien rk ja ääniväylää kuvaavan häviöttömän putken mallin sylinteriosuuksien Ck pin-25 ta-alojen Ak välinen yhteys on yhtälön (1) mukainen A(k+1) - A(k) - r (k) = - (1) A(k+1) + A(k) 30 missä k * 1,2,3,....
Keksinnössä käytettävät heijastuskertoimet tuottavaa LPC-analyysiä käytetään hyväksi monissa tunnetuissa 35 puheenkoodausmenetelmissä.
Seuraavassa näitä menetelmävaiheita kuvataan vain yleisesti keksinnön ymmärtämisen kannalta oleellisilta 6 96247 osin viitaten kuvion 4 vuokaavioon. Kuviossa 4 lohkossa 10 otetaan näytteitä sisääntulosignaalista IN näytteenottotaajuudella 8 kHz ja muodostetaan 8 bitin näytteiden jono s0. Lohkossa 11 näytteistä poistetaan tasakomponentti (dc-5 komponentti) koodauksessa mahdollisesti syntyvän häiritse vän sivuäänen poistamiseksi. Tämän jälkeen lohkossa 12 esikorostetaan näytesignaalia painottamalla korkeita signaali taajuuksia ensimmäisen asteen FIR-suodattimella (FIR = Finite Impulse Responce). Lohkossa 13 näytteet segmen-10 toidaan 160 näytteen kehyksiksi, jolloin kehyksen kesto on noin 20 ms.
Lohkossa 14 puhesignaalin spektri mallinnetaan suorittamalla jokaiselle kehykselle autokorrelaatiomenetel-mällä LPC-analyysi, jonka astelukuna on p=8. Tällöin ke-15 hyksestä lasketaan p+1 kappaletta autokorrelaatiofunktio ACF:n arvoja kaavan (2) avulla seuraavasti: 160 ACF(k) = Σ s(i)s(i-k) (2) 20 i = l missä k=0,1,...,8.
Autokorrelaatiofunktion sijasta voidaan käyttää 25 muutakin sopivaa funktiota, kuten esim. kovarianssifunk-tiota. Saaduista autokorrelaatiofunktion arvoista lasketaan Schurin rekursiolla tai muulla sopivalla rekursiome-netelmällä puhekooderissa käytettävän lyhyen aikavälin analyysisuodattimen kahdeksan ns. heijastuskertoimen rk 30 arvot. Schurin rekursio tuottaa uudet heijastuskertoimet aina joka 20 ms. Keksinnön eräässä suoritusmuodossa kertoimet ovat 16-bittisiä ja niitä on 8 kappaletta. Jatkamalla Schurin rekursiota pidempään heijastuskertoimien määrää voidaan haluttaessa lisätä.
35 Vaiheessa 16 lasketaan kustakin kehyksestä laske tuista heijastuskertoimista rk puhujan ääniväylää sylinte- li 7 96247 rimäisillä osilla mallintavan häviöttömän putken kunkin sylinteriosan Ck poikkipinta-ala Ak. Koska Schurin rekur-sio tuottaa uudet heijastuskertoimet joka 20. ms, poikkipinta-aloja kullekin sylinteriosalla Ck saadaan 50 kpl/s.
5 Kun on laskettu häviöttömän putken sylinteripoikkipinta-alat, niin vaiheessa 17 tunnistetaan puhesignaalissa ollut äänne vertaamalla näitä laskettuja sylinteripoikkipinta-aloja parametrimuistiin tallennettuihin sylinteripoikki-pinta-alojen ääriarvoihin. Tämä vertausoperaatio on esi-10 tetty kuvion 5a selityksen kohdalla yksityiskohtaisemmin viitaten viitenumeroihin 60, 60A ja 61, 61A. Vaiheessa 18 haetaan muistista ensimmäisen puhujan aikaisempien samaa äännettä edustavien parametrien keskiarvot ja vähennetään niistä juuri saadun, samalta puhujalta tulleen näytteen 15 hetkelliset parametrit, muodostaen siten erotus, joka talletetaan muistiin.
Edelleen vaiheessa 19 haetaan muistista sinne ennalta talletetut kohdehenkilön, eli sen henkilön, jonka puheen kuuloiseksi puhetta halutaan muuntaa, kyseisen ään-20 teen, useiden näytteiden, sylinteripoikkipinta-alojen keskiarvot. Kohdehenkilö voi olla myös esimerkiksi sama puhuja kuin ensimmäinen, mutta siten, että puhujan tekemiä artikulaatiovirheitä korjataan käyttämällä tässä muunnos-vaiheessa uusia tarkempia parametreja, joiden avulla voi-25 daan muuntaa puhujan puhetta esimerkiksi selvemmäksi.
Seuraavaksi vaiheessa 20 summataan edellä vaiheessa 18 laskettu erotus kohdehenkilön samaisen äänteen sylinteripoikkipinta-alojen keskiarvoon. Syntyneestä summasta lasketaan vaiheessa 21 heijastuskertoimet, joille edelleen 30 vaiheessa 22 suoritetaan LPC-dekoodaus, jonka tuloksena saadaan, esimerkiksi mikrofonille tai tietoliikennejärjestelmään syötettävää sähköistä puhesignaalia.
Kuvion 5a esittämässä keksinnön suoritusmuodossa puheenkoodauksessa käytettävää analyysiä äännetasolla esi-35 tetään siten, että ääniväylää mallintavan häviöttömän put- 8 96247 ken mallin sylinteriosien poikkipinta-alojen keskiarvot lasketaan analysoitavasta puhesignaalista tietyn äänteen aikana muodostettujen hetkellisten häviöttömän putken mallien sylinteriosien pinta-aloista. Yhden äänteen kestoaika 5 on melko pitkä, joten yhdestä puhesignaalissa esiintyvästä äänteestä voidaan laskea useita, jopa kymmeniä ajallisesti peräkkäisiä häviöttömän putken malleja. Tätä havainnollistaa kuvio 3, jossa on esitetty neljä ajallisesti peräkkäistä hetkellistä häviöttömän putken mallia S1-S4. Ku-10 viosta 3 voidaan selvästi havaita, että häviöttömän putken yksittäisten sylintereiden säteet ja poikkipinta-alat muuttuvat ajan mukana. Esimerkiksi hetkelliset mallit SI, S2 ja S3 voisivat karkeasti luokiteltuna olla saman äänteen aikana muodostettuja, jolloin niistä voitaisiin las-15 kea keskiarvo. Sen sijaan malli S4 on selvästi erilainen ja eri äänteeseen liittyvä eikä sitä sen vuoksi huomioida keskiarvoa laskettaessa.
Seuraavassa selostetaan äännetasolla tapahtuvaa puheenmuunnosta viitaten kuvion 5a lohkokaavioon. Vaikka 20 puheenkoodaus ja muuntaminen voidaan tehdä jo yhdelle äänteelle, on muunnoksessa järkevä käyttää kaikkia niitä äänteitä, jotka halutaan muuntaa siten, että kuulija kuulee ne uudenlaisina. Puhe voidaan muuttaa esimerkiksi siten, että kuulostaa kuin joku toinen puhuisi tosiasiallisen 25 puhujan sijasta, tai siten, että parannetaan puheen laatua, esimerkiksi siten, että kuulija erottaa muunnetusta puheesta äänteet selvemmin, kuin alunperin puhutusta, muuntamattomasta, puheesta. Puheenmuunnoksessa voidaan käyttää esimerkiksi kaikkia vokaaleja ja konsonantteja.
30 Puhesignaalista muodostettu hetkellinen häviöttömän putken malli 59 (kuvio 5a) voidaan tunnistaa lohkossa 52 tiettyä äännettä vastaavaksi mikäli hetkellisen häviöttömän putken mallin 59 jokaisen sylinteriosan poikkimitta on tunnetun puhujan vastaavan äänteen ennalta määrättyjen 35 tallennettujen raja-arvojen sisällä. Nämä äännekohtaiset
II
9 96247 ja sylinterikohtaiset raja-arvot ovat tallennettuina niin kutsuttuun kvantisointitaulukkoon 54, muodostaen niin sanotun äännemaskin. Kuviossa 5a viitenumeroilla 60 ja 61 on havainnollistettu, kuinka mainitut äänne- ja sylinterikoh-5 täiset raja-arvot muodostavat kullekin äänteelle maskin tai mallinteen, joiden sallitulle alueelle 60A ja 61A (varjostamattomat alueet) tunnistettavan hetkellisen ääni-väylämallin 59 on sovittava. Kuviossa 5a hetkellinen ääni-väylämalli 59 sopii äännemaskiin 60, mutta ei selvästikään 10 sovi äännemaskiin 61. Lohko 52 toimii siten eräänlaisena äännesuodattimena, joka lajittelee ääniväylämallit oikeisiin äänneryhmiin a, e, i, jne. Kun äänteet on tunnistettu, haetaan kuvion 5a kohdassa 52 tunnistettujen äänteiden tunnuksien 53 perusteella parametrimuistista 55 kutakin 15 äännettä, esimerkiksi a, e, i, k, vastaavat parametrit, eli äännekohtaiset häviöttömän putken sylinteripoikkipin-ta-alojen tunnusluvut, esimerkiksi keskiarvot. Äänteitä tunnistettaessa 52 on myös saatu määritettyä kullekin äänteelle tunnistettavan äänteen tunnus 53, jolloin tuon tun-20 nuksen avulla voidaan parametrimuistista 55 hakea kutakin hetkellistä äännettä vastaavat parametrit. Nämä parametrit voidaan syöttää erotusvälineeseen erotuksen laskentaan, joka kuvion 5a mukaan laskee 56 erotuksen parametrimuistista äänteen tunnuksen avulla haetun i äänteen paramet-25 rien, eli häviöttömän putken sylinteripoikkipinta-alojen tunnusluvun, tyypillisesti keskiarvon ja kyseisen äänteen hetkellisarvojen välillä. Tämä erotus lähetetään edelleen summattavaksi ja dekoodattavaksi kuvion 5b esittämällä tavalla, jota on yksityiskohtaisemmin esitetty kyseisen 30 kuvion selityksen yhteydessä.
Kuvio 5b esittää tapahtumakaavion, joka havainnollistaa keksinnön mukaista puheenmuunnosmenetelmässä tapahtuvaa puhesignaalin uudelleenmuodostusta äännetasolla. Tunnistetun äänteen tunnus 500 otetaan vastaan ja haetaan 35 parametrimuistista 501 äänteen tunnuksen 500 perusteella . 96247 10 äännettä vastaavat parametrit ja syötetään 502 ne summaukseen 503, jossa muodostetaan erotuksesta ja parametreista summaamalla uudet heijastuskertoimet, jotka dekoo-daamalla lasketaan uusi puhesignaali. Tämä puhesignaalin 5 muodostus summaamalla on yksityiskohtaisemmin esitetty kuviossa 6 ja sitä vastaavassa selityksessä.
Kuvio 6 esittää toiminnallisen ja yksinkertaistetun lohkokaavion keksinnön mukaisen menetelmän erään suoritusmuodon toteuttavasta puheenmuuntimesta 600. Ensimmäisen 10 eli imitoitavan puhujan puhe tulee puheenmuuntimeen 600 mikrofonin 601 kautta. Muunnin voi myös olla kytketty johonkin tietoliikennejärjestelmään, jolloin muunnettava puhesignaali tulee muuntimeen sähköisenä signaalina. Mikrofonin 601 muuntama puhesignaali LPC-koodataan (enkooda-15 taan) ja siitä lasketaan kunkin äänteen heijastuskertoimet. Signaalin muut osat lähetetään 603 eteenpäin myöhemmin dekoodattavaksi 615. Lasketut heijastuskertoimet välitetään tunnuslukujen laskentayksikölle 604, joka laskee heijastuskertoimista kutakin äännettä vastaavat puhujan 20 ääniväylää mallintavan häviöttömän putken mallin sylinte-ripoikkipinta-alojen tunnusluvut, jotka välitetään edelleen äänteentunnistimelle 605. Äänteentunnistimessa 605 äänne tunnistetaan vertaamalla ensimmäisen puhujan eli imitoitavan tuottaman äänteen heijastuskertoimista lasket-25 tuja puhujan ääniväylää mallintavia häviöttömän putken sylinteriosien poikkipinta-aloja ainakin yhden tai useamman aikaisemman puhujan aikaisemmin äännekohtaisesti tunnistettuihin, jossakin muistivälineessä talletettuina oleviin, vastaaviin arvoihin, jolloin vertailutuloksena saa-30 daan tunnistetun äänteen tunnus. Tunnistetun äänteen tunnuksen avulla haetaan 607, 609 puhujan parametritaulusta 608, johon on aikaisemmin talletettu kyseisen ensimmäisen, eli imitoitavan, puhujan vastaavien samaa äännettä edustavien vastaavien parametrien jotkin tunnusluvut, esimerkik-35 si keskiarvot, ja vähennetään erotuselimessä 606 niistä li 11 96247 juuri saadun samalta puhujalta tulleen näytteen hetkelliset parametrit. Tällöin muodostuu erotus, joka talletetaan muistiin.
Edelleen, kohdassa 605 tunnistetun äänteen tunnuk-5 sen avulla haetaan 610, 612 kohdehenkilön, eli toisen puhujan tai sen puhujan, jonka puheeksi ensimmäisen puhujan puhe halutaan muuntaa, parametritaulusta 611 tuota tunnistettua äännettä vastaava tunnusluku/tunnusluvut, esimerkiksi heijastuskertoimista laskettu puhujan ääniväylää 10 kuvaava häviöttömän putken sylinteripoikkipinta-alojen äännekohtainen keskiarvo ja syötetään se summaimelle 613. Summaimeen on myös haettu 617 erotuselimeltä 606 erotus-elimen laskema erotus, joka summataan summaimessa 617 kohdehenkilön parametritaulusta 611 haettuun tunnuslukuun/ 15 tunnuslukuihin, eli esimerkiksi toisen puhujan ääniväylän heijastuskertoimista laskettuun puhujan ääniväylää kuvaavaan häviöttömän putken sylinteripoikkipinta-alojen äänne-kohtaiseen keskiarvoon. Tällöin muodostuu summa, josta heijastuskertoimien uudelleenmuodostus-lohkossa 614 laske-20 taan heijastuskertoimet. Heijastuskertoimista voidaan edelleen muodostaa signaali, jossa ensimmäisen puhujan puhe on muunnettu siten, että muunnettaessa tämä puhesignaali akustiseen muotoon kuulija luulee kuulevansa toisen puhujan puhetta, vaikka tosiasiallinen puhuja onkin itse 25 asiassa ensimmäinen puhuja, jonka puhe on vain muunnettu sellaiseksi, että se kuulostaa toisen puhujan puheelta. Tämä puhesignaali johdetaan edelleen LPC-dekooderiin 615, jossa se LPC-dekoodataan ja siihen lisätään puhesignaalin LPC-koodaamattomat osat 603, jolloin saadaan aikaan lopul-30 linen puhesignaali, joka muutetaan kaiuttimessa 616 akustiseen muotoon. Yhtä hyvin tämä puhesignaali voidaan jättää tässä vaiheessa sähköiseen muotoon ja siirtää johonkin tietoliikennejärjestelmään edelleen välitettäväksi tai siirrettäväksi.
96247 12
Edellä esitetty keksinnön mukainen menetelmä voidaan käytännössä toteuttaa esimerkiksi ohjelmallisesti hyväksikäyttäen tavanomaista signaaliprosessoria.
Piirustukset ja niihin liittyvä selitys on tarkoi-5 tettu vain havainnollistamaan keksinnön ajatusta. Yksityiskohdiltaan voi keksinnön mukainen menetelmä puheen muuntamiseksi vaihdella patenttivaatimusten puitteissa. Vaikka keksintöä onkin edellä selitetty lähinnä puheenimi-toinnin yhteydessä, voidaan puheenmuunninta käyttää muun-10 kinlaisessa puheenmuokkauksessa.
Il

Claims (2)

13 96247
1. Menetelmä puheen muuntamiseksi, jossa menetelmässä ensimmäisen puhujan tuottamasta puhesignaalista (IN) 5 otetaan näytteitä heijastuskertoimien (rK) laskemiseksi, menetelmän ollessa tunnettu seuraavista menetel-mävaiheista: heijastuskertoimista (rK) lasketaan (16; 51; 604) ensimmäisen puhujan ääniväylää mallintavan häviöttömän 10 putken (kuviot 1 ja 2) sylinteriosien poikkipinta-alojen (kuvio 2; AK) tunnusluvut, mainittuja ensimmäisen puhujan häviöttömän putken (kuviot 1 ja 2) sylinteriosien poikkipinta-alojen (kuvio 2; AK) tunnuslukuja verrataan (17; 52; 605) ainakin yhden 15 aikaisemman puhujan tallennettuihin vastaaviin äännekoh-taisiin puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen (AK) tunnuslukuihin äänteiden tunnistamiseksi, ja tunnistettuja äänteitä vastaavien tunnuksien antamiseksi, 20 lasketaan (18; 56; 606) muistiin tallennettujen, mainittua äännettä edustavien puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen (kuvio 2; AK) tunnuslukujen ja seuraavien samaa äännettä edustavien vastaavien tunnuslukujen erotukset, 25 haetaan (19; 610) tunnistetun äänteen tunnuksen pe rusteella muistista (611) jonkin toisen puhujan samaa äännettä vastaavat puhujakohtaiset tuon puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen (kuvio 2; AK) tunnusluvut, 30 muodostetaan (20; 613) summa summaamalla mainitut erotukset (617) ja mainitut toisen puhujan puhujakohtaiset samaa äännettä vastaavat tuon toisen puhujan ääniväylää mallintavan häviöttömän putken sylinteriosien poikkipinta-alojen tunnusluvut (612), 35 96247 14 lasketaan (614) mainitusta summasta uudet heijas-tuskertoimet, mainituista uusista heijastuskertoimista muodostetaan (615) uusi puhesignaali (616).
2. Patenttivaatimuksen 1 mukainen menetelmä, tun nettu siitä, että lasketaan (604) ensimmäisen puhujan samaa äännettä edustavaa häviöttömän putken fyysisiä mittoja kuvaava tunnusluku ja talletetaan se muistiin (608). Il 15 96247
FI930629A 1993-02-12 1993-02-12 Menetelmä puheen muuntamiseksi FI96247C (fi)

Priority Applications (9)

Application Number Priority Date Filing Date Title
FI930629A FI96247C (fi) 1993-02-12 1993-02-12 Menetelmä puheen muuntamiseksi
PCT/FI1994/000054 WO1994018669A1 (en) 1993-02-12 1994-02-10 Method of converting speech
JP6517698A JPH07509077A (ja) 1993-02-12 1994-02-10 スピーチを変換する方法
AT94905743T ATE172317T1 (de) 1993-02-12 1994-02-10 Sprachumsetzungsverfahren
US08/313,195 US5659658A (en) 1993-02-12 1994-02-10 Method for converting speech using lossless tube models of vocals tracts
EP94905743A EP0640237B1 (en) 1993-02-12 1994-02-10 Method of converting speech
CN94190055A CN1049062C (zh) 1993-02-12 1994-02-10 转换语音的方法
DE69413912T DE69413912T2 (de) 1993-02-12 1994-02-10 Sprachumsetzungsverfahren
AU59730/94A AU668022B2 (en) 1993-02-12 1994-02-10 Method of converting speech

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI930629A FI96247C (fi) 1993-02-12 1993-02-12 Menetelmä puheen muuntamiseksi
FI930629 1993-02-12

Publications (4)

Publication Number Publication Date
FI930629A0 FI930629A0 (fi) 1993-02-12
FI930629A FI930629A (fi) 1994-08-13
FI96247B true FI96247B (fi) 1996-02-15
FI96247C FI96247C (fi) 1996-05-27

Family

ID=8537362

Family Applications (1)

Application Number Title Priority Date Filing Date
FI930629A FI96247C (fi) 1993-02-12 1993-02-12 Menetelmä puheen muuntamiseksi

Country Status (9)

Country Link
US (1) US5659658A (fi)
EP (1) EP0640237B1 (fi)
JP (1) JPH07509077A (fi)
CN (1) CN1049062C (fi)
AT (1) ATE172317T1 (fi)
AU (1) AU668022B2 (fi)
DE (1) DE69413912T2 (fi)
FI (1) FI96247C (fi)
WO (1) WO1994018669A1 (fi)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3481027B2 (ja) * 1995-12-18 2003-12-22 沖電気工業株式会社 音声符号化装置
US6542857B1 (en) * 1996-02-06 2003-04-01 The Regents Of The University Of California System and method for characterizing synthesizing and/or canceling out acoustic signals from inanimate sound sources
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
DE10034236C1 (de) * 2000-07-14 2001-12-20 Siemens Ag Sprachkorrekturverfahren
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
CN1303582C (zh) * 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法
US8099282B2 (en) * 2005-12-02 2012-01-17 Asahi Kasei Kabushiki Kaisha Voice conversion system
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
CN105654941A (zh) * 2016-01-20 2016-06-08 华南理工大学 一种基于指向目标人变声比例参数的语音变声方法及装置
CN110335630B (zh) * 2019-07-08 2020-08-28 北京达佳互联信息技术有限公司 虚拟道具显示方法、装置、电子设备及存储介质
US11514924B2 (en) * 2020-02-21 2022-11-29 International Business Machines Corporation Dynamic creation and insertion of content

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH581878A5 (fi) * 1974-07-22 1976-11-15 Gretag Ag
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
CA1334868C (en) * 1987-04-14 1995-03-21 Norio Suda Sound synthesizing method and apparatus
FR2632725B1 (fr) * 1988-06-14 1990-09-28 Centre Nat Rech Scient Procede et dispositif d'analyse, synthese, codage de la parole
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5522013A (en) * 1991-04-30 1996-05-28 Nokia Telecommunications Oy Method for speaker recognition using a lossless tube model of the speaker's
FI91925C (fi) * 1991-04-30 1994-08-25 Nokia Telecommunications Oy Menetelmä puhujan tunnistamiseksi
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
US5528726A (en) * 1992-01-27 1996-06-18 The Board Of Trustees Of The Leland Stanford Junior University Digital waveguide speech synthesis system and method

Also Published As

Publication number Publication date
AU668022B2 (en) 1996-04-18
JPH07509077A (ja) 1995-10-05
FI930629A (fi) 1994-08-13
EP0640237A1 (en) 1995-03-01
AU5973094A (en) 1994-08-29
FI930629A0 (fi) 1993-02-12
EP0640237B1 (en) 1998-10-14
CN1049062C (zh) 2000-02-02
CN1102291A (zh) 1995-05-03
WO1994018669A1 (en) 1994-08-18
DE69413912T2 (de) 1999-04-01
DE69413912D1 (de) 1998-11-19
US5659658A (en) 1997-08-19
ATE172317T1 (de) 1998-10-15
FI96247C (fi) 1996-05-27

Similar Documents

Publication Publication Date Title
FI96247B (fi) Menetelmä puheen muuntamiseksi
CA1123955A (en) Speech analysis and synthesis apparatus
US5884251A (en) Voice coding and decoding method and device therefor
JP2903533B2 (ja) 音声符号化方式
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
US5448680A (en) Voice communication processing system
US5522013A (en) Method for speaker recognition using a lossless tube model of the speaker's
US5715362A (en) Method of transmitting and receiving coded speech
FI91925B (fi) Menetelmä puhujan tunnistamiseksi
Kitawaki et al. Objective quality assessment of wideband speech coding
KR100399057B1 (ko) 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
Zuo et al. Telephone speech recognition using simulated data from clean database
Heute Telephone-speech quality
Mori Pitch Contour Separation from Overlapping Speech.
Chilton Factors affecting the quality of linear predictive coding of speech at low bit-rates
JPH0792990A (ja) 音声認識方法
Ma Multiband Excitation Based Vocoders and Their Real Time Implementation
JPH05507796A (ja) 音声の低スループット符号化の方法と装置
EP0929065A2 (en) A modular approach to speech enhancement with an application to speech coding
Kaleka Effectiveness of Linear Predictive Coding in Telephony based applications of Speech Recognition
Seereddy Speech coding using multipulse excitation
Carmona et al. Dealing with acoustic noise and packet loss in VoIP recognition systems
Fransen et al. 2400-TO 800-B/S LPC (Linear Predictive Coder) Rate Converter.
KR19980035870A (ko) 음성 합성장치 및 그 방법
JPH05122164A (ja) 音声符号化装置

Legal Events

Date Code Title Description
BB Publication of examined application