ITTO980383A1 - Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. - Google Patents

Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. Download PDF

Info

Publication number
ITTO980383A1
ITTO980383A1 IT98TO000383A ITTO980383A ITTO980383A1 IT TO980383 A1 ITTO980383 A1 IT TO980383A1 IT 98TO000383 A IT98TO000383 A IT 98TO000383A IT TO980383 A ITTO980383 A IT TO980383A IT TO980383 A1 ITTO980383 A1 IT TO980383A1
Authority
IT
Italy
Prior art keywords
recognition
hypotheses
scores
list
hypothesis
Prior art date
Application number
IT98TO000383A
Other languages
English (en)
Inventor
Roberto Gemello
Luciano Fissore
Original Assignee
Cselt Centro Studi Lab Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cselt Centro Studi Lab Telecom filed Critical Cselt Centro Studi Lab Telecom
Priority to IT98TO000383A priority Critical patent/ITTO980383A1/it
Priority to CA002270326A priority patent/CA2270326C/en
Priority to US09/302,210 priority patent/US6185528B1/en
Priority to EP99108530A priority patent/EP0955628B1/en
Priority to DE69938374T priority patent/DE69938374T2/de
Priority to JP11125902A priority patent/JP3078279B2/ja
Publication of ITTO980383A1 publication Critical patent/ITTO980383A1/it

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

Descrizionedell'invenzioneaventepertitolo:
"PROCEDIMENTO E DISPOSITIVO DI RICONOSCIMENTO VOCALE CON DOPPIOPASSODIRICONOSCIMENTO,NEURALEEMARKOVIANO"
Lapresenteinvenzione siriferisceaisistemidiriconoscimento automatico della voce ed in particolare riguarda un procedimento e un dispositivo per il riconoscimento di parole isolate in ampi vocabolari in cui le parole sono rappresentate componendo unità acustico-fonetiche della lingua e in cui il riconoscimentovieneeffettuatomedianteduepassisequenzialiincuisiutilizzano rispettivamenteletecnichedelleretineuraliedeimodellimarkovianieirisultati delleduetecnichesonocombinatiinmodoopportunopermigliorarel'accuratezza delriconoscimento.
Le reti neurali sono una struttura elaborativa parallela, che riproduce in forma molto semplificata l'organizzazione della corteccia cerebrale. Una rete neurale è costituita da numerose unità elaborative, dette neuroni, fortemente interconnesse mediante collegamenti di varia intensità dette sinapsi o pesi di interconnessione.Ineuronisonodispostiingeneresecondounastrutturaalivelli, unlivellodiingresso, unoopiùlivelliintermedieunlivellodiuscita. Partendo dalleunitàdiingresso,acuivienefornitoilsegnaledatrattare,l'elaborazionesi propaga ai livelli successivi della rete fino alle unità di uscita, che forniscono il risultato. Varie realizzazioni di reti neurali sono descritte, ad esempio, nel libro di D. Rumelhart "Parallel Distributed Processing", voi. 1 Foundations, MIT Press, Cambridge, Mass., 1986.
La tecnologia delle reti neurali è applicabile in molti settori, ed in particolare nel riconoscimento del parlato, in cui la rete neurale è utilizzata per stimare la probabilità P(Q | X) di un'unità fonetica Q data la rappresentazione parametrica X di una porzione di segnale vocale d’ingresso. Le parole da riconoscere sono rappresentate come concatenazione di unità fonetiche e si utilizza un algoritmo di programmazione dinamica per trovare la parola che ha la massima probabilità di essere quella effettivamente pronunciata.
I modelli markoviani nascosti (Hidden Markov Models ) sono una tecnologia classica per il riconoscimento del parlato. Un modello di questo tipo consiste di un certo numero di stati collegati dalle possibili transizioni. Alle transizioni è associata una probabilità di passare dallo stato di origine a quello di destinazione. Inoltre, ogni stato può emettere dei simboli da un alfabeto finito secondo una distribuzione di probabilità data. Nel caso di impiego per il riconoscimento del parlato, ogni modello rappresenta un'unità acustico-fonetica mediante un automa sinistra-destra in cui in ogni stato si può permanere con una transizione ciclica o passare al successivo. Ad ogni stato inoltre è associata una densità di probabilità definita su X, dove X rappresenta un vettore di parametri estratti dal segnale vocale ogni 10 ms. I simboli emessi, in base alla densità di probabilità associata allo stato, sono quindi gli infiniti possibili vettori di parametri X. Questa densità di probabilità è data da una mistura di gaussiane nello spazio multidimensionale dei vettori d’ingresso.
Anche nel caso dei modelli markoviani nascosti le parole da riconoscere sono rappresentate come concatenazione di unità fonetiche e si utilizza un algoritmo di programmazione dinamica (algoritmo di Viterbi) per trovare la parola generata con la massima probabilità, dato il segnale vocale d’ingresso.
Maggiori dettagli su questa tecnica di riconoscimento si possono trovare p. es, in L. Rabiner, B-H. Juang: "Fundamentals of speech recognition", Prentice Hall, Englewood Cliffs, New Jersey (USA)
Il metodo oggetto della presente invenzione utilizza entrambe le tecniche delle reti neurali e dei modelli markoviani, mediante un doppio passo di riconoscimento e una ricombinazione dei risultati ottenuti con le due tecniche.
Un sistema di riconoscimento in cui vengono ricombinati i punteggi di riconoscitori differenti per il miglioramento delle prestazioni in termini di accuratezza di riconoscimento è illustrato nella memoria "Speech recognition using segmentai neural nets" di S. Austin, G. Zavaliagkos, J. Makhoul e R. Schwartz presentata alla conferenza ICASSP '92, San Francisco, 23-26 Marzo 1992.
Questo sistema noto effettua un primo riconoscimento con l’utilizzo dei modelli markoviani nascosti, fornendo una lista delle N migliori ipotesi di riconoscimento (p. es: 20), cioè delle N frasi che hanno la maggior probabilità di essere quella effettivamente pronunciata, insieme a un rispettivo punteggio di verosimiglianza. Lo stadio markoviano di riconoscimento provvede anche a una segmentazione fonetica di ciascuna ipotesi e trasferisce il risultato della segmentazione a un secondo stadio di riconoscimento basato su una rete neurale. Questo opera un riconoscimento a partire dai segmenti fonetici forniti dal primo passo markoviano e fornisce a sua volta una lista di ipotesi associate ognuna un punteggio di verosimiglianza in base alla tecnica di riconoscimento neurale. I due punteggi sono poi combinati linearmente per formare una lista unica, e la migliore ipotesi risultante dalla combinazione viene scelta come frase riconosciuta.
Un sistema di questo tipo presenta alcuni inconvenienti. Un primo inconveniente è legato al fatto di effettuare il riconoscimento nel secondo stadio a partire dai segmenti fonetici fomiti dal primo stadio: in presenza di eventuali errori temporali nella segmentazione, il secondo stadio commetterà a sua volta errori di riconoscimento che quindi si propagano alla lista finale. Inoltre, il sistema non si presta bene al riconoscimento di parole isolate all’intemo di grandi vocabolari, per il fatto di presentare come primo stadio il riconoscitore markoviano, che in tali particolari condizioni risulta un po' meno efficiente di quello neurale in termini di onere computazionale. Ancora, tenuto conto che le ipotesi fornite da un riconoscitore markoviano e da un riconoscitore a rete neurale hanno dinamica dei punteggi notevolmente diverse, una semplice combinazione lineare dei punteggi può dare risultati non significativi. Infine, il sistema noto non fornisce alcuna indicazione sull’affidabilità del riconoscimento effettuato.
Il disporre di questa informazione nel caso di riconoscimento di parole isolate è invece una caratteristica molto importante: in effetti questi sistemi, come prassi generale, richiedono all’utilizzatore una conferma della parola pronunciata, ciò che allunga i tempi della procedura. Disponendo dell’informazione di affidabilità il sistema può richiedere la conferma solo quando l’affidabilità del riconoscimento scende sotto una certa soglia, rendendo la procedura più rapida, con vantaggi sia per l’utilizzatore che per il gestore del sistema.
Lo scopo dell’invenzione è quello di fornire un procedimento e un dispositivo di riconoscimento del tipo suddetto che è particolarmente studiato per il riconoscimento di parole isolate all’interno di grandi vocabolari e che consente di migliorare l'accuratezza del riconoscimento e inoltre di ottenere una stima dell’affidabilità del riconoscimento.
Più in particolare, il procedimento secondo l’invenzione è caratterizzato dal fatto che i due passi di riconoscimento operano in sequenza su una stessa espressione da riconoscere in modo tale che il passo neurale esamini l’intero vocabolario attivo e il passo markoviano esamini solo un vocabolario parziale rappresentato dalla lista di ipotesi fornita come risultato del passo neurale, e dal fatto che si valuta inoltre l’affidabilità del riconoscimento per la ipotesi migliore della lista riordinata, sulla base dei punteggi risultanti dalla combinazione e associati a tale ipotesi migliore e a una o più ipotesi che occupano posizioni successive nella lista riordinata, generando un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo e riconoscimento incerto.
Un riconoscitore per realizzare il procedimento è caratterizzato dal fatto che l’unità di riconoscimento a rete neurale è disposta a monte dell’unità di riconoscimento basata sui modelli markoviani nascosti ed è atta a effettuare il rispettivo riconoscimento operando sull’intero vocabolario attivo, e l’unità di riconoscimento basata sui modelli markoviani nascosti è atta a effettuare il riconoscimento in maniera indipendente da quello effettuato dall’unità di riconoscimento a rete neurale operando su un vocabolario parziale costituito dalle ipotesi contenute nella lista fornita da quest’ultima; e dal fatto che l’unità elaborativa comprende mezzi per valutare l’affidabilità del riconoscimento per l’ipotesi che ha il miglior punteggio di verosimiglianza nella lista di ipotesi riordinata, utilizzando i punteggi combinati associati alle ipotesi contenute nella lista riordinata, detti mezzi di valutazione essendo atti a fornire un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo o incerto per tale ipotesi.
A maggior chiarimento si fa riferimento ai disegni allegati, in cui:
- la fig. 1 è uno schema a blocchi di un sistema di riconoscimento secondo l’invenzione.
- la fig. 2 è un diagramma di flusso del procedimento di riconoscimento secondo l’invenzione,
- la fig. 3 è un diagramma di flusso delle operazioni di combinazione dei punteggi, e
- la fig. 4 è un diagramma di flusso delle operazioni di calcolo dell’affidabilità del riconoscimento.
La descrizione che segue è fatta a titolo di esempio non limitativo supponendo che l’invenzione sia impiegata per il riconoscimento di parole isolate.
Nella fig. 1 si vede che il sistema di riconoscimento secondo l’invenzione comprende due riconoscitori NE, MA operanti in due passi di riconoscimento successivi e indipendenti sul segnale vocale in arrivo sulla linea 1. Come usuale nella tecnica, il segnale presente sulla linea 1 sarà un’opportuna rappresentazione parametrica (p. es. una rappresentazione cepstrale) di una parola pronunciata dal parlatore, ottenuta in dispositivi di trattamento non rappresentati e organizzata in trame della durata p. es. di 10 - 15 ms.
Il riconoscitore NE che opera nel primo passo è basato sulla tecnologia delle reti neurali ed effettua il riconoscimento utilizzando l’intero vocabolario attivo. NE fornisce su un’uscita 2 una lista delle M(nn) parole che costituiscono le migliori ipotesi di riconoscimento secondo lo specifico tipo di rete neurale e sono associate ognuna a un rispettivo punteggio di verosimiglianza acustica nnj.
L’uscita 2 di NE è collegata anche al secondo riconoscitore MA, che riceve anch’esso il segnale presente sulla connessione 1 ed effettua un riconoscimento in base alla tecnica dei modelli markoviani nascosti, limitando però il campo di scelta delle possibili ipotesi di riconoscimento al vocabolario rappresentato dalle M(nn) parole individuate dal riconoscitore NE. MA fornisce a sua volta su un’uscita 3 una lista di M(hmm) parole che costituiscono le migliori ipotesi di riconoscimento secondo il modello markoviano e sono associate ognuna a un rispettivo punteggio di verosimiglianza acustica hmmj.
In modo del tutto convenzionale, le due liste sono emesse come liste ordinate. Si noti che nel caso più generale esse possono avere lunghezza diversa anche se, date le modalità di operazione di MA, le M(hmm) parole fornite da MA saranno un sottoinsieme delle M(nn) parole fornite da NE.
Le uscite 2, 3 dei due riconoscitori NE, MA sono collegate a un dispositivo di elaborazione dei punteggi EL che deve compiere due tipi di operazione:
1) effettuare un trattamento dei punteggi delle parole presenti nelle due liste, basato su una normalizzazione dei punteggi di ciascuna parola e su una combinazione dei punteggi normalizzati, e, a conclusione del trattamento, fornire su una prima uscita 4 del dispositivo una nuova lista riordinata in base ai punteggi combinati;
2) se entrambi i riconoscitori NE, MA hanno individuato una stessa parola come migliore ipotesi di riconoscimento, calcolare ed emettere su una seconda uscita 5 un indice di affidabilità di questa parola (che ovviamente risulterà la migliore ipotesi nella lista combinata), verificando che siano soddisfatte certe condizioni per i punteggi di verosimiglianza all’intemo di tale lista combinata.
Tenuto conto di questa duplice funzione, all’interno dei dispositivi EL di elaborazione dei punteggi si sono rappresentati in figura tre blocchi funzionali UE1, CM, UE2. UE1 è un’unità elaborativa che ha il compito di effettuare le operazioni relative alla normalizzazione dei punteggi delle due liste fomite da NE e MA, alla combinazione dei punteggi normalizzati e alla generazione della lista riordinata in base ai punteggi combinati, che viene emessa su una prima uscita 4 del riconoscitore. CM è un’unità di confronto che ha il compito di verificare se la migliore parola riconosciuta è la stessa nelle due liste e, in caso di esito positivo, di abilitare l’unità UE2. Questa a sua volta è un’unità elaborativa che ha il compito di verificare se le condizioni desiderate per i punteggi combinati sono soddisfatte e di emettere di conseguenza l’indice di affidabilità su una seconda uscita 5 del riconoscitore. Nell’esempio di realizzazione qui descritto si supporrà che tale indice possa assumere due valori, corrispondenti rispettivamente a "riconoscimento certo" e a "riconoscimento incerto".
Le modalità con cui le unità UE1, UE2 effettuano le operazioni indicate sopra saranno descritte con maggiori dettagli in seguito.
La soluzione adottata, con l’unità di riconoscimento neurale NE posta a monte dell’unità di riconoscimento markoviana MA migliora l’efficienza complessiva. In effetti la tecnologia delle reti neurali consente maggiori velocità di riconoscimento su vocabolari grandi, mentre quella markoviana ha migliori prestazioni su vocabolari più limitati: utilizzando il riconoscitore markoviano MA nella seconda fase, dove si utilizza solo il vocabolario corrispondente alle M(nn) migliori ipotesi ottenute con il riconoscitore neurale NE, si possono ridurre i tempi globali di riconoscimento.
I vantaggi in termini di velocità fomiti dalle reti neurali sono ottenuti in particolar modo se il riconoscitore neurale NE è del tipo in cui la propagazione dei risultati delle elaborazioni è di tipo incrementale (cioè NE comprende una rete a più livelli in cui si propagano da un livello a quello superiore solo le differenze significative tra i valori di attivazione dei neuroni in istanti successivi), come descritto p. es. nella domanda di brevetto europeo EP-A 0 733 982 a nome della stessa Richiedente. Non vi sono particolari esigenze per il riconoscitore markoviano MA, che può essere di uno qualsiasi dei tipi noti nella tecnica.
Si noti che la fig. 1 è uno schema puramente funzionale, e quindi i blocchi UE1, CM, UE2 corrisponderanno in generale parti diverse di un programma memorizzato nei dispositivi di elaborazione EL. Tenuto conto che anche i singoli riconoscitori NE, MA sono a loro volta implementati su dispositivi di elaborazione opportunamente programmati, è chiaro che uno stesso dispositivo di elaborazione può svolgere i compiti di più di imo dei blocchi rappresentati.
L’intero processo di riconoscimento svolto dal dispositivo di fig. 1 è anche rappresentato sotto forma di diagramma di flusso in fig. 2. Data la descrizione che precede, non sono necessarie ulteriori spiegazioni.
Venendo ora alle operazioni relative al trattamento dei punteggi delle ipotesi comprese nelle due liste fornite da NE e MA, il primo passo compiuto da UE1 è il calcolo della media μ(ηη), μ(ΐιιηπι) e della varianza σ(ηη), d(hmm) dei punteggi per ciascuna delle due liste secondo le ben note formule:
dove M(hmm) , M(nn), nnj, hmmj hanno il significato già visto.
Successivamente si procede a una normalizzazione dei punteggi rispetto alla media e alla varianza, in modo da ottenere due liste NNi, HMMj di punteggi a media nulla e varianza unitaria. A questo scopo UEl esegue le operazioni rappresentate dalle relazioni seguenti:
UEl effettua il calcolo della media e della varianza dei punteggi (e la normalizzazione) per una lista solo se il numero di parole in quella lista non è inferiore a una certa soglia M. Nell’esempio preferito di realizzazione si è posto M = 3, cioè il valore minimo per il quale il calcolo della media e della varianza sono possibili. Se il numero di parole in una lista è inferiore alla soglia M, invece del punteggio fornito dal rispettivo riconoscitore, UEl utilizza valori di punteggio prefissati. Questo costituisce a sua volta una sorta di normalizzazione. In prove effettuate si sono assegnati al punteggio un valore di 3,0 nel caso di una sola ipotesi e valori di 2,0 e 1,0 nel caso di due sole ipotesi. Il riconoscitore si è comunque dimostrato poco sensibile al valore di questi parametri, e quindi qualsiasi valore che corrisponda a una buona verosimiglianza può essere utilizzato.
Infine si passa alla combinazione vera e propria dei punteggi associati nelle due liste a una stessa parola IP^HMM), I3⁄4(NN) per generare la lista finale di possibili parole, che viene poi riordinata in base al punteggio combinato. La combinazione è una combinazione lineare, cosicché nella nuova lista ognuna delle parole IPx ha un punteggio combinato Sx dato da
dove a e β sono i pesi attribuiti a ciascuno dei due riconoscitori.
Preferibilmente, i due pesi (memorizzati all’interno dell’unità UE1) soddisfano alla relazione β = 1 - a, dove a = 0,5 se i riconoscitori hanno prestazioni sostanzialmente analoghe Nel caso di prestazioni alquanto diverse, un intervallo adatto di valori di a e β può essere 0,4 - 0,6
Evidentemente, la combinazione dei punteggi non viene effettuata nel caso di parole presenti in una sola lista. Queste parole (generalmente appartenenti alla lista fornita dalla rete neurale, per le ragioni dette sopra) possono essere scartate oppure possono essere associate a un punteggio minimo, in modo da essere inserite nella lista finale dopo quelle per cui si è effettuata la combinazione dei punteggi.
Grazie alla normalizzazione, che dà liste con media nulla e varianza unitaria, si eliminano gli effetti dovuti alla diversa dinamica dei punteggi forniti dai due riconoscitori e si migliora la precisione del riconoscimento.
La procedura di trattamento è riportata anche nel diagramma di flusso di Fig. 3. Data la descrizione che precede, questo diagramma non ha bisogno di ulteriori illustrazioni.
Una volta che UE1 ha ottenuto i punteggi combinati e preparato la lista riordinata, il blocco UE2 può determinare l’affidabilità del riconoscimento della prima parola della lista stessa. Come detto, le operazioni di UE2 sono abilitate dal comparatore CM se questo riconosce che una stessa parola occupa la prima posizione nelle liste fornite da NE e MA, cioè IPl(NN) = IPl(HMM). Per la determinazione dell’affidabilità UE2 valuta il punteggio associato alla parola migliore e le differenze di punteggio tra questa e alcune delle parole successive nella lista. In particolare, affinché il riconoscimento sia considerato "certo", contemporaneamente alla condizione relativa all’identità della migliore parola nelle due liste, devono essere soddisfatte le seguenti condizioni:
1) il punteggio combinato SI della prima parola della lista riordinata deve essere superiore a una prima soglia Tl;
2) le differenze tra il punteggio combinato SI associato alla prima parola della lista riordinata e quelli S2, S5 associati alla seconda e alla quinta parola sono rispettivamente superiori a una seconda e a una terza soglia T2, T3.
Le differenze SI - S2 e SI - S5 vengono calcolate e confrontate con le rispettive soglie verificate solo se è presente un sufficiente numero di ipotesi; in caso contrario la condizione 2) è considerata automaticamente soddisfatta.
I valori delle soglie sono stabiliti in base all'applicazione in cui viene inserito il riconoscitore. Per esempio, negli esperimenti effettuati si sono adottati i seguenti valori):
E’ intuitivo vedere come le condizioni indicate sopra, (che oltre all’identità della migliore ipotesi dì riconoscimento fornita dalle due liste richiedono anche un sufficiente distacco di punteggio tra l’ipotesi migliore e quelle successive nella lista), permettano di valutare effettivamente la certezza del riconoscimento.
Le operazioni di valutazione dell’affidabilità del riconoscimento sono anche rappresentate sotto forma di diagramma di flusso in fig. 4. Si noti che in questo diagramma la concordanza della migliore parola nelle due liste è stata indicata come una condizione da verificare congiuntamente alle altre condizioni, invece di essere considerata una condizione preliminare per la verifica delle altre condizioni, ma è evidente che si tratta unicamente di dettagli implementativi dello stesso principio. Per il resto, anche questo diagramma non ha bisogno di ulteriori illustrazioni.
E’ evidente che quanto descritto è dato unicamente a titolo di esempio non limitativo e che varianti e modifiche sono possibili senza uscire dal campo di protezione deirinvenzione. Per esempio, per la valutazione dell’affidabilità, si potrebbe solo verificare che il punteggio della parola migliore sia sufficientemente superiore a quello della seconda parola, eliminando il confronto con un’ulteriore parola (che potrebbe anche non essere la quinta, ma un’altra parola sufficientemente distante dalla seconda). Per la verifica dell’affidabilità del riconoscimento si potrebbero combinare diversamente le condizioni date - oppure aggiungere condizioni ulteriori - in modo da introdurre gradi di valutazione intermedi tra “certo” e “incerto”: per esempio, un grado di valutazione intermedio potrebbe essere rappresentato dalla verifica delle condizioni solo per le soglie TI e T2 ma non per T3. Infine, anche se si è fatto riferimento nella descrizione al riconoscimento di parole isolate, il riconoscitore potrebbe essere utilizzato anche per il parlato continuo.

Claims (16)

  1. Rivendicazioni 1. Procedimento per il riconoscimento vocale, in cui: si effettuano due passi di riconoscimento (NE, MA) basati l’uno sull’uso di reti neurali e l’altro sull’uso di modelli markoviani nascosti, fornendo rispettive liste di ipotesi di riconoscimento in cui ogni ipotesi è associata a un rispettivo punteggio di verosimiglianza acustica; si elaborano i punteggi di verosimiglianza di ciascuna lista; e si fornisce una lista unica riordinata in base ai punteggi elaborati, caratterizzato dal fatto che i due passi di riconoscimento (NE, MA) operano in sequenza su una stessa espressione da riconoscere in modo tale che il passo neurale (NE) esamini l’intero vocabolario attivo e il passo markoviano (MA) esamini solo un vocabolario parziale rappresentato dalla lista di ipotesi fornita come risultato del passo neurale (NE), e dal fatto che si valuta inoltre l’affidabilità del riconoscimento per la ipotesi migliore della lista riordinata, sulla base dei punteggi risultanti dalla combinazione e associati a tale ipotesi migliore e a una o più ipotesi che occupano posizioni successive nella lista riordinata, generando un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo e riconoscimento incerto.
  2. 2. Procedimento secondo la riv. 1, caratterizzato dal fatto che l’elaborazione dei punteggi di verosimiglianza comprende le seguenti operazioni: - calcolo della media e della varianza dei punteggi associati alle ipotesi in ciascuna delle liste, - normalizzazione dei punteggi associati alle ipotesi in ciascuna delle liste rispetto alla media e alla varianza, in modo da trasformare dette liste in liste in cui i punteggi hanno media nulla e varianza unitaria, - combinazione lineare dei punteggi normalizzati associati a ipotesi di riconoscimento presenti in entrambe le liste.
  3. 3. Procedimento secondo la riv. 2, caratterizzato dal fatto che si effettuano il calcolo della media e della varianza e la normalizzazione dei punteggi di una lista solo se questa comprende un numero di ipotesi non inferiore a un minimo.
  4. 4. Procedimento secondo la riv. 3, caratterizzato dal fatto che per una lista comprendente un numero di ipotesi inferiore a detto minimo si assegnano valori prefissati ai punteggi delle ipotesi in essa contenute.
  5. 5. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 4, caratterizzato dal fatto che per detta combinazione lineare si pesano i punteggi delle ipotesi presenti nelle due liste con pesi che hanno somma unitaria.
  6. 6. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 6, caratterizzato dal fatto che per la creazione di detta lista unica le ipotesi presenti in una sola lista sono scartate.
  7. 7. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 5, caratterizzato dal fatto che per la creazione di detta lista unica alle ipotesi presenti in una sola lista si attribuisce un punteggio minimo, inferiore al minor punteggio combinato di un’ipotesi presente in entrambe le liste.
  8. 8. Procedimento secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta valutazione deiraffidabilità del riconoscimento per la migliore ipotesi di riconoscimento nella lista riordinata viene effettuata se tale ipotesi era la migliore in entrambe le liste, e comprende le operazioni di: - confrontare il punteggio combinato associato a detta ipotesi migliore con una prima soglia, e - calcolare una prima differenza di punteggi, data dalla differenza tra il punteggio combinato associato a detta ipotesi migliore e quello associato all’ipotesi con punteggio immediatamente inferiore, e - confrontare detta prima differenza con una seconda soglia; e dal fatto che si assegna all’indice di affidabilità il valore corrispondente a riconoscimento certo se detto punteggio combinato e detta prima differenza sono entrambi superiori alla rispettiva soglia.
  9. 9. Procedimento secondo la riv. 8, caratterizzato dal fatto che detta valutazione dell’affidabilità del riconoscimento comprende anche le operazioni di: - calcolare una seconda differenza di punteggi, data dalla differenza tra il punteggio combinato associato a detta ipotesi migliore e quello associato a un’ulteriore ipotesi che occupa ima posizione distanziata di un numero prestabilito di posizioni nella lista riordinata, e - confrontare detta seconda differenza con una terza soglia, e dal fatto che si assegna all’indice di affidabilità il valore corrispondente riconoscimento certo se anche detta ulteriore differenza è superiore alla soglia.
  10. 10. Procedimento secondo la riv. 8 o 9, caratterizzato dal fatto che il calcolo di dette differenze viene effettuato solo in presenza di liste comprendenti un numero di ipotesi non inferiore a un minimo.
  11. 11. Procedimento secondo la riv. 10, caratterizzato dal fatto che in presenza di liste comprendenti un numero dì ipotesi inferiore a detto minimo la condizione di superamento della seconda e terza soglia è considerata soddisfatta.
  12. 12. Riconoscitore vocale, comprendente: - una coppia di unità di riconoscimento (NN, MA) collegate in cascata, le quali utilizzano rispettivamente una tecnica di riconoscimento basata sull’impiego di reti neurali e una tecnica di riconoscimento basata su modelli markoviani nascosti, fornendo rispettive liste di ipotesi di riconoscimento in cui ogni ipotesi è associata a un rispettivo punteggio di verosimiglianza acustica; e - un’unità elaborativa (EL), comprendente mezzi (UE1) per effettuare una combinazione dei punteggi di verosimiglianza determinati dalle due unità di riconoscimento (NN, MA) e fornire una lista riordinata in base ai punteggi combinati , caratterizzato dal fatto che l’unità di riconoscimento a rete neurale (NN) è disposta a monte dell’unità di riconoscimento (MA) basata sui modelli markoviani nascosti ed è atta a effettuare il rispettivo riconoscimento operando sull’intero vocabolario attivo, e l’unità di riconoscimento (MA) basata sui modelli markoviani nascosti è atta a effettuare il riconoscimento in maniera indipendente da quello effettuato dall’unità di riconoscimento a rete neurale (NN) operando su un vocabolario parziale costituito dalle ipotesi contenute nella lista fornita da quest’ultima; e dal fatto che l’unità elaborativa (EL) comprende mezzi (CM, UE2) per valutare l’affidabilità del riconoscimento per l’ipotesi che ha il miglior punteggio di verosimiglianza nella lista di ipotesi riordinata, utilizzando i punteggi combinati associati alle ipotesi contenute nella lista riordinata, detti mezzi di valutazione (CM, UE2) essendo atti a fornire un indice di affidabilità che può assumere almeno due. valori corrispondenti rispettivamente a riconoscimento certo o incerto per tale ipotesi.
  13. 13. Riconoscitore secondo la riv. 12, caratterizzato dal fatto che detti mezzi di combinazione (UE1) in detta unità elaborativa (EL) sono atti a combinare linearmente punteggi di verosimiglianza associati a ipotesi di riconoscimento presenti in entrambe le liste, dopo averli sottoposti a una pre-elaborazione comprendente le operazioni di: - calcolo della media e della varianza dei punteggi associati a dette ipotesi nella rispettiva lista, - normalizzazione dei punteggi associati a dette ipotesi rispetto alla media e alla varianza della rispettiva lista, in modo da trasformare dette liste in liste di punteggi a media nulla e varianza unitaria.
  14. 14. Riconoscitore secondo la riv. 13, caratterizzato dal fatto che detti mezzi di combinazione (UE1) sono abilitati a effettuare il calcolo della media e della varianza e la normalizzazione dei punteggi delle liste fomite da ciascuna unità di riconoscimento (NN, MA) solo se tali liste comprendono un numero di ipotesi non inferiore a un minimo.
  15. 15. Riconoscitore secondo una qualsiasi delle rivendicazioni 12 - 14, caratterizzato dal fatto che detti mezzi di valutazione dell’affidabilità del riconoscimento (CM, UE2) comprendono primi mezzi di confronto (CM) per confrontare la migliore ipotesi di riconoscimento individuata dall’unità di riconoscimento a rete neurale (NN) con quella fornita dall’unità di riconoscimento (MA) basata sui modelli markoviani nascosti ed emettere un segnale di abilitazione se tali migliori ipotesi coincidono, e secondi mezzi di confronto (UE2), abilitati da detto segnale di abilitazione e atti a confrontare con rispettive soglie il punteggio della migliore ipotesi della lista riordinata e la differenza tra il punteggio associato alla migliore ipotesi della lista riordinata e quello associato all’ipotesi con punteggio immediatamente inferiore, e ad emettere detto indice di affidabilità con valore corrispondente a riconoscimento certo quando detto punteggio e detta differenza superano la rispettiva soglia.
  16. 16. Riconoscitore secondo la riv. 15, caratterizzato dal fatto che detti secondi mezzi di confronto (UE2) sono atti a confrontare con un’ulteriore soglia la differenza tra il punteggio associato alla migliore ipotesi della lista riordinata e quello associato a un’ipotesi che occupa una posizione successiva e distanziata di un numero prestabilito di posizioni nella lista riordinata, e ad emettere detto indice di affidabilità con valore corrispondente a riconoscimento certo quando anche tale differenza supera detta soglia ulteriore.
IT98TO000383A 1998-05-07 1998-05-07 Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. ITTO980383A1 (it)

Priority Applications (6)

Application Number Priority Date Filing Date Title
IT98TO000383A ITTO980383A1 (it) 1998-05-07 1998-05-07 Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
CA002270326A CA2270326C (en) 1998-05-07 1999-04-28 A method of and a device for speech recognition employing neural network and markov model recognition techniques
US09/302,210 US6185528B1 (en) 1998-05-07 1999-04-29 Method of and a device for speech recognition employing neural network and markov model recognition techniques
EP99108530A EP0955628B1 (en) 1998-05-07 1999-05-04 A method of and a device for speech recognition employing neural network and Markov model recognition techniques
DE69938374T DE69938374T2 (de) 1998-05-07 1999-05-04 Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
JP11125902A JP3078279B2 (ja) 1998-05-07 1999-05-06 ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT98TO000383A ITTO980383A1 (it) 1998-05-07 1998-05-07 Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Publications (1)

Publication Number Publication Date
ITTO980383A1 true ITTO980383A1 (it) 1999-11-07

Family

ID=11416735

Family Applications (1)

Application Number Title Priority Date Filing Date
IT98TO000383A ITTO980383A1 (it) 1998-05-07 1998-05-07 Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Country Status (6)

Country Link
US (1) US6185528B1 (it)
EP (1) EP0955628B1 (it)
JP (1) JP3078279B2 (it)
CA (1) CA2270326C (it)
DE (1) DE69938374T2 (it)
IT (1) ITTO980383A1 (it)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148284A (en) * 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
JP4802434B2 (ja) * 2000-02-28 2011-10-26 ソニー株式会社 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US6662158B1 (en) * 2000-04-27 2003-12-09 Microsoft Corporation Temporal pattern recognition method and apparatus utilizing segment and frame-based models
US6629073B1 (en) 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
AU2001268293A1 (en) * 2000-06-12 2001-12-24 L And H Holdings Usa, Inc. Using utterance-level confidence estimates
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7398256B2 (en) * 2001-02-23 2008-07-08 The Trustees Of The University Of Pennsylvania Dynamical brain model for use in data processing applications
US6772116B2 (en) * 2001-03-27 2004-08-03 International Business Machines Corporation Method of decoding telegraphic speech
FR2825496B1 (fr) * 2001-06-01 2003-08-15 Synomia Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises
US7966177B2 (en) * 2001-08-13 2011-06-21 Hans Geiger Method and device for recognising a phonetic sound sequence or character sequence
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
CA2597803C (en) * 2005-02-17 2014-05-13 Loquendo S.P.A. Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US8660678B1 (en) * 2009-02-17 2014-02-25 Tonara Ltd. Automatic score following
US8260763B2 (en) * 2010-01-15 2012-09-04 Hewlett-Packard Devlopment Company, L.P. Matching service entities with candidate resources
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US20180247640A1 (en) * 2013-12-06 2018-08-30 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
US10665111B2 (en) * 2016-08-01 2020-05-26 Honeywell International Inc. Portable datalink equipment for overhearing data or voice communications
JP7326033B2 (ja) * 2018-10-05 2023-08-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識装置、話者認識方法、及び、プログラム
WO2020246033A1 (ja) * 2019-06-07 2020-12-10 日本電信電話株式会社 学習装置、音声認識装置、それらの方法、およびプログラム
WO2021144901A1 (ja) * 2020-01-16 2021-07-22 日本電信電話株式会社 音声認識装置、方法及びプログラム
US11783818B2 (en) * 2020-05-06 2023-10-10 Cypress Semiconductor Corporation Two stage user customizable wake word detection
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2577891B2 (ja) 1986-08-06 1997-02-05 日本電信電話株式会社 単語音声予備選択装置
GB8908205D0 (en) 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
GB8911461D0 (en) 1989-05-18 1989-07-05 Smiths Industries Plc Temperature adaptors
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
IT1270919B (it) 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式

Also Published As

Publication number Publication date
DE69938374D1 (de) 2008-04-30
JP3078279B2 (ja) 2000-08-21
CA2270326A1 (en) 1999-11-07
JP2000029495A (ja) 2000-01-28
US6185528B1 (en) 2001-02-06
DE69938374T2 (de) 2009-04-30
CA2270326C (en) 2002-02-26
EP0955628B1 (en) 2008-03-19
EP0955628A3 (en) 2000-07-26
EP0955628A2 (en) 1999-11-10

Similar Documents

Publication Publication Date Title
ITTO980383A1 (it) Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
Young et al. Tree-based state tying for high accuracy modelling
CA2609247C (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
JPH08506430A (ja) 2経路検索による音声認識方法
JPH0583918B2 (it)
WO1996027872A1 (en) Speech recognition
Robinson et al. A neural network based, speaker independent, large vocabulary, continuous speech recognition system: The WERNICKE project
Renals et al. Decoder technology for connectionist large vocabulary speech recognition
rn Svendsen et al. Optimizing baseforms for HMM-based speech recognition
Lee et al. Acoustic modeling of subword units for speech recognition
Koo et al. A new decoder based on a generalized confidence score
Rose Word spotting from continuous speech utterances
JP3039634B2 (ja) 音声認識装置
Paul et al. The Lincoln large-vocabulary stack-decoder HMM CSR
Kershaw et al. The 1995 Abbot hybrid connectionist-HMM large-vocabulary recognition system
Li A detection approach to search-space reduction for HMM state alignment in speaker verification
JP3104900B2 (ja) 音声認識方法
JP3873418B2 (ja) 音声スポッティング装置
Stadermann et al. Multi-task learning strategies for a recurrent neural net in a hybrid tied-posteriors acoustic mode
JP3559479B2 (ja) 連続音声認識方法
Lee et al. Acoustic modeling of subword units for large vocabulary speaker independent speech recognition
JPH1097275A (ja) 大語彙音声認識装置
JP2731133B2 (ja) 連続音声認識装置
JP2738508B2 (ja) 統計的言語モデル作成装置及び音声認識装置
McDermott et al. Prototype-based MCE/GPD training for word spotting and connected word recognition