ITTO980383A1 - Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. - Google Patents
Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. Download PDFInfo
- Publication number
- ITTO980383A1 ITTO980383A1 IT98TO000383A ITTO980383A ITTO980383A1 IT TO980383 A1 ITTO980383 A1 IT TO980383A1 IT 98TO000383 A IT98TO000383 A IT 98TO000383A IT TO980383 A ITTO980383 A IT TO980383A IT TO980383 A1 ITTO980383 A1 IT TO980383A1
- Authority
- IT
- Italy
- Prior art keywords
- recognition
- hypotheses
- scores
- list
- hypothesis
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 30
- 230000001537 neural effect Effects 0.000 title claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 2
- 241000213951 Salmonella enterica subsp. enterica serovar Austin Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
Descrizionedell'invenzioneaventepertitolo:
"PROCEDIMENTO E DISPOSITIVO DI RICONOSCIMENTO VOCALE CON DOPPIOPASSODIRICONOSCIMENTO,NEURALEEMARKOVIANO"
Lapresenteinvenzione siriferisceaisistemidiriconoscimento automatico della voce ed in particolare riguarda un procedimento e un dispositivo per il riconoscimento di parole isolate in ampi vocabolari in cui le parole sono rappresentate componendo unità acustico-fonetiche della lingua e in cui il riconoscimentovieneeffettuatomedianteduepassisequenzialiincuisiutilizzano rispettivamenteletecnichedelleretineuraliedeimodellimarkovianieirisultati delleduetecnichesonocombinatiinmodoopportunopermigliorarel'accuratezza delriconoscimento.
Le reti neurali sono una struttura elaborativa parallela, che riproduce in forma molto semplificata l'organizzazione della corteccia cerebrale. Una rete neurale è costituita da numerose unità elaborative, dette neuroni, fortemente interconnesse mediante collegamenti di varia intensità dette sinapsi o pesi di interconnessione.Ineuronisonodispostiingeneresecondounastrutturaalivelli, unlivellodiingresso, unoopiùlivelliintermedieunlivellodiuscita. Partendo dalleunitàdiingresso,acuivienefornitoilsegnaledatrattare,l'elaborazionesi propaga ai livelli successivi della rete fino alle unità di uscita, che forniscono il risultato. Varie realizzazioni di reti neurali sono descritte, ad esempio, nel libro di D. Rumelhart "Parallel Distributed Processing", voi. 1 Foundations, MIT Press, Cambridge, Mass., 1986.
La tecnologia delle reti neurali è applicabile in molti settori, ed in particolare nel riconoscimento del parlato, in cui la rete neurale è utilizzata per stimare la probabilità P(Q | X) di un'unità fonetica Q data la rappresentazione parametrica X di una porzione di segnale vocale d’ingresso. Le parole da riconoscere sono rappresentate come concatenazione di unità fonetiche e si utilizza un algoritmo di programmazione dinamica per trovare la parola che ha la massima probabilità di essere quella effettivamente pronunciata.
I modelli markoviani nascosti (Hidden Markov Models ) sono una tecnologia classica per il riconoscimento del parlato. Un modello di questo tipo consiste di un certo numero di stati collegati dalle possibili transizioni. Alle transizioni è associata una probabilità di passare dallo stato di origine a quello di destinazione. Inoltre, ogni stato può emettere dei simboli da un alfabeto finito secondo una distribuzione di probabilità data. Nel caso di impiego per il riconoscimento del parlato, ogni modello rappresenta un'unità acustico-fonetica mediante un automa sinistra-destra in cui in ogni stato si può permanere con una transizione ciclica o passare al successivo. Ad ogni stato inoltre è associata una densità di probabilità definita su X, dove X rappresenta un vettore di parametri estratti dal segnale vocale ogni 10 ms. I simboli emessi, in base alla densità di probabilità associata allo stato, sono quindi gli infiniti possibili vettori di parametri X. Questa densità di probabilità è data da una mistura di gaussiane nello spazio multidimensionale dei vettori d’ingresso.
Anche nel caso dei modelli markoviani nascosti le parole da riconoscere sono rappresentate come concatenazione di unità fonetiche e si utilizza un algoritmo di programmazione dinamica (algoritmo di Viterbi) per trovare la parola generata con la massima probabilità, dato il segnale vocale d’ingresso.
Maggiori dettagli su questa tecnica di riconoscimento si possono trovare p. es, in L. Rabiner, B-H. Juang: "Fundamentals of speech recognition", Prentice Hall, Englewood Cliffs, New Jersey (USA)
Il metodo oggetto della presente invenzione utilizza entrambe le tecniche delle reti neurali e dei modelli markoviani, mediante un doppio passo di riconoscimento e una ricombinazione dei risultati ottenuti con le due tecniche.
Un sistema di riconoscimento in cui vengono ricombinati i punteggi di riconoscitori differenti per il miglioramento delle prestazioni in termini di accuratezza di riconoscimento è illustrato nella memoria "Speech recognition using segmentai neural nets" di S. Austin, G. Zavaliagkos, J. Makhoul e R. Schwartz presentata alla conferenza ICASSP '92, San Francisco, 23-26 Marzo 1992.
Questo sistema noto effettua un primo riconoscimento con l’utilizzo dei modelli markoviani nascosti, fornendo una lista delle N migliori ipotesi di riconoscimento (p. es: 20), cioè delle N frasi che hanno la maggior probabilità di essere quella effettivamente pronunciata, insieme a un rispettivo punteggio di verosimiglianza. Lo stadio markoviano di riconoscimento provvede anche a una segmentazione fonetica di ciascuna ipotesi e trasferisce il risultato della segmentazione a un secondo stadio di riconoscimento basato su una rete neurale. Questo opera un riconoscimento a partire dai segmenti fonetici forniti dal primo passo markoviano e fornisce a sua volta una lista di ipotesi associate ognuna un punteggio di verosimiglianza in base alla tecnica di riconoscimento neurale. I due punteggi sono poi combinati linearmente per formare una lista unica, e la migliore ipotesi risultante dalla combinazione viene scelta come frase riconosciuta.
Un sistema di questo tipo presenta alcuni inconvenienti. Un primo inconveniente è legato al fatto di effettuare il riconoscimento nel secondo stadio a partire dai segmenti fonetici fomiti dal primo stadio: in presenza di eventuali errori temporali nella segmentazione, il secondo stadio commetterà a sua volta errori di riconoscimento che quindi si propagano alla lista finale. Inoltre, il sistema non si presta bene al riconoscimento di parole isolate all’intemo di grandi vocabolari, per il fatto di presentare come primo stadio il riconoscitore markoviano, che in tali particolari condizioni risulta un po' meno efficiente di quello neurale in termini di onere computazionale. Ancora, tenuto conto che le ipotesi fornite da un riconoscitore markoviano e da un riconoscitore a rete neurale hanno dinamica dei punteggi notevolmente diverse, una semplice combinazione lineare dei punteggi può dare risultati non significativi. Infine, il sistema noto non fornisce alcuna indicazione sull’affidabilità del riconoscimento effettuato.
Il disporre di questa informazione nel caso di riconoscimento di parole isolate è invece una caratteristica molto importante: in effetti questi sistemi, come prassi generale, richiedono all’utilizzatore una conferma della parola pronunciata, ciò che allunga i tempi della procedura. Disponendo dell’informazione di affidabilità il sistema può richiedere la conferma solo quando l’affidabilità del riconoscimento scende sotto una certa soglia, rendendo la procedura più rapida, con vantaggi sia per l’utilizzatore che per il gestore del sistema.
Lo scopo dell’invenzione è quello di fornire un procedimento e un dispositivo di riconoscimento del tipo suddetto che è particolarmente studiato per il riconoscimento di parole isolate all’interno di grandi vocabolari e che consente di migliorare l'accuratezza del riconoscimento e inoltre di ottenere una stima dell’affidabilità del riconoscimento.
Più in particolare, il procedimento secondo l’invenzione è caratterizzato dal fatto che i due passi di riconoscimento operano in sequenza su una stessa espressione da riconoscere in modo tale che il passo neurale esamini l’intero vocabolario attivo e il passo markoviano esamini solo un vocabolario parziale rappresentato dalla lista di ipotesi fornita come risultato del passo neurale, e dal fatto che si valuta inoltre l’affidabilità del riconoscimento per la ipotesi migliore della lista riordinata, sulla base dei punteggi risultanti dalla combinazione e associati a tale ipotesi migliore e a una o più ipotesi che occupano posizioni successive nella lista riordinata, generando un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo e riconoscimento incerto.
Un riconoscitore per realizzare il procedimento è caratterizzato dal fatto che l’unità di riconoscimento a rete neurale è disposta a monte dell’unità di riconoscimento basata sui modelli markoviani nascosti ed è atta a effettuare il rispettivo riconoscimento operando sull’intero vocabolario attivo, e l’unità di riconoscimento basata sui modelli markoviani nascosti è atta a effettuare il riconoscimento in maniera indipendente da quello effettuato dall’unità di riconoscimento a rete neurale operando su un vocabolario parziale costituito dalle ipotesi contenute nella lista fornita da quest’ultima; e dal fatto che l’unità elaborativa comprende mezzi per valutare l’affidabilità del riconoscimento per l’ipotesi che ha il miglior punteggio di verosimiglianza nella lista di ipotesi riordinata, utilizzando i punteggi combinati associati alle ipotesi contenute nella lista riordinata, detti mezzi di valutazione essendo atti a fornire un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo o incerto per tale ipotesi.
A maggior chiarimento si fa riferimento ai disegni allegati, in cui:
- la fig. 1 è uno schema a blocchi di un sistema di riconoscimento secondo l’invenzione.
- la fig. 2 è un diagramma di flusso del procedimento di riconoscimento secondo l’invenzione,
- la fig. 3 è un diagramma di flusso delle operazioni di combinazione dei punteggi, e
- la fig. 4 è un diagramma di flusso delle operazioni di calcolo dell’affidabilità del riconoscimento.
La descrizione che segue è fatta a titolo di esempio non limitativo supponendo che l’invenzione sia impiegata per il riconoscimento di parole isolate.
Nella fig. 1 si vede che il sistema di riconoscimento secondo l’invenzione comprende due riconoscitori NE, MA operanti in due passi di riconoscimento successivi e indipendenti sul segnale vocale in arrivo sulla linea 1. Come usuale nella tecnica, il segnale presente sulla linea 1 sarà un’opportuna rappresentazione parametrica (p. es. una rappresentazione cepstrale) di una parola pronunciata dal parlatore, ottenuta in dispositivi di trattamento non rappresentati e organizzata in trame della durata p. es. di 10 - 15 ms.
Il riconoscitore NE che opera nel primo passo è basato sulla tecnologia delle reti neurali ed effettua il riconoscimento utilizzando l’intero vocabolario attivo. NE fornisce su un’uscita 2 una lista delle M(nn) parole che costituiscono le migliori ipotesi di riconoscimento secondo lo specifico tipo di rete neurale e sono associate ognuna a un rispettivo punteggio di verosimiglianza acustica nnj.
L’uscita 2 di NE è collegata anche al secondo riconoscitore MA, che riceve anch’esso il segnale presente sulla connessione 1 ed effettua un riconoscimento in base alla tecnica dei modelli markoviani nascosti, limitando però il campo di scelta delle possibili ipotesi di riconoscimento al vocabolario rappresentato dalle M(nn) parole individuate dal riconoscitore NE. MA fornisce a sua volta su un’uscita 3 una lista di M(hmm) parole che costituiscono le migliori ipotesi di riconoscimento secondo il modello markoviano e sono associate ognuna a un rispettivo punteggio di verosimiglianza acustica hmmj.
In modo del tutto convenzionale, le due liste sono emesse come liste ordinate. Si noti che nel caso più generale esse possono avere lunghezza diversa anche se, date le modalità di operazione di MA, le M(hmm) parole fornite da MA saranno un sottoinsieme delle M(nn) parole fornite da NE.
Le uscite 2, 3 dei due riconoscitori NE, MA sono collegate a un dispositivo di elaborazione dei punteggi EL che deve compiere due tipi di operazione:
1) effettuare un trattamento dei punteggi delle parole presenti nelle due liste, basato su una normalizzazione dei punteggi di ciascuna parola e su una combinazione dei punteggi normalizzati, e, a conclusione del trattamento, fornire su una prima uscita 4 del dispositivo una nuova lista riordinata in base ai punteggi combinati;
2) se entrambi i riconoscitori NE, MA hanno individuato una stessa parola come migliore ipotesi di riconoscimento, calcolare ed emettere su una seconda uscita 5 un indice di affidabilità di questa parola (che ovviamente risulterà la migliore ipotesi nella lista combinata), verificando che siano soddisfatte certe condizioni per i punteggi di verosimiglianza all’intemo di tale lista combinata.
Tenuto conto di questa duplice funzione, all’interno dei dispositivi EL di elaborazione dei punteggi si sono rappresentati in figura tre blocchi funzionali UE1, CM, UE2. UE1 è un’unità elaborativa che ha il compito di effettuare le operazioni relative alla normalizzazione dei punteggi delle due liste fomite da NE e MA, alla combinazione dei punteggi normalizzati e alla generazione della lista riordinata in base ai punteggi combinati, che viene emessa su una prima uscita 4 del riconoscitore. CM è un’unità di confronto che ha il compito di verificare se la migliore parola riconosciuta è la stessa nelle due liste e, in caso di esito positivo, di abilitare l’unità UE2. Questa a sua volta è un’unità elaborativa che ha il compito di verificare se le condizioni desiderate per i punteggi combinati sono soddisfatte e di emettere di conseguenza l’indice di affidabilità su una seconda uscita 5 del riconoscitore. Nell’esempio di realizzazione qui descritto si supporrà che tale indice possa assumere due valori, corrispondenti rispettivamente a "riconoscimento certo" e a "riconoscimento incerto".
Le modalità con cui le unità UE1, UE2 effettuano le operazioni indicate sopra saranno descritte con maggiori dettagli in seguito.
La soluzione adottata, con l’unità di riconoscimento neurale NE posta a monte dell’unità di riconoscimento markoviana MA migliora l’efficienza complessiva. In effetti la tecnologia delle reti neurali consente maggiori velocità di riconoscimento su vocabolari grandi, mentre quella markoviana ha migliori prestazioni su vocabolari più limitati: utilizzando il riconoscitore markoviano MA nella seconda fase, dove si utilizza solo il vocabolario corrispondente alle M(nn) migliori ipotesi ottenute con il riconoscitore neurale NE, si possono ridurre i tempi globali di riconoscimento.
I vantaggi in termini di velocità fomiti dalle reti neurali sono ottenuti in particolar modo se il riconoscitore neurale NE è del tipo in cui la propagazione dei risultati delle elaborazioni è di tipo incrementale (cioè NE comprende una rete a più livelli in cui si propagano da un livello a quello superiore solo le differenze significative tra i valori di attivazione dei neuroni in istanti successivi), come descritto p. es. nella domanda di brevetto europeo EP-A 0 733 982 a nome della stessa Richiedente. Non vi sono particolari esigenze per il riconoscitore markoviano MA, che può essere di uno qualsiasi dei tipi noti nella tecnica.
Si noti che la fig. 1 è uno schema puramente funzionale, e quindi i blocchi UE1, CM, UE2 corrisponderanno in generale parti diverse di un programma memorizzato nei dispositivi di elaborazione EL. Tenuto conto che anche i singoli riconoscitori NE, MA sono a loro volta implementati su dispositivi di elaborazione opportunamente programmati, è chiaro che uno stesso dispositivo di elaborazione può svolgere i compiti di più di imo dei blocchi rappresentati.
L’intero processo di riconoscimento svolto dal dispositivo di fig. 1 è anche rappresentato sotto forma di diagramma di flusso in fig. 2. Data la descrizione che precede, non sono necessarie ulteriori spiegazioni.
Venendo ora alle operazioni relative al trattamento dei punteggi delle ipotesi comprese nelle due liste fornite da NE e MA, il primo passo compiuto da UE1 è il calcolo della media μ(ηη), μ(ΐιιηπι) e della varianza σ(ηη), d(hmm) dei punteggi per ciascuna delle due liste secondo le ben note formule:
dove M(hmm) , M(nn), nnj, hmmj hanno il significato già visto.
Successivamente si procede a una normalizzazione dei punteggi rispetto alla media e alla varianza, in modo da ottenere due liste NNi, HMMj di punteggi a media nulla e varianza unitaria. A questo scopo UEl esegue le operazioni rappresentate dalle relazioni seguenti:
UEl effettua il calcolo della media e della varianza dei punteggi (e la normalizzazione) per una lista solo se il numero di parole in quella lista non è inferiore a una certa soglia M. Nell’esempio preferito di realizzazione si è posto M = 3, cioè il valore minimo per il quale il calcolo della media e della varianza sono possibili. Se il numero di parole in una lista è inferiore alla soglia M, invece del punteggio fornito dal rispettivo riconoscitore, UEl utilizza valori di punteggio prefissati. Questo costituisce a sua volta una sorta di normalizzazione. In prove effettuate si sono assegnati al punteggio un valore di 3,0 nel caso di una sola ipotesi e valori di 2,0 e 1,0 nel caso di due sole ipotesi. Il riconoscitore si è comunque dimostrato poco sensibile al valore di questi parametri, e quindi qualsiasi valore che corrisponda a una buona verosimiglianza può essere utilizzato.
Infine si passa alla combinazione vera e propria dei punteggi associati nelle due liste a una stessa parola IP^HMM), I3⁄4(NN) per generare la lista finale di possibili parole, che viene poi riordinata in base al punteggio combinato. La combinazione è una combinazione lineare, cosicché nella nuova lista ognuna delle parole IPx ha un punteggio combinato Sx dato da
dove a e β sono i pesi attribuiti a ciascuno dei due riconoscitori.
Preferibilmente, i due pesi (memorizzati all’interno dell’unità UE1) soddisfano alla relazione β = 1 - a, dove a = 0,5 se i riconoscitori hanno prestazioni sostanzialmente analoghe Nel caso di prestazioni alquanto diverse, un intervallo adatto di valori di a e β può essere 0,4 - 0,6
Evidentemente, la combinazione dei punteggi non viene effettuata nel caso di parole presenti in una sola lista. Queste parole (generalmente appartenenti alla lista fornita dalla rete neurale, per le ragioni dette sopra) possono essere scartate oppure possono essere associate a un punteggio minimo, in modo da essere inserite nella lista finale dopo quelle per cui si è effettuata la combinazione dei punteggi.
Grazie alla normalizzazione, che dà liste con media nulla e varianza unitaria, si eliminano gli effetti dovuti alla diversa dinamica dei punteggi forniti dai due riconoscitori e si migliora la precisione del riconoscimento.
La procedura di trattamento è riportata anche nel diagramma di flusso di Fig. 3. Data la descrizione che precede, questo diagramma non ha bisogno di ulteriori illustrazioni.
Una volta che UE1 ha ottenuto i punteggi combinati e preparato la lista riordinata, il blocco UE2 può determinare l’affidabilità del riconoscimento della prima parola della lista stessa. Come detto, le operazioni di UE2 sono abilitate dal comparatore CM se questo riconosce che una stessa parola occupa la prima posizione nelle liste fornite da NE e MA, cioè IPl(NN) = IPl(HMM). Per la determinazione dell’affidabilità UE2 valuta il punteggio associato alla parola migliore e le differenze di punteggio tra questa e alcune delle parole successive nella lista. In particolare, affinché il riconoscimento sia considerato "certo", contemporaneamente alla condizione relativa all’identità della migliore parola nelle due liste, devono essere soddisfatte le seguenti condizioni:
1) il punteggio combinato SI della prima parola della lista riordinata deve essere superiore a una prima soglia Tl;
2) le differenze tra il punteggio combinato SI associato alla prima parola della lista riordinata e quelli S2, S5 associati alla seconda e alla quinta parola sono rispettivamente superiori a una seconda e a una terza soglia T2, T3.
Le differenze SI - S2 e SI - S5 vengono calcolate e confrontate con le rispettive soglie verificate solo se è presente un sufficiente numero di ipotesi; in caso contrario la condizione 2) è considerata automaticamente soddisfatta.
I valori delle soglie sono stabiliti in base all'applicazione in cui viene inserito il riconoscitore. Per esempio, negli esperimenti effettuati si sono adottati i seguenti valori):
E’ intuitivo vedere come le condizioni indicate sopra, (che oltre all’identità della migliore ipotesi dì riconoscimento fornita dalle due liste richiedono anche un sufficiente distacco di punteggio tra l’ipotesi migliore e quelle successive nella lista), permettano di valutare effettivamente la certezza del riconoscimento.
Le operazioni di valutazione dell’affidabilità del riconoscimento sono anche rappresentate sotto forma di diagramma di flusso in fig. 4. Si noti che in questo diagramma la concordanza della migliore parola nelle due liste è stata indicata come una condizione da verificare congiuntamente alle altre condizioni, invece di essere considerata una condizione preliminare per la verifica delle altre condizioni, ma è evidente che si tratta unicamente di dettagli implementativi dello stesso principio. Per il resto, anche questo diagramma non ha bisogno di ulteriori illustrazioni.
E’ evidente che quanto descritto è dato unicamente a titolo di esempio non limitativo e che varianti e modifiche sono possibili senza uscire dal campo di protezione deirinvenzione. Per esempio, per la valutazione dell’affidabilità, si potrebbe solo verificare che il punteggio della parola migliore sia sufficientemente superiore a quello della seconda parola, eliminando il confronto con un’ulteriore parola (che potrebbe anche non essere la quinta, ma un’altra parola sufficientemente distante dalla seconda). Per la verifica dell’affidabilità del riconoscimento si potrebbero combinare diversamente le condizioni date - oppure aggiungere condizioni ulteriori - in modo da introdurre gradi di valutazione intermedi tra “certo” e “incerto”: per esempio, un grado di valutazione intermedio potrebbe essere rappresentato dalla verifica delle condizioni solo per le soglie TI e T2 ma non per T3. Infine, anche se si è fatto riferimento nella descrizione al riconoscimento di parole isolate, il riconoscitore potrebbe essere utilizzato anche per il parlato continuo.
Claims (16)
- Rivendicazioni 1. Procedimento per il riconoscimento vocale, in cui: si effettuano due passi di riconoscimento (NE, MA) basati l’uno sull’uso di reti neurali e l’altro sull’uso di modelli markoviani nascosti, fornendo rispettive liste di ipotesi di riconoscimento in cui ogni ipotesi è associata a un rispettivo punteggio di verosimiglianza acustica; si elaborano i punteggi di verosimiglianza di ciascuna lista; e si fornisce una lista unica riordinata in base ai punteggi elaborati, caratterizzato dal fatto che i due passi di riconoscimento (NE, MA) operano in sequenza su una stessa espressione da riconoscere in modo tale che il passo neurale (NE) esamini l’intero vocabolario attivo e il passo markoviano (MA) esamini solo un vocabolario parziale rappresentato dalla lista di ipotesi fornita come risultato del passo neurale (NE), e dal fatto che si valuta inoltre l’affidabilità del riconoscimento per la ipotesi migliore della lista riordinata, sulla base dei punteggi risultanti dalla combinazione e associati a tale ipotesi migliore e a una o più ipotesi che occupano posizioni successive nella lista riordinata, generando un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo e riconoscimento incerto.
- 2. Procedimento secondo la riv. 1, caratterizzato dal fatto che l’elaborazione dei punteggi di verosimiglianza comprende le seguenti operazioni: - calcolo della media e della varianza dei punteggi associati alle ipotesi in ciascuna delle liste, - normalizzazione dei punteggi associati alle ipotesi in ciascuna delle liste rispetto alla media e alla varianza, in modo da trasformare dette liste in liste in cui i punteggi hanno media nulla e varianza unitaria, - combinazione lineare dei punteggi normalizzati associati a ipotesi di riconoscimento presenti in entrambe le liste.
- 3. Procedimento secondo la riv. 2, caratterizzato dal fatto che si effettuano il calcolo della media e della varianza e la normalizzazione dei punteggi di una lista solo se questa comprende un numero di ipotesi non inferiore a un minimo.
- 4. Procedimento secondo la riv. 3, caratterizzato dal fatto che per una lista comprendente un numero di ipotesi inferiore a detto minimo si assegnano valori prefissati ai punteggi delle ipotesi in essa contenute.
- 5. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 4, caratterizzato dal fatto che per detta combinazione lineare si pesano i punteggi delle ipotesi presenti nelle due liste con pesi che hanno somma unitaria.
- 6. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 6, caratterizzato dal fatto che per la creazione di detta lista unica le ipotesi presenti in una sola lista sono scartate.
- 7. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 5, caratterizzato dal fatto che per la creazione di detta lista unica alle ipotesi presenti in una sola lista si attribuisce un punteggio minimo, inferiore al minor punteggio combinato di un’ipotesi presente in entrambe le liste.
- 8. Procedimento secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta valutazione deiraffidabilità del riconoscimento per la migliore ipotesi di riconoscimento nella lista riordinata viene effettuata se tale ipotesi era la migliore in entrambe le liste, e comprende le operazioni di: - confrontare il punteggio combinato associato a detta ipotesi migliore con una prima soglia, e - calcolare una prima differenza di punteggi, data dalla differenza tra il punteggio combinato associato a detta ipotesi migliore e quello associato all’ipotesi con punteggio immediatamente inferiore, e - confrontare detta prima differenza con una seconda soglia; e dal fatto che si assegna all’indice di affidabilità il valore corrispondente a riconoscimento certo se detto punteggio combinato e detta prima differenza sono entrambi superiori alla rispettiva soglia.
- 9. Procedimento secondo la riv. 8, caratterizzato dal fatto che detta valutazione dell’affidabilità del riconoscimento comprende anche le operazioni di: - calcolare una seconda differenza di punteggi, data dalla differenza tra il punteggio combinato associato a detta ipotesi migliore e quello associato a un’ulteriore ipotesi che occupa ima posizione distanziata di un numero prestabilito di posizioni nella lista riordinata, e - confrontare detta seconda differenza con una terza soglia, e dal fatto che si assegna all’indice di affidabilità il valore corrispondente riconoscimento certo se anche detta ulteriore differenza è superiore alla soglia.
- 10. Procedimento secondo la riv. 8 o 9, caratterizzato dal fatto che il calcolo di dette differenze viene effettuato solo in presenza di liste comprendenti un numero di ipotesi non inferiore a un minimo.
- 11. Procedimento secondo la riv. 10, caratterizzato dal fatto che in presenza di liste comprendenti un numero dì ipotesi inferiore a detto minimo la condizione di superamento della seconda e terza soglia è considerata soddisfatta.
- 12. Riconoscitore vocale, comprendente: - una coppia di unità di riconoscimento (NN, MA) collegate in cascata, le quali utilizzano rispettivamente una tecnica di riconoscimento basata sull’impiego di reti neurali e una tecnica di riconoscimento basata su modelli markoviani nascosti, fornendo rispettive liste di ipotesi di riconoscimento in cui ogni ipotesi è associata a un rispettivo punteggio di verosimiglianza acustica; e - un’unità elaborativa (EL), comprendente mezzi (UE1) per effettuare una combinazione dei punteggi di verosimiglianza determinati dalle due unità di riconoscimento (NN, MA) e fornire una lista riordinata in base ai punteggi combinati , caratterizzato dal fatto che l’unità di riconoscimento a rete neurale (NN) è disposta a monte dell’unità di riconoscimento (MA) basata sui modelli markoviani nascosti ed è atta a effettuare il rispettivo riconoscimento operando sull’intero vocabolario attivo, e l’unità di riconoscimento (MA) basata sui modelli markoviani nascosti è atta a effettuare il riconoscimento in maniera indipendente da quello effettuato dall’unità di riconoscimento a rete neurale (NN) operando su un vocabolario parziale costituito dalle ipotesi contenute nella lista fornita da quest’ultima; e dal fatto che l’unità elaborativa (EL) comprende mezzi (CM, UE2) per valutare l’affidabilità del riconoscimento per l’ipotesi che ha il miglior punteggio di verosimiglianza nella lista di ipotesi riordinata, utilizzando i punteggi combinati associati alle ipotesi contenute nella lista riordinata, detti mezzi di valutazione (CM, UE2) essendo atti a fornire un indice di affidabilità che può assumere almeno due. valori corrispondenti rispettivamente a riconoscimento certo o incerto per tale ipotesi.
- 13. Riconoscitore secondo la riv. 12, caratterizzato dal fatto che detti mezzi di combinazione (UE1) in detta unità elaborativa (EL) sono atti a combinare linearmente punteggi di verosimiglianza associati a ipotesi di riconoscimento presenti in entrambe le liste, dopo averli sottoposti a una pre-elaborazione comprendente le operazioni di: - calcolo della media e della varianza dei punteggi associati a dette ipotesi nella rispettiva lista, - normalizzazione dei punteggi associati a dette ipotesi rispetto alla media e alla varianza della rispettiva lista, in modo da trasformare dette liste in liste di punteggi a media nulla e varianza unitaria.
- 14. Riconoscitore secondo la riv. 13, caratterizzato dal fatto che detti mezzi di combinazione (UE1) sono abilitati a effettuare il calcolo della media e della varianza e la normalizzazione dei punteggi delle liste fomite da ciascuna unità di riconoscimento (NN, MA) solo se tali liste comprendono un numero di ipotesi non inferiore a un minimo.
- 15. Riconoscitore secondo una qualsiasi delle rivendicazioni 12 - 14, caratterizzato dal fatto che detti mezzi di valutazione dell’affidabilità del riconoscimento (CM, UE2) comprendono primi mezzi di confronto (CM) per confrontare la migliore ipotesi di riconoscimento individuata dall’unità di riconoscimento a rete neurale (NN) con quella fornita dall’unità di riconoscimento (MA) basata sui modelli markoviani nascosti ed emettere un segnale di abilitazione se tali migliori ipotesi coincidono, e secondi mezzi di confronto (UE2), abilitati da detto segnale di abilitazione e atti a confrontare con rispettive soglie il punteggio della migliore ipotesi della lista riordinata e la differenza tra il punteggio associato alla migliore ipotesi della lista riordinata e quello associato all’ipotesi con punteggio immediatamente inferiore, e ad emettere detto indice di affidabilità con valore corrispondente a riconoscimento certo quando detto punteggio e detta differenza superano la rispettiva soglia.
- 16. Riconoscitore secondo la riv. 15, caratterizzato dal fatto che detti secondi mezzi di confronto (UE2) sono atti a confrontare con un’ulteriore soglia la differenza tra il punteggio associato alla migliore ipotesi della lista riordinata e quello associato a un’ipotesi che occupa una posizione successiva e distanziata di un numero prestabilito di posizioni nella lista riordinata, e ad emettere detto indice di affidabilità con valore corrispondente a riconoscimento certo quando anche tale differenza supera detta soglia ulteriore.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT98TO000383A ITTO980383A1 (it) | 1998-05-07 | 1998-05-07 | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
CA002270326A CA2270326C (en) | 1998-05-07 | 1999-04-28 | A method of and a device for speech recognition employing neural network and markov model recognition techniques |
US09/302,210 US6185528B1 (en) | 1998-05-07 | 1999-04-29 | Method of and a device for speech recognition employing neural network and markov model recognition techniques |
EP99108530A EP0955628B1 (en) | 1998-05-07 | 1999-05-04 | A method of and a device for speech recognition employing neural network and Markov model recognition techniques |
DE69938374T DE69938374T2 (de) | 1998-05-07 | 1999-05-04 | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle |
JP11125902A JP3078279B2 (ja) | 1998-05-07 | 1999-05-06 | ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT98TO000383A ITTO980383A1 (it) | 1998-05-07 | 1998-05-07 | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
Publications (1)
Publication Number | Publication Date |
---|---|
ITTO980383A1 true ITTO980383A1 (it) | 1999-11-07 |
Family
ID=11416735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT98TO000383A ITTO980383A1 (it) | 1998-05-07 | 1998-05-07 | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
Country Status (6)
Country | Link |
---|---|
US (1) | US6185528B1 (it) |
EP (1) | EP0955628B1 (it) |
JP (1) | JP3078279B2 (it) |
CA (1) | CA2270326C (it) |
DE (1) | DE69938374T2 (it) |
IT (1) | ITTO980383A1 (it) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6148284A (en) * | 1998-02-23 | 2000-11-14 | At&T Corporation | Method and apparatus for automatic speech recognition using Markov processes on curves |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
JP4802434B2 (ja) * | 2000-02-28 | 2011-10-26 | ソニー株式会社 | 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体 |
US6662158B1 (en) * | 2000-04-27 | 2003-12-09 | Microsoft Corporation | Temporal pattern recognition method and apparatus utilizing segment and frame-based models |
US6629073B1 (en) | 2000-04-27 | 2003-09-30 | Microsoft Corporation | Speech recognition method and apparatus utilizing multi-unit models |
US6735562B1 (en) * | 2000-06-05 | 2004-05-11 | Motorola, Inc. | Method for estimating a confidence measure for a speech recognition system |
AU2001268293A1 (en) * | 2000-06-12 | 2001-12-24 | L And H Holdings Usa, Inc. | Using utterance-level confidence estimates |
US6754629B1 (en) * | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US7158935B1 (en) * | 2000-11-15 | 2007-01-02 | At&T Corp. | Method and system for predicting problematic situations in a automated dialog |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7398256B2 (en) * | 2001-02-23 | 2008-07-08 | The Trustees Of The University Of Pennsylvania | Dynamical brain model for use in data processing applications |
US6772116B2 (en) * | 2001-03-27 | 2004-08-03 | International Business Machines Corporation | Method of decoding telegraphic speech |
FR2825496B1 (fr) * | 2001-06-01 | 2003-08-15 | Synomia | Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises |
US7966177B2 (en) * | 2001-08-13 | 2011-06-21 | Hans Geiger | Method and device for recognising a phonetic sound sequence or character sequence |
TW517221B (en) * | 2001-08-24 | 2003-01-11 | Ind Tech Res Inst | Voice recognition system |
CA2597803C (en) * | 2005-02-17 | 2014-05-13 | Loquendo S.P.A. | Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system |
EP1889255A1 (en) * | 2005-05-24 | 2008-02-20 | Loquendo S.p.A. | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition |
US20100125459A1 (en) * | 2008-11-18 | 2010-05-20 | Nuance Communications, Inc. | Stochastic phoneme and accent generation using accent class |
US8660678B1 (en) * | 2009-02-17 | 2014-02-25 | Tonara Ltd. | Automatic score following |
US8260763B2 (en) * | 2010-01-15 | 2012-09-04 | Hewlett-Packard Devlopment Company, L.P. | Matching service entities with candidate resources |
WO2013125203A1 (ja) * | 2012-02-21 | 2013-08-29 | 日本電気株式会社 | 音声認識装置、音声認識方法およびコンピュータプログラム |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US20180247640A1 (en) * | 2013-12-06 | 2018-08-30 | Speech Morphing Systems, Inc. | Method and apparatus for an exemplary automatic speech recognition system |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US9520127B2 (en) * | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US9430667B2 (en) | 2014-05-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Managed wireless distribution network |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
US9627532B2 (en) * | 2014-06-18 | 2017-04-18 | Nuance Communications, Inc. | Methods and apparatus for training an artificial neural network for use in speech recognition |
US9717006B2 (en) | 2014-06-23 | 2017-07-25 | Microsoft Technology Licensing, Llc | Device quarantine in a wireless network |
US10304440B1 (en) * | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
KR102069699B1 (ko) | 2016-01-18 | 2020-01-23 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
US10665111B2 (en) * | 2016-08-01 | 2020-05-26 | Honeywell International Inc. | Portable datalink equipment for overhearing data or voice communications |
JP7326033B2 (ja) * | 2018-10-05 | 2023-08-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識装置、話者認識方法、及び、プログラム |
WO2020246033A1 (ja) * | 2019-06-07 | 2020-12-10 | 日本電信電話株式会社 | 学習装置、音声認識装置、それらの方法、およびプログラム |
WO2021144901A1 (ja) * | 2020-01-16 | 2021-07-22 | 日本電信電話株式会社 | 音声認識装置、方法及びプログラム |
US11783818B2 (en) * | 2020-05-06 | 2023-10-10 | Cypress Semiconductor Corporation | Two stage user customizable wake word detection |
KR20220010259A (ko) * | 2020-07-17 | 2022-01-25 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2577891B2 (ja) | 1986-08-06 | 1997-02-05 | 日本電信電話株式会社 | 単語音声予備選択装置 |
GB8908205D0 (en) | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
GB8911461D0 (en) | 1989-05-18 | 1989-07-05 | Smiths Industries Plc | Temperature adaptors |
US5278911A (en) * | 1989-05-18 | 1994-01-11 | Smiths Industries Public Limited Company | Speech recognition using a neural net |
JP2964507B2 (ja) * | 1989-12-12 | 1999-10-18 | 松下電器産業株式会社 | Hmm装置 |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
IT1270919B (it) | 1993-05-05 | 1997-05-16 | Cselt Centro Studi Lab Telecom | Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
JP3039408B2 (ja) | 1996-12-27 | 2000-05-08 | 日本電気株式会社 | 音類別方式 |
-
1998
- 1998-05-07 IT IT98TO000383A patent/ITTO980383A1/it unknown
-
1999
- 1999-04-28 CA CA002270326A patent/CA2270326C/en not_active Expired - Fee Related
- 1999-04-29 US US09/302,210 patent/US6185528B1/en not_active Expired - Lifetime
- 1999-05-04 DE DE69938374T patent/DE69938374T2/de not_active Expired - Lifetime
- 1999-05-04 EP EP99108530A patent/EP0955628B1/en not_active Expired - Lifetime
- 1999-05-06 JP JP11125902A patent/JP3078279B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE69938374D1 (de) | 2008-04-30 |
JP3078279B2 (ja) | 2000-08-21 |
CA2270326A1 (en) | 1999-11-07 |
JP2000029495A (ja) | 2000-01-28 |
US6185528B1 (en) | 2001-02-06 |
DE69938374T2 (de) | 2009-04-30 |
CA2270326C (en) | 2002-02-26 |
EP0955628B1 (en) | 2008-03-19 |
EP0955628A3 (en) | 2000-07-26 |
EP0955628A2 (en) | 1999-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ITTO980383A1 (it) | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. | |
Young et al. | Tree-based state tying for high accuracy modelling | |
CA2609247C (en) | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition | |
JPH08506430A (ja) | 2経路検索による音声認識方法 | |
JPH0583918B2 (it) | ||
WO1996027872A1 (en) | Speech recognition | |
Robinson et al. | A neural network based, speaker independent, large vocabulary, continuous speech recognition system: The WERNICKE project | |
Renals et al. | Decoder technology for connectionist large vocabulary speech recognition | |
rn Svendsen et al. | Optimizing baseforms for HMM-based speech recognition | |
Lee et al. | Acoustic modeling of subword units for speech recognition | |
Koo et al. | A new decoder based on a generalized confidence score | |
Rose | Word spotting from continuous speech utterances | |
JP3039634B2 (ja) | 音声認識装置 | |
Paul et al. | The Lincoln large-vocabulary stack-decoder HMM CSR | |
Kershaw et al. | The 1995 Abbot hybrid connectionist-HMM large-vocabulary recognition system | |
Li | A detection approach to search-space reduction for HMM state alignment in speaker verification | |
JP3104900B2 (ja) | 音声認識方法 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
Stadermann et al. | Multi-task learning strategies for a recurrent neural net in a hybrid tied-posteriors acoustic mode | |
JP3559479B2 (ja) | 連続音声認識方法 | |
Lee et al. | Acoustic modeling of subword units for large vocabulary speaker independent speech recognition | |
JPH1097275A (ja) | 大語彙音声認識装置 | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JP2738508B2 (ja) | 統計的言語モデル作成装置及び音声認識装置 | |
McDermott et al. | Prototype-based MCE/GPD training for word spotting and connected word recognition |