ITTO980383A1

ITTO980383A1 - Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Info

Publication number: ITTO980383A1
Application number: IT98TO000383A
Authority: IT
Inventors: Roberto Gemello; Luciano Fissore
Original assignee: Cselt Centro Studi Lab Telecom
Priority date: 1998-05-07
Filing date: 1998-05-07
Publication date: 1999-11-07
Also published as: DE69938374D1; JP3078279B2; CA2270326A1; JP2000029495A; US6185528B1; DE69938374T2; CA2270326C; EP0955628B1; EP0955628A3; EP0955628A2

Description

Descrizionedell'invenzioneaventepertitolo:

"PROCEDIMENTO E DISPOSITIVO DI RICONOSCIMENTO VOCALE CON DOPPIOPASSODIRICONOSCIMENTO,NEURALEEMARKOVIANO"

Lapresenteinvenzione siriferisceaisistemidiriconoscimento automatico della voce ed in particolare riguarda un procedimento e un dispositivo per il riconoscimento di parole isolate in ampi vocabolari in cui le parole sono rappresentate componendo unità acustico-fonetiche della lingua e in cui il riconoscimentovieneeffettuatomedianteduepassisequenzialiincuisiutilizzano rispettivamenteletecnichedelleretineuraliedeimodellimarkovianieirisultati delleduetecnichesonocombinatiinmodoopportunopermigliorarel'accuratezza delriconoscimento.

Le reti neurali sono una struttura elaborativa parallela, che riproduce in forma molto semplificata l'organizzazione della corteccia cerebrale. Una rete neurale è costituita da numerose unità elaborative, dette neuroni, fortemente interconnesse mediante collegamenti di varia intensità dette sinapsi o pesi di interconnessione.Ineuronisonodispostiingeneresecondounastrutturaalivelli, unlivellodiingresso, unoopiùlivelliintermedieunlivellodiuscita. Partendo dalleunitàdiingresso,acuivienefornitoilsegnaledatrattare,l'elaborazionesi propaga ai livelli successivi della rete fino alle unità di uscita, che forniscono il risultato. Varie realizzazioni di reti neurali sono descritte, ad esempio, nel libro di D. Rumelhart "Parallel Distributed Processing", voi. 1 Foundations, MIT Press, Cambridge, Mass., 1986.

La tecnologia delle reti neurali è applicabile in molti settori, ed in particolare nel riconoscimento del parlato, in cui la rete neurale è utilizzata per stimare la probabilità P(Q | X) di un'unità fonetica Q data la rappresentazione parametrica X di una porzione di segnale vocale d’ingresso. Le parole da riconoscere sono rappresentate come concatenazione di unità fonetiche e si utilizza un algoritmo di programmazione dinamica per trovare la parola che ha la massima probabilità di essere quella effettivamente pronunciata.

I modelli markoviani nascosti (Hidden Markov Models ) sono una tecnologia classica per il riconoscimento del parlato. Un modello di questo tipo consiste di un certo numero di stati collegati dalle possibili transizioni. Alle transizioni è associata una probabilità di passare dallo stato di origine a quello di destinazione. Inoltre, ogni stato può emettere dei simboli da un alfabeto finito secondo una distribuzione di probabilità data. Nel caso di impiego per il riconoscimento del parlato, ogni modello rappresenta un'unità acustico-fonetica mediante un automa sinistra-destra in cui in ogni stato si può permanere con una transizione ciclica o passare al successivo. Ad ogni stato inoltre è associata una densità di probabilità definita su X, dove X rappresenta un vettore di parametri estratti dal segnale vocale ogni 10 ms. I simboli emessi, in base alla densità di probabilità associata allo stato, sono quindi gli infiniti possibili vettori di parametri X. Questa densità di probabilità è data da una mistura di gaussiane nello spazio multidimensionale dei vettori d’ingresso.

Anche nel caso dei modelli markoviani nascosti le parole da riconoscere sono rappresentate come concatenazione di unità fonetiche e si utilizza un algoritmo di programmazione dinamica (algoritmo di Viterbi) per trovare la parola generata con la massima probabilità, dato il segnale vocale d’ingresso.

Maggiori dettagli su questa tecnica di riconoscimento si possono trovare p. es, in L. Rabiner, B-H. Juang: "Fundamentals of speech recognition", Prentice Hall, Englewood Cliffs, New Jersey (USA)

Il metodo oggetto della presente invenzione utilizza entrambe le tecniche delle reti neurali e dei modelli markoviani, mediante un doppio passo di riconoscimento e una ricombinazione dei risultati ottenuti con le due tecniche.

Un sistema di riconoscimento in cui vengono ricombinati i punteggi di riconoscitori differenti per il miglioramento delle prestazioni in termini di accuratezza di riconoscimento è illustrato nella memoria "Speech recognition using segmentai neural nets" di S. Austin, G. Zavaliagkos, J. Makhoul e R. Schwartz presentata alla conferenza ICASSP '92, San Francisco, 23-26 Marzo 1992.

Questo sistema noto effettua un primo riconoscimento con l’utilizzo dei modelli markoviani nascosti, fornendo una lista delle N migliori ipotesi di riconoscimento (p. es: 20), cioè delle N frasi che hanno la maggior probabilità di essere quella effettivamente pronunciata, insieme a un rispettivo punteggio di verosimiglianza. Lo stadio markoviano di riconoscimento provvede anche a una segmentazione fonetica di ciascuna ipotesi e trasferisce il risultato della segmentazione a un secondo stadio di riconoscimento basato su una rete neurale. Questo opera un riconoscimento a partire dai segmenti fonetici forniti dal primo passo markoviano e fornisce a sua volta una lista di ipotesi associate ognuna un punteggio di verosimiglianza in base alla tecnica di riconoscimento neurale. I due punteggi sono poi combinati linearmente per formare una lista unica, e la migliore ipotesi risultante dalla combinazione viene scelta come frase riconosciuta.

Un sistema di questo tipo presenta alcuni inconvenienti. Un primo inconveniente è legato al fatto di effettuare il riconoscimento nel secondo stadio a partire dai segmenti fonetici fomiti dal primo stadio: in presenza di eventuali errori temporali nella segmentazione, il secondo stadio commetterà a sua volta errori di riconoscimento che quindi si propagano alla lista finale. Inoltre, il sistema non si presta bene al riconoscimento di parole isolate all’intemo di grandi vocabolari, per il fatto di presentare come primo stadio il riconoscitore markoviano, che in tali particolari condizioni risulta un po' meno efficiente di quello neurale in termini di onere computazionale. Ancora, tenuto conto che le ipotesi fornite da un riconoscitore markoviano e da un riconoscitore a rete neurale hanno dinamica dei punteggi notevolmente diverse, una semplice combinazione lineare dei punteggi può dare risultati non significativi. Infine, il sistema noto non fornisce alcuna indicazione sull’affidabilità del riconoscimento effettuato.

Il disporre di questa informazione nel caso di riconoscimento di parole isolate è invece una caratteristica molto importante: in effetti questi sistemi, come prassi generale, richiedono all’utilizzatore una conferma della parola pronunciata, ciò che allunga i tempi della procedura. Disponendo dell’informazione di affidabilità il sistema può richiedere la conferma solo quando l’affidabilità del riconoscimento scende sotto una certa soglia, rendendo la procedura più rapida, con vantaggi sia per l’utilizzatore che per il gestore del sistema.

Lo scopo dell’invenzione è quello di fornire un procedimento e un dispositivo di riconoscimento del tipo suddetto che è particolarmente studiato per il riconoscimento di parole isolate all’interno di grandi vocabolari e che consente di migliorare l'accuratezza del riconoscimento e inoltre di ottenere una stima dell’affidabilità del riconoscimento.

Più in particolare, il procedimento secondo l’invenzione è caratterizzato dal fatto che i due passi di riconoscimento operano in sequenza su una stessa espressione da riconoscere in modo tale che il passo neurale esamini l’intero vocabolario attivo e il passo markoviano esamini solo un vocabolario parziale rappresentato dalla lista di ipotesi fornita come risultato del passo neurale, e dal fatto che si valuta inoltre l’affidabilità del riconoscimento per la ipotesi migliore della lista riordinata, sulla base dei punteggi risultanti dalla combinazione e associati a tale ipotesi migliore e a una o più ipotesi che occupano posizioni successive nella lista riordinata, generando un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo e riconoscimento incerto.

Un riconoscitore per realizzare il procedimento è caratterizzato dal fatto che l’unità di riconoscimento a rete neurale è disposta a monte dell’unità di riconoscimento basata sui modelli markoviani nascosti ed è atta a effettuare il rispettivo riconoscimento operando sull’intero vocabolario attivo, e l’unità di riconoscimento basata sui modelli markoviani nascosti è atta a effettuare il riconoscimento in maniera indipendente da quello effettuato dall’unità di riconoscimento a rete neurale operando su un vocabolario parziale costituito dalle ipotesi contenute nella lista fornita da quest’ultima; e dal fatto che l’unità elaborativa comprende mezzi per valutare l’affidabilità del riconoscimento per l’ipotesi che ha il miglior punteggio di verosimiglianza nella lista di ipotesi riordinata, utilizzando i punteggi combinati associati alle ipotesi contenute nella lista riordinata, detti mezzi di valutazione essendo atti a fornire un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo o incerto per tale ipotesi.

A maggior chiarimento si fa riferimento ai disegni allegati, in cui:

- la fig. 1 è uno schema a blocchi di un sistema di riconoscimento secondo l’invenzione.

- la fig. 2 è un diagramma di flusso del procedimento di riconoscimento secondo l’invenzione,

- la fig. 3 è un diagramma di flusso delle operazioni di combinazione dei punteggi, e

- la fig. 4 è un diagramma di flusso delle operazioni di calcolo dell’affidabilità del riconoscimento.

La descrizione che segue è fatta a titolo di esempio non limitativo supponendo che l’invenzione sia impiegata per il riconoscimento di parole isolate.

Nella fig. 1 si vede che il sistema di riconoscimento secondo l’invenzione comprende due riconoscitori NE, MA operanti in due passi di riconoscimento successivi e indipendenti sul segnale vocale in arrivo sulla linea 1. Come usuale nella tecnica, il segnale presente sulla linea 1 sarà un’opportuna rappresentazione parametrica (p. es. una rappresentazione cepstrale) di una parola pronunciata dal parlatore, ottenuta in dispositivi di trattamento non rappresentati e organizzata in trame della durata p. es. di 10 - 15 ms.

Il riconoscitore NE che opera nel primo passo è basato sulla tecnologia delle reti neurali ed effettua il riconoscimento utilizzando l’intero vocabolario attivo. NE fornisce su un’uscita 2 una lista delle M(nn) parole che costituiscono le migliori ipotesi di riconoscimento secondo lo specifico tipo di rete neurale e sono associate ognuna a un rispettivo punteggio di verosimiglianza acustica nnj.

L’uscita 2 di NE è collegata anche al secondo riconoscitore MA, che riceve anch’esso il segnale presente sulla connessione 1 ed effettua un riconoscimento in base alla tecnica dei modelli markoviani nascosti, limitando però il campo di scelta delle possibili ipotesi di riconoscimento al vocabolario rappresentato dalle M(nn) parole individuate dal riconoscitore NE. MA fornisce a sua volta su un’uscita 3 una lista di M(hmm) parole che costituiscono le migliori ipotesi di riconoscimento secondo il modello markoviano e sono associate ognuna a un rispettivo punteggio di verosimiglianza acustica hmmj.

In modo del tutto convenzionale, le due liste sono emesse come liste ordinate. Si noti che nel caso più generale esse possono avere lunghezza diversa anche se, date le modalità di operazione di MA, le M(hmm) parole fornite da MA saranno un sottoinsieme delle M(nn) parole fornite da NE.

Le uscite 2, 3 dei due riconoscitori NE, MA sono collegate a un dispositivo di elaborazione dei punteggi EL che deve compiere due tipi di operazione:

1) effettuare un trattamento dei punteggi delle parole presenti nelle due liste, basato su una normalizzazione dei punteggi di ciascuna parola e su una combinazione dei punteggi normalizzati, e, a conclusione del trattamento, fornire su una prima uscita 4 del dispositivo una nuova lista riordinata in base ai punteggi combinati;

2) se entrambi i riconoscitori NE, MA hanno individuato una stessa parola come migliore ipotesi di riconoscimento, calcolare ed emettere su una seconda uscita 5 un indice di affidabilità di questa parola (che ovviamente risulterà la migliore ipotesi nella lista combinata), verificando che siano soddisfatte certe condizioni per i punteggi di verosimiglianza all’intemo di tale lista combinata.

Tenuto conto di questa duplice funzione, all’interno dei dispositivi EL di elaborazione dei punteggi si sono rappresentati in figura tre blocchi funzionali UE1, CM, UE2. UE1 è un’unità elaborativa che ha il compito di effettuare le operazioni relative alla normalizzazione dei punteggi delle due liste fomite da NE e MA, alla combinazione dei punteggi normalizzati e alla generazione della lista riordinata in base ai punteggi combinati, che viene emessa su una prima uscita 4 del riconoscitore. CM è un’unità di confronto che ha il compito di verificare se la migliore parola riconosciuta è la stessa nelle due liste e, in caso di esito positivo, di abilitare l’unità UE2. Questa a sua volta è un’unità elaborativa che ha il compito di verificare se le condizioni desiderate per i punteggi combinati sono soddisfatte e di emettere di conseguenza l’indice di affidabilità su una seconda uscita 5 del riconoscitore. Nell’esempio di realizzazione qui descritto si supporrà che tale indice possa assumere due valori, corrispondenti rispettivamente a "riconoscimento certo" e a "riconoscimento incerto".

Le modalità con cui le unità UE1, UE2 effettuano le operazioni indicate sopra saranno descritte con maggiori dettagli in seguito.

La soluzione adottata, con l’unità di riconoscimento neurale NE posta a monte dell’unità di riconoscimento markoviana MA migliora l’efficienza complessiva. In effetti la tecnologia delle reti neurali consente maggiori velocità di riconoscimento su vocabolari grandi, mentre quella markoviana ha migliori prestazioni su vocabolari più limitati: utilizzando il riconoscitore markoviano MA nella seconda fase, dove si utilizza solo il vocabolario corrispondente alle M(nn) migliori ipotesi ottenute con il riconoscitore neurale NE, si possono ridurre i tempi globali di riconoscimento.

I vantaggi in termini di velocità fomiti dalle reti neurali sono ottenuti in particolar modo se il riconoscitore neurale NE è del tipo in cui la propagazione dei risultati delle elaborazioni è di tipo incrementale (cioè NE comprende una rete a più livelli in cui si propagano da un livello a quello superiore solo le differenze significative tra i valori di attivazione dei neuroni in istanti successivi), come descritto p. es. nella domanda di brevetto europeo EP-A 0 733 982 a nome della stessa Richiedente. Non vi sono particolari esigenze per il riconoscitore markoviano MA, che può essere di uno qualsiasi dei tipi noti nella tecnica.

Si noti che la fig. 1 è uno schema puramente funzionale, e quindi i blocchi UE1, CM, UE2 corrisponderanno in generale parti diverse di un programma memorizzato nei dispositivi di elaborazione EL. Tenuto conto che anche i singoli riconoscitori NE, MA sono a loro volta implementati su dispositivi di elaborazione opportunamente programmati, è chiaro che uno stesso dispositivo di elaborazione può svolgere i compiti di più di imo dei blocchi rappresentati.

L’intero processo di riconoscimento svolto dal dispositivo di fig. 1 è anche rappresentato sotto forma di diagramma di flusso in fig. 2. Data la descrizione che precede, non sono necessarie ulteriori spiegazioni.

Venendo ora alle operazioni relative al trattamento dei punteggi delle ipotesi comprese nelle due liste fornite da NE e MA, il primo passo compiuto da UE1 è il calcolo della media μ(ηη), μ(ΐιιηπι) e della varianza σ(ηη), d(hmm) dei punteggi per ciascuna delle due liste secondo le ben note formule:

dove M(hmm) , M(nn), nnj, hmmj hanno il significato già visto.

Successivamente si procede a una normalizzazione dei punteggi rispetto alla media e alla varianza, in modo da ottenere due liste NNi, HMMj di punteggi a media nulla e varianza unitaria. A questo scopo UEl esegue le operazioni rappresentate dalle relazioni seguenti:

UEl effettua il calcolo della media e della varianza dei punteggi (e la normalizzazione) per una lista solo se il numero di parole in quella lista non è inferiore a una certa soglia M. Nell’esempio preferito di realizzazione si è posto M = 3, cioè il valore minimo per il quale il calcolo della media e della varianza sono possibili. Se il numero di parole in una lista è inferiore alla soglia M, invece del punteggio fornito dal rispettivo riconoscitore, UEl utilizza valori di punteggio prefissati. Questo costituisce a sua volta una sorta di normalizzazione. In prove effettuate si sono assegnati al punteggio un valore di 3,0 nel caso di una sola ipotesi e valori di 2,0 e 1,0 nel caso di due sole ipotesi. Il riconoscitore si è comunque dimostrato poco sensibile al valore di questi parametri, e quindi qualsiasi valore che corrisponda a una buona verosimiglianza può essere utilizzato.

Infine si passa alla combinazione vera e propria dei punteggi associati nelle due liste a una stessa parola IP^HMM), I3⁄4(NN) per generare la lista finale di possibili parole, che viene poi riordinata in base al punteggio combinato. La combinazione è una combinazione lineare, cosicché nella nuova lista ognuna delle parole IPx ha un punteggio combinato Sx dato da

dove a e β sono i pesi attribuiti a ciascuno dei due riconoscitori.

Preferibilmente, i due pesi (memorizzati all’interno dell’unità UE1) soddisfano alla relazione β = 1 - a, dove a = 0,5 se i riconoscitori hanno prestazioni sostanzialmente analoghe Nel caso di prestazioni alquanto diverse, un intervallo adatto di valori di a e β può essere 0,4 - 0,6

Evidentemente, la combinazione dei punteggi non viene effettuata nel caso di parole presenti in una sola lista. Queste parole (generalmente appartenenti alla lista fornita dalla rete neurale, per le ragioni dette sopra) possono essere scartate oppure possono essere associate a un punteggio minimo, in modo da essere inserite nella lista finale dopo quelle per cui si è effettuata la combinazione dei punteggi.

Grazie alla normalizzazione, che dà liste con media nulla e varianza unitaria, si eliminano gli effetti dovuti alla diversa dinamica dei punteggi forniti dai due riconoscitori e si migliora la precisione del riconoscimento.

La procedura di trattamento è riportata anche nel diagramma di flusso di Fig. 3. Data la descrizione che precede, questo diagramma non ha bisogno di ulteriori illustrazioni.

Una volta che UE1 ha ottenuto i punteggi combinati e preparato la lista riordinata, il blocco UE2 può determinare l’affidabilità del riconoscimento della prima parola della lista stessa. Come detto, le operazioni di UE2 sono abilitate dal comparatore CM se questo riconosce che una stessa parola occupa la prima posizione nelle liste fornite da NE e MA, cioè IPl(NN) = IPl(HMM). Per la determinazione dell’affidabilità UE2 valuta il punteggio associato alla parola migliore e le differenze di punteggio tra questa e alcune delle parole successive nella lista. In particolare, affinché il riconoscimento sia considerato "certo", contemporaneamente alla condizione relativa all’identità della migliore parola nelle due liste, devono essere soddisfatte le seguenti condizioni:

1) il punteggio combinato SI della prima parola della lista riordinata deve essere superiore a una prima soglia Tl;

2) le differenze tra il punteggio combinato SI associato alla prima parola della lista riordinata e quelli S2, S5 associati alla seconda e alla quinta parola sono rispettivamente superiori a una seconda e a una terza soglia T2, T3.

Le differenze SI - S2 e SI - S5 vengono calcolate e confrontate con le rispettive soglie verificate solo se è presente un sufficiente numero di ipotesi; in caso contrario la condizione 2) è considerata automaticamente soddisfatta.

I valori delle soglie sono stabiliti in base all'applicazione in cui viene inserito il riconoscitore. Per esempio, negli esperimenti effettuati si sono adottati i seguenti valori):

E’ intuitivo vedere come le condizioni indicate sopra, (che oltre all’identità della migliore ipotesi dì riconoscimento fornita dalle due liste richiedono anche un sufficiente distacco di punteggio tra l’ipotesi migliore e quelle successive nella lista), permettano di valutare effettivamente la certezza del riconoscimento.

Le operazioni di valutazione dell’affidabilità del riconoscimento sono anche rappresentate sotto forma di diagramma di flusso in fig. 4. Si noti che in questo diagramma la concordanza della migliore parola nelle due liste è stata indicata come una condizione da verificare congiuntamente alle altre condizioni, invece di essere considerata una condizione preliminare per la verifica delle altre condizioni, ma è evidente che si tratta unicamente di dettagli implementativi dello stesso principio. Per il resto, anche questo diagramma non ha bisogno di ulteriori illustrazioni.

E’ evidente che quanto descritto è dato unicamente a titolo di esempio non limitativo e che varianti e modifiche sono possibili senza uscire dal campo di protezione deirinvenzione. Per esempio, per la valutazione dell’affidabilità, si potrebbe solo verificare che il punteggio della parola migliore sia sufficientemente superiore a quello della seconda parola, eliminando il confronto con un’ulteriore parola (che potrebbe anche non essere la quinta, ma un’altra parola sufficientemente distante dalla seconda). Per la verifica dell’affidabilità del riconoscimento si potrebbero combinare diversamente le condizioni date - oppure aggiungere condizioni ulteriori - in modo da introdurre gradi di valutazione intermedi tra “certo” e “incerto”: per esempio, un grado di valutazione intermedio potrebbe essere rappresentato dalla verifica delle condizioni solo per le soglie TI e T2 ma non per T3. Infine, anche se si è fatto riferimento nella descrizione al riconoscimento di parole isolate, il riconoscitore potrebbe essere utilizzato anche per il parlato continuo.

Claims

Rivendicazioni 1. Procedimento per il riconoscimento vocale, in cui: si effettuano due passi di riconoscimento (NE, MA) basati l’uno sull’uso di reti neurali e l’altro sull’uso di modelli markoviani nascosti, fornendo rispettive liste di ipotesi di riconoscimento in cui ogni ipotesi è associata a un rispettivo punteggio di verosimiglianza acustica; si elaborano i punteggi di verosimiglianza di ciascuna lista; e si fornisce una lista unica riordinata in base ai punteggi elaborati, caratterizzato dal fatto che i due passi di riconoscimento (NE, MA) operano in sequenza su una stessa espressione da riconoscere in modo tale che il passo neurale (NE) esamini l’intero vocabolario attivo e il passo markoviano (MA) esamini solo un vocabolario parziale rappresentato dalla lista di ipotesi fornita come risultato del passo neurale (NE), e dal fatto che si valuta inoltre l’affidabilità del riconoscimento per la ipotesi migliore della lista riordinata, sulla base dei punteggi risultanti dalla combinazione e associati a tale ipotesi migliore e a una o più ipotesi che occupano posizioni successive nella lista riordinata, generando un indice di affidabilità che può assumere almeno due valori corrispondenti rispettivamente a riconoscimento certo e riconoscimento incerto.
2. Procedimento secondo la riv. 1, caratterizzato dal fatto che l’elaborazione dei punteggi di verosimiglianza comprende le seguenti operazioni: - calcolo della media e della varianza dei punteggi associati alle ipotesi in ciascuna delle liste, - normalizzazione dei punteggi associati alle ipotesi in ciascuna delle liste rispetto alla media e alla varianza, in modo da trasformare dette liste in liste in cui i punteggi hanno media nulla e varianza unitaria, - combinazione lineare dei punteggi normalizzati associati a ipotesi di riconoscimento presenti in entrambe le liste.
3. Procedimento secondo la riv. 2, caratterizzato dal fatto che si effettuano il calcolo della media e della varianza e la normalizzazione dei punteggi di una lista solo se questa comprende un numero di ipotesi non inferiore a un minimo.
4. Procedimento secondo la riv. 3, caratterizzato dal fatto che per una lista comprendente un numero di ipotesi inferiore a detto minimo si assegnano valori prefissati ai punteggi delle ipotesi in essa contenute.
5. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 4, caratterizzato dal fatto che per detta combinazione lineare si pesano i punteggi delle ipotesi presenti nelle due liste con pesi che hanno somma unitaria.
6. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 6, caratterizzato dal fatto che per la creazione di detta lista unica le ipotesi presenti in una sola lista sono scartate.
7. Procedimento secondo una qualsiasi delle rivendicazioni da 1 a 5, caratterizzato dal fatto che per la creazione di detta lista unica alle ipotesi presenti in una sola lista si attribuisce un punteggio minimo, inferiore al minor punteggio combinato di un’ipotesi presente in entrambe le liste.
8. Procedimento secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta valutazione deiraffidabilità del riconoscimento per la migliore ipotesi di riconoscimento nella lista riordinata viene effettuata se tale ipotesi era la migliore in entrambe le liste, e comprende le operazioni di: - confrontare il punteggio combinato associato a detta ipotesi migliore con una prima soglia, e - calcolare una prima differenza di punteggi, data dalla differenza tra il punteggio combinato associato a detta ipotesi migliore e quello associato all’ipotesi con punteggio immediatamente inferiore, e - confrontare detta prima differenza con una seconda soglia; e dal fatto che si assegna all’indice di affidabilità il valore corrispondente a riconoscimento certo se detto punteggio combinato e detta prima differenza sono entrambi superiori alla rispettiva soglia.
9. Procedimento secondo la riv. 8, caratterizzato dal fatto che detta valutazione dell’affidabilità del riconoscimento comprende anche le operazioni di: - calcolare una seconda differenza di punteggi, data dalla differenza tra il punteggio combinato associato a detta ipotesi migliore e quello associato a un’ulteriore ipotesi che occupa ima posizione distanziata di un numero prestabilito di posizioni nella lista riordinata, e - confrontare detta seconda differenza con una terza soglia, e dal fatto che si assegna all’indice di affidabilità il valore corrispondente riconoscimento certo se anche detta ulteriore differenza è superiore alla soglia.
10. Procedimento secondo la riv. 8 o 9, caratterizzato dal fatto che il calcolo di dette differenze viene effettuato solo in presenza di liste comprendenti un numero di ipotesi non inferiore a un minimo.
11. Procedimento secondo la riv. 10, caratterizzato dal fatto che in presenza di liste comprendenti un numero dì ipotesi inferiore a detto minimo la condizione di superamento della seconda e terza soglia è considerata soddisfatta.
12. Riconoscitore vocale, comprendente: - una coppia di unità di riconoscimento (NN, MA) collegate in cascata, le quali utilizzano rispettivamente una tecnica di riconoscimento basata sull’impiego di reti neurali e una tecnica di riconoscimento basata su modelli markoviani nascosti, fornendo rispettive liste di ipotesi di riconoscimento in cui ogni ipotesi è associata a un rispettivo punteggio di verosimiglianza acustica; e - un’unità elaborativa (EL), comprendente mezzi (UE1) per effettuare una combinazione dei punteggi di verosimiglianza determinati dalle due unità di riconoscimento (NN, MA) e fornire una lista riordinata in base ai punteggi combinati , caratterizzato dal fatto che l’unità di riconoscimento a rete neurale (NN) è disposta a monte dell’unità di riconoscimento (MA) basata sui modelli markoviani nascosti ed è atta a effettuare il rispettivo riconoscimento operando sull’intero vocabolario attivo, e l’unità di riconoscimento (MA) basata sui modelli markoviani nascosti è atta a effettuare il riconoscimento in maniera indipendente da quello effettuato dall’unità di riconoscimento a rete neurale (NN) operando su un vocabolario parziale costituito dalle ipotesi contenute nella lista fornita da quest’ultima; e dal fatto che l’unità elaborativa (EL) comprende mezzi (CM, UE2) per valutare l’affidabilità del riconoscimento per l’ipotesi che ha il miglior punteggio di verosimiglianza nella lista di ipotesi riordinata, utilizzando i punteggi combinati associati alle ipotesi contenute nella lista riordinata, detti mezzi di valutazione (CM, UE2) essendo atti a fornire un indice di affidabilità che può assumere almeno due. valori corrispondenti rispettivamente a riconoscimento certo o incerto per tale ipotesi.
13. Riconoscitore secondo la riv. 12, caratterizzato dal fatto che detti mezzi di combinazione (UE1) in detta unità elaborativa (EL) sono atti a combinare linearmente punteggi di verosimiglianza associati a ipotesi di riconoscimento presenti in entrambe le liste, dopo averli sottoposti a una pre-elaborazione comprendente le operazioni di: - calcolo della media e della varianza dei punteggi associati a dette ipotesi nella rispettiva lista, - normalizzazione dei punteggi associati a dette ipotesi rispetto alla media e alla varianza della rispettiva lista, in modo da trasformare dette liste in liste di punteggi a media nulla e varianza unitaria.
14. Riconoscitore secondo la riv. 13, caratterizzato dal fatto che detti mezzi di combinazione (UE1) sono abilitati a effettuare il calcolo della media e della varianza e la normalizzazione dei punteggi delle liste fomite da ciascuna unità di riconoscimento (NN, MA) solo se tali liste comprendono un numero di ipotesi non inferiore a un minimo.
15. Riconoscitore secondo una qualsiasi delle rivendicazioni 12 - 14, caratterizzato dal fatto che detti mezzi di valutazione dell’affidabilità del riconoscimento (CM, UE2) comprendono primi mezzi di confronto (CM) per confrontare la migliore ipotesi di riconoscimento individuata dall’unità di riconoscimento a rete neurale (NN) con quella fornita dall’unità di riconoscimento (MA) basata sui modelli markoviani nascosti ed emettere un segnale di abilitazione se tali migliori ipotesi coincidono, e secondi mezzi di confronto (UE2), abilitati da detto segnale di abilitazione e atti a confrontare con rispettive soglie il punteggio della migliore ipotesi della lista riordinata e la differenza tra il punteggio associato alla migliore ipotesi della lista riordinata e quello associato all’ipotesi con punteggio immediatamente inferiore, e ad emettere detto indice di affidabilità con valore corrispondente a riconoscimento certo quando detto punteggio e detta differenza superano la rispettiva soglia.
16. Riconoscitore secondo la riv. 15, caratterizzato dal fatto che detti secondi mezzi di confronto (UE2) sono atti a confrontare con un’ulteriore soglia la differenza tra il punteggio associato alla migliore ipotesi della lista riordinata e quello associato a un’ipotesi che occupa una posizione successiva e distanziata di un numero prestabilito di posizioni nella lista riordinata, e ad emettere detto indice di affidabilità con valore corrispondente a riconoscimento certo quando anche tale differenza supera detta soglia ulteriore.