ITMI20080794A1

ITMI20080794A1 - Metodo e sistema per convertire parlato in testo

Info

Publication number: ITMI20080794A1
Application number: IT000794A
Authority: IT
Inventors: Giacomo Olgeni; Mattia Scaricabarozzi
Original assignee: Colby S R L
Priority date: 2008-04-30
Filing date: 2008-04-30
Publication date: 2009-11-01
Also published as: WO2009132871A1; EP2283481A1

Description

DESCRIZIONE

La presente invenzione riguarda un metodo per convertire parlato in testo, ed in particolare un metodo che può essere impiegato per generare sottotitoli in diretta in trasmissioni televisive. La presente invenzione riguarda anche un sistema per realizzare tale metodo.

Noti sistemi per convertire un parlato in un testo comprendono un modulo campionatore che converte un segnale audio analogico di un parlato in un segnale audio digitale, nonché un modulo di riconoscimento vocale che converte il segnale audio digitale in dati di testo. Tali sistemi presentano alcuni inconvenienti quando il parlato viene generato da uno speaker, generalmente chiamato respeaker, per realizzare in tempo reale sottotitoli televisivi comprendenti i dati di testo.

Tali sistemi noti prevedono infatti che tutti i segni di interpunzione, gli stili dei caratteri, i colori e le altre funzioni di comando o formattazione del testo vengano dettati dallo speaker. Il tempo necessario allo speaker per compiere questa operazione aumenta inevitabilmente il ritardo tra le parole pronunciate nella trasmissione televisiva e le parole pronunciate dallo speaker, con conseguente ritardo dei sottotitoli ed aumento della probabilità che lo speaker perda il filo della trasmissione.

Inoltre, ogni parola non contenuta nel dizionario del sistema deve essere aggiunta manualmente ed addestrata dallo speaker pronunciandola una o più volte affinché il sistema la possa associare ai fonemi corrispondenti. Questa operazione può però essere svolta solo in anticipo, ovvero non durante il normale processo di dettatura, per cui se durante una trasmissione lo speaker deve pronunciare più volte una parola nuova, il sistema non potrà mai interpretare quest’ultima in maniera corretta.

Per di più, i sistemi noti convertono il parlato in testo con un certo ritardo, in quanto utilizzano il contesto della frase dettata per eliminare le ambiguità che si riscontrano inevitabilmente durante il processo di elaborazione dei fonemi, per cui generano i dati di testo solo quando lo speaker effettua una pausa nella dettatura, il che però è piuttosto raro quando egli cerca di seguire una trasmissione in tempo reale.

Scopo della presente invenzione è pertanto quello di fornire un metodo ed un sistema di conversione che siano esenti da tali inconvenienti. Detto scopo viene conseguito con un metodo ed un sistema le cui caratteristiche principali sono specificate rispettivamente nelle rivendicazioni 1 e 11, mentre altre caratteristiche sono specificate nelle restanti rivendicazioni.

Grazie ai particolari marker inseriti nel segnale audio digitale e convertiti in comandi nei dati di testo, il metodo ed il sistema secondo la presente invenzione consentono di inserire automaticamente nel parlato i comandi desiderati senza che il speaker sia costretto a pronunciarli, evitando così anche la fase di addestramento di nuove parole. Tali comandi possono comprendere uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili.

Inoltre, T associazione dei marker con i comandi può essere modificata in tempo reale da un supervisore in funzione delTargomento del parlato, senza modificare o addestrare nuovi marker. L’unico addestramento, da effettuare una volta sola per ciascun speaker, è richiesto per l’acquisizione dei fonemi utilizzati come marker.

Secondo un particolare aspetto dell’invenzione, i comandi associati ai marker inseriti nel segnale audio digitale sono confrontati con i comandi associati ai marker trovati nei dati di testo per consentire il rilevamento di eventuali errori di riconoscimento dei marker stessi.

II sistema secondo la presente invenzione è preferibilmente realizzato con una particolare struttura client-server, in modo che due o più speaker possono alternarsi in tempo reale nella dettatura di uno stesso testo particolarmente esteso.

Ulteriori vantaggi e caratteristiche del metodo e del sistema secondo la presente invenzione risulteranno evidenti agli esperti del ramo dalla seguente descrizione dettagliata e non limitativa di una loro forma realizzativa con riferimento agli annessi disegni in cui:

la figura 1 mostra un primo schema a blocchi del sistema;

la figura 2 mostra uno schema dell’inserimento di un marker;

la figura 3 mostra uno schema della correzione di una serie di marker; e

- la figura 4 mostra un secondo schema a blocchi del sistema.

Facendo riferimento alla figura 1, si vede che il sistema secondo la presente invenzione comprende in modo noto almeno un modulo campionatore SM che converte un segnale audio analogico AA in un segnale audio digitale DS. Il segnale audio analogico AA è un parlato S di un primo speaker SI captato da almeno un trasduttore, in particolare un microfono MIC. Il segnale audio analogico AA può essere elaborato da un processore audio AP, ad esempio comprendente stadi di equalizzazione, gate e compressione, prima che esso venga campionato dal modulo campionatore SM. Il segnale audio digitale DS contiene almeno una forma d’onda campionata SW sostanzialmente corrispondente al parlato S e viene trasmesso ad un modulo di riconoscimento vocale VRM che converte il segnale audio digitale DS in un testo dettato D sostanzialmente corrispondente al parlato S.

Secondo l’invenzione, il sistema comprende anche un audio editor AE atto ad inserire automaticamente nel segnale audio digitale DS almeno un marker Mx costituito da una forma d’onda digitale memorizzata in almeno una tabella digitale DT comprendente uno o più marker ΜΙ,.,.Μη associati ad uno o più comandi Cl...Cn ed a una o più etichette Ll...Ln. In particolare, i marker ΜΙ.,.Μη comprendono uno o più fonemi pronunciati dal primo speaker SI e campionati in precedenza, ad esempio attraverso lo stesso modulo campionatore SM. Un’interfaccia input/output IO mostra al primo speaker SI le etichette Ll...Ln associate ai marker ΜΙ.,.Μη. Il primo speaker SI può selezionare i marker ΜΙ.,.Μη da inserire nel segnale audio digitale DS premendo bottoni associati alle etichette Ll...Ln. In particolare, l’interfaccia input/output IO è un touchscreen che mostra le etichette Ll...Ln, che possono essere selezionate toccando l’area del touchscreen che visualizza le etichette stesse. In altre forme realizzative l’interfaccia input/output IO può comprendere un display, una tastiera, un mouse e/o altri dispositivi di input/output.

Facendo riferimento anche alla figura 2, si vede che quando il primo speaker SI seleziona l’etichetta Lx mediante l’interfaccia input/output IO, il marker Mx corrispondente all’etichetta Lx viene immediatamente inserito nel segnale audio digitale DS dall’audio editor AE. Quest’ultimo comprende un buffer audio che memorizza temporaneamente e sposta in avanti il resto della forma d’onda campionata SW, in modo da recuperare la porzione del parlato S corrispondente alla durata del marker Mx. Per evitare o ridurre i ritardi dovuti all’introduzione del marker Mx nel segnale audio digitale DS, l’audio editor AE può cancellare eventuali pause dal segnale audio digitale DS e/o può accelerare digitalmente il segnale audio digitale DS senza variare l’intonazione del parlato S. Il segnale audio digitale DS che comprende la forma d’onda campionata SW ed il marker Mx viene quindi elaborato dal modulo di riconoscimento vocale VRM, che converte il segnale audio digitale DS in dati di testo TD che includono il testo dettato D ed il marker Mx convertito nei corrispondenti fonemi ed inserito nel dettato D.

Un convertitore di testo TC converte il testo dei fonemi corrispondenti al marker Mx nel comando Cx associato al marker Mx nella tabella digitale DT. Il comando Cx può consistere in uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili. I dati di testo TD generati dal convertitore di testo TC comprendono quindi il comando Cx incluso nel testo dettato D.

Facendo riferimento alla figura 3, si vede che il primo speaker SI può inserire una pluralità di marker Mx...My in vari punti della forma d’onda campionata SW nel segnale audio digitale DS, nel qual caso i dati di testo TD generati dal convertitore di testo TC comprendono una pluralità di comandi Cx...Cy inclusi negli stessi punti del corrispondente testo dettato D. Quando il primo speaker SI seleziona con l’interfaccia input/output IO le etichette Lx...Ly corrispondenti ai comandi Cx...Cy ed ai marker Mx...My, i comandi Cx...Cy selezionati vengono inseriti anche in una memoria digitale DM, in modo che se un marker Mx...My inserito nel segnale audio digitale DS non viene riconosciuto per errore dal modulo di riconoscimento vocale VRM, il convertitore di testo TC può comunque confrontare nella memoria digitale DM la sequenza dei comandi Cx...Cy che sono stati selezionati ed i comandi Cx...Cy associati ai marker Mx...My trasformati nei dati di testo TD, così da ottenere i dati di testo TD che includono questi comandi Cx...Cy nella loro sequenza corretta.

L’interfaccia input/output IO, il modulo campionatore SM e/o la tabella digitale DT, così come la memoria digitale DM, sono componenti e/o periferiche, anche di tipo noto, di un elaboratore client CC, mentre l’ editor audio AE, il modulo di riconoscimento vocale VRM e/o il convertitore di testo TC, così come il processore audio AP, sono programmi, anche di tipo noto, atti ad essere eseguiti dall’elaboratore client CC.

Facendo riferimento alla figura 4, si vede che una pluralità di speaker SI... Sm provvisti di un elaboratore client CCl...CCm possono generare con il metodo sopra descritto una o più sequenze di dati di testo TDll...TDlp...TDml...TDmq, che sono inviati attraverso una rete di dati ad almeno un elaboratore server SC, il quale combina in maniera automatica e/o manuale tali sequenze per generare almeno un testo T da inviare ad un generatore di testi TG, ad esempio per essere visualizzati in una trasmissione televisiva. Il testo T può inoltre contenere anche altri dati di testo TDx...TDy che possono essere creati con un metodo diverso da quello sopra descritto.

Un supervisore SV può elaborare manualmente il contenuto e/o Γ ordinamento dei dati di testo TDll...TDlp...TDml...TDmq...TDx...TDy. Le sequenze dei dati di testo TD1 l...TDlp...TDml...TDmq...TDx...TDy possono anche essere ordinate automaticamente dall’ elaboratore server SC inserendo il primo dato di testo disponibile non appena una pausa maggiore di un determinato valore di soglia viene rilevata nella sequenza dei dati di testo che sono impiegati al momento per generare il testo T. In questo modo, almeno due speaker SI ed S2 possono alternarsi nella dettatura dei testi, anche sovrapponendo completamente o parzialmente i loro parlati S.

II supervisore SV può anche elaborare con l’elaboratore server SC ed inviare attraverso la stessa rete di dati agli elaboratori client CCl...CCm una o più tabelle digitali DTl...DTz nelle quali i marker ΜΙ.,.Μχ sono associati a particolari etichette Ll...Lx e comandi Cl...Cx che riguardano l’argomento (ad esempio politica, sport, economia, attualità, ecc.) trattato dagli speaker SI... Sm, così da aggiornare in tempo reale i comandi Cl...Cx associati ai marker ΜΙ.,.Μχ ed utilizzabili dagli speaker SI... Sm durante la conversione del segnale audio analogico AA nel segnale audio digitale DS.

Eventuali varianti e/o aggiunte possono essere apportate dagli esperti del ramo alla forma realizzativa dell’invenzione qui descritta ed illustrata restando nell’ambito delle seguenti rivendicazioni.

Claims

RIVENDICAZIONI 1. Metodo per convertire un parlato (S) in testo (T), il quale comprende le seguenti fasi operative: - un segnale audio analogico (AA) di un parlato (S) è convertito in un segnale audio digitale (DS); il segnale audio digitale (DS) è convertito in dati di testo (TD); caratterizzato dal fatto che uno o più marker (Mx..My) costituiti da una forma d’onda digitale sono inseriti nel segnale audio digitale (DS) prima della conversione del segnale audio digitale (DS) in dati di testo (TD); i marker (Mx...My) sono convertiti in uno o più comandi (Cx...Cy) nei dati di testo (TD) dopo la conversione del segnale audio digitale (DS) in dati di testo (TD).
2. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto i marker (Mx...My) sono inseriti nel segnale audio digitale (DS) durante la conversione del segnale audio analogico (AA) nel segnale audio digitale (DS).
3. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ.,.Μη) sono associati ai comandi (Cl...Cn) prima della conversione del segnale audio digitale (DS) in dati di testo (TD).
4. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ,.,.Μη) sono selezionati ed inseriti nel segnale audio digitale (DS) dallo speaker (SI... Sm) del parlato (S).
5. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che la forma d’onda campionata (SW) del parlato (S) è memorizzata temporaneamente e spostata in avanti quando un marker (Mx) è inserito nel segnale audio digitale (DS), in modo da recuperare la porzione del parlato (S) corrispondente alla durata del marker (Mx).
6. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che il segnale audio digitale (DS) viene accelerato digitalmente senza variare l’intonazione del parlato (S).
7. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cx...Cy) associati ai marker (Mx...My) inseriti nel segnale audio digitale (DS) sono confrontati con i comandi (Cx...Cy) associati ai marker (Mx...My) nei dati di testo (TD).
8. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che uno o più speaker (SI... Sm) generano una o più sequenze di dati di testo (TDll...TDlp...TDml...TDmq) che sono combinati in maniera automatica e/o manuale per generare almeno un testo (T).
9. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che le sequenze dei dati di testo (TDll...TDlp...TDml...TDmq...TDx...TDy) sono ordinate automaticamente inserendo il primo dato di testo disponibile non appena viene rilevata una pausa maggiore di un determinato valore di soglia nella sequenza dei dati di testo che sono impiegati al momento per generare il testo (T).
10. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cl...Cx) associati ai marker (ΜΙ.,.Μχ) sono aggiornati in tempo reale durante la conversione del segnale audio analogico (AA) nel segnale audio digitale (DS).
11. Sistema per convertire un parlato (S) in un testo (T), il quale comprende almeno un modulo campionatore (SM) che converte un segnale audio analogico (AA) di un parlato (S) in un segnale audio digitale (DS), nonché un modulo di riconoscimento vocale (VRM) che converte il segnale audio digitale (DS) in dati di testo (TD), caratterizzato dal fatto che il sistema comprende anche un audio editor (AE) che inserisce nel segnale audio digitale (DS) uno o più marker (Mx...My) costituiti da una forma d’onda digitale prima della conversione del segnale audio digitale (DS) in dati di testo (TD), nonché un convertitore di testo (TC) che converte i marker (Mx...My) in uno o più comandi (Cx...Cy) nei dati di testo (TD) dopo la conversione del segnale audio digitale (DS) in dati di testo (TD).
12. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che una o più tabelle digitali (DT, DTl...DTz) contengono i marker (ΜΙ,.,.Μη) associati ai comandi (Cl...Cn).
13. Sistema secondo la rivendicazione 11 o 12, caratterizzato dal fatto che un’interfaccia input/output (IO), in particolare un touchscreen, mostra etichette (Lx...Ly) che corrispondono ai comandi (Cx...Cy) ed ai marker (Mx...My) che possono essere selezionati per essere inseriti nel segnale audio digitale (DS).
14. Sistema secondo una delle rivendicazioni da 11 a 13, caratterizzato dal fatto che l’audio editor (AE) memorizza temporaneamente e sposta in avanti la forma d’onda campionata (SW) del parlato (S) quando un marker (Mx) è inserito nel segnale audio digitale (DS), in modo da recuperare la porzione del parlato (S) corrispondente alla durata del marker (Mx).
15. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che l’audio editor (AE) accelera digitalmente il segnale audio digitale (DS) senza variare l’intonazione del parlato (S).
16. Sistema secondo una delle rivendicazioni da 11 a 15, caratterizzato dal fatto che il convertitore di testo (TC) confronta i comandi (Cx...Cy) associati ai marker (Mx...My) inseriti nel segnale audio digitale (DS) con i comandi (Cx...Cy) associati ai marker (Mx...My) nei dati di testo (TD).
17. Sistema secondo una delle rivendicazioni da 11 a 16, caratterizzato dal fatto che l’interfaccia input/output (IO), il modulo campionatore (SM) e/o la tabella digitale (DT) sono componenti e/o periferiche di un elaboratore client (CC), mentre l’editor audio (AE), il modulo di riconoscimento vocale (VRM) e/o il convertitore di testo (TC) sono programmi eseguibili dall’elaboratore client (CC).
18. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che una pluralità di elaboratori client (CCl...CCm) sono collegati ad almeno un elaboratore server (SC) per inviare attraverso una rete di dati una o più sequenze di dati di testo (TDll...TDlp...TDml...TDmq), i quali sono combinati in maniera automatica e/o manuale dall’elaboratore server (SC) per generare almeno un testo (T).
19. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che l’elaboratore server (SC) ordina automaticamente le sequenze dei dati di testo (TD1 l...TDlp...TDml...TDmq...TDx...TDy) inserendo il primo dato di testo disponibile non appena una pausa maggiore di un determinato valore di soglia viene rilevata nella sequenza dei dati di testo che sono impiegati al momento per generare il testo (T).
20. Sistema secondo la rivendicazione 18 o 19, caratterizzato dal fatto che l’elaboratore server (SC) elabora ed invia attraverso la stessa rete di dati agli elaboratori client (CCl...CCm) una o più tabelle digitali (DTl...DTz) nelle quali i marker (ΜΙ.,.Μχ) sono associati a comandi (Cl...Cx).
21. Metodo o sistema secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cx...Cy) consistono in uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili.
22. Metodo o sistema secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ.,.Μη) comprendono uno o più fonema pronunciati dallo speaker (SI... Sm) del parlato (S) e campionati per essere convertiti in una forma d’onda digitale.