ITMI20080794A1 - Metodo e sistema per convertire parlato in testo - Google Patents
Metodo e sistema per convertire parlato in testo Download PDFInfo
- Publication number
- ITMI20080794A1 ITMI20080794A1 IT000794A ITMI20080794A ITMI20080794A1 IT MI20080794 A1 ITMI20080794 A1 IT MI20080794A1 IT 000794 A IT000794 A IT 000794A IT MI20080794 A ITMI20080794 A IT MI20080794A IT MI20080794 A1 ITMI20080794 A1 IT MI20080794A1
- Authority
- IT
- Italy
- Prior art keywords
- audio signal
- digital audio
- text
- markers
- text data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000005236 sound signal Effects 0.000 claims description 53
- 239000003550 marker Substances 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 4
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/08—Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
- H04N7/087—Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
- H04N7/088—Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
- H04N7/0884—Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
- H04N7/0885—Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
DESCRIZIONE
La presente invenzione riguarda un metodo per convertire parlato in testo, ed in particolare un metodo che può essere impiegato per generare sottotitoli in diretta in trasmissioni televisive. La presente invenzione riguarda anche un sistema per realizzare tale metodo.
Noti sistemi per convertire un parlato in un testo comprendono un modulo campionatore che converte un segnale audio analogico di un parlato in un segnale audio digitale, nonché un modulo di riconoscimento vocale che converte il segnale audio digitale in dati di testo. Tali sistemi presentano alcuni inconvenienti quando il parlato viene generato da uno speaker, generalmente chiamato respeaker, per realizzare in tempo reale sottotitoli televisivi comprendenti i dati di testo.
Tali sistemi noti prevedono infatti che tutti i segni di interpunzione, gli stili dei caratteri, i colori e le altre funzioni di comando o formattazione del testo vengano dettati dallo speaker. Il tempo necessario allo speaker per compiere questa operazione aumenta inevitabilmente il ritardo tra le parole pronunciate nella trasmissione televisiva e le parole pronunciate dallo speaker, con conseguente ritardo dei sottotitoli ed aumento della probabilità che lo speaker perda il filo della trasmissione.
Inoltre, ogni parola non contenuta nel dizionario del sistema deve essere aggiunta manualmente ed addestrata dallo speaker pronunciandola una o più volte affinché il sistema la possa associare ai fonemi corrispondenti. Questa operazione può però essere svolta solo in anticipo, ovvero non durante il normale processo di dettatura, per cui se durante una trasmissione lo speaker deve pronunciare più volte una parola nuova, il sistema non potrà mai interpretare quest’ultima in maniera corretta.
Per di più, i sistemi noti convertono il parlato in testo con un certo ritardo, in quanto utilizzano il contesto della frase dettata per eliminare le ambiguità che si riscontrano inevitabilmente durante il processo di elaborazione dei fonemi, per cui generano i dati di testo solo quando lo speaker effettua una pausa nella dettatura, il che però è piuttosto raro quando egli cerca di seguire una trasmissione in tempo reale.
Scopo della presente invenzione è pertanto quello di fornire un metodo ed un sistema di conversione che siano esenti da tali inconvenienti. Detto scopo viene conseguito con un metodo ed un sistema le cui caratteristiche principali sono specificate rispettivamente nelle rivendicazioni 1 e 11, mentre altre caratteristiche sono specificate nelle restanti rivendicazioni.
Grazie ai particolari marker inseriti nel segnale audio digitale e convertiti in comandi nei dati di testo, il metodo ed il sistema secondo la presente invenzione consentono di inserire automaticamente nel parlato i comandi desiderati senza che il speaker sia costretto a pronunciarli, evitando così anche la fase di addestramento di nuove parole. Tali comandi possono comprendere uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili.
Inoltre, T associazione dei marker con i comandi può essere modificata in tempo reale da un supervisore in funzione delTargomento del parlato, senza modificare o addestrare nuovi marker. L’unico addestramento, da effettuare una volta sola per ciascun speaker, è richiesto per l’acquisizione dei fonemi utilizzati come marker.
Secondo un particolare aspetto dell’invenzione, i comandi associati ai marker inseriti nel segnale audio digitale sono confrontati con i comandi associati ai marker trovati nei dati di testo per consentire il rilevamento di eventuali errori di riconoscimento dei marker stessi.
II sistema secondo la presente invenzione è preferibilmente realizzato con una particolare struttura client-server, in modo che due o più speaker possono alternarsi in tempo reale nella dettatura di uno stesso testo particolarmente esteso.
Ulteriori vantaggi e caratteristiche del metodo e del sistema secondo la presente invenzione risulteranno evidenti agli esperti del ramo dalla seguente descrizione dettagliata e non limitativa di una loro forma realizzativa con riferimento agli annessi disegni in cui:
la figura 1 mostra un primo schema a blocchi del sistema;
la figura 2 mostra uno schema dell’inserimento di un marker;
la figura 3 mostra uno schema della correzione di una serie di marker; e
- la figura 4 mostra un secondo schema a blocchi del sistema.
Facendo riferimento alla figura 1, si vede che il sistema secondo la presente invenzione comprende in modo noto almeno un modulo campionatore SM che converte un segnale audio analogico AA in un segnale audio digitale DS. Il segnale audio analogico AA è un parlato S di un primo speaker SI captato da almeno un trasduttore, in particolare un microfono MIC. Il segnale audio analogico AA può essere elaborato da un processore audio AP, ad esempio comprendente stadi di equalizzazione, gate e compressione, prima che esso venga campionato dal modulo campionatore SM. Il segnale audio digitale DS contiene almeno una forma d’onda campionata SW sostanzialmente corrispondente al parlato S e viene trasmesso ad un modulo di riconoscimento vocale VRM che converte il segnale audio digitale DS in un testo dettato D sostanzialmente corrispondente al parlato S.
Secondo l’invenzione, il sistema comprende anche un audio editor AE atto ad inserire automaticamente nel segnale audio digitale DS almeno un marker Mx costituito da una forma d’onda digitale memorizzata in almeno una tabella digitale DT comprendente uno o più marker ΜΙ,.,.Μη associati ad uno o più comandi Cl...Cn ed a una o più etichette Ll...Ln. In particolare, i marker ΜΙ.,.Μη comprendono uno o più fonemi pronunciati dal primo speaker SI e campionati in precedenza, ad esempio attraverso lo stesso modulo campionatore SM. Un’interfaccia input/output IO mostra al primo speaker SI le etichette Ll...Ln associate ai marker ΜΙ.,.Μη. Il primo speaker SI può selezionare i marker ΜΙ.,.Μη da inserire nel segnale audio digitale DS premendo bottoni associati alle etichette Ll...Ln. In particolare, l’interfaccia input/output IO è un touchscreen che mostra le etichette Ll...Ln, che possono essere selezionate toccando l’area del touchscreen che visualizza le etichette stesse. In altre forme realizzative l’interfaccia input/output IO può comprendere un display, una tastiera, un mouse e/o altri dispositivi di input/output.
Facendo riferimento anche alla figura 2, si vede che quando il primo speaker SI seleziona l’etichetta Lx mediante l’interfaccia input/output IO, il marker Mx corrispondente all’etichetta Lx viene immediatamente inserito nel segnale audio digitale DS dall’audio editor AE. Quest’ultimo comprende un buffer audio che memorizza temporaneamente e sposta in avanti il resto della forma d’onda campionata SW, in modo da recuperare la porzione del parlato S corrispondente alla durata del marker Mx. Per evitare o ridurre i ritardi dovuti all’introduzione del marker Mx nel segnale audio digitale DS, l’audio editor AE può cancellare eventuali pause dal segnale audio digitale DS e/o può accelerare digitalmente il segnale audio digitale DS senza variare l’intonazione del parlato S. Il segnale audio digitale DS che comprende la forma d’onda campionata SW ed il marker Mx viene quindi elaborato dal modulo di riconoscimento vocale VRM, che converte il segnale audio digitale DS in dati di testo TD che includono il testo dettato D ed il marker Mx convertito nei corrispondenti fonemi ed inserito nel dettato D.
Un convertitore di testo TC converte il testo dei fonemi corrispondenti al marker Mx nel comando Cx associato al marker Mx nella tabella digitale DT. Il comando Cx può consistere in uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili. I dati di testo TD generati dal convertitore di testo TC comprendono quindi il comando Cx incluso nel testo dettato D.
Facendo riferimento alla figura 3, si vede che il primo speaker SI può inserire una pluralità di marker Mx...My in vari punti della forma d’onda campionata SW nel segnale audio digitale DS, nel qual caso i dati di testo TD generati dal convertitore di testo TC comprendono una pluralità di comandi Cx...Cy inclusi negli stessi punti del corrispondente testo dettato D. Quando il primo speaker SI seleziona con l’interfaccia input/output IO le etichette Lx...Ly corrispondenti ai comandi Cx...Cy ed ai marker Mx...My, i comandi Cx...Cy selezionati vengono inseriti anche in una memoria digitale DM, in modo che se un marker Mx...My inserito nel segnale audio digitale DS non viene riconosciuto per errore dal modulo di riconoscimento vocale VRM, il convertitore di testo TC può comunque confrontare nella memoria digitale DM la sequenza dei comandi Cx...Cy che sono stati selezionati ed i comandi Cx...Cy associati ai marker Mx...My trasformati nei dati di testo TD, così da ottenere i dati di testo TD che includono questi comandi Cx...Cy nella loro sequenza corretta.
L’interfaccia input/output IO, il modulo campionatore SM e/o la tabella digitale DT, così come la memoria digitale DM, sono componenti e/o periferiche, anche di tipo noto, di un elaboratore client CC, mentre l’ editor audio AE, il modulo di riconoscimento vocale VRM e/o il convertitore di testo TC, così come il processore audio AP, sono programmi, anche di tipo noto, atti ad essere eseguiti dall’elaboratore client CC.
Facendo riferimento alla figura 4, si vede che una pluralità di speaker SI... Sm provvisti di un elaboratore client CCl...CCm possono generare con il metodo sopra descritto una o più sequenze di dati di testo TDll...TDlp...TDml...TDmq, che sono inviati attraverso una rete di dati ad almeno un elaboratore server SC, il quale combina in maniera automatica e/o manuale tali sequenze per generare almeno un testo T da inviare ad un generatore di testi TG, ad esempio per essere visualizzati in una trasmissione televisiva. Il testo T può inoltre contenere anche altri dati di testo TDx...TDy che possono essere creati con un metodo diverso da quello sopra descritto.
Un supervisore SV può elaborare manualmente il contenuto e/o Γ ordinamento dei dati di testo TDll...TDlp...TDml...TDmq...TDx...TDy. Le sequenze dei dati di testo TD1 l...TDlp...TDml...TDmq...TDx...TDy possono anche essere ordinate automaticamente dall’ elaboratore server SC inserendo il primo dato di testo disponibile non appena una pausa maggiore di un determinato valore di soglia viene rilevata nella sequenza dei dati di testo che sono impiegati al momento per generare il testo T. In questo modo, almeno due speaker SI ed S2 possono alternarsi nella dettatura dei testi, anche sovrapponendo completamente o parzialmente i loro parlati S.
II supervisore SV può anche elaborare con l’elaboratore server SC ed inviare attraverso la stessa rete di dati agli elaboratori client CCl...CCm una o più tabelle digitali DTl...DTz nelle quali i marker ΜΙ.,.Μχ sono associati a particolari etichette Ll...Lx e comandi Cl...Cx che riguardano l’argomento (ad esempio politica, sport, economia, attualità, ecc.) trattato dagli speaker SI... Sm, così da aggiornare in tempo reale i comandi Cl...Cx associati ai marker ΜΙ.,.Μχ ed utilizzabili dagli speaker SI... Sm durante la conversione del segnale audio analogico AA nel segnale audio digitale DS.
Eventuali varianti e/o aggiunte possono essere apportate dagli esperti del ramo alla forma realizzativa dell’invenzione qui descritta ed illustrata restando nell’ambito delle seguenti rivendicazioni.
Claims (22)
- RIVENDICAZIONI 1. Metodo per convertire un parlato (S) in testo (T), il quale comprende le seguenti fasi operative: - un segnale audio analogico (AA) di un parlato (S) è convertito in un segnale audio digitale (DS); il segnale audio digitale (DS) è convertito in dati di testo (TD); caratterizzato dal fatto che uno o più marker (Mx..My) costituiti da una forma d’onda digitale sono inseriti nel segnale audio digitale (DS) prima della conversione del segnale audio digitale (DS) in dati di testo (TD); i marker (Mx...My) sono convertiti in uno o più comandi (Cx...Cy) nei dati di testo (TD) dopo la conversione del segnale audio digitale (DS) in dati di testo (TD).
- 2. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto i marker (Mx...My) sono inseriti nel segnale audio digitale (DS) durante la conversione del segnale audio analogico (AA) nel segnale audio digitale (DS).
- 3. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ.,.Μη) sono associati ai comandi (Cl...Cn) prima della conversione del segnale audio digitale (DS) in dati di testo (TD).
- 4. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ,.,.Μη) sono selezionati ed inseriti nel segnale audio digitale (DS) dallo speaker (SI... Sm) del parlato (S).
- 5. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che la forma d’onda campionata (SW) del parlato (S) è memorizzata temporaneamente e spostata in avanti quando un marker (Mx) è inserito nel segnale audio digitale (DS), in modo da recuperare la porzione del parlato (S) corrispondente alla durata del marker (Mx).
- 6. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che il segnale audio digitale (DS) viene accelerato digitalmente senza variare l’intonazione del parlato (S).
- 7. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cx...Cy) associati ai marker (Mx...My) inseriti nel segnale audio digitale (DS) sono confrontati con i comandi (Cx...Cy) associati ai marker (Mx...My) nei dati di testo (TD).
- 8. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che uno o più speaker (SI... Sm) generano una o più sequenze di dati di testo (TDll...TDlp...TDml...TDmq) che sono combinati in maniera automatica e/o manuale per generare almeno un testo (T).
- 9. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che le sequenze dei dati di testo (TDll...TDlp...TDml...TDmq...TDx...TDy) sono ordinate automaticamente inserendo il primo dato di testo disponibile non appena viene rilevata una pausa maggiore di un determinato valore di soglia nella sequenza dei dati di testo che sono impiegati al momento per generare il testo (T).
- 10. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cl...Cx) associati ai marker (ΜΙ.,.Μχ) sono aggiornati in tempo reale durante la conversione del segnale audio analogico (AA) nel segnale audio digitale (DS).
- 11. Sistema per convertire un parlato (S) in un testo (T), il quale comprende almeno un modulo campionatore (SM) che converte un segnale audio analogico (AA) di un parlato (S) in un segnale audio digitale (DS), nonché un modulo di riconoscimento vocale (VRM) che converte il segnale audio digitale (DS) in dati di testo (TD), caratterizzato dal fatto che il sistema comprende anche un audio editor (AE) che inserisce nel segnale audio digitale (DS) uno o più marker (Mx...My) costituiti da una forma d’onda digitale prima della conversione del segnale audio digitale (DS) in dati di testo (TD), nonché un convertitore di testo (TC) che converte i marker (Mx...My) in uno o più comandi (Cx...Cy) nei dati di testo (TD) dopo la conversione del segnale audio digitale (DS) in dati di testo (TD).
- 12. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che una o più tabelle digitali (DT, DTl...DTz) contengono i marker (ΜΙ,.,.Μη) associati ai comandi (Cl...Cn).
- 13. Sistema secondo la rivendicazione 11 o 12, caratterizzato dal fatto che un’interfaccia input/output (IO), in particolare un touchscreen, mostra etichette (Lx...Ly) che corrispondono ai comandi (Cx...Cy) ed ai marker (Mx...My) che possono essere selezionati per essere inseriti nel segnale audio digitale (DS).
- 14. Sistema secondo una delle rivendicazioni da 11 a 13, caratterizzato dal fatto che l’audio editor (AE) memorizza temporaneamente e sposta in avanti la forma d’onda campionata (SW) del parlato (S) quando un marker (Mx) è inserito nel segnale audio digitale (DS), in modo da recuperare la porzione del parlato (S) corrispondente alla durata del marker (Mx).
- 15. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che l’audio editor (AE) accelera digitalmente il segnale audio digitale (DS) senza variare l’intonazione del parlato (S).
- 16. Sistema secondo una delle rivendicazioni da 11 a 15, caratterizzato dal fatto che il convertitore di testo (TC) confronta i comandi (Cx...Cy) associati ai marker (Mx...My) inseriti nel segnale audio digitale (DS) con i comandi (Cx...Cy) associati ai marker (Mx...My) nei dati di testo (TD).
- 17. Sistema secondo una delle rivendicazioni da 11 a 16, caratterizzato dal fatto che l’interfaccia input/output (IO), il modulo campionatore (SM) e/o la tabella digitale (DT) sono componenti e/o periferiche di un elaboratore client (CC), mentre l’editor audio (AE), il modulo di riconoscimento vocale (VRM) e/o il convertitore di testo (TC) sono programmi eseguibili dall’elaboratore client (CC).
- 18. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che una pluralità di elaboratori client (CCl...CCm) sono collegati ad almeno un elaboratore server (SC) per inviare attraverso una rete di dati una o più sequenze di dati di testo (TDll...TDlp...TDml...TDmq), i quali sono combinati in maniera automatica e/o manuale dall’elaboratore server (SC) per generare almeno un testo (T).
- 19. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che l’elaboratore server (SC) ordina automaticamente le sequenze dei dati di testo (TD1 l...TDlp...TDml...TDmq...TDx...TDy) inserendo il primo dato di testo disponibile non appena una pausa maggiore di un determinato valore di soglia viene rilevata nella sequenza dei dati di testo che sono impiegati al momento per generare il testo (T).
- 20. Sistema secondo la rivendicazione 18 o 19, caratterizzato dal fatto che l’elaboratore server (SC) elabora ed invia attraverso la stessa rete di dati agli elaboratori client (CCl...CCm) una o più tabelle digitali (DTl...DTz) nelle quali i marker (ΜΙ.,.Μχ) sono associati a comandi (Cl...Cx).
- 21. Metodo o sistema secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cx...Cy) consistono in uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili.
- 22. Metodo o sistema secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ.,.Μη) comprendono uno o più fonema pronunciati dallo speaker (SI... Sm) del parlato (S) e campionati per essere convertiti in una forma d’onda digitale.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT000794A ITMI20080794A1 (it) | 2008-04-30 | 2008-04-30 | Metodo e sistema per convertire parlato in testo |
PCT/EP2009/052092 WO2009132871A1 (en) | 2008-04-30 | 2009-02-20 | Method and system for converting speech into text |
EP09737915A EP2283481A1 (en) | 2008-04-30 | 2009-02-20 | Method and system for converting speech into text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT000794A ITMI20080794A1 (it) | 2008-04-30 | 2008-04-30 | Metodo e sistema per convertire parlato in testo |
Publications (1)
Publication Number | Publication Date |
---|---|
ITMI20080794A1 true ITMI20080794A1 (it) | 2009-11-01 |
Family
ID=40297044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT000794A ITMI20080794A1 (it) | 2008-04-30 | 2008-04-30 | Metodo e sistema per convertire parlato in testo |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP2283481A1 (it) |
IT (1) | ITMI20080794A1 (it) |
WO (1) | WO2009132871A1 (it) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8749618B2 (en) | 2011-06-10 | 2014-06-10 | Morgan Fiumi | Distributed three-dimensional video conversion system |
US9026446B2 (en) * | 2011-06-10 | 2015-05-05 | Morgan Fiumi | System for generating captions for live video broadcasts |
US8532469B2 (en) | 2011-06-10 | 2013-09-10 | Morgan Fiumi | Distributed digital video processing system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5960447A (en) | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
MXPA06002241A (es) * | 2003-08-26 | 2006-08-31 | Clearplay Inc | Metodo y aparato para controlar el funcionamiento de una senal de audio. |
KR20070020252A (ko) * | 2004-05-27 | 2007-02-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 메시지를 수정하기 위한 방법 및 시스템 |
US8701005B2 (en) * | 2006-04-26 | 2014-04-15 | At&T Intellectual Property I, Lp | Methods, systems, and computer program products for managing video information |
-
2008
- 2008-04-30 IT IT000794A patent/ITMI20080794A1/it unknown
-
2009
- 2009-02-20 WO PCT/EP2009/052092 patent/WO2009132871A1/en active Application Filing
- 2009-02-20 EP EP09737915A patent/EP2283481A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
WO2009132871A1 (en) | 2009-11-05 |
EP2283481A1 (en) | 2011-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6334354B2 (ja) | 機械翻訳装置、方法およびプログラム | |
CN103971686B (zh) | 自动语音识别方法和系统 | |
US9865251B2 (en) | Text-to-speech method and multi-lingual speech synthesizer using the method | |
US9767788B2 (en) | Method and apparatus for speech synthesis based on large corpus | |
US20100082326A1 (en) | System and method for enriching spoken language translation with prosodic information | |
US20100114556A1 (en) | Speech translation method and apparatus | |
CN103632663B (zh) | 一种基于hmm的蒙古语语音合成前端处理的方法 | |
CN110415680B (zh) | 一种同声传译方法、同声传译装置以及一种电子设备 | |
US10235991B2 (en) | Hybrid phoneme, diphone, morpheme, and word-level deep neural networks | |
WO2003065349A3 (en) | Text to speech | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN110705254B (zh) | 文本断句方法、装置、电子设备和存储介质 | |
US10304457B2 (en) | Transcription support system and transcription support method | |
JP2012128188A (ja) | テキスト修正装置およびプログラム | |
US9099091B2 (en) | Method and apparatus of adaptive textual prediction of voice data | |
CN105989833A (zh) | 多语种混语文本字音转换方法及系统 | |
CN113035199B (zh) | 音频处理方法、装置、设备及可读存储介质 | |
CN106297764A (zh) | 一种多语种混语文本处理方法及系统 | |
Grósz et al. | Wav2vec2-based paralinguistic systems to recognise vocalised emotions and stuttering | |
JP2011191922A (ja) | 翻訳装置、翻訳方法及びコンピュータプログラム | |
JP2013152365A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
CN110798733A (zh) | 一种字幕生成方法、装置及计算机存储介质、电子设备 | |
ITMI20080794A1 (it) | Metodo e sistema per convertire parlato in testo | |
CN109376145B (zh) | 影视对白数据库的建立方法、建立装置及存储介质 | |
CN113225612A (zh) | 字幕生成方法、装置、计算机可读存储介质及电子设备 |