ITMI20080794A1 - Metodo e sistema per convertire parlato in testo - Google Patents

Metodo e sistema per convertire parlato in testo Download PDF

Info

Publication number
ITMI20080794A1
ITMI20080794A1 IT000794A ITMI20080794A ITMI20080794A1 IT MI20080794 A1 ITMI20080794 A1 IT MI20080794A1 IT 000794 A IT000794 A IT 000794A IT MI20080794 A ITMI20080794 A IT MI20080794A IT MI20080794 A1 ITMI20080794 A1 IT MI20080794A1
Authority
IT
Italy
Prior art keywords
audio signal
digital audio
text
markers
text data
Prior art date
Application number
IT000794A
Other languages
English (en)
Inventor
Giacomo Olgeni
Mattia Scaricabarozzi
Original Assignee
Colby S R L
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Colby S R L filed Critical Colby S R L
Priority to IT000794A priority Critical patent/ITMI20080794A1/it
Priority to PCT/EP2009/052092 priority patent/WO2009132871A1/en
Priority to EP09737915A priority patent/EP2283481A1/en
Publication of ITMI20080794A1 publication Critical patent/ITMI20080794A1/it

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
    • H04N7/0884Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
    • H04N7/0885Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

DESCRIZIONE
La presente invenzione riguarda un metodo per convertire parlato in testo, ed in particolare un metodo che può essere impiegato per generare sottotitoli in diretta in trasmissioni televisive. La presente invenzione riguarda anche un sistema per realizzare tale metodo.
Noti sistemi per convertire un parlato in un testo comprendono un modulo campionatore che converte un segnale audio analogico di un parlato in un segnale audio digitale, nonché un modulo di riconoscimento vocale che converte il segnale audio digitale in dati di testo. Tali sistemi presentano alcuni inconvenienti quando il parlato viene generato da uno speaker, generalmente chiamato respeaker, per realizzare in tempo reale sottotitoli televisivi comprendenti i dati di testo.
Tali sistemi noti prevedono infatti che tutti i segni di interpunzione, gli stili dei caratteri, i colori e le altre funzioni di comando o formattazione del testo vengano dettati dallo speaker. Il tempo necessario allo speaker per compiere questa operazione aumenta inevitabilmente il ritardo tra le parole pronunciate nella trasmissione televisiva e le parole pronunciate dallo speaker, con conseguente ritardo dei sottotitoli ed aumento della probabilità che lo speaker perda il filo della trasmissione.
Inoltre, ogni parola non contenuta nel dizionario del sistema deve essere aggiunta manualmente ed addestrata dallo speaker pronunciandola una o più volte affinché il sistema la possa associare ai fonemi corrispondenti. Questa operazione può però essere svolta solo in anticipo, ovvero non durante il normale processo di dettatura, per cui se durante una trasmissione lo speaker deve pronunciare più volte una parola nuova, il sistema non potrà mai interpretare quest’ultima in maniera corretta.
Per di più, i sistemi noti convertono il parlato in testo con un certo ritardo, in quanto utilizzano il contesto della frase dettata per eliminare le ambiguità che si riscontrano inevitabilmente durante il processo di elaborazione dei fonemi, per cui generano i dati di testo solo quando lo speaker effettua una pausa nella dettatura, il che però è piuttosto raro quando egli cerca di seguire una trasmissione in tempo reale.
Scopo della presente invenzione è pertanto quello di fornire un metodo ed un sistema di conversione che siano esenti da tali inconvenienti. Detto scopo viene conseguito con un metodo ed un sistema le cui caratteristiche principali sono specificate rispettivamente nelle rivendicazioni 1 e 11, mentre altre caratteristiche sono specificate nelle restanti rivendicazioni.
Grazie ai particolari marker inseriti nel segnale audio digitale e convertiti in comandi nei dati di testo, il metodo ed il sistema secondo la presente invenzione consentono di inserire automaticamente nel parlato i comandi desiderati senza che il speaker sia costretto a pronunciarli, evitando così anche la fase di addestramento di nuove parole. Tali comandi possono comprendere uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili.
Inoltre, T associazione dei marker con i comandi può essere modificata in tempo reale da un supervisore in funzione delTargomento del parlato, senza modificare o addestrare nuovi marker. L’unico addestramento, da effettuare una volta sola per ciascun speaker, è richiesto per l’acquisizione dei fonemi utilizzati come marker.
Secondo un particolare aspetto dell’invenzione, i comandi associati ai marker inseriti nel segnale audio digitale sono confrontati con i comandi associati ai marker trovati nei dati di testo per consentire il rilevamento di eventuali errori di riconoscimento dei marker stessi.
II sistema secondo la presente invenzione è preferibilmente realizzato con una particolare struttura client-server, in modo che due o più speaker possono alternarsi in tempo reale nella dettatura di uno stesso testo particolarmente esteso.
Ulteriori vantaggi e caratteristiche del metodo e del sistema secondo la presente invenzione risulteranno evidenti agli esperti del ramo dalla seguente descrizione dettagliata e non limitativa di una loro forma realizzativa con riferimento agli annessi disegni in cui:
la figura 1 mostra un primo schema a blocchi del sistema;
la figura 2 mostra uno schema dell’inserimento di un marker;
la figura 3 mostra uno schema della correzione di una serie di marker; e
- la figura 4 mostra un secondo schema a blocchi del sistema.
Facendo riferimento alla figura 1, si vede che il sistema secondo la presente invenzione comprende in modo noto almeno un modulo campionatore SM che converte un segnale audio analogico AA in un segnale audio digitale DS. Il segnale audio analogico AA è un parlato S di un primo speaker SI captato da almeno un trasduttore, in particolare un microfono MIC. Il segnale audio analogico AA può essere elaborato da un processore audio AP, ad esempio comprendente stadi di equalizzazione, gate e compressione, prima che esso venga campionato dal modulo campionatore SM. Il segnale audio digitale DS contiene almeno una forma d’onda campionata SW sostanzialmente corrispondente al parlato S e viene trasmesso ad un modulo di riconoscimento vocale VRM che converte il segnale audio digitale DS in un testo dettato D sostanzialmente corrispondente al parlato S.
Secondo l’invenzione, il sistema comprende anche un audio editor AE atto ad inserire automaticamente nel segnale audio digitale DS almeno un marker Mx costituito da una forma d’onda digitale memorizzata in almeno una tabella digitale DT comprendente uno o più marker ΜΙ,.,.Μη associati ad uno o più comandi Cl...Cn ed a una o più etichette Ll...Ln. In particolare, i marker ΜΙ.,.Μη comprendono uno o più fonemi pronunciati dal primo speaker SI e campionati in precedenza, ad esempio attraverso lo stesso modulo campionatore SM. Un’interfaccia input/output IO mostra al primo speaker SI le etichette Ll...Ln associate ai marker ΜΙ.,.Μη. Il primo speaker SI può selezionare i marker ΜΙ.,.Μη da inserire nel segnale audio digitale DS premendo bottoni associati alle etichette Ll...Ln. In particolare, l’interfaccia input/output IO è un touchscreen che mostra le etichette Ll...Ln, che possono essere selezionate toccando l’area del touchscreen che visualizza le etichette stesse. In altre forme realizzative l’interfaccia input/output IO può comprendere un display, una tastiera, un mouse e/o altri dispositivi di input/output.
Facendo riferimento anche alla figura 2, si vede che quando il primo speaker SI seleziona l’etichetta Lx mediante l’interfaccia input/output IO, il marker Mx corrispondente all’etichetta Lx viene immediatamente inserito nel segnale audio digitale DS dall’audio editor AE. Quest’ultimo comprende un buffer audio che memorizza temporaneamente e sposta in avanti il resto della forma d’onda campionata SW, in modo da recuperare la porzione del parlato S corrispondente alla durata del marker Mx. Per evitare o ridurre i ritardi dovuti all’introduzione del marker Mx nel segnale audio digitale DS, l’audio editor AE può cancellare eventuali pause dal segnale audio digitale DS e/o può accelerare digitalmente il segnale audio digitale DS senza variare l’intonazione del parlato S. Il segnale audio digitale DS che comprende la forma d’onda campionata SW ed il marker Mx viene quindi elaborato dal modulo di riconoscimento vocale VRM, che converte il segnale audio digitale DS in dati di testo TD che includono il testo dettato D ed il marker Mx convertito nei corrispondenti fonemi ed inserito nel dettato D.
Un convertitore di testo TC converte il testo dei fonemi corrispondenti al marker Mx nel comando Cx associato al marker Mx nella tabella digitale DT. Il comando Cx può consistere in uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili. I dati di testo TD generati dal convertitore di testo TC comprendono quindi il comando Cx incluso nel testo dettato D.
Facendo riferimento alla figura 3, si vede che il primo speaker SI può inserire una pluralità di marker Mx...My in vari punti della forma d’onda campionata SW nel segnale audio digitale DS, nel qual caso i dati di testo TD generati dal convertitore di testo TC comprendono una pluralità di comandi Cx...Cy inclusi negli stessi punti del corrispondente testo dettato D. Quando il primo speaker SI seleziona con l’interfaccia input/output IO le etichette Lx...Ly corrispondenti ai comandi Cx...Cy ed ai marker Mx...My, i comandi Cx...Cy selezionati vengono inseriti anche in una memoria digitale DM, in modo che se un marker Mx...My inserito nel segnale audio digitale DS non viene riconosciuto per errore dal modulo di riconoscimento vocale VRM, il convertitore di testo TC può comunque confrontare nella memoria digitale DM la sequenza dei comandi Cx...Cy che sono stati selezionati ed i comandi Cx...Cy associati ai marker Mx...My trasformati nei dati di testo TD, così da ottenere i dati di testo TD che includono questi comandi Cx...Cy nella loro sequenza corretta.
L’interfaccia input/output IO, il modulo campionatore SM e/o la tabella digitale DT, così come la memoria digitale DM, sono componenti e/o periferiche, anche di tipo noto, di un elaboratore client CC, mentre l’ editor audio AE, il modulo di riconoscimento vocale VRM e/o il convertitore di testo TC, così come il processore audio AP, sono programmi, anche di tipo noto, atti ad essere eseguiti dall’elaboratore client CC.
Facendo riferimento alla figura 4, si vede che una pluralità di speaker SI... Sm provvisti di un elaboratore client CCl...CCm possono generare con il metodo sopra descritto una o più sequenze di dati di testo TDll...TDlp...TDml...TDmq, che sono inviati attraverso una rete di dati ad almeno un elaboratore server SC, il quale combina in maniera automatica e/o manuale tali sequenze per generare almeno un testo T da inviare ad un generatore di testi TG, ad esempio per essere visualizzati in una trasmissione televisiva. Il testo T può inoltre contenere anche altri dati di testo TDx...TDy che possono essere creati con un metodo diverso da quello sopra descritto.
Un supervisore SV può elaborare manualmente il contenuto e/o Γ ordinamento dei dati di testo TDll...TDlp...TDml...TDmq...TDx...TDy. Le sequenze dei dati di testo TD1 l...TDlp...TDml...TDmq...TDx...TDy possono anche essere ordinate automaticamente dall’ elaboratore server SC inserendo il primo dato di testo disponibile non appena una pausa maggiore di un determinato valore di soglia viene rilevata nella sequenza dei dati di testo che sono impiegati al momento per generare il testo T. In questo modo, almeno due speaker SI ed S2 possono alternarsi nella dettatura dei testi, anche sovrapponendo completamente o parzialmente i loro parlati S.
II supervisore SV può anche elaborare con l’elaboratore server SC ed inviare attraverso la stessa rete di dati agli elaboratori client CCl...CCm una o più tabelle digitali DTl...DTz nelle quali i marker ΜΙ.,.Μχ sono associati a particolari etichette Ll...Lx e comandi Cl...Cx che riguardano l’argomento (ad esempio politica, sport, economia, attualità, ecc.) trattato dagli speaker SI... Sm, così da aggiornare in tempo reale i comandi Cl...Cx associati ai marker ΜΙ.,.Μχ ed utilizzabili dagli speaker SI... Sm durante la conversione del segnale audio analogico AA nel segnale audio digitale DS.
Eventuali varianti e/o aggiunte possono essere apportate dagli esperti del ramo alla forma realizzativa dell’invenzione qui descritta ed illustrata restando nell’ambito delle seguenti rivendicazioni.

Claims (22)

  1. RIVENDICAZIONI 1. Metodo per convertire un parlato (S) in testo (T), il quale comprende le seguenti fasi operative: - un segnale audio analogico (AA) di un parlato (S) è convertito in un segnale audio digitale (DS); il segnale audio digitale (DS) è convertito in dati di testo (TD); caratterizzato dal fatto che uno o più marker (Mx..My) costituiti da una forma d’onda digitale sono inseriti nel segnale audio digitale (DS) prima della conversione del segnale audio digitale (DS) in dati di testo (TD); i marker (Mx...My) sono convertiti in uno o più comandi (Cx...Cy) nei dati di testo (TD) dopo la conversione del segnale audio digitale (DS) in dati di testo (TD).
  2. 2. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto i marker (Mx...My) sono inseriti nel segnale audio digitale (DS) durante la conversione del segnale audio analogico (AA) nel segnale audio digitale (DS).
  3. 3. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ.,.Μη) sono associati ai comandi (Cl...Cn) prima della conversione del segnale audio digitale (DS) in dati di testo (TD).
  4. 4. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ,.,.Μη) sono selezionati ed inseriti nel segnale audio digitale (DS) dallo speaker (SI... Sm) del parlato (S).
  5. 5. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che la forma d’onda campionata (SW) del parlato (S) è memorizzata temporaneamente e spostata in avanti quando un marker (Mx) è inserito nel segnale audio digitale (DS), in modo da recuperare la porzione del parlato (S) corrispondente alla durata del marker (Mx).
  6. 6. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che il segnale audio digitale (DS) viene accelerato digitalmente senza variare l’intonazione del parlato (S).
  7. 7. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cx...Cy) associati ai marker (Mx...My) inseriti nel segnale audio digitale (DS) sono confrontati con i comandi (Cx...Cy) associati ai marker (Mx...My) nei dati di testo (TD).
  8. 8. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che uno o più speaker (SI... Sm) generano una o più sequenze di dati di testo (TDll...TDlp...TDml...TDmq) che sono combinati in maniera automatica e/o manuale per generare almeno un testo (T).
  9. 9. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che le sequenze dei dati di testo (TDll...TDlp...TDml...TDmq...TDx...TDy) sono ordinate automaticamente inserendo il primo dato di testo disponibile non appena viene rilevata una pausa maggiore di un determinato valore di soglia nella sequenza dei dati di testo che sono impiegati al momento per generare il testo (T).
  10. 10. Metodo secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cl...Cx) associati ai marker (ΜΙ.,.Μχ) sono aggiornati in tempo reale durante la conversione del segnale audio analogico (AA) nel segnale audio digitale (DS).
  11. 11. Sistema per convertire un parlato (S) in un testo (T), il quale comprende almeno un modulo campionatore (SM) che converte un segnale audio analogico (AA) di un parlato (S) in un segnale audio digitale (DS), nonché un modulo di riconoscimento vocale (VRM) che converte il segnale audio digitale (DS) in dati di testo (TD), caratterizzato dal fatto che il sistema comprende anche un audio editor (AE) che inserisce nel segnale audio digitale (DS) uno o più marker (Mx...My) costituiti da una forma d’onda digitale prima della conversione del segnale audio digitale (DS) in dati di testo (TD), nonché un convertitore di testo (TC) che converte i marker (Mx...My) in uno o più comandi (Cx...Cy) nei dati di testo (TD) dopo la conversione del segnale audio digitale (DS) in dati di testo (TD).
  12. 12. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che una o più tabelle digitali (DT, DTl...DTz) contengono i marker (ΜΙ,.,.Μη) associati ai comandi (Cl...Cn).
  13. 13. Sistema secondo la rivendicazione 11 o 12, caratterizzato dal fatto che un’interfaccia input/output (IO), in particolare un touchscreen, mostra etichette (Lx...Ly) che corrispondono ai comandi (Cx...Cy) ed ai marker (Mx...My) che possono essere selezionati per essere inseriti nel segnale audio digitale (DS).
  14. 14. Sistema secondo una delle rivendicazioni da 11 a 13, caratterizzato dal fatto che l’audio editor (AE) memorizza temporaneamente e sposta in avanti la forma d’onda campionata (SW) del parlato (S) quando un marker (Mx) è inserito nel segnale audio digitale (DS), in modo da recuperare la porzione del parlato (S) corrispondente alla durata del marker (Mx).
  15. 15. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che l’audio editor (AE) accelera digitalmente il segnale audio digitale (DS) senza variare l’intonazione del parlato (S).
  16. 16. Sistema secondo una delle rivendicazioni da 11 a 15, caratterizzato dal fatto che il convertitore di testo (TC) confronta i comandi (Cx...Cy) associati ai marker (Mx...My) inseriti nel segnale audio digitale (DS) con i comandi (Cx...Cy) associati ai marker (Mx...My) nei dati di testo (TD).
  17. 17. Sistema secondo una delle rivendicazioni da 11 a 16, caratterizzato dal fatto che l’interfaccia input/output (IO), il modulo campionatore (SM) e/o la tabella digitale (DT) sono componenti e/o periferiche di un elaboratore client (CC), mentre l’editor audio (AE), il modulo di riconoscimento vocale (VRM) e/o il convertitore di testo (TC) sono programmi eseguibili dall’elaboratore client (CC).
  18. 18. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che una pluralità di elaboratori client (CCl...CCm) sono collegati ad almeno un elaboratore server (SC) per inviare attraverso una rete di dati una o più sequenze di dati di testo (TDll...TDlp...TDml...TDmq), i quali sono combinati in maniera automatica e/o manuale dall’elaboratore server (SC) per generare almeno un testo (T).
  19. 19. Sistema secondo la rivendicazione precedente, caratterizzato dal fatto che l’elaboratore server (SC) ordina automaticamente le sequenze dei dati di testo (TD1 l...TDlp...TDml...TDmq...TDx...TDy) inserendo il primo dato di testo disponibile non appena una pausa maggiore di un determinato valore di soglia viene rilevata nella sequenza dei dati di testo che sono impiegati al momento per generare il testo (T).
  20. 20. Sistema secondo la rivendicazione 18 o 19, caratterizzato dal fatto che l’elaboratore server (SC) elabora ed invia attraverso la stessa rete di dati agli elaboratori client (CCl...CCm) una o più tabelle digitali (DTl...DTz) nelle quali i marker (ΜΙ.,.Μχ) sono associati a comandi (Cl...Cx).
  21. 21. Metodo o sistema secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i comandi (Cx...Cy) consistono in uno o più caratteri di testo, in particolare simboli, caratteri, parole e/o frasi, e/o comandi di formattazione di testo, in particolare colori, dimensioni e/o stili.
  22. 22. Metodo o sistema secondo una delle rivendicazioni precedenti, caratterizzato dal fatto che i marker (ΜΙ.,.Μη) comprendono uno o più fonema pronunciati dallo speaker (SI... Sm) del parlato (S) e campionati per essere convertiti in una forma d’onda digitale.
IT000794A 2008-04-30 2008-04-30 Metodo e sistema per convertire parlato in testo ITMI20080794A1 (it)

Priority Applications (3)

Application Number Priority Date Filing Date Title
IT000794A ITMI20080794A1 (it) 2008-04-30 2008-04-30 Metodo e sistema per convertire parlato in testo
PCT/EP2009/052092 WO2009132871A1 (en) 2008-04-30 2009-02-20 Method and system for converting speech into text
EP09737915A EP2283481A1 (en) 2008-04-30 2009-02-20 Method and system for converting speech into text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT000794A ITMI20080794A1 (it) 2008-04-30 2008-04-30 Metodo e sistema per convertire parlato in testo

Publications (1)

Publication Number Publication Date
ITMI20080794A1 true ITMI20080794A1 (it) 2009-11-01

Family

ID=40297044

Family Applications (1)

Application Number Title Priority Date Filing Date
IT000794A ITMI20080794A1 (it) 2008-04-30 2008-04-30 Metodo e sistema per convertire parlato in testo

Country Status (3)

Country Link
EP (1) EP2283481A1 (it)
IT (1) ITMI20080794A1 (it)
WO (1) WO2009132871A1 (it)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8749618B2 (en) 2011-06-10 2014-06-10 Morgan Fiumi Distributed three-dimensional video conversion system
US9026446B2 (en) * 2011-06-10 2015-05-05 Morgan Fiumi System for generating captions for live video broadcasts
US8532469B2 (en) 2011-06-10 2013-09-10 Morgan Fiumi Distributed digital video processing system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960447A (en) 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
MXPA06002241A (es) * 2003-08-26 2006-08-31 Clearplay Inc Metodo y aparato para controlar el funcionamiento de una senal de audio.
KR20070020252A (ko) * 2004-05-27 2007-02-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 메시지를 수정하기 위한 방법 및 시스템
US8701005B2 (en) * 2006-04-26 2014-04-15 At&T Intellectual Property I, Lp Methods, systems, and computer program products for managing video information

Also Published As

Publication number Publication date
WO2009132871A1 (en) 2009-11-05
EP2283481A1 (en) 2011-02-16

Similar Documents

Publication Publication Date Title
JP6334354B2 (ja) 機械翻訳装置、方法およびプログラム
CN103971686B (zh) 自动语音识别方法和系统
US9865251B2 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
US9767788B2 (en) Method and apparatus for speech synthesis based on large corpus
US20100082326A1 (en) System and method for enriching spoken language translation with prosodic information
US20100114556A1 (en) Speech translation method and apparatus
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
CN110415680B (zh) 一种同声传译方法、同声传译装置以及一种电子设备
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
WO2003065349A3 (en) Text to speech
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN110705254B (zh) 文本断句方法、装置、电子设备和存储介质
US10304457B2 (en) Transcription support system and transcription support method
JP2012128188A (ja) テキスト修正装置およびプログラム
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
CN105989833A (zh) 多语种混语文本字音转换方法及系统
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN106297764A (zh) 一种多语种混语文本处理方法及系统
Grósz et al. Wav2vec2-based paralinguistic systems to recognise vocalised emotions and stuttering
JP2011191922A (ja) 翻訳装置、翻訳方法及びコンピュータプログラム
JP2013152365A (ja) 書き起こし支援システムおよび書き起こし支援方法
CN110798733A (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
ITMI20080794A1 (it) Metodo e sistema per convertire parlato in testo
CN109376145B (zh) 影视对白数据库的建立方法、建立装置及存储介质
CN113225612A (zh) 字幕生成方法、装置、计算机可读存储介质及电子设备