ES2453891T3 - Procedimiento, servidor y sistema para la transcripción de lengua hablada - Google Patents

Procedimiento, servidor y sistema para la transcripción de lengua hablada Download PDF

Info

Publication number
ES2453891T3
ES2453891T3 ES10771730.8T ES10771730T ES2453891T3 ES 2453891 T3 ES2453891 T3 ES 2453891T3 ES 10771730 T ES10771730 T ES 10771730T ES 2453891 T3 ES2453891 T3 ES 2453891T3
Authority
ES
Spain
Prior art keywords
user
mobile device
language
transcription
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10771730.8T
Other languages
English (en)
Inventor
Michaela Nachtrab
Robin Nachtrab-Ribback
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VERBAVOICE GmbH
Original Assignee
VERBAVOICE GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VERBAVOICE GmbH filed Critical VERBAVOICE GmbH
Application granted granted Critical
Publication of ES2453891T3 publication Critical patent/ES2453891T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42391Systems providing special services or facilities to subscribers where the subscribers are hearing-impaired persons, e.g. telephone devices for the deaf
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/42Graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2061Language aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Abstract

Un procedimiento de transcripción para la transcripción de lengua hablada en texto continuo para un usuario (U) que comprende las etapas de: (a) introducir una lengua hablada de al menos un usuario (U) o de un interlocutor (CP) del al menos un usuario (U) dentro de un dispositivo móvil (2) del usuario respectivo (U), (b) transportar la lengua hablada introducida como datos de cabida útil dentro de un flujo correspondiente de paquetes de datos de voz sobre IP desde dicho dispositivo móvil (2) a través de una red (6) hasta un servidor de transcripción (7); (c) detectar una posición actual de dicho dispositivo móvil (2) evaluando los datos de posición contenidos en un encabezamiento de dichos paquetes de datos de voz sobre IP y seleccionar un leguaje de partida automáticamente dependiendo de la posición actual detectada de dicho dispositivo móvil (2); (d) seleccionar automáticamente una lengua de destino del usuario (U) evaluando una ID de usuario contenida en el encabezamiento de dichos paquetes de datos de voz sobre IP; (e) conmutar los flujos de paquetes de datos de voz sobre IP que transportan la lengua hablada como datos de cabida útil recibidos por dicho servidor de transcripción (7) a través de dicha red (6) desde dicho dispositivo móvil (2) mediante una unidad de conmutación (7C) de dicho servidor de transcripción (7) a diferentes terminales (8-1, 8-2, ... 8-N) de operadores dependiendo del área de la posición actual detectada de dicho dispositivo móvil (2); (f) producir como salida dicha lengua hablada transportada a dichos operadores que revocalizan la lengua hablada producida, en la que los operadores son operadores adecuados que hablan la lengua nativa correspondiente de la posición actual detectada de dicho dispositivo móvil (2); (g) remitir la lengua revocalizada por dicha unidad de conmutación (7C) a una unidad de reconocimiento de habla (7A) de dicho servidor de transcripción (7) que transforma la lengua hablada revocalizada en texto continuo mediante el uso de un algoritmo de reconocimiento de habla (SRA) seleccionado de diferentes algoritmos de reconocimiento de habla (SRA) dependiendo de la posición actual detectada de dicho dispositivo móvil (2); (h) traducir el texto continuo transformado mediante una unidad de traducción (7D) de dicho servidor de transcripción (7) por medio de un algoritmo de traducción de texto (TA) adecuado de la lengua de origen seleccionada a la lengua de destino seleccionada del usuario (U); (i) remitir el texto traducido en la lengua de destino del usuario (U) por el servidor de transcripción (7) a dicho dispositivo móvil (2) donde el texto traducido en la lengua de destino del usuario (U) se muestra en una pantalla de dicho dispositivo móvil (2) al usuario (U).

Description

Procedimiento, servidor y sistema para la transcripción de lengua hablada
5 [0001] La invención se refiere a un procedimiento, un servidor y un sistema para la transcripción de leguaje hablado en un texto continuo para un usuario, en particular para una persona con problemas auditivos o un viajero.
[0002] El documento US2008/187108A1 describe un servicio telefónico con subtítulos de texto independiente del dispositivo. Las señales de voz recibidas por un ordenador pueden ser procesadas para codificar señales de voz
10 como voz sobre señales IP. El ordenador puede ser un ordenador portátil móvil inalámbrico. La señal de voz sobre IP puede ser enviada por internet a un servidor asociado con un servicio de retransmisión. Una lengua hablada transportada puede ser revocalizada por un operador formado.
[0003] El documento de Bauman, N: “Web CapTel - Using your computer and any phone to make captioned
15 calls”, 18 de marzo de 2008 XP002612588, recuperado de la dirección de internet: url:http://hearinglosshelp.com/weblog/web-cap-tel%E2%80%94 describe un sistema en el que un usuario puede poner un número telefónico de un teléfono que el usuario pretende usar en una primera casilla y un número al que se va a llamar en una segunda casilla. El usuario luego puede escoger una preferencia de lengua.
20 [0004] Un usuario tal como una persona con problemas auditivos o una persona de viaje por un país extranjero a menudo se enfrenta con el problema de que no puede entender lo que un interlocutor está diciendo. En el caso de una persona con problemas auditivos o una persona sorda el usuario simplemente no entiende lo que un interlocutor está diciendo porque no puede entender acústicamente lo que el interlocutor está respondiendo en una conversación. Una persona de viaje, tal como un hombre de negocios en un país extranjero, a menudo no entiende
25 a su interlocutor porque no entiende la lengua hablada o el dialecto hablado en el país donde está viajando.
[0005] Para las personas con discapacidades auditivas se conocen los Servicios de Retransmisión de Telecomunicación (TRS) para hacer y recibir llamadas telefónicas. En estos Servicios de Retransmisión de Telecomunicaciones convencionales una asistencia de comunicaciones (CA) retransmite una llamada de una parte a
30 otra entre un usuario y su interlocutor. Con tal Servicio de Retransmisión de Telecomunicaciones una persona con una discapacidad auditiva puede, por ejemplo, comunicarse mediante texto con el asistente de comunicación CA y el asistente de comunicación CA se comunica por voz con la otra parte de la llamada. En este Servicio de Retransmisión de Telecomunicaciones el asistente de comunicación CA repite mediante voz lo que el usuario con problemas auditivos ha tecleado y teclea para el usuario con problemas auditivos lo que el interlocutor ha dicho.
35 [0006] Un Servicio de Retransmisión de Telecomunicaciones TRS más reciente es el denominado Servicio Telefónico Subtitulado basado en IP. Un Servicio Telefónico Subtitulado usa un teléfono especial que tiene una pantalla de texto para mostrar subtítulos de lo que la otra parte de la conversación está diciendo a la persona con problemas auditivos. Cuando se usa un Servicio Telefónico Subtitulado basado en IP el teléfono del usuario muestra
40 en tiempo real subtítulos de una conversación telefónica actual a la persona con problemas auditivos o sorda. Este servicio telefónico basado en IP permite que una persona con una pérdida auditiva pero que quiere usar su propia voz hable directamente a la parte a la que se llama y luego escuchar, en la medida de lo posible, a la otra parte leyendo simultáneamente subtítulos de los que la otra parte está diciendo. A diferencia de un Servicio de Retransmisión de Telecomunicaciones TRS convencional que usa texto mecanografiado, el asistente de
45 comunicaciones CA repite o revocaliza lo que se dice y, usando tecnología de reconocimiento de habla, en la que la voz del asistente de comunicación CA es transcrita automáticamente en texto y transmitida directamente al terminal del usuario con problemas auditivos quien puede leer el texto de subtítulos en su visualizador. La fig. 1 muestra un diagrama de bloques para ilustrar un Servicio Telefónico Subtitulado basado en IP. El usuario con problemas auditivos U que tiene una pérdida auditiva habla por un micrófono de su terminal y su habla es transportada a través
50 de una red al terminal de un interlocutor CP de la conversación telefónica. El habla del interlocutor CP es remitida a una Unidad de Reconocimiento de Habla SRU que transcribe el habla revocalizada del interlocutor CP proporcionada por el asistente de comunicación CA en datos de texto que son remitidos al terminal del usuario con problemas auditivos U que puede leer el texto en su visualizador.
55 [0007] Como puede apreciarse a partir de la fig. 1, el Servicio Telefónico Subtitulado basado en IP convencional está previsto para una conversación entre un usuario U y un interlocutor CP remoto que permite que un usuario U tal como un usuario con problemas auditivos use su propia voz para una llamada telefónica con la otra parte. Los terminales usados por el Servicio Telefónico Subtitulado basado en IP tal como se muestra en la fig. 1 son teléfonos IP especiales conectados a la red. El sistema de Servicio Telefónico Subtitulado basado en IP
convencional tal como se muestra en la fig. 1 está diseñado sobre todo para una conversación telefónica entre un usuario y un interlocutor remoto y no para una situación en la que el usuario tal como el usuario con problemas auditivos o el viajero lleva a cabo una conversación en la misma ubicación. El sistema de Servicio Telefónico Subtitulado basado en IP convencional de la fig. 1 además tiene el inconveniente de que no tiene en cuenta las 5 capacidades lingüísticas del usuario U, el interlocutor U y el asistente de comunicación CA. Por ejemplo, el usuario U
o el interlocutor CP podrían hablar otra lengua distinta del asistente de comunicación CA de manera que el asistente de comunicación CA no es capaz de revocalizar correctamente la lengua hablada del interlocutor CP. Además, podría ocurrir que aunque el interlocutor CP y el asistente de comunicación CA hablen la misma lengua, el usuario U tal como el usuario con problemas auditivos o la persona de viaje no pueda hablar esta lengua. Por otra parte, el 10 sistema convencional tal como se muestra en la fig. 1 no tiene en cuenta dónde o en qué ubicación tiene lugar la comunicación local cara a cara entre un usuario U tal como una persona de viaje y su interlocutor CP. El sistema mostrado en la fig. 1 no es adecuado, por ejemplo, para que un usuario U tal como un usuario con problemas auditivos o un hombre de negocios de viaje lleve a cabo una conversación personal cara a cara con un interlocutor CP en la calle o en una tienda. Como las capacidades lingüísticas del usuario U y la otra parte CP así como el 15 asistente de comunicación CA no se tienen en cuenta, el sistema convencional de la fig. 1 no funciona en muchas situaciones en las que las capacidades lingüísticas del asistente de comunicación CA no corresponden a las capacidades lingüísticas del usuario U y su interlocutor CP. Además, el sistema convencional de la fig. 1 no permite que el usuario tal como una persona de viaje o un usuario con problemas auditivos use su teléfono para una conversación cara a cara con otra persona, por ejemplo en una tienda o cuando consulta a un médico en un país
20 extranjero.
[0008] Por consiguiente, un objeto de la presente invención es proporcionar un procedimiento, un servidor y un sistema para una transcripción fiable de la lengua hablada en una conversación cara a cara entre un usuario y su interlocutor.
25 [0009] Este objeto se consigue mediante un procedimiento de transcripción que comprende las etapas de la reivindicación 1.
[0010] Como, según el procedimiento de la presente invención, se selecciona un algoritmo de reconocimiento de 30 habla dependiendo de la posición actual detectada del dispositivo móvil respectivo para convertir las palabras habladas en texto, la exactitud y velocidad de la conversación se incrementa significativamente.
[0011] En una realización preferente del procedimiento según la presente invención, la posición actual del dispositivo móvil del usuario se determina basándose en una dirección IP asignada al dispositivo móvil respectivo.
35 [0012] En el procedimiento según la presente invención el texto continuo transformado es traducido por medio de un algoritmo de traducción de texto en una lengua de destino que se selecciona automáticamente evaluando una ID de usuario.
40 [0013] Por lo tanto, es posible que el usuario y el interlocutor puedan usar diferentes lenguas en su conversación cara a cara.
[0014] En el procedimiento según la presente invención, los flujos de voz sobre paquetes de datos IP que transportan la lengua hablada recibida por un servidor de transcripción desde el dispositivo móvil son conmutados a
45 terminales de operadores o asistentes de comunicación para los que se genera una lengua hablada y que repiten o revocalizan la lengua hablada para reconocimiento de habla por el algoritmo de reconocimiento de habla seleccionado ejecutado por dicho servidor de transcripción.
[0015] Esto proporciona la ventaja de que se selecciona un asistente de comunicación adecuado de manera que 50 se incrementa la exactitud y velocidad para llevar a cabo el reconocimiento de habla.
[0016] En el procedimiento según la presente invención, la conmutación de los flujos de voz sobre paquetes de datos IP a los terminales de los operadores o asistentes de comunicación se lleva a cabo dependiendo del área de la posición actual detectada de dicho dispositivo móvil.
55 [0017] La invención proporciona además un servidor de transcripción para una transcripción de la lengua hablada en texto continuo para un usuario que comprende las características de la reivindicación 3.
[0018] Según un aspecto adicional de la presente invención, se proporciona un sistema de transcripción que comprende las características de la reivindicación 4.
[0019] En una realización preferente del sistema según la presente invención, tal como se expone en la reivindicación 5, la red a la que está conectado el dispositivo móvil está formada por internet.
5 [0020] El sistema de transcripción según la presente invención es muy flexible y puede usarse para muchas aplicaciones diferentes.
[0021] En una realización preferente, tal como se expone en la reivindicación 7, el sistema de transcripción según
10 la presente invención está adaptado para generar texto continuo para un usuario con problemas auditivos o sordo en respuesta a la lengua hablada introducida por el interlocutor del usuario con problemas auditivos en dicho dispositivo móvil de dicho usuario con problemas auditivos o introducido en un terminal del interlocutor conectable al servidor de transcripción.
15 [0022] El interlocutor también puede ser un usuario con problemas auditivos que tiene un dispositivo móvil para recibir mensajes.
[0023] En una realización preferente adicional, tal como se expone en la reivindicación 6, el sistema de transcripción según la presente invención está adaptado para generar subtítulos para películas, reportajes o 20 espectáculos de TV en directo por un usuario, en particular un doblador de películas o un reportero, que dicen comentarios en el dispositivo móvil que se muestran como subtítulos en tiempo real en una pantalla.
[0024] En una realización preferente adicional, tal como se expone en la reivindicación 8, el sistema de transcripción según la presente invención está adaptado para generar un texto continuo traducido para un usuario de
25 viaje que viaja por un país extranjero con otra lengua natural local u otro dialecto en respuesta a una lengua hablada introducida por un interlocutor del usuario de viaje en el dispositivo móvil de usuario de viaje que ha de mostrarse en tiempo real al usuario de viaje en un visualizador de su dispositivo móvil.
[0025] En lo que viene a continuación se describen ejemplos de procedimientos y sistemas para transcripción de 30 lengua hablada en texto continuo, con referencia a las figuras adjuntas.
La fig. 1 muestra un diagrama para ilustrar un sistema de servicio telefónico subtitulado basado en IP convencional;
la fig. 2 muestra un diagrama para ilustrar una configuración básica de un sistema de transcripción; 35 la fig. 3 muestra un diagrama de flujo de un ejemplo de un procedimiento de transcripción;
la fig. 4 muestra un diagrama para ilustrar otro ejemplo de un sistema de transcripción;
40 la fig. 5 muestra un diagrama de bloques de un ejemplo de un servidor de transcripción;
la fig. 6 muestra un diagrama de signos para ilustrar una posible aplicación de un sistema de transcripción;
la fig. 7 muestra un diagrama para ilustrar una posible estructura de datos de un paquete de datos de voz sobre IP; 45 la fig. 8 muestra otro ejemplo de un servidor de transcripción;
la fig. 9 muestra un diagrama de bloques de otro ejemplo de un servidor de transcripción;
50 la fig. 10 muestra un diagrama de bloques de otro ejemplo de un sistema de transcripción;
la fig. 11 muestra un diagrama de bloques de un dispositivo móvil ejemplar;
la fig. 12 muestra un diagrama para ilustrar posibles modos de funcionamiento de un dispositivo móvil; 55 la fig. 13 muestra otro sistema de transcripción ejemplar;
la fig. 14 muestra un sistema de transcripción ejemplar adicional.
[0026] Como puede apreciarse a partir de la fig. 2, un sistema de transcripción 1 para transcripción de lengua hablada en texto continuo para un usuario U comprende en una configuración básica al menos un dispositivo móvil 2 en el cual la lengua hablada o habla de al menos un usuario U o de un interlocutor CP es introducida por medio de un micrófono. El dispositivo móvil 2 puede ser un teléfono móvil del usuario. El dispositivo móvil 2 también puede ser
5 un teléfono móvil inteligente, un ordenador portátil, un PDA, un dispositivo móvil de internet MID o un dispositivo de mano del usuario.
[0027] En el ejemplo mostrado en la fig. 2 el dispositivo móvil 2 tiene un transceptor para establecer un enlace inalámbrico con una estación de base 3 de una red de acceso 4 que está conectada por medio de una pasarela 5 a 10 una red de comunicación 6 que, a su vez, está conectada a un servidor de transcripción 7. La red 6 puede comprender una pluralidad de redes interconectadas tales como internet. La red 6 también puede ser una red de área local LAN o una red de área amplia. La red de acceso WLAN 4 puede ser una red de acceso de un sistema telefónico móvil. La lengua hablada o habla introducida por el usuario U o su interlocutor cara a cara CP en un micrófono del dispositivo móvil 2 es convertido por un convertidor analógico-digital ADC en datos digitales. Después 15 de la conversión de la señal de voz analógica en un formato de datos digital puede llevarse a cabo una compresión de los datos. Luego, los datos pueden ser formateados en paquetes de datos del protocolo de internet (IP) para la transmisión sobre la red 6. Este procedimiento puede invertirse en el extremo receptor, es decir, en el servidor de transcripción 7. La lengua hablada introducida del usuario U es transportada dentro de un flujo correspondiente de voz sobre paquetes de datos IP al servidor de transcripción 7 donde los datos de la lengua hablada transportados 20 son transformados por medio de un algoritmo de reconocimiento de habla SRA en texto continuo remitido por el servidor de transcripción 7 a través de la red 6 de vuelta al dispositivo móvil 2 tal como se muestra en la fig. 2 o a otro terminal del usuario respectivo U para ser producidos como salida para el usuario respectivo en tiempo real. El algoritmo de reconocimiento de habla SRA empleado por el servidor de transcripción 7 se selecciona en el sistema de transcripción 1 según la presente invención dependiendo de una lengua natural o un dialecto hablado en el área
25 de la posición actual del dispositivo móvil 2 del usuario respectivo U.
[0028] En el ejemplo mostrado en la fig. 2 la posición actual del dispositivo móvil 2 está indicada por una dirección IP asignada al dispositivo móvil 2. La dirección IP del dispositivo móvil 2 puede asignarse dinámicamente, por ejemplo, cuando el dispositivo móvil 2 es encendido.
30 [0029] La fig. 3 muestra un diagrama de flujo de un ejemplo de un procedimiento para transcripción de lengua hablada en texto continuo para un usuario U.
[0030] En una primera etapa S1 la lengua hablada de al menos un usuario U o de un interlocutor CP del usuario U
35 es introducida en el dispositivo móvil 2 del usuario respectivo, por ejemplo por medio de un micrófono. La señal de audio analógica introducida es convertida en datos digitales, procesada por una unidad de procesamiento de datos dentro del dispositivo móvil 2 y luego transportada dentro de un flujo correspondiente de paquetes de datos de voz sobre IP al servidor de transcripción 7 a través de la red 6. El servidor de transcripción 7 puede estar ubicado, por ejemplo, en un sistema de ordenador central de transcripción CTCS. El dispositivo móvil 2 puede ser un aparato de
40 internet móvil tal como un teléfono inteligente, un netbook que tenga una tarjeta UMTS o una conexión WLAN.
[0031] En una etapa adicional S2 la lengua hablada transportada dentro del flujo respectivo de paquetes de datos de voz sobre IP es transformada en texto continuo por medio de un algoritmo de reconocimiento de habla SRA ejecutado por el servidor de transcripción 7. El algoritmo de reconocimiento de habla SRA usado por el servidor de 45 transcripción 7 se selecciona dependiendo de una lengua natural o un dialecto hablado en el área de la posición actual del dispositivo móvil 2. En un posible ejemplo el servidor de transcripción 7 evalúa la dirección IP asignada actual del dispositivo móvil 2 y coteja esta dirección IP con los datos almacenados en una base de datos geocodificada para determinar la posición actual del dispositivo IP móvil 2. La dirección IP asignada al dispositivo móvil 2 puede ser transportada en un posible ejemplo junto con los paquetes de datos de voz sobre IP o dentro de 50 un encabezamiento de la voz de unos paquetes de datos IP. El servidor de transcripción 7 puede evaluar datos de información de célula de un sistema telefónico móvil proporcionados por una base de datos de un proveedor de sistema telefónico móvil. El servidor de transcripción 7 además puede recibir datos GPS del dispositivo móvil 2 y evaluar las coordenadas para determinar la posición actual del dispositivo móvil 2. Después de la selección de un algoritmo de reconocimiento de habla SRA adecuado proporcionado para la lengua natural o el dialecto hablado en
55 el área determinada de la posición actual del dispositivo móvil 2 los datos de lengua hablada recibidos son transformados por medio del algoritmo de reconocimiento de habla SRA seleccionado en texto continuo. En una posible realización del servidor de transcripción 7 tiene acceso a diferentes algoritmos de reconocimiento de habla SRA proporcionados para diferentes áreas.
[0032] En una tercera etapa S3 el texto continuo transformado es transmitido por el servidor de transcripción 7 al dispositivo móvil 2 del usuario U o a un terminal de usuario del usuario U respectivo en tiempo real. El texto continuo transformado puede mostrarse al usuario en un visualizador del dispositivo móvil 2.
5 [0033] La fig. 4 muestra un diagrama adicional para ilustrar un procedimiento y sistema para transcripción de lengua hablada. Como puede apreciarse a partir de la fig. 4, el dispositivo móvil de usuario 2 comprende medios de entrada 2A para introducir la lengua hablada de al menos un usuario U o de un interlocutor CP del al menos un usuario. Los medios de entrada 2A pueden comprender uno o varios micrófonos, convertidores analógico-digitales y unidades de procesamiento de datos. Los medios de entrada 2A podrían estar integrados en unos auriculares. El
10 dispositivo móvil de usuario 2 puede comprender además medios de salida 2B para mostrar texto continuo al usuario
U. Los medios de salida 2B están provistos para producir como salida en tiempo real texto continuo generado por el servidor de transcripción 7 por medio del algoritmo de reconocimiento de habla SRA seleccionado. En un posible ejemplo los medios de salida 2B pueden estar formados por un visualizador frontal para mostrar el texto continuo al usuario. El dispositivo móvil de usuario 2 tal como se muestra en la fig. 2 comprende un transceptor para establecer
15 un enlace inalámbrico con la estación de base 3 de la red de acceso 4.
[0034] En el ejemplo mostrado en la fig. 4 los medios de entrada 2A y los medios de salida 2B están integrados en un dispositivo móvil de usuario 2 tal como un teléfono móvil. En otros ejemplos los medios de entrada 2A y los medios de salida 2B pueden formar dispositivos separados no integrados en el mismo aparato. En un posible
20 ejemplo los medios de entrada 2A pueden ser, por ejemplo, unos auriculares con un micrófono que tengan una primera dirección IP y los medios de salida 2B pueden ser un visualizador frontal que tenga otra dirección IP.
[0035] En el ejemplo mostrado en la fig. 4 un interlocutor CP del usuario introduce lengua hablada en un micrófono de los medios de entrada 2A que es transformada en texto continuo mostrado al usuario U por medio de los medios 25 de salida 2B. El usuario U y el interlocutor CP pueden llevar a cabo una conversación cara a cara aunque el usuario U sea sordo o tenga dificultades auditivas. Por ejemplo, el usuario U puede llevar su dispositivo móvil de usuario 2 tal como se muestra en la fig. 4 a un especialista tal como un doctor para informarse sobre su salud. En ejemplos adicionales el interlocutor CP tal como un médico puede usar un dispositivo o aparato separado en su consulta para introducir la lengua hablada en el sistema. En esta realización el terminal o dispositivo del interlocutor puede 30 conectarse directamente a la red 6 para proporcionar paquetes de datos de voz sobre IP al servidor de transcripción
7.
[0036] La fig. 5 muestra un diagrama de bloques para un posible ejemplo de un servidor de transcripción 7 como el empleado por un sistema de transcripción. En este ejemplo el servidor de transcripción 7 comprende una unidad de 35 reconocimiento de habla 7A que puede cargar un algoritmo de reconocimiento de habla SRA desde una base de datos o memoria 7B. La unidad de reconocimiento de habla 7A del servidor de transcripción 7 transforma la lengua hablada recibida por el servidor de transcripción 7 dentro de al menos un flujo de paquetes de datos de voz sobre IP procedente de un dispositivo móvil 2 de un usuario U en texto continuo por medio del algoritmo de reconocimiento de habla SRA que se selecciona dependiendo de una lengua natural o un dialecto hablado en el área de la posición
40 actual del dispositivo móvil 2.
[0037] La fig. 6 muestra un diagrama de signos para ilustrar un uso ejemplar de un procedimiento y sistema para la transcripción de lengua en texto continuo. En el ejemplo dado una persona con problemas auditivos quiere comunicarse con una persona sin problemas auditivos tal como un médico en una conversación cara a cara. En el 45 ejemplo dado el interlocutor CP tal como un médico no tiene ninguna instalación propia para un servicio de transcripción. En el ejemplo dado la persona con problemas auditivos lleva su dispositivo móvil de usuario 2 a la consulta del interlocutor CP y activa un servicio de transcripción TS por medio de una interfaz de usuario. Por ejemplo, la persona con problemas auditivos U selecciona un servicio de transcripción TS usando un menú mostrado al usuario U en un visualizador del dispositivo móvil 2. En otro ejemplo la persona con problemas auditivos activa el 50 servicio de transcripción TS simplemente pulsando un botón de una unidad de entrada del dispositivo móvil 2. Después de haber seleccionado el servicio de transcripción TS, en el visualizador del dispositivo móvil 2 puede mostrarse un mensaje estándar al interlocutor CP, es decir, el médico. El mensaje estándar puede, por ejemplo, informar al médico CP de que la persona que tiene delante es una persona con problemas auditivos a la que le gustaría comunicarse con él mediante el uso de un servicio de transcripción TS que traduce sus palabras en texto 55 continuo. Luego, la persona con problemas auditivos U puede hacer una pregunta al médico CP, por ejemplo acerca de su estado de salud. El interlocutor CP introduce una respuesta en lengua hablada en el micrófono del dispositivo móvil 2 ofrecido al médico CP por la persona con problemas auditivos U. La lengua hablada es convertida en datos digitales y transportada en paquetes de datos de voz sobre IP al servidor de transcripción 7 a través de una red 6 tal como internet. En el servidor de transcripción 7A se selecciona el algoritmo de reconocimiento SRA dependiendo de
una lengua natural o un dialecto hablado en el área de la posición actual del dispositivo móvil 2. Por medio del algoritmo de reconocimiento de habla SRA seleccionado ejecutado por el servidor de transcripción 7 la lengua hablada del médico CP transportada dentro de un flujo correspondiente de paquetes de datos de voz sobre IP es transformado en texto continuo. Los datos de texto son remitidos por el servidor de transcripción 7 a través de la red
5 6 de vuelta al dispositivo móvil 2 de la persona con problemas auditivos U y mostrados en un visualizador del dispositivo móvil 2 a la persona con problemas auditivos U. Por consiguiente, el usuario persona con problemas auditivos U puede entender la respuesta dada por el médico CP a esta pregunta y formular la siguiente pregunta o hacer un comentario propio.
10 [0038] La fig. 7 muestra una posible estructura de datos de un paquete de datos de voz sobre IP. Los paquetes de datos de voz sobre IP comprenden un encabezamiento y datos de cabida útil. Los datos de cabida útil están formados por los datos de la lengua hablada de la persona que habla tal como el interlocutor CP. En un posible ejemplo el encabezamiento del paquete de datos de voz sobre IP contiene datos de posición del dispositivo móvil 2 y una ID de usuario. Los datos de posición pueden indicar la posición actual del dispositivo móvil 2 del usuario U. En
15 un posible ejemplo los datos de posición corresponden a una dirección IP asignada del dispositivo móvil 2 evaluada por el servidor de transcripción 7 para determinar la posición actual del dispositivo móvil 2. La ID de usuario contenida en el encabezamiento puede indicar el usuario U tal como la persona con problemas auditivos que usa el servicio de transcripción TS. Dependiendo de la ID de usuario transportada el servicio de transcripción 7 puede tener acceso a un perfil de usuario del usuario U respectivo para obtener información adicional tal como la lengua de
20 destino hablada por el usuario. La posición del dispositivo móvil 2 puede ser transportada tal como se muestra en la fig. 7 como datos de encabezamiento de los paquetes de datos de voz sobre IP pero también por medio de un canal de información separado.
[0039] La fig. 8 muestra otro posible ejemplo de un servidor de transcripción 7 como el empleado por un sistema
25 de transcripción 1. En el ejemplo mostrado en la fig. 8 el servidor de transcripción 7 comprende una unidad de reconocimiento de habla 7A que carga un algoritmo de reconocimiento de habla SRA desde una base de datos o memoria 7B así como una unidad de conmutación 7C. La unidad de conmutación 7C conmuta el flujo de paquetes de datos de voz sobre IP recibido, recibido desde un dispositivo móvil 2 del usuario U a diferentes terminales 8-1, 82, ..., 8-N de operadores o asistentes de comunicación CA dependiendo del área detectada de la posición actual del
30 dispositivo móvil 2. Si, por ejemplo, la conversación explicada con referencia a la fig. 6 entre una persona con problemas auditivos y un médico tiene lugar en un país extranjero tal como Francia, la respuesta de este médico dada en francés será revocalizada por un operador o asistente de comunicación adecuado que habla francés. La unidad de conmutación 7 determina que la posición actual del dispositivo móvil 2 es un área donde la lengua nativa es francés y conmuta los paquetes de datos de voz sobre IP recibidos desde el interlocutor CP al terminal 8-I donde
35 el operador está ubicado que habla la lengua nativa correspondiente, es decir, en el ejemplo dado, francés. La lengua revocalizada por el operador formado es remitida entonces por la unidad de conmutación 7C a la unidad de reconocimiento de habla 7A que transforma la lengua hablada revocalizada del operador en texto continuo mediante el uso de un algoritmo de reconocimiento de habla SRA que también puede seleccionarse dependiendo de la posición actual del dispositivo móvil 2. El texto continuo generado puede ser remitido entonces a la persona con
40 problemas auditivos U y el texto en francés se muestra en un visualizador del dispositivo móvil 2 de manera que la persona con problemas auditivos puede leerlo.
[0040] La fig. 9 muestra un ejemplo adicional de un servidor de transcripción 7 como el empleado por un sistema de transcripción 1. En el ejemplo mostrado el servidor de transcripción 7 comprende además una unidad de 45 traducción 7D que tiene acceso a una base de datos o memoria 7E que almacena diferentes clases de algoritmos de traducción. En un posible ejemplo el servidor de transcripción 7 mostrado en la fig. 9 también puede comprender una unidad de conmutación 7C tal como se muestra en la fig. 8. Tal como puede apreciarse en la fig. 9, el texto continuo generado por la unidad de reconocimiento de habla 7A que usa el algoritmo de reconocimiento de habla SRA seleccionado cargado desde la memoria 7B es suministrado a una unidad de traducción 7D que traduce el texto 50 continuo por medio de un algoritmo de traducción cargado desde la memoria 7E. La unidad de traducción 7D traduce el texto generado por la unidad de reconocimiento de habla 7A a la lengua de destino del usuario U por medio del algoritmo de traducción TA seleccionado según un perfil de usuario del usuario U o según una selección llevada a cabo por el usuario U. En la realización tal como se muestra en la fig. 9 la lengua de destino se selecciona dependiendo del perfil de usuario del usuario que posee el dispositivo móvil 2. Por ejemplo, si la persona con 55 problemas auditivos que es la propietaria del dispositivo móvil 2 es un hablante nativo alemán la lengua de destino se seleccionará para que sea alemán. La lengua de origen se selecciona para que sea la lengua del interlocutor CP tal como un médico. En un posible ejemplo la lengua de origen, por ejemplo francés, se selecciona dependiendo de la posición actual del dispositivo móvil 2. Por ejemplo, si el dispositivo móvil 2 está ubicado actualmente en París, la lengua de origen se selecciona automáticamente para que sea francés. En otro ejemplo el usuario U tal como una persona con problemas auditivos puede seleccionar la lengua de origen a través de una interfaz de usuario del dispositivo móvil 2. Después de la selección automática o manual de la lengua de origen y de destino, se lleva a cabo una traducción del texto generado por medio de un algoritmo de traducción TA adecuado que traduce el texto de la lengua de origen a la lengua de destino. Luego, el texto traducido es remitido por el servidor de transcripción 7 5 a través de la red 6 al dispositivo móvil 2 y mostrado en una pantalla del dispositivo móvil 2 al usuario U tal como la persona con problemas auditivos. Usando un servidor de transcripción 7 tal como se muestra en la fig. 9, es posible que una persona con problemas auditivos o un usuario U que consulta a un médico francés pueda recibir la respuesta del médico ya traducida a su lengua nativa tal como alemán. Por consiguiente, una persona con problemas de audición incluso con conocimiento muy limitado de la lengua francesa puede consultar a un médico en
10 un país extranjero tal como Francia.
[0041] La fig. 10 muestra otro posible ejemplo de un sistema de transcripción 1. En este ejemplo de realización el servidor de transcripción 7 comprende una unidad adicional 7F que evalúa la posición actual del dispositivo móvil 2 para obtener automáticamente una lengua de origen para la selección de un algoritmo de traducción adecuado
15 almacenado en la base de datos 7E.
[0042] La fig. 11 muestra un diagrama de bloques de un dispositivo móvil ejemplar 2 empleado en el sistema de transcripción 1. En la realización mostrada el dispositivo móvil 2 comprende una interfaz de usuario que comprende un visualizador 2B como medio de salida cuando se muestra el texto continuo generado al usuario. La interfaz puede 20 comprender además un altavoz 2C y uno o varios micrófonos 2A para recibir la lengua hablada que ha de ser transcrita. La interfaz de usuario está conectada a una unidad de procesamiento de datos 2D tal como un microprocesador. La unidad de procesamiento de datos 2D también puede comprender convertidores analógicodigitales ADC y convertidores digital-analógicos DAC. La unidad de procesamiento de datos 2D formatea los datos convertidos posiblemente después de la compresión en paquetes de datos de voz sobre IP que son enviados a
25 través de un transceptor 2E y un enlace inalámbrico a la estación de base 3 de una red de acceso 4. El dispositivo móvil 2 puede comprender unidades adicionales tales como una memoria de configuración 2F y una unidad de alimentación 2G.
[0043] En un posible ejemplo el dispositivo móvil 2 puede comprender una unidad de selección de servicio de
30 transcripción 2H. En este ejemplo un usuario U puede seleccionar diferentes clases de servicios de transcripción TS. Por ejemplo, el usuario U puede seleccionar un servicio de transcripción sencillo en el que la lengua hablada de su interlocutor CP es transformada en texto por una unidad de reconocimiento de habla 7A que usa un algoritmo de reconocimiento de habla SRA seleccionado tal como se ilustra en relación con la fig. 5. Como otra opción el usuario U puede seleccionar un servicio de transcripción TS más sofisticado que usa la asistencia de un operador de
35 comunicación que revocaliza la lengua hablada tal como se describe en relación con el ejemplo de la fig. 8. Como opción adicional el usuario puede seleccionar un servicio de transcripción TS aún más sofisticado en el que la lengua hablada no sólo es revocalizada sino también traducida a una lengua de destino tal como se describe en relación con los ejemplos mostrados en las figs. 9, 10.
40 [0044] La fig. 12 muestra un diagrama para ilustrar la selección de diferentes modos de funcionamiento por un usuario U que selecciona diferentes clases de servicios de transcripción TS por medio de la unidad de selección de servicio de transcripción 2H. En el ejemplo dado el usuario U puede escoger entre un servicio de transcripción TS con traducción y un servicio de transcripción TS sin traducción. En el ejemplo mostrado el usuario U puede seleccionar entonces una lengua de destino y de partida si se ha decidido por un servicio de transcripción con
45 traducción. En un posible ejemplo la lengua de destino y la lengua de origen se seleccionan automáticamente. Tal como se muestra en la fig. 12, en un posible ejemplo la selección del algoritmo de traducción puede llevarse a cabo automáticamente dependiendo del perfil de usuario del usuario U si el usuario desea hacerlo así. Alternativamente, el usuario U puede seleccionar la lengua de destino manualmente, por ejemplo alemán, inglés o italiano. Para la configuración de la lengua de origen el usuario U también puede llevar a cabo una selección manual si desea
50 hacerlo así, por ejemplo entre alemán, inglés e italiano. Alternativamente, el usuario U puede escoger llevar a cabo una selección automática de algoritmo de traducción dependiendo de la posición actual de su dispositivo móvil 2. Si el usuario U selecciona una selección automática de algoritmo de traducción en el menú y luego viaja de Múnich a Roma, la lengua de origen se conmuta automáticamente de alemán a italiano en el ejemplo dado. Si el usuario U además escoge una selección automática de algoritmo de traducción y el usuario es un hablante nativo alemán, la
55 lengua de destino se selecciona automáticamente para que sea alemán.
[0045] En el ejemplo dado de la fig. 12, si el usuario U selecciona un servicio de transcripción TS sin traducción, podría escoger usar un servicio de transcripción TS con un operador de repetición de habla que revocaliza la lengua hablada o un servicio de transcripción sin el uso de un operador o asistente de comunicación que revocaliza la
lengua hablada. Si el usuario opta por un servicio de transcripción que emplea un asistente de comunicación CA, puede, por ejemplo, decidir entre una selección automática del algoritmo de reconocimiento de habla SRA según la posición actual del dispositivo móvil 2 o un ajuste manual. Se aplica lo mismo para un servicio de transcripción elegido sin el uso de un asistente de comunicación. Como puede apreciarse a partir del diagrama de la fig. 12 el 5 usuario 2 puede escoger y seleccionar entre diferentes clases de servicios de transcripción TS proporcionados por el servidor de transcripción 7 y puede llevar a cabo una configuración estándar deseada según sus necesidades. La configuración seleccionada puede almacenarse en la memoria de configuración 2F tal como se muestra en la fig. 11.
[0046] El sistema de transcripción 1 según la presente invención puede ser usado por una persona de viaje que
10 viaja a un país con otra lengua extranjera. El sistema de transcripción 1 según la presente invención también es adecuado para usuarios que no tienen impedimentos pero no hablan el dialecto local o la lengua de la región respectiva. Un hombre de negocios que viaje a Japón puede usar un sistema de transcripción 1 según la presente invención el cual genera un texto continuo traducido en su lengua nativa tal como alemán cuando viaja por el país extranjero, es decir, Japón. El usuario U u hombre de negocios puede seleccionar un servicio de transcripción
15 sofisticado que usa un operador o asistente de comunicación que habla japonés y llevar a cabo además una traducción del japonés a su lengua nativa. Después de haber seleccionado este servicio de transcripción el usuario U, es decir, el hombre de negocios puede iniciar una conversación con un interlocutor CP local japonés tal como un taxista o cualquier otra persona que vaya por la calle, por ejemplo dirigiendo una pregunta al taxista japonés. En un posible ejemplo la pregunta puede mostrarse en un visualizador del dispositivo móvil de usuario 2 después de que
20 haya sido cargada desde un diccionario. La pregunta cargada puede ser, por ejemplo en japonés: “¿Dónde está el próximo aeropuerto?”. El taxista que habla japonés contesta en japonés en el dispositivo móvil 2 del hombre de negocios y su respuesta hablada es transportada por paquetes de datos de voz sobre IP al servidor de transcripción
7. Puesto que el hombre de negocios ha seleccionado un servicio de transcripción TS sofisticado que incluye el servicio de un operador para asistente de comunicación CA la respuesta del taxista japonés es revocalizada por el
25 operador formado para minimizar la tasa de errores durante el reconocimiento de habla. El algoritmo de reconocimiento de habla SRA usado por el servidor de transcripción 7 se selecciona dependiendo de la posición actual del dispositivo móvil 2 y, por lo tanto, es adecuado para la lengua japonesa.
[0047] El texto en japonés generado por la unidad de reconocimiento de habla 7A es suministrado luego a la
30 unidad de traducción 7D ya que el hombre de negocios U ha seleccionado el servicio de transcripción sofisticado que incluye una traducción a su lengua nativa. La lengua de origen, es decir el japonés, se selecciona según la posición actual del dispositivo móvil 2. La lengua de destino, es decir el alemán, se selecciona según la ID de usuario del hombre de negocios alemán U. En este ejemplo la unidad de traducción 7 D usa un algoritmo de traducción que traduce el texto en japonés a texto en alemán. El texto en alemán es remitido por el servidor de
35 transcripción 7 en tiempo real al dispositivo móvil 2 del usuario U y mostrado en un visualizador de su teléfono móvil. De esta manera, el hombre de negocios alemán U puede conversar con el taxista japonés CP en tiempo real cara a cara. En un posible ejemplo, preguntas estándar que han de mostrarse al interlocutor local CP pueden cargarse desde una base de datos del servidor de transcripción 7. Otra opción es que el usuario U tenga un conocimiento básico de la lengua local y pueda formular una pregunta sencilla en la lengua extranjera tal como “Dove e il
40 aeropoerto piu vicino?” (“¿Dónde está el aeropuerto?”).
[0048] El sistema de transcripción 1 según la reivindicación 6 está adaptado para generar subtítulos para películas, reportajes o espectáculos de TV en directo. La fig. 13 muestra un ejemplo de un sistema de transcripción para generar subtítulos para una película. En el ejemplo dado un proveedor de contenidos 8 tiene una base de datos 45 para películas y largometraje que tienen que ser complementados con subtítulos. Desde una base de datos 8 A que almacena la película o el largometraje a los que han de añadirse subtítulos se suministran datos de vídeo a una pantalla 9 y luego se muestran a un operador que tiene un guión y escucha la película mostrada en la lengua original, por ejemplo por medio de altavoces de unos auriculares. El operador traduce el texto hablado por el actor en el largometraje o la película en un micrófono provisto en los medios de entrada 2A de un dispositivo 2 que
50 suministra los paquetes de datos de voz sobre IP a través de la red 6 al servidor de transcripción 7. La lengua hablada del operador puede ser revocalizada y proporcionada como texto de subtítulos a una unidad de adición de subtítulos 8B del proveedor de contenidos 8. En la unidad 8B el texto de subtítulos generado es añadido al largometraje mostrado y almacenado en una base de datos.
55 [0049] El sistema de transcripción 1 según la reivindicación 6 también puede usarse para generar subtítulos para un reportaje en directo. Tal como se muestra en la fig. 14, un reportero que contempla una escena en directo tal como una casa ardiendo puede decir sus comentarios en un micrófono de los medios de entrada 2A y los paquetes de datos de voz sobre IP son transportados al servidor de transcripción 7 que genera los subtítulos automáticamente para el reportaje. La escena es grabada por una cámara 10 que proporciona datos de vídeo a una unidad de adición
de subtítulos 8B que añade el texto de subtítulos generado automáticamente a los datos de vídeo.
[0050] En los ejemplos mostrados en las figs. 13, 14 los medios de entrada 2A pueden estar integrados en un dispositivo móvil 2 tal como un teléfono móvil usado por el operador o reportero. Este dispositivo móvil 2 se 5 comunica con el servidor de transcripción 7 a través de una red de acceso 4 tal como se muestra en las figs. 13, 14. En un ejemplo alternativo los medios de entrada 2A están conectados directamente a la red 6.
[0051] En un posible ejemplo de un sistema de transcripción 1 no sólo hay un usuario U y su interlocutor CP en los cuales proporcionar un flujo de paquetes de datos de voz sobre IP sino varios usuarios. En este ejemplo cada flujo 10 de paquetes de datos de voz sobre IP comprende una indicación que indica el origen de los paquetes de datos de voz sobre IP del generador de flujo respectivo. Por consiguiente, en este ejemplo un flujo de paquetes de datos de voz sobre IP puede ser asignado por el servidor de transcripción 7 a una persona específica. Los destinatarios, tales como un operador, pueden entonces, por ejemplo, distinguir diferentes hablantes o usuarios por diferentes colores mostrados. Además, es posible que el texto continuo transformado sea grabado por el servidor de transcripción 7 15 para la posterior descarga por el usuario U o para la transmisión al usuario U, por ejemplo por medio de un correo electrónico. En un posible ejemplo adicional del sistema 1 al usuario U, tal como una persona con problemas auditivos, también se le puede suministrar un signo o lenguaje corporal generado automáticamente. En el ejemplo mostrado en la fig. 8 los diferentes operadores o asistentes de comunicación CA pueden estar ubicados en un centro de llamadas conectado al servidor de transcripción 7 a través de la red 6. En otro ejemplo el diferente operador o 20 asistentes de comunicación CA pueden trabajar en sus oficinas domésticas donde están ubicados los terminales 8-i.
[0052] En un posible ejemplo un usuario U de un dispositivo móvil 2 puede cargar un programa de aplicación para proporcionar servicios de transcripción TS, desde una base de datos de un proveedor de servicios que ejecuta el servidor de transcripción 7. En un posible ejemplo el dispositivo móvil 2 ejecuta una aplicación de internet sofisticada 25 RIA. El dispositivo móvil 2 comprende en un ejemplo preferido una interfaz gráfica de usuario GUI. Un navegador ejecutado por el dispositivo móvil 2 permite el acceso a internet. En un ejemplo preferido el dispositivo móvil 2 permite desplazarse por el texto de transcripción continuo generado. El texto continuo generado puede ser almacenado en una memoria local del dispositivo móvil 2. En una posible realización de ejemplo el dispositivo móvil 2 ofrece una función para remitir el texto continuo generado a otros usuarios. En un posible ejemplo el dispositivo 30 móvil 2 comprende una pantalla táctil para seleccionar diferentes clases de servicios de transcripción TS que incluyen diferentes funciones seleccionables tales como reconocimiento de habla, revocalización y traducción. El sistema 1 según la presente invención proporciona un servicio móvil de transcripción y traducción, en particular para personas con problemas auditivos pero también para personas sin problemas auditivos que viajan al extranjero. Además, el sistema 1 según la presente invención está adaptado para generar subtítulos para películas, reportajes o
35 espectáculos de TV en directo. En un posible ejemplo tanto el usuario U como el interlocutor CP son personas con problemas de audición que tienen cada uno su propio dispositivo móvil 2.
[0053] En un posible ejemplo el sistema 1 según la presente invención también puede usarse con fines de formación. Por ejemplo, una persona con problemas auditivos U no puede controlar fácilmente si su pronunciación 40 es correcta, porque no hay respuesta audible para la persona. Diciendo una frase en el micrófono del dispositivo móvil de usuario 2 según la presente invención el usuario U puede controlar si su pronunciación ha sido correcta o no. En este ejemplo el usuario U puede conmutar de un servicio de transcripción a un servicio de formación. Son posibles varias realizaciones ejemplares adicionales del sistema según la presente invención. Por ejemplo, un programa de corrección automática de texto puede llevar a cabo una corrección de texto del texto generado si es
45 necesario. Otras posibles realizaciones ejemplares comprenden un procedimiento de registro y verificación para los diferentes usuarios. Además, puede proporcionarse compresión y cifrado de datos.

Claims (7)

  1. REIVINDICACIONES
    1. Un procedimiento de transcripción para la transcripción de lengua hablada en texto continuo para un
    usuario (U) que comprende las etapas de: 5
    (a)
    introducir una lengua hablada de al menos un usuario (U) o de un interlocutor (CP) del al menos un usuario (U) dentro de un dispositivo móvil (2) del usuario respectivo (U),
    (b)
    transportar la lengua hablada introducida como datos de cabida útil dentro de un flujo correspondiente de
    10 paquetes de datos de voz sobre IP desde dicho dispositivo móvil (2) a través de una red (6) hasta un servidor de transcripción (7);
    (c) detectar una posición actual de dicho dispositivo móvil (2) evaluando los datos de posición contenidos en un
    encabezamiento de dichos paquetes de datos de voz sobre IP y seleccionar un leguaje de partida automáticamente 15 dependiendo de la posición actual detectada de dicho dispositivo móvil (2);
    (d) seleccionar automáticamente una lengua de destino del usuario (U) evaluando una ID de usuario contenida en el encabezamiento de dichos paquetes de datos de voz sobre IP;
    20 (e) conmutar los flujos de paquetes de datos de voz sobre IP que transportan la lengua hablada como datos de cabida útil recibidos por dicho servidor de transcripción (7) a través de dicha red (6) desde dicho dispositivo móvil (2) mediante una unidad de conmutación (7C) de dicho servidor de transcripción (7) a diferentes terminales (8-1, 8-2, ... 8-N) de operadores dependiendo del área de la posición actual detectada de dicho dispositivo móvil (2);
    25 (f) producir como salida dicha lengua hablada transportada a dichos operadores que revocalizan la lengua hablada producida, en la que los operadores son operadores adecuados que hablan la lengua nativa correspondiente de la posición actual detectada de dicho dispositivo móvil (2);
    (g) remitir la lengua revocalizada por dicha unidad de conmutación (7C) a una unidad de reconocimiento de habla
    30 (7A) de dicho servidor de transcripción (7) que transforma la lengua hablada revocalizada en texto continuo mediante el uso de un algoritmo de reconocimiento de habla (SRA) seleccionado de diferentes algoritmos de reconocimiento de habla (SRA) dependiendo de la posición actual detectada de dicho dispositivo móvil (2);
    (h) traducir el texto continuo transformado mediante una unidad de traducción (7D) de dicho servidor de transcripción
    35 (7) por medio de un algoritmo de traducción de texto (TA) adecuado de la lengua de origen seleccionada a la lengua de destino seleccionada del usuario (U);
    (i) remitir el texto traducido en la lengua de destino del usuario (U) por el servidor de transcripción (7) a dicho
    dispositivo móvil (2) donde el texto traducido en la lengua de destino del usuario (U) se muestra en una pantalla de 40 dicho dispositivo móvil (2) al usuario (U).
  2. 2. El procedimiento de transcripción según la reivindicación 1,
    en el que los datos de posición contenidos en un encabezamiento de dichos paquetes de voz sobre IP corresponden 45 a una dirección IP asignada del dispositivo móvil (2).
  3. 3. Un servidor de transcripción (7) para la transcripción de lengua hablada en texto continuo para un usuario (U) que comprende:
    50 una unidad de reconocimiento de habla (7A) que está adaptada para transformar lengua hablada transportada como datos de cabida útil dentro de un flujo correspondiente de paquetes de datos de voz sobre IP desde un dispositivo móvil (2) a través de una red (6) a dicho servidor de transcripción (7) en texto continuo por medio de un algoritmo de reconocimiento de habla (SRA),
    55 en el que dicho servidor de transcripción (7) está adaptado para detectar una posición actual de dicho dispositivo móvil (2) evaluando los datos de posición contenidos en un encabezamiento de paquetes de datos de voz sobre IP recibidos y para seleccionar automáticamente una lengua de origen dependiendo de la posición actual detectada del dispositivo móvil (2) y que está adaptado además para seleccionar automáticamente una lengua de destino del usuario (U) evaluando una ID de usuario contenida en el encabezamiento de los paquetes de datos de voz sobre IP recibidos,
    en el que el servidor de transcripción (7) está adaptado además para seleccionar una lengua de origen de un interlocutor (CP) del usuario dependiendo de la posición actual detectada de dicho dispositivo móvil (2),
    5 en el que el servidor de transcripción (7) comprende una unidad de conmutación (7C) que está adaptada para conmutar los flujos de paquetes de datos de voz sobre IP recibidos, recibidos desde el dispositivo móvil (2) del usuario (U) a través de dicha red (6) a diferentes terminales (8-1, 8-2, 8-N) de operadores dependiendo del área de la posición actual detectada de dicho dispositivo móvil (2), en el que la lengua hablada transportada es producida
    10 como salida por dichos terminales (8-1, 8-2, 8-N) a dichos operadores que revocalizan la lengua hablada, en el que los operadores son operadores adecuados que hablan la lengua nativa correspondiente en la posición actual detectada de dicho dispositivo móvil (2),
    en el que la unidad de conmutación (7C) está adaptada para remitir la lengua revocalizada a dicha unidad de
    15 reconocimiento de habla (7A) de dicho servidor de transcripción (7) que está adaptado para transformar la lengua hablada revocalizada del operador adecuado en texto continuo mediante el uso de un algoritmo de reconocimiento de habla (SRA) que se selecciona de diferentes algoritmos de reconocimiento de habla (SRA) proporcionados para diferentes áreas dependiendo de una lengua natural o un dialecto hablado en el área de la posición actual detectada de dicho dispositivo móvil (2), en el que el servidor de transcripción (7) comprende además una unidad de traducción
    20 (7D) que está adaptada para traducir el texto continuo transformado por medio de un algoritmo de traducción de texto (TA) de la lengua de origen seleccionada a la lengua de destino seleccionada del usuario respectivo (U),
    en el que dicho servidor de transcripción (7) está adaptado para remitir el texto traducido en la lengua de destino del usuario (U) a través de dicha red (6) a dicho dispositivo móvil (2) que tiene un visualizador (2B) que está adaptado
    25 para mostrar el texto traducido en la lengua de destino del usuario (U) al usuario (U).
  4. 4. Un sistema de transcripción para la transcripción de lengua hablada en texto continuo para un usuario
    (U) que comprende:
    30 un servidor de transcripción (7) según la reivindicación 3, y al menos un dispositivo móvil (2) que tiene medios de entrada (2A) para introducir una lengua hablada de al menos un usuario (U) o de un interlocutor (CP) del usuario (U) y que tiene un transceptor para establecer un enlace inalámbrico a una estación de base (3) que está conectada a una red (6) adaptada para transportar la lengua hablada introducida como datos de cabida útil dentro de un flujo correspondiente de paquetes de datos de voz sobre IP desde dicho dispositivo móvil (2) a través de dicha red (6)
    35 hasta el servidor de transcripción (7),
    en el que la unidad de reconocimiento de habla (7A) comprendida en dicho servidor de transcripción (7) está adaptada para cargar un algoritmo de reconocimiento de habla (SRA) desde una base de datos (7B).
    40 5. El sistema de transcripción según la reivindicación 4, en el que la red (6) está formada por internet.
  5. 6. El sistema de transcripción según la reivindicación 4 o 5, en el que dicho sistema de transcripción (1) está adaptado para generar subtítulos para películas, reportajes o espectáculos de TV en directo por un usuario, en particular un doblador de largometrajes o un reportero, que dicen comentarios en dicho dispositivo móvil (2) que se
    45 muestran en tiempo real en una pantalla.
  6. 7. El sistema de transcripción según las reivindicaciones 4 o 5, en el que dicho sistema de transcripción
    (1) está adaptado para generar texto continuo en la lengua de destino para un usuario con problemas auditivos (U)
    en respuesta a una lengua hablada en la lengua de origen introducida por el interlocutor (CP) de dicho usuario con 50 problemas auditivos (U) en dicho dispositivo móvil (2) de dicho usuario con problemas auditivos (U).
  7. 8. El sistema de transcripción según una de las reivindicaciones anteriores 4 - 7, en el que dicho sistema de transcripción (1) está adaptado para generar un texto continuo traducido en la lengua de destino para una persona de viaje (U) en un país extranjero con otra lengua natural local u otro dialecto en respuesta
    55 a una lengua de origen hablada introducida por un interlocutor (CP) de dicho usuario de viaje (U) en dicho dispositivo móvil (2) de dicho usuario de viaje (U) para ser mostrado en tiempo real por dicho usuario de viaje (U) en el visualizador (2B) de dicho dispositivo móvil (2).
ES10771730.8T 2009-10-27 2010-10-27 Procedimiento, servidor y sistema para la transcripción de lengua hablada Active ES2453891T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09174254 2009-10-27
EP09174254A EP2325838A1 (en) 2009-10-27 2009-10-27 A method and system for transcription of spoken language
PCT/EP2010/066239 WO2011051325A1 (en) 2009-10-27 2010-10-27 A method and system for transcription of spoken language

Publications (1)

Publication Number Publication Date
ES2453891T3 true ES2453891T3 (es) 2014-04-08

Family

ID=41728119

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10771730.8T Active ES2453891T3 (es) 2009-10-27 2010-10-27 Procedimiento, servidor y sistema para la transcripción de lengua hablada

Country Status (5)

Country Link
US (1) US9544430B2 (es)
EP (3) EP2325838A1 (es)
ES (1) ES2453891T3 (es)
PT (1) PT2494546E (es)
WO (1) WO2011051325A1 (es)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9013399B2 (en) * 2010-02-18 2015-04-21 Nikon Corporation Information processing device, portable device and information processing system
EP2541436A1 (en) * 2011-07-01 2013-01-02 Alcatel Lucent System and method for providing translations in a telecommunication-signal test device
US8788257B1 (en) * 2011-10-25 2014-07-22 Google Inc. Unified cross platform input method framework
US9007448B2 (en) 2012-02-03 2015-04-14 Bank Of America Corporation Video-assisted customer experience
GB2507797A (en) * 2012-11-12 2014-05-14 Prognosis Uk Ltd Translation application allowing bi-directional speech to speech translation and text translation in real time
CN105009151A (zh) * 2013-03-07 2015-10-28 日本电气方案创新株式会社 理解辅助系统、理解辅助服务器、理解辅助方法和计算机可读记录介质
CN105190607B (zh) * 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
US20190312973A1 (en) * 2014-02-28 2019-10-10 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10423760B2 (en) * 2014-04-29 2019-09-24 Vik Moharir Methods, system and apparatus for transcribing information using wearable technology
US10424405B2 (en) * 2014-04-29 2019-09-24 Vik Moharir Method, system and apparatus for transcribing information using wearable technology
US9854139B2 (en) 2014-06-24 2017-12-26 Sony Mobile Communications Inc. Lifelog camera and method of controlling same using voice triggers
US9497315B1 (en) 2016-07-27 2016-11-15 Captioncall, Llc Transcribing audio communication sessions
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
EP3665910B1 (en) * 2017-08-07 2021-08-04 Sonova AG Online automatic audio transcription for hearing aid users
US10192554B1 (en) 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
US10834455B2 (en) 2018-06-27 2020-11-10 At&T Intellectual Property I, L.P. Integrating real-time text with video services
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN111833848A (zh) * 2020-05-11 2020-10-27 北京嘀嘀无限科技发展有限公司 用于识别语音的方法、装置、电子设备和存储介质
CN111836062A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 视频播放方法、装置及计算机可读存储介质
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
US6510206B2 (en) * 2000-09-19 2003-01-21 Ultratec, Inc. Relay for personal interpreter
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US7054804B2 (en) * 2002-05-20 2006-05-30 International Buisness Machines Corporation Method and apparatus for performing real-time subtitles translation
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US8027438B2 (en) * 2003-02-10 2011-09-27 At&T Intellectual Property I, L.P. Electronic message translations accompanied by indications of translation
US20060074660A1 (en) * 2004-09-29 2006-04-06 France Telecom Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words
US8041568B2 (en) * 2006-10-13 2011-10-18 Google Inc. Business listing search
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20080221862A1 (en) * 2007-03-09 2008-09-11 Yahoo! Inc. Mobile language interpreter with localization
US8447285B1 (en) * 2007-03-26 2013-05-21 Callwave Communications, Llc Methods and systems for managing telecommunications and for translating voice messages to text messages
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
CN101309390B (zh) * 2007-05-17 2012-05-23 华为技术有限公司 视讯通信系统、装置及其字幕显示方法
US8041555B2 (en) * 2007-08-15 2011-10-18 International Business Machines Corporation Language translation based on a location of a wireless device
US8290779B2 (en) * 2007-09-18 2012-10-16 Verizon Patent And Licensing Inc. System and method for providing a managed language translation service
JP2009205579A (ja) * 2008-02-29 2009-09-10 Toshiba Corp 音声翻訳装置およびプログラム
EP2106121A1 (en) * 2008-03-27 2009-09-30 Mundovision MGI 2000, S.A. Subtitle generation methods for live programming
US8949124B1 (en) * 2008-09-11 2015-02-03 Next It Corporation Automated learning for speech-based applications
US8279861B2 (en) * 2009-12-08 2012-10-02 International Business Machines Corporation Real-time VoIP communications using n-Way selective language processing
US9560206B2 (en) * 2010-04-30 2017-01-31 American Teleconferencing Services, Ltd. Real-time speech-to-text conversion in an audio conference session
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8538742B2 (en) * 2011-05-20 2013-09-17 Google Inc. Feed translation for a social network
US20150011251A1 (en) * 2013-07-08 2015-01-08 Raketu Communications, Inc. Method For Transmitting Voice Audio Captions Transcribed Into Text Over SMS Texting
KR20150031896A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 음성인식장치 및 그 동작방법
US9524717B2 (en) * 2013-10-15 2016-12-20 Trevo Solutions Group LLC System, method, and computer program for integrating voice-to-text capability into call systems

Also Published As

Publication number Publication date
EP2494546B8 (en) 2014-03-05
US9544430B2 (en) 2017-01-10
PT2494546E (pt) 2014-03-31
EP2325838A1 (en) 2011-05-25
EP2494546A1 (en) 2012-09-05
US20120265529A1 (en) 2012-10-18
EP2494546B1 (en) 2013-12-25
WO2011051325A1 (en) 2011-05-05
EP2725816A1 (en) 2014-04-30

Similar Documents

Publication Publication Date Title
ES2453891T3 (es) Procedimiento, servidor y sistema para la transcripción de lengua hablada
US8611876B2 (en) Configurable phone with interactive voice response engine
US6510206B2 (en) Relay for personal interpreter
US8825116B2 (en) Enhanced call reception and privacy
US10069965B2 (en) Maintaining audio communication in a congested communication channel
US9185211B2 (en) Apparatuses and methods for operating a communication system in one of a tone mode and a text mode
ES2626228T3 (es) Procedimiento de comunicación y sistema de comunicación
JP2000068882A (ja) 無線通信装置
KR100523358B1 (ko) 장애인용 개방 api 응용 통신 서비스 시스템 및 방법
CN110915239B (zh) 用于助听器用户的在线自动音频转录
JPWO2015083741A1 (ja) 中継装置、表示装置および通信システム
US20230096543A1 (en) Systems and methods for providing real-time automated language translations
KR100750729B1 (ko) 음성인식 문자변환기기
JP3221050U (ja) 多機能即時音声翻訳装置
EP2536176B1 (en) Text-to-speech injection apparatus for telecommunication system
ES2299294B1 (es) Sistema y metodo de transcripcion de conversaciones telefonicas en tiempo real.
JP2014150442A (ja) 通話システム及び通話中継方法
KR20110030985A (ko) 영상 채팅 방식을 이용한 텍스트-음성 통화 서비스 방법 및 시스템
JP3225514U (ja) 多機能即時音声翻訳装置
KR100585251B1 (ko) 문자메시지의 음성 제공 장치 및 방법
KR100696818B1 (ko) 이동통신망에서의 메시지 콜 서비스 제공 장치 및 그 방법
KR20210029636A (ko) 인공지능을 통한 번역과 통역 전문가의 통역이 하이브리드된 실시간 통역 서비스시스템
CN117034962A (zh) 一种电信网接入翻译能力的方法
KR101138753B1 (ko) 이동 통신 단말기를 이용한 회화 학습 시스템 및 방법
JP2003099081A (ja) 音声送受信装置