ES2299294A1

ES2299294A1 - Sistema y metodo de transcripcion de conversaciones telefonicas en tiempo real.

Info

Publication number: ES2299294A1
Application number: ES200501257A
Authority: ES
Inventors: Miguel Angel Touset Rios
Original assignee: Vodafone Espana SA
Current assignee: Vodafone Espana SA
Priority date: 2005-05-24
Filing date: 2005-05-24
Publication date: 2008-05-16
Anticipated expiration: 2025-05-24
Also published as: ES2299294B1; EP1727340A1; EP1727340B1; ES2507550T3

Abstract

Sistema y método de transcripción de conversaciones telefónicas en tiempo real.

Un sistema de transcripción en tiempo real de una conversación telefónica entre un primer y un segundo terminales móviles (A, B), que comprende:

- medios para recibir una señal de activación de un servicio de transcripción por parte de uno de los dos terminales móviles,

- y en respuesta a dicha activación, medios para recibir una señal de voz conjunta que incluye las voces de dichos primer y segundo terminales móviles,

- medios para separar dicha conversación en tiempo real y obtener una primera señal de voz y una segunda señal de voz separadas de dichos primer y segundo terminales móviles,

- medios para transcribir dichas primera y segunda señales de voz a un formato único preestablecido,

- medios de envío de dichas primera y segunda señales de voz transcritas a un formato único preestablecido al terminal móvil (A o B) que ha solicitado el servicio.

La invención también se refiere a un método de transcripción en tiempo real de una conversación telefónica entre dos terminales.

Description

Campo de la invención

La presente invención se engloba dentro del campo de las telecomunicaciones móviles, y más en concreto, en el envío de datos correspondientes a una llamada de voz establecida entre dos o más teléfonos móviles.

Antecedentes de la invención

El estado actual de la técnica proporciona dispositivos capaces de transcribir a texto un flujo de conversación en tiempo cuasi-real. También existen sistemas que capturan "al dictado" un texto, convirtiendo la voz en caracteres alfanuméricos.

Así mismo, existen sistemas capaces de separar la voz de los diferentes interlocutores participantes en una conversación o diálogo.

En otros sistemas propuestos, como por ejemplo la solicitud de patente estadounidense US-2005/0013419-A1, se propone almacenar un texto dictado por un locutor para posteriormente enviarlo por distintos sistemas de mensajería como puede ser SMS o correo electrónico.

En la solicitud de patente australiana WO 03/071774-A1 se propone un método para llevar a cabo una llamada-conferencia entre dos o más participantes. Se trata de un sistema para redes de paquetes, en el que se requiere de un nodo centralizado sobre el que se establece la conferencia.

Es sabido que en el campo de telefonía móvil se utilizan frecuentemente abreviaciones y acrónimos. A continuación se expone un glosario de acrónimos/términos que son utilizados a lo largo de la presente memoria descriptiva:

\vskip1.000000\baselineskip

100

101

Descripción de la invención

La invención se refiere a un sistema de transcripción en tiempo real de conversaciones telefónicas de acuerdo con la reivindicación 1 y a un método de acuerdo con la reivindicación 11. Realizaciones preferidas del sistema y del método se definen en las reivindicaciones dependientes.

La presente invención proporciona un sistema que, a diferencia de los conocidos en el estado de la técnica, permite la transcripción de una conversación que transcurre entre dos terminales móviles, en tiempo real, y manteniendo la comunicación vocal activa. De acuerdo con las características del sistema de la invención, este servicio de transcripción o de subtitulado de llamada bajo demanda (pues el usuario activa y desactiva el servicio a su voluntad), puede ser solicitado al principio o durante la llamada de voz, sin necesidad de que todas las llamadas que realicen los usuarios pasen por un nodo central. Las muestras de voz de cada usuario se obtienen a partir del procesado de la voz incluida en la conversación.

De acuerdo con un primer aspecto de la invención, ésta se refiere a un sistema de transcripción en tiempo real de una conversación telefónica entre un primer y un segundo terminales móviles (A, B), que comprende:

Dichos medios para recibir la señal de voz conjunta están gestionadas directamente por el terminal móvil que solicita el servicio, o pueden estar gestionados por un nodo de control de la red de telefonía móvil.

Dicho formato único preestablecido puede venir determinado por las características técnicas del terminal que solicita el servicio de transcripción, o por el usuario que solicita el servicio o por la red.

Dicho formato único preestablecido puede ser texto, imagen u otros.

Dichos medios de envío de dichas primera y segunda señales de voz transcritas preferiblemente incluyen medios de conexión con un centro de mensajería corta (SMSC) para envío mediante SMS. O preferiblemente incluyen medios de conexión con una pasarela de USSD (GW USSD) y un registro local de localización del usuario (HLR). O preferiblemente dichas primera y segunda señales de voz transcritas se incluyen en una sesión de datos.

Preferiblemente el sistema comprende medios para recibir una señal de desactivación del servicio de transcripción.

De acuerdo con un segundo aspecto de la invención, ésta se refiere a un método de transcripción en tiempo real de una conversación telefónica entre un primer y un segundo terminales móviles (A, B), que comprende:

- enviar uno de los dos terminales móviles una señal de activación de un servicio de transcripción,

- y en respuesta a dicha activación, recibir una señal de voz conjunta que incluye las voces de dichos primer y segundo terminales móviles,

- separar dicha conversación en tiempo real y obtener una primera señal de voz y una segunda señal de voz separadas de dichos primer y segundo terminales móviles,

- transcribir dichas primera y segunda señales de voz a un formato único preestablecido,

- enviar dichas primera y segunda señales de voz transcritas a un formato único preestablecido al terminal móvil (A o B) que ha solicitado el servicio.

Dicha señal de voz conjunta puede ser gestionada directamente por el terminal móvil que solicita el servicio, o por un nodo de control de la red de telefonía móvil.

El envío de las primera y segunda señales de voz transcritas a un formato único preestablecido se puede realizar mediante SMS; o mediante sesión USSD originada por la red; o mediante sesión de datos (como es el caso en que se trate de un terminal móvil y éste sea de clase A).

La activación del servicio se puede solicitar enviando un tono DTMF predeterminado; o enviando un código USSD predeterminado; o mediante SMS; o mediante sesión de datos. Por ejemplo, en CAMEL fase 3 se permite que los SMS activen un servicio de red inteligente. O mediante invocación de la identidad del sistema de transcripción de la invención (p.ej. MSISDN ó SIP URL).

La activación del servicio también puede solicitarse por voz. En tal caso de activación vocal, el sistema además de obtener una primera señal de voz y una segunda señal de voz separadas de dichos primer y segundo terminales móviles, reconoce cuál corresponde a cada uno, y por tanto se envía al terminal móvil que ha solicitado el servicio, únicamente la primera o la segunda señal de voz correspondiente al otro terminal móvil que no ha solicitado el servicio, transcrita a un formato o formatos únicos preestablecidos.

Preferiblemente el método incluye enviar una señal de desactivación del servicio de transcripción. Esta desactivación del servicio se realizaría de forma análoga a lo indicado para la activación del servicio.

También puede ocurrir que el terminal que ha solicitado el servicio reciba en primera aproximación la transcripción completa de la conversación, y posteriormente seleccione la parte que desee que se le envíe. En el caso que se haga la activación por voz, se puede utilizar la propia voz para saber quién es el que ha activado el servicio y poder enviarle sólo la transcripción del otro.

También se puede considerar que una vez el sistema de la invención esté recibiendo la señal de voz conjunta que incluye la voces de dichos primer y segundo terminales móviles, que con algún identificador preestablecido (tono DTMF, código USSD, SMS, muestra vocal u otros) se pueda distinguir al usuario que solicita el servicio, para así enviarle únicamente la transcripción del otro terminal.

Dicho formato único preestablecido puede ser determinado por el usuario que solicita el servicio de transcripción; o por las características técnicas del terminal; o por la red.

El sistema propuesto por la invención es escalable al caso en el que hubiera N locutores (N>=2) y los N solicitaran el servicio, ya que al mantenerse la conexión de voz establecida, se podrían pasar a texto las partes de conversación de los N locutores que se presentarían consecutivamente en la pantalla del solicitante del servicio.

El sistema es aplicable a cualquier tipo de terminales, ya sean móviles, fijos, PCs, Palms, etc. que dispongan de un elemento de visualización accesible durante una conversación telefónica.

Por otra parte, es extensible al caso de traducción en tiempo real, sin más que traducir el texto obtenido de la conversación a otro idioma, pudiéndose seleccionar en la invocación al servicio. Y de un modo más general, debido al hecho de que se tiene un canal de voz abierto con el usuario del terminal móvil que ha solicitado el servicio de transcripción, se podría incluir por dicho canal el audio traducido. Por ejemplo, en el caso de que un usuario quiera saber cómo se pronuncia y se escribe en otro idioma una determinada frase, sólo tiene que invocar el servicio (llamando por ej. a un número B predeterminado por el operador, y en tal caso el sistema de la invención tiene medios para que se traduzca directamente), pronunciar la frase y ver en la pantalla de su terminal su traducción en texto y en su auricular la pronunciación de la misma. En este caso, N=1.

Así mismo, la información presentada al usuario además de ser textual puede pensarse en que sea multimedia (caso de que se emplee enlace de datos para presentar la información procesada o se empleen MMS). Por ejemplo, una imagen de la otra persona almacenada en el terminal de A a la que se le añade como en los cómic las frases que pronuncia B, o imágenes relacionadas con la conversación (lenguaje de mudos) u otras. Estas ultimas opciones requieren de funcionalidad adicional en los elementos de red para hacerlas llegar al terminal, típicamente por un canal de datos, así como en el terminal que debe procesar estos datos y presentarlos en pantalla de acuerdo a las especificaciones del servicio.

Breve descripción de los dibujos

A continuación se pasa a describir de manera muy breve una serie de dibujos que ayudan a comprender mejor la invención y que se relacionan expresamente con una realización de dicha invención que se presenta como un ejemplo no limitativo de ésta.

La Figura 1 muestra una posible implementación del sistema de la invención mediante red inteligente.

La Figura 2 otra posible implementación del sistema de la invención mediante lógica en el terminal móvil.

Descripción de una realización preferida de la invención

Tanto en la implementación mostrada en la figura 1 como la mostrada en la figura 2, se trata de una llamada de voz entre dos usuarios de terminal móvil A y B. Durante el transcurso de dicha llamada uno de ellos, por ejemplo, el interlocutor A, puede decidir (porque requiere traducción o transcripción de la conversación o porque simplemente se trata de una persona sorda) que prefiere que la manera de interactuar con el otro sea enriquecida por medio de la presentación en la pantalla de su terminal de la transcripción de la conversación.

Así mismo, si el entorno en que se encuentra uno de los locutores, por ej., A, supera un umbral de ruido configurable en su terminal móvil, éste invocará el servicio de transcripción de la conversación.

De acuerdo con la invención y con la manera que se explica a continuación (implementaciones en red inteligente o mediante lógica en el terminal móvil), el interlocutor solicitante, A, recibirá la voz y su transcripción en el terminal, mientras el otro interlocutor, B, mantendrá la interfaz de voz. La llamada existente en un principio se mantiene y el locutor solicitante del servicio, A, recibirá además en tiempo real la transcripción de la conversación como si de un subtítulo se tratara.

\newpage

En la figura 1 se muestra la implementación basada en red inteligente, es decir, el caso en el que la puesta en escucha del nodo encargado de la recepción del audio de la conversación para su transcripción se encuentra gestionada por la red de comunicaciones.

El proceso por el que transcurriría el servicio sería el siguiente:

SP1.: El usuario A en este caso indica a la red que desea establecer una llamada de voz con su homólogo B.

SP2.: La llegada de la invocación al nodo de conmutación (MSC) 10 ocasiona que se realice un disparo de red inteligente a un nodo de control (SCP) 20 de la misma, para que éste le indique cómo proceder con el establecimiento de la llamada.

SP3.: El nodo de control SCP 20 devuelve al nodo de conmutación MSC 10 el control de la llamada indicándole que debe establecerla con el usuario B.

SP4.: El nodo de conmutación MSC 10 pone en comunicación a los usuarios A y B. Por tanto, la llamada de voz entre ambos queda establecida. A y B reciben voz.

SP5.: El usuario A (ó su terminal al detectar un nivel de ruido por encima de un umbral) desea invocar el servicio de transcripción de la conversación en curso. Para ello, envía a la red un tono DTMF ó un código USSD determinados, o por ejemplo invocados mediante comando vocal, o mediante un SMS. O mediante invocación de la identidad del nodo 30 (p. ej. MSISDN).

SP6.: Esto ocasiona que el nodo de control SCP 20 sea "despertado" ante uno de los anteriores eventos armados previamente.

SP7.: La lógica que corre en el nodo de control SCP 20 devuelve que para este tono DTMF ó código USSD el nodo de conmutación MSC 10 cree una llamada entre el locutor A y el nodo de procesado de la señal de voz perteneciente a la llamada entre A y B (nodo STT 30). Esto ocasiona que momentáneamente la llamada entre A y B sea puesta en espera (HOLD).

SP8.: El nodo STT 30 es puesto en conferencia junto a A y B por indicación del nodo de control SCP.

SP9.: En este momento, el nodo STT 30 permanece a la escucha de la conversación entre A y B. La primera tarea del nodo STT 30 es la de la separación de las muestras de voz de cada locutor, para a continuación procesar cada una de ellas y convertirlas en texto. El texto resultante se enviará al locutor solicitante del servicio, A, mediante por ejemplo, SMS de tipo 0 (es decir, que no se almacenan en la memoria del terminal), sesión USSD originada por la red, o sesión de datos (como es el caso en que el terminal móvil del usuario A fuera de clase A). En el caso de empleo de la sesión USSD, el nodo STT 30 pasa el texto transcrito de cada uno de los locutores al HLR 50 previo paso por una pasarela de USSD (GW USSD) 40.

SP10.: El HLR 50 es empleado en la entrega del mensaje USSD (ó SMS ó creación de la sesión de datos).

SP11.: El usuario A recibe la transcripción de la conversación mediante la sesión USSD originada por la red. Por tanto, A recibirá audio y transcripción, y, B sólo audio.

El usuario puede solicitar qué parte de la conversación desea recibir transcrita, interactuando con el nodo STT 30 en la sesión USSD establecida o solicitándolo por ejemplo mediante comando vocal; o mediante tonos DTMF procesados por el nodo de control SCP 20 e interactuando entre el nodo de control SCP 20 y el nodo STT 30 mediante enlace externo. De la misma manera, el usuario A o su terminal pueden indicar a la red que desea abandonar el servicio de transcripción.

En la figura 2 se muestra la implementación mediante lógica en el terminal móvil, es decir, el caso en el que la puesta en escucha del nodo encargado de la conversación para su transcripción se encuentra gestionada por el propio terminal móvil.

En este caso, el proceso por el que transcurriría el servicio sería el siguiente:

S1.: El usuario A indica a la red que desea establecer una llamada de voz con su homólogo B.

S2.: La llamada de voz entre A y B es establecida en el nodo de conmutación (MSC) 10. A y B reciben voz.

S3.: El terminal decide invocar el servicio de transcripción de llamada (por ejemplo, porque detecta un nivel de ruido en el entorno por encima de un umbral). O bien, el usuario A decide por sí mismo invocar el servicio (por ejemplo, pulsando un botón o seleccionando una función dentro del menú del terminal o mediante comando vocal).

S4.: El terminal establece una llamada de voz con el nodo STT 30. Por lo que la llamada entre A y B quedará en HOLD momentáneamente.

S5.: El terminal pone en conferencia al nodo STT 30. Por tanto, A, B y STT recibirán el audio de la conversación entre A y B.

S6.: Al igual que en la implementación mostrada en la figura 1, la primera tarea del nodo STT 30 es la de la separación de las muestras de voz de cada locutor para a continuación procesar cada una de ellas y convertirla en texto. El texto resultante se envía a A, por ejemplo, mediante SMS de tipo 0 (es decir, que no se almacenan en la memoria del terminal), sesión USSD originada por la red, o sesión de datos (como en el caso en que el terminal móvil del usuario A fuera de clase A). En el caso de empleo de la sesión USSD, el nodo STT pasará el texto transcrito de cada uno de los locutores al HLR 50 previo paso por una pasarela de USSD (GW USSD) 40.

S7.: El HLR 50 es empleado en la entrega del mensaje USSD (ó SMS ó creación de la sesión de datos).

S8.: El usuario A recibe la transcripción de la conversación mediante la sesión USSD originada por la red. Por tanto, A recibirá audio y transcripción, y, B sólo audio.

El usuario puede solicitar qué parte de la conversación desea recibir transcrita, interactuando con el nodo STT 30 en la sesión USSD establecida o tonos DTMF procesados por el nodo STT o solicitándolo por voz o SMS. De la misma manera, el usuario A o su terminal pueden indicar a la red que desea abandonar el servicio de transcripción.

Aunque la presente invención se haya descrito para redes de telefonía móvil, ésta también sería aplicable a redes de telefonía fija o redes de computadores, como por ej., para conversaciones a través de Internet entre dos PCs.

Claims

1. Un sistema de transcripción en tiempo real de una conversación telefónica entre un primer y un segundo terminales móviles (A, B), que comprende:

2. Sistema según la reivindicación 1, caracterizado porque dichos medios para recibir la señal de voz conjunta están gestionadas directamente por el terminal móvil que solicita el servicio.

3. Sistema según la reivindicación 1, caracterizado porque dichos medios para recibir la señal de voz conjunta están gestionadas por un nodo de control (20) de la red de telefonía móvil.

4. Sistema según cualquiera de las reivindicaciones anteriores, caracterizado porque dicho formato único preestablecido viene determinado por las características técnicas del terminal que solicita el servicio de transcripción.

5. Sistema según cualquiera de las reivindicaciones 1-3, caracterizado porque dicho formato único preestablecido es determinado por el usuario que solicita el servicio.

6. Sistema según cualquiera de las reivindicaciones 1-3, caracterizado porque dicho formato único preestablecido es determinado por la red.

7. Sistema según cualquiera de las reivindicaciones anteriores, caracterizado porque dichos medios de envío de dichas primera y segunda señales de voz transcritas incluyen medios de conexión con un centro de mensajería corta (SMSC) para envío mediante SMS.

8. Sistema según cualquiera de las reivindicaciones 1-6, caracterizado porque dichos medios de envío de dichas primera y segunda señales de voz transcritas incluyen medios de conexión con una pasarela de USSD (GW USSD) (40) y un registro local de localización del usuario (HLR) (50).

9. Sistema según cualquiera de las reivindicaciones 1-6, caracterizado porque dichas primera y segunda señales de voz transcritas se incluyen en una sesión de datos.

10. Sistema según cualquiera de las reivindicaciones anteriores, caracterizado porque además comprende medios para recibir una señal de desactivación del servicio de transcripción.

11. Método de transcripción en tiempo real de una conversación telefónica entre un primer y un segundo terminales móviles (A, B), que comprende:

12. Método según la reivindicación 11, caracterizado porque dicha señal de voz conjunta es gestionada directamente por el terminal móvil que solicita el servicio.

13. Método según la reivindicación 11, caracterizado porque dicha señal de voz conjunta es gestionada por un nodo de control (20) de la red de telefonía móvil.

14. Método según cualquiera de las reivindicaciones 11-13, caracterizado porque dicho envío de las primera y segunda señales de voz transcritas a un formato único preestablecido se realiza mediante SMS.

15. Método según cualquiera de las reivindicaciones 11-13, caracterizado porque dicho envío de las primera y segunda señales de voz transcritas a un formato único preestablecido se realiza mediante sesión USSD originada por la red.

16. Método según cualquiera de las reivindicaciones 11-13, caracterizado porque dicho envío de las primera y segunda señales de voz transcritas a un formato único preestablecido se realiza mediante sesión de datos.

17. Método según cualquiera de las reivindicaciones 11-16, caracterizado porque una vez se recibe la señal de voz conjunta que incluye la voces de dichos primer y segundo terminales móviles, mediante un identificador preestablecido se distingue al usuario que solicita el servicio, y se le envía únicamente la primera o la segunda señal de voz correspondiente al otro terminal móvil (B o A), transcrita a un formato o formatos único preestablecido.

18. Método según cualquiera de las reivindicaciones 11-17, caracterizado porque es el usuario que solicita el servicio quien determina dicho formato único preestablecido.

19. Método según cualquiera de las reivindicaciones 11-17, caracterizado porque se determina dicho formato único preestablecido por las características técnicas del terminal que solicita el servicio de transcripción.

20. Método según cualquiera de las reivindicaciones 11-17, caracterizado porque es la red quien determina dicho formato único preestablecido.

21. Método según cualquiera de las reivindicaciones 11-20, caracterizado porque incluye enviar una señal de desactivación del servicio de transcripción.