ES2198758T3 - Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz. - Google Patents
Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz.Info
- Publication number
- ES2198758T3 ES2198758T3 ES98952622T ES98952622T ES2198758T3 ES 2198758 T3 ES2198758 T3 ES 2198758T3 ES 98952622 T ES98952622 T ES 98952622T ES 98952622 T ES98952622 T ES 98952622T ES 2198758 T3 ES2198758 T3 ES 2198758T3
- Authority
- ES
- Spain
- Prior art keywords
- server
- network
- voice
- state
- orders
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/04—Protocols specially adapted for terminals or networks with limited capabilities; specially adapted for terminal portability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/75—Indicating network or usage conditions on the user display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/30—Definitions, standards or architectural aspects of layered protocol stacks
- H04L69/32—Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
- H04L69/322—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
- H04L69/329—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/18—Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
- Exchange Systems With Centralized Control (AREA)
- Selective Calling Equipment (AREA)
- Computer And Data Communications (AREA)
Abstract
Sistema de control por voz para una red (4) de telecomunicaciones, que comprende: a) medios de carga para cargar una información de definición de estados de un servidor (5) de aplicaciones de red, en donde dicha información de definición de estados define todos los estados posibles del servidor (5) de aplicaciones de red; b) medios de determinación para determinar un conjunto de órdenes válidas para dicho servidor (5) de aplicaciones de red sobre la base de dicha información de definición de estados; y c) medios de comprobación para comprobar una validez de una orden de texto, obtenida al convertir una orden de voz de entrada que se va a utilizar para controlar dicho servidor (5) de aplicaciones de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.
Description
Procedimiento y sistema de configuración de un
sistema de reconocimiento por voz.
La presente invención se refiere a un sistema y
un procedimiento de control por voz para una red de
telecomunicaciones, en los que un servidor de aplicaciones de red se
controla sobre la base de una orden de voz.
En los sistemas de reconocimiento distribuido de
la voz (DSR), el usuario puede controlar una aplicación sobre la
base de mensajes de control hablados suministrados a unos medios o
un motor de reconocimiento automático de la voz (ASR). Los mensajes
de control hablados se convierten por medio del motor ASR en
órdenes de texto que se envían a la aplicación que se ejecuta en
un servidor de aplicaciones de red (NAS) correspondiente o a un
terminal de abonado tal como una estación móvil (MS) desde la cual
se han recibido los mensajes de control hablados.
La función básica de un sistema de reconocimiento
distribuido de la voz en el contexto de las aplicaciones móviles
es la capacidad de que una estación móvil ofrezca características
de reconocimiento automático de la voz con la ayuda de un motor ASR
ó servidor ASR de alta potencia dispuesto en la red. De este modo,
la función básica de la estación móvil es la transmisión de una
orden de voz de entrada hacia este motor ASR de la red para
realizar las tareas de reconocimiento y devolver los resultados. El
resultado puede ser una palabra o una orden reconocida en formato
de texto. A continuación la estación móvil puede utilizar el texto
para realizar las funciones necesarias. El documento
EP-A-382670 da a conocer un ejemplo
de la generación de aplicaciones con salida de voz, sobre la base
de una máquina accionada por estados, y controladas típicamente a
través de un teclado de teléfono TouchTone.
Otra función de un sistema de este tipo es
proporcionar a la estación móvil el acceso a otros servidores de
aplicaciones, es decir, la WWW (World Wide Web) (Malla Multimedia
Mundial) de Internet, correo electrónico, correo de voz y similares,
a través de órdenes de voz. De este modo, el usuario con este tipo
de estación móvil puede conectarse a estos servidores de
aplicaciones y emitir órdenes de voz. Para conseguir esto, la
estación móvil transmite una señal de voz (audio) hacia el motor
ASR. El motor ASR realizará el reconocimiento de la voz para
obtener las órdenes de texto correspondientes. Estas órdenes de
texto se devuelven a la estación móvil. A continuación la estación
móvil utiliza estas órdenes de texto para controlar un servidor de
aplicaciones de red (NAS) correspondiente que puede ser cualquier
servidor en una red de datos tal como Internet que proporciona
varios servicios tales como WWW, lectores de correo electrónico,
correo de voz y otros.
Como habitualmente el motor ASR se ejecuta en una
plataforma que también puede ejecutar otras aplicaciones o realizar
otra tareas, es posible transferir otras funciones al motor ASR,
tales como el procesado de la orden de texto obtenida para
establecer la operación requerida y contactar con el servidor
pertinente. A continuación, transmite la información recuperada
del servidor contactado de aplicaciones de red de vuelta hacia la
estación móvil. En esta situación, la estación móvil recibe una
entrada de voz, la envía hacia un motor ASR de red que realiza el
reconocimiento de la voz, ejecuta las funciones necesarias sobre la
base de órdenes de voz y envía la información o los resultados
recuperados hacia la estación móvil.
A continuación, se describen los ejemplos
correspondientes a los casos anteriores:
El usuario podría decir ``Llamar a John Smith''.
En este caso, el motor ASR convierte la voz en texto y devuelve el
texto ``Llamar a John Smith'' a la estación móvil, en donde a
continuación el software de aplicación en la estación móvil recupera
el número correspondiente a John Smith y realiza una operación de
llamada.
La orden de voz en la estación móvil podría ser
``Información de las carreras''. En este caso, el motor ASR
convierte la voz en texto, y devuelve el texto ``Información de las
carreras'' a la estación móvil. De este modo, el software de
aplicación de la estación móvil reconoce que el usuario desea
acceder al servidor de la red que proporciona una Información sobre
las carreras de caballos. Por consiguiente, la estación móvil
establece una conexión con el servidor pertinente, recupera los
últimos resultados de las carreras y visualiza los resultados en
una pantalla de la estación móvil.
Una orden de voz introducida en la estación móvil
podría ser ``Leer el correo electrónico''. En este caso, el motor
ASR convierte la voz en texto y devuelve el texto ``Leer el correo
electrónico'' a la estación móvil. De este modo, el software de
aplicación de la estación móvil reconoce que el usuario desea
acceder al servidor de la red que proporciona acceso al buzón de
correo electrónico del usuario. En este caso, la estación móvil
envía una orden al motor ASR para establecer una conexión con el
servidor pertinente de aplicación de correo electrónico.
Seguidamente, el motor ASR no devuelve la voz reconocida, sino que
procesa adicionalmente la voz convertida. En el caso de que la
orden de voz fuera ``Mensaje 1'', el motor ASR recibe la voz y la
traduce en una orden de texto ``Mensaje 1'' y transmite esta orden
de texto al servidor de aplicación de correo electrónico. A su vez,
el servidor de aplicación de correo electrónico devuelve el texto
del Mensaje 1 al motor ASR. A continuación el motor ASR
transmitirá este texto a la estación móvil. El diálogo puede
continuar con el Mensaje 2, 3 y así sucesivamente, en donde cada
orden de voz del usuario será manipulada por el motor ASR, hasta
que el usuario emita una orden de salida o hasta que se reciba un
mensaje desde la estación móvil para finalizar la sesión.
En los ejemplos anteriores 1 y 2, la única
función del motor ASR es convertir la voz en texto y enviar los
resultados de vuelta a la estación móvil para un procesado
adicional. Por esta razón, los servidores de aplicaciones de red
recibirán órdenes directamente desde la estación móvil. No
obstante, en el ejemplo anterior 3, el propio motor ASR procesa la
voz convertida y accede directamente al servidor pertinente de
aplicaciones de red para recibir los resultados del servidor de
aplicaciones de red y pasar los resultados de vuelta a la estación
móvil.
De este modo, se requiere que la estación móvil o
el motor ASR se comuniquen con el servidor de aplicaciones de red
para emitir órdenes de usuario hacia el servidor de aplicaciones
de red y recibir respuestas desde el servidor de aplicaciones de
red.
No obstante, en cualquiera de los dos casos se
encuentra el siguiente problema. Se considera que la aplicación de
correo electrónico a leer soporta órdenes tales como A{Mensaje 1,
Mensaje 2... Mensaje N y Salir} en el menú de nivel superior. En el
caso de que el usuario ya esté leyendo un mensaje, las órdenes en
este contexto son B{Eliminar, Salir, Mensaje siguiente}. Por esta
razón, si el usuario está en el menú de nivel superior e introduce
una orden de voz diferente a las del conjunto de órdenes A, el
servidor de aplicaciones de red responderá con un mensaje de
error. Incluso si el usuario emite una orden de voz del conjunto de
órdenes B, esta orden seguirá siendo una orden errónea, ya que el
contexto o estado del servidor de aplicaciones de red es
diferente.
Por otra parte, en la estación móvil también se
podrían introducir órdenes irrelevantes para el contexto debido al
ruido y a condiciones similares. Todas estas señales de voz se
convertirán en un texto por medio del motor ASR y se enviarán al
servidor de aplicaciones de red que responderá con mensajes de
error.
Como dichos escenarios se pueden producir
frecuentemente, el procesado de órdenes válidas por parte del
servidor de aplicaciones de red se retardará, ya que para responder
a dichas órdenes no válidas se requieren unos anchos de banda de la
red y un tiempo del procesador del servidor de aplicaciones
valiosos.
Por otra parte, el problema anterior conduce a un
retardo en la respuesta del motor ASR a un mensaje de voz de
entrada, ya que debe esperar por respuestas del servidor de
aplicaciones de red.
Por consiguiente, el tiempo total de respuesta en
la estación móvil aumentará, de tal manera que puede que el
usuario repita la orden o cambie la orden lo cual aumenta los
retardos todavía más y conduce a un rendimiento deficiente del
sistema.
Es un objetivo de la presente invención
proporcionar un sistema y un procedimiento de control por voz que
presenta un tiempo de respuesta total reducido.
Este objetivo se consigue mediante un sistema de
control por voz para una red de telecomunicaciones, que
comprende:
medios de carga para cargar una información de
definición de estados de un servidor de aplicaciones de red, en
donde dicha información de definición de estados define todos los
estados posibles del servidor de aplicaciones de
red;
medios de determinación para determinar un
conjunto de órdenes válidas para dicho servidor de aplicaciones de
red sobre la base de dicha información de definición de estados;
y
medios de comprobación para comprobar una validez
de una orden de texto, obtenida al convertir una orden de voz de
entrada que se utilizará para controlar dicho servidor de
aplicaciones de red, comparando dicha orden de texto con dicho
conjunto determinado de órdenes
válidas.
Además, el objetivo anterior se consigue mediante
un procedimiento de control por voz para una red de
telecomunicaciones, que comprende las siguientes etapas:
carga de una información de definición de estados
de un servidor de aplicaciones de red, en donde dicha información
de definición de estados define todos los estados posibles del
servidor de aplicaciones de
red;
determinación de un conjunto de órdenes válidas
para dicho servidor de aplicaciones de red sobre la base de dicha
información de definición de estados;
y
comprobación de una validez de una orden de
texto, obtenida al convertir una orden de voz que se utilizará
para controlar dicho servidor de aplicaciones de red, comparando
dicha orden de texto con dicho conjunto determinado de órdenes
válidas.
Por consiguiente, como basándose en una
información de definición de estados proporcionada por el servidor
de aplicaciones de red se puede determinar un conjunto de órdenes
válidas, se puede comprobar la validez de una orden de texto
obtenida antes de transmitir la orden de texto hacia el servidor
de aplicaciones de red. De este modo, se puede evitar la
transmisión de mensajes de texto erróneos para evitar los retardos y
las pérdidas correspondientes de tiempo de procesado del servidor
de aplicaciones de red.
Preferentemente, los medios de carga se pueden
disponer para cargar una información de gramática y/o vocabulario
que especifica un conjunto total de órdenes validas soportadas por
el servidor de aplicaciones de red, en donde los medios de
determinación se pueden disponer para determinar dicho conjunto de
órdenes válidas sobre la base de dicho conjunto total de órdenes
válidas y una información de transición de estados en dicha
información de definición de estados.
De este modo, el sistema de control por voz puede
seguir el ritmo de los estados reales del servidor de aplicaciones
de red haciendo referencia a las reglas de transición de estados
para limitar el conjunto total de órdenes válidas a aquellas
órdenes que se corresponden con el estado real del servidor de
aplicaciones de red.
Como alternativa, los medios de determinación se
pueden disponer para hacer que los medios de carga carguen un
archivo de gramática dependiente de los estados que define un
conjunto de órdenes validas para un estado específico del servidor
de aplicaciones de red, cuando los medios de determinación
determinan un cambio de estado sobre la base de una información de
transición de estados incluida en la información de definición de
estados.
De este modo, haciendo referencia a la
información de transición de estados se carga únicamente el
conjunto de órdenes válidas aplicables a un estado específico del
servidor de aplicaciones de red. De este modo, se puede mejorar la
precisión y las conexiones de la red se pueden utilizar más
eficazmente.
Preferentemente, el sistema de control de la red
puede comprender unos medios de reconocimiento por voz para
convertir una orden de voz de entrada recibida desde un terminal
de abonado en la orden de texto a suministrar al servidor de
aplicaciones de red. De este modo, en la red se puede disponer un
sistema central de control por voz al que pueden acceder
terminales individuales de abonado. En el caso de que se utilice un
Protocolo de Aplicación Inalámbrica (WAP) en una red de servicios
móviles, el sistema de control por voz se puede implementar en un
servidor de Aplicación de Telefonía Inalámbrica (WTA), en donde el
servidor WTA se puede disponer de manera que recibe la orden de
texto desde unos medios de reconocimiento de la voz de la red para
convertir en dicha orden de texto una orden de voz de entrada
recibida desde un terminal de abonado. De este modo, con un
reconocimiento de voz optimizado se pueden mejorar las aplicaciones
WTA existentes.
Como alternativa, el sistema de control por voz
puede ser un terminal de abonado que tenga unos medios de entrada
para introducir una orden de voz, unos medios de transmisión para
transmitir la orden de voz hacia unos medios de reconocimiento de la
voz de la red de telecomunicaciones, y unos medios de recepción
para recibir la orden de texto de los medios de reconocimiento de
la voz, en donde los medios de transmisión están dispuestos de
manera que transmiten la orden de texto recibida hacia el servidor
de aplicaciones de red.
De este modo, la comprobación de la validez de la
orden de texto recibida se realiza en el terminal de abonado, por
ejemplo, la estación móvil, antes de que se transmita hacia el
servidor de aplicaciones de red. Por esta razón, el tiempo de
procesado en el servidor de aplicaciones de red se puede reducir,
ya que recibirá únicamente órdenes válidas.
La información de definición de estados puede ser
un archivo de datos tal como un archivo de Lenguaje de Marcado
Inalámbrico (WML) ó un archivo de Lenguaje de Marcado de
Hipertexto (HTML). Este archivo de datos se puede enviar en línea
hacia el sistema de control por voz como parte de la información
estándar enviada por el servidor de aplicaciones de red.
Además, la información de definición de estados
puede incluir una instrucción de carga para cargar el archivo de
gramática y/o vocabulario dependiente de los estados. De este modo,
el sistema de control por voz puede utilizar la instrucción de
carga directamente para cargar el conjunto específico de órdenes
válidas en el caso de que se determine un cambio del estado del
servidor de aplicaciones de red.
Preferentemente, la información de definición de
estados puede ser proporcionada por el servidor de aplicaciones de
red en el momento de la configuración del servidor.
Además, la información de definición de estados
se puede almacenar junto con una información de conjuntos de
órdenes en un servidor de red que se ejecute en el hardware del
sistema de control por voz.
Preferentemente, el sistema de control por voz
puede comprender una pluralidad de medios de reconocimiento de la
voz específicos del vendedor, en donde en la información de
definición de estados se definen los parámetros correspondientes
para dicha pluralidad de medios de reconocimiento de la voz
específicos del vendedor. De este modo, se puede obtener un
sistema universal de control por voz que se basa en una plataforma
independiente de hardware y software. Así, dependiendo del servidor
de aplicaciones de red se pueden seleccionar los medios de
reconocimiento de la voz específicos del vendedor y el hardware de
procesado de audio requeridos.
En las reivindicaciones dependientes se definen
otras variantes preferidas de la presente invención.
A continuación, se describirá más detalladamente
la invención sobre la base de una forma de realización preferida y
haciendo referencia a los dibujos adjuntos, en los cuales
la Fig. 1 muestra un diagrama de bloques de una
red de telecomunicaciones que comprende un sistema de control por
voz según la forma de realización preferida de la presente
invención;
la Fig. 2 muestra un diagrama de flujo de un
procedimiento de control por voz según la forma de realización
preferida de la presente invención; y
la Fig. 3 muestra un diagrama de bloques de una
red de telecomunicaciones que comprende un sistema de control por
voz basado en el protocolo WAP según la forma de realización
preferida de la presente invención.
En la Fig. 1 se muestra un diagrama de bloques de
una red de telecomunicaciones que comprende el sistema de control
por voz según la forma de realización preferida de la presente
invención. Según la Fig. 1, una estación móvil (MS) 1 está conectada
por radio a un subsistema de estaciones base (BSS) 2 que está
conectado a una red 4 de telecomunicaciones a través de un centro
de conmutación de servicios móviles (MSC) 3. La red 4 de
telecomunicaciones puede ser una red de datos tal como Internet que
proporciona varios servicios.
Además, un servidor de aplicaciones de red (NAS)
5 está conectado a la red 4 para proporcionar un servicio
específico basándose en órdenes correspondientes. Adicionalmente,
como medios centrales se proporcionan unos medios o motor 6 de
reconocimiento automático (ASR) de voz para permitir la entrada de
voz en terminales de abonado tales como la estación móvil 1.
Para precisar el proceso de reconocimiento y
llegar a velocidades de reconocimiento con una precisión mayor, en
el motor ASR 6 se utilizan características específicas del
lenguaje. Para conseguir una precisión elevada del reconocimiento
de la voz, la aplicación se debe sintonizar de forma precisa a un
contexto requerido. Esto se realiza especificando un vocabulario
para la aplicación y gramáticas que son válidos en el contexto de
la aplicación. El vocabulario es básicamente un conjunto de
palabras a reconocer por el motor ASR 6, por ejemplo, palabras
tales como Cerrar, Leer, Mensaje, Naranja, Bolígrafo, Silla, Salir,
Abrir, etcétera. En el motor ASR 6, se pueden proporcionar unos
medios para especificar la gramática para una aplicación
determinada. Esto se podría conseguir por medio de una gramática
basada en reglas como por ejemplo:
public <Orden> = [<Cortesía>]
<Acción><Objeto> (y <Objeto>)*;
<Acción> = Leer | Siguiente | eliminar;
<Objeto> = mensaje | asunto;
<Cortesía> = Por favor;
En la gramática anterior basada en reglas, se
especifica una regla pública, <Orden>, que puede ser
pronunciada por un usuario. La regla es una combinación de reglas
secundarias <Acción>, <Objeto> y <Cortesía>, en
donde los corchetes alrededor de <Cortesía> indican una
característica opcional del mismo. De este modo, la gramática
anterior soportaría las siguientes órdenes: ``leer mensaje'',
``por favor leer asunto y mensaje'', etcétera.
En aplicaciones ASR basadas en órdenes, se
utilizan gramáticas basadas en reglas para definir todas las
entradas habladas las cuales está programada para gestionar la
aplicación. Básicamente la gramática basada en reglas especifica
todas las órdenes habladas (o sintaxis de gramática) que son
soportadas por una aplicación. En el caso de un lector de correos
electrónicos, el archivo de gramática contiene todas las órdenes que
aceptará la aplicación del lector de correos electrónicos (por
ejemplo, Mensaje 1, Mensaje 2, ..., Mensaje N, Salir, Eliminar y
Mensaje siguiente).
Generalmente el motor ASR 6 carga el archivo de
gramática asociado antes de iniciar el reconocimiento de la voz.
Algunas aplicaciones pueden tener incluso múltiples archivos de
gramática para definir diferentes contextos de una aplicación tales
como el servidor 5 de aplicaciones de red, en donde se requiere
que el motor ASR 6 cargue el archivo de gramática dependiente del
contexto en tiempo de ejecución.
En la forma de realización preferida, se definen
un archivo de gramática, un archivo de vocabulario y un archivo de
definición de estados de aplicación (archivo ASD). De este modo,
cada servidor 5 de aplicaciones de red produce un archivo ASD, un
archivo de gramática y/o un archivo de vocabulario. El archivo de
gramática se adapta a los requisitos del motor ASR 6, en donde los
motores ASR 6 de diferentes vendedores pueden tener diferentes
formatos de archivo de gramática.
El archivo ASD es un archivo que describe todos
los estados posibles de la aplicación y cómo saltar entre estados,
junto con las órdenes válidas para cada estado. De este modo, el
archivo ASD proporciona unos medios para especificar los archivos de
gramática dependientes del contexto y también un nombre de archivo
de vocabulario. Esta es una característica importante, ya que una
aplicación determinada puede utilizar diferentes gramáticas y/o
vocabularios dependiendo del contexto. Si esta información se carga
en el motor ASR 6 en línea, el reconocimiento de la voz y el
tiempo de respuesta total se pueden mejorar notablemente debido al
conjunto pequeño de órdenes válidas y a la alta precisión de
reconocimiento resultante.
En el caso de que el archivo ASD se base en una
sintaxis similar al HTML (Lenguaje de Marcado de Hipertexto), se
podría definir de la forma siguiente:
<ASD> |
<APP = ``Lector de correo electrónico''> |
<STATE = ``Menú principal'', COMMANDS = <MSG>, NEXTSTATE=``Leer'', |
<QUIT>, NEXTSTATE=`` '' >; |
<STATE = ``Leer'', COMMANDS = <NXT>, NEXTSTATE=``Leer'', <PREV>, |
NEXTSTATE=``Leer'', <QUIT>, NEXTSTATE=``Menú principal''>; |
\hskip1cm : |
\hskip1cm : |
<GRAMMAR> |
<MSG> = MENSAJE<DIGITS> |
<NXT> = SIGUIENTE |
<PREV> = PREVIO |
<QUIT> = SALIR |
<DIGITS> = 1|2|3|4|5; |
\hskip1cm : |
\hskip1cm : |
</GRAMMAR> |
</APP> |
</ASD> |
en donde una etiqueta <ASD> identifica el
archivo como un tipo de archivo que proporciona la definición de
los estados del servidor 5 de aplicaciones de red, una etiqueta
<APP> especifica el nombre de la aplicación y una etiqueta
<STATE> define un estado determinado, es decir, el nombre
del estado, las órdenes válidas para este estado, y con cada
orden, se define también el siguiente estado hacia el cual debe
saltar la aplicación. Dicha etiqueta <STATE> se define para
cada estado de la aplicación de la red. La etiqueta
<GRAMMAR> proporciona unos medios de definición de las órdenes
y la sintaxis de las órdenes.
Según el archivo anterior, la aplicación debe
saltar al estado ``Leer'' después de los Mensajes 1, 2, 3... N. La
etiqueta <digits> define una gramática específica. En el
presente caso, la etiqueta <GRAMMAR> muestra que los dígitos
podrían ser 1, 2, 3, 4 ó 5. Después de la orden ``Salir'' se
debería salir de la aplicación (lo cual se indica como un estado
NULO (`` '')). Se debe indicar que el estado se debe transferir al
``Menú principal'', cuando se emite una orden ``Salir'' en el
estado ``Leer''.
Utilizando este enfoque, el archivo ASD comunica
al motor ASR 6 ó a la estación móvil 1 qué órdenes son válidas
para un contexto determinado. Para que la estación móvil 1 ó el
motor ASR 6 sigan el ritmo de los estados del servidor 5 de
aplicaciones de red, en el archivo ASD se proporcionan además
reglas de transición de estados. Utilizando otras etiquetas que
incluyen un archivo de gramática dependiente del contexto, sería
posible dar instrucciones la motor ASR 6 sobre qué archivo de
gramática o de vocabulario se debe cargar. De este modo, se puede
proporcionar una flexibilidad mayor y se puede hacer que el
reconocimiento sea más preciso, ya que el motor ASR 6 se sintoniza
con precisión al contexto del servidor de aplicaciones de red. A
continuación se muestra un ejemplo correspondiente a una etiqueta
de este tipo:
<STATE=``Leer'' LOADGRAMMAR=``URL=ftp://hs.gh.com/Reademail.gmr'' |
LOADVOCABULARY=``URL=ftp://hs.gh.com/Readmail.vcb'' |
COMMANDS=``Siguiente'', NEXTSTATE=``Leer'', <PREV>, NEXTSTATE=``Leer'', |
<QUIT>, NEXTSTATE=``Menú principal''>; |
La Fig. 2 muestra un diagrama de flujo de un
ejemplo correspondiente a un procesado de reconocimiento de la voz
según se realiza en la forma de realización preferida.
Inicialmente, el motor ASR 6 carga un archivo ASD
correspondiente del servidor 5 de aplicaciones de red con el que
se va producir la conexión (S101). En el archivo ASD cargado, se
dan instrucciones al motor ASR para que cargue un archivo de
gramática dependiente de los estados, es decir, ``Read
Email.gmr'', cuando el servidor 5 de aplicaciones de red entra en
el estado ``Leer''. Como alternativa, el motor ASR 6 puede cargar
un archivo de gramática general del servidor 5 de aplicaciones de
red (S102).
Sobre la base del archivo de gramática, a
continuación se determinan órdenes de texto válidas para el
reconocimiento de la voz (S103). En el caso de un archivo de
gramática dependiente de los estados, las órdenes definidas en el
archivo de gramática cargado se determinan como órdenes válidas
para el reconocimiento de la voz. En el caso de un archivo de
gramática general, las órdenes válidas se seleccionan del archivo de
gramática general según una información correspondiente
proporcionada en el archivo ASD. Por consiguiente, en este estado
se permiten únicamente las órdenes válidas determinadas o por lo
menos hasta que se cargue un archivo de gramática diferente.
Seguidamente, desde la estación móvil 1 se recibe
una orden de voz (S104) y se realiza el reconocimiento de la voz
para la orden de voz recibida (S105). A continuación la orden de
texto obtenida por el procesado de reconocimiento de la voz a partir
de la orden de voz recibida se comprueba en relación con las
órdenes de texto válidas determinadas (S106).
En el caso de que en la etapa 107 se determine
una orden válida, la orden de texto se suministra directamente al
servidor 5 de aplicaciones de red o la estación móvil 1 (S108). En
cualquier otro caso, se lleva a cabo una mensajería de errores para
informar a la estación móvil 1 sobre la orden de voz errónea
(S109).
Seguidamente, el motor ASR 6 se remite a las
reglas de transición de estados definidas en el archivo ASD y
determina si la orden suministrada conduce a un cambio de estado
del servidor 5 de aplicaciones de red (S110). Si no se ha
determinado un cambio de estado, el procesado vuelve a la etapa
S104 para recibir otra orden de voz y, si se requiere, realizar el
reconocimiento de la voz de las otras órdenes de voz recibidas.
Si se ha determinado un cambio de estado, el
procesado vuelve a la etapa 103 y el motor ASR 6 se remite al
archivo ASD para determinar un conjunto nuevo de órdenes de texto
válidas. Esto se puede conseguir bien cargando un archivo nuevo de
gramática dependiente de los estados según una instrucción
proporcionada en el archivo ASD, o bien seleccionado órdenes
válidas nuevas del archivo general de gramática sobre la base de una
información correspondiente en el archivo ASD. Subsiguientemente,
en la etapa 104 se recibe una orden de voz nueva y en la etapa 105
se continúa con el reconocimiento de la voz.
Un aspecto importante es que es necesario que las
aplicaciones de tipo DSR dispongan de un procedimiento estándar
para traspasar características específicas de la aplicación al
motor ASR 6, ya que el motor ASR 6 es un recurso ASR de propósito
general y cualquier aplicación de red debería poder utilizar las
características ASR produciendo archivos de definición de estados
y de gramática. Por esta razón, según la forma de realización
preferida, el motor ASR 6 puede cargar un archivo de gramática
nuevo en tiempo de ejecución. Esto significa que al motor ASR 6 se
le pueden dar instrucciones para cargar únicamente las reglas de
gramática aplicables a un estado/contexto específico del servidor 5
de aplicaciones de red haciendo referencia al archivo ASD. Esto
mejora considerablemente la precisión del reconocimiento y la
eficacia de la utilización de las conexiones de la red.
Una implementación del servidor 5 de aplicaciones
de red y su interfaz de usuario pueden variar dependiendo de la
plataforma de software y hardware utilizada. La mayoría de
servidores 5 de aplicaciones de red pueden proporcionar una interfaz
HTTP (es decir, HTML), un WAP (Protocolo de Aplicación Inalámbrica
- WML) ó una Interfaz de Aplicación privada (API). Si el archivo
ASD se adapta bien al WML (Lenguaje de Marcado Inalámbrico) o bien
al HTML (Lenguaje de Marcado de Hipertexto), se puede utilizar como
un archivo de definición universal para estados de aplicación u
órdenes de voz en cualquier tipo de aplicación que se ejecute en
un servidor 5 de aplicaciones de red. Utilizando esta información
ASD, el motor ASR 6 podría construir una representación interna de
la aplicación NAS pertinente. A continuación esta representación o
modelo se puede utilizar para mantener el motor ASR 6 sincronizado
con los estados de aplicación del servidor 5 de aplicaciones de
red.
Por ello, cada servidor 5 de aplicaciones de red
que proporciona una característica de reconocimiento de la voz
tendrá su(s) carta(s) WML específica(s) según
la voz o su ubicación HTML. Como ejemplo, para un servicio de
noticias diarias, el URL (Localizador Uniforme de Recursos) de la
información de definición de estados podría ser un archivo tal
como:
//services.internal.net/dailynews/speechsettings
Por esta razón, es necesario que el sistema de
control por voz, ya esté en la estación móvil 1 ó en un servidor
de red, cargue este archivo desde el URL determinado.
Además, si el servidor 5 de aplicaciones de red
es realmente un servidor de origen HTTP ó WAP, en ese caso la
primera carta WML ó página HTML enviada por este servidor puede
incluir el URL específico mencionado bajo una etiqueta especial. De
este modo, a la estación móvil 1 se le puede informar de que esta
aplicación soporta un control por voz y de que es necesario cargar
el archivo de este URL para proporcionar la capacidad de
reconocimiento de la voz.
Así, los archivos ASD se podrían enviar en línea
hacia el motor ASR 6, como parte de los scripts HTML/WML
estándar enviados por el servidor 5 de aplicaciones de red. El
motor ASR 6 interpretaría estos scripts automáticamente y
llevaría el ritmo del servidor 5 de aplicaciones de red para
procesar las órdenes de voz eficazmente y ejecutar funciones tales
como la carga en línea de archivos de gramática y otras. En este
caso el motor ASR 6 se remitiría directamente al URL especificado
en la etiqueta LOADGRAMMAR para leer el archivo de gramática
asociado.
Para otras aplicaciones no WML/HTML del servidor
5 de aplicaciones de red, los archivos ASD son suministrados por el
servidor 5 de aplicaciones de red al motor ASR 6 en el momento de
la configuración, es decir, cuando está desconectado. Estos archivos
ASD se deben producir de acuerdo con la especificación de tipo
HTML descrita anteriormente y se almacenarán junto con un archivo
de gramática en un servidor WWW (por ejemplo, www.asr.com) que se
ejecuta en el hardware del motor ASR 6.
En el inicio de una interacción entre el motor
ASR 6 y el servidor 5 de aplicaciones de red, en primer lugar el
motor ASR 6 carga el archivo ASD del servidor www.asr.com y
construye la representación/modelo del estado interno de la
aplicación del servidor 5 de aplicaciones de red. Seguidamente, el
motor ASR puede llevar el ritmo de los estados del servidor 5 de
aplicaciones de red y procesa las órdenes de voz eficazmente y
ejecuta funciones tales como la carga de archivos de gramática en
tiempo de ejecución. En este caso, la etiqueta LOADGRAMMAR incluye
el URL completo que apunta a www.asr.com.
Si la aplicación del servidor 5 de aplicaciones
de red es, por ejemplo, un ``servidor de correo de voz'' con un
nombre de aparato vmsvr, en ese caso se utilizaría, por ejemplo, el
siguiente URL:
``http://www.asr.com/vmsvr/Grammar/vmail.gmr''
Las aplicaciones anteriores se basaban en la
utilización de un único motor ASR 6 en la red 4. En dicho caso, el
motor ASR 6 se implementa en plataformas fijas de hardware y
software. Desde el punto de vista de las aplicaciones de la estación
móvil, este motor ASR universal 6 gestiona las solicitudes ASR y
responde con las correspondientes órdenes de texto.
No obstante, en el caso de que el motor ASR 6 se
base en una plataforma independiente de hardware y software tal
como Java con JSAPI (API de voz Java, es decir, una API estándar
que se está desarrollando actualmente y que proporciona una API
común para motores ASR de vendedores distintos), las funciones del
archivo ASD se pueden ampliar todavía más. En este caso, se puede
proporcionar una flexibilidad de selección de un hardware requerido
de procesado de audio y un motor ASR específico 6 del vendedor en
dependencia de la aplicación del servidor 5 de aplicaciones de
red. Esto significa que un motor ASR lógico se puede conectar al
motor ASR físico específico 6 del vendedor sobre la base de los
requisitos de la aplicación del servidor 5 de aplicaciones de red,
de tal manera que para el procesado de audio se puede utilizar
incluso un hardware personalizado. Los parámetros opcionales
correspondientes se pueden definir en el archivo ASD utilizando
etiquetas adicionales.
A continuación, se describe un ejemplo de una
implementación del archivo ASD en una aplicación WAP, que puede
ser utilizado por los operadores para mejorar sus ofertas de
servicios existentes. En los ejemplos anteriores, el archivo ASD era
utilizado por el servidor o motor ASR 6 para realizar una
reconocimiento de la voz basado en el contexto. En este ejemplo,
tal como se muestra en la Fig. 3, el archivo ASD es utilizado por un
servidor diferente de aplicaciones, es decir, el servidor WTA
(Aplicación de Telefonía Inalámbrica) 7 en el WAP, para realizar
tareas similares. En este caso, se considera la utilización de
teléfonos o estaciones móviles 1 habilitadas para el WAP.
La estación móvil habilitada 1 para el WAP puede
tener la pila completa del WAP instalada y ejecuta el WAE (Entorno
de Aplicación Inalámbrica). El servidor WTA 7 tiene la capacidad
de controlar los servicios de la red 4, que en el presente caso es
una red estándar de servicios móviles. El servidor WTA 7 actúa
como un generador de contenidos principales. El contenido se puede
personalizar para y descargar hacia el cliente, que es la estación
móvil 1 que ejecuta un software WAP. El servidor WTA 7 podría
realizar también funciones de control de llamada tales como
informar a la estación móvil 1 sobre detalles de llamadas entrantes
a través de acontecimientos WTA.
Además, se proporciona un servidor ASR 6 basado
en la red que permite una aplicación para conectarse al servidor
de voz sobre la base de parámetros tales como la ID/dirección de la
aplicación, la MSISDN, el tipo de codificación de la voz, la ID del
archivo de gramática (para seleccionar una regla de gramática
adecuada) y otros parámetros opcionales. Por otra parte, el
servidor ASR 6 puede tener la capacidad de realizar una llamada
saliente hacia un número MSISDN determinado, en donde el servidor
ASR 6 extrae la entrada de audio recibida que tiene un formato
PCM, CEP u otro formato, suministra la entrada de audio a un motor
de reconocimiento de la voz y obtiene el texto reconocido, y envía
el texto a la ID/dirección de la aplicación de llamada. A
continuación el servidor WTA 7 comprueba la validez del texto y
también puede controlar el servidor ASR 6 para cargar archivos de
gramática, etcétera.
Cada servidor 5 de aplicaciones de red que tiene
una interfaz de voz proporciona un archivo ASD al servidor WTA 7,
junto con una baraja de cartas WML básica, es decir un documento
WML, correspondiente a ese servicio. El servidor WTA 7 carga el
archivo ASD y puede cambiar el WML enviado a la estación móvil 1
sobre la base de los valores fijados del archivo ASD. Sobre la
base del archivo ASD, las funciones de audio de la estación móvil 1
y los valores fijados del servidor ASR 6 se controlan dependiendo
del contexto de aplicación.
En el presente ejemplo, el archivo ASD puede
definir atributos tales como un motor ASR a utilizar para una
aplicación real, un tipo de codificación soportado por el motor ASR
utilizado por la aplicación real habilitada para la voz, un archivo
de gramática por defecto (nombre de archivo) a utilizar, un
vocabulario por defecto (nombre de archivo o palabras) y estados
de la aplicación real, es decir, una jerarquía de menús. Cada menú
proporciona especificaciones para órdenes soportadas en el menú y
los correspondientes estados SIGUIENTE, reglas de gramática y
vocabularios nuevos, que pueden anular los valores establecidos
previamente, y parámetros que especifican si la aplicación real
requiere un micrófono o un altavoz de la estación móvil 1 que se
activará o desactivará.
A continuación, se describirá el funcionamiento
del presente ejemplo basado en WAP sobre la base de una aplicación
de servicio meteorológico y una aplicación de servicio de correo
de voz.
El proveedor de servicios (u operador)
proporciona un servicio meteorológico a sus abonados móviles y
ofrece el servicio a través de una interfaz de voz. El operador ha
instalado el servidor ASR 6 en su red 4 y tiene la intención de
utilizar este servidor ASR 6 junto con el servidor WTA 7 para
proporcionar al servicio meteorológico una interfaz de voz.
En este caso, el usuario de la estación móvil 1
activa un menú meteorológico ya preparado para utilizar la interfaz
de voz. Esta solicitud es enviada por el WAE hacia el servidor WTA
7. A continuación, el servidor WTA 7 envía una baraja de cartas WML
cargadas previamente desde el correspondiente servidor 5 de
aplicaciones de red y referentes al servicio meteorológico, hacia
la estación móvil 1. Llegado este punto, el software WAE de la
estación móvil 1 pasa a un modo de escucha para responder a una
llamada entrante del servidor ASR 6 de la red 4. Seguidamente, el
servidor WTA 7 envía una solicitud de una sesión ASR hacia el
servidor ASR 6, incluyendo una MSISDN, una ID de sesión asignada con
el servidor WTA 7, y también una ID de una regla de gramática a
utilizar. El nombre de la regla de gramática se obtiene a partir
del archivo ASD cargado previamente del servidor correspondiente 5
de aplicaciones de red para el servicio meteorológico.
El servidor ASR 6 garantiza los recursos
requeridos, es decir, están disponibles los puertos de marcación
de salida y las sesiones ASR en el motor de voz, y envía una
confirmación al servidor WTA 7. Subsiguientemente, el servidor ASR
6 llama a la MSISDN y la red 4 envía una indicación de llamada a
la estación móvil 1. El software WAE de la estación móvil 1
responde automáticamente a la llamada y se establece una conexión de
voz entre el servidor ASR 6 y la estación móvil 1. De hecho, la
señalización de llamada anterior entre la estación móvil 1 y el
servidor ASR 6 se realiza a través del servidor WTA 7.
Según el WML dependiente de la aplicación
obtenido a partir del servidor WTA 7, la estación móvil 1
desactiva su altavoz y envía cualquier entrada de audio recibida a
través de su micrófono por medio de la conexión de voz establecida.
La entrada de audio se puede codificar mediante el software WAE
según un formato requerido, es decir, PCM, CEP u otros. El
servidor ASR 6 convierte la entrada de audio recibida en texto y
envía el texto obtenido hacia el servidor WTA 7.
Desde que se inició la sesión meteorológica, el
servidor WTA 7 ha cargado el archivo ASD correspondiente y en este
momento está en una posición de comparar el texto recibido con las
órdenes válidas dependientes del contexto. Si se ha recibido una
orden válida, por ejemplo, ``Londres GB'', el servidor WTA 7
solicita el WML/HTML correspondiente a Londres GB del servidor 5
de aplicaciones de red que proporciona el servicio meteorológico. El
servidor 5 de aplicaciones de red responde con el informe
meteorológico solicitado correspondiente a Londres y el servidor
WTA 7 suministra a la estación móvil 1 la baraja de cartas WML
correspondiente al tiempo meteorológico de Londres. En el caso de
que en el conjunto de cartas WML se cambien las reglas de la
gramática o el vocabulario, el archivo ASD contiene una
información correspondiente y el servidor WTA 7 envía hacia el
servidor ASR 6 las reglas de la gramática o el vocabulario nuevos
a utilizar para el tiempo meteorológico de Londres. De este modo,
el servidor ASR 6 está preparado para utilizar la gramática o el
vocabulario nuevos requeridos para las cartas WML nuevas.
Seguidamente, el texto convertido por el servidor
ASR 6 a partir de las órdenes de voz recibidas desde la estación
móvil 1 se envía hacia el servidor WTA 7 que comprueba su validez.
En el caso de que se haya recibido una orden válida, por ejemplo,
``Heathrow'', el servidor WTA 7 solicita la información
meteorológica correspondiente a Heathrow Londres, y el servidor 5
de aplicaciones de red responde con el informe meteorológico
solicitado. A continuación, el servidor WTA 7 suministra a la
estación móvil 1 la baraja de cartas WML correspondiente al tiempo
meteorológico de Heathrow Londres.
En este caso, el proveedor de servicios (u
operador) proporciona a un servicio de correo de voz una interfaz
de voz con sus abonados móviles.
El servidor 5 de aplicaciones de red que
proporciona el servicio de correo de voz envía un mensaje nuevo de
correo de voz hacia el servidor WTA 7. A continuación, el servidor
WTA 7 envía hacia la estación móvil 1 una baraja de cartas WML
cargadas previamente desde el servidor 5 de aplicaciones de red y
referentes al servicio de correo de voz. Llegado este punto, el
software WAE de la estación móvil 1 pasa a un modo de escucha para
responder a una llamada entrante del servidor ASR 6 de la red 4. A
continuación, la estación móvil 1 envía al servidor WTA 7 una
solicitud ASR que indica que el usuario utilizará la interfaz de
voz con el servicio de correo de voz. Llegado este punto, el
servidor WTA 7 da instrucciones a la red 4 para que envíe todas
las indicaciones de llamadas entrantes hacia el servidor WTA 7.
Seguidamente, el servidor WTA 7 envía al servidor
ASR 6 una solicitud de una sesión ASR, incluyendo una MSISDN, una
ID de sesión asignada con el servidor WTA 7, y también una ID de
una regla de gramática a utilizar. El nombre de la regla de
gramática se obtiene a partir del archivo ASD cargado previamente
del servidor correspondiente 5 de aplicaciones de red para el
servicio de correo de voz.
El servidor ASR 6 garantiza los recursos
requeridos, es decir, están disponibles los puertos de marcación
de salida y las sesiones ASR en el motor de voz, y envía una
confirmación al servidor WTA 7. Subsiguientemente, el servidor ASR
6 llama a la MSISDN y la red 4 envía una indicación de llamada a
la estación móvil 1. El software WAE de la estación móvil 1
responde automáticamente a la llamada y se establece una conexión de
voz entre el servidor ASR 6 y la estación móvil 1.
Según el WML dependiente de la aplicación
obtenido a partir del servidor WTA 7, la estación móvil 1 activa
tanto su altavoz como su micrófono, y envía cualquier entrada de
audio recibida a través de su micrófono por medio de la conexión de
voz establecida. La entrada de audio se puede codificar mediante
el software WAE según un formato requerido, es decir, PCM, CEP u
otros. El servidor ASR 6 convierte la entrada de audio recibida en
texto.
En este momento, el servidor WTA 7 envía una
orden de llamada a la MSISDN determinada hacia el servidor 5 de
aplicaciones de red que proporciona el servicio de correo de voz,
que a continuación llama a la MSISDN. En este caso, se establece una
llamada múltiple, ya que el servidor ASR 6 requiere una entrada de
voz en la estación móvil 1 y el servidor 5 de aplicaciones de red
necesita enviar audio a la estación móvil 1. Estos dos servicios
están en máquinas diferentes y puede que no tengan ninguna API
(Interfaz de Programación de Aplicación) o conexión entre ellos.
Como ambos servidores necesitan acceder a la estación móvil 1, se
requiere un establecimiento de llamada múltiple, la cual se explica
a continuación.
En el establecimiento de la llamada múltiple, el
servidor WTA 7 recibe una indicación de llamada para la MSISDN y
envía un mensaje de acontecimiento de indicación de llamada hacia
la estación móvil 1 con parámetros especiales para dar instrucciones
de que se realice una adición de la llamada a una llamada
múltiple. La estación móvil 1 envía un mensaje de mantenimiento de
la llamada para dar órdenes a la red 4 de que mantenga la llamada
1, es decir, la llamada del servidor ASR 6 con la estación móvil 1.
A continuación, la estación móvil 1 acepta la llamada 2, es decir,
la llamada del servidor 5 de aplicaciones de red con la estación
móvil 1, y se establece una conexión de voz. Seguidamente, la
estación móvil 1 da órdenes para que se produzca el
establecimiento de una llamada múltiple, es decir, con la llamada 1
y 2, de tal manera que en este momento tanto el servidor ASR 6 como
el servidor 5 de aplicaciones de red están conectados con la
estación móvil 1.
Desde que se inició la sesión de correo de voz,
el servidor WTA 7 ha cargado el archivo ASD correspondiente para
el correo de voz y en este momento está en una posición de comparar
el texto recibido con las órdenes válidas dependientes del
contexto. Si se ha recibido una orden válida, por ejemplo,
``Antonio'', el servidor WTA 7 pide al servidor 5 de aplicaciones
de red que proporciona el servicio de correo de voz que reproduzca
el mensaje ``Antonio''. Por consiguiente, el servidor 5 de
aplicaciones de red ejecuta la reproducción del mensaje
``Antonio''.
Debería entenderse que la descripción anterior y
los dibujos adjuntos están destinados únicamente a ilustrar la
presente invención. En particular, la presente invención no se
limita la reconocimiento de la voz o a sistemas de control para
teléfonos móviles, sino que se puede utilizar en cualquier red de
datos. De este modo, el aparato y el procedimiento según la
invención pueden variar dentro del ámbito de las reivindicaciones
adjuntas.
Se describen un sistema y un procedimiento de
control por voz, en los que desde un servidor de aplicaciones de
red se carga una información de definición de estados. La
información de definición de estados define estados posibles del
servidor de aplicaciones de red y se utiliza para determinar un
conjunto de órdenes válidas del servidor de aplicaciones de red,
de tal manera que, comparando dicha orden de texto con dicho
conjunto determinado de órdenes válidas, se puede comprobar una
validez de una orden de texto obtenida al convertir una orden de
voz de entrada. De este modo, se puede evitar una transmisión de
órdenes de texto erróneas hacia el servidor de aplicaciones de red
de manera que se reduce el tiempo total de procesado y los
retardos de respuesta.
Claims (17)
1. Sistema de control por voz para una red (4) de
telecomunicaciones, que comprende:
- a)
- medios de carga para cargar una información de definición de estados de un servidor (5) de aplicaciones de red, en donde dicha información de definición de estados define todos los estados posibles del servidor (5) de aplicaciones de red;
- b)
- medios de determinación para determinar un conjunto de órdenes válidas para dicho servidor (5) de aplicaciones de red sobre la base de dicha información de definición de estados; y
- c)
- medios de comprobación para comprobar una validez de una orden de texto, obtenida al convertir una orden de voz de entrada que se va a utilizar para controlar dicho servidor (5) de aplicaciones de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.
2. Sistema según la reivindicación 1, en el que
dichos medios de carga se disponen de manera que cargan una
información de gramática y/o vocabulario que especifica un conjunto
total de órdenes validas soportadas por dicho servidor de
aplicaciones de red, en donde dichos medios de determinación se
disponen de manera que determinan dicho conjunto de órdenes
válidas sobre la base de dicho conjunto total de órdenes válidas y
una información de transición de estados incluida en dicha
información de definición de estados.
3. Sistema según la reivindicación 1, en el que
dichos medios de determinación se disponen de manera que hacen que
dichos medios de carga carguen un archivo de gramática dependiente
de los estados que define un conjunto de órdenes validas para un
estado específico del servidor (5) de aplicaciones de red, cuando
dichos medios de determinación determinan un cambio de estado
sobre la base de una información de transición de estados incluida
en dicha información de definición de estados.
4. Sistema según cualquiera de las
reivindicaciones anteriores, en el que dicho sistema de control
por voz comprende unos medios (6) de reconocimiento de la voz para
convertir una orden de voz de entrada recibida desde un terminal
(1) de abonado en dicha orden de texto a suministrar a dicho
servidor (5) de aplicaciones de red.
5. Sistema según cualquiera de las
reivindicaciones 1 a 3, en el que dicha red (4) de
telecomunicaciones es una red de servicios móviles y dicho sistema
de control por voz se implementa en un servidor (7) Aplicación de
Telefonía Inalámbrica (WTA), y en el que dicho servidor WTA (7) se
puede disponer de manera que recibe dicha orden de texto desde unos
medios (6) de reconocimiento de la voz de la red para convertir en
dicha orden de texto una orden de voz de entrada recibida desde un
terminal (1) de abonado.
6. Sistema según cualquiera de las
reivindicaciones 1 a 3, en el que dicho sistema de control por voz
comprende un terminal (1) de abonado que presenta unos medios de
entrada para introducir una orden de voz, unos medios de
transmisión para transmitir dicha orden de voz hacia unos medios
(6) de reconocimiento de la voz de dicha red (4) de
telecomunicaciones, y unos medios de recepción para recibir dicha
orden de texto desde los medios (6) de reconocimiento de la voz,
en el que dichos medios de transmisión se disponen de manera que
transmiten la orden de texto recibida hacia dicho servidor (5) de
aplicaciones de red.
7. Sistema según la reivindicación 3, en el que
dicha información de definición de estados incluye una instrucción
de carga para cargar el archivo de gramática dependiente de los
estados.
8. Sistema según cualquiera de las
reivindicaciones anteriores, en el que dicha información de
definición de estados es un archivo de datos.
9. Sistema según la reivindicación 8, en el que
dicho archivo de datos es un archivo WML.
10. Sistema según la reivindicación 8, en el que
dicho archivo de datos es un archivo HTML.
11. Sistema según la reivindicación 9 ó 10, en el
que dicho archivo de datos se envía en línea hacia dicho sistema
de control por voz como parte de una información estándar enviada
por dicho servidor (5) de aplicaciones de red.
12. Sistema según la reivindicación 1, en el que
dicha información de definición de estados la proporciona dicho
servidor (5) de aplicaciones de red en un momento de
configuración.
13. Sistema según la reivindicación 4, en el que
dicha información de definición de estados se almacena junto con
una información de conjuntos de órdenes en un servidor de red que
se ejecuta en un hardware de dicho sistema de control por voz.
14. Sistema según la reivindicación 4 ó 6, en el
que dicho sistema de control por voz comprende una pluralidad de
medios de reconocimiento de la voz específicos del vendedor, y en
el que en dicha información de definición de estados se definen los
parámetros correspondientes de dicha pluralidad de medios de
reconocimiento de la voz específicos del vendedor.
15. Procedimiento de control por voz para una red
de telecomunicaciones, que comprende las siguientes etapas:
- a)
- carga de una información de definición de estados de una aplicación de red, en la que dicha información de definición de estados define todos los estados posibles de dicha aplicación de red;
- b)
- determinación de un conjunto de órdenes válidas para dicha aplicación de red sobre la base de dicha información de definición de estados; y
- c)
- comprobación de una validez de una orden de texto, obtenida al convertir una orden de voz que se utilizará para controlar dicha aplicación de red, comparando dicha orden de texto con dicho conjunto determinado de órdenes válidas.
16. Procedimiento según la reivindicación 15, que
comprende además las etapas de carga de una información de
gramática y/o vocabulario que especifica un conjunto total de
órdenes validas para dicha aplicación de red, en donde dicha etapa
de determinación se realiza sobre la base de dicho conjunto total
de órdenes válidas y una información de transición de estados
incluida en dicha información de definición de estados.
17. Procedimiento según la reivindicación 15, que
comprende además la etapa de carga de un archivo de gramática
dependiente de los estados que define un conjunto de órdenes
validas para un estado específico de dicha aplicación de red, cuando
se ha determinado un cambio de estado sobre la base de la
información de transición de estados incluida en dicha información
de definición de estados.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP1998/006030 WO2000017854A1 (en) | 1998-09-22 | 1998-09-22 | Method and system of configuring a speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2198758T3 true ES2198758T3 (es) | 2004-02-01 |
Family
ID=8167070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES98952622T Expired - Lifetime ES2198758T3 (es) | 1998-09-22 | 1998-09-22 | Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7212970B2 (es) |
EP (1) | EP1116373B1 (es) |
JP (1) | JP4067276B2 (es) |
AT (1) | ATE239336T1 (es) |
AU (1) | AU1025399A (es) |
DE (1) | DE69814181T2 (es) |
ES (1) | ES2198758T3 (es) |
WO (1) | WO2000017854A1 (es) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
EP1137242A1 (en) * | 2000-03-24 | 2001-09-26 | Alcatel | Telecommunication system, terminal and network for vocal commanding |
FR2810823A1 (fr) * | 2000-06-27 | 2001-12-28 | Canecaude Emmanuel De | Systeme et procede pour transmettre des informations selon un protocole pour des applications sans fil, et equipement de communication mobile adapte |
GB2364480B (en) | 2000-06-30 | 2004-07-14 | Mitel Corp | Method of using speech recognition to initiate a wireless application (WAP) session |
US6925307B1 (en) * | 2000-07-13 | 2005-08-02 | Gtech Global Services Corporation | Mixed-mode interaction |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
JP2003114698A (ja) * | 2001-10-03 | 2003-04-18 | Denso Corp | コマンド受付装置及びプログラム |
US7472091B2 (en) | 2001-10-03 | 2008-12-30 | Accenture Global Services Gmbh | Virtual customer database |
US7441016B2 (en) | 2001-10-03 | 2008-10-21 | Accenture Global Services Gmbh | Service authorizer |
US7254384B2 (en) | 2001-10-03 | 2007-08-07 | Accenture Global Services Gmbh | Multi-modal messaging |
US7233655B2 (en) | 2001-10-03 | 2007-06-19 | Accenture Global Services Gmbh | Multi-modal callback |
US7640006B2 (en) | 2001-10-03 | 2009-12-29 | Accenture Global Services Gmbh | Directory assistance with multi-modal messaging |
DE60213663T2 (de) * | 2001-10-03 | 2007-10-18 | Accenture Global Services Gmbh | Mehrfachmodales nachrichtenübertragungsrückrufsystem mit dienstauthorisierer und virtueller kundendatenbank |
JP2003143256A (ja) * | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US7149287B1 (en) | 2002-01-17 | 2006-12-12 | Snowshore Networks, Inc. | Universal voice browser framework |
US7275217B2 (en) * | 2002-09-09 | 2007-09-25 | Vijay Anand Saraswat | System and method for multi-modal browsing with integrated update feature |
US7386443B1 (en) | 2004-01-09 | 2008-06-10 | At&T Corp. | System and method for mobile automatic speech recognition |
JP4789507B2 (ja) * | 2005-05-24 | 2011-10-12 | 株式会社小松製作所 | 変速装置 |
US7698140B2 (en) * | 2006-03-06 | 2010-04-13 | Foneweb, Inc. | Message transcription, voice query and query delivery system |
US20080114604A1 (en) * | 2006-11-15 | 2008-05-15 | Motorola, Inc. | Method and system for a user interface using higher order commands |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20080221884A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
US8019606B2 (en) * | 2007-06-29 | 2011-09-13 | Microsoft Corporation | Identification and selection of a software application via speech |
US8379801B2 (en) | 2009-11-24 | 2013-02-19 | Sorenson Communications, Inc. | Methods and systems related to text caption error correction |
US9159322B2 (en) | 2011-10-18 | 2015-10-13 | GM Global Technology Operations LLC | Services identification and initiation for a speech-based interface to a mobile device |
US9183835B2 (en) * | 2011-10-18 | 2015-11-10 | GM Global Technology Operations LLC | Speech-based user interface for a mobile device |
US9326088B2 (en) | 2011-10-21 | 2016-04-26 | GM Global Technology Operations LLC | Mobile voice platform architecture with remote service interfaces |
US20130103404A1 (en) * | 2011-10-21 | 2013-04-25 | GM Global Technology Operations LLC | Mobile voice platform architecture |
JP5916888B2 (ja) * | 2011-12-29 | 2016-05-11 | インテル・コーポレーション | 直接的文法アクセス |
WO2013101051A1 (en) * | 2011-12-29 | 2013-07-04 | Intel Corporation | Speech recognition utilizing a dynamic set of grammar elements |
US9583100B2 (en) | 2012-09-05 | 2017-02-28 | GM Global Technology Operations LLC | Centralized speech logger analysis |
KR101284594B1 (ko) * | 2012-10-26 | 2013-07-10 | 삼성전자주식회사 | 영상처리장치 및 그 제어방법, 영상처리 시스템 |
US9875494B2 (en) | 2013-04-16 | 2018-01-23 | Sri International | Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
US20160111090A1 (en) * | 2014-10-16 | 2016-04-21 | General Motors Llc | Hybridized automatic speech recognition |
CN107833576A (zh) * | 2017-11-17 | 2018-03-23 | 哈尔滨工大服务机器人有限公司 | 一种具有中间服务器的语义处理方法及系统 |
US11562731B2 (en) | 2020-08-19 | 2023-01-24 | Sorenson Ip Holdings, Llc | Word replacement in transcriptions |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5054054A (en) * | 1989-02-07 | 1991-10-01 | International Business Machines Corporation | Voice applications generator |
US5251233A (en) | 1990-12-20 | 1993-10-05 | Motorola, Inc. | Apparatus and method for equalizing a corrupted signal in a receiver |
CA2067669C (en) | 1991-04-30 | 1997-10-28 | Akihisa Ushirokawa | Method and apparatus of estimating data sequence transmitted using viterbi algorithm |
US5303263A (en) | 1991-06-25 | 1994-04-12 | Oki Electric Industry Co., Ltd. | Transmission channel characteristic equalizer |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5790598A (en) | 1996-03-01 | 1998-08-04 | Her Majesty The Queen In Right Of Canada | Block decision feedback equalizer |
US5867817A (en) * | 1996-08-19 | 1999-02-02 | Virtual Vision, Inc. | Speech recognition manager |
US6282511B1 (en) | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
US6269336B1 (en) * | 1998-07-24 | 2001-07-31 | Motorola, Inc. | Voice browser for interactive services and methods thereof |
JP2000076040A (ja) * | 1998-09-03 | 2000-03-14 | Matsushita Electric Ind Co Ltd | 音声入力ネットワーク端末装置 |
-
1998
- 1998-09-22 DE DE69814181T patent/DE69814181T2/de not_active Expired - Lifetime
- 1998-09-22 AT AT98952622T patent/ATE239336T1/de not_active IP Right Cessation
- 1998-09-22 ES ES98952622T patent/ES2198758T3/es not_active Expired - Lifetime
- 1998-09-22 WO PCT/EP1998/006030 patent/WO2000017854A1/en active IP Right Grant
- 1998-09-22 JP JP2000571437A patent/JP4067276B2/ja not_active Expired - Lifetime
- 1998-09-22 AU AU10253/99A patent/AU1025399A/en not_active Abandoned
- 1998-09-22 EP EP98952622A patent/EP1116373B1/en not_active Expired - Lifetime
-
2001
- 2001-03-16 US US09/809,808 patent/US7212970B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20010047258A1 (en) | 2001-11-29 |
WO2000017854A1 (en) | 2000-03-30 |
ATE239336T1 (de) | 2003-05-15 |
EP1116373B1 (en) | 2003-05-02 |
JP4067276B2 (ja) | 2008-03-26 |
AU1025399A (en) | 2000-04-10 |
EP1116373A1 (en) | 2001-07-18 |
JP2002525689A (ja) | 2002-08-13 |
US7212970B2 (en) | 2007-05-01 |
DE69814181T2 (de) | 2004-03-04 |
DE69814181D1 (de) | 2003-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2198758T3 (es) | Procedimiento y sistema de configuracion de un sistema de reconocimiento por voz. | |
US20030125023A1 (en) | Method and system for providing a wireless terminal communication session integrated with data and voice services | |
US6505161B1 (en) | Speech recognition that adjusts automatically to input devices | |
CN101183976B (zh) | 实现告警远程通知和告警远程查询的方法、装置及系统 | |
US20030186722A1 (en) | Method and device for real time GSM user device profile interrogation and registration | |
US20090131090A1 (en) | System and method for providing sms2pstn united messaging service using sms/mms gateway | |
US6999755B2 (en) | Method and device for providing information of unfinished call | |
US20080233922A1 (en) | System and Method for Remotely Monitoring Equipment with the Aid of at Control, Device, Radiocommunications Module and Corresponding Program | |
US6272530B1 (en) | Transmitter-receiver for electronic mail that provides convenience to a user receiving mail services from various mail service providers at different terminals and different places | |
KR20030007895A (ko) | 단문 게이트웨이, 정보 서비스를 이동 통신 디바이스에제공하는 시스템 및 방법 | |
CN100461153C (zh) | 车用信息提供方法和车用信息提供设备 | |
EP1566954A2 (en) | Method and system for navigating applications | |
US20110002449A1 (en) | Voice browser with integrated tcap and isup interfaces | |
US7319742B2 (en) | Voice information storage and retrieval system and method | |
US20050114139A1 (en) | Method of operating a speech dialog system | |
US6493434B1 (en) | Update of web audio messages via audio user interface | |
CN100405760C (zh) | 从具有网关的服务环境提供Web服务的方法和系统 | |
US7106836B2 (en) | System for converting text data into speech output | |
CN101193161B (zh) | 语音信息业务系统及实现语音信息业务的方法 | |
EP1371174A1 (en) | Method and system for providing a wireless terminal communication session integrated with data and voice services | |
JP2006507780A (ja) | 装置への呼出しの通知のための方法及び装置 | |
KR20050092264A (ko) | 개인 자동 응답 서비스 제공 방법 및 시스템 | |
JP2002150457A (ja) | 緊急時情報伝達方法 | |
CN102739882A (zh) | 一种座席系统、座席系统客户端及其处理方法 | |
WO2004100593A1 (en) | A method of and apparatus for transmitting position data to a receiver |