ES2251942T3

ES2251942T3 - Dispositivo de control remoto basado en la palabra.

Info

Publication number: ES2251942T3
Application number: ES00306975T
Authority: ES
Inventors: Roland Kuhn; Tony Davis; Jean-Claude Junqua; Weiying Li; Yi Zhao
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-08-26
Filing date: 2000-08-15
Publication date: 2006-05-16
Anticipated expiration: 2020-08-15
Also published as: EP1079371A1; EP1079371B1; JP2001148814A; JP3554262B2; US6553345B1; DE60023613D1

Abstract

Sistema de mando a distancia que comprende: una caja manual (10) dotada de una interface de comunicación (14) por medio de la cual las instrucciones de mando son transmitidas a un componente remoto (12); una pantalla de visualización (16) dispuesta en dicha caja; un micrófono (26) dispuesto en dicha caja y que sirve para recibir mensajes orales de entrada; un sistema analizador de voz (40) acoplado a dicho micrófono (26) para procesar dichos mensajes orales de entrada ; un fichero de datos históricos de diálogos (167) utilizado para registrar las conversaciones que han tenido lugar en el conjunto del sistema; una memoria que contiene los datos de perfiles de usuarios (56); un administrador de diálogos (54) conectado a dicho sistema analizador de voz (40), a dicha memoria de datos de perfiles de usuarios (56), y a dicha pantalla de visualización (16) para transmitir instrucciones de mando por medio de dicho interface de comunicación (14) y para presentar la información en la pantalla de visualización (16) basada al menos en parte, en la información obtenida de dicha memoria de perfiles de usuarios (56); y un analizador sintáctico de lenguaje natural (42) en comunicación de datos con dicho sistema analizador de voz (40), funcionando el analizador sintáctico (42) para extraer un contenido semántico de dichos mensajes orales de entrada procesados y para acceder a una representación semántica de una guía de programación electrónica (46) y utilizar dicho contenido semántico extraído para generar instrucciones de mando para dicho componente remoto (12), donde el analizador sintáctico de lenguaje natural (42) es un analizador sintáctico basado en la tarea que emplea una gramática que comprende una pluralidad de configuraciones que comportan unas casillas que representan una estructura semántica de dicha guía de programación electrónica (46); el administrador de diálogos (54) igualmente en comunicación con el analizador sintáctico de lenguaje natural (42) y el fichero de datoshistóricos de diálogos (167), siendo el administrador de diálogos (54) adaptado para recibir los mensajes orales de entrada procesados y rellenar casillas de una configuración basada en parte en el mensaje oral de entrada procesado y datos obtenidos del archivo de datos históricos de diálogos (167).

Description

Dispositivo de control remoto basado en la palabra.

Antecedentes y resumen de la invención

El omnipresente mando a distancia, a menudo una infinidad de ellos, se ha instalado prácticamente en todas las mesas donde se mira la televisión en el mundo entero. Son pocos los telespectadores que no hayan experimentado la frustración de tratar de dar una simple orden, tal como encender el televisor y ver una película previamente grabada y no poder hacerlo porque no logran averiguar qué botón tienen que pulsar y en qué mando a distancia.

En un intento de frenar la proliferación de mandos a distancia, muchas empresas ofrecen un mando a distancia universal que pueda accionar una variedad de componentes audiovisuales diferentes. Estos mandos a distancia, necesariamente, presentan un conjunto de botones, muchos de los cuales tienen doble función, para controlar las principales funciones de todos los dispositivos del equipo multimedia del usuario.

Aunque el mando a distancia universal convencional puede eliminar la necesidad de tener varias unidades de mando a distancia sobre la mesa, poco aporta para simplificar la interacción de los usuarios con su sistema audiovisual o multimedia. Por el contrario, la mayoría de las unidades de mando a distancia universal son tan complejas que, de hecho, impiden que el usuario pueda controlar el equipo.

La patente US 5.774.859 describe un sistema de mando a distancia para controlar un componente audiovisual en el cual una caja manual, que tiene un micrófono para recibir la orden oral del usuario y un transmisor para transmitir señales de datos a un dispositivo remoto, incluye un componente analizador de voz para procesar un mensaje oral de entrada y una memoria que almacena una representación de una guía de programación electrónica.

La patente DE19615437C1 describe un dispositivo de mando a distancia que comprende un micrófono, un analizador de voz, un analizar sintáctico de lenguaje natural que utiliza configuraciones de casos semánticos, un administrador de diálogos y una pantalla de visualización.

La presente invención tal como se manifiesta en las reivindicaciones 1-10 soluciona este problema a través de componentes de reconocimiento tecnológico de voz y de análisis sintáctico del lenguaje natural que permiten que simplemente hablando el usuario a la unidad de mando a distancia sus instrucciones se lleven a cabo. Aunque las órdenes orales pueden ser simples órdenes tales como "Encender la grabadora de vídeo" o "Grabar Canal 6", el analizador sintáctico de lenguaje natural ofrece la posibilidad de dar instrucciones mucho más complejas. Por ejemplo, el usuario puede decir: "Quiero ver una película divertida interpretada por Marilyn Monroe". Utilizando los componentes de analizador de voz y de analizador sintáctico, el sistema buscará a través de una guía de programación electrónica o una base de datos de películas y podrá contestar al usuario (por ejemplo) que, el próximo viernes se dará "Some like it hot". El usuario podrá entonces, por ejemplo, dar instrucciones al sistema para que grabe la película cuando la
den.

Las órdenes de grabación no precisan limitarse a la totalidad de la película o del programa. El usuario puede dar instrucciones tales como: "Grabar los últimos cinco minutos del partido de beisbol de esta noche Toronto-Los Angeles". De nuevo, los componentes de analizador de voz y de analizador sintáctico convierten esta orden compleja en una secuencia de acciones que hacen que el dispositivo de grabación del sistema del usuario realice las grabaciones pedidas, en el momento oportuno.

El mando a distancia de la invención puede construirse como una unidad autónoma que contenga todos los componentes de analizador sintáctico y analizador de voz en su interior o puede fabricarse en múltiples componentes que permitan que un procesador situado en un televisor, unidad superior o unidad de control multimedia auxiliar realice algunas de las operaciones informáticas más complejas. En el último caso, el mando a distancia manual y la unidad de mando a distancia comunican entre sí por transmisión inalámbrica. De preferencia, la unidad de mando a distancia manual incluye una entrada de infrarrojos a través de la cual el mando a distancia puede interactuar con elementos más antiguos del equipo multimedia del usuario. De este modo, el mando a distancia de la invención permite asimismo que se den instrucciones orales con lenguaje natural complicado a los elementos audiovisuales más antiguos.

Para una mayor comprensión de la invención, sus objetivos y ventajas, hay que referirse a la descripción siguiente y a los dibujos adjuntos.

Breve descripción de los dibujos

La figura 1 es una vista en planta de un modo de realización del mando a distancia según la invención;

La figura 2 es un esquema de conjunto que ilustra los componentes del modo de realización preferido;

La figura 3 es un esquema de conjunto que representa los componentes del analizador sintáctico de lenguaje natural del modo de realización actualmente preferido de la invención; y

La figura 4 es un esquema de conjunto que representa los componentes del analizador sintáctico local del modo de realización actualmente preferido de la invención.

Descripción del modo de realización preferido

El mando a distancia de la invención puede presentar muchas formas. Un ejemplo de modo de realización está ilustrado en la Figura 1 donde el mando a distancia tiene la referencia numérica 10 y un ejemplo de televisor tiene la referencia numérica 12. En el modo de realización preferido, el mando a distancia 10 y el televisor 12 tienen una comunicación inalámbrica entre sí a través de un enlace de radiofrecuencia o un enlace de infrarrojo adecuado.

El mando a distancia está destinado a funcionar no solamente con la televisión digital más moderna y los equipos de grabación con disco duro sino también con modelos más antiguos de televisores, grabadoras de vídeo, DVD y reproductores de discos láser, procesadores de sonido envolvente, sintonizadores y similares. Por consiguiente, el mando a distancia incluye un transmisor de diodo fotoemisor 14 mediante el cual la unidad puede comunicar con todos los componentes multimedia y de entretenimiento doméstico. El mismo transmisor puede servir de enlace para la comunicación entre el mando a distancia y el televisor (para implementar algunas de las características aquí
descritas).

En un modo de realización alternativo, el mando a distancia 10 y el televisor 12 se comunican por medio de un enlace de comunicación de datos bidireccional que permite que los componentes de análisis de voz y de análisis sintáctico del lenguaje natural estén distribuidos entre el mando a distancia, el televisor y, opcionalmente, otros componentes del sistema multimedia.

Aunque no sea necesario para implementar el sistema de diálogo que permite hablar, el mando a distancia 10 actualmente preferido incluye igualmente una visor luminoso 16 que puede facilitar indicaciones al usuario, así como información extraída de la guía de programación electrónica. La pantalla puede ser sensible al tacto o sensible a la pulsación, permitiendo que el usuario seleccione opciones del menú y proporcione datos de entradas manuscritas a través del puntero 18. Para los usuarios que empleen regularmente asistentes digitales personales basados en una pluma (PDA) la modalidad de datos de entrada por puntero les resultará particularmente útil.

El mando a distancia 10 incluye asimismo un complemento de pulsadores 20, para realizar la selección de canal numérico y otras operaciones que se realizan habitualmente, tales como subir y bajar el volumen. También se puede incluir una "jog shuttle wheel" (rueda basculante de impulsión) 22 para permitir que el usuario utilice esta característica conjuntamente con las grabadoras y tocadiscos.

Debido al enlace bidireccional entre el mando a distancia 10 y el televisor 12, el sistema es capaz de presentar indicaciones e información de la guía de programación en pantalla, tanto en la pantalla del televisor, tal como se ilustra en 24, como en la pantalla de visualización 16 del mando a distancia. Si se desea, puede suprimirse la presentación en pantalla 24, de modo que el usuario pueda utilizar las selecciones del menú y las selecciones de la guía de programación electrónica utilizando la pantalla de mando a distancia, sin necesidad que aparezca la misma información en el televisor mientras se está viendo un programa.

Un aspecto particularmente útil del mando a distancia 10 es su modalidad de mensaje oral de lenguaje natural. El mando a distancia está provisto de un micrófono como en 26. El usuario habla con frases de lenguaje natural y este mensaje oral es recogido por el micrófono 26 y es facilitado a un sistema sofisticado de comprensión del lenguaje hablado. El sistema de comprensión del lenguaje hablado permite que el usuario dé órdenes en lenguaje natural interactivo al televisor y otro equipo asociado (tal como grabadora con disco duro o grabadora de vídeo) para que la búsqueda y grabación.

Como un ejemplo de orden de búsqueda oral, el usuario podría decir en el micrófono "Quiero ver una película divertida interpretada por Marilyn Monroe". Utilizando los componentes de analizador de voz y de analizador sintáctico, el sistema buscará a través de una guía de programación electrónica o una base de datos de películas y podrá contestar al usuario si alguna de las opciones cumplen lo que pide el usuario. El sistema puede contestar, por ejemplo, que el próximo viernes se dará "Some like it hot".

Provisto de esta información, el usuario puede elegir grabar la película, diciendo simplemente "Por favor, graba ``Some Like it Hot''".

Las instrucciones de grabación pueden ser muy explícitas, gracias al sistema sofisticado de lenguaje natural de la invención. De este modo, el usuario podría introducir una orden de grabación compleja tal como: "Grabar los últimos cinco minutos del partido de beisbol de esta noche Toronto-Los Angeles". De nuevo, los componentes de analizador de voz y de analizador sintáctico convierten esta instrucción compleja en una secuencia de acciones que la grabadora, dentro del sistema, llevará a cabo.

A continuación, con referencia a la figura 2, se describirán los componentes funcionales principales del sistema de mando a distancia. En este aspecto, es importante comprender que los componentes del sistema de mando a distancia pueden estar contenidos íntegramente en el interior del propio dispositivo de mando a distancia o bien uno o más de dichos componentes pueden estar distribuidos o implementados en otros componentes en el interior del sistema. Las funciones más intensivas del procesador del sistema pueden ser realizadas por ejemplo por procesadores situados en componentes mayores, más potentes, tales como unidades superiores del televisor, televisores digitales interactivos, sistemas de grabación multimedia y similares.

Por ejemplo, el micrófono y los componentes básicos de analizador de voz pueden estar alojados en la unidad de mando a distancia, estando los demás componentes alojados en otra parte del equipo. Si se desea el propio analizador de voz puede subdividirse en componentes, algunos de los cuales estarán alojados en el mando a distancia y otros estarán alojados en otras partes. A modo de ejemplo, el componente alojado en el mando a distancia puede procesar el mensaje oral de entrada mediante la extracción de características de la voz para las cuales se han formado los modelos de voz. El mando a distancia transmite entonces estas características que ha extraído al componente situado en otra parte para un procesamiento adicional de análisis de voz. Alternativamente, el mensaje oral de entrada puede ser transmitido simplemente por el mando a distancia a un componente analizador de voz del campo de sonido situado en otra parte. Por supuesto estos son solamente unos cuantos ejemplos posibles de como puede desplegarse la funcionalidad de la invención de forma distribuida.

En primer lugar se digitaliza el mensaje oral de entrada facilitado a través del micrófono 26 y se suministra al módulo analizador de voz 40. Los datos de salida del módulo analizador de voz 40 son suministrados al analizador sintáctico de lenguaje natural 42. Este analizador sintáctico trabaja conjuntamente con un juego de gramáticas 44 que permiten que el sistema interprete el significado de las instrucciones orales del usuario. En el modo de realización actualmente preferido, estas gramáticas están orientadas hacia metas que comprenden una colección de sentencias de configuración que tienen una o más casillas que el sistema rellenará basándose en las palabras analizadas del mensaje oral de entrada del usuario. Se presentan a continuación más detalles del analizador sintáctico actualmente preferido y de dichas gramáticas orientadas hacia unas metas.

El analizador sintáctico de lenguaje natural 42 tiene acceso a una representación semántica almacenada de la guía de programación electrónica 46. La guía de programación electrónica puede ser descargada de internet, vía satélite o por el cable. Estas fuentes de información de guía de programación electrónica están designadas con la referencia numérica 50. Normalmente, se puede utilizar el sintonizador del televisor 52 para obtener esta información y facilitarla a la representación semántica almacenada en 46. Alternativamente, podría suministrarse dicha información mediante conexión telefónica a un proveedor reservado para servicios de internet adecuados o a un proveedor de servicios de guía de programación electrónica.

La guía de programación electrónica típica representa una estructura jerárquica compleja que desglosa diferentes tipos de contenidos de programación según los tipos. De este modo, una guía de programación puede dividir programas en diferentes categorías tales como películas, deportes, noticias, meteorología, y similares. Pueden subdividirse adicionalmente dichas categorías. De este modo, pueden subdividirse las películas en diferentes categorías tales como comedia, drama, ciencia ficción y así sucesivamente. Una representación semántica de los contenidos de la guía de programación electrónica está almacenada en 46, basada en la misma estructura de gramática orientada hacia una meta que utiliza el analizador sintáctico de lenguaje natural. Esto permite que el analizador sintáctico encuentre fácilmente información sobre los programas que puedan verse. Si el usuario ha pedido comedias, el analizador sintáctico tiene acceso a la representación semántica de la sección de comedias, y el usuario puede entonces visualizar los programas que entren en esta categoría, tal como se describirá más detalladamente a continuación.

En algunos casos, el analizador sintáctico de lenguaje natural identificará de inmediato un programa que interese al usuario. En otros casos, puede haber múltiples selecciones o bien ninguna. Para acomodar esas numerosas posibilidades, el sistema incluye un administrador de diálogos 54. El administrador de diálogos establece la interconexión con el analizador sintáctico de lenguaje natural 42 y genera indicaciones interactivas para la presentación al usuario de mensajes orales sintetizados o en pantalla. Estas indicaciones están destinadas a solicitar información adicional del usuario, para ayudar a que el analizador sintáctico de lenguaje natural encuentre ofertas de programas en los que el usuario estuviera interesado. El administrador de diálogos tiene una memoria de datos de perfiles de usuario 56, que almacena información acerca de las selecciones anteriores del usuario e igualmente información sobre cómo le gusta al usuario que se le presente la información. Esta memoria de datos ayuda de este modo al administrador de diálogos a seleccionar las indicaciones que mejor se ajusten a lo que el usuario espera recibir.

Se describirá ahora el analizador sintáctico de lenguaje natural preferido. La figura 3 representa más detalladamente componentes de analizador sintáctico de lenguaje natural 42. En particular, el módulo de comprensión del mensaje oral 128 incluye un analizador sintáctico local 160 para identificar fragmentos importantes relacionados con la tarea. El módulo de comprensión de mensaje oral 128 incluye asimismo un analizador sintáctico global 162 para extraer la semántica global de la petición del hablante.

En el modo de realización preferido, el analizador sintáctico local 160 utiliza múltiples gramáticas pequeñas, en varias pasadas, y un mecanismo de anotaciones único para facilitar hipótesis de análisis sintáctico. Por ejemplo, el analizador sintáctico local novedoso 102 reconoce, según su enfoque, datos tales como fechas, nombres de personas y categorías de películas. Si un usuario dice "grábame una comedia en la cual Mel Brooks sea el protagonista y que se representó antes del 23 de enero", el analizador sintáctico reconocerá: "comedia" como categoría de película; "23 de enero" como fecha y "Mel Brooks" como actor. El analizador sintáctico global reúne estos datos (categoría de película, fecha, etc.) conjuntamente y reconoce que el usuario desea grabar una película dentro de ciertos límites.

El módulo de comprensión del mensaje oral 128 incluye una base de datos de conocimientos 163 que codifica la semántica de un campo (por ejemplo meta a alcanzar). En este sentido, la base de datos de conocimientos 163 es de preferencia una base de datos de un campo específico tal como se representa con la referencia numérica 165 y es utilizada por el administrador de diálogos 130 para determinar si una acción en particular está relacionada con la posibilidad de alcanzar una meta predeterminada.

El modo de realización preferido codifica la semántica a través de una estructura de datos de configuración 164. La estructura de datos de configuración 164 contiene casillas vacías 166 que se rellenan cuando la interpretación semántica del analizador sintáctico global 162 combina con la configuración. Por ejemplo, una estructura de datos de configuración (cuyo campo sea las órdenes al sintonizador) incluye una casilla vacía para especificar el canal pedido por el telespectador para un período de tiempo. Si el telespectador 120 facilita el canal, se rellena la casilla vacía con dicha información. No obstante, si esta casilla en particular necesita ser rellenada después de que el telespectador haya facilitado inicialmente su petición, entonces el administrador de diálogos 130 dará instrucciones al módulo de respuesta del ordenador 134 para que pida al telespectador 120 que facilite un canal deseado.

La estructura de datos de configuración 164 incluye de preferencia múltiples configuraciones que, a su vez, tienen, cada una, múltiples casillas. Una configuración puede tener casillas dirigidas para su asignación a una película, director y tipo de película. Otra configuración puede tener casillas dirigidas a asignaciones relativas a la hora en la cual se representa dicha película, el canal y así sucesivamente.

La siguiente referencia se refiere a los analizadores sintácticos globales y configuraciones: R. Kuhn and R.D. Mori, Spoken Dialogues with Computers (Chapter 14: Sentence Interpretation), Academic Press, Boston (1998).

El administrador de diálogos 130 utiliza un archivo de datos históricos de diálogos 167 para ayudar a rellenar las casillas vacías antes de pedir información al usuario. El archivo de datos históricos de diálogos 167 contiene un registro de conversaciones que han tenido lugar a través del dispositivo de la presente invención. Por ejemplo, si un usuario dice "quisiera ver otra película de Marilyn Monroe", el administrador de diálogos 130 examina el archivo de datos históricos de diálogos 167 para comprobar que películas ha visto o rechazado ya el telespectador en un intercambio anterior de diálogos. Si el usuario ya rechazó "Some Like it Hot", entonces el administrador de diálogos 130 rellena la casilla vacía de títulos de películas con un título diferente. Si se ha rellenado un número de casillas suficiente, entonces la presente invención pedirá al usuario que compruebe y confirme la selección de programación. De este modo, si alguna suposición por parte del administrador de diálogos 130 utilizando el archivo de datos históricos de diálogos 167 demostrara ser incorrecta, el usuario puede corregir dicha suposición.

El analizador sintáctico de lenguaje natural 42 analiza y extrae semánticamente los temas importantes y de interés de un texto en lenguaje natural deficientemente estructurado el cual se ha generado como datos de salida de un sistema analizador de voz automático (ASR) utilizado por un sistema de diálogos o de comprensión del mensaje oral. El analizador sintáctico de lenguaje natural 42 traduce el texto de entrada en lenguaje natural a una nueva representación mediante la generación de etiquetas bien estructuradas que contienen datos e información de temas y la asociación de cada etiqueta con los segmentos de texto de entrada que contiene la información que figura en las etiquetas. Asimismo, pueden generarse etiquetas de otras formas tal como en listas aparte o con casilla semánti-
ca.

La solidez es una de las características del analizador sintáctico de lenguaje natural 42 ya que los datos de entrada pueden contener sentencias en inglés que sean gramáticamente incorrectas, debido a los siguientes motivos: los datos de entrada al analizador son informales, con estilo de un diálogo, el lenguaje natural puede contener sentencias cortadas, frases parciales y la inserción, omisión o mal reconocimiento de errores por el analizador de voz incluso cuando se considere que los mensajes orales de entrada son correctos. El analizador sintáctico de lenguaje natural 42 trata con eficacia todos los tipos de mensajes de entrada y extrae tanta información como sea posi-
ble.

La figura 4 representa los diferentes componentes del analizador sintáctico local 160 del analizador sintáctico de lenguaje natural 42. El analizador sintáctico de lenguaje natural 42 utiliza de preferencia técnicas de análisis sintáctico generalizadas en un enfoque de pasadas múltiples como computación de punto fijo. Se describe cada tema como una gramática LR (derivación izquierda-derecha y principalmente hacia la derecha) sensible al contexto, que permite ambigüedades. Las siguientes son referencias relacionadas con las gramáticas LR sensibles al contexto; A. Aho y J.D. Ullman, Principles of Compiler Design, Addison Wesley Publishing Co., Reading, Massachusetts (1977); y N. Tomita, Generalized LR Parsing, Kluwer Academic Publishers, Boston, Massachusetts (1991).

A cada pasada de computación, se utiliza un algoritmo de análisis sintáctico generalizado para generar de preferencia todos los posibles árboles de análisis sintáctico (completos y parciales) independientemente para cada tema objetivo. Cada pasada genera potencialmente varios árboles de análisis sintáctico alternativo, representando cada árbol de análisis sintáctico una posible interpretación diferente de un tema particular. Las múltiples pasadas a través de vías de preferencia paralelas e independientes dan por resultado una eliminación sustancial de ambigüedades y se solapan con otros temas diferentes. El algoritmo de análisis sintáctico generalizado es un modo sistemático de registrar todos los árboles de análisis sintáctico posibles de modo que se seleccionen los mejores candidatos (N) utilizando la información contextual presente en el sistema.

El sistema de análisis sintáctico local 160 se realiza en tres fases: análisis lexical 220; generación de un conjunto de árboles de análisis sintáctico paralelo para cada tema (por ejemplo, generadores 230 y 232); y análisis y síntesis de componentes de análisis sintáctico tal como se representa de forma general con la referencia numérica 234.

Análisis lexical

Un usuario dice una frase que es reconocida por un analizador de voz automático 217 que genera una sentencia de entrada 218. La fase de análisis lexical 220 identifica y genera etiquetas para los temas (que no precisan gramáticas extensas) en la sentencia de entrada 218 utilizando filtros lexicales 226 y 228. Estos incluyen, por ejemplo, nombres de películas; categorías de películas; productores; nombres de actores y actrices; y similares. Normalmente, en este nivel, basta con una exploración corriente de expresión de la sentencia de entrada 218 utilizando las palabras clave implicadas en las mencionadas etiquetas de ejemplos. Asimismo, en esta fase se realiza el etiquetado de palabras de la sentencia de entrada que no formen parte del léxico de la gramática particular. Se indican estas palabras utilizando una etiqueta X de modo que dicho sonido de palabra sea sustituido por la letra "X".

Generación de conjunto de árboles de análisis sintáctico paralelo

El analizador sintáctico 42 utiliza una estrategia de análisis sintáctico general de alto nivel para describir y analizar sintácticamente cada tema por separado y generar etiquetas y organizar su topografía en el flujo de entrada. Debido a la naturaleza del texto de entrada sin estructurar 218, cada analizador sintáctico de temas individuales acepta de preferencia un lenguaje tan amplio como sea posible, ignorándolo todo excepto las palabras importantes, tratando los errores de inserción y de corrección. El análisis sintáctico de cada tema implica la designación de reglas gramaticales sensibles al contexto utilizando un lenguaje de especificación de metanivel, muy similar a los que se utilizan en el análisis sintáctico LR. Entre los ejemplos de gramática se incluye la gramática A 240 y la gramática B 242. Utilizando el enfoque de la presente invención, se describen las gramáticas de temas 240 y 242 como si fueran gramática del tipo LR, que contengan redundancias y no eliminen desviaciones y reduzcan conflictos. El resultado del análisis sintáctico de una sentencia de entrada es el de todos los posibles análisis sintácticos basados en las especificaciones gramaticales.

Los generadores 230 y 232 generan conjuntos de árboles de análisis sintáctico 250 y 252 para sus temas. La generación de etiquetas se realiza sintetizando la información real encontrada en el árbol de análisis sintáctico obtenido durante dicho análisis sintáctico. La generación de etiquetas se realiza por medio de los generadores de etiquetas y de notas 260 y 262 que generan respectivamente las etiquetas 264 y 266. Cada etiqueta identificada lleva igualmente información sobre cual es el juego de palabras de entrada en la sentencia de entrada que está cubierto por la tarjeta. A continuación, la etiqueta sustituye su juego de cobertura. En el modo de realización preferido, se utiliza la información de contexto 267 para generar etiquetas y notas, tal como con los generadores 260 y 262. Se utiliza la información de contexto 267 en las heurísticas de anotación para ajustar las ponderaciones asociadas a la técnica del factor de anotación heurísticas que se indica a continuación. La información sobre el contexto 267 incluye de preferencia el vector de confianza de palabra 268 y las ponderaciones de contexto del diálogo 269. No obstante, debe quedar entendido que el analizador sintáctico 42 no se limita al uso del vector de confianza de palabra 268 y ponderaciones de contexto del diálogo 269 sino que incluye también el uso de uno excluyendo al otro, al igual que no la no utilización de información de contexto 267.

El bloque del proceso de análisis de voz 217 automático genera el vector de confianza de palabras 268 que indica hasta que punto se han reconocido las palabras de la sentencia de entrada 218. El administrador de diálogos 130 genera ponderaciones de contexto de diálogo 269 mediante la determinación del estado del diálogo. Por ejemplo, el administrador de diálogos 130 pregunta al usuario sobre un tema en particular, tal como, que tiempo de visualización es preferible. Debido a esta pregunta, el administrador de diálogos 130 determina que el estado del diálogo está orientado al tiempo. El administrador de diálogos 130 proporciona ponderaciones de contexto de diálogo 269 con el fin de informar de los procesos apropiados que ponderen más a fondo las palabras detectadas orientadas al tiempo.

Síntesis de componentes de etiquetas

El analizador sintáctico de localización de temas de la fase anterior genera una información importante que necesita ser analizada y combinada en conjunto para formar los datos de salida finales del analizador sintáctico local. El analizador sintáctico 42 es preferiblemente tan "agresivo" como sea posible en la localización de cada tema que resulte de la generación de múltiples candidatos a etiquetas. Asimismo, en presencia de ciertos números o palabras clave, tales como "entre", "antes", "y", "o", “aproximadamente”, etc. y, en especial si estas palabras han sido introducidas o se han descartado debido a errores de reconocimiento, es posible construir muchos candidatos a tarjeta alternativos. Por ejemplo, una sentencia de entrada podría tener errores de inserción u omisión. La frase combinada determina que etiquetas forman una interpretación con mayor sentido de los mensajes de entrada. El analizador sintáctico 42 define las heurísticas y realiza una selección basada en éstas utilizando un proceso de selección de mejores candidatos N. Cada etiqueta generada corresponde a un juego de palabras en la lista de palabras de los mensajes de entrada, que se llama el conjunto de cobertura de la etiqueta.

Se utiliza una heurística que tiene en cuenta los juegos de cobertura de las etiquetas utilizadas para generar una anotación. La anotación depende toscamente del tamaño del juego de cobertura, el número de palabras de los segmentos dentro de los temas cubiertos, y las ponderaciones asignadas a la presencia de ciertas palabras clave. En el modo de realización preferido, se utilizan el vector de confianza derivado del ASR y la información sobre el contexto del diálogo para asignar prioridades a las etiquetas. Por ejemplo, al aplicar primeramente el análisis sintáctico de etiquetas de un canal, potencialmente se suprimen los números relacionados con el canal que resulten más fáciles de identificar únicamente desde el flujo de entrada de datos, y deja menos números que creen ambigüedades con otras etiquetas. De preferencia, se utiliza la información del contexto del dialogo para ajustar las prioridades.

Selección de mejores candidatos N

Al final de cada pasada, un procesador de mejores N, 270, selecciona los mejores candidatos N basándose en las anotaciones asociadas a las etiquetas y genera las etiquetas de temas, que representan cada una la información que se encuentra en el árbol de análisis sintáctico correspondiente. En cuanto se han descubierto de este modo los temas, se pueden sustituir las palabras correspondientes de los mensajes de entrada con la información de la etiqueta. Esta transformación por sustitución elimina las palabras correspondientes del texto de entrada. Se retroalimentan los datos de salida 280 de cada pasada a la próxima pasada como nueva entrada ya que las sustituciones pueden ayudar a la eliminación de algunas ambigüedades debidas a gramáticas competidoras o bien ayudar a generar mejores árboles analizadores sintácticos por la filtración de símbolos que se solapen.

Cesa la computación cuando no se genere ninguna etiqueta adicional en la última pasada. Los datos de salida de la pasada final pasan a ser los datos de salida del analizador sintáctico global hacia el analizador sintáctico 162. Como cada fase solamente puede reducir el número de palabras en los mensajes de entrada y la longitud del texto de entrada es finita, el número de pasadas a la computación de punto fijo está linealmente limitado al tamaño de sus mensajes de entrada.

Se utilizan los siguientes factores de anotación para clasificar los árboles analizadores sintácticos alternativos basados en los siguientes atributos de un árbol analizador sintáctico:

\bullet: Número de símbolos terminales

\bullet: Número de símbolos no terminales

\bullet: Tamaño de los segmentos en los símbolos terminales

\bullet: Medidas de confianza ASR asociadas a cada símbolo terminal

\bullet: Ponderaciones ajustables al contexto asociadas a cada símbolo terminal y no terminal.

Cada vía corresponde de preferencia a un tema separado que se puede desarrollar independientemente, al trabajar con una pequeña cantidad de datos de forma computacionalmente económica. La arquitectura del analizador sintáctico 42 es flexible y modular incorporando así vías adicionales y gramáticas, para nuevos temas o el cambio de heurísticas de temas particulares es directo, esto permite igualmente desarrollar componentes reutilizables que se pueden compartir con diferentes sistemas con facilidad.

De lo que antecede, se observará que el sistema de mando a distancia de la invención ofrece una funcionalidad muy grande para el usuario que no se suele encontrar habitualmente en ningún sistema de control de guía de programa electrónico o sistema de mando a distancia. Aunque se ha descrito la invención en su modo de realización actualmente preferido, queda entendido que puede modificarse la invención sin salirse de su ámbito tal como se describe en las reivindicaciones adjuntas.

Claims

1. Sistema de mando a distancia que comprende:

: una caja manual (10) dotada de una interface de comunicación (14) por medio de la cual las instrucciones de mando son transmitidas a un componente remoto (12);

: una pantalla de visualización (16) dispuesta en dicha caja;

: un micrófono (26) dispuesto en dicha caja y que sirve para recibir mensajes orales de entrada;

: un sistema analizador de voz (40) acoplado a dicho micrófono (26) para procesar dichos mensajes orales de entrada;

: un fichero de datos históricos de diálogos (167) utilizado para registrar las conversaciones que han tenido lugar en el conjunto del sistema;

: una memoria que contiene los datos de perfiles de usuarios (56);

: un administrador de diálogos (54) conectado a dicho sistema analizador de voz (40), a dicha memoria de datos de perfiles de usuarios (56), y a dicha pantalla de visualización (16) para transmitir instrucciones de mando por medio de dicho interface de comunicación (14) y para presentar la información en la pantalla de visualización (16) basada al menos en parte, en la información obtenida de dicha memoria de perfiles de usuarios (56); y

: un analizador sintáctico de lenguaje natural (42) en comunicación de datos con dicho sistema analizador de voz (40), funcionando el analizador sintáctico (42) para extraer un contenido semántico de dichos mensajes orales de entrada procesados y para acceder a una representación semántica de una guía de programación electrónica (46) y utilizar dicho contenido semántico extraído para generar instrucciones de mando para dicho componente remoto (12), donde el analizador sintáctico de lenguaje natural (42) es un analizador sintáctico basado en la tarea que emplea una gramática que comprende una pluralidad de configuraciones que comportan unas casillas que representan una estructura semántica de dicha guía de programación electrónica (46);

: el administrador de diálogos (54) igualmente en comunicación con el analizador sintáctico de lenguaje natural (42) y el fichero de datos históricos de diálogos (167), siendo el administrador de diálogos (54) adaptado para recibir los mensajes orales de entrada procesados y rellenar casillas de una configuración basada en parte en el mensaje oral de entrada procesado y datos obtenidos del archivo de datos históricos de diálogos (167).

2. Sistema de mando a distancia según la reivindicación 1, donde dicho sistema analizador de voz incluye dicho analizador sintáctico de lenguaje natural para extraer la información semántica del mensaje oral de entrada a través de dicho micrófono.

3. Sistema de mando a distancia según la reivindicación 1, donde dicho sistema analizador de voz incluye dicho analizador sintáctico de lenguaje natural que tiene una memoria de datos correspondiente que contiene una representación de la guía de programación electrónica, y donde dicho analizador sintáctico extrae selectivamente la información procedente de la guía de programación basada en la información de mensajes orales de entrada a través dicho micrófono.

4. Sistema de mando a distancia según la reivindicación 1, donde dicho sistema analizador de voz incluye una memoria de datos que contiene una representación de dicha guía de programación electrónica y un sistema para actualizar selectivamente el contenido de la memoria de datos.

5. Sistema de mando a distancia según la reivindicación 4, donde dicho sistema para actualizar selectivamente el contenido de dicha memoria incluye un sintonizador que permite acceder a una fuente de información de la guía de programación electrónica.

6. Sistema de mando a distancia según la reivindicación 4, donde dicho sistema para actualizar selectivamente el contenido de dicha memoria incluye un sistema de acceso a internet para acceder a una fuente de información de la guía de programación electrónica.

7. Sistema de mando a distancia según la reivindicación 4, donde dicho sistema analizador de voz presenta un primer componente dispuesto en el interior de dicha caja manual y un segundo componente dispuesto en el exterior de dicha caja manual.

\newpage

8. Sistema de mando a distancia según la reivindicación 7, donde dicho primer componente genera una señal auditiva de campo para su transmisión a dicho segundo componente.

9. Sistema de mando a distancia según la reivindicación 7, donde dicho primer componente extrae parámetros de voz a partir del mensaje oral de entrada de un usuario y transmite estos parámetros a dicho segundo componente para su análisis.

10. Sistema de mando a distancia según la reivindicación 1, donde después de que se hayan rellenado las casillas, se pide al usuario la confirmación de la selección de una programación.