ES2228408T3

ES2228408T3 - Metodo y aparato analizador del lenguaje natural.

Info

Publication number: ES2228408T3
Application number: ES00301888T
Authority: ES
Inventors: Murat Karaorman; Jean-Claude Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-04-07
Filing date: 2000-03-08
Publication date: 2005-04-16
Anticipated expiration: 2020-03-08
Also published as: DE60014743D1; EP1043711A2; DE60014743T2; US6631346B1; EP1043711A3; EP1043711B1

Abstract

Método de análisis sintáctico de lengua oral implementada en un ordenador para procesar una frase de entrada (118), que comprende las fases de a. facilitar una pluralidad de gramáticas (140, 142) indicativas de temas predeterminados; b. generar una pluralidad de conjuntos de árboles de directorios de análisis sintáctico (150, 152) relacionada con dicha frase de entrada (118) utilizando dichas gramáticas; c. asociar etiquetas (164, 166) con palabras de dicha frase de entrada (118) utilizando dichos conjuntos de árboles de directorios de análisis sintáctico generados (150, 152); y d. generar valoraciones de dichas etiquetas (164, 166) basadas en los atributos de dichos conjuntos de árboles de directorios de análisis sintáctico (150, 152); y e. seleccionar etiquetas (164, 166) para su uso como representación analizada sintácticamente (180) de dicha frase de entrada (118) basándose en dicha valoración generada.

Description

Método y aparato analizador del leguaje natural.

Antecedentes y resumen de la invención

La presente invención se refiere al análisis de la lengua oral y más particularmente a un analizador sintáctico del lenguaje natural implementado en un ordenador.

Comprender el significado de una sentencia de lenguaje natural es la piedra angular de muchos campos de la ciencia con implicaciones tan amplias que se sitúan desde el modo en el cual interactúan los humanos con los ordenadores o máquinas hasta como interactúan con otros agentes inteligentes, humanos o máquinas, a través de sistemas de traducción. La tarea se vuelve más complicada cuando se obtiene la sentencia utilizando un sistema de reconocimiento automático de la lengua oral (ASR), donde los errores de reconocimiento tales como las inserciones, omisiones o sustituciones pueden hacer que la sentencia se vuelva menos inteligible incluso para un humano. Factores adicionales relacionados con el usuario-interface también pudieran introducir un elemento de falta de naturalidad en la propio lengua del usuario, de modo que la sentencia reconocida pudiera contener los efectos de vacilaciones del usuario: pausas, repeticiones, frases o sentencias incompletas.

Debido a estos factores, el análisis sintáctico de sentencias de lenguaje natural ocupa un área importante de los sistemas relacionados con la lengua oral implementados en ordenadores. No obstante, los planteamientos actuales de analizadores sintácticos de lenguaje natural presentan poca consistencia en la gestión de los errores antes mencionados de un sistema de reconocimiento automático de la lengua oral.

En "A modular approach to spoken language translation for large domains", M. Woszczyna et al. Proceedings of AMTA-1998 18-31 Octubre de 1998, páginas 1-10, se describe un sistema mecánico de traducción automática específicamente apropiado para el diálogo oral en el cual el lenguaje se caracteriza por un habla muy poco fluida que puede estar fragmentada y ser gramaticalmente incorrecta, y en el cual se crea una malla de árboles de análisis sintáctico que contengan todas las actuaciones de sector posibles, donde una acción de sector puede incluir una operación tal como pedir o dar información y consiste en tres niveles de ilustración: consistencia de un acto de hablar, conceptos y argumentos.

La presente invención soluciona las desventajas antes mencionadas así como desventajas.

De acuerdo con lo enseñado por la presente invención, se facilita un método y un aparato para el análisis sintáctico de la lengua oral implementados en un ordenador para procesar una frase de entrada. El método y el aparato incluyen proporcionar una pluralidad de gramáticas que sean indicativas de temas predeterminados. Se genera una pluralidad de conjuntos de árboles de directorios de análisis sintáctico utilizando las gramáticas y se asocian etiquetas con palabras de la frase de entrada utilizando los conjuntos de árboles de directorio de análisis sintáctico. Se generan valoraciones para las etiquetas basándose en los atributos de los conjuntos de árboles de directorio de análisis sintáctico y se seleccionan las etiquetas para el uso como ilustración analizada sintácticamente de la frase introducida basándose en las valoraciones generadas.

Para una mejor comprensión de la invención, su objeto y ventajas, se deberá hacer referencia a la siguiente descripción y a los dibujos adjuntos.

Breve descripción de los dibujos

La Fig. 1 es un diagrama sinóptico que representa los componentes implementados en el ordenador utilizados para llevar a cabo un diálogo entre al menos dos personas de diferentes lenguas.

La Fig. 2 es un diagrama sinóptico que representa los componentes del sistema de la figura 1 con mayor detalle;

La Fig. 3 es un diagrama de generación de etiquetas que representa la aplicación del proceso de generación de etiquetas semánticas a una sentencia de entrada;

La Fig. 4 es un diagrama sinóptico que representa los componentes del analizador sintáctico local de la presente invención;

La Fig. 5 es un diagrama de generación de etiquetas que representa la aplicación del proceso de generación de etiquetas semánticas a una sentencia de entrada;

La figura 6 es un diagrama de árbol de análisis sintáctico que representa un modelo de árbol de análisis sintáctico para una sentencia de entrada;

La Fig. 7 es un diagrama de árbol de análisis sintáctico que representa múltiples etiquetas que están siendo generadas como candidatas durante las fases intermedias de análisis sintáctico local;

La Fig. 8 es un diagrama de procesos que representa la salida a diversos intervalos de la presente invención;

La Fig. 9 es una pantalla de ordenador de una gramática a modo de ejemplo;

La Fig. 10 es una pantalla de ordenador de un conjunto de directorios de análisis sintáctico generado en una sentencia de entrada;

La Fig. 11 es un conjunto de directorios de análisis sintáctico gráfico que muestra una ilustración parcial en un formato gráfico del conjunto de directorios de análisis sintáctico de la Fig. 10;

La Fig. 12 es un diagrama de flujos que representa las fases de funcionamiento asociadas a la presente invención que se utilizan en una aplicación a modo de ejemplo; y

La Fig. 13 es un diagrama de flujos que representa las fases de funcionamiento asociadas al procesamiento de una sentencia de entrada que utiliza el analizador sintáctico local de la presente invención.

Descripción del modo de realización preferido

La Fig. 1 representa un sistema de procesamiento de lengua oral continuo de diálogo implementado en un ordenador para permitir que dos personas que hablen diferentes lenguas se comuniquen efectivamente. En el ejemplo no limitativo de la Fig. 1, un comprador 20 desea comunicarse con el vendedor 22 con el fin de comprar una mercancía. La dificultad se presenta porque el comprador 20 habla únicamente inglés mientras que el vendedor 22 solamente habla japonés.

El sistema de procesamiento de lengua oral de diálogo 24 de la presente invención utiliza un dispositivo de reconocimiento de la lengua oral 26 para transformar el inglés del mensaje oral del comprador 20 en una hilera de palabras. La hilera de palabras es leída como texto por un módulo 28 que comprende la lengua el cual extrae los componentes semánticos de la hilera.

Un conductor de diálogos 30 determina si el comprador 20 ha facilitado suficiente información basándose en los componentes semánticos determinados por el módulo 28 que entiende la lengua. Si ha facilitado una cantidad suficiente de información, el conductor de diálogos 30 permite que el módulo de traducción 32 traduzca el mensaje del comprador, a partir de unos componentes semánticos determinados, al japonés. El módulo de traducción 32 traduce los componentes semánticos al japonés y realiza la síntesis del mensaje por medio del módulo de respuesta 42 del ordenador con el fin de vocalizar la traducción al japonés para que el vendedor 22 la oiga.

El vendedor 22 utiliza entonces el sistema de procesamiento del lengua oral de diálogo 24 para contestar al comprador 20. Por consiguiente, un dispositivo de reconocimiento del japonés 36 y un módulo de comprensión del japonés 38 realizan, respectivamente, el reconocimiento del mensaje oral del vendedor 22, si el vendedor 22 hubiera facilitado información insuficiente.

Si el conductor de diálogos 30 determina que el comprador 20 ha facilitado información insuficiente, para lograr una meta predeterminada, (tal como la compra de una mercancía), el conductor de diálogos 30 dará instrucciones al módulo de respuesta 34 del ordenador para que vocalice una respuesta que pedirá al comprador 20 que facilite la
parte(s) de información que falta.

El modo de realización preferido es adecuado para su implementación en un dispositivo de ordenador portátil 43 en el cual el dispositivo es una herramienta que permite que el usuario formule su petición en la lengua de llegada. Dicho dispositivo manual portátil es apto para realizar una reserva de billetes/hotel en un país extranjero, comprar una mercancía, como ayuda para localizar un lugar o realizar cambio de divisas. El modo de realización preferido permite que el usuario cambie de una tarea a otra seleccionando en el dispositivo portátil la tarea que desee realizar. En un modo de realización alternativo, se puede integrar una tarjeta de memoria instantánea que sea única para cada tarea de modo que el usuario pueda cambiar de una tarea a otra.

La Fig. 2 representa con más detalles componentes del sistema de procesamiento de lengua oral de diálogo 24. En particular, el módulo de comprensión de la lengua oral 28 incluye un analizador sintáctico local 60 para identificar fragmentos relacionados con tareas importantes predeterminadas. El módulo de comprensión de la lengua oral 28 incluye asimismo un analizador sintáctico global 62 para extraer la semántica global de la demanda del
comprador.

El novedoso analizador sintáctico local 60 utiliza, en el modo de realización preferido, pequeñas y múltiples gramáticas junto con varias pasadas. y un único mecanismo de valoración para que facilite hipótesis de análisis sintáctico. Por ejemplo, el novedoso analizador sintáctico local reconoce con este planteamiento, frases, tales como fechas, nombres de ciudades y precios. Si una persona que habla dice "consígame un vuelo para Boston el 23 de enero que incluya servicio de comida", el analizador sintáctico local reconoce "Boston" como el nombre de una ciudad, "23 de enero" como una fecha; y "comida" como algo para comer. El analizador sintáctico global ensambla estos segmentos (nombre de ciudad, fecha, etc.) y reconoce que la persona que habla desea tomar un avión con ciertos requisitos.

El módulo de comprensión de lengua oral 28 incluye una base de datos de conocimientos 63 que codifica la semántica de un campo (es decir, la meta a alcanzar). En este sentido, la base de datos de conocimientos 63 es, de preferencia una base de datos de un campo específico tal como se representa con la referencia numérica 65 y es utilizada por el conductor de diálogos 30 para determinar si es posible una actuación particular relacionada para alcanzar una meta predeterminada,

El modo de realización preferido codifica la semántica a través de una estructura de datos de trama 64. La estructura de datos de trama 64 contiene ranuras vacías 66 que se llenan cuando la interpretación semántica del analizador sintáctico global 62 coincide con la trama. Por ejemplo, una estructura de datos de trama (cuyo campo sea la compra de mercancías) incluye una ranura vacía para especificar el precio que pide el comprador por la mercancía. Si el comprador 20 ha facilitado el precio, entonces esta ranura vacía se llena con esa información. No obstante, si dicha trama particular precisa ser llenada después de que el comprador haya facilitado inicialmente su petición, entonces el conductor de diálogos 30 da instrucciones al módulo de respuesta 34 del ordenador para que pida al comprador 20 el precio que desee.

De preferencia, el módulo de respuesta 34 del ordenador es multimodal ya que puede facilitar una respuesta a un usuario a través de la síntesis, texto o gráfico del discurso. Por ejemplo, si el usuario ha pedido direcciones para dirigirse a un lugar determinado, la respuesta del ordenador puede visualizar un mapa gráfico, siendo los términos del mapa traducidos por el módulo de traducción 40. Aun más, el módulo de respuesta 40 del ordenador puede dar direcciones orales al usuario a través del elemento de audio 68. No obstante, debe entenderse que la presente invención no se limita a tener los tres modos presentados ya que contiene uno o más de estos modos del módulo de respuesta del ordenador 34.

El elemento de audio 68 utiliza la semántica que ha sido reconocida para generar una sentencia en la lengua de llegada del comprador basándose en el concepto semántico. Este proceso de generación utiliza de preferencia un diccionario bilingüe de sentencias en la lengua de partida y en la de llegada. En un modo de realización alternativo, las sentencias son automáticamente generadas basándose en sentencias tipo que se han construido a partir de las ranuras disponibles en una trama de semántica.

La estructura de datos de trama 64 incluye de preferencia múltiples tramas las cuales cada una a su vez tienen múltiples ranuras. Una trama puede tener ranuras dirigidas a atributos de una camisa, tal como el color, tamaño y precio. Otra trama puede tener ranuras dirigidas a atributos asociados al lugar al cual debe ser enviada la camisa, tal como nombre, señas, número de teléfono.

La siguiente referencia describe analizadores sintácticos globales y tramas: R. Kuhn and R.D. Mori, Spoken dialogue with Computers (Chapter 14: Sentence Interpretation), Academic Press, Boston (1998).

El conductor de diálogos 30 utiliza el archivo de datos históricos de diálogo 67 para ayudar a llenar las ranuras vacías antes de pedir información al hablante. El archivo histórico de diálogo 67 contiene un registro de operaciones de la conversación que ha tenido lugar a través del dispositivo de la presente invención. Por ejemplo, si un hablante dice "consígame un vuelo para Boston el 23 de enero en el cual también se sirva comida", el conductor de diálogos 30 examina el archivo de datos históricos de diálogo 67 para comprobar que nombres de ciudades puede el hablante haber mencionado en un intercambio de diálogo anterior. Si el hablante ha mencionado que llamaba desde Detroit, entonces el conductor de diálogos 30 llena la ranura vacía de la ciudad de origen con el nombre de la ciudad "Detroit". Si se ha llenado un número suficiente de ranuras, entonces la presente invención pedirá al hablante que compruebe y confirme el plan de vuelo. De este modo, si resultara que alguna suposición que haya realizado el conductor de diálogos 30 mediante el uso del archivo de datos históricos de diálogo 67 fuera incorrecta, entonces el hablante puede corregir ese dato.

En otro modo de realización alternativo, el módulo de respuesta del ordenador 34 recibe instrucciones del conductor de diálogos 30 para que realice una búsqueda en la base de datos a distancia 70 de la tienda con el fin de proporcionar información al comprador 20 sobre la mercancía. En este ejemplo no limitativo, el conductor de diálogos 30 puede dar instrucciones al módulo de respuesta 34 del ordenador para que busque en la remota base de datos 70 la gama de precios de la mercancía en la cual está interesado el comprador 20. El modo de realización alternativo mejora sustancialmente la calidad del diálogo entre el comprador 20 y el vendedor 22 al facilitar información al comprador 20 de modo que el comprador 20 pueda formular una petición más informada al vendedor 22.

El conductor de diálogos 30 desempeña un papel integral en el diálogo al llevar a cabo un auténtico diálogo con el comprador 20 antes de que dicho comprador se ponga en contacto con el vendedor 22. Cuando desempeña dicho papel, el conductor de diálogos 30, utilizando las particularidades de la presente invención es capaz de conducir eficazmente el giro que tome un auténtico diálogo que parece humano. El conductor de diálogos 30 es capaz de tomar sus propias decisiones sobre que dirección va a tomar el diálogo con el comprador 20 a continuación y cuando iniciar cuando se tome una nueva dirección.

Por ejemplo, si el comprador 20 ha pedido cierto tipo de camisa dentro de una gama de precios especificada, el conductor de diálogos 30 determina si dicha camisa está disponible dentro de dicha gama de precios. Dicha determinación se adopta a través de la remota base de datos 70. En este ejemplo, el conductor de diálogos 30 determina que no se dispone de dicha camisa dentro de la gama de precios del comprador, no obstante, se dispone de otro tipo de camisa dentro de dicha gama de precios. Así, el conductor de diálogos 30 puede determinar si es factible una actuación o meta del comprador y puede ayudar a dicho comprador a que alcance dicha meta.

La presente invención analiza y extrae semánticamente temas importantes y significativos a partir de un texto de lenguaje natural estructurado que puede haberse generado como salida de un sistema de reconocimiento automático de lengua oral (ASR) utilizado por un sistema de comprensión de diálogo o de lengua oral. La presente invención traduce la entrada de texto en lengua natural a una nueva representación generando etiquetas bien estructuradas que contengan información y datos sobre el tema, y asociando cada etiqueta a los segmentos del texto de entrada que contiene la información de la etiqueta. En un modo de realización alternativo, se generan las etiquetas como lista aparte o como trama semántica.

La figura 3 representa un ejemplo no limitativo del papel del analizador sintáctico local de la presente invención en un sistema de comprensión de lengua oral tal como, en un especialista de reserva de viajes on line automático con un interface de lengua oral. Los siguientes temas pueden ser metas potenciales para la presente invención: horas de llegada y salida de vuelos, y fechas posiblemente con gamas y limitaciones; nombres de ciudades relacionadas con el vuelo; información sobre tarifa/coste con importes en divisas; clase de asientos; información sobre comidas; números de vuelo; nombres de las aerolíneas; escalas del vuelo, etc.

El ejemplo incluye una posible sentencia de entrada 100 tal como se genera de un sistema de reconocimiento continuo de lengua oral y que contenga el reconocimiento de errores. La salida correspondiente 102 es la posible interpretación por la presente invención donde se han generado tres etiquetas, una que corresponde a los nombres de ciudades 104, una a la hora 106, y una a la fecha 108.

La capacidad es una característica de la presente invención ya que la entrada puede contener sentencias gramaticalmente incorrectas en inglés, tal como el ejemplo que antecede, debido a los siguientes motivos: la entrada en el dispositivo de reconocimiento es simple, al estilo de un diálogo, con lengua natural y puede contener sentencias incompletas, frases parciales, el reconocimiento de la lengua oral puede introducir inserciones, omisiones o errores de reconocimiento incluso cuando se considere correcta la lengua oral de entrada. La presente invención trata eficazmente todo tipo de entradas y extrae tanta información como sea posible.

La figura 4 representa los diversos componentes del analizador sintáctico local novedoso 60 de la presente invención. La presente invención, de preferencia utiliza técnicas de análisis sintáctico generalizado en un planteamiento de múltiples pasadas como computación de punto de referencia. Se describe cada tema como un contexto sensitivo LR gramatical (izquierda-derecha y derivación máxima a la derecha), que permite ambigüedades. Las siguientes son referencias relacionadas con las gramáticas LR sensibles al contexto: A.Aho y J.D. Ullman. Principles of Compiler Design, Addison Wesley Publishing Co., Reading, Massachusetts (1977); y N. Tomita, Generalized LR Parsing
Kluwer Academic Publishers, Boston, Massachusetts (1991).

En cada pasada de la computación, se utiliza un algoritmo de análisis sintáctico generalizado para generar de preferencia cualquier árbol de análisis sintáctico (tanto completo como parcial) independientemente para cada tema objetivo. Cada pasada genera potencialmente varios árboles de análisis sintáctico alternativo, representando cada árbol de análisis sintáctico una posible interpretación diferente de un tema particular. Las múltiples pasadas a través de vías de preferencia paralelas e independientes dan por resultado una eliminación sustancial de ambigüedades y de solapamiento de diferentes temas. La presente invención es un modo sistemático de valoración de todos los posibles árboles de análisis sintáctico posibles de modo que se seleccionen los mejores candidatos N utilizando la información contextual presente en el sistema.

El sistema de análisis sintáctico local 60 se realiza en tres fases: análisis lexical 120; generación de conjunto de árboles de análisis sintáctico paralelos para cada tema (por ejemplo, los generadores 130 y 132); y análisis y síntesis de los componentes de análisis sintáctico tal como se representa generalmente con la referencia numérica 134. El modo de realización preferido representa la estructura para las entradas y salidas del analizador sintáctico local en el Anexo A que sigue.

Análisis lexical

Un hablante pronuncia una frase que es reconocida por un dispositivo de reconocimiento automático 117 de lengua oral que genera una sentencia de entrada 118. La fase de análisis lexical 120 identifica los temas y genera etiquetas de éstos (que no requieren gramáticas extensas) en la sentencia de entrada 118 utilizando filtros lexicales 126 y 128. Estos incluyen, por ejemplo, nombres de ciudades; clases de asientos; información sobre comidas; nombres de aerolíneas; e información sobre escalas. A este nivel, basta normalmente con un escaneo de expresión ordinaria de la sentencia de entrada 118 utilizando las palabras clave que figuran en las etiquetas a modo de ejemplo mencionadas. Es igualmente en esta fase que se realiza el etiquetado de palabras en la sentencia de entrada que no forman parte del léxico de la gramática particular. Se indican estas palabras utilizando una etiqueta X de modo que dichas palabras sonoras sean sustituidas por la letra "X".

Generación de conjuntos de árboles de directorios de análisis sintáctico paralelos

La presente invención utiliza una estrategia de análisis sintáctico general de alto nivel para describir y analizar sintácticamente cada tema por separado y genera etiquetas y levanta planos de los mismos en el flujo de entrada. Debido a la naturaleza de texto de entrada 118 sin estructurar, cada analizador sintáctico de temas individuales acepta de preferencia un lenguaje tan amplio como sea posible, descartando todo excepto las palabras importantes, que traten de errores de inserción o de supresión. El analizador sintáctico de cada tema implica la creación de reglas gramaticales sensibles al contexto que utilicen un lenguaje de especificación de metanivel, muy similar al que se utiliza en el análisis sintáctico LR. Los ejemplos de gramáticas incluyen la gramática A 140 y la gramática B 142. Utilizando el planteamiento de la presente invención, se describen las gramáticas de temas 140 y 142 como si fueran una gramática tipo LR, que contenga redundancias sin eliminar desviaciones y reducir conflictos. El resultado del análisis sintáctico de una sentencia de entrada se compone de todos los posibles análisis sintácticos posibles basados en las especificaciones gramaticales.

Los generadores 130 y 132 generan conjuntos de árboles de directorios de análisis sintáctico 150 y 152 para sus temas. Se realiza la generación de etiquetas sintetizando la información real encontrada en el árbol de análisis sintáctico durante dicho análisis sintáctico.

En la figura 4 se representa la generación de etiquetas mediante generadores 160 y 162 de etiquetas y de valoraciones que generen, respectivamente etiquetas 164 y 166. Cada etiqueta identificada transporta igualmente información sobre qué conjunto de palabras de entrada en la sentencia de entrada están cubiertas por la etiqueta. A continuación, la etiqueta sustituye su conjunto cubierto. En el modo de realización preferido, la información del contexto 167 se utiliza para la generación de etiquetas y valoraciones, tales como mediante los generadores 160 y 162. Se utiliza la información de contexto 167 en la heurística de valoración para ajustar las ponderaciones asociadas a una técnica del factor de valoración heurística que se describe a continuación. La información de contexto 167, de preferencia incluye el vector 168 de aceptación de la palabra y las ponderaciones 169 de contexto de diálogo 169. No obstante, debe quedar entendido que la presente invención no se limita al uso del vector de aceptación de palabra 168 y de las ponderaciones de contexto de diálogo 169 sino que incluye igualmente el uso de uno excluyendo al otro, al igual que la no utilización de la información de contexto 167 en la presente invención.

El bloque 117 del proceso de reconocimiento automático de lengua oral genera el vector de aceptación de palabra 168 que indica lo bien que han sido reconocidas las palabras en la sentencia de entrada 118. El conductor de diálogos 30 genera ponderaciones 169 de contexto del diálogo mediante la determinación del estado del diálogo. Por ejemplo, el conductor de diálogos 30 pregunta a un usuario acerca de un tema en particular, tal como, que hora de salida es la mejor. Debido a esta pregunta, el conductor de diálogos 30 determina que el estado del diálogo está orientado sobre la hora. El conductor de diálogos 30 facilita ponderaciones 169 de contexto del diálogo con el fin de informar a los procesos adecuados para que ponderen con mayor eficacia las palabras detectadas orientadas sobre la hora.

Síntesis de los componentes de la etiqueta

El analizador sintáctico localizador de temas de la fase anterior genera una cantidad importante de información que necesita que sea analizada y combinada en conjunto para que forme la salida final del analizador sintáctico local. La presente invención es, de preferencia tan "agresiva" como sea posible al localizar cada tema que dé por resultado la generación de múltiples candidatas de etiquetas. Asimismo, en presencia de números o de algunas palabras clave, tales como "entre", "antes", "y", "o", "aproximadamente", etc. y, en especial, si dichas palabras han sido introducidas o abandonadas debido a errores de reconocimiento, es posible construir muchas candidatas de etiquetas alternativas. Por ejemplo, la sentencia de entrada 220 de la figura 5 pudiera haber sido el resultado de inserción o supresión de errores. La fase de combinación de la presente invención determina que etiqueta forma una interpretación con mayor significado de la entrada. La presente invención define la heurística y realiza una selección basada en ésta utilizando una entrada de selección de mejores candidatos N. Cada etiqueta generada corresponde a un juego de palabras en la hilera de palabras de entrada llamado juego de cobertura de etiqueta.

Se utiliza una heurística que tiene en cuenta los juegos de cobertura de las etiquetas utilizadas para generar una valoración. La valoración depende a grandes rasgos del tamaño del juego de cobertura, el tamaño en número de palabras de los espacios entre los artículos cubiertos y las ponderaciones asignadas a la presencia de algunas palabras clave. En el modo de realización preferido, se utilizan el vector de aceptación derivado de ASR y la información de contexto de diálogo para asignar prioridad a las tarjetas. Por ejemplo, aplicando el análisis sintáctico de etiquetas del coste, en primer lugar se retiran los números potencialmente relacionados con el coste que sean los más fáciles de identificar únicamente del flujo de entrada, y se dejan un menor número para crear ambigüedades con otras etiquetas. De preferencia, se utiliza la información de contexto del diálogo para ajustar las prioridades.

Selección de las mejores candidatas N

Con referencia de nuevo a la figura 4, al final de cada pasada, un procesador de mejoras N 170, selecciona las mejores candidatas N basándose en las valoraciones asociadas a las etiquetas y genera las etiquetas de temas, representando cada una de las cuales la información encontrada en el árbol de análisis sintáctico correspondiente. En cuanto se hayan descubierto de este modo los temas, se pueden sustituir las palabras correspondientes de entrada con la información de la etiqueta. Esta transformación de sustitución elimina las palabras correspondientes del texto de entrada en cuestión. La salida 180 de cada pasada es retroalimentada a la siguiente pasada como nueva entrada, ya que las sustituciones pueden ayudar a la eliminación de algunas ambigüedades entre gramáticas competidoras o ayudar a generar mejores árboles de análisis sintáctico al filtrar símbolos que se solapan.

Cesa la computación cuando ya no se generan etiquetas adicionales en la última pasada. La salida de la pasada final se vuelve la salida del analizador sintáctico local al analizador sintáctico global 62. Como cada fase solamente puede reducir el número de palabras en su entrada y que la extensión del texto de entrada es finita, el número de pasadas en la computación del punto de referencia está linealmente limitado por el tamaño de su entrada.

Se utilizan los siguientes factores novedosos de valoración para calificar los árboles de análisis sintáctico alternativos en los siguientes atributos de un árbol de análisis sintáctico:

\bullet Número de símbolos terminales

\bullet Números de símbolos no terminales

\bullet Profundidad del árbol de análisis sintáctico

\bullet Tamaños de los espacios entre los símbolos terminales

\bullet Mediciones de aceptación ASR asociadas a cada símbolo terminal

\bullet Ponderaciones ajustables al contexto asociadas a cada símbolo terminal y no terminal.

Cada vía corresponde de preferencia a un tema aparte que se puede desarrollar independientemente, que funciona en una pequeña cantidad de datos, de un modo informáticamente económico. La arquitectura de la presente invención es flexible y modular, de este modo la incorporación de vías y gramáticas adicionales, para nuevos temas, o el cambio de las heurísticas para temas particulares es sencillo, lo que permite de este modo desarrollar componentes reutilizables que puedan ser fácilmente compartidos por diferentes sistemas.

La figura 6 presenta una ilustración no limitativa de un árbol con relación a una descripción de la heurística de valoración de etiquetas. La figura 6 representa una hilera de entrada 250 y un árbol de análisis sintáctico 252 de muestra. El árbol de análisis sintáctico con raíces tales como St 254 identifica la subsecuencia {w3, w4, w7, w8, w10}, como un posible análisis sintáctico. Este análisis sintáctico tiene 5 símbolos terminales {w3, w4, w7, w8, w10}, con un espacios entre w4 y w7 (tamaño=2) y entre w8 y w10 (tamaño=1) o un tamaño de espacio de separación total 3. El árbol del analizador sintético 252 tiene cuatro no terminales: St 254, NT_{a} 256 NT_{b} 258 y NT_{c} 260. La profundidad del árbol de analizador sintético 252 es tres debido a la forma transversal de St 254 a NT_{f} 258 a NT_{a} 256
a W3.

Una valoración posible de este analizador sintáctico es:

: # Terminales*10 - (Tamaño de espacio*1,5)-Profundidad

: +# No terminales = 50-4,5-3+4=46,5

La presente invención incluye asimismo la utilización de ponderaciones no uniformes que puedan asignarse a los puntos nodales terminales y no terminales. Igualmente, las mediciones de aceptación se utilizan de preferencia para ajustar las ponderaciones de uno o más factores de valoración. Por ejemplo, se puede utilizar un algoritmo de relación de probabilidades para computar las valoraciones de aceptación (ver, por ejemplo, la siguiente referencia: R. Sukkar and Chin-Hui Lee, Vocabulary Independent Discriminative Utterance Verification for Non-Key Word Rejection in Sub-Word Based Speech Recognition, IEEE Transactions on Speech and Audio Processing, Vol. 4, Nº 6, pages
420-29 (1996).

La figura 7 presenta otra ilustración no limitativa de un árbol en relación con una descripción de la heurística de valoración. Se representan cinco árboles de análisis sintáctico con las referencias numéricas 270, 272, 274, 276 y 278. Con relación a los cinco posibles árboles de análisis sintáctico y etiquetas correspondientes representadas en la figura 7, se utilizan los siguientes planteamientos:

Nº	Etiqueta	Nº palabras	Nº NT	Profundidad	Espacio	Valoración	Nivel
1	Hora[> 19:00]	3	2	2	7	30+2-2-10,5=19,5	4
2	Hora[>19:10]	4	3	3	10	40+3.3-15=25,0	2
3	Hora[> 7:00]	2	1	1	1	20+1-1-1,5=18,5	5
4	Hora[>7:10]	3	2	2	4	30+2-2-6=20,0	3
5	Fecha[\sim\sim 6/10]	3	2	2	0	30+2-2-0=30	1

El sistema basado en las valoraciones da como resultado que la Etiqueta nº 5 sea elegida como mejor candidata para los objetivos de Fecha, esta selección elimina las Tarjetas nº 2 y nº 4, para ser tomadas posteriormente en consideración debido al solape con el léxico de la Tarjeta nº 1. Esto deja al analizador sintáctico para la etiqueta nº 1 como el mejor analizador sintáctico siguiente, de modo que se seleccionan las etiquetas nº 5 y nº 1.

La presente invención utiliza pasadas múltiples tal como se ilustra en la figura 8. Con la referencia numérica 290, se designan salidas de la presente invención en diferentes pasadas en el procesamiento de la sentencia de entrada 294. El conjunto de árboles de directorio de analizador sintáctico 296 se genera durante la primera pasada y ayuda a generar la primera salida de pasada 298. La primera salida de pasada 298 tiene una etiqueta de hora 300 asociada con las palabras de la sentencia de entrada 294 "cinco horas treinta minutos de la tarde").

La salida de la primera pasada 298 se utiliza como entrada para un procesamiento de segunda pasada de sentencia de entrada 294. Se genera el conjunto de árboles de directorios de análisis sintáctico de la presente invención durante el procesamiento de la segunda pasada y da por resultado que se genere una tarjeta de coste 304. En un modo de realización de la presente invención, la razón por la cual el procesamiento de la primera pasada no realiza el análisis sintáctico de la parte de cien dólares de la sentencia de entrada 294 se debe a la selección de la mejor tarjeta N y del bloque de combinación 170 de la figura 4. Durante la primera fase, debido al filtrado lexical y al análisis sintáctico agresivo, el mejor coste según el análisis sintáctico es "quinientos dólares", y la mejor hora según el análisis sintáctico es el conjunto de árboles de directorios de análisis sintáctico 296 para "después de las cinco horas treinta minutos de la tarde". Como se comparte la palabra "cinco". el proceso de selección invalida el mejor análisis sintáctico de coste y genera la etiqueta de hora para "cinco horas y treinta minutos de la tarde". No obstante, el final de la segunda pasada da por resultado una hilera filtrada 308 que genera con éxito la etiqueta de coste 304.

Gramática

En el modo de realización preferido, cada tema está expresado como una gramática LR(0) generalizada que utiliza la siguiente sintaxis:

TemaGramática = Regla+,

: Regla ="*" | D "." |

\hskip2cm

| D "." |,

: | D "=" | D* (" | " | D*)* "." |

: | D "," | D+ ".".

La sintaxis gramatical indica de modo informal que la gramática está expresada como una serie de reglas gramaticales, donde cada regla gramatical describe una regla de sustitución sensible al contexto para un símbolo gramatical terminal o no terminal.

La figura 9 representa una gramática a modo de ejemplo para analizar sintácticamente el coste en dólares o en yenes. La primera regla <*COSTE.> 320 declara que la raíz del símbolo no terminal es COSTE.

Cada regla subsiguiente de la forma <A=XYZ.> especifica un símbolo no terminal, A, y una regla de sustitución donde se puede sustituir el símbolo A en una derivación más hacia la derecha por los tres símbolos gramaticales de la derecha, X Y Z, siendo cada uno de los cuales un símbolo terminal o no terminal. Por ejemplo la regla 324:

C_Gen= C_Num |

\hskip1cm

C_NumC_Divisa

define C_Gen como un no terminal que puede reducirse con un número (C_Num) o un número seguido de un símbolo de divisa (C_Divisa). Los símbolos terminales se definen utilizando el <t:s1 s2.>. Por ejemplo, la regla 328:

: c_yen: yen yenes

define c-yen como un símbolo terminal que combina con el "yen" o "yenes" como próximo testigo en el flujo de entrada.

La gramática de coste combina todas las palabras que no están definidas como terminales según la regla X. Se utiliza un filtro lexical para convertir todas las palabras de entrada que no sean importantes para las reglas de COSTE con la palabra "x". De conformidad con esto, la regla X combina con una o más "x" consecutivas.

En la figura 10 se representa un ejemplo no limitativo de análisis sintáctico de la sentencia 400: "vuelos de menos de quinientos dólares". Cada línea representa la aplicación de una regla gramatical, por ejemplo con la referencia numérica 404:

: C_Dieces_2_3=c_núm_2_3

representa un punto nodular del conjunto de árboles de directorios de análisis sintáctico donde el símbolo gramatical C_Dieces cubre la gama [2-3], es decir, la palabra "cinco". De modo similar, la línea 408:

: c_calificador_1_2: "menos",

representa el símbolo terminal c_calificador que combina la gama [1-2], es decir la palabra "menos". La regla 412 de símbolo de raíz, COST_0_5 cubre la totalidad de la gama que señala un análisis sintáctico con éxito que da por resultado un único análisis sintáctico para la totalidad de la entrada. Se representan otras reglas de símbolos de raíz que poseen sus propios árboles de análisis sintáctico ilustrado en la figura 10. Por ejemplo, en la figura 10 se representa un árbol de análisis sintáctico para el símbolo de raíz 437. Si se utilizan múltiples análisis sintácticos, una regla contiene las alternativas representadas con "I". Tiene que observarse igualmente en un modo no limitativo como la primera palabra "vuelos" es pasada por alto por la regla X.

La figura 11 ilustra un árbol gráfico parcial de los datos de la figura 10. Por ejemplo, la regla del símbolo de raíz está designado con la referencia numérica 412 en la figura 11.

Generación de etiquetas

El método de generación de etiquetas preferido utiliza un conjunto de árboles de directorio de análisis sintáctico y genera las etiquetas tal como se indica en las especificaciones de salida. El algoritmo de generación de etiquetas (llamado reducir) utiliza una síntesis y planteamiento de herencia con el fin de construir cada etiqueta utilizando la información que se encuentra en el árbol de análisis sintáctico (nota: el uso del nombre "reducir" en la presente es separado y diferente del término reducir (como en las actuaciones de desviación/reducción) utilizado en la literatura sobre análisis sintáctico LR). El algoritmo reducir utilizado por el método de generación de etiqueta funciona como sigue:

Entrada: nódulo: \alpha_i_j (cualquier nódulo en el conjunto de árboles de directorio de análisis sintáctico)

1.: Si \alpha_i_j es una regla de terminal, volver al lado derecho (que es un testigo en el flujo de entrada en la posición i ) sin cambios o bien asignándole un significado - por ejemplo aplicando una conversión de ascii a numérico para un dígito, etc.)

2.: retirar todas las reglas X del lado derecho, obteniendo una regla de la siguiente forma

\alpha- i _j= \beta_{0}-i_{0}_j_{0}_\beta_{/}-i_{/}_j_{/}-\beta_{k}-i_{k}-j_{k'}.

: donde \beta \neq X.

3.: Evaluar nuevos atributos, \alpha_i_j. mediante concatenación de resultados de reducir los términos del lado derecho, es decir:

\alpha_i_j. \alpha = \Sigma_{i=o..k} reducir (\beta_{i}_i_{i}_j_{i)}

: donde \Sigma es un operador de concatenación.

4.: Heredar todos los atributos de cada término reducido en el lado derecho,

: por cada término, \beta_{i}_i_{i}_j_{i} en el lado derecho

: por cada atributo, \Phi E \beta_{i}_i_{i_ji}.AttrList

: añadir \Phi a la lista de atributos de nódulo:

\alpha_i_j.AttrList \cup = \Phi

: heredar el valor del atributo:

\alpha_i_J.\Phi = \beta_{i}_i_{i}_j_{i\cdot} \Phi

5.: Si fuera necesario, generar nuevos atributos para \alpha_i_j utilizando posiblemente los atributos heredados y computados. Todos los nuevos atributos son heredados por los nódulos de origen, hacia arriba en dirección al nódulo raíz. Este es el mecanismo general por el cual se pueden construir e inicializar las estructuras de las etiquetas.

\newpage

La figura 12 ilustra el funcionamiento de la presente invención en una aplicación a modo de ejemplo de un comprador que trata de comprar una camisa en particular mientras habla en una primera lengua a un vendedor que habla en una segunda lengua. El bloque de indicación de puesta en marcha 500 indica que el bloque de proceso 504 está listo para ser procesado. En el bloque de proceso 504, el comprador habla en una primera lengua sobre una camisa en particular. En el bloque de proceso 508, la lengua oral del comprador es reconocida y se determinan partes predeterminadas de la lengua del comprador a través el analizador sintáctico local de la presente invención en el bloque de proceso 512.

El bloque de proceso 516 determina las porciones semánticas de lo que dice el comprador a través de un analizador sintáctico global. El bloque de proceso 520 traduce las partes semánticas determinadas a una segunda lengua que es entonces vocalizada en el bloque de proceso 524. En el bloque de proceso 528, cualquier respuesta del vendedor o del comprador es procesada según la presente invención. Termina el procesamiento en el bloque de proceso
532.

La figura 13 ilustra las fases operacionales asociadas a la arquitectura de múltiples pasadas del analizador sintáctico local de la presente invención. El bloque de indicación de puesta en marcha 550 indica que el bloque de proceso 554 está siendo ejecutado en el cual se recibe una sentencia de entrada. El bloque de proceso 567 realiza un reconocimiento automático de lengua oral de la sentencia de entrada.

El bloque de iteración (repetición) 566 realiza las siguientes fases para cada gramática. De preferencia, el procesamiento de cada gramática se realiza sustancialmente al mismo tiempo que el procesamiento de la segunda gramática. El bloque de proceso 570 utiliza un filtro lexical en la sentencia de entrada utilizando la gramática seleccionada por el bloque de iteración 566.

El bloque de proceso 574 genera un conjunto de árboles de directorio de análisis sintáctico utilizando la gramática seleccionada y el bloque de proceso 578 genera etiquetas para la sentencia de entrada utilizando vectores de aceptación del bloque de proceso 557 y utilizando ponderaciones de contexto del diálogo del bloque de proceso 599 (si están disponibles, procedentes de procesamientos anteriores del conductor de diálogos). Debe quedar entendido, no obstante, que la presente invención no se limita al uso de datos relacionados con el contexto en esta fase al procesar sino que incluye también el uso de información sin contexto en esta fase.

El bloque de proceso 582 genera una valoración para las etiquetas que se generaron en el bloque de proceso 578. El bloque de proceso 586 selecciona las mejores etiquetas N basándose en la valoración generada por el bloque de proceso 582. El bloque de proceso 590 genera la salida de etiqueta y el bloque de terminación de iteración 594 repite el proceso hasta que cada gramática haya sido utilizada.

Si cada gramática ha sido utilizada para una pasada en particular, entonces el bloque de decisiones 598 pregunta si se ha generado alguna etiqueta adicional. Si se han generado etiquetas adicionales, entonces continúa el procesamiento en el bloque de iteración 566. Si no se hubieran generado etiquetas adicionales, entonces continúa el procesamiento en el bloque de proceso 599. En el bloque de proceso 599, se realiza un análisis sintáctico global y a continuación se procesa el conductor de diálogos en el cual se determinan las ponderaciones del contexto que se pudieran utilizar, si fuera necesario, en el siguiente procesamiento de una sentencia de entrada. El procesamiento termina en el bloque terminal 602.

Aunque se ha descrito la invención en su modo de realización preferido, queda entendido que existen numerosas aplicaciones e implementaciones para la presente invención. Por consiguiente, la invención es capaz de ser modificada y cambiada sin salirse del espíritu de la invención tal como se describe en las reivindicaciones adjuntas.

Exhibición A

Entrada: La hilera de texto ascii, s, que contiene una secuencia de palabras w_{ji}, separadas por espacios en blanco, sin ningún signo de puntuación. Las palabras están formadas por letras minúsculas del alfabeto inglés y solamente de una naturaleza (nota: sin dígitos).

donde

: s = W_{0} W_{1}...W_{n}

: W = [a-z']+

Salida: Hilera de texto ascii, salida, que contiene una secuencia de palabras o etiquetas separadas por espacios en blanco, sin signos de puntuación.

14

15

16

17

Claims

1. Método de análisis sintáctico de lengua oral implementada en un ordenador para procesar una frase de entrada (118), que comprende las fases de

a.: facilitar una pluralidad de gramáticas (140, 142) indicativas de temas predeterminados;

b.: generar una pluralidad de conjuntos de árboles de directorios de análisis sintáctico (150, 152) relacionada con dicha frase de entrada (118) utilizando dichas gramáticas;

c.: asociar etiquetas (164, 166) con palabras de dicha frase de entrada (118) utilizando dichos conjuntos de árboles de directorios de análisis sintáctico generados (150, 152); y

d.: generar valoraciones de dichas etiquetas (164, 166) basadas en los atributos de dichos conjuntos de árboles de directorios de análisis sintáctico (150, 152); y

e.: seleccionar etiquetas (164, 166) para su uso como representación analizada sintácticamente (180) de dicha frase de entrada (118) basándose en dicha valoración generada.

2. El método de análisis sintáctico de la lengua oral de la reivindicación comprendiendo asimismo la siguiente fase:

: realizar dicha fase (b) con una pluralidad de iteraciones de modo que cada iteración produzca conjuntos de árboles de directorios de análisis sintáctico alternados.

3. El método de análisis sintáctico de la lengua oral de la reivindicación 1 en el cual dicha fase (b) se realiza de forma sustancialmente simultánea para cada una de dichas gramáticas.

4. El método de análisis sintáctico de la lengua oral de la reivindicación 3 que comprende asimismo la fase de:

: realizar dicha fase (b) con una pluralidad de iteraciones en las cuales cada iteración produce conjuntos de árboles de directorios de análisis sintáctico alternados con relación a cada una de dichas gramáticas.

5. El método de análisis sintáctico de la lengua oral de la reivindicación 1 que comprende asimismo la fase de:

: generar valoraciones de dichas etiquetas basándose en factores seleccionados del grupo que consiste en el número de terminales, tamaño del espacio de separación, profundidad, número de no terminales y combinaciones de los mismos.

6. El método de análisis sintáctico de la lengua oral de la reivindicación 5 que comprende asimismo la fase de:

: ponderar al menos dos de dichos factores de modo diferente.

7. El método de análisis sintáctico de la lengua oral de la reivindicación 6 que comprende adicionalmente la fase de:

: utilizar la información del contexto para ponderar al menos dos de dichos factores de modo diferente.

8. El método de análisis sintáctico de la reivindicación 7 que comprende asimismo las fases de:

: generar un vector de aceptación de palabra para dicha frase de entrada sustancialmente durante el reconocimiento de la lengua oral de dicha frase de entrada; y

: ponderar al menos dos de dichos factores de modo diferente basándose en dicho vector de aceptación de palabra generado.

9. El método de análisis sintáctico de la lengua oral de la reivindicación 7 u 8 que comprende asimismo las fases de:

: generar una petición de información relacionada con un tema predeterminado;

: generar ponderaciones de contexto de diálogo basándose en dicha petición de información generada; y

: ponderar al menos dos de dichos factores basados de modo diferente en dichas ponderaciones de contexto de diálogo generado.

10. El método de análisis sintáctico de la lengua oral de la reivindicación 7 que comprende asimismo las fases de:

: utilizar dicho procesador de información de contexto sustancialmente de modo paralelo para realizar dicha fase (b).

11. El método de análisis sintáctico de la lengua oral de la reivindicación 1 que comprende asimismo las fases de:

: generar valoraciones de dichas etiquetas; y

: seleccionar las mejores etiquetas N para su uso en dicha representación analizada sintácticamente basándose en dichas valoraciones generadas.

12. El método de análisis sintáctico de la lengua oral de la reivindicación 11 que comprende asimismo las fases de:

: realizar dichas fases (b) y (c) con una pluralidad de iteraciones; y

: utilizar dichas mejores etiquetas N de una primera iteración como entrada relacionada con el procesamiento de dichas fases (b) y (c) de una segunda iteración.

13. El método de análisis sintáctico de la lengua oral de la reivindicación 1 en el cual dichas etiquetas son indicativas de dichos temas de dichas gramáticas.

14. El método de análisis sintáctico de la lengua oral de la reivindicación 1 en la cual dicha frase de entrada es gramaticalmente incorrecta con relación al menos a una porción de dicha frase de entrada, comprendiendo asimismo dicho método las fases de:

: generar una pluralidad de conjuntos de árboles de directorios de análisis sintáctico relacionados con dicha frase de entrada gramaticalmente incorrecta utilizando dichas gramáticas;

: asociar etiquetas con palabras de dicha frase de entrada gramaticalmente incorrecta utilizando dichos conjuntos de árboles de directorios de análisis sintáctico generados; y

: utilizar dichas etiquetas asociadas a dichas palabras como representación analizada sintácticamente de dicha frase de entrada gramaticalmente incorrecta.

15. El método de análisis sintáctico de la lengua oral de la reivindicación 1 en el cual dichas gramáticas están basadas en gramáticas sensibles al contexto de izquierda a derecha.

16. El método de análisis sintáctico de la reivindicación 1 en el cual dichas gramáticas están basadas en gramáticas sensibles al contexto de izquierda a derecha y que contenga ambigüedades.

17. El método de análisis sintáctico de la reivindicación 1 que comprende asimismo las fases de:

: filtrar dicha frase de entrada a través de los filtros lexicales; y

: generar dicha pluralidad de conjuntos de árboles de directorios de análisis sintáctico basándose en dicha frase de entrada filtrada.

18. El método de análisis sintáctico de la lengua oral de la reivindicación 1 que comprende asimismo la fase de:

: extraer componentes semánticos de dicha frase de entrada basándose en dichas etiquetas que están asociadas a dichas palabras.

19. El método de análisis sintáctico de la lengua oral de la reivindicación 1 que comprende asimismo la fase de:

: facilitar un analizador sintáctico global para extraer dichos componentes semánticos de dicha frase de entrada basándose en dichas etiquetas que están asociadas a dichas palabras.

20. El método de análisis sintáctico de la lengua oral de la reivindicación 19 que comprende asimismo la fase de:

: conducir, basándose en dichos componentes semánticos extraídos, el intercambio del diálogo entre un dispositivo de reconocimiento de la lengua oral y un usuario.

21. El método de análisis sintáctico de la lengua oral de la reivindicación 19 que comprende asimismo la fase de:

: conducción basándose en dichos componentes semánticos extraídos del intercambio de diálogo entre dos usuarios que hablan diferentes lenguas.

22. Un aparato de análisis sintáctico de la lengua oral implementado en un ordenador para procesar una frase de entrada, que comprende:

: medios para facilitar una pluralidad de gramáticas (140, 142) indicativas de los temas predeterminados;

: un generador de conjunto de árboles de directorios de análisis sintáctico para generar una pluralidad de conjuntos de árboles de directorios de análisis sintáctico (150, 152) relacionados con dicha frase de entrada (118) utilizando dichas gramáticas;

: un generador de etiquetas para asociar etiquetas (164, 166) a palabras en dicha frase de entrada (118) utilizando dichos conjuntos de árboles de directorios de análisis sintáctico generados (150, 152);

: un generador de valoración de etiquetas para generar valoraciones de dichas etiquetas (164, 166) basándose en los atributos de dichos conjuntos de árboles de análisis sintáctico; y

: un seleccionador de etiquetas para su uso como representación analizada sintácticamente (180) de dicha frase de entrada (118) basándose en dichas valoraciones generadas.

23. El aparato de análisis sintáctico de la lengua oral de la reivindicación 22 en el cual dicho generador de conjunto de árboles de directorios de análisis sintáctico es ejecutado con una pluralidad de iteraciones de modo que cada iteración produzca conjuntos de árboles de directorio de análisis sintáctico alternados.

24. El aparato de análisis sintáctico de la lengua hablada de la reivindicación 22 en la cual en dicho generador de conjuntos de árboles de directorio de análisis sintáctico se ejecuta una pluralidad de iteraciones de modo que cada iteración produzca conjuntos de árboles de análisis sintáctico alternados con relación a cada una de dichas gramáticas.

25. El aparato de análisis sintáctico de la lengua oral de la reivindicación 22 en el cual dicho generador de valoración de etiquetas genera valoraciones para dichas etiquetas basándose en los factores basados en la valoración seleccionados del grupo que consiste en numerosos terminales, tamaño de espacio de separación, profundidad, número de no terminales y combinaciones de los mismos.

26. El aparato de análisis sintáctico de la lengua oral de la reivindicación 25 en el cual dicho generador de valoración de etiquetas pondera al menos dos de dichos factores de modo diferente.

27. El aparato de análisis sintáctico de la lengua oral de la reivindicación 26 en el cual el generador de valoraciones de etiquetas utiliza información del contexto para ponderar al menos dos de dichos factores de modo diferente.

28. El aparato de análisis sintáctico de la lengua oral de la reivindicación 27 que comprende asimismo:

: un módulo de reconocimiento de la lengua hablada para realizar el reconocimiento de la lengua hablada de dicha frase de entrada y para generar un vector de aceptación de palabra sustancialmente para dicha frase de entrada.

: ponderando dicho generador de valoración de etiquetas al menos dos de dichos factores de modo diferente basándose en dicho vector de aceptación de palabra generado.

29. El aparato de análisis sintáctico de la lengua hablada de la reivindicación 27 ó 28 que comporta asimismo:

: un conductor de diálogos para generar una petición de información relacionada con un tema predeterminado, generando dicho conductor de diálogos ponderaciones de un contexto del diálogo basándose en dicha petición de información generada, ponderando dicho generador de valoración de etiquetas al menos dos de dichos factores de modo diferente basándose en dichas ponderaciones del contexto del diálogo generadas.

30. El aparato de análisis sintáctico de la lengua oral de la reivindicación 22 que comprende asimismo:

: un generador de valoración de etiquetas para generar valoraciones de dichas tarjetas; y

: un selector de etiquetas para seleccionar las mejores etiquetas N para su uso en dicha representación analizada sintácticamente basándose en dichas valoraciones generadas.

31. El aparato de análisis sintáctico de la lengua oral de la reivindicación 30 en el cual en dicho generador de conjuntos de árboles de directorio de análisis sintáctico y generador de etiquetas se ejecuta una pluralidad de iteraciones, utilizando dichas mejores etiquetas N seleccionadas en una primera iteración como entrada a dicho generador de conjunto de árboles de directorio de análisis sintáctico y a dicho generador de etiquetas durante una segunda iteración.

32. El aparato de análisis sintáctico de lengua oral de la reivindicación 22 en el cual dichas etiquetas son indicativas de dichos temas de dichas gramáticas.

33. El aparato de análisis sintáctico de la lengua oral de la reivindicación 22 en el cual dicha frase de entrada es gramaticalmente incorrecta con relación al menos a una porción de dicha frase de entrada, generando dichos generadores de conjuntos de árboles de directorios de análisis sintáctico una pluralidad de conjuntos de árboles de directorio de análisis sintáctico relacionados con dicha frase de entrada gramaticalmente incorrecta utilizando dichas gramáticas, asociando dicho generador de etiquetas, etiquetas con palabras de dicha frase de entrada gramáticamente incorrecta utilizando dichos conjuntos de árboles de directorios de análisis sintáctico generados, estando dichas etiquetas asociadas a dichas palabras con una representación analizada sintácticamente de dicha frase de entrada gramáticamente incorrecta.

34. El aparato de análisis sintáctico de la lengua oral de la reivindicación 22 en el cual dichas gramáticas están basadas en gramáticas sensibles al contexto de izquierda a derecha.

35. El aparato de análisis sintáctico de la reivindicación 22 en el cual dichas gramáticas están basadas en gramáticas sensibles al contexto de izquierda a derecha y que contengan ambigüedades.

36. El aparato de análisis sintáctico de la lengua oral de la reivindicación 22 que comprende asimismo:

: un filtro lexical para filtrar dicha frase de entrada, generando dicho generador de conjuntos de árboles de directorios de análisis sintáctico dicha pluralidad de conjuntos de árboles de directorio de análisis sintáctico basándose en dicha frase de entrada filtrada.

37. El aparato de análisis sintáctico de la lengua oral de la reivindicación 22 que comprende asimismo:

: un extractor semántico para extraer componentes semánticos de dicha frase de entrada basándose en dichas etiquetas que están asociadas a dichas palabras.

38. El aparato de análisis sintáctico de la lengua oral de la reivindicación 37 que comprende asimismo:

: un analizador sintáctico global para extraer componentes semánticos de dicha frase de entrada basándose en dichas etiquetas que están asociadas a dichas palabras.

39. El aparato de análisis sintáctico de la lengua oral de la reivindicación 38 que comprende asimismo:

: un conductor de diálogos para conducir, basándose en los componentes semánticos extraídos, el intercambio de diálogo entre un dispositivo de reconocimiento de la lengua oral y un usuario.

40. El aparato de análisis sintáctico de la lengua oral de la reivindicación 39 que comprende asimismo

: un conductor de diálogos para conducir, basándose en dichos componentes semánticos extraídos, el intercambio de diálogo entre dos usuarios que hablan diferente lengua.