ES2235508T3

ES2235508T3 - Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.

Info

Publication number: ES2235508T3
Application number: ES99945549T
Authority: ES
Inventors: Dean C. Weber
Original assignee: ONE VOICE TECHNOLOGIES Inc
Current assignee: ONE VOICE TECHNOLOGIES Inc
Priority date: 1998-09-09
Filing date: 1999-09-08
Publication date: 2005-07-01
Anticipated expiration: 2019-09-08
Also published as: ATE287117T1; US6532444B1; WO2000014727A1; CN1153190C; WO2000014728A1; DE69923191D1; CN1325528A; EP1110206A1; ES2235520T3; CA2343150A1; AU763059B2; EP1110205A1; DE69922971T2; DE69922971D1; DE69923191T2; JP2002524806A; ATE286296T1; JP2002524776A; EP1110205B1; CN1161747C

Abstract

Un método de interactuar con un objeto de red, comprendiendo el método: recibir una interacción (602) relativa a un objeto de red desde un usuario; determinar si una tabla (510) de objetos de red está asociada con dicho objeto de red; obtener la tabla (510) de objetos de red asociada con dicho objeto de red si dicha tabla (510) de objetos de red existe, teniendo la tabla (510) de objetos de red una entrada (520) correspondiente a dicho objeto de red y especificando una o más acciones asociadas con dicho objeto de red; buscar (626) la tabla (510) de objetos de red obtenida por ello para una correspondencia de entrada (540) para dicho objeto de red; realizar una acción asociada con dicha correspondencia de entrada (540) si dicha correspondencia de entrada es encontrada en dicha tabla (510) de objetos de red, incluyendo la acción actualizar (644) un primer archivo de gramática con gramática relativa a dicho objeto de red; buscar (304) el primer archivo de gramática (212) para una correspondencia de frase para otra interacción relativa a un objeto de red recibido desde un usuario; buscar (310) un segundo archivo de gramática (214) para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo gramatical; buscar una base de datos (218) del lenguaje natural para una correspondencia de entrada para dicha correspondencia de frase, representando dichas entradas frases que son conocidas por dicha base de datos; y, a realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la base de datos (218) de lenguaje natural; y advertir (360) al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos (218) de lenguaje natural.

Description

Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.

El presente invento se refiere a un método de interactuar con un objeto de red, y a un sistema para actualizar un ordenador para interacción de un usuario con un objeto de red.

El presente invento se refiere en general al reconocimiento de voz para un enlace de usuario de ordenador de red, y más específicamente, el presente invento se refiere a un nuevo método sistema para interacción de un usuario con un ordenador utilizando reconocimiento de voz y tratamiento de lenguaje natural.

Cuando los ordenadores han resultado más frecuentes ha resultado claro que muchas personas tienen una gran dificultad de comprensión y comunicación con los ordenadores. Un usuario debe a menudo aprender instrucciones u órdenes arcaicos y procedimientos no intuitivos a fin de hacer funcionar el ordenador. Por ejemplo, la mayor parte de los ordenadores personales usan sistemas operativos basados en ventanas que son ampliamente accionadas mediante menús. Esto requiere que el usuario aprenda qué instrucciones de menú o secuencia de instrucciones producen los resultados deseados.

Además, la interacción tradicional con un ordenador es a menudo reducida en su velocidad por los dispositivos de entrada manuales tales como teclados o ratones. Muchos usuarios de ordenador no son escritores de máquina rápidos. Como resultado, se consume mucho tiempo comunicando instrucciones y palabras al ordenador a través de estos dispositivos de entrada manuales. Está resultando claro que se necesita un método más fácil, más rápido y más intuitivo de comunicación con ordenadores y objetos de red, tales como sitios web.

Un método propuesto de interacción con un ordenador es el reconocimiento de voz. El reconocimiento de voz implica software y hardware que actúan juntos para detectar la voz humana de modo audible y traducir la voz detectada a una cadena de palabras. Como es conocido en la técnica, el reconocimiento de voz trabaja rompiendo sonidos que el hardware detecta en sonidos menores no divisibles llamados fonemas. Los fonemas son unidades de sonido distintas. Por ejemplo, la palabra inglesa "those" está constituida por tres fonemas; el primero es el sonido "th", el segundo es el sonido "o", y el tercero es el sonido "s". El software de reconocimiento de voz intenta hacer coincidir los fonemas detectados con palabras conocidas de un diccionario almacenado. Un ejemplo de un sistema de reconocimiento de voz está dado en la patente norteamericana nº 4.783.803, titulada "Aparato y método de reconocimiento de voz", concedida el 8 de noviembre de 1998, asignada a Dragon Systems, Inc., e incorporada aquí como referencia. Actualmente, hay muchos paquetes de software de reconocimiento de voz comercialmente disponibles que pueden encontrarse en compañías tales como Dragon Systems Inc., y en International Business Machines, Inc.

Una limitación de estos paquetes o sistemas de software de reconocimiento de voz es que típicamente sólo realizan mando y control o funciones de dictado. Así, al usuario se le requiere aún aprender un vocabulario de instrucciones a fin de hacer funcionar el ordenador.

Una mejora propuesta a estos sistemas de reconocimiento de voz es procesar las palabras detectadas usando un sistema de tratamiento de lenguaje natural. El tratamiento de lenguaje natural implica generalmente determinar un "significado" conceptual (por ejemplo, qué significado está destinado a transportar el que voz) de las palabras detectadas analizando su relación gramática y el contexto relativo. Por ejemplo, la patente norteamericana nº 4.887.212, titulada "Analizador gramatical para texto de lenguaje natural", concedida el 12 de diciembre de 1989, asignada a International Business Machines Corporation e incorporada aquí como referencia, muestra un método de análisis gramatical de una corriente de palabras de entrada usando aislamiento de palabras, análisis morfológico, búsqueda en diccionario y análisis gramatical.

El tratamiento de lenguaje natural usado de acuerdo con el reconocimiento de voz proporcionar un útil potente para hacer funcionar un ordenador usando palabras habladas en vez de entrada manual tal como mediante un teclado o ratón. Sin embargo, un inconveniente de un sistema de tratamiento de lenguaje natural tradicional es que puede fallar al determinar el "significado" correcto de las palabras detectadas por el sistema de reconocimiento de voz. En tal caso, el usuario es requerido típicamente para recomponer o restablecer la frase, con la esperanza de que el sistema de tratamiento de lenguaje natural determine el correcto "significado" en intentos subsiguientes. Claramente, esto puede conducir a retardos sustanciales cuando el usuario es requerido para restaurar la frase o instrucción completa. Otro inconveniente de sistemas tradicionales es que el tiempo de tratamiento requerido para el reconocimiento de voz puede ser prohibitivamente largo. Esto es fundamentalmente debido a la velocidad finita de los recursos de tratamiento en comparación con la gran cantidad de información que ha de ser procesada. Por ejemplo, en muchos programas de reconocimiento de voz tradicionales, el tiempo requerido para reconocer la expresión es largo debido al tamaño del archivo del diccionario que es buscado.

Un inconveniente adicional de los sistemas de reconocimiento de voz y de tratamiento de lenguaje natural tradicionales es que no son interactivos, y así son incapaces de cubrir nuevas situaciones. Cuando un sistema de ordenador encuentra objetos de red desconocidos o nuevos, se forman nueva relaciones entre el ordenador y los objetos. Los sistemas de reconocimiento de voz y de tratamiento de lenguaje natural tradicionales son incapaces de cubrir las situaciones que resultan de las nuevas relaciones planteadas por objetos de red previamente desconocidos. Como resultado, no es posible una interacción de estilo conversacional con el ordenador. El usuario es requerido para comunicar conceptos completos al ordenador. El usuario no es capaz de hablar en fragmentos de frases debido a que el significado de estos fragmentos de frases (que depende del significado de expresiones previas) se perderá.

Lo que se necesita es un enlace de usuario interactivo para un ordenador que utiliza reconocimiento de voz y tratamiento de lenguaje natural que evite los inconvenientes mencionados anteriormente.

El documento EP-A-0854418 describe un sistema para añadir capacidades de reconocimiento de voz a Java cuando hay previsto un servidor de reconocimiento de voz acoplado a una aplicación de Java a través de un enlace de programa de aplicación.

De acuerdo con un primer aspecto del presente invento se ha creado un método de interactuar con un objeto de red, comprendiendo el método: recibir una interacción relativa a un objeto de red desde un usuario; determinar si una tabla de objetos de red está asociada con dicho objeto de red; obtener la tabla de objetos de red asociada con dicho objeto de red si dicha tabla de objetos de red existe, teniendo la tabla de objeto de red una entrada correspondiente a dicho objeto de red y especificando una o más acciones asociadas con dicho objeto de red; buscar la tabla de objetos de red obtenida por ello para una correspondencia de entrada para dicho objeto de red; realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en dicha tabla de objetos de red, incluyendo la acción actualizar un primer archivo gramatical con gramática relativa a dicho objeto de red; buscar el primer archivo gramatical para una correspondencia de frase para otra interacción con relación a un objeto de red recibido desde un usuario; buscar un segundo archivo gramatical para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo gramatical; buscar una base de datos de lenguaje natural para una correspondencia de entrada para dicha correspondencia de frase; y, realizar una acción asociada con dicha correspondencia de entrada si dicha entrada de correspondencia es encontrada en la base de datos del lenguaje natural; y, advierte al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos de lenguaje natural.

De acuerdo con un segundo aspecto del presente invento se ha creado un sistema para actualizar un ordenador para interacción por un usuario con un objeto de red, comprendiendo el sistema: un enlace de red configurado para transferir un archivo de definición de diálogo asociado con un objeto de red, en el que el archivo de definición de diálogo contiene una tabla de objetos de red que tiene una correspondencia de entrada para el objeto de red y especificar una o más acciones asociadas con el objeto de red; un procesador de datos configurado para buscar la tabla de objetos de red para una correspondencia de entrada para la interacción; un enlace de aplicación configurado para realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la tabla de objetos de red, incluyendo la acción actualizar un archivo gramatical específico de contexto con gramática relativa al objeto de red; un procesador de voz dispuesto para buscar el archivo de gramática específico de contexto para una correspondencia de frase para otra interacción con relación a un objeto de red recibido desde un usuario, buscar un archivo de gramática general para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo de gramática específico de contexto, buscar una gramática de dictado para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo de gramática general, y buscar un modelo de dictado específico de contexto si la correspondencia de frase no es encontrada en la gramática de dictado; y, un procesador de lenguaje natural configurado para buscar una base de datos para una correspondencia de entrada para la correspondencia de frase; estando configurado el enlace de aplicación para realizar una acción asociada con la correspondencia de entrada si la correspondencia de entrada es encontrada en la base de datos, y preguntar al usuario acerca del objeto de red si no se ha encontrado la correspondencia de entrada.

En una realización, el presente invento proporciona un sistema y método para interactuar con un ordenador que usa expresiones, tratamiento de voz y tratamiento de lenguaje natural. Genéricamente, el sistema comprende un procesador de voz para buscar un primer archivo gramatical para la correspondencia de frase para la expresión, y para buscar un segundo archivo gramatical para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo de gramática. El sistema también incluye un procesador de lenguaje natural para buscar una base de datos para una correspondencia de entradas para la correspondencia de frase; y un enlace de aplicación para realizar una acción asociada con la correspondencia de entrada si la correspondencia de entrada es encontrada en la base de datos.

En la realización preferida, el procesador de lenguaje natural actualiza al menos una de las bases de datos, el primer archivo de gramática y el segundo archivo de gramática con la correspondencia de frase si la correspondencia de entrada no es encontrada en la base de datos.

En una realización, el primer archivo de gramática es un archivo de gramática específico de contexto. Un archivo de gramática específico de contexto es aquel que contiene palabras y frases que son muy importantes para un sujeto específico. El segundo archivo de gramática es un archivo de gramática general. Un archivo de gramática general es el que contiene palabras y frases que no necesitan ser interpretadas a la luz de un contexto. Es decir, las palabras y frases en el archivo de gramática general no pertenecen a ningún contexto pariente. Buscando el archivo de gramática específica de contexto antes de buscar el archivo de gramática general, el presente invento permite al usuario comunicar con el ordenador usando un estilo más conversacional, en el que las palabras habladas, si son encontradas en el archivo de gramática específico de contexto, son interpretadas a la luz del sujeto más recientemente descrito.

En una realización, el procesador de voz busca una gramática de dictado para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo de gramática general. La gramática de dictado es un gran vocabulario de palabras y frases generales. Buscando las gramáticas específicas de contexto y general en primer lugar, se espera que el tiempo de reconocimiento de voz será muy reducido debido a que las gramáticas específica de contexto y general son archivos menores físicamente que la gramática de dictado.

En una realización, el procesador de lenguaje natural sustituye al menos una palabra en la correspondencia de frase antes de buscar la base de datos. Esto puede conseguirse mediante un dispositivo de sustitución variable en el procesador de lenguaje natural para sustituir un comodín durante al menos una palabra en la correspondencia de frase. Sustituyendo comodines por ciertas palabras (llamadas "palabras variables") en la frase, puede reducirse significativamente el número de entradas en la base de datos. Adicionalmente, un dispositivo para sustituir pronombres en el procesador de lenguaje natural puede sustituir un nombre propio por pronombres de la correspondencia de frase, permitiendo que hechos específicos del usuario sean almacenados en la base de datos.

En una realización, un texto formateador de cadenas formatea la correspondencia de frase antes de buscar la base de datos. También, un dispositivo para pesar palabras presas para las individuales en la correspondencia de frase de acuerdo con un significado relativo de las palabras individuales antes de buscar la base de datos. Estas operaciones permiten una búsqueda más rápida y, más exacta de la base de datos.

En una realización, un motor de búsqueda en el procesador de lenguaje natural genera un valor de confianza para la correspondencia de entrada. El procesador de lenguaje natural compara el valor de confianza con un valor de umbral. Un dispositivo de prueba booleano determina si un número requerido de palabras procedente de la frase de correspondencia están presentes en la correspondencia de entrada. Esta prueba booleana sirve como verificación del resultado devuelto por el motor de búsqueda.

En una realización, a fin de eliminar ambigüedades, el procesador de lenguaje natural advierte o indica al usuario si la correspondencia de entrada es una correcta interpretación de la expresión si el número requerido de palabras procedentes de la correspondencia de frase no están presentes en la correspondencia de entrada. El procesador de lenguaje natural también advierte al usuario de información adicional si la correspondencia de entrada no es una interpretación correcta de la expresión. Al menos una de las bases de datos, el primer archivo de gramática y el segundo archivo de gramática son actualizados con la información adicional. De este modo, el presente invento "enseña" de modo adaptable el significado de expresiones adicionales, mejorando por ello la eficiencia del enlace de usuario.

En una realización, el procesador de voz habilitará y buscará una gramática específica de contexto asociada con la correspondencia de entrada para una correspondencia de frase subsiguiente para una expresión subsiguiente. Esto asegura que las palabras y frases más relevantes serán buscadas primero, disminuyendo por ello los tiempos de reconocimiento de voz.

En una realización, el presente invento proporciona un método para actualizar una ordenador para interacción de voz con un objeto de red, tal como una página web. Inicialmente, una tabla de objetos de red, que asocia con el objeto de red el sistema de interacción de voz, es transferida al ordenador sobre una red. La situación de la tabla de objetos de red puede ser embebida dentro del objeto de red, en un sitio web de Internet específico, o en una situación consolidada que almacena tablas de objetos de red para múltiples objetos de red. La tabla de objetos de red es buscada para hacer corresponder la entrada con el objeto de red. La entrada que corresponde con el objeto de red puede dar como resultado que se realice una acción, tal como que una voz de texto sea pronunciada a través de un altavoz, usándose un archivo de gramática específico de contexto, o usándose una base de datos de procesador del lenguaje natural. La tabla de objetos de red puede ser parte de un archivo de definición de diálogo. Los archivos de definición de diálogo pueden también incluir una gramática específica de contexto, entradas para una base de datos de procesador del lenguaje natural, o ambas.

En una realización, un enlace de red transfiere un archivo de definición de diálogo desde la red. El archivo de definición de diálogo contiene una tabla de objetos de red. Un procesador de datos busca la tabla de objetos de red para una entrada de tabla que corresponde con el objeto de red. Una vez que se ha encontrado esta entrada de tabla de correspondencia, un enlace de aplicación realiza una acción especificada por la correspondencia de entrada.

En una realización, el archivo de definición de diálogo asociado con una red es cargado, y a continuación leído. El archivo de definición de diálogo podría ser leído desde una variedad de posiciones, tal como un sitio web, un medio de almacenamiento, o una posición que almacena archivos de definición de diálogo para múltiples objetos de red. Una tabla de objetos de red, contenida dentro del archivo de definición de diálogo, es buscada para encontrar una entrada de tabla que corresponde con el objeto de red. La entrada que corresponde define una acción asociada con el objeto de red, y la acción es a continuación realizada por el sistema. Además de una tabla de objetos de red, el archivo de diálogo puede contener una gramática específica de contexto, entradas para una base de datos de procesador de lenguaje natural o ambas.

Las características, objetos y ventajas del presente invento resultarán más evidentes a partir de la descripción detallada recogida a continuación cuando es tomada en unión con los dibujos en los que los caracteres de referencia similares se identifican correspondientemente en su totalidad y en la que:

\newpage

La fig. 1 es un diagrama de bloques funcional de un sistema de ordenador ejemplar para usar con el presente invento.

La fig. 2 es un diagrama de bloques funcional expandido de la CPU 102 y medio de almacenamiento 108 del sistema de ordenador de la fig. 1 del presente invento;

Las figs. 3A-3D son un diagrama de flujo del método de proporcionar reconocimiento de voz interactivo y tratamiento de lenguaje natural a un ordenador;

La fig. 4 es un diagrama de columnas seleccionadas de una base de datos de un tratamiento de lenguaje natural (NLP) ejemplar del presente invento;

La fig. 5 es un diagrama de un Archivo de Definición de Base de Datos (DDF) ejemplar de acuerdo con el presente invento;

La fig. 6 es un diagrama de columnas seleccionadas de una tabla de objetos conectados a una red ejemplar del presente invento;

Las figs. 7A-7C son un diagrama de flujo del método del presente invento, que ilustra el enlace de reconocimiento de voz interactivo y tratamiento de lenguaje natural a un objeto conectado a una red, tal como una página web; y

La fig. 8 es un diagrama que representa un sistema de ordenador que conecta a otros ordenadores, medios de almacenamiento, y sitios web mediante Internet.

El presente invento será ahora descrito con referencia a un diagrama de bloques funcional de un sistema de ordenador ejemplar 100 de a fig. 1. En la fig. 1, el sistema de ordenador 100 incluye una unidad de tratamiento central (CPU) 102. La CPU 102 puede ser cualquier microprocesador o microcontrolador de propósito general como es conocido en la técnica, programado apropiadamente para realizar el método descrito aquí con referencia a las figs. 3A-3D. El software para programar la CPU puede ser encontrado en el medio de almacenamiento 108 o alternativamente desde otra posición a través de una red de ordenadores. Por ejemplo, la CPU 102 puede ser un microprocesador tradicional tal como el procesador Pentium II fabricado por Intel Corporation o similar.

La CPU 102 comunica con una pluralidad de equipos periféricos, que incluyen una pantalla de presentación 104, entrada manual 106, medio de almacenamiento 108, micrófono 110, altavoz 112, y puerto de entrada de datos 114 y enlace de red 116. La pantalla de presentación 104 puede ser una presentación visual tal como una pantalla CRT, LCD, pantalla sensible al tacto, u otros monitores como son conocidos en la técnica para presentar visualmente imágenes y texto a un usuario. La entrada manual 106 puede ser un teclado tradicional, una almohadilla de teclado, un ratón, una bola de seguimiento (trackball), u otro dispositivo de entrada como es conocido en la técnica para la entrada manual de datos. El medio de almacenamiento 108 puede ser una memoria de lectura/escritura tradicional tal como una unidad de disco magnético, una unidad de disco flexible, una unidad de CD-ROM, una memoria de silicio, u otro dispositivo de memoria como es conocido en la técnica para almacenar y recuperar datos. Significativamente, el medio de almacenamiento 108 puede ser situado a distancia de la CPU 102, y estar conectado a la CPU 102 mediante una red tal como una red de área local (LAN), o una red de gran área (WAN), o Internet. El micrófono 110 puede ser cualquier micrófono adecuado como es conocido en la técnica para proporcionar señales de audio a la CPU 102. El altavoz 112 puede ser cualquier altavoz adecuado como es conocido en la técnica para reproducir señales de audio desde la CPU 102. Se ha comprendido que el micrófono 110 y el altavoz 112 pueden incluir circuitos de conversión de digital a analógico y de analógico a digital apropiados cuando sea apropiado. El puerto de entrada de datos 114 puede ser cualquier puerto de datos como es conocido en la técnica para enlazar con un accesorio externo que usa un protocolo de datos tal como el RS-232, Línea de Transmisión en Serie Universal, o similar. El enlace de red 116 puede ser cualquier enlace como es conocido en la técnica para comunicar o transferir archivos a través de una red de ordenadores, ejemplos de tales redes incluyen redes TCP/IP, ethernet, o token ring. Además, en algunos sistemas, un enlace de red 116 puede consistir de un modem conectado al puerto de entrada de datos 114.

Así, la fig. 1 ilustra los elementos funcionales de un sistema de ordenadores 100. Cada uno de los elementos del sistema de ordenadores 100 puede ser componente disponible adecuado como se ha descrito antes. El presente invento proporciona un método y sistema para interacción humana con el sistema de ordenadores 100 utilizando la voz.

Como se ha mostrado en la fig. 8, el sistema de ordenadores 100 puede ser conectado a la Internet 700, una colección de redes de ordenadores. Para conectar a la Internet 700, el sistema de ordenadores 100 puede usar un enlace de red 116, un modem conectado al puerto de entrada de datos 114, o cualquier otro método conocido en la técnica. Los sitios web 710, otros ordenadores 720, y medios de almacenamiento 108 pueden también ser conectados a la Internet a través de tales métodos conocidos en la técnica.

Volviendo ahora la fig. 2, la fig. 2 ilustra un diagrama de bloques funcional expandido de la CPU 102 y del medio de almacenamiento 108. Se comprende que los elementos funcionales de la fig. 2 pueden ser realizados completamente en software o hardware o en ambos. En el caso de una realización en software, el software puede ser encontrado en el medio de almacenamiento 108 o en una posición alternativa a través de una red de ordenadores. La CPU 102 incluye el procesador de reconocimiento de voz 200, el procesador de datos 201, el procesador de lenguaje natural 202, y el enlace de aplicación 220. El procesador de datos 201 enlaza con la presentación 104, el medio de almacenamiento 108, el micrófono 110, el altavoz 112, el puerto de entrada de datos 114, y el enlace de red 116. El procesador de datos 201 permite que la CPU sitúe y lea datos desde estas fuentes. El procesador de lenguaje natural 202 incluye además el reemplazador variable 204, el formateador de cadena 206, el dispositivo de pesaje de palabras 208, el probador booleano 210, el reemplazador de pronombres 211, y el motor de búsqueda 213. El medio de almacenamiento 108 incluye una pluralidad de archivos de gramática específicos de contexto 212, archivo de gramática general 214, gramática de dictado 216, y base de datos 218 de procesador de lenguaje natural (NLP). En la realización preferida, los archivos de gramática 212, 214, y 216 son archivos en Forma Bakus-Naur (BNF) que describen la estructura del lenguaje hablado por el usuario. Los archivos BNF son bien conocidos en la técnica para describir la estructura del lenguaje, y por ello no se describirán aquí los detalles de los archivos BNF. Una ventaja de los archivos BNF es que estructuras jerárquicas a modo de árbol pueden ser usadas para describir secuencias de frases o de palabras, sin necesidad de recitar explícitamente todas las combinaciones de estas secuencias de palabras. Así, el uso de archivos BNF en la realización preferida minimiza los tamaños físicos de los archivos 212, 214, y 216 en el medio de almacenamiento 108, aumentando la velocidad a la que estos archivos pueden ser habilitados y buscados como se ha descrito más abajo. Sin embargo, en realizaciones alternativas, se usan otras estructuras de archivos.

El funcionamiento e interacción de estos elementos funcionales de la fig. 2 serán descritos con referencia a los diagramas de flujo de las figs. 3A-3D. En la fig. 3A, el flujo comienza en el bloque 300 con el suministro de una expresión al procesador de voz 200. Una expresión es una serie de sonidos que tienen un comienzo y un final, y puede incluir una o más palabras habladas. El micrófono 110 que captura palabras habladas puede realizar la operación del bloque 300. Alternativamente, la expresión puede ser proporcionada al procesador de voz 200 sobre el puerto de entrada de datos 114, o desde el medio de almacenamiento 108. Preferiblemente, la expresión está en un formato digital tal como el bien conocido formato de archivo de audio ".wav".

El flujo avanza a la decisión 302 donde el procesador de voz 200 determina si una de las gramáticas específicas de contexto 212 ha sido habilitada. Si las gramáticas específicas de contexto 212 son habilitadas, las gramáticas específicas de contexto 212 son buscadas en el bloque 304. En la realización preferida las gramáticas específicas de contexto 212 son archivos BNF que contienen palabras y frases que están relacionadas con un contexto padre. En general, un contexto es un área sujeto. Por ejemplo, en una realización del presente invento aplicable a ordenadores personales, los ejemplos de contextos pueden ser "noticias", o "tiempo", o "bolsa". En tal caso, las gramáticas específicas de contexto 212 contendrían cada una instrucciones u órdenes, palabras de control, descriptores, calificadores, o parámetros que corresponden a uno diferente de estos contextos. El uso de contextos proporciona una estructura jerárquica para tipos de información. Los contextos y su uso serán además descritos después con referencia a la base de datos 218 de NLP.

Si una gramática específica de contexto 212 ha sido habilitada, la gramática específica de contexto 212 es buscada para una correspondencia con la expresión proporcionada en el bloque 300. Sin embargo, si una gramática específica de contexto 212 no ha sido habilitada, el flujo prosigue al bloque 308 donde la gramática general 214 es habilitada.

En la realización preferida, la gramática general 214 es un archivo BNF que contiene palabras y frases que no pertenecen por ellas mismas, a un contexto padre, pero pueden tener un contexto asociado para el que existe un archivo de gramática específica de contexto 212. En otras palabras, las palabras y frases en la gramática general 214 puede estar en la raíz de la estructura de contexto jerárquica. Por ejemplo, en una realización aplicable a ordenadores personales, la gramática general 214 contendría instrucciones y frases de control.

En el bloque 310, la gramática general 214 es buscada por una correspondencia de palabra o frase para la expresión proporcionada en el bloque 300. Se toma una decisión, dependiendo de si se ha encontrado la correspondencia, en el bloque 312. Si no se ha encontrado una correspondencia, entonces la gramática de dictado 216 es habilitada en el bloque 314. En la realización preferida, la gramática de dictado 216 es un archivo BNF que contiene una lista de palabras que no tienen, por si mismas, un contexto padre o un contexto asociado. Por ejemplo, en una realización aplicable a un ordenador personal, la gramática de dictado 216 contiene una lista relativamente grande de palabras generales similar a un diccionario general.

En el bloque 316 la gramática de dictado es buscada para correspondencia de palabras para cada palabra de la expresión proporcionada en el bloque 300. En el bloque de decisión 318, si no se han encontrado correspondencia de palabras, un mensaje de error visual es opcionalmente presentado en la presentación 104 o un mensaje de error audible es opcionalmente reproducido a través del altavoz 112, en el bloque 320. El proceso termina hasta que se ha proporcionado otra expresión al procesador de voz 200 en el bloque 300.

Así, como puede verse a partir de la descripción anterior, cuando una expresión es proporcionada al procesador de voz 200, la gramática específica de contexto 212 habilitada, si la hay, es en primer lugar buscada. Si no hay correspondencias en la gramática específica de contexto 212 habilitada, entonces la gramática general 214 es habilitada y buscada. Si no hay correspondencias en la gramática general 214, entonces la gramática de dictado 316 es habilitada y buscada.

En la realización preferida, cuando el procesador de reconocimiento de voz 200 está buscando bien la gramática específica de contexto 212 o bien la gramática general 214, se dice que está en el modo "orden y control". En este modo, el procesador de reconocimiento de voz 200 compara la expresión completa como un todo a las entradas en la gramática. Por contraste, cuando el procesador de reconocimiento de voz 200 está buscando la gramática de dictado, se dice que está en modo "dictado". En este modo, el procesador de reconocimiento de voz 200 compara la expresión a las entradas en la gramática de dictado 216 de palabra en palabra. Se espera que buscar una correspondencia para una expresión completa en el modo de orden y control será generalmente más rápido que buscar de palabra en palabra en un modo de dictado.

Se espera además que cualquier gramática específica de contexto 212 individual será menor de tamaño (es decir, menos palabras y frases en total) que la gramática general 214, que a su vez será menor de tamaño que la gramática de dictado 216. Así, buscando en primer lugar cualquier gramática específica de contexto 212 habilitada, es probable que se encuentre más rápidamente una correspondencia, si la hay, debido al menos en parte al menor tamaño del archivo. De modo similar, buscando la gramática general 14 antes que la gramática de dictado 216, es probable que se encuentre más rápidamente una correspondencia, si la hay.

Adicionalmente, como se explicará más adelante además con respecto a la capacidad del presente invento de añadir de modo adaptable tanto a la gramática específica de contexto 212 como a la gramática general 214, contendrán las expresiones más comunes. Como tal, se espera más probablemente que se encuentre más rápidamente una correspondencia en la gramática específica de contexto 212 o en la gramática general 214 que en la gramática de dictado 216.

Finalmente, como se explicará después además, las palabras y frases en la gramática específica de contexto 212 habilitada son más probables que sean expresadas por el usuario porque son palabras que son muy importantes para la cuestión acerca de la que el usuario estuvo hablando más recientemente. Esto permite también que el usuario hable en un estilo más conversacional, usando fragmentos de sentencias, siendo interpretado el significado de sus palabras de acuerdo con la gramática específica de contexto 212 habilitada.

Buscando en la secuencia antes descrita, el presente invento puede buscar más eficientemente que si la búsqueda ocurriese una entrada en un instante en una única lista grande de todas las palabras y frases esperadas.

Con referencia de nuevo a la decisión 306, si se encuentra una correspondencia en la gramática específica de contexto 212, entonces hay tres posibles operaciones siguientes mostradas en la fig. 3A. Para cada entrada de correspondencia en la gramática específica de contexto 212 habilitada, puede haber una acción asociada que ha de ser tomada por el procesador de reconocimiento de voz 200. El bloque 322 muestra que una acción puede ser al enlace de aplicación directo 220 para tomar alguna acción con respecto a una aplicación o entidad de software separada. Por ejemplo, el enlace de aplicación 220 puede usar la norma del Enlace de Programación de Aplicación de Voz (SAPI) por Microsoft para comunicar con una aplicación externa. La aplicación externa puede ser dirigida, por ejemplo, para acceder a un URL de sitio web de Internet particular o para decir una frase particular convirtiendo texto a voz. Pueden ser tomadas otras acciones como se describirá más abajo además con referencia a la base de datos 218 de NLP de la fig. 4.

El bloque 324 muestra que otra acción puede ser acceder a una fila en la base de datos 218 de tratamiento de lenguaje natural (NLP) directamente, puenteando por ello las operaciones de tratamiento de lenguaje natural descritas adicionalmente más abajo. El bloque 326 muestra que otra acción puede ser preparar una palabra o frase para el contexto habilitado a la correspondencia de palabra o frase encontrada en la gramática 306 específica de contexto. Por ejemplo, si el contexto habilitado fuera "películas" y la expresión de correspondencia fuera "8 en punto", la palabra "películas" sería preparada a la frase "8 en punto" para formar la frase "películas a las 8 en punto".

Asimismo, si se encuentra una correspondencia en la gramática general 214, entonces el flujo puede proseguir al bloque 322 donde el enlace de aplicación 220 es dirigido para tomar una acción como se ha descrito antes, o al bloque 324 donde una fila en la base de datos de NLP es accedida directamente. Sin embargo, si se encuentra una correspondencia en la gramática general 214, no ocurre una preparación de un contexto porque, como se ha indicado antes, las entradas en la gramática general 214, no tienen, por ellas mismas, un contexto padre.

Alternativamente, las palabras introducidas manualmente pueden ser capturadas, en el bloque 301, e introducidas en el procesador de lenguaje natural.

Finalmente, con referencia a la fig. 3A, las palabras pueden ser introducidas manualmente mediante la entrada manual 106. En este caso, no es requerido el reconocimiento de voz, y aún el tratamiento de lenguaje natural de las palabras introducidas es aún deseado. Así, el flujo prosigue o avanza a la fig. 3B.

En la fig. 3B, en el bloque 328, el procesador de lenguaje natural 202 formatea la frase para el análisis de tratamiento del lenguaje natural. Este formateado es realizado por un formateador de cadena 206 y puede incluir un tratamiento de texto tal como eliminar espacios duplicados entre palabras, pasar todas las letras a minúsculas (o mayúsculas), expandir contracciones (por ejemplo, cambiar en inglés "it's" por "it is"), y similar. El propósito de esta operación de formateado es preparar la frase para el análisis.

El flujo continua al bloque 330 donde ciertas "variables de palabra" son reemplazadas con una función comodín asociada por el reemplazador de variable 204 en preparación para acceder a la base de datos 218 de NLP. Como se ha usado aquí, el término "variables de palabra" se refiere a palabras o frases que representan cantidades, fechas, horas, monedas, y similares. Por ejemplo, en una realización, la frase "qué películas se están proyectando a las 8 en punto" sería transformada en el bloque 330 a "qué películas se están proyectando en \textdollartime" donde "\textdollartime" es una función comodín usada para representar cualquier valor de tiempo. Como otro ejemplo, en una realización, la frase "vender acciones de IBM a 100 dólares" sería transformada en el bloque 330 a "vender acciones de IBM a \textdollardólares" donde "\textdollardólares" es una función comodín usada para representa cualquier valor en dólares. Esta operación puede ser realizada por un bucle simple que busca la frase para señales claves tales como las palabras "dólar" o "en punto" y reemplaza las variables de palabra con una función comodín especificada. Con el fin de mantener el seguimiento de la posición en la frase donde se hizo la sustitución, puede usarse una matriz. Esto permite volver a sustituir la variable de palabra original de nuevo a la frase en alguna posición después de que la base de datos 218 de NLP haya sido
buscada.

El propósito de reemplazar variables de palabra por una función de comodín asociada en el bloque 330 es reducir el número de entradas que debe haber presentes en la base de datos 218 de NLP. Por ejemplo, la base de datos 218 de NLP contendría solamente la frase "qué películas se están proyectando en \textdollartime" en vez de una entrada separada para las ocho en punto, las 9 en punto, las 10 en punto, y así sucesivamente. La base de datos 218 de NLP será descrita adicionalmente más abajo.

En el bloque 332, los pronombres de la frase son reemplazados por nombres propios por el dispositivo reemplazador de pronombres 211. Por ejemplo, en una realización los pronombres "Yo", "mi" o "mío" serían reemplazados con el nombre del que habla. El propósito de esta operación es permitir que hechos específicos del usuario sean almacenados y accedidos en la base de datos 218 de NLP. Por ejemplo, la frase "quiénes son mis niños" sería transformada en "quiénes son los niños de Dean", en la que "Dean" es el nombre propio del que habla. De nuevo, esta operación puede ser realizada en un simple bucle que busca los pronombres en la frase, y sustituye los pronombres encontrados por un nombre propio apropiado. A fin de conservar el seguimiento de los lugares de la frase en los que se ha hecho una sustitución, puede ser usada una matriz.

En el bloque 334, las palabras individuales en la base son ponderadas de acuerdo con su "importancia" o "significado" relativo al significado total de la frase por el pesador de palabras 208. Por ejemplo, en una realización hay tres factores de ponderación asignados. El menor factor de ponderación es asignado a palabras tales como "un", "el" y otros artículos. El mayor factor de ponderación se le da a palabras que probablemente tienen una relación significativa con el significado de las frases. Por ejemplo, éstas pueden incluir todos los verbos, nombres, adjetivos, y nombres propios en la base de datos 218 de NLP. Un factor de ponderación medios se le da a todas las demás palabras de la frase. El propósito de esta ponderación es permitir una búsqueda más potente de la base de datos 218 de NLP.

Un ejemplo de columnas seleccionadas de la base de datos 218 de NLP de una realización está mostrado en la fig. 4. La base de datos 218 de NLP comprende una pluralidad de columnas 400-410, y una pluralidad de filas 412A-412N. En la columna 400, las entradas representan frases que son "conocidas" para la base de datos de NLP. En la columna 402, se ha mostrado un número de palabras requeridas para cada entrada en la columna 400. En la columna 404, se ha mostrado un contexto o subcontexto asociado para cada entrada en la columna 400. Debe observarse que la base de datos 218 de NLP mostrada en la fig. 4 es simplemente un ejemplo simplificado con el propósito de enseñanza del presente invento. Otras realizaciones pueden tener más o menos columnas con diferentes entradas.

Con referencia de nuevo a la fig. 3B, en el bloque 336, se buscan en la base de datos 218 de NLP posibles correspondencias a la frase, basadas en si la entrada en la columna 400 de la base de datos 218 de NLP contiene alguna de las palabras de la frase (o sus sinónimos), y los pesos relativos de esas palabras. En el bloque 338, se genera un valor de confianza para cada una de las posibles entradas de correspondencia basado en el número de ocurrencia de cada una de las palabras en la frase y sus pesos relativos. La búsqueda de palabra ponderada de una base de datos es bien conocida en la técnica y puede ser realizada por motores de búsqueda comercialmente disponibles tales como el producto "dtsearch" de DT Software, Inc., de Arlington, Virginia. De modo similar, la búsqueda utilizando sinónimos es bien conocida en la técnica y puede ser llevada a cabo utilizando útiles disponibles públicamente tales como "WordNet", desarrollado por el Cognitive Science Laboratory de Princeton Universidad de Princeton, New Jersey. El motor de búsqueda puede ser una parte integral del procesador 202 de lenguaje natural.

En la decisión 340, el procesador 202 del lenguaje natural determina si alguna de las posibles entrada de correspondencia tiene un valor de confianza mayor o igual que alguno del umbral mínimo predeterminado, T. El umbral T representa el menor valor de confianza aceptable para el que puede tomarse una decisión de si la frase correspondía con cualquiera de las entradas en la base de datos 218 de NLP. Si no hay entrada de correspondencia posible con un valor de confianza mayor que o igual a T, entonces el flujo prosigue al bloque 342 donde un mensaje de error opcional es o bien visualmente presentado al usuario sobre la pantalla de presentación 104 o bien audiblemente reproducido sobre el altavoz 112. En una realización, el tipo de mensaje de error, si lo hay, presentado el usuario puede depender de cuantos "aciertos" (es decir cuántas palabras correspondientes de la frase) se han encontrado en la entrada de base de datos de NLP de mayor confianza. Se generaría un tipo diferente de mensaje de error si hubiera cero o un aciertos, que si hubiera dos o más aciertos.

Si, sin embargo hay al menos una entrada en la base de 218 de NLP para la que existe un valor de confianza mayor que o igual a T, entonces el flujo prosigue al bloque 344 donde las palabras de "ruido" son desechadas de la frase. Las palabras de "ruido" incluyen palabras que no contribuyen significativamente al significado completo de la frase con relación a las otras palabras de la frase. Estas pueden incluir artículos, pronombres, conjunciones, y palabras de una naturaleza similar. Palabras que "no son ruidos" incluirían palabras que contribuyen significativamente al significado completo de la frase. Palabras que "no son ruido" incluirían verbos, nombres, adjetivos, y nombres propios, y palabras de una naturaleza similar.

El flujo prosigue a la fig. 3C donde el requisito de la palabra que no es ruido es recuperado de la columna 402 de la base de datos 218 de NLP para la correspondencia de entrada de mayor confianza en el bloque 346. Por ejemplo, si la correspondencia de frase de mayor confianza fuera la entrada en la fila 412A, (por ejemplo "que películas están proyectando en el \textdollartime"), entonces el número de palabras que no son ruido requeridas es 3.

En la decisión 348, se ha hecho una prueba para determinar si el número de palabras que no son ruido requeridas de la frase está realmente presente en la entrada de mayor confianza recuperada de la base de datos 218 de NLP. Esta prueba es una verificación de la exactitud de la búsqueda de estilo de relevancia realizada en el bloque 336, comprendiéndose que una entrada puede generar un valor de confianza mayor que el mínimo umbral T, sin ser una correspondencia aceptable para la frase.

La naturaleza de la prueba realizada en la decisión 348 es una prueba "Y" booleana realizada por un dispositivo de prueba 210 booleano. La prueba determina si cada una de las palabras incluidas en la frase (o su sinónimo) está realmente presente en la entrada de mayor confianza. Si hay un número suficiente de palabras requeridas realmente presentes en la entrada de mayor confianza, entonces el flujo prosigue a lo que 350, donde el procesador 202 de lenguaje natural dirige el enlace de aplicación 220 para tomar una acción asociada desde la columna 408 ó 410. Se comprende que puede también haber presentes columnas de acción adicional.

Por ejemplo, si la entrada de mayor confianza era la entrada en la fila 412A, y la prueba booleana de decisión 348 determinaba que había realmente 3 palabras que no son ruido de la frase en la entrada en la columna 400, entonces se tomaría la acción asociada en la columna 408 (por ejemplo acceso al sitio web de película). Otras entradas en la base de datos de NLP tienen otras acciones asociadas. Por ejemplo, si la entrada de mayor confianza es la de la fila 412E (por ejemplo "qué hora es"), la acción asociada puede ser que el procesador 202 de lenguaje natural dirija una aplicación de texto a voz (no mostrado) para decir el instante actual al usuario a través del altavoz 112. Como otro ejemplo, si la entrada de mayor confianza es la de la fila 412N (por ejemplo, "muéstrame las noticias"), la primera acción asociada puede ser acceder a un sitio web de noticias predeterminado en la Internet, y una segunda acción asociada puede ser dirigir una aplicación de presentación de imágenes (no mostrada) para presentar imágenes asociadas con las noticias. Pueden también realizarse acciones diferentes o adicionales.

También, si la entrada de mayor confianza contiene el número requerido de palabras que no son ruido desde la frase como se ha determinado en le decisión 348, el procesador de lenguaje natural 202 instruye al procesador de reconocimiento de voz 200 para habilitar la gramática específica de contexto 212 para el contexto asociado de la columna 404. Así, para la fila 412A, la gramática específica de contexto 212 para el contexto "películas" sería habilitado. Así, cuando la siguiente expresión es proporcionada al procesador de reconocimiento de voz 200 en el bloque 300 de la fig. 3A, buscaría la gramática específica de contexto 212 para "películas" antes de buscar la gramática general 214. Como se ha dicho previamente, habilitar la gramática específica de contexto 212 apropiada aumenta mucho la probabilidad de un reconocimiento de voz rápido, satisfactorio, y mejora la capacidad del usuario para comunicar con el ordenador en un estilo conversacional.

Si, sin embargo, de nuevo en la decisión 348, el número requerido de palabras que no son ruido desde la frase no está presente realmente en la entrada de mayor confianza recuperada desde la base de datos 218 de NLP, entonces el flujo prosigue al bloque 354 donde el usuario es advertido sobre la presentación 104 o el altavoz 112 si la entrada de mayor confianza fuera significativa. Por ejemplo, si el usuario ha expresado "A cuánto se está vendiendo la acción de IBM hoy", la entrada de mayor confianza en la base de datos 218 de NLP puede ser la entrada en la fila 412B. En este caso, aunque el factor de relevancia puede ser alto, el número de palabras requeridas (o sus sinónimos) puede no ser suficiente. Así, el usuario sería advertido en el bloque 354 sobre si el ha querido decir "cuál es el precio de la acción de IBM el 28 de Agosto de 1998".

El usuario puede responder bien afirmativa o negativamente. Si se ha determinado en la decisión 356 que el usuario ha respondido afirmativamente, entonces la acción o acciones asociadas con la entrada de mayor confianza son tomadas en el bloque 350, y la gramática específica de contexto 212 asociada es habilitada en el bloque 352.

Si, sin embargo, se ha determinado en la decisión 356 que el usuario ha respondido negativamente, entonces el flujo prosigue a la fig. 3D donde el contexto asociado desde la columna 404 de la base de datos 218 de NLP es recuperado para la entrada de mayor confianza, y el usuario es advertido de una información usando un diálogo interactivo basado en el contexto en el bloque 360. Por ejemplo, si el usuario ha expresado "cuál es el precio de la acción de XICOR hoy", y la entrada de mayor confianza desde la base de datos 218 de NLP era la fila 412B (por ejemplo, "cuál es el precio de la acción de IBM en \textdollardate"), entonces el usuario sería advertido en el bloque 354 si era eso lo que él quería decir.

Si el usuario responde negativamente, entonces el contexto "acción" es recuperado de la columna 404 en el bloque 358, y el diálogo interactivo basado en el contexto para el contexto acción es presentado al usuario sobre la presentación 104 y el altavoz 112. Tal diálogo interactivo basado en el contexto puede implicar advertir al usuario del nombre y el símbolo más grueso de acción de la acción de XICOR. El usuario puede responder diciendo la información requerida. Puede usarse un diálogo interactivo diferente basado en el contexto para cada uno de los posibles contextos. Por ejemplo, el diálogo interactivo basado en el contexto "tiempo" puede implicar advertir al usuario del nombre de la localización (por ejemplo, la ciudad) sobre la que se desea la información del tiempo. También el diálogo interactivo basado en el contexto "noticias" puede implicar advertir al usuario para tipos de artículos, fuente de noticias, URL de Internet para el sitio de noticias, u otra información relacionada.

A la conclusión del diálogo interactivo basado en el contexto, la base de datos 218 de NLP, la gramática general 214, y la gramática específica de contexto 212 son actualizadas para incluir la nueva información, en el bloque 362. De esta manera, la próxima vez el usuario pide esa información, se encontrará una correspondencia apropiada, y se tomará la acción apropiada sin advertir al usuario de más información. Así, el presente invento "aprende" de forma adaptable a reconocer frases expresadas por el usuario.

En una realización del presente invento, una o más de la base de datos 218 de NLP, la gramática específica de contexto 212, la gramática general 214, y la gramática de dictado 216 contiene también valores de sello de tiempo (no mostrados) asociados con cada entrada. Cada vez que es usada una entrada de correspondencia, el valor de sello de tiempo asociado con esa entrada es actualizado. A intervalos periódicos, o cuando es inicializado por el usuario, las entradas que tienen un valor de sello de tiempo antes de una cierta fecha y hora son eliminadas de sus bases de datos/gramáticas respectivas. De esta manera, las bases de datos/gramáticas pueden ser conservadas en un tamaño eficiente "purgando" entradas antiguas o caducadas. Esto también ayuda a evitar falsas correspondencias.

En una realización del presente invento, el reconocimiento de voz y el tratamiento del lenguaje natural pueden ser usados para interactuar con objetos conectados en red, tales como páginas World-Wide-Web ("WWW" o "web") que tienen un enlace basado en la voz sensible al contexto.

La fig. 5 ilustra un Archivo de Definición de Diálogo (DDF) 500 ejemplar que representa información necesaria para asociar el reconocimiento de voz y el tratamiento del lenguaje natural a un objeto de Internet, tales como un archivo de texto o gráficos o, en la realización preferida, una página web. Aunque es su realización más simple, el Archivo de Definición de Diálogo 500 consiste de una tabla 510 de objetos de red, el DDF puede también contener archivos de gramática específica de contexto 214 adicionales y entradas adicionales para las bases de datos 218 de (NLP) de tratamiento de lenguaje natural, como se ha ilustrado en la fig. 5. La realización preferida del DDF 500 incluye una tabla 510 de objetos de red, un archivo de gramática específica de contexto 214, y un archivo que contiene entradas a la base de datos 218 de tratamiento del lenguaje natural. Estos componentes puede ser comprimidos y combinados en el archivo DDF 500 por cualquier método conocido en la técnica, tal como a través de la compresión Lempel-Ziv. El archivo de gramática específica de contexto 214 y la base de datos 218 de tratamiento del lenguaje natural son como se ha descrito en las secciones anteriores. La tabla 510 de objetos de red es una estructura de memoria, tal como un árbol de memoria, cadena o tabla, que asocia una dirección de un recurso con varias acciones, gramáticas, o entradas en la base de datos 218 de NLP.

Una realización ejemplar de la tabla 510 de objetos de red está ilustrada en la fig. 6. La fig. 6 ilustra una tabla de memoria que puede contener columnas de entrada para: un objeto de red 520, un indicador o banderola de Texto a Voz (TTS) 522, una voz de texto 524, un indicador de uso de gramática 526, un indicador de gramática añadida 528, un indicador "¿es si/no?", y acciones "si" 532 y "no" 534. Cada fila en la tabla 540A-540E representaría la gramática y voz relacionadas a un objeto de red individual. La realización ejemplar del invento se referiría a objetos de red 520 a través de un Localizador de Recurso Universal (URL). Un URL es un método estándar para especificar la dirección de cualquier recurso en Internet que es parte de la World-Wide-Web. Como este estándar es bien conocido en la técnica para describir la localización de recursos de Internet, los detalles de los URL no serán por ello descritos aquí. Una ventaja de los URL es que pueden especificar información en una gran variedad de formatos de objeto de red, incluyendo hipertexto, gráficos, bases de datos y otros archivos, además de un número de dispositivos de objetos de red y protocolos de comunicación.

Cuando es combinado con la voz de texto 524, el indicador de Texto a Voz (TTS) 522 indica si una declaración inicial debe ser pronunciada por el altavoz 112 cuando el objeto de red correspondiente es transferido. Por ejemplo, cuando se transfiere la página web leída en la columna del objeto de red 520 de la fila 540A (http://
www.convesationalsys.com), el indicador TTS 522 es marcado, indicando que la voz de texto 524, "Hola, bienvenido a Sistemas Conversacionales," ha de ser pronunciada por el altavoz 112.

Los tres siguientes indicadores se refieren al uso de gramáticas asociadas con este objeto de red. El marcado afirmativo de los indicadores de "gramática de uso" 526 o de "gramática añadida" 528 indican la presencia de un archivo de gramática específica de contexto 214 relacionada con el objeto de red indicado. El marcado del indicador de "gramática de uso" 526 indica que el nuevo archivo de gramática específica de contexto 214 reemplaza al archivo de gramática específica de contexto existente, y el archivo existente es inhabilitado. El indicador "gramática añadida" 528 indica que el nuevo archivo de gramática específica de contexto debe ser habilitado al mismo tiempo que el archivo de gramática específica de contexto existente.

Por último, las entradas de columnas restantes se refieren a una estructura de gramática "si/no". Si se marca el indicador "¿es si/no?" 530, entonces es habilitada una gramática "si/no" estándar. Cuando una gramática "si/no" estándar es habilitada, las instrucciones afirmativas dichas al ordenador dan como resultado que el ordenador ejecuta la instrucción indicada en la entrada "Si" 532. Similarmente, una instrucción negativa dicha al ordenador da como resultado que el ordenador ejecuta la instrucción indicada en la entrada "No" 534. Las entradas en las columnas "Si" 532 y "No" 534 pueden ser instrucciones o indicadores a instrucciones embebidos en la base de datos 218 de NLP. Por ejemplo, como se ha mostrado en la fila 540B, es marcado el indicador "¿es Si/No?". Una respuesta afirmativa, tal como "si", dada al ordenador, daría como resultado ejecutar la instrucción correspondiente en la entrada "Si" 532; en este caso específico, la entrada es el número "210," una referencia a la instrucción 210^{ésima} en la base de datos NLP. Una respuesta de "no" daría como resultado que el ordenador ejecuta la instrucción 211^{ésima} en la base de datos NLP.

Volviendo ahora a la fig. 7A, se ha ilustrado un método y sistema de proporcionar instrucciones u órdenes de voz a ordenadores conectados con Internet, tal como un ordenador que navega en la World-Wide-Web. El método de las figs. 7A-7C puede ser usado en unión con el método de las figs. 3A-3D. En el bloque 602, un URL de sitio web (objeto de red) es proporcionado a un navegador World-Wide-Web. El navegador de web es un programa usado para navegar a través de Internet, y es bien conocido en la técnica. La operación, en el bloque 602, de proporcionar un URL al navegador, puede ser tan simple como que un usuario escribe a máquina manualmente en el URL, o que un usuario selecciona un "enlace" al URL del sitio web elegido. Puede ser también el resultado de una instrucción pronunciada como se ha descrito antes con referencia a la acción asociada con cada entrada en la base de datos 218 de NLP. Dado el URL, el ordenador debe decidir sobre si puede resolver la dirección de Internet del sitio web especificado dentro del URL, en el bloque 604. Este proceso de resolución es un proceso bien conocido en la técnica. Si el ordenador es incapaz de resolver la dirección de Internet, un mensaje de error es presentado en la ventana del navegador, en el bloque 605, y el sistema es devuelto a su estado de comienzo inicial 600. Si la dirección de Internet es resuelta, el ordenador envía al sitio web una solicitud para la página web, en el bloque 606.

Se toma una decisión, dependiendo de si el sitio web envía la página web, en el bloque 608. Si el sitio web no responde, o falla al enviar la página web, es presentado un mensaje de error en la ventana del navegador, en el bloque 605, y el sistema es devuelto a su estado de comienzo inicial 600. Su el sitio web devuelve la página web, la página web es presentada en la ventana del navegador, en el bloque 610.

En el bloque de decisión 612, el ordenador 100 determina si el archivo DDF 500 correspondiente al sitio web está ya presente en el ordenador 100. Si el archivo DDF está presente, el flujo prosigue a la fig. 7C, si no el flujo prosigue a la fig. 7B.

Moviéndose a la fig. 7B, si el archivo DDF 500 no está presente, el ordenador examina si la posición del archivo DDF 500 está codificado dentro del Lenguaje de Etiquetado de Hipertexto de página web (HTML) como un URL. (Obsérvese que HTML es bien conocido en la técnica, y los detalles del lenguaje no serán por ello descritos aquí). Codificar la posición del archivo DDF dentro del código HTML puede ser hecho bien a través del listado de la posición del archivo DDF en un marcador meta de HTML inicial tal como:

o directamente a través de un marcador de escritura escrito en la variación de HTML soportada por el navegador,

\leftarrow

\rightarrow

Si la información de la posición del archivo DDF está codificada dentro de la página web, la dirección de Internet de la posición es resuelta, en el bloque 616, y el ordenador solicita la transferencia del archivo 500 DDF al bloque 626.

Alternativamente, si la posición del archivo 500 DDF no está codificada dentro de la página web, hay varios lugares alternativos que pueden ser almacenados. Puede ser almacenado en una posición previamente definida en el sitio web, tal como una cierta posición de archivo en el directorio raíz, o en una posición centralizada diferente, tal como otro servidor de Internet o el medio de almacenamiento 108 de la fig. 1. Los bloques 618 y 620 prueban estas posibilidades. El bloque 618 de terminarse el archivo DDF está situado en el sitio web. En esta operación, el ordenador envía una solicitud al sitio web inquiriendo acerca de la presencia del archivo 500 DDF. Si el archivo 500 DDF está presente en el sitio web, el ordenador solicita la transferencia del archivo 500 DDF al bloque 626. Si el archivo 500 DDF no está situado en el sitio web, el ordenador solicita la posición centralizada acerca de la presencia de un archivo de DDF para el sitio web, en el bloque 620. Si el archivo DDF está presente en el sitio web, el ordenador solicita la transferencia del archivo DDF al bloque 626. Si el archivo 500 DDF no puede ser encontrado, los componentes existentes de cualquiera archivo de DDF presentes, tales como la tabla 510 de objetos de red, la base de datos 218 de NLP asociada con el sitio web y la gramática 214 específica de contexto para cualquier sitio web previamente visitado, son desactivados en el bloque 622. Además, el sitio web es tratado como un sitio web no activado por voz, y solamente se usan archivos gramaticales estándar, en el bloque 624. Archivos gramaticales estándar son los archivos gramaticales existentes en el sistema que excluyen cualesquiera gramáticas asociadas con el archivo gramatical específico de contexto asociado con el objeto de red.

Si el archivo 500 DDF es requerido en el bloque 626, y su transferencia no es satisfactoria, cualesquiera componentes existentes de cualquier archivo 500 DDF presente son desactivados, en el bloque 622, y el sitio web es tratado como un sitio web no activado por voz, y solamente se usan archivos gramaticales estándar, en el bloque 624.

Si el archivo 500 DDF es solicitado en el bloque 626, y su transferencia es satisfactoria en el bloque 628, sustituye a cualquiera archivo de DDF anterior, en el bloque 630. Cualesquiera componentes del archivo 500 de DDF, tales como la tabla 510 de objetos de red, los archivos gramaticales 214 específicos de contexto, y la base de datos 218 de NLP son extraídos en el bloque 632. Puede usarse una técnica similar para obtener el software necesario para poner en práctica el método ilustrado en las figs. 3A-3D, que comprenden los elementos funcionales de la fig. 2.

El flujo se mueve a la fig. 7C. La tabla 510 de objetos de red es leída en memoria por el ordenador en el bloque 634. Si el URL de la página web está presente en la tabla 510 de objetos de red de sitio, como se ha determinado por el bloque 636, estará representado por una fila 540A-540E de la tabla, como se ha mostrado en la fig. 6. Cada fila de la tabla de objetos de red representa las interacciones de voz disponibles para un usuario para esa página web particular. Si no existen fila correspondiente a la página web, entonces no existe interacción de voz para la página web, y el tratamiento termina.

Si el URL de la página web está presente en la tabla 510 de objetos de red de sitio, como se ha determinado por el bloque 636, el ordenador comprueba si está marcado el indicador 522 de TTS, para determinar si una voz de texto 524 está asociada con la página web, en el bloque 638. Si hay una voz de texto 524, es pronunciada en el bloque 640, y el flujo continúa. Si hay un archivo gramatical específico de contexto asociado con la página web, como es determinado por el bloque de decisión 642, es habilitado en el bloque 644, y a continuación la base de datos 218 de NLP es habilitada en el bloque 646. Si no hay una archivo gramatical específico de contexto asociado con la página web, solamente es habilitada la base de datos 218 de NLP en el bloque 646. Una vez que la base de datos de NLP es habilitada en 646, el sistema se comporta como en la fig. 3A-3C, como se ha descrito antes.

En resumen, la realización preferida del presente invento proporciona un método y sistema para un enlace de usuario interactivo conectado a red para un ordenador. Mediante el uso de gramáticas específicas de contexto que están unidas a objetos de Internet a través de un Archivo de Definición de Diálogo, la realización preferida disminuye el tiempo de reconocimiento de voz y aumenta la capacidad del usuario para comunicarse con objetos de Internet, tales como páginas web, en un estilo conversacional. Además, mediante el uso de actualización adaptable de las distintas gramáticas y la base de datos de NLP, el presente invento aumenta además la eficiencia interactiva.

Se han descrito realizaciones del presente invento con referencia particular al ejemplo ilustrado. Sin embargo, se apreciará que pueden hacerse variaciones y modificaciones en los ejemplos descritos dentro del marco del presente invento como ha sido definido por las reivindicaciones adjuntas.

Claims

1. Un método de interactuar con un objeto de red, comprendiendo el método: recibir una interacción (602) relativa a un objeto de red desde un usuario; determinar si una tabla (510) de objetos de red está asociada con dicho objeto de red; obtener la tabla (510) de objetos de red asociada con dicho objeto de red si dicha tabla (510) de objetos de red existe, teniendo la tabla (510) de objetos de red una entrada (520) correspondiente a dicho objeto de red y especificando una o más acciones asociadas con dicho objeto de red; buscar (626) la tabla (510) de objetos de red obtenida por ello para una correspondencia de entrada (540) para dicho objeto de red; realizar una acción asociada con dicha correspondencia de entrada (540) si dicha correspondencia de entrada es encontrada en dicha tabla (510) de objetos de red, incluyendo la acción actualizar (644) un primer archivo de gramática con gramática relativa a dicho objeto de red; buscar (304) el primer archivo de gramática (212) para una correspondencia de frase para otra interacción relativa a un objeto de red recibido desde un usuario; buscar (310) un segundo archivo de gramática (214) para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo gramatical; buscar una base de datos (218) del lenguaje natural para una correspondencia de entrada para dicha correspondencia de frase, representando dichas entradas frases que son conocidas por dicha base de datos; y, a realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la base de datos (218) de lenguaje natural; y advertir (360) al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos (218) de lenguaje natural.

2. Un método según la reivindicación 1ª, en el que la tabla (510) de objetos de red es leída desde un sitio web.

3. Un método según la reivindicación 1ª, en el que la tabla (510) de objetos de red es leída desde una posición que almacena objetos de red para múltiples objetos de red.

4. Un método según cualquiera de las reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red está incluida en un archivo (500) de definición de diálogo que también incluye una gramática (214) específica de contexto.

5. Un método según cualquiera de las reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red está incluida en un archivo (500) de definición de diálogo que también incluye entradas para una base de datos (218) de procesador de lenguaje natural.

6. Un método según cualquiera de las reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red está incluida en una archivo (500) de definición de diálogo que también incluye una gramática (214) específica de contexto y entradas para una base de datos (218) de procesador de lenguaje natural.

7. Un sistema para actualizar un ordenador (100) para interacción por un usuario con un objeto de red, comprendiendo el sistema: un enlace de red (116) configurado para transferir un archivo (500) de definición de diálogo asociado con un objeto de red, en el que el archivo (500) de definición de diálogo contiene una tabla (510) de objetos de red que tiene una correspondencia de entrada (520) para el objeto de red y especificar una o más acciones asociadas con el objeto de red; un procesador (201) de datos configurado para buscar la tabla (510) de objetos de red para una correspondencia de entrada para la interacción; un enlace de aplicación (220) configurado para realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la tabla (510) de objetos de red, incluyendo la acción actualizar un archivo (212) de gramática específica de contexto con gramática relativa al objeto de red; un procesador (200) de voz dispuesto para buscar el archivo gramatical (212) específico de contexto para una correspondencia de frase para otra interacción relativa a un objeto de red recibido desde un usuario, buscar una archivo gramatical general (214) para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo gramatical (212) específico de contexto, buscar una gramática de dictado (216) para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo (214) gramatical general, y buscar un modelo de dictado (300) específico de contexto si la correspondencia de frase no es encontrada en la gramática de dictado (216); y, un procesador (202) de lenguaje natural configurado para buscar una base de datos (218) para una correspondencia de entrada para la correspondencia de frase, representando dichas entradas frases que son conocidas para la base de datos, estando configurado el enlace de aplicación (220) para realizar una acción asociada con la correspondencia de entrada si la correspondencia de entrada es encontrada en la base de datos, y preguntar al usuario acerca del objeto de red si no se ha encontrado correspondencia de entrada.