ES2235508T3 - Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural. - Google Patents

Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.

Info

Publication number
ES2235508T3
ES2235508T3 ES99945549T ES99945549T ES2235508T3 ES 2235508 T3 ES2235508 T3 ES 2235508T3 ES 99945549 T ES99945549 T ES 99945549T ES 99945549 T ES99945549 T ES 99945549T ES 2235508 T3 ES2235508 T3 ES 2235508T3
Authority
ES
Spain
Prior art keywords
correspondence
network
grammar
file
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99945549T
Other languages
English (en)
Inventor
Dean C. Weber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ONE VOICE TECHNOLOGIES Inc
Original Assignee
ONE VOICE TECHNOLOGIES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22534628&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2235508(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ONE VOICE TECHNOLOGIES Inc filed Critical ONE VOICE TECHNOLOGIES Inc
Application granted granted Critical
Publication of ES2235508T3 publication Critical patent/ES2235508T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

Un método de interactuar con un objeto de red, comprendiendo el método: recibir una interacción (602) relativa a un objeto de red desde un usuario; determinar si una tabla (510) de objetos de red está asociada con dicho objeto de red; obtener la tabla (510) de objetos de red asociada con dicho objeto de red si dicha tabla (510) de objetos de red existe, teniendo la tabla (510) de objetos de red una entrada (520) correspondiente a dicho objeto de red y especificando una o más acciones asociadas con dicho objeto de red; buscar (626) la tabla (510) de objetos de red obtenida por ello para una correspondencia de entrada (540) para dicho objeto de red; realizar una acción asociada con dicha correspondencia de entrada (540) si dicha correspondencia de entrada es encontrada en dicha tabla (510) de objetos de red, incluyendo la acción actualizar (644) un primer archivo de gramática con gramática relativa a dicho objeto de red; buscar (304) el primer archivo de gramática (212) para una correspondencia de frase para otra interacción relativa a un objeto de red recibido desde un usuario; buscar (310) un segundo archivo de gramática (214) para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo gramatical; buscar una base de datos (218) del lenguaje natural para una correspondencia de entrada para dicha correspondencia de frase, representando dichas entradas frases que son conocidas por dicha base de datos; y, a realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la base de datos (218) de lenguaje natural; y advertir (360) al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos (218) de lenguaje natural.

Description

Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.
El presente invento se refiere a un método de interactuar con un objeto de red, y a un sistema para actualizar un ordenador para interacción de un usuario con un objeto de red.
El presente invento se refiere en general al reconocimiento de voz para un enlace de usuario de ordenador de red, y más específicamente, el presente invento se refiere a un nuevo método sistema para interacción de un usuario con un ordenador utilizando reconocimiento de voz y tratamiento de lenguaje natural.
Cuando los ordenadores han resultado más frecuentes ha resultado claro que muchas personas tienen una gran dificultad de comprensión y comunicación con los ordenadores. Un usuario debe a menudo aprender instrucciones u órdenes arcaicos y procedimientos no intuitivos a fin de hacer funcionar el ordenador. Por ejemplo, la mayor parte de los ordenadores personales usan sistemas operativos basados en ventanas que son ampliamente accionadas mediante menús. Esto requiere que el usuario aprenda qué instrucciones de menú o secuencia de instrucciones producen los resultados deseados.
Además, la interacción tradicional con un ordenador es a menudo reducida en su velocidad por los dispositivos de entrada manuales tales como teclados o ratones. Muchos usuarios de ordenador no son escritores de máquina rápidos. Como resultado, se consume mucho tiempo comunicando instrucciones y palabras al ordenador a través de estos dispositivos de entrada manuales. Está resultando claro que se necesita un método más fácil, más rápido y más intuitivo de comunicación con ordenadores y objetos de red, tales como sitios web.
Un método propuesto de interacción con un ordenador es el reconocimiento de voz. El reconocimiento de voz implica software y hardware que actúan juntos para detectar la voz humana de modo audible y traducir la voz detectada a una cadena de palabras. Como es conocido en la técnica, el reconocimiento de voz trabaja rompiendo sonidos que el hardware detecta en sonidos menores no divisibles llamados fonemas. Los fonemas son unidades de sonido distintas. Por ejemplo, la palabra inglesa "those" está constituida por tres fonemas; el primero es el sonido "th", el segundo es el sonido "o", y el tercero es el sonido "s". El software de reconocimiento de voz intenta hacer coincidir los fonemas detectados con palabras conocidas de un diccionario almacenado. Un ejemplo de un sistema de reconocimiento de voz está dado en la patente norteamericana nº 4.783.803, titulada "Aparato y método de reconocimiento de voz", concedida el 8 de noviembre de 1998, asignada a Dragon Systems, Inc., e incorporada aquí como referencia. Actualmente, hay muchos paquetes de software de reconocimiento de voz comercialmente disponibles que pueden encontrarse en compañías tales como Dragon Systems Inc., y en International Business Machines, Inc.
Una limitación de estos paquetes o sistemas de software de reconocimiento de voz es que típicamente sólo realizan mando y control o funciones de dictado. Así, al usuario se le requiere aún aprender un vocabulario de instrucciones a fin de hacer funcionar el ordenador.
Una mejora propuesta a estos sistemas de reconocimiento de voz es procesar las palabras detectadas usando un sistema de tratamiento de lenguaje natural. El tratamiento de lenguaje natural implica generalmente determinar un "significado" conceptual (por ejemplo, qué significado está destinado a transportar el que voz) de las palabras detectadas analizando su relación gramática y el contexto relativo. Por ejemplo, la patente norteamericana nº 4.887.212, titulada "Analizador gramatical para texto de lenguaje natural", concedida el 12 de diciembre de 1989, asignada a International Business Machines Corporation e incorporada aquí como referencia, muestra un método de análisis gramatical de una corriente de palabras de entrada usando aislamiento de palabras, análisis morfológico, búsqueda en diccionario y análisis gramatical.
El tratamiento de lenguaje natural usado de acuerdo con el reconocimiento de voz proporcionar un útil potente para hacer funcionar un ordenador usando palabras habladas en vez de entrada manual tal como mediante un teclado o ratón. Sin embargo, un inconveniente de un sistema de tratamiento de lenguaje natural tradicional es que puede fallar al determinar el "significado" correcto de las palabras detectadas por el sistema de reconocimiento de voz. En tal caso, el usuario es requerido típicamente para recomponer o restablecer la frase, con la esperanza de que el sistema de tratamiento de lenguaje natural determine el correcto "significado" en intentos subsiguientes. Claramente, esto puede conducir a retardos sustanciales cuando el usuario es requerido para restaurar la frase o instrucción completa. Otro inconveniente de sistemas tradicionales es que el tiempo de tratamiento requerido para el reconocimiento de voz puede ser prohibitivamente largo. Esto es fundamentalmente debido a la velocidad finita de los recursos de tratamiento en comparación con la gran cantidad de información que ha de ser procesada. Por ejemplo, en muchos programas de reconocimiento de voz tradicionales, el tiempo requerido para reconocer la expresión es largo debido al tamaño del archivo del diccionario que es buscado.
Un inconveniente adicional de los sistemas de reconocimiento de voz y de tratamiento de lenguaje natural tradicionales es que no son interactivos, y así son incapaces de cubrir nuevas situaciones. Cuando un sistema de ordenador encuentra objetos de red desconocidos o nuevos, se forman nueva relaciones entre el ordenador y los objetos. Los sistemas de reconocimiento de voz y de tratamiento de lenguaje natural tradicionales son incapaces de cubrir las situaciones que resultan de las nuevas relaciones planteadas por objetos de red previamente desconocidos. Como resultado, no es posible una interacción de estilo conversacional con el ordenador. El usuario es requerido para comunicar conceptos completos al ordenador. El usuario no es capaz de hablar en fragmentos de frases debido a que el significado de estos fragmentos de frases (que depende del significado de expresiones previas) se perderá.
Lo que se necesita es un enlace de usuario interactivo para un ordenador que utiliza reconocimiento de voz y tratamiento de lenguaje natural que evite los inconvenientes mencionados anteriormente.
El documento EP-A-0854418 describe un sistema para añadir capacidades de reconocimiento de voz a Java cuando hay previsto un servidor de reconocimiento de voz acoplado a una aplicación de Java a través de un enlace de programa de aplicación.
De acuerdo con un primer aspecto del presente invento se ha creado un método de interactuar con un objeto de red, comprendiendo el método: recibir una interacción relativa a un objeto de red desde un usuario; determinar si una tabla de objetos de red está asociada con dicho objeto de red; obtener la tabla de objetos de red asociada con dicho objeto de red si dicha tabla de objetos de red existe, teniendo la tabla de objeto de red una entrada correspondiente a dicho objeto de red y especificando una o más acciones asociadas con dicho objeto de red; buscar la tabla de objetos de red obtenida por ello para una correspondencia de entrada para dicho objeto de red; realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en dicha tabla de objetos de red, incluyendo la acción actualizar un primer archivo gramatical con gramática relativa a dicho objeto de red; buscar el primer archivo gramatical para una correspondencia de frase para otra interacción con relación a un objeto de red recibido desde un usuario; buscar un segundo archivo gramatical para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo gramatical; buscar una base de datos de lenguaje natural para una correspondencia de entrada para dicha correspondencia de frase; y, realizar una acción asociada con dicha correspondencia de entrada si dicha entrada de correspondencia es encontrada en la base de datos del lenguaje natural; y, advierte al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos de lenguaje natural.
De acuerdo con un segundo aspecto del presente invento se ha creado un sistema para actualizar un ordenador para interacción por un usuario con un objeto de red, comprendiendo el sistema: un enlace de red configurado para transferir un archivo de definición de diálogo asociado con un objeto de red, en el que el archivo de definición de diálogo contiene una tabla de objetos de red que tiene una correspondencia de entrada para el objeto de red y especificar una o más acciones asociadas con el objeto de red; un procesador de datos configurado para buscar la tabla de objetos de red para una correspondencia de entrada para la interacción; un enlace de aplicación configurado para realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la tabla de objetos de red, incluyendo la acción actualizar un archivo gramatical específico de contexto con gramática relativa al objeto de red; un procesador de voz dispuesto para buscar el archivo de gramática específico de contexto para una correspondencia de frase para otra interacción con relación a un objeto de red recibido desde un usuario, buscar un archivo de gramática general para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo de gramática específico de contexto, buscar una gramática de dictado para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo de gramática general, y buscar un modelo de dictado específico de contexto si la correspondencia de frase no es encontrada en la gramática de dictado; y, un procesador de lenguaje natural configurado para buscar una base de datos para una correspondencia de entrada para la correspondencia de frase; estando configurado el enlace de aplicación para realizar una acción asociada con la correspondencia de entrada si la correspondencia de entrada es encontrada en la base de datos, y preguntar al usuario acerca del objeto de red si no se ha encontrado la correspondencia de entrada.
En una realización, el presente invento proporciona un sistema y método para interactuar con un ordenador que usa expresiones, tratamiento de voz y tratamiento de lenguaje natural. Genéricamente, el sistema comprende un procesador de voz para buscar un primer archivo gramatical para la correspondencia de frase para la expresión, y para buscar un segundo archivo gramatical para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo de gramática. El sistema también incluye un procesador de lenguaje natural para buscar una base de datos para una correspondencia de entradas para la correspondencia de frase; y un enlace de aplicación para realizar una acción asociada con la correspondencia de entrada si la correspondencia de entrada es encontrada en la base de datos.
En la realización preferida, el procesador de lenguaje natural actualiza al menos una de las bases de datos, el primer archivo de gramática y el segundo archivo de gramática con la correspondencia de frase si la correspondencia de entrada no es encontrada en la base de datos.
En una realización, el primer archivo de gramática es un archivo de gramática específico de contexto. Un archivo de gramática específico de contexto es aquel que contiene palabras y frases que son muy importantes para un sujeto específico. El segundo archivo de gramática es un archivo de gramática general. Un archivo de gramática general es el que contiene palabras y frases que no necesitan ser interpretadas a la luz de un contexto. Es decir, las palabras y frases en el archivo de gramática general no pertenecen a ningún contexto pariente. Buscando el archivo de gramática específica de contexto antes de buscar el archivo de gramática general, el presente invento permite al usuario comunicar con el ordenador usando un estilo más conversacional, en el que las palabras habladas, si son encontradas en el archivo de gramática específico de contexto, son interpretadas a la luz del sujeto más recientemente descrito.
En una realización, el procesador de voz busca una gramática de dictado para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo de gramática general. La gramática de dictado es un gran vocabulario de palabras y frases generales. Buscando las gramáticas específicas de contexto y general en primer lugar, se espera que el tiempo de reconocimiento de voz será muy reducido debido a que las gramáticas específica de contexto y general son archivos menores físicamente que la gramática de dictado.
En una realización, el procesador de lenguaje natural sustituye al menos una palabra en la correspondencia de frase antes de buscar la base de datos. Esto puede conseguirse mediante un dispositivo de sustitución variable en el procesador de lenguaje natural para sustituir un comodín durante al menos una palabra en la correspondencia de frase. Sustituyendo comodines por ciertas palabras (llamadas "palabras variables") en la frase, puede reducirse significativamente el número de entradas en la base de datos. Adicionalmente, un dispositivo para sustituir pronombres en el procesador de lenguaje natural puede sustituir un nombre propio por pronombres de la correspondencia de frase, permitiendo que hechos específicos del usuario sean almacenados en la base de datos.
En una realización, un texto formateador de cadenas formatea la correspondencia de frase antes de buscar la base de datos. También, un dispositivo para pesar palabras presas para las individuales en la correspondencia de frase de acuerdo con un significado relativo de las palabras individuales antes de buscar la base de datos. Estas operaciones permiten una búsqueda más rápida y, más exacta de la base de datos.
En una realización, un motor de búsqueda en el procesador de lenguaje natural genera un valor de confianza para la correspondencia de entrada. El procesador de lenguaje natural compara el valor de confianza con un valor de umbral. Un dispositivo de prueba booleano determina si un número requerido de palabras procedente de la frase de correspondencia están presentes en la correspondencia de entrada. Esta prueba booleana sirve como verificación del resultado devuelto por el motor de búsqueda.
En una realización, a fin de eliminar ambigüedades, el procesador de lenguaje natural advierte o indica al usuario si la correspondencia de entrada es una correcta interpretación de la expresión si el número requerido de palabras procedentes de la correspondencia de frase no están presentes en la correspondencia de entrada. El procesador de lenguaje natural también advierte al usuario de información adicional si la correspondencia de entrada no es una interpretación correcta de la expresión. Al menos una de las bases de datos, el primer archivo de gramática y el segundo archivo de gramática son actualizados con la información adicional. De este modo, el presente invento "enseña" de modo adaptable el significado de expresiones adicionales, mejorando por ello la eficiencia del enlace de usuario.
En una realización, el procesador de voz habilitará y buscará una gramática específica de contexto asociada con la correspondencia de entrada para una correspondencia de frase subsiguiente para una expresión subsiguiente. Esto asegura que las palabras y frases más relevantes serán buscadas primero, disminuyendo por ello los tiempos de reconocimiento de voz.
En una realización, el presente invento proporciona un método para actualizar una ordenador para interacción de voz con un objeto de red, tal como una página web. Inicialmente, una tabla de objetos de red, que asocia con el objeto de red el sistema de interacción de voz, es transferida al ordenador sobre una red. La situación de la tabla de objetos de red puede ser embebida dentro del objeto de red, en un sitio web de Internet específico, o en una situación consolidada que almacena tablas de objetos de red para múltiples objetos de red. La tabla de objetos de red es buscada para hacer corresponder la entrada con el objeto de red. La entrada que corresponde con el objeto de red puede dar como resultado que se realice una acción, tal como que una voz de texto sea pronunciada a través de un altavoz, usándose un archivo de gramática específico de contexto, o usándose una base de datos de procesador del lenguaje natural. La tabla de objetos de red puede ser parte de un archivo de definición de diálogo. Los archivos de definición de diálogo pueden también incluir una gramática específica de contexto, entradas para una base de datos de procesador del lenguaje natural, o ambas.
En una realización, un enlace de red transfiere un archivo de definición de diálogo desde la red. El archivo de definición de diálogo contiene una tabla de objetos de red. Un procesador de datos busca la tabla de objetos de red para una entrada de tabla que corresponde con el objeto de red. Una vez que se ha encontrado esta entrada de tabla de correspondencia, un enlace de aplicación realiza una acción especificada por la correspondencia de entrada.
En una realización, el archivo de definición de diálogo asociado con una red es cargado, y a continuación leído. El archivo de definición de diálogo podría ser leído desde una variedad de posiciones, tal como un sitio web, un medio de almacenamiento, o una posición que almacena archivos de definición de diálogo para múltiples objetos de red. Una tabla de objetos de red, contenida dentro del archivo de definición de diálogo, es buscada para encontrar una entrada de tabla que corresponde con el objeto de red. La entrada que corresponde define una acción asociada con el objeto de red, y la acción es a continuación realizada por el sistema. Además de una tabla de objetos de red, el archivo de diálogo puede contener una gramática específica de contexto, entradas para una base de datos de procesador de lenguaje natural o ambas.
Las características, objetos y ventajas del presente invento resultarán más evidentes a partir de la descripción detallada recogida a continuación cuando es tomada en unión con los dibujos en los que los caracteres de referencia similares se identifican correspondientemente en su totalidad y en la que:
\newpage
La fig. 1 es un diagrama de bloques funcional de un sistema de ordenador ejemplar para usar con el presente invento.
La fig. 2 es un diagrama de bloques funcional expandido de la CPU 102 y medio de almacenamiento 108 del sistema de ordenador de la fig. 1 del presente invento;
Las figs. 3A-3D son un diagrama de flujo del método de proporcionar reconocimiento de voz interactivo y tratamiento de lenguaje natural a un ordenador;
La fig. 4 es un diagrama de columnas seleccionadas de una base de datos de un tratamiento de lenguaje natural (NLP) ejemplar del presente invento;
La fig. 5 es un diagrama de un Archivo de Definición de Base de Datos (DDF) ejemplar de acuerdo con el presente invento;
La fig. 6 es un diagrama de columnas seleccionadas de una tabla de objetos conectados a una red ejemplar del presente invento;
Las figs. 7A-7C son un diagrama de flujo del método del presente invento, que ilustra el enlace de reconocimiento de voz interactivo y tratamiento de lenguaje natural a un objeto conectado a una red, tal como una página web; y
La fig. 8 es un diagrama que representa un sistema de ordenador que conecta a otros ordenadores, medios de almacenamiento, y sitios web mediante Internet.
El presente invento será ahora descrito con referencia a un diagrama de bloques funcional de un sistema de ordenador ejemplar 100 de a fig. 1. En la fig. 1, el sistema de ordenador 100 incluye una unidad de tratamiento central (CPU) 102. La CPU 102 puede ser cualquier microprocesador o microcontrolador de propósito general como es conocido en la técnica, programado apropiadamente para realizar el método descrito aquí con referencia a las figs. 3A-3D. El software para programar la CPU puede ser encontrado en el medio de almacenamiento 108 o alternativamente desde otra posición a través de una red de ordenadores. Por ejemplo, la CPU 102 puede ser un microprocesador tradicional tal como el procesador Pentium II fabricado por Intel Corporation o similar.
La CPU 102 comunica con una pluralidad de equipos periféricos, que incluyen una pantalla de presentación 104, entrada manual 106, medio de almacenamiento 108, micrófono 110, altavoz 112, y puerto de entrada de datos 114 y enlace de red 116. La pantalla de presentación 104 puede ser una presentación visual tal como una pantalla CRT, LCD, pantalla sensible al tacto, u otros monitores como son conocidos en la técnica para presentar visualmente imágenes y texto a un usuario. La entrada manual 106 puede ser un teclado tradicional, una almohadilla de teclado, un ratón, una bola de seguimiento (trackball), u otro dispositivo de entrada como es conocido en la técnica para la entrada manual de datos. El medio de almacenamiento 108 puede ser una memoria de lectura/escritura tradicional tal como una unidad de disco magnético, una unidad de disco flexible, una unidad de CD-ROM, una memoria de silicio, u otro dispositivo de memoria como es conocido en la técnica para almacenar y recuperar datos. Significativamente, el medio de almacenamiento 108 puede ser situado a distancia de la CPU 102, y estar conectado a la CPU 102 mediante una red tal como una red de área local (LAN), o una red de gran área (WAN), o Internet. El micrófono 110 puede ser cualquier micrófono adecuado como es conocido en la técnica para proporcionar señales de audio a la CPU 102. El altavoz 112 puede ser cualquier altavoz adecuado como es conocido en la técnica para reproducir señales de audio desde la CPU 102. Se ha comprendido que el micrófono 110 y el altavoz 112 pueden incluir circuitos de conversión de digital a analógico y de analógico a digital apropiados cuando sea apropiado. El puerto de entrada de datos 114 puede ser cualquier puerto de datos como es conocido en la técnica para enlazar con un accesorio externo que usa un protocolo de datos tal como el RS-232, Línea de Transmisión en Serie Universal, o similar. El enlace de red 116 puede ser cualquier enlace como es conocido en la técnica para comunicar o transferir archivos a través de una red de ordenadores, ejemplos de tales redes incluyen redes TCP/IP, ethernet, o token ring. Además, en algunos sistemas, un enlace de red 116 puede consistir de un modem conectado al puerto de entrada de datos 114.
Así, la fig. 1 ilustra los elementos funcionales de un sistema de ordenadores 100. Cada uno de los elementos del sistema de ordenadores 100 puede ser componente disponible adecuado como se ha descrito antes. El presente invento proporciona un método y sistema para interacción humana con el sistema de ordenadores 100 utilizando la voz.
Como se ha mostrado en la fig. 8, el sistema de ordenadores 100 puede ser conectado a la Internet 700, una colección de redes de ordenadores. Para conectar a la Internet 700, el sistema de ordenadores 100 puede usar un enlace de red 116, un modem conectado al puerto de entrada de datos 114, o cualquier otro método conocido en la técnica. Los sitios web 710, otros ordenadores 720, y medios de almacenamiento 108 pueden también ser conectados a la Internet a través de tales métodos conocidos en la técnica.
Volviendo ahora la fig. 2, la fig. 2 ilustra un diagrama de bloques funcional expandido de la CPU 102 y del medio de almacenamiento 108. Se comprende que los elementos funcionales de la fig. 2 pueden ser realizados completamente en software o hardware o en ambos. En el caso de una realización en software, el software puede ser encontrado en el medio de almacenamiento 108 o en una posición alternativa a través de una red de ordenadores. La CPU 102 incluye el procesador de reconocimiento de voz 200, el procesador de datos 201, el procesador de lenguaje natural 202, y el enlace de aplicación 220. El procesador de datos 201 enlaza con la presentación 104, el medio de almacenamiento 108, el micrófono 110, el altavoz 112, el puerto de entrada de datos 114, y el enlace de red 116. El procesador de datos 201 permite que la CPU sitúe y lea datos desde estas fuentes. El procesador de lenguaje natural 202 incluye además el reemplazador variable 204, el formateador de cadena 206, el dispositivo de pesaje de palabras 208, el probador booleano 210, el reemplazador de pronombres 211, y el motor de búsqueda 213. El medio de almacenamiento 108 incluye una pluralidad de archivos de gramática específicos de contexto 212, archivo de gramática general 214, gramática de dictado 216, y base de datos 218 de procesador de lenguaje natural (NLP). En la realización preferida, los archivos de gramática 212, 214, y 216 son archivos en Forma Bakus-Naur (BNF) que describen la estructura del lenguaje hablado por el usuario. Los archivos BNF son bien conocidos en la técnica para describir la estructura del lenguaje, y por ello no se describirán aquí los detalles de los archivos BNF. Una ventaja de los archivos BNF es que estructuras jerárquicas a modo de árbol pueden ser usadas para describir secuencias de frases o de palabras, sin necesidad de recitar explícitamente todas las combinaciones de estas secuencias de palabras. Así, el uso de archivos BNF en la realización preferida minimiza los tamaños físicos de los archivos 212, 214, y 216 en el medio de almacenamiento 108, aumentando la velocidad a la que estos archivos pueden ser habilitados y buscados como se ha descrito más abajo. Sin embargo, en realizaciones alternativas, se usan otras estructuras de archivos.
El funcionamiento e interacción de estos elementos funcionales de la fig. 2 serán descritos con referencia a los diagramas de flujo de las figs. 3A-3D. En la fig. 3A, el flujo comienza en el bloque 300 con el suministro de una expresión al procesador de voz 200. Una expresión es una serie de sonidos que tienen un comienzo y un final, y puede incluir una o más palabras habladas. El micrófono 110 que captura palabras habladas puede realizar la operación del bloque 300. Alternativamente, la expresión puede ser proporcionada al procesador de voz 200 sobre el puerto de entrada de datos 114, o desde el medio de almacenamiento 108. Preferiblemente, la expresión está en un formato digital tal como el bien conocido formato de archivo de audio ".wav".
El flujo avanza a la decisión 302 donde el procesador de voz 200 determina si una de las gramáticas específicas de contexto 212 ha sido habilitada. Si las gramáticas específicas de contexto 212 son habilitadas, las gramáticas específicas de contexto 212 son buscadas en el bloque 304. En la realización preferida las gramáticas específicas de contexto 212 son archivos BNF que contienen palabras y frases que están relacionadas con un contexto padre. En general, un contexto es un área sujeto. Por ejemplo, en una realización del presente invento aplicable a ordenadores personales, los ejemplos de contextos pueden ser "noticias", o "tiempo", o "bolsa". En tal caso, las gramáticas específicas de contexto 212 contendrían cada una instrucciones u órdenes, palabras de control, descriptores, calificadores, o parámetros que corresponden a uno diferente de estos contextos. El uso de contextos proporciona una estructura jerárquica para tipos de información. Los contextos y su uso serán además descritos después con referencia a la base de datos 218 de NLP.
Si una gramática específica de contexto 212 ha sido habilitada, la gramática específica de contexto 212 es buscada para una correspondencia con la expresión proporcionada en el bloque 300. Sin embargo, si una gramática específica de contexto 212 no ha sido habilitada, el flujo prosigue al bloque 308 donde la gramática general 214 es habilitada.
En la realización preferida, la gramática general 214 es un archivo BNF que contiene palabras y frases que no pertenecen por ellas mismas, a un contexto padre, pero pueden tener un contexto asociado para el que existe un archivo de gramática específica de contexto 212. En otras palabras, las palabras y frases en la gramática general 214 puede estar en la raíz de la estructura de contexto jerárquica. Por ejemplo, en una realización aplicable a ordenadores personales, la gramática general 214 contendría instrucciones y frases de control.
En el bloque 310, la gramática general 214 es buscada por una correspondencia de palabra o frase para la expresión proporcionada en el bloque 300. Se toma una decisión, dependiendo de si se ha encontrado la correspondencia, en el bloque 312. Si no se ha encontrado una correspondencia, entonces la gramática de dictado 216 es habilitada en el bloque 314. En la realización preferida, la gramática de dictado 216 es un archivo BNF que contiene una lista de palabras que no tienen, por si mismas, un contexto padre o un contexto asociado. Por ejemplo, en una realización aplicable a un ordenador personal, la gramática de dictado 216 contiene una lista relativamente grande de palabras generales similar a un diccionario general.
En el bloque 316 la gramática de dictado es buscada para correspondencia de palabras para cada palabra de la expresión proporcionada en el bloque 300. En el bloque de decisión 318, si no se han encontrado correspondencia de palabras, un mensaje de error visual es opcionalmente presentado en la presentación 104 o un mensaje de error audible es opcionalmente reproducido a través del altavoz 112, en el bloque 320. El proceso termina hasta que se ha proporcionado otra expresión al procesador de voz 200 en el bloque 300.
Así, como puede verse a partir de la descripción anterior, cuando una expresión es proporcionada al procesador de voz 200, la gramática específica de contexto 212 habilitada, si la hay, es en primer lugar buscada. Si no hay correspondencias en la gramática específica de contexto 212 habilitada, entonces la gramática general 214 es habilitada y buscada. Si no hay correspondencias en la gramática general 214, entonces la gramática de dictado 316 es habilitada y buscada.
En la realización preferida, cuando el procesador de reconocimiento de voz 200 está buscando bien la gramática específica de contexto 212 o bien la gramática general 214, se dice que está en el modo "orden y control". En este modo, el procesador de reconocimiento de voz 200 compara la expresión completa como un todo a las entradas en la gramática. Por contraste, cuando el procesador de reconocimiento de voz 200 está buscando la gramática de dictado, se dice que está en modo "dictado". En este modo, el procesador de reconocimiento de voz 200 compara la expresión a las entradas en la gramática de dictado 216 de palabra en palabra. Se espera que buscar una correspondencia para una expresión completa en el modo de orden y control será generalmente más rápido que buscar de palabra en palabra en un modo de dictado.
Se espera además que cualquier gramática específica de contexto 212 individual será menor de tamaño (es decir, menos palabras y frases en total) que la gramática general 214, que a su vez será menor de tamaño que la gramática de dictado 216. Así, buscando en primer lugar cualquier gramática específica de contexto 212 habilitada, es probable que se encuentre más rápidamente una correspondencia, si la hay, debido al menos en parte al menor tamaño del archivo. De modo similar, buscando la gramática general 14 antes que la gramática de dictado 216, es probable que se encuentre más rápidamente una correspondencia, si la hay.
Adicionalmente, como se explicará más adelante además con respecto a la capacidad del presente invento de añadir de modo adaptable tanto a la gramática específica de contexto 212 como a la gramática general 214, contendrán las expresiones más comunes. Como tal, se espera más probablemente que se encuentre más rápidamente una correspondencia en la gramática específica de contexto 212 o en la gramática general 214 que en la gramática de dictado 216.
Finalmente, como se explicará después además, las palabras y frases en la gramática específica de contexto 212 habilitada son más probables que sean expresadas por el usuario porque son palabras que son muy importantes para la cuestión acerca de la que el usuario estuvo hablando más recientemente. Esto permite también que el usuario hable en un estilo más conversacional, usando fragmentos de sentencias, siendo interpretado el significado de sus palabras de acuerdo con la gramática específica de contexto 212 habilitada.
Buscando en la secuencia antes descrita, el presente invento puede buscar más eficientemente que si la búsqueda ocurriese una entrada en un instante en una única lista grande de todas las palabras y frases esperadas.
Con referencia de nuevo a la decisión 306, si se encuentra una correspondencia en la gramática específica de contexto 212, entonces hay tres posibles operaciones siguientes mostradas en la fig. 3A. Para cada entrada de correspondencia en la gramática específica de contexto 212 habilitada, puede haber una acción asociada que ha de ser tomada por el procesador de reconocimiento de voz 200. El bloque 322 muestra que una acción puede ser al enlace de aplicación directo 220 para tomar alguna acción con respecto a una aplicación o entidad de software separada. Por ejemplo, el enlace de aplicación 220 puede usar la norma del Enlace de Programación de Aplicación de Voz (SAPI) por Microsoft para comunicar con una aplicación externa. La aplicación externa puede ser dirigida, por ejemplo, para acceder a un URL de sitio web de Internet particular o para decir una frase particular convirtiendo texto a voz. Pueden ser tomadas otras acciones como se describirá más abajo además con referencia a la base de datos 218 de NLP de la fig. 4.
El bloque 324 muestra que otra acción puede ser acceder a una fila en la base de datos 218 de tratamiento de lenguaje natural (NLP) directamente, puenteando por ello las operaciones de tratamiento de lenguaje natural descritas adicionalmente más abajo. El bloque 326 muestra que otra acción puede ser preparar una palabra o frase para el contexto habilitado a la correspondencia de palabra o frase encontrada en la gramática 306 específica de contexto. Por ejemplo, si el contexto habilitado fuera "películas" y la expresión de correspondencia fuera "8 en punto", la palabra "películas" sería preparada a la frase "8 en punto" para formar la frase "películas a las 8 en punto".
Asimismo, si se encuentra una correspondencia en la gramática general 214, entonces el flujo puede proseguir al bloque 322 donde el enlace de aplicación 220 es dirigido para tomar una acción como se ha descrito antes, o al bloque 324 donde una fila en la base de datos de NLP es accedida directamente. Sin embargo, si se encuentra una correspondencia en la gramática general 214, no ocurre una preparación de un contexto porque, como se ha indicado antes, las entradas en la gramática general 214, no tienen, por ellas mismas, un contexto padre.
Alternativamente, las palabras introducidas manualmente pueden ser capturadas, en el bloque 301, e introducidas en el procesador de lenguaje natural.
Finalmente, con referencia a la fig. 3A, las palabras pueden ser introducidas manualmente mediante la entrada manual 106. En este caso, no es requerido el reconocimiento de voz, y aún el tratamiento de lenguaje natural de las palabras introducidas es aún deseado. Así, el flujo prosigue o avanza a la fig. 3B.
En la fig. 3B, en el bloque 328, el procesador de lenguaje natural 202 formatea la frase para el análisis de tratamiento del lenguaje natural. Este formateado es realizado por un formateador de cadena 206 y puede incluir un tratamiento de texto tal como eliminar espacios duplicados entre palabras, pasar todas las letras a minúsculas (o mayúsculas), expandir contracciones (por ejemplo, cambiar en inglés "it's" por "it is"), y similar. El propósito de esta operación de formateado es preparar la frase para el análisis.
El flujo continua al bloque 330 donde ciertas "variables de palabra" son reemplazadas con una función comodín asociada por el reemplazador de variable 204 en preparación para acceder a la base de datos 218 de NLP. Como se ha usado aquí, el término "variables de palabra" se refiere a palabras o frases que representan cantidades, fechas, horas, monedas, y similares. Por ejemplo, en una realización, la frase "qué películas se están proyectando a las 8 en punto" sería transformada en el bloque 330 a "qué películas se están proyectando en \textdollartime" donde "\textdollartime" es una función comodín usada para representar cualquier valor de tiempo. Como otro ejemplo, en una realización, la frase "vender acciones de IBM a 100 dólares" sería transformada en el bloque 330 a "vender acciones de IBM a \textdollardólares" donde "\textdollardólares" es una función comodín usada para representa cualquier valor en dólares. Esta operación puede ser realizada por un bucle simple que busca la frase para señales claves tales como las palabras "dólar" o "en punto" y reemplaza las variables de palabra con una función comodín especificada. Con el fin de mantener el seguimiento de la posición en la frase donde se hizo la sustitución, puede usarse una matriz. Esto permite volver a sustituir la variable de palabra original de nuevo a la frase en alguna posición después de que la base de datos 218 de NLP haya sido
buscada.
El propósito de reemplazar variables de palabra por una función de comodín asociada en el bloque 330 es reducir el número de entradas que debe haber presentes en la base de datos 218 de NLP. Por ejemplo, la base de datos 218 de NLP contendría solamente la frase "qué películas se están proyectando en \textdollartime" en vez de una entrada separada para las ocho en punto, las 9 en punto, las 10 en punto, y así sucesivamente. La base de datos 218 de NLP será descrita adicionalmente más abajo.
En el bloque 332, los pronombres de la frase son reemplazados por nombres propios por el dispositivo reemplazador de pronombres 211. Por ejemplo, en una realización los pronombres "Yo", "mi" o "mío" serían reemplazados con el nombre del que habla. El propósito de esta operación es permitir que hechos específicos del usuario sean almacenados y accedidos en la base de datos 218 de NLP. Por ejemplo, la frase "quiénes son mis niños" sería transformada en "quiénes son los niños de Dean", en la que "Dean" es el nombre propio del que habla. De nuevo, esta operación puede ser realizada en un simple bucle que busca los pronombres en la frase, y sustituye los pronombres encontrados por un nombre propio apropiado. A fin de conservar el seguimiento de los lugares de la frase en los que se ha hecho una sustitución, puede ser usada una matriz.
En el bloque 334, las palabras individuales en la base son ponderadas de acuerdo con su "importancia" o "significado" relativo al significado total de la frase por el pesador de palabras 208. Por ejemplo, en una realización hay tres factores de ponderación asignados. El menor factor de ponderación es asignado a palabras tales como "un", "el" y otros artículos. El mayor factor de ponderación se le da a palabras que probablemente tienen una relación significativa con el significado de las frases. Por ejemplo, éstas pueden incluir todos los verbos, nombres, adjetivos, y nombres propios en la base de datos 218 de NLP. Un factor de ponderación medios se le da a todas las demás palabras de la frase. El propósito de esta ponderación es permitir una búsqueda más potente de la base de datos 218 de NLP.
Un ejemplo de columnas seleccionadas de la base de datos 218 de NLP de una realización está mostrado en la fig. 4. La base de datos 218 de NLP comprende una pluralidad de columnas 400-410, y una pluralidad de filas 412A-412N. En la columna 400, las entradas representan frases que son "conocidas" para la base de datos de NLP. En la columna 402, se ha mostrado un número de palabras requeridas para cada entrada en la columna 400. En la columna 404, se ha mostrado un contexto o subcontexto asociado para cada entrada en la columna 400. Debe observarse que la base de datos 218 de NLP mostrada en la fig. 4 es simplemente un ejemplo simplificado con el propósito de enseñanza del presente invento. Otras realizaciones pueden tener más o menos columnas con diferentes entradas.
Con referencia de nuevo a la fig. 3B, en el bloque 336, se buscan en la base de datos 218 de NLP posibles correspondencias a la frase, basadas en si la entrada en la columna 400 de la base de datos 218 de NLP contiene alguna de las palabras de la frase (o sus sinónimos), y los pesos relativos de esas palabras. En el bloque 338, se genera un valor de confianza para cada una de las posibles entradas de correspondencia basado en el número de ocurrencia de cada una de las palabras en la frase y sus pesos relativos. La búsqueda de palabra ponderada de una base de datos es bien conocida en la técnica y puede ser realizada por motores de búsqueda comercialmente disponibles tales como el producto "dtsearch" de DT Software, Inc., de Arlington, Virginia. De modo similar, la búsqueda utilizando sinónimos es bien conocida en la técnica y puede ser llevada a cabo utilizando útiles disponibles públicamente tales como "WordNet", desarrollado por el Cognitive Science Laboratory de Princeton Universidad de Princeton, New Jersey. El motor de búsqueda puede ser una parte integral del procesador 202 de lenguaje natural.
En la decisión 340, el procesador 202 del lenguaje natural determina si alguna de las posibles entrada de correspondencia tiene un valor de confianza mayor o igual que alguno del umbral mínimo predeterminado, T. El umbral T representa el menor valor de confianza aceptable para el que puede tomarse una decisión de si la frase correspondía con cualquiera de las entradas en la base de datos 218 de NLP. Si no hay entrada de correspondencia posible con un valor de confianza mayor que o igual a T, entonces el flujo prosigue al bloque 342 donde un mensaje de error opcional es o bien visualmente presentado al usuario sobre la pantalla de presentación 104 o bien audiblemente reproducido sobre el altavoz 112. En una realización, el tipo de mensaje de error, si lo hay, presentado el usuario puede depender de cuantos "aciertos" (es decir cuántas palabras correspondientes de la frase) se han encontrado en la entrada de base de datos de NLP de mayor confianza. Se generaría un tipo diferente de mensaje de error si hubiera cero o un aciertos, que si hubiera dos o más aciertos.
Si, sin embargo hay al menos una entrada en la base de 218 de NLP para la que existe un valor de confianza mayor que o igual a T, entonces el flujo prosigue al bloque 344 donde las palabras de "ruido" son desechadas de la frase. Las palabras de "ruido" incluyen palabras que no contribuyen significativamente al significado completo de la frase con relación a las otras palabras de la frase. Estas pueden incluir artículos, pronombres, conjunciones, y palabras de una naturaleza similar. Palabras que "no son ruidos" incluirían palabras que contribuyen significativamente al significado completo de la frase. Palabras que "no son ruido" incluirían verbos, nombres, adjetivos, y nombres propios, y palabras de una naturaleza similar.
El flujo prosigue a la fig. 3C donde el requisito de la palabra que no es ruido es recuperado de la columna 402 de la base de datos 218 de NLP para la correspondencia de entrada de mayor confianza en el bloque 346. Por ejemplo, si la correspondencia de frase de mayor confianza fuera la entrada en la fila 412A, (por ejemplo "que películas están proyectando en el \textdollartime"), entonces el número de palabras que no son ruido requeridas es 3.
En la decisión 348, se ha hecho una prueba para determinar si el número de palabras que no son ruido requeridas de la frase está realmente presente en la entrada de mayor confianza recuperada de la base de datos 218 de NLP. Esta prueba es una verificación de la exactitud de la búsqueda de estilo de relevancia realizada en el bloque 336, comprendiéndose que una entrada puede generar un valor de confianza mayor que el mínimo umbral T, sin ser una correspondencia aceptable para la frase.
La naturaleza de la prueba realizada en la decisión 348 es una prueba "Y" booleana realizada por un dispositivo de prueba 210 booleano. La prueba determina si cada una de las palabras incluidas en la frase (o su sinónimo) está realmente presente en la entrada de mayor confianza. Si hay un número suficiente de palabras requeridas realmente presentes en la entrada de mayor confianza, entonces el flujo prosigue a lo que 350, donde el procesador 202 de lenguaje natural dirige el enlace de aplicación 220 para tomar una acción asociada desde la columna 408 ó 410. Se comprende que puede también haber presentes columnas de acción adicional.
Por ejemplo, si la entrada de mayor confianza era la entrada en la fila 412A, y la prueba booleana de decisión 348 determinaba que había realmente 3 palabras que no son ruido de la frase en la entrada en la columna 400, entonces se tomaría la acción asociada en la columna 408 (por ejemplo acceso al sitio web de película). Otras entradas en la base de datos de NLP tienen otras acciones asociadas. Por ejemplo, si la entrada de mayor confianza es la de la fila 412E (por ejemplo "qué hora es"), la acción asociada puede ser que el procesador 202 de lenguaje natural dirija una aplicación de texto a voz (no mostrado) para decir el instante actual al usuario a través del altavoz 112. Como otro ejemplo, si la entrada de mayor confianza es la de la fila 412N (por ejemplo, "muéstrame las noticias"), la primera acción asociada puede ser acceder a un sitio web de noticias predeterminado en la Internet, y una segunda acción asociada puede ser dirigir una aplicación de presentación de imágenes (no mostrada) para presentar imágenes asociadas con las noticias. Pueden también realizarse acciones diferentes o adicionales.
También, si la entrada de mayor confianza contiene el número requerido de palabras que no son ruido desde la frase como se ha determinado en le decisión 348, el procesador de lenguaje natural 202 instruye al procesador de reconocimiento de voz 200 para habilitar la gramática específica de contexto 212 para el contexto asociado de la columna 404. Así, para la fila 412A, la gramática específica de contexto 212 para el contexto "películas" sería habilitado. Así, cuando la siguiente expresión es proporcionada al procesador de reconocimiento de voz 200 en el bloque 300 de la fig. 3A, buscaría la gramática específica de contexto 212 para "películas" antes de buscar la gramática general 214. Como se ha dicho previamente, habilitar la gramática específica de contexto 212 apropiada aumenta mucho la probabilidad de un reconocimiento de voz rápido, satisfactorio, y mejora la capacidad del usuario para comunicar con el ordenador en un estilo conversacional.
Si, sin embargo, de nuevo en la decisión 348, el número requerido de palabras que no son ruido desde la frase no está presente realmente en la entrada de mayor confianza recuperada desde la base de datos 218 de NLP, entonces el flujo prosigue al bloque 354 donde el usuario es advertido sobre la presentación 104 o el altavoz 112 si la entrada de mayor confianza fuera significativa. Por ejemplo, si el usuario ha expresado "A cuánto se está vendiendo la acción de IBM hoy", la entrada de mayor confianza en la base de datos 218 de NLP puede ser la entrada en la fila 412B. En este caso, aunque el factor de relevancia puede ser alto, el número de palabras requeridas (o sus sinónimos) puede no ser suficiente. Así, el usuario sería advertido en el bloque 354 sobre si el ha querido decir "cuál es el precio de la acción de IBM el 28 de Agosto de 1998".
El usuario puede responder bien afirmativa o negativamente. Si se ha determinado en la decisión 356 que el usuario ha respondido afirmativamente, entonces la acción o acciones asociadas con la entrada de mayor confianza son tomadas en el bloque 350, y la gramática específica de contexto 212 asociada es habilitada en el bloque 352.
Si, sin embargo, se ha determinado en la decisión 356 que el usuario ha respondido negativamente, entonces el flujo prosigue a la fig. 3D donde el contexto asociado desde la columna 404 de la base de datos 218 de NLP es recuperado para la entrada de mayor confianza, y el usuario es advertido de una información usando un diálogo interactivo basado en el contexto en el bloque 360. Por ejemplo, si el usuario ha expresado "cuál es el precio de la acción de XICOR hoy", y la entrada de mayor confianza desde la base de datos 218 de NLP era la fila 412B (por ejemplo, "cuál es el precio de la acción de IBM en \textdollardate"), entonces el usuario sería advertido en el bloque 354 si era eso lo que él quería decir.
Si el usuario responde negativamente, entonces el contexto "acción" es recuperado de la columna 404 en el bloque 358, y el diálogo interactivo basado en el contexto para el contexto acción es presentado al usuario sobre la presentación 104 y el altavoz 112. Tal diálogo interactivo basado en el contexto puede implicar advertir al usuario del nombre y el símbolo más grueso de acción de la acción de XICOR. El usuario puede responder diciendo la información requerida. Puede usarse un diálogo interactivo diferente basado en el contexto para cada uno de los posibles contextos. Por ejemplo, el diálogo interactivo basado en el contexto "tiempo" puede implicar advertir al usuario del nombre de la localización (por ejemplo, la ciudad) sobre la que se desea la información del tiempo. También el diálogo interactivo basado en el contexto "noticias" puede implicar advertir al usuario para tipos de artículos, fuente de noticias, URL de Internet para el sitio de noticias, u otra información relacionada.
A la conclusión del diálogo interactivo basado en el contexto, la base de datos 218 de NLP, la gramática general 214, y la gramática específica de contexto 212 son actualizadas para incluir la nueva información, en el bloque 362. De esta manera, la próxima vez el usuario pide esa información, se encontrará una correspondencia apropiada, y se tomará la acción apropiada sin advertir al usuario de más información. Así, el presente invento "aprende" de forma adaptable a reconocer frases expresadas por el usuario.
En una realización del presente invento, una o más de la base de datos 218 de NLP, la gramática específica de contexto 212, la gramática general 214, y la gramática de dictado 216 contiene también valores de sello de tiempo (no mostrados) asociados con cada entrada. Cada vez que es usada una entrada de correspondencia, el valor de sello de tiempo asociado con esa entrada es actualizado. A intervalos periódicos, o cuando es inicializado por el usuario, las entradas que tienen un valor de sello de tiempo antes de una cierta fecha y hora son eliminadas de sus bases de datos/gramáticas respectivas. De esta manera, las bases de datos/gramáticas pueden ser conservadas en un tamaño eficiente "purgando" entradas antiguas o caducadas. Esto también ayuda a evitar falsas correspondencias.
En una realización del presente invento, el reconocimiento de voz y el tratamiento del lenguaje natural pueden ser usados para interactuar con objetos conectados en red, tales como páginas World-Wide-Web ("WWW" o "web") que tienen un enlace basado en la voz sensible al contexto.
La fig. 5 ilustra un Archivo de Definición de Diálogo (DDF) 500 ejemplar que representa información necesaria para asociar el reconocimiento de voz y el tratamiento del lenguaje natural a un objeto de Internet, tales como un archivo de texto o gráficos o, en la realización preferida, una página web. Aunque es su realización más simple, el Archivo de Definición de Diálogo 500 consiste de una tabla 510 de objetos de red, el DDF puede también contener archivos de gramática específica de contexto 214 adicionales y entradas adicionales para las bases de datos 218 de (NLP) de tratamiento de lenguaje natural, como se ha ilustrado en la fig. 5. La realización preferida del DDF 500 incluye una tabla 510 de objetos de red, un archivo de gramática específica de contexto 214, y un archivo que contiene entradas a la base de datos 218 de tratamiento del lenguaje natural. Estos componentes puede ser comprimidos y combinados en el archivo DDF 500 por cualquier método conocido en la técnica, tal como a través de la compresión Lempel-Ziv. El archivo de gramática específica de contexto 214 y la base de datos 218 de tratamiento del lenguaje natural son como se ha descrito en las secciones anteriores. La tabla 510 de objetos de red es una estructura de memoria, tal como un árbol de memoria, cadena o tabla, que asocia una dirección de un recurso con varias acciones, gramáticas, o entradas en la base de datos 218 de NLP.
Una realización ejemplar de la tabla 510 de objetos de red está ilustrada en la fig. 6. La fig. 6 ilustra una tabla de memoria que puede contener columnas de entrada para: un objeto de red 520, un indicador o banderola de Texto a Voz (TTS) 522, una voz de texto 524, un indicador de uso de gramática 526, un indicador de gramática añadida 528, un indicador "¿es si/no?", y acciones "si" 532 y "no" 534. Cada fila en la tabla 540A-540E representaría la gramática y voz relacionadas a un objeto de red individual. La realización ejemplar del invento se referiría a objetos de red 520 a través de un Localizador de Recurso Universal (URL). Un URL es un método estándar para especificar la dirección de cualquier recurso en Internet que es parte de la World-Wide-Web. Como este estándar es bien conocido en la técnica para describir la localización de recursos de Internet, los detalles de los URL no serán por ello descritos aquí. Una ventaja de los URL es que pueden especificar información en una gran variedad de formatos de objeto de red, incluyendo hipertexto, gráficos, bases de datos y otros archivos, además de un número de dispositivos de objetos de red y protocolos de comunicación.
Cuando es combinado con la voz de texto 524, el indicador de Texto a Voz (TTS) 522 indica si una declaración inicial debe ser pronunciada por el altavoz 112 cuando el objeto de red correspondiente es transferido. Por ejemplo, cuando se transfiere la página web leída en la columna del objeto de red 520 de la fila 540A (http://
www.convesationalsys.com), el indicador TTS 522 es marcado, indicando que la voz de texto 524, "Hola, bienvenido a Sistemas Conversacionales," ha de ser pronunciada por el altavoz 112.
Los tres siguientes indicadores se refieren al uso de gramáticas asociadas con este objeto de red. El marcado afirmativo de los indicadores de "gramática de uso" 526 o de "gramática añadida" 528 indican la presencia de un archivo de gramática específica de contexto 214 relacionada con el objeto de red indicado. El marcado del indicador de "gramática de uso" 526 indica que el nuevo archivo de gramática específica de contexto 214 reemplaza al archivo de gramática específica de contexto existente, y el archivo existente es inhabilitado. El indicador "gramática añadida" 528 indica que el nuevo archivo de gramática específica de contexto debe ser habilitado al mismo tiempo que el archivo de gramática específica de contexto existente.
Por último, las entradas de columnas restantes se refieren a una estructura de gramática "si/no". Si se marca el indicador "¿es si/no?" 530, entonces es habilitada una gramática "si/no" estándar. Cuando una gramática "si/no" estándar es habilitada, las instrucciones afirmativas dichas al ordenador dan como resultado que el ordenador ejecuta la instrucción indicada en la entrada "Si" 532. Similarmente, una instrucción negativa dicha al ordenador da como resultado que el ordenador ejecuta la instrucción indicada en la entrada "No" 534. Las entradas en las columnas "Si" 532 y "No" 534 pueden ser instrucciones o indicadores a instrucciones embebidos en la base de datos 218 de NLP. Por ejemplo, como se ha mostrado en la fila 540B, es marcado el indicador "¿es Si/No?". Una respuesta afirmativa, tal como "si", dada al ordenador, daría como resultado ejecutar la instrucción correspondiente en la entrada "Si" 532; en este caso específico, la entrada es el número "210," una referencia a la instrucción 210^{ésima} en la base de datos NLP. Una respuesta de "no" daría como resultado que el ordenador ejecuta la instrucción 211^{ésima} en la base de datos NLP.
Volviendo ahora a la fig. 7A, se ha ilustrado un método y sistema de proporcionar instrucciones u órdenes de voz a ordenadores conectados con Internet, tal como un ordenador que navega en la World-Wide-Web. El método de las figs. 7A-7C puede ser usado en unión con el método de las figs. 3A-3D. En el bloque 602, un URL de sitio web (objeto de red) es proporcionado a un navegador World-Wide-Web. El navegador de web es un programa usado para navegar a través de Internet, y es bien conocido en la técnica. La operación, en el bloque 602, de proporcionar un URL al navegador, puede ser tan simple como que un usuario escribe a máquina manualmente en el URL, o que un usuario selecciona un "enlace" al URL del sitio web elegido. Puede ser también el resultado de una instrucción pronunciada como se ha descrito antes con referencia a la acción asociada con cada entrada en la base de datos 218 de NLP. Dado el URL, el ordenador debe decidir sobre si puede resolver la dirección de Internet del sitio web especificado dentro del URL, en el bloque 604. Este proceso de resolución es un proceso bien conocido en la técnica. Si el ordenador es incapaz de resolver la dirección de Internet, un mensaje de error es presentado en la ventana del navegador, en el bloque 605, y el sistema es devuelto a su estado de comienzo inicial 600. Si la dirección de Internet es resuelta, el ordenador envía al sitio web una solicitud para la página web, en el bloque 606.
Se toma una decisión, dependiendo de si el sitio web envía la página web, en el bloque 608. Si el sitio web no responde, o falla al enviar la página web, es presentado un mensaje de error en la ventana del navegador, en el bloque 605, y el sistema es devuelto a su estado de comienzo inicial 600. Su el sitio web devuelve la página web, la página web es presentada en la ventana del navegador, en el bloque 610.
En el bloque de decisión 612, el ordenador 100 determina si el archivo DDF 500 correspondiente al sitio web está ya presente en el ordenador 100. Si el archivo DDF está presente, el flujo prosigue a la fig. 7C, si no el flujo prosigue a la fig. 7B.
Moviéndose a la fig. 7B, si el archivo DDF 500 no está presente, el ordenador examina si la posición del archivo DDF 500 está codificado dentro del Lenguaje de Etiquetado de Hipertexto de página web (HTML) como un URL. (Obsérvese que HTML es bien conocido en la técnica, y los detalles del lenguaje no serán por ello descritos aquí). Codificar la posición del archivo DDF dentro del código HTML puede ser hecho bien a través del listado de la posición del archivo DDF en un marcador meta de HTML inicial tal como:
<meta DDF = "http:/www.conversationalsys.com/Converset.ddf">
o directamente a través de un marcador de escritura escrito en la variación de HTML soportada por el navegador,
\leftarrow
<DDF = "http:/www.conversationalsys.com/Converset.ddf">
\rightarrow
Si la información de la posición del archivo DDF está codificada dentro de la página web, la dirección de Internet de la posición es resuelta, en el bloque 616, y el ordenador solicita la transferencia del archivo 500 DDF al bloque 626.
Alternativamente, si la posición del archivo 500 DDF no está codificada dentro de la página web, hay varios lugares alternativos que pueden ser almacenados. Puede ser almacenado en una posición previamente definida en el sitio web, tal como una cierta posición de archivo en el directorio raíz, o en una posición centralizada diferente, tal como otro servidor de Internet o el medio de almacenamiento 108 de la fig. 1. Los bloques 618 y 620 prueban estas posibilidades. El bloque 618 de terminarse el archivo DDF está situado en el sitio web. En esta operación, el ordenador envía una solicitud al sitio web inquiriendo acerca de la presencia del archivo 500 DDF. Si el archivo 500 DDF está presente en el sitio web, el ordenador solicita la transferencia del archivo 500 DDF al bloque 626. Si el archivo 500 DDF no está situado en el sitio web, el ordenador solicita la posición centralizada acerca de la presencia de un archivo de DDF para el sitio web, en el bloque 620. Si el archivo DDF está presente en el sitio web, el ordenador solicita la transferencia del archivo DDF al bloque 626. Si el archivo 500 DDF no puede ser encontrado, los componentes existentes de cualquiera archivo de DDF presentes, tales como la tabla 510 de objetos de red, la base de datos 218 de NLP asociada con el sitio web y la gramática 214 específica de contexto para cualquier sitio web previamente visitado, son desactivados en el bloque 622. Además, el sitio web es tratado como un sitio web no activado por voz, y solamente se usan archivos gramaticales estándar, en el bloque 624. Archivos gramaticales estándar son los archivos gramaticales existentes en el sistema que excluyen cualesquiera gramáticas asociadas con el archivo gramatical específico de contexto asociado con el objeto de red.
Si el archivo 500 DDF es requerido en el bloque 626, y su transferencia no es satisfactoria, cualesquiera componentes existentes de cualquier archivo 500 DDF presente son desactivados, en el bloque 622, y el sitio web es tratado como un sitio web no activado por voz, y solamente se usan archivos gramaticales estándar, en el bloque 624.
Si el archivo 500 DDF es solicitado en el bloque 626, y su transferencia es satisfactoria en el bloque 628, sustituye a cualquiera archivo de DDF anterior, en el bloque 630. Cualesquiera componentes del archivo 500 de DDF, tales como la tabla 510 de objetos de red, los archivos gramaticales 214 específicos de contexto, y la base de datos 218 de NLP son extraídos en el bloque 632. Puede usarse una técnica similar para obtener el software necesario para poner en práctica el método ilustrado en las figs. 3A-3D, que comprenden los elementos funcionales de la fig. 2.
El flujo se mueve a la fig. 7C. La tabla 510 de objetos de red es leída en memoria por el ordenador en el bloque 634. Si el URL de la página web está presente en la tabla 510 de objetos de red de sitio, como se ha determinado por el bloque 636, estará representado por una fila 540A-540E de la tabla, como se ha mostrado en la fig. 6. Cada fila de la tabla de objetos de red representa las interacciones de voz disponibles para un usuario para esa página web particular. Si no existen fila correspondiente a la página web, entonces no existe interacción de voz para la página web, y el tratamiento termina.
Si el URL de la página web está presente en la tabla 510 de objetos de red de sitio, como se ha determinado por el bloque 636, el ordenador comprueba si está marcado el indicador 522 de TTS, para determinar si una voz de texto 524 está asociada con la página web, en el bloque 638. Si hay una voz de texto 524, es pronunciada en el bloque 640, y el flujo continúa. Si hay un archivo gramatical específico de contexto asociado con la página web, como es determinado por el bloque de decisión 642, es habilitado en el bloque 644, y a continuación la base de datos 218 de NLP es habilitada en el bloque 646. Si no hay una archivo gramatical específico de contexto asociado con la página web, solamente es habilitada la base de datos 218 de NLP en el bloque 646. Una vez que la base de datos de NLP es habilitada en 646, el sistema se comporta como en la fig. 3A-3C, como se ha descrito antes.
En resumen, la realización preferida del presente invento proporciona un método y sistema para un enlace de usuario interactivo conectado a red para un ordenador. Mediante el uso de gramáticas específicas de contexto que están unidas a objetos de Internet a través de un Archivo de Definición de Diálogo, la realización preferida disminuye el tiempo de reconocimiento de voz y aumenta la capacidad del usuario para comunicarse con objetos de Internet, tales como páginas web, en un estilo conversacional. Además, mediante el uso de actualización adaptable de las distintas gramáticas y la base de datos de NLP, el presente invento aumenta además la eficiencia interactiva.
Se han descrito realizaciones del presente invento con referencia particular al ejemplo ilustrado. Sin embargo, se apreciará que pueden hacerse variaciones y modificaciones en los ejemplos descritos dentro del marco del presente invento como ha sido definido por las reivindicaciones adjuntas.

Claims (7)

1. Un método de interactuar con un objeto de red, comprendiendo el método: recibir una interacción (602) relativa a un objeto de red desde un usuario; determinar si una tabla (510) de objetos de red está asociada con dicho objeto de red; obtener la tabla (510) de objetos de red asociada con dicho objeto de red si dicha tabla (510) de objetos de red existe, teniendo la tabla (510) de objetos de red una entrada (520) correspondiente a dicho objeto de red y especificando una o más acciones asociadas con dicho objeto de red; buscar (626) la tabla (510) de objetos de red obtenida por ello para una correspondencia de entrada (540) para dicho objeto de red; realizar una acción asociada con dicha correspondencia de entrada (540) si dicha correspondencia de entrada es encontrada en dicha tabla (510) de objetos de red, incluyendo la acción actualizar (644) un primer archivo de gramática con gramática relativa a dicho objeto de red; buscar (304) el primer archivo de gramática (212) para una correspondencia de frase para otra interacción relativa a un objeto de red recibido desde un usuario; buscar (310) un segundo archivo de gramática (214) para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo gramatical; buscar una base de datos (218) del lenguaje natural para una correspondencia de entrada para dicha correspondencia de frase, representando dichas entradas frases que son conocidas por dicha base de datos; y, a realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la base de datos (218) de lenguaje natural; y advertir (360) al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos (218) de lenguaje natural.
2. Un método según la reivindicación 1ª, en el que la tabla (510) de objetos de red es leída desde un sitio web.
3. Un método según la reivindicación 1ª, en el que la tabla (510) de objetos de red es leída desde una posición que almacena objetos de red para múltiples objetos de red.
4. Un método según cualquiera de las reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red está incluida en un archivo (500) de definición de diálogo que también incluye una gramática (214) específica de contexto.
5. Un método según cualquiera de las reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red está incluida en un archivo (500) de definición de diálogo que también incluye entradas para una base de datos (218) de procesador de lenguaje natural.
6. Un método según cualquiera de las reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red está incluida en una archivo (500) de definición de diálogo que también incluye una gramática (214) específica de contexto y entradas para una base de datos (218) de procesador de lenguaje natural.
7. Un sistema para actualizar un ordenador (100) para interacción por un usuario con un objeto de red, comprendiendo el sistema: un enlace de red (116) configurado para transferir un archivo (500) de definición de diálogo asociado con un objeto de red, en el que el archivo (500) de definición de diálogo contiene una tabla (510) de objetos de red que tiene una correspondencia de entrada (520) para el objeto de red y especificar una o más acciones asociadas con el objeto de red; un procesador (201) de datos configurado para buscar la tabla (510) de objetos de red para una correspondencia de entrada para la interacción; un enlace de aplicación (220) configurado para realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la tabla (510) de objetos de red, incluyendo la acción actualizar un archivo (212) de gramática específica de contexto con gramática relativa al objeto de red; un procesador (200) de voz dispuesto para buscar el archivo gramatical (212) específico de contexto para una correspondencia de frase para otra interacción relativa a un objeto de red recibido desde un usuario, buscar una archivo gramatical general (214) para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo gramatical (212) específico de contexto, buscar una gramática de dictado (216) para la correspondencia de frase si la correspondencia de frase no es encontrada en el archivo (214) gramatical general, y buscar un modelo de dictado (300) específico de contexto si la correspondencia de frase no es encontrada en la gramática de dictado (216); y, un procesador (202) de lenguaje natural configurado para buscar una base de datos (218) para una correspondencia de entrada para la correspondencia de frase, representando dichas entradas frases que son conocidas para la base de datos, estando configurado el enlace de aplicación (220) para realizar una acción asociada con la correspondencia de entrada si la correspondencia de entrada es encontrada en la base de datos, y preguntar al usuario acerca del objeto de red si no se ha encontrado correspondencia de entrada.
ES99945549T 1998-09-09 1999-09-08 Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural. Expired - Lifetime ES2235508T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US150459 1998-09-09
US09/150,459 US6499013B1 (en) 1998-09-09 1998-09-09 Interactive user interface using speech recognition and natural language processing
US09/166,198 US6532444B1 (en) 1998-09-09 1998-10-05 Network interactive user interface using speech recognition and natural language processing
US166198 1998-10-05

Publications (1)

Publication Number Publication Date
ES2235508T3 true ES2235508T3 (es) 2005-07-01

Family

ID=22534628

Family Applications (2)

Application Number Title Priority Date Filing Date
ES99949601T Expired - Lifetime ES2235520T3 (es) 1998-09-09 1999-09-08 Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural.
ES99945549T Expired - Lifetime ES2235508T3 (es) 1998-09-09 1999-09-08 Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES99949601T Expired - Lifetime ES2235520T3 (es) 1998-09-09 1999-09-08 Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural.

Country Status (10)

Country Link
US (2) US6499013B1 (es)
EP (2) EP1110206B1 (es)
JP (2) JP2002524776A (es)
CN (2) CN1153190C (es)
AT (2) ATE286296T1 (es)
AU (2) AU763059B2 (es)
CA (2) CA2343150A1 (es)
DE (2) DE69922971T2 (es)
ES (2) ES2235520T3 (es)
WO (2) WO2000014727A1 (es)

Families Citing this family (391)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775264B1 (en) * 1997-03-03 2004-08-10 Webley Systems, Inc. Computer, internet and telecommunications based network
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US20020032564A1 (en) 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
EP1224569A4 (en) * 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
JP3702414B2 (ja) * 1999-08-11 2005-10-05 株式会社日立製作所 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
EP1222655A1 (en) * 1999-10-19 2002-07-17 Sony Electronics Inc. Natural language interface control system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7516190B2 (en) * 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CA2408584A1 (en) * 2000-04-06 2001-10-18 One Voice Technologies, Inc. Natural language and dialogue generation processing
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US7024348B1 (en) * 2000-09-28 2006-04-04 Unisys Corporation Dialogue flow interpreter development tool
US7660740B2 (en) * 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
KR20020032835A (ko) * 2000-10-27 2002-05-04 정우성 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델
ATE300083T1 (de) * 2000-11-03 2005-08-15 Voicecom Solutions Gmbh Robuste spracherkennung mit datenbankorganisation
JP3714159B2 (ja) * 2000-11-30 2005-11-09 日本電気株式会社 ブラウザ搭載装置
US7640163B2 (en) * 2000-12-01 2009-12-29 The Trustees Of Columbia University In The City Of New York Method and system for voice activating web pages
EP1346344A1 (en) * 2000-12-18 2003-09-24 Koninklijke Philips Electronics N.V. Store speech, select vocabulary to recognize word
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
US7506022B2 (en) 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7610547B2 (en) 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7519529B1 (en) 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7409335B1 (en) 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US20030009334A1 (en) * 2001-07-03 2003-01-09 International Business Machines Corporation Speech processing board for high volume speech processing applications
US20030037053A1 (en) * 2001-08-09 2003-02-20 Zhong-Hua Wang Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems
US6985865B1 (en) * 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7752266B2 (en) * 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US6915246B2 (en) * 2001-12-17 2005-07-05 International Business Machines Corporation Employing speech recognition and capturing customer speech to improve customer service
US7058565B2 (en) * 2001-12-17 2006-06-06 International Business Machines Corporation Employing speech recognition and key words to improve customer service
KR20020023197A (ko) * 2001-12-27 2002-03-28 김연수 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
AU2003205166A1 (en) * 2002-01-14 2003-07-30 Jerzy Lewak Identifier vocabulary data access method and system
DE10211777A1 (de) * 2002-03-14 2003-10-02 Philips Intellectual Property Erzeugung von Nachrichtentexten
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
US20030216923A1 (en) * 2002-05-15 2003-11-20 Gilmore Jeffrey A. Dynamic content generation for voice messages
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7941348B2 (en) 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US8719041B2 (en) * 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US20030229554A1 (en) * 2002-06-10 2003-12-11 Veres Robert Dean Method and system for composing transaction listing descriptions for use in a network-based transaction facility
EP1652173B1 (en) 2002-06-28 2015-12-30 Chemtron Research LLC Method and system for processing speech
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US7197494B2 (en) * 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
EP2544101A1 (en) * 2002-11-28 2013-01-09 Nuance Communications Austria GmbH Method to assign word class information
US20040111259A1 (en) * 2002-12-10 2004-06-10 Miller Edward S. Speech recognition system having an application program interface
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7480619B1 (en) 2003-03-04 2009-01-20 The Board Of Trustees Of The Leland Stanford Junior University Integration manager and natural interaction processor
US6980949B2 (en) 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US7729913B1 (en) * 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US8223944B2 (en) * 2003-05-05 2012-07-17 Interactions Corporation Conference call management system
AU2004237227B2 (en) * 2003-05-05 2011-07-14 Interactions Llc Apparatus and method for processing service interactions
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
ATE381755T1 (de) * 2003-06-02 2008-01-15 Ibm Sprach-antwortsystem, sprach-antwortverfahren, sprach-server, sprach-datei- verarbeitungsverfahren, programm und aufzeichnungsmedium
EP1631899A4 (en) * 2003-06-06 2007-07-18 Univ Columbia SYSTEM AND METHOD FOR LANGUAGE ACTIVATION OF WEB SITES
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US7383172B1 (en) 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US9552354B1 (en) * 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
US7376752B1 (en) 2003-10-28 2008-05-20 David Chudnovsky Method to resolve an incorrectly entered uniform resource locator (URL)
GB2409561A (en) * 2003-12-23 2005-06-29 Canon Kk A method of correcting errors in a speech recognition system
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US9189568B2 (en) * 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
JP2005339237A (ja) * 2004-05-27 2005-12-08 Aruze Corp アプリケーション利用補助システム
WO2005122145A1 (en) * 2004-06-08 2005-12-22 Metaphor Solutions, Inc. Speech recognition dialog management
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7921091B2 (en) 2004-12-16 2011-04-05 At&T Intellectual Property Ii, L.P. System and method for providing a natural language interface to a database
ES2261053B1 (es) * 2004-12-29 2008-04-16 France Telecom España, S.A. Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles.
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법
US7593962B2 (en) * 2005-02-18 2009-09-22 American Tel-A-Systems, Inc. System and method for dynamically creating records
US8225232B2 (en) * 2005-02-28 2012-07-17 Microsoft Corporation Dynamic configuration of unified messaging state changes
US7409344B2 (en) 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7996219B2 (en) 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8229745B2 (en) * 2005-10-21 2012-07-24 Nuance Communications, Inc. Creating a mixed-initiative grammar from directed dialog grammars
US8315874B2 (en) * 2005-12-30 2012-11-20 Microsoft Corporation Voice user interface authoring tool
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US20070225970A1 (en) * 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8107610B2 (en) * 2006-06-06 2012-01-31 At&T Intellectual Property I, L.P. Callback processing of interactive voice response requests
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
US8195461B2 (en) 2006-12-15 2012-06-05 Mitsubishi Electric Corporation Voice recognition system
US7809564B2 (en) * 2006-12-18 2010-10-05 International Business Machines Corporation Voice based keyword search algorithm
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9154632B2 (en) * 2007-09-20 2015-10-06 Unify Gmbh & Co. Kg Method and communications arrangement for operating a communications connection
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010051591A1 (en) * 2008-11-06 2010-05-14 Digital Intermediary Pty Limited Context layered object engine
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8521513B2 (en) 2010-03-12 2013-08-27 Microsoft Corporation Localization for interactive voice response systems
US8694313B2 (en) * 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US8484031B1 (en) 2011-01-05 2013-07-09 Interactions Corporation Automated speech recognition proxy system for natural language understanding
US8560321B1 (en) 2011-01-05 2013-10-15 Interactions Corportion Automated speech recognition system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
WO2012135157A2 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Task driven user intents
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
EP2667268A1 (de) * 2012-05-24 2013-11-27 Siemens Aktiengesellschaft Verfahren zum Betrieb eines Automatisierungsgeräts
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103678283B (zh) * 2012-08-30 2016-08-17 英业达科技有限公司 提供外语词组以辅助外语文章撰写的系统及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9020809B1 (en) 2013-02-28 2015-04-28 Google Inc. Increasing semantic coverage with semantically irrelevant insertions
US9047271B1 (en) 2013-02-28 2015-06-02 Google Inc. Mining data for natural language system
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US8694305B1 (en) * 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
US9117452B1 (en) 2013-06-25 2015-08-25 Google Inc. Exceptions to action invocation from parsing rules
US9280970B1 (en) 2013-06-25 2016-03-08 Google Inc. Lattice semantic parsing
US9299339B1 (en) 2013-06-25 2016-03-29 Google Inc. Parsing rule augmentation based on query sequence and action co-occurrence
US9251202B1 (en) 2013-06-25 2016-02-02 Google Inc. Corpus specific queries for corpora from search query
US9984684B1 (en) 2013-06-25 2018-05-29 Google Llc Inducing command inputs from high precision and high recall data
US9330195B1 (en) 2013-06-25 2016-05-03 Google Inc. Inducing command inputs from property sequences
US9183196B1 (en) 2013-06-25 2015-11-10 Google Inc. Parsing annotator framework from external services
US9092505B1 (en) 2013-06-25 2015-07-28 Google Inc. Parsing rule generalization by n-gram span clustering
US9123336B1 (en) 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9177553B1 (en) 2013-06-25 2015-11-03 Google Inc. Identifying underserved command inputs
US20150032238A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
CN104346151B (zh) * 2013-07-30 2018-04-27 联想(北京)有限公司 一种信息处理方法及电子设备
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9507849B2 (en) * 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
WO2015116151A1 (en) * 2014-01-31 2015-08-06 Hewlett-Packard Development Company, L.P. Voice input command
CN109949815B (zh) * 2014-04-07 2024-06-07 三星电子株式会社 电子装置
US20150331853A1 (en) * 2014-05-15 2015-11-19 Marco Palmonari Automated multi-grammar language processing system to optimize request handling in contact centers
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
US9502031B2 (en) * 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160379630A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Speech recognition services
US10515150B2 (en) 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10843080B2 (en) * 2016-02-24 2020-11-24 Virginia Tech Intellectual Properties, Inc. Automated program synthesis from natural language for domain specific computing applications
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10838992B2 (en) * 2016-08-17 2020-11-17 International Business Machines Corporation Content selection for usage within a policy
US20180052573A1 (en) * 2016-08-17 2018-02-22 Microsoft Technology Licensing, Llc Interaction with a file storage service through a messaging bot
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
GB201618479D0 (en) 2016-11-02 2016-12-14 Syngenta Participations Ag Adjuvants
NZ753616A (en) * 2016-11-02 2020-05-29 Greeneden Us Holdings Ii Llc System and method for parameterization of speech recognition grammar specification (srgs) grammars
US10482885B1 (en) * 2016-11-15 2019-11-19 Amazon Technologies, Inc. Speaker based anaphora resolution
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US20180330725A1 (en) * 2017-05-09 2018-11-15 Microsoft Technology Licensing, Llc Intent based speech recognition priming
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
US11188706B2 (en) * 2018-01-18 2021-11-30 Christopher Anthony Silva System and method for regionalized resolution of a network path
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统
CN110728976B (zh) * 2018-06-30 2022-05-06 华为技术有限公司 语音识别的方法、装置及系统
CN108899030A (zh) * 2018-07-10 2018-11-27 深圳市茁壮网络股份有限公司 一种语音识别方法及装置
US10789943B1 (en) 2018-08-31 2020-09-29 Interactions Llc Proxy for selective use of human and artificial intelligence in a natural language understanding system
US11481558B2 (en) 2018-09-12 2022-10-25 Samsung Electroncis Co., Ltd. System and method for a scene builder
DE102018222156A1 (de) * 2018-12-18 2020-06-18 Volkswagen Aktiengesellschaft Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation
CN110223679A (zh) * 2019-06-14 2019-09-10 南京机电职业技术学院 一种语音识别输入装置
CN110265013A (zh) * 2019-06-20 2019-09-20 平安科技(深圳)有限公司 语音的识别方法及装置、计算机设备、存储介质
US11151981B2 (en) 2019-10-10 2021-10-19 International Business Machines Corporation Audio quality of speech in sound systems
CN112562679B (zh) * 2020-11-26 2024-06-14 浪潮金融信息技术有限公司 一种离线语音交互方法、装置及介质
EP4143674A1 (en) 2021-07-19 2023-03-08 Google LLC Bit vector-based content matching for third-party digital assistant actions

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783803A (en) 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JPH02301869A (ja) 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5222187A (en) * 1989-12-29 1993-06-22 Texas Instruments Incorporated Grammar-based checksum constraints for high performance speech recognition circuit
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5511213A (en) * 1992-05-08 1996-04-23 Correa; Nelson Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2967688B2 (ja) * 1994-07-26 1999-10-25 日本電気株式会社 連続単語音声認識装置
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
JP2855409B2 (ja) 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
WO1998035491A1 (en) * 1997-02-05 1998-08-13 British Telecommunications Public Limited Company Voice-data interface
US6138098A (en) * 1997-06-30 2000-10-24 Lernout & Hauspie Speech Products N.V. Command parsing and rewrite system
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US6094635A (en) * 1997-09-17 2000-07-25 Unisys Corporation System and method for speech enabled application
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6058166A (en) * 1997-10-06 2000-05-02 Unisys Corporation Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6138100A (en) * 1998-04-14 2000-10-24 At&T Corp. Interface for a voice-activated connection system
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Also Published As

Publication number Publication date
ATE287117T1 (de) 2005-01-15
US6532444B1 (en) 2003-03-11
WO2000014727A1 (en) 2000-03-16
CN1153190C (zh) 2004-06-09
WO2000014728A1 (en) 2000-03-16
DE69923191D1 (de) 2005-02-17
CN1325528A (zh) 2001-12-05
EP1110206A1 (en) 2001-06-27
ES2235520T3 (es) 2005-07-01
CA2343150A1 (en) 2000-03-16
AU763059B2 (en) 2003-07-10
EP1110205A1 (en) 2001-06-27
DE69922971T2 (de) 2005-12-29
DE69922971D1 (de) 2005-02-03
DE69923191T2 (de) 2006-01-05
JP2002524806A (ja) 2002-08-06
ATE286296T1 (de) 2005-01-15
JP2002524776A (ja) 2002-08-06
EP1110205B1 (en) 2005-01-12
CN1161747C (zh) 2004-08-11
CN1325527A (zh) 2001-12-05
AU6243999A (en) 2000-03-27
CA2343229A1 (en) 2000-03-16
EP1110206B1 (en) 2004-12-29
US6499013B1 (en) 2002-12-24
AU762282B2 (en) 2003-06-19
AU5813099A (en) 2000-03-27

Similar Documents

Publication Publication Date Title
ES2235508T3 (es) Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.
US6434524B1 (en) Object interactive user interface using speech recognition and natural language processing
JP4485694B2 (ja) 並列する認識エンジン
CA2280331C (en) Web-based platform for interactive voice response (ivr)
AU2001251354A1 (en) Natural language and dialogue generation processing
JP3476008B2 (ja) 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP2005084681A (ja) 意味的言語モデル化および信頼性測定のための方法およびシステム
WO2002054385A1 (en) Computer-implemented dynamic language model generation method and system
JP2021105708A (ja) ニューラル・スピーチ・ツー・ミーニング
US10565982B2 (en) Training data optimization in a service computing system for voice enablement of applications
US20190138269A1 (en) Training Data Optimization for Voice Enablement of Applications
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
US9947311B2 (en) Systems and methods for automatic phonetization of domain names
JP2005084829A (ja) 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体
Abbasi Phonetic Analysis and Searching with Google Glass API
GB2345783A (en) Speech recognition system
WO2023232609A1 (fr) Procédé et dispositif de vérification de l&#39;utilisation d&#39;une interface homme/machine par un opérateur humain
TWI328757B (en) Device and method of searching word by pronunciation
Kumar et al. Hands-Fr ee Natural Language Processing System in Wireless Multimedia Personal Networks