ES2235520T3 - Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural. - Google Patents

Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural.

Info

Publication number
ES2235520T3
ES2235520T3 ES99949601T ES99949601T ES2235520T3 ES 2235520 T3 ES2235520 T3 ES 2235520T3 ES 99949601 T ES99949601 T ES 99949601T ES 99949601 T ES99949601 T ES 99949601T ES 2235520 T3 ES2235520 T3 ES 2235520T3
Authority
ES
Spain
Prior art keywords
phrase
grammar
coincidence
entry
match
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99949601T
Other languages
English (en)
Inventor
Dean C. Weber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ONE VOICE TECHNOLOGIES Inc
Original Assignee
ONE VOICE TECHNOLOGIES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22534628&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2235520(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ONE VOICE TECHNOLOGIES Inc filed Critical ONE VOICE TECHNOLOGIES Inc
Application granted granted Critical
Publication of ES2235520T3 publication Critical patent/ES2235520T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

Un método para interactuar con un ordenador utilizando pronunciaciones, comprendiendo el método los pasos de: - buscar en un primer fichero de gramática (212) una frase de coincidencia para dicha pronunciación; - buscar en un segundo fichero de gramática (214) una frase de coincidencia si dicha frase de coincidencia no ha sido encontrada en dicho primer fichero de gramática; - buscar en una base de datos (218) de procesamiento de lenguaje natural (NLP) una entrada de coincidencia para dicha frase de coincidencia, representando las entradas frases que son conocidas por la base de datos NLP; - realizar una acción asociada con dicha entrada de coincidencia si dicha entrada de coincidencia es encontrada en dicha base de datos.

Description

Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural.
Antecedentes del invento I. Campo del invento
El presente invento se refiere al reconocimiento de voz para interfaz de usuario de ordenador. Más específicamente, el presente invento se refiere a un sistema y método nuevos para interacción de interfaz de usuario con un ordenador que utiliza reconocimiento de voz y procesamiento de lenguaje natural.
II. Descripción de la técnica relacionada
A medida que los ordenadores se han hecho más usuales en la sociedad se ha comprobado que muchas personas tienen gran dificultad para entenderse y comunicarse con ordenadores. Un usuario a menudo tiene que aprender instrucciones anticuadas y procedimientos no intuitivos con el fin de manejar el ordenador. Por ejemplo, la mayoría de los ordenadores personales utilizan sistemas operativos basados en "windows", que están en gran medida dirigidos por un menú. Esto requiere que el usuario aprenda qué instrucciones de menú o secuencia de instrucciones producen los resultados deseados.
Además, la tradicional interacción con un ordenador a menudo se hace más lenta debido a los dispositivos de entrada de datos tales como teclados o ratones. Muchos usuarios de ordenador no son mecanógrafos rápidos. Como consecuencia, se emplea mucho tiempo en comunicar instrucciones y palabras al ordenador a través de estos dispositivos de introducción manuales. Está claro que se necesita un método más fácil, más rápido y más intuitivo de comunicación con los ordenadores.
Un método propuesto de interacción con ordenador es el de reconocimiento de voz. El reconocimiento de voz implica que el "software" y el "hardware" actúen conjuntamente para detectar por audición la voz humana y traducir la voz detectada en una secuencia de palabras. Como se conoce en la técnica, el reconocimiento de voz funciona descomponiendo sonidos que el "hardware" detecta en sonidos más pequeños no divisibles denominados fonemas. Los fonemas son unidades de sonido diferentes. Por ejemplo, la palabra "those" está compuesta por tres fonemas; el primero es el sonido "th", el segundo es el sonido "o", y el tercero es el sonido "s". El "software" de reconocimiento de voz intenta comparar los fonemas detectados con palabras conocidas procedentes de un diccionario almacenado. En la Patente de EEUU Nº 4.783.803, publicada el 8 de noviembre de 1998, se da un ejemplo de un sistema de reconocimiento de voz denominado "Aparato y método de reconocimiento de voz", propiedad de Dragon Systems, Inc., incorporada aquí como referencia. Actualmente, hay muchos paquetes de "software" de reconocimiento de voz disponibles en compañías tales como Dragon Systems, Inc. e International Business Machines, Inc.
Una limitación de estos paquetes o sistemas de "software" de reconocimiento de voz es que normalmente sólo realizan funciones de instrucción y control o de dictado. Así, el usuario todavía necesita aprender un vocabulario de instrucciones con el fin de manejar el ordenador.
Una mejora propuesta a estos sistemas de reconocimiento de voz es procesar las palabras detectadas utilizando un sistema de procesamiento de lenguaje natural. El procesamiento de lenguaje natural implica determinar un "significado" conceptual (por ejemplo, qué significado intentaba transmitir el orador) de las palabras detectadas analizando sus relaciones gramaticales y el contexto relativo. Por ejemplo, la Patente de EEUU Nº 4.887.212, titulada "Analizador para texto de lenguaje natural", publicada el 12 de diciembre de 1989, propiedad de International Business Machines Corporation, e incorporada como referencia aquí, explica un método para analizar una corriente de entrada de palabras utilizando el aislamiento de la palabra, el análisis morfológico, la consulta al diccionario y el análisis gramatical.
El procesamiento de lenguaje natural utilizado en combinación con el reconocimiento de voz proporciona una poderosa herramienta para manejar un ordenador utilizando palabras habladas en vez de la introducción manual tal como con un teclado alfabético o un ratón. Sin embargo, un inconveniente de un sistema de procesamiento de lenguaje natural consiste en que puede fallar en determinar el "significado" correcto de las palabras detectadas por el sistema de reconocimiento de voz. En tal caso, el usuario es normalmente requerido para recomponer o exponer de nuevo la frase, con la esperanza de que el sistema de procesamiento de lenguaje natural determine el "significado" correcto en intentos sucesivos. Claramente, esto puede acarrear sustanciales retrasos, ya que el usuario es requerido para exponer de nuevo toda la oración o instrucción.
Otro inconveniente de los sistemas convencionales consiste en que el tiempo de procesamiento requerido para el reconocimiento de voz puede ser prohibitivamente largo. Esto es principalmente debido a la velocidad finita de los recursos de procesamiento en comparación con la gran cantidad de información que ha de procesarse. Por ejemplo, en muchos programas convencionales de reconocimiento de voz, el tiempo requerido para reconocer la pronunciación es largo debido al tamaño del fichero del diccionario que se está buscando.
Un inconveniente adicional de los sistemas convencionales de reconocimiento de voz y de procesamiento de lenguaje natural consiste en que no son interactivos. Como consecuencia, no es posible una interacción del estilo conversacional con el ordenador. El usuario es requerido para comunicar al ordenador conceptos completos. El usuario no es capaz de hablar en fragmentos de oración debido a que se perderá el significado de estos fragmentos de oración (que es dependiente del significado de pronunciaciones previas). La patente EP-A-0834862 explica un método de reconocimiento de voz en el que, basado en un conjunto de subgramáticas de frases que contienen frases clave, se detectan partes semánticamente significantes de una oración y se rechazan las partes no pertinentes.
Lo que es necesario es un interfaz de usuario interactivo para un ordenador que utilice procesamiento de lenguaje, lo que evita los inconvenientes mencionados anteriormente.
Resumen del invento
El presente invento es un sistema y método nuevos y mejorados para interactuar con un ordenador que utiliza pronunciaciones, procesamiento de voz y procesamiento de lenguaje natural. Genéricamente, el sistema comprende un procesador de voz para buscar en un primer fichero de gramática una frase de coincidencia para la pronunciación, y para buscar en un segundo fichero de gramática la frase de coincidencia si la frase de coincidencia no se ha encontrado en el primer fichero de gramática. El sistema también incluye un procesador de lenguaje natural para buscar en una base de datos una entrada de coincidencia para la frase de coincidencia; y un interfaz de aplicación para realizar una acción asociada con la entrada de coincidencia si la entrada de coincidencia se ha encontrado en la base de datos.
En la realización preferida el procesador de lenguaje natural actualiza al menos una de las bases de datos, el primer fichero de gramática y el segundo fichero de gramática con la frase de coincidencia si la frase de coincidencia no se encuentra en la base de datos.
El primer fichero de gramática es un fichero de gramática específico de contextos. Un fichero de gramática específico de contextos es uno que contiene palabras y frases que son altamente pertinentes a un sujeto específico. El segundo fichero de gramática es un fichero de gramática general. Un fichero de gramática general es uno que contiene palabras y frases que no necesitan ser interpretadas a la luz de un contexto. Es decir, las palabras y frases del fichero de gramática general no pertenecen a ningún contexto matriz. Buscando el fichero de gramática específico de contextos antes de buscar el fichero de gramática general, el presente invento permite que el usuario se comunique con el ordenador utilizando un estilo más conversacional, en el que las palabras habladas, si se han encontrado en el fichero de gramática de contextos, son interpretadas a la luz de la materia objeto más recientemente discutida.
En un aspecto posterior del presente invento, el procesador de voz busca una gramática de dictado para la frase de coincidencia si la frase de coincidencia no se ha encontrado en el fichero de gramática general. La gramática de dictado es un amplio vocabulario de palabras y frases generales. Buscando primeramente las gramáticas específicas de contextos y generales, se espera que el tiempo de reconocimiento de voz se reduzca en gran medida debido a que las gramáticas específicas de contextos y generales son ficheros físicamente menores que la gramática de dictado.
En otro aspecto del presente invento, el procesador de lenguaje natural sustituye al menos una palabra en la frase de coincidencia antes de buscar la base de datos. Esto puede conseguirse mediante un sustituidor variable en el procesador de lenguaje natural para sustituir un comodín por al menos una palabra en la frase de coincidencia. Sustituyendo un comodín por ciertas palabras (llamadas "variables de palabras") en la frase, el número de entradas en la base de datos puede reducirse de forma significativa. Adicionalmente, un sustituidor de pronombres en el procesador de lenguaje natural puede sustituir un nombre adecuado por pronombres en la frase de coincidencia, lo que permite almacenar hechos específicos del usuario en la base de datos.
En otro aspecto del presente invento, un texto formateador de secuencias de palabras formatea la frase de coincidencia antes de buscar la base de datos. También un ponderador de palabras pondera las palabras individuales en la frase de coincidencia de acuerdo con una significancia relativa de las palabras individuales antes de buscar la base de datos. Estos pasos permiten una búsqueda más rápida y precisa de la
base de datos.
Un motor de búsqueda en el procesador de lenguaje natural genera un valor de confianza de la entrada de coincidencia. El procesador de lenguaje natural compara el valor de confianza con un valor umbral. Un comprobador booleano determina si un número de palabras requerido de la frase de coincidencia están presentes en la entrada de coincidencia. Esta comprobación booleana sirve como verificación de los resultados producidos por el motor de búsqueda.
Con el fin de despejar ambigüedades, el procesador de lenguaje natural pregunta al usuario si la entrada de coincidencia es una interpretación correcta de la pronunciación si el número de palabras requerido de la frase de coincidencia no están presentes en la entrada de coincidencia. El procesador de lenguaje natural también pregunta al usuario información adicional si la entrada de coincidencia no es una interpretación correcta de la pronunciación. Al menos una de las bases de datos, el primer fichero de gramática y el segundo fichero de gramática son actualizados con la información adicional. De esta forma, el presente invento "aprende" adaptativamente el significado de pronunciaciones adicionales, mejorando así la eficiencia del interfaz de usuario.
Finalmente, el procesador de voz facilitará y buscará una gramática específica de contextos asociada con la entrada de coincidencia para una posterior pronunciación. Esto asegura que primeramente se buscarán las palabras y frases más pertinentes, disminuyendo así los tiempos de reconocimiento de voz.
Breve descripción de los dibujos
A partir de la descripción detallada expuesta se apreciarán mejor las características, objetos y ventajas del presente invento al tomarlas conjuntamente con los dibujos en los que caracteres de referencia iguales identifican elementos iguales en todo el texto y en los que:
La Figura 1 es un diagrama de bloques funcional de un sistema de ordenador a modo de ejemplo para ser usado con el presente invento;
la Figura 2 es un diagrama de bloques funcional ampliado del CPU 102 y del medio de almacenamiento 108 del sistema de ordenador de la Figura 1 del presente invento;
las Figuras 3A-3D son un diagrama de flujos del método del presente invento; y
la Figura 4 es un diagrama de columnas seleccionadas de una base de datos de procesador de lenguaje natural (NPL) del presente invento.
Descripción detallada de las realizaciones preferidas
A continuación se describirá el presente invento haciendo referencia a un diagrama de bloques funcional de un sistema de ordenador a modo de ejemplo 100 de la Figura 1. En la Figura 1, el sistema de ordenador 100 incluye una unidad central de proceso (CPU) 102. La CPU 102 puede ser cualquier microprocesador o microcontrolador de tipo general de los conocidos en la técnica, adecuadamente programado para realizar el método descrito aquí con referencia a las Figuras 3A-3D. Por ejemplo, la CPU 102 puede ser un microprocesador convencional tal como el procesador Pentium II fabricado por Intel Corporation o similar.
La CPU 102 se comunica con una pluralidad de equipos periféricos, que incluyen una pantalla 104, introducción manual 106, medio de almacenamiento 108, micrófono 110, altavoz 112, y puerto de introducción de datos 114. La visualización 104 puede ser una pantalla visual tal como una CRT, una pantalla LCD, una pantalla sensible al tacto, u otros monitores de los conocidos en la técnica para que el usuario pueda visualizar imágenes y texto. La introducción manual 106 puede ser teclado alfabético, teclado numérico, ratón, esfera de seguimiento, u otro dispositivo de introducción de los conocidos en la técnica para la introducción manual de datos. El medio de almacenamiento 108 puede ser una memoria convencional leer/escribir tal como una unidad de disco magnético, una unidad de disco flexible, una unidad de CDROM, una memoria de silicio u otro dispositivo de memoria de los conocidos en la técnica para almacenar y recuperar datos. Significativamente, el medio de almacenamiento 108 puede estar situado a distancia de la CPU 102, y puede estar conectado a la CPU por medio de una red tal como una red de área local (LAN), o una red de área amplia (WAN), o Internet. El micrófono 110 puede ser cualquier micrófono adecuado de los conocidos en la técnica para proporcionar señales de audio a la CPU 102. El altavoz 112 puede ser cualquier altavoz adecuado de los conocidos en la técnica para reproducir señales de audio de la CPU 102. Se sobreentiende que el micrófono 110 y el altavoz 112 pueden incluir circuitos de conversión digital a analógica y analógica a digital según proceda. El puerto de introducción 114 puede ser cualquier puerto de datos de los conocidos en la técnica para conectar con cualquier accesorio externo que utilice un protocolo de datos tal como RS-232, Bus Serie Universal, o similar.
Así, la Figura 1 ilustra los elementos funcionales de un sistema de ordenador 100. Cada uno de los elementos del sistema de ordenador 100 pueden ser componentes adecuados disponibles comercialmente como se ha descrito anteriormente. El presente invento proporciona un método y sistema para conectar con el sistema de ordenador 100 utilizando la voz.
Volviendo ahora a la Figura 2, en ella se ilustra un diagrama de bloques funcional ampliado de la CPU 102 y del medio de almacenamiento 108. La CPU 102 incluye un procesador de reconocimiento de voz 220, un procesador de lenguaje natural 202 y un interfaz de aplicación 220. El procesador de lenguaje natural 202 incluye además un sustituidor de variables 204, un formateador de secuencias de caracteres 206, un ponderador de palabras 208, un comprobador booleano 210, un sustituidor de pronombres 211, y un motor de búsqueda 213. El medio de almacenamiento 108 incluye una pluralidad de ficheros gramaticales específicos de contextos 212, un fichero de gramática general 214, una gramática de dictado 216, y una base de datos 218 del procesador de lenguaje natural (NLP). En la realización preferida, los ficheros gramaticales 212, 214, y 216 son ficheros Bakus-Naur Form (BNF) que describen la estructura del lenguaje hablado por el usuario. Los ficheros BNF son bien conocidos en la técnica para describir la estructura del lenguaje, por lo que aquí no se discutirán detalles de los ficheros BNF. Una ventaja de los ficheros BNF consiste en que se pueden utilizar estructuras jerarquizadas de tipo árbol para describir secuencias de frases o de palabras sin la necesidad de recitar explícitamente todas las combinaciones de estas secuencias de palabras. Así, la utilización de ficheros BNF en la realización preferida minimiza los tamaños físicos de los ficheros 212, 214, y 216 en el medio de almacenamiento 108, aumentando la velocidad a la que estos ficheros pueden ser facilitados y buscados tal como se describe más adelante. Sin embargo, en realizaciones alternativas, se utilizan otras estructuras de ficheros.
El funcionamiento e interacción de estos elementos funcionales de la Figura 2 se describirán haciendo referencia al diagrama de flujos de las Figuras 3A-3D. En la Figura 3A, el flujo comienza en el bloque 300 proporcionando una pronunciación al procesador de voz 200. Una pronunciación es una serie de sonidos que tiene un principio y un fin, y puede incluir una o más palabras habladas. El micrófono 110 que capta las palabras habladas puede realizar el paso del bloque 300. Alternativamente, la pronunciación puede proporcionarse al procesador de voz 200 por el puerto de introducción de datos 114, o del medio de almacenamiento 108. Preferiblemente, la pronunciación está en formato digital tal como el formato del fichero de audio ".wav".
El flujo prosigue hasta la decisión 302, en la que el procesador de voz 200 determina si una de las gramáticas específicas de contextos 212 ha sido facilitada. En la realización preferida, las gramáticas específicas de contextos 212 son ficheros BNF que contienen palabras y frases que están relacionadas con un contexto matriz. En general, un contexto es un área objeto. Por ejemplo, en una realización del presente invento aplicable a ordenadores personales, ejemplos de contextos puede ser "noticias", o "clima", o "existencias". En tal caso, las gramáticas específicas de contextos 212 podrían cada una contener instrucciones, palabras de control, descriptores, cualificadores, o parámetros que corresponden a un contexto diferente de estos contextos. El uso de contextos proporciona una estructura jerárquica de tipos de información. Los contextos y su uso se describirán más adelante haciendo referencia a la base de datos NLP 218.
Si una gramática específica de contextos 212 ha sido facilitada, se busca la gramática específica de contextos 212 para una coincidencia con la pronunciación proporcionada en el bloque 300. Sin embargo, si no se ha facilitado una gramática específica de contextos 212, el flujo prosigue hasta el bloque 308 donde se facilita la gramática general 214.
En la realización preferida, la gramática general 214 es un fichero BNF que contiene palabras y frases que, en sí, no pertenecen a un contexto matriz, pero pueden tener un contexto asociado para el que existe un fichero de gramática específica de contextos 212. En otras palabras, las palabras y frases de la gramática general 214 pueden estar en la raíz de la estructura de contextos jerarquizada. Por ejemplo, en una realización aplicable a ordenadores personales, la gramática general 214 contendría instrucciones y frases de control.
En el bloque 310, en la gramática general 214 se busca una palabra o frase de coincidencia para la pronunciación proporcionada en el bloque 300. Si no se encuentra ninguna coincidencia, entonces se facilita la gramática de dictado 216. En la realización preferida, la gramática de dictado 216 es un fichero BNF que contiene una lista de palabras que, en sí, no tienen un contexto matriz o un contexto asociado. Por ejemplo, en una realización aplicable a un ordenador personal, la gramática de dictado 216 contiene una lista relativamente amplia de palabras similar a un diccionario general.
En el bloque 316 se busca en la gramática de dictado palabras coincidentes para cada palabra de la pronunciación proporcionada en el bloque 300. Si no se encuentran palabras coincidentes, opcionalmente se visualiza un mensaje de error en la pantalla 104 o se reproduce opcionalmente por audio un mensaje de error a través del altavoz 112, y el procedimiento termina hasta que se proporciona otra pronunciación al procesador de voz 200 en el bloque 300.
Así, como puede verse a partir de la anterior descripción, cuando se proporciona una pronunciación al procesador de voz 200, se busca primero la gramática específica de contextos 212 facilitada, si la hay. Si no hay coincidencias en la gramática específica de contextos 212, entonces se facilita y busca la gramática general 214. Si no hay coincidencias en la gramática general 214, entonces se facilita y busca la gramática de dictado 316.
En la realización preferida, cuando el procesador de reconocimiento de voz 200 está buscando la gramática específica de contextos o la gramática general 214, se dice que está en el modo "instrucción y control". En este modo, el procesador de reconocimiento de voz 200 compara toda la pronunciación como un conjunto con las entradas de la gramática. Por el contrario, cuando el procesador de reconocimiento de voz 200 está buscando la gramática de dictado, se dice que está en modo "dictado". En este modo, el procesador de reconocimiento de voz 200 compara la pronunciación con las entradas en la gramática de dictado 216 una palabra cada vez. Se espera que la búsqueda de una coincidencia de una pronunciación completa en modo de instrucción y control sea generalmente más rápida que la búsqueda de una palabra a la vez en modo dictado.
Se espera además que cualquier gramática específica de contextos 212 sea de tamaño menor (esto es, menor número total de palabras y frases) que en la gramática general 214, que a su vez será de tamaño menor que la gramática de dictado 216. Así, buscando primeramente cualquier gramática de contextos específicos 212 facilitada, es probable que se encuentre más rápidamente una coincidencia, si la hay, debido al menos en parte al menor tamaño del fichero. Igualmente, buscando la gramática general 214 antes que la gramática de dictado 216, es probable que se encuentre más rápidamente una coincidencia, si la hay.
Adicionalmente, como se explicará posteriormente con respecto a la capacidad del presente invento para añadir adaptativamente tanto a la gramática específica de contextos 212 como a la gramática general 214, éstas contendrán las pronunciaciones más comunes. Como tal, se espera que probablemente se encuentre más rápido una coincidencia en la gramática de contextos específicos 212 o en la gramática general 214 que en la gramática de dictado 216.
Finalmente, como se explicará posteriormente más adelante, es más probable que las palabras y frases de la gramática de contextos específicos 212 sean pronunciadas por el usuario debido a que son palabras altamente pertinentes a la materia objeto sobre la que el usuario estaba hablando recientemente. Esto permite también que el usuario hable en un estilo más conversacional, utilizando fragmentos de oraciones, interpretándose el significado de sus palabras de acuerdo con la gramática de contextos específicos 212 facilitada.
Buscando en la secuencia anteriormente descrita, el presente invento puede buscar más eficientemente que si la búsqueda tuviera que ocurrir una entrada a la vez en una única lista amplia de todas las palabras y frases esperadas.
Con referencia nuevamente a la decisión 306, si se encuentra una coincidencia en la gramática de contextos específicos 212, entonces hay tres posibles pasos siguientes mostrados en la Figura 3A. Para cada entrada de coincidencia en la gramática de contextos específicos 212 facilitada, puede haber una acción asociada que puede realizar el procesador de reconocimiento de voz 200. El bloque 322 muestra que una acción puede ser para dirigir al interfaz de aplicación 220 a que realice la acción con respecto a una aplicación o entidad de "software" independiente. Por ejemplo, el interfaz de aplicación 220 puede utilizar el Interfaz de Aplicación Aplicada a Voz (SAPI) normal de Microsoft para comunicar con una aplicación externa. La aplicación externa puede ser dirigida, por ejemplo, a acceder a un sitio URL de la red de Internet o para expresar una determinada frase convirtiendo texto en voz. Como se discutirá posteriormente, se pueden realizar otras acciones con referencia a la base de datos NLP 218 de la Figura 4.
El bloque 324 muestra que puede realizarse otra acción para acceder directamente a una fila en la base de datos de procesamiento de lenguaje natural (NLP) 218, evitando así los pasos del procesamiento de lenguaje natural descritos más adelante. El bloque 326 muestra que se puede realizar otra acción para considerar una palabra o una frase para el contexto facilitado a la palabra o frase de coincidencia encontrada en la gramática de contextos específicos 306. Por ejemplo, si el contexto facilitado fuera "movies" y la pronunciación de coincidente fuera "8 o'clock", la palabra "movies" sería considerada para la frase "8 o'clock" para formar la frase "movies at 8 o'clock".
Igualmente, si se encuentra una coincidencia en la gramática general 214, entonces el flujo puede seguir su curso hasta el bloque 322 donde el interfaz de aplicación 220 es dirigido a realizar una acción como se ha descrito anteriormente, o al bloque 324 donde se accede directamente a una fila en la base de datos NLP. Sin embargo, si en la gramática general 214 se encuentra una coincidencia, no ocurre la consideración de un contexto debido, tal como se ha dicho anteriormente, debido a que las entradas en la gramática general 214, en sí mismas, no tienen un contexto matriz.
Finalmente, con referencia a la Figura 3A, las palabras pueden ser introducidas manualmente mediante introducción manual 106. En este caso, no se requiere reconocimiento de voz, y además se necesita todavía procesamiento de lenguaje natural de las palabras introducidas. Así, el flujo prosigue hasta la Figura 3B.
En la Figura 3B, en el bloque 328, el procesador de lenguaje natural 202 formatea la frase para el análisis de procesamiento de lenguaje natural. Este formateo es realizado por el formateador de secuencias de palabras 206 y puede incluir tal procesamiento de texto como el de quitar espacios duplicados entre palabras, haciendo todas las letras minúsculas (o mayúsculas), ampliando contracciones (por ejemplo, cambiando "it's" por "it is"), y similares. El objeto de este paso de formateo es preparar la frase para su análisis.
El flujo continúa al bloque 330 donde el sustituidor variables 204 sustituye ciertas "variables de palabra" por una función comodín asociada en preparación para acceder a la base de datos NLP 218. Como se ha utilizado aquí, el término "variables de palabra" se refiere a palabras o frases que representan cantidades, fechas, horas, monedas, y similares. Por ejemplo, en una realización la frase "what movies are playing at 8 o'clock" en el bloque 330 sería transformada en "what movies are playing at \textdollartime" donde "\textdollartime" es una función comodín utilizada para representar cualquier hora. Como otro ejemplo, en una realización la frase "sell IBM stock at 100 dollars" en el bloque 330 sería transformada en "sell IBM a \textdollardollars" donde "\textdollardollars" es una función comodín utilizada para representar cualquier valor en dólares. Este paso puede realizarse por un solo bucle que busca en la frase credenciales testigos de clave tales como las palabras "dollar" u "o'clock" y sustituye las variables de palabra por una función comodín específica. Con el fin de conservar la pista del lugar en la frase en el que se realizó la sustitución, se puede utilizar una matriz. Esto permite la resustitución de la variable de palabra en la frase en la misma posición después de haber buscado en la base de datos NLP 218.
El objeto de sustituir variables de palabra por una función comodín asociada en el bloque 330 es reducir el número de entradas que pueden estar presentes en la base de datos NLP 218. Por ejemplo, la base de datos NLP 218 solamente contendría la frase "what movies are playing at \textdollartime" en vez de una entrada independiente para 8 o'clock, 9 o'clock, 10 o'clock, y así sucesivamente. La base de datos NLP 218 se describirá más adelante.
En el bloque 332, los pronombres en la frase se sustituyen por nombres propios mediante el sustituidor de pronombres 211. Por ejemplo, en una realización los pronombres "I", "my" o "mine" serían sustituidos por el nombre del que habla. El objeto de este paso es permitir que se almacenen y se acceda a hechos específicos del usuario en la base de datos NLP 218. Por ejemplo, la oración "who are my children" se transformaría en "who are Dean's children" donde "Dean" es el nombre propio del que habla. Nuevamente, este paso puede realizarse en un único bucle que busca pronombres en la frase, y sustituye los pronombres encontrados por un nombre propio correspondiente. Se puede utilizar una matriz con el fin de conservar la pista de los lugares de la frase en los que se realizó una sustitución.
En el bloque 334, el ponderador 208 pondera cada una de las palabras en la frase se sopesan de acuerdo con su "importancia" o "significancia" relativa con el significado del conjunto de la frase. Por ejemplo, en una realización hay asignados tres factores de ponderación. El factor de ponderación inferior se asigna a palabras tales como "a", "an", "the" y a otros artículos. El factor de ponderación más alto se da a palabras que probablemente tienen una relación significativa con el significado de la frase. Por ejemplo, éstas pueden incluir todos los verbos, nombres, adjetivos, y nombres propios en la base de datos NLP 218. A todas las otras palabras de la frase se les da un factor de ponderación medio. El objeto de esta ponderación es permitir una búsqueda más potente de la base de datos NLP 218.
En la Figura 4 se muestra un ejemplo de columnas seleccionadas de la base de datos NLP 218. La base de datos NLP 218 comprende una pluralidad de columnas 400-410, y una pluralidad de filas 412A-412N. En la columna 400 las entradas representan frases que son "conocidas" por la base de datos NLP. En la columna 402 se muestra un número de palabras requeridas para cada entrada en la columna 400. En la columna 404 se muestra un contexto o subcontexto asociado para cada entrada en la columna 400. En las columnas 408 y 410 se muestran una o más acciones asociadas para cada entrada en la columna 400. Se debería advertir de que la base de datos NLP 218 mostrada en la Figura 4 solamente es un ejemplo simplificado con el fin de explicar el presente invento. Otras realizaciones pueden tener más o menos columnas con entradas diferentes.
Con referencia nuevamente a la Figura 3B, en el bloque 336, se buscan en la base de datos NLP 218 posibles coincidencias con la frase, basándose en si la entrada en la columna 400 de la base de datos 218 contiene alguna de las palabras de la frase (o sus sinónimos), y el peso relativo de esas palabras. En el bloque 338, se genera un valor de confianza para cada una de las posibles entradas de coincidencia basándose en el número de ocurrencias de cada una de las palabras de la frase y de sus pesos relativos. La búsqueda de una palabra ponderada en una base de datos es bien conocida en la técnica y puede ser realizada por máquinas de búsqueda disponibles comercialmente tales como el producto "dtsearch" de DT Software, Inc. de Arlington, Virginia. Igualmente, es bien conocida en la técnica la búsqueda que utiliza sinónimos y puede ser realizada utilizando herramientas disponibles para el público tales como "WordNet", desarrollada por el Laboratorio de Ciencias del Conocimiento de la Universidad de Princeton, New Jersey. El motor de búsqueda puede ser una parte integrante del procesador de lenguaje natural 202.
En la decisión 340 el procesador de lenguaje natural 202 determina si cualquiera de las posibles entradas de coincidencia tiene un valor de confianza mayor que o igual que algún umbral mínimo predeterminado, T. El umbral T representa el valor de confianza aceptable inferior para el cual puede tomarse una decisión en cuanto a si la frase ha coincidido con alguna de las entradas en la base de datos NLP 218. Si no hay ninguna posible entrada de coincidencia con un valor de confianza mayor que o igual a T, entonces el flujo prosigue hasta el bloque 342 donde para el usuario se visualiza un mensaje de error opcional en la visualización 104 o se reproduce por audio a través del altavoz 112. En una realización, el tipo de mensaje de error, si lo hay, visualizado para el usuario puede depender de cuántos "aciertos" (es decir, cuántas palabras coincidentes de la frase) fueron encontrados en la entrada en la base de datos NLP de la mayor confianza. Se generaría un tipo diferente de mensaje de error según los aciertos fueran cero o uno o bien fueran dos o más aciertos.
Sin embargo, si al menos hay una entrada en la base de datos NLP 218 para la que existe un valor de confianza mayor que o igual a T, entonces el flujo prosigue hasta el bloque 344 donde las palabras "ruido" se descartan de la frase. Las palabras "ruido" incluyen palabras que no contribuyen de forma importante al significado total de la frase con relación a las otras palabras de la frase. Éstas pueden incluir artículos, pronombres, conjunciones, y palabras de una naturaleza similar. Las palabras "sin ruido" incluirían palabras que contribuyen de forma importante al significado total de la frase. Las palabras "sin ruido" incluirían verbos, nombres, adjetivos, nombres propios, y palabras de una naturaleza similar.
El flujo prosigue hasta la Figura 3C donde el requerimiento de palabra sin ruido se recupera de la columna 402 de la base de datos NLP 218 para la entrada de coincidencia de confianza más alta en el bloque 346. Por ejemplo, si la frase de coincidencia de confianza más alta era la entrada en la fila 412A, (por ejemplo, "what movies are playing at \textdollartime"), entonces el número de palabras sin ruido requeridas es 3.
En la decisión 348, se realiza una prueba para determinar si el número de palabras sin ruido requeridas de la frase está actualmente presente en la entrada de confianza más alta recuperada de la base de datos NLP 218. Esta prueba es una verificación de la precisión de la búsqueda de estilo pertinente realizada en el bloque 336, quedando sobreentendido que una entrada puede generar un valor de confianza más alto que el umbral mínimo, T, sin ser una coincidencia aceptable para la frase.
La naturaleza de la prueba realizada en la decisión 348 es una prueba booleana "AND" realizada por el comprobador booleano 210. La prueba determina si cada una de las palabras sin ruido en la frase (o su sinónimo) está actualmente presente en la entrada de confianza más alta. Si hay un número suficiente de palabras requeridas actualmente presentes en la entrada de confianza más alta, entonces el flujo prosigue hasta el bloque 350, donde el procesador de lenguaje natural 202 dirige el interfaz de aplicación 220 hasta realizar una acción asociada de la columna 408 o 410. Se sobreentiende que también pueden estar presentes columnas de acción adicionales.
Por ejemplo, si la entrada de confianza más alta era la entrada en la fila 412A, y la prueba booleana de decisión 348 determinó que actualmente había 3 palabras sin ruido de la frase en la entrada en la columna 400, entonces se debería realizar la acción en la columna 408 (por ejemplo, acceso al sitio "movie" de la red). Otras entradas en la base de datos NLP tienen otras acciones asociadas. Por ejemplo, si la entrada de confianza más alta es la de la fila 412E (por ejemplo, "what time is it"), la acción asociada puede ser para que el procesador de lenguaje natural 202 dirija una aplicación texto a voz (no mostrada) para decir la hora actual al usuario a través del altavoz 112. Como otro ejemplo, si la entrada de confianza más alta es la de la fila 412N (por ejemplo, "show me the news"), la primera acción asociada puede ser acceder a un sitio predeterminado de noticias en Internet, y una segunda acción asociada puede ser dirigir una aplicación de visualización de imagen (no mostrada) para visualizar imágenes asociadas con las noticias. También se pueden realizar acciones diferentes o adicionales.
También, si la entrada de confianza más alta contiene el requerido número de palabras sin ruido de la frase como determinado en la decisión 348, el procesador de lenguaje natural 202 da instrucciones al procesador de reconocimiento de voz 200 para facilitar la gramática específica de contextos 212 para el contexto asociado de la columna 404. Así, para la fila 412A, se facilitaría la gramática de contextos específicos 212 para el contexto "movies". Así, cuando se proporciona la próxima pronunciación al procesador de reconocimiento de voz 200 en el bloque 300 de la Figura 3A, se buscaría en la gramática de contextos específicos 212 facilitada para "movies" antes de buscar la gramática general 214. Como se ha manifestado anteriormente, facilitando la gramática específica de contextos 212 aumenta en gran medida la probabilidad de reconocimiento de voz rápido y con éxito, y mejora la capacidad del usuario de comunicarse con el ordenador en un estilo conversacional.
Sin embargo, si nuevamente en la decisión 348, el número requerido de palabras sin ruido no está presente actualmente en la entrada de confianza más alta recuperada de la base de datos 218, entonces el flujo prosigue hasta el bloque 354 donde se pregunta al usuario a través de la visualización 104 o del altavoz 112 si fue considerada la entrada de confianza más alta. Por ejemplo, si el usuario pronunció "How much is IBM stock selling for today", la entrada de confianza más alta en la base de datos NLP 218 puede ser la entrada en la fila 412B. En este caso, aunque el factor de pertinencia puede ser alto, el número de palabras requeridas (o sus sinónimos) puede no ser suficiente. Así, al usuario le sería preguntado en el bloque 354 si él consideró "what is the price of IBM stock on August 28, 1998".
El usuario puede responder bien afirmativa o negativamente. Si está determinado en la decisión 356 que el usuario tiene que responder afirmativamente, entonces la o las acciones asociadas con la entrada de confianza más alta se realizan en el bloque 350, y la gramática específica de contextos 212 asociada es facilitada en el bloque 352.
Sin embargo, si se ha determinado en la decisión 356 que el usuario ha respondido negativamente, entonces el flujo prosigue hasta la Figura 3D donde se recupera el contexto asociado de la columna 404 de la base de datos NLP 218 para la entrada de confianza más alta, y el usuario es preguntado por información utilizando un diálogo interactivo basado en el contexto en el bloque 360. Por ejemplo, si el usuario pronunció "what is the price of XICOR stock today", y la entrada de confianza más alta de la base de datos NLP 218 fue la fila 412B (por ejemplo, "what is the price of IBM stock on \textdollardate"), entonces el usuario sería avisado en el bloque 354 qué era lo que él pensaba.
Si el usuario responde negativamente, entonces el contexto "stock" se recupera de la columna 404 en el bloque 358, y al usuario se le presenta el diálogo interactivo basado en el contexto para el contexto stock a través de la visualización 104 y el altavoz 112. Tal diálogo interactivo basado en el contexto puede dar lugar a que al usuario le sean preguntados datos del nombre y el símbolo receptor de cotizaciones de las existencias de XICOR. El usuario puede responder a la información requerida hablando. Se puede usar un diálogo interactivo basado en el contexto para cada uno de los contextos posibles. Por ejemplo, el diálogo interactivo basado en el contexto "weather" puede dar lugar a que al usuario le sea preguntado el nombre del lugar cuya información meteorológica se desea. También, el diálogo interactivo basado en el contexto "news" puede dar lugar a que el usuario sea preguntado por los tipos de artículos, fuente de noticias, URL de Internet del lugar de las noticias, u otra información relacionada.
Una vez terminado el diálogo interactivo basado en el contexto, la base de datos NLP 218, gramática general 214, y gramática específica de contextos 212 son actualizadas para incluir la nueva información. De esta forma, la próxima vez que el usuario pregunte por esa información se encontrará una coincidencia adecuada, y se realizará la acción apropiada sin preguntar al usuario más información. Así, el presente invento "aprende" adaptativamente a reconocer frases pronunciadas por el usuario.
En una realización del presente invento, una o más de las bases de datos NLP 218, de la gramática específica de contextos 212, de la gramática general 214, y de la gramática de dictado 216 también contienen valores señal de tiempo (no mostrados) asociados con cada entrada. Cada vez que se utiliza una entrada de coincidencia, se actualiza el valor señal de tiempo asociado con la entrada. A intervalos periódicos, o cuando por iniciativa del usuario, se retiran de sus respectivas bases de datos/gramáticas las entradas que tienen un valor señal de tiempo anteriores a una cierta fecha y hora. De esta forma, las bases de datos/gramáticas pueden ser mantenidas en un tamaño eficiente mediante la "purga" de entradas antiguas o anticuadas. Esto también ayuda a evitar falsas coincidencias.
En resumen, el presente invento proporciona un método y sistema para un interfaz de usuario para un ordenador. Mediante la utilización de gramáticas específicas de contextos, el presente invento disminuye el tiempo de reconocimiento de voz e incrementa la capacidad del usuario para comunicarse con el ordenador en un estilo conversacional. Además, mediante el uso de actualización adaptativa de las diversas gramáticas y de la base de datos NLP, el presente invento aumenta aún más la eficiencia interactiva.
Se proporciona la anterior descripción de las realizaciones preferidas para hacer posible que cualquier persona experta en la materia haga o utilice el presente invento. Las diferentes modificaciones a estas realizaciones resultarán enseguida evidentes a las personas expertas en la materia, y los principios generales definidos aquí pueden ser aplicados a otras realizaciones sin el uso de facultades de invención. Así, se entiende que el presente invento no está limitado a las realizaciones mostradas aquí, pero debe acordarse el alcance de forma consistente con las reivindicaciones anejas.

Claims (34)

1. Un método para interactuar con un ordenador utilizando pronunciaciones, comprendiendo el método los pasos de:
buscar en un primer fichero de gramática (212) una frase de coincidencia para dicha pronunciación;
buscar en un segundo fichero de gramática (214) una frase de coincidencia si dicha frase de coincidencia no ha sido encontrada en dicho primer fichero de gramática;
buscar en una base de datos (218) de procesamiento de lenguaje natural (NLP) una entrada de coincidencia para dicha frase de coincidencia, representando las entradas frases que son conocidas por la base de datos NLP;
realizar una acción asociada con dicha entrada de coincidencia si dicha entrada de coincidencia es encontrada en dicha base de datos.
2. El método de la reivindicación 1 que además comprende el paso de actualización de al menos una de dicha base de datos, de dicho primer fichero de gramática y de dicho segundo fichero de gramática con dicha frase de coincidencia si dicha entrada de coincidencia no ha sido encontrada en dicha base de
datos.
3. El método de la reivindicación 2 en el que dicho primer fichero de gramática es un fichero de gramática específica de contextos.
4. El método de la reivindicación 3 en el que dicho segundo fichero de gramática es un fichero de gramática general.
5. El método de la reivindicación 4 que además incluye el paso de buscar en una gramática de dictado dicha frase de coincidencia si dicha frase de coincidencia no ha sido encontrada en dicho fichero de gramática general.
6. El método de la reivindicación 1 que además comprende el paso de sustituir al menos una palabra en dicha frase de coincidencia antes de dicho paso de búsqueda en dicha base de datos.
7. El método de la reivindicación 6 en el que dicho paso de sustituir dicha al menos una palabra comprende la sustitución de un comodín por dicha al menos una palabra.
8. El método de la reivindicación 6 en el que dicho paso de sustitución de al menos una palabra comprende la sustitución de un nombre propio por dicha al menos una palabra.
9. El método de la reivindicación 1 que además comprende el paso de formateo de texto de dicha frase de coincidencia antes de dicho paso de buscar en dicha base de datos.
10. El método de la reivindicación 1 que además comprende el paso de ponderar palabras individuales en dicha frase de coincidencia de acuerdo con una significancia relativa de dichas palabras individuales antes de dicho paso de buscar en dicha base de datos.
11. El método de la reivindicación 1 que además comprende el paso de generar unos valores de confianza para dicha entrada de coincidencia.
12. El método de la reivindicación 11 que además comprende el paso de comparar dicho valor de confianza con un valor umbral.
13. El método de la reivindicación 12 que además comprende el paso de determinar si un número requerido de palabras de dicha frase de coincidencia está presente en dicha entrada de coincidencia.
14. El método de la reivindicación 13 que además comprende el paso de preguntar a un usuario si dicha entrada de coincidencia es una interpretación correcta de dicha pronunciación si dicho número de palabras requerido de dicha frase de coincidencia no está presente en dicha entrada de coincidencia.
15. El método de la reivindicación 14 que además comprende el paso de preguntar a un usuario información adicional si dicha entrada de coincidencia no es una interpretación correcta de dicha pronunciación.
16. El método de la reivindicación 15 que además comprende el paso de actualizar al menos una de dicha base de datos, de dicho primer fichero de gramática y de dicho segundo fichero de gramática con dicha información adicional.
17. El método de la reivindicación 2 que además comprende el paso de buscar una gramática específica de contextos asociada con dicha entrada de coincidencia para una posterior frase de coincidencia para una pronunciación posterior.
18. Un sistema para interactuar con un ordenador utilizando pronunciaciones, comprendiendo el sistema:
un procesador de voz (200) para buscar en un primer archivo de gramática (212) una frase de coincidencia para dicha pronunciación, y para buscar en un segundo fichero de gramática (214) dicha frase de coincidencia si dicha frase de coincidencia no ha sido encontrada en dicho fichero de gramática;
un procesador de lenguaje natural para buscar en una base de datos de procesamiento de lenguaje natural (NLP) (218) una entrada de coincidencia para dicha frase de coincidencia, representando las entradas frases que son conocidas por la base de datos NLP; y
un interfaz de aplicación (220) para realizar una acción asociada con dicha entrada de coincidencia si dicha entrada de coincidencia es encontrada en dicha base de datos.
19. El sistema de la reivindicación 18 en el que dicho procesador de lenguaje natural actualiza al menos una de dicha base de datos, de dicho primer fichero de gramática y de dicho segundo fichero de gramática con dicha frase de coincidencia si dicha entrada de coincidencia no ha sido encontrada en dicha base de datos.
20. El sistema de la reivindicación 19 en el que dicho primer fichero de gramática es un fichero de gramática específica de contextos.
21. El sistema de la reivindicación 20 en el que dicho segundo fichero de gramática es un fichero de gramática general.
22. El sistema de la reivindicación 21 en el que dicho procesador de voz busca una gramática de dictado para dicha frase de dictado si dicha frase de coincidencia no se encuentra en dicho fichero de gramática general.
23. El sistema de la reivindicación 18 en el que además dicho procesador de lenguaje natural sustituye al menos una palabra en dicha frase de coincidencia antes de buscar en dicha base de datos.
24. El sistema de la reivindicación 23 que además comprende un sustituidor de variable en dicho procesador de lenguaje natural para sustituir un comodín por dicha al menos una palabra en dicha frase de coincidencia.
25. El sistema de la reivindicación 23 que además comprende un sustituidor de pronombres en dicho procesador de lenguaje natural para sustituir por un nombre propio al menos una palabra en dicha frase de coincidencia.
26. El sistema de la reivindicación 18 que además comprende un formateador de secuencias de palabras para formatear el texto de dicha frase de coincidencia antes de buscar en dicha base de datos.
27. El sistema de la reivindicación 18 que además comprende un ponderador de palabras para ponderar palabras individuales en dicha frase de coincidencia de acuerdo con una significancia relativa de dichas palabras individuales antes de buscar en dicha base de datos.
28. El sistema de la reivindicación 18 que además comprende un motor de búsqueda en dicho procesador de lenguaje natural para generar un valor de confianza para dicha entrada de coincidencia.
29. El sistema de la reivindicación 28 en el que dicho procesador de lenguaje natural compara dicho valor de confianza con un valor umbral.
30. El sistema de la reivindicación 29 que además comprende un comprobador booleano para determinar si un número de palabras requerido de dicha frase de coincidencia está presente en dicha entrada de coincidencia.
31. El sistema de la reivindicación 30 en el que dicho procesador de lenguaje natural pregunta a un usuario si dicha entrada de coincidencia es una interpretación correcta de dicha pronunciación si dicho número requerido de palabras de dicha frase de coincidencia no está presente en dicha entrada de coincidencia.
32. El sistema de la reivindicación 30 en el que dicho procesador de lenguaje natural pregunta a un usuario información adicional si dicha entrada de coincidencia no es una interpretación correcta de dicha pronunciación.
33. El sistema de la reivindicación 32 en el que dicho procesador de lenguaje natural actualiza al menos una de dicha base de datos, de dicho primer fichero de gramática y de dicho segundo fichero de gramática con dicha información adicional.
34. El sistema de la reivindicación 19 en el que dicho procesador de voz busca en una gramática específica de contextos asociada con dicha entrada de coincidencia una posterior frase de coincidencia para una posterior pronunciación.
ES99949601T 1998-09-09 1999-09-08 Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural. Expired - Lifetime ES2235520T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US150459 1998-09-09
US09/150,459 US6499013B1 (en) 1998-09-09 1998-09-09 Interactive user interface using speech recognition and natural language processing

Publications (1)

Publication Number Publication Date
ES2235520T3 true ES2235520T3 (es) 2005-07-01

Family

ID=22534628

Family Applications (2)

Application Number Title Priority Date Filing Date
ES99945549T Expired - Lifetime ES2235508T3 (es) 1998-09-09 1999-09-08 Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.
ES99949601T Expired - Lifetime ES2235520T3 (es) 1998-09-09 1999-09-08 Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES99945549T Expired - Lifetime ES2235508T3 (es) 1998-09-09 1999-09-08 Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.

Country Status (10)

Country Link
US (2) US6499013B1 (es)
EP (2) EP1110205B1 (es)
JP (2) JP2002524776A (es)
CN (2) CN1153190C (es)
AT (2) ATE287117T1 (es)
AU (2) AU762282B2 (es)
CA (2) CA2343229A1 (es)
DE (2) DE69922971T2 (es)
ES (2) ES2235508T3 (es)
WO (2) WO2000014727A1 (es)

Families Citing this family (391)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775264B1 (en) 1997-03-03 2004-08-10 Webley Systems, Inc. Computer, internet and telecommunications based network
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
EP1224569A4 (en) 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
JP3702414B2 (ja) * 1999-08-11 2005-10-05 株式会社日立製作所 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
US7447635B1 (en) * 1999-10-19 2008-11-04 Sony Corporation Natural language interface control system
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CA2408584A1 (en) * 2000-04-06 2001-10-18 One Voice Technologies, Inc. Natural language and dialogue generation processing
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US7024348B1 (en) * 2000-09-28 2006-04-04 Unisys Corporation Dialogue flow interpreter development tool
US7660740B2 (en) * 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
KR20020032835A (ko) * 2000-10-27 2002-05-04 정우성 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델
DE10196793D2 (de) 2000-11-03 2004-10-07 Voicecom Ag Robuste Spracherkennung mit Datenbankorganisation
JP3714159B2 (ja) * 2000-11-30 2005-11-09 日本電気株式会社 ブラウザ搭載装置
EP1352316A2 (en) * 2000-12-01 2003-10-15 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
WO2002050816A1 (en) * 2000-12-18 2002-06-27 Koninklijke Philips Electronics N.V. Store speech, select vocabulary to recognize word
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7506022B2 (en) 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7519529B1 (en) 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7409335B1 (en) 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US20030009334A1 (en) * 2001-07-03 2003-01-09 International Business Machines Corporation Speech processing board for high volume speech processing applications
US20030037053A1 (en) * 2001-08-09 2003-02-20 Zhong-Hua Wang Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems
US6985865B1 (en) * 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7058565B2 (en) * 2001-12-17 2006-06-06 International Business Machines Corporation Employing speech recognition and key words to improve customer service
US6915246B2 (en) * 2001-12-17 2005-07-05 International Business Machines Corporation Employing speech recognition and capturing customer speech to improve customer service
KR20020023197A (ko) * 2001-12-27 2002-03-28 김연수 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
AU2003205166A1 (en) 2002-01-14 2003-07-30 Jerzy Lewak Identifier vocabulary data access method and system
DE10211777A1 (de) * 2002-03-14 2003-10-02 Philips Intellectual Property Erzeugung von Nachrichtentexten
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
US20030216923A1 (en) * 2002-05-15 2003-11-20 Gilmore Jeffrey A. Dynamic content generation for voice messages
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7941348B2 (en) 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US8719041B2 (en) * 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
US20030229554A1 (en) * 2002-06-10 2003-12-11 Veres Robert Dean Method and system for composing transaction listing descriptions for use in a network-based transaction facility
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
AU2003280474A1 (en) 2002-06-28 2004-01-19 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US7197494B2 (en) * 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
AU2003274592A1 (en) * 2002-11-28 2004-06-18 Koninklijke Philips Electronics N.V. Method to assign word class information
US20040111259A1 (en) * 2002-12-10 2004-06-10 Miller Edward S. Speech recognition system having an application program interface
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7480619B1 (en) 2003-03-04 2009-01-20 The Board Of Trustees Of The Leland Stanford Junior University Integration manager and natural interaction processor
US6980949B2 (en) * 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
CA2524591A1 (en) * 2003-05-05 2004-11-18 Interactions, Llc Apparatus and method for processing service interactions
US8223944B2 (en) * 2003-05-05 2012-07-17 Interactions Corporation Conference call management system
WO2004109658A1 (ja) * 2003-06-02 2004-12-16 International Business Machines Corporation 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体
US9202467B2 (en) * 2003-06-06 2015-12-01 The Trustees Of Columbia University In The City Of New York System and method for voice activating web pages
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US7383172B1 (en) 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US9552354B1 (en) * 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
US7376752B1 (en) 2003-10-28 2008-05-20 David Chudnovsky Method to resolve an incorrectly entered uniform resource locator (URL)
GB2409561A (en) * 2003-12-23 2005-06-29 Canon Kk A method of correcting errors in a speech recognition system
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
JP2005339237A (ja) * 2004-05-27 2005-12-08 Aruze Corp アプリケーション利用補助システム
WO2005122145A1 (en) * 2004-06-08 2005-12-22 Metaphor Solutions, Inc. Speech recognition dialog management
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7242751B2 (en) * 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7921091B2 (en) * 2004-12-16 2011-04-05 At&T Intellectual Property Ii, L.P. System and method for providing a natural language interface to a database
ES2261053B1 (es) * 2004-12-29 2008-04-16 France Telecom España, S.A. Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles.
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법
US7593962B2 (en) * 2005-02-18 2009-09-22 American Tel-A-Systems, Inc. System and method for dynamically creating records
US8225232B2 (en) 2005-02-28 2012-07-17 Microsoft Corporation Dynamic configuration of unified messaging state changes
US7409344B2 (en) 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7996219B2 (en) * 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8229745B2 (en) * 2005-10-21 2012-07-24 Nuance Communications, Inc. Creating a mixed-initiative grammar from directed dialog grammars
US8315874B2 (en) * 2005-12-30 2012-11-20 Microsoft Corporation Voice user interface authoring tool
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US20070225970A1 (en) * 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8107610B2 (en) * 2006-06-06 2012-01-31 At&T Intellectual Property I, L.P. Callback processing of interactive voice response requests
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
CN101558443B (zh) 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
US7809564B2 (en) * 2006-12-18 2010-10-05 International Business Machines Corporation Voice based keyword search algorithm
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
WO2009039867A1 (de) * 2007-09-20 2009-04-02 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und kommunikationsanordnung zum betreiben einer kommunikationsverbindung
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010051591A1 (en) * 2008-11-06 2010-05-14 Digital Intermediary Pty Limited Context layered object engine
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8521513B2 (en) 2010-03-12 2013-08-27 Microsoft Corporation Localization for interactive voice response systems
US8694313B2 (en) 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8484031B1 (en) 2011-01-05 2013-07-09 Interactions Corporation Automated speech recognition proxy system for natural language understanding
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US8560321B1 (en) 2011-01-05 2013-10-15 Interactions Corportion Automated speech recognition system for natural language understanding
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
WO2012135226A1 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
EP2667268A1 (de) * 2012-05-24 2013-11-27 Siemens Aktiengesellschaft Verfahren zum Betrieb eines Automatisierungsgeräts
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103678283B (zh) * 2012-08-30 2016-08-17 英业达科技有限公司 提供外语词组以辅助外语文章撰写的系统及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9047271B1 (en) 2013-02-28 2015-06-02 Google Inc. Mining data for natural language system
US9020809B1 (en) 2013-02-28 2015-04-28 Google Inc. Increasing semantic coverage with semantically irrelevant insertions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US8694305B1 (en) * 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
CN112230878B (zh) 2013-03-15 2024-09-27 苹果公司 对中断进行上下文相关处理
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9177553B1 (en) 2013-06-25 2015-11-03 Google Inc. Identifying underserved command inputs
US9123336B1 (en) 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9183196B1 (en) 2013-06-25 2015-11-10 Google Inc. Parsing annotator framework from external services
US9092505B1 (en) 2013-06-25 2015-07-28 Google Inc. Parsing rule generalization by n-gram span clustering
US9330195B1 (en) 2013-06-25 2016-05-03 Google Inc. Inducing command inputs from property sequences
US9251202B1 (en) 2013-06-25 2016-02-02 Google Inc. Corpus specific queries for corpora from search query
US9117452B1 (en) 2013-06-25 2015-08-25 Google Inc. Exceptions to action invocation from parsing rules
US9299339B1 (en) 2013-06-25 2016-03-29 Google Inc. Parsing rule augmentation based on query sequence and action co-occurrence
US9280970B1 (en) 2013-06-25 2016-03-08 Google Inc. Lattice semantic parsing
US9984684B1 (en) 2013-06-25 2018-05-29 Google Llc Inducing command inputs from high precision and high recall data
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
CN104346151B (zh) * 2013-07-30 2018-04-27 联想(北京)有限公司 一种信息处理方法及电子设备
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9507849B2 (en) * 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN105934791B (zh) * 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
CN109949815B (zh) * 2014-04-07 2024-06-07 三星电子株式会社 电子装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US20150331853A1 (en) * 2014-05-15 2015-11-19 Marco Palmonari Automated multi-grammar language processing system to optimize request handling in contact centers
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) * 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160379630A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Speech recognition services
US10515150B2 (en) 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10843080B2 (en) * 2016-02-24 2020-11-24 Virginia Tech Intellectual Properties, Inc. Automated program synthesis from natural language for domain specific computing applications
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US20180052573A1 (en) * 2016-08-17 2018-02-22 Microsoft Technology Licensing, Llc Interaction with a file storage service through a messaging bot
US10838992B2 (en) * 2016-08-17 2020-11-17 International Business Machines Corporation Content selection for usage within a policy
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
GB201618479D0 (en) 2016-11-02 2016-12-14 Syngenta Participations Ag Adjuvants
US10540966B2 (en) 2016-11-02 2020-01-21 Genesys Telecommunications Laboratories, Inc. System and method for parameterization of speech recognition grammar specification (SRGS) grammars
US10482885B1 (en) * 2016-11-15 2019-11-19 Amazon Technologies, Inc. Speaker based anaphora resolution
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US20180330725A1 (en) * 2017-05-09 2018-11-15 Microsoft Technology Licensing, Llc Intent based speech recognition priming
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
US11188706B2 (en) * 2018-01-18 2021-11-30 Christopher Anthony Silva System and method for regionalized resolution of a network path
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统
CN110728976B (zh) * 2018-06-30 2022-05-06 华为技术有限公司 语音识别的方法、装置及系统
CN108899030A (zh) * 2018-07-10 2018-11-27 深圳市茁壮网络股份有限公司 一种语音识别方法及装置
US10789943B1 (en) 2018-08-31 2020-09-29 Interactions Llc Proxy for selective use of human and artificial intelligence in a natural language understanding system
US11481558B2 (en) 2018-09-12 2022-10-25 Samsung Electroncis Co., Ltd. System and method for a scene builder
DE102018222156A1 (de) * 2018-12-18 2020-06-18 Volkswagen Aktiengesellschaft Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation
CN110223679A (zh) * 2019-06-14 2019-09-10 南京机电职业技术学院 一种语音识别输入装置
CN110265013A (zh) * 2019-06-20 2019-09-20 平安科技(深圳)有限公司 语音的识别方法及装置、计算机设备、存储介质
US11151981B2 (en) 2019-10-10 2021-10-19 International Business Machines Corporation Audio quality of speech in sound systems
CN112562679B (zh) * 2020-11-26 2024-06-14 浪潮金融信息技术有限公司 一种离线语音交互方法、装置及介质
JP2023535102A (ja) * 2021-07-19 2023-08-16 グーグル エルエルシー サードパーティデジタルアシスタントのアクションのためのビットベクトルに基づくコンテンツマッチング

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783803A (en) 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JPH02301869A (ja) 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5222187A (en) * 1989-12-29 1993-06-22 Texas Instruments Incorporated Grammar-based checksum constraints for high performance speech recognition circuit
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5511213A (en) * 1992-05-08 1996-04-23 Correa; Nelson Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2967688B2 (ja) * 1994-07-26 1999-10-25 日本電気株式会社 連続単語音声認識装置
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
JP2855409B2 (ja) 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
WO1998035491A1 (en) * 1997-02-05 1998-08-13 British Telecommunications Public Limited Company Voice-data interface
US6138098A (en) * 1997-06-30 2000-10-24 Lernout & Hauspie Speech Products N.V. Command parsing and rewrite system
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6094635A (en) * 1997-09-17 2000-07-25 Unisys Corporation System and method for speech enabled application
US6058166A (en) * 1997-10-06 2000-05-02 Unisys Corporation Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6138100A (en) * 1998-04-14 2000-10-24 At&T Corp. Interface for a voice-activated connection system
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Also Published As

Publication number Publication date
ES2235508T3 (es) 2005-07-01
WO2000014727A1 (en) 2000-03-16
ATE287117T1 (de) 2005-01-15
CN1161747C (zh) 2004-08-11
CN1325528A (zh) 2001-12-05
CN1153190C (zh) 2004-06-09
CA2343229A1 (en) 2000-03-16
EP1110205A1 (en) 2001-06-27
CA2343150A1 (en) 2000-03-16
AU5813099A (en) 2000-03-27
JP2002524806A (ja) 2002-08-06
EP1110205B1 (en) 2005-01-12
AU762282B2 (en) 2003-06-19
DE69923191T2 (de) 2006-01-05
DE69922971D1 (de) 2005-02-03
DE69922971T2 (de) 2005-12-29
DE69923191D1 (de) 2005-02-17
CN1325527A (zh) 2001-12-05
US6532444B1 (en) 2003-03-11
EP1110206A1 (en) 2001-06-27
EP1110206B1 (en) 2004-12-29
JP2002524776A (ja) 2002-08-06
WO2000014728A1 (en) 2000-03-16
AU6243999A (en) 2000-03-27
AU763059B2 (en) 2003-07-10
ATE286296T1 (de) 2005-01-15
US6499013B1 (en) 2002-12-24

Similar Documents

Publication Publication Date Title
ES2235520T3 (es) Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural.
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
JP4485694B2 (ja) 並列する認識エンジン
US6249763B1 (en) Speech recognition apparatus and method
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US20050187768A1 (en) Dynamic N-best algorithm to reduce recognition errors
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
US20020048350A1 (en) Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
US20110106792A1 (en) System and method for word matching and indexing
KR20220054704A (ko) 음성 인식을 위한 컨텍스트 바이어싱
US10565982B2 (en) Training data optimization in a service computing system for voice enablement of applications
US10930274B2 (en) Personalized pronunciation hints based on user speech
KR20110024075A (ko) 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
US20190138269A1 (en) Training Data Optimization for Voice Enablement of Applications
JP2013083897A (ja) 認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法
US20220147719A1 (en) Dialogue management
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
Fitzpatrick et al. Phonology and phonetics in psycholinguistic models of speech perception
HaCohen-Kerner et al. Language and gender classification of speech files using supervised machine learning methods
CN111429886B (zh) 一种语音识别方法及系统
US11361761B2 (en) Pattern-based statement attribution
JP2003162524A (ja) 言語処理装置