ES2235508T3 - Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural. - Google Patents
Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural.Info
- Publication number
- ES2235508T3 ES2235508T3 ES99945549T ES99945549T ES2235508T3 ES 2235508 T3 ES2235508 T3 ES 2235508T3 ES 99945549 T ES99945549 T ES 99945549T ES 99945549 T ES99945549 T ES 99945549T ES 2235508 T3 ES2235508 T3 ES 2235508T3
- Authority
- ES
- Spain
- Prior art keywords
- correspondence
- network
- grammar
- file
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000002452 interceptive effect Effects 0.000 title description 15
- 230000009471 action Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000003993 interaction Effects 0.000 claims description 21
- 238000012546 transfer Methods 0.000 claims description 9
- 238000005352 clarification Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000014509 gene expression Effects 0.000 description 23
- 238000003860 storage Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
Un método de interactuar con un objeto de red, comprendiendo el método: recibir una interacción (602) relativa a un objeto de red desde un usuario; determinar si una tabla (510) de objetos de red está asociada con dicho objeto de red; obtener la tabla (510) de objetos de red asociada con dicho objeto de red si dicha tabla (510) de objetos de red existe, teniendo la tabla (510) de objetos de red una entrada (520) correspondiente a dicho objeto de red y especificando una o más acciones asociadas con dicho objeto de red; buscar (626) la tabla (510) de objetos de red obtenida por ello para una correspondencia de entrada (540) para dicho objeto de red; realizar una acción asociada con dicha correspondencia de entrada (540) si dicha correspondencia de entrada es encontrada en dicha tabla (510) de objetos de red, incluyendo la acción actualizar (644) un primer archivo de gramática con gramática relativa a dicho objeto de red; buscar (304) el primer archivo de gramática (212) para una correspondencia de frase para otra interacción relativa a un objeto de red recibido desde un usuario; buscar (310) un segundo archivo de gramática (214) para la correspondencia de frase si la correspondencia de frase no es encontrada en el primer archivo gramatical; buscar una base de datos (218) del lenguaje natural para una correspondencia de entrada para dicha correspondencia de frase, representando dichas entradas frases que son conocidas por dicha base de datos; y, a realizar una acción asociada con dicha correspondencia de entrada si dicha correspondencia de entrada es encontrada en la base de datos (218) de lenguaje natural; y advertir (360) al usuario de una clarificación en el objeto de red si no se ha encontrado una correspondencia de entrada en la base de datos (218) de lenguaje natural.
Description
Interfaz de usuario interactivo de red que
utiliza reconocimiento de voz y tratamiento de lenguaje natural.
El presente invento se refiere a un método de
interactuar con un objeto de red, y a un sistema para actualizar un
ordenador para interacción de un usuario con un objeto de red.
El presente invento se refiere en general al
reconocimiento de voz para un enlace de usuario de ordenador de red,
y más específicamente, el presente invento se refiere a un nuevo
método sistema para interacción de un usuario con un ordenador
utilizando reconocimiento de voz y tratamiento de lenguaje
natural.
Cuando los ordenadores han resultado más
frecuentes ha resultado claro que muchas personas tienen una gran
dificultad de comprensión y comunicación con los ordenadores. Un
usuario debe a menudo aprender instrucciones u órdenes arcaicos y
procedimientos no intuitivos a fin de hacer funcionar el ordenador.
Por ejemplo, la mayor parte de los ordenadores personales usan
sistemas operativos basados en ventanas que son ampliamente
accionadas mediante menús. Esto requiere que el usuario aprenda qué
instrucciones de menú o secuencia de instrucciones producen los
resultados deseados.
Además, la interacción tradicional con un
ordenador es a menudo reducida en su velocidad por los dispositivos
de entrada manuales tales como teclados o ratones. Muchos usuarios
de ordenador no son escritores de máquina rápidos. Como resultado,
se consume mucho tiempo comunicando instrucciones y palabras al
ordenador a través de estos dispositivos de entrada manuales. Está
resultando claro que se necesita un método más fácil, más rápido y
más intuitivo de comunicación con ordenadores y objetos de red,
tales como sitios web.
Un método propuesto de interacción con un
ordenador es el reconocimiento de voz. El reconocimiento de voz
implica software y hardware que actúan juntos para detectar la voz
humana de modo audible y traducir la voz detectada a una cadena de
palabras. Como es conocido en la técnica, el reconocimiento de voz
trabaja rompiendo sonidos que el hardware detecta en sonidos menores
no divisibles llamados fonemas. Los fonemas son unidades de sonido
distintas. Por ejemplo, la palabra inglesa "those" está
constituida por tres fonemas; el primero es el sonido "th", el
segundo es el sonido "o", y el tercero es el sonido "s".
El software de reconocimiento de voz intenta hacer coincidir los
fonemas detectados con palabras conocidas de un diccionario
almacenado. Un ejemplo de un sistema de reconocimiento de voz está
dado en la patente norteamericana nº 4.783.803, titulada "Aparato
y método de reconocimiento de voz", concedida el 8 de noviembre
de 1998, asignada a Dragon Systems, Inc., e incorporada aquí como
referencia. Actualmente, hay muchos paquetes de software de
reconocimiento de voz comercialmente disponibles que pueden
encontrarse en compañías tales como Dragon Systems Inc., y en
International Business Machines, Inc.
Una limitación de estos paquetes o sistemas de
software de reconocimiento de voz es que típicamente sólo realizan
mando y control o funciones de dictado. Así, al usuario se le
requiere aún aprender un vocabulario de instrucciones a fin de hacer
funcionar el ordenador.
Una mejora propuesta a estos sistemas de
reconocimiento de voz es procesar las palabras detectadas usando un
sistema de tratamiento de lenguaje natural. El tratamiento de
lenguaje natural implica generalmente determinar un
"significado" conceptual (por ejemplo, qué significado está
destinado a transportar el que voz) de las palabras detectadas
analizando su relación gramática y el contexto relativo. Por
ejemplo, la patente norteamericana nº 4.887.212, titulada
"Analizador gramatical para texto de lenguaje natural",
concedida el 12 de diciembre de 1989, asignada a International
Business Machines Corporation e incorporada aquí como referencia,
muestra un método de análisis gramatical de una corriente de
palabras de entrada usando aislamiento de palabras, análisis
morfológico, búsqueda en diccionario y análisis gramatical.
El tratamiento de lenguaje natural usado de
acuerdo con el reconocimiento de voz proporcionar un útil potente
para hacer funcionar un ordenador usando palabras habladas en vez de
entrada manual tal como mediante un teclado o ratón. Sin embargo, un
inconveniente de un sistema de tratamiento de lenguaje natural
tradicional es que puede fallar al determinar el "significado"
correcto de las palabras detectadas por el sistema de reconocimiento
de voz. En tal caso, el usuario es requerido típicamente para
recomponer o restablecer la frase, con la esperanza de que el
sistema de tratamiento de lenguaje natural determine el correcto
"significado" en intentos subsiguientes. Claramente, esto puede
conducir a retardos sustanciales cuando el usuario es requerido para
restaurar la frase o instrucción completa. Otro inconveniente de
sistemas tradicionales es que el tiempo de tratamiento requerido
para el reconocimiento de voz puede ser prohibitivamente largo. Esto
es fundamentalmente debido a la velocidad finita de los recursos de
tratamiento en comparación con la gran cantidad de información que
ha de ser procesada. Por ejemplo, en muchos programas de
reconocimiento de voz tradicionales, el tiempo requerido para
reconocer la expresión es largo debido al tamaño del archivo del
diccionario que es buscado.
Un inconveniente adicional de los sistemas de
reconocimiento de voz y de tratamiento de lenguaje natural
tradicionales es que no son interactivos, y así son incapaces de
cubrir nuevas situaciones. Cuando un sistema de ordenador encuentra
objetos de red desconocidos o nuevos, se forman nueva relaciones
entre el ordenador y los objetos. Los sistemas de reconocimiento de
voz y de tratamiento de lenguaje natural tradicionales son incapaces
de cubrir las situaciones que resultan de las nuevas relaciones
planteadas por objetos de red previamente desconocidos. Como
resultado, no es posible una interacción de estilo conversacional
con el ordenador. El usuario es requerido para comunicar conceptos
completos al ordenador. El usuario no es capaz de hablar en
fragmentos de frases debido a que el significado de estos fragmentos
de frases (que depende del significado de expresiones previas) se
perderá.
Lo que se necesita es un enlace de usuario
interactivo para un ordenador que utiliza reconocimiento de voz y
tratamiento de lenguaje natural que evite los inconvenientes
mencionados anteriormente.
El documento
EP-A-0854418 describe un sistema
para añadir capacidades de reconocimiento de voz a Java cuando hay
previsto un servidor de reconocimiento de voz acoplado a una
aplicación de Java a través de un enlace de programa de
aplicación.
De acuerdo con un primer aspecto del presente
invento se ha creado un método de interactuar con un objeto de red,
comprendiendo el método: recibir una interacción relativa a un
objeto de red desde un usuario; determinar si una tabla de objetos
de red está asociada con dicho objeto de red; obtener la tabla de
objetos de red asociada con dicho objeto de red si dicha tabla de
objetos de red existe, teniendo la tabla de objeto de red una
entrada correspondiente a dicho objeto de red y especificando una o
más acciones asociadas con dicho objeto de red; buscar la tabla de
objetos de red obtenida por ello para una correspondencia de entrada
para dicho objeto de red; realizar una acción asociada con dicha
correspondencia de entrada si dicha correspondencia de entrada es
encontrada en dicha tabla de objetos de red, incluyendo la acción
actualizar un primer archivo gramatical con gramática relativa a
dicho objeto de red; buscar el primer archivo gramatical para una
correspondencia de frase para otra interacción con relación a un
objeto de red recibido desde un usuario; buscar un segundo archivo
gramatical para la correspondencia de frase si la correspondencia de
frase no es encontrada en el primer archivo gramatical; buscar una
base de datos de lenguaje natural para una correspondencia de
entrada para dicha correspondencia de frase; y, realizar una acción
asociada con dicha correspondencia de entrada si dicha entrada de
correspondencia es encontrada en la base de datos del lenguaje
natural; y, advierte al usuario de una clarificación en el objeto de
red si no se ha encontrado una correspondencia de entrada en la base
de datos de lenguaje natural.
De acuerdo con un segundo aspecto del presente
invento se ha creado un sistema para actualizar un ordenador para
interacción por un usuario con un objeto de red, comprendiendo el
sistema: un enlace de red configurado para transferir un archivo de
definición de diálogo asociado con un objeto de red, en el que el
archivo de definición de diálogo contiene una tabla de objetos de
red que tiene una correspondencia de entrada para el objeto de red y
especificar una o más acciones asociadas con el objeto de red; un
procesador de datos configurado para buscar la tabla de objetos de
red para una correspondencia de entrada para la interacción; un
enlace de aplicación configurado para realizar una acción asociada
con dicha correspondencia de entrada si dicha correspondencia de
entrada es encontrada en la tabla de objetos de red, incluyendo la
acción actualizar un archivo gramatical específico de contexto con
gramática relativa al objeto de red; un procesador de voz dispuesto
para buscar el archivo de gramática específico de contexto para una
correspondencia de frase para otra interacción con relación a un
objeto de red recibido desde un usuario, buscar un archivo de
gramática general para la correspondencia de frase si la
correspondencia de frase no es encontrada en el archivo de gramática
específico de contexto, buscar una gramática de dictado para la
correspondencia de frase si la correspondencia de frase no es
encontrada en el archivo de gramática general, y buscar un modelo de
dictado específico de contexto si la correspondencia de frase no es
encontrada en la gramática de dictado; y, un procesador de lenguaje
natural configurado para buscar una base de datos para una
correspondencia de entrada para la correspondencia de frase; estando
configurado el enlace de aplicación para realizar una acción
asociada con la correspondencia de entrada si la correspondencia de
entrada es encontrada en la base de datos, y preguntar al usuario
acerca del objeto de red si no se ha encontrado la correspondencia
de entrada.
En una realización, el presente invento
proporciona un sistema y método para interactuar con un ordenador
que usa expresiones, tratamiento de voz y tratamiento de lenguaje
natural. Genéricamente, el sistema comprende un procesador de voz
para buscar un primer archivo gramatical para la correspondencia de
frase para la expresión, y para buscar un segundo archivo gramatical
para la correspondencia de frase si la correspondencia de frase no
es encontrada en el primer archivo de gramática. El sistema también
incluye un procesador de lenguaje natural para buscar una base de
datos para una correspondencia de entradas para la correspondencia
de frase; y un enlace de aplicación para realizar una acción
asociada con la correspondencia de entrada si la correspondencia de
entrada es encontrada en la base de datos.
En la realización preferida, el procesador de
lenguaje natural actualiza al menos una de las bases de datos, el
primer archivo de gramática y el segundo archivo de gramática con la
correspondencia de frase si la correspondencia de entrada no es
encontrada en la base de datos.
En una realización, el primer archivo de
gramática es un archivo de gramática específico de contexto. Un
archivo de gramática específico de contexto es aquel que contiene
palabras y frases que son muy importantes para un sujeto específico.
El segundo archivo de gramática es un archivo de gramática general.
Un archivo de gramática general es el que contiene palabras y frases
que no necesitan ser interpretadas a la luz de un contexto. Es
decir, las palabras y frases en el archivo de gramática general no
pertenecen a ningún contexto pariente. Buscando el archivo de
gramática específica de contexto antes de buscar el archivo de
gramática general, el presente invento permite al usuario comunicar
con el ordenador usando un estilo más conversacional, en el que las
palabras habladas, si son encontradas en el archivo de gramática
específico de contexto, son interpretadas a la luz del sujeto más
recientemente descrito.
En una realización, el procesador de voz busca
una gramática de dictado para la correspondencia de frase si la
correspondencia de frase no es encontrada en el archivo de gramática
general. La gramática de dictado es un gran vocabulario de palabras
y frases generales. Buscando las gramáticas específicas de contexto
y general en primer lugar, se espera que el tiempo de reconocimiento
de voz será muy reducido debido a que las gramáticas específica de
contexto y general son archivos menores físicamente que la gramática
de dictado.
En una realización, el procesador de lenguaje
natural sustituye al menos una palabra en la correspondencia de
frase antes de buscar la base de datos. Esto puede conseguirse
mediante un dispositivo de sustitución variable en el procesador de
lenguaje natural para sustituir un comodín durante al menos una
palabra en la correspondencia de frase. Sustituyendo comodines por
ciertas palabras (llamadas "palabras variables") en la frase,
puede reducirse significativamente el número de entradas en la base
de datos. Adicionalmente, un dispositivo para sustituir pronombres
en el procesador de lenguaje natural puede sustituir un nombre
propio por pronombres de la correspondencia de frase, permitiendo
que hechos específicos del usuario sean almacenados en la base de
datos.
En una realización, un texto formateador de
cadenas formatea la correspondencia de frase antes de buscar la base
de datos. También, un dispositivo para pesar palabras presas para
las individuales en la correspondencia de frase de acuerdo con un
significado relativo de las palabras individuales antes de buscar la
base de datos. Estas operaciones permiten una búsqueda más rápida y,
más exacta de la base de datos.
En una realización, un motor de búsqueda en el
procesador de lenguaje natural genera un valor de confianza para la
correspondencia de entrada. El procesador de lenguaje natural
compara el valor de confianza con un valor de umbral. Un dispositivo
de prueba booleano determina si un número requerido de palabras
procedente de la frase de correspondencia están presentes en la
correspondencia de entrada. Esta prueba booleana sirve como
verificación del resultado devuelto por el motor de búsqueda.
En una realización, a fin de eliminar
ambigüedades, el procesador de lenguaje natural advierte o indica al
usuario si la correspondencia de entrada es una correcta
interpretación de la expresión si el número requerido de palabras
procedentes de la correspondencia de frase no están presentes en la
correspondencia de entrada. El procesador de lenguaje natural
también advierte al usuario de información adicional si la
correspondencia de entrada no es una interpretación correcta de la
expresión. Al menos una de las bases de datos, el primer archivo de
gramática y el segundo archivo de gramática son actualizados con la
información adicional. De este modo, el presente invento
"enseña" de modo adaptable el significado de expresiones
adicionales, mejorando por ello la eficiencia del enlace de
usuario.
En una realización, el procesador de voz
habilitará y buscará una gramática específica de contexto asociada
con la correspondencia de entrada para una correspondencia de frase
subsiguiente para una expresión subsiguiente. Esto asegura que las
palabras y frases más relevantes serán buscadas primero,
disminuyendo por ello los tiempos de reconocimiento de voz.
En una realización, el presente invento
proporciona un método para actualizar una ordenador para interacción
de voz con un objeto de red, tal como una página web. Inicialmente,
una tabla de objetos de red, que asocia con el objeto de red el
sistema de interacción de voz, es transferida al ordenador sobre una
red. La situación de la tabla de objetos de red puede ser embebida
dentro del objeto de red, en un sitio web de Internet específico, o
en una situación consolidada que almacena tablas de objetos de red
para múltiples objetos de red. La tabla de objetos de red es buscada
para hacer corresponder la entrada con el objeto de red. La entrada
que corresponde con el objeto de red puede dar como resultado que se
realice una acción, tal como que una voz de texto sea pronunciada a
través de un altavoz, usándose un archivo de gramática específico de
contexto, o usándose una base de datos de procesador del lenguaje
natural. La tabla de objetos de red puede ser parte de un archivo de
definición de diálogo. Los archivos de definición de diálogo pueden
también incluir una gramática específica de contexto, entradas para
una base de datos de procesador del lenguaje natural, o ambas.
En una realización, un enlace de red transfiere
un archivo de definición de diálogo desde la red. El archivo de
definición de diálogo contiene una tabla de objetos de red. Un
procesador de datos busca la tabla de objetos de red para una
entrada de tabla que corresponde con el objeto de red. Una vez que
se ha encontrado esta entrada de tabla de correspondencia, un enlace
de aplicación realiza una acción especificada por la correspondencia
de entrada.
En una realización, el archivo de definición de
diálogo asociado con una red es cargado, y a continuación leído. El
archivo de definición de diálogo podría ser leído desde una variedad
de posiciones, tal como un sitio web, un medio de almacenamiento, o
una posición que almacena archivos de definición de diálogo para
múltiples objetos de red. Una tabla de objetos de red, contenida
dentro del archivo de definición de diálogo, es buscada para
encontrar una entrada de tabla que corresponde con el objeto de red.
La entrada que corresponde define una acción asociada con el objeto
de red, y la acción es a continuación realizada por el sistema.
Además de una tabla de objetos de red, el archivo de diálogo puede
contener una gramática específica de contexto, entradas para una
base de datos de procesador de lenguaje natural o ambas.
Las características, objetos y ventajas del
presente invento resultarán más evidentes a partir de la descripción
detallada recogida a continuación cuando es tomada en unión con los
dibujos en los que los caracteres de referencia similares se
identifican correspondientemente en su totalidad y en la que:
\newpage
La fig. 1 es un diagrama de bloques funcional de
un sistema de ordenador ejemplar para usar con el presente
invento.
La fig. 2 es un diagrama de bloques funcional
expandido de la CPU 102 y medio de almacenamiento 108 del sistema de
ordenador de la fig. 1 del presente invento;
Las figs. 3A-3D son un diagrama
de flujo del método de proporcionar reconocimiento de voz
interactivo y tratamiento de lenguaje natural a un ordenador;
La fig. 4 es un diagrama de columnas
seleccionadas de una base de datos de un tratamiento de lenguaje
natural (NLP) ejemplar del presente invento;
La fig. 5 es un diagrama de un Archivo de
Definición de Base de Datos (DDF) ejemplar de acuerdo con el
presente invento;
La fig. 6 es un diagrama de columnas
seleccionadas de una tabla de objetos conectados a una red ejemplar
del presente invento;
Las figs. 7A-7C son un diagrama
de flujo del método del presente invento, que ilustra el enlace de
reconocimiento de voz interactivo y tratamiento de lenguaje natural
a un objeto conectado a una red, tal como una página web; y
La fig. 8 es un diagrama que representa un
sistema de ordenador que conecta a otros ordenadores, medios de
almacenamiento, y sitios web mediante Internet.
El presente invento será ahora descrito con
referencia a un diagrama de bloques funcional de un sistema de
ordenador ejemplar 100 de a fig. 1. En la fig. 1, el sistema de
ordenador 100 incluye una unidad de tratamiento central (CPU) 102.
La CPU 102 puede ser cualquier microprocesador o microcontrolador de
propósito general como es conocido en la técnica, programado
apropiadamente para realizar el método descrito aquí con referencia
a las figs. 3A-3D. El software para programar la CPU
puede ser encontrado en el medio de almacenamiento 108 o
alternativamente desde otra posición a través de una red de
ordenadores. Por ejemplo, la CPU 102 puede ser un microprocesador
tradicional tal como el procesador Pentium II fabricado por Intel
Corporation o similar.
La CPU 102 comunica con una pluralidad de equipos
periféricos, que incluyen una pantalla de presentación 104, entrada
manual 106, medio de almacenamiento 108, micrófono 110, altavoz 112,
y puerto de entrada de datos 114 y enlace de red 116. La pantalla de
presentación 104 puede ser una presentación visual tal como una
pantalla CRT, LCD, pantalla sensible al tacto, u otros monitores
como son conocidos en la técnica para presentar visualmente imágenes
y texto a un usuario. La entrada manual 106 puede ser un teclado
tradicional, una almohadilla de teclado, un ratón, una bola de
seguimiento (trackball), u otro dispositivo de entrada como es
conocido en la técnica para la entrada manual de datos. El medio de
almacenamiento 108 puede ser una memoria de lectura/escritura
tradicional tal como una unidad de disco magnético, una unidad de
disco flexible, una unidad de CD-ROM, una memoria de
silicio, u otro dispositivo de memoria como es conocido en la
técnica para almacenar y recuperar datos. Significativamente, el
medio de almacenamiento 108 puede ser situado a distancia de la CPU
102, y estar conectado a la CPU 102 mediante una red tal como una
red de área local (LAN), o una red de gran área (WAN), o Internet.
El micrófono 110 puede ser cualquier micrófono adecuado como es
conocido en la técnica para proporcionar señales de audio a la CPU
102. El altavoz 112 puede ser cualquier altavoz adecuado como es
conocido en la técnica para reproducir señales de audio desde la CPU
102. Se ha comprendido que el micrófono 110 y el altavoz 112 pueden
incluir circuitos de conversión de digital a analógico y de
analógico a digital apropiados cuando sea apropiado. El puerto de
entrada de datos 114 puede ser cualquier puerto de datos como es
conocido en la técnica para enlazar con un accesorio externo que usa
un protocolo de datos tal como el RS-232, Línea de
Transmisión en Serie Universal, o similar. El enlace de red 116
puede ser cualquier enlace como es conocido en la técnica para
comunicar o transferir archivos a través de una red de ordenadores,
ejemplos de tales redes incluyen redes TCP/IP, ethernet, o token
ring. Además, en algunos sistemas, un enlace de red 116 puede
consistir de un modem conectado al puerto de entrada de datos
114.
Así, la fig. 1 ilustra los elementos funcionales
de un sistema de ordenadores 100. Cada uno de los elementos del
sistema de ordenadores 100 puede ser componente disponible adecuado
como se ha descrito antes. El presente invento proporciona un método
y sistema para interacción humana con el sistema de ordenadores 100
utilizando la voz.
Como se ha mostrado en la fig. 8, el sistema de
ordenadores 100 puede ser conectado a la Internet 700, una colección
de redes de ordenadores. Para conectar a la Internet 700, el sistema
de ordenadores 100 puede usar un enlace de red 116, un modem
conectado al puerto de entrada de datos 114, o cualquier otro método
conocido en la técnica. Los sitios web 710, otros ordenadores 720, y
medios de almacenamiento 108 pueden también ser conectados a la
Internet a través de tales métodos conocidos en la técnica.
Volviendo ahora la fig. 2, la fig. 2 ilustra un
diagrama de bloques funcional expandido de la CPU 102 y del medio de
almacenamiento 108. Se comprende que los elementos funcionales de la
fig. 2 pueden ser realizados completamente en software o hardware o
en ambos. En el caso de una realización en software, el software
puede ser encontrado en el medio de almacenamiento 108 o en una
posición alternativa a través de una red de ordenadores. La CPU 102
incluye el procesador de reconocimiento de voz 200, el procesador de
datos 201, el procesador de lenguaje natural 202, y el enlace de
aplicación 220. El procesador de datos 201 enlaza con la
presentación 104, el medio de almacenamiento 108, el micrófono 110,
el altavoz 112, el puerto de entrada de datos 114, y el enlace de
red 116. El procesador de datos 201 permite que la CPU sitúe y lea
datos desde estas fuentes. El procesador de lenguaje natural 202
incluye además el reemplazador variable 204, el formateador de
cadena 206, el dispositivo de pesaje de palabras 208, el probador
booleano 210, el reemplazador de pronombres 211, y el motor de
búsqueda 213. El medio de almacenamiento 108 incluye una pluralidad
de archivos de gramática específicos de contexto 212, archivo de
gramática general 214, gramática de dictado 216, y base de datos 218
de procesador de lenguaje natural (NLP). En la realización
preferida, los archivos de gramática 212, 214, y 216 son archivos en
Forma Bakus-Naur (BNF) que describen la estructura
del lenguaje hablado por el usuario. Los archivos BNF son bien
conocidos en la técnica para describir la estructura del lenguaje, y
por ello no se describirán aquí los detalles de los archivos BNF.
Una ventaja de los archivos BNF es que estructuras jerárquicas a
modo de árbol pueden ser usadas para describir secuencias de frases
o de palabras, sin necesidad de recitar explícitamente todas las
combinaciones de estas secuencias de palabras. Así, el uso de
archivos BNF en la realización preferida minimiza los tamaños
físicos de los archivos 212, 214, y 216 en el medio de
almacenamiento 108, aumentando la velocidad a la que estos archivos
pueden ser habilitados y buscados como se ha descrito más abajo. Sin
embargo, en realizaciones alternativas, se usan otras estructuras de
archivos.
El funcionamiento e interacción de estos
elementos funcionales de la fig. 2 serán descritos con referencia a
los diagramas de flujo de las figs. 3A-3D. En la
fig. 3A, el flujo comienza en el bloque 300 con el suministro de una
expresión al procesador de voz 200. Una expresión es una serie de
sonidos que tienen un comienzo y un final, y puede incluir una o más
palabras habladas. El micrófono 110 que captura palabras habladas
puede realizar la operación del bloque 300. Alternativamente, la
expresión puede ser proporcionada al procesador de voz 200 sobre el
puerto de entrada de datos 114, o desde el medio de almacenamiento
108. Preferiblemente, la expresión está en un formato digital tal
como el bien conocido formato de archivo de audio ".wav".
El flujo avanza a la decisión 302 donde el
procesador de voz 200 determina si una de las gramáticas específicas
de contexto 212 ha sido habilitada. Si las gramáticas específicas de
contexto 212 son habilitadas, las gramáticas específicas de contexto
212 son buscadas en el bloque 304. En la realización preferida las
gramáticas específicas de contexto 212 son archivos BNF que
contienen palabras y frases que están relacionadas con un contexto
padre. En general, un contexto es un área sujeto. Por ejemplo, en
una realización del presente invento aplicable a ordenadores
personales, los ejemplos de contextos pueden ser "noticias", o
"tiempo", o "bolsa". En tal caso, las gramáticas
específicas de contexto 212 contendrían cada una instrucciones u
órdenes, palabras de control, descriptores, calificadores, o
parámetros que corresponden a uno diferente de estos contextos. El
uso de contextos proporciona una estructura jerárquica para tipos de
información. Los contextos y su uso serán además descritos después
con referencia a la base de datos 218 de NLP.
Si una gramática específica de contexto 212 ha
sido habilitada, la gramática específica de contexto 212 es buscada
para una correspondencia con la expresión proporcionada en el bloque
300. Sin embargo, si una gramática específica de contexto 212 no ha
sido habilitada, el flujo prosigue al bloque 308 donde la gramática
general 214 es habilitada.
En la realización preferida, la gramática general
214 es un archivo BNF que contiene palabras y frases que no
pertenecen por ellas mismas, a un contexto padre, pero pueden tener
un contexto asociado para el que existe un archivo de gramática
específica de contexto 212. En otras palabras, las palabras y frases
en la gramática general 214 puede estar en la raíz de la estructura
de contexto jerárquica. Por ejemplo, en una realización aplicable a
ordenadores personales, la gramática general 214 contendría
instrucciones y frases de control.
En el bloque 310, la gramática general 214 es
buscada por una correspondencia de palabra o frase para la expresión
proporcionada en el bloque 300. Se toma una decisión, dependiendo de
si se ha encontrado la correspondencia, en el bloque 312. Si no se
ha encontrado una correspondencia, entonces la gramática de dictado
216 es habilitada en el bloque 314. En la realización preferida, la
gramática de dictado 216 es un archivo BNF que contiene una lista de
palabras que no tienen, por si mismas, un contexto padre o un
contexto asociado. Por ejemplo, en una realización aplicable a un
ordenador personal, la gramática de dictado 216 contiene una lista
relativamente grande de palabras generales similar a un diccionario
general.
En el bloque 316 la gramática de dictado es
buscada para correspondencia de palabras para cada palabra de la
expresión proporcionada en el bloque 300. En el bloque de decisión
318, si no se han encontrado correspondencia de palabras, un mensaje
de error visual es opcionalmente presentado en la presentación 104 o
un mensaje de error audible es opcionalmente reproducido a través
del altavoz 112, en el bloque 320. El proceso termina hasta que se
ha proporcionado otra expresión al procesador de voz 200 en el
bloque 300.
Así, como puede verse a partir de la descripción
anterior, cuando una expresión es proporcionada al procesador de voz
200, la gramática específica de contexto 212 habilitada, si la hay,
es en primer lugar buscada. Si no hay correspondencias en la
gramática específica de contexto 212 habilitada, entonces la
gramática general 214 es habilitada y buscada. Si no hay
correspondencias en la gramática general 214, entonces la gramática
de dictado 316 es habilitada y buscada.
En la realización preferida, cuando el procesador
de reconocimiento de voz 200 está buscando bien la gramática
específica de contexto 212 o bien la gramática general 214, se dice
que está en el modo "orden y control". En este modo, el
procesador de reconocimiento de voz 200 compara la expresión
completa como un todo a las entradas en la gramática. Por contraste,
cuando el procesador de reconocimiento de voz 200 está buscando la
gramática de dictado, se dice que está en modo "dictado". En
este modo, el procesador de reconocimiento de voz 200 compara la
expresión a las entradas en la gramática de dictado 216 de palabra
en palabra. Se espera que buscar una correspondencia para una
expresión completa en el modo de orden y control será generalmente
más rápido que buscar de palabra en palabra en un modo de
dictado.
Se espera además que cualquier gramática
específica de contexto 212 individual será menor de tamaño (es
decir, menos palabras y frases en total) que la gramática general
214, que a su vez será menor de tamaño que la gramática de dictado
216. Así, buscando en primer lugar cualquier gramática específica de
contexto 212 habilitada, es probable que se encuentre más
rápidamente una correspondencia, si la hay, debido al menos en parte
al menor tamaño del archivo. De modo similar, buscando la gramática
general 14 antes que la gramática de dictado 216, es probable que se
encuentre más rápidamente una correspondencia, si la hay.
Adicionalmente, como se explicará más adelante
además con respecto a la capacidad del presente invento de añadir de
modo adaptable tanto a la gramática específica de contexto 212 como
a la gramática general 214, contendrán las expresiones más comunes.
Como tal, se espera más probablemente que se encuentre más
rápidamente una correspondencia en la gramática específica de
contexto 212 o en la gramática general 214 que en la gramática de
dictado 216.
Finalmente, como se explicará después además, las
palabras y frases en la gramática específica de contexto 212
habilitada son más probables que sean expresadas por el usuario
porque son palabras que son muy importantes para la cuestión acerca
de la que el usuario estuvo hablando más recientemente. Esto permite
también que el usuario hable en un estilo más conversacional, usando
fragmentos de sentencias, siendo interpretado el significado de sus
palabras de acuerdo con la gramática específica de contexto 212
habilitada.
Buscando en la secuencia antes descrita, el
presente invento puede buscar más eficientemente que si la búsqueda
ocurriese una entrada en un instante en una única lista grande de
todas las palabras y frases esperadas.
Con referencia de nuevo a la decisión 306, si se
encuentra una correspondencia en la gramática específica de contexto
212, entonces hay tres posibles operaciones siguientes mostradas en
la fig. 3A. Para cada entrada de correspondencia en la gramática
específica de contexto 212 habilitada, puede haber una acción
asociada que ha de ser tomada por el procesador de reconocimiento de
voz 200. El bloque 322 muestra que una acción puede ser al enlace de
aplicación directo 220 para tomar alguna acción con respecto a una
aplicación o entidad de software separada. Por ejemplo, el enlace de
aplicación 220 puede usar la norma del Enlace de Programación de
Aplicación de Voz (SAPI) por Microsoft para comunicar con una
aplicación externa. La aplicación externa puede ser dirigida, por
ejemplo, para acceder a un URL de sitio web de Internet particular o
para decir una frase particular convirtiendo texto a voz. Pueden ser
tomadas otras acciones como se describirá más abajo además con
referencia a la base de datos 218 de NLP de la fig. 4.
El bloque 324 muestra que otra acción puede ser
acceder a una fila en la base de datos 218 de tratamiento de
lenguaje natural (NLP) directamente, puenteando por ello las
operaciones de tratamiento de lenguaje natural descritas
adicionalmente más abajo. El bloque 326 muestra que otra acción
puede ser preparar una palabra o frase para el contexto habilitado a
la correspondencia de palabra o frase encontrada en la gramática 306
específica de contexto. Por ejemplo, si el contexto habilitado fuera
"películas" y la expresión de correspondencia fuera "8 en
punto", la palabra "películas" sería preparada a la frase
"8 en punto" para formar la frase "películas a las 8 en
punto".
Asimismo, si se encuentra una correspondencia en
la gramática general 214, entonces el flujo puede proseguir al
bloque 322 donde el enlace de aplicación 220 es dirigido para tomar
una acción como se ha descrito antes, o al bloque 324 donde una fila
en la base de datos de NLP es accedida directamente. Sin embargo, si
se encuentra una correspondencia en la gramática general 214, no
ocurre una preparación de un contexto porque, como se ha indicado
antes, las entradas en la gramática general 214, no tienen, por
ellas mismas, un contexto padre.
Alternativamente, las palabras introducidas
manualmente pueden ser capturadas, en el bloque 301, e introducidas
en el procesador de lenguaje natural.
Finalmente, con referencia a la fig. 3A, las
palabras pueden ser introducidas manualmente mediante la entrada
manual 106. En este caso, no es requerido el reconocimiento de voz,
y aún el tratamiento de lenguaje natural de las palabras
introducidas es aún deseado. Así, el flujo prosigue o avanza a la
fig. 3B.
En la fig. 3B, en el bloque 328, el procesador de
lenguaje natural 202 formatea la frase para el análisis de
tratamiento del lenguaje natural. Este formateado es realizado por
un formateador de cadena 206 y puede incluir un tratamiento de texto
tal como eliminar espacios duplicados entre palabras, pasar todas
las letras a minúsculas (o mayúsculas), expandir contracciones (por
ejemplo, cambiar en inglés "it's" por "it is"), y similar.
El propósito de esta operación de formateado es preparar la frase
para el análisis.
El flujo continua al bloque 330 donde ciertas
"variables de palabra" son reemplazadas con una función comodín
asociada por el reemplazador de variable 204 en preparación para
acceder a la base de datos 218 de NLP. Como se ha usado aquí, el
término "variables de palabra" se refiere a palabras o frases
que representan cantidades, fechas, horas, monedas, y similares. Por
ejemplo, en una realización, la frase "qué películas se están
proyectando a las 8 en punto" sería transformada en el bloque 330
a "qué películas se están proyectando en \textdollartime"
donde "\textdollartime" es una función comodín usada para
representar cualquier valor de tiempo. Como otro ejemplo, en una
realización, la frase "vender acciones de IBM a 100 dólares"
sería transformada en el bloque 330 a "vender acciones de IBM a
\textdollardólares" donde "\textdollardólares" es una
función comodín usada para representa cualquier valor en dólares.
Esta operación puede ser realizada por un bucle simple que busca la
frase para señales claves tales como las palabras "dólar" o
"en punto" y reemplaza las variables de palabra con una función
comodín especificada. Con el fin de mantener el seguimiento de la
posición en la frase donde se hizo la sustitución, puede usarse una
matriz. Esto permite volver a sustituir la variable de palabra
original de nuevo a la frase en alguna posición después de que la
base de datos 218 de NLP haya sido
buscada.
buscada.
El propósito de reemplazar variables de palabra
por una función de comodín asociada en el bloque 330 es reducir el
número de entradas que debe haber presentes en la base de datos 218
de NLP. Por ejemplo, la base de datos 218 de NLP contendría
solamente la frase "qué películas se están proyectando en
\textdollartime" en vez de una entrada separada para las ocho
en punto, las 9 en punto, las 10 en punto, y así sucesivamente. La
base de datos 218 de NLP será descrita adicionalmente más abajo.
En el bloque 332, los pronombres de la frase son
reemplazados por nombres propios por el dispositivo reemplazador de
pronombres 211. Por ejemplo, en una realización los pronombres
"Yo", "mi" o "mío" serían reemplazados con el nombre
del que habla. El propósito de esta operación es permitir que hechos
específicos del usuario sean almacenados y accedidos en la base de
datos 218 de NLP. Por ejemplo, la frase "quiénes son mis niños"
sería transformada en "quiénes son los niños de Dean", en la
que "Dean" es el nombre propio del que habla. De nuevo, esta
operación puede ser realizada en un simple bucle que busca los
pronombres en la frase, y sustituye los pronombres encontrados por
un nombre propio apropiado. A fin de conservar el seguimiento de los
lugares de la frase en los que se ha hecho una sustitución, puede
ser usada una matriz.
En el bloque 334, las palabras individuales en la
base son ponderadas de acuerdo con su "importancia" o
"significado" relativo al significado total de la frase por el
pesador de palabras 208. Por ejemplo, en una realización hay tres
factores de ponderación asignados. El menor factor de ponderación es
asignado a palabras tales como "un", "el" y otros
artículos. El mayor factor de ponderación se le da a palabras que
probablemente tienen una relación significativa con el significado
de las frases. Por ejemplo, éstas pueden incluir todos los verbos,
nombres, adjetivos, y nombres propios en la base de datos 218 de
NLP. Un factor de ponderación medios se le da a todas las demás
palabras de la frase. El propósito de esta ponderación es permitir
una búsqueda más potente de la base de datos 218 de NLP.
Un ejemplo de columnas seleccionadas de la base
de datos 218 de NLP de una realización está mostrado en la fig. 4.
La base de datos 218 de NLP comprende una pluralidad de columnas
400-410, y una pluralidad de filas
412A-412N. En la columna 400, las entradas
representan frases que son "conocidas" para la base de datos de
NLP. En la columna 402, se ha mostrado un número de palabras
requeridas para cada entrada en la columna 400. En la columna 404,
se ha mostrado un contexto o subcontexto asociado para cada entrada
en la columna 400. Debe observarse que la base de datos 218 de NLP
mostrada en la fig. 4 es simplemente un ejemplo simplificado con el
propósito de enseñanza del presente invento. Otras realizaciones
pueden tener más o menos columnas con diferentes entradas.
Con referencia de nuevo a la fig. 3B, en el
bloque 336, se buscan en la base de datos 218 de NLP posibles
correspondencias a la frase, basadas en si la entrada en la columna
400 de la base de datos 218 de NLP contiene alguna de las palabras
de la frase (o sus sinónimos), y los pesos relativos de esas
palabras. En el bloque 338, se genera un valor de confianza para
cada una de las posibles entradas de correspondencia basado en el
número de ocurrencia de cada una de las palabras en la frase y sus
pesos relativos. La búsqueda de palabra ponderada de una base de
datos es bien conocida en la técnica y puede ser realizada por
motores de búsqueda comercialmente disponibles tales como el
producto "dtsearch" de DT Software, Inc., de Arlington,
Virginia. De modo similar, la búsqueda utilizando sinónimos es bien
conocida en la técnica y puede ser llevada a cabo utilizando útiles
disponibles públicamente tales como "WordNet", desarrollado por
el Cognitive Science Laboratory de Princeton Universidad de
Princeton, New Jersey. El motor de búsqueda puede ser una parte
integral del procesador 202 de lenguaje natural.
En la decisión 340, el procesador 202 del
lenguaje natural determina si alguna de las posibles entrada de
correspondencia tiene un valor de confianza mayor o igual que alguno
del umbral mínimo predeterminado, T. El umbral T representa el menor
valor de confianza aceptable para el que puede tomarse una decisión
de si la frase correspondía con cualquiera de las entradas en la
base de datos 218 de NLP. Si no hay entrada de correspondencia
posible con un valor de confianza mayor que o igual a T, entonces el
flujo prosigue al bloque 342 donde un mensaje de error opcional es o
bien visualmente presentado al usuario sobre la pantalla de
presentación 104 o bien audiblemente reproducido sobre el altavoz
112. En una realización, el tipo de mensaje de error, si lo hay,
presentado el usuario puede depender de cuantos "aciertos" (es
decir cuántas palabras correspondientes de la frase) se han
encontrado en la entrada de base de datos de NLP de mayor confianza.
Se generaría un tipo diferente de mensaje de error si hubiera cero o
un aciertos, que si hubiera dos o más aciertos.
Si, sin embargo hay al menos una entrada en la
base de 218 de NLP para la que existe un valor de confianza mayor
que o igual a T, entonces el flujo prosigue al bloque 344 donde las
palabras de "ruido" son desechadas de la frase. Las palabras de
"ruido" incluyen palabras que no contribuyen significativamente
al significado completo de la frase con relación a las otras
palabras de la frase. Estas pueden incluir artículos, pronombres,
conjunciones, y palabras de una naturaleza similar. Palabras que
"no son ruidos" incluirían palabras que contribuyen
significativamente al significado completo de la frase. Palabras que
"no son ruido" incluirían verbos, nombres, adjetivos, y nombres
propios, y palabras de una naturaleza similar.
El flujo prosigue a la fig. 3C donde el requisito
de la palabra que no es ruido es recuperado de la columna 402 de la
base de datos 218 de NLP para la correspondencia de entrada de mayor
confianza en el bloque 346. Por ejemplo, si la correspondencia de
frase de mayor confianza fuera la entrada en la fila 412A, (por
ejemplo "que películas están proyectando en el
\textdollartime"), entonces el número de palabras que no son
ruido requeridas es 3.
En la decisión 348, se ha hecho una prueba para
determinar si el número de palabras que no son ruido requeridas de
la frase está realmente presente en la entrada de mayor confianza
recuperada de la base de datos 218 de NLP. Esta prueba es una
verificación de la exactitud de la búsqueda de estilo de relevancia
realizada en el bloque 336, comprendiéndose que una entrada puede
generar un valor de confianza mayor que el mínimo umbral T, sin ser
una correspondencia aceptable para la frase.
La naturaleza de la prueba realizada en la
decisión 348 es una prueba "Y" booleana realizada por un
dispositivo de prueba 210 booleano. La prueba determina si cada una
de las palabras incluidas en la frase (o su sinónimo) está realmente
presente en la entrada de mayor confianza. Si hay un número
suficiente de palabras requeridas realmente presentes en la entrada
de mayor confianza, entonces el flujo prosigue a lo que 350, donde
el procesador 202 de lenguaje natural dirige el enlace de aplicación
220 para tomar una acción asociada desde la columna 408 ó 410. Se
comprende que puede también haber presentes columnas de acción
adicional.
Por ejemplo, si la entrada de mayor confianza era
la entrada en la fila 412A, y la prueba booleana de decisión 348
determinaba que había realmente 3 palabras que no son ruido de la
frase en la entrada en la columna 400, entonces se tomaría la acción
asociada en la columna 408 (por ejemplo acceso al sitio web de
película). Otras entradas en la base de datos de NLP tienen otras
acciones asociadas. Por ejemplo, si la entrada de mayor confianza es
la de la fila 412E (por ejemplo "qué hora es"), la acción
asociada puede ser que el procesador 202 de lenguaje natural dirija
una aplicación de texto a voz (no mostrado) para decir el instante
actual al usuario a través del altavoz 112. Como otro ejemplo, si la
entrada de mayor confianza es la de la fila 412N (por ejemplo,
"muéstrame las noticias"), la primera acción asociada puede ser
acceder a un sitio web de noticias predeterminado en la Internet, y
una segunda acción asociada puede ser dirigir una aplicación de
presentación de imágenes (no mostrada) para presentar imágenes
asociadas con las noticias. Pueden también realizarse acciones
diferentes o adicionales.
También, si la entrada de mayor confianza
contiene el número requerido de palabras que no son ruido desde la
frase como se ha determinado en le decisión 348, el procesador de
lenguaje natural 202 instruye al procesador de reconocimiento de voz
200 para habilitar la gramática específica de contexto 212 para el
contexto asociado de la columna 404. Así, para la fila 412A, la
gramática específica de contexto 212 para el contexto
"películas" sería habilitado. Así, cuando la siguiente
expresión es proporcionada al procesador de reconocimiento de voz
200 en el bloque 300 de la fig. 3A, buscaría la gramática específica
de contexto 212 para "películas" antes de buscar la gramática
general 214. Como se ha dicho previamente, habilitar la gramática
específica de contexto 212 apropiada aumenta mucho la probabilidad
de un reconocimiento de voz rápido, satisfactorio, y mejora la
capacidad del usuario para comunicar con el ordenador en un estilo
conversacional.
Si, sin embargo, de nuevo en la decisión 348, el
número requerido de palabras que no son ruido desde la frase no está
presente realmente en la entrada de mayor confianza recuperada desde
la base de datos 218 de NLP, entonces el flujo prosigue al bloque
354 donde el usuario es advertido sobre la presentación 104 o el
altavoz 112 si la entrada de mayor confianza fuera significativa.
Por ejemplo, si el usuario ha expresado "A cuánto se está
vendiendo la acción de IBM hoy", la entrada de mayor confianza en
la base de datos 218 de NLP puede ser la entrada en la fila 412B. En
este caso, aunque el factor de relevancia puede ser alto, el número
de palabras requeridas (o sus sinónimos) puede no ser suficiente.
Así, el usuario sería advertido en el bloque 354 sobre si el ha
querido decir "cuál es el precio de la acción de IBM el 28 de
Agosto de 1998".
El usuario puede responder bien afirmativa o
negativamente. Si se ha determinado en la decisión 356 que el
usuario ha respondido afirmativamente, entonces la acción o acciones
asociadas con la entrada de mayor confianza son tomadas en el bloque
350, y la gramática específica de contexto 212 asociada es
habilitada en el bloque 352.
Si, sin embargo, se ha determinado en la decisión
356 que el usuario ha respondido negativamente, entonces el flujo
prosigue a la fig. 3D donde el contexto asociado desde la columna
404 de la base de datos 218 de NLP es recuperado para la entrada de
mayor confianza, y el usuario es advertido de una información usando
un diálogo interactivo basado en el contexto en el bloque 360. Por
ejemplo, si el usuario ha expresado "cuál es el precio de la
acción de XICOR hoy", y la entrada de mayor confianza desde la
base de datos 218 de NLP era la fila 412B (por ejemplo, "cuál es
el precio de la acción de IBM en \textdollardate"), entonces el
usuario sería advertido en el bloque 354 si era eso lo que él quería
decir.
Si el usuario responde negativamente, entonces el
contexto "acción" es recuperado de la columna 404 en el bloque
358, y el diálogo interactivo basado en el contexto para el contexto
acción es presentado al usuario sobre la presentación 104 y el
altavoz 112. Tal diálogo interactivo basado en el contexto puede
implicar advertir al usuario del nombre y el símbolo más grueso de
acción de la acción de XICOR. El usuario puede responder diciendo la
información requerida. Puede usarse un diálogo interactivo diferente
basado en el contexto para cada uno de los posibles contextos. Por
ejemplo, el diálogo interactivo basado en el contexto "tiempo"
puede implicar advertir al usuario del nombre de la localización
(por ejemplo, la ciudad) sobre la que se desea la información del
tiempo. También el diálogo interactivo basado en el contexto
"noticias" puede implicar advertir al usuario para tipos de
artículos, fuente de noticias, URL de Internet para el sitio de
noticias, u otra información relacionada.
A la conclusión del diálogo interactivo basado en
el contexto, la base de datos 218 de NLP, la gramática general 214,
y la gramática específica de contexto 212 son actualizadas para
incluir la nueva información, en el bloque 362. De esta manera, la
próxima vez el usuario pide esa información, se encontrará una
correspondencia apropiada, y se tomará la acción apropiada sin
advertir al usuario de más información. Así, el presente invento
"aprende" de forma adaptable a reconocer frases expresadas por
el usuario.
En una realización del presente invento, una o
más de la base de datos 218 de NLP, la gramática específica de
contexto 212, la gramática general 214, y la gramática de dictado
216 contiene también valores de sello de tiempo (no mostrados)
asociados con cada entrada. Cada vez que es usada una entrada de
correspondencia, el valor de sello de tiempo asociado con esa
entrada es actualizado. A intervalos periódicos, o cuando es
inicializado por el usuario, las entradas que tienen un valor de
sello de tiempo antes de una cierta fecha y hora son eliminadas de
sus bases de datos/gramáticas respectivas. De esta manera, las bases
de datos/gramáticas pueden ser conservadas en un tamaño eficiente
"purgando" entradas antiguas o caducadas. Esto también ayuda a
evitar falsas correspondencias.
En una realización del presente invento, el
reconocimiento de voz y el tratamiento del lenguaje natural pueden
ser usados para interactuar con objetos conectados en red, tales
como páginas World-Wide-Web
("WWW" o "web") que tienen un enlace basado en la voz
sensible al contexto.
La fig. 5 ilustra un Archivo de Definición de
Diálogo (DDF) 500 ejemplar que representa información necesaria para
asociar el reconocimiento de voz y el tratamiento del lenguaje
natural a un objeto de Internet, tales como un archivo de texto o
gráficos o, en la realización preferida, una página web. Aunque es
su realización más simple, el Archivo de Definición de Diálogo 500
consiste de una tabla 510 de objetos de red, el DDF puede también
contener archivos de gramática específica de contexto 214
adicionales y entradas adicionales para las bases de datos 218 de
(NLP) de tratamiento de lenguaje natural, como se ha ilustrado en la
fig. 5. La realización preferida del DDF 500 incluye una tabla 510
de objetos de red, un archivo de gramática específica de contexto
214, y un archivo que contiene entradas a la base de datos 218 de
tratamiento del lenguaje natural. Estos componentes puede ser
comprimidos y combinados en el archivo DDF 500 por cualquier método
conocido en la técnica, tal como a través de la compresión
Lempel-Ziv. El archivo de gramática específica de
contexto 214 y la base de datos 218 de tratamiento del lenguaje
natural son como se ha descrito en las secciones anteriores. La
tabla 510 de objetos de red es una estructura de memoria, tal como
un árbol de memoria, cadena o tabla, que asocia una dirección de un
recurso con varias acciones, gramáticas, o entradas en la base de
datos 218 de NLP.
Una realización ejemplar de la tabla 510 de
objetos de red está ilustrada en la fig. 6. La fig. 6 ilustra una
tabla de memoria que puede contener columnas de entrada para: un
objeto de red 520, un indicador o banderola de Texto a Voz (TTS)
522, una voz de texto 524, un indicador de uso de gramática 526, un
indicador de gramática añadida 528, un indicador "¿es si/no?",
y acciones "si" 532 y "no" 534. Cada fila en la tabla
540A-540E representaría la gramática y voz
relacionadas a un objeto de red individual. La realización ejemplar
del invento se referiría a objetos de red 520 a través de un
Localizador de Recurso Universal (URL). Un URL es un método estándar
para especificar la dirección de cualquier recurso en Internet que
es parte de la World-Wide-Web. Como
este estándar es bien conocido en la técnica para describir la
localización de recursos de Internet, los detalles de los URL no
serán por ello descritos aquí. Una ventaja de los URL es que pueden
especificar información en una gran variedad de formatos de objeto
de red, incluyendo hipertexto, gráficos, bases de datos y otros
archivos, además de un número de dispositivos de objetos de red y
protocolos de comunicación.
Cuando es combinado con la voz de texto 524, el
indicador de Texto a Voz (TTS) 522 indica si una declaración inicial
debe ser pronunciada por el altavoz 112 cuando el objeto de red
correspondiente es transferido. Por ejemplo, cuando se transfiere la
página web leída en la columna del objeto de red 520 de la fila 540A
(http://
www.convesationalsys.com), el indicador TTS 522 es marcado, indicando que la voz de texto 524, "Hola, bienvenido a Sistemas Conversacionales," ha de ser pronunciada por el altavoz 112.
www.convesationalsys.com), el indicador TTS 522 es marcado, indicando que la voz de texto 524, "Hola, bienvenido a Sistemas Conversacionales," ha de ser pronunciada por el altavoz 112.
Los tres siguientes indicadores se refieren al
uso de gramáticas asociadas con este objeto de red. El marcado
afirmativo de los indicadores de "gramática de uso" 526 o de
"gramática añadida" 528 indican la presencia de un archivo de
gramática específica de contexto 214 relacionada con el objeto de
red indicado. El marcado del indicador de "gramática de uso"
526 indica que el nuevo archivo de gramática específica de contexto
214 reemplaza al archivo de gramática específica de contexto
existente, y el archivo existente es inhabilitado. El indicador
"gramática añadida" 528 indica que el nuevo archivo de
gramática específica de contexto debe ser habilitado al mismo tiempo
que el archivo de gramática específica de contexto existente.
Por último, las entradas de columnas restantes se
refieren a una estructura de gramática "si/no". Si se marca el
indicador "¿es si/no?" 530, entonces es habilitada una
gramática "si/no" estándar. Cuando una gramática "si/no"
estándar es habilitada, las instrucciones afirmativas dichas al
ordenador dan como resultado que el ordenador ejecuta la instrucción
indicada en la entrada "Si" 532. Similarmente, una instrucción
negativa dicha al ordenador da como resultado que el ordenador
ejecuta la instrucción indicada en la entrada "No" 534. Las
entradas en las columnas "Si" 532 y "No" 534 pueden ser
instrucciones o indicadores a instrucciones embebidos en la base de
datos 218 de NLP. Por ejemplo, como se ha mostrado en la fila 540B,
es marcado el indicador "¿es Si/No?". Una respuesta afirmativa,
tal como "si", dada al ordenador, daría como resultado ejecutar
la instrucción correspondiente en la entrada "Si" 532; en este
caso específico, la entrada es el número "210," una referencia
a la instrucción 210^{ésima} en la base de datos NLP. Una
respuesta de "no" daría como resultado que el ordenador ejecuta
la instrucción 211^{ésima} en la base de datos NLP.
Volviendo ahora a la fig. 7A, se ha ilustrado un
método y sistema de proporcionar instrucciones u órdenes de voz a
ordenadores conectados con Internet, tal como un ordenador que
navega en la World-Wide-Web. El
método de las figs. 7A-7C puede ser usado en unión
con el método de las figs. 3A-3D. En el bloque 602,
un URL de sitio web (objeto de red) es proporcionado a un navegador
World-Wide-Web. El navegador de web
es un programa usado para navegar a través de Internet, y es bien
conocido en la técnica. La operación, en el bloque 602, de
proporcionar un URL al navegador, puede ser tan simple como que un
usuario escribe a máquina manualmente en el URL, o que un usuario
selecciona un "enlace" al URL del sitio web elegido. Puede ser
también el resultado de una instrucción pronunciada como se ha
descrito antes con referencia a la acción asociada con cada entrada
en la base de datos 218 de NLP. Dado el URL, el ordenador debe
decidir sobre si puede resolver la dirección de Internet del sitio
web especificado dentro del URL, en el bloque 604. Este proceso de
resolución es un proceso bien conocido en la técnica. Si el
ordenador es incapaz de resolver la dirección de Internet, un
mensaje de error es presentado en la ventana del navegador, en el
bloque 605, y el sistema es devuelto a su estado de comienzo inicial
600. Si la dirección de Internet es resuelta, el ordenador envía al
sitio web una solicitud para la página web, en el bloque 606.
Se toma una decisión, dependiendo de si el sitio
web envía la página web, en el bloque 608. Si el sitio web no
responde, o falla al enviar la página web, es presentado un mensaje
de error en la ventana del navegador, en el bloque 605, y el sistema
es devuelto a su estado de comienzo inicial 600. Su el sitio web
devuelve la página web, la página web es presentada en la ventana
del navegador, en el bloque 610.
En el bloque de decisión 612, el ordenador 100
determina si el archivo DDF 500 correspondiente al sitio web está ya
presente en el ordenador 100. Si el archivo DDF está presente, el
flujo prosigue a la fig. 7C, si no el flujo prosigue a la fig.
7B.
Moviéndose a la fig. 7B, si el archivo DDF 500 no
está presente, el ordenador examina si la posición del archivo DDF
500 está codificado dentro del Lenguaje de Etiquetado de Hipertexto
de página web (HTML) como un URL. (Obsérvese que HTML es bien
conocido en la técnica, y los detalles del lenguaje no serán por
ello descritos aquí). Codificar la posición del archivo DDF dentro
del código HTML puede ser hecho bien a través del listado de la
posición del archivo DDF en un marcador meta de HTML inicial tal
como:
<meta DDF =
"http:/www.conversationalsys.com/Converset.ddf">
o directamente a través de un
marcador de escritura escrito en la variación de HTML soportada por
el
navegador,
\leftarrow
<DDF =
"http:/www.conversationalsys.com/Converset.ddf">
\rightarrow
Si la información de la posición del archivo DDF
está codificada dentro de la página web, la dirección de Internet de
la posición es resuelta, en el bloque 616, y el ordenador solicita
la transferencia del archivo 500 DDF al bloque 626.
Alternativamente, si la posición del archivo 500
DDF no está codificada dentro de la página web, hay varios lugares
alternativos que pueden ser almacenados. Puede ser almacenado en una
posición previamente definida en el sitio web, tal como una cierta
posición de archivo en el directorio raíz, o en una posición
centralizada diferente, tal como otro servidor de Internet o el
medio de almacenamiento 108 de la fig. 1. Los bloques 618 y 620
prueban estas posibilidades. El bloque 618 de terminarse el archivo
DDF está situado en el sitio web. En esta operación, el ordenador
envía una solicitud al sitio web inquiriendo acerca de la presencia
del archivo 500 DDF. Si el archivo 500 DDF está presente en el sitio
web, el ordenador solicita la transferencia del archivo 500 DDF al
bloque 626. Si el archivo 500 DDF no está situado en el sitio web,
el ordenador solicita la posición centralizada acerca de la
presencia de un archivo de DDF para el sitio web, en el bloque 620.
Si el archivo DDF está presente en el sitio web, el ordenador
solicita la transferencia del archivo DDF al bloque 626. Si el
archivo 500 DDF no puede ser encontrado, los componentes existentes
de cualquiera archivo de DDF presentes, tales como la tabla 510 de
objetos de red, la base de datos 218 de NLP asociada con el sitio
web y la gramática 214 específica de contexto para cualquier sitio
web previamente visitado, son desactivados en el bloque 622. Además,
el sitio web es tratado como un sitio web no activado por voz, y
solamente se usan archivos gramaticales estándar, en el bloque 624.
Archivos gramaticales estándar son los archivos gramaticales
existentes en el sistema que excluyen cualesquiera gramáticas
asociadas con el archivo gramatical específico de contexto asociado
con el objeto de red.
Si el archivo 500 DDF es requerido en el bloque
626, y su transferencia no es satisfactoria, cualesquiera
componentes existentes de cualquier archivo 500 DDF presente son
desactivados, en el bloque 622, y el sitio web es tratado como un
sitio web no activado por voz, y solamente se usan archivos
gramaticales estándar, en el bloque 624.
Si el archivo 500 DDF es solicitado en el bloque
626, y su transferencia es satisfactoria en el bloque 628, sustituye
a cualquiera archivo de DDF anterior, en el bloque 630. Cualesquiera
componentes del archivo 500 de DDF, tales como la tabla 510 de
objetos de red, los archivos gramaticales 214 específicos de
contexto, y la base de datos 218 de NLP son extraídos en el bloque
632. Puede usarse una técnica similar para obtener el software
necesario para poner en práctica el método ilustrado en las figs.
3A-3D, que comprenden los elementos funcionales de
la fig. 2.
El flujo se mueve a la fig. 7C. La tabla 510 de
objetos de red es leída en memoria por el ordenador en el bloque
634. Si el URL de la página web está presente en la tabla 510 de
objetos de red de sitio, como se ha determinado por el bloque 636,
estará representado por una fila 540A-540E de la
tabla, como se ha mostrado en la fig. 6. Cada fila de la tabla de
objetos de red representa las interacciones de voz disponibles para
un usuario para esa página web particular. Si no existen fila
correspondiente a la página web, entonces no existe interacción de
voz para la página web, y el tratamiento termina.
Si el URL de la página web está presente en la
tabla 510 de objetos de red de sitio, como se ha determinado por el
bloque 636, el ordenador comprueba si está marcado el indicador 522
de TTS, para determinar si una voz de texto 524 está asociada con la
página web, en el bloque 638. Si hay una voz de texto 524, es
pronunciada en el bloque 640, y el flujo continúa. Si hay un archivo
gramatical específico de contexto asociado con la página web, como
es determinado por el bloque de decisión 642, es habilitado en el
bloque 644, y a continuación la base de datos 218 de NLP es
habilitada en el bloque 646. Si no hay una archivo gramatical
específico de contexto asociado con la página web, solamente es
habilitada la base de datos 218 de NLP en el bloque 646. Una vez que
la base de datos de NLP es habilitada en 646, el sistema se comporta
como en la fig. 3A-3C, como se ha descrito
antes.
En resumen, la realización preferida del presente
invento proporciona un método y sistema para un enlace de usuario
interactivo conectado a red para un ordenador. Mediante el uso de
gramáticas específicas de contexto que están unidas a objetos de
Internet a través de un Archivo de Definición de Diálogo, la
realización preferida disminuye el tiempo de reconocimiento de voz y
aumenta la capacidad del usuario para comunicarse con objetos de
Internet, tales como páginas web, en un estilo conversacional.
Además, mediante el uso de actualización adaptable de las distintas
gramáticas y la base de datos de NLP, el presente invento aumenta
además la eficiencia interactiva.
Se han descrito realizaciones del presente
invento con referencia particular al ejemplo ilustrado. Sin embargo,
se apreciará que pueden hacerse variaciones y modificaciones en los
ejemplos descritos dentro del marco del presente invento como ha
sido definido por las reivindicaciones adjuntas.
Claims (7)
1. Un método de interactuar con un objeto de red,
comprendiendo el método: recibir una interacción (602) relativa a un
objeto de red desde un usuario; determinar si una tabla (510) de
objetos de red está asociada con dicho objeto de red; obtener la
tabla (510) de objetos de red asociada con dicho objeto de red si
dicha tabla (510) de objetos de red existe, teniendo la tabla (510)
de objetos de red una entrada (520) correspondiente a dicho objeto
de red y especificando una o más acciones asociadas con dicho objeto
de red; buscar (626) la tabla (510) de objetos de red obtenida por
ello para una correspondencia de entrada (540) para dicho objeto de
red; realizar una acción asociada con dicha correspondencia de
entrada (540) si dicha correspondencia de entrada es encontrada en
dicha tabla (510) de objetos de red, incluyendo la acción actualizar
(644) un primer archivo de gramática con gramática relativa a dicho
objeto de red; buscar (304) el primer archivo de gramática (212)
para una correspondencia de frase para otra interacción relativa a
un objeto de red recibido desde un usuario; buscar (310) un segundo
archivo de gramática (214) para la correspondencia de frase si la
correspondencia de frase no es encontrada en el primer archivo
gramatical; buscar una base de datos (218) del lenguaje natural para
una correspondencia de entrada para dicha correspondencia de frase,
representando dichas entradas frases que son conocidas por dicha
base de datos; y, a realizar una acción asociada con dicha
correspondencia de entrada si dicha correspondencia de entrada es
encontrada en la base de datos (218) de lenguaje natural; y advertir
(360) al usuario de una clarificación en el objeto de red si no se
ha encontrado una correspondencia de entrada en la base de datos
(218) de lenguaje natural.
2. Un método según la reivindicación 1ª, en el
que la tabla (510) de objetos de red es leída desde un sitio
web.
3. Un método según la reivindicación 1ª, en el
que la tabla (510) de objetos de red es leída desde una posición que
almacena objetos de red para múltiples objetos de red.
4. Un método según cualquiera de las
reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red
está incluida en un archivo (500) de definición de diálogo que
también incluye una gramática (214) específica de contexto.
5. Un método según cualquiera de las
reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red
está incluida en un archivo (500) de definición de diálogo que
también incluye entradas para una base de datos (218) de procesador
de lenguaje natural.
6. Un método según cualquiera de las
reivindicaciones 1ª a 3ª, en el que la tabla (510) de objetos de red
está incluida en una archivo (500) de definición de diálogo que
también incluye una gramática (214) específica de contexto y
entradas para una base de datos (218) de procesador de lenguaje
natural.
7. Un sistema para actualizar un ordenador (100)
para interacción por un usuario con un objeto de red, comprendiendo
el sistema: un enlace de red (116) configurado para transferir un
archivo (500) de definición de diálogo asociado con un objeto de
red, en el que el archivo (500) de definición de diálogo contiene
una tabla (510) de objetos de red que tiene una correspondencia de
entrada (520) para el objeto de red y especificar una o más acciones
asociadas con el objeto de red; un procesador (201) de datos
configurado para buscar la tabla (510) de objetos de red para una
correspondencia de entrada para la interacción; un enlace de
aplicación (220) configurado para realizar una acción asociada con
dicha correspondencia de entrada si dicha correspondencia de entrada
es encontrada en la tabla (510) de objetos de red, incluyendo la
acción actualizar un archivo (212) de gramática específica de
contexto con gramática relativa al objeto de red; un procesador
(200) de voz dispuesto para buscar el archivo gramatical (212)
específico de contexto para una correspondencia de frase para otra
interacción relativa a un objeto de red recibido desde un usuario,
buscar una archivo gramatical general (214) para la correspondencia
de frase si la correspondencia de frase no es encontrada en el
archivo gramatical (212) específico de contexto, buscar una
gramática de dictado (216) para la correspondencia de frase si la
correspondencia de frase no es encontrada en el archivo (214)
gramatical general, y buscar un modelo de dictado (300) específico
de contexto si la correspondencia de frase no es encontrada en la
gramática de dictado (216); y, un procesador (202) de lenguaje
natural configurado para buscar una base de datos (218) para una
correspondencia de entrada para la correspondencia de frase,
representando dichas entradas frases que son conocidas para la base
de datos, estando configurado el enlace de aplicación (220) para
realizar una acción asociada con la correspondencia de entrada si la
correspondencia de entrada es encontrada en la base de datos, y
preguntar al usuario acerca del objeto de red si no se ha encontrado
correspondencia de entrada.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US150459 | 1998-09-09 | ||
US09/150,459 US6499013B1 (en) | 1998-09-09 | 1998-09-09 | Interactive user interface using speech recognition and natural language processing |
US09/166,198 US6532444B1 (en) | 1998-09-09 | 1998-10-05 | Network interactive user interface using speech recognition and natural language processing |
US166198 | 1998-10-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2235508T3 true ES2235508T3 (es) | 2005-07-01 |
Family
ID=22534628
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99949601T Expired - Lifetime ES2235520T3 (es) | 1998-09-09 | 1999-09-08 | Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural. |
ES99945549T Expired - Lifetime ES2235508T3 (es) | 1998-09-09 | 1999-09-08 | Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99949601T Expired - Lifetime ES2235520T3 (es) | 1998-09-09 | 1999-09-08 | Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural. |
Country Status (10)
Country | Link |
---|---|
US (2) | US6499013B1 (es) |
EP (2) | EP1110206B1 (es) |
JP (2) | JP2002524776A (es) |
CN (2) | CN1153190C (es) |
AT (2) | ATE286296T1 (es) |
AU (2) | AU763059B2 (es) |
CA (2) | CA2343150A1 (es) |
DE (2) | DE69922971T2 (es) |
ES (2) | ES2235520T3 (es) |
WO (2) | WO2000014727A1 (es) |
Families Citing this family (391)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775264B1 (en) * | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
US20020032564A1 (en) | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
EP1224569A4 (en) * | 1999-05-28 | 2005-08-10 | Sehda Inc | PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE |
JP3702414B2 (ja) * | 1999-08-11 | 2005-10-05 | 株式会社日立製作所 | 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置 |
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
EP1222655A1 (en) * | 1999-10-19 | 2002-07-17 | Sony Electronics Inc. | Natural language interface control system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7516190B2 (en) * | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CA2408584A1 (en) * | 2000-04-06 | 2001-10-18 | One Voice Technologies, Inc. | Natural language and dialogue generation processing |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US7024348B1 (en) * | 2000-09-28 | 2006-04-04 | Unisys Corporation | Dialogue flow interpreter development tool |
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
KR20020032835A (ko) * | 2000-10-27 | 2002-05-04 | 정우성 | 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델 |
ATE300083T1 (de) * | 2000-11-03 | 2005-08-15 | Voicecom Solutions Gmbh | Robuste spracherkennung mit datenbankorganisation |
JP3714159B2 (ja) * | 2000-11-30 | 2005-11-09 | 日本電気株式会社 | ブラウザ搭載装置 |
US7640163B2 (en) * | 2000-12-01 | 2009-12-29 | The Trustees Of Columbia University In The City Of New York | Method and system for voice activating web pages |
EP1346344A1 (en) * | 2000-12-18 | 2003-09-24 | Koninklijke Philips Electronics N.V. | Store speech, select vocabulary to recognize word |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7103533B2 (en) * | 2001-02-21 | 2006-09-05 | International Business Machines Corporation | Method for preserving contextual accuracy in an extendible speech recognition language model |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US7203645B2 (en) * | 2001-04-27 | 2007-04-10 | Intel Corporation | Speech recognition system loading different recognition engines for different applications |
US7506022B2 (en) | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7610547B2 (en) | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7519529B1 (en) | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7409335B1 (en) | 2001-06-29 | 2008-08-05 | Microsoft Corporation | Inferring informational goals and preferred level of detail of answers based on application being employed by the user |
US20030009334A1 (en) * | 2001-07-03 | 2003-01-09 | International Business Machines Corporation | Speech processing board for high volume speech processing applications |
US20030037053A1 (en) * | 2001-08-09 | 2003-02-20 | Zhong-Hua Wang | Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems |
US6985865B1 (en) * | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7752266B2 (en) * | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US6915246B2 (en) * | 2001-12-17 | 2005-07-05 | International Business Machines Corporation | Employing speech recognition and capturing customer speech to improve customer service |
US7058565B2 (en) * | 2001-12-17 | 2006-06-06 | International Business Machines Corporation | Employing speech recognition and key words to improve customer service |
KR20020023197A (ko) * | 2001-12-27 | 2002-03-28 | 김연수 | 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템 |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
AU2003205166A1 (en) * | 2002-01-14 | 2003-07-30 | Jerzy Lewak | Identifier vocabulary data access method and system |
DE10211777A1 (de) * | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
JP3967952B2 (ja) * | 2002-04-16 | 2007-08-29 | 富士通株式会社 | 文法更新システム及び方法 |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
US20030216923A1 (en) * | 2002-05-15 | 2003-11-20 | Gilmore Jeffrey A. | Dynamic content generation for voice messages |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7941348B2 (en) | 2002-06-10 | 2011-05-10 | Ebay Inc. | Method and system for scheduling transaction listings at a network-based transaction facility |
US8719041B2 (en) * | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
US20030229554A1 (en) * | 2002-06-10 | 2003-12-11 | Veres Robert Dean | Method and system for composing transaction listing descriptions for use in a network-based transaction facility |
EP1652173B1 (en) | 2002-06-28 | 2015-12-30 | Chemtron Research LLC | Method and system for processing speech |
US20040008828A1 (en) * | 2002-07-09 | 2004-01-15 | Scott Coles | Dynamic information retrieval system utilizing voice recognition |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7363398B2 (en) * | 2002-08-16 | 2008-04-22 | The Board Of Trustees Of The Leland Stanford Junior University | Intelligent total access system |
US6907397B2 (en) * | 2002-09-16 | 2005-06-14 | Matsushita Electric Industrial Co., Ltd. | System and method of media file access and retrieval using speech recognition |
US20050180464A1 (en) * | 2002-10-01 | 2005-08-18 | Adondo Corporation | Audio communication with a computer |
US20060276230A1 (en) * | 2002-10-01 | 2006-12-07 | Mcconnell Christopher F | System and method for wireless audio communication with a computer |
US7197494B2 (en) * | 2002-10-15 | 2007-03-27 | Microsoft Corporation | Method and architecture for consolidated database search for input recognition systems |
EP2544101A1 (en) * | 2002-11-28 | 2013-01-09 | Nuance Communications Austria GmbH | Method to assign word class information |
US20040111259A1 (en) * | 2002-12-10 | 2004-06-10 | Miller Edward S. | Speech recognition system having an application program interface |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US7480619B1 (en) | 2003-03-04 | 2009-01-20 | The Board Of Trustees Of The Leland Stanford Junior University | Integration manager and natural interaction processor |
US6980949B2 (en) | 2003-03-14 | 2005-12-27 | Sonum Technologies, Inc. | Natural language processor |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US8223944B2 (en) * | 2003-05-05 | 2012-07-17 | Interactions Corporation | Conference call management system |
AU2004237227B2 (en) * | 2003-05-05 | 2011-07-14 | Interactions Llc | Apparatus and method for processing service interactions |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
ATE381755T1 (de) * | 2003-06-02 | 2008-01-15 | Ibm | Sprach-antwortsystem, sprach-antwortverfahren, sprach-server, sprach-datei- verarbeitungsverfahren, programm und aufzeichnungsmedium |
EP1631899A4 (en) * | 2003-06-06 | 2007-07-18 | Univ Columbia | SYSTEM AND METHOD FOR LANGUAGE ACTIVATION OF WEB SITES |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
US20050027539A1 (en) * | 2003-07-30 | 2005-02-03 | Weber Dean C. | Media center controller system and method |
US7383172B1 (en) | 2003-08-15 | 2008-06-03 | Patrick William Jamieson | Process and system for semantically recognizing, correcting, and suggesting domain specific speech |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US9552354B1 (en) * | 2003-09-05 | 2017-01-24 | Spoken Traslation Inc. | Method and apparatus for cross-lingual communication |
US7376752B1 (en) | 2003-10-28 | 2008-05-20 | David Chudnovsky | Method to resolve an incorrectly entered uniform resource locator (URL) |
GB2409561A (en) * | 2003-12-23 | 2005-06-29 | Canon Kk | A method of correcting errors in a speech recognition system |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US20080235018A1 (en) * | 2004-01-20 | 2008-09-25 | Koninklikke Philips Electronic,N.V. | Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
US9189568B2 (en) * | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
JP2005339237A (ja) * | 2004-05-27 | 2005-12-08 | Aruze Corp | アプリケーション利用補助システム |
WO2005122145A1 (en) * | 2004-06-08 | 2005-12-22 | Metaphor Solutions, Inc. | Speech recognition dialog management |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7921091B2 (en) | 2004-12-16 | 2011-04-05 | At&T Intellectual Property Ii, L.P. | System and method for providing a natural language interface to a database |
ES2261053B1 (es) * | 2004-12-29 | 2008-04-16 | France Telecom España, S.A. | Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles. |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
KR100718147B1 (ko) * | 2005-02-01 | 2007-05-14 | 삼성전자주식회사 | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 |
US7593962B2 (en) * | 2005-02-18 | 2009-09-22 | American Tel-A-Systems, Inc. | System and method for dynamically creating records |
US8225232B2 (en) * | 2005-02-28 | 2012-07-17 | Microsoft Corporation | Dynamic configuration of unified messaging state changes |
US7409344B2 (en) | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US7996219B2 (en) | 2005-03-21 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | Apparatus and method for model adaptation for spoken language understanding |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
JP4667138B2 (ja) * | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
WO2007027989A2 (en) | 2005-08-31 | 2007-03-08 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US8229745B2 (en) * | 2005-10-21 | 2012-07-24 | Nuance Communications, Inc. | Creating a mixed-initiative grammar from directed dialog grammars |
US8315874B2 (en) * | 2005-12-30 | 2012-11-20 | Microsoft Corporation | Voice user interface authoring tool |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
US20070225970A1 (en) * | 2006-03-21 | 2007-09-27 | Kady Mark A | Multi-context voice recognition system for long item list searches |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US8107610B2 (en) * | 2006-06-06 | 2012-01-31 | At&T Intellectual Property I, L.P. | Callback processing of interactive voice response requests |
DE102006029755A1 (de) * | 2006-06-27 | 2008-01-03 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
US8195461B2 (en) | 2006-12-15 | 2012-06-05 | Mitsubishi Electric Corporation | Voice recognition system |
US7809564B2 (en) * | 2006-12-18 | 2010-10-05 | International Business Machines Corporation | Voice based keyword search algorithm |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101075435B (zh) * | 2007-04-19 | 2011-05-18 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
US20080273672A1 (en) * | 2007-05-03 | 2008-11-06 | Microsoft Corporation | Automated attendant grammar tuning |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9154632B2 (en) * | 2007-09-20 | 2015-10-06 | Unify Gmbh & Co. Kg | Method and communications arrangement for operating a communications connection |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010051591A1 (en) * | 2008-11-06 | 2010-05-14 | Digital Intermediary Pty Limited | Context layered object engine |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US20110189646A1 (en) * | 2010-02-01 | 2011-08-04 | Amos Benninga | Pedagogical system method and apparatus |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8521513B2 (en) | 2010-03-12 | 2013-08-27 | Microsoft Corporation | Localization for interactive voice response systems |
US8694313B2 (en) * | 2010-05-19 | 2014-04-08 | Google Inc. | Disambiguation of contact information using historical data |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9245525B2 (en) | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
US8484031B1 (en) | 2011-01-05 | 2013-07-09 | Interactions Corporation | Automated speech recognition proxy system for natural language understanding |
US8560321B1 (en) | 2011-01-05 | 2013-10-15 | Interactions Corportion | Automated speech recognition system for natural language understanding |
US9472185B1 (en) | 2011-01-05 | 2016-10-18 | Interactions Llc | Automated recognition system for natural language understanding |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
WO2012135157A2 (en) * | 2011-03-31 | 2012-10-04 | Microsoft Corporation | Task driven user intents |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
EP2667268A1 (de) * | 2012-05-24 | 2013-11-27 | Siemens Aktiengesellschaft | Verfahren zum Betrieb eines Automatisierungsgeräts |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103678283B (zh) * | 2012-08-30 | 2016-08-17 | 英业达科技有限公司 | 提供外语词组以辅助外语文章撰写的系统及其方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9020809B1 (en) | 2013-02-28 | 2015-04-28 | Google Inc. | Increasing semantic coverage with semantically irrelevant insertions |
US9047271B1 (en) | 2013-02-28 | 2015-06-02 | Google Inc. | Mining data for natural language system |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US8694305B1 (en) * | 2013-03-15 | 2014-04-08 | Ask Ziggy, Inc. | Natural language processing (NLP) portal for third party applications |
US8768687B1 (en) * | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105264524B (zh) | 2013-06-09 | 2019-08-02 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US9117452B1 (en) | 2013-06-25 | 2015-08-25 | Google Inc. | Exceptions to action invocation from parsing rules |
US9280970B1 (en) | 2013-06-25 | 2016-03-08 | Google Inc. | Lattice semantic parsing |
US9299339B1 (en) | 2013-06-25 | 2016-03-29 | Google Inc. | Parsing rule augmentation based on query sequence and action co-occurrence |
US9251202B1 (en) | 2013-06-25 | 2016-02-02 | Google Inc. | Corpus specific queries for corpora from search query |
US9984684B1 (en) | 2013-06-25 | 2018-05-29 | Google Llc | Inducing command inputs from high precision and high recall data |
US9330195B1 (en) | 2013-06-25 | 2016-05-03 | Google Inc. | Inducing command inputs from property sequences |
US9183196B1 (en) | 2013-06-25 | 2015-11-10 | Google Inc. | Parsing annotator framework from external services |
US9092505B1 (en) | 2013-06-25 | 2015-07-28 | Google Inc. | Parsing rule generalization by n-gram span clustering |
US9123336B1 (en) | 2013-06-25 | 2015-09-01 | Google Inc. | Learning parsing rules and argument identification from crowdsourcing of proposed command inputs |
US9177553B1 (en) | 2013-06-25 | 2015-11-03 | Google Inc. | Identifying underserved command inputs |
US20150032238A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device for Audio Input Routing |
CN104346151B (zh) * | 2013-07-30 | 2018-04-27 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10109273B1 (en) * | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
US9507849B2 (en) * | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
WO2015116151A1 (en) * | 2014-01-31 | 2015-08-06 | Hewlett-Packard Development Company, L.P. | Voice input command |
CN109949815B (zh) * | 2014-04-07 | 2024-06-07 | 三星电子株式会社 | 电子装置 |
US20150331853A1 (en) * | 2014-05-15 | 2015-11-19 | Marco Palmonari | Automated multi-grammar language processing system to optimize request handling in contact centers |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
US9502031B2 (en) * | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
CN107003996A (zh) | 2014-09-16 | 2017-08-01 | 声钰科技 | 语音商务 |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN105869632A (zh) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | 基于语音识别的文本修订方法和装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160379630A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Speech recognition services |
US10515150B2 (en) | 2015-07-14 | 2019-12-24 | Genesys Telecommunications Laboratories, Inc. | Data driven speech enabled self-help systems and methods of operating thereof |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10455088B2 (en) | 2015-10-21 | 2019-10-22 | Genesys Telecommunications Laboratories, Inc. | Dialogue flow optimization and personalization |
US10382623B2 (en) | 2015-10-21 | 2019-08-13 | Genesys Telecommunications Laboratories, Inc. | Data-driven dialogue enabled self-help systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10843080B2 (en) * | 2016-02-24 | 2020-11-24 | Virginia Tech Intellectual Properties, Inc. | Automated program synthesis from natural language for domain specific computing applications |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10838992B2 (en) * | 2016-08-17 | 2020-11-17 | International Business Machines Corporation | Content selection for usage within a policy |
US20180052573A1 (en) * | 2016-08-17 | 2018-02-22 | Microsoft Technology Licensing, Llc | Interaction with a file storage service through a messaging bot |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
GB201618479D0 (en) | 2016-11-02 | 2016-12-14 | Syngenta Participations Ag | Adjuvants |
NZ753616A (en) * | 2016-11-02 | 2020-05-29 | Greeneden Us Holdings Ii Llc | System and method for parameterization of speech recognition grammar specification (srgs) grammars |
US10482885B1 (en) * | 2016-11-15 | 2019-11-19 | Amazon Technologies, Inc. | Speaker based anaphora resolution |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US20180330725A1 (en) * | 2017-05-09 | 2018-11-15 | Microsoft Technology Licensing, Llc | Intent based speech recognition priming |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
US11188706B2 (en) * | 2018-01-18 | 2021-11-30 | Christopher Anthony Silva | System and method for regionalized resolution of a network path |
CN108694939B (zh) * | 2018-05-23 | 2020-11-03 | 广州视源电子科技股份有限公司 | 语音搜索优化方法、装置和系统 |
CN110728976B (zh) * | 2018-06-30 | 2022-05-06 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN108899030A (zh) * | 2018-07-10 | 2018-11-27 | 深圳市茁壮网络股份有限公司 | 一种语音识别方法及装置 |
US10789943B1 (en) | 2018-08-31 | 2020-09-29 | Interactions Llc | Proxy for selective use of human and artificial intelligence in a natural language understanding system |
US11481558B2 (en) | 2018-09-12 | 2022-10-25 | Samsung Electroncis Co., Ltd. | System and method for a scene builder |
DE102018222156A1 (de) * | 2018-12-18 | 2020-06-18 | Volkswagen Aktiengesellschaft | Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation |
CN110223679A (zh) * | 2019-06-14 | 2019-09-10 | 南京机电职业技术学院 | 一种语音识别输入装置 |
CN110265013A (zh) * | 2019-06-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音的识别方法及装置、计算机设备、存储介质 |
US11151981B2 (en) | 2019-10-10 | 2021-10-19 | International Business Machines Corporation | Audio quality of speech in sound systems |
CN112562679B (zh) * | 2020-11-26 | 2024-06-14 | 浪潮金融信息技术有限公司 | 一种离线语音交互方法、装置及介质 |
EP4143674A1 (en) | 2021-07-19 | 2023-03-08 | Google LLC | Bit vector-based content matching for third-party digital assistant actions |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783803A (en) | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4887212A (en) | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JPH02301869A (ja) | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5222187A (en) * | 1989-12-29 | 1993-06-22 | Texas Instruments Incorporated | Grammar-based checksum constraints for high performance speech recognition circuit |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
US5511213A (en) * | 1992-05-08 | 1996-04-23 | Correa; Nelson | Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
JP2967688B2 (ja) * | 1994-07-26 | 1999-10-25 | 日本電気株式会社 | 連続単語音声認識装置 |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
JP2855409B2 (ja) | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
US5758322A (en) * | 1994-12-09 | 1998-05-26 | International Voice Register, Inc. | Method and apparatus for conducting point-of-sale transactions using voice recognition |
US5748974A (en) * | 1994-12-13 | 1998-05-05 | International Business Machines Corporation | Multimodal natural language interface for cross-application tasks |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
US6138098A (en) * | 1997-06-30 | 2000-10-24 | Lernout & Hauspie Speech Products N.V. | Command parsing and rewrite system |
US5960384A (en) * | 1997-09-03 | 1999-09-28 | Brash; Douglas E. | Method and device for parsing natural language sentences and other sequential symbolic expressions |
US6094635A (en) * | 1997-09-17 | 2000-07-25 | Unisys Corporation | System and method for speech enabled application |
US5995918A (en) * | 1997-09-17 | 1999-11-30 | Unisys Corporation | System and method for creating a language grammar using a spreadsheet or table interface |
US6058166A (en) * | 1997-10-06 | 2000-05-02 | Unisys Corporation | Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
US6138100A (en) * | 1998-04-14 | 2000-10-24 | At&T Corp. | Interface for a voice-activated connection system |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6178404B1 (en) * | 1999-07-23 | 2001-01-23 | Intervoice Limited Partnership | System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases |
-
1998
- 1998-09-09 US US09/150,459 patent/US6499013B1/en not_active Expired - Lifetime
- 1998-10-05 US US09/166,198 patent/US6532444B1/en not_active Expired - Lifetime
-
1999
- 1999-09-08 CN CNB998130931A patent/CN1153190C/zh not_active Expired - Lifetime
- 1999-09-08 AU AU62439/99A patent/AU763059B2/en not_active Ceased
- 1999-09-08 AT AT99945549T patent/ATE286296T1/de not_active IP Right Cessation
- 1999-09-08 EP EP99945549A patent/EP1110206B1/en not_active Expired - Lifetime
- 1999-09-08 DE DE69922971T patent/DE69922971T2/de not_active Expired - Lifetime
- 1999-09-08 WO PCT/US1999/020445 patent/WO2000014727A1/en active IP Right Grant
- 1999-09-08 CA CA002343150A patent/CA2343150A1/en not_active Abandoned
- 1999-09-08 CA CA002343229A patent/CA2343229A1/en not_active Abandoned
- 1999-09-08 WO PCT/US1999/020447 patent/WO2000014728A1/en active IP Right Grant
- 1999-09-08 EP EP99949601A patent/EP1110205B1/en not_active Expired - Lifetime
- 1999-09-08 JP JP2000569390A patent/JP2002524776A/ja active Pending
- 1999-09-08 DE DE69923191T patent/DE69923191T2/de not_active Expired - Lifetime
- 1999-09-08 CN CNB998130982A patent/CN1161747C/zh not_active Expired - Lifetime
- 1999-09-08 JP JP2000569391A patent/JP2002524806A/ja active Pending
- 1999-09-08 AU AU58130/99A patent/AU762282B2/en not_active Ceased
- 1999-09-08 ES ES99949601T patent/ES2235520T3/es not_active Expired - Lifetime
- 1999-09-08 ES ES99945549T patent/ES2235508T3/es not_active Expired - Lifetime
- 1999-09-08 AT AT99949601T patent/ATE287117T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ATE287117T1 (de) | 2005-01-15 |
US6532444B1 (en) | 2003-03-11 |
WO2000014727A1 (en) | 2000-03-16 |
CN1153190C (zh) | 2004-06-09 |
WO2000014728A1 (en) | 2000-03-16 |
DE69923191D1 (de) | 2005-02-17 |
CN1325528A (zh) | 2001-12-05 |
EP1110206A1 (en) | 2001-06-27 |
ES2235520T3 (es) | 2005-07-01 |
CA2343150A1 (en) | 2000-03-16 |
AU763059B2 (en) | 2003-07-10 |
EP1110205A1 (en) | 2001-06-27 |
DE69922971T2 (de) | 2005-12-29 |
DE69922971D1 (de) | 2005-02-03 |
DE69923191T2 (de) | 2006-01-05 |
JP2002524806A (ja) | 2002-08-06 |
ATE286296T1 (de) | 2005-01-15 |
JP2002524776A (ja) | 2002-08-06 |
EP1110205B1 (en) | 2005-01-12 |
CN1161747C (zh) | 2004-08-11 |
CN1325527A (zh) | 2001-12-05 |
AU6243999A (en) | 2000-03-27 |
CA2343229A1 (en) | 2000-03-16 |
EP1110206B1 (en) | 2004-12-29 |
US6499013B1 (en) | 2002-12-24 |
AU762282B2 (en) | 2003-06-19 |
AU5813099A (en) | 2000-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2235508T3 (es) | Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural. | |
US6434524B1 (en) | Object interactive user interface using speech recognition and natural language processing | |
JP4485694B2 (ja) | 並列する認識エンジン | |
CA2280331C (en) | Web-based platform for interactive voice response (ivr) | |
AU2001251354A1 (en) | Natural language and dialogue generation processing | |
JP3476008B2 (ja) | 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体 | |
JP2005084681A (ja) | 意味的言語モデル化および信頼性測定のための方法およびシステム | |
WO2002054385A1 (en) | Computer-implemented dynamic language model generation method and system | |
JP2021105708A (ja) | ニューラル・スピーチ・ツー・ミーニング | |
US10565982B2 (en) | Training data optimization in a service computing system for voice enablement of applications | |
US20190138269A1 (en) | Training Data Optimization for Voice Enablement of Applications | |
JP2005249829A (ja) | 音声認識を行うコンピュータネットワークシステム | |
US9947311B2 (en) | Systems and methods for automatic phonetization of domain names | |
JP2005084829A (ja) | 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体 | |
Abbasi | Phonetic Analysis and Searching with Google Glass API | |
GB2345783A (en) | Speech recognition system | |
WO2023232609A1 (fr) | Procédé et dispositif de vérification de l'utilisation d'une interface homme/machine par un opérateur humain | |
TWI328757B (en) | Device and method of searching word by pronunciation | |
Kumar et al. | Hands-Fr ee Natural Language Processing System in Wireless Multimedia Personal Networks |