ES2235520T3 - Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural. - Google Patents
Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural.Info
- Publication number
- ES2235520T3 ES2235520T3 ES99949601T ES99949601T ES2235520T3 ES 2235520 T3 ES2235520 T3 ES 2235520T3 ES 99949601 T ES99949601 T ES 99949601T ES 99949601 T ES99949601 T ES 99949601T ES 2235520 T3 ES2235520 T3 ES 2235520T3
- Authority
- ES
- Spain
- Prior art keywords
- phrase
- grammar
- coincidence
- entry
- match
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000002452 interceptive effect Effects 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000009471 action Effects 0.000 claims abstract description 21
- 238000003058 natural language processing Methods 0.000 claims abstract description 16
- 238000005303 weighing Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 11
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013479 data entry Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
Un método para interactuar con un ordenador utilizando pronunciaciones, comprendiendo el método los pasos de: - buscar en un primer fichero de gramática (212) una frase de coincidencia para dicha pronunciación; - buscar en un segundo fichero de gramática (214) una frase de coincidencia si dicha frase de coincidencia no ha sido encontrada en dicho primer fichero de gramática; - buscar en una base de datos (218) de procesamiento de lenguaje natural (NLP) una entrada de coincidencia para dicha frase de coincidencia, representando las entradas frases que son conocidas por la base de datos NLP; - realizar una acción asociada con dicha entrada de coincidencia si dicha entrada de coincidencia es encontrada en dicha base de datos.
Description
Interfaz de usuario interactiva que emplea
reconocimiento de voz y tratamiento del lenguaje natural.
El presente invento se refiere al reconocimiento
de voz para interfaz de usuario de ordenador. Más específicamente,
el presente invento se refiere a un sistema y método nuevos para
interacción de interfaz de usuario con un ordenador que utiliza
reconocimiento de voz y procesamiento de lenguaje natural.
A medida que los ordenadores se han hecho más
usuales en la sociedad se ha comprobado que muchas personas tienen
gran dificultad para entenderse y comunicarse con ordenadores. Un
usuario a menudo tiene que aprender instrucciones anticuadas y
procedimientos no intuitivos con el fin de manejar el ordenador. Por
ejemplo, la mayoría de los ordenadores personales utilizan sistemas
operativos basados en "windows", que están en gran medida
dirigidos por un menú. Esto requiere que el usuario aprenda qué
instrucciones de menú o secuencia de instrucciones producen los
resultados deseados.
Además, la tradicional interacción con un
ordenador a menudo se hace más lenta debido a los dispositivos de
entrada de datos tales como teclados o ratones. Muchos usuarios de
ordenador no son mecanógrafos rápidos. Como consecuencia, se emplea
mucho tiempo en comunicar instrucciones y palabras al ordenador a
través de estos dispositivos de introducción manuales. Está claro
que se necesita un método más fácil, más rápido y más intuitivo de
comunicación con los ordenadores.
Un método propuesto de interacción con ordenador
es el de reconocimiento de voz. El reconocimiento de voz implica que
el "software" y el "hardware" actúen conjuntamente para
detectar por audición la voz humana y traducir la voz detectada en
una secuencia de palabras. Como se conoce en la técnica, el
reconocimiento de voz funciona descomponiendo sonidos que el
"hardware" detecta en sonidos más pequeños no divisibles
denominados fonemas. Los fonemas son unidades de sonido diferentes.
Por ejemplo, la palabra "those" está compuesta por tres
fonemas; el primero es el sonido "th", el segundo es el sonido
"o", y el tercero es el sonido "s". El "software" de
reconocimiento de voz intenta comparar los fonemas detectados con
palabras conocidas procedentes de un diccionario almacenado. En la
Patente de EEUU Nº 4.783.803, publicada el 8 de noviembre de 1998,
se da un ejemplo de un sistema de reconocimiento de voz denominado
"Aparato y método de reconocimiento de voz", propiedad de
Dragon Systems, Inc., incorporada aquí como referencia. Actualmente,
hay muchos paquetes de "software" de reconocimiento de voz
disponibles en compañías tales como Dragon Systems, Inc. e
International Business Machines, Inc.
Una limitación de estos paquetes o sistemas de
"software" de reconocimiento de voz es que normalmente sólo
realizan funciones de instrucción y control o de dictado. Así, el
usuario todavía necesita aprender un vocabulario de instrucciones
con el fin de manejar el ordenador.
Una mejora propuesta a estos sistemas de
reconocimiento de voz es procesar las palabras detectadas utilizando
un sistema de procesamiento de lenguaje natural. El procesamiento de
lenguaje natural implica determinar un "significado" conceptual
(por ejemplo, qué significado intentaba transmitir el orador) de las
palabras detectadas analizando sus relaciones gramaticales y el
contexto relativo. Por ejemplo, la Patente de EEUU Nº 4.887.212,
titulada "Analizador para texto de lenguaje natural", publicada
el 12 de diciembre de 1989, propiedad de International Business
Machines Corporation, e incorporada como referencia aquí, explica un
método para analizar una corriente de entrada de palabras utilizando
el aislamiento de la palabra, el análisis morfológico, la consulta
al diccionario y el análisis gramatical.
El procesamiento de lenguaje natural utilizado en
combinación con el reconocimiento de voz proporciona una poderosa
herramienta para manejar un ordenador utilizando palabras habladas
en vez de la introducción manual tal como con un teclado alfabético
o un ratón. Sin embargo, un inconveniente de un sistema de
procesamiento de lenguaje natural consiste en que puede fallar en
determinar el "significado" correcto de las palabras detectadas
por el sistema de reconocimiento de voz. En tal caso, el usuario es
normalmente requerido para recomponer o exponer de nuevo la frase,
con la esperanza de que el sistema de procesamiento de lenguaje
natural determine el "significado" correcto en intentos
sucesivos. Claramente, esto puede acarrear sustanciales retrasos, ya
que el usuario es requerido para exponer de nuevo toda la oración o
instrucción.
Otro inconveniente de los sistemas convencionales
consiste en que el tiempo de procesamiento requerido para el
reconocimiento de voz puede ser prohibitivamente largo. Esto es
principalmente debido a la velocidad finita de los recursos de
procesamiento en comparación con la gran cantidad de información que
ha de procesarse. Por ejemplo, en muchos programas convencionales de
reconocimiento de voz, el tiempo requerido para reconocer la
pronunciación es largo debido al tamaño del fichero del diccionario
que se está buscando.
Un inconveniente adicional de los sistemas
convencionales de reconocimiento de voz y de procesamiento de
lenguaje natural consiste en que no son interactivos. Como
consecuencia, no es posible una interacción del estilo
conversacional con el ordenador. El usuario es requerido para
comunicar al ordenador conceptos completos. El usuario no es capaz
de hablar en fragmentos de oración debido a que se perderá el
significado de estos fragmentos de oración (que es dependiente del
significado de pronunciaciones previas). La patente
EP-A-0834862 explica un método de
reconocimiento de voz en el que, basado en un conjunto de
subgramáticas de frases que contienen frases clave, se detectan
partes semánticamente significantes de una oración y se rechazan las
partes no pertinentes.
Lo que es necesario es un interfaz de usuario
interactivo para un ordenador que utilice procesamiento de lenguaje,
lo que evita los inconvenientes mencionados anteriormente.
El presente invento es un sistema y método nuevos
y mejorados para interactuar con un ordenador que utiliza
pronunciaciones, procesamiento de voz y procesamiento de lenguaje
natural. Genéricamente, el sistema comprende un procesador de voz
para buscar en un primer fichero de gramática una frase de
coincidencia para la pronunciación, y para buscar en un segundo
fichero de gramática la frase de coincidencia si la frase de
coincidencia no se ha encontrado en el primer fichero de gramática.
El sistema también incluye un procesador de lenguaje natural para
buscar en una base de datos una entrada de coincidencia para la
frase de coincidencia; y un interfaz de aplicación para realizar una
acción asociada con la entrada de coincidencia si la entrada de
coincidencia se ha encontrado en la base de datos.
En la realización preferida el procesador de
lenguaje natural actualiza al menos una de las bases de datos, el
primer fichero de gramática y el segundo fichero de gramática con la
frase de coincidencia si la frase de coincidencia no se encuentra en
la base de datos.
El primer fichero de gramática es un fichero de
gramática específico de contextos. Un fichero de gramática
específico de contextos es uno que contiene palabras y frases que
son altamente pertinentes a un sujeto específico. El segundo fichero
de gramática es un fichero de gramática general. Un fichero de
gramática general es uno que contiene palabras y frases que no
necesitan ser interpretadas a la luz de un contexto. Es decir, las
palabras y frases del fichero de gramática general no pertenecen a
ningún contexto matriz. Buscando el fichero de gramática específico
de contextos antes de buscar el fichero de gramática general, el
presente invento permite que el usuario se comunique con el
ordenador utilizando un estilo más conversacional, en el que las
palabras habladas, si se han encontrado en el fichero de gramática
de contextos, son interpretadas a la luz de la materia objeto más
recientemente discutida.
En un aspecto posterior del presente invento, el
procesador de voz busca una gramática de dictado para la frase de
coincidencia si la frase de coincidencia no se ha encontrado en el
fichero de gramática general. La gramática de dictado es un amplio
vocabulario de palabras y frases generales. Buscando primeramente
las gramáticas específicas de contextos y generales, se espera que
el tiempo de reconocimiento de voz se reduzca en gran medida debido
a que las gramáticas específicas de contextos y generales son
ficheros físicamente menores que la gramática de dictado.
En otro aspecto del presente invento, el
procesador de lenguaje natural sustituye al menos una palabra en la
frase de coincidencia antes de buscar la base de datos. Esto puede
conseguirse mediante un sustituidor variable en el procesador de
lenguaje natural para sustituir un comodín por al menos una palabra
en la frase de coincidencia. Sustituyendo un comodín por ciertas
palabras (llamadas "variables de palabras") en la frase, el
número de entradas en la base de datos puede reducirse de forma
significativa. Adicionalmente, un sustituidor de pronombres en el
procesador de lenguaje natural puede sustituir un nombre adecuado
por pronombres en la frase de coincidencia, lo que permite almacenar
hechos específicos del usuario en la base de datos.
En otro aspecto del presente invento, un texto
formateador de secuencias de palabras formatea la frase de
coincidencia antes de buscar la base de datos. También un ponderador
de palabras pondera las palabras individuales en la frase de
coincidencia de acuerdo con una significancia relativa de las
palabras individuales antes de buscar la base de datos. Estos pasos
permiten una búsqueda más rápida y precisa de la
base de datos.
base de datos.
Un motor de búsqueda en el procesador de lenguaje
natural genera un valor de confianza de la entrada de coincidencia.
El procesador de lenguaje natural compara el valor de confianza con
un valor umbral. Un comprobador booleano determina si un número de
palabras requerido de la frase de coincidencia están presentes en la
entrada de coincidencia. Esta comprobación booleana sirve como
verificación de los resultados producidos por el motor de
búsqueda.
Con el fin de despejar ambigüedades, el
procesador de lenguaje natural pregunta al usuario si la entrada de
coincidencia es una interpretación correcta de la pronunciación si
el número de palabras requerido de la frase de coincidencia no están
presentes en la entrada de coincidencia. El procesador de lenguaje
natural también pregunta al usuario información adicional si la
entrada de coincidencia no es una interpretación correcta de la
pronunciación. Al menos una de las bases de datos, el primer fichero
de gramática y el segundo fichero de gramática son actualizados con
la información adicional. De esta forma, el presente invento
"aprende" adaptativamente el significado de pronunciaciones
adicionales, mejorando así la eficiencia del interfaz de
usuario.
Finalmente, el procesador de voz facilitará y
buscará una gramática específica de contextos asociada con la
entrada de coincidencia para una posterior pronunciación. Esto
asegura que primeramente se buscarán las palabras y frases más
pertinentes, disminuyendo así los tiempos de reconocimiento de
voz.
A partir de la descripción detallada expuesta se
apreciarán mejor las características, objetos y ventajas del
presente invento al tomarlas conjuntamente con los dibujos en los
que caracteres de referencia iguales identifican elementos iguales
en todo el texto y en los que:
La Figura 1 es un diagrama de bloques funcional
de un sistema de ordenador a modo de ejemplo para ser usado con el
presente invento;
la Figura 2 es un diagrama de bloques funcional
ampliado del CPU 102 y del medio de almacenamiento 108 del sistema
de ordenador de la Figura 1 del presente invento;
las Figuras 3A-3D son un diagrama
de flujos del método del presente invento; y
la Figura 4 es un diagrama de columnas
seleccionadas de una base de datos de procesador de lenguaje natural
(NPL) del presente invento.
A continuación se describirá el presente invento
haciendo referencia a un diagrama de bloques funcional de un sistema
de ordenador a modo de ejemplo 100 de la Figura 1. En la Figura 1,
el sistema de ordenador 100 incluye una unidad central de proceso
(CPU) 102. La CPU 102 puede ser cualquier microprocesador o
microcontrolador de tipo general de los conocidos en la técnica,
adecuadamente programado para realizar el método descrito aquí con
referencia a las Figuras 3A-3D. Por ejemplo, la CPU
102 puede ser un microprocesador convencional tal como el procesador
Pentium II fabricado por Intel Corporation o similar.
La CPU 102 se comunica con una pluralidad de
equipos periféricos, que incluyen una pantalla 104, introducción
manual 106, medio de almacenamiento 108, micrófono 110, altavoz
112, y puerto de introducción de datos 114. La visualización 104
puede ser una pantalla visual tal como una CRT, una pantalla LCD,
una pantalla sensible al tacto, u otros monitores de los conocidos
en la técnica para que el usuario pueda visualizar imágenes y texto.
La introducción manual 106 puede ser teclado alfabético, teclado
numérico, ratón, esfera de seguimiento, u otro dispositivo de
introducción de los conocidos en la técnica para la introducción
manual de datos. El medio de almacenamiento 108 puede ser una
memoria convencional leer/escribir tal como una unidad de disco
magnético, una unidad de disco flexible, una unidad de CDROM, una
memoria de silicio u otro dispositivo de memoria de los conocidos en
la técnica para almacenar y recuperar datos. Significativamente, el
medio de almacenamiento 108 puede estar situado a distancia de la
CPU 102, y puede estar conectado a la CPU por medio de una red tal
como una red de área local (LAN), o una red de área amplia (WAN), o
Internet. El micrófono 110 puede ser cualquier micrófono adecuado de
los conocidos en la técnica para proporcionar señales de audio a la
CPU 102. El altavoz 112 puede ser cualquier altavoz adecuado de los
conocidos en la técnica para reproducir señales de audio de la CPU
102. Se sobreentiende que el micrófono 110 y el altavoz 112 pueden
incluir circuitos de conversión digital a analógica y analógica a
digital según proceda. El puerto de introducción 114 puede ser
cualquier puerto de datos de los conocidos en la técnica para
conectar con cualquier accesorio externo que utilice un protocolo de
datos tal como RS-232, Bus Serie Universal, o
similar.
Así, la Figura 1 ilustra los elementos
funcionales de un sistema de ordenador 100. Cada uno de los
elementos del sistema de ordenador 100 pueden ser componentes
adecuados disponibles comercialmente como se ha descrito
anteriormente. El presente invento proporciona un método y sistema
para conectar con el sistema de ordenador 100 utilizando la voz.
Volviendo ahora a la Figura 2, en ella se ilustra
un diagrama de bloques funcional ampliado de la CPU 102 y del medio
de almacenamiento 108. La CPU 102 incluye un procesador de
reconocimiento de voz 220, un procesador de lenguaje natural 202 y
un interfaz de aplicación 220. El procesador de lenguaje natural 202
incluye además un sustituidor de variables 204, un formateador de
secuencias de caracteres 206, un ponderador de palabras 208, un
comprobador booleano 210, un sustituidor de pronombres 211, y un
motor de búsqueda 213. El medio de almacenamiento 108 incluye una
pluralidad de ficheros gramaticales específicos de contextos 212, un
fichero de gramática general 214, una gramática de dictado 216, y
una base de datos 218 del procesador de lenguaje natural (NLP). En
la realización preferida, los ficheros gramaticales 212, 214, y 216
son ficheros Bakus-Naur Form (BNF) que describen la
estructura del lenguaje hablado por el usuario. Los ficheros BNF son
bien conocidos en la técnica para describir la estructura del
lenguaje, por lo que aquí no se discutirán detalles de los ficheros
BNF. Una ventaja de los ficheros BNF consiste en que se pueden
utilizar estructuras jerarquizadas de tipo árbol para describir
secuencias de frases o de palabras sin la necesidad de recitar
explícitamente todas las combinaciones de estas secuencias de
palabras. Así, la utilización de ficheros BNF en la realización
preferida minimiza los tamaños físicos de los ficheros 212, 214, y
216 en el medio de almacenamiento 108, aumentando la velocidad a la
que estos ficheros pueden ser facilitados y buscados tal como se
describe más adelante. Sin embargo, en realizaciones alternativas,
se utilizan otras estructuras de ficheros.
El funcionamiento e interacción de estos
elementos funcionales de la Figura 2 se describirán haciendo
referencia al diagrama de flujos de las Figuras
3A-3D. En la Figura 3A, el flujo comienza en el
bloque 300 proporcionando una pronunciación al procesador de voz
200. Una pronunciación es una serie de sonidos que tiene un
principio y un fin, y puede incluir una o más palabras habladas. El
micrófono 110 que capta las palabras habladas puede realizar el paso
del bloque 300. Alternativamente, la pronunciación puede
proporcionarse al procesador de voz 200 por el puerto de
introducción de datos 114, o del medio de almacenamiento 108.
Preferiblemente, la pronunciación está en formato digital tal como
el formato del fichero de audio ".wav".
El flujo prosigue hasta la decisión 302, en la
que el procesador de voz 200 determina si una de las gramáticas
específicas de contextos 212 ha sido facilitada. En la realización
preferida, las gramáticas específicas de contextos 212 son ficheros
BNF que contienen palabras y frases que están relacionadas con un
contexto matriz. En general, un contexto es un área objeto. Por
ejemplo, en una realización del presente invento aplicable a
ordenadores personales, ejemplos de contextos puede ser
"noticias", o "clima", o "existencias". En tal caso,
las gramáticas específicas de contextos 212 podrían cada una
contener instrucciones, palabras de control, descriptores,
cualificadores, o parámetros que corresponden a un contexto
diferente de estos contextos. El uso de contextos proporciona una
estructura jerárquica de tipos de información. Los contextos y su
uso se describirán más adelante haciendo referencia a la base de
datos NLP 218.
Si una gramática específica de contextos 212 ha
sido facilitada, se busca la gramática específica de contextos 212
para una coincidencia con la pronunciación proporcionada en el
bloque 300. Sin embargo, si no se ha facilitado una gramática
específica de contextos 212, el flujo prosigue hasta el bloque 308
donde se facilita la gramática general 214.
En la realización preferida, la gramática general
214 es un fichero BNF que contiene palabras y frases que, en sí, no
pertenecen a un contexto matriz, pero pueden tener un contexto
asociado para el que existe un fichero de gramática específica de
contextos 212. En otras palabras, las palabras y frases de la
gramática general 214 pueden estar en la raíz de la estructura de
contextos jerarquizada. Por ejemplo, en una realización aplicable a
ordenadores personales, la gramática general 214 contendría
instrucciones y frases de control.
En el bloque 310, en la gramática general 214 se
busca una palabra o frase de coincidencia para la pronunciación
proporcionada en el bloque 300. Si no se encuentra ninguna
coincidencia, entonces se facilita la gramática de dictado 216. En
la realización preferida, la gramática de dictado 216 es un fichero
BNF que contiene una lista de palabras que, en sí, no tienen un
contexto matriz o un contexto asociado. Por ejemplo, en una
realización aplicable a un ordenador personal, la gramática de
dictado 216 contiene una lista relativamente amplia de palabras
similar a un diccionario general.
En el bloque 316 se busca en la gramática de
dictado palabras coincidentes para cada palabra de la pronunciación
proporcionada en el bloque 300. Si no se encuentran palabras
coincidentes, opcionalmente se visualiza un mensaje de error en la
pantalla 104 o se reproduce opcionalmente por audio un mensaje de
error a través del altavoz 112, y el procedimiento termina hasta que
se proporciona otra pronunciación al procesador de voz 200 en el
bloque 300.
Así, como puede verse a partir de la anterior
descripción, cuando se proporciona una pronunciación al procesador
de voz 200, se busca primero la gramática específica de contextos
212 facilitada, si la hay. Si no hay coincidencias en la gramática
específica de contextos 212, entonces se facilita y busca la
gramática general 214. Si no hay coincidencias en la gramática
general 214, entonces se facilita y busca la gramática de dictado
316.
En la realización preferida, cuando el procesador
de reconocimiento de voz 200 está buscando la gramática específica
de contextos o la gramática general 214, se dice que está en el modo
"instrucción y control". En este modo, el procesador de
reconocimiento de voz 200 compara toda la pronunciación como un
conjunto con las entradas de la gramática. Por el contrario, cuando
el procesador de reconocimiento de voz 200 está buscando la
gramática de dictado, se dice que está en modo "dictado". En
este modo, el procesador de reconocimiento de voz 200 compara la
pronunciación con las entradas en la gramática de dictado 216 una
palabra cada vez. Se espera que la búsqueda de una coincidencia de
una pronunciación completa en modo de instrucción y control sea
generalmente más rápida que la búsqueda de una palabra a la vez en
modo dictado.
Se espera además que cualquier gramática
específica de contextos 212 sea de tamaño menor (esto es, menor
número total de palabras y frases) que en la gramática general 214,
que a su vez será de tamaño menor que la gramática de dictado 216.
Así, buscando primeramente cualquier gramática de contextos
específicos 212 facilitada, es probable que se encuentre más
rápidamente una coincidencia, si la hay, debido al menos en parte
al menor tamaño del fichero. Igualmente, buscando la gramática
general 214 antes que la gramática de dictado 216, es probable que
se encuentre más rápidamente una coincidencia, si la hay.
Adicionalmente, como se explicará posteriormente
con respecto a la capacidad del presente invento para añadir
adaptativamente tanto a la gramática específica de contextos 212
como a la gramática general 214, éstas contendrán las
pronunciaciones más comunes. Como tal, se espera que probablemente
se encuentre más rápido una coincidencia en la gramática de
contextos específicos 212 o en la gramática general 214 que en la
gramática de dictado 216.
Finalmente, como se explicará posteriormente más
adelante, es más probable que las palabras y frases de la gramática
de contextos específicos 212 sean pronunciadas por el usuario debido
a que son palabras altamente pertinentes a la materia objeto sobre
la que el usuario estaba hablando recientemente. Esto permite
también que el usuario hable en un estilo más conversacional,
utilizando fragmentos de oraciones, interpretándose el significado
de sus palabras de acuerdo con la gramática de contextos específicos
212 facilitada.
Buscando en la secuencia anteriormente descrita,
el presente invento puede buscar más eficientemente que si la
búsqueda tuviera que ocurrir una entrada a la vez en una única lista
amplia de todas las palabras y frases esperadas.
Con referencia nuevamente a la decisión 306, si
se encuentra una coincidencia en la gramática de contextos
específicos 212, entonces hay tres posibles pasos siguientes
mostrados en la Figura 3A. Para cada entrada de coincidencia en la
gramática de contextos específicos 212 facilitada, puede haber una
acción asociada que puede realizar el procesador de reconocimiento
de voz 200. El bloque 322 muestra que una acción puede ser para
dirigir al interfaz de aplicación 220 a que realice la acción con
respecto a una aplicación o entidad de "software"
independiente. Por ejemplo, el interfaz de aplicación 220 puede
utilizar el Interfaz de Aplicación Aplicada a Voz (SAPI) normal de
Microsoft para comunicar con una aplicación externa. La aplicación
externa puede ser dirigida, por ejemplo, a acceder a un sitio URL de
la red de Internet o para expresar una determinada frase
convirtiendo texto en voz. Como se discutirá posteriormente, se
pueden realizar otras acciones con referencia a la base de datos NLP
218 de la Figura 4.
El bloque 324 muestra que puede realizarse otra
acción para acceder directamente a una fila en la base de datos de
procesamiento de lenguaje natural (NLP) 218, evitando así los pasos
del procesamiento de lenguaje natural descritos más adelante. El
bloque 326 muestra que se puede realizar otra acción para considerar
una palabra o una frase para el contexto facilitado a la palabra o
frase de coincidencia encontrada en la gramática de contextos
específicos 306. Por ejemplo, si el contexto facilitado fuera
"movies" y la pronunciación de coincidente fuera "8
o'clock", la palabra "movies" sería considerada para la
frase "8 o'clock" para formar la frase "movies at 8
o'clock".
Igualmente, si se encuentra una coincidencia en
la gramática general 214, entonces el flujo puede seguir su curso
hasta el bloque 322 donde el interfaz de aplicación 220 es dirigido
a realizar una acción como se ha descrito anteriormente, o al bloque
324 donde se accede directamente a una fila en la base de datos
NLP. Sin embargo, si en la gramática general 214 se encuentra una
coincidencia, no ocurre la consideración de un contexto debido, tal
como se ha dicho anteriormente, debido a que las entradas en la
gramática general 214, en sí mismas, no tienen un contexto
matriz.
Finalmente, con referencia a la Figura 3A, las
palabras pueden ser introducidas manualmente mediante introducción
manual 106. En este caso, no se requiere reconocimiento de voz, y
además se necesita todavía procesamiento de lenguaje natural de las
palabras introducidas. Así, el flujo prosigue hasta la Figura
3B.
En la Figura 3B, en el bloque 328, el procesador
de lenguaje natural 202 formatea la frase para el análisis de
procesamiento de lenguaje natural. Este formateo es realizado por el
formateador de secuencias de palabras 206 y puede incluir tal
procesamiento de texto como el de quitar espacios duplicados entre
palabras, haciendo todas las letras minúsculas (o mayúsculas),
ampliando contracciones (por ejemplo, cambiando "it's" por
"it is"), y similares. El objeto de este paso de formateo es
preparar la frase para su análisis.
El flujo continúa al bloque 330 donde el
sustituidor variables 204 sustituye ciertas "variables de
palabra" por una función comodín asociada en preparación para
acceder a la base de datos NLP 218. Como se ha utilizado aquí, el
término "variables de palabra" se refiere a palabras o frases
que representan cantidades, fechas, horas, monedas, y similares. Por
ejemplo, en una realización la frase "what movies are playing at 8
o'clock" en el bloque 330 sería transformada en "what movies
are playing at \textdollartime" donde "\textdollartime"
es una función comodín utilizada para representar cualquier hora.
Como otro ejemplo, en una realización la frase "sell IBM stock at
100 dollars" en el bloque 330 sería transformada en "sell IBM a
\textdollardollars" donde "\textdollardollars" es una
función comodín utilizada para representar cualquier valor en
dólares. Este paso puede realizarse por un solo bucle que busca en
la frase credenciales testigos de clave tales como las palabras
"dollar" u "o'clock" y sustituye las variables de palabra
por una función comodín específica. Con el fin de conservar la pista
del lugar en la frase en el que se realizó la sustitución, se puede
utilizar una matriz. Esto permite la resustitución de la variable de
palabra en la frase en la misma posición después de haber buscado en
la base de datos NLP 218.
El objeto de sustituir variables de palabra por
una función comodín asociada en el bloque 330 es reducir el número
de entradas que pueden estar presentes en la base de datos NLP 218.
Por ejemplo, la base de datos NLP 218 solamente contendría la frase
"what movies are playing at \textdollartime" en vez de una
entrada independiente para 8 o'clock, 9 o'clock, 10 o'clock, y así
sucesivamente. La base de datos NLP 218 se describirá más
adelante.
En el bloque 332, los pronombres en la frase se
sustituyen por nombres propios mediante el sustituidor de pronombres
211. Por ejemplo, en una realización los pronombres "I",
"my" o "mine" serían sustituidos por el nombre del que
habla. El objeto de este paso es permitir que se almacenen y se
acceda a hechos específicos del usuario en la base de datos NLP 218.
Por ejemplo, la oración "who are my children" se transformaría
en "who are Dean's children" donde "Dean" es el nombre
propio del que habla. Nuevamente, este paso puede realizarse en un
único bucle que busca pronombres en la frase, y sustituye los
pronombres encontrados por un nombre propio correspondiente. Se
puede utilizar una matriz con el fin de conservar la pista de los
lugares de la frase en los que se realizó una sustitución.
En el bloque 334, el ponderador 208 pondera cada
una de las palabras en la frase se sopesan de acuerdo con su
"importancia" o "significancia" relativa con el
significado del conjunto de la frase. Por ejemplo, en una
realización hay asignados tres factores de ponderación. El factor de
ponderación inferior se asigna a palabras tales como "a",
"an", "the" y a otros artículos. El factor de ponderación
más alto se da a palabras que probablemente tienen una relación
significativa con el significado de la frase. Por ejemplo, éstas
pueden incluir todos los verbos, nombres, adjetivos, y nombres
propios en la base de datos NLP 218. A todas las otras palabras de
la frase se les da un factor de ponderación medio. El objeto de esta
ponderación es permitir una búsqueda más potente de la base de datos
NLP 218.
En la Figura 4 se muestra un ejemplo de columnas
seleccionadas de la base de datos NLP 218. La base de datos NLP 218
comprende una pluralidad de columnas 400-410, y una
pluralidad de filas 412A-412N. En la columna 400 las
entradas representan frases que son "conocidas" por la base de
datos NLP. En la columna 402 se muestra un número de palabras
requeridas para cada entrada en la columna 400. En la columna 404 se
muestra un contexto o subcontexto asociado para cada entrada en la
columna 400. En las columnas 408 y 410 se muestran una o más
acciones asociadas para cada entrada en la columna 400. Se debería
advertir de que la base de datos NLP 218 mostrada en la Figura 4
solamente es un ejemplo simplificado con el fin de explicar el
presente invento. Otras realizaciones pueden tener más o menos
columnas con entradas diferentes.
Con referencia nuevamente a la Figura 3B, en el
bloque 336, se buscan en la base de datos NLP 218 posibles
coincidencias con la frase, basándose en si la entrada en la columna
400 de la base de datos 218 contiene alguna de las palabras de la
frase (o sus sinónimos), y el peso relativo de esas palabras. En el
bloque 338, se genera un valor de confianza para cada una de las
posibles entradas de coincidencia basándose en el número de
ocurrencias de cada una de las palabras de la frase y de sus pesos
relativos. La búsqueda de una palabra ponderada en una base de datos
es bien conocida en la técnica y puede ser realizada por máquinas de
búsqueda disponibles comercialmente tales como el producto
"dtsearch" de DT Software, Inc. de Arlington, Virginia.
Igualmente, es bien conocida en la técnica la búsqueda que utiliza
sinónimos y puede ser realizada utilizando herramientas disponibles
para el público tales como "WordNet", desarrollada por el
Laboratorio de Ciencias del Conocimiento de la Universidad de
Princeton, New Jersey. El motor de búsqueda puede ser una parte
integrante del procesador de lenguaje natural 202.
En la decisión 340 el procesador de lenguaje
natural 202 determina si cualquiera de las posibles entradas de
coincidencia tiene un valor de confianza mayor que o igual que algún
umbral mínimo predeterminado, T. El umbral T representa el valor de
confianza aceptable inferior para el cual puede tomarse una decisión
en cuanto a si la frase ha coincidido con alguna de las entradas en
la base de datos NLP 218. Si no hay ninguna posible entrada de
coincidencia con un valor de confianza mayor que o igual a T,
entonces el flujo prosigue hasta el bloque 342 donde para el usuario
se visualiza un mensaje de error opcional en la visualización 104 o
se reproduce por audio a través del altavoz 112. En una realización,
el tipo de mensaje de error, si lo hay, visualizado para el usuario
puede depender de cuántos "aciertos" (es decir, cuántas
palabras coincidentes de la frase) fueron encontrados en la entrada
en la base de datos NLP de la mayor confianza. Se generaría un tipo
diferente de mensaje de error según los aciertos fueran cero o uno o
bien fueran dos o más aciertos.
Sin embargo, si al menos hay una entrada en la
base de datos NLP 218 para la que existe un valor de confianza mayor
que o igual a T, entonces el flujo prosigue hasta el bloque 344
donde las palabras "ruido" se descartan de la frase. Las
palabras "ruido" incluyen palabras que no contribuyen de forma
importante al significado total de la frase con relación a las otras
palabras de la frase. Éstas pueden incluir artículos, pronombres,
conjunciones, y palabras de una naturaleza similar. Las palabras
"sin ruido" incluirían palabras que contribuyen de forma
importante al significado total de la frase. Las palabras "sin
ruido" incluirían verbos, nombres, adjetivos, nombres propios, y
palabras de una naturaleza similar.
El flujo prosigue hasta la Figura 3C donde el
requerimiento de palabra sin ruido se recupera de la columna 402 de
la base de datos NLP 218 para la entrada de coincidencia de
confianza más alta en el bloque 346. Por ejemplo, si la frase de
coincidencia de confianza más alta era la entrada en la fila 412A,
(por ejemplo, "what movies are playing at \textdollartime"),
entonces el número de palabras sin ruido requeridas es 3.
En la decisión 348, se realiza una prueba para
determinar si el número de palabras sin ruido requeridas de la frase
está actualmente presente en la entrada de confianza más alta
recuperada de la base de datos NLP 218. Esta prueba es una
verificación de la precisión de la búsqueda de estilo pertinente
realizada en el bloque 336, quedando sobreentendido que una entrada
puede generar un valor de confianza más alto que el umbral mínimo,
T, sin ser una coincidencia aceptable para la frase.
La naturaleza de la prueba realizada en la
decisión 348 es una prueba booleana "AND" realizada por el
comprobador booleano 210. La prueba determina si cada una de las
palabras sin ruido en la frase (o su sinónimo) está actualmente
presente en la entrada de confianza más alta. Si hay un número
suficiente de palabras requeridas actualmente presentes en la
entrada de confianza más alta, entonces el flujo prosigue hasta el
bloque 350, donde el procesador de lenguaje natural 202 dirige el
interfaz de aplicación 220 hasta realizar una acción asociada de la
columna 408 o 410. Se sobreentiende que también pueden estar
presentes columnas de acción adicionales.
Por ejemplo, si la entrada de confianza más alta
era la entrada en la fila 412A, y la prueba booleana de decisión 348
determinó que actualmente había 3 palabras sin ruido de la frase en
la entrada en la columna 400, entonces se debería realizar la acción
en la columna 408 (por ejemplo, acceso al sitio "movie" de la
red). Otras entradas en la base de datos NLP tienen otras acciones
asociadas. Por ejemplo, si la entrada de confianza más alta es la de
la fila 412E (por ejemplo, "what time is it"), la acción
asociada puede ser para que el procesador de lenguaje natural 202
dirija una aplicación texto a voz (no mostrada) para decir la hora
actual al usuario a través del altavoz 112. Como otro ejemplo, si la
entrada de confianza más alta es la de la fila 412N (por ejemplo,
"show me the news"), la primera acción asociada puede ser
acceder a un sitio predeterminado de noticias en Internet, y una
segunda acción asociada puede ser dirigir una aplicación de
visualización de imagen (no mostrada) para visualizar imágenes
asociadas con las noticias. También se pueden realizar acciones
diferentes o adicionales.
También, si la entrada de confianza más alta
contiene el requerido número de palabras sin ruido de la frase como
determinado en la decisión 348, el procesador de lenguaje natural
202 da instrucciones al procesador de reconocimiento de voz 200 para
facilitar la gramática específica de contextos 212 para el contexto
asociado de la columna 404. Así, para la fila 412A, se facilitaría
la gramática de contextos específicos 212 para el contexto
"movies". Así, cuando se proporciona la próxima pronunciación
al procesador de reconocimiento de voz 200 en el bloque 300 de la
Figura 3A, se buscaría en la gramática de contextos específicos 212
facilitada para "movies" antes de buscar la gramática general
214. Como se ha manifestado anteriormente, facilitando la gramática
específica de contextos 212 aumenta en gran medida la probabilidad
de reconocimiento de voz rápido y con éxito, y mejora la capacidad
del usuario de comunicarse con el ordenador en un estilo
conversacional.
Sin embargo, si nuevamente en la decisión 348, el
número requerido de palabras sin ruido no está presente actualmente
en la entrada de confianza más alta recuperada de la base de datos
218, entonces el flujo prosigue hasta el bloque 354 donde se
pregunta al usuario a través de la visualización 104 o del altavoz
112 si fue considerada la entrada de confianza más alta. Por
ejemplo, si el usuario pronunció "How much is IBM stock selling
for today", la entrada de confianza más alta en la base de datos
NLP 218 puede ser la entrada en la fila 412B. En este caso, aunque
el factor de pertinencia puede ser alto, el número de palabras
requeridas (o sus sinónimos) puede no ser suficiente. Así, al
usuario le sería preguntado en el bloque 354 si él consideró "what
is the price of IBM stock on August 28, 1998".
El usuario puede responder bien afirmativa o
negativamente. Si está determinado en la decisión 356 que el usuario
tiene que responder afirmativamente, entonces la o las acciones
asociadas con la entrada de confianza más alta se realizan en el
bloque 350, y la gramática específica de contextos 212 asociada es
facilitada en el bloque 352.
Sin embargo, si se ha determinado en la decisión
356 que el usuario ha respondido negativamente, entonces el flujo
prosigue hasta la Figura 3D donde se recupera el contexto asociado
de la columna 404 de la base de datos NLP 218 para la entrada de
confianza más alta, y el usuario es preguntado por información
utilizando un diálogo interactivo basado en el contexto en el bloque
360. Por ejemplo, si el usuario pronunció "what is the price of
XICOR stock today", y la entrada de confianza más alta de la base
de datos NLP 218 fue la fila 412B (por ejemplo, "what is the price
of IBM stock on \textdollardate"), entonces el usuario sería
avisado en el bloque 354 qué era lo que él pensaba.
Si el usuario responde negativamente, entonces el
contexto "stock" se recupera de la columna 404 en el bloque
358, y al usuario se le presenta el diálogo interactivo basado en el
contexto para el contexto stock a través de la visualización 104 y
el altavoz 112. Tal diálogo interactivo basado en el contexto puede
dar lugar a que al usuario le sean preguntados datos del nombre y el
símbolo receptor de cotizaciones de las existencias de XICOR. El
usuario puede responder a la información requerida hablando. Se
puede usar un diálogo interactivo basado en el contexto para cada
uno de los contextos posibles. Por ejemplo, el diálogo interactivo
basado en el contexto "weather" puede dar lugar a que al
usuario le sea preguntado el nombre del lugar cuya información
meteorológica se desea. También, el diálogo interactivo basado en el
contexto "news" puede dar lugar a que el usuario sea preguntado
por los tipos de artículos, fuente de noticias, URL de Internet del
lugar de las noticias, u otra información relacionada.
Una vez terminado el diálogo interactivo basado
en el contexto, la base de datos NLP 218, gramática general 214, y
gramática específica de contextos 212 son actualizadas para incluir
la nueva información. De esta forma, la próxima vez que el usuario
pregunte por esa información se encontrará una coincidencia
adecuada, y se realizará la acción apropiada sin preguntar al
usuario más información. Así, el presente invento "aprende"
adaptativamente a reconocer frases pronunciadas por el usuario.
En una realización del presente invento, una o
más de las bases de datos NLP 218, de la gramática específica de
contextos 212, de la gramática general 214, y de la gramática de
dictado 216 también contienen valores señal de tiempo (no mostrados)
asociados con cada entrada. Cada vez que se utiliza una entrada de
coincidencia, se actualiza el valor señal de tiempo asociado con la
entrada. A intervalos periódicos, o cuando por iniciativa del
usuario, se retiran de sus respectivas bases de datos/gramáticas las
entradas que tienen un valor señal de tiempo anteriores a una cierta
fecha y hora. De esta forma, las bases de datos/gramáticas pueden
ser mantenidas en un tamaño eficiente mediante la "purga" de
entradas antiguas o anticuadas. Esto también ayuda a evitar falsas
coincidencias.
En resumen, el presente invento proporciona un
método y sistema para un interfaz de usuario para un ordenador.
Mediante la utilización de gramáticas específicas de contextos, el
presente invento disminuye el tiempo de reconocimiento de voz e
incrementa la capacidad del usuario para comunicarse con el
ordenador en un estilo conversacional. Además, mediante el uso de
actualización adaptativa de las diversas gramáticas y de la base de
datos NLP, el presente invento aumenta aún más la eficiencia
interactiva.
Se proporciona la anterior descripción de las
realizaciones preferidas para hacer posible que cualquier persona
experta en la materia haga o utilice el presente invento. Las
diferentes modificaciones a estas realizaciones resultarán enseguida
evidentes a las personas expertas en la materia, y los principios
generales definidos aquí pueden ser aplicados a otras realizaciones
sin el uso de facultades de invención. Así, se entiende que el
presente invento no está limitado a las realizaciones mostradas
aquí, pero debe acordarse el alcance de forma consistente con las
reivindicaciones anejas.
Claims (34)
1. Un método para interactuar con un ordenador
utilizando pronunciaciones, comprendiendo el método los pasos
de:
buscar en un primer fichero de gramática (212)
una frase de coincidencia para dicha pronunciación;
buscar en un segundo fichero de gramática (214)
una frase de coincidencia si dicha frase de coincidencia no ha sido
encontrada en dicho primer fichero de gramática;
buscar en una base de datos (218) de
procesamiento de lenguaje natural (NLP) una entrada de coincidencia
para dicha frase de coincidencia, representando las entradas frases
que son conocidas por la base de datos NLP;
realizar una acción asociada con dicha entrada de
coincidencia si dicha entrada de coincidencia es encontrada en dicha
base de datos.
2. El método de la reivindicación 1 que además
comprende el paso de actualización de al menos una de dicha base de
datos, de dicho primer fichero de gramática y de dicho segundo
fichero de gramática con dicha frase de coincidencia si dicha
entrada de coincidencia no ha sido encontrada en dicha base
de
datos.
datos.
3. El método de la reivindicación 2 en el que
dicho primer fichero de gramática es un fichero de gramática
específica de contextos.
4. El método de la reivindicación 3 en el que
dicho segundo fichero de gramática es un fichero de gramática
general.
5. El método de la reivindicación 4 que además
incluye el paso de buscar en una gramática de dictado dicha frase de
coincidencia si dicha frase de coincidencia no ha sido encontrada en
dicho fichero de gramática general.
6. El método de la reivindicación 1 que además
comprende el paso de sustituir al menos una palabra en dicha frase
de coincidencia antes de dicho paso de búsqueda en dicha base de
datos.
7. El método de la reivindicación 6 en el que
dicho paso de sustituir dicha al menos una palabra comprende la
sustitución de un comodín por dicha al menos una palabra.
8. El método de la reivindicación 6 en el que
dicho paso de sustitución de al menos una palabra comprende la
sustitución de un nombre propio por dicha al menos una palabra.
9. El método de la reivindicación 1 que además
comprende el paso de formateo de texto de dicha frase de
coincidencia antes de dicho paso de buscar en dicha base de
datos.
10. El método de la reivindicación 1 que además
comprende el paso de ponderar palabras individuales en dicha frase
de coincidencia de acuerdo con una significancia relativa de dichas
palabras individuales antes de dicho paso de buscar en dicha base de
datos.
11. El método de la reivindicación 1 que además
comprende el paso de generar unos valores de confianza para dicha
entrada de coincidencia.
12. El método de la reivindicación 11 que además
comprende el paso de comparar dicho valor de confianza con un valor
umbral.
13. El método de la reivindicación 12 que además
comprende el paso de determinar si un número requerido de palabras
de dicha frase de coincidencia está presente en dicha entrada de
coincidencia.
14. El método de la reivindicación 13 que además
comprende el paso de preguntar a un usuario si dicha entrada de
coincidencia es una interpretación correcta de dicha pronunciación
si dicho número de palabras requerido de dicha frase de coincidencia
no está presente en dicha entrada de coincidencia.
15. El método de la reivindicación 14 que además
comprende el paso de preguntar a un usuario información adicional si
dicha entrada de coincidencia no es una interpretación correcta de
dicha pronunciación.
16. El método de la reivindicación 15 que además
comprende el paso de actualizar al menos una de dicha base de datos,
de dicho primer fichero de gramática y de dicho segundo fichero de
gramática con dicha información adicional.
17. El método de la reivindicación 2 que además
comprende el paso de buscar una gramática específica de contextos
asociada con dicha entrada de coincidencia para una posterior frase
de coincidencia para una pronunciación posterior.
18. Un sistema para interactuar con un ordenador
utilizando pronunciaciones, comprendiendo el sistema:
un procesador de voz (200) para buscar en un
primer archivo de gramática (212) una frase de coincidencia para
dicha pronunciación, y para buscar en un segundo fichero de
gramática (214) dicha frase de coincidencia si dicha frase de
coincidencia no ha sido encontrada en dicho fichero de
gramática;
un procesador de lenguaje natural para buscar en
una base de datos de procesamiento de lenguaje natural (NLP) (218)
una entrada de coincidencia para dicha frase de coincidencia,
representando las entradas frases que son conocidas por la base de
datos NLP; y
un interfaz de aplicación (220) para realizar una
acción asociada con dicha entrada de coincidencia si dicha entrada
de coincidencia es encontrada en dicha base de datos.
19. El sistema de la reivindicación 18 en el que
dicho procesador de lenguaje natural actualiza al menos una de dicha
base de datos, de dicho primer fichero de gramática y de dicho
segundo fichero de gramática con dicha frase de coincidencia si
dicha entrada de coincidencia no ha sido encontrada en dicha base de
datos.
20. El sistema de la reivindicación 19 en el que
dicho primer fichero de gramática es un fichero de gramática
específica de contextos.
21. El sistema de la reivindicación 20 en el que
dicho segundo fichero de gramática es un fichero de gramática
general.
22. El sistema de la reivindicación 21 en el que
dicho procesador de voz busca una gramática de dictado para dicha
frase de dictado si dicha frase de coincidencia no se encuentra en
dicho fichero de gramática general.
23. El sistema de la reivindicación 18 en el que
además dicho procesador de lenguaje natural sustituye al menos una
palabra en dicha frase de coincidencia antes de buscar en dicha base
de datos.
24. El sistema de la reivindicación 23 que además
comprende un sustituidor de variable en dicho procesador de lenguaje
natural para sustituir un comodín por dicha al menos una palabra en
dicha frase de coincidencia.
25. El sistema de la reivindicación 23 que además
comprende un sustituidor de pronombres en dicho procesador de
lenguaje natural para sustituir por un nombre propio al menos una
palabra en dicha frase de coincidencia.
26. El sistema de la reivindicación 18 que además
comprende un formateador de secuencias de palabras para formatear el
texto de dicha frase de coincidencia antes de buscar en dicha base
de datos.
27. El sistema de la reivindicación 18 que además
comprende un ponderador de palabras para ponderar palabras
individuales en dicha frase de coincidencia de acuerdo con una
significancia relativa de dichas palabras individuales antes de
buscar en dicha base de datos.
28. El sistema de la reivindicación 18 que además
comprende un motor de búsqueda en dicho procesador de lenguaje
natural para generar un valor de confianza para dicha entrada de
coincidencia.
29. El sistema de la reivindicación 28 en el que
dicho procesador de lenguaje natural compara dicho valor de
confianza con un valor umbral.
30. El sistema de la reivindicación 29 que además
comprende un comprobador booleano para determinar si un número de
palabras requerido de dicha frase de coincidencia está presente en
dicha entrada de coincidencia.
31. El sistema de la reivindicación 30 en el que
dicho procesador de lenguaje natural pregunta a un usuario si dicha
entrada de coincidencia es una interpretación correcta de dicha
pronunciación si dicho número requerido de palabras de dicha frase
de coincidencia no está presente en dicha entrada de
coincidencia.
32. El sistema de la reivindicación 30 en el que
dicho procesador de lenguaje natural pregunta a un usuario
información adicional si dicha entrada de coincidencia no es una
interpretación correcta de dicha pronunciación.
33. El sistema de la reivindicación 32 en el que
dicho procesador de lenguaje natural actualiza al menos una de dicha
base de datos, de dicho primer fichero de gramática y de dicho
segundo fichero de gramática con dicha información adicional.
34. El sistema de la reivindicación 19 en el que
dicho procesador de voz busca en una gramática específica de
contextos asociada con dicha entrada de coincidencia una posterior
frase de coincidencia para una posterior pronunciación.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US150459 | 1998-09-09 | ||
US09/150,459 US6499013B1 (en) | 1998-09-09 | 1998-09-09 | Interactive user interface using speech recognition and natural language processing |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2235520T3 true ES2235520T3 (es) | 2005-07-01 |
Family
ID=22534628
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99945549T Expired - Lifetime ES2235508T3 (es) | 1998-09-09 | 1999-09-08 | Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural. |
ES99949601T Expired - Lifetime ES2235520T3 (es) | 1998-09-09 | 1999-09-08 | Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99945549T Expired - Lifetime ES2235508T3 (es) | 1998-09-09 | 1999-09-08 | Interfaz de usuario interactivo de red que utiliza reconocimiento de voz y tratamiento de lenguaje natural. |
Country Status (10)
Country | Link |
---|---|
US (2) | US6499013B1 (es) |
EP (2) | EP1110205B1 (es) |
JP (2) | JP2002524776A (es) |
CN (2) | CN1153190C (es) |
AT (2) | ATE287117T1 (es) |
AU (2) | AU762282B2 (es) |
CA (2) | CA2343229A1 (es) |
DE (2) | DE69922971T2 (es) |
ES (2) | ES2235508T3 (es) |
WO (2) | WO2000014727A1 (es) |
Families Citing this family (391)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775264B1 (en) | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
EP1224569A4 (en) | 1999-05-28 | 2005-08-10 | Sehda Inc | PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE |
JP3702414B2 (ja) * | 1999-08-11 | 2005-10-05 | 株式会社日立製作所 | 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置 |
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
US7447635B1 (en) * | 1999-10-19 | 2008-11-04 | Sony Corporation | Natural language interface control system |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CA2408584A1 (en) * | 2000-04-06 | 2001-10-18 | One Voice Technologies, Inc. | Natural language and dialogue generation processing |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US7024348B1 (en) * | 2000-09-28 | 2006-04-04 | Unisys Corporation | Dialogue flow interpreter development tool |
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
KR20020032835A (ko) * | 2000-10-27 | 2002-05-04 | 정우성 | 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델 |
DE10196793D2 (de) | 2000-11-03 | 2004-10-07 | Voicecom Ag | Robuste Spracherkennung mit Datenbankorganisation |
JP3714159B2 (ja) * | 2000-11-30 | 2005-11-09 | 日本電気株式会社 | ブラウザ搭載装置 |
EP1352316A2 (en) * | 2000-12-01 | 2003-10-15 | The Trustees Of Columbia University In The City Of New York | A method and system for voice activating web pages |
WO2002050816A1 (en) * | 2000-12-18 | 2002-06-27 | Koninklijke Philips Electronics N.V. | Store speech, select vocabulary to recognize word |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7103533B2 (en) * | 2001-02-21 | 2006-09-05 | International Business Machines Corporation | Method for preserving contextual accuracy in an extendible speech recognition language model |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US7203645B2 (en) * | 2001-04-27 | 2007-04-10 | Intel Corporation | Speech recognition system loading different recognition engines for different applications |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7506022B2 (en) | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7519529B1 (en) | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7409335B1 (en) | 2001-06-29 | 2008-08-05 | Microsoft Corporation | Inferring informational goals and preferred level of detail of answers based on application being employed by the user |
US20030009334A1 (en) * | 2001-07-03 | 2003-01-09 | International Business Machines Corporation | Speech processing board for high volume speech processing applications |
US20030037053A1 (en) * | 2001-08-09 | 2003-02-20 | Zhong-Hua Wang | Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems |
US6985865B1 (en) * | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7752266B2 (en) | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7058565B2 (en) * | 2001-12-17 | 2006-06-06 | International Business Machines Corporation | Employing speech recognition and key words to improve customer service |
US6915246B2 (en) * | 2001-12-17 | 2005-07-05 | International Business Machines Corporation | Employing speech recognition and capturing customer speech to improve customer service |
KR20020023197A (ko) * | 2001-12-27 | 2002-03-28 | 김연수 | 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템 |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
AU2003205166A1 (en) | 2002-01-14 | 2003-07-30 | Jerzy Lewak | Identifier vocabulary data access method and system |
DE10211777A1 (de) * | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
JP3967952B2 (ja) * | 2002-04-16 | 2007-08-29 | 富士通株式会社 | 文法更新システム及び方法 |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
US20030216923A1 (en) * | 2002-05-15 | 2003-11-20 | Gilmore Jeffrey A. | Dynamic content generation for voice messages |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7941348B2 (en) | 2002-06-10 | 2011-05-10 | Ebay Inc. | Method and system for scheduling transaction listings at a network-based transaction facility |
US8719041B2 (en) * | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
US20030229554A1 (en) * | 2002-06-10 | 2003-12-11 | Veres Robert Dean | Method and system for composing transaction listing descriptions for use in a network-based transaction facility |
US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
AU2003280474A1 (en) | 2002-06-28 | 2004-01-19 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
US20040008828A1 (en) * | 2002-07-09 | 2004-01-15 | Scott Coles | Dynamic information retrieval system utilizing voice recognition |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7363398B2 (en) * | 2002-08-16 | 2008-04-22 | The Board Of Trustees Of The Leland Stanford Junior University | Intelligent total access system |
US6907397B2 (en) * | 2002-09-16 | 2005-06-14 | Matsushita Electric Industrial Co., Ltd. | System and method of media file access and retrieval using speech recognition |
US20050180464A1 (en) * | 2002-10-01 | 2005-08-18 | Adondo Corporation | Audio communication with a computer |
US20060276230A1 (en) * | 2002-10-01 | 2006-12-07 | Mcconnell Christopher F | System and method for wireless audio communication with a computer |
US7197494B2 (en) * | 2002-10-15 | 2007-03-27 | Microsoft Corporation | Method and architecture for consolidated database search for input recognition systems |
AU2003274592A1 (en) * | 2002-11-28 | 2004-06-18 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
US20040111259A1 (en) * | 2002-12-10 | 2004-06-10 | Miller Edward S. | Speech recognition system having an application program interface |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US7480619B1 (en) | 2003-03-04 | 2009-01-20 | The Board Of Trustees Of The Leland Stanford Junior University | Integration manager and natural interaction processor |
US6980949B2 (en) * | 2003-03-14 | 2005-12-27 | Sonum Technologies, Inc. | Natural language processor |
US7729913B1 (en) | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
CA2524591A1 (en) * | 2003-05-05 | 2004-11-18 | Interactions, Llc | Apparatus and method for processing service interactions |
US8223944B2 (en) * | 2003-05-05 | 2012-07-17 | Interactions Corporation | Conference call management system |
WO2004109658A1 (ja) * | 2003-06-02 | 2004-12-16 | International Business Machines Corporation | 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体 |
US9202467B2 (en) * | 2003-06-06 | 2015-12-01 | The Trustees Of Columbia University In The City Of New York | System and method for voice activating web pages |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
US20050027539A1 (en) * | 2003-07-30 | 2005-02-03 | Weber Dean C. | Media center controller system and method |
US7383172B1 (en) | 2003-08-15 | 2008-06-03 | Patrick William Jamieson | Process and system for semantically recognizing, correcting, and suggesting domain specific speech |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US9552354B1 (en) * | 2003-09-05 | 2017-01-24 | Spoken Traslation Inc. | Method and apparatus for cross-lingual communication |
US7376752B1 (en) | 2003-10-28 | 2008-05-20 | David Chudnovsky | Method to resolve an incorrectly entered uniform resource locator (URL) |
GB2409561A (en) * | 2003-12-23 | 2005-06-29 | Canon Kk | A method of correcting errors in a speech recognition system |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US20080235018A1 (en) * | 2004-01-20 | 2008-09-25 | Koninklikke Philips Electronic,N.V. | Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
US9189568B2 (en) | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
JP2005339237A (ja) * | 2004-05-27 | 2005-12-08 | Aruze Corp | アプリケーション利用補助システム |
WO2005122145A1 (en) * | 2004-06-08 | 2005-12-22 | Metaphor Solutions, Inc. | Speech recognition dialog management |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
US7242751B2 (en) * | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7921091B2 (en) * | 2004-12-16 | 2011-04-05 | At&T Intellectual Property Ii, L.P. | System and method for providing a natural language interface to a database |
ES2261053B1 (es) * | 2004-12-29 | 2008-04-16 | France Telecom España, S.A. | Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles. |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
KR100718147B1 (ko) * | 2005-02-01 | 2007-05-14 | 삼성전자주식회사 | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 |
US7593962B2 (en) * | 2005-02-18 | 2009-09-22 | American Tel-A-Systems, Inc. | System and method for dynamically creating records |
US8225232B2 (en) | 2005-02-28 | 2012-07-17 | Microsoft Corporation | Dynamic configuration of unified messaging state changes |
US7409344B2 (en) | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US7996219B2 (en) * | 2005-03-21 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | Apparatus and method for model adaptation for spoken language understanding |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
JP4667138B2 (ja) * | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP1934971A4 (en) | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US8229745B2 (en) * | 2005-10-21 | 2012-07-24 | Nuance Communications, Inc. | Creating a mixed-initiative grammar from directed dialog grammars |
US8315874B2 (en) * | 2005-12-30 | 2012-11-20 | Microsoft Corporation | Voice user interface authoring tool |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
US20070225970A1 (en) * | 2006-03-21 | 2007-09-27 | Kady Mark A | Multi-context voice recognition system for long item list searches |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US8107610B2 (en) * | 2006-06-06 | 2012-01-31 | At&T Intellectual Property I, L.P. | Callback processing of interactive voice response requests |
DE102006029755A1 (de) * | 2006-06-27 | 2008-01-03 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
CN101558443B (zh) | 2006-12-15 | 2012-01-04 | 三菱电机株式会社 | 声音识别装置 |
US7809564B2 (en) * | 2006-12-18 | 2010-10-05 | International Business Machines Corporation | Voice based keyword search algorithm |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101075435B (zh) * | 2007-04-19 | 2011-05-18 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
US20080273672A1 (en) * | 2007-05-03 | 2008-11-06 | Microsoft Corporation | Automated attendant grammar tuning |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
WO2009039867A1 (de) * | 2007-09-20 | 2009-04-02 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und kommunikationsanordnung zum betreiben einer kommunikationsverbindung |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010051591A1 (en) * | 2008-11-06 | 2010-05-14 | Digital Intermediary Pty Limited | Context layered object engine |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US20110189646A1 (en) * | 2010-02-01 | 2011-08-04 | Amos Benninga | Pedagogical system method and apparatus |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8521513B2 (en) | 2010-03-12 | 2013-08-27 | Microsoft Corporation | Localization for interactive voice response systems |
US8694313B2 (en) | 2010-05-19 | 2014-04-08 | Google Inc. | Disambiguation of contact information using historical data |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8484031B1 (en) | 2011-01-05 | 2013-07-09 | Interactions Corporation | Automated speech recognition proxy system for natural language understanding |
US9245525B2 (en) | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
US9472185B1 (en) | 2011-01-05 | 2016-10-18 | Interactions Llc | Automated recognition system for natural language understanding |
US8560321B1 (en) | 2011-01-05 | 2013-10-15 | Interactions Corportion | Automated speech recognition system for natural language understanding |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
WO2012135226A1 (en) * | 2011-03-31 | 2012-10-04 | Microsoft Corporation | Augmented conversational understanding architecture |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
EP2667268A1 (de) * | 2012-05-24 | 2013-11-27 | Siemens Aktiengesellschaft | Verfahren zum Betrieb eines Automatisierungsgeräts |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103678283B (zh) * | 2012-08-30 | 2016-08-17 | 英业达科技有限公司 | 提供外语词组以辅助外语文章撰写的系统及其方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9047271B1 (en) | 2013-02-28 | 2015-06-02 | Google Inc. | Mining data for natural language system |
US9020809B1 (en) | 2013-02-28 | 2015-04-28 | Google Inc. | Increasing semantic coverage with semantically irrelevant insertions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US8694305B1 (en) * | 2013-03-15 | 2014-04-08 | Ask Ziggy, Inc. | Natural language processing (NLP) portal for third party applications |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US8768687B1 (en) * | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9177553B1 (en) | 2013-06-25 | 2015-11-03 | Google Inc. | Identifying underserved command inputs |
US9123336B1 (en) | 2013-06-25 | 2015-09-01 | Google Inc. | Learning parsing rules and argument identification from crowdsourcing of proposed command inputs |
US9183196B1 (en) | 2013-06-25 | 2015-11-10 | Google Inc. | Parsing annotator framework from external services |
US9092505B1 (en) | 2013-06-25 | 2015-07-28 | Google Inc. | Parsing rule generalization by n-gram span clustering |
US9330195B1 (en) | 2013-06-25 | 2016-05-03 | Google Inc. | Inducing command inputs from property sequences |
US9251202B1 (en) | 2013-06-25 | 2016-02-02 | Google Inc. | Corpus specific queries for corpora from search query |
US9117452B1 (en) | 2013-06-25 | 2015-08-25 | Google Inc. | Exceptions to action invocation from parsing rules |
US9299339B1 (en) | 2013-06-25 | 2016-03-29 | Google Inc. | Parsing rule augmentation based on query sequence and action co-occurrence |
US9280970B1 (en) | 2013-06-25 | 2016-03-08 | Google Inc. | Lattice semantic parsing |
US9984684B1 (en) | 2013-06-25 | 2018-05-29 | Google Llc | Inducing command inputs from high precision and high recall data |
US20150031416A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
CN104346151B (zh) * | 2013-07-30 | 2018-04-27 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10109273B1 (en) * | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
US9507849B2 (en) * | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN105934791B (zh) * | 2014-01-31 | 2019-11-22 | 惠普发展公司,有限责任合伙企业 | 语音输入命令 |
CN109949815B (zh) * | 2014-04-07 | 2024-06-07 | 三星电子株式会社 | 电子装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US20150331853A1 (en) * | 2014-05-15 | 2015-11-19 | Marco Palmonari | Automated multi-grammar language processing system to optimize request handling in contact centers |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) * | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN105869632A (zh) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | 基于语音识别的文本修订方法和装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160379630A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Speech recognition services |
US10515150B2 (en) | 2015-07-14 | 2019-12-24 | Genesys Telecommunications Laboratories, Inc. | Data driven speech enabled self-help systems and methods of operating thereof |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10455088B2 (en) | 2015-10-21 | 2019-10-22 | Genesys Telecommunications Laboratories, Inc. | Dialogue flow optimization and personalization |
US10382623B2 (en) | 2015-10-21 | 2019-08-13 | Genesys Telecommunications Laboratories, Inc. | Data-driven dialogue enabled self-help systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10843080B2 (en) * | 2016-02-24 | 2020-11-24 | Virginia Tech Intellectual Properties, Inc. | Automated program synthesis from natural language for domain specific computing applications |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US20180052573A1 (en) * | 2016-08-17 | 2018-02-22 | Microsoft Technology Licensing, Llc | Interaction with a file storage service through a messaging bot |
US10838992B2 (en) * | 2016-08-17 | 2020-11-17 | International Business Machines Corporation | Content selection for usage within a policy |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
GB201618479D0 (en) | 2016-11-02 | 2016-12-14 | Syngenta Participations Ag | Adjuvants |
US10540966B2 (en) | 2016-11-02 | 2020-01-21 | Genesys Telecommunications Laboratories, Inc. | System and method for parameterization of speech recognition grammar specification (SRGS) grammars |
US10482885B1 (en) * | 2016-11-15 | 2019-11-19 | Amazon Technologies, Inc. | Speaker based anaphora resolution |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US20180330725A1 (en) * | 2017-05-09 | 2018-11-15 | Microsoft Technology Licensing, Llc | Intent based speech recognition priming |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
US11188706B2 (en) * | 2018-01-18 | 2021-11-30 | Christopher Anthony Silva | System and method for regionalized resolution of a network path |
CN108694939B (zh) * | 2018-05-23 | 2020-11-03 | 广州视源电子科技股份有限公司 | 语音搜索优化方法、装置和系统 |
CN110728976B (zh) * | 2018-06-30 | 2022-05-06 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN108899030A (zh) * | 2018-07-10 | 2018-11-27 | 深圳市茁壮网络股份有限公司 | 一种语音识别方法及装置 |
US10789943B1 (en) | 2018-08-31 | 2020-09-29 | Interactions Llc | Proxy for selective use of human and artificial intelligence in a natural language understanding system |
US11481558B2 (en) | 2018-09-12 | 2022-10-25 | Samsung Electroncis Co., Ltd. | System and method for a scene builder |
DE102018222156A1 (de) * | 2018-12-18 | 2020-06-18 | Volkswagen Aktiengesellschaft | Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation |
CN110223679A (zh) * | 2019-06-14 | 2019-09-10 | 南京机电职业技术学院 | 一种语音识别输入装置 |
CN110265013A (zh) * | 2019-06-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音的识别方法及装置、计算机设备、存储介质 |
US11151981B2 (en) | 2019-10-10 | 2021-10-19 | International Business Machines Corporation | Audio quality of speech in sound systems |
CN112562679B (zh) * | 2020-11-26 | 2024-06-14 | 浪潮金融信息技术有限公司 | 一种离线语音交互方法、装置及介质 |
JP2023535102A (ja) * | 2021-07-19 | 2023-08-16 | グーグル エルエルシー | サードパーティデジタルアシスタントのアクションのためのビットベクトルに基づくコンテンツマッチング |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783803A (en) | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4887212A (en) | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JPH02301869A (ja) | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5222187A (en) * | 1989-12-29 | 1993-06-22 | Texas Instruments Incorporated | Grammar-based checksum constraints for high performance speech recognition circuit |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
US5511213A (en) * | 1992-05-08 | 1996-04-23 | Correa; Nelson | Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
JP2967688B2 (ja) * | 1994-07-26 | 1999-10-25 | 日本電気株式会社 | 連続単語音声認識装置 |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
JP2855409B2 (ja) | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
US5758322A (en) * | 1994-12-09 | 1998-05-26 | International Voice Register, Inc. | Method and apparatus for conducting point-of-sale transactions using voice recognition |
US5748974A (en) * | 1994-12-13 | 1998-05-05 | International Business Machines Corporation | Multimodal natural language interface for cross-application tasks |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
US6138098A (en) * | 1997-06-30 | 2000-10-24 | Lernout & Hauspie Speech Products N.V. | Command parsing and rewrite system |
US5960384A (en) * | 1997-09-03 | 1999-09-28 | Brash; Douglas E. | Method and device for parsing natural language sentences and other sequential symbolic expressions |
US5995918A (en) * | 1997-09-17 | 1999-11-30 | Unisys Corporation | System and method for creating a language grammar using a spreadsheet or table interface |
US6094635A (en) * | 1997-09-17 | 2000-07-25 | Unisys Corporation | System and method for speech enabled application |
US6058166A (en) * | 1997-10-06 | 2000-05-02 | Unisys Corporation | Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
US6138100A (en) * | 1998-04-14 | 2000-10-24 | At&T Corp. | Interface for a voice-activated connection system |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6178404B1 (en) * | 1999-07-23 | 2001-01-23 | Intervoice Limited Partnership | System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases |
-
1998
- 1998-09-09 US US09/150,459 patent/US6499013B1/en not_active Expired - Lifetime
- 1998-10-05 US US09/166,198 patent/US6532444B1/en not_active Expired - Lifetime
-
1999
- 1999-09-08 CN CNB998130931A patent/CN1153190C/zh not_active Expired - Lifetime
- 1999-09-08 CA CA002343229A patent/CA2343229A1/en not_active Abandoned
- 1999-09-08 AU AU58130/99A patent/AU762282B2/en not_active Ceased
- 1999-09-08 DE DE69922971T patent/DE69922971T2/de not_active Expired - Lifetime
- 1999-09-08 ES ES99945549T patent/ES2235508T3/es not_active Expired - Lifetime
- 1999-09-08 JP JP2000569390A patent/JP2002524776A/ja active Pending
- 1999-09-08 EP EP99949601A patent/EP1110205B1/en not_active Expired - Lifetime
- 1999-09-08 DE DE69923191T patent/DE69923191T2/de not_active Expired - Lifetime
- 1999-09-08 EP EP99945549A patent/EP1110206B1/en not_active Expired - Lifetime
- 1999-09-08 WO PCT/US1999/020445 patent/WO2000014727A1/en active IP Right Grant
- 1999-09-08 WO PCT/US1999/020447 patent/WO2000014728A1/en active IP Right Grant
- 1999-09-08 JP JP2000569391A patent/JP2002524806A/ja active Pending
- 1999-09-08 AT AT99949601T patent/ATE287117T1/de not_active IP Right Cessation
- 1999-09-08 CA CA002343150A patent/CA2343150A1/en not_active Abandoned
- 1999-09-08 AU AU62439/99A patent/AU763059B2/en not_active Ceased
- 1999-09-08 AT AT99945549T patent/ATE286296T1/de not_active IP Right Cessation
- 1999-09-08 ES ES99949601T patent/ES2235520T3/es not_active Expired - Lifetime
- 1999-09-08 CN CNB998130982A patent/CN1161747C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ES2235508T3 (es) | 2005-07-01 |
WO2000014727A1 (en) | 2000-03-16 |
ATE287117T1 (de) | 2005-01-15 |
CN1161747C (zh) | 2004-08-11 |
CN1325528A (zh) | 2001-12-05 |
CN1153190C (zh) | 2004-06-09 |
CA2343229A1 (en) | 2000-03-16 |
EP1110205A1 (en) | 2001-06-27 |
CA2343150A1 (en) | 2000-03-16 |
AU5813099A (en) | 2000-03-27 |
JP2002524806A (ja) | 2002-08-06 |
EP1110205B1 (en) | 2005-01-12 |
AU762282B2 (en) | 2003-06-19 |
DE69923191T2 (de) | 2006-01-05 |
DE69922971D1 (de) | 2005-02-03 |
DE69922971T2 (de) | 2005-12-29 |
DE69923191D1 (de) | 2005-02-17 |
CN1325527A (zh) | 2001-12-05 |
US6532444B1 (en) | 2003-03-11 |
EP1110206A1 (en) | 2001-06-27 |
EP1110206B1 (en) | 2004-12-29 |
JP2002524776A (ja) | 2002-08-06 |
WO2000014728A1 (en) | 2000-03-16 |
AU6243999A (en) | 2000-03-27 |
AU763059B2 (en) | 2003-07-10 |
ATE286296T1 (de) | 2005-01-15 |
US6499013B1 (en) | 2002-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2235520T3 (es) | Interfaz de usuario interactiva que emplea reconocimiento de voz y tratamiento del lenguaje natural. | |
JP5014785B2 (ja) | 表音ベース音声認識システム及び方法 | |
JP4485694B2 (ja) | 並列する認識エンジン | |
US6249763B1 (en) | Speech recognition apparatus and method | |
US6029132A (en) | Method for letter-to-sound in text-to-speech synthesis | |
US6823309B1 (en) | Speech synthesizing system and method for modifying prosody based on match to database | |
US20050187768A1 (en) | Dynamic N-best algorithm to reduce recognition errors | |
JP3481497B2 (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 | |
US20020048350A1 (en) | Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system | |
US20020095289A1 (en) | Method and apparatus for identifying prosodic word boundaries | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
US20110106792A1 (en) | System and method for word matching and indexing | |
KR20220054704A (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
US10565982B2 (en) | Training data optimization in a service computing system for voice enablement of applications | |
US10930274B2 (en) | Personalized pronunciation hints based on user speech | |
KR20110024075A (ko) | 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법 | |
US20190138269A1 (en) | Training Data Optimization for Voice Enablement of Applications | |
JP2013083897A (ja) | 認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法 | |
US20220147719A1 (en) | Dialogue management | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
Fitzpatrick et al. | Phonology and phonetics in psycholinguistic models of speech perception | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
US11361761B2 (en) | Pattern-based statement attribution | |
JP2003162524A (ja) | 言語処理装置 |