ES2334907T3 - Procedimiento y sistema para editar texto en un dispositivo electronico de mano. - Google Patents

Procedimiento y sistema para editar texto en un dispositivo electronico de mano. Download PDF

Info

Publication number
ES2334907T3
ES2334907T3 ES03758410T ES03758410T ES2334907T3 ES 2334907 T3 ES2334907 T3 ES 2334907T3 ES 03758410 T ES03758410 T ES 03758410T ES 03758410 T ES03758410 T ES 03758410T ES 2334907 T3 ES2334907 T3 ES 2334907T3
Authority
ES
Spain
Prior art keywords
grammar
words
recognizable
text
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03758410T
Other languages
English (en)
Inventor
Katriina Halonen
Sailesh Sathish
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2334907T3 publication Critical patent/ES2334907T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)
  • Stored Programmes (AREA)

Abstract

Un procedimiento de modificación de texto (140), controlada por la voz, en un dispositivo electrónico (10) de mano, en una sesión de edición, incluyendo el texto una pluralidad de terceras palabras, en el cual al menos una parte del texto ha sido dictado utilizando una primera gramática (130), incluyendo la primera gramática una pluralidad de primeras palabras, y en el cual el dispositivo electrónico de mano comprende una segunda gramática (150), más pequeña que la primera gramática, incluyendo la segunda gramática una pluralidad de segundas palabras vocalmente reconocibles, con fines de edición controlada por voz, estando dicho procedimiento caracterizado por estar el dispositivo electrónico de mano conectado operativamente con una sede remota (20), y por estar la primera gramática situada en la sede remota, en donde la primera gramática incluye al menos una de dichas terceras palabras, y por añadir al menos algunas de las terceras palabras a la segunda gramática, a fin de ampliar la segunda gramática para su empleo posterior, al menos en la sesión de edición controlada vocalmente.

Description

Procedimiento y sistema para editar texto en un dispositivo electrónico de mano.
Campo de la invención
La presente invención se refiere, en general, al reconocimiento de la voz y, más específicamente, a la edición de texto reconocido utilizando comandos vocales.
Antecedentes de la invención
El reconocimiento de la voz está haciéndose más habitual en los dispositivos electrónicos. Con un terminal móvil que tiene una interfaz multimodal, y un teléfono visual mejorado con capacidades de reconocimiento de voz, un usuario no sólo puede utilizar comandos vocales para activar ciertas funciones telefónicas, sino que también puede ingresar texto, tal como un ingreso de SMS (servicio de mensajes breves), al dictado. Tal dispositivo utiliza bien un motor local de reconocimiento automático de voz (ASR) para procesar la voz, o bien envía la voz a un motor remoto de ASR residente en la red. El motor de reconocimiento de voz para el dictado emplea habitualmente una gramática muy grande, que incluye decenas de miles de palabras, a fin de habilitar una gama razonable de contenidos y de alcance para el texto dictado. Por ejemplo, el usuario puede desear enviar una receta de cocina, o expresar un punto de vista político.
Es bastante usual, después del dictado, que el usuario quisiera editar el texto, según lo reconocido y transcrito por el motor de reconocimiento de voz, bien para corregir los resultados del reconocimiento inexacto, o bien para efectuar cambios del contenido. En general, un dispositivo terminal no tiene una memoria muy grande. Ambos procesos de dictado y edición requieren una gramática muy grande, haciéndolo impráctico en un dispositivo terminal.
Debería observarse que al "vocabulario", según se emplea en esta revelación, se refiere una lista de palabras o frases reconocidas, y que una "gramática" se refiere a un subconjunto del vocabulario. Además de palabras y frases, la gramática puede contener reglas de edición y comandos.
En un dispositivo electrónico de sobremesa o portátil, un dispositivo de señalamiento, tal como un ratón, una palanca de juegos o un panel táctil, se emplea habitualmente para localizar la palabra, o palabras, a editar en el texto. En el dispositivo terminal, un tal dispositivo de señalamiento puede ser impráctico y, por ello, rara vez se proporciona. En un panel telefónico, las teclas con flechas, habitualmente, se proporcionan para localizar la letra en el texto a editar. Sin embargo, mover el cursor hacia la ubicación de edición utilizando las teclas de flechas es lento e incómodo. Así pues, es ventajoso y deseable proporcionar un procedimiento y sistema para editar texto utilizando comandos vocales.
A fin de evitar el empleo de una gramática grande para el reconocimiento de la voz, Masters (Patente Estadounidense N° 6.301.561) revela un sistema discreto de reconocimiento de voz para su empleo en la selección de estaciones de radio, en el cual hay una gramática pequeña por omisión, con un pequeño número de palabras o expresiones de primera fila, cada una de las cuales representa a un subconjunto de palabras o expresiones de la segunda fila. Cada una de las palabras o expresiones de la segunda fila representa a un subconjunto de palabras o expresiones de la tercera fila, y así sucesivamente. Cuando una de las palabras de la primera fila es seleccionada por un usuario mediante la voz, se añade a la gramática una pluralidad de palabras o expresiones en el subconjunto de segunda fila representado por la palabra de primera fila seleccionada, ampliando por ello la gramática. Cuando una de las palabras de la segunda fila es adicionalmente seleccionada por el usuario mediante la voz, se añade adicionalmente a la gramática una pluralidad de palabras o expresiones en el subconjunto de la tercera fila representado por la palabra de segunda fila seleccionada, ampliando por ello la gramática. Las palabras o expresiones de las filas segunda y tercera se almacenan en un vocabulario que tiene una lista completa de expresiones predefinidas que son reconocibles por un motor de reconocimiento de la voz. De tal modo, la gramática que se utiliza efectivamente para llevar a cabo una función incluye sólo una pequeña porción de las expresiones predefinidas en el vocabulario. Si bien el reconocimiento de la voz, según lo revelado en Masters, es útil para reducir el tiempo necesario para el reconocimiento de la voz, manteniendo pequeña la gramática, su utilidad está limitada a una cierta aplicación, tal como la selección de estaciones de radio, donde un conjunto pequeño de palabras o expresiones predefinidas identifica las ciudades, y las frecuencias de emisión en un vocabulario limitado son suficientes para adecuarse a dichos fines. Sin embargo, este tipo de vocabulario limitado es habitualmente insuficiente para editar texto, cuyo alcance y contenido es difícil de predecir.
Stevens et al. (documento US 2002/0138265 A1) revelan el empleo de gramáticas distintas y dedicadas durante el dictado vocal (donde una gramática de reconocimiento de la voz, que comprende un gran vocabulario, tiene que activarse y hacerse accesible) y la edición controlada por voz de la transcripción textual proporcionada por la operación de dictado. A fin de optimizar la utilización o los requisitos de memoria, las gramáticas pequeñas para operaciones de edición (tales como la selección de palabras específicas dictadas o transcritas), que consisten inicialmente sólo de pocas palabras de comando reconocibles, se expanden añadiendo palabras, que han sido transcritas durante un dictado vocal precedente (donde ha sido aplicada una gramática de restricción de dictado), a dichas gramáticas de edición.
Así pues, es ventajoso y deseable proporcionar un procedimiento y un sistema para editar texto en un dispositivo electrónico pequeño, donde los requisitos de memoria no permiten que se implemente una gramática grande en el dispositivo.
Resumen de la invención
Es un objetivo primario de la presente invención proporcionar un procedimiento y sistema de edición de texto, a emplear en un dispositivo electrónico de mano donde los requisitos de memoria no permiten que se utilice una gramática grande para la edición de texto y para otros fines de reconocimiento de la voz. Este objetivo puede alcanzarse utilizando una gramática pequeña en el dispositivo. Si bien se requiere generalmente una gramática grande para el dictado, una gramática pequeña brinda un resultado más rápido y más exacto que la gramática grande cuando se edita el texto dictado. Esta gramática pequeña incluye inicialmente un conjunto predefinido de palabras de comando. Cuando un usuario dicta texto por primera vez, todas las palabras dictadas se añaden a la gramática pequeña. Cuando el usuario acaba el dictado y comienza a editar, se utiliza la gramática pequeña. Sólo cuando no puedan hallarse en la gramática pequeña palabras que se necesitan para la edición, se empleará una gramática grande. El dispositivo también puede contener otros conjuntos de palabras predefinidas relacionadas con los números, los días de la semana, los meses, los nombres de contactos, etc., que pueden añadirse a la gramática pequeña cuando se necesiten.
Además, con la gramática pequeña, un motor local de ASR (reconocimiento automático de la voz) puede utilizarse en el dispositivo, y no hay necesidad de enviar los datos de voz a una sede remota o a una red móvil durante la edición, excepto cuando se añaden palabras nuevas. Con una gramática grande, el ASR remoto es más factible.
De esta manera, según la presente invención, se proporciona un procedimiento para modificar texto en un dispositivo electrónico de mano, en una sesión de edición según lo estipulado en la reivindicación independiente 1, un correspondiente dispositivo electrónico de mano según lo estipulado en la reivindicación independiente 17, y un correspondiente producto de programa de ordenador según lo estipulado en la reivindicación independiente 22. Las realizaciones preferidas de la invención se estipulan en las reivindicaciones subordinadas.
La presente invención devendrá evidente al leer la descripción considerada conjuntamente con las Figuras 1 a 4b.
\vskip1.000000\baselineskip
Breve descripción de la invención
La Figura 1 es un diagrama en bloques que ilustra un ejemplo de un dispositivo electrónico que tiene capacidades de reconocimiento de voz y de edición de texto.
La Figura 2 es un diagrama en bloques que ilustra un ejemplo adicional de un dispositivo electrónico que tiene capacidades de reconocimiento de voz y de edición de texto.
La Figura 3a es un diagrama en bloques que ilustra los cambios en la gramática pequeña durante el dictado y la edición del texto.
La Figura 3b es un diagrama en bloques que ilustra una versión distinta de la gramática pequeña.
La Figura 4a es un diagrama de flujo que ilustra un ejemplo de un procedimiento de edición de texto.
La Figura 4b es una sección de un diagrama de flujo que ilustra algunas etapas adicionales en el ejemplo de un procedimiento, según lo mostrado en la Figura 4a.
\vskip1.000000\baselineskip
La mejor manera de llevar a cabo la invención
La Figura 1 es un diagrama en bloques que ilustra un dispositivo electrónico 10 que tiene capacidades de reconocimiento de voz y de edición de texto. Según se muestra, el dispositivo 10 tiene un módulo 110 de ingreso de voz, que permite a un usuario dictar y editar texto utilizando comandos vocales. El ingreso de la voz, a través del módulo 110 de ingreso vocal, puede gestionarse localmente, o bien puede enviarse a una sede remota o a una red, para el reconocimiento de la voz. Según se muestra en la Figura 1, el reconocimiento de la voz se lleva a cabo en un motor 120 de reconocimiento automático de voz (ASR), que emplea una gran gramática 130 de dictado. La gran gramática 130 de dictado se carga habitualmente en la memoria del motor 120 de ASR. Los resultados del reconocimiento, o bien el texto reconocido 140, se exhiben habitualmente en el dispositivo 10 para permitir que un usuario lea y edite, si así lo desea. Una gramática pequeña 150, en un formato de texto implementado en el dispositivo 10, incluye inicialmente sólo un conjunto de comandos dedicados de edición, tales como "Borrar" y "Mover", para iniciar el proceso de edición. Cuando los resultados del reconocimiento comienzan a aparecer, se añaden todas las palabras en el texto reconocido a la gramática pequeña 150. Esta gramática crece acumulativamente según avanza el dictado.
Si el usuario quiere editar el texto dictado 140, el usuario puede activar una modalidad de edición utilizando un comando vocal especial o un comando del panel de teclas. Alternativamente, la edición es una modalidad por omisión. A fines de ilustración, el texto dictado 140 puede editarse utilizando la siguiente secuencia de comandos vocales. Aquí "-", dentro de las comillas, denota una pausa breve entre las expresiones.
"Borrar - muy" para borrar la palabra "muy"
"Mover - mañana - antes - por la mañana" para mover la palabra "mañana" delante de las palabras "por la mañana"
"Ir antes - año - Añadir - Junio" para añadir la palabra "Junio" antes de la palabra "año". Si "Junio" no está aún en la gramática pequeña 150, debe utilizarse la gramática grande 130 para reconocer "Junio". El empleo de la gramática grande 130 es activado por el reconocimiento del comando "Añadir", que invoca una palabra modificadora de texto, tal como "Junio", pero no por otros comandos, tales como "Borrar" o "Mover". El comando vocal "Añadir - Junio - antes - año" podría utilizarse en lugar de "Ir antes - año - Añadir - Junio".
Como se muestra en la Figura 1, el dispositivo 10 también comprende un programa 170 de software de edición, que utiliza la gramática pequeña para editar el texto dictado 140. Sin embargo, el programa 170 de software puede ser una parte de la gramática pequeña 150, según se describe más adelante.
A continuación hay un ejemplo del fichero de gramática dinámicamente generado en el JSGF (Formato de Gramática Vocal de Java). Representa al fichero de gramática en un punto donde el usuario ha dictado la oración "Este dictado es guay". La regla pública <editar> es la regla principal que la aplicación de dictado está utilizando, y que consiste en los comandos de edición. Las reglas <lugar> y <palabra> son reglas internas utilizadas al interpretar la regla <editar>. La regla <editar> tiene las opciones para borrar, mover y añadir una palabra, y la regla <lugar> define adicionalmente el lugar donde la edición debería tener lugar, refiriéndose a las palabras dictadas. La regla <palabra> es la parte cambiante de la gramática, que recoge todas las palabras reconocidas del dictado.
1
El fichero de la gramática se actualiza nuevamente sobre la base de los comandos que el usuario emplea para editar el texto. Una vez que se cierra el dictado y la sesión de edición, la parte dinámicamente generada de la gramática se quita, y el fichero de la gramática se restaurará al conjunto original, es decir, al que contiene sólo los comandos dedicados de edición.
También es posible incluir en el dispositivo 10 un vocabulario limitado 160, con un pequeño número de conjuntos predefinidos de palabras o frases, tales como las palabras para los "días de la semana", las palabras para la "hora del día", los números, los alfabetos y los nombres en una lista de contactos. De tal forma, puede invocarse un conjunto específico de palabras o frases, y añadirse a la gramática pequeña mediante un comando vocal específico. Por ejemplo, el usuario puede utilizar el comando vocal "Activar - Días de la Semana" para añadir "Domingo", "Lunes",..., a la gramática pequeña 150, con fines de edición. Esto significa que el crecimiento de la gramática pequeña está determinado parcialmente por las palabras que se necesitan para editar un cierto texto dictado. Sólo aquellas palabras que caen dentro de ciertas categorías invocadas por el comando "Activar" se añadirán a la gramática pequeña (véanse las Figura 3a y 3b). El vocabulario 160 puede ser parte de la gramática grande 130 si la gramática grande reside en el dispositivo electrónico 10.
Si el dispositivo electrónico 10' es un terminal móvil o similar, es preferible incluir un ASR local 124 en el terminal móvil, con fines de edición, según se muestra en la Figura 2.
Cuando el usuario dicta un mensaje, tal como un mensaje SMS, la voz del usuario se envía a un ASR remoto 122 en la red móvil 20, para el reconocimiento de voz, utilizando una gramática grande 130. Los resultados del reconocimiento son devueltos por el ASR remoto 122 como texto dictado 140. Además de las gramáticas de comandos básicos de edición que residen en la gramática pequeña 150, se proporciona un conjunto de gramáticas estándar para usos estándar, tales como los números, los días de la semana, los meses del año, etc., bien en la gramática pequeña 150 o bien en el vocabulario 160. También es posible que el terminal móvil tenga un mecanismo de autoaprendizaje, a través del cual una lista de nombres y de números de teléfono de la base 180 de datos de contacto del teléfono se construye y almacena en el vocabulario 160 o en la gramática pequeña 150. Con fines de edición, el terminal móvil en la modalidad de edición sólo requiere enlazarse con el ASR residente 122 de red si la entrada de voz contiene palabras que no pueden hallarse en la gramática pequeña 150, o en el vocabulario 160.
Debido a que el terminal móvil, o similar, está limitado en cuanto a memoria y potencia de procesamiento, se prefiere que sólo se utilice un conjunto limitado de gramáticas dentro de la aplicación de dictado de SMS durante la fase de edición. Por el mismo motivo, puede no ser deseable guardar la gramática dinámicamente generada en una sesión de SMS, para su empleo en otras sesiones SMS posteriores. Por ello, se prefiere que, una vez que acaba el dictado y la sesión de edición, la parte dinámicamente generada de la gramática sea quitada de la gramática pequeña 150, y que el fichero de gramática se restaure al conjunto original, que contiene sólo los comandos de edición dedicados.
Para ilustrar la interacción entre el usuario y los componentes activos en un terminal móvil, según la presente invención, se da a continuación un ejemplo de una sesión de SMS:
Entidades: Usuario, LASR (ASR Local), RASR (servidor de ASR remoto)
Etapas Iniciales:
El usuario lanza la aplicación SMS. Utilizando las teclas de software, el usuario activa el Dictado de SMS. La aplicación SMS tiene ahora capacidad multimodal, y se permite al usuario ingresar el texto utilizando tanto el panel de teclas como la voz.
Etapas de Edición:
I. Usuario: "Yo estaré en casa alrededor de las 10:30 el domingo"
RASR: Yo estaré en casa alrededor de las 10:30 el domingo
El LASR ha construido ahora una gramática dinámica que tiene este aspecto
<Gramática de Sesión> = Yo:estaré:casa:alrededor:10:30:el:domingo
El usuario quiere editar el texto que está ahora en el visor. Pulsa la tecla de software Edit.
\vskip1.000000\baselineskip
II. Usuario: IrA 10:30
El cursor está situado ahora antes de "10:30".
\vskip1.000000\baselineskip
III. Usuario: Activar Hora
La gramática de hora (despachada con el teléfono) deviene ahora activa. Ahora, todo aquello que diga el usuario se interpretará como una hora. Si el usuario quisiera ingresar un número en lugar de una hora, podría decir algo como "Activar Número".
\vskip1.000000\baselineskip
IV. Usuario: cambiar a 11:30
El ASR local reconoce esto sobre la base de la gramática de hora y sustituye "10:30" por "11:30".
\vskip1.000000\baselineskip
V. Usuario: IrA Domingo
El Cursor se sitúa ahora antes de "Domingo".
\vskip1.000000\baselineskip
VI. Usuario: Activar Días de la Semana
La gramática de "Días de la Semana" está activa ahora
\vskip1.000000\baselineskip
VII. Usuario: cambiar a Sábado
El "Sábado" es reconocido ahora por el ASR local y reemplaza al "Domingo".
\vskip1.000000\baselineskip
VIII. Usuario: SMS Inicio (que significa comienzo del SMS)
El cursor se sitúa ahora antes de "Yo".
\vskip1.000000\baselineskip
IX. Usuario: Activar contactos
La gramática de contactos (construida por la aplicación utilizando la base de datos de contactos residente) se activa.
\vskip1.000000\baselineskip
X. Usuario: Añadir Laura coma
Se añade "Laura," antes de "Yo".
\vskip1.000000\baselineskip
Si el usuario no activa ninguna gramática precargada, tal como "Hora", "Días de la Semana", etc., se utilizará el ASR basado en la red para el reconocimiento.
Etapa de Terminación:
Una vez que se ha completado el SMS, el usuario puede enviar el SMS a uno o más destinatarios deseados, utilizando comandos de voz, teclas normales en el teclado, o teclas de software.
Las Figuras 3a y 3b ilustran cómo crece el contenido en la gramática pequeña 150 durante el proceso de edición, según lo anteriormente descrito. Según se muestra en la Figura 3a, la gramática pequeña 150a contiene sólo un conjunto de comandos por omisión, tales como "Mover", "Borrar", "Activar", antes del dictado en la sesión de SMS. Después de que el usuario dicta el mensaje en la Etapa 1 y los resultados reconocidos son devueltos al dispositivo terminal 10', la gramática pequeña 150b también incluye el texto dictado.
En la Etapa II, el comando vocal "IrA" no invoca una palabra modificadora de texto que no esté ya incluida en la gramática pequeña 150b. No hay ninguna necesidad de añadir palabras a la gramática pequeña en esta etapa.
En la Etapa III, el comando vocal "Activar" invoca al menos una palabra o expresión relacionada con la "Hora", para modificar el texto dictado. En consecuencia, se añade un conjunto predefinido de palabras relacionadas con la "Hora" a la gramática pequeña 150c.
En las Etapas IV y V, no se necesitan palabras nuevas. Por lo tanto, la gramática pequeña no crece.
En la Etapa VI, el comando de voz "Activar" invoca al menos una palabra o expresión relacionada con los "Días de la Semana" para modificar el texto dictado. En consecuencia, se añade un conjunto predefinido de palabras relacionadas con los "Días de la Semana" a la gramática pequeña 150d.
Análogamente, después de la Etapa IX, se añade un conjunto predefinido de palabras relacionadas con "contacto" a la gramática pequeña 150e.
Cuando acaba la sesión de edición, la gramática pequeña se restaura a la forma original 150a.
Como puede verse en la Figura 3a, la gramática pequeña crece acumulativamente con las etapas de edición. Esto significa que la gramática pequeña 150e siempre es más grande, o al menos igual, que la gramática pequeña 150d, que siempre es más grande, o igual, que la gramática pequeña 150c. Alternativamente, el conjunto de gramáticas predefinidas añadido a la gramática pequeña, que responde a la necesidad de una etapa previa de edición, puede quitarse en la gramática pequeña cuando se utiliza un nuevo comando vocal "Activar". Como se muestra en la Figura 3b, en la Etapa VI, el conjunto predefinido de palabras relacionadas con "Hora" se quita de la gramática pequeña, según se añade un nuevo conjunto predefinido de palabras relacionadas con los "Días de la Semana" a la gramática pequeña 150d. De manera similar, después de la Etapa IX, la gramática pequeña 150e contiene el conjunto predefinido de palabras relacionadas con "Contacto", pero ya no contiene las palabras en los conjuntos de "Hora" y "Días de la Semana". Así pues, la gramática pequeña, efectivamente, no crece acumulativamente, sino que, más bien, crece dinámicamente según las necesidades de edición. La compensación con este enfoque es que el conjunto anteriormente quitado tiene que añadirse nuevamente a la gramática pequeña si el comando vocal invoca las palabras modificadoras del texto en ese conjunto quitado.
Un ejemplo de un procedimiento de edición de texto a emplear en un dispositivo electrónico de mano se ilustra en el diagrama de flujo de las Figuras 4a y 4b. Después de que se dicta el texto, los resultados reconocidos se muestran al usuario. El usuario puede decidir editar o no el texto. En ese caso, la sesión de edición comienza en la etapa 202, según se muestra en el diagrama 200 de flujo de la Figura 4a. En la etapa 202, el texto reconocido se añade a la gramática pequeña. Cuando un usuario utiliza un comando vocal para modificar el texto en la etapa 216, si el comando de voz (tal como "Mover", "Borrar", "IrA") no invoca una palabra modificadora de texto, entonces el texto dictado se modifica en la etapa 218. Si la sesión de edición continúa, entonces el procedimiento retorna a la etapa 216. Sin embargo, si el comando vocal (tal como "Añadir", "Insertar", "Deletrear") invoca una o más palabras modificadoras de texto (o números o alfabetos) según lo decidido en la etapa 222, entonces las palabras modificadoras de texto en la gramática pequeña se utilizarán para modificar el texto en la etapa 218. Si las palabras modificadoras de texto no pueden hallarse en la gramática pequeña, se obtienen las palabras modificadoras de texto a partir de la gramática grande en la etapa 224. Las palabras obtenidas se añaden a la gramática pequeña en la etapa 226 y el texto dictado se modifica nuevamente en la etapa 218. El proceso se repite hasta que el usuario desee acabar la sesión de edición en la etapa 220. Al final de la sesión de edición, la gramática pequeña se reinicia de forma tal que las palabras añadidas, incluyendo el texto dictado, se quitan de la gramática pequeña en la etapa 230.
Ventajosamente, también pueden ejecutarse un cierto número de etapas en la sesión de edición entre la etapa 202 y la etapa 216, según se muestra en la Figura 4b. Estas etapas se utilizan para añadir más palabras a la gramática pequeña, con fines de edición. En particular, algunas de las palabras en la gramática grande 130 o el vocabulario 160 pueden colocarse en una pluralidad de subconjuntos de distintas clases. Por ejemplo, las palabras "Lunes", "Martes",..., pueden colocarse en un subconjunto relacionado con una clase llamada "Días de la Semana". Cuando el comando vocal (un comando de clase) especifica una clase, el subconjunto de palabras asociadas a esa clase se añadirá a la gramática pequeña. Además, ciertos comandos vocales, tales como "IrA", "Inicio" o "Ir antes" están relacionados con la ubicación de las palabras en el texto a editar. Estos comandos pueden denominarse comandos de ubicación. Cuando un comando vocal activado es un comando de ubicación, el cursor se moverá a la ubicación especificada en el comando de ubicación. De esta manera, si el comando vocal es un comando de clase, el cursor se moverá a la ubicación especificada en el comando de ubicación. De esta forma, si el comando vocal es un comando de clase, según lo determinado en la etapa 208, entonces se añade un subconjunto de palabras, asociadas a la clase especificada en el comando de clase, a la gramática pequeña en la etapa 210. Si el comando vocal es un comando de ubicación, según lo determinado en la etapa 212, entonces el cursor se mueve, en la etapa 214, a la ubicación de palabra según lo especificado en el comando de ubicación.
En resumen, el procedimiento descrito de modificación de texto utiliza una gramática pequeña dinámicamente generada con fines de edición. Las etapas del procedimiento implican activar al menos uno de dichos comandos vocales reconocibles, a fin de modificar el texto. Cuando el comando vocal reconocible invoca una o más palabras modificadoras de texto, estas palabras se obtienen de la gramática pequeña, si se hallan. En caso contrario, estas palabras se obtienen de la gramática grande. En un terminal móvil o en un pequeño dispositivo electrónico de mano, donde la memoria está limitada, es preferible mantener la gramática grande en una sede remota, tal como una red móvil. Sin embargo, en un dispositivo electrónico donde la memoria es lo suficientemente grande, es posible mantener la gramática grande en el dispositivo. En cualquier caso, la gramática pequeña se utilizará para editar el texto, a menos que las palabras modificadoras del texto no puedan hallarse en la gramática pequeña.
Así, aunque la invención ha sido descrita con respecto a una realización preferida de la misma, los versados en la tecnología comprenderán que lo precedente, y otros cambios, omisiones y desviaciones en la forma y detalle de la misma, pueden llevarse a cabo sin apartarse del alcance de la presente invención, según lo definido por las reivindicaciones adjuntas.

Claims (28)

1. Un procedimiento de modificación de texto (140), controlada por la voz, en un dispositivo electrónico (10) de mano, en una sesión de edición, incluyendo el texto una pluralidad de terceras palabras, en el cual al menos una parte del texto ha sido dictado utilizando una primera gramática (130), incluyendo la primera gramática una pluralidad de primeras palabras, y en el cual el dispositivo electrónico de mano comprende una segunda gramática (150), más pequeña que la primera gramática, incluyendo la segunda gramática una pluralidad de segundas palabras vocalmente reconocibles, con fines de edición controlada por voz, estando dicho procedimiento
caracterizado por
estar el dispositivo electrónico de mano conectado operativamente con una sede remota (20), y por estar la primera gramática situada en la sede remota, en donde la primera gramática incluye al menos una de dichas terceras palabras, y por añadir al menos algunas de las terceras palabras a la segunda gramática, a fin de ampliar la segunda gramática para su empleo posterior, al menos en la sesión de edición controlada vocalmente.
2. El procedimiento de la reivindicación 1, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
cuando el comando vocal reconocible especifica una palabra modificadora de texto para modificar el texto,
la palabra modificadora del texto se obtiene de la segunda gramática si la palabra modificadora de texto es una de las segundas palabras; en caso contrario,
la palabra modificadora del texto se obtiene de las primeras palabras en la primera gramática.
3. El procedimiento de la reivindicación 2, adicionalmente caracterizado por
incluir en la segunda gramática la palabra modificadora del texto obtenida de las primeras palabras, de forma tal que las segundas palabras incluyan adicionalmente dicha palabra obtenida para su empleo posterior.
4. El procedimiento de la reivindicación 1, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
las primeras palabras comprenden una pluralidad de subconjuntos de palabras asociadas a una pluralidad de clases, y los comandos vocales reconocibles incluyen al menos un comando de clase para especificar al menos una de las clases, en donde, cuando el comando vocal reconocible activado incluye el comando de clase, el subconjunto de palabras asociadas a la clase especifica en el comando de clase se proporciona a la segunda gramática, a fin de permitir que las segundas palabras incluyan adicionalmente dicho subconjunto de palabras.
5. El procedimiento de la reivindicación 1, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
las primeras palabras comprenden una pluralidad de subconjuntos de palabras asociadas a una pluralidad de clases, y los comandos vocales reconocibles incluyen una pluralidad de comandos de clase para especificar las clases, en donde
cuando el comando vocal reconocible activado incluye uno de los comandos de clase, el subconjunto de palabras asociadas a la clase especificada en dicho comando de clase se proporciona a la segunda gramática a fin de permitir que las segundas palabras incluyan adicionalmente dicho subconjunto de palabras, y
cuando el comando vocal reconocible activado incluye adicionalmente un comando distinto entre los comandos de clase, se proporciona un subconjunto distinto de palabras, asociadas a la clase especificada en dicho comando de clase distinto, a la segunda gramática, a fin de permitir que las segundas palabras incluyan adicionalmente dicho subconjunto distinto de palabras.
\newpage
6. El procedimiento de la reivindicación 5, adicionalmente caracterizado porque
cuando el comando vocal reconocible activado incluye adicionalmente el comando distinto entre los comandos de clase, dicho subconjunto de palabras se quita de la segunda gramática, a fin de reducir el tamaño de la segunda gramática.
7. El procedimiento de la reivindicación 1, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
el dispositivo electrónico (10) de mano comprende adicionalmente una tercera gramática (160) que incluye una pluralidad de subconjuntos de palabras asociadas a una pluralidad de clases, y los comandos vocales reconocibles incluyen al menos un comando de clase para especificar al menos una palabra a las clases, en donde, cuando el comando vocal reconocible activado incluye el comando de clase, el subconjunto de palabras asociadas a la clase en el comando de clase se proporciona a la segunda gramática, a fin de que las segundas palabras incluyan adicionalmente dicho subconjunto de palabras.
8. El procedimiento de la reivindicación 1, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
el dispositivo electrónico (10) de mano comprende adicionalmente una tercera gramática (160) que incluye una pluralidad de subconjuntos de palabras asociadas a una pluralidad de clases, y los comandos vocales reconocibles incluyen una pluralidad de comandos de clase para especificar las clases, en donde
cuando el comando vocal reconocible activado incluye uno de los comandos de clase, el subconjunto de palabras asociadas a la clase especificada en dicho comando de clase se proporciona a la segunda gramática, a fin de que las segundas palabras incluyan adicionalmente dicho subconjunto de palabras, y
cuando el comando vocal reconocible activado incluye adicionalmente un comando distinto entre los comandos de clase, se proporciona un subconjunto distinto de palabras, asociadas a la clase especificada en dicho comando de clase distinto, a la segunda gramática, a fin de que dichas segundas palabras incluyan adicionalmente dicho subconjunto distinto de palabras.
9. El procedimiento de la reivindicación 8, adicionalmente caracterizado porque
cuando el comando vocal reconocible activado incluye adicionalmente el comando distinto entre los comandos de clase, dicho subconjunto de palabras se quita de la segunda gramática, a fin de reducir el tamaño de la segunda gramática.
10. El procedimiento de la reivindicación 1, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
las terceras palabras están asociadas a una pluralidad de ubicaciones de palabra, y
los comandos vocales reconocibles incluyen al menos un comando de ubicación para especificar la ubicación de palabra, en donde, cuando dicho(s) comando(s) vocal(es) reconocible(s) activado(s) incluye(n) el comando de ubicación, e identifica(n) al menos una de las terceras palabras a reemplazar, la palabra modificadora de texto reemplaza dicha(s) tercera(s) palabra(s) identificada(s), sobre la base de la ubicación especificada de la palabra.
11. El procedimiento de la reivindicación 2, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
las terceras palabras están asociadas a una pluralidad de ubicaciones de palabra, y los comandos vocales reconocibles incluyen al menos un comando de ubicación para especificar la ubicación de la palabra, a fin de modificar el texto utilizando la palabra modificadora de texto en la ubicación de palabra especificada, en respuesta al comando vocal reconocible activado.
12. El procedimiento de la reivindicación 1, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, estando dicho procedimiento
caracterizado porque
las terceras palabras están asociadas a una pluralidad de ubicaciones de palabra, y los comandos vocales reconocibles incluyen al menos un comando de ubicación para especificar la ubicación de la palabra, a fin de borrar al menos una de las terceras palabras en la ubicación de palabra especificada, en respuesta al comando vocal reconocible activado.
13. El procedimiento de la reivindicación 1, que comprende la etapa de terminar la sesión de edición, estando dicho procedimiento caracterizado por quitar las terceras palabras de la segunda gramática después de dicha etapa de terminación.
14. El procedimiento de la reivindicación 3, que comprende la etapa de terminar la sesión de edición, estando dicho procedimiento caracterizado por quitar la palabra modificadora de texto obtenida de la segunda gramática después de dicha etapa de terminación.
15. El procedimiento de la reivindicación 4, que comprende la etapa de terminar la sesión de edición, estando dicho procedimiento caracterizado por quitar el subconjunto de palabras de la segunda gramática después de dicha etapa de terminación.
16. El procedimiento de la reivindicación 7, que comprende la etapa de terminar la sesión de edición, estando dicho procedimiento caracterizado por quitar el subconjunto de palabras de la segunda gramática después de dicha etapa de terminación.
17. Un dispositivo electrónico (10) de mano con texto (140), que es modificable en una sesión de edición controlada vocalmente, y que incluye una pluralidad de terceras palabras, en el cual al menos una parte del texto ha sido dictada utilizando una primera gramática (130), incluyendo la primera gramática una pluralidad de primeras palabras, comprendiendo dicho dispositivo
un módulo de ingreso de voz; y
un módulo de memoria conectado operativamente con el módulo de ingreso de voz, en donde el módulo de memoria comprende:
una segunda gramática que incluye una pluralidad de segundas palabras vocalmente reconocibles, para fines de edición controlada vocalmente, siendo la segunda gramática más pequeña que la primera gramática, estando dicho dispositivo adicionalmente caracterizado por: estar conectado operativamente con una sede remota (20), y por estar la primera gramática situada en la sede remota, en donde la primera gramática incluye al menos una de dichas terceras palabras; y por estar adaptado para añadir al menos algunas de las terceras palabras a la segunda gramática, a fin de ampliar la segunda gramática para su empleo posterior, al menos en la sesión de edición controlada vocalmente.
18. El dispositivo electrónico de mano de la reivindicación 18, en el cual la primera gramática está incluida en un módulo de memoria situado en la sede remota.
19. El dispositivo electrónico de mano de la reivindicación 17, en el cual el módulo de memoria comprende adicionalmente una pluralidad de comandos vocales reconocibles que pueden activarse mediante el módulo de ingreso de voz, para modificar el texto, en el cual
cuando el comando vocal reconocible activado especifica una palabra modificadora de texto para modificar el texto, la palabra modificadora de texto se obtiene de la segunda gramática, si la palabra modificadora de texto es una de las segundas palabras y, en caso contrario, la palabra modificadora de texto se obtiene de las primeras palabras en la primera gramática.
20. El dispositivo electrónico de mano de la reivindicación 19, en el cual las segundas palabras incluyen adicionalmente la palabra modificadora de texto obtenida de las primeras palabras, para su empleo posterior.
21. El dispositivo electrónico de mano de la reivindicación 19, que comprende adicionalmente una tercera gramática (160) que incluye una pluralidad de subconjuntos de palabras asociadas a una pluralidad de clases, en el cual
los comandos vocales reconocibles incluyen al menos un comando de clase para especificar al menos una de las clases y, cuando
el comando vocal reconocible activado incluye el comando de clase, el subconjunto de palabras asociadas a la clase especificada en el comando de clase se proporciona a la segunda gramática, de forma tal que las segundas palabras incluyan adicionalmente dicho subconjunto de palabras.
22. Un producto de programa de ordenador que comprende un medio legible por ordenador, para su utilización en un dispositivo electrónico de mano, teniendo el medio legible por ordenador un pseudo-código empotrado en el mismo, asociado a la modificación de texto en una sesión de edición controlada vocalmente, incluyendo el texto a editar una pluralidad de terceras palabras, en donde al menos una parte del texto ha sido dictado utilizando la primera gramática, incluyendo la primera gramática una pluralidad de primeras palabras, y en donde el dispositivo electrónico de mano comprende un módulo de memoria para almacenar una segunda gramática, más pequeña que la primera gramática, incluyendo la segunda gramática una pluralidad de segundas palabras vocalmente reconocibles, con fines de edición controlada vocalmente, estando dicho producto de programa de ordenador caracterizado porque el pseudo-código está adaptado para llevar a cabo las etapas de:
conectar operativamente el dispositivo de mano con una sede remota donde está situada la primera gramática, que incluye al menos una de dichas terceras palabras, y añadir al menos algunas de las terceras palabras al módulo de memoria, a fin de ampliar la segunda gramática para su empleo posterior, al menos en la sesión de edición controlada vocalmente.
23. El producto de programa de ordenador de la reivindicación 22, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, de forma tal que el comando vocal reconocible activado especifique una palabra modificadora de texto para modificar el texto, estando el producto de software adicionalmente caracterizado porque los pseudo-códigos también están adaptados para llevar a cabo la etapa de:
obtener la palabra modificadora de texto de la segunda gramática si la palabra modificadora de texto es una de las segundas palabras; en caso contrario,
obtener la palabra modificadora de texto para las primeras palabras en la primera gramática.
24. El producto de programa de ordenador de la reivindicación 23, adicionalmente caracterizado porque los pseudo-códigos también están adaptados para llevar a cabo la etapa de:
añadir el texto modificador de texto, obtenido de las primeras palabras en la primera gramática, al módulo de memoria, a fin de ampliar adicionalmente la segunda gramática para su empleo posterior.
25. El producto de programa de ordenador de la reivindicación 22, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, y las primeras palabras comprenden una pluralidad de subconjuntos de palabras asociadas a una pluralidad de clases, y los comandos vocales reconocibles incluyen al menos un comando de clase para especificar al menos una de las clases, estando dicho producto de software caracterizado porque los pseudo-códigos también están adaptados para llevar a cabo la etapa de:
añadir el subconjunto de palabras asociadas a la clase especificada en el comando de clase al módulo de memoria, cuando el comando vocal reconocible activado incluye el comando de clase, a fin de ampliar adicionalmente la segunda gramática para su empleo posterior.
26. El producto de programa de ordenador de la reivindicación 22, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, y las primeras palabras comprenden una pluralidad de subconjuntos de palabras asociadas a una pluralidad de clases, y los comandos vocales reconocibles incluyen una pluralidad de comandos de clase para especificar las clases, estando dicho producto de software adicionalmente caracterizado porque los pseudo-códigos también están adaptados para llevar a cabo la etapa de:
añadir el subconjunto de palabras asociadas a la clase especificada en dicho comando de clase al módulo de memoria, cuando el comando vocal reconocible activado incluye uno de los comandos de clase, a fin de ampliar la segunda gramática para su empleo posterior; y
añadir un subconjunto distinto de palabras, asociadas a la clase especificada en un comando distinto entre los comandos de clase, al módulo de memoria cuando el comando vocal reconocible activado incluye adicionalmente dicho comando distinto entre los comandos de clase, a fin de ampliar la segunda gramática para su empleo posterior.
27. El producto de programa de ordenador de la reivindicación 26, adicionalmente caracterizado porque los pseudo-códigos también están adaptados para llevar a cabo la etapa de:
quitar dicho subconjunto de palabras del módulo de memoria cuando el comando vocal reconocible activado incluye adicionalmente el comando distinto entre los comandos de clase, a fin de reducir el tamaño de la segunda gramática.
28. El producto de programa de ordenador de la reivindicación 22, en el cual la segunda gramática incluye una pluralidad de comandos vocales reconocibles, y al menos uno de los comandos vocales reconocibles puede activarse a fin de modificar el texto, y en el cual las terceras palabras están asociadas a una pluralidad de ubicaciones de palabra, y los comandos vocales reconocibles incluyen al menos un comando de ubicación, para especificar la ubicación de la palabra, y dicho(s) comando(s) vocal(es) reconocible(s) activado(s) incluye(n) el comando de ubicación e identifica(n) al menos una de las terceras palabras a reemplazar, estando dicho producto de software adicionalmente caracterizado porque los pseudo-códigos también están adaptados para llevar a cabo la etapa de:
reemplazar en la segunda gramática dicha(s) tercera(s) palabra(s) identificada(s) por la palabra modificadora de texto, sobre la base de la ubicación de palabra especificada.
ES03758410T 2002-10-29 2003-10-21 Procedimiento y sistema para editar texto en un dispositivo electronico de mano. Expired - Lifetime ES2334907T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US284997 2002-10-29
US10/284,997 US7003457B2 (en) 2002-10-29 2002-10-29 Method and system for text editing in hand-held electronic device

Publications (1)

Publication Number Publication Date
ES2334907T3 true ES2334907T3 (es) 2010-03-17

Family

ID=32107600

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03758410T Expired - Lifetime ES2334907T3 (es) 2002-10-29 2003-10-21 Procedimiento y sistema para editar texto en un dispositivo electronico de mano.

Country Status (8)

Country Link
US (1) US7003457B2 (es)
EP (1) EP1556855B1 (es)
KR (1) KR100734409B1 (es)
CN (1) CN1708784B (es)
AT (1) ATE452399T1 (es)
DE (1) DE60330591D1 (es)
ES (1) ES2334907T3 (es)
WO (1) WO2004040551A1 (es)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
EP1611504B1 (en) * 2003-04-07 2009-01-14 Nokia Corporation Method and device for providing speech-enabled input in an electronic device having a user interface
WO2005027092A1 (ja) * 2003-09-08 2005-03-24 Nec Corporation 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
JP4846734B2 (ja) * 2005-12-07 2011-12-28 三菱電機株式会社 音声認識装置
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US8073697B2 (en) * 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8355915B2 (en) * 2006-11-30 2013-01-15 Rao Ashwin P Multimodal speech recognition system
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080154604A1 (en) * 2006-12-22 2008-06-26 Nokia Corporation System and method for providing context-based dynamic speech grammar generation for use in search applications
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8843376B2 (en) * 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) * 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
KR20090020265A (ko) * 2007-08-23 2009-02-26 삼성전자주식회사 휴대 단말기 및 그 메시지 작성 방법
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US9292161B2 (en) * 2010-03-24 2016-03-22 Microsoft Technology Licensing, Llc Pointer tool with touch-enabled precise placement
US8704783B2 (en) 2010-03-24 2014-04-22 Microsoft Corporation Easy word selection and selection ahead of finger
US8898065B2 (en) * 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
WO2012161359A1 (ko) * 2011-05-24 2012-11-29 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US9317196B2 (en) 2011-08-10 2016-04-19 Microsoft Technology Licensing, Llc Automatic zooming for text selection/cursor placement
CN103186523B (zh) * 2011-12-30 2017-05-10 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
WO2014055076A1 (en) 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
CN103177724A (zh) * 2013-03-19 2013-06-26 华为终端有限公司 语音控制文本操作的方法、装置及终端
US9390079B1 (en) 2013-05-10 2016-07-12 D.R. Systems, Inc. Voice commands for report editing
WO2015093656A1 (ko) * 2013-12-19 2015-06-25 주식회사 큐키 전자 장치, 오타 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체
WO2015093655A1 (ko) * 2013-12-19 2015-06-25 주식회사 큐키 전자 장치, 문자 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체
US9448991B2 (en) * 2014-03-18 2016-09-20 Bayerische Motoren Werke Aktiengesellschaft Method for providing context-based correction of voice recognition results
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
JP2016181018A (ja) * 2015-03-23 2016-10-13 ソニー株式会社 情報処理システムおよび情報処理方法
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110321534B (zh) * 2018-03-28 2023-11-24 科大讯飞股份有限公司 一种文本编辑方法、装置、设备及可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
DE4412930A1 (de) * 1994-04-15 1995-10-19 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern
US5875448A (en) * 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
WO1998050907A1 (en) * 1997-05-06 1998-11-12 Speechworks International, Inc. System and method for developing interactive speech applications
US6301560B1 (en) * 1998-01-05 2001-10-09 Microsoft Corporation Discrete speech recognition system with ballooning active grammar
KR100308274B1 (ko) * 1998-09-22 2001-11-15 구자홍 가변어휘인식시스템
JP2002535728A (ja) * 1999-01-05 2002-10-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ サブワードメモリを含む音声認識装置
EP1088299A2 (en) * 1999-03-26 2001-04-04 Scansoft, Inc. Client-server speech recognition
US6360201B1 (en) * 1999-06-08 2002-03-19 International Business Machines Corp. Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system
CN1315721A (zh) * 2000-03-23 2001-10-03 韦尔博泰克有限公司 客户服务器语音信息传送系统与方法
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
KR100427681B1 (ko) * 2000-06-19 2004-04-27 인터내셔널 비지네스 머신즈 코포레이션 분산 데이터 처리 시스템에 있어서 동적 문서 생성용콤포넌트 모델 정의 장치 및 방법

Also Published As

Publication number Publication date
ATE452399T1 (de) 2010-01-15
KR20050061571A (ko) 2005-06-22
DE60330591D1 (de) 2010-01-28
EP1556855B1 (en) 2009-12-16
EP1556855A4 (en) 2006-01-18
KR100734409B1 (ko) 2007-07-03
WO2004040551A1 (en) 2004-05-13
WO2004040551A8 (en) 2004-08-26
CN1708784B (zh) 2012-05-30
CN1708784A (zh) 2005-12-14
US7003457B2 (en) 2006-02-21
EP1556855A1 (en) 2005-07-27
US20040083109A1 (en) 2004-04-29

Similar Documents

Publication Publication Date Title
ES2334907T3 (es) Procedimiento y sistema para editar texto en un dispositivo electronico de mano.
US7962344B2 (en) Depicting a speech user interface via graphical elements
JP4252955B2 (ja) 電子通信装置に対してテキストを入力する方法
US7162694B2 (en) Method for entering text
US7848917B2 (en) Common word graph based multimodal input
US7159191B2 (en) Input of data
US20090006097A1 (en) Pronunciation correction of text-to-speech systems between different spoken languages
US20100131447A1 (en) Method, Apparatus and Computer Program Product for Providing an Adaptive Word Completion Mechanism
US20070100619A1 (en) Key usage and text marking in the context of a combined predictive text and speech recognition system
EP2816489A2 (en) Text entry at electronic communication device
CN101454775A (zh) 通过基于协同客户端和服务器的语言识别的语法调整
MX2007010947A (es) Metodo y dispositivo para editar textos predictivos.
US20080114591A1 (en) Method and apparatus for efficiently text messaging using a wireless mobile device
KR20040101306A (ko) 전자 통신 장치로의 텍스트 입력
US20050251745A1 (en) Input switching method and electronic device therefor
US20070298818A1 (en) Template Based Messaging
US7814092B2 (en) Distributed named entity recognition architecture
US20090306978A1 (en) Method and system for encoding languages
US20050060156A1 (en) Speech synthesis
US20220103679A1 (en) Communication Application for Blind and Normal People with Deaf People (HOPE Tech)
JP5187954B2 (ja) 文字入力装置、文字入力学習方法、及びプログラム
CN114816633A (zh) 信息显示方法、装置及电子设备
US20070042761A1 (en) Message inputting device
JP5315775B2 (ja) 電子辞書装置
EP1046156A1 (en) Performing spoken recorded actions