ES2334907T3 - Procedimiento y sistema para editar texto en un dispositivo electronico de mano. - Google Patents
Procedimiento y sistema para editar texto en un dispositivo electronico de mano. Download PDFInfo
- Publication number
- ES2334907T3 ES2334907T3 ES03758410T ES03758410T ES2334907T3 ES 2334907 T3 ES2334907 T3 ES 2334907T3 ES 03758410 T ES03758410 T ES 03758410T ES 03758410 T ES03758410 T ES 03758410T ES 2334907 T3 ES2334907 T3 ES 2334907T3
- Authority
- ES
- Spain
- Prior art keywords
- grammar
- words
- recognizable
- text
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000004048 modification Effects 0.000 claims abstract description 4
- 238000012986 modification Methods 0.000 claims abstract description 4
- 230000001755 vocal effect Effects 0.000 claims description 70
- 239000003607 modifier Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 8
- 230000004044 response Effects 0.000 claims 2
- 230000014509 gene expression Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 2
- 206010010071 Coma Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Telephonic Communication Services (AREA)
- Stored Programmes (AREA)
Abstract
Un procedimiento de modificación de texto (140), controlada por la voz, en un dispositivo electrónico (10) de mano, en una sesión de edición, incluyendo el texto una pluralidad de terceras palabras, en el cual al menos una parte del texto ha sido dictado utilizando una primera gramática (130), incluyendo la primera gramática una pluralidad de primeras palabras, y en el cual el dispositivo electrónico de mano comprende una segunda gramática (150), más pequeña que la primera gramática, incluyendo la segunda gramática una pluralidad de segundas palabras vocalmente reconocibles, con fines de edición controlada por voz, estando dicho procedimiento caracterizado por estar el dispositivo electrónico de mano conectado operativamente con una sede remota (20), y por estar la primera gramática situada en la sede remota, en donde la primera gramática incluye al menos una de dichas terceras palabras, y por añadir al menos algunas de las terceras palabras a la segunda gramática, a fin de ampliar la segunda gramática para su empleo posterior, al menos en la sesión de edición controlada vocalmente.
Description
Procedimiento y sistema para editar texto en un
dispositivo electrónico de mano.
La presente invención se refiere, en general, al
reconocimiento de la voz y, más específicamente, a la edición de
texto reconocido utilizando comandos vocales.
El reconocimiento de la voz está haciéndose más
habitual en los dispositivos electrónicos. Con un terminal móvil
que tiene una interfaz multimodal, y un teléfono visual mejorado con
capacidades de reconocimiento de voz, un usuario no sólo puede
utilizar comandos vocales para activar ciertas funciones
telefónicas, sino que también puede ingresar texto, tal como un
ingreso de SMS (servicio de mensajes breves), al dictado. Tal
dispositivo utiliza bien un motor local de reconocimiento
automático de voz (ASR) para procesar la voz, o bien envía la voz a
un motor remoto de ASR residente en la red. El motor de
reconocimiento de voz para el dictado emplea habitualmente una
gramática muy grande, que incluye decenas de miles de palabras, a
fin de habilitar una gama razonable de contenidos y de alcance para
el texto dictado. Por ejemplo, el usuario puede desear enviar una
receta de cocina, o expresar un punto de vista político.
Es bastante usual, después del dictado, que el
usuario quisiera editar el texto, según lo reconocido y transcrito
por el motor de reconocimiento de voz, bien para corregir los
resultados del reconocimiento inexacto, o bien para efectuar
cambios del contenido. En general, un dispositivo terminal no tiene
una memoria muy grande. Ambos procesos de dictado y edición
requieren una gramática muy grande, haciéndolo impráctico en un
dispositivo terminal.
Debería observarse que al "vocabulario",
según se emplea en esta revelación, se refiere una lista de palabras
o frases reconocidas, y que una "gramática" se refiere a un
subconjunto del vocabulario. Además de palabras y frases, la
gramática puede contener reglas de edición y comandos.
En un dispositivo electrónico de sobremesa o
portátil, un dispositivo de señalamiento, tal como un ratón, una
palanca de juegos o un panel táctil, se emplea habitualmente para
localizar la palabra, o palabras, a editar en el texto. En el
dispositivo terminal, un tal dispositivo de señalamiento puede ser
impráctico y, por ello, rara vez se proporciona. En un panel
telefónico, las teclas con flechas, habitualmente, se proporcionan
para localizar la letra en el texto a editar. Sin embargo, mover el
cursor hacia la ubicación de edición utilizando las teclas de
flechas es lento e incómodo. Así pues, es ventajoso y deseable
proporcionar un procedimiento y sistema para editar texto
utilizando comandos vocales.
A fin de evitar el empleo de una gramática
grande para el reconocimiento de la voz, Masters (Patente
Estadounidense N° 6.301.561) revela un sistema discreto de
reconocimiento de voz para su empleo en la selección de estaciones
de radio, en el cual hay una gramática pequeña por omisión, con un
pequeño número de palabras o expresiones de primera fila, cada una
de las cuales representa a un subconjunto de palabras o expresiones
de la segunda fila. Cada una de las palabras o expresiones de la
segunda fila representa a un subconjunto de palabras o expresiones
de la tercera fila, y así sucesivamente. Cuando una de las palabras
de la primera fila es seleccionada por un usuario mediante la voz,
se añade a la gramática una pluralidad de palabras o expresiones en
el subconjunto de segunda fila representado por la palabra de
primera fila seleccionada, ampliando por ello la gramática. Cuando
una de las palabras de la segunda fila es adicionalmente
seleccionada por el usuario mediante la voz, se añade
adicionalmente a la gramática una pluralidad de palabras o
expresiones en el subconjunto de la tercera fila representado por
la palabra de segunda fila seleccionada, ampliando por ello la
gramática. Las palabras o expresiones de las filas segunda y
tercera se almacenan en un vocabulario que tiene una lista completa
de expresiones predefinidas que son reconocibles por un motor de
reconocimiento de la voz. De tal modo, la gramática que se utiliza
efectivamente para llevar a cabo una función incluye sólo una
pequeña porción de las expresiones predefinidas en el vocabulario.
Si bien el reconocimiento de la voz, según lo revelado en
Masters, es útil para reducir el tiempo necesario para el
reconocimiento de la voz, manteniendo pequeña la gramática, su
utilidad está limitada a una cierta aplicación, tal como la
selección de estaciones de radio, donde un conjunto pequeño de
palabras o expresiones predefinidas identifica las ciudades, y las
frecuencias de emisión en un vocabulario limitado son suficientes
para adecuarse a dichos fines. Sin embargo, este tipo de vocabulario
limitado es habitualmente insuficiente para editar texto, cuyo
alcance y contenido es difícil de predecir.
Stevens et al. (documento US 2002/0138265
A1) revelan el empleo de gramáticas distintas y dedicadas durante
el dictado vocal (donde una gramática de reconocimiento de la voz,
que comprende un gran vocabulario, tiene que activarse y hacerse
accesible) y la edición controlada por voz de la transcripción
textual proporcionada por la operación de dictado. A fin de
optimizar la utilización o los requisitos de memoria, las gramáticas
pequeñas para operaciones de edición (tales como la selección de
palabras específicas dictadas o transcritas), que consisten
inicialmente sólo de pocas palabras de comando reconocibles, se
expanden añadiendo palabras, que han sido transcritas durante un
dictado vocal precedente (donde ha sido aplicada una gramática de
restricción de dictado), a dichas gramáticas de edición.
Así pues, es ventajoso y deseable proporcionar
un procedimiento y un sistema para editar texto en un dispositivo
electrónico pequeño, donde los requisitos de memoria no permiten que
se implemente una gramática grande en el dispositivo.
Es un objetivo primario de la presente invención
proporcionar un procedimiento y sistema de edición de texto, a
emplear en un dispositivo electrónico de mano donde los requisitos
de memoria no permiten que se utilice una gramática grande para la
edición de texto y para otros fines de reconocimiento de la voz.
Este objetivo puede alcanzarse utilizando una gramática pequeña en
el dispositivo. Si bien se requiere generalmente una gramática
grande para el dictado, una gramática pequeña brinda un resultado
más rápido y más exacto que la gramática grande cuando se edita el
texto dictado. Esta gramática pequeña incluye inicialmente un
conjunto predefinido de palabras de comando. Cuando un usuario
dicta texto por primera vez, todas las palabras dictadas se añaden
a la gramática pequeña. Cuando el usuario acaba el dictado y
comienza a editar, se utiliza la gramática pequeña. Sólo cuando no
puedan hallarse en la gramática pequeña palabras que se necesitan
para la edición, se empleará una gramática grande. El dispositivo
también puede contener otros conjuntos de palabras predefinidas
relacionadas con los números, los días de la semana, los meses, los
nombres de contactos, etc., que pueden añadirse a la gramática
pequeña cuando se necesiten.
Además, con la gramática pequeña, un motor local
de ASR (reconocimiento automático de la voz) puede utilizarse en el
dispositivo, y no hay necesidad de enviar los datos de voz a una
sede remota o a una red móvil durante la edición, excepto cuando se
añaden palabras nuevas. Con una gramática grande, el ASR remoto es
más factible.
De esta manera, según la presente invención, se
proporciona un procedimiento para modificar texto en un dispositivo
electrónico de mano, en una sesión de edición según lo estipulado en
la reivindicación independiente 1, un correspondiente dispositivo
electrónico de mano según lo estipulado en la reivindicación
independiente 17, y un correspondiente producto de programa de
ordenador según lo estipulado en la reivindicación independiente
22. Las realizaciones preferidas de la invención se estipulan en las
reivindicaciones subordinadas.
La presente invención devendrá evidente al leer
la descripción considerada conjuntamente con las Figuras 1 a 4b.
\vskip1.000000\baselineskip
La Figura 1 es un diagrama en bloques que
ilustra un ejemplo de un dispositivo electrónico que tiene
capacidades de reconocimiento de voz y de edición de texto.
La Figura 2 es un diagrama en bloques que
ilustra un ejemplo adicional de un dispositivo electrónico que tiene
capacidades de reconocimiento de voz y de edición de texto.
La Figura 3a es un diagrama en bloques que
ilustra los cambios en la gramática pequeña durante el dictado y la
edición del texto.
La Figura 3b es un diagrama en bloques que
ilustra una versión distinta de la gramática pequeña.
La Figura 4a es un diagrama de flujo que ilustra
un ejemplo de un procedimiento de edición de texto.
La Figura 4b es una sección de un diagrama de
flujo que ilustra algunas etapas adicionales en el ejemplo de un
procedimiento, según lo mostrado en la Figura 4a.
\vskip1.000000\baselineskip
La Figura 1 es un diagrama en bloques que
ilustra un dispositivo electrónico 10 que tiene capacidades de
reconocimiento de voz y de edición de texto. Según se muestra, el
dispositivo 10 tiene un módulo 110 de ingreso de voz, que permite a
un usuario dictar y editar texto utilizando comandos vocales. El
ingreso de la voz, a través del módulo 110 de ingreso vocal, puede
gestionarse localmente, o bien puede enviarse a una sede remota o a
una red, para el reconocimiento de la voz. Según se muestra en la
Figura 1, el reconocimiento de la voz se lleva a cabo en un motor
120 de reconocimiento automático de voz (ASR), que emplea una gran
gramática 130 de dictado. La gran gramática 130 de dictado se carga
habitualmente en la memoria del motor 120 de ASR. Los resultados
del reconocimiento, o bien el texto reconocido 140, se exhiben
habitualmente en el dispositivo 10 para permitir que un usuario lea
y edite, si así lo desea. Una gramática pequeña 150, en un formato
de texto implementado en el dispositivo 10, incluye inicialmente
sólo un conjunto de comandos dedicados de edición, tales como
"Borrar" y "Mover", para iniciar el proceso de edición.
Cuando los resultados del reconocimiento comienzan a aparecer, se
añaden todas las palabras en el texto reconocido a la gramática
pequeña 150. Esta gramática crece acumulativamente según avanza el
dictado.
Si el usuario quiere editar el texto dictado
140, el usuario puede activar una modalidad de edición utilizando
un comando vocal especial o un comando del panel de teclas.
Alternativamente, la edición es una modalidad por omisión. A fines
de ilustración, el texto dictado 140 puede editarse utilizando la
siguiente secuencia de comandos vocales. Aquí "-", dentro de
las comillas, denota una pausa breve entre las expresiones.
"Borrar - muy" para borrar la palabra
"muy"
"Mover - mañana - antes - por la mañana"
para mover la palabra "mañana" delante de las palabras "por
la mañana"
"Ir antes - año - Añadir - Junio" para
añadir la palabra "Junio" antes de la palabra "año". Si
"Junio" no está aún en la gramática pequeña 150, debe
utilizarse la gramática grande 130 para reconocer "Junio". El
empleo de la gramática grande 130 es activado por el reconocimiento
del comando "Añadir", que invoca una palabra modificadora de
texto, tal como "Junio", pero no por otros comandos, tales como
"Borrar" o "Mover". El comando vocal "Añadir - Junio -
antes - año" podría utilizarse en lugar de "Ir antes - año -
Añadir - Junio".
Como se muestra en la Figura 1, el dispositivo
10 también comprende un programa 170 de software de edición, que
utiliza la gramática pequeña para editar el texto dictado 140. Sin
embargo, el programa 170 de software puede ser una parte de la
gramática pequeña 150, según se describe más adelante.
A continuación hay un ejemplo del fichero de
gramática dinámicamente generado en el JSGF (Formato de Gramática
Vocal de Java). Representa al fichero de gramática en un punto donde
el usuario ha dictado la oración "Este dictado es guay". La
regla pública <editar> es la regla principal que la aplicación
de dictado está utilizando, y que consiste en los comandos de
edición. Las reglas <lugar> y <palabra> son reglas
internas utilizadas al interpretar la regla <editar>. La regla
<editar> tiene las opciones para borrar, mover y añadir una
palabra, y la regla <lugar> define adicionalmente el lugar
donde la edición debería tener lugar, refiriéndose a las palabras
dictadas. La regla <palabra> es la parte cambiante de la
gramática, que recoge todas las palabras reconocidas del
dictado.
El fichero de la gramática se actualiza
nuevamente sobre la base de los comandos que el usuario emplea para
editar el texto. Una vez que se cierra el dictado y la sesión de
edición, la parte dinámicamente generada de la gramática se quita,
y el fichero de la gramática se restaurará al conjunto original, es
decir, al que contiene sólo los comandos dedicados de edición.
También es posible incluir en el dispositivo 10
un vocabulario limitado 160, con un pequeño número de conjuntos
predefinidos de palabras o frases, tales como las palabras para los
"días de la semana", las palabras para la "hora del día",
los números, los alfabetos y los nombres en una lista de contactos.
De tal forma, puede invocarse un conjunto específico de palabras o
frases, y añadirse a la gramática pequeña mediante un comando vocal
específico. Por ejemplo, el usuario puede utilizar el comando vocal
"Activar - Días de la Semana" para añadir "Domingo",
"Lunes",..., a la gramática pequeña 150, con fines de edición.
Esto significa que el crecimiento de la gramática pequeña está
determinado parcialmente por las palabras que se necesitan para
editar un cierto texto dictado. Sólo aquellas palabras que caen
dentro de ciertas categorías invocadas por el comando "Activar"
se añadirán a la gramática pequeña (véanse las Figura 3a y 3b). El
vocabulario 160 puede ser parte de la gramática grande 130 si la
gramática grande reside en el dispositivo electrónico 10.
Si el dispositivo electrónico 10' es un terminal
móvil o similar, es preferible incluir un ASR local 124 en el
terminal móvil, con fines de edición, según se muestra en la Figura
2.
Cuando el usuario dicta un mensaje, tal como un
mensaje SMS, la voz del usuario se envía a un ASR remoto 122 en la
red móvil 20, para el reconocimiento de voz, utilizando una
gramática grande 130. Los resultados del reconocimiento son
devueltos por el ASR remoto 122 como texto dictado 140. Además de
las gramáticas de comandos básicos de edición que residen en la
gramática pequeña 150, se proporciona un conjunto de gramáticas
estándar para usos estándar, tales como los números, los días de la
semana, los meses del año, etc., bien en la gramática pequeña 150 o
bien en el vocabulario 160. También es posible que el terminal móvil
tenga un mecanismo de autoaprendizaje, a través del cual una lista
de nombres y de números de teléfono de la base 180 de datos de
contacto del teléfono se construye y almacena en el vocabulario 160
o en la gramática pequeña 150. Con fines de edición, el terminal
móvil en la modalidad de edición sólo requiere enlazarse con el ASR
residente 122 de red si la entrada de voz contiene palabras que no
pueden hallarse en la gramática pequeña 150, o en el vocabulario
160.
Debido a que el terminal móvil, o similar, está
limitado en cuanto a memoria y potencia de procesamiento, se
prefiere que sólo se utilice un conjunto limitado de gramáticas
dentro de la aplicación de dictado de SMS durante la fase de
edición. Por el mismo motivo, puede no ser deseable guardar la
gramática dinámicamente generada en una sesión de SMS, para su
empleo en otras sesiones SMS posteriores. Por ello, se prefiere que,
una vez que acaba el dictado y la sesión de edición, la parte
dinámicamente generada de la gramática sea quitada de la gramática
pequeña 150, y que el fichero de gramática se restaure al conjunto
original, que contiene sólo los comandos de edición dedicados.
Para ilustrar la interacción entre el usuario y
los componentes activos en un terminal móvil, según la presente
invención, se da a continuación un ejemplo de una sesión de SMS:
Entidades: Usuario, LASR (ASR Local),
RASR (servidor de ASR remoto)
Etapas Iniciales:
El usuario lanza la aplicación SMS. Utilizando
las teclas de software, el usuario activa el Dictado de SMS. La
aplicación SMS tiene ahora capacidad multimodal, y se permite al
usuario ingresar el texto utilizando tanto el panel de teclas como
la voz.
Etapas de Edición:
I. Usuario: "Yo estaré en casa alrededor de
las 10:30 el domingo"
RASR: Yo estaré en casa alrededor de las 10:30
el domingo
El LASR ha construido ahora una gramática
dinámica que tiene este aspecto
<Gramática de Sesión> =
Yo:estaré:casa:alrededor:10:30:el:domingo
El usuario quiere editar el texto que está ahora
en el visor. Pulsa la tecla de software Edit.
\vskip1.000000\baselineskip
II. Usuario: IrA 10:30
El cursor está situado ahora antes de
"10:30".
\vskip1.000000\baselineskip
III. Usuario: Activar Hora
La gramática de hora (despachada con el
teléfono) deviene ahora activa. Ahora, todo aquello que diga el
usuario se interpretará como una hora. Si el usuario quisiera
ingresar un número en lugar de una hora, podría decir algo como
"Activar Número".
\vskip1.000000\baselineskip
IV. Usuario: cambiar a 11:30
El ASR local reconoce esto sobre la base de la
gramática de hora y sustituye "10:30" por "11:30".
\vskip1.000000\baselineskip
V. Usuario: IrA Domingo
El Cursor se sitúa ahora antes de
"Domingo".
\vskip1.000000\baselineskip
VI. Usuario: Activar Días de la Semana
La gramática de "Días de la Semana" está
activa ahora
\vskip1.000000\baselineskip
VII. Usuario: cambiar a Sábado
El "Sábado" es reconocido ahora por el ASR
local y reemplaza al "Domingo".
\vskip1.000000\baselineskip
VIII. Usuario: SMS Inicio (que significa
comienzo del SMS)
El cursor se sitúa ahora antes de "Yo".
\vskip1.000000\baselineskip
IX. Usuario: Activar contactos
La gramática de contactos (construida por la
aplicación utilizando la base de datos de contactos residente) se
activa.
\vskip1.000000\baselineskip
X. Usuario: Añadir Laura coma
Se añade "Laura," antes de "Yo".
\vskip1.000000\baselineskip
Si el usuario no activa ninguna gramática
precargada, tal como "Hora", "Días de la Semana", etc., se
utilizará el ASR basado en la red para el reconocimiento.
Etapa de Terminación:
Una vez que se ha completado el SMS, el usuario
puede enviar el SMS a uno o más destinatarios deseados, utilizando
comandos de voz, teclas normales en el teclado, o teclas de
software.
Las Figuras 3a y 3b ilustran cómo crece el
contenido en la gramática pequeña 150 durante el proceso de edición,
según lo anteriormente descrito. Según se muestra en la Figura 3a,
la gramática pequeña 150a contiene sólo un conjunto de comandos por
omisión, tales como "Mover", "Borrar", "Activar",
antes del dictado en la sesión de SMS. Después de que el usuario
dicta el mensaje en la Etapa 1 y los resultados reconocidos son
devueltos al dispositivo terminal 10', la gramática pequeña 150b
también incluye el texto dictado.
En la Etapa II, el comando vocal "IrA" no
invoca una palabra modificadora de texto que no esté ya incluida en
la gramática pequeña 150b. No hay ninguna necesidad de añadir
palabras a la gramática pequeña en esta etapa.
En la Etapa III, el comando vocal "Activar"
invoca al menos una palabra o expresión relacionada con la
"Hora", para modificar el texto dictado. En consecuencia, se
añade un conjunto predefinido de palabras relacionadas con la
"Hora" a la gramática pequeña 150c.
En las Etapas IV y V, no se necesitan palabras
nuevas. Por lo tanto, la gramática pequeña no crece.
En la Etapa VI, el comando de voz "Activar"
invoca al menos una palabra o expresión relacionada con los "Días
de la Semana" para modificar el texto dictado. En consecuencia,
se añade un conjunto predefinido de palabras relacionadas con los
"Días de la Semana" a la gramática pequeña 150d.
Análogamente, después de la Etapa IX, se añade
un conjunto predefinido de palabras relacionadas con "contacto"
a la gramática pequeña 150e.
Cuando acaba la sesión de edición, la gramática
pequeña se restaura a la forma original 150a.
Como puede verse en la Figura 3a, la gramática
pequeña crece acumulativamente con las etapas de edición. Esto
significa que la gramática pequeña 150e siempre es más grande, o al
menos igual, que la gramática pequeña 150d, que siempre es más
grande, o igual, que la gramática pequeña 150c. Alternativamente, el
conjunto de gramáticas predefinidas añadido a la gramática pequeña,
que responde a la necesidad de una etapa previa de edición, puede
quitarse en la gramática pequeña cuando se utiliza un nuevo comando
vocal "Activar". Como se muestra en la Figura 3b, en la Etapa
VI, el conjunto predefinido de palabras relacionadas con "Hora"
se quita de la gramática pequeña, según se añade un nuevo conjunto
predefinido de palabras relacionadas con los "Días de la
Semana" a la gramática pequeña 150d. De manera similar, después
de la Etapa IX, la gramática pequeña 150e contiene el conjunto
predefinido de palabras relacionadas con "Contacto", pero ya no
contiene las palabras en los conjuntos de "Hora" y "Días de
la Semana". Así pues, la gramática pequeña, efectivamente, no
crece acumulativamente, sino que, más bien, crece dinámicamente
según las necesidades de edición. La compensación con este enfoque
es que el conjunto anteriormente quitado tiene que añadirse
nuevamente a la gramática pequeña si el comando vocal invoca las
palabras modificadoras del texto en ese conjunto quitado.
Un ejemplo de un procedimiento de edición de
texto a emplear en un dispositivo electrónico de mano se ilustra en
el diagrama de flujo de las Figuras 4a y 4b. Después de que se dicta
el texto, los resultados reconocidos se muestran al usuario. El
usuario puede decidir editar o no el texto. En ese caso, la sesión
de edición comienza en la etapa 202, según se muestra en el
diagrama 200 de flujo de la Figura 4a. En la etapa 202, el texto
reconocido se añade a la gramática pequeña. Cuando un usuario
utiliza un comando vocal para modificar el texto en la etapa 216,
si el comando de voz (tal como "Mover", "Borrar",
"IrA") no invoca una palabra modificadora de texto, entonces
el texto dictado se modifica en la etapa 218. Si la sesión de
edición continúa, entonces el procedimiento retorna a la etapa 216.
Sin embargo, si el comando vocal (tal como "Añadir",
"Insertar", "Deletrear") invoca una o más palabras
modificadoras de texto (o números o alfabetos) según lo decidido en
la etapa 222, entonces las palabras modificadoras de texto en la
gramática pequeña se utilizarán para modificar el texto en la etapa
218. Si las palabras modificadoras de texto no pueden hallarse en la
gramática pequeña, se obtienen las palabras modificadoras de texto
a partir de la gramática grande en la etapa 224. Las palabras
obtenidas se añaden a la gramática pequeña en la etapa 226 y el
texto dictado se modifica nuevamente en la etapa 218. El proceso se
repite hasta que el usuario desee acabar la sesión de edición en la
etapa 220. Al final de la sesión de edición, la gramática pequeña
se reinicia de forma tal que las palabras añadidas, incluyendo el
texto dictado, se quitan de la gramática pequeña en la etapa
230.
Ventajosamente, también pueden ejecutarse un
cierto número de etapas en la sesión de edición entre la etapa 202
y la etapa 216, según se muestra en la Figura 4b. Estas etapas se
utilizan para añadir más palabras a la gramática pequeña, con fines
de edición. En particular, algunas de las palabras en la gramática
grande 130 o el vocabulario 160 pueden colocarse en una pluralidad
de subconjuntos de distintas clases. Por ejemplo, las palabras
"Lunes", "Martes",..., pueden colocarse en un subconjunto
relacionado con una clase llamada "Días de la Semana". Cuando
el comando vocal (un comando de clase) especifica una clase, el
subconjunto de palabras asociadas a esa clase se añadirá a la
gramática pequeña. Además, ciertos comandos vocales, tales como
"IrA", "Inicio" o "Ir antes" están relacionados con
la ubicación de las palabras en el texto a editar. Estos comandos
pueden denominarse comandos de ubicación. Cuando un comando vocal
activado es un comando de ubicación, el cursor se moverá a la
ubicación especificada en el comando de ubicación. De esta manera,
si el comando vocal es un comando de clase, el cursor se moverá a
la ubicación especificada en el comando de ubicación. De esta
forma, si el comando vocal es un comando de clase, según lo
determinado en la etapa 208, entonces se añade un subconjunto de
palabras, asociadas a la clase especificada en el comando de clase,
a la gramática pequeña en la etapa 210. Si el comando vocal es un
comando de ubicación, según lo determinado en la etapa 212, entonces
el cursor se mueve, en la etapa 214, a la ubicación de palabra
según lo especificado en el comando de ubicación.
En resumen, el procedimiento descrito de
modificación de texto utiliza una gramática pequeña dinámicamente
generada con fines de edición. Las etapas del procedimiento implican
activar al menos uno de dichos comandos vocales reconocibles, a fin
de modificar el texto. Cuando el comando vocal reconocible invoca
una o más palabras modificadoras de texto, estas palabras se
obtienen de la gramática pequeña, si se hallan. En caso contrario,
estas palabras se obtienen de la gramática grande. En un terminal
móvil o en un pequeño dispositivo electrónico de mano, donde la
memoria está limitada, es preferible mantener la gramática grande en
una sede remota, tal como una red móvil. Sin embargo, en un
dispositivo electrónico donde la memoria es lo suficientemente
grande, es posible mantener la gramática grande en el dispositivo.
En cualquier caso, la gramática pequeña se utilizará para editar el
texto, a menos que las palabras modificadoras del texto no puedan
hallarse en la gramática pequeña.
Así, aunque la invención ha sido descrita con
respecto a una realización preferida de la misma, los versados en
la tecnología comprenderán que lo precedente, y otros cambios,
omisiones y desviaciones en la forma y detalle de la misma, pueden
llevarse a cabo sin apartarse del alcance de la presente invención,
según lo definido por las reivindicaciones adjuntas.
Claims (28)
1. Un procedimiento de modificación de texto
(140), controlada por la voz, en un dispositivo electrónico (10) de
mano, en una sesión de edición, incluyendo el texto una pluralidad
de terceras palabras, en el cual al menos una parte del texto ha
sido dictado utilizando una primera gramática (130), incluyendo la
primera gramática una pluralidad de primeras palabras, y en el cual
el dispositivo electrónico de mano comprende una segunda gramática
(150), más pequeña que la primera gramática, incluyendo la segunda
gramática una pluralidad de segundas palabras vocalmente
reconocibles, con fines de edición controlada por voz, estando dicho
procedimiento
caracterizado por
estar el dispositivo electrónico de mano
conectado operativamente con una sede remota (20), y por estar la
primera gramática situada en la sede remota, en donde la primera
gramática incluye al menos una de dichas terceras palabras, y por
añadir al menos algunas de las terceras palabras a la segunda
gramática, a fin de ampliar la segunda gramática para su empleo
posterior, al menos en la sesión de edición controlada
vocalmente.
2. El procedimiento de la reivindicación 1, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
cuando el comando vocal reconocible especifica
una palabra modificadora de texto para modificar el texto,
la palabra modificadora del texto se obtiene de
la segunda gramática si la palabra modificadora de texto es una de
las segundas palabras; en caso contrario,
la palabra modificadora del texto se obtiene de
las primeras palabras en la primera gramática.
3. El procedimiento de la reivindicación 2,
adicionalmente caracterizado por
incluir en la segunda gramática la palabra
modificadora del texto obtenida de las primeras palabras, de forma
tal que las segundas palabras incluyan adicionalmente dicha palabra
obtenida para su empleo posterior.
4. El procedimiento de la reivindicación 1, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
las primeras palabras comprenden una pluralidad
de subconjuntos de palabras asociadas a una pluralidad de clases, y
los comandos vocales reconocibles incluyen al menos un comando de
clase para especificar al menos una de las clases, en donde, cuando
el comando vocal reconocible activado incluye el comando de clase,
el subconjunto de palabras asociadas a la clase especifica en el
comando de clase se proporciona a la segunda gramática, a fin de
permitir que las segundas palabras incluyan adicionalmente dicho
subconjunto de palabras.
5. El procedimiento de la reivindicación 1, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
las primeras palabras comprenden una pluralidad
de subconjuntos de palabras asociadas a una pluralidad de clases, y
los comandos vocales reconocibles incluyen una pluralidad de
comandos de clase para especificar las clases, en donde
cuando el comando vocal reconocible activado
incluye uno de los comandos de clase, el subconjunto de palabras
asociadas a la clase especificada en dicho comando de clase se
proporciona a la segunda gramática a fin de permitir que las
segundas palabras incluyan adicionalmente dicho subconjunto de
palabras, y
cuando el comando vocal reconocible activado
incluye adicionalmente un comando distinto entre los comandos de
clase, se proporciona un subconjunto distinto de palabras, asociadas
a la clase especificada en dicho comando de clase distinto, a la
segunda gramática, a fin de permitir que las segundas palabras
incluyan adicionalmente dicho subconjunto distinto de palabras.
\newpage
6. El procedimiento de la reivindicación 5,
adicionalmente caracterizado porque
cuando el comando vocal reconocible activado
incluye adicionalmente el comando distinto entre los comandos de
clase, dicho subconjunto de palabras se quita de la segunda
gramática, a fin de reducir el tamaño de la segunda gramática.
7. El procedimiento de la reivindicación 1, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
el dispositivo electrónico (10) de mano
comprende adicionalmente una tercera gramática (160) que incluye una
pluralidad de subconjuntos de palabras asociadas a una pluralidad
de clases, y los comandos vocales reconocibles incluyen al menos un
comando de clase para especificar al menos una palabra a las clases,
en donde, cuando el comando vocal reconocible activado incluye el
comando de clase, el subconjunto de palabras asociadas a la clase
en el comando de clase se proporciona a la segunda gramática, a fin
de que las segundas palabras incluyan adicionalmente dicho
subconjunto de palabras.
8. El procedimiento de la reivindicación 1, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
el dispositivo electrónico (10) de mano
comprende adicionalmente una tercera gramática (160) que incluye una
pluralidad de subconjuntos de palabras asociadas a una pluralidad
de clases, y los comandos vocales reconocibles incluyen una
pluralidad de comandos de clase para especificar las clases, en
donde
cuando el comando vocal reconocible activado
incluye uno de los comandos de clase, el subconjunto de palabras
asociadas a la clase especificada en dicho comando de clase se
proporciona a la segunda gramática, a fin de que las segundas
palabras incluyan adicionalmente dicho subconjunto de palabras,
y
cuando el comando vocal reconocible activado
incluye adicionalmente un comando distinto entre los comandos de
clase, se proporciona un subconjunto distinto de palabras, asociadas
a la clase especificada en dicho comando de clase distinto, a la
segunda gramática, a fin de que dichas segundas palabras incluyan
adicionalmente dicho subconjunto distinto de palabras.
9. El procedimiento de la reivindicación 8,
adicionalmente caracterizado porque
cuando el comando vocal reconocible activado
incluye adicionalmente el comando distinto entre los comandos de
clase, dicho subconjunto de palabras se quita de la segunda
gramática, a fin de reducir el tamaño de la segunda gramática.
10. El procedimiento de la reivindicación 1, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
las terceras palabras están asociadas a una
pluralidad de ubicaciones de palabra, y
los comandos vocales reconocibles incluyen al
menos un comando de ubicación para especificar la ubicación de
palabra, en donde, cuando dicho(s) comando(s)
vocal(es) reconocible(s) activado(s)
incluye(n) el comando de ubicación, e identifica(n) al
menos una de las terceras palabras a reemplazar, la palabra
modificadora de texto reemplaza dicha(s) tercera(s)
palabra(s) identificada(s), sobre la base de la
ubicación especificada de la palabra.
11. El procedimiento de la reivindicación 2, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
las terceras palabras están asociadas a una
pluralidad de ubicaciones de palabra, y los comandos vocales
reconocibles incluyen al menos un comando de ubicación para
especificar la ubicación de la palabra, a fin de modificar el texto
utilizando la palabra modificadora de texto en la ubicación de
palabra especificada, en respuesta al comando vocal reconocible
activado.
12. El procedimiento de la reivindicación 1, en
el cual la segunda gramática incluye una pluralidad de comandos
vocales reconocibles, y al menos uno de los comandos vocales
reconocibles puede activarse a fin de modificar el texto, estando
dicho procedimiento
caracterizado porque
las terceras palabras están asociadas a una
pluralidad de ubicaciones de palabra, y los comandos vocales
reconocibles incluyen al menos un comando de ubicación para
especificar la ubicación de la palabra, a fin de borrar al menos una
de las terceras palabras en la ubicación de palabra especificada, en
respuesta al comando vocal reconocible activado.
13. El procedimiento de la reivindicación 1, que
comprende la etapa de terminar la sesión de edición, estando dicho
procedimiento caracterizado por quitar las terceras palabras
de la segunda gramática después de dicha etapa de terminación.
14. El procedimiento de la reivindicación 3, que
comprende la etapa de terminar la sesión de edición, estando dicho
procedimiento caracterizado por quitar la palabra
modificadora de texto obtenida de la segunda gramática después de
dicha etapa de terminación.
15. El procedimiento de la reivindicación 4, que
comprende la etapa de terminar la sesión de edición, estando dicho
procedimiento caracterizado por quitar el subconjunto de
palabras de la segunda gramática después de dicha etapa de
terminación.
16. El procedimiento de la reivindicación 7, que
comprende la etapa de terminar la sesión de edición, estando dicho
procedimiento caracterizado por quitar el subconjunto de
palabras de la segunda gramática después de dicha etapa de
terminación.
17. Un dispositivo electrónico (10) de mano con
texto (140), que es modificable en una sesión de edición controlada
vocalmente, y que incluye una pluralidad de terceras palabras, en el
cual al menos una parte del texto ha sido dictada utilizando una
primera gramática (130), incluyendo la primera gramática una
pluralidad de primeras palabras, comprendiendo dicho
dispositivo
un módulo de ingreso de voz; y
un módulo de memoria conectado operativamente
con el módulo de ingreso de voz, en donde el módulo de memoria
comprende:
una segunda gramática que incluye una pluralidad
de segundas palabras vocalmente reconocibles, para fines de edición
controlada vocalmente, siendo la segunda gramática más pequeña que
la primera gramática, estando dicho dispositivo adicionalmente
caracterizado por: estar conectado operativamente con una
sede remota (20), y por estar la primera gramática situada en la
sede remota, en donde la primera gramática incluye al menos una de
dichas terceras palabras; y por estar adaptado para añadir al menos
algunas de las terceras palabras a la segunda gramática, a fin de
ampliar la segunda gramática para su empleo posterior, al menos en
la sesión de edición controlada vocalmente.
18. El dispositivo electrónico de mano de la
reivindicación 18, en el cual la primera gramática está incluida en
un módulo de memoria situado en la sede remota.
19. El dispositivo electrónico de mano de la
reivindicación 17, en el cual el módulo de memoria comprende
adicionalmente una pluralidad de comandos vocales reconocibles que
pueden activarse mediante el módulo de ingreso de voz, para
modificar el texto, en el cual
cuando el comando vocal reconocible activado
especifica una palabra modificadora de texto para modificar el
texto, la palabra modificadora de texto se obtiene de la segunda
gramática, si la palabra modificadora de texto es una de las
segundas palabras y, en caso contrario, la palabra modificadora de
texto se obtiene de las primeras palabras en la primera
gramática.
20. El dispositivo electrónico de mano de la
reivindicación 19, en el cual las segundas palabras incluyen
adicionalmente la palabra modificadora de texto obtenida de las
primeras palabras, para su empleo posterior.
21. El dispositivo electrónico de mano de la
reivindicación 19, que comprende adicionalmente una tercera
gramática (160) que incluye una pluralidad de subconjuntos de
palabras asociadas a una pluralidad de clases, en el cual
los comandos vocales reconocibles incluyen al
menos un comando de clase para especificar al menos una de las
clases y, cuando
el comando vocal reconocible activado incluye el
comando de clase, el subconjunto de palabras asociadas a la clase
especificada en el comando de clase se proporciona a la segunda
gramática, de forma tal que las segundas palabras incluyan
adicionalmente dicho subconjunto de palabras.
22. Un producto de programa de ordenador que
comprende un medio legible por ordenador, para su utilización en un
dispositivo electrónico de mano, teniendo el medio legible por
ordenador un pseudo-código empotrado en el mismo,
asociado a la modificación de texto en una sesión de edición
controlada vocalmente, incluyendo el texto a editar una pluralidad
de terceras palabras, en donde al menos una parte del texto ha sido
dictado utilizando la primera gramática, incluyendo la primera
gramática una pluralidad de primeras palabras, y en donde el
dispositivo electrónico de mano comprende un módulo de memoria para
almacenar una segunda gramática, más pequeña que la primera
gramática, incluyendo la segunda gramática una pluralidad de
segundas palabras vocalmente reconocibles, con fines de edición
controlada vocalmente, estando dicho producto de programa de
ordenador caracterizado porque el
pseudo-código está adaptado para llevar a cabo las
etapas de:
conectar operativamente el dispositivo de mano
con una sede remota donde está situada la primera gramática, que
incluye al menos una de dichas terceras palabras, y añadir al menos
algunas de las terceras palabras al módulo de memoria, a fin de
ampliar la segunda gramática para su empleo posterior, al menos en
la sesión de edición controlada vocalmente.
23. El producto de programa de ordenador de la
reivindicación 22, en el cual la segunda gramática incluye una
pluralidad de comandos vocales reconocibles, y al menos uno de los
comandos vocales reconocibles puede activarse a fin de modificar el
texto, de forma tal que el comando vocal reconocible activado
especifique una palabra modificadora de texto para modificar el
texto, estando el producto de software adicionalmente
caracterizado porque los pseudo-códigos
también están adaptados para llevar a cabo la etapa de:
obtener la palabra modificadora de texto de la
segunda gramática si la palabra modificadora de texto es una de las
segundas palabras; en caso contrario,
obtener la palabra modificadora de texto para
las primeras palabras en la primera gramática.
24. El producto de programa de ordenador de la
reivindicación 23, adicionalmente caracterizado porque los
pseudo-códigos también están adaptados para llevar a
cabo la etapa de:
añadir el texto modificador de texto, obtenido
de las primeras palabras en la primera gramática, al módulo de
memoria, a fin de ampliar adicionalmente la segunda gramática para
su empleo posterior.
25. El producto de programa de ordenador de la
reivindicación 22, en el cual la segunda gramática incluye una
pluralidad de comandos vocales reconocibles, y al menos uno de los
comandos vocales reconocibles puede activarse a fin de modificar el
texto, y las primeras palabras comprenden una pluralidad de
subconjuntos de palabras asociadas a una pluralidad de clases, y
los comandos vocales reconocibles incluyen al menos un comando de
clase para especificar al menos una de las clases, estando dicho
producto de software caracterizado porque los
pseudo-códigos también están adaptados para llevar a
cabo la etapa de:
añadir el subconjunto de palabras asociadas a la
clase especificada en el comando de clase al módulo de memoria,
cuando el comando vocal reconocible activado incluye el comando de
clase, a fin de ampliar adicionalmente la segunda gramática para su
empleo posterior.
26. El producto de programa de ordenador de la
reivindicación 22, en el cual la segunda gramática incluye una
pluralidad de comandos vocales reconocibles, y al menos uno de los
comandos vocales reconocibles puede activarse a fin de modificar el
texto, y las primeras palabras comprenden una pluralidad de
subconjuntos de palabras asociadas a una pluralidad de clases, y los
comandos vocales reconocibles incluyen una pluralidad de comandos
de clase para especificar las clases, estando dicho producto de
software adicionalmente caracterizado porque los
pseudo-códigos también están adaptados para llevar a
cabo la etapa de:
añadir el subconjunto de palabras asociadas a la
clase especificada en dicho comando de clase al módulo de memoria,
cuando el comando vocal reconocible activado incluye uno de los
comandos de clase, a fin de ampliar la segunda gramática para su
empleo posterior; y
añadir un subconjunto distinto de palabras,
asociadas a la clase especificada en un comando distinto entre los
comandos de clase, al módulo de memoria cuando el comando vocal
reconocible activado incluye adicionalmente dicho comando distinto
entre los comandos de clase, a fin de ampliar la segunda gramática
para su empleo posterior.
27. El producto de programa de ordenador de la
reivindicación 26, adicionalmente caracterizado porque los
pseudo-códigos también están adaptados para llevar a
cabo la etapa de:
quitar dicho subconjunto de palabras del módulo
de memoria cuando el comando vocal reconocible activado incluye
adicionalmente el comando distinto entre los comandos de clase, a
fin de reducir el tamaño de la segunda gramática.
28. El producto de programa de ordenador de la
reivindicación 22, en el cual la segunda gramática incluye una
pluralidad de comandos vocales reconocibles, y al menos uno de los
comandos vocales reconocibles puede activarse a fin de modificar el
texto, y en el cual las terceras palabras están asociadas a una
pluralidad de ubicaciones de palabra, y los comandos vocales
reconocibles incluyen al menos un comando de ubicación, para
especificar la ubicación de la palabra, y dicho(s)
comando(s) vocal(es) reconocible(s)
activado(s) incluye(n) el comando de ubicación e
identifica(n) al menos una de las terceras palabras a
reemplazar, estando dicho producto de software adicionalmente
caracterizado porque los pseudo-códigos
también están adaptados para llevar a cabo la etapa de:
reemplazar en la segunda gramática
dicha(s) tercera(s) palabra(s)
identificada(s) por la palabra modificadora de texto, sobre
la base de la ubicación de palabra especificada.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US284997 | 2002-10-29 | ||
US10/284,997 US7003457B2 (en) | 2002-10-29 | 2002-10-29 | Method and system for text editing in hand-held electronic device |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2334907T3 true ES2334907T3 (es) | 2010-03-17 |
Family
ID=32107600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03758410T Expired - Lifetime ES2334907T3 (es) | 2002-10-29 | 2003-10-21 | Procedimiento y sistema para editar texto en un dispositivo electronico de mano. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7003457B2 (es) |
EP (1) | EP1556855B1 (es) |
KR (1) | KR100734409B1 (es) |
CN (1) | CN1708784B (es) |
AT (1) | ATE452399T1 (es) |
DE (1) | DE60330591D1 (es) |
ES (1) | ES2334907T3 (es) |
WO (1) | WO2004040551A1 (es) |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US7366673B2 (en) | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
EP1611504B1 (en) * | 2003-04-07 | 2009-01-14 | Nokia Corporation | Method and device for providing speech-enabled input in an electronic device having a user interface |
WO2005027092A1 (ja) * | 2003-09-08 | 2005-03-24 | Nec Corporation | 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム |
US9083798B2 (en) * | 2004-12-22 | 2015-07-14 | Nuance Communications, Inc. | Enabling voice selection of user preferences |
US8090584B2 (en) * | 2005-06-16 | 2012-01-03 | Nuance Communications, Inc. | Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency |
US20060287858A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers |
US7917365B2 (en) * | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
US20060287865A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Establishing a multimodal application voice |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US8719034B2 (en) | 2005-09-13 | 2014-05-06 | Nuance Communications, Inc. | Displaying speech command input state information in a multimodal browser |
JP4846734B2 (ja) * | 2005-12-07 | 2011-12-28 | 三菱電機株式会社 | 音声認識装置 |
US7848314B2 (en) * | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
US20070274297A1 (en) * | 2006-05-10 | 2007-11-29 | Cross Charles W Jr | Streaming audio from a full-duplex network through a half-duplex device |
US9208785B2 (en) * | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US8332218B2 (en) | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US7676371B2 (en) | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
US8374874B2 (en) | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US8145493B2 (en) * | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US7957976B2 (en) | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US8086463B2 (en) | 2006-09-12 | 2011-12-27 | Nuance Communications, Inc. | Dynamically generating a vocal help prompt in a multimodal application |
US8073697B2 (en) * | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
US8355915B2 (en) * | 2006-11-30 | 2013-01-15 | Rao Ashwin P | Multimodal speech recognition system |
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US7827033B2 (en) | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US20080154604A1 (en) * | 2006-12-22 | 2008-06-26 | Nokia Corporation | System and method for providing context-based dynamic speech grammar generation for use in search applications |
US8069047B2 (en) * | 2007-02-12 | 2011-11-29 | Nuance Communications, Inc. | Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application |
US7801728B2 (en) | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US8150698B2 (en) | 2007-02-26 | 2012-04-03 | Nuance Communications, Inc. | Invoking tapered prompts in a multimodal application |
US7822608B2 (en) * | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US7809575B2 (en) * | 2007-02-27 | 2010-10-05 | Nuance Communications, Inc. | Enabling global grammars for a particular multimodal application |
US7840409B2 (en) * | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US8713542B2 (en) * | 2007-02-27 | 2014-04-29 | Nuance Communications, Inc. | Pausing a VoiceXML dialog of a multimodal application |
US20080208586A1 (en) * | 2007-02-27 | 2008-08-28 | Soonthorn Ativanichayaphong | Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application |
US9208783B2 (en) * | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8843376B2 (en) * | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US7945851B2 (en) * | 2007-03-14 | 2011-05-17 | Nuance Communications, Inc. | Enabling dynamic voiceXML in an X+V page of a multimodal application |
US8670987B2 (en) * | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
US8515757B2 (en) * | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US20080235029A1 (en) * | 2007-03-23 | 2008-09-25 | Cross Charles W | Speech-Enabled Predictive Text Selection For A Multimodal Application |
US8909532B2 (en) * | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
US8788620B2 (en) * | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US8862475B2 (en) * | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
KR20090020265A (ko) * | 2007-08-23 | 2009-02-26 | 삼성전자주식회사 | 휴대 단말기 및 그 메시지 작성 방법 |
US9349367B2 (en) * | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
US8214242B2 (en) * | 2008-04-24 | 2012-07-03 | International Business Machines Corporation | Signaling correspondence between a meeting agenda and a meeting discussion |
US8229081B2 (en) * | 2008-04-24 | 2012-07-24 | International Business Machines Corporation | Dynamically publishing directory information for a plurality of interactive voice response systems |
US8082148B2 (en) | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
US8380513B2 (en) * | 2009-05-19 | 2013-02-19 | International Business Machines Corporation | Improving speech capabilities of a multimodal application |
US8290780B2 (en) | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US8510117B2 (en) * | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US8416714B2 (en) * | 2009-08-05 | 2013-04-09 | International Business Machines Corporation | Multimodal teleconferencing |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US9292161B2 (en) * | 2010-03-24 | 2016-03-22 | Microsoft Technology Licensing, Llc | Pointer tool with touch-enabled precise placement |
US8704783B2 (en) | 2010-03-24 | 2014-04-22 | Microsoft Corporation | Easy word selection and selection ahead of finger |
US8898065B2 (en) * | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
WO2012161359A1 (ko) * | 2011-05-24 | 2012-11-29 | 엘지전자 주식회사 | 사용자 인터페이스 방법 및 장치 |
US9317196B2 (en) | 2011-08-10 | 2016-04-19 | Microsoft Technology Licensing, Llc | Automatic zooming for text selection/cursor placement |
CN103186523B (zh) * | 2011-12-30 | 2017-05-10 | 富泰华工业(深圳)有限公司 | 电子设备及其自然语言分析方法 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN103714048B (zh) | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
CN103177724A (zh) * | 2013-03-19 | 2013-06-26 | 华为终端有限公司 | 语音控制文本操作的方法、装置及终端 |
US9390079B1 (en) | 2013-05-10 | 2016-07-12 | D.R. Systems, Inc. | Voice commands for report editing |
WO2015093656A1 (ko) * | 2013-12-19 | 2015-06-25 | 주식회사 큐키 | 전자 장치, 오타 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체 |
WO2015093655A1 (ko) * | 2013-12-19 | 2015-06-25 | 주식회사 큐키 | 전자 장치, 문자 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체 |
US9448991B2 (en) * | 2014-03-18 | 2016-09-20 | Bayerische Motoren Werke Aktiengesellschaft | Method for providing context-based correction of voice recognition results |
CN105869632A (zh) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | 基于语音识别的文本修订方法和装置 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
JP2016181018A (ja) * | 2015-03-23 | 2016-10-13 | ソニー株式会社 | 情報処理システムおよび情報処理方法 |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110321534B (zh) * | 2018-03-28 | 2023-11-24 | 科大讯飞股份有限公司 | 一种文本编辑方法、装置、设备及可读存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
DE4412930A1 (de) * | 1994-04-15 | 1995-10-19 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern |
US5875448A (en) * | 1996-10-08 | 1999-02-23 | Boys; Donald R. | Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator |
US6665639B2 (en) * | 1996-12-06 | 2003-12-16 | Sensory, Inc. | Speech recognition in consumer electronic products |
US5909667A (en) * | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
WO1998050907A1 (en) * | 1997-05-06 | 1998-11-12 | Speechworks International, Inc. | System and method for developing interactive speech applications |
US6301560B1 (en) * | 1998-01-05 | 2001-10-09 | Microsoft Corporation | Discrete speech recognition system with ballooning active grammar |
KR100308274B1 (ko) * | 1998-09-22 | 2001-11-15 | 구자홍 | 가변어휘인식시스템 |
JP2002535728A (ja) * | 1999-01-05 | 2002-10-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | サブワードメモリを含む音声認識装置 |
EP1088299A2 (en) * | 1999-03-26 | 2001-04-04 | Scansoft, Inc. | Client-server speech recognition |
US6360201B1 (en) * | 1999-06-08 | 2002-03-19 | International Business Machines Corp. | Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system |
CN1315721A (zh) * | 2000-03-23 | 2001-10-03 | 韦尔博泰克有限公司 | 客户服务器语音信息传送系统与方法 |
AU2001259446A1 (en) * | 2000-05-02 | 2001-11-12 | Dragon Systems, Inc. | Error correction in speech recognition |
KR100427681B1 (ko) * | 2000-06-19 | 2004-04-27 | 인터내셔널 비지네스 머신즈 코포레이션 | 분산 데이터 처리 시스템에 있어서 동적 문서 생성용콤포넌트 모델 정의 장치 및 방법 |
-
2002
- 2002-10-29 US US10/284,997 patent/US7003457B2/en not_active Expired - Lifetime
-
2003
- 2003-10-21 DE DE60330591T patent/DE60330591D1/de not_active Expired - Lifetime
- 2003-10-21 EP EP03758410A patent/EP1556855B1/en not_active Expired - Lifetime
- 2003-10-21 WO PCT/IB2003/004715 patent/WO2004040551A1/en not_active Application Discontinuation
- 2003-10-21 AT AT03758410T patent/ATE452399T1/de not_active IP Right Cessation
- 2003-10-21 ES ES03758410T patent/ES2334907T3/es not_active Expired - Lifetime
- 2003-10-24 KR KR1020057007289A patent/KR100734409B1/ko active IP Right Grant
- 2003-10-24 CN CN2003801024751A patent/CN1708784B/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ATE452399T1 (de) | 2010-01-15 |
KR20050061571A (ko) | 2005-06-22 |
DE60330591D1 (de) | 2010-01-28 |
EP1556855B1 (en) | 2009-12-16 |
EP1556855A4 (en) | 2006-01-18 |
KR100734409B1 (ko) | 2007-07-03 |
WO2004040551A1 (en) | 2004-05-13 |
WO2004040551A8 (en) | 2004-08-26 |
CN1708784B (zh) | 2012-05-30 |
CN1708784A (zh) | 2005-12-14 |
US7003457B2 (en) | 2006-02-21 |
EP1556855A1 (en) | 2005-07-27 |
US20040083109A1 (en) | 2004-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2334907T3 (es) | Procedimiento y sistema para editar texto en un dispositivo electronico de mano. | |
US7962344B2 (en) | Depicting a speech user interface via graphical elements | |
JP4252955B2 (ja) | 電子通信装置に対してテキストを入力する方法 | |
US7162694B2 (en) | Method for entering text | |
US7848917B2 (en) | Common word graph based multimodal input | |
US7159191B2 (en) | Input of data | |
US20090006097A1 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
US20100131447A1 (en) | Method, Apparatus and Computer Program Product for Providing an Adaptive Word Completion Mechanism | |
US20070100619A1 (en) | Key usage and text marking in the context of a combined predictive text and speech recognition system | |
EP2816489A2 (en) | Text entry at electronic communication device | |
CN101454775A (zh) | 通过基于协同客户端和服务器的语言识别的语法调整 | |
MX2007010947A (es) | Metodo y dispositivo para editar textos predictivos. | |
US20080114591A1 (en) | Method and apparatus for efficiently text messaging using a wireless mobile device | |
KR20040101306A (ko) | 전자 통신 장치로의 텍스트 입력 | |
US20050251745A1 (en) | Input switching method and electronic device therefor | |
US20070298818A1 (en) | Template Based Messaging | |
US7814092B2 (en) | Distributed named entity recognition architecture | |
US20090306978A1 (en) | Method and system for encoding languages | |
US20050060156A1 (en) | Speech synthesis | |
US20220103679A1 (en) | Communication Application for Blind and Normal People with Deaf People (HOPE Tech) | |
JP5187954B2 (ja) | 文字入力装置、文字入力学習方法、及びプログラム | |
CN114816633A (zh) | 信息显示方法、装置及电子设备 | |
US20070042761A1 (en) | Message inputting device | |
JP5315775B2 (ja) | 電子辞書装置 | |
EP1046156A1 (en) | Performing spoken recorded actions |