ES2263459T3 - Sistetizador de conversacion basado en la codificacion de conversacion de indice variable. - Google Patents
Sistetizador de conversacion basado en la codificacion de conversacion de indice variable.Info
- Publication number
- ES2263459T3 ES2263459T3 ES00914511T ES00914511T ES2263459T3 ES 2263459 T3 ES2263459 T3 ES 2263459T3 ES 00914511 T ES00914511 T ES 00914511T ES 00914511 T ES00914511 T ES 00914511T ES 2263459 T3 ES2263459 T3 ES 2263459T3
- Authority
- ES
- Spain
- Prior art keywords
- index
- conversation
- parameters
- variable
- kbps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004891 communication Methods 0.000 claims description 33
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims 6
- 230000015572 biosynthetic process Effects 0.000 abstract description 15
- 238000003786 synthesis reaction Methods 0.000 abstract description 15
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Mobile Radio Communication Systems (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Un mecanismo (204) para sintetizar un vocabulario preseleccionado en un sistema de comunicación inalámbrica, en donde dicho vocabulario preseleccionado se ha codificado por un codificador de índice variable (102, 202) a un conjunto de índices variables, el mecanismo (204) comprendiendo: Una memoria (206) para almacenar un conjunto de parámetros de la conversación; Un procesador configurado para aceptar una entrada verbal de un usuario; Un decodificador de índice variable (104, 208) para descifrar parámetros de la conversación para generar muestras de conversación decodificadas; y Un convertidor digital-a-analógico (210) para convertir dichas muestras de conversación en una señal analógica para transmisión como la conversación sintetizada, caracterizada porque: Dicho conjunto de parámetros de la conversación representa dicho vocabulario preseleccionado codificado; El procesador es configurado para escoger un subconjunto de parámetros de la conversación de dicho conjunto de parámetros de la conversación de acuerdo con dicha la entrada verbal de dicho usuario; y El decodificador de índice variable (104, 208) se configura para decodificar dicho subconjunto de parámetros de la conversación.
Description
Sintetizador de conversación basado en la
codificación de conversación de índice variable.
La invención actual se refiere a la síntesis de
conversación. Más particularmente, la invención actual se refiere a
la síntesis de conversación codificada por un vocoder
(codificador de audio) de índice variable. La invención además se
refiere al uso de la síntesis de conversación con dispositivos de
comunicación inalámbrica.
La síntesis de conversación electrónica es útil
en un número de aplicaciones. Cada vez más, los ordenadores y otros
equipos electrónicos están proporcionando la opción de avisos
hablados como una interfaz del usuario. Por ejemplo, la
conversación puede utilizarse para leer los mensajes del correo
electrónico, para generar los avisos hablados en un sistema de
contestación de voz, o para proporcionar direcciones a un chofer en
un vehículo.
Hay dos tipos generales de sintetizadores de
conversación o técnicas usadas para generar conversación. El primer
tipo se le refiere como un sintetizador de conversación
Texto-de-Conversación
(text-to-speech) (TTS), y
está basado en gramática. Un sistema basado en TTS convierte el
texto ordinario en conversación sonora inteligible y natural. Es
útil para aplicaciones que necesitan una conversión automática de
entrada de texto arbitrario en salida de conversación sonora
inteligible y natural. Es especialmente útil cuando están
involucrados grandes vocabularios y/o datos que cambian
dinámicamente. El sistema TTS es útil en aplicaciones como el
proporcionar alarmas y sugerencias de voz automáticas, corrección
de pruebas, acceso telefónico a bases de datos, y conversión de
correo electrónico a correo de voz o salida de audio. Debido a que
TTS es flexible y poderoso, ofrece utilidad en muchas aplicaciones.
Sin embargo, la implementación de un sistema TTS puede requerir
tremenda cantidad de memoria y recursos de poder de procesamiento.
Puede contener también un tono de máquina si el sintetizador no
simula la entonación de la conversación humana con detalle. Como
consecuencia, TTS no es una opción práctica para aplicaciones con
memoria y recursos de procesamiento limitados, tal como la existente
en los dispositivos inalámbricos portátiles pequeños, ordenadores o
dispositivos de comunicación localizados remotamente, etc.
Un segundo tipo de sintetizador de conversación
es el basado en la Codificación de Voz (Vocoder). Un
vocoder comprime conversación de voz, o señales de audio,
extrayendo parámetros que se refieren a un modelo de generación de
conversación humana. Se han desarrollado vocoders para
comprimir conversación de entrada que se ha convertido digitalmente
a un índice de 64 kilo bits por segundo (kbps) hasta 13 kbps, 8
kbps, o aun más índices bajos. Un vocoder basado en
sintetizador de conversación genera ciertos parámetros de o para que
la conversación sea sintetizada. Los parámetros se guardan en algún
tipo de memoria, preferentemente del tipo flash, y se descifran
sobre la síntesis de conversación. Debido a que los parámetros de
todas las palabras a ser sintetizadas necesitan ser guardados en
memoria, los vocoder basados en sintetizadores de
conversación son más convenientes para aplicaciones que no
requieren vocabularios grandes. Ellos son especialmente convenientes
para sistemas que tienen memoria y recursos de procesamiento
limitados.
El documento
EP-A-0 762 711 describe el
almacenamiento de la conversación en un teléfono celular portátil.
La conversación puede entrarse vía un micrófono y comprimirse y
guardarse para la subsiguiente reproducción, o la transmisión sobre
un canal. La compresión puede ser efectiva usando el sistema de
circuitos eléctricos existente, como el digital.
Para el vocoder basado en sintetizadores
de la conversación, existe una necesidad de optimizar el uso de
memoria mientras se mantiene una calidad de conversación aceptable.
Para algunas aplicaciones, puede ser deseable maximizar el tamaño
del vocabulario para un tamaño dado de memoria. Además, también
puede ser deseable usar los recursos de procesamiento de señal ya
disponibles dentro de un sistema de comunicación dado diseñado para
realizar la síntesis de la conversación. Un sintetizador de
conversación que posee éstas y otras características que son
proporcionadas por la invención actual de la manera descrita
debajo.
La invención actual es un mecanismo y método
para la síntesis de la conversación como se expone en las
reivindicaciones 1 y 11, respectivamente, y basado en la
codificación de voz de índice variable. La conversación a ser
sintetizada es codificada por un vocoder de índice variable.
Un vocoder de índice variable codifica un marco
(frame) de conversación a uno de un conjunto de índices
predeterminados basado en la actividad de la conversación que tiene
lugar dentro del marco de conversación. En una realización, el
vocoder de índice variable es un codificador de predicción
lineal agitada de código (CELP) que tiene cuatro índices de bit.
Así, una señal de conversación de entrada es codificada en
parámetros de la conversación a uno de los cuatro índices usando un
esquema de codificación CELP para el índice seleccionado. Los
parámetros de la conversación son proporcionados generalmente a un
decodificador que realiza un esquema de decodificación de índice
variable correspondiente con el esquema de codificación de índice
variable utilizado. El decodificador produce ejemplos de
conversación, los cuales se le proveen a un
codificador-decodificador o codec para la
conversión digital-a-analógica. La
señal análoga resultante generada por el codec es entonces
difundida a través de un altavoz u otro dispositivo conocido de
salida de audio como la conversación sintetizada.
El sintetizador de conversación de la invención
actual es especialmente conveniente para el uso en sistemas de
comunicación inalámbrica en donde la codificación de voz de índice
variable ya está implementada. En estos sistemas, los recursos de
la codificación de voz existentes pueden emplearse para la síntesis
de la conversación. Alternativamente, los elementos DSP, ya
presente o fácilmente incorporados, pueden usarse junto con una
cantidad pequeña de memoria para proporcionar la función de
sintetizador de conversación. En adición, un sintetizador de
conversación basado en la codificación de voz de índice variable es
capaz de proporcionar buena calidad de la conversación sin requerir
una cantidad grande de memoria. El nivel de compresión proporcionado
por un vocoder de índice variable lo hace conveniente para
las aplicaciones con la memoria limitada.
Los rasgos, objetos, y ventajas de la invención
actual se verán más claros en la descripción detallada expuesta
debajo cuando se toma en conjunto con las figuras en las que los
caracteres de referencia identifican correspondientemente a lo
largo de y en donde:
La figura 1 es un diagrama de bloque de un
vocoder de índice variable; y
La figura 2 es un diagrama de bloque del
sintetizador de conversación de la invención actual.
La invención actual provee un mecanismo y método
para sintetizar la conversación que es muy útil cuando se usa con
equipos de comunicación inalámbrica. La invención puede aprovecharse
de recursos de procesamiento de señales existentes en equipos de
comunicación inalámbrica o un mínimo de hardware adicional para
sintetizar la conversación de una manera que proporciona alta
calidad de la conversación y requiere un tamaño de memoria
pequeño.
La invención actual es muy útil cuando se
utiliza junto con una variedad de dispositivos o sistemas de
comunicación conocidos, y se describe debajo con respecto a un
sistema de comunicación inalámbrica CDMA. En adición, se contempla
que se satisface particularmente bien para aplicaciones específicas,
como los equipos de automóvil manos-libres usados
para montar y operar dispositivos inalámbricos en los vehículos. Sin
embargo, aquellos expertos en la técnica entenderán fácilmente que
ésta no es una limitación de la invención actual, y que puede
usarse con otros tipos de dispositivos de comunicación que incluyen
aquéllos que se comunican por cables, línea de alambre, o cable
óptico, sistemas de tipo, y aquéllos que usan otras técnicas de
modulación de señales.
Un sistema de comunicación inalámbrica ejemplar
hace uso de las técnicas de modulación de acceso múltiple de
división del código (CDMA). Aunque otras técnicas tal como el acceso
múltiple de división de tiempo (TDMA), el acceso múltiple de
división de frecuencia (FDMA), y esquemas de modulación de amplitud
(AM) tal como "Simple Banda Lateral de Amplitud" (ACSSB) son
conocidas, los CDMA tienen ventajas significantes sobre estas otras
técnicas. El uso de técnicas CDMA en un sistema de comunicación de
acceso múltiple es descrito en la Patente de EE.UU. No. 4, 901,307,
titulada "Sistema De Comunicación De Acceso Múltiple De Espectro
Esparcido Usando Satélites O Repetidores Terrestres"
("Sprend Spectrum Multiple AccessCommunication System Using
Satellite Or Terrestrial Repeaters") asignados al apoderado
de la invención actual.
Un sintetizador de conversación puede
implementarse en dispositivos o equipos de comunicación inalámbrica
por varias razones. Por ejemplo, la síntesis de conversación puede
ser parte de un sistema de reconocimiento de voz en un teléfono
inalámbrico o un equipo de automóvil manos-libres
usada para soportar operaciones en un vehículo. Un sintetizador de
conversación puede proporcionar información en forma audible cuando
un usuario u operador del dispositivo no pueden observar
visualmente una pantalla o indicadores de salida en el dispositivo.
Por ejemplo, la información puede proporcionarse para permitir
operaciones o salida del dispositivo cuando un chofer de vehículo o
un operador de maquinaria no pueden mirar de manera segura el
dispositivo de comunicación, de cerca. El sintetizador de
conversación permitiría además operaciones de dispositivos para
manos libres proporcionando sugerencia de voz para operaciones a
ser realizadas. Por ejemplo, el sintetizador de conversación puede
pedir el nombre de una persona a ser llamada, permitiendo al
dispositivo marcar un número del teléfono automáticamente, o pedir
un comando a ser ejecutado, tal como marcar, guardar, abrir el
correo, terminar un intento de llamada, o apagar.
En una realización el sintetizador de
conversación de la invención actual hace uso del sistema de
circuitos eléctricos del vocoder ya presente en varios
dispositivos inalámbricos como teléfonos y otros productos
inalámbricos usados por subscriptores del servicio de comunicación
para generar conversación expresada. Específicamente, el
sintetizador de conversación está basado en un vocoder de
índice variable. Un vocoder de índice variable usa la
actividad de conversación para variar su índice de datos
instantáneo. Durante la conversación activa, el vocoder codificador
usa un número grande de bits para codificar las muestras de
conversación. Durante el periodo de silencio, el vocoder
codificador usa poco o los más pocos bits para codificar el ruido de
fondo. Realizaciones ejemplares de vocoders de índice
variable son descritas en las Patentes americanas No. 5,414, 796 y
5 657,420, tituladas "Vocoder de Índice Variable"
("Variable Rate Vocoder") y asignadas al apoderado de la
invención actual.
Los vocoders de índice variable se usan
comúnmente en sistemas de comunicación del tipo CDMA para aumentar
la capacidad del sistema disminuyendo el número de bits generalmente
usados por cada señal de comunicación. Un vocoder de índice
variable puede, por ejemplo, implementarse en un sistema de
comunicación CDMA de la Patente No. 4, 901,307 abordada
anteriormente. En un sistema de comunicación CDMA, diversos usuarios
se comunican usando la misma anchura de banda, pero usando
diferentes canales de código. Un vocoder de índice variable en un
sistema de comunicación CD-MA se aprovecha del hecho
de que un usuario sólo está hablando activamente aproximadamente el
40% del tiempo en cualquier canal dado. Enviando pocos bits cuando
un usuario está callado, el vocoder de índice variable les
permite a más usuarios compartir el mismo ancho de banda.
Un diagrama de bloque esquemático de un
vocoder de índice variable típico se muestra en la figura 1 y
generalmente se indica por 100. El vocoder mostrado en la
figura 1 usa cuatro índices de datos diferentes, aunque debe
entenderse que un número diferente de índices de datos puede
emplearse en lugar de eso, como se conocería en la técnica. En el
conjunto de cuatro índices, si el índice máximo es 13.2 kbps,
entonces el índice completo corresponde a 13.2 kbps, 1/2 índice
corresponde a aproximadamente 6.2 kbps, 1/4 índice corresponde a
aproximadamente 2.7 kbps, y 1/8 índice corresponde a aproximadamente
1.0 kbps. Note que el índice de bit actual para otros índices
aparte del índice completo es aproximado debido al uso de bits de
arriba, como se entiende bien en la técnica.
Refiriéndose todavía a la figura 1, puede verse
que el vocoder de índice variable 100 incluye un codificador 102 y
un descodificador 104. El codificador 102 recibe las muestras de
conversación para los marcos de datos de conversación como una
entrada, por ejemplo, como muestras PCM de índice de datos de
8-bits a 64 kbps, en cualquier formato
mu-law o a-law. El
codificador 102 codifica éstas muestras de conversación en
parámetros de conversación a uno de los cuatro índices de datos,
dependiendo de la actividad de la conversación. Las muestras de
conversación de entrada también se proporcionan al elemento de
determinación del índice 106.
El elemento de determinación del índice 106
puede implementar cualquiera de varios algoritmos de decisión de
índice. En una realización, el umbral de energía relativo al nivel
de energía del ruido de fondo se usa para determinar la actividad
de la conversación, y consecuentemente el índice, en el cual las
muestras de entrada serán codificadas. Si la energía del marco
actual de muestras de la conversación difiere por encima de la
energía del ruido de fondo, entonces el elemento de determinación
del índice 106 determinará que el marco será codificado a índice
completo. Si la energía del marco actual está cerca de la energía
del ruido de fondo, entonces el elemento de determinación del
índice 106 determinará que el marco será codificado a octavo índice,
y así, como es conocido.
Otra técnica de determinación de índice está
anunciada en EP-A-1, 339,044,
titulada "Método y Mecanismo Para Realizar Codificación De Voz De
Índice Variable A Índice Reducido" ("Method And Apparatus
For Performing Reduced Rate Variable Rate Vocoding") asignado
al apoderado de la invención actual. Esta técnica proporciona el
conjunto de criterios de decisión de índice referidos como medidas
de modo (mode measures). Una primera medida de modo es la
"Proporción Ruido a Letra" coincidente con el objetivo (TMSNR)
del marco de codificación anterior, que proporciona información
sobre cuan bien el modelo de codificación está funcionando
comparando una señal de conversación sintetizada con la señal de
conversación de entrada. Una segunda medida de modo es la función
de la auto-correlación normalizada (NACF) que mide
periodicidad en el marco de conversación. Una tercera medida de
modo es los parámetros de cruces ceros (ZC), que mide el contenido
de frecuencia alta en un marco de conversación de entrada. Una
cuarta medida, el diferencial de ganancia de predicción (PGD),
determina si el codificador está manteniendo su eficacia de
predicción. Una quinta medida es el diferencial de energía (ED), que
compara la energía en el marco actual con una energía promedio de
marco.
Usando las medidas de modo discutidas
anteriormente, la lógica de determinación de índice selecciona un
índice de codificación para cada marco de datos de conversación de
entrada. Los valores para los diversos modos seleccionan uno de
dichos cuatro o más modos con el cual operar. Es decir, los valores
detectados para cada medida de modo relativa a un umbral u otros
criterios determinan cual índice de codificación se selecciona,
basado en un modelo o jerarquía preseleccionada. Por ejemplo; si el
valor para NACF es menor que un umbral preseleccionado y ZC es
mayor que un segundo umbral preseleccionado un índice puede ser
seleccionado. Sin embargo, si estas condiciones no se reúnen pero
ED es más bajo que un tercer umbral, entonces un cuarto índice
podría seleccionarse. Si el valor para TSNR es mayor, PGD es menor,
y NACF es mayor que el cuarto, quinto, y sexto umbrales,
respectivamente, entonces un índice medio puede ser seleccionado.
Tales diversas combinaciones y umbrales pueden emplearse por
aquellos expertos en la técnica para seleccionar índices de
codificación.
Debe entenderse que sin embargo otras técnicas
de determinación de índice pueden ser adoptadas por el elemento de
determinación del índice 106.
Refiriéndose todavía a la figura 1, una señal
indicando el índice de datos determinado por el elemento de
determinación del índice 106 se proporciona a un interruptor 108. El
interruptor 108 selecciona un elemento para codificar un marco de
muestras de conversación de entrada de entre un elemento de
codificación de índice completo 110, un elemento de codificación de
medio índice 112, un elemento de codificación de cuarto índice 114,
y un elemento de codificación de octavo índice 116, como es
designado por la señal de índice de datos. El elemento de
codificación seleccionado codifica las muestras de conversación para
producir una señal de un paquete de datos codificado. El elemento
de determinación de índice 106 también proporciona una señal
indicando el índice de datos a un interruptor 118 que selecciona el
mismo elemento de codificación como interruptor 108 para que la
señal del paquete de datos codificados generada por el elemento de
codificación seleccionado pueda ser proporcionada a una salida del
vocoder de índice variable.
Cada uno de los elementos codificados 110, 112,
114, y 116 es configurado para codificar la conversación usando un
esquema de codificación predeterminado. Un esquema de codificación
basado en predicción lineal, como el codificador Predictivo Lineal
de Código Alterado (CELP), se usa en una realización preferida. El
codificador CELP se describe en el artículo "Un Codificador
Predictivo Lineal De Código Alterado de 4.8 Kbps" ("A 4.8
Kbps Code Excited LinearPredictive Coder") por Thomas E.,
Tremain, Procedimientos de la Conferencia del Satélite Móvil, 1988.
Los codificadores basados en predicción lineal comprimen la
conversación quitando las redundancias naturales inherentes en la
conversación. La conversación típicamente exhibe redundancias de
plazo corto que son el resultado de la acción mecánica de los
labios y la lengua, y redundancias de plazo largo que son el
resultado de la vibración de los cordones vocales. Los esquemas de
predicción lineal modelan estos funcionamientos como filtros,
quitan las redundancias, y entonces modelan la señal residual
resultante como el ruido gausiano blanco. Por consiguiente, los
codificadores de predicción lineal logran un índice de bit reducido
transmitiendo coeficientes de filtro y ruido cuantizado en lugar de
una señal de conversación de banda ancha completa.
Un esquema de codificación de predicción lineal
que emplea índices variables ofrece disminuciones en el índice de
bit sin comprometer la calidad de conversación. En la figura 1, el
elemento de codificación de índice completo 110 codifica los
parámetros de la señal de conversación de entrada que usa más bits
para conservar mejor las características de la entrada. Para
periodos donde ninguna conversación se detecta, el elemento de
codificación de octavo índice 116 codifica los parámetros usando
menos bits desde que hay típicamente pequeños detalles o
información útil a ser capturados. Las transiciones entre periodos
de conversación activa y periodos sin conversación detectada son
codificadas por el elemento de codificación de medio índice 112 y el
elemento de codificación de cuarto índice
114.
114.
Refiriéndose ahora al elemento de decodificación
del vocoder de índice variable, el decodificador 104 recibe
una señal con los parámetros de conversación codificados así como
una señal indicando el índice usado para codificar la conversación.
Un elemento de extracción del índice 128 recibe esta señal de
entrada y determina el índice de datos de la conversación. Una
señal del índice de datos es también proveída a un interruptor 130
que selecciona el elemento de decodificación de un conjunto de
elementos de decodificación para decodificar correctamente los
parámetros de la entrada. En la figura 1, cuatro elementos de
decodificación, el elemento de decodificación de índice completo
120, el elemento de decodificación de medio índice 122, el elemento
de decodificación de cuarto índice 124, y el elemento de
decodificación de octavo índice 126 son proveídos para decodificar
los parámetros de la conversación en los cuatro posibles índices. El
elemento de decodificación seleccionado decodifica los parámetros
de entrada basado en el índice de datos para producir una señal de
muestras decodificadas, las cuales típicamente son muestras
moduladas de código de pulso (PCM) de 64 kbps. Una señal del índice
de datos determinada por el elemento de extracción del índice 128
también es proveída a un interruptor 132. El interruptor 132
selecciona el mismo elemento de decodificación como interruptor 130
para que una señal de las muestras decodificadas se proporcione a
una salida del vocoder.
Refiriéndose ahora a la figura 2, un diagrama de
bloque de un sistema de síntesis de conversación opera de acuerdo
con los principios de la invención actual, que incorpora un
vocoder de índice variable, se muestra. El sistema de
síntesis de conversación comprende un codificador de índice variable
202 y un sintetizador de conversación 204. Un ejemplo de
codificador de índice variable 202 es el codificador 102 de la
figura 1. El codificador de índice variable 202 recibe una señal de
la conversación como entrada, y codifica la conversación a uno de
un conjunto de índices predeterminados. En una realización
preferida, el codificador de índice variable 202 es un codificador
CELP que genera los parámetros de la conversación a uno de los
índices basado en la actividad de la conversación en el segmento de
entrada de la conversación.
La invención actual usa un vocoder de
índice variable como se describe en la Patente de EE.UU. No. 5,
414,796, abordada anteriormente, que está comercialmente disponible,
por ejemplo, como un producto de vocoder de Qualcomm
Incorporated a 13 kbps. En una realización preferida, el
decodificador de índice variable es un decodificador de índice
variable mejorado como se describe con relación al estándar
IS127.
En una realización de la invención actual, las
decisiones de codificación del índice son basadas en las medidas
de modo, como se abordó anteriormente. Las diferentes combinaciones
de criterio usados para hacer selecciones del índice son usadas
para crear lo que se nombra "modo de índice reducido"
("reduced rate mode") o "modos", y refiriéndose de
manera más simple como modo 0, modo 1, modo 2, y así, como se
entendería por aquellos expertos en la técnica. La invención actual
puede aprovecharse en tal modo para los propósitos de síntesis de
conversación.
La conversación recibida por el codificador de
índice variable 202 puede ser una palabra o una frase de un
vocabulario preseleccionado que un dispositivo de comunicación como
un teléfono inalámbrico, un equipo de auto, u otro dispositivo de
comunicación que es designado para sintetizar. El vocabulario
incluiría las sugerencias y alarmas a ser dadas a un usuario del
dispositivo. Por ejemplo, extrayendo y sintetizando cinco palabras
de vocabularios individuales: "llamada, redial, programa o
salida", el sintetizador de conversación puede diseñarse para
proporcionar las sugerencias "llamada, redial, programa, o
salida" en solicitud de una respuesta del usuario.
Alternativamente, el sintetizador de conversación puede diseñarse
para proporcionar información previamente almacenada, como los
libros telefónicos, tablas de búsqueda, o bases de datos, a un
usuario del dispositivo en respuesta de varias entradas de
dispositivo, incluyendo audio. La conversación recibida por el
codificador de índice variable 202 se codifica, y los parámetros
codificados son proporcionados a un elemento de memoria o circuito
206 del sintetizador de conversación 204 para el almacenamiento.
La memoria 206 se pretende para sostener o
almacenar los parámetros durante algún tiempo para el funcionamiento
del dispositivo deseado. Sin embargo, también generalmente es
deseable tener los parámetros almacenados de una manera que los
hace actualizables o reemplazables, como cuando el vocabulario
necesita ser cambiado para cambiar condiciones o actualizaciones a
los rasgos del dispositivo. Por consiguiente, la memoria 206 se
configura en la forma de memoria no volátil pero reescribible, lo
cual puede lograrse usando los elementos del tipo de memoria flash
como es bien conocido en la técnica.
Como uno reconocería, la operación de cargar los
parámetros puede realizarse durante la fabricación de un
dispositivo de comunicación para el cual la invención está pensada.
Desde que pueden predeterminarse las sugerencias y alarmas a ser
sintetizadas, éstas pueden codificarse durante la fabricación y
pueden almacenarse en la memoria flash 206 antes del uso. Los
parámetros pueden cambiarse o pueden reemplazarse durante el
servicio del dispositivo, o a través de nuevas técnicas de
programación sobre-el-aire
desarrolladas para los dispositivos inalámbricos.
Alternativamente, el codificador de índice
variable 202 puede recibir una señal de entrada de conversación
durante el funcionamiento del dispositivo de comunicación. Por
ejemplo, en respuesta a una sugerencia de un sintetizador de
conversación, el usuario puede proveer una respuesta hablada. El
codificador de índice variable 202 entonces codificará la
conversación del usuario, y los parámetros de codificación pueden
ser proveídos a la memoria flash 206 para el almacenamiento, y/o
proveídos a un reconocedor de voz (no mostrado) para propósitos de
reconocimiento de voz. En esta manera, los parámetros se entran
inmediatamente después de confeccionados en el dispositivo entrando
un servicio útil o sobre el tiempo, tal como construyendo una
biblioteca de vocabulario personal para cada usuario del
dispositivo (vocoder), relacionado a los requisitos de ese
usuario.
La memoria flash 206 debe ser de un tamaño que
sea suficiente para almacenar los parámetros del vocabulario
preseleccionado así como los parámetros de la conversación
anticipados del usuario. Así, el tamaño de la memoria flash 206
puede variar basado en los requisitos de una aplicación específica.
El almacenamiento puede tener ventaja de reproducir requerimientos
de memoria donde cada usuario del dispositivo no requiera como
extenso un vocabulario comparado a lo que un fabricante tendría que
instalar para cubrir un mercado entero del dispositivo más grande.
Los sintetizadores de conversación pueden grabar nombres u otras
palabras, como "Fred Smith" detectando los términos del
objetivo o la frase o conversación deseada, quitando el silencio o
las redundancias, y codificándolo. Por consiguiente, la
conversación puede grabarse "en línea" y puede usarse luego
para sintetizar la salida de la conversación.
Debe notarse que el codificador de índice
variable 202 puede configurarse basado en la memoria disponible y
la calidad de voz requerida. En el sistema que tiene cuatro índices
en donde el índice completo es 13 kbps, el índice promedio
generalmente será 5.88 kbps basado en el 40% de actividad de la voz.
El uso de índices de variable proporcionará alta calidad de
conversación. Sin embargo, si el tamaño de la memoria es limitado,
el codificador de índice variable 202 puede configurarse para operar
a, supongamos, un medio índice fijo de aproximadamente 800 bytes por
segundo.
Por otra parte, el índice puede seleccionarse de
un subconjunto del conjunto predeterminado de índices en lugar del
conjunto entero de índices. Por ejemplo, los modos de índice
reducidos discutidos anteriormente pueden usarse para seleccionar
varios índices. En una realización de la invención, los índices son
divididos en un conjunto de cuatro modos, etiquetados como modos 0,
1, 2, y 3. Usando índices fijos según el modo, índices en el orden
de 1800 bytes por segundo, 1540 bytes por segundo, 1400 bytes por
segundo, y 1100 bytes por segundo, respectivamente, puede usarse.
El uso de dichos índices reducidos fijos permite la entrega de voz
de muy alta calidad dado un índice de datos predefinido,
acercándose a la calidad línea-tierra
(land-line). Estos cuatro modos proporcionan
el mejor intercambio entre la calidad de la conversación sintetizada
y el requisito de memoria.
Además, el codificador de índice variable 202
puede intercambiar entre diferentes modos de funcionamiento (el
índice variable, el medio índice, un subconjunto de índices
variables, etc.) basado en los requerimientos instantáneos de la
aplicación. Debido a que puede haber un cambio entre la calidad de
voz y el tamaño de memoria, la configuración a ser adoptada
dependerá de la aplicación que se esté implementando.
Los parámetros de conversación almacenados en la
memoria flash 206 serán proveídos a un decodificador de índice
variable 208 cuando la síntesis de la conversación es deseada. El
decodificador de índice variable 208 se configura para decodificar
los parámetros generados al correspondiente codificador de índice
variable 202. Un ejemplo de decodificador de índice variable 208 es
el descodificador 104 de la figura 1. Generalmente, el
decodificador de índice variable 208 será implementado como parte de
un procesador de señal digital (DSP) usado dentro del dispositivo
de comunicación. Tales DSPs se usan como o para formar los elementos
de procesamiento para la codificación/decodificación, la
combinación, la codificación CDMA, el ajuste de la potencia, y así,
de la señal. Desde que tales elementos son típicamente usados en
dispositivos inalámbricos, y muchos otros dispositivos en los que
la invención puede ser útil, puede tomarse ventaja de su presencia
para implementar eficazmente la invención actual.
Para poder implementar la funcionalidad de
decodificación para la invención actual, sólo una pequeña cantidad
de memoria se requiere en o combinada a un DSP. Un decodificador
independiente dentro de o usando un DSP requiere una cantidad muy
pequeña de memoria (ambos programa y datos) para lograr la
capacidad de síntesis de conversación. El sintetizador de
conversación puede ser implementado usando los circuitos bien
conocidos DSP y dispositivos tal como los comercialmente disponibles
de los Dispositivos Analógicos y Qualcomm Incorporated.
Los parámetros descifrados, típicamente en forma
de muestras de código del pulso modulado (PCM), son entonces
proveídos a un codec 210. El codec 210 convierte
muestras PCM de un formato digital a una señal analógica La señal
analógica es proveída a un altavoz u otro dispositivo de salida de
audio conocido 212 que proyecta o transmite la conversación
sintetizada en el ambiente del dispositivo circundante dónde puede
ser oída.
Por consiguiente, un sintetizador de
conversación basado en la codificación de voz de índice variable es
proporcionado por la invención actual. El sintetizador de
conversación es especialmente conveniente para el uso en
dispositivos de comunicación inalámbrica que ya comprenden un
vocoder de índice variable. En otras palabras, un
vocoder de índice variable existente que puede emplearse por
el sintetizador de conversación, a través del uso de cambios
apropiados en operacionales de programa o instrucciones, o usando el
hardware del control. En adición, a través del uso de la
codificación de voz de índice variable, la compresión almacenada
puede permitir un vocabulario predeterminado para ser almacenado
en una memoria de tamaño limitado asociada con el dispositivo
inalámbrico u otro equipo con el que interactúa. Además, el cambio
entre la calidad de la voz y el tamaño de la memoria puede ser
considerado configurando el vocoder de índice variable para
proporcionar un sintetizador de conversación con la calidad de la
voz y tamaño de memoria deseadas.
La invención actual puede encontrar aplicación
en una variedad de dispositivos de comunicación y equipos de
interacción. Las realizaciones del ejemplo anterior se discutieron
en relación con los dispositivos de comunicación inalámbrica tal
como, pero no limitado a, celular y el teléfonos de satélite, a
menudo referido como terminales de usuarios, unidades del
subscriptor, estaciones móviles, o simplemente "usuarios",
"móviles" o "subscriptores". En adición, otros
dispositivos también se contemplan, como los receptores del mensaje
y los dispositivos de transferencia de datos (por ejemplo,
ordenadores portátiles, asistentes de datos personales, módems,
controladores de maquinarias), o interfaces para redes de teléfonos
públicos o canales de comunicación dedicados.
La invención puede ser implementada usando
circuitos separados en forma de componentes dedicados o circuitos
integrados específicos de aplicación (ASIC) para formar un
sintetizador de conversación que se instala dentro de un
dispositivo deseado. Alternativamente, puede incorporarse dentro de
otros ASIC y dispositivos usando una pequeña cantidad de memoria
adicional para trabajar con los elementos de procesamiento de señal
digital existentes.
La descripción anterior de las realizaciones
preferidas es proveída para permitir a cualquier persona experta en
la técnica hacer o usar la invención actual. Las diversas
modificaciones de estas realizaciones serán fácilmente aparentes a
aquellos expertos en la técnica, y los principios genéricos
definidos aquí dentro quizás aplicados a otras realizaciones sin el
uso de la facultad inventiva. Así, la invención actual no se
pretende que esté limitada a las realizaciones mostradas aquí
dentro pero estarán acordadas a largo alcance y definidas por las
reivindicaciones.
Claims (20)
1. Un mecanismo (204) para sintetizar un
vocabulario preseleccionado en un sistema de comunicación
inalámbrica, en donde dicho vocabulario preseleccionado se ha
codificado por un codificador de índice variable (102,202) a un
conjunto de índices variables, el mecanismo (204) comprendiendo:
- Una memoria (206) para almacenar un conjunto de parámetros de la conversación;
- Un procesador configurado para aceptar una entrada verbal de un usuario;
- Un decodificador de índice variable (104,208) para descifrar parámetros de la conversación para generar muestras de conversación decodificadas; y
- Un convertidor digital-a-analógico (210) para convertir dichas muestras de conversación en una señal analógica para transmisión como la conversación sintetizada, caracterizada porque:
- Dicho conjunto de parámetros de la conversación representa dicho vocabulario preseleccionado codificado;
- El procesador es configurado para escoger un subconjunto de parámetros de la conversación de dicho conjunto de parámetros de la conversación de acuerdo con dicha la entrada verbal de dicho usuario; y
- El decodificador de índice variable (104,208) se configura para decodificar dicho subconjunto de parámetros de la conversación.
2. El mecanismo (204) de la reivindicación 1,
en donde dicho codificador de índice variable (102,202) está basado
en la predicción lineal.
3. El mecanismo (204) de la reivindicación 1,
en donde dicho decodificador de índice variable (104,208) está
basado en la predicción lineal.
4. El mecanismo (204) de la reivindicación 1,
en donde dicho conjunto de parámetros de la conversación se codifica
a un conjunto de índices variables comprendiendo un índice completo,
un medio índice, un cuarto índice, y un octavo índice.
5. El mecanismo (204) de la reivindicación 4,
en donde dicho índice completo es 13.2 kbps, dicho medio índice es
aproximadamente 6.2 kbps, y cuarto índice es aproximadamente 2.7
kbps, y dicho octavo índice es aproximadamente 1.0 kbps.
6. El mecanismo (204) de la reivindicación 4,
en donde dicho conjunto de parámetros de la conversación se codifica
a un índice fijo en respuesta a uno o más criterios de modo
moderado.
7. El mecanismo (204) de la reivindicación 4,
en donde dicho conjunto de parámetros de la conversación se
codifica a un índice fijo a dicho medio índice.
8. El mecanismo (204) de la reivindicación 4,
en donde el índice de la codificación se selecciona de acuerdo con
los requisitos de la calidad de voz y el tamaño de memoria
(206).
9. El mecanismo (204) de la reivindicación 1,
en donde dicho sistema de comunicación inalámbrica es un sistema
CDMA.
10. El mecanismo (204) de la reivindicación 1,
en donde dicho codificador de índice variable (102,202) comprende un
codificador de índice variable mejorado.
11. Un método para sintetizar un vocabulario
preseleccionado en un sistema de comunicación inalámbrica, en donde
dicho vocabulario preseleccionado se ha codificado por un
codificador de índice variable (102, 202) a un conjunto de índices
variables, el método comprendiendo:
- Recibir una entrada verbal del usuario;
- Recuperar un conjunto de parámetros de la conversación guardado en una memoria (206);
- Decodificar (104,208) dicho conjunto de parámetros de la conversación usando un esquema de decodificación de índice variable para generar muestras de conversación decodificada; y
- Convertir (210) dichas muestras de la conversación en una señal analógica para la transmisión como la conversación sintetizada, caracterizada porque:
- Dicho conjunto de parámetros de la conversación representa dicho vocabulario preseleccionado codificado;
- Un subconjunto de parámetros de la conversación es escogido de dicho conjunto de parámetros de la conversación de acuerdo con la entrada verbal del usuario; y
- Dicho subconjunto de parámetros de la conversación es decodificado usando el esquema de decodificación de índice variable (104,208).
12. El método de la reivindicación 11, en
donde dicho codificador de índice variable (102, 202) realiza un
esquema de codificación de índice variable que está basada en la
predicción lineal.
13. El método de la reivindicación 11, en
donde dicho esquema de descodificación de índice variable está
basada en la predicción lineal.
14. El método de la reivindicación 11, en
donde dicho conjunto de parámetros de la conversación se codifica a
un conjunto de índices variables comprendiendo un índice completo,
un medio índice, un cuarto índice, y un octavo índice.
15. El método de la reivindicación 14, en
donde dicho índice completo es 13.2 kbps, dicho medio índice es
aproximadamente 6.2 kbps, dicho cuarto índice es aproximadamente 2.7
kbps, y dicho octavo índice es aproximadamente 1.0 kbps.
16. El método de la reivindicación 14, en
donde dicho conjunto de parámetros de la conversación se codifica a
un índice fijo en respuesta a uno o más criterios de modo
moderado.
17. El método de la reivindicación 14, en
donde dicho conjunto de parámetros de la conversación se codifica a
un índice fijo a dicho medio índice.
18. El método de la reivindicación 14, en
donde el índice de la codificación se selecciona de acuerdo con los
requisitos de la calidad de voz y el tamaño de dicha memoria
(206).
19. El método de la reivindicación 11, en
donde dicho sistema de comunicación inalámbrica comprende un
sistema CDMA.
20. El método de la reivindicación 11,
comprendiendo:
- Codificar (102, 202) dicha entrada verbal del usuario; y
- Adicionar dicha entrada verbal del usuario en dicha memoria (206) como una parte de dichos parámetros de conversación.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24660599A | 1999-02-08 | 1999-02-08 | |
US246605 | 1999-02-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2263459T3 true ES2263459T3 (es) | 2006-12-16 |
Family
ID=22931374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00914511T Expired - Lifetime ES2263459T3 (es) | 1999-02-08 | 2000-02-04 | Sistetizador de conversacion basado en la codificacion de conversacion de indice variable. |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP1159738B1 (es) |
JP (2) | JP4503853B2 (es) |
KR (1) | KR100648872B1 (es) |
CN (1) | CN1212604C (es) |
AT (1) | ATE322731T1 (es) |
AU (1) | AU3589100A (es) |
DE (1) | DE60027140T2 (es) |
ES (1) | ES2263459T3 (es) |
HK (1) | HK1042980B (es) |
WO (1) | WO2000046795A1 (es) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4867076B2 (ja) * | 2001-03-28 | 2012-02-01 | 日本電気株式会社 | 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法 |
KR100425982B1 (ko) * | 2001-12-29 | 2004-04-06 | 엘지전자 주식회사 | 아이엠티-2000 망의 음성 데이터 속도 변경 방법 |
KR100651731B1 (ko) * | 2003-12-26 | 2006-12-01 | 한국전자통신연구원 | 가변 프레임 음성 부호화/복호화 장치 및 그 방법 |
CN101692685B (zh) * | 2009-10-29 | 2012-05-30 | 中国电信股份有限公司 | 一种彩铃音质改善的方法和系统 |
JP5677470B2 (ja) * | 2011-02-03 | 2015-02-25 | パナソニックIpマネジメント株式会社 | 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法 |
CN106952651A (zh) * | 2017-02-17 | 2017-07-14 | 福建星网智慧科技股份有限公司 | 一种语音处理装置传输语音的方法以及系统 |
US11404045B2 (en) | 2019-08-30 | 2022-08-02 | Samsung Electronics Co., Ltd. | Speech synthesis method and apparatus |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0331858B1 (en) * | 1988-03-08 | 1993-08-25 | International Business Machines Corporation | Multi-rate voice encoding method and device |
AU671952B2 (en) * | 1991-06-11 | 1996-09-19 | Qualcomm Incorporated | Variable rate vocoder |
JP3081300B2 (ja) * | 1991-10-01 | 2000-08-28 | 三洋電機株式会社 | 残差駆動型音声合成装置 |
TW271524B (es) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
US6137840A (en) * | 1995-03-31 | 2000-10-24 | Qualcomm Incorporated | Method and apparatus for performing fast power control in a mobile communication system |
US5790957A (en) * | 1995-09-12 | 1998-08-04 | Nokia Mobile Phones Ltd. | Speech recall in cellular telephone |
US5914950A (en) * | 1997-04-08 | 1999-06-22 | Qualcomm Incorporated | Method and apparatus for reverse link rate scheduling |
DE29717372U1 (de) * | 1997-09-29 | 1997-11-27 | Siemens AG, 80333 München | Integrierter Schaltkreis für ein mobiles Funkgerät mit Anrufbeantworterfunktion |
-
2000
- 2000-02-04 KR KR1020017009887A patent/KR100648872B1/ko not_active IP Right Cessation
- 2000-02-04 AT AT00914511T patent/ATE322731T1/de not_active IP Right Cessation
- 2000-02-04 WO PCT/US2000/002900 patent/WO2000046795A1/en active IP Right Grant
- 2000-02-04 EP EP00914511A patent/EP1159738B1/en not_active Expired - Lifetime
- 2000-02-04 ES ES00914511T patent/ES2263459T3/es not_active Expired - Lifetime
- 2000-02-04 JP JP2000597796A patent/JP4503853B2/ja not_active Expired - Fee Related
- 2000-02-04 CN CNB00803589XA patent/CN1212604C/zh not_active Expired - Fee Related
- 2000-02-04 AU AU35891/00A patent/AU3589100A/en not_active Abandoned
- 2000-02-04 DE DE60027140T patent/DE60027140T2/de not_active Expired - Lifetime
-
2002
- 2002-06-27 HK HK02104772.4A patent/HK1042980B/zh not_active IP Right Cessation
-
2009
- 2009-10-30 JP JP2009250670A patent/JP2010092059A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2000046795A9 (en) | 2001-10-18 |
EP1159738B1 (en) | 2006-04-05 |
KR20020012157A (ko) | 2002-02-15 |
HK1042980B (zh) | 2005-12-23 |
AU3589100A (en) | 2000-08-25 |
WO2000046795A1 (en) | 2000-08-10 |
JP4503853B2 (ja) | 2010-07-14 |
DE60027140T2 (de) | 2007-01-11 |
CN1347548A (zh) | 2002-05-01 |
ATE322731T1 (de) | 2006-04-15 |
KR100648872B1 (ko) | 2006-11-24 |
JP2002536693A (ja) | 2002-10-29 |
CN1212604C (zh) | 2005-07-27 |
HK1042980A1 (en) | 2002-08-30 |
JP2010092059A (ja) | 2010-04-22 |
DE60027140D1 (de) | 2006-05-18 |
EP1159738A1 (en) | 2001-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9940923B2 (en) | Voice and text communication system, method and apparatus | |
ES2629727T3 (es) | Sistema y método para la transmisión adaptativa de parámetros de ruido de confort durante la transmisión de habla discontinua | |
ES2265442T3 (es) | Aparato para la expansion del ancho de banda de una señal vocal. | |
KR100923891B1 (ko) | 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치 | |
US5251261A (en) | Device for the digital recording and reproduction of speech signals | |
JP2007534278A (ja) | ショートメッセージサービスを通じる音声 | |
ES2371455T3 (es) | Pre-procesamiento de datos digitales de audio para codecs de audio de móvil. | |
RU2333546C2 (ru) | Устройство и способ речевой модуляции | |
JP2010092059A (ja) | 可変率音声符号化に基づいた音声合成装置 | |
KR100506224B1 (ko) | 이동 통신 단말기에서 노이즈 제어장치 및 방법 | |
JP3507686B2 (ja) | 音声認識機能を有する通信装置及び通信方法 | |
KR20000053407A (ko) | 음성 채널을 통한 비음성 정보 전송 방법 | |
KR100911278B1 (ko) | 음원 공급 장치 및 음원 공급 방법 | |
JP2001242896A (ja) | 音声符号化/復号装置およびその方法 | |
JP2000068925A (ja) | 音声チャネル上でデ―タを送信する方法およびシステム | |
KR101011320B1 (ko) | 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치 | |
TWI333640B (en) | Method and information processing system for quantizing pitch information of audio | |
JP5255358B2 (ja) | 音声伝送システム | |
JPH10326100A (ja) | 音声録音方法及び音声再生方法及び音声録音再生装置 | |
GB2254986A (en) | Device for storing and reproducing speech | |
KR101154948B1 (ko) | 이동통신 단말기의 음악 재생 중 문자 메세지 알림방법 | |
JP2979859B2 (ja) | デジタル移動無線装置 | |
US6173254B1 (en) | Recorded message playback system for a variable bit rate system | |
KR20050045764A (ko) | 무선 단말기에서의 음성 저장/재생 장치 및 방법 | |
KR20010038033A (ko) | 이동통신 시스템에서의 착신음 발생 장치 및 방법 |