ES2263459T3 - Sistetizador de conversacion basado en la codificacion de conversacion de indice variable. - Google Patents

Sistetizador de conversacion basado en la codificacion de conversacion de indice variable.

Info

Publication number
ES2263459T3
ES2263459T3 ES00914511T ES00914511T ES2263459T3 ES 2263459 T3 ES2263459 T3 ES 2263459T3 ES 00914511 T ES00914511 T ES 00914511T ES 00914511 T ES00914511 T ES 00914511T ES 2263459 T3 ES2263459 T3 ES 2263459T3
Authority
ES
Spain
Prior art keywords
index
conversation
parameters
variable
kbps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00914511T
Other languages
English (en)
Inventor
Chienchung Chang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2263459T3 publication Critical patent/ES2263459T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

Un mecanismo (204) para sintetizar un vocabulario preseleccionado en un sistema de comunicación inalámbrica, en donde dicho vocabulario preseleccionado se ha codificado por un codificador de índice variable (102, 202) a un conjunto de índices variables, el mecanismo (204) comprendiendo: Una memoria (206) para almacenar un conjunto de parámetros de la conversación; Un procesador configurado para aceptar una entrada verbal de un usuario; Un decodificador de índice variable (104, 208) para descifrar parámetros de la conversación para generar muestras de conversación decodificadas; y Un convertidor digital-a-analógico (210) para convertir dichas muestras de conversación en una señal analógica para transmisión como la conversación sintetizada, caracterizada porque: Dicho conjunto de parámetros de la conversación representa dicho vocabulario preseleccionado codificado; El procesador es configurado para escoger un subconjunto de parámetros de la conversación de dicho conjunto de parámetros de la conversación de acuerdo con dicha la entrada verbal de dicho usuario; y El decodificador de índice variable (104, 208) se configura para decodificar dicho subconjunto de parámetros de la conversación.

Description

Sintetizador de conversación basado en la codificación de conversación de índice variable.
Antecedentes de la invención I. Campo de la invención
La invención actual se refiere a la síntesis de conversación. Más particularmente, la invención actual se refiere a la síntesis de conversación codificada por un vocoder (codificador de audio) de índice variable. La invención además se refiere al uso de la síntesis de conversación con dispositivos de comunicación inalámbrica.
II. Descripción de la técnica relacionada
La síntesis de conversación electrónica es útil en un número de aplicaciones. Cada vez más, los ordenadores y otros equipos electrónicos están proporcionando la opción de avisos hablados como una interfaz del usuario. Por ejemplo, la conversación puede utilizarse para leer los mensajes del correo electrónico, para generar los avisos hablados en un sistema de contestación de voz, o para proporcionar direcciones a un chofer en un vehículo.
Hay dos tipos generales de sintetizadores de conversación o técnicas usadas para generar conversación. El primer tipo se le refiere como un sintetizador de conversación Texto-de-Conversación (text-to-speech) (TTS), y está basado en gramática. Un sistema basado en TTS convierte el texto ordinario en conversación sonora inteligible y natural. Es útil para aplicaciones que necesitan una conversión automática de entrada de texto arbitrario en salida de conversación sonora inteligible y natural. Es especialmente útil cuando están involucrados grandes vocabularios y/o datos que cambian dinámicamente. El sistema TTS es útil en aplicaciones como el proporcionar alarmas y sugerencias de voz automáticas, corrección de pruebas, acceso telefónico a bases de datos, y conversión de correo electrónico a correo de voz o salida de audio. Debido a que TTS es flexible y poderoso, ofrece utilidad en muchas aplicaciones. Sin embargo, la implementación de un sistema TTS puede requerir tremenda cantidad de memoria y recursos de poder de procesamiento. Puede contener también un tono de máquina si el sintetizador no simula la entonación de la conversación humana con detalle. Como consecuencia, TTS no es una opción práctica para aplicaciones con memoria y recursos de procesamiento limitados, tal como la existente en los dispositivos inalámbricos portátiles pequeños, ordenadores o dispositivos de comunicación localizados remotamente, etc.
Un segundo tipo de sintetizador de conversación es el basado en la Codificación de Voz (Vocoder). Un vocoder comprime conversación de voz, o señales de audio, extrayendo parámetros que se refieren a un modelo de generación de conversación humana. Se han desarrollado vocoders para comprimir conversación de entrada que se ha convertido digitalmente a un índice de 64 kilo bits por segundo (kbps) hasta 13 kbps, 8 kbps, o aun más índices bajos. Un vocoder basado en sintetizador de conversación genera ciertos parámetros de o para que la conversación sea sintetizada. Los parámetros se guardan en algún tipo de memoria, preferentemente del tipo flash, y se descifran sobre la síntesis de conversación. Debido a que los parámetros de todas las palabras a ser sintetizadas necesitan ser guardados en memoria, los vocoder basados en sintetizadores de conversación son más convenientes para aplicaciones que no requieren vocabularios grandes. Ellos son especialmente convenientes para sistemas que tienen memoria y recursos de procesamiento limitados.
El documento EP-A-0 762 711 describe el almacenamiento de la conversación en un teléfono celular portátil. La conversación puede entrarse vía un micrófono y comprimirse y guardarse para la subsiguiente reproducción, o la transmisión sobre un canal. La compresión puede ser efectiva usando el sistema de circuitos eléctricos existente, como el digital.
Para el vocoder basado en sintetizadores de la conversación, existe una necesidad de optimizar el uso de memoria mientras se mantiene una calidad de conversación aceptable. Para algunas aplicaciones, puede ser deseable maximizar el tamaño del vocabulario para un tamaño dado de memoria. Además, también puede ser deseable usar los recursos de procesamiento de señal ya disponibles dentro de un sistema de comunicación dado diseñado para realizar la síntesis de la conversación. Un sintetizador de conversación que posee éstas y otras características que son proporcionadas por la invención actual de la manera descrita debajo.
Sumario de la invención
La invención actual es un mecanismo y método para la síntesis de la conversación como se expone en las reivindicaciones 1 y 11, respectivamente, y basado en la codificación de voz de índice variable. La conversación a ser sintetizada es codificada por un vocoder de índice variable. Un vocoder de índice variable codifica un marco (frame) de conversación a uno de un conjunto de índices predeterminados basado en la actividad de la conversación que tiene lugar dentro del marco de conversación. En una realización, el vocoder de índice variable es un codificador de predicción lineal agitada de código (CELP) que tiene cuatro índices de bit. Así, una señal de conversación de entrada es codificada en parámetros de la conversación a uno de los cuatro índices usando un esquema de codificación CELP para el índice seleccionado. Los parámetros de la conversación son proporcionados generalmente a un decodificador que realiza un esquema de decodificación de índice variable correspondiente con el esquema de codificación de índice variable utilizado. El decodificador produce ejemplos de conversación, los cuales se le proveen a un codificador-decodificador o codec para la conversión digital-a-analógica. La señal análoga resultante generada por el codec es entonces difundida a través de un altavoz u otro dispositivo conocido de salida de audio como la conversación sintetizada.
El sintetizador de conversación de la invención actual es especialmente conveniente para el uso en sistemas de comunicación inalámbrica en donde la codificación de voz de índice variable ya está implementada. En estos sistemas, los recursos de la codificación de voz existentes pueden emplearse para la síntesis de la conversación. Alternativamente, los elementos DSP, ya presente o fácilmente incorporados, pueden usarse junto con una cantidad pequeña de memoria para proporcionar la función de sintetizador de conversación. En adición, un sintetizador de conversación basado en la codificación de voz de índice variable es capaz de proporcionar buena calidad de la conversación sin requerir una cantidad grande de memoria. El nivel de compresión proporcionado por un vocoder de índice variable lo hace conveniente para las aplicaciones con la memoria limitada.
Descripción breve de las figuras
Los rasgos, objetos, y ventajas de la invención actual se verán más claros en la descripción detallada expuesta debajo cuando se toma en conjunto con las figuras en las que los caracteres de referencia identifican correspondientemente a lo largo de y en donde:
La figura 1 es un diagrama de bloque de un vocoder de índice variable; y
La figura 2 es un diagrama de bloque del sintetizador de conversación de la invención actual.
Descripción detallada de las realizaciones preferidas
La invención actual provee un mecanismo y método para sintetizar la conversación que es muy útil cuando se usa con equipos de comunicación inalámbrica. La invención puede aprovecharse de recursos de procesamiento de señales existentes en equipos de comunicación inalámbrica o un mínimo de hardware adicional para sintetizar la conversación de una manera que proporciona alta calidad de la conversación y requiere un tamaño de memoria pequeño.
La invención actual es muy útil cuando se utiliza junto con una variedad de dispositivos o sistemas de comunicación conocidos, y se describe debajo con respecto a un sistema de comunicación inalámbrica CDMA. En adición, se contempla que se satisface particularmente bien para aplicaciones específicas, como los equipos de automóvil manos-libres usados para montar y operar dispositivos inalámbricos en los vehículos. Sin embargo, aquellos expertos en la técnica entenderán fácilmente que ésta no es una limitación de la invención actual, y que puede usarse con otros tipos de dispositivos de comunicación que incluyen aquéllos que se comunican por cables, línea de alambre, o cable óptico, sistemas de tipo, y aquéllos que usan otras técnicas de modulación de señales.
Un sistema de comunicación inalámbrica ejemplar hace uso de las técnicas de modulación de acceso múltiple de división del código (CDMA). Aunque otras técnicas tal como el acceso múltiple de división de tiempo (TDMA), el acceso múltiple de división de frecuencia (FDMA), y esquemas de modulación de amplitud (AM) tal como "Simple Banda Lateral de Amplitud" (ACSSB) son conocidas, los CDMA tienen ventajas significantes sobre estas otras técnicas. El uso de técnicas CDMA en un sistema de comunicación de acceso múltiple es descrito en la Patente de EE.UU. No. 4, 901,307, titulada "Sistema De Comunicación De Acceso Múltiple De Espectro Esparcido Usando Satélites O Repetidores Terrestres" ("Sprend Spectrum Multiple AccessCommunication System Using Satellite Or Terrestrial Repeaters") asignados al apoderado de la invención actual.
Un sintetizador de conversación puede implementarse en dispositivos o equipos de comunicación inalámbrica por varias razones. Por ejemplo, la síntesis de conversación puede ser parte de un sistema de reconocimiento de voz en un teléfono inalámbrico o un equipo de automóvil manos-libres usada para soportar operaciones en un vehículo. Un sintetizador de conversación puede proporcionar información en forma audible cuando un usuario u operador del dispositivo no pueden observar visualmente una pantalla o indicadores de salida en el dispositivo. Por ejemplo, la información puede proporcionarse para permitir operaciones o salida del dispositivo cuando un chofer de vehículo o un operador de maquinaria no pueden mirar de manera segura el dispositivo de comunicación, de cerca. El sintetizador de conversación permitiría además operaciones de dispositivos para manos libres proporcionando sugerencia de voz para operaciones a ser realizadas. Por ejemplo, el sintetizador de conversación puede pedir el nombre de una persona a ser llamada, permitiendo al dispositivo marcar un número del teléfono automáticamente, o pedir un comando a ser ejecutado, tal como marcar, guardar, abrir el correo, terminar un intento de llamada, o apagar.
En una realización el sintetizador de conversación de la invención actual hace uso del sistema de circuitos eléctricos del vocoder ya presente en varios dispositivos inalámbricos como teléfonos y otros productos inalámbricos usados por subscriptores del servicio de comunicación para generar conversación expresada. Específicamente, el sintetizador de conversación está basado en un vocoder de índice variable. Un vocoder de índice variable usa la actividad de conversación para variar su índice de datos instantáneo. Durante la conversación activa, el vocoder codificador usa un número grande de bits para codificar las muestras de conversación. Durante el periodo de silencio, el vocoder codificador usa poco o los más pocos bits para codificar el ruido de fondo. Realizaciones ejemplares de vocoders de índice variable son descritas en las Patentes americanas No. 5,414, 796 y 5 657,420, tituladas "Vocoder de Índice Variable" ("Variable Rate Vocoder") y asignadas al apoderado de la invención actual.
Los vocoders de índice variable se usan comúnmente en sistemas de comunicación del tipo CDMA para aumentar la capacidad del sistema disminuyendo el número de bits generalmente usados por cada señal de comunicación. Un vocoder de índice variable puede, por ejemplo, implementarse en un sistema de comunicación CDMA de la Patente No. 4, 901,307 abordada anteriormente. En un sistema de comunicación CDMA, diversos usuarios se comunican usando la misma anchura de banda, pero usando diferentes canales de código. Un vocoder de índice variable en un sistema de comunicación CD-MA se aprovecha del hecho de que un usuario sólo está hablando activamente aproximadamente el 40% del tiempo en cualquier canal dado. Enviando pocos bits cuando un usuario está callado, el vocoder de índice variable les permite a más usuarios compartir el mismo ancho de banda.
Un diagrama de bloque esquemático de un vocoder de índice variable típico se muestra en la figura 1 y generalmente se indica por 100. El vocoder mostrado en la figura 1 usa cuatro índices de datos diferentes, aunque debe entenderse que un número diferente de índices de datos puede emplearse en lugar de eso, como se conocería en la técnica. En el conjunto de cuatro índices, si el índice máximo es 13.2 kbps, entonces el índice completo corresponde a 13.2 kbps, 1/2 índice corresponde a aproximadamente 6.2 kbps, 1/4 índice corresponde a aproximadamente 2.7 kbps, y 1/8 índice corresponde a aproximadamente 1.0 kbps. Note que el índice de bit actual para otros índices aparte del índice completo es aproximado debido al uso de bits de arriba, como se entiende bien en la técnica.
Refiriéndose todavía a la figura 1, puede verse que el vocoder de índice variable 100 incluye un codificador 102 y un descodificador 104. El codificador 102 recibe las muestras de conversación para los marcos de datos de conversación como una entrada, por ejemplo, como muestras PCM de índice de datos de 8-bits a 64 kbps, en cualquier formato mu-law o a-law. El codificador 102 codifica éstas muestras de conversación en parámetros de conversación a uno de los cuatro índices de datos, dependiendo de la actividad de la conversación. Las muestras de conversación de entrada también se proporcionan al elemento de determinación del índice 106.
El elemento de determinación del índice 106 puede implementar cualquiera de varios algoritmos de decisión de índice. En una realización, el umbral de energía relativo al nivel de energía del ruido de fondo se usa para determinar la actividad de la conversación, y consecuentemente el índice, en el cual las muestras de entrada serán codificadas. Si la energía del marco actual de muestras de la conversación difiere por encima de la energía del ruido de fondo, entonces el elemento de determinación del índice 106 determinará que el marco será codificado a índice completo. Si la energía del marco actual está cerca de la energía del ruido de fondo, entonces el elemento de determinación del índice 106 determinará que el marco será codificado a octavo índice, y así, como es conocido.
Otra técnica de determinación de índice está anunciada en EP-A-1, 339,044, titulada "Método y Mecanismo Para Realizar Codificación De Voz De Índice Variable A Índice Reducido" ("Method And Apparatus For Performing Reduced Rate Variable Rate Vocoding") asignado al apoderado de la invención actual. Esta técnica proporciona el conjunto de criterios de decisión de índice referidos como medidas de modo (mode measures). Una primera medida de modo es la "Proporción Ruido a Letra" coincidente con el objetivo (TMSNR) del marco de codificación anterior, que proporciona información sobre cuan bien el modelo de codificación está funcionando comparando una señal de conversación sintetizada con la señal de conversación de entrada. Una segunda medida de modo es la función de la auto-correlación normalizada (NACF) que mide periodicidad en el marco de conversación. Una tercera medida de modo es los parámetros de cruces ceros (ZC), que mide el contenido de frecuencia alta en un marco de conversación de entrada. Una cuarta medida, el diferencial de ganancia de predicción (PGD), determina si el codificador está manteniendo su eficacia de predicción. Una quinta medida es el diferencial de energía (ED), que compara la energía en el marco actual con una energía promedio de marco.
Usando las medidas de modo discutidas anteriormente, la lógica de determinación de índice selecciona un índice de codificación para cada marco de datos de conversación de entrada. Los valores para los diversos modos seleccionan uno de dichos cuatro o más modos con el cual operar. Es decir, los valores detectados para cada medida de modo relativa a un umbral u otros criterios determinan cual índice de codificación se selecciona, basado en un modelo o jerarquía preseleccionada. Por ejemplo; si el valor para NACF es menor que un umbral preseleccionado y ZC es mayor que un segundo umbral preseleccionado un índice puede ser seleccionado. Sin embargo, si estas condiciones no se reúnen pero ED es más bajo que un tercer umbral, entonces un cuarto índice podría seleccionarse. Si el valor para TSNR es mayor, PGD es menor, y NACF es mayor que el cuarto, quinto, y sexto umbrales, respectivamente, entonces un índice medio puede ser seleccionado. Tales diversas combinaciones y umbrales pueden emplearse por aquellos expertos en la técnica para seleccionar índices de codificación.
Debe entenderse que sin embargo otras técnicas de determinación de índice pueden ser adoptadas por el elemento de determinación del índice 106.
Refiriéndose todavía a la figura 1, una señal indicando el índice de datos determinado por el elemento de determinación del índice 106 se proporciona a un interruptor 108. El interruptor 108 selecciona un elemento para codificar un marco de muestras de conversación de entrada de entre un elemento de codificación de índice completo 110, un elemento de codificación de medio índice 112, un elemento de codificación de cuarto índice 114, y un elemento de codificación de octavo índice 116, como es designado por la señal de índice de datos. El elemento de codificación seleccionado codifica las muestras de conversación para producir una señal de un paquete de datos codificado. El elemento de determinación de índice 106 también proporciona una señal indicando el índice de datos a un interruptor 118 que selecciona el mismo elemento de codificación como interruptor 108 para que la señal del paquete de datos codificados generada por el elemento de codificación seleccionado pueda ser proporcionada a una salida del vocoder de índice variable.
Cada uno de los elementos codificados 110, 112, 114, y 116 es configurado para codificar la conversación usando un esquema de codificación predeterminado. Un esquema de codificación basado en predicción lineal, como el codificador Predictivo Lineal de Código Alterado (CELP), se usa en una realización preferida. El codificador CELP se describe en el artículo "Un Codificador Predictivo Lineal De Código Alterado de 4.8 Kbps" ("A 4.8 Kbps Code Excited LinearPredictive Coder") por Thomas E., Tremain, Procedimientos de la Conferencia del Satélite Móvil, 1988. Los codificadores basados en predicción lineal comprimen la conversación quitando las redundancias naturales inherentes en la conversación. La conversación típicamente exhibe redundancias de plazo corto que son el resultado de la acción mecánica de los labios y la lengua, y redundancias de plazo largo que son el resultado de la vibración de los cordones vocales. Los esquemas de predicción lineal modelan estos funcionamientos como filtros, quitan las redundancias, y entonces modelan la señal residual resultante como el ruido gausiano blanco. Por consiguiente, los codificadores de predicción lineal logran un índice de bit reducido transmitiendo coeficientes de filtro y ruido cuantizado en lugar de una señal de conversación de banda ancha completa.
Un esquema de codificación de predicción lineal que emplea índices variables ofrece disminuciones en el índice de bit sin comprometer la calidad de conversación. En la figura 1, el elemento de codificación de índice completo 110 codifica los parámetros de la señal de conversación de entrada que usa más bits para conservar mejor las características de la entrada. Para periodos donde ninguna conversación se detecta, el elemento de codificación de octavo índice 116 codifica los parámetros usando menos bits desde que hay típicamente pequeños detalles o información útil a ser capturados. Las transiciones entre periodos de conversación activa y periodos sin conversación detectada son codificadas por el elemento de codificación de medio índice 112 y el elemento de codificación de cuarto índice
114.
Refiriéndose ahora al elemento de decodificación del vocoder de índice variable, el decodificador 104 recibe una señal con los parámetros de conversación codificados así como una señal indicando el índice usado para codificar la conversación. Un elemento de extracción del índice 128 recibe esta señal de entrada y determina el índice de datos de la conversación. Una señal del índice de datos es también proveída a un interruptor 130 que selecciona el elemento de decodificación de un conjunto de elementos de decodificación para decodificar correctamente los parámetros de la entrada. En la figura 1, cuatro elementos de decodificación, el elemento de decodificación de índice completo 120, el elemento de decodificación de medio índice 122, el elemento de decodificación de cuarto índice 124, y el elemento de decodificación de octavo índice 126 son proveídos para decodificar los parámetros de la conversación en los cuatro posibles índices. El elemento de decodificación seleccionado decodifica los parámetros de entrada basado en el índice de datos para producir una señal de muestras decodificadas, las cuales típicamente son muestras moduladas de código de pulso (PCM) de 64 kbps. Una señal del índice de datos determinada por el elemento de extracción del índice 128 también es proveída a un interruptor 132. El interruptor 132 selecciona el mismo elemento de decodificación como interruptor 130 para que una señal de las muestras decodificadas se proporcione a una salida del vocoder.
Refiriéndose ahora a la figura 2, un diagrama de bloque de un sistema de síntesis de conversación opera de acuerdo con los principios de la invención actual, que incorpora un vocoder de índice variable, se muestra. El sistema de síntesis de conversación comprende un codificador de índice variable 202 y un sintetizador de conversación 204. Un ejemplo de codificador de índice variable 202 es el codificador 102 de la figura 1. El codificador de índice variable 202 recibe una señal de la conversación como entrada, y codifica la conversación a uno de un conjunto de índices predeterminados. En una realización preferida, el codificador de índice variable 202 es un codificador CELP que genera los parámetros de la conversación a uno de los índices basado en la actividad de la conversación en el segmento de entrada de la conversación.
La invención actual usa un vocoder de índice variable como se describe en la Patente de EE.UU. No. 5, 414,796, abordada anteriormente, que está comercialmente disponible, por ejemplo, como un producto de vocoder de Qualcomm Incorporated a 13 kbps. En una realización preferida, el decodificador de índice variable es un decodificador de índice variable mejorado como se describe con relación al estándar IS127.
En una realización de la invención actual, las decisiones de codificación del índice son basadas en las medidas de modo, como se abordó anteriormente. Las diferentes combinaciones de criterio usados para hacer selecciones del índice son usadas para crear lo que se nombra "modo de índice reducido" ("reduced rate mode") o "modos", y refiriéndose de manera más simple como modo 0, modo 1, modo 2, y así, como se entendería por aquellos expertos en la técnica. La invención actual puede aprovecharse en tal modo para los propósitos de síntesis de conversación.
La conversación recibida por el codificador de índice variable 202 puede ser una palabra o una frase de un vocabulario preseleccionado que un dispositivo de comunicación como un teléfono inalámbrico, un equipo de auto, u otro dispositivo de comunicación que es designado para sintetizar. El vocabulario incluiría las sugerencias y alarmas a ser dadas a un usuario del dispositivo. Por ejemplo, extrayendo y sintetizando cinco palabras de vocabularios individuales: "llamada, redial, programa o salida", el sintetizador de conversación puede diseñarse para proporcionar las sugerencias "llamada, redial, programa, o salida" en solicitud de una respuesta del usuario. Alternativamente, el sintetizador de conversación puede diseñarse para proporcionar información previamente almacenada, como los libros telefónicos, tablas de búsqueda, o bases de datos, a un usuario del dispositivo en respuesta de varias entradas de dispositivo, incluyendo audio. La conversación recibida por el codificador de índice variable 202 se codifica, y los parámetros codificados son proporcionados a un elemento de memoria o circuito 206 del sintetizador de conversación 204 para el almacenamiento.
La memoria 206 se pretende para sostener o almacenar los parámetros durante algún tiempo para el funcionamiento del dispositivo deseado. Sin embargo, también generalmente es deseable tener los parámetros almacenados de una manera que los hace actualizables o reemplazables, como cuando el vocabulario necesita ser cambiado para cambiar condiciones o actualizaciones a los rasgos del dispositivo. Por consiguiente, la memoria 206 se configura en la forma de memoria no volátil pero reescribible, lo cual puede lograrse usando los elementos del tipo de memoria flash como es bien conocido en la técnica.
Como uno reconocería, la operación de cargar los parámetros puede realizarse durante la fabricación de un dispositivo de comunicación para el cual la invención está pensada. Desde que pueden predeterminarse las sugerencias y alarmas a ser sintetizadas, éstas pueden codificarse durante la fabricación y pueden almacenarse en la memoria flash 206 antes del uso. Los parámetros pueden cambiarse o pueden reemplazarse durante el servicio del dispositivo, o a través de nuevas técnicas de programación sobre-el-aire desarrolladas para los dispositivos inalámbricos.
Alternativamente, el codificador de índice variable 202 puede recibir una señal de entrada de conversación durante el funcionamiento del dispositivo de comunicación. Por ejemplo, en respuesta a una sugerencia de un sintetizador de conversación, el usuario puede proveer una respuesta hablada. El codificador de índice variable 202 entonces codificará la conversación del usuario, y los parámetros de codificación pueden ser proveídos a la memoria flash 206 para el almacenamiento, y/o proveídos a un reconocedor de voz (no mostrado) para propósitos de reconocimiento de voz. En esta manera, los parámetros se entran inmediatamente después de confeccionados en el dispositivo entrando un servicio útil o sobre el tiempo, tal como construyendo una biblioteca de vocabulario personal para cada usuario del dispositivo (vocoder), relacionado a los requisitos de ese usuario.
La memoria flash 206 debe ser de un tamaño que sea suficiente para almacenar los parámetros del vocabulario preseleccionado así como los parámetros de la conversación anticipados del usuario. Así, el tamaño de la memoria flash 206 puede variar basado en los requisitos de una aplicación específica. El almacenamiento puede tener ventaja de reproducir requerimientos de memoria donde cada usuario del dispositivo no requiera como extenso un vocabulario comparado a lo que un fabricante tendría que instalar para cubrir un mercado entero del dispositivo más grande. Los sintetizadores de conversación pueden grabar nombres u otras palabras, como "Fred Smith" detectando los términos del objetivo o la frase o conversación deseada, quitando el silencio o las redundancias, y codificándolo. Por consiguiente, la conversación puede grabarse "en línea" y puede usarse luego para sintetizar la salida de la conversación.
Debe notarse que el codificador de índice variable 202 puede configurarse basado en la memoria disponible y la calidad de voz requerida. En el sistema que tiene cuatro índices en donde el índice completo es 13 kbps, el índice promedio generalmente será 5.88 kbps basado en el 40% de actividad de la voz. El uso de índices de variable proporcionará alta calidad de conversación. Sin embargo, si el tamaño de la memoria es limitado, el codificador de índice variable 202 puede configurarse para operar a, supongamos, un medio índice fijo de aproximadamente 800 bytes por segundo.
Por otra parte, el índice puede seleccionarse de un subconjunto del conjunto predeterminado de índices en lugar del conjunto entero de índices. Por ejemplo, los modos de índice reducidos discutidos anteriormente pueden usarse para seleccionar varios índices. En una realización de la invención, los índices son divididos en un conjunto de cuatro modos, etiquetados como modos 0, 1, 2, y 3. Usando índices fijos según el modo, índices en el orden de 1800 bytes por segundo, 1540 bytes por segundo, 1400 bytes por segundo, y 1100 bytes por segundo, respectivamente, puede usarse. El uso de dichos índices reducidos fijos permite la entrega de voz de muy alta calidad dado un índice de datos predefinido, acercándose a la calidad línea-tierra (land-line). Estos cuatro modos proporcionan el mejor intercambio entre la calidad de la conversación sintetizada y el requisito de memoria.
Además, el codificador de índice variable 202 puede intercambiar entre diferentes modos de funcionamiento (el índice variable, el medio índice, un subconjunto de índices variables, etc.) basado en los requerimientos instantáneos de la aplicación. Debido a que puede haber un cambio entre la calidad de voz y el tamaño de memoria, la configuración a ser adoptada dependerá de la aplicación que se esté implementando.
Los parámetros de conversación almacenados en la memoria flash 206 serán proveídos a un decodificador de índice variable 208 cuando la síntesis de la conversación es deseada. El decodificador de índice variable 208 se configura para decodificar los parámetros generados al correspondiente codificador de índice variable 202. Un ejemplo de decodificador de índice variable 208 es el descodificador 104 de la figura 1. Generalmente, el decodificador de índice variable 208 será implementado como parte de un procesador de señal digital (DSP) usado dentro del dispositivo de comunicación. Tales DSPs se usan como o para formar los elementos de procesamiento para la codificación/decodificación, la combinación, la codificación CDMA, el ajuste de la potencia, y así, de la señal. Desde que tales elementos son típicamente usados en dispositivos inalámbricos, y muchos otros dispositivos en los que la invención puede ser útil, puede tomarse ventaja de su presencia para implementar eficazmente la invención actual.
Para poder implementar la funcionalidad de decodificación para la invención actual, sólo una pequeña cantidad de memoria se requiere en o combinada a un DSP. Un decodificador independiente dentro de o usando un DSP requiere una cantidad muy pequeña de memoria (ambos programa y datos) para lograr la capacidad de síntesis de conversación. El sintetizador de conversación puede ser implementado usando los circuitos bien conocidos DSP y dispositivos tal como los comercialmente disponibles de los Dispositivos Analógicos y Qualcomm Incorporated.
Los parámetros descifrados, típicamente en forma de muestras de código del pulso modulado (PCM), son entonces proveídos a un codec 210. El codec 210 convierte muestras PCM de un formato digital a una señal analógica La señal analógica es proveída a un altavoz u otro dispositivo de salida de audio conocido 212 que proyecta o transmite la conversación sintetizada en el ambiente del dispositivo circundante dónde puede ser oída.
Por consiguiente, un sintetizador de conversación basado en la codificación de voz de índice variable es proporcionado por la invención actual. El sintetizador de conversación es especialmente conveniente para el uso en dispositivos de comunicación inalámbrica que ya comprenden un vocoder de índice variable. En otras palabras, un vocoder de índice variable existente que puede emplearse por el sintetizador de conversación, a través del uso de cambios apropiados en operacionales de programa o instrucciones, o usando el hardware del control. En adición, a través del uso de la codificación de voz de índice variable, la compresión almacenada puede permitir un vocabulario predeterminado para ser almacenado en una memoria de tamaño limitado asociada con el dispositivo inalámbrico u otro equipo con el que interactúa. Además, el cambio entre la calidad de la voz y el tamaño de la memoria puede ser considerado configurando el vocoder de índice variable para proporcionar un sintetizador de conversación con la calidad de la voz y tamaño de memoria deseadas.
La invención actual puede encontrar aplicación en una variedad de dispositivos de comunicación y equipos de interacción. Las realizaciones del ejemplo anterior se discutieron en relación con los dispositivos de comunicación inalámbrica tal como, pero no limitado a, celular y el teléfonos de satélite, a menudo referido como terminales de usuarios, unidades del subscriptor, estaciones móviles, o simplemente "usuarios", "móviles" o "subscriptores". En adición, otros dispositivos también se contemplan, como los receptores del mensaje y los dispositivos de transferencia de datos (por ejemplo, ordenadores portátiles, asistentes de datos personales, módems, controladores de maquinarias), o interfaces para redes de teléfonos públicos o canales de comunicación dedicados.
La invención puede ser implementada usando circuitos separados en forma de componentes dedicados o circuitos integrados específicos de aplicación (ASIC) para formar un sintetizador de conversación que se instala dentro de un dispositivo deseado. Alternativamente, puede incorporarse dentro de otros ASIC y dispositivos usando una pequeña cantidad de memoria adicional para trabajar con los elementos de procesamiento de señal digital existentes.
La descripción anterior de las realizaciones preferidas es proveída para permitir a cualquier persona experta en la técnica hacer o usar la invención actual. Las diversas modificaciones de estas realizaciones serán fácilmente aparentes a aquellos expertos en la técnica, y los principios genéricos definidos aquí dentro quizás aplicados a otras realizaciones sin el uso de la facultad inventiva. Así, la invención actual no se pretende que esté limitada a las realizaciones mostradas aquí dentro pero estarán acordadas a largo alcance y definidas por las reivindicaciones.

Claims (20)

1. Un mecanismo (204) para sintetizar un vocabulario preseleccionado en un sistema de comunicación inalámbrica, en donde dicho vocabulario preseleccionado se ha codificado por un codificador de índice variable (102,202) a un conjunto de índices variables, el mecanismo (204) comprendiendo:
Una memoria (206) para almacenar un conjunto de parámetros de la conversación;
Un procesador configurado para aceptar una entrada verbal de un usuario;
Un decodificador de índice variable (104,208) para descifrar parámetros de la conversación para generar muestras de conversación decodificadas; y
Un convertidor digital-a-analógico (210) para convertir dichas muestras de conversación en una señal analógica para transmisión como la conversación sintetizada, caracterizada porque:
Dicho conjunto de parámetros de la conversación representa dicho vocabulario preseleccionado codificado;
El procesador es configurado para escoger un subconjunto de parámetros de la conversación de dicho conjunto de parámetros de la conversación de acuerdo con dicha la entrada verbal de dicho usuario; y
El decodificador de índice variable (104,208) se configura para decodificar dicho subconjunto de parámetros de la conversación.
2. El mecanismo (204) de la reivindicación 1, en donde dicho codificador de índice variable (102,202) está basado en la predicción lineal.
3. El mecanismo (204) de la reivindicación 1, en donde dicho decodificador de índice variable (104,208) está basado en la predicción lineal.
4. El mecanismo (204) de la reivindicación 1, en donde dicho conjunto de parámetros de la conversación se codifica a un conjunto de índices variables comprendiendo un índice completo, un medio índice, un cuarto índice, y un octavo índice.
5. El mecanismo (204) de la reivindicación 4, en donde dicho índice completo es 13.2 kbps, dicho medio índice es aproximadamente 6.2 kbps, y cuarto índice es aproximadamente 2.7 kbps, y dicho octavo índice es aproximadamente 1.0 kbps.
6. El mecanismo (204) de la reivindicación 4, en donde dicho conjunto de parámetros de la conversación se codifica a un índice fijo en respuesta a uno o más criterios de modo moderado.
7. El mecanismo (204) de la reivindicación 4, en donde dicho conjunto de parámetros de la conversación se codifica a un índice fijo a dicho medio índice.
8. El mecanismo (204) de la reivindicación 4, en donde el índice de la codificación se selecciona de acuerdo con los requisitos de la calidad de voz y el tamaño de memoria (206).
9. El mecanismo (204) de la reivindicación 1, en donde dicho sistema de comunicación inalámbrica es un sistema CDMA.
10. El mecanismo (204) de la reivindicación 1, en donde dicho codificador de índice variable (102,202) comprende un codificador de índice variable mejorado.
11. Un método para sintetizar un vocabulario preseleccionado en un sistema de comunicación inalámbrica, en donde dicho vocabulario preseleccionado se ha codificado por un codificador de índice variable (102, 202) a un conjunto de índices variables, el método comprendiendo:
Recibir una entrada verbal del usuario;
Recuperar un conjunto de parámetros de la conversación guardado en una memoria (206);
Decodificar (104,208) dicho conjunto de parámetros de la conversación usando un esquema de decodificación de índice variable para generar muestras de conversación decodificada; y
Convertir (210) dichas muestras de la conversación en una señal analógica para la transmisión como la conversación sintetizada, caracterizada porque:
Dicho conjunto de parámetros de la conversación representa dicho vocabulario preseleccionado codificado;
Un subconjunto de parámetros de la conversación es escogido de dicho conjunto de parámetros de la conversación de acuerdo con la entrada verbal del usuario; y
Dicho subconjunto de parámetros de la conversación es decodificado usando el esquema de decodificación de índice variable (104,208).
12. El método de la reivindicación 11, en donde dicho codificador de índice variable (102, 202) realiza un esquema de codificación de índice variable que está basada en la predicción lineal.
13. El método de la reivindicación 11, en donde dicho esquema de descodificación de índice variable está basada en la predicción lineal.
14. El método de la reivindicación 11, en donde dicho conjunto de parámetros de la conversación se codifica a un conjunto de índices variables comprendiendo un índice completo, un medio índice, un cuarto índice, y un octavo índice.
15. El método de la reivindicación 14, en donde dicho índice completo es 13.2 kbps, dicho medio índice es aproximadamente 6.2 kbps, dicho cuarto índice es aproximadamente 2.7 kbps, y dicho octavo índice es aproximadamente 1.0 kbps.
16. El método de la reivindicación 14, en donde dicho conjunto de parámetros de la conversación se codifica a un índice fijo en respuesta a uno o más criterios de modo moderado.
17. El método de la reivindicación 14, en donde dicho conjunto de parámetros de la conversación se codifica a un índice fijo a dicho medio índice.
18. El método de la reivindicación 14, en donde el índice de la codificación se selecciona de acuerdo con los requisitos de la calidad de voz y el tamaño de dicha memoria (206).
19. El método de la reivindicación 11, en donde dicho sistema de comunicación inalámbrica comprende un sistema CDMA.
20. El método de la reivindicación 11, comprendiendo:
Codificar (102, 202) dicha entrada verbal del usuario; y
Adicionar dicha entrada verbal del usuario en dicha memoria (206) como una parte de dichos parámetros de conversación.
ES00914511T 1999-02-08 2000-02-04 Sistetizador de conversacion basado en la codificacion de conversacion de indice variable. Expired - Lifetime ES2263459T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US24660599A 1999-02-08 1999-02-08
US246605 1999-02-08

Publications (1)

Publication Number Publication Date
ES2263459T3 true ES2263459T3 (es) 2006-12-16

Family

ID=22931374

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00914511T Expired - Lifetime ES2263459T3 (es) 1999-02-08 2000-02-04 Sistetizador de conversacion basado en la codificacion de conversacion de indice variable.

Country Status (10)

Country Link
EP (1) EP1159738B1 (es)
JP (2) JP4503853B2 (es)
KR (1) KR100648872B1 (es)
CN (1) CN1212604C (es)
AT (1) ATE322731T1 (es)
AU (1) AU3589100A (es)
DE (1) DE60027140T2 (es)
ES (1) ES2263459T3 (es)
HK (1) HK1042980B (es)
WO (1) WO2000046795A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4867076B2 (ja) * 2001-03-28 2012-02-01 日本電気株式会社 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
KR100425982B1 (ko) * 2001-12-29 2004-04-06 엘지전자 주식회사 아이엠티-2000 망의 음성 데이터 속도 변경 방법
KR100651731B1 (ko) * 2003-12-26 2006-12-01 한국전자통신연구원 가변 프레임 음성 부호화/복호화 장치 및 그 방법
CN101692685B (zh) * 2009-10-29 2012-05-30 中国电信股份有限公司 一种彩铃音质改善的方法和系统
JP5677470B2 (ja) * 2011-02-03 2015-02-25 パナソニックIpマネジメント株式会社 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法
CN106952651A (zh) * 2017-02-17 2017-07-14 福建星网智慧科技股份有限公司 一种语音处理装置传输语音的方法以及系统
US11404045B2 (en) 2019-08-30 2022-08-02 Samsung Electronics Co., Ltd. Speech synthesis method and apparatus

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0331858B1 (en) * 1988-03-08 1993-08-25 International Business Machines Corporation Multi-rate voice encoding method and device
AU671952B2 (en) * 1991-06-11 1996-09-19 Qualcomm Incorporated Variable rate vocoder
JP3081300B2 (ja) * 1991-10-01 2000-08-28 三洋電機株式会社 残差駆動型音声合成装置
TW271524B (es) * 1994-08-05 1996-03-01 Qualcomm Inc
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
US6137840A (en) * 1995-03-31 2000-10-24 Qualcomm Incorporated Method and apparatus for performing fast power control in a mobile communication system
US5790957A (en) * 1995-09-12 1998-08-04 Nokia Mobile Phones Ltd. Speech recall in cellular telephone
US5914950A (en) * 1997-04-08 1999-06-22 Qualcomm Incorporated Method and apparatus for reverse link rate scheduling
DE29717372U1 (de) * 1997-09-29 1997-11-27 Siemens AG, 80333 München Integrierter Schaltkreis für ein mobiles Funkgerät mit Anrufbeantworterfunktion

Also Published As

Publication number Publication date
WO2000046795A9 (en) 2001-10-18
EP1159738B1 (en) 2006-04-05
KR20020012157A (ko) 2002-02-15
HK1042980B (zh) 2005-12-23
AU3589100A (en) 2000-08-25
WO2000046795A1 (en) 2000-08-10
JP4503853B2 (ja) 2010-07-14
DE60027140T2 (de) 2007-01-11
CN1347548A (zh) 2002-05-01
ATE322731T1 (de) 2006-04-15
KR100648872B1 (ko) 2006-11-24
JP2002536693A (ja) 2002-10-29
CN1212604C (zh) 2005-07-27
HK1042980A1 (en) 2002-08-30
JP2010092059A (ja) 2010-04-22
DE60027140D1 (de) 2006-05-18
EP1159738A1 (en) 2001-12-05

Similar Documents

Publication Publication Date Title
US9940923B2 (en) Voice and text communication system, method and apparatus
ES2629727T3 (es) Sistema y método para la transmisión adaptativa de parámetros de ruido de confort durante la transmisión de habla discontinua
ES2265442T3 (es) Aparato para la expansion del ancho de banda de una señal vocal.
KR100923891B1 (ko) 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치
US5251261A (en) Device for the digital recording and reproduction of speech signals
JP2007534278A (ja) ショートメッセージサービスを通じる音声
ES2371455T3 (es) Pre-procesamiento de datos digitales de audio para codecs de audio de móvil.
RU2333546C2 (ru) Устройство и способ речевой модуляции
JP2010092059A (ja) 可変率音声符号化に基づいた音声合成装置
KR100506224B1 (ko) 이동 통신 단말기에서 노이즈 제어장치 및 방법
JP3507686B2 (ja) 音声認識機能を有する通信装置及び通信方法
KR20000053407A (ko) 음성 채널을 통한 비음성 정보 전송 방법
KR100911278B1 (ko) 음원 공급 장치 및 음원 공급 방법
JP2001242896A (ja) 音声符号化/復号装置およびその方法
JP2000068925A (ja) 音声チャネル上でデ―タを送信する方法およびシステム
KR101011320B1 (ko) 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치
TWI333640B (en) Method and information processing system for quantizing pitch information of audio
JP5255358B2 (ja) 音声伝送システム
JPH10326100A (ja) 音声録音方法及び音声再生方法及び音声録音再生装置
GB2254986A (en) Device for storing and reproducing speech
KR101154948B1 (ko) 이동통신 단말기의 음악 재생 중 문자 메세지 알림방법
JP2979859B2 (ja) デジタル移動無線装置
US6173254B1 (en) Recorded message playback system for a variable bit rate system
KR20050045764A (ko) 무선 단말기에서의 음성 저장/재생 장치 및 방법
KR20010038033A (ko) 이동통신 시스템에서의 착신음 발생 장치 및 방법