ES2291340T3 - Codificacion de señalmulti-canal. - Google Patents

Codificacion de señalmulti-canal. Download PDF

Info

Publication number
ES2291340T3
ES2291340T3 ES01961541T ES01961541T ES2291340T3 ES 2291340 T3 ES2291340 T3 ES 2291340T3 ES 01961541 T ES01961541 T ES 01961541T ES 01961541 T ES01961541 T ES 01961541T ES 2291340 T3 ES2291340 T3 ES 2291340T3
Authority
ES
Spain
Prior art keywords
channels
individual
channel
encoder
fixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01961541T
Other languages
English (en)
Inventor
Tor Bjorn Minde
Arne Steinarson
Anders Uvliden
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=20281031&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2291340(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2291340T3 publication Critical patent/ES2291340T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Error Detection And Correction (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

Un codificador de señales de análisis por síntesis predictivo lineal multicanal que incluye un libro de código fijo multiparte, incluyendo un libro de código fijo individual (FC1, FC2) para cada canal; un libro de código fijo compartido (FCS) que contiene los vectores de libro de código que son comunes a todos los canales; y medios (40) para analizar la correlación entre canales y cambiar dinámicamente, dependiendo de la correlación entre canales actual, la asignación de bits de codificación entre dicho dichos libros de códigos fijos individuales y dicho libro de código fijo compartido.

Description

Codificación de señal multi-canal.
Campo técnico
La presente invención se refiere a la codificación y descodificación de señales multicanal tales como audioseñales estereofónicas.
Antecedentes de la invención
Los métodos convencionales de codificación de voz están basados generalmente en señales de voz monocanal. Un ejemplo es la codificación de voz usada en una conexión entre un teléfono normal y un teléfono celular. La codificación de voz es usada en el radioenlace para reducir el uso de anchura de banda en la interfaz aérea limitada en frecuencia. Ejemplos bien conocidos de codificación de voz son la modulación por impulsos codificados (PCM: Pulse Code Modulation), la modulación por impulsos codificados diferencial adaptable (ADPCM: Adaptive Differential Pulse Code Modulation), la codificación en subbandas, la codificación por transformada, la codificación de voz por codificación predictiva lineal (LPC: Linear Predictive Coding) y la codificación híbrida tal como la codificación predictiva lineal excitada por código (CELP: Code-Excited Linear Predictive) [1-2].
En un entorno donde la comunicación de audio/voz usa más de una señal de entrada, por ejemplo un puesto de trabajo de ordenador con altavoces estereofónicos y dos micrófonos (micrófonos estereofónicos), dos canales de audio/voz son necesarios para trasmitir las señales estereofónicas. Otro ejemplo de un entorno multicanal sería una sala de conferencia con entrada/salida de dos, tres o cuatro canales. Se prevé que este tipo de aplicaciones sea usado en Internet y en sistemas celulares de tercera generación.
Principios generales para la codificación/des-codificación de señales de análisis por síntesis predictivo lineal multicanal (LPAS: linear predictive análisis-by-synthesis) son descritos en [3]. Sin embargo, los principios descritos no son siempre óptimos en situaciones donde hay una fuerte correlación entre canales o una correlación variable entre canales.
Sumario de la invención
Un objeto de la presente invención es aprovechar mejor la correlación entre canales en codificación/descodificación de señales de análisis por síntesis predictivo lineal multicanal y preferiblemente facilitar la adaptación de la codificación/descodificación a la correlación variable entre canales.
Este objeto es resuelto de acuerdo con las reivindicaciones adjuntas.
Brevemente, la presente invención implica un libro de código fijo multiparte que incluye un libro de código fijo individual para cada canal y un libro de código fijo compartido común a todos los canales. Esta estrategia hace posible variar el número de bits que son asignados a los libros de códigos individuales y al libro de código compartido sobre una base de cuadro por cuadro, dependiendo de la correlación entre canales, o sobre una base de llamada por llamada, dependiendo de la velocidad binaria bruta deseada. Así, en un caso donde la correlación entre canales es grande, solo será necesario esencialmente el libro de código compartido mientras que en un caso donde la correlación entre canales es pequeña, solo serán necesarios esencialmente los libros de códigos individuales. Si se conoce o supone que la correlación entre canales es grande, puede ser suficiente un libro de código fijo compartido común a todos los canales. De modo similar, si la velocidad binaria bruta deseada es pequeña, solo será usado esencialmente el libro de código compartido mientras que en un caso donde la velocidad binaria bruta deseada es grande, los libros de códigos individuales pueden ser usados.
Descripción breve de los dibujos
La invención, junto con objetos y ventajas adicionales de ella, puede ser comprendida óptimamente haciendo referencia a la descripción siguiente considerada junto con los dibujos adjuntos, en los que:
la Figura 1 es un esquema de bloques de un codificador convencional de voz de análisis por síntesis predictivo lineal monocanal;
la Figura 2 es un esquema de bloques de una realización de la parte de análisis de un codificador de voz de análisis por síntesis predictivo lineal multicanal de técnica anterior;
la Figura 3 es un esquema de bloques de una realización de la parte de síntesis de un codificador de voz de análisis por síntesis predictivo linear multicanal de técnica anterior;
la Figura 4 es un esquema de bloques de una realización ejemplar de la parte de síntesis de un codificador de voz de análisis por síntesis predictivo lineal multicanal de acuerdo con la presente invención;
la Figura 5 es un organigrama de una realización ejemplar de un método de exploración de libro de código fijo multiparte de acuerdo con la presente invención;
la Figura 6 es un organigrama de otra realización ejemplar de un método de exploración de libro de código fijo multiparte de acuerdo con la presente invención;
la Figura 7 es un esquema de bloques de una realización ejemplar de la parte de análisis de un codificador de voz de análisis por síntesis predictivo lineal multicanal de acuerdo con la presente invención.
Descripción detallada de las realizaciones preferidas
En la descripción siguiente, las mismas designaciones de referencia serán usadas para elementos equivalentes o similares.
La presente invención será descrita ahora introduciendo un codificador convencional de voz de análisis por síntesis predictivo lineal monocanal, y un codificador general de voz de análisis por síntesis predictivo lineal multicanal descrito en [3].
La Figura 1 es un esquema de bloques de un codificador convencional de voz de análisis por síntesis predictivo lineal monocanal. El codificador comprende dos partes, a saber una parte de síntesis y una parte de análisis (un descodificador correspondiente contendrá solo una parte de síntesis).
La parte de síntesis comprende un filtro 12 de síntesis de codificación predictiva lineal (LPC) que recibe una señal i(n) de excitación y produce una señal \hat{s}(n) de voz sintética. La señal i(n) de excitación es formada sumando dos señales u(n) y v(n) en un sumador 22. La señal u(n) es formada cambiando de escala una señal f(n), procedente de un libro de código fijo 16, por una ganancia g_{F} en un elemento 20 de ganancia. La señal v(n) es formada cambiando de escala una versión retardada (por el retardo "retraso") de la señal i(n) de excitación, procedente de un libro de código adaptable 14, por una ganancia g_{A} en un elemento 18 de ganancia. El libro de código adaptable está formado por un bucle de realimentación que incluye un elemento 24 de retardo que retarda la señal i(n) de excitación en una longitud N de subcuadro. Así, el libro de código adaptable contendrá las excitaciones pasadas i(n) que son desplazadas al interior del libro de código (las excitaciones más antiguas son desplazadas fuera del libro de código y desechadas). Los parámetros del filtro de síntesis de codificación predictiva lineal (LPC) son actualizados típicamente cada cuadro de 20-40 ms mientras que el libro de código adaptable es actualizado cada subcuadro de 5-10 ms.
La parte de análisis del codificador de análisis por síntesis predictivo lineal realiza un análisis de codificación predictiva lineal de la señal s(n) de voz entrante y también realiza un análisis de excitación.
El análisis de codificación predictiva lineal es realizado por un filtro 10 de análisis de codificación predictiva lineal (LPC). Este filtro recibe la señal s(n) de voz y construye un modelo paramétrico de esta señal sobre una base de cuadro por cuadro. Los parámetros del modelo son seleccionados a fin de minimizar la energía de un vector residual formado por la diferencia entre un vector real de cuadro de voz y el vector de señal correspondiente producido por el modelo. Los parámetros del modelo son representados por los coeficientes de filtro del filtro 10 de análisis. Estos coeficientes de filtro definen la función A(z) de transferencia del filtro. Como el filtro 12 de síntesis tiene una función de transferencia que es al menos aproximadamente igual que 1/A(z), estos coeficientes de filtro también controlarán el filtro 12 de síntesis, como es indicado por la línea de control de trazos.
El análisis de excitación es realizado para determinar la combinación óptima de vector de libro de código fijo (índice de libro de código), ganancia g_{F}, vector de libro de código adaptable (retraso) y ganancia g_{A} que produce el vector {\hat{s}(n)} de señal sintética que coincide óptimamente con el vector {s(n)} de señal de voz (aquí {} designa una colección de muestras que forman un vector o cuadro). Esto se efectúa en una búsqueda exhaustiva que ensaya todas las combinaciones posibles de estos parámetros (también son posibles esquemas de búsqueda subóptima en los que algunos parámetros son determinados independientemente de los otros parámetros y después son mantenidos fijos durante la búsqueda para los parámetros restantes). Para ensayar lo próximo que un vector sintético {\hat{s}(n)} está del vector de voz correspondiente {s(n)}, la energía del vector diferencia {e(n)} (formado en un sumador 26) puede ser calculada en un calculador 30 de energía. Sin embargo, es más eficiente considerar la energía de un vector {e_{w}(n)} de señal de error ponderada, en el que los errores han sido redistribuidos de tal modo que los errores grandes son enmascarados por bandas de frecuencias de gran amplitud. Esto es efectuado en el filtro 28 de ponderación.
La modificación del codificador de análisis por síntesis predictivo lineal monocanal de la Figura 1 a un codificador de análisis por síntesis predictivo lineal multicanal de acuerdo con [3] será descrita ahora con referencia a las Figuras 2-3. Se supondrá una señal de voz de dos canales (estereofónica) pero los mismos principios también pueden ser usados para más de dos canales.
La Figura 2 es esquema de bloques de una realización de la parte de análisis del codificador de voz de análisis por síntesis predictivo lineal multicanal descrito en [3]. En la Figura 2, la señal de entrada es ahora una señal multicanal como es indicado por los componentes s_{1}(n), s_{2}(n) de señal. El filtro 10 de análisis de codificación predictiva lineal en la Figura 1 ha sido sustituido por un bloque 10M de filtros de análisis de codificación predictiva lineal (LPC) que tiene una función A(z) de transferencia de valor matricial. De modo similar, el sumador 26, el filtro 28 de ponderación y el calculador 30 de energía son sustituidos por los bloques multicanal correspondiente 26M, 28M y 30M, respectivamente.
La Figura 3 es un esquema de bloques de una realización de la parte de síntesis del codificador de voz de análisis por síntesis predictivo lineal multicanal descrito en [3]. Un descodificador multicanal también puede ser formado por una parte de síntesis tal. Aquí, el filtro 12 de síntesis de codificación predictiva lineal en la Figura 1 ha sido sustituido por un bloque 12M de filtros de síntesis de codificación predictiva lineal (LPC) que tiene una función A^{-1}(z) de transferencia de valor matricial que es (como es indicado por la notación) al menos aproximadamente igual a la inversa de A(z) De modo similar, el sumador 22, el libro de código fijo 16, el elemento 20 de ganancia, el elemento 24 de retardo, el libro de código adaptable 14 y el elemento 18 de ganancia son sustituidos por los bloques multicanal correspondientes 22M, 16M, 20M, 24M, 14M y 18M, respectivamente.
Un problema de este codificador multicanal de técnica anterior es que no es muy flexible con respecto a la correlación variable entre canales debida a los entornos variables de micrófonos. Por ejemplo, el algunas situaciones varios micrófonos pueden captar la voz de un solo orador. En tal caso, las señales procedentes de los diferentes micrófonos son esencialmente versiones retardadas y cambiadas de escala (suponiendo que los ecos pueden ser despreciados) de la misma señal, o sea, los canales están correlacionados fuertemente. En otras situaciones, puede haber oradores simultáneos diferentes en los micrófonos individuales. En este caso, casi no hay correlación entre canales.
La Figura 4 es un esquema de bloques de una realización ejemplar de la parte de síntesis de un codificador de voz de análisis por síntesis predictivo lineal multicanal de acuerdo con la presente invención. Una característica esencial de la presente invención es la estructura del libro de código fijo multiparte. Según la invención, incluye tanto un libro de código fijo individual FC1, FC2 para cada canal como un libro de código fijo compartido FCS. Aunque el libro de código fijo compartidos FCS es común a todos los canales (lo que significa que el mismo índice de libro de código es usado por todos los canales), los canales están asociados con retrasos individuales D1, D2 como se ilustra en la Figura 4. Además, los libros de códigos fijos individuales FC1, FC2 están asociados con las ganancias individuales g_{F1}, g_{F2} mientras que los retardos individuales D1, D2 (que pueden ser números enteros o fraccionarios) están asociados con las ganancias individuales g_{FS1}, g_{FS2}. La excitación procedente de cada libro de código fijo individual FC1, FC2 es sumada a la excitación correspondiente (un vector de libro de código común pero retrasos y ganancias individuales para cada canal) procedente del libro de código fijo compartido FCS en un sumador AF1, AF2. Típicamente, los libros de códigos fijos comprenden libros de códigos algebraicos en los que los vectores de excitación son formados por impulsos unitarios que son distribuidos sobre cada vector de acuerdo con ciertas reglas (esto es bien conocido en la técnica y no será descrito con más detalle aquí).
La estructura de libro de código fijo multiparte es muy flexible. Por ejemplo, algunos codificadores pueden usar más bits en los libros de códigos fijos individuales mientras que otros codificadores pueden usar más bits en el libro de código fijo compartido. Además, un codificador puede cambiar dinámicamente la distribución de bits entre libros de códigos individuales y compartido dependiendo de la correlación entre canales. Para algunas señales, incluso puede ser apropiado asignar más bits a un canal individual que a los otros canales (distribución asimétrica de bits).
Aunque la Figura 4 ilustra una estructura de libro de código fijo de dos canales, se aprecia que los conceptos son generalizados fácilmente a más canales aumentando el número de libros de códigos individuales y el número de retrasos y ganancias entre canales.
Los libros de códigos fijos compartido e individuales son explorados típicamente en orden secuencial. El orden preferido es determinar primero el vector de excitación, los retrasos y las ganancias del libro de código fijo compartido. Después se determinan los vectores y las ganancias de los libros de códigos fijos individuales.
Dos métodos de exploración de libro de código fijo multiparte serán descritos ahora con referencia a las Figuras 5 y 6.
La Figura 5 es un organigrama de una realización de un método de exploración de libro de código fijo multiparte de acuerdo con la presente invención. El paso S1 determina un canal primero o adelantado, típicamente el canal más fuerte (el canal que tiene la energía de cuadro máxima). El paso S2 determina la correlación cruzada entre cada canal secundario o atrasado y el canal primario durante un intervalo predeterminado, por ejemplo una parte de o un cuadro completo. El paso S3 almacena los candidatos a retrasos para cada canal secundario. Estos candidatos a retrasos son definidos por las posiciones de un número de los picos más altos de correlación cruzada y las posiciones más próximas alrededor de cada pico para cada canal secundario. Por ejemplo, se podría elegir los 3 picos más altos y después añadir las posiciones más próximas en ambos lados de cada pico, proporcionando un total de 9 candidatos a retrasos. Si se usan retrasos de gran resolución (fraccionarios), el número de candidatos alrededor de cada pico puede ser aumentado, por ejemplo, a 5 o 7. La resolución mayor puede ser obtenida aumentando el muestreo de la señal de entrada. En una realización sencilla, el retraso para el canal primario puede ser considerado nulo. Sin embargo, como los impulsos en el libro de código no pueden tener típicamente posiciones arbitrarias, una cierta ganancia de codificación puede ser conseguida asignando un retraso también al canal primario. Este es especialmente el caso cuando se usan retrasos de gran resolución. En el paso S4, un vector de libro de código fijo compartido temporal es formado para cada combinación almacenada de candidatos a retrasos. El paso S5 selecciona la combinación de retrasos que corresponde al vector de libro de código temporal óptimo. El paso S6 determina las ganancias óptimas entre canales. Finalmente, el paso S7 determina las excitaciones y ganancias específicas (no compartidas) de canales.
En una variación de este algoritmo, se conservan todos los vectores de libros de códigos temporales óptimos y los retrasos y las ganancias entre canales correspondientes. Para cada combinación conservada, se realiza una exploración específica de acuerdo con el paso S7. Finalmente, se selecciona la combinación óptima de excitaciones de libros de códigos fijos compartido e individuales.
Para reducir la complejidad de este método, es posible limitar el vector de excitación del libro de código temporal a unos pocos impulsos solamente. Por ejemplo, en el sistema GSM (Global System for Mobile Communications), el libro de código fijo completo de un canal de velocidad completa mejorado incluye 10 impulsos. En este caso, es razonable 3-5 impulsos de libro de código temporal. En general, el 25-50% del número total de impulsos sería un número razonable. Cuando la combinación óptima de retrasos ha sido seleccionada, el libro de código completo es explorado solo respecto a esta combinación (típicamente, los impulsos ya situados no son cambiados, solo han de ser situados los impulsos restantes de un libro de código completo).
La Figura 6 es un organigrama de otra realización de un método de exploración de libro de código fijo multiparte de acuerdo con la presente invención. En esta realización, los pasos S1, S6 y S7 son iguales que en la realización de la Figura 5. El paso S10 sitúa un nuevo impulso de vector de excitación en una posición óptima para cada combinación permitida de retrasos (la primera vez que este paso es realizado, todas las combinaciones de retraso son permitidas). El paso S11 comprueba si todos los impulsos han sido consumidos. Si no, el paso S12 limita las combinaciones permitidas de retrasos a las combinaciones restantes óptimas. Después, otro impulso es añadido a las combinaciones permitidas restantes. Finalmente, cuando todos los impulsos han sido consumidos, el paso S13 selecciona la combinación de retrasos restante óptima y su vector de libro de código fijo compartido correspondiente.
Hay varias posibilidades con respecto al paso S12. Una posibilidad es conservar solo un cierto porcentaje, por ejemplo el 25%, de la combinación óptima de retrasos en cada iteración. Sin embargo, para evitar que solo quede una combinación antes de que todos los impulsos han sido consumidos, es posible asegurar que al menos un cierto número de combinaciones permanecen después de cada iteración. Una posibilidad es asegurarse de que siempre permanecen al menos tantas combinaciones como los impulsos que quedan más uno. De este modo, siempre habrá varias combinaciones de candidatos de las que elegir en cada iteración.
Para las ganancias de libros de códigos fijos, cada canal requiere una ganancia para el libro de código fijo compartido y una ganancia para el libro de código individual. Estas ganancias tendrán típicamente correlación significativa entre los canales. También estarán correlacionadas con las ganancias en el libro de código adaptable. Así, serán posibles las predicciones entre canales de estas ganancias, y la cuantificación vectorial puede ser usada para
codificarlas.
Volviendo a la Figura 4, el libro de código adaptable incluye un libro de código adaptable AC1, AC2 para cada canal. Un libro de código adaptable puede estar configurado de varios modos en un codificador multicanal.
Una posibilidad es dejar que todos los canales compartan un retraso de paso común. Esto es factible cuando hay una fuerte correlación entre canales. Aunque el retraso de paso sea compartido, los canales todavía pueden tener ganancias g_{A11}-g_{A22} de pasos distintas. El retraso de paso compartido es buscado en una forma de bucle cerrado en todos los canales simultáneamente.
Otra posibilidad es dejar que cada canal tenga un retraso de paso individual. Esto es factible cuando hay una correlación débil entre canales (los canales son independientes). Los retrasos de pasos pueden ser codificados diferencialmente o absolutamente.
Una posibilidad adicional es usar el historial de excitación en una manera de canales cruzados. Por ejemplo, el canal 2 puede ser predicho a partir del historial de excitación del canal 1 en el retraso P_{12} entre canales. Esto es factible cuando hay una fuerte correlación entre canales.
Como en el caso con el libro de código fijo, la estructura de libro de código adaptable descrita es muy flexible y adecuada para funcionamiento multimodo. La elección de si usar retrasos de pasos compartidos o individuales puede estar basada en la energía residual de señal. En un primer paso, se determina la energía residual del retraso de paso compartido óptimo. En un segundo paso, se determina la energía residual de los retrasos de pasos individuales óptimos. Si la energía residual del caso de retraso de paso compartido supera la energía residual del caso de retrasos de pasos individuales en una cantidad predeterminada, se usan los retrasos de pasos individuales. En caso contrario, se usa un retraso de paso compartido. Si se desea, una media móvil de la diferencia de energías puede ser usada para suavizar la decisión.
Esta estrategia puede ser considerada como una estrategia "de bucle cerrado" para decidir entre retrasos de pasos compartidos o individuales. Otra posibilidad es una estrategia de "bucle abierto" basada, por ejemplo, en la correlación entre canales. En este caso, un retraso de paso compartido es usado si la correlación entre canales supera un umbral predeterminado. En otro caso, se usan retrasos de pasos individuales.
Estrategias similares pueden ser usadas para decidir si usar retrasos de pasos entre canales o no.
\newpage
Además, una correlación significativa ha de ser prevista entre las ganancias de libros de códigos adaptables de canales diferentes. Estas ganancias pueden ser predichas a partir del historial de ganancia interna del canal, a partir de ganancias en el mismo cuadro pero pertenecientes a otros canales, y también a partir de ganancias de libros de códigos fijos. Como en el caso con el libro de código fijo, la cuantificación vectorial también es posible.
En el bloque 12M de filtros de síntesis de codificación predictiva lineal (LPC) en la Figura 4, cada canal usa un filtro individual de codificación predictiva lineal. Estos filtros pueden ser derivados independientemente del mismo modo que en el caso de canal único. Sin embargo, algunos o todos los canales también pueden compartir el mismo filtro de codificación predictiva lineal. Esto permite conmutar entre modos de filtros múltiples y filtro único dependiendo de las propiedades de señal, por ejemplo distancias espectrales entre espectros de codificación predictiva lineal.
La Figura 7 es un esquema de bloques de una realización ejemplar de la parte de análisis de un codificador de voz de análisis por síntesis predictivo lineal multicanal de acuerdo con la presente invención. Además de los bloques que ya han sido descritos con referencia a las Figuras 1 y 2, la parte de análisis en la Figura 7 incluye un bloque 40 de análisis multimodo. El bloque 40 determina la correlación entre canales para determinar si hay correlación suficiente entre los canales para justificar la codificación usando solo el libro de código fijo compartido FCS, los retrasos D1, D2 y las ganancias g_{FS1}, g_{FS2}. Si no, será necesario usar los libros de códigos fijos individuales FC1, FC2 y las ganancias g_{F1}, g_{F2}. La correlación puede ser determinada por la correlación usual en el dominio de tiempo, o sea desplazando las señales de canal secundario con respecto a la señal primaria hasta que se obtiene un ajuste óptimo. Si hay más de dos canales, un libro de código fijo compartido será usado si el valor mínimo de correlación supera un umbral predeterminado. Otra posibilidad es usar un libro de código fijo compartido para los canales que tienen una correlación con el canal primario que supera un umbral predeterminado y libros de códigos fijos individuales para los canales restantes. El umbral exacto puede ser determinado por ensayos de audición.
En un codificador de velocidad binaria baja, el libro de código fijo puede incluir solo un libro de código compartido FCS y los elementos D1, D2 de retraso y las ganancias g_{FS1}, g_{FS2} entre canales correspondientes. Esta realización es equivalente a un umbral de correlación entre canales igual a cero.
La parte de análisis también puede incluir un calculador 42 de energías relativas que determina los factores e_{1}, e_{2} de escala para cada canal. Estos factores de escala pueden ser determinados de acuerdo con:
e_{i} = \frac{E_{i}}{\sum\limits_{i} E_{i}}
donde E_{i} es la energía del cuadro i. Usando estos factores de escala, la energía residual ponderada R_{1}, R_{2} para cada canal puede volver a ser cambiada de escala de acuerdo con la intensidad relativa del canal, como se indica en la Figura 7. Volver a cambiar la escala de energía residual para cada canal tiene el efecto de optimizar respecto al error relativo en cada canal más bien que optimizar respecto al error absoluto en cada canal. Volver a cambiar de escala los errores multicanal puede ser usado en todos los pasos (derivar filtros de codificación predictiva lineal, libros de códigos adaptables y fijos).
Los factores de escala también pueden ser funciones más generales de la intensidad relativa e_{i} de canal, por ejemplo
f(e_{i}) = \frac{exp(\alpha(2e_{i} - 1))}{1 \ + \ exp(\alpha(2e_{1} - 1))}
donde \alpha es una constante en el intervalo de 4 a 7, por ejemplo \alpha\approx5. La forma exacta de la función de cambio de escala puede ser determinada por ensayos de audición subjetivos.
La funcionalidad de los diversos elementos de las realizaciones descritas de la presente invención es implementada típicamente por uno o varios microprocesadores o combinaciones de microprocesadores/procesadores de señales y el software correspondientes.
La descripción anterior ha sido dirigida principalmente hacia un codificador. El descodificador correspondiente solo incluiría la parte de síntesis de tal codificador. Típicamente, una combinación de codificador/des-codificador es usada en un terminal que transmite/recibe señales codificadas por un canal de comunicación limitado en anchura de banda. El terminal puede ser un radioterminal en un teléfono celular o una estación base. Tal terminal también incluiría diversos otros elementos tales como una antena, amplificador, ecualizador, codificador/des-codificador de canal, etc. Sin embargo, estos elementos no son esenciales para describir la presente invención y, por tanto, han sido
suprimidos.
Los expertos en la técnica comprenderán que diversas modificaciones y cambios pueden ser efectuados en la presente invención sin apartarse de su alcance, que es definido por las reivindicaciones adjuntas.
\newpage
Referencias
[1] "Avances en compresión de voz y audio" de A. Gersho, Actas del IEEE (Institute of Electrical and Electronics Engineers), Volumen 82, Nº 6, páginas 900 a 918, Junio de 1.994.
[2] "Codificación de voz: una revisión instructiva" de A.S. Spanias, Actas del IEEE, Volumen 82, Nº 10, páginas 1.541 a 1.582, Octubre de 1.994.
[3] WO 00/19413 (Telefonaktiebolaget LM Ericsson).

Claims (18)

1. Un codificador de señales de análisis por síntesis predictivo lineal multicanal que incluye un libro de código fijo multiparte, incluyendo
un libro de código fijo individual (FC1, FC2) para cada canal;
un libro de código fijo compartido (FCS) que contiene los vectores de libro de código que son comunes a todos los canales; y
medios (40) para analizar la correlación entre canales y cambiar dinámicamente, dependiendo de la correlación entre canales actual, la asignación de bits de codificación entre dicho dichos libros de códigos fijos individuales y dicho libro de código fijo compartido.
2. El codificador de la reivindicación 1, caracterizado porque dicho libro de código fijo compartido está conectado a un elemento de retardo individual (D1, D2) para cada canal.
3. El codificador de la reivindicación 2, caracterizado porque dichos elementos de retardo individuales (D1, D2) son elementos de gran resolución.
4. El codificador de la reivindicación 2 o 3, caracterizado porque cada elemento de retardo (D1, D2) está conectado a un elemento de ganancia correspondiente (g_{FS1}, g_{FS2}).
5. El codificador de la reivindicación 1, caracterizado por un libro de código adaptable multiparte que tiene un libro de código adaptable individual (AC1, AC2) y un retardo de paso individual (P_{11}, P_{22}) para cada canal.
6. El codificador de la reivindicación 5, caracterizado por medios para determinar si un retraso de paso común puede ser compartido por todos los canales.
7. El codificador de la reivindicación 5, caracterizado por retrasos de pasos entre canales (P_{12}, P_{21}) entre cada canal y los otros canales.
8. El codificador de la reivindicación 1, caracterizado por medios (42) para volver a cambiar de escala la energía residual de cada canal de acuerdo con la intensidad relativa de canal.
9. Un terminal que incluye un codificador de voz de análisis por síntesis predictivo lineal multicanal según la reivindicación 1.
10. El terminal de la reivindicación 9, caracterizado porque dicho libro de código fijo compartido está conectado a un elemento de retardo individual (D1, D2) para cada canal.
11. El terminal de la reivindicación 10, caracterizado porque dichos elementos de retardo individuales (D1, D2) son elementos de gran resolución.
12. El terminal de la reivindicación 10 o 11, caracterizado porque cada elemento de retardo (D1, D2) está conectado a un elemento de ganancia correspondiente (g_{FS1}, g_{FS2}).
13. El terminal de la reivindicación 9, caracterizado por un libro de código adaptable multiparte que tiene un libro de código adaptable individual (AC1, AC2) y un retraso de paso individual (P_{11}, P_{22}) para cada canal.
14. El terminal de la reivindicación 13, caracterizado por medios para determinar si un retraso de paso común puede ser compartido por todos los canales.
15. El terminal de la reivindicación 13, caracterizado por retrasos de pasos entre canales (P_{12}, P_{21}) entre cada canal y los otros canales.
16. El terminal de cualquiera de las reivindicaciones 9 a 15 precedentes, caracterizado porque dicho terminal es un radioterminal.
17. Un método de codificación de señales de análisis por síntesis predictivo lineal multicanal, que incluye los pasos de
analizar la correlación entre canales; y
cambiar dinámicamente, dependiendo de la correlación actual entre canales, la asignación de bits de codificación entre libros de códigos fijos dedicados a canales individuales y un libro de código fijo compartido que contiene vectores de libro de código que son comunes a todos los canales.
18. Un método de codificación de señales de análisis por síntesis predictivo lineal multicanal, caracterizado por:
determinar una velocidad binaria bruta deseada;
analizar la correlación entre canales; y
cambiar dinámicamente, dependiendo de la correlación actual entre canales y de dicha velocidad binaria bruta deseada, la asignación de bits de codificación entre los libros de códigos fijos dedicados a los canales individuales y un libro de código fijo compartido que contiene los vectores de libro de código que son comunes a todos los canales.
ES01961541T 2000-09-15 2001-08-29 Codificacion de señalmulti-canal. Expired - Lifetime ES2291340T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE0003284 2000-09-15
SE0003284A SE519976C2 (sv) 2000-09-15 2000-09-15 Kodning och avkodning av signaler från flera kanaler

Publications (1)

Publication Number Publication Date
ES2291340T3 true ES2291340T3 (es) 2008-03-01

Family

ID=20281031

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01961541T Expired - Lifetime ES2291340T3 (es) 2000-09-15 2001-08-29 Codificacion de señalmulti-canal.

Country Status (10)

Country Link
US (1) US7346110B2 (es)
EP (1) EP1327240B1 (es)
JP (1) JP4812230B2 (es)
CN (1) CN1216365C (es)
AT (1) ATE376239T1 (es)
AU (2) AU8280101A (es)
DE (1) DE60131009T2 (es)
ES (1) ES2291340T3 (es)
SE (1) SE519976C2 (es)
WO (1) WO2002023527A1 (es)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2368761B (en) * 2000-10-30 2003-07-16 Motorola Inc Speech codec and methods for generating a vector codebook and encoding/decoding speech signals
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
KR20070061843A (ko) * 2004-09-28 2007-06-14 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치 및 스케일러블 부호화 방법
US8024187B2 (en) * 2005-02-10 2011-09-20 Panasonic Corporation Pulse allocating method in voice coding
US8000967B2 (en) * 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding
EP1858006B1 (en) * 2005-03-25 2017-01-25 Panasonic Intellectual Property Corporation of America Sound encoding device and sound encoding method
DE602006015461D1 (de) 2005-05-31 2010-08-26 Panasonic Corp Einrichtung und verfahren zur skalierbaren codierung
KR101398836B1 (ko) * 2007-08-02 2014-05-26 삼성전자주식회사 스피치 코덱들의 고정 코드북들을 공통 모듈로 구현하는방법 및 장치
EP2396637A1 (en) * 2009-02-13 2011-12-21 Nokia Corp. Ambience coding and decoding for audio applications
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
US9978379B2 (en) * 2011-01-05 2018-05-22 Nokia Technologies Oy Multi-channel encoding and/or decoding using non-negative tensor factorization
US9449607B2 (en) * 2012-01-06 2016-09-20 Qualcomm Incorporated Systems and methods for detecting overflow
CN105453173B (zh) 2013-06-21 2019-08-06 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
PL3011554T3 (pl) * 2013-06-21 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Szacowanie opóźnienia wysokości tonu
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
US20210027794A1 (en) * 2015-09-25 2021-01-28 Voiceage Corporation Method and system for decoding left and right channels of a stereo sound signal
RU2763374C2 (ru) * 2015-09-25 2021-12-28 Войсэйдж Корпорейшн Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8913758D0 (en) * 1989-06-15 1989-08-02 British Telecomm Polyphonic coding
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP3435674B2 (ja) * 1994-05-06 2003-08-11 日本電信電話株式会社 信号の符号化方法と復号方法及びそれを使った符号器及び復号器
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US6081781A (en) * 1996-09-11 2000-06-27 Nippon Telegragh And Telephone Corporation Method and apparatus for speech synthesis and program recorded medium
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
WO1999016036A1 (en) * 1997-09-24 1999-04-01 Eldridge Martin E Position-responsive, hierarchically-selectable information presentation system and control program
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler

Also Published As

Publication number Publication date
JP2004509365A (ja) 2004-03-25
EP1327240B1 (en) 2007-10-17
SE519976C2 (sv) 2003-05-06
WO2002023527A1 (en) 2002-03-21
CN1455917A (zh) 2003-11-12
DE60131009T2 (de) 2008-07-17
SE0003284D0 (sv) 2000-09-15
US7346110B2 (en) 2008-03-18
AU2001282801B2 (en) 2007-06-07
CN1216365C (zh) 2005-08-24
SE0003284L (sv) 2002-03-16
AU8280101A (en) 2002-03-26
DE60131009D1 (de) 2007-11-29
ATE376239T1 (de) 2007-11-15
US20040044524A1 (en) 2004-03-04
EP1327240A1 (en) 2003-07-16
JP4812230B2 (ja) 2011-11-09

Similar Documents

Publication Publication Date Title
ES2291340T3 (es) Codificacion de señalmulti-canal.
ES2266312T3 (es) Indexacion de posiciones y señales de pulso en codigos de cifrado y descifrado algebraicos para la codificacion de señales de banda ancha.
ES2473277T3 (es) Dispositivo de codificación, dispositivo de descodificaci�n y método de los mismos
Campbell Jr et al. The DoD 4.8 kbps standard (proposed federal standard 1016)
EP1325495B1 (en) Multi-channel signal encoding and decoding
ES2207643T3 (es) Sintesis de señal de excitacion durante borrado de tramas o perdida de paquetes.
ES2269518T3 (es) Metodo y sistema para generar ruido de confort en comunicaciones de voz.
ES2205891T3 (es) Un metodo y un dispositivo para una busqueda adaptativa de tono de ancho de banda al codificar señales de banda ancha.
KR100929003B1 (ko) 저 비트 레이트 스피치 코딩 방법 및 장치
US6236960B1 (en) Factorial packing method and apparatus for information coding
ES2358213T3 (es) Flujo redundante de bits de audio y métodos de procesamiento de flujo de bits de audio.
AU595719B2 (en) Code excited linear predictive vocoder and method of operation
ES2871859T3 (es) Codificación entre canales de una señal de audio de banda alta
ES2430414T3 (es) Cálculo de máscara de escalado selectivo basado en detección de pico
ES2627581T3 (es) Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz
JP2004509366A (ja) 複数チャネル信号の符号化及び復号化
AU2001282801A1 (en) Multi-channel signal encoding and decoding
KR19990088610A (ko) 정보신호코드화방법및장치
ES2145737T5 (es) Codificador digital de voz con predictor a largo plazo mejorado por resolucion de submuestreos.
KR20030034368A (ko) 코드북 검색방법
EP1112625B1 (en) Method for coding an information signal
Moulsley et al. Speech transmission in TETRA (private mobile radio)
Chang et al. A speech coder with low complexity and optimized codebook
NATIONAL COMMUNICATIONS SYSTEM WASHINGTON DC Details to Assist in Implementation of Federal Standard 1016 CELP
Chang et al. An improved 13 kb/s speech coder for PCS