ES2291340T3 - Codificacion de señalmulti-canal. - Google Patents
Codificacion de señalmulti-canal. Download PDFInfo
- Publication number
- ES2291340T3 ES2291340T3 ES01961541T ES01961541T ES2291340T3 ES 2291340 T3 ES2291340 T3 ES 2291340T3 ES 01961541 T ES01961541 T ES 01961541T ES 01961541 T ES01961541 T ES 01961541T ES 2291340 T3 ES2291340 T3 ES 2291340T3
- Authority
- ES
- Spain
- Prior art keywords
- channels
- individual
- channel
- encoder
- fixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000013598 vector Substances 0.000 claims abstract description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 38
- 230000015572 biosynthetic process Effects 0.000 claims description 37
- 230000001934 delay Effects 0.000 claims description 30
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 5
- 230000005284 excitation Effects 0.000 abstract description 19
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Error Detection And Correction (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
Un codificador de señales de análisis por síntesis predictivo lineal multicanal que incluye un libro de código fijo multiparte, incluyendo un libro de código fijo individual (FC1, FC2) para cada canal; un libro de código fijo compartido (FCS) que contiene los vectores de libro de código que son comunes a todos los canales; y medios (40) para analizar la correlación entre canales y cambiar dinámicamente, dependiendo de la correlación entre canales actual, la asignación de bits de codificación entre dicho dichos libros de códigos fijos individuales y dicho libro de código fijo compartido.
Description
Codificación de señal
multi-canal.
La presente invención se refiere a la
codificación y descodificación de señales multicanal tales como
audioseñales estereofónicas.
Los métodos convencionales de codificación de
voz están basados generalmente en señales de voz monocanal. Un
ejemplo es la codificación de voz usada en una conexión entre un
teléfono normal y un teléfono celular. La codificación de voz es
usada en el radioenlace para reducir el uso de anchura de banda en
la interfaz aérea limitada en frecuencia. Ejemplos bien conocidos
de codificación de voz son la modulación por impulsos codificados
(PCM: Pulse Code Modulation), la modulación por impulsos codificados
diferencial adaptable (ADPCM: Adaptive Differential Pulse Code
Modulation), la codificación en subbandas, la codificación por
transformada, la codificación de voz por codificación predictiva
lineal (LPC: Linear Predictive Coding) y la codificación híbrida tal
como la codificación predictiva lineal excitada por código (CELP:
Code-Excited Linear Predictive)
[1-2].
En un entorno donde la comunicación de audio/voz
usa más de una señal de entrada, por ejemplo un puesto de trabajo
de ordenador con altavoces estereofónicos y dos micrófonos
(micrófonos estereofónicos), dos canales de audio/voz son
necesarios para trasmitir las señales estereofónicas. Otro ejemplo
de un entorno multicanal sería una sala de conferencia con
entrada/salida de dos, tres o cuatro canales. Se prevé que este tipo
de aplicaciones sea usado en Internet y en sistemas celulares de
tercera generación.
Principios generales para la
codificación/des-codificación de señales de análisis
por síntesis predictivo lineal multicanal (LPAS: linear predictive
análisis-by-synthesis) son descritos
en [3]. Sin embargo, los principios descritos no son siempre
óptimos en situaciones donde hay una fuerte correlación entre
canales o una correlación variable entre canales.
Un objeto de la presente invención es aprovechar
mejor la correlación entre canales en codificación/descodificación
de señales de análisis por síntesis predictivo lineal multicanal y
preferiblemente facilitar la adaptación de la
codificación/descodificación a la correlación variable entre
canales.
Este objeto es resuelto de acuerdo con las
reivindicaciones adjuntas.
Brevemente, la presente invención implica un
libro de código fijo multiparte que incluye un libro de código fijo
individual para cada canal y un libro de código fijo compartido
común a todos los canales. Esta estrategia hace posible variar el
número de bits que son asignados a los libros de códigos
individuales y al libro de código compartido sobre una base de
cuadro por cuadro, dependiendo de la correlación entre canales, o
sobre una base de llamada por llamada, dependiendo de la velocidad
binaria bruta deseada. Así, en un caso donde la correlación entre
canales es grande, solo será necesario esencialmente el libro de
código compartido mientras que en un caso donde la correlación
entre canales es pequeña, solo serán necesarios esencialmente los
libros de códigos individuales. Si se conoce o supone que la
correlación entre canales es grande, puede ser suficiente un libro
de código fijo compartido común a todos los canales. De modo
similar, si la velocidad binaria bruta deseada es pequeña, solo
será usado esencialmente el libro de código compartido mientras que
en un caso donde la velocidad binaria bruta deseada es grande, los
libros de códigos individuales pueden ser usados.
La invención, junto con objetos y ventajas
adicionales de ella, puede ser comprendida óptimamente haciendo
referencia a la descripción siguiente considerada junto con los
dibujos adjuntos, en los que:
la Figura 1 es un esquema de bloques de un
codificador convencional de voz de análisis por síntesis predictivo
lineal monocanal;
la Figura 2 es un esquema de bloques de una
realización de la parte de análisis de un codificador de voz de
análisis por síntesis predictivo lineal multicanal de técnica
anterior;
la Figura 3 es un esquema de bloques de una
realización de la parte de síntesis de un codificador de voz de
análisis por síntesis predictivo linear multicanal de técnica
anterior;
la Figura 4 es un esquema de bloques de una
realización ejemplar de la parte de síntesis de un codificador de
voz de análisis por síntesis predictivo lineal multicanal de acuerdo
con la presente invención;
la Figura 5 es un organigrama de una realización
ejemplar de un método de exploración de libro de código fijo
multiparte de acuerdo con la presente invención;
la Figura 6 es un organigrama de otra
realización ejemplar de un método de exploración de libro de código
fijo multiparte de acuerdo con la presente invención;
la Figura 7 es un esquema de bloques de una
realización ejemplar de la parte de análisis de un codificador de
voz de análisis por síntesis predictivo lineal multicanal de acuerdo
con la presente invención.
En la descripción siguiente, las mismas
designaciones de referencia serán usadas para elementos equivalentes
o similares.
La presente invención será descrita ahora
introduciendo un codificador convencional de voz de análisis por
síntesis predictivo lineal monocanal, y un codificador general de
voz de análisis por síntesis predictivo lineal multicanal descrito
en [3].
La Figura 1 es un esquema de bloques de un
codificador convencional de voz de análisis por síntesis predictivo
lineal monocanal. El codificador comprende dos partes, a saber una
parte de síntesis y una parte de análisis (un descodificador
correspondiente contendrá solo una parte de síntesis).
La parte de síntesis comprende un filtro 12 de
síntesis de codificación predictiva lineal (LPC) que recibe una
señal i(n) de excitación y produce una señal
\hat{s}(n) de voz sintética. La señal i(n) de
excitación es formada sumando dos señales u(n) y v(n)
en un sumador 22. La señal u(n) es formada cambiando de
escala una señal f(n), procedente de un libro de código fijo
16, por una ganancia g_{F} en un elemento 20 de ganancia. La
señal v(n) es formada cambiando de escala una versión
retardada (por el retardo "retraso") de la señal i(n)
de excitación, procedente de un libro de código adaptable 14, por
una ganancia g_{A} en un elemento 18 de ganancia. El libro de
código adaptable está formado por un bucle de realimentación que
incluye un elemento 24 de retardo que retarda la señal i(n)
de excitación en una longitud N de subcuadro. Así, el libro de
código adaptable contendrá las excitaciones pasadas i(n) que
son desplazadas al interior del libro de código (las excitaciones
más antiguas son desplazadas fuera del libro de código y
desechadas). Los parámetros del filtro de síntesis de codificación
predictiva lineal (LPC) son actualizados típicamente cada cuadro de
20-40 ms mientras que el libro de código adaptable
es actualizado cada subcuadro de 5-10 ms.
La parte de análisis del codificador de análisis
por síntesis predictivo lineal realiza un análisis de codificación
predictiva lineal de la señal s(n) de voz entrante y también
realiza un análisis de excitación.
El análisis de codificación predictiva lineal es
realizado por un filtro 10 de análisis de codificación predictiva
lineal (LPC). Este filtro recibe la señal s(n) de voz y
construye un modelo paramétrico de esta señal sobre una base de
cuadro por cuadro. Los parámetros del modelo son seleccionados a fin
de minimizar la energía de un vector residual formado por la
diferencia entre un vector real de cuadro de voz y el vector de
señal correspondiente producido por el modelo. Los parámetros del
modelo son representados por los coeficientes de filtro del filtro
10 de análisis. Estos coeficientes de filtro definen la función
A(z) de transferencia del filtro. Como el filtro 12 de
síntesis tiene una función de transferencia que es al menos
aproximadamente igual que 1/A(z), estos coeficientes de
filtro también controlarán el filtro 12 de síntesis, como es
indicado por la línea de control de trazos.
El análisis de excitación es realizado para
determinar la combinación óptima de vector de libro de código fijo
(índice de libro de código), ganancia g_{F}, vector de libro de
código adaptable (retraso) y ganancia g_{A} que produce el vector
{\hat{s}(n)} de señal sintética que coincide óptimamente
con el vector {s(n)} de señal de voz (aquí {} designa una
colección de muestras que forman un vector o cuadro). Esto se
efectúa en una búsqueda exhaustiva que ensaya todas las
combinaciones posibles de estos parámetros (también son posibles
esquemas de búsqueda subóptima en los que algunos parámetros son
determinados independientemente de los otros parámetros y después
son mantenidos fijos durante la búsqueda para los parámetros
restantes). Para ensayar lo próximo que un vector sintético
{\hat{s}(n)} está del vector de voz correspondiente
{s(n)}, la energía del vector diferencia {e(n)}
(formado en un sumador 26) puede ser calculada en un calculador 30
de energía. Sin embargo, es más eficiente considerar la energía de
un vector {e_{w}(n)} de señal de error ponderada, en el
que los errores han sido redistribuidos de tal modo que los errores
grandes son enmascarados por bandas de frecuencias de gran
amplitud. Esto es efectuado en el filtro 28 de ponderación.
La modificación del codificador de análisis por
síntesis predictivo lineal monocanal de la Figura 1 a un codificador
de análisis por síntesis predictivo lineal multicanal de acuerdo
con [3] será descrita ahora con referencia a las Figuras
2-3. Se supondrá una señal de voz de dos canales
(estereofónica) pero los mismos principios también pueden ser
usados para más de dos canales.
La Figura 2 es esquema de bloques de una
realización de la parte de análisis del codificador de voz de
análisis por síntesis predictivo lineal multicanal descrito en [3].
En la Figura 2, la señal de entrada es ahora una señal multicanal
como es indicado por los componentes s_{1}(n),
s_{2}(n) de señal. El filtro 10 de análisis de
codificación predictiva lineal en la Figura 1 ha sido sustituido por
un bloque 10M de filtros de análisis de codificación predictiva
lineal (LPC) que tiene una función A(z) de transferencia de
valor matricial. De modo similar, el sumador 26, el filtro 28 de
ponderación y el calculador 30 de energía son sustituidos por los
bloques multicanal correspondiente 26M, 28M y 30M,
respectivamente.
La Figura 3 es un esquema de bloques de una
realización de la parte de síntesis del codificador de voz de
análisis por síntesis predictivo lineal multicanal descrito en [3].
Un descodificador multicanal también puede ser formado por una
parte de síntesis tal. Aquí, el filtro 12 de síntesis de
codificación predictiva lineal en la Figura 1 ha sido sustituido
por un bloque 12M de filtros de síntesis de codificación predictiva
lineal (LPC) que tiene una función A^{-1}(z) de
transferencia de valor matricial que es (como es indicado por la
notación) al menos aproximadamente igual a la inversa de A(z)
De modo similar, el sumador 22, el libro de código fijo 16, el
elemento 20 de ganancia, el elemento 24 de retardo, el libro de
código adaptable 14 y el elemento 18 de ganancia son sustituidos
por los bloques multicanal correspondientes 22M, 16M, 20M, 24M, 14M
y 18M, respectivamente.
Un problema de este codificador multicanal de
técnica anterior es que no es muy flexible con respecto a la
correlación variable entre canales debida a los entornos variables
de micrófonos. Por ejemplo, el algunas situaciones varios
micrófonos pueden captar la voz de un solo orador. En tal caso, las
señales procedentes de los diferentes micrófonos son esencialmente
versiones retardadas y cambiadas de escala (suponiendo que los ecos
pueden ser despreciados) de la misma señal, o sea, los canales están
correlacionados fuertemente. En otras situaciones, puede haber
oradores simultáneos diferentes en los micrófonos individuales. En
este caso, casi no hay correlación entre canales.
La Figura 4 es un esquema de bloques de una
realización ejemplar de la parte de síntesis de un codificador de
voz de análisis por síntesis predictivo lineal multicanal de acuerdo
con la presente invención. Una característica esencial de la
presente invención es la estructura del libro de código fijo
multiparte. Según la invención, incluye tanto un libro de código
fijo individual FC1, FC2 para cada canal como un libro de código
fijo compartido FCS. Aunque el libro de código fijo compartidos FCS
es común a todos los canales (lo que significa que el mismo índice
de libro de código es usado por todos los canales), los canales
están asociados con retrasos individuales D1, D2 como se ilustra en
la Figura 4. Además, los libros de códigos fijos individuales FC1,
FC2 están asociados con las ganancias individuales g_{F1},
g_{F2} mientras que los retardos individuales D1, D2 (que pueden
ser números enteros o fraccionarios) están asociados con las
ganancias individuales g_{FS1}, g_{FS2}. La excitación
procedente de cada libro de código fijo individual FC1, FC2 es
sumada a la excitación correspondiente (un vector de libro de
código común pero retrasos y ganancias individuales para cada canal)
procedente del libro de código fijo compartido FCS en un sumador
AF1, AF2. Típicamente, los libros de códigos fijos comprenden
libros de códigos algebraicos en los que los vectores de excitación
son formados por impulsos unitarios que son distribuidos sobre cada
vector de acuerdo con ciertas reglas (esto es bien conocido en la
técnica y no será descrito con más detalle aquí).
La estructura de libro de código fijo multiparte
es muy flexible. Por ejemplo, algunos codificadores pueden usar más
bits en los libros de códigos fijos individuales mientras que otros
codificadores pueden usar más bits en el libro de código fijo
compartido. Además, un codificador puede cambiar dinámicamente la
distribución de bits entre libros de códigos individuales y
compartido dependiendo de la correlación entre canales. Para
algunas señales, incluso puede ser apropiado asignar más bits a un
canal individual que a los otros canales (distribución asimétrica
de bits).
Aunque la Figura 4 ilustra una estructura de
libro de código fijo de dos canales, se aprecia que los conceptos
son generalizados fácilmente a más canales aumentando el número de
libros de códigos individuales y el número de retrasos y ganancias
entre canales.
Los libros de códigos fijos compartido e
individuales son explorados típicamente en orden secuencial. El
orden preferido es determinar primero el vector de excitación, los
retrasos y las ganancias del libro de código fijo compartido.
Después se determinan los vectores y las ganancias de los libros de
códigos fijos individuales.
Dos métodos de exploración de libro de código
fijo multiparte serán descritos ahora con referencia a las Figuras
5 y 6.
La Figura 5 es un organigrama de una realización
de un método de exploración de libro de código fijo multiparte de
acuerdo con la presente invención. El paso S1 determina un canal
primero o adelantado, típicamente el canal más fuerte (el canal que
tiene la energía de cuadro máxima). El paso S2 determina la
correlación cruzada entre cada canal secundario o atrasado y el
canal primario durante un intervalo predeterminado, por ejemplo una
parte de o un cuadro completo. El paso S3 almacena los candidatos a
retrasos para cada canal secundario. Estos candidatos a retrasos
son definidos por las posiciones de un número de los picos más altos
de correlación cruzada y las posiciones más próximas alrededor de
cada pico para cada canal secundario. Por ejemplo, se podría elegir
los 3 picos más altos y después añadir las posiciones más próximas
en ambos lados de cada pico, proporcionando un total de 9
candidatos a retrasos. Si se usan retrasos de gran resolución
(fraccionarios), el número de candidatos alrededor de cada pico
puede ser aumentado, por ejemplo, a 5 o 7. La resolución mayor puede
ser obtenida aumentando el muestreo de la señal de entrada. En una
realización sencilla, el retraso para el canal primario puede ser
considerado nulo. Sin embargo, como los impulsos en el libro de
código no pueden tener típicamente posiciones arbitrarias, una
cierta ganancia de codificación puede ser conseguida asignando un
retraso también al canal primario. Este es especialmente el caso
cuando se usan retrasos de gran resolución. En el paso S4, un
vector de libro de código fijo compartido temporal es formado para
cada combinación almacenada de candidatos a retrasos. El paso S5
selecciona la combinación de retrasos que corresponde al vector de
libro de código temporal óptimo. El paso S6 determina las ganancias
óptimas entre canales. Finalmente, el paso S7 determina las
excitaciones y ganancias específicas (no compartidas) de
canales.
En una variación de este algoritmo, se conservan
todos los vectores de libros de códigos temporales óptimos y los
retrasos y las ganancias entre canales correspondientes. Para cada
combinación conservada, se realiza una exploración específica de
acuerdo con el paso S7. Finalmente, se selecciona la combinación
óptima de excitaciones de libros de códigos fijos compartido e
individuales.
Para reducir la complejidad de este método, es
posible limitar el vector de excitación del libro de código
temporal a unos pocos impulsos solamente. Por ejemplo, en el sistema
GSM (Global System for Mobile Communications), el libro de código
fijo completo de un canal de velocidad completa mejorado incluye 10
impulsos. En este caso, es razonable 3-5 impulsos
de libro de código temporal. En general, el 25-50%
del número total de impulsos sería un número razonable. Cuando la
combinación óptima de retrasos ha sido seleccionada, el libro de
código completo es explorado solo respecto a esta combinación
(típicamente, los impulsos ya situados no son cambiados, solo han
de ser situados los impulsos restantes de un libro de código
completo).
La Figura 6 es un organigrama de otra
realización de un método de exploración de libro de código fijo
multiparte de acuerdo con la presente invención. En esta
realización, los pasos S1, S6 y S7 son iguales que en la realización
de la Figura 5. El paso S10 sitúa un nuevo impulso de vector de
excitación en una posición óptima para cada combinación permitida
de retrasos (la primera vez que este paso es realizado, todas las
combinaciones de retraso son permitidas). El paso S11 comprueba si
todos los impulsos han sido consumidos. Si no, el paso S12 limita
las combinaciones permitidas de retrasos a las combinaciones
restantes óptimas. Después, otro impulso es añadido a las
combinaciones permitidas restantes. Finalmente, cuando todos los
impulsos han sido consumidos, el paso S13 selecciona la combinación
de retrasos restante óptima y su vector de libro de código fijo
compartido correspondiente.
Hay varias posibilidades con respecto al paso
S12. Una posibilidad es conservar solo un cierto porcentaje, por
ejemplo el 25%, de la combinación óptima de retrasos en cada
iteración. Sin embargo, para evitar que solo quede una combinación
antes de que todos los impulsos han sido consumidos, es posible
asegurar que al menos un cierto número de combinaciones permanecen
después de cada iteración. Una posibilidad es asegurarse de que
siempre permanecen al menos tantas combinaciones como los impulsos
que quedan más uno. De este modo, siempre habrá varias
combinaciones de candidatos de las que elegir en cada iteración.
Para las ganancias de libros de códigos fijos,
cada canal requiere una ganancia para el libro de código fijo
compartido y una ganancia para el libro de código individual. Estas
ganancias tendrán típicamente correlación significativa entre los
canales. También estarán correlacionadas con las ganancias en el
libro de código adaptable. Así, serán posibles las predicciones
entre canales de estas ganancias, y la cuantificación vectorial
puede ser usada para
codificarlas.
codificarlas.
Volviendo a la Figura 4, el libro de código
adaptable incluye un libro de código adaptable AC1, AC2 para cada
canal. Un libro de código adaptable puede estar configurado de
varios modos en un codificador multicanal.
Una posibilidad es dejar que todos los canales
compartan un retraso de paso común. Esto es factible cuando hay una
fuerte correlación entre canales. Aunque el retraso de paso sea
compartido, los canales todavía pueden tener ganancias
g_{A11}-g_{A22} de pasos distintas. El retraso
de paso compartido es buscado en una forma de bucle cerrado en
todos los canales simultáneamente.
Otra posibilidad es dejar que cada canal tenga
un retraso de paso individual. Esto es factible cuando hay una
correlación débil entre canales (los canales son independientes).
Los retrasos de pasos pueden ser codificados diferencialmente o
absolutamente.
Una posibilidad adicional es usar el historial
de excitación en una manera de canales cruzados. Por ejemplo, el
canal 2 puede ser predicho a partir del historial de excitación del
canal 1 en el retraso P_{12} entre canales. Esto es factible
cuando hay una fuerte correlación entre canales.
Como en el caso con el libro de código fijo, la
estructura de libro de código adaptable descrita es muy flexible y
adecuada para funcionamiento multimodo. La elección de si usar
retrasos de pasos compartidos o individuales puede estar basada en
la energía residual de señal. En un primer paso, se determina la
energía residual del retraso de paso compartido óptimo. En un
segundo paso, se determina la energía residual de los retrasos de
pasos individuales óptimos. Si la energía residual del caso de
retraso de paso compartido supera la energía residual del caso de
retrasos de pasos individuales en una cantidad predeterminada, se
usan los retrasos de pasos individuales. En caso contrario, se usa
un retraso de paso compartido. Si se desea, una media móvil de la
diferencia de energías puede ser usada para suavizar la
decisión.
Esta estrategia puede ser considerada como una
estrategia "de bucle cerrado" para decidir entre retrasos de
pasos compartidos o individuales. Otra posibilidad es una estrategia
de "bucle abierto" basada, por ejemplo, en la correlación
entre canales. En este caso, un retraso de paso compartido es usado
si la correlación entre canales supera un umbral predeterminado. En
otro caso, se usan retrasos de pasos individuales.
Estrategias similares pueden ser usadas para
decidir si usar retrasos de pasos entre canales o no.
\newpage
Además, una correlación significativa ha de ser
prevista entre las ganancias de libros de códigos adaptables de
canales diferentes. Estas ganancias pueden ser predichas a partir
del historial de ganancia interna del canal, a partir de ganancias
en el mismo cuadro pero pertenecientes a otros canales, y también a
partir de ganancias de libros de códigos fijos. Como en el caso con
el libro de código fijo, la cuantificación vectorial también es
posible.
En el bloque 12M de filtros de síntesis de
codificación predictiva lineal (LPC) en la Figura 4, cada canal usa
un filtro individual de codificación predictiva lineal. Estos
filtros pueden ser derivados independientemente del mismo modo que
en el caso de canal único. Sin embargo, algunos o todos los canales
también pueden compartir el mismo filtro de codificación predictiva
lineal. Esto permite conmutar entre modos de filtros múltiples y
filtro único dependiendo de las propiedades de señal, por ejemplo
distancias espectrales entre espectros de codificación predictiva
lineal.
La Figura 7 es un esquema de bloques de una
realización ejemplar de la parte de análisis de un codificador de
voz de análisis por síntesis predictivo lineal multicanal de acuerdo
con la presente invención. Además de los bloques que ya han sido
descritos con referencia a las Figuras 1 y 2, la parte de análisis
en la Figura 7 incluye un bloque 40 de análisis multimodo. El
bloque 40 determina la correlación entre canales para determinar si
hay correlación suficiente entre los canales para justificar la
codificación usando solo el libro de código fijo compartido FCS,
los retrasos D1, D2 y las ganancias g_{FS1}, g_{FS2}. Si no,
será necesario usar los libros de códigos fijos individuales FC1,
FC2 y las ganancias g_{F1}, g_{F2}. La correlación puede ser
determinada por la correlación usual en el dominio de tiempo, o sea
desplazando las señales de canal secundario con respecto a la señal
primaria hasta que se obtiene un ajuste óptimo. Si hay más de dos
canales, un libro de código fijo compartido será usado si el valor
mínimo de correlación supera un umbral predeterminado. Otra
posibilidad es usar un libro de código fijo compartido para los
canales que tienen una correlación con el canal primario que supera
un umbral predeterminado y libros de códigos fijos individuales para
los canales restantes. El umbral exacto puede ser determinado por
ensayos de audición.
En un codificador de velocidad binaria baja, el
libro de código fijo puede incluir solo un libro de código
compartido FCS y los elementos D1, D2 de retraso y las ganancias
g_{FS1}, g_{FS2} entre canales correspondientes. Esta
realización es equivalente a un umbral de correlación entre canales
igual a cero.
La parte de análisis también puede incluir un
calculador 42 de energías relativas que determina los factores
e_{1}, e_{2} de escala para cada canal. Estos factores de escala
pueden ser determinados de acuerdo con:
e_{i} =
\frac{E_{i}}{\sum\limits_{i}
E_{i}}
donde E_{i} es la energía
del cuadro i. Usando estos factores de escala, la energía
residual ponderada R_{1}, R_{2} para cada canal puede volver a
ser cambiada de escala de acuerdo con la intensidad relativa del
canal, como se indica en la Figura 7. Volver a cambiar la escala de
energía residual para cada canal tiene el efecto de optimizar
respecto al error relativo en cada canal más bien que optimizar
respecto al error absoluto en cada canal. Volver a cambiar de
escala los errores multicanal puede ser usado en todos los pasos
(derivar filtros de codificación predictiva lineal, libros de
códigos adaptables y
fijos).
Los factores de escala también pueden ser
funciones más generales de la intensidad relativa e_{i} de canal,
por ejemplo
f(e_{i}) =
\frac{exp(\alpha(2e_{i} - 1))}{1 \ + \
exp(\alpha(2e_{1} -
1))}
donde \alpha es una constante en
el intervalo de 4 a 7, por ejemplo \alpha\approx5. La forma
exacta de la función de cambio de escala puede ser determinada por
ensayos de audición
subjetivos.
La funcionalidad de los diversos elementos de
las realizaciones descritas de la presente invención es implementada
típicamente por uno o varios microprocesadores o combinaciones de
microprocesadores/procesadores de señales y el software
correspondientes.
La descripción anterior ha sido dirigida
principalmente hacia un codificador. El descodificador
correspondiente solo incluiría la parte de síntesis de tal
codificador. Típicamente, una combinación de
codificador/des-codificador es usada en un terminal
que transmite/recibe señales codificadas por un canal de
comunicación limitado en anchura de banda. El terminal puede ser un
radioterminal en un teléfono celular o una estación base. Tal
terminal también incluiría diversos otros elementos tales como una
antena, amplificador, ecualizador,
codificador/des-codificador de canal, etc. Sin
embargo, estos elementos no son esenciales para describir la
presente invención y, por tanto, han sido
suprimidos.
suprimidos.
Los expertos en la técnica comprenderán que
diversas modificaciones y cambios pueden ser efectuados en la
presente invención sin apartarse de su alcance, que es definido por
las reivindicaciones adjuntas.
\newpage
[1] "Avances en compresión de voz y
audio" de A. Gersho, Actas del IEEE (Institute of
Electrical and Electronics Engineers), Volumen 82, Nº 6, páginas 900
a 918, Junio de 1.994.
[2] "Codificación de voz: una revisión
instructiva" de A.S. Spanias, Actas del IEEE, Volumen
82, Nº 10, páginas 1.541 a 1.582, Octubre de 1.994.
[3] WO 00/19413 (Telefonaktiebolaget LM
Ericsson).
Claims (18)
1. Un codificador de señales de análisis por
síntesis predictivo lineal multicanal que incluye un libro de
código fijo multiparte, incluyendo
un libro de código fijo individual (FC1, FC2)
para cada canal;
un libro de código fijo compartido (FCS) que
contiene los vectores de libro de código que son comunes a todos
los canales; y
medios (40) para analizar la correlación entre
canales y cambiar dinámicamente, dependiendo de la correlación
entre canales actual, la asignación de bits de codificación entre
dicho dichos libros de códigos fijos individuales y dicho libro de
código fijo compartido.
2. El codificador de la reivindicación 1,
caracterizado porque dicho libro de código fijo compartido
está conectado a un elemento de retardo individual (D1, D2) para
cada canal.
3. El codificador de la reivindicación 2,
caracterizado porque dichos elementos de retardo individuales
(D1, D2) son elementos de gran resolución.
4. El codificador de la reivindicación 2 o 3,
caracterizado porque cada elemento de retardo (D1, D2) está
conectado a un elemento de ganancia correspondiente (g_{FS1},
g_{FS2}).
5. El codificador de la reivindicación 1,
caracterizado por un libro de código adaptable multiparte que
tiene un libro de código adaptable individual (AC1, AC2) y un
retardo de paso individual (P_{11}, P_{22}) para cada
canal.
6. El codificador de la reivindicación 5,
caracterizado por medios para determinar si un retraso de
paso común puede ser compartido por todos los canales.
7. El codificador de la reivindicación 5,
caracterizado por retrasos de pasos entre canales (P_{12},
P_{21}) entre cada canal y los otros canales.
8. El codificador de la reivindicación 1,
caracterizado por medios (42) para volver a cambiar de escala
la energía residual de cada canal de acuerdo con la intensidad
relativa de canal.
9. Un terminal que incluye un codificador de voz
de análisis por síntesis predictivo lineal multicanal según la
reivindicación 1.
10. El terminal de la reivindicación 9,
caracterizado porque dicho libro de código fijo compartido
está conectado a un elemento de retardo individual (D1, D2) para
cada canal.
11. El terminal de la reivindicación 10,
caracterizado porque dichos elementos de retardo individuales
(D1, D2) son elementos de gran resolución.
12. El terminal de la reivindicación 10 o 11,
caracterizado porque cada elemento de retardo (D1, D2) está
conectado a un elemento de ganancia correspondiente (g_{FS1},
g_{FS2}).
13. El terminal de la reivindicación 9,
caracterizado por un libro de código adaptable multiparte que
tiene un libro de código adaptable individual (AC1, AC2) y un
retraso de paso individual (P_{11}, P_{22}) para cada
canal.
14. El terminal de la reivindicación 13,
caracterizado por medios para determinar si un retraso de
paso común puede ser compartido por todos los canales.
15. El terminal de la reivindicación 13,
caracterizado por retrasos de pasos entre canales (P_{12},
P_{21}) entre cada canal y los otros canales.
16. El terminal de cualquiera de las
reivindicaciones 9 a 15 precedentes, caracterizado porque
dicho terminal es un radioterminal.
17. Un método de codificación de señales de
análisis por síntesis predictivo lineal multicanal, que incluye los
pasos de
analizar la correlación entre canales; y
cambiar dinámicamente, dependiendo de la
correlación actual entre canales, la asignación de bits de
codificación entre libros de códigos fijos dedicados a canales
individuales y un libro de código fijo compartido que contiene
vectores de libro de código que son comunes a todos los canales.
18. Un método de codificación de señales de
análisis por síntesis predictivo lineal multicanal,
caracterizado por:
determinar una velocidad binaria bruta
deseada;
analizar la correlación entre canales; y
cambiar dinámicamente, dependiendo de la
correlación actual entre canales y de dicha velocidad binaria bruta
deseada, la asignación de bits de codificación entre los libros de
códigos fijos dedicados a los canales individuales y un libro de
código fijo compartido que contiene los vectores de libro de código
que son comunes a todos los canales.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0003284 | 2000-09-15 | ||
SE0003284A SE519976C2 (sv) | 2000-09-15 | 2000-09-15 | Kodning och avkodning av signaler från flera kanaler |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2291340T3 true ES2291340T3 (es) | 2008-03-01 |
Family
ID=20281031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01961541T Expired - Lifetime ES2291340T3 (es) | 2000-09-15 | 2001-08-29 | Codificacion de señalmulti-canal. |
Country Status (10)
Country | Link |
---|---|
US (1) | US7346110B2 (es) |
EP (1) | EP1327240B1 (es) |
JP (1) | JP4812230B2 (es) |
CN (1) | CN1216365C (es) |
AT (1) | ATE376239T1 (es) |
AU (2) | AU8280101A (es) |
DE (1) | DE60131009T2 (es) |
ES (1) | ES2291340T3 (es) |
SE (1) | SE519976C2 (es) |
WO (1) | WO2002023527A1 (es) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2368761B (en) * | 2000-10-30 | 2003-07-16 | Motorola Inc | Speech codec and methods for generating a vector codebook and encoding/decoding speech signals |
KR100651712B1 (ko) * | 2003-07-10 | 2006-11-30 | 학교법인연세대학교 | 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법 |
FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
KR20070061843A (ko) * | 2004-09-28 | 2007-06-14 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치 및 스케일러블 부호화 방법 |
US8024187B2 (en) * | 2005-02-10 | 2011-09-20 | Panasonic Corporation | Pulse allocating method in voice coding |
US8000967B2 (en) * | 2005-03-09 | 2011-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Low-complexity code excited linear prediction encoding |
EP1858006B1 (en) * | 2005-03-25 | 2017-01-25 | Panasonic Intellectual Property Corporation of America | Sound encoding device and sound encoding method |
DE602006015461D1 (de) | 2005-05-31 | 2010-08-26 | Panasonic Corp | Einrichtung und verfahren zur skalierbaren codierung |
KR101398836B1 (ko) * | 2007-08-02 | 2014-05-26 | 삼성전자주식회사 | 스피치 코덱들의 고정 코드북들을 공통 모듈로 구현하는방법 및 장치 |
EP2396637A1 (en) * | 2009-02-13 | 2011-12-21 | Nokia Corp. | Ambience coding and decoding for audio applications |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
US9978379B2 (en) * | 2011-01-05 | 2018-05-22 | Nokia Technologies Oy | Multi-channel encoding and/or decoding using non-negative tensor factorization |
US9449607B2 (en) * | 2012-01-06 | 2016-09-20 | Qualcomm Incorporated | Systems and methods for detecting overflow |
CN105453173B (zh) | 2013-06-21 | 2019-08-06 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
PL3011554T3 (pl) * | 2013-06-21 | 2019-12-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Szacowanie opóźnienia wysokości tonu |
US20150025894A1 (en) * | 2013-07-16 | 2015-01-22 | Electronics And Telecommunications Research Institute | Method for encoding and decoding of multi channel audio signal, encoder and decoder |
US20210027794A1 (en) * | 2015-09-25 | 2021-01-28 | Voiceage Corporation | Method and system for decoding left and right channels of a stereo sound signal |
RU2763374C2 (ru) * | 2015-09-25 | 2021-12-28 | Войсэйдж Корпорейшн | Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8913758D0 (en) * | 1989-06-15 | 1989-08-02 | British Telecomm | Polyphonic coding |
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
JP3435674B2 (ja) * | 1994-05-06 | 2003-08-11 | 日本電信電話株式会社 | 信号の符号化方法と復号方法及びそれを使った符号器及び復号器 |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
SE506379C3 (sv) * | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
US6081781A (en) * | 1996-09-11 | 2000-06-27 | Nippon Telegragh And Telephone Corporation | Method and apparatus for speech synthesis and program recorded medium |
GB2326572A (en) * | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
WO1999016036A1 (en) * | 1997-09-24 | 1999-04-01 | Eldridge Martin E | Position-responsive, hierarchically-selectable information presentation system and control program |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
SE519985C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
SE519981C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
-
2000
- 2000-09-15 SE SE0003284A patent/SE519976C2/sv not_active IP Right Cessation
-
2001
- 2001-08-29 JP JP2002527491A patent/JP4812230B2/ja not_active Expired - Fee Related
- 2001-08-29 AU AU8280101A patent/AU8280101A/xx active Pending
- 2001-08-29 AU AU2001282801A patent/AU2001282801B2/en not_active Ceased
- 2001-08-29 DE DE60131009T patent/DE60131009T2/de not_active Expired - Lifetime
- 2001-08-29 WO PCT/SE2001/001828 patent/WO2002023527A1/en active IP Right Grant
- 2001-08-29 AT AT01961541T patent/ATE376239T1/de not_active IP Right Cessation
- 2001-08-29 CN CN01815496.4A patent/CN1216365C/zh not_active Expired - Fee Related
- 2001-08-29 ES ES01961541T patent/ES2291340T3/es not_active Expired - Lifetime
- 2001-08-29 US US10/380,422 patent/US7346110B2/en not_active Expired - Fee Related
- 2001-08-29 EP EP01961541A patent/EP1327240B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004509365A (ja) | 2004-03-25 |
EP1327240B1 (en) | 2007-10-17 |
SE519976C2 (sv) | 2003-05-06 |
WO2002023527A1 (en) | 2002-03-21 |
CN1455917A (zh) | 2003-11-12 |
DE60131009T2 (de) | 2008-07-17 |
SE0003284D0 (sv) | 2000-09-15 |
US7346110B2 (en) | 2008-03-18 |
AU2001282801B2 (en) | 2007-06-07 |
CN1216365C (zh) | 2005-08-24 |
SE0003284L (sv) | 2002-03-16 |
AU8280101A (en) | 2002-03-26 |
DE60131009D1 (de) | 2007-11-29 |
ATE376239T1 (de) | 2007-11-15 |
US20040044524A1 (en) | 2004-03-04 |
EP1327240A1 (en) | 2003-07-16 |
JP4812230B2 (ja) | 2011-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2291340T3 (es) | Codificacion de señalmulti-canal. | |
ES2266312T3 (es) | Indexacion de posiciones y señales de pulso en codigos de cifrado y descifrado algebraicos para la codificacion de señales de banda ancha. | |
ES2473277T3 (es) | Dispositivo de codificación, dispositivo de descodificaci�n y método de los mismos | |
Campbell Jr et al. | The DoD 4.8 kbps standard (proposed federal standard 1016) | |
EP1325495B1 (en) | Multi-channel signal encoding and decoding | |
ES2207643T3 (es) | Sintesis de señal de excitacion durante borrado de tramas o perdida de paquetes. | |
ES2269518T3 (es) | Metodo y sistema para generar ruido de confort en comunicaciones de voz. | |
ES2205891T3 (es) | Un metodo y un dispositivo para una busqueda adaptativa de tono de ancho de banda al codificar señales de banda ancha. | |
KR100929003B1 (ko) | 저 비트 레이트 스피치 코딩 방법 및 장치 | |
US6236960B1 (en) | Factorial packing method and apparatus for information coding | |
ES2358213T3 (es) | Flujo redundante de bits de audio y métodos de procesamiento de flujo de bits de audio. | |
AU595719B2 (en) | Code excited linear predictive vocoder and method of operation | |
ES2871859T3 (es) | Codificación entre canales de una señal de audio de banda alta | |
ES2430414T3 (es) | Cálculo de máscara de escalado selectivo basado en detección de pico | |
ES2627581T3 (es) | Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz | |
JP2004509366A (ja) | 複数チャネル信号の符号化及び復号化 | |
AU2001282801A1 (en) | Multi-channel signal encoding and decoding | |
KR19990088610A (ko) | 정보신호코드화방법및장치 | |
ES2145737T5 (es) | Codificador digital de voz con predictor a largo plazo mejorado por resolucion de submuestreos. | |
KR20030034368A (ko) | 코드북 검색방법 | |
EP1112625B1 (en) | Method for coding an information signal | |
Moulsley et al. | Speech transmission in TETRA (private mobile radio) | |
Chang et al. | A speech coder with low complexity and optimized codebook | |
NATIONAL COMMUNICATIONS SYSTEM WASHINGTON DC | Details to Assist in Implementation of Federal Standard 1016 CELP | |
Chang et al. | An improved 13 kb/s speech coder for PCS |