ES2827278T3

ES2827278T3 - Método, dispositivo y memoria no transitoria legible por ordenador para codificación y decodificación predictiva linealde señales sonoras en la transición entre tramas que tienen diferentes tasas de muestreo

Info

Publication number: ES2827278T3
Application number: ES18215702T
Authority: ES
Inventors: Redwan Salami; Vaclav Eksler
Original assignee: VoiceAge Corp
Current assignee: VoiceAge Corp
Priority date: 2014-04-17
Filing date: 2014-07-25
Publication date: 2021-05-20
Anticipated expiration: 2034-07-25
Also published as: SI3511935T1; LT3511935T; US10468045B2; EP4336500A3; EP3511935B1; AU2014391078B2; CA2940657C; JP6692948B2; BR112016022466B1; ZA201606016B; EP3751566B1; EP3132443B1; CA3134652A1; WO2015157843A1; RU2677453C2; DK3751566T3; EP4336500A2; BR122020015614B1; HUE052605T2; US10431233B2

Abstract

Un método implementado en un codificador de señal de sonido basado en CELP o un decodificador de señal de sonido basado en CELP para convertir, cuando el codificador o el decodificador conmuta desde una primera trama con una tasa de muestreo interno S1 hasta una segunda trama con una tasa de muestreo interno S2, parámetros de filtro predictivo lineales, LP, de la primera trama desde la tasa de muestreo interno S1 a la tasa de muestreo interno S2, el método se caracteriza por: calcular, a la tasa de muestreo interno S1, un espectro de potencia de un filtro de síntesis LP utilizando los parámetros del filtro LP; modificar el espectro de potencia del filtro de síntesis LP para convertirlo de la tasa de muestreo interno S1 a la tasa de muestreo interno S2; transformar de manera inversa del espectro de potencia modificado del filtro de síntesis LP para determinar las autocorrelaciones del filtro de síntesis LP a la tasa de muestreo interno S2; y utilizar las autocorrelaciones para calcular los parámetros del filtro LP a la tasa de muestreo interno S2.

Description

DESCRIPCIÓN

Método, dispositivo y memoria no transitoria legible por ordenador para codificación y decodificación predictiva lineal de señales sonoras en la transición entre tramas que tienen diferentes tasas de muestreo

Campo técnico

La presente divulgación se refiere al campo de codificación de sonido. Más específicamente, la presente divulgación se refiere a métodos, un codificador y un decodificador para la codificación y decodificación predictiva lineal de señales de sonido durante la transición entre tramas que tienen diferentes velocidades de muestreo.

Antecedentes

La demanda de técnicas de codificación de voz/audio de banda ancha digital eficiente con un buen intercambio de tasa de bits/calidad subjetiva está aumentando para numerosas aplicaciones tales como teleconferencias de audio/vídeo, multimedia y aplicaciones inalámbricas, así como aplicaciones de red de paquetes e Internet. Hasta hace poco, los anchos de banda telefónicos en el rango de 200-3400 Hz se usaban principalmente en aplicaciones de codificación de voz. Sin embargo, existe una demanda creciente de aplicaciones de voz de banda ancha con el fin de aumentar la inteligibilidad y naturalidad de las señales de voz. Se consideró que un ancho de banda en el rango de 50-7000 Hz era suficiente para ofrecer una calidad de voz cara a cara. Para las señales de audio, este rango proporciona una calidad de audio aceptable, pero aún es menor que la calidad de CD (disco compacto) que opera en el rango de 20-20000 Hz.

Un codificador de voz convierte una señal de voz en una corriente digital de bits que se transmite por un canal de comunicación (o se almacena en un medio de almacenamiento). La señal de voz se digitaliza (muestreada y cuantificada normalmente con 16 bits por muestra) y el codificador de voz tiene la función de representar estas muestras digitales con un número menor de bits manteniendo una buena calidad de voz subjetiva. El decodificador o sintetizador de voz funciona con el flujo de bits transmitido o almacenado y lo convierte de nuevo en una señal de sonido.

Una de las mejores técnicas disponibles capaces de desarrollar un buen intercambio de tasa de bits/calidad es la llamada técnica CELP (Predicción Lineal con Excitación por Código). De acuerdo con esta técnica, la señal de voz muestreada se procesa en bloques sucesivos de L muestras normalmente llamadas tramas donde L es un número predeterminado (correspondiente a 10-30 ms de voz). En CELP, un filtro de síntesis LP (Predicción Lineal) se calcula y se transmite en cada trama. La trama de muestra L se divide además en bloques más pequeños denominados subtramas de N muestras, donde L = kN y k es el número de subtramas en una trama (N normalmente corresponde a 4-10 ms de voz). Se determina una señal de excitación en cada subtrama, que generalmente comprende dos componentes: uno de la excitación anterior (también llamado contribución de tono o libro de códigos adaptativo) y el otro de un libro de códigos innovador (también llamado libro de códigos fijo). Esta señal de excitación se transmite y se utiliza en el decodificador como entrada del filtro de síntesis LP para obtener la voz sintetizada.

Para sintetizar la voz de acuerdo con la técnica CELP, cada bloque de N muestras se sintetiza filtrando un vector de código apropiado del libro de códigos innovador a través de filtros variables en el tiempo que modelan las características espectrales de la señal de voz. Estos filtros comprenden un filtro de síntesis de tono (generalmente implementado como un libro de códigos adaptativo que contiene la señal de excitación anterior) y un filtro de síntesis LP. En el extremo del codificador, la salida de síntesis se calcula para todos, o un subconjunto, de los vectores de código del libro de códigos innovador (búsqueda de libro de códigos). El vector de código innovador retenido es el que produce la salida de síntesis más cercana a la señal de voz original de acuerdo con una medida de distorsión ponderada perceptualmente. Esta ponderación perceptiva se realiza utilizando un llamado filtro de ponderación perceptual, que normalmente se deriva del filtro de síntesis LP.

En los codificadores basados en LP tales como CELP, un filtro de LP se calcula entonces cuantificados y transmitidos una vez por trama. Sin embargo, para asegurar una evolución suave del filtro de síntesis LP, los parámetros del filtro se interpolan en cada subtrama, basándose en los parámetros LP de la trama anterior. Los parámetros del filtro LP no son adecuados para la cuantificación debido a problemas de estabilidad del filtro. Se suele utilizar otra representación LP más eficaz para la cuantificación e interpolación. Una representación de parámetro LP comúnmente utilizada es el dominio de frecuencia espectral de línea (LSF).

En codificación de banda ancha la señal de sonido es muestreada a 16000 muestras por segundo y el ancho de banda codificada extendida hasta 7 kHz. Sin embargo, en codificación de banda ancha de baja tasa de bits (por debajo de 16 kbit/s), generalmente es más eficiente muestrear la señal de entrada a una tasa ligeramente más baja y aplicar el modelo CELP a un ancho de banda menor, luego usar la extensión de ancho de banda en el decodificador para generar la señal hasta 7 kHz. Esto se debe al hecho de que CELP modela las frecuencias más bajas con alta energía mejor que las frecuencias más altas. Por lo tanto, es más eficiente enfocar el modelo en el ancho de banda más bajo a tasas de bits bajas. El estándar AMR-WB (Referencia [1]) es un ejemplo de codificación de este tipo, donde la señal de entrada se muestrea a 12800 muestras por segundo, y el CELP codifica la señal hasta 6.4 kHz. En el decodificador, la extensión del ancho de banda se utiliza para generar una señal de 6.4 a 7 kHz. Sin embargo, a tasas de bits superiores a 16 kbit/s, es más eficaz utilizar CELP para codificar la señal hasta 7 kHz, ya que hay suficientes bits para representar todo el ancho de banda.

Los codificadores más recientes son codificadores de múltiples velocidades que cubren una amplia gama de tasas de bits para permitir la flexibilidad en diferentes escenarios de aplicación. Una vez más, AMR-WB es un ejemplo de este tipo, donde el codificador funciona a tasas de bits de 6.6 a 23.85 kbit/s. En los codificadores de múltiples tasas, el códec debería poder cambiar entre diferentes tasas de bits en una trama sin introducir artefactos de conmutación. En AMR-WB, esto se logra fácilmente ya que todas las tasas utilizan CELP a una tasa de muestreo interno de 12.8 kHz. Sin embargo, en un codificador reciente que usa muestreo de 12.8 kHz a tasas de bits por debajo de 16 kbit/s y muestreo de 16 kHz a tasas de bits superiores a 16 kbit/s, es necesario abordar los problemas relacionados con el cambio de la tasa de bits entre tramas que utilizan diferentes tasas de muestreo. Los problemas principales están en la transición del filtro LP y en la memoria del filtro de síntesis y el libro de códigos adaptativo. Las técnicas para convertir los parámetros del filtro LP de una primera tasa de muestreo a una segunda tasa de muestreo también se conocen por las solicitudes de patente US2008/0077401 A1 y JP2000206998A.

Por lo tanto, subsiste la necesidad de métodos eficientes para la conmutación códecs basados en LP entre dos tasas de bits con diferentes tasas de muestreo internos.

Resumen

La invención proporciona un método de acuerdo con la reivindicación 1, un dispositivo de acuerdo con la reivindicación 13, una memoria no transitoria legible por ordenador que almacena instrucciones de código de acuerdo con la reivindicación 20.

Los anteriores y otros objetos, ventajas y características de la presente divulgación se harán más evidentes tras la lectura de la siguiente descripción no restrictiva de una realización ilustrativa de la misma, dada a modo de ejemplo solamente con referencia a los dibujos adjuntos.

Breve descripción de los dibujos

En los dibujos adjuntos:

La Figura 1 es un diagrama de bloques esquemático de un sistema de comunicación de sonido que representa un ejemplo de uso de codificación y decodificación de sonido;

La Figura 2 es un diagrama de bloques esquemático que ilustra la estructura de un codificador y decodificador basado en CELP, parte del sistema de comunicación de sonido de la Figura 1;

La Figura 3 ilustra un ejemplo de encuadre e interpolación de parámetros LP;

La Figura 4 es un diagrama de bloques que ilustra una realización para convertir los parámetros del filtro LP entre dos tasas de muestreo diferentes; y

La Figura 5 es un diagrama de bloques simplificado de una configuración de ejemplo de componentes de hardware que forman el codificador y/o decodificador de las Figuras 1 y 2.

Descripción detallada

La realización ilustrativa no limitativa de la presente divulgación se refiere a un método y un dispositivo para la conmutación eficiente, en un códec basado en LP, entre tramas utilizando diferentes tasas de muestreo internos. El método y el dispositivo de conmutación se pueden utilizar con cualquier señal de sonido, incluidas las señales de voz y audio. La conmutación entre tasas de muestreo internos de 16 kHz y 12.8 kHz se da a modo de ejemplo, sin embargo, el método y el dispositivo de conmutación también se pueden aplicar a otras tasas de muestreo.

La Figura 1 es un diagrama de bloques esquemático de un sistema de comunicación de sonido que muestra un ejemplo de uso de codificación y decodificación de sonido. Un sistema 100 de comunicación de sonido soporta la transmisión y reproducción de una señal de sonido a través de un canal 101 de comunicación. El canal 101 de comunicación puede comprender, por ejemplo, un enlace por cable, óptico o de fibra. Alternativamente, el canal 101 de comunicación puede comprender al menos en parte un enlace de radiofrecuencia. El enlace de radiofrecuencia a menudo admite comunicaciones de voz múltiples y simultáneas que requieren recursos de ancho de banda compartido, como los que se pueden encontrar con la telefonía celular. Aunque no se muestra, el canal 101 de comunicación puede ser reemplazado por un dispositivo de almacenamiento en una realización de un solo dispositivo del sistema 101 de comunicación que graba y almacena la señal de sonido codificada para su posterior reproducción.

Todavía en referencia a la Figura 1, por ejemplo, un micrófono 102 produce una señal 103 de sonido analógica original que se suministra a un convertidor 104 analógico a digital (A/D) para convertirlo en una señal 105 de sonido digital original. La señal 105 de sonido digital original también se puede grabar y suministrar desde un dispositivo de almacenamiento (no mostrado). Un codificador 106 de sonido codifica la señal 105 de sonido digital original produciendo así un conjunto de parámetros 107 de codificación que se codifican en una forma binaria y se envían a un codificador 108 de canal opcional. El codificador 108 de canal opcional, cuando está presente, agrega redundancia a la representación binaria de los parámetros de codificación antes de transmitirlos por el canal 101 de comunicación. En el lado del receptor, un decodificador 109 de canal opcional utiliza la información redundante mencionada anteriormente en un flujo 111 de bits digital para detectar y corregir errores de canal que pueden haber ocurrido durante la transmisión por el canal 101 de comunicación, que produce los parámetros 112 de codificación recibidos. Un decodificador 110 de sonido convierte los parámetros 112 de codificación recibidos para crear una señal 113 de sonido digital sintetizada. La señal 113 de sonido digital sintetizada reconstruida en el decodificador 110 de sonido se convierte en una señal 114 de sonido analógica sintetizada en un convertidor 115 de digital a analógico (D/A) y se reproduce en una unidad 116 de altavoz. Alternativamente, la señal 113 de sonido digital sintetizada también se puede suministrar y grabar en un dispositivo de almacenamiento (no mostrado).

La Figura 2 es un diagrama de bloques esquemático que ilustra la estructura de un codificador y decodificador basado en CELP, parte del sistema de comunicación de sonido de la Figura 1. Como se ilustra en la Figura 2, un códec de sonido comprende dos partes básicas: el codificador 106 de sonido y el decodificador 110 de sonido, ambos presentados en la descripción anterior de la Figura 1. El codificador 106 se suministra con la señal 105 de sonido digital original, determina los parámetros 107 de codificación, descritos a continuación, que representan la señal 103 de sonido analógica original. Estos parámetros 107 se codifican en el flujo 111 de bits digital que se transmite usando un canal de comunicación, por ejemplo, el canal 101 de comunicación de la Figura 1, al decodificador 110. El decodificador 110 de sonido reconstruye la señal 113 de sonido digital sintetizada para que sea lo más similar posible a la señal 105 original de sonido digital.

Actualmente, las técnicas de codificación de voz el discurso más generalizadas están basadas en Predicción Lineal (LP), en particular CELP. En la codificación basada en LP, la señal 113 de sonido digital sintetizada se produce filtrando una excitación 214 a través de un filtro 216 de síntesis LP que tiene una función de transferencia 1/A(z). En CELP, la excitación 214 se compone típicamente de dos partes: una contribución 222 de libro de códigos adaptativo de primera etapa seleccionada de un libro de códigos 218 adaptativo y amplificada por una ganancia 226 de libro de códigos adaptativo gpy una contribución 224 de libro de códigos fijo de segunda etapa seleccionada a partir de un libro de códigos 220 fijo y amplificada por un libro de códigos 228 fijo de ganancia gP. En términos generales, la contribución 222 del libro de códigos adaptativo modelos de la parte periódica de la excitación y la contribución 214 del libro de códigos fijo se agrega para modelar la evolución de la señal de sonido.

La señal de sonido es procesada por tramas de típicamente 20 ms y los parámetros del filtro LP se transmiten una vez por trama. En CELP, la trama se divide en varias subtramas para codificar la excitación. La longitud de la subtrama es típicamente de 5 ms.

El CELP utiliza un principio llamado Análisis por Síntesis donde las posibles salidas del decodificador ya se prueban (sintetizan) durante el proceso de codificación en el codificador 106 y luego se comparan con la señal 105 de sonido digital original. El codificador 106 por lo tanto incluye elementos similares a los del decodificador 110. Estos elementos incluyen una contribución 250 de libro de códigos adaptativo seleccionada de un libro 242 de códigos adaptativo que suministra una señal de excitación anterior v(n) convolucionada con la respuesta de un filtro de síntesis ponderado H(z) (ver 238) (cascada del filtro de síntesis LP 1/A(z) y el filtro de ponderación perceptual W(z)), cuyo resultado y-i(n) se amplifica mediante una ganancia 240 de libro de códigos adaptativo gp. También se incluye una contribución 252 fija del libro de códigos seleccionado de un libro de códigos 244 fijo que proporciona un vector de código innovador ck(n) convolucionado con la respuesta de impulso del filtro de síntesis ponderado H(z) (ver 246), cuyo resultado y2(n) se amplifica por una ganancia 248 de libro de códigos gP.

El codificador 106 también comprende un filtro de ponderación perceptual W(z) 233 y un proveedor 234 de una respuesta de entrada cero de la cascada (H(z)) del filtro de síntesis LP 1/A(z) y el filtro de ponderación perceptual W(z). Los sustractores 236, 254 y 256 restan respectivamente la respuesta de entrada cero, la contribución 250 del libro de códigos adaptable y la contribución del libro de códigos fijo 252 de la señal 105 de sonido digital original filtrada por el filtro 233 de ponderación perceptual para proporcionar un error 232 cuadrático medio entre la señal 105 de sonido digital original y la señal 113 de sonido digital sintetizada.

La búsqueda de libro de códigos minimiza el error 232 cuadrático medio entre la señal 105 original de sonido digital y la señal 113 de sonido digital sintetizada en un dominio ponderado perceptualmente, donde el índice de tiempo discreto n = 0, 1, ..., N-1 y N es la longitud de la subtrama. El filtro de ponderación perceptual W(z) aprovecha el efecto de enmascaramiento de frecuencia y normalmente se deriva de un filtro LP A(z).

Un ejemplo de filtro de ponderación perceptual W(z) para señales WB (banda ancha, el ancho de banda de 50 a 7000 Hz) se pueden encontrar en la referencia [1].

Puesto que la memoria del filtro de síntesis LP 1 /A(z)y el filtro de ponderación W(z) es independiente de los vectores de código buscados, esta memoria puede ser restada de la señal 105 de sonido digital original antes de la búsqueda de libro de códigos fijo. El filtrado de los vectores de código candidatos se puede realizar mediante una convolución con la respuesta al impulso de la cascada de los filtros 1/A(z) yW(z), representada por H(z) en la Figura 2.

La corriente 111 de bit digital transmitida desde el codificador 106 al decodificador 110 contiene típicamente los siguientes parámetros 107: parámetros cuantificados del filtro LP A(z), los índices de libro de códigos 242 adaptativos y del libro de códigos 244 fijo, y las ganancias gp240 y gc 248 del libro de códigos 242 adaptativo y del libro de códigos 244 fijo.

Conversión de parámetros de filtro LP al conmutar en límites de trama con diferentes tasas de muestreo

En la codificación basada en LP se determina el filtro LP A(z) una vez por trama, y luego se interpola para cada subtrama. La Figura 3 ilustra un ejemplo de entramado e interpolación de parámetros LP. En este ejemplo, una trama actual se divide en cuatro subtramas SF1, SF2, SF3 y SF4, y la ventana de análisis LP se centra en la última subtrama SF4. Por tanto, los parámetros LP resultantes del análisis LP en la presente trama, F1, se utilizan tal cual, en la última subtrama, es decir SF4 = F1. Para las tres primeras subtramas SF1, SF2 y SF3, los parámetros LP se obtienen interpolando los parámetros en la trama actual, F1, y una trama anterior, F0. Es decir:

SF1 = 0.75 F0 0.25 F1;

SF2 = 0.5 F0 0.5 F1;

SF3 = 0.25 F0 0.75 F1;

SF4 = F1.

Otros ejemplos de interpolación pueden, alternativamente, ser utilizados en función de la forma, longitud y posición de la ventana de análisis de LP. En otra realización, el codificador conmuta entre tasas de muestreo interno de 12.8 kHz y 16 kHz, donde se utilizan 4 subtramas por trama a 12.8 kHz y 5 subtramas por trama a 16 kHz, y donde los parámetros LP también se cuantifican en el medio de la trama actual (Fm). En esta otra realización, la interpolación de parámetros LP para una trama de 12.8 kHz viene dada por:

SF1 = 0.5 F0 0.5 Fm;

SF2 = Fm;

SF3 = 0.5 Fm 0.5 F1;

SF4 = F1.

Para un muestreo de 16 kHz, la interpolación viene dada por:

SF1 = 0.55 F0 0.45 Fm;

SF2 = 0.15 F0 0.85 Fm;

SF3 = 0.75 Fm 0.25 F1;

SF4 = 0.35 Fm 0.65 F1;

SF5 = F1.

El análisis LP da como resultado el cálculo de los parámetros del filtro de síntesis LP usando:

A ( z ) Í Y ^ 1a i z ~ l l a 1z ~1+ a2z ^{~ 2 H} \-aMz ~ M ^{' '}

donde ai, i = 1, ..., M, son parámetros de filtro LP y M es el orden de filtro.

Los parámetros del filtro LP se transforman a otro dominio para los propósitos de cuantificación e interpolación. Otras representaciones de parámetros LP comúnmente utilizadas son coeficientes de reflexión, relaciones de área logarítmica, pares de espectros de inmitancia (usados en AMR-WB; Referencia [1]) y pares de espectros de línea, que también se denominan frecuencias de espectro de línea (LSF). En esta realización ilustrativa, se usa la representación de frecuencia de espectro de línea. En la Referencia [2] se puede encontrar un ejemplo de un método que se puede utilizar para convertirlos parámetros LP en parámetros LSF y viceversa. El ejemplo de interpolación del párrafo anterior se aplica a los parámetros LSF, que pueden estar en el dominio de la frecuencia en el rango entre 0 y Fs/2 (donde Fs es la frecuencia de muestreo), o en el dominio de la frecuencia escalada entre 0 y i , o en el dominio del coseno (coseno de frecuencia escalada).

Como se describió anteriormente, las diferentes tasas de muestreo internos se pueden usar en diferentes tasas de bits para mejorar la calidad en codificación basada en LP de múltiples tasas. En esta realización ilustrativa, se usa un codificador de banda ancha CELP de múltiples tasas donde se usa una tasa de muestreo interno de 12.8 kHz a tasas de bits más bajas y una tasa de muestreo interno de 16 kHz a tasas de bits más altas. A una tasa de muestreo de 12.8 kHz, los LSF cubren el ancho de banda de 0 a 6.4 kHz, mientras que a una tasa de muestreo de 16 kHz cubren el rango de 0 a 8 kHz. Al conmutar la tasa de bits entre dos tramas donde la tasa de muestreo interno es diferente, se abordan algunos problemas para asegurar una conmutación perfecta. Estos problemas incluyen la interpolación de los parámetros del filtro LP y las memorias del filtro de síntesis y el libro de códigos adaptativo, que se encuentran en diferentes tasas de muestreo.

La actual divulgación presenta un método para la interpolación eficiente de parámetros LP entre dos tramas en diferentes tasas de muestreo interno. A modo de ejemplo, se considera la conmutación entre tramas de muestreo de 12.8 kHz y 16 kHz. Sin embargo, las técnicas divulgadas no se limitan a estas tasas de muestreo particulares y pueden aplicarse a otras tasas de muestreo internos.

Asúmase que el codificador está conmutando desde una trama F1 con tasa de muestreo interno S1 hasta una trama F2 con tasa de muestreo interno S2. Los parámetros LP en la primera trama se denominan LSF1s1 y los parámetros LP en la segunda trama se indican LSF2s2. Para actualizar los parámetros LP en cada subtrama de la trama F2, se interpolan los parámetros LP LSF1 y LSF2. Para realizar la interpolación, los filtros deben configurarse a la misma tasa de muestreo. Esto requiere realizar un análisis LP de la trama F1 a la tasa de muestreo S2. Para evitar transmitir el filtro LP dos veces a las dos tasas de muestreo en la trama F1, el análisis LP a la tasa de muestreo S2 se puede realizar en la señal de síntesis anterior que está disponible tanto en el codificador como en el decodificador. Este enfoque implica volver a muestrear la señal de síntesis anterior de la tasa S1 a la tasa S2 y realizar un análisis LP completo, repitiéndose esta operación en el decodificador, que suele ser computacionalmente exigente.

En este documento se divulgan métodos y dispositivos alternativos para convertir los parámetros del filtro de síntesis LP LSF1 de la tasa de muestreo S1 a la tasa de muestreo S2 sin la necesidad de volver a muestrear la síntesis anterior y realizar un análisis LP completo. El método, usado para codificar y/o decodificar, comprende calcular el espectro de potencia del filtro de síntesis LP a la tasa S1; modificar el espectro de potencia para convertirlo de la tasa S1 a la tasa S2; convertir el espectro de potencia modificado de nuevo al dominio del tiempo para obtener la autocorrelación del filtro a la tasa S2; y finalmente utilizar la autocorrelación para calcular los parámetros del filtro LP a la tasa S2.

En al menos algunas realizaciones, la modificación del espectro de potencia para convertirlo de tasa de S1 a tasa S2 comprende las siguientes operaciones:

Si S1 es mayor que S2, la modificación del espectro de potencia comprende truncar el espectro de potencia de muestra K por debajo de las muestras K(S2/S1), es decir, eliminar las muestras de K(S1-S2)/S1.

Por otro lado, si S1 es menor que S2, entonces, la modificación del espectro de potencia comprende extender el espectro de potencia de muestra K por encima de las muestras K(S2/S1), es decir, agregar las muestras K(S2-S1)/S1.

Calcular del filtro LP a la tasa S2 a partir de las autocorrelaciones se puede realizar usando el algoritmo de Levinson-Durbin (ver Referencia [1]). Una vez que el filtro LP se convierte a la tasa S2, los parámetros del filtro LP se transforman en el dominio de interpolación, que es un dominio LSF en esta realización ilustrativa.

El procedimiento descrito anteriormente se resume en la Figura 4, que es un diagrama de bloques que ilustra una realización para la conversión de los parámetros de filtro LP entre dos tramas de muestreo diferentes.

La secuencia 300 de operaciones muestra que un método simple para el cálculo del espectro de potencia del filtro de síntesis LP 1/A(z) es evaluar la respuesta de frecuencia del filtro a K frecuencias de 0 a 2 i.

La respuesta de frecuencia del filtro de síntesis viene dada por

y el espectro de potencia del filtro de síntesis se calcula como una energía de la respuesta de frecuencia del filtro de síntesis, dado por

Inicialmente, el filtro LP es a una tasa igual a S1 (operación 310). Se calcula un espectro de potencia de muestra K (es decir, discreto) del filtro de síntesis LP (operación 320) al muestrear el rango de frecuencia de 0 a 2n. Es decir

P(fc) = k = 0.....K - 1(4)

( l Z j l i a iC o s ( ^ ) ) ( l ¡'¡t1ai sen(2^ ) )

Obsérvese que es posible reducir la complejidad operativa mediante el cálculo de P(k) sólo para k = 0, ..., K/2 ya que el espectro de potencia de n a 2n es un espejo de aquel de 0 a n.

Una prueba (operación 330) determina cuál de los siguientes casos se aplica. En un primer caso, la tasa de muestreo S1 es mayor que la tasa de muestreo S2, y el espectro de potencia para la trama F1 se trunca (operación 340) de manera que el nuevo número de muestras es K(S2/S1).

En más detalle, cuando S1 es mayor que S2, la longitud del espectro de potencia truncado es las muestras K2 = K(S2/S1). Dado que el espectro de potencia se trunca, se calcula a partir de k = 0, ..., K2/2. Dado que el espectro de potencia es simétrico alrededor de K2/2, entonces se supone que

P(K2/2+k) = P(K/2-k), a partir de k =1, ..., K/2-1

La transformada de Fourier de las autocorrelaciones de una señal da el espectro de potencia de esa señal. Por tanto, la aplicación de la transformada de Fourier inversa al espectro de potencia truncado da como resultado las autocorrelaciones de la respuesta al impulso del filtro de síntesis a la tasa de muestreo S2.

La transformada de Fourier Discreta Inversa (IDFT) del espectro de potencia truncada está dada por

R(i) = f ^k E 2 ^ P W e ' 2" ^ (5)

Dado que el orden de filtro es M, entonces la IDFT se puede calcular solamente para i = 0, ..., M. Además, dado que el espectro de potencia es real y simétrico, el IDFT del espectro de potencia también es real y simétrico. Dada la simetría del espectro de potencia, y que solo se necesitan correlaciones M 1, la transformada inversa del espectro de potencia se puede dar como

Eso es

ra i = 1,3,..,,M-1

R(i) = -L (p(o) — p(K2/2 ) 2 E ^ f ” 1 P(K2/2 — k) cos(2ník/K2)) para i = 2 ,4 ,.,M

Después se calculan las autocorrelaciones a una tasa de muestreo S2, se puede utilizar el algoritmo Levinson-Durbin (ver Referencia [1]) para calcular los parámetros del filtro LP a la tasa de muestreo S2. Entonces, los parámetros del filtro LP se transforman en el dominio LSF para la interpolación con las LSF de la trama F2 con el fin de obtener parámetros LP en cada subtrama.

En el ejemplo ilustrativo en el que el codificador codifica una señal de banda ancha y se conmuta desde una trama con una tasa de muestreo interno S1 = 16 kHz hasta una trama con tasa de muestreo interno S2 = 12.8 kHz, suponiendo que K = 100, la longitud del espectro de potencia truncado es K2 = 100 (12800/16000) = 80 muestras. El espectro de potencia se calcula para 41 muestras usando la Ecuación (4), y luego las autocorrelaciones se calculan usando la Ecuación (7) con K2 = 80.

En un segundo caso, cuando la prueba (operación 330) determina que S1 es menor que S2, la longitud del espectro de potencia extendida es K2 = K(S2 /S1) muestras (operación 350). Después de calcular el espectro de potencia de k = 0, ..., K/2, el espectro de potencia se extiende a K2/2. Puesto que no hay contenido espectral original entre K/2 y K2/2, extendiendo el espectro de potencia se puede hacer mediante la inserción de un número de muestras hasta K2/2 usando valores muy bajos de muestra. Un enfoque simple es repetir la muestra a K/2 hasta K2/2. Dado que el espectro de potencia es simétrico alrededor de K2/2, entonces se asume que

P(K2/+k) = P(K2/2-k), a partir de k = 1, ..., K2/2-1

En cualquiera de los casos, la inversa DFT se calcula entonces como en la ecuación (6) para obtener las autocorrelaciones en tasa de muestreo S2 (operación 360) y el algoritmo de Levinson-Durbin (ver Referencia [1]) se utiliza para calcular los parámetros del filtro LP a la tasa de muestreo S2 (operación 370). Luego, los parámetros de filtro se transforman al dominio LSF para la interpolación con las LSF de la trama F2 con el fin de obtener parámetros LP en cada subtrama.

De nuevo, tomemos el ejemplo ilustrativo donde el codificador está conmutando de una trama con una tasa de muestreo interno S1 = 12.8 kHz a una trama con una tasa de muestreo interno S2 = 16 kHz, y supongamos que K = 80. La longitud del espectro de potencia extendido es K2 = 80 (16000/12800) = 100 muestras. El espectro de potencia se calcula para 51 muestras usando la Ecuación (4), y luego las autocorrelaciones se calculan usando la Ecuación (7) con K2 = 100.

Obsérvese que otros métodos pueden ser utilizados para calcular el espectro de potencia del filtro de síntesis LP o el DFT inverso del espectro de potencia sin apartarse del espíritu de la presente divulgación.

Obsérvese que en esta realización ilustrativa la conversión de los parámetros de filtro LP entre diferentes tasas de muestreo interno se aplica a los parámetros LP cuantificados, con el fin de determinar los parámetros del filtro de síntesis interpolados en cada subtrama, y esto se repite en el decodificador. Se observa que el filtro de ponderación utiliza parámetros de filtro LP no cuantificados, pero se encontró suficiente para interpolar entre los parámetros del filtro no cuantificados en la nueva trama F2 y los parámetros LP cuantificados convertidos por muestreo de la trama anterior F1 para determinar los parámetros del filtro de ponderación. en cada subtrama. Esto evita la necesidad de aplicar la conversión de muestreo del filtro LP también en los parámetros del filtro LP no cuantificados.

Otras consideraciones al conmutar en los límites de la trama con diferentes tasas de muestreo

Otra cuestión a considerar cuando se cambia entre tramas con diferentes tramas de muestreo interno es el contenido del libro de códigos adaptativos, que generalmente contiene la señal de excitación anterior. Si la nueva trama tiene una tasa de muestreo interno S2 y la trama anterior tiene una tasa de muestreo interno S1, entonces el contenido del libro de códigos adaptativo se vuelve a muestrear desde la frecuencia S1 a la frecuencia S2, y esto se realiza tanto en el codificador como en el decodificador.

Con el fin de reducir la complejidad, en esta divulgación, la nueva trama F2 se ve obligada a utilizar un modo de codificación transitoria que es independiente de la historia pasada de excitación y por lo tanto no utiliza la historia del libro de códigos adaptativos. Un ejemplo de codificación en modo transitorio se puede encontrar en la solicitud de patente PCT WO 2008/049221 A1 “Método y dispositivo para codificar tramas de transición en señales de voz”.

Otra consideración cuando se conmuta en los límites de trama con diferentes tasas de muestreo es la memoria de los cuantificadores de predicción. Por ejemplo, los cuantificadores de parámetros LP suelen utilizar la cuantificación predictiva, que puede no funcionar correctamente cuando los parámetros se encuentran en diferentes tasas de muestreo. Para reducir los artefactos de conmutación, el cuantificador de parámetros LP puede forzarse a un modo de codificación no predictivo cuando se conmuta entre diferentes tasas de muestreo.

Una consideración adicional es la memoria del filtro de síntesis, que se puede volver a muestrear cuando se cambia entre tramas con diferentes tasas de muestreo.

Finalmente, la complejidad adicional que surge de la conversión de parámetros de filtro LP cuando se conmuta entre tramas con diferentes tasas de muestreo interno puede compensarse mediante la modificación de partes de la codificación o la decodificación de procesamiento. Por ejemplo, para no aumentar la complejidad del codificador, la búsqueda de libro de códigos fijo puede modificarse reduciendo el número de iteraciones en la primera subtrama de la trama (ver Referencia [1] para un ejemplo de búsqueda de libro de códigos fijo).

Además, con el fin de no aumentar la complejidad del decodificador, se pueden saltar cierto procesamiento posterior. Por ejemplo, en esta realización ilustrativa, se puede utilizar una técnica de procesamiento posterior como se describe en la patente de EE.UU. 7.529.660 “Método y dispositivo para la mejora del tono selectivo en frecuencia de la voz sintetizada”. Este filtrado posterior se omite en la primera trama después de conmutar a una tasa de muestreo interno diferente (omitir este filtrado posterior también supera la necesidad de la síntesis anterior utilizada en el filtro posterior).

Además, otros parámetros que dependen de la tasa de muestreo pueden ser escalados en consecuencia. Por ejemplo, el retardo de tono pasado utilizado para el clasificador de decodificador y la ocultación del borrado de trama puede escalarse por el factor S2/S1.

La Figura 5 es un diagrama de bloques simplificado de una configuración de ejemplo de componentes de hardware que forman el codificador y/o decodificador de las Figuras 1 y 2. Un dispositivo 400 puede implementarse como parte de un terminal móvil, como parte de un reproductor multimedia portátil, una estación base, equipo de Internet o en cualquier dispositivo similar, y puede incorporar el codificador 106, el decodificador 110, o tanto el codificador 106 como el decodificador 110. El dispositivo 400 incluye un procesador 406 y una memoria 408. El procesador 406 puede comprender uno o más procesadores distintos para ejecutar instrucciones de código para realizar las operaciones de la Figura 4. El procesador 406 puede incorporar varios elementos del codificador 106 y del decodificador 110 de las Figuras 1 y 2. El procesador 406 puede ejecutar además tareas de un terminal móvil, un reproductor multimedia portátil, una estación base, un equipo de Internet y similares. La memoria 408 está operativamente conectada al procesador 406. La memoria 408, que puede ser una memoria no transitoria, almacena las instrucciones de código ejecutables por el procesador 406.

Una entrada 402 de audio está presente en el dispositivo 400 cuando se utiliza como un codificador 106. La entrada 402 de audio puede incluir, por ejemplo, un micrófono o un conectable interfaz a un micrófono. La entrada 402 de audio puede incluir el micrófono 102 y el convertidor 104 A/D y producir la señal 103 de sonido analógica original y/o la señal 105 de sonido digital original. Alternativamente, la entrada 402 de audio puede recibir la señal 105 de sonido digital original. Asimismo, una salida 404 codificada está presente cuando el dispositivo 400 se usa como un codificador 106 y está configurado para reenviar los parámetros 107 de codificación o el flujo 111 de bits digital que contiene los parámetros 107, que incluyen los parámetros del filtro LP, a un decodificador remoto a través de un enlace de comunicación, por ejemplo, a través del canal 101 de comunicación, o hacia una memoria adicional (no mostrada) para almacenamiento. Los ejemplos de implementación no limitantes de la salida 404 codificada comprenden una interfaz de radio de un terminal móvil, una interfaz física tal como, por ejemplo, un puerto de bus serie universal (USB) de un reproductor multimedia portátil, y similares.

Una entrada 403 codificada y una salida 405 de audio están ambos presentes en el dispositivo 400 cuando se utiliza como un decodificador 110. La entrada 403 codificada puede estar diseñada para recibir los parámetros 107 de codificación o el flujo de bits digital de 111 que contiene los parámetros 107, que incluyen los parámetros de filtro LP de una salida 404 codificada de un codificador 106. Cuando el dispositivo 400 incluye tanto el codificador 106 como el decodificador 110, la salida 404 codificada y la entrada 403 codificada pueden formar un módulo de comunicación común. La salida 405 de audio puede comprender el convertidor 115 D/Ay la unidad 116 de altavoz. Alternativamente, la salida 405 de audio puede comprender una interfaz conectable a un reproductor de audio, a un altavoz, a un dispositivo de grabación y similares.

La entrada 402 de audio o la entrada 403 codificada también puede recibir señales desde un dispositivo de almacenamiento (no mostrado). De la misma manera, la salida 404 codificada y la salida 405 de audio pueden suministrar la señal de salida a un dispositivo de almacenamiento (no mostrado) para grabación.

La entrada 402 de audio, la entrada 403 codificada, la salida 404 codificada y la salida 405 de audio están todos conectados operativamente al procesador 406.

Aquellos de experiencia ordinaria en la técnica se darán cuenta que la descripción de los métodos, el codificador y el decodificador para la codificación predictiva lineal y decodificación de señales de sonido son sólo ilustrativos y no pretenden ser de ninguna manera limitantes. Otras realizaciones se les sugerirán fácilmente a aquellas personas con conocimientos ordinarios en la técnica que se beneficien de la presente divulgación. Además, los métodos, el codificador y el decodificador descritos pueden personalizarse para ofrecer soluciones valiosas a las necesidades y problemas existentes de conmutar códecs basados en predicciones lineales entre dos tasas de bits con diferentes tasas de muestreo.

En aras de la claridad, no todas las características rutinarias de las implementaciones de los métodos, el codificador y el decodificador se muestran y describen. Por supuesto, se apreciará que, en el desarrollo de cualquier implementación real de los métodos, codificador y decodificador, es posible que sea necesario tomar numerosas decisiones específicas de implementación para lograrlos objetivos específicos del desarrollador, como el cumplimiento de las restricciones relacionadas con aplicación, sistema, red y negocio, y que estos objetivos específicos variarán de una implementación a otra y de un desarrollador a otro. Además, se apreciará que un esfuerzo de desarrollo puede ser complejo y llevar mucho tiempo, pero sin embargo sería una tarea rutinaria de ingeniería para los expertos en el campo de la codificación de sonido que se benefician de la presente divulgación.

De acuerdo con la presente divulgación, los componentes, las operaciones de proceso, y/o estructuras de datos descritas en el presente documento pueden implementarse utilizando diversos tipos de sistemas operativos, plataformas informáticas, dispositivos de red, programas de ordenador de cálculo, y/o máquinas de propósito general. Además, los expertos en la técnica reconocerán que también se pueden utilizar dispositivos de naturaleza menos general, como dispositivos cableados, matrices de puertas programables en campo (FPGA), circuitos integrados específicos de aplicación (ASIC) o similares. Cuando un método que comprende una serie de operaciones es implementado por un ordenador o una máquina y esas operaciones pueden almacenarse como una serie de instrucciones legibles por la máquina, pueden almacenarse en un medio tangible.

Los sistemas y módulos descritos en este documento pueden comprender software, firmware, hardware o cualquier combinación de software, firmware o hardware adecuado para los fines descritos en este documento.

Aunque la presente divulgación se ha descrito anteriormente a modo de ejemplo no limitativo, formas de realización ilustrativas de la misma, estas realizaciones pueden ser modificados a voluntad dentro del alcance de las reivindicaciones adjuntas.

Referencias

[1] 3GPP Technical Specification 26.190, “Adaptive Multi-Rate-Wideband (AMR-WB) speech codec; Transcoding functions,” July 2005; http://www.3gpp.org.

[2] ITU-T Recommendation G.729 “Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)”, 01/2007.

Claims

REIVINDICACIONES

1. Un método implementado en un codificador de señal de sonido basado en CELP o un decodificador de señal de sonido basado en CELP para convertir, cuando el codificador o el decodificador conmuta desde una primera trama con una tasa de muestreo interno S1 hasta una segunda trama con una tasa de muestreo interno S2, parámetros de filtro predictivo lineales, LP, de la primera trama desde la tasa de muestreo interno S1 a la tasa de muestreo interno S2, el método se caracteriza por:

calcular, a la tasa de muestreo interno S1, un espectro de potencia de un filtro de síntesis LP utilizando los parámetros del filtro LP;

modificar el espectro de potencia del filtro de síntesis LP para convertirlo de la tasa de muestreo interno S1 a la tasa de muestreo interno S2;

transformar de manera inversa del espectro de potencia modificado del filtro de síntesis LP para determinar las autocorrelaciones del filtro de síntesis LP a la tasa de muestreo interno S2; y

utilizar las autocorrelaciones para calcular los parámetros del filtro LP a la tasa de muestreo interno S2.

2. Un método como se menciona en la reivindicación 1, en el que modificar el espectro de potencia del filtro de síntesis LP para convertirlo de la tasa de muestreo interno S1 a la tasa de muestreo interno S2 comprende:

si S1 es menor que S2, ampliar el espectro de potencia del Filtro de síntesis LP basado en una relación entre S1 y S2; si S1 es mayor que S2, truncar el espectro de potencia del filtro de síntesis LP basado en la relación entre S1 y S2.

3. Un método como se menciona en la reivindicación 1 o 2, que comprende, cuando se implementa en un codificador de señal de sonido basado en CELP, calcular los parámetros del filtro LP en cada subtrama de una trama actual al interpolar los parámetros del filtro LP de la trama actual en la tasa de muestreo interno S2 con parámetros de filtro LP de una trama anterior convertida de la tasa de muestreo interno S1 a la tasa de muestreo interno S2.

4. Un método como se menciona en la reivindicación 3, que comprende, cuando se implementa en un codificador de señal de sonido basado en CELP, forzar la trama actual a un modo de codificación que no usa un historial de un libro de códigos adaptativo.

5. Un método como se menciona en una cualquiera de las reivindicaciones 3 y 4, que comprende, cuando se implementa en un codificador de señal de sonido basado en CELP, forzar a un cuantificador de parámetros LP a utilizar un método de cuantificación no predictivo en la trama actual.

6. Un método como se menciona en una cualquiera de las reivindicaciones 1 a 5, en el que el espectro de potencia del filtro de síntesis LP es un espectro de potencia discreto.

7. Un método como se menciona en una cualquiera de las reivindicaciones 1 a 6, que comprende:

calcular el espectro de potencia del filtro de síntesis LP en K muestras;

extender el espectro de potencia del filtro de síntesis LP a muestras K*S2/S1 cuando la tasa de muestreo interno S1 es menor que la tasa de muestreo interno S2; y

truncar el espectro de potencia del filtro de síntesis LP en muestras K*S2/S1 cuando la tasa de muestreo interno S1 es mayor que la tasa de muestreo interno S2.

8. Un método como se menciona en una cualquiera de las reivindicaciones 1 a 7, que comprende calcular el espectro de potencia del filtro de síntesis LP como una energía de una respuesta de frecuencia del filtro de síntesis LP.

9. Un método como se menciona en una cualquiera de las reivindicaciones 1 a 8, que comprende la transformación inversa del espectro de potencia modificado del filtro de síntesis LP mediante el uso de una Transformada de Fourier discreta inversa.

10. Un método como se menciona en una cualquiera de las reivindicaciones 1 a 9, que comprende buscar en un libro de códigos fijo usando un número reducido de iteraciones.

11. Un método como se menciona en una cualquiera de las reivindicaciones 1 a 10, que comprende, cuando se implementa en un decodificador de señal de sonido basado en CELP, calcular los parámetros del filtro LP en cada subtrama de una nueva trama al interpolar los parámetros del filtro LP de una trama actual en la tasa de muestreo interno S2 con parámetros de filtro LP de una trama pasada convertida de la tasa de muestreo interno S1 a la tasa de muestreo interno S2.

12. Método como se menciona en una cualquiera de las reivindicaciones 1 a 11, en el que, cuando el método se implementa en un decodificador de señal de sonido basado en CELP, se omite un filtrado posterior para reducir la complejidad de la decodificación.

13. Un dispositivo para su uso en un codificador de señal de sonido basado en CELP o un decodificador de señal de sonido basado en CELP para convertir, cuando el codificador o el decodificador conmuta de una primera trama con una tasa de muestreo interno S1 a una segunda trama con una tasa de muestreo interno S2, parámetros de filtro, LP, predictivos lineales de la primera trama de la tasa S1 de muestreo interno a la tasa de muestreo interno S2, el dispositivo se caracteriza por el hecho de que comprende:

un procesador configurado para:

calcular, a la tasa de muestreo interno S1, un espectro de potencia de un filtro de síntesis LP utilizando los parámetros del filtro LP, modificar el espectro de potencia del filtro de síntesis LP para convertirlo de la tasa de muestreo interno S1 a la tasa de muestreo interno S2,

transformar inversamente el espectro de potencia modificado del filtro de síntesis LP para determinar las autocorrelaciones del filtro de síntesis LP a la tasa de muestreo interno S2, y

14. Un dispositivo como se menciona en la reivindicación 13, en el que el procesador está configurado para: extender el espectro de potencia del filtro de síntesis LP en base a una relación entre S1 y S2 si S1 es menor que S2; y

truncar el espectro de potencia del filtro de síntesis LP basándose en la relación entre S1 y S2 si S1 es mayor que S2.

15. Un dispositivo como se menciona en una cualquiera de las reivindicaciones 13 y 14, en el que el procesador está configurado para calcular los parámetros de filtro LP en cada subtrama de una trama actual al interpolar los parámetros de filtro LP de la trama actual a la tasa de muestreo interno S2 con parámetros de filtro LP de una trama pasada convertidos de la tasa de muestreo interno S1 a la tasa de muestreo interno S2.

16. Un dispositivo como se menciona en una cualquiera de las reivindicaciones 13 a 15, en el que el procesador está configurado para:

calcular el espectro de potencia del filtro de síntesis LP en K muestras;

17. Un dispositivo como se menciona en una cualquiera de las reivindicaciones 13 a 16, en el que el procesador está configurado para calcular el espectro de potencia del filtro de síntesis LP como una energía de una respuesta de frecuencia del filtro de síntesis LP.

18. Un dispositivo como se menciona en una cualquiera de las reivindicaciones 13 a 17, en el que el procesador está configurado para transformar de forma inversa el espectro de potencia modificado del filtro de síntesis LP utilizando una Transformada de Fourier discreta inversa.

19. Un dispositivo como se menciona en una cualquiera de las reivindicaciones 13 a 18, que comprende además una memoria no transitoria que almacena instrucciones de código ejecutables por el procesador para realizar las operaciones de cálculo, modificación, transformación inversa y uso.

20. Una memoria no transitoria legible por ordenador que almacena instrucciones de código que, cuando se ejecutan en un procesador, hacen que el procesador realice un método como se indica en cualquiera de las reivindicaciones 1 a 12.