ES2900058T3

ES2900058T3 - Selección de desfase de tono

Info

Publication number: ES2900058T3
Application number: ES18795669T
Authority: ES
Inventors: Emmanuel Ravelli; Martin Dietz; Michael Schnabel; Arthur Tritthart; Alexander Tschekalinskij
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-11-10
Filing date: 2018-11-05
Publication date: 2022-03-15
Anticipated expiration: 2038-11-05
Also published as: CN111566733B; RU2742739C1; JP2021502596A; EP3707718A1; AU2018363670A1; BR112020009114A2; JP7079325B2; AR114388A1; TWI728277B; US11380341B2; US20200273475A1; CN111566733A; KR20200083565A; CA3082175C; PL3707718T3; WO2019091922A1; ZA202002521B; TW201923755A; PT3707718T; SG11202004203WA

Abstract

Un aparato (10, 60a, 110) para codificar una señal de audio que incluye una pluralidad de cuadros, comprendiendo el aparato: un primer estimador (11) configurado para obtener una primera estimación (14, T1), siendo la primera estimación una estimación de un desfase de tono para un cuadro actual (13), donde la primera estimación (14) se obtiene como el desfase (T1) que maximiza una primera función de correlación asociada al cuadro actual (13); un segundo estimador (12) configurado para obtener una segunda estimación (16, T2), siendo la segunda estimación otra estimación de un desfase de tono para el cuadro actual (13), donde el segundo estimador (12) está condicionado por el desfase de tono (51, 19'') seleccionado para el cuadro previo para obtener la segunda estimación (16, T2) para el cuadro actual (13), donde el segundo estimador (12) está configurado para obtener la segunda estimación (16, T2) buscando el desfase que maximiza una segunda función de correlación en un segundo subintervalo (52) que contiene el desfase de tono (51, 19") seleccionado para el cuadro previo, un selector (17) configurado para elegir (S103) un valor seleccionado (19, Tmejor) realizando una selección entre la primera estimación (14, T1) y la segunda estimación (16, T2) sobre la base de una primera y una segunda mediciones de correlación (23, 25), donde el selector (17) está configurado para realizar una comparación entre: una versión a escala reducida (24) de una primera medición de autocorrelación normalizada (23) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la primera estimación (14, T1); y una segunda medición de autocorrelación normalizada (25) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la segunda estimación (16, T2), para seleccionar la primera estimación (14, T1) cuando la segunda medición de autocorrelación normalizada (25) es menor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23), y/o para seleccionar la segunda estimación (16, T2) cuando la segunda medición de autocorrelación normalizada (25) es mayor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23).

Description

DESCRIPCIÓN

Selección de desfase de tono

[0001] En esta invención se proporcionan ejemplos de procedimientos y aparatos que son capaces de realizar un procedimiento de detección de tono de baja complejidad, por ejemplo, para codificación posfiltrado a largo plazo, LTPF.

[0002] Por ejemplo, los ejemplos son capaces de seleccionar un desfase de tono para una señal de información, por ejemplo, una señal de audio, por ejemplo, para realizar LTPF.

1.1. Antecedentes

[0003] Los códecs de audio basados en transformadas generalmente introducen ruido interarmónico cuando se procesan señales de audio armónicas, particularmente a bajo retardo y baja tasa de bits. Este ruido interarmónico generalmente se percibe como un artefacto muy molesto, que reduce significativamente el rendimiento del códec de audio basado en transformadas cuando se evalúa subjetivamente en material de audio altamente tonal.

[0004] El posfiltrado a largo plazo (LTPF, por sus siglas en inglés) es una herramienta para la codificación de audio basada en transformadas que ayuda a reducir este ruido interarmónico. Se basa en un posfiltro que se aplica a la señal de dominio de tiempo después de la decodificación por transformada. Este posfiltro es esencialmente un filtro de respuesta de impulso infinito (IIR, por sus siglas en inglés) con una respuesta de frecuencia tipo peine controlada por dos parámetros: un desfase de tono y una ganancia.

[0005] Para una mayor robustez, los parámetros posfiltro (un desfase de tono y/o una ganancia por cuadro) se estiman en el lado del codificador y se codifican en un flujo de bits cuando la ganancia es distinta de cero. El caso de la ganancia cero está marcado con un bit y corresponde a un posfiltro inactivo, usado cuando la señal no contiene una parte armónica.

[0006] El LTPF se introdujo por primera vez en el estándar 3GPP EVS [1] y posteriormente se integró en el estándar de audio 3D MPEG-H [2]. Las patentes correspondientes son [3] y [4].

[0007] Un algoritmo de detección de tono estima un desfase de tono por cuadro. Normalmente se realiza a una velocidad de muestreo baja (por ejemplo, 6,4 kHz) para reducir la complejidad. Idealmente debería proporcionar una estimación precisa, estable y continua.

[0008] Cuando se usa para la codificación LTPF, es muy importante tener un contorno de tono continuo; de lo contrario se podrían escuchar algunos artefactos de inestabilidad en la señal de salida filtrada de LTPF. No tener una frecuencia fundamental verdadera F0 (por ejemplo, al tener un múltiplo de esta) es de menor importancia, ya que no produce artefactos graves, sino que produce una leve degradación del rendimiento de LTPF.

[0009] Otra característica importante de un algoritmo de detección de tono es su complejidad computacional. Cuando se implementa en un códec de audio dirigido a dispositivos de baja potencia o incluso a dispositivos de potencia ultra baja, su complejidad computacional debe ser lo más baja posible.

1.2. Técnica anterior

[0010] "5 Functional description of the encoder", estándar 3GPP; 26445-C10_1_S05_S0501, Proyecto de asociación de 3a generación (3GPP, por sus siglas en inglés), Mobile Competence Centre; 650, Route Des Lucioles; F-06921 Sophia-Antipolis Cedex; Francia, 10 de diciembre de 2014 describe una técnica para obtener una primera y segunda estimaciones de un desfase de tono para un cuadro actual usando la maximización de una función/medición de correlación normalizada. Para ello, la autocorrelación está condicionada por el desfase de tono seleccionado en el cuadro previo. A continuación, estas estimaciones de desfase de tono se comparan para seleccionar un desfase de tono final para el cuadro actual. El documento de la técnica anterior no describe el complemento/selección a realizar sobre la base de una versión a escala reducida de una (primera) medición de autocorrelación normalizada y una (segunda) medición de autocorrelación normalizada.

[0011] Se aplican consideraciones similares a los documentos US 6 018 706 A, US 2016/027450 A1 y US 2017/140769 A1, donde se determina un desfase de tono a partir de diferentes estimaciones/candidatos donde se busca una estimación en un intervalo que depende del valor de tono de un cuadro previo. La función usada (y el máximo buscado) para determinar las estimaciones en los documentos US 6018706 A, US 2016/027450 A1 y US 2017/140769 A1, es una función de autocorrelación normalizada, pero no se menciona una versión a escala reducida de la misma en ninguno de los documentos US 6018706 A, US 2016/027450 A1 y US 2017/140769 A1.

[0012] En el documento US 6507814 B1, se determinan cuatro candidatos de desfase de tono y el desfase de tono final se selecciona sobre la base de una correlación normalizada donde se puede aplicar una ponderación de la correlación. Sin embargo, el documento US 6507814 B1 no describe la búsqueda del desfase que maximiza una segunda función de correlación en un segundo subintervalo que contiene el desfase de tono seleccionado para el cuadro previo.

[0013] El documento US 5 819 209 A y Qjala P et al: "A novel pitch-lag search method using adaptive weighting and median filtering", Speech Coding Proceedings, 1999 IEEE Workshop on Porvoo, Finlandia, 20-23 de junio de 1999, Piscataway, NJ, Ee .UU., IEEE, US 20 de junio de 1999 pertenecen a la técnica anterior. Estos documentos analizan la ponderación de los valores autocorrelativos y la determinación del período de tono mediante la detección del valor máximo, pero no se describe una determinación separada de una primera y una segunda estimaciones del desfase de tono antes de la selección del mismo.

[0014] Existe un ejemplo de un codificador LTPF que se puede encontrar en el dominio público. Se describe en el estándar 3GPP EVS [1]. Esta implementación usa un algoritmo de detección de tono descrito en la Sección 5.1.10 de las especificaciones del estándar. Este algoritmo de detección de tono tiene un buen rendimiento y funciona bien con LTPF porque proporciona un contorno de tono muy estable y continuo. Sin embargo, su principal inconveniente es su complejidad relativamente alta.

[0015] A pesar de que nunca se usaron para la codificación LTPF, en teoría se podrían usar otros algoritmos de detección de tono existentes para LTPF. Un ejemplo es YIN [6], un algoritmo de detección de tono reconocido a menudo como uno de los más precisos. Sin embargo, YIN es muy complejo, incluso mucho más que el de [1].

[0016] Otro ejemplo que vale la pena mencionar es el algoritmo de detección de tono utilizado en el estándar 3GPP AMR-WB [7], que tiene una complejidad significativamente menor que la de [1], pero también un peor rendimiento; particularmente proporciona un contorno de tono menos estable y continuo.

[0017] La técnica anterior comprende las siguientes divulgaciones:

[1] 3GPP TS 26.445; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.

[²] ISO/IEC 23008-3:2015; Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Parte 3: 3D audio.

[3] Ravelli et al. "Apparatus and method for processing an audio signal using a harmonic post-filter". Solicitud de Patente de EE.UU. N.° 2017/0140769 A1. 18 de mayo de 2017.

[4] Markovic et al. "Harmonicity-dependent controlling of a harmonic filter tool". Solicitud de Patente de EE.UU. N.° 2017/0133029 A1. 11 de mayo de 2017.

[5] ITU-T G.718: Frame error robust narrow-band and wideband embedded variable bitrate coding of speech and audio from 8-32 kbit/s.

[6] De Cheveigné, Alain y Hideki Kawahara. "YIN, a fundamental frequency estimator for speech and music". The Journal of the Acoustical Society of America 111.4 (2002): 1917-1930.

[7] 3GPP TS 26.190; Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions.

[0018] Sin embargo, hay algunos casos en los que se debe mejorar la estimación del desfase de tono. Los actuales algoritmos de detección de tono de baja complejidad (como el de [7]) tienen un rendimiento que no es satisfactorio para LTPF, particularmente para señales complejas, como la música polifónica. El contorno de tono puede ser muy inestable, incluso durante tonos estacionarios. Esto se debe a saltos entre los máximos locales de la función de autocorrelación ponderada.

[0019] Por lo tanto, existe la necesidad de obtener estimaciones de desfase de tono que se adapten mejor a señales complejas, con la misma o menor complejidad que la técnica anterior.

2. Resumen de la invención

[0020] La invención se define por las reivindicaciones independientes.

[0021] Según la invención, se proporciona un aparato para codificar una señal de información que incluye una pluralidad de cuadros, comprendiendo el aparato:

un primer estimador configurado para obtener una primera estimación, siendo la primera estimación una estimación de un desfase de tono para un cuadro actual;

un segundo estimador configurado para obtener una segunda estimación, siendo la segunda estimación otra estimación de un desfase de tono para el cuadro actual,

un selector configurado para elegir un valor seleccionado realizando una selección entre la primera estimación y la segunda estimación sobre la base de una primera y una segunda mediciones de correlación,

donde el segundo estimador está condicionado por el desfase de tono seleccionado en el cuadro previo para obtener la segunda estimación del cuadro actual,

donde el selector está configurado para: realizar una comparación entre:

una versión a escala reducida de una primera medición de correlación asociada al cuadro actual y obtenida en un desfase correspondiente a la primera estimación; y

una segunda medición de correlación asociada al cuadro actual y obtenida en un desfase correspondiente a la segunda estimación,

para seleccionar la primera estimación cuando la segunda medición de correlación es menor que la versión a escala reducida de la primera medición de correlación, y/o

para seleccionar la segunda estimación cuando la segunda medición de correlación es mayor que la versión a escala reducida de la primera medición de correlación,

donde la primera y segunda mediciones de correlación son una medición de autocorrelación normalizada.

[0022] Puede implementarse un codificador de transformada para generar una representación de la señal de información o una versión procesada de la misma.

[0023] Según la invención, el segundo estimador está configurado para:

obtener la segunda estimación buscando el desfase que maximiza una segunda función de correlación en un segundo subintervalo que contiene el desfase de tono seleccionado para el cuadro previo.

[0024] Según los ejemplos, el segundo subintervalo contiene desfases dentro de una distancia menor que un umbral de número de desfase predefinido desde el desfase de tono seleccionado para el cuadro previo.

[0025] Según los ejemplos, el segundo estimador está configurado para:

buscar un valor máximo entre los valores de la segunda función de correlación para asociar la segunda estimación con el desfase asociado al valor máximo entre los valores de la segunda función de correlación.

[0026] Según la invención, el primer estimador está configurado para:

obtener la primera estimación como el desfase que maximiza una primera función de correlación asociada al cuadro actual.

[0027] Según los ejemplos, la primera función de correlación está restringida a desfases en un primer subintervalo.

[0028] Según los ejemplos, el primer subintervalo contiene un número de desfases mayor que el segundo subintervalo, y/o al menos algunos de los desfases en el segundo subintervalo están comprendidos en el primer subintervalo.

[0029] Según los ejemplos, el primer estimador está configurado para:

ponderar los valores de medición de correlación de la primera función de correlación usando una función de ponderación monótonamente decreciente antes de buscar el desfase que maximiza la primera función de correlación.

[0030] La segunda y primera funciones de correlación son una función de autocorrelación normalizada.

[0031] Según los ejemplos, el primer estimador está configurado para obtener la primera estimación Ti realizando al menos algunas de las siguientes operaciones:

siendo w(k) una función de ponderación, estando kmín y kmáx asociados a un desfase mínimo y un desfase máximo, siendo R un valor de medición de autocorrelación estimado sobre la base de la señal de información o una versión procesada de la misma, y siendo N la longitud de cuadro.

[0032] Según los ejemplos, el segundo estimador está configurado para obtener la segunda estimación T²mediante la realización de:

T2 ~ argmáx R(k)

fe=^ mín-^ Tnáx

siendo T'vrev ~ ^), r^no'x — m n^(^máx>^prev + ^ siendo Tprev la estimación seleccionada en el cuadro anterior, y ó es una distancia desde Tprev, estando

máximo.

[0033] Según los ejemplos, el selector está configurado para realizar una selección de la estimación de desfase de tono en términos de

_ (Ti si normcorrOt, N, T2) < anorm corr(x,N , T i)

m rr j f 2 LJe Ju contrario

siendo T¹la primera estimación, siendo T²la segunda estimación, siendo x un valor de la señal de información o una versión procesada de la misma, siendo normcorr(x, N, T) la medición de correlación normalizada de la señal x de longitud N en el desfase T, siendo a un coeficiente de reducción de escala.

[0034] Según los ejemplos, se proporciona, aguas abajo del selector, una herramienta de posfiltrado a largo plazo, LTPF, para controlar un posfiltro a largo plazo en un aparato decodificador.

[0035] Según los ejemplos, la señal de información es una señal de audio.

[0036] Según los ejemplos, el aparato está configurado para obtener la primera medición de correlación como una medición de armonía del cuadro actual y la segunda medición de correlación como una medición de armonía del cuadro actual restringido a un subintervalo definido para el cuadro previo.

[0037] El aparato está configurado para obtener la primera y la segunda mediciones de correlación usando la misma función de correlación hasta una función de ponderación.

[0038] Según los ejemplos, el aparato está configurado para obtener la primera medición de correlación como la versión normalizada de la primera estimación hasta una función de ponderación.

[0039] Según los ejemplos, el aparato está configurado para obtener la segunda medición de correlación como la versión normalizada de la segunda estimación.

[0040] Según los ejemplos, se proporciona un sistema que comprende un lado codificador y un lado decodificador, siendo el lado codificador como anteriormente, comprendiendo el lado decodificador una herramienta de posfiltrado a largo plazo controlada sobre la base de la estimación de desfase de tono seleccionada por el selector.

[0041] Según la invención, se proporciona un procedimiento para determinar un desfase de tono para una señal dividida en cuadros según la reivindicación 18.

[0042] Según los ejemplos, el procedimiento puede comprender el uso del desfase seleccionado para el ocultamiento de paquetes perdidos, PLC.

[0043] Según los ejemplos, se proporciona un procedimiento para codificar un flujo de bits según la reivindicación 20.

[0044] Según la invención, se proporciona un programa que comprende instrucciones según la reivindicación 22.

3. Descripción de los dibujos

[0045]

Las figuras 1a y 2 muestran un aparato según los ejemplos.

La figura 1b muestra un procedimiento según un ejemplo.

Las figuras 3 y 4 muestran procedimientos según los ejemplos.

Las figuras 5 y 5(1)-5(4) muestran diagramas de funciones de correlación.

La figura 6 muestra un sistema según la invención.

Las figuras 7 y 8 muestran un aparato según la invención.

La figura 9 muestra un ejemplo de operación en el decodificador.

5. Ejemplos de selecciones y estimaciones

[0046] Se describen ejemplos de procedimientos de detección de tono de baja complejidad, sistemas y aparatos, por ejemplo, para codificación y/o decodificación LTPF.

[0047] Una señal de información, aquí una señal de audio, se puede describir en el dominio del tiempo, TD, como una sucesión de muestras (por ejemplo, x(n)) adquiridas en diferentes instantes de tiempo discretos (n). La representación de TD puede comprender una pluralidad de cuadros, cada uno asociado a una pluralidad de muestras. Los cuadros pueden verse en secuencia uno después del otro, de modo que un cuadro actual está temporalmente antes que un cuadro posterior y está temporalmente después de un cuadro previo. Es posible operar de forma iterativa, por lo que las operaciones realizadas en el cuadro previo se repiten para el cuadro actual.

[0048] Durante una iteración asociada a un cuadro actual, es posible realizar al menos algunas operaciones (por ejemplo, una segunda estimación) que están condicionadas por la selección realizada en la iteración previa asociada al cuadro previo. Por lo tanto, se tiene en cuenta el historial de la señal en el cuadro previo, por ejemplo, para seleccionar el desfase de tono que usará el decodificador para realizar el posfiltrado a largo plazo (LTPF). 5.1 Estructura general y función según los ejemplos

[0049] La figura 1a muestra una porción de un aparato 10 para codificar una señal de información. El aparato 10 puede comprender un primer estimador 11 configurado para realizar un primer proceso de estimación para obtener una primera estimación 14 (T¹) para un cuadro actual 13. El aparato 10 puede comprender un segundo estimador 12 configurado para realizar un segundo proceso de estimación para obtener una segunda estimación 16 (T²) para el cuadro actual 13. El aparato 10 puede comprender un selector 17 configurado para realizar una selección 18 entre la primera estimación 14 y la segunda estimación 16 sobre la base de al menos una medición de correlación (el elemento representado por el interruptor 17a está controlado por el elemento 17). Se elige una estimación de salida (final) 19 (Tmejor) entre la primera estimación 14 y la segunda estimación 16 y puede, por ejemplo, proporcionarse a un decodificador, por ejemplo, para realizar LTPF. La estimación de salida (final) 19 se usará como el desfase de tono para el LTPF.

[0050] La estimación final (valor seleccionado) 19 también puede introducirse en un registro 19' y usarse al realizar una iteración en el cuadro posterior, como entrada 19'' (Tprev) al segundo estimador 12 con respecto a una selección operada previamente. Para cada cuadro 13, el segundo estimador 12 obtiene la segunda estimación 16 sobre la base de la estimación final anterior 19" para el marco previo.

[0051] La figura 1b muestra un procedimiento 100 (por ejemplo, para determinar un desfase de tono final que se usará para el LTPF) para una señal dividida en cuadros. El procedimiento comprende realizar una primera estimación (estimación de desfase de tono) para un cuadro actual en la etapa S101. El procedimiento comprende realizar una segunda estimación para el cuadro actual en la etapa S102, basándose la segunda estimación en la selección operada en el cuadro previo (por ejemplo, el desfase de tono final elegido para el LTPF en el cuadro previo). El procedimiento comprende seleccionar entre la primera estimación 14 y la segunda estimación 16 sobre la base de al menos una medición de correlación en la etapa S103.

[0052] Posteriormente, en la etapa S104, los cuadros se actualizan: el cuadro que era el "cuadro actual" se convierte en el "cuadro previo", mientras que un nuevo cuadro (posterior) se convierte en el nuevo "cuadro actual". Después de la actualización, el procedimiento puede iterarse.

[0053] La figura 2 muestra una porción de un aparato 10 (que puede ser el mismo que el de la figura 1a) para codificar una señal de información. En el selector 17, un primer medidor 21 puede medir una primera correlación (por ejemplo, una correlación normalizada) 23 asociada al cuadro actual 13 (por ejemplo, la autocorrelación normalizada de la primera estimación T¹). Un segundo medidor 22 puede medir una segunda correlación (por ejemplo, una correlación normalizada) 25 asociada al cuadro actual 13 (por ejemplo, la autocorrelación normalizada de la segunda estimación T²). La primera correlación normalizada 23 puede reducirse en escala en el escalador 26 mediante un valor predeterminado a que puede ser, por ejemplo, un valor entre 0,8 y 0,9, más en particular 0,84 y 0,86, y que puede ser 0,85. La segunda correlación (por ejemplo, una correlación normalizada) 25 asociada al cuadro actual 13 puede compararse con la primera correlación escalada 24, por ejemplo (en los ejemplos, el escalador 26 es opcional y la primera correlación no está escalada). La selección 18 entre la primera estimación 14 (T¹) y la segunda estimación 16 (T²) se basa en la comparación realizada en el comparador 27. Cuando la segunda correlación 25 es mayor que la primera correlación escalada 24, la segunda estimación 16 se elige como la información de desfase de tono como estimación de salida seleccionada 19 (Tmejor = T²) que se proporcionará al decodificador (por ejemplo, para usarse como el desfase de tono para el LTPF). Cuando la segunda correlación 25 es menor que la primera correlación escalada 24, la primera estimación 14 (T¹) se elige como la información de desfase de tono 19 (Tmejor = T¹) que se proporcionará al decodificador.

5.2 Primera estimación

[0054] En esta invención se analizan las operaciones del primer estimador 11 que pueden usarse, en los ejemplos, para proporcionar una primera estimación 14 sobre la base del cuadro actual 13. El procedimiento 30 se muestra en la figura 3.

Etapa 1. Remuestreo de la 1a fase (etapa S31)

[0055] Una señal de entrada x(n) a una tasa de muestreo F se remuestrea a una tasa de muestreo más baja F¹(por ejemplo, F¹= 12,8 kHz). El remuestreo se puede implementar usando, por ejemplo, un enfoque clásico de sobremuestreo paso bajo submuestreo. La presente etapa es opcional en algunos ejemplos.

Etapa 2. Filtrado de paso alto (etapa S21)

[0056] A continuación, la señal remuestreada se filtra en paso alto usando, por ejemplo, un filtro IIR de 2 órdenes con corte en 3 dB a 50 Hz. La señal resultante se denomina xi(n). La presente etapa es opcional en algunos ejemplos.

Etapa 3. Remuestreo de la 2a fase (etapa S33)

[0057] La señal X¹(n) se remuestrea adicionalmente por un factor de 2 usando, por ejemplo, un filtro de paso bajo FIR de 4 órdenes seguido de un decimador. La señal resultante a la tasa de muestreo F²= F^{1 /2}(por ejemplo, F²= 6,4 kHz) se denomina X²(n). La presente etapa es opcional en algunos ejemplos.

Etapa 4. Cálculo de autocorrelación (etapa S34)

[0058] Se puede realizar un proceso de autocorrelación. Por ejemplo, una autocorrelación puede procesarse en X²(n) por

^N - 1

jR(T) = ^ x2(ji)x2 (n ~ T), T = Tm[n, ..., Tm¿x

n=o

siendo N el tamaño del cuadro. Tmín y Tmáx son los valores mínimo y máximo para recuperar el desfase de tono (por ejemplo, Tmín = 32 y Tmáx = 228). Por lo tanto, Tmín y Tmáx pueden constituir los extremos de un primer intervalo donde se encuentra la primera estimación (desfase de tono del cuadro actual).

Etapa 5. Ponderación de autocorrelación (etapa S35)

[0059] La autocorrelación puede ponderarse para enfatizar los desfases de tono más bajos

Rw(T) = R(T)w(T), T = TJmm 'i 1 T Jma 'x

siendo w(T) una función decreciente (por ejemplo, una función decreciente en forma monótona) dada, por ejemplo, por

Etapa 6. Primera estimación (etapa S36)

[0060] La primera estimación T¹es el valor que maximiza la autocorrelación ponderada:

^Tt ^{= argm}T — 'í tnfr*.. ^á T ^x máx ^{# W(T )}

[0061] La primera estimación T ¹puede proporcionarse como la salida 14 del primer estimador 11. Esto puede ser una estimación del desfase de tono para el cuadro actual.

[0062] R(T) (o su versión ponderada Rw(T)) es un ejemplo de una primera función de correlación cuyo valor máximo está asociado a la primera estimación de desfase de tono 14 (T¹).

5.3 Segunda estimación

[0063] En esta invención se analizan las operaciones del segundo estimador 12 (y/o etapa S102) que se pueden usar, en los ejemplos, para proporcionar una segunda estimación 16 sobre la base del cuadro actual 13 y la estimación seleccionada previamente (salida) 19'' (desfase de tono obtenido para el cuadro anterior). El procedimiento 40 se muestra en la figura 4. La segunda estimación 16 puede ser diferente de la primera estimación 14. Además, el desfase de tono estimado puede ser diferente, en algunos ejemplos, del desfase de tono como se estimó anteriormente.

[0064] Con referencia a la figura 5, según los ejemplos, en la etapa S41, la búsqueda se restringe a un grupo restringido de desfases que están dentro de un segundo subintervalo particular 52. La búsqueda se basa en el desfase 51 que corresponde al valor seleccionado (previamente) 19''. La búsqueda se restringe a los desfases en el segundo subintervalo 52, que están dentro de un valor 5 (que puede ser elegido, por ejemplo, entre 2, 3, 4, 5, 6, 7, 8, 9, 10 u otro número natural positivo; en algunos ejemplos, 5 puede ser un porcentaje de la longitud del cuadro, de modo que, si el cuadro tiene N muestras, 5 es un porcentaje entre el 1 % y el 30 %, en particular el 15 % y el 25 %, de N). 5 puede ser un umbral de número de desfase predefinido o un porcentaje predefinido.

[0065] En la etapa S42, los valores de autocorrelación dentro del subintervalo 52 se calculan, por ejemplo, mediante el segundo medidor 22.

[0066] En la etapa S42, se recupera el valor máximo entre los resultados de la autocorrelación. La segunda estimación T2 es el valor que maximiza la autocorrelación en la proximidad del desfase de tono del cuadro actual entre los desfases dentro del segundo subintervalo centrado en el valor seleccionado previamente 19'', por ejemplo:

T2 = argmáx R(T)

T=Tprev_Si-iTprev+S

donde Tprev es el desfase de tono final 51 (19'') como se ha seleccionado previamente (por el selector 17) y 5 la constante (por ejemplo, 5 = 4) que define el subintervalo 52. El valor T2 puede proporcionarse como la salida 16 del segundo estimador 12.

[0067] En particular, la primera estimación 14 y la segunda estimación 16 pueden ser significativamente diferentes entre sí.

[0068] R(T) (cuyo dominio está restringido en esta invención entre Tprev-5 y Tprev+5) es un ejemplo de una segunda función de correlación cuyo valor máximo está asociado a la segunda estimación de desfase de tono 16 (T²).

5.4 Primera y segunda mediciones de correlación

[0069] El primer medidor 21 y/o el segundo medidor 22 pueden realizar mediciones de correlación. El primer medidor 21 y/o el segundo medidor 22 pueden realizar mediciones de autocorrelación. Las mediciones de correlación y/o autocorrelación pueden normalizarse. En esta invención se proporciona un ejemplo.

[0070] normcorr(T) puede ser la correlación normalizada de la señal x en el desfase de tono T

normcorr(

[0071] Por lo tanto, la primera medición de correlación 23 puede ser normcorr(Ti), donde T¹es la primera estimación 14, y la segunda medición de correlación 25 puede ser normcorr(T2), donde T2 es la segunda estimación 16.

[0072] En particular, la primera medición de correlación 23 es el valor normalizado de R(T1) (o Rw(T1)), mientras que la segunda medición de correlación 25 es el valor normalizado de R(T2).

5.5 Comparación con el umbral

[0073] Ahora es posible dar un ejemplo de cómo comparar la correlación para realizar la selección. Como ejemplo se proporciona la siguiente fórmula:

Ti ^sinormcorr(T2, < anormcorn

T2 de lo contrario

anormcorr(Ti) puede verse como un umbral de selección de desfase de tono 24: si normcorr(T²) á anormcorr(Ti), el selector elige Ti, de lo contrario, el selector elige T². El valor Tmejor (o una información asociada al mismo) puede ser, por lo tanto, el valor de salida seleccionado 19 (ya sea Ti o T²) y puede proporcionarse al decodificador (por ejemplo, para LTPF) y que será usado, como 19'', por el segundo estimador 12 para obtener la segunda estimación 16.

5.6 El procedimiento 40

[0074] El procedimiento 40, asociado al procedimiento 30, aumenta los rendimientos con respecto a una técnica basada únicamente en el procedimiento 30.

[0075] Con una pequeña complejidad adicional, es posible mejorar significativamente el rendimiento haciendo que el contorno del tono sea más estable y continuo.

[0076] El procedimiento 40 encuentra un segundo máximo para la función de autocorrelación. No es el máximo global como en el procedimiento 30, sino un máximo local en la proximidad del desfase de tono del cuadro anterior. Este segundo desfase de tono, si se selecciona, produce un contorno de tono suave y continuo. Sin embargo, no se selecciona este segundo desfase de tono en todos los casos. Si hay un cambio esperado en la frecuencia fundamental, por ejemplo, es mejor mantener el máximo global.

[0077] La selección final es si se selecciona el primer desfase de tono T¹(14) encontrado con el procedimiento 30 o el segundo desfase de tono T²(16) encontrado con el procedimiento 40. Esta decisión se basa en una medida de periodicidad. Se elige la correlación normalizada como medida de periodicidad. Es 1 si la señal es perfectamente periódica y 0 si es aperiódica. El segundo desfase de tono T²se elige entonces si su correlación normalizada correspondiente es mayor que la correlación normalizada del primer desfase de tono T¹, escalado por un parámetro a. Este parámetro a < 1 hace que la decisión sea aún más simple seleccionando T²(16) incluso cuando su correlación normalizada está ligeramente por debajo de la correlación normalizada del primer desfase de tono T¹(14).

5.7 Consideraciones sobre la técnica

[0078] Se hace referencia a las figuras 5(1)-5(4).

[0079] Un ejemplo de la primera estimación se muestra en la figura 5(1): Se elige el desfase de tono que corresponde al máximo de la función de autocorrelación.

[0080] Se basa en el hecho de que la autocorrelación de una señal armónica (con un cierto tono dado) contiene picos en la posición del desfase de tono y todos los múltiplos de ese desfase de tono.

[0081] Para evitar seleccionar un pico que corresponda a un múltiplo del desfase de tono, la función de autocorrelación se ponderará, como en la figura 5(2), poniendo menos énfasis en los desfases de tono más altos. Esto se usa, por ejemplo, en [7].

[0082] Se asume entonces que el máximo global de la autocorrelación ponderada corresponde al desfase de tono de la señal.

[0083] En general, la primera estimación tomada sola funciona satisfactoriamente: proporciona el tono correcto en la gran mayoría de los cuadros.

[0084] La primera estimación también tiene la ventaja de una complejidad relativamente baja si el número de desfases de la función de autocorrelación (primer subintervalo) es relativamente bajo.

[0085] La figura 5(1) muestra la autocorrelación (no ponderada) de la señal de entrada.

[0086] Hay cinco picos: el primer pico 53 corresponde al desfase de tono, y los otros corresponden a múltiplos 53' de ese desfase de tono.

[0087] Tomar el máximo global de la autocorrelación (no ponderada) daría en este caso un desfase de tono incorrecto: elegiría un múltiplo de este, en este caso 4 veces el desfase de tono correcto.

[0088] Sin embargo, el máximo global de la autocorrelación ponderada (figura 5(2)) es el desfase de tono correcto.

[0089] La primera estimación funciona en varios casos. Sin embargo, hay algunos casos en los que produce una estimación inestable.

[0090] Uno de estos casos es una señal de música polifónica que contiene una mezcla de varios tonos con diferentes alturas. En este caso, es difícil extraer un solo tono de una señal de varios tonos. El primer estimador 11 podría, en ese caso, estimar en un cuadro la altura de uno de los tonos (o incluso tal vez un múltiplo de esta), y en el siguiente cuadro posiblemente la altura de otro tono (o un múltiplo de esta). Entonces, incluso aunque la señal fuera estable (la altura de los diferentes tonos no cambia de un cuadro a otro), la altura detectada por la primera estimación puede ser inestable (la altura cambia significativamente de un cuadro a otro).

[0091] Este comportamiento inestable es un problema importante para el LTPF. Cuando se usa el tono para el LTPF, es muy importante tener un contorno de tono continuo, de lo contrario se podrían escuchar algunos artefactos en la señal de salida filtrada de LTPF.

[0092] Las figuras 5(3) y 5(4) ilustran este problema.

[0093] La figura 5(3) muestra la autocorrelación ponderada y su máximo en un cuadro de una señal estable de varios tonos. Un desfase de tono 19'' se recupera correctamente en "20" en correspondencia con el pico 54.

[0094] La figura 5(4) muestra lo mismo en el cuadro posterior.

[0095] En este caso, los tres primeros picos 54', 54'' y 54''' tienen una amplitud muy cercana. Por lo tanto, cambios muy leves entre los dos cuadros consecutivos pueden cambiar significativamente el máximo global y el desfase de tono estimado.

[0096] La solución adoptada en la presente invención resuelve estos problemas de inestabilidad.

[0097] La presente solución selecciona, además del desfase de tono asociado al pico en el cuadro, un desfase de tono cercano al desfase de tono del cuadro previo.

[0098] Por ejemplo, la figura 5(3) corresponde al cuadro previo y la figura 5(4) corresponde al cuadro actual. La intención es verificar si es preferible seleccionar en el cuadro actual un desfase de tono de alrededor de 20 (es decir, el desfase de tono 19'' o Tprev del cuadro previo) y no un desfase de tono 40, como indica el primer estimador 11.

[0099] Para hacerlo, se realiza una segunda estimación (por ejemplo, mediante el segundo estimador 12) mediante la estimación de un segundo desfase de tono T²que maximiza la función de autocorrelación alrededor de un subintervalo 52 del desfase de tono del cuadro anterior (Tprev - 6, Tprev 6). En el caso de la figura 5(4), este segundo desfase de tono T²sería 20 (siendo el primer desfase de tono 40). (Incluso si en este caso T²= Tprev, esto no es una regla de generación. En general, Tprev - 6 < T²< Tprev 6). En particular, en los ejemplos, para estimar T², la autocorrelación no está ponderada.

[0100] Sin embargo, no se desea seleccionar en todos los casos este segundo desfase de tono T². Se desea seleccionar el primer desfase de tono T¹o el segundo desfase de tono T²en función de ciertos criterios. Estos criterios se basan en la correlación normalizada (NC), por ejemplo, según lo medido por el selector 17, que generalmente se considera una buena medida de cuán periódica es una señal en un desfase de tono particular (una NC de 0 significa que no es periódica en absoluto, y una NC de 1 significa que es perfectamente periódica).

[0101] Se dan entonces varios casos:

- Si la NC de la segunda estimación T²es mayor que la NC de la primera estimación T¹, se puede estar seguros de que la segunda estimación T²es mejor que la primera estimación T¹, porque la segunda estimación T²tiene mejor NC y produce una decisión estable (el tono del cuadro previo y el tono del cuadro actual están muy cerca), por lo que se puede seleccionar con seguridad.

- Si la NC de la segunda estimación T²es mucho más baja que la NC de la primera estimación, esto indica que el tono 19'' del cuadro anterior no corresponde a ninguna periodicidad en el cuadro actual, la señal es inestable, y el tono ha cambiado, por lo que no tiene sentido mantener el tono 19'' del cuadro anterior y tratar de producir una decisión estable. En ese caso, la segunda estimación T²se ignora y se selecciona la primera estimación T¹.

- Si la NC de la segunda estimación T²es ligeramente más baja que la NC de la primera estimación T¹, la NC de ambas estimaciones T¹y T²están cerca y preferiríamos en ese caso elegir la estimación que produce una decisión estable (es decir, la segunda estimación T²) incluso aunque tenga una NC algo peor. El parámetro a (a < 1) se usa para ese caso: permite seleccionar la segunda estimación T²incluso aunque tenga una NC ligeramente más baja. El ajuste de este parámetro a nos permite sesgar la selección hacia la primera estimación T¹o la segunda estimación T²: un valor más bajo significa que la segunda estimación se seleccionará con mayor frecuencia (= la decisión sería más estable). Un valor de 0,85 (o un valor entre 0,8 y 0,9) es una buena compensación: se selecciona la segunda estimación T²con la suficiente frecuencia para que la decisión sea lo suficientemente estable para el LTPF.

[0102] Las etapas adicionales proporcionadas además de la primera estimación (segunda estimación y selección) tienen una complejidad muy baja. Por lo tanto, la invención propuesta tiene poca complejidad.

6. Ejemplos de sistemas de codificación/decodificación

[0103] La figura 6 muestra un esquema de bloques relacionado con las operaciones de codificación/decodificación. El esquema muestra un sistema 60 que comprende un codificador 60a (que puede comprender el aparato 10) y un decodificador 60b. El codificador 60a obtiene una señal de información de entrada 61 (que puede ser una señal de audio y/o puede dividirse en cuadros, tal como el cuadro actual 13 y el cuadro previo) y prepara un flujo de bits 63. El decodificador 60b obtiene el flujo de bits 63 (por ejemplo, de forma inalámbrica, por ejemplo, usando Bluetooth) para generar una señal de salida 68 (por ejemplo, una señal de audio).

[0104] El codificador 60a puede generar, usando un codificador de transformada 62, una representación de dominio de frecuencia 63a (o una versión procesada de la misma) de la señal de información 61 y proporcionarla al decodificador 60b en el flujo de bits 63. El decodificador 60b puede comprender un decodificador de transformada para obtener la señal de salida 64a.

[0105] El codificador 60a puede generar, usando una unidad de detección 65, datos útiles para realizar el LTPF en el decodificador 60b. Estos datos pueden comprender una estimación de desfase de tono (por ejemplo, 19) y/o una información de ganancia. Estos datos pueden codificarse en el flujo de bits 63 como datos 63b en los campos de control. Los datos 63b (que pueden comprender la estimación final 19 del desfase de tono) pueden prepararse mediante un codificador LTPF 66 (que, en algunos ejemplos, puede decidir si codificar los datos 63b o no). Estos datos pueden usarse por un decodificador LTPF 67 que puede aplicarlos a la señal de salida 64a del decodificador de transformación 64 para obtener la señal de salida 68.

7. Ejemplos, por ejemplo, para LTPF

7.1 Parámetros (por ejemplo, parámetros LTPF) en el codificador

[0106] En esta invención se proporcionan ejemplos de los cálculos de los parámetros LTPF (u otros tipos de parámetros).

[0107] En las siguientes subsecciones se proporciona un ejemplo de preparación de la información para el LTPF.

7.2.1. Remuestreo

[0108] En esta invención se analiza un ejemplo de técnica de remuestreo (opcional) (se pueden usar otras técnicas).

[0109] La señal de entrada a la tasa de muestreo fs se puede remuestrear a una tasa de muestreo fija de 12,8 kHz. El remuestreo se realiza usando un enfoque de sobremuestreo filtrado de paso bajo submuestreo, que se puede formular de la siguiente manera

indicando [ ] un valor transportado (redondeado al número entero más abajo), x(n) es la señal de entrada, Xi²,s(n) es „ 192kHz

A ,

la señal remuestreada a 12,8 kHz, ‘s es el factor de sobremuestreo, y h^@,4es la respuesta de impulso de un filtro de paso bajo FIR dado por

(tab_i resam p_filter[n 119 ] si — 120 < n < 120

hg+O ) = lo de lo contrario

[0110] En la siguiente tabla se proporciona un ejemplo de tab_resamp_filter:

______________________________________ (continuación)________________ -1,765445671257668e-04, -1,922569599584802e-04, -1,996438192500382e-04, -1,968886856400547e-04, -1,825383318834690e-04, -1,556394266046803e-04, -1,158603651792638e-04, -6,358930335348977e-05, 2,810064795067786e-19, 7,292180213001337e-05, 1,523970757644272e-04, 2,349207769898906e-04, 3,163786496265269e-04, 3,922117380894736e-04, 4,576238491064392e-04, 5,078242936704864e-04, 5,382955231045915e-04, 5,450729176175875e-04, 5,250221548270982e-04, 4,760984242947349e-04, 3,975713799264791e-04, 2,902002172907180e-04, 1,563446669975615e-04, -5,818801416923580e-19, -1,732527127898052e-04, -3,563859653300760e-04, -5,411552308801147e-04, -7,184140229675020e-04, -8,785052315963854e-04, -1,011714513697282e-03, -1,108767055632304e-03, -1,161345220483996e-03, -1,162601694464620e-03, -1,107640974148221e-03, -9,939415631563015e-04, -8,216921898513225e-04, -5,940177657925908e-04, -3,170746535382728e-04, 9,746950818779534e-19, 3,452937604228947e-04, 7,044808705458705e-04, 1,061334465662964e-03, 1,398374734488549e-03, 1,697630799350524e-03, 1,941486748731660e-03, 2,113575906669355e-03, 2,199682452179964e-03, 2,188606246517629e-03, 2,072945458973295e-03, 1,849752491313908e-03, 1,521021876908738e-03, 1,093974255016849e-03, 5,811080624426164e-04, -1,422482656398999e-18, -6,271537303228204e-04, -1,274251404913447e-03, -1,912238389850182e-03, -2,510269249380764e-03, -3,037038298629825e-03, -3,462226871101535e-03, -3,758006719596473e-03, -3,900532466948409e-03, -3,871352309895838e-03, -3,658665583679722e-03, -3,258358512646846e-03, -2,674755551508349e-03, -1,921033054368456e-03, -1,019254326838640e-03, 1,869623690895593e-18, 1,098415446732263e-03, 2,231131973532823e-03, 3,348309272768835e-03, 4,397022774386510e-03, 5,323426722644900e-03, 6,075105310368700e-03, 6,603520247552113e-03, 6,866453987193027e-03, 6,830342695906946e-03, 6,472392343549424e-03, 5,782375213956374e-03, 4,764012726389739e-03, 3,435863514113467e-03, 1,831652835406657e-03, -2,251898372838663e-18, -1,996476188279370e-03, -4,082668858919100e-03, -6,173080374929424e-03, -8,174448945974208e-03, -9,988823864332691e-03, -1,151698705819990e-02, . -1,266210056063963e-02, -1,333344579518481e-02, -1,345011199343934e-02, -1,294448809639154e-02, -1,176541543002924e-02, -9,880867320401294e-03, -7,280036402392082e-03, -3,974730209151807e-03, 2,509617777250391e-18, 4,586044219717467e-03, 9,703248998383679e-03, 1,525124770818010e-02, 2,111205854013017e-02, 2,715337236094137e-02, 3,323242450843114e-02, 3,920032029020130e-02, 4,490666443426786e-02, 5,020433088017846e-02, 5,495420172681558e-02, 5,902970324375908e-02, 6,232097270672976e-02, 6,473850225260731e-02, 6,621612450840858e-02, 6,671322871619612e-02, 6,621612450840858e-02, 6,473850225260731e-02, 6,232097270672976e-02, 5,902970324375908e-02, 5,495420172681558e-02, 5,020433088017846e-02, 4,490666443426786e-02, 3,920032029020130e-02, 3,323242450843114e-02, 2,715337236094137e-02, 2,111205854013017e-02, 1,525124770818010e-02, 9,703248998383679e-03, 4,586044219717467e-03, 2,509617777250391e-18, -3,974730209151807e-03, -7,280036402392082e-03, -9,880867320401294e-03, -1,176541543002924e-02, -1,294448809639154e-02, -1,345011199343934e-02, -1,333344579518481e-02, -1,266210056063963e-02, -1,151698705819990e-02, -9,988823864332691e-03, -8,174448945974208e-03, -6,173080374929424e-03, -4,082668858919100e-03, -1,996476188279370e-03, -2,251898372838663e-18, 1,831652835406657e-03, 3,435863514113467e-03, 4,764012726389739e-03, 5,782375213956374e-03, 6,472392343549424e-03, 6,830342695906946e-03, 6,866453987193027e-03, 6,603520247552113e-03, 6,075105310368700e-03, 5,323426722644900e-03, 4,397022774386510e-03, 3,348309272768835e-03, 2,231131973532823e-03, 1,098415446732263e-03, 1,869623690895593e-18, -1,019254326838640e-03, -1,921033054368456e-03, -2,674755551508349e-03, -3,258358512646846e-03, -3,658665583679722e-03, -3,871352309895838e-03, -3,900532466948409e-03, -3,758006719596473e-03, -3,462226871101535e-03, -3,037038298629825e-03, -2,510269249380764e-03, -1,912238389850182e-03, -1,274251404913447e-03, -6,271537303228204e-04, -1,422482656398999e-18, 5,811080624426164e-04, 1,093974255016849e-03, 1,521021876908738e-03, 1,849752491313908e-03, 2,072945458973295e-03, 2,188606246517629e-03, 2,199682452179964e-03, 2,113575906669355e-03, 1,941486748731660e-03, 1,697630799350524e-03, 1,398374734488549e-03, 1,061334465662964e-03, 7,044808705458705e-04, 3,452937604228947e-04, 9,746950818779534e-19, -3,170746535382728e-04, -5,940177657925908e-04, -8,216921898513225e-04, _________________ (continuación)________________

, -1,107640974148221e-03, -1,162601694464620e-03,

, -1,108767055632304e-03, -1,011714513697282e-03,

, -7,184140229675020e-04, -5,411552308801147e-04,

, -1,732527127898052e-04, -5,818801416923580e-19,

, 2,902002172907180e-04, 3,975713799264791e-04

, 5,250221548270982e-04, 5,450729176175875e-04

, 5,078242936704864e-04, 4,576238491064392e-04

, 3,163786496265269e-04, 2,349207769898906e-04

, 7,292180213001337e-05, 2,810064795067786e-19

, -1,158603651792638e-04, -1,556394266046803e-04,

, -1,968886856400547e-04, -1,996438192500382e-04,

, -1,765445671257668e-04, -1,545438297704662e-04,

, -1,001011132655914e-04, -7,163663994481459e-05,

, -2,043055832879108e-05};______________________

7.2.2. Filtrado de paso alto

[0111] En esta invención se analiza un ejemplo de técnica de filtro de paso alto (opcional) (se pueden usar otras técnicas).

[0112] La señal remuestreada puede filtrarse en paso alto usando un filtro IIR de 2 órdenes cuya función de transferencia puede darse por

0.9827947082978771 - 1.965589416595754Z-1 0.9827947082978771z"z

ff50(z) -1 - 1.9652933726226904FrM :^ 65885460 ^ '8177 z -2 ~

7.2.3. Detección de tono

[0113] En esta invención se analiza un ejemplo de técnica de detección de tono (se pueden usar otras técnicas).

[0114] La señal x12,s(n) puede submuestrearse (opcionalmente) por un factor de 2 usando

para n - 0..63

siendo h²= {0,1236796411180537, 0,2353512128364889, 0,2819382920909148, 0,2353512128364889, 0,1236796411180537}.

[0115] La autocorrelación de x⁶.⁴(n) puede calcularse por

siendo kmín = 17 y kmáx = 114 los desfases mínimo y máximo que definen el primer subintervalo (se pueden proporcionar otros valores para kmín y kmáx).

[0116] La autocorrelación puede ponderarse usando

R£4(k) = R6.4(k)w(k) para k = kmi'n..k miíx

con w(k) que se define de la siguiente manera

[0117] La primera estimación 14 del desfase de tono T1 puede ser el desfase que maximiza la autocorrelación ponderada

Tx = argmáx R^4(k)

k=ltnifn-kmáx

[0118] La segunda estimación 16 del desfase de tono T²puede ser el desfase que maximiza la autocorrelación no ponderada en la proximidad del desfase de tono (19'') estimado en el cuadro previo

T2 = argmáx R6.4(k)

*í=kmfn-^ máx

siendo kmín - máx(kmín,Tprev 4) ^ k ^ - mm(kma'x, Tprev 4) ^ y ^ es e, desfase de tono fina| estimado en el cuadro previo (y, por lo tanto, su selección está condicionada por el desfase de tono previamente seleccionado).

[0119] La estimación final 19 del desfase de tono en el cuadro actual 13 puede darse entonces por

_ (Tx si normcorr(x6.4,64,T2) < 0.85.normcorr(x64, 64, TV)

curr ~~ (T2 de lo contrario

siendo normcorr(x, L, T) la correlación normalizada de la señal x de longitud L en el desfase T

normcorr(x, L, T) £n=ox(n)x(n - T)

YrnZa x2 (n) Eíí=o x2 (n — T)

[0120] Cada correlación normalizada 23 o 25 puede ser al menos una de las mediciones obtenidas por el primer o segundo medidor de señal 21 o 22.

7.2.4. Flujo de bits de LTPF

[0121] En algunos ejemplos, el primer bit del flujo de bits de LTPF señala la presencia del parámetro de desfase de tono en el flujo de bits. Se obtiene por

í 1 SÍ normcorr(^rG 4, 64 ,7 ^ ^ ) > 0.6

(o de lo contrario

(En lugar de 0,6, se podría usar un umbral diferente, por ejemplo, entre 0,4 y 0,8, o 0,5 y 0,7, o 0,55 y 0,65, por ejemplo).

[0122] Si pitch_present es 0, no se codifican más bits, lo que da como resultado un flujo de bits de LTPF de solo un bit.

[0123] Si pitch_present es 1, se codifican dos parámetros más, un parámetro de desfase de tono codificado en 9 bits y un bit para señalizar la activación de LTPF. En ese caso, el flujo de bits de LTPF está compuesto por 11 bits.

TlbttS^ ppp ^{[1 ,s i pitch_present = 0}

_{(.11 ,d e lo contarrio}

7.2.5. Parámetros de desfase de tono de LTPF

[0124] En esta invención se analiza un ejemplo para obtener parámetros de desfase de tono de LTPF (se pueden usar otras técnicas).

[0125] La parte entera del parámetro de desfase de tono de LTPF puede darse por

ltpf_pitch_int ~ argmáx R12,g(k)

k-^mín "kniax

siendo

127

^r128(k) _ 2 ^ x12i8(n)x12i8(n - k)

y

kmfn — máx(32,2Tcurr 4), km^x — mín(228,2Tcurr 4).

[0126] La parte fraccionaria del desfase de tono de LTPF puede darse entonces por si pitch_int > 157 argmáx interp(R128,F .intd) si 157 > pitchjnt > 127 d = -2,C,2 " ” ’

argmáx interp(R12.8.F .intd) si 127 > pitch_int>32 d = -3...3 " ’ ’

argmáx interp(R128,F intd) si pitch int = 32

d = 0...3 ' "" "

siendo

y h⁴es la respuesta de impulso de un filtro de paso bajo FIR dado por

ftab

, SÍ 16 < n < 16

li-iCn) = , de lo contrario tab_ltpf_interp_R puede ser, por ejemplo:

[0127] Si pitch_fr < 0, entonces tanto pitch_int como pitch_fr se modifican según pitchjnt = pitchjnt -1

piích Jr = pitchjr+4

[0128] Finalmente, el índice del parámetro de desfase de tono se da por

si pitch int > 157 + 126 si 157 >| .int > 127

— 128 si 127

int

7.2.6 Bit de activación de LTPF

[0129] Una correlación normalizada se calcula primero de la siguiente manera

siendo

y hi es la respuesta de impulso de un filtro de paso bajo FIR dado por

, si — 8 < v. < 8

, de lo contrarío

con tab_ltpf_interp_x12k8 que se da por:_______________________________________________

double tab_ltpf_interp_x12k8[15] = {

6,698858366939680e-03, 3,967114782344967e-02, 1,069991860896389e-01 2,098804630681809e-01, 3,356906254147840e-01, 4,592209296082350e-01 5,500750019177116e-01, 5,835275754221211e-01, 5,500750019177116e-01 4,592209296082350e-01, 3,356906254147840e-01, 2,098804630681809e-01

1,069991860896389e-01, 3,967114782344967e-02, 6,698858366939680e-03};

[0130] El bit de activación de LTPF se establece entonces según:

si(

(mem_itpf_active==0 && mem_nc>0.94 && nc>94) y

(mem_itpf_active==1 && nc>0.9) y

(mem_itpf_active==1 && ab s( pi tch-mem_pitch)<2 && (nc-mem_nc)>-0.1 && nc>0.84) )

{

tipf_active = 1;

}

de lo contrario

{

tipf_active = 0;

}

siendo mem_ltpf_active el valor de ltpf_active en el cuadro previo (es 0 si pitch_present=0 en el cuadro previo), mem_nc es el valor de nc en el cuadro previo (es 0 si pitch_present=0 en el cuadro previo), pitch=pitch_int+pitch_fr/4 y mem_pitch es el valor del tono en el cuadro previo (es 0 si pitch_present=0 en el cuadro previo).

7.3 LTPF en el decodificador

[0131] La señal decodificada en el dominio de frecuencia (FD), por ejemplo, después de la síntesis MDCT (Transformación de Coseno Discreta Modificada), la síntesis MDST (Transformación de Seno Discreta Modificada) o una síntesis basada en otra transformación, puede posfiltrarse en el dominio de tiempo usando un filtro IIR cuyos parámetros pueden depender de los datos del flujo de bits de LTPF "pitch_index" y "ltpf_active". Para evitar la discontinuidad cuando los parámetros cambian de un cuadro a otro, se puede aplicar un mecanismo de transición en el primer cuarto del cuadro actual.

[0132] En los ejemplos, un filtro LTPF IIR puede implementarse usando

Lnum L(jen ^

*¡t^f(n) = x(n) - cnum(k)x(n - k) cden(k,pfr)xí^f (n - pint

- k)

k=0 k=0

donde x(n) es la señal de entrada del filtro (es decir, la señal decodificada después de la síntesis MDCT) y x ltp f00 es la señal de salida del filtro.

[0133] La parte entera pint y la parte fraccionaria pfr del desfase de tono LTPF se puede calcular de la siguiente manera. Primero se recupera el desfase de tono a 12,8 kHz usando

jndex — 283 si :h_index > 440

Índex

int - 63 si 440 > pitch ¡ndex > 380

índex

+ 32 si 380 í>

si pitchjndex > 440

Índex - 4 * pitchjnt 508 si 440 > pitchjndex > 380

Índex - 4 * pitch int 128 si 380 > pitch Índex

pitchjr

pitch = p itch jn t

[0134] A continuación, el desfase de tono puede escalarse con respecto a la tasa de muestreo de salida fs y convertirse en partes enteras y fraccionarias usando

donde fs es la tasa de muestreo.

[0135] Los coeficientes de filtro cnum(k) y cden(k, p j se pueden calcular de la siguiente manera

cnum(k) = 0.85 * gain jtpf * tabjtpf_num_fs[gainJnd] [k] para k = 0.. L _{n u m}

_ _ _ parak = 0.. Ld_en

siendo

y gain_ltpf y gain_ind se pueden obtener según

y las tablas tab_tpf_num_fs[gain_ind][k] y tab_ltpf_den_fs[pfr][k] están predeterminadas.

[0136] En esta invención se proporcionan ejemplos de tab_ltpf_num_fs[gain_ind][k] (en lugar de "fs", se indica la tasa de muestreo):

,424146237314458e-03,-3,172679890356356e-03,-},

,441167412482088e-03,-2,726705509251737e-03,-},

,457102447664837e-03,-2,297324511109085e-03,-},

,472065631098081e-03,-1,883081472613493e-03,-

}};_______________________

[0137] En esta invención se proporcionan ejemplos de tab_ltpf_den_fs[pfr][k] (en lugar de "fs", se indica la tasa de muestreo):

},

, 7,041404930459358e-03, 2,819702319820420e-02, 6,547044935127551e-02, , 1,548418956489015e-01, 1,767122381341857e-01, 1,691507213057663e-01, , 8,851425011427483e-02, 4,499353848562444e-02, 1,557613714732002e-02, },

, 4,146998467444788e-03, 2,135757310741917e-02, 5,482735584552816e-02, , 1,456060342830002e-01, 1,738439838565869e-01, 1,738439838565869e-01, , 1,004971444643720e-01, 5,482735584552816e-02, 2,135757310741917e-02, },

, 2,039721956502016e-03, 1,557613714732002e-02, 4,499353848562444e-02, , 1,352901577989766e-01, 1,691507213057663e-01, 1,767122381341857e-01, , 1,124647986743299e-01, 6,547044935127551e-02, 2,819702319820420e-02,

}}

[0138] Con referencia al manejo de la transición, se consideran cinco casos diferentes.

[0139] Primer caso: ltpf_active = 0 y mem_ltpf_active = 0

[0140] Segundo caso: ltpf_active = 1 y mem_ltpf_active = 0

para

Np

n * ° " f

[0141] Tercer caso: ltpf_active = 0 y mem_ ltpf_active = 1

Lnum ^den

Jden cn u m (k )x ( ll k ) y cden(kr P fr)x ltp f ( n Pint

4 k=0 k=0

NF

p a ra n = 0.. —

4

r mm „mem mem „mem

siendo Lnum , Lden _ Pint y Pfr son los parámetros de filtro calculados en el cuadro previo.

n _ nmem D _ «mem

[0142] Cuarto caso: ltpf active = 1 y mem ltpf active = 1 y Pint Pint y Ffr Ffr pfr

para

NF

n = 0..-í-

4

^{n dt nmem ab nmem}[0143] Quinto caso: ltpf_active = 1 y mem_ltpf_active = 1 y (Pint ^ Pint o P'r Pfr )

para

n Nf

n = 0" T

para

siendo Nf el número de muestras en un cuadro.

7.4 Ventajas adicionales

[0144] Como se puede entender, la solución según los ejemplos anteriores es transparente para el decodificador. No es necesario indicar al decodificador, por ejemplo, que se ha seleccionado la primera o la segunda estimación.

[0145] Por consiguiente, no hay aumento de la carga útil en el flujo de bits 63.

[0146] Además, no hay necesidad de modificar los decodificadores para adaptarse al nuevo procesamiento realizado en el codificador. El decodificador no necesita saber que la presente invención se ha implementado. Por lo tanto, la invención permite aumentar la compatibilidad con los sistemas heredados.

8. Ocultamiento de paquete perdido

[0147] El desfase de tono Tmejor (19) obtenido por el aparato 10, 60a o 110 anterior puede usarse en el decodificador (por ejemplo, 60b) para implementar un ocultamiento de pérdida de paquete (PLC) (también conocido como ocultamiento de error). El PLC se utiliza en los códecs de audio para ocultar paquetes perdidos o dañados durante la transmisión del codificador al decodificador. En la técnica anterior, el PLC se puede realizar en el lado decodificador y extrapolar la señal decodificada en el dominio de transformada o en el dominio de tiempo.

[0148] El desfase de tono puede ser el principal parámetro utilizado en el PLC basado en tono. Este parámetro puede estimarse en el lado codificador y codificarse en el flujo de bits. En este caso, el desfase de tono de los últimos cuadros buenos se usa para ocultar el cuadro perdido actual.

[0149] Un cuadro dañado no proporciona una salida audible correcta y debe descartarse.

[0150] Para cada cuadro decodificado en el decodificador, su validez puede ser verificada. Por ejemplo, cada cuadro puede tener un campo que lleva un código de redundancia cíclica (CRC) que se verifica realizando operaciones predeterminadas proporcionadas por un algoritmo predeterminado. El procedimiento puede repetirse para verificar si el resultado calculado corresponde al valor en el campo de CRC. Si un cuadro no se ha decodificado correctamente (por ejemplo, en vista de una interferencia en la transmisión), se supone que algunos errores han afectado al cuadro. Por lo tanto, si la verificación proporciona un resultado de decodificación incorrecta, el cuadro se considera no adecuadamente decodificado (no válido, dañado).

[0151] Cuando se reconoce que un cuadro no está decodificado correctamente, se puede usar una estrategia de ocultamiento para proporcionar una salida audible: de lo contrario, se podría escuchar algo así como un agujero audible molesto. Por lo tanto, es necesario encontrar algún tipo de cuadro que "llene el agujero" que se mantiene abierto por el cuadro no decodificado correctamente. El propósito del procedimiento de ocultamiento de pérdida de cuadro es ocultar el efecto de cualquier cuadro no disponible o dañado para la decodificación.

8.1 Estrategias de ocultamiento

[0152] Un procedimiento de ocultamiento de pérdida de cuadro puede comprender procedimientos de ocultamiento para los diversos tipos de señales. El mejor rendimiento de códec posible en situaciones propensas a errores con pérdida de cuadros puede obtenerse seleccionando el procedimiento más adecuado. Uno de los procedimientos de ocultamiento de pérdida de paquetes puede ser, por ejemplo, el Ocultamiento de Dominio de Tiempo TCX.

8.2 Ocultamiento de dominio de tiempo TCX

[0153] El procedimiento de Ocultamiento de Dominio de Tiempo TCX es una técnica de PLC basada en el tono que opera en el dominio del tiempo. Es más adecuado para señales con una estructura armónica dominante. Un ejemplo del procedimiento es el siguiente: la señal sintetizada de los últimos cuadros decodificados se filtra inversamente con el filtro LP como se describe en la Sección 8.2.1 para obtener la señal periódica como se describe en la Sección 8.2.2. La señal aleatoria es generada por un generador aleatorio con una distribución aproximadamente uniforme en la Sección 8.2.3. Las dos señales de excitación se resumen para formar la señal de excitación total como se describe en la Sección 8.2.4, que se desvanece de forma adaptativa con el factor de atenuación descrito en la Sección 8.2.6 y finalmente se filtra con el filtro LP para obtener la señal de tiempo oculta sintetizada. Si se ha usado el LTPF en el último cuadro bueno, el LTPF también se puede aplicar a la señal de tiempo oculta sintetizada como se describe en la Sección 8.3. Para obtener una superposición adecuada con el primer cuadro bueno después de un cuadro perdido, la señal de cancelación del alias del dominio de tiempo se genera en la Sección 8.2.5.

8.2.1 Cálculo parámetros de LPC

[0154] El procedimiento de Ocultamiento de Dominio de Tiempo TCX opera en el dominio de excitación. Una función de autocorrelación puede calcularse en 80 bandas de dominio de frecuencia equidistantes. La energía se preenfatiza con el factor de énfasis previa fijo ^j

[0155] La función de autocorrelación se desfasa en ventana usando la siguiente ventana

para i = 1... 16

antes de que se transforme en dominio de tiempo utilizando una DFT inversa apilada uniformemente. Finalmente, se puede usar una operación de Levinson Durbin para obtener el filtro LP, ac(k), para el cuadro oculto. A continuación se proporciona un ejemplo:

[0156] El filtro LP se puede calcular solo en el primer cuadro perdido después de un cuadro bueno y permanece en los marcos perdidos posteriormente.

8.2.2 Construcción de la parte periódica de la excitación

[0157] Las últimas muestras de tiempo decodificadas primero se preenfatizan con el factor de énfasis previa de la Sección 8.2.1 usando el filtro

para obtener la señal xpre(k), donde Tc es el valor de desfase de tono pitch-int o pitch-int 1 si pitch_fr > 0. Los valores pitch-int y pitch_fr son los valores de desfase de tono transmitidos en el flujo de bits.

[0158] La señal preenfatizada, xpre(k), se filtra adicionalmente con el filtro LP inverso calculado para obtener la señal de excitación previa excp(k). Para construir la señal de excitación, excp(k), para el cuadro perdido actual, excp(k) se copia repetidamente con Tc de la siguiente manera

exCp (k) = exCp(E — Tc k), para k = O ... N — 1

donde E corresponde a la última muestra en excp(k). Si el factor de estabilidad 0 es menor de 1, el ciclo del primer _{tono de p}n_vo _j _{es primero filtrado con paso bajo con un filtro FIR de fase lineal de 11 toques (respuesta de}impulso finito) descrito en la tabla a continuación

[0159] La ganancia de tono, ®P, se puede calcular de la siguiente manera

[0160] Si pitch_fr = 0 entonces ®p. De lo contrario, una segunda ganancia de tono, ^P, se puede calcular de la siguiente manera

Y gp — max(gp,gp) g¡ gp > gp entonces j c se reduce en uno para el procesamiento posterior.

[0161] Finalmente, gp se restringe por 0 < gp < 1.

[0162] La excitación periódica formada, excp(k), se atenúa muestra por muestra en todo el cuadro, comenzando con uno y finalizando con un factor de atenuación, a, para obtener ^0xcr~p^{~ n o}.La ganancia de tono se calcula solo en el primer cuadro perdido después de un cuadro bueno y se establece en a para las demás pérdidas de cuadro consecutivas.

8.2.3 Construcción de la parte aleatoria de la excitación

[0163] La parte aleatoria de la excitación se puede generar con un generador aleatorio con una distribución aproximadamente uniforme, de la siguiente manera

excnpe(k) = extract(excnFB(k — 1) ■ 12821 16831), para k = 0...N — 1

donde excn,FB(-1) se inicia con 24607 para el primer cuadro oculto con este procedimiento y extract() extrae el 16 LSB del valor. Para cuadros adicionales, excn,FB(N - 1) se almacena y se usa como siguiente excn,FB(-1).

[0164] Para desplazar el ruido más hacia mayores frecuencias, la señal de excitación se filtra con paso alto con un filtro FIR de fase lineal de 11 toques descrito en la siguiente tabla para obtener excn,Hp(k).

[0165] Para asegurar que el ruido se desvanezca hasta un ruido de banda completa con la velocidad de desvanecimiento dependiente del factor de atenuación a, la parte aleatoria de la excitación, excn(k), se compone a través de una interpolación lineal entre la banda completa, excn,FB(k), y la versión filtrada con paso alto, excn,HP(k), como

excT

exc

para k = 0 ... N — 1

donde p = 1 para el primer cuadro perdido después de un cuadro bueno y

para la segunda y las demás pérdidas de cuadros consecutivos, donde P-i es p del cuadro oculto previo.

[0166] Para ajustar el nivel de ruido, la ganancia de ruido, £n, se calcula como

[0167] Si Tc = pitchjnt después de la Sección 8.2.2, entonces

De lo contrario, se calcula una segunda ganancia de ruido, como en la ecuación anterior, pero siendo Tc pitch_int. A continuación, gn = mín(gn.gn).

[0168] Para el ulterior procesamiento, gn primero se normaliza y a continuación se multiplica por (1,1 - 0,75gp) para obtener

.

[0169] La excitación aleatoria formada, excn(k), se atenúa uniformemente con ®n desde la primera muestra hasta la muestra cinco, y a continuación muestra por muestra en todo el cuadro, comenzando con §n y terminando con ^ para obtener excn 00. La ganancia de ruido, gn, se calcula solo en el primer cuadro perdido después de un cuadro bueno y se establece en gn • a para las demás pérdidas de cuadro consecutivas.

8.2.4 Construcción de la excitación total, síntesis y posprocesamiento

[0170] La excitación aleatoria, excn00 se suma a la excitación periódica, e x c P para formar la señal de excitación total exct(k). La señal sintetizada final para el cuadro oculto se obtiene filtrando la excitación total con el filtro LP de la Sección 8.2.1 y se posprocesa con el filtro de reducción de énfasis.

8.2.5 Dominio de tiempo alias cancelación

[0171] Para obtener una adecuada suma de superposición en caso de que el siguiente cuadro sea bueno, se puede generar la parte de dominio de tiempo alias cancelación, xTDAc(k). Para ello, se crean muestras adicionales N - Z como se ha descrito anteriormente para obtener la señal x(k) para k = 0... 2N - Z. En ello, se crea la parte de dominio de tiempo alias cancelación a través de las siguientes etapas:

Llenado a cero del búfer de dominio de tiempo sintetizado x(k)

_ ( 0, 0 < k < Z

® (x(k -Z ) , Z < k < 2N

[0172] Ventana x(k) con la ventana MDCT WN(k)

[0173] Remodelado de 2N a N

[0174] Remodelado de N a 2N

[0175] Ventana y(k) con la ventana invertida MDCT (Transformación de Coseno Discreta Modificada) (o MDST, Transformación de Seno Discreta Modificada, en otros ejemplos), wN(k)

xTMc M = wN(2N-1-k)-y(k), 0 < k < 2N

8.2.6 Manejo de múltiples pérdidas de cuadro

[0176] La señal construida se desvanece a cero. La velocidad de desvanecimiento es controlada por un factor de atenuación, a, que depende del factor de atenuación previo, a-i, la ganancia de tono, gp, calculada en el último cuadro correctamente recibido, el número de cuadros borrados consecutivos, nbLostCmpt, y la estabilidad, 0. Se puede usar el siguiente procedimiento para calcular el factor de atenuación, a

[0177] El factor 0 (estabilidad de los últimos dos vectores del factor de escala adyacentes scf^-2 (k) y scf-i(k)) se puede obtener, por ejemplo, como:

donde scf^-2 (k) y scf-i(k) son los vectores del factor de escala de los últimos dos cuadros adyacentes. El factor Q está limitado por 0 < Q < 1, correspondiendo los valores más grandes de Q a señales más estables. Esto limita la energía y las fluctuaciones de envolvente espectral. Si no hay dos vectores de factor de escala adyacentes presentes, el factor Q se establece en 0,8.

[0178] Para evitar un rápido aumento de alta energía, el espectro se filtra con paso bajo con X ^s (0) = X ^s (0) • 0,2 y X ^s (1) = X ^s (1) • 0,5.

9. LTPF y PLC con la misma información de desfase de tono

[0179] La figura 9 muestra un ejemplo general de un procedimiento 100' que puede usarse para operar el decodificador 60b. En la etapa S101', puede decodificarse una versión codificada de una señal. En los ejemplos, el cuadro puede recibirse (por ejemplo, a través de una conexión Bluetooth) y/u obtenerse desde una unidad de almacenamiento. El desfase de tono Tmejor (seleccionado entre T¹y T²como se ha analizado anteriormente) puede usarse tanto para PLC como para LTPF.

[0180] En la etapa S102', se comprueba la validez del cuadro (por ejemplo, con CRC, paridad, etc.). Si se confirma la invalidez del cuadro, se realiza el ocultamiento (véase a continuación). De lo contrario, si el cuadro es válido, en la etapa S103' se verifica si la información de tono está codificada en el cuadro. En algunos ejemplos, la información de tono se codifica solo si se reconoce que la armonicidad está por encima de un umbral particular (lo que puede indicar, por ejemplo, una armonicidad suficientemente alta para realizar LTPF y/o PLC, por ejemplo).

[0181] Si en S103' se confirma que la información de tono está realmente codificada, entonces la información de tono se decodifica y almacena en la etapa S104'. De lo contrario, el ciclo termina y se puede decodificar un nuevo cuadro en S101'.

[0182] Posteriormente, en la etapa S105', se comprueba si el LTPF está habilitado. Si se verifica que el LTPF está habilitado, entonces el LTPF se realiza en la etapa S106. De lo contrario, se omite el LTPF; el ciclo termina, y se puede decodificar un nuevo cuadro en S101'.

[0183] Con referencia al ocultamiento, este último puede subdividirse en etapas. En la etapa S107', se verifica si la información de tono del cuadro previo (o la información de tono de uno de los cuadros previos) está almacenada en la memoria (es decir, está a disposición).

[0184] Si se verifica que la información de tono buscada está almacenada, entonces se puede realizar un ocultamiento de errores en la etapa S108. Se puede realizar la repetición de la resolución de cuadro MDCT (o MDST) con aleatorización de señal, y/o ocultamiento en dominio de tiempo TCX, y/o ECU de fase. De lo contrario, si en S107' se verifica que no hay información de tono reciente almacenada (como consecuencia de que el decodificador no ha transmitido el desfase de tono, por ejemplo), en la etapa S109' se puede usar una técnica de ocultamiento diferente, conocida per se y que no implica el uso de una información de tono proporcionada por el codificador. Algunas de estas técnicas pueden basarse en la estimación de la información de tono y/u otra información de armonicidad en el decodificador. En algunos ejemplos, no se puede realizar una técnica de ocultamiento en este caso. Después de haber realizado el ocultamiento, el ciclo finaliza y se puede decodificar un nuevo cuadro en S101'.

[0185] Debe observarse que el desfase de tono usado por el PLC es el valor 19 (tmejor) preparado por el aparato 10 y/o 60b, sobre la base de la selección entre las estimaciones T¹y T², como se ha analizado anteriormente.

10. Otros ejemplos

[0186] La figura 7 muestra un aparato 110 que puede implementar el aparato 10 y/o 60a para realizar al menos algunas etapas de los procedimientos anteriores. El aparato 110 comprende un procesador 111 y una unidad de memoria no transitoria 112 que almacena instrucciones (por ejemplo, un programa) que, cuando se ejecutan por el procesador 111, pueden hacer que el procesador 111 realice una primera estimación 112a (por ejemplo, tal como para implementar el primer estimador 11), una segunda estimación 112b (por ejemplo, tal como para implementar el segundo estimador 12) y/o una selección 112c (por ejemplo, tal como para implementar el selector 18). El aparato 110 puede comprender una unidad de entrada 116, que puede obtener una señal de información de entrada (por ejemplo, una señal de audio). El aparato puede almacenar un flujo de bits, por ejemplo, en el espacio de almacenamiento 128.

[0187] La figura 8 muestra un aparato 120 que puede implementar el decodificador 60b y/o realizar un filtrado LTPF, por ejemplo. El aparato 120 puede comprender un procesador 121 y una unidad de memoria no transitoria 122 que almacena instrucciones 122a (por ejemplo, un programa) que, cuando se ejecutan por el procesador 121, pueden hacer que el procesador 121 realice, entre otras cosas, una operación de filtrado LTPF, por ejemplo, sobre la base de un parámetro obtenido del codificador. El aparato 120 puede comprender una unidad de entrada 126, que puede obtener una representación decodificada de una señal de información (por ejemplo, una señal de audio). Por lo tanto, el procesador 121 puede realizar procesos para obtener una representación decodificada de la señal de información. Esta representación decodificada se puede proporcionar a unidades externas usando una unidad de salida 127. La unidad de salida 127 puede comprender, por ejemplo, una unidad de comunicación para comunicarse con dispositivos externos (por ejemplo, usando una comunicación inalámbrica, tal como Bluetooth) y/o espacios de almacenamiento externo. El procesador 121 puede guardar la representación decodificada de la señal de audio en un espacio de almacenamiento local 128.

[0188] En los ejemplos, los sistemas 110 y 120 pueden ser el mismo dispositivo.

[0189] Dependiendo de determinados requisitos de implementación, los ejemplos pueden implementarse en hardware. La implementación se puede realizar usando un medio de almacenamiento digital, por ejemplo, un disquete, un disco versátil digital (DVD), un disco Blu-Ray, un disco compacto (CD), una memoria de solo lectura (ROM), una memoria de solo lectura programable (PROM), una

[0190] memoria de solo lectura borrable y programable (EPROM), una memoria de solo lectura eléctricamente borrable y programable (EEPROM) o una memoria flash, con señales de control legibles electrónicamente almacenadas en los mismos, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal modo que se realice el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.

[0191] Generalmente, los ejemplos pueden implementarse como un producto de programa informático con instrucciones de programa, siendo las instrucciones de programa operativas para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. Las instrucciones de programa pueden, por ejemplo, almacenarse en un medio legible por máquina.

[0192] Otros ejemplos comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina. En otras palabras, un ejemplo de procedimiento es, por lo tanto, un programa informático que tiene instrucciones de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador. Un ejemplo adicional de los procedimientos es, por lo tanto, un medio de soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El medio de soporte de datos, el medio de almacenamiento digital o el medio grabado son tangibles y/o no transitorios, en lugar de señales que son intangibles y transitorias.

[0193] Un ejemplo adicional comprende una unidad de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable que realiza uno de los procedimientos descritos en esta invención.

[0194] Un ejemplo adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los procedimientos descritos en esta invención.

[0195] Un ejemplo adicional comprende un aparato o un sistema que transfiere (por ejemplo, electrónica u ópticamente) un programa informático para realizar uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.

[0196] En algunos ejemplos, se puede usar un dispositivo lógico programable (por ejemplo, una matriz de compuertas programables en el campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunos ejemplos, una matriz de compuertas programables en el campo puede cooperar con un microprocesador para realizar uno de los procedimientos descritos en esta invención. Generalmente, los procedimientos pueden realizarse por cualquier aparato de hardware apropiado.

[0197] Los ejemplos descritos anteriormente son ilustrativos de los principios analizados anteriormente. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles que se describen en esta invención serán evidentes. Por lo tanto, la intención es que la invención esté limitada por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados a modo de descripción y explicación de los ejemplos de esta invención.

Claims

REIVINDICACIONES

1. Un aparato (10, 60a, 110) para codificar una señal de audio que incluye una pluralidad de cuadros, comprendiendo el aparato:

un primer estimador (11) configurado para obtener una primera estimación (14, T¹), siendo la primera estimación una estimación de un desfase de tono para un cuadro actual (13), donde la primera estimación (14) se obtiene como el desfase (T¹) que maximiza una primera función de correlación asociada al cuadro actual (13);

un segundo estimador (12) configurado para obtener una segunda estimación (16, T²), siendo la segunda estimación otra estimación de un desfase de tono para el cuadro actual (13), donde el segundo estimador (12) está condicionado por el desfase de tono (51, 19'') seleccionado para el cuadro previo para obtener la segunda estimación (16, T²) para el cuadro actual (13), donde el segundo estimador (12) está configurado para obtener la segunda estimación (16, T²) buscando el desfase que maximiza una segunda función de correlación en un segundo subintervalo (52) que contiene el desfase de tono (51, 19") seleccionado para el cuadro previo, un selector (17) configurado para elegir (S103) un valor seleccionado (19, Tmejor) realizando una selección entre la primera estimación (14, T¹) y la segunda estimación (16, T²) sobre la base de una primera y una segunda mediciones de correlación (23, 25), donde el selector (17) está configurado para realizar una comparación entre: una versión a escala reducida (24) de una primera medición de autocorrelación normalizada (23) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la primera estimación (14, T¹); y

una segunda medición de autocorrelación normalizada (25) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la segunda estimación (16, T²),

para seleccionar la primera estimación (14, T¹) cuando la segunda medición de autocorrelación normalizada (25) es menor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23), y/o para seleccionar la segunda estimación (16, T²) cuando la segunda medición de autocorrelación normalizada (25) es mayor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23).

2. El aparato (60a) de la reivindicación 1, que comprende además:

una unidad de detección (10, 65) que comprende el primer estimador, el segundo estimador y el selector (17); y una herramienta de posfiltrado a largo plazo, LTPF, (66) configurada para codificar datos útiles para realizar el LTPF en un decodificador (60b), incluyendo los datos útiles para realizar el LTPF el valor seleccionado (19, Tmejor).

3. El aparato de la reivindicación 1, que comprende además, aguas abajo hacia el selector (17), una herramienta de posfiltrado a largo plazo, LTPF, (66) para controlar un posfiltro a largo plazo (67) en un aparato decodificador (60b).

4. El aparato de cualquiera de las reivindicaciones anteriores, configurado para comparar la armonía del valor seleccionado (19, Tmejor) con un umbral de posfiltrado a largo plazo, LTPF, predeterminado, para evitar codificar el valor seleccionado (19, Tmejor) en caso de que la armonicidad del valor seleccionado (19, Tmejor) esté por debajo del umbral predeterminado.

5. El aparato de cualquiera de las reivindicaciones anteriores, donde:

el segundo subintervalo (52) contiene desfases (T) dentro de una distancia menor que un umbral de número de desfases predefinido desde el desfase de tono (51, 19'') seleccionado para el cuadro previo.

6. El aparato de cualquiera de las reivindicaciones anteriores, donde el segundo estimador (12) está configurado para:

buscar un valor máximo entre los valores de la segunda función de correlación para asociar la segunda estimación (16) con el desfase (T²) asociado al valor máximo entre los valores de la segunda función de correlación.

7. El aparato de cualquiera de las reivindicaciones anteriores, donde la primera función de correlación está restringida a desfases en un primer subintervalo.

8. El aparato de la reivindicación 7, donde el primer subintervalo contiene un número de desfases mayor que el segundo subintervalo (52), y/o al menos algunos de los desfases en el segundo subintervalo (52) están comprendidos en el primer subintervalo.

9. El aparato de cualquiera de las reivindicaciones anteriores, donde el primer estimador (11) está configurado para:

ponderar los valores de medición de correlación de la primera función de correlación usando una función de ponderación monótonamente decreciente antes de buscar el desfase (T¹) que maximiza la primera función de correlación.

10. El aparato de cualquiera de las reivindicaciones anteriores, donde el primer estimador (11) está configurado para obtener la primera estimación T realizando al menos algunas de las siguientes operaciones:

Ti - argmáx Rw (k)

k=km{ri"’kmáx

n= O

siendo w(k) una función de ponderación, estando

siendo R un valor de medición de autocorrelación estimado sobre la base de la señal de audio o una versión procesada de la misma, y siendo N la longitud de cuadro, siendo x la señal de audio.

11. El aparato de cualquiera de las reivindicaciones anteriores, donde el segundo estimador (12) está configurado para obtener la segunda estimación T²mediante la realización de:

T2 = argmáx R(k)

k = kmín—tcTnix

siendo ^mín máx(fcml'n, Tprev S) km¿x Iluuk,vmá^' lprev ^ UJ t siendo Tprev la estimación seleccionada en el cuadro anterior, siendo 5 una distancia desde Tprev, estando

desfase máximo, siendo R un valor de medición de autocorrelación estimado sobre la base de la señal de audio o una versión procesada de la misma.

12. El aparato de cualquiera de las reivindicaciones anteriores, donde selector (17) está configurado para realizar una selección de la estimación de desfase de tono Tcurr en términos de

Tl s i n o rm co rr (x,N, 7^} < « n o m c o r r (^jc, N, J1I )

T curr T2 de l o c o n t r a r io

siendo T¹la primera estimación, siendo T²la segunda estimación, siendo x un valor de la señal de audio o una versión procesada de la misma, siendo normcorr(x, N,T) la medición de correlación normalizada de la señal x de longitud N en el desfase T, siendo a un coeficiente de reducción de escala.

13. El aparato de cualquiera de las reivindicaciones anteriores, configurado para obtener la primera y la segunda medición de autocorrelación normalizada usando la misma función de correlación hasta una función de ponderación.

14. El aparato de cualquiera de las reivindicaciones anteriores, configurado para obtener la primera medición de autocorrelación normalizada como la versión normalizada de la primera estimación hasta una función de ponderación.

15. El aparato de cualquiera de las reivindicaciones anteriores, configurado para obtener la segunda medición de autocorrelación normalizada como la versión normalizada de la segunda estimación.

16. El aparato de cualquiera de las reivindicaciones anteriores, que comprende además un codificador de transformada (62) configurado para generar una representación (63a) de la señal de información (61) o una versión procesada de la misma.

17. Un sistema (60) que comprende un lado codificador (10, 60a) y un lado decodificador (60b), comprendiendo el lado codificador el aparato según cualquiera de las reivindicaciones anteriores, comprendiendo el lado decodificador una herramienta de posfiltrado a largo plazo (67) controlada sobre la base de la estimación del desfase de tono seleccionado por el selector (17).

18. Un procedimiento (100) para determinar un desfase de tono para una señal dividida en cuadros, que comprende:

realizar una primera estimación para un cuadro actual (S101) para obtener una primera estimación (14) como el desfase (T¹) que maximiza una primera función de correlación asociada al cuadro actual (13);

realizar una segunda estimación para el cuadro actual (S102) obtenida buscando el desfase (T²) que maximiza una segunda función de correlación en un segundo subintervalo (52) que contiene el desfase de tono (51, 19'') seleccionado para el cuadro previo, donde realizar la segunda estimación se obtiene sobre la base del resultado de una etapa de selección realizada en el cuadro previo; y

seleccionar entre la primera estimación (14, T¹) obtenida en la primera estimación y la segunda estimación (16, T²) obtenida en la segunda estimación sobre la base de una primera y una segunda medición de autocorrelación normalizada (S103),

donde la selección incluye realizar una comparación entre:

una versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la primera estimación (14, T¹);

la segunda medición de autocorrelación normalizada (25), asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la segunda estimación (16, T²); y

seleccionar la primera estimación (14, T¹) cuando la segunda medición de autocorrelación normalizada (25) es menor que la versión a escala reducida de la primera medición de autocorrelación normalizada (23), y/o seleccionar la segunda estimación (16, T²) cuando la segunda medición de autocorrelación normalizada (25) es mayor que la versión a escala reducida de la primera medición de autocorrelación normalizada (23).

19. El procedimiento de la reivindicación 18, que comprende además usar el desfase seleccionado para el posfiltrado a largo plazo, LTPF.

20. Un procedimiento (100) para codificar un flujo de bits para una señal dividida en cuadros, que comprende:

realizar el procedimiento de las reivindicaciones 18 o 19; y

codificar datos útiles para realizar el posfiltrado a largo plazo, LTPF, en el decodificador (60b), incluyendo los datos útiles para realizar el LTPF el valor seleccionado (19, Tmejor).

21. El procedimiento de cualquiera de las reivindicaciones 18-20, que comprende además usar el desfase seleccionado para el ocultamiento de paquetes perdidos, PLC.

22. Un programa que comprende instrucciones que, cuando se ejecutan por un procesador (111), hacen que el procesador realice un procedimiento según cualquiera de las reivindicaciones 18-21.