ES2900058T3 - Selección de desfase de tono - Google Patents

Selección de desfase de tono Download PDF

Info

Publication number
ES2900058T3
ES2900058T3 ES18795669T ES18795669T ES2900058T3 ES 2900058 T3 ES2900058 T3 ES 2900058T3 ES 18795669 T ES18795669 T ES 18795669T ES 18795669 T ES18795669 T ES 18795669T ES 2900058 T3 ES2900058 T3 ES 2900058T3
Authority
ES
Spain
Prior art keywords
estimate
offset
pitch
frame
ltpf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18795669T
Other languages
English (en)
Inventor
Emmanuel Ravelli
Martin Dietz
Michael Schnabel
Arthur Tritthart
Alexander Tschekalinskij
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2900058T3 publication Critical patent/ES2900058T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • H03M7/3064Segmenting
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un aparato (10, 60a, 110) para codificar una señal de audio que incluye una pluralidad de cuadros, comprendiendo el aparato: un primer estimador (11) configurado para obtener una primera estimación (14, T1), siendo la primera estimación una estimación de un desfase de tono para un cuadro actual (13), donde la primera estimación (14) se obtiene como el desfase (T1) que maximiza una primera función de correlación asociada al cuadro actual (13); un segundo estimador (12) configurado para obtener una segunda estimación (16, T2), siendo la segunda estimación otra estimación de un desfase de tono para el cuadro actual (13), donde el segundo estimador (12) está condicionado por el desfase de tono (51, 19'') seleccionado para el cuadro previo para obtener la segunda estimación (16, T2) para el cuadro actual (13), donde el segundo estimador (12) está configurado para obtener la segunda estimación (16, T2) buscando el desfase que maximiza una segunda función de correlación en un segundo subintervalo (52) que contiene el desfase de tono (51, 19") seleccionado para el cuadro previo, un selector (17) configurado para elegir (S103) un valor seleccionado (19, Tmejor) realizando una selección entre la primera estimación (14, T1) y la segunda estimación (16, T2) sobre la base de una primera y una segunda mediciones de correlación (23, 25), donde el selector (17) está configurado para realizar una comparación entre: una versión a escala reducida (24) de una primera medición de autocorrelación normalizada (23) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la primera estimación (14, T1); y una segunda medición de autocorrelación normalizada (25) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la segunda estimación (16, T2), para seleccionar la primera estimación (14, T1) cuando la segunda medición de autocorrelación normalizada (25) es menor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23), y/o para seleccionar la segunda estimación (16, T2) cuando la segunda medición de autocorrelación normalizada (25) es mayor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23).

Description

DESCRIPCIÓN
Selección de desfase de tono
[0001] En esta invención se proporcionan ejemplos de procedimientos y aparatos que son capaces de realizar un procedimiento de detección de tono de baja complejidad, por ejemplo, para codificación posfiltrado a largo plazo, LTPF.
[0002] Por ejemplo, los ejemplos son capaces de seleccionar un desfase de tono para una señal de información, por ejemplo, una señal de audio, por ejemplo, para realizar LTPF.
1.1. Antecedentes
[0003] Los códecs de audio basados en transformadas generalmente introducen ruido interarmónico cuando se procesan señales de audio armónicas, particularmente a bajo retardo y baja tasa de bits. Este ruido interarmónico generalmente se percibe como un artefacto muy molesto, que reduce significativamente el rendimiento del códec de audio basado en transformadas cuando se evalúa subjetivamente en material de audio altamente tonal.
[0004] El posfiltrado a largo plazo (LTPF, por sus siglas en inglés) es una herramienta para la codificación de audio basada en transformadas que ayuda a reducir este ruido interarmónico. Se basa en un posfiltro que se aplica a la señal de dominio de tiempo después de la decodificación por transformada. Este posfiltro es esencialmente un filtro de respuesta de impulso infinito (IIR, por sus siglas en inglés) con una respuesta de frecuencia tipo peine controlada por dos parámetros: un desfase de tono y una ganancia.
[0005] Para una mayor robustez, los parámetros posfiltro (un desfase de tono y/o una ganancia por cuadro) se estiman en el lado del codificador y se codifican en un flujo de bits cuando la ganancia es distinta de cero. El caso de la ganancia cero está marcado con un bit y corresponde a un posfiltro inactivo, usado cuando la señal no contiene una parte armónica.
[0006] El LTPF se introdujo por primera vez en el estándar 3GPP EVS [1] y posteriormente se integró en el estándar de audio 3D MPEG-H [2]. Las patentes correspondientes son [3] y [4].
[0007] Un algoritmo de detección de tono estima un desfase de tono por cuadro. Normalmente se realiza a una velocidad de muestreo baja (por ejemplo, 6,4 kHz) para reducir la complejidad. Idealmente debería proporcionar una estimación precisa, estable y continua.
[0008] Cuando se usa para la codificación LTPF, es muy importante tener un contorno de tono continuo; de lo contrario se podrían escuchar algunos artefactos de inestabilidad en la señal de salida filtrada de LTPF. No tener una frecuencia fundamental verdadera F0 (por ejemplo, al tener un múltiplo de esta) es de menor importancia, ya que no produce artefactos graves, sino que produce una leve degradación del rendimiento de LTPF.
[0009] Otra característica importante de un algoritmo de detección de tono es su complejidad computacional. Cuando se implementa en un códec de audio dirigido a dispositivos de baja potencia o incluso a dispositivos de potencia ultra baja, su complejidad computacional debe ser lo más baja posible.
1.2. Técnica anterior
[0010] "5 Functional description of the encoder", estándar 3GPP; 26445-C10_1_S05_S0501, Proyecto de asociación de 3a generación (3GPP, por sus siglas en inglés), Mobile Competence Centre; 650, Route Des Lucioles; F-06921 Sophia-Antipolis Cedex; Francia, 10 de diciembre de 2014 describe una técnica para obtener una primera y segunda estimaciones de un desfase de tono para un cuadro actual usando la maximización de una función/medición de correlación normalizada. Para ello, la autocorrelación está condicionada por el desfase de tono seleccionado en el cuadro previo. A continuación, estas estimaciones de desfase de tono se comparan para seleccionar un desfase de tono final para el cuadro actual. El documento de la técnica anterior no describe el complemento/selección a realizar sobre la base de una versión a escala reducida de una (primera) medición de autocorrelación normalizada y una (segunda) medición de autocorrelación normalizada.
[0011] Se aplican consideraciones similares a los documentos US 6 018 706 A, US 2016/027450 A1 y US 2017/140769 A1, donde se determina un desfase de tono a partir de diferentes estimaciones/candidatos donde se busca una estimación en un intervalo que depende del valor de tono de un cuadro previo. La función usada (y el máximo buscado) para determinar las estimaciones en los documentos US 6018706 A, US 2016/027450 A1 y US 2017/140769 A1, es una función de autocorrelación normalizada, pero no se menciona una versión a escala reducida de la misma en ninguno de los documentos US 6018706 A, US 2016/027450 A1 y US 2017/140769 A1.
[0012] En el documento US 6507814 B1, se determinan cuatro candidatos de desfase de tono y el desfase de tono final se selecciona sobre la base de una correlación normalizada donde se puede aplicar una ponderación de la correlación. Sin embargo, el documento US 6507814 B1 no describe la búsqueda del desfase que maximiza una segunda función de correlación en un segundo subintervalo que contiene el desfase de tono seleccionado para el cuadro previo.
[0013] El documento US 5 819 209 A y Qjala P et al: "A novel pitch-lag search method using adaptive weighting and median filtering", Speech Coding Proceedings, 1999 IEEE Workshop on Porvoo, Finlandia, 20-23 de junio de 1999, Piscataway, NJ, Ee .UU., IEEE, US 20 de junio de 1999 pertenecen a la técnica anterior. Estos documentos analizan la ponderación de los valores autocorrelativos y la determinación del período de tono mediante la detección del valor máximo, pero no se describe una determinación separada de una primera y una segunda estimaciones del desfase de tono antes de la selección del mismo.
[0014] Existe un ejemplo de un codificador LTPF que se puede encontrar en el dominio público. Se describe en el estándar 3GPP EVS [1]. Esta implementación usa un algoritmo de detección de tono descrito en la Sección 5.1.10 de las especificaciones del estándar. Este algoritmo de detección de tono tiene un buen rendimiento y funciona bien con LTPF porque proporciona un contorno de tono muy estable y continuo. Sin embargo, su principal inconveniente es su complejidad relativamente alta.
[0015] A pesar de que nunca se usaron para la codificación LTPF, en teoría se podrían usar otros algoritmos de detección de tono existentes para LTPF. Un ejemplo es YIN [6], un algoritmo de detección de tono reconocido a menudo como uno de los más precisos. Sin embargo, YIN es muy complejo, incluso mucho más que el de [1].
[0016] Otro ejemplo que vale la pena mencionar es el algoritmo de detección de tono utilizado en el estándar 3GPP AMR-WB [7], que tiene una complejidad significativamente menor que la de [1], pero también un peor rendimiento; particularmente proporciona un contorno de tono menos estable y continuo.
[0017] La técnica anterior comprende las siguientes divulgaciones:
[1] 3GPP TS 26.445; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[2 ] ISO/IEC 23008-3:2015; Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Parte 3: 3D audio.
[3] Ravelli et al. "Apparatus and method for processing an audio signal using a harmonic post-filter". Solicitud de Patente de EE.UU. N.° 2017/0140769 A1. 18 de mayo de 2017.
[4] Markovic et al. "Harmonicity-dependent controlling of a harmonic filter tool". Solicitud de Patente de EE.UU. N.° 2017/0133029 A1. 11 de mayo de 2017.
[5] ITU-T G.718: Frame error robust narrow-band and wideband embedded variable bitrate coding of speech and audio from 8-32 kbit/s.
[6] De Cheveigné, Alain y Hideki Kawahara. "YIN, a fundamental frequency estimator for speech and music". The Journal of the Acoustical Society of America 111.4 (2002): 1917-1930.
[7] 3GPP TS 26.190; Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions.
[0018] Sin embargo, hay algunos casos en los que se debe mejorar la estimación del desfase de tono. Los actuales algoritmos de detección de tono de baja complejidad (como el de [7]) tienen un rendimiento que no es satisfactorio para LTPF, particularmente para señales complejas, como la música polifónica. El contorno de tono puede ser muy inestable, incluso durante tonos estacionarios. Esto se debe a saltos entre los máximos locales de la función de autocorrelación ponderada.
[0019] Por lo tanto, existe la necesidad de obtener estimaciones de desfase de tono que se adapten mejor a señales complejas, con la misma o menor complejidad que la técnica anterior.
2. Resumen de la invención
[0020] La invención se define por las reivindicaciones independientes.
[0021] Según la invención, se proporciona un aparato para codificar una señal de información que incluye una pluralidad de cuadros, comprendiendo el aparato:
un primer estimador configurado para obtener una primera estimación, siendo la primera estimación una estimación de un desfase de tono para un cuadro actual;
un segundo estimador configurado para obtener una segunda estimación, siendo la segunda estimación otra estimación de un desfase de tono para el cuadro actual,
un selector configurado para elegir un valor seleccionado realizando una selección entre la primera estimación y la segunda estimación sobre la base de una primera y una segunda mediciones de correlación,
donde el segundo estimador está condicionado por el desfase de tono seleccionado en el cuadro previo para obtener la segunda estimación del cuadro actual,
donde el selector está configurado para: realizar una comparación entre:
una versión a escala reducida de una primera medición de correlación asociada al cuadro actual y obtenida en un desfase correspondiente a la primera estimación; y
una segunda medición de correlación asociada al cuadro actual y obtenida en un desfase correspondiente a la segunda estimación,
para seleccionar la primera estimación cuando la segunda medición de correlación es menor que la versión a escala reducida de la primera medición de correlación, y/o
para seleccionar la segunda estimación cuando la segunda medición de correlación es mayor que la versión a escala reducida de la primera medición de correlación,
donde la primera y segunda mediciones de correlación son una medición de autocorrelación normalizada.
[0022] Puede implementarse un codificador de transformada para generar una representación de la señal de información o una versión procesada de la misma.
[0023] Según la invención, el segundo estimador está configurado para:
obtener la segunda estimación buscando el desfase que maximiza una segunda función de correlación en un segundo subintervalo que contiene el desfase de tono seleccionado para el cuadro previo.
[0024] Según los ejemplos, el segundo subintervalo contiene desfases dentro de una distancia menor que un umbral de número de desfase predefinido desde el desfase de tono seleccionado para el cuadro previo.
[0025] Según los ejemplos, el segundo estimador está configurado para:
buscar un valor máximo entre los valores de la segunda función de correlación para asociar la segunda estimación con el desfase asociado al valor máximo entre los valores de la segunda función de correlación.
[0026] Según la invención, el primer estimador está configurado para:
obtener la primera estimación como el desfase que maximiza una primera función de correlación asociada al cuadro actual.
[0027] Según los ejemplos, la primera función de correlación está restringida a desfases en un primer subintervalo.
[0028] Según los ejemplos, el primer subintervalo contiene un número de desfases mayor que el segundo subintervalo, y/o al menos algunos de los desfases en el segundo subintervalo están comprendidos en el primer subintervalo.
[0029] Según los ejemplos, el primer estimador está configurado para:
ponderar los valores de medición de correlación de la primera función de correlación usando una función de ponderación monótonamente decreciente antes de buscar el desfase que maximiza la primera función de correlación.
[0030] La segunda y primera funciones de correlación son una función de autocorrelación normalizada.
[0031] Según los ejemplos, el primer estimador está configurado para obtener la primera estimación Ti realizando al menos algunas de las siguientes operaciones:
Figure imgf000004_0001
siendo w(k) una función de ponderación, estando kmín y kmáx asociados a un desfase mínimo y un desfase máximo, siendo R un valor de medición de autocorrelación estimado sobre la base de la señal de información o una versión procesada de la misma, y siendo N la longitud de cuadro.
[0032] Según los ejemplos, el segundo estimador está configurado para obtener la segunda estimación T2 mediante la realización de:
T2 ~ argmáx R(k)
fe=^ mín-^ Tnáx
siendo T'vrev ~ ^), r^no'x — m n^(^máx>^prev + ^ siendo Tprev la estimación seleccionada en el cuadro anterior, y ó es una distancia desde Tprev, estando
máximo.
[0033] Según los ejemplos, el selector está configurado para realizar una selección de la estimación de desfase de tono en términos de
_ (Ti si normcorrOt, N, T2) < anorm corr(x,N , T i)
m rr j f 2 LJe Ju contrario
siendo T1 la primera estimación, siendo T2 la segunda estimación, siendo x un valor de la señal de información o una versión procesada de la misma, siendo normcorr(x, N, T) la medición de correlación normalizada de la señal x de longitud N en el desfase T, siendo a un coeficiente de reducción de escala.
[0034] Según los ejemplos, se proporciona, aguas abajo del selector, una herramienta de posfiltrado a largo plazo, LTPF, para controlar un posfiltro a largo plazo en un aparato decodificador.
[0035] Según los ejemplos, la señal de información es una señal de audio.
[0036] Según los ejemplos, el aparato está configurado para obtener la primera medición de correlación como una medición de armonía del cuadro actual y la segunda medición de correlación como una medición de armonía del cuadro actual restringido a un subintervalo definido para el cuadro previo.
[0037] El aparato está configurado para obtener la primera y la segunda mediciones de correlación usando la misma función de correlación hasta una función de ponderación.
[0038] Según los ejemplos, el aparato está configurado para obtener la primera medición de correlación como la versión normalizada de la primera estimación hasta una función de ponderación.
[0039] Según los ejemplos, el aparato está configurado para obtener la segunda medición de correlación como la versión normalizada de la segunda estimación.
[0040] Según los ejemplos, se proporciona un sistema que comprende un lado codificador y un lado decodificador, siendo el lado codificador como anteriormente, comprendiendo el lado decodificador una herramienta de posfiltrado a largo plazo controlada sobre la base de la estimación de desfase de tono seleccionada por el selector.
[0041] Según la invención, se proporciona un procedimiento para determinar un desfase de tono para una señal dividida en cuadros según la reivindicación 18.
[0042] Según los ejemplos, el procedimiento puede comprender el uso del desfase seleccionado para el ocultamiento de paquetes perdidos, PLC.
[0043] Según los ejemplos, se proporciona un procedimiento para codificar un flujo de bits según la reivindicación 20.
[0044] Según la invención, se proporciona un programa que comprende instrucciones según la reivindicación 22.
3. Descripción de los dibujos
[0045]
Las figuras 1a y 2 muestran un aparato según los ejemplos.
La figura 1b muestra un procedimiento según un ejemplo.
Las figuras 3 y 4 muestran procedimientos según los ejemplos.
Las figuras 5 y 5(1)-5(4) muestran diagramas de funciones de correlación.
La figura 6 muestra un sistema según la invención.
Las figuras 7 y 8 muestran un aparato según la invención.
La figura 9 muestra un ejemplo de operación en el decodificador.
5. Ejemplos de selecciones y estimaciones
[0046] Se describen ejemplos de procedimientos de detección de tono de baja complejidad, sistemas y aparatos, por ejemplo, para codificación y/o decodificación LTPF.
[0047] Una señal de información, aquí una señal de audio, se puede describir en el dominio del tiempo, TD, como una sucesión de muestras (por ejemplo, x(n)) adquiridas en diferentes instantes de tiempo discretos (n). La representación de TD puede comprender una pluralidad de cuadros, cada uno asociado a una pluralidad de muestras. Los cuadros pueden verse en secuencia uno después del otro, de modo que un cuadro actual está temporalmente antes que un cuadro posterior y está temporalmente después de un cuadro previo. Es posible operar de forma iterativa, por lo que las operaciones realizadas en el cuadro previo se repiten para el cuadro actual.
[0048] Durante una iteración asociada a un cuadro actual, es posible realizar al menos algunas operaciones (por ejemplo, una segunda estimación) que están condicionadas por la selección realizada en la iteración previa asociada al cuadro previo. Por lo tanto, se tiene en cuenta el historial de la señal en el cuadro previo, por ejemplo, para seleccionar el desfase de tono que usará el decodificador para realizar el posfiltrado a largo plazo (LTPF). 5.1 Estructura general y función según los ejemplos
[0049] La figura 1a muestra una porción de un aparato 10 para codificar una señal de información. El aparato 10 puede comprender un primer estimador 11 configurado para realizar un primer proceso de estimación para obtener una primera estimación 14 (T1) para un cuadro actual 13. El aparato 10 puede comprender un segundo estimador 12 configurado para realizar un segundo proceso de estimación para obtener una segunda estimación 16 (T2) para el cuadro actual 13. El aparato 10 puede comprender un selector 17 configurado para realizar una selección 18 entre la primera estimación 14 y la segunda estimación 16 sobre la base de al menos una medición de correlación (el elemento representado por el interruptor 17a está controlado por el elemento 17). Se elige una estimación de salida (final) 19 (Tmejor) entre la primera estimación 14 y la segunda estimación 16 y puede, por ejemplo, proporcionarse a un decodificador, por ejemplo, para realizar LTPF. La estimación de salida (final) 19 se usará como el desfase de tono para el LTPF.
[0050] La estimación final (valor seleccionado) 19 también puede introducirse en un registro 19' y usarse al realizar una iteración en el cuadro posterior, como entrada 19'' (Tprev) al segundo estimador 12 con respecto a una selección operada previamente. Para cada cuadro 13, el segundo estimador 12 obtiene la segunda estimación 16 sobre la base de la estimación final anterior 19" para el marco previo.
[0051] La figura 1b muestra un procedimiento 100 (por ejemplo, para determinar un desfase de tono final que se usará para el LTPF) para una señal dividida en cuadros. El procedimiento comprende realizar una primera estimación (estimación de desfase de tono) para un cuadro actual en la etapa S101. El procedimiento comprende realizar una segunda estimación para el cuadro actual en la etapa S102, basándose la segunda estimación en la selección operada en el cuadro previo (por ejemplo, el desfase de tono final elegido para el LTPF en el cuadro previo). El procedimiento comprende seleccionar entre la primera estimación 14 y la segunda estimación 16 sobre la base de al menos una medición de correlación en la etapa S103.
[0052] Posteriormente, en la etapa S104, los cuadros se actualizan: el cuadro que era el "cuadro actual" se convierte en el "cuadro previo", mientras que un nuevo cuadro (posterior) se convierte en el nuevo "cuadro actual". Después de la actualización, el procedimiento puede iterarse.
[0053] La figura 2 muestra una porción de un aparato 10 (que puede ser el mismo que el de la figura 1a) para codificar una señal de información. En el selector 17, un primer medidor 21 puede medir una primera correlación (por ejemplo, una correlación normalizada) 23 asociada al cuadro actual 13 (por ejemplo, la autocorrelación normalizada de la primera estimación T1). Un segundo medidor 22 puede medir una segunda correlación (por ejemplo, una correlación normalizada) 25 asociada al cuadro actual 13 (por ejemplo, la autocorrelación normalizada de la segunda estimación T2). La primera correlación normalizada 23 puede reducirse en escala en el escalador 26 mediante un valor predeterminado a que puede ser, por ejemplo, un valor entre 0,8 y 0,9, más en particular 0,84 y 0,86, y que puede ser 0,85. La segunda correlación (por ejemplo, una correlación normalizada) 25 asociada al cuadro actual 13 puede compararse con la primera correlación escalada 24, por ejemplo (en los ejemplos, el escalador 26 es opcional y la primera correlación no está escalada). La selección 18 entre la primera estimación 14 (T1) y la segunda estimación 16 (T2) se basa en la comparación realizada en el comparador 27. Cuando la segunda correlación 25 es mayor que la primera correlación escalada 24, la segunda estimación 16 se elige como la información de desfase de tono como estimación de salida seleccionada 19 (Tmejor = T2) que se proporcionará al decodificador (por ejemplo, para usarse como el desfase de tono para el LTPF). Cuando la segunda correlación 25 es menor que la primera correlación escalada 24, la primera estimación 14 (T1) se elige como la información de desfase de tono 19 (Tmejor = T1) que se proporcionará al decodificador.
5.2 Primera estimación
[0054] En esta invención se analizan las operaciones del primer estimador 11 que pueden usarse, en los ejemplos, para proporcionar una primera estimación 14 sobre la base del cuadro actual 13. El procedimiento 30 se muestra en la figura 3.
Etapa 1. Remuestreo de la 1a fase (etapa S31)
[0055] Una señal de entrada x(n) a una tasa de muestreo F se remuestrea a una tasa de muestreo más baja F1 (por ejemplo, F1 = 12,8 kHz). El remuestreo se puede implementar usando, por ejemplo, un enfoque clásico de sobremuestreo paso bajo submuestreo. La presente etapa es opcional en algunos ejemplos.
Etapa 2. Filtrado de paso alto (etapa S21)
[0056] A continuación, la señal remuestreada se filtra en paso alto usando, por ejemplo, un filtro IIR de 2 órdenes con corte en 3 dB a 50 Hz. La señal resultante se denomina xi(n). La presente etapa es opcional en algunos ejemplos.
Etapa 3. Remuestreo de la 2a fase (etapa S33)
[0057] La señal X1(n) se remuestrea adicionalmente por un factor de 2 usando, por ejemplo, un filtro de paso bajo FIR de 4 órdenes seguido de un decimador. La señal resultante a la tasa de muestreo F2 = F1 /2 (por ejemplo, F2 = 6,4 kHz) se denomina X2(n). La presente etapa es opcional en algunos ejemplos.
Etapa 4. Cálculo de autocorrelación (etapa S34)
[0058] Se puede realizar un proceso de autocorrelación. Por ejemplo, una autocorrelación puede procesarse en X2(n) por
N - 1
jR(T) = ^ x2(ji)x2 (n ~ T), T = Tm[n, ..., Tm¿x
n=o
siendo N el tamaño del cuadro. Tmín y Tmáx son los valores mínimo y máximo para recuperar el desfase de tono (por ejemplo, Tmín = 32 y Tmáx = 228). Por lo tanto, Tmín y Tmáx pueden constituir los extremos de un primer intervalo donde se encuentra la primera estimación (desfase de tono del cuadro actual).
Etapa 5. Ponderación de autocorrelación (etapa S35)
[0059] La autocorrelación puede ponderarse para enfatizar los desfases de tono más bajos
Rw(T) = R(T)w(T), T = TJmm 'i 1 T Jma 'x
siendo w(T) una función decreciente (por ejemplo, una función decreciente en forma monótona) dada, por ejemplo, por
Figure imgf000007_0001
Etapa 6. Primera estimación (etapa S36)
[0060] La primera estimación T1 es el valor que maximiza la autocorrelación ponderada:
Tt = argmT — 'í tnfr*.. á T x máx # W(T )
[0061] La primera estimación T 1 puede proporcionarse como la salida 14 del primer estimador 11. Esto puede ser una estimación del desfase de tono para el cuadro actual.
[0062] R(T) (o su versión ponderada Rw(T)) es un ejemplo de una primera función de correlación cuyo valor máximo está asociado a la primera estimación de desfase de tono 14 (T1).
5.3 Segunda estimación
[0063] En esta invención se analizan las operaciones del segundo estimador 12 (y/o etapa S102) que se pueden usar, en los ejemplos, para proporcionar una segunda estimación 16 sobre la base del cuadro actual 13 y la estimación seleccionada previamente (salida) 19'' (desfase de tono obtenido para el cuadro anterior). El procedimiento 40 se muestra en la figura 4. La segunda estimación 16 puede ser diferente de la primera estimación 14. Además, el desfase de tono estimado puede ser diferente, en algunos ejemplos, del desfase de tono como se estimó anteriormente.
[0064] Con referencia a la figura 5, según los ejemplos, en la etapa S41, la búsqueda se restringe a un grupo restringido de desfases que están dentro de un segundo subintervalo particular 52. La búsqueda se basa en el desfase 51 que corresponde al valor seleccionado (previamente) 19''. La búsqueda se restringe a los desfases en el segundo subintervalo 52, que están dentro de un valor 5 (que puede ser elegido, por ejemplo, entre 2, 3, 4, 5, 6, 7, 8, 9, 10 u otro número natural positivo; en algunos ejemplos, 5 puede ser un porcentaje de la longitud del cuadro, de modo que, si el cuadro tiene N muestras, 5 es un porcentaje entre el 1 % y el 30 %, en particular el 15 % y el 25 %, de N). 5 puede ser un umbral de número de desfase predefinido o un porcentaje predefinido.
[0065] En la etapa S42, los valores de autocorrelación dentro del subintervalo 52 se calculan, por ejemplo, mediante el segundo medidor 22.
[0066] En la etapa S42, se recupera el valor máximo entre los resultados de la autocorrelación. La segunda estimación T2 es el valor que maximiza la autocorrelación en la proximidad del desfase de tono del cuadro actual entre los desfases dentro del segundo subintervalo centrado en el valor seleccionado previamente 19'', por ejemplo:
T2 = argmáx R(T)
T=Tprev_Si-iTprev+S
donde Tprev es el desfase de tono final 51 (19'') como se ha seleccionado previamente (por el selector 17) y 5 la constante (por ejemplo, 5 = 4) que define el subintervalo 52. El valor T2 puede proporcionarse como la salida 16 del segundo estimador 12.
[0067] En particular, la primera estimación 14 y la segunda estimación 16 pueden ser significativamente diferentes entre sí.
[0068] R(T) (cuyo dominio está restringido en esta invención entre Tprev-5 y Tprev+5) es un ejemplo de una segunda función de correlación cuyo valor máximo está asociado a la segunda estimación de desfase de tono 16 (T2).
5.4 Primera y segunda mediciones de correlación
[0069] El primer medidor 21 y/o el segundo medidor 22 pueden realizar mediciones de correlación. El primer medidor 21 y/o el segundo medidor 22 pueden realizar mediciones de autocorrelación. Las mediciones de correlación y/o autocorrelación pueden normalizarse. En esta invención se proporciona un ejemplo.
[0070] normcorr(T) puede ser la correlación normalizada de la señal x en el desfase de tono T
normcorr(
Figure imgf000008_0001
[0071] Por lo tanto, la primera medición de correlación 23 puede ser normcorr(Ti), donde T1 es la primera estimación 14, y la segunda medición de correlación 25 puede ser normcorr(T2), donde T2 es la segunda estimación 16.
[0072] En particular, la primera medición de correlación 23 es el valor normalizado de R(T1) (o Rw(T1)), mientras que la segunda medición de correlación 25 es el valor normalizado de R(T2).
5.5 Comparación con el umbral
[0073] Ahora es posible dar un ejemplo de cómo comparar la correlación para realizar la selección. Como ejemplo se proporciona la siguiente fórmula:
Figure imgf000008_0002
Ti si normcorr(T2, < anormcorn
T2 de lo contrario
anormcorr(Ti) puede verse como un umbral de selección de desfase de tono 24: si normcorr(T2) á anormcorr(Ti), el selector elige Ti, de lo contrario, el selector elige T2. El valor Tmejor (o una información asociada al mismo) puede ser, por lo tanto, el valor de salida seleccionado 19 (ya sea Ti o T2) y puede proporcionarse al decodificador (por ejemplo, para LTPF) y que será usado, como 19'', por el segundo estimador 12 para obtener la segunda estimación 16.
5.6 El procedimiento 40
[0074] El procedimiento 40, asociado al procedimiento 30, aumenta los rendimientos con respecto a una técnica basada únicamente en el procedimiento 30.
[0075] Con una pequeña complejidad adicional, es posible mejorar significativamente el rendimiento haciendo que el contorno del tono sea más estable y continuo.
[0076] El procedimiento 40 encuentra un segundo máximo para la función de autocorrelación. No es el máximo global como en el procedimiento 30, sino un máximo local en la proximidad del desfase de tono del cuadro anterior. Este segundo desfase de tono, si se selecciona, produce un contorno de tono suave y continuo. Sin embargo, no se selecciona este segundo desfase de tono en todos los casos. Si hay un cambio esperado en la frecuencia fundamental, por ejemplo, es mejor mantener el máximo global.
[0077] La selección final es si se selecciona el primer desfase de tono T1 (14) encontrado con el procedimiento 30 o el segundo desfase de tono T2 (16) encontrado con el procedimiento 40. Esta decisión se basa en una medida de periodicidad. Se elige la correlación normalizada como medida de periodicidad. Es 1 si la señal es perfectamente periódica y 0 si es aperiódica. El segundo desfase de tono T2 se elige entonces si su correlación normalizada correspondiente es mayor que la correlación normalizada del primer desfase de tono T1, escalado por un parámetro a. Este parámetro a < 1 hace que la decisión sea aún más simple seleccionando T2 (16) incluso cuando su correlación normalizada está ligeramente por debajo de la correlación normalizada del primer desfase de tono T1 (14).
5.7 Consideraciones sobre la técnica
[0078] Se hace referencia a las figuras 5(1)-5(4).
[0079] Un ejemplo de la primera estimación se muestra en la figura 5(1): Se elige el desfase de tono que corresponde al máximo de la función de autocorrelación.
[0080] Se basa en el hecho de que la autocorrelación de una señal armónica (con un cierto tono dado) contiene picos en la posición del desfase de tono y todos los múltiplos de ese desfase de tono.
[0081] Para evitar seleccionar un pico que corresponda a un múltiplo del desfase de tono, la función de autocorrelación se ponderará, como en la figura 5(2), poniendo menos énfasis en los desfases de tono más altos. Esto se usa, por ejemplo, en [7].
[0082] Se asume entonces que el máximo global de la autocorrelación ponderada corresponde al desfase de tono de la señal.
[0083] En general, la primera estimación tomada sola funciona satisfactoriamente: proporciona el tono correcto en la gran mayoría de los cuadros.
[0084] La primera estimación también tiene la ventaja de una complejidad relativamente baja si el número de desfases de la función de autocorrelación (primer subintervalo) es relativamente bajo.
[0085] La figura 5(1) muestra la autocorrelación (no ponderada) de la señal de entrada.
[0086] Hay cinco picos: el primer pico 53 corresponde al desfase de tono, y los otros corresponden a múltiplos 53' de ese desfase de tono.
[0087] Tomar el máximo global de la autocorrelación (no ponderada) daría en este caso un desfase de tono incorrecto: elegiría un múltiplo de este, en este caso 4 veces el desfase de tono correcto.
[0088] Sin embargo, el máximo global de la autocorrelación ponderada (figura 5(2)) es el desfase de tono correcto.
[0089] La primera estimación funciona en varios casos. Sin embargo, hay algunos casos en los que produce una estimación inestable.
[0090] Uno de estos casos es una señal de música polifónica que contiene una mezcla de varios tonos con diferentes alturas. En este caso, es difícil extraer un solo tono de una señal de varios tonos. El primer estimador 11 podría, en ese caso, estimar en un cuadro la altura de uno de los tonos (o incluso tal vez un múltiplo de esta), y en el siguiente cuadro posiblemente la altura de otro tono (o un múltiplo de esta). Entonces, incluso aunque la señal fuera estable (la altura de los diferentes tonos no cambia de un cuadro a otro), la altura detectada por la primera estimación puede ser inestable (la altura cambia significativamente de un cuadro a otro).
[0091] Este comportamiento inestable es un problema importante para el LTPF. Cuando se usa el tono para el LTPF, es muy importante tener un contorno de tono continuo, de lo contrario se podrían escuchar algunos artefactos en la señal de salida filtrada de LTPF.
[0092] Las figuras 5(3) y 5(4) ilustran este problema.
[0093] La figura 5(3) muestra la autocorrelación ponderada y su máximo en un cuadro de una señal estable de varios tonos. Un desfase de tono 19'' se recupera correctamente en "20" en correspondencia con el pico 54.
[0094] La figura 5(4) muestra lo mismo en el cuadro posterior.
[0095] En este caso, los tres primeros picos 54', 54'' y 54''' tienen una amplitud muy cercana. Por lo tanto, cambios muy leves entre los dos cuadros consecutivos pueden cambiar significativamente el máximo global y el desfase de tono estimado.
[0096] La solución adoptada en la presente invención resuelve estos problemas de inestabilidad.
[0097] La presente solución selecciona, además del desfase de tono asociado al pico en el cuadro, un desfase de tono cercano al desfase de tono del cuadro previo.
[0098] Por ejemplo, la figura 5(3) corresponde al cuadro previo y la figura 5(4) corresponde al cuadro actual. La intención es verificar si es preferible seleccionar en el cuadro actual un desfase de tono de alrededor de 20 (es decir, el desfase de tono 19'' o Tprev del cuadro previo) y no un desfase de tono 40, como indica el primer estimador 11.
[0099] Para hacerlo, se realiza una segunda estimación (por ejemplo, mediante el segundo estimador 12) mediante la estimación de un segundo desfase de tono T2 que maximiza la función de autocorrelación alrededor de un subintervalo 52 del desfase de tono del cuadro anterior (Tprev - 6, Tprev 6). En el caso de la figura 5(4), este segundo desfase de tono T2 sería 20 (siendo el primer desfase de tono 40). (Incluso si en este caso T2 = Tprev, esto no es una regla de generación. En general, Tprev - 6 < T2 < Tprev 6). En particular, en los ejemplos, para estimar T2, la autocorrelación no está ponderada.
[0100] Sin embargo, no se desea seleccionar en todos los casos este segundo desfase de tono T2. Se desea seleccionar el primer desfase de tono T1 o el segundo desfase de tono T2 en función de ciertos criterios. Estos criterios se basan en la correlación normalizada (NC), por ejemplo, según lo medido por el selector 17, que generalmente se considera una buena medida de cuán periódica es una señal en un desfase de tono particular (una NC de 0 significa que no es periódica en absoluto, y una NC de 1 significa que es perfectamente periódica).
[0101] Se dan entonces varios casos:
- Si la NC de la segunda estimación T2 es mayor que la NC de la primera estimación T1, se puede estar seguros de que la segunda estimación T2 es mejor que la primera estimación T1, porque la segunda estimación T2 tiene mejor NC y produce una decisión estable (el tono del cuadro previo y el tono del cuadro actual están muy cerca), por lo que se puede seleccionar con seguridad.
- Si la NC de la segunda estimación T2 es mucho más baja que la NC de la primera estimación, esto indica que el tono 19'' del cuadro anterior no corresponde a ninguna periodicidad en el cuadro actual, la señal es inestable, y el tono ha cambiado, por lo que no tiene sentido mantener el tono 19'' del cuadro anterior y tratar de producir una decisión estable. En ese caso, la segunda estimación T2 se ignora y se selecciona la primera estimación T1.
- Si la NC de la segunda estimación T2 es ligeramente más baja que la NC de la primera estimación T1, la NC de ambas estimaciones T1 y T2 están cerca y preferiríamos en ese caso elegir la estimación que produce una decisión estable (es decir, la segunda estimación T2) incluso aunque tenga una NC algo peor. El parámetro a (a < 1) se usa para ese caso: permite seleccionar la segunda estimación T2 incluso aunque tenga una NC ligeramente más baja. El ajuste de este parámetro a nos permite sesgar la selección hacia la primera estimación T1 o la segunda estimación T2 : un valor más bajo significa que la segunda estimación se seleccionará con mayor frecuencia (= la decisión sería más estable). Un valor de 0,85 (o un valor entre 0,8 y 0,9) es una buena compensación: se selecciona la segunda estimación T2 con la suficiente frecuencia para que la decisión sea lo suficientemente estable para el LTPF.
[0102] Las etapas adicionales proporcionadas además de la primera estimación (segunda estimación y selección) tienen una complejidad muy baja. Por lo tanto, la invención propuesta tiene poca complejidad.
6. Ejemplos de sistemas de codificación/decodificación
[0103] La figura 6 muestra un esquema de bloques relacionado con las operaciones de codificación/decodificación. El esquema muestra un sistema 60 que comprende un codificador 60a (que puede comprender el aparato 10) y un decodificador 60b. El codificador 60a obtiene una señal de información de entrada 61 (que puede ser una señal de audio y/o puede dividirse en cuadros, tal como el cuadro actual 13 y el cuadro previo) y prepara un flujo de bits 63. El decodificador 60b obtiene el flujo de bits 63 (por ejemplo, de forma inalámbrica, por ejemplo, usando Bluetooth) para generar una señal de salida 68 (por ejemplo, una señal de audio).
[0104] El codificador 60a puede generar, usando un codificador de transformada 62, una representación de dominio de frecuencia 63a (o una versión procesada de la misma) de la señal de información 61 y proporcionarla al decodificador 60b en el flujo de bits 63. El decodificador 60b puede comprender un decodificador de transformada para obtener la señal de salida 64a.
[0105] El codificador 60a puede generar, usando una unidad de detección 65, datos útiles para realizar el LTPF en el decodificador 60b. Estos datos pueden comprender una estimación de desfase de tono (por ejemplo, 19) y/o una información de ganancia. Estos datos pueden codificarse en el flujo de bits 63 como datos 63b en los campos de control. Los datos 63b (que pueden comprender la estimación final 19 del desfase de tono) pueden prepararse mediante un codificador LTPF 66 (que, en algunos ejemplos, puede decidir si codificar los datos 63b o no). Estos datos pueden usarse por un decodificador LTPF 67 que puede aplicarlos a la señal de salida 64a del decodificador de transformación 64 para obtener la señal de salida 68.
7. Ejemplos, por ejemplo, para LTPF
7.1 Parámetros (por ejemplo, parámetros LTPF) en el codificador
[0106] En esta invención se proporcionan ejemplos de los cálculos de los parámetros LTPF (u otros tipos de parámetros).
[0107] En las siguientes subsecciones se proporciona un ejemplo de preparación de la información para el LTPF.
7.2.1. Remuestreo
[0108] En esta invención se analiza un ejemplo de técnica de remuestreo (opcional) (se pueden usar otras técnicas).
[0109] La señal de entrada a la tasa de muestreo fs se puede remuestrear a una tasa de muestreo fija de 12,8 kHz. El remuestreo se realiza usando un enfoque de sobremuestreo filtrado de paso bajo submuestreo, que se puede formular de la siguiente manera
Figure imgf000011_0001
indicando [ ] un valor transportado (redondeado al número entero más abajo), x(n) es la señal de entrada, Xi2,s(n) es „ 192kHz
A ,
la señal remuestreada a 12,8 kHz, ‘s es el factor de sobremuestreo, y h@,4 es la respuesta de impulso de un filtro de paso bajo FIR dado por
(tab_i resam p_filter[n 119 ] si — 120 < n < 120
hg+O ) = lo de lo contrario
[0110] En la siguiente tabla se proporciona un ejemplo de tab_resamp_filter:
Figure imgf000011_0002
______________________________________ (continuación)________________ -1,765445671257668e-04, -1,922569599584802e-04, -1,996438192500382e-04, -1,968886856400547e-04, -1,825383318834690e-04, -1,556394266046803e-04, -1,158603651792638e-04, -6,358930335348977e-05, 2,810064795067786e-19, 7,292180213001337e-05, 1,523970757644272e-04, 2,349207769898906e-04, 3,163786496265269e-04, 3,922117380894736e-04, 4,576238491064392e-04, 5,078242936704864e-04, 5,382955231045915e-04, 5,450729176175875e-04, 5,250221548270982e-04, 4,760984242947349e-04, 3,975713799264791e-04, 2,902002172907180e-04, 1,563446669975615e-04, -5,818801416923580e-19, -1,732527127898052e-04, -3,563859653300760e-04, -5,411552308801147e-04, -7,184140229675020e-04, -8,785052315963854e-04, -1,011714513697282e-03, -1,108767055632304e-03, -1,161345220483996e-03, -1,162601694464620e-03, -1,107640974148221e-03, -9,939415631563015e-04, -8,216921898513225e-04, -5,940177657925908e-04, -3,170746535382728e-04, 9,746950818779534e-19, 3,452937604228947e-04, 7,044808705458705e-04, 1,061334465662964e-03, 1,398374734488549e-03, 1,697630799350524e-03, 1,941486748731660e-03, 2,113575906669355e-03, 2,199682452179964e-03, 2,188606246517629e-03, 2,072945458973295e-03, 1,849752491313908e-03, 1,521021876908738e-03, 1,093974255016849e-03, 5,811080624426164e-04, -1,422482656398999e-18, -6,271537303228204e-04, -1,274251404913447e-03, -1,912238389850182e-03, -2,510269249380764e-03, -3,037038298629825e-03, -3,462226871101535e-03, -3,758006719596473e-03, -3,900532466948409e-03, -3,871352309895838e-03, -3,658665583679722e-03, -3,258358512646846e-03, -2,674755551508349e-03, -1,921033054368456e-03, -1,019254326838640e-03, 1,869623690895593e-18, 1,098415446732263e-03, 2,231131973532823e-03, 3,348309272768835e-03, 4,397022774386510e-03, 5,323426722644900e-03, 6,075105310368700e-03, 6,603520247552113e-03, 6,866453987193027e-03, 6,830342695906946e-03, 6,472392343549424e-03, 5,782375213956374e-03, 4,764012726389739e-03, 3,435863514113467e-03, 1,831652835406657e-03, -2,251898372838663e-18, -1,996476188279370e-03, -4,082668858919100e-03, -6,173080374929424e-03, -8,174448945974208e-03, -9,988823864332691e-03, -1,151698705819990e-02, . -1,266210056063963e-02, -1,333344579518481e-02, -1,345011199343934e-02, -1,294448809639154e-02, -1,176541543002924e-02, -9,880867320401294e-03, -7,280036402392082e-03, -3,974730209151807e-03, 2,509617777250391e-18, 4,586044219717467e-03, 9,703248998383679e-03, 1,525124770818010e-02, 2,111205854013017e-02, 2,715337236094137e-02, 3,323242450843114e-02, 3,920032029020130e-02, 4,490666443426786e-02, 5,020433088017846e-02, 5,495420172681558e-02, 5,902970324375908e-02, 6,232097270672976e-02, 6,473850225260731e-02, 6,621612450840858e-02, 6,671322871619612e-02, 6,621612450840858e-02, 6,473850225260731e-02, 6,232097270672976e-02, 5,902970324375908e-02, 5,495420172681558e-02, 5,020433088017846e-02, 4,490666443426786e-02, 3,920032029020130e-02, 3,323242450843114e-02, 2,715337236094137e-02, 2,111205854013017e-02, 1,525124770818010e-02, 9,703248998383679e-03, 4,586044219717467e-03, 2,509617777250391e-18, -3,974730209151807e-03, -7,280036402392082e-03, -9,880867320401294e-03, -1,176541543002924e-02, -1,294448809639154e-02, -1,345011199343934e-02, -1,333344579518481e-02, -1,266210056063963e-02, -1,151698705819990e-02, -9,988823864332691e-03, -8,174448945974208e-03, -6,173080374929424e-03, -4,082668858919100e-03, -1,996476188279370e-03, -2,251898372838663e-18, 1,831652835406657e-03, 3,435863514113467e-03, 4,764012726389739e-03, 5,782375213956374e-03, 6,472392343549424e-03, 6,830342695906946e-03, 6,866453987193027e-03, 6,603520247552113e-03, 6,075105310368700e-03, 5,323426722644900e-03, 4,397022774386510e-03, 3,348309272768835e-03, 2,231131973532823e-03, 1,098415446732263e-03, 1,869623690895593e-18, -1,019254326838640e-03, -1,921033054368456e-03, -2,674755551508349e-03, -3,258358512646846e-03, -3,658665583679722e-03, -3,871352309895838e-03, -3,900532466948409e-03, -3,758006719596473e-03, -3,462226871101535e-03, -3,037038298629825e-03, -2,510269249380764e-03, -1,912238389850182e-03, -1,274251404913447e-03, -6,271537303228204e-04, -1,422482656398999e-18, 5,811080624426164e-04, 1,093974255016849e-03, 1,521021876908738e-03, 1,849752491313908e-03, 2,072945458973295e-03, 2,188606246517629e-03, 2,199682452179964e-03, 2,113575906669355e-03, 1,941486748731660e-03, 1,697630799350524e-03, 1,398374734488549e-03, 1,061334465662964e-03, 7,044808705458705e-04, 3,452937604228947e-04, 9,746950818779534e-19, -3,170746535382728e-04, -5,940177657925908e-04, -8,216921898513225e-04, _________________ (continuación)________________
, -1,107640974148221e-03, -1,162601694464620e-03,
, -1,108767055632304e-03, -1,011714513697282e-03,
, -7,184140229675020e-04, -5,411552308801147e-04,
, -1,732527127898052e-04, -5,818801416923580e-19,
, 2,902002172907180e-04, 3,975713799264791e-04
, 5,250221548270982e-04, 5,450729176175875e-04
, 5,078242936704864e-04, 4,576238491064392e-04
, 3,163786496265269e-04, 2,349207769898906e-04
, 7,292180213001337e-05, 2,810064795067786e-19
, -1,158603651792638e-04, -1,556394266046803e-04,
, -1,968886856400547e-04, -1,996438192500382e-04,
, -1,765445671257668e-04, -1,545438297704662e-04,
, -1,001011132655914e-04, -7,163663994481459e-05,
Figure imgf000013_0004
, -2,043055832879108e-05};______________________
Figure imgf000013_0005
7.2.2. Filtrado de paso alto
[0111] En esta invención se analiza un ejemplo de técnica de filtro de paso alto (opcional) (se pueden usar otras técnicas).
[0112] La señal remuestreada puede filtrarse en paso alto usando un filtro IIR de 2 órdenes cuya función de transferencia puede darse por
0.9827947082978771 - 1.965589416595754Z-1 0.9827947082978771z"z
ff50(z) -1 - 1.9652933726226904FrM :^ 65885460 ^ '8177 z -2 ~
7.2.3. Detección de tono
[0113] En esta invención se analiza un ejemplo de técnica de detección de tono (se pueden usar otras técnicas).
[0114] La señal x12,s(n) puede submuestrearse (opcionalmente) por un factor de 2 usando
Figure imgf000013_0001
para n - 0..63
siendo h2 = {0,1236796411180537, 0,2353512128364889, 0,2819382920909148, 0,2353512128364889, 0,1236796411180537}.
[0115] La autocorrelación de x6.4(n) puede calcularse por
Figure imgf000013_0002
siendo kmín = 17 y kmáx = 114 los desfases mínimo y máximo que definen el primer subintervalo (se pueden proporcionar otros valores para kmín y kmáx).
[0116] La autocorrelación puede ponderarse usando
R£4(k) = R6.4(k)w(k) para k = kmi'n..k miíx
con w(k) que se define de la siguiente manera
Figure imgf000013_0003
[0117] La primera estimación 14 del desfase de tono T1 puede ser el desfase que maximiza la autocorrelación ponderada
Tx = argmáx R^4(k)
k=ltnifn-kmáx
[0118] La segunda estimación 16 del desfase de tono T2 puede ser el desfase que maximiza la autocorrelación no ponderada en la proximidad del desfase de tono (19'') estimado en el cuadro previo
T2 = argmáx R6.4(k)
*í=kmfn-^ máx
siendo kmín - máx(kmín,Tprev 4) ^ k ^ - mm(kma'x, Tprev 4) ^ y ^ es e, desfase de tono fina| estimado en el cuadro previo (y, por lo tanto, su selección está condicionada por el desfase de tono previamente seleccionado).
[0119] La estimación final 19 del desfase de tono en el cuadro actual 13 puede darse entonces por
_ (Tx si normcorr(x6.4,64,T2) < 0.85.normcorr(x64, 64, TV)
curr ~~ (T2 de lo contrario
siendo normcorr(x, L, T) la correlación normalizada de la señal x de longitud L en el desfase T
normcorr(x, L, T) £n=ox(n)x(n - T)
YrnZa x2 (n) Eíí=o x2 (n — T)
[0120] Cada correlación normalizada 23 o 25 puede ser al menos una de las mediciones obtenidas por el primer o segundo medidor de señal 21 o 22.
7.2.4. Flujo de bits de LTPF
[0121] En algunos ejemplos, el primer bit del flujo de bits de LTPF señala la presencia del parámetro de desfase de tono en el flujo de bits. Se obtiene por
Figure imgf000014_0001
í 1 SÍ normcorr(^rG 4, 64 ,7 ^ ^ ) > 0.6
(o de lo contrario
(En lugar de 0,6, se podría usar un umbral diferente, por ejemplo, entre 0,4 y 0,8, o 0,5 y 0,7, o 0,55 y 0,65, por ejemplo).
[0122] Si pitch_present es 0, no se codifican más bits, lo que da como resultado un flujo de bits de LTPF de solo un bit.
[0123] Si pitch_present es 1, se codifican dos parámetros más, un parámetro de desfase de tono codificado en 9 bits y un bit para señalizar la activación de LTPF. En ese caso, el flujo de bits de LTPF está compuesto por 11 bits.
TlbttS^ ppp [1 ,s i pitch_present = 0
(.11 ,d e lo contarrio
7.2.5. Parámetros de desfase de tono de LTPF
[0124] En esta invención se analiza un ejemplo para obtener parámetros de desfase de tono de LTPF (se pueden usar otras técnicas).
[0125] La parte entera del parámetro de desfase de tono de LTPF puede darse por
ltpf_pitch_int ~ argmáx R12,g(k)
k-^mín "kniax
siendo
127
r 128(k) _ 2 ^ x12i8(n)x12i8(n - k)
y
kmfn — máx(32,2Tcurr 4), km^x — mín(228,2Tcurr 4).
[0126] La parte fraccionaria del desfase de tono de LTPF puede darse entonces por si pitch_int > 157 argmáx interp(R128,F .intd) si 157 > pitchjnt > 127 d = -2,C,2 " ” ’
argmáx interp(R12.8.F .intd) si 127 > pitch_int>32 d = -3...3 " ’ ’
Figure imgf000015_0001
argmáx interp(R128,F intd) si pitch int = 32
d = 0...3 ' "" "
siendo
Figure imgf000015_0002
y h4 es la respuesta de impulso de un filtro de paso bajo FIR dado por
ftab
Figure imgf000015_0003
, 16 < n < 16
li-iCn) = , de lo contrario tab_ltpf_interp_R puede ser, por ejemplo:
Figure imgf000015_0006
[0127] Si pitch_fr < 0, entonces tanto pitch_int como pitch_fr se modifican según pitchjnt = pitchjnt -1
piích Jr = pitchjr+4
[0128] Finalmente, el índice del parámetro de desfase de tono se da por
si pitch int > 157 + 126 si 157 >| .int > 127
Figure imgf000015_0004
— 128 si 127
Figure imgf000015_0005
int
7.2.6 Bit de activación de LTPF
[0129] Una correlación normalizada se calcula primero de la siguiente manera
Figure imgf000016_0001
siendo
Figure imgf000016_0002
y hi es la respuesta de impulso de un filtro de paso bajo FIR dado por
, si — 8 < v. < 8
Figure imgf000016_0003
, de lo contrarío
con tab_ltpf_interp_x12k8 que se da por:_______________________________________________
double tab_ltpf_interp_x12k8[15] = {
6,698858366939680e-03, 3,967114782344967e-02, 1,069991860896389e-01 2,098804630681809e-01, 3,356906254147840e-01, 4,592209296082350e-01 5,500750019177116e-01, 5,835275754221211e-01, 5,500750019177116e-01 4,592209296082350e-01, 3,356906254147840e-01, 2,098804630681809e-01
1,069991860896389e-01, 3,967114782344967e-02, 6,698858366939680e-03};
Figure imgf000016_0004
[0130] El bit de activación de LTPF se establece entonces según:
si(
(mem_itpf_active==0 && mem_nc>0.94 && nc>94) y
(mem_itpf_active==1 && nc>0.9) y
(mem_itpf_active==1 && ab s( pi tch-mem_pitch)<2 && (nc-mem_nc)>-0.1 && nc>0.84) )
{
tipf_active = 1;
}
de lo contrario
{
tipf_active = 0;
}
siendo mem_ltpf_active el valor de ltpf_active en el cuadro previo (es 0 si pitch_present=0 en el cuadro previo), mem_nc es el valor de nc en el cuadro previo (es 0 si pitch_present=0 en el cuadro previo), pitch=pitch_int+pitch_fr/4 y mem_pitch es el valor del tono en el cuadro previo (es 0 si pitch_present=0 en el cuadro previo).
7.3 LTPF en el decodificador
[0131] La señal decodificada en el dominio de frecuencia (FD), por ejemplo, después de la síntesis MDCT (Transformación de Coseno Discreta Modificada), la síntesis MDST (Transformación de Seno Discreta Modificada) o una síntesis basada en otra transformación, puede posfiltrarse en el dominio de tiempo usando un filtro IIR cuyos parámetros pueden depender de los datos del flujo de bits de LTPF "pitch_index" y "ltpf_active". Para evitar la discontinuidad cuando los parámetros cambian de un cuadro a otro, se puede aplicar un mecanismo de transición en el primer cuarto del cuadro actual.
[0132] En los ejemplos, un filtro LTPF IIR puede implementarse usando
Lnum L(jen ^
*¡t^f(n) = x(n) - cnum(k)x(n - k) cden(k,pfr)xí^f (n - pint
Figure imgf000016_0005
- k)
k=0 k=0
donde x(n) es la señal de entrada del filtro (es decir, la señal decodificada después de la síntesis MDCT) y x ltp f00 es la señal de salida del filtro.
[0133] La parte entera pint y la parte fraccionaria pfr del desfase de tono LTPF se puede calcular de la siguiente manera. Primero se recupera el desfase de tono a 12,8 kHz usando
jndex — 283 si :h_index > 440
Índex
Figure imgf000017_0002
int - 63 si 440 > pitch ¡ndex > 380
índex
Figure imgf000017_0001
+ 32 si 380 í>
Figure imgf000017_0003
si pitchjndex > 440
Índex - 4 * pitchjnt 508 si 440 > pitchjndex > 380
Figure imgf000017_0004
Índex - 4 * pitch int 128 si 380 > pitch Índex
pitchjr
pitch = p itch jn t
[0134] A continuación, el desfase de tono puede escalarse con respecto a la tasa de muestreo de salida fs y convertirse en partes enteras y fraccionarias usando
Figure imgf000017_0005
donde fs es la tasa de muestreo.
[0135] Los coeficientes de filtro cnum(k) y cden(k, p j se pueden calcular de la siguiente manera
cnum(k) = 0.85 * gain jtpf * tabjtpf_num_fs[gainJnd] [k] para k = 0.. L n u m
Figure imgf000017_0006
_ _ _ parak = 0.. Lden
siendo
y gain_ltpf y gain_ind se pueden obtener según
Figure imgf000018_0001
y las tablas tab_tpf_num_fs[gain_ind][k] y tab_ltpf_den_fs[pfr][k] están predeterminadas.
[0136] En esta invención se proporcionan ejemplos de tab_ltpf_num_fs[gain_ind][k] (en lugar de "fs", se indica la tasa de muestreo):
Figure imgf000018_0002
,424146237314458e-03,-3,172679890356356e-03,-},
,441167412482088e-03,-2,726705509251737e-03,-},
,457102447664837e-03,-2,297324511109085e-03,-},
,472065631098081e-03,-1,883081472613493e-03,-
Figure imgf000019_0001
}};_______________________
[0137] En esta invención se proporcionan ejemplos de tab_ltpf_den_fs[pfr][k] (en lugar de "fs", se indica la tasa de muestreo):
Figure imgf000019_0002
},
, 7,041404930459358e-03, 2,819702319820420e-02, 6,547044935127551e-02, , 1,548418956489015e-01, 1,767122381341857e-01, 1,691507213057663e-01, , 8,851425011427483e-02, 4,499353848562444e-02, 1,557613714732002e-02, },
, 4,146998467444788e-03, 2,135757310741917e-02, 5,482735584552816e-02, , 1,456060342830002e-01, 1,738439838565869e-01, 1,738439838565869e-01, , 1,004971444643720e-01, 5,482735584552816e-02, 2,135757310741917e-02, },
, 2,039721956502016e-03, 1,557613714732002e-02, 4,499353848562444e-02, , 1,352901577989766e-01, 1,691507213057663e-01, 1,767122381341857e-01, , 1,124647986743299e-01, 6,547044935127551e-02, 2,819702319820420e-02,
Figure imgf000020_0005
}}
[0138] Con referencia al manejo de la transición, se consideran cinco casos diferentes.
[0139] Primer caso: ltpf_active = 0 y mem_ltpf_active = 0
Figure imgf000020_0001
[0140] Segundo caso: ltpf_active = 1 y mem_ltpf_active = 0
Figure imgf000020_0002
para
Np
n * ° " f
[0141] Tercer caso: ltpf_active = 0 y mem_ ltpf_active = 1
Lnum ^den
Jden cn u m (k )x ( ll k ) y cden(kr P fr)x ltp f ( n Pint
4 k=0 k=0
NF
p a ra n = 0.. —
4
r mm „mem mem „mem
siendo Lnum , Lden _ Pint y Pfr son los parámetros de filtro calculados en el cuadro previo.
n _ nmem D _ «mem
[0142] Cuarto caso: ltpf active = 1 y mem ltpf active = 1 y Pint Pint y Ffr Ffr pfr
Figure imgf000020_0003
para
NF
n = 0..-í-
4
n dt nmem ab nmem [0143] Quinto caso: ltpf_active = 1 y mem_ltpf_active = 1 y (Pint ^ Pint o P'r Pfr )
Figure imgf000020_0004
para
n Nf
n = 0" T
Figure imgf000021_0001
para
Figure imgf000021_0002
siendo Nf el número de muestras en un cuadro.
7.4 Ventajas adicionales
[0144] Como se puede entender, la solución según los ejemplos anteriores es transparente para el decodificador. No es necesario indicar al decodificador, por ejemplo, que se ha seleccionado la primera o la segunda estimación.
[0145] Por consiguiente, no hay aumento de la carga útil en el flujo de bits 63.
[0146] Además, no hay necesidad de modificar los decodificadores para adaptarse al nuevo procesamiento realizado en el codificador. El decodificador no necesita saber que la presente invención se ha implementado. Por lo tanto, la invención permite aumentar la compatibilidad con los sistemas heredados.
8. Ocultamiento de paquete perdido
[0147] El desfase de tono Tmejor (19) obtenido por el aparato 10, 60a o 110 anterior puede usarse en el decodificador (por ejemplo, 60b) para implementar un ocultamiento de pérdida de paquete (PLC) (también conocido como ocultamiento de error). El PLC se utiliza en los códecs de audio para ocultar paquetes perdidos o dañados durante la transmisión del codificador al decodificador. En la técnica anterior, el PLC se puede realizar en el lado decodificador y extrapolar la señal decodificada en el dominio de transformada o en el dominio de tiempo.
[0148] El desfase de tono puede ser el principal parámetro utilizado en el PLC basado en tono. Este parámetro puede estimarse en el lado codificador y codificarse en el flujo de bits. En este caso, el desfase de tono de los últimos cuadros buenos se usa para ocultar el cuadro perdido actual.
[0149] Un cuadro dañado no proporciona una salida audible correcta y debe descartarse.
[0150] Para cada cuadro decodificado en el decodificador, su validez puede ser verificada. Por ejemplo, cada cuadro puede tener un campo que lleva un código de redundancia cíclica (CRC) que se verifica realizando operaciones predeterminadas proporcionadas por un algoritmo predeterminado. El procedimiento puede repetirse para verificar si el resultado calculado corresponde al valor en el campo de CRC. Si un cuadro no se ha decodificado correctamente (por ejemplo, en vista de una interferencia en la transmisión), se supone que algunos errores han afectado al cuadro. Por lo tanto, si la verificación proporciona un resultado de decodificación incorrecta, el cuadro se considera no adecuadamente decodificado (no válido, dañado).
[0151] Cuando se reconoce que un cuadro no está decodificado correctamente, se puede usar una estrategia de ocultamiento para proporcionar una salida audible: de lo contrario, se podría escuchar algo así como un agujero audible molesto. Por lo tanto, es necesario encontrar algún tipo de cuadro que "llene el agujero" que se mantiene abierto por el cuadro no decodificado correctamente. El propósito del procedimiento de ocultamiento de pérdida de cuadro es ocultar el efecto de cualquier cuadro no disponible o dañado para la decodificación.
8.1 Estrategias de ocultamiento
[0152] Un procedimiento de ocultamiento de pérdida de cuadro puede comprender procedimientos de ocultamiento para los diversos tipos de señales. El mejor rendimiento de códec posible en situaciones propensas a errores con pérdida de cuadros puede obtenerse seleccionando el procedimiento más adecuado. Uno de los procedimientos de ocultamiento de pérdida de paquetes puede ser, por ejemplo, el Ocultamiento de Dominio de Tiempo TCX.
8.2 Ocultamiento de dominio de tiempo TCX
[0153] El procedimiento de Ocultamiento de Dominio de Tiempo TCX es una técnica de PLC basada en el tono que opera en el dominio del tiempo. Es más adecuado para señales con una estructura armónica dominante. Un ejemplo del procedimiento es el siguiente: la señal sintetizada de los últimos cuadros decodificados se filtra inversamente con el filtro LP como se describe en la Sección 8.2.1 para obtener la señal periódica como se describe en la Sección 8.2.2. La señal aleatoria es generada por un generador aleatorio con una distribución aproximadamente uniforme en la Sección 8.2.3. Las dos señales de excitación se resumen para formar la señal de excitación total como se describe en la Sección 8.2.4, que se desvanece de forma adaptativa con el factor de atenuación descrito en la Sección 8.2.6 y finalmente se filtra con el filtro LP para obtener la señal de tiempo oculta sintetizada. Si se ha usado el LTPF en el último cuadro bueno, el LTPF también se puede aplicar a la señal de tiempo oculta sintetizada como se describe en la Sección 8.3. Para obtener una superposición adecuada con el primer cuadro bueno después de un cuadro perdido, la señal de cancelación del alias del dominio de tiempo se genera en la Sección 8.2.5.
8.2.1 Cálculo parámetros de LPC
[0154] El procedimiento de Ocultamiento de Dominio de Tiempo TCX opera en el dominio de excitación. Una función de autocorrelación puede calcularse en 80 bandas de dominio de frecuencia equidistantes. La energía se preenfatiza con el factor de énfasis previa fijo j
Figure imgf000022_0005
[0155] La función de autocorrelación se desfasa en ventana usando la siguiente ventana
Figure imgf000022_0001
para i = 1... 16
antes de que se transforme en dominio de tiempo utilizando una DFT inversa apilada uniformemente. Finalmente, se puede usar una operación de Levinson Durbin para obtener el filtro LP, ac(k), para el cuadro oculto. A continuación se proporciona un ejemplo:
Figure imgf000022_0004
[0156] El filtro LP se puede calcular solo en el primer cuadro perdido después de un cuadro bueno y permanece en los marcos perdidos posteriormente.
8.2.2 Construcción de la parte periódica de la excitación
Figure imgf000022_0002
[0157] Las últimas muestras de tiempo decodificadas primero se preenfatizan con el factor de énfasis previa de la Sección 8.2.1 usando el filtro
Figure imgf000022_0003
para obtener la señal xpre(k), donde Tc es el valor de desfase de tono pitch-int o pitch-int 1 si pitch_fr > 0. Los valores pitch-int y pitch_fr son los valores de desfase de tono transmitidos en el flujo de bits.
[0158] La señal preenfatizada, xpre(k), se filtra adicionalmente con el filtro LP inverso calculado para obtener la señal de excitación previa excp(k). Para construir la señal de excitación, excp(k), para el cuadro perdido actual, excp(k) se copia repetidamente con Tc de la siguiente manera
exCp (k) = exCp(E — Tc k), para k = O ... N — 1
donde E corresponde a la última muestra en excp(k). Si el factor de estabilidad 0 es menor de 1, el ciclo del primer tono de p nvo j es primero filtrado con paso bajo con un filtro FIR de fase lineal de 11 toques (respuesta de impulso finito) descrito en la tabla a continuación
Figure imgf000023_0006
[0159] La ganancia de tono, ®P, se puede calcular de la siguiente manera
Figure imgf000023_0001
[0160] Si pitch_fr = 0 entonces ®p. De lo contrario, una segunda ganancia de tono, ^P, se puede calcular de la siguiente manera
Figure imgf000023_0002
Y gp — max(gp,gp) g¡ gp > gp entonces j c se reduce en uno para el procesamiento posterior.
[0161] Finalmente, gp se restringe por 0 < gp < 1.
[0162] La excitación periódica formada, excp(k), se atenúa muestra por muestra en todo el cuadro, comenzando con uno y finalizando con un factor de atenuación, a, para obtener 0xcr~ p~ n o .La ganancia de tono se calcula solo en el primer cuadro perdido después de un cuadro bueno y se establece en a para las demás pérdidas de cuadro consecutivas.
8.2.3 Construcción de la parte aleatoria de la excitación
[0163] La parte aleatoria de la excitación se puede generar con un generador aleatorio con una distribución aproximadamente uniforme, de la siguiente manera
excnpe(k) = extract(excnFB(k — 1) ■ 12821 16831), para k = 0...N — 1
donde excn,FB(-1) se inicia con 24607 para el primer cuadro oculto con este procedimiento y extract() extrae el 16 LSB del valor. Para cuadros adicionales, excn,FB(N - 1) se almacena y se usa como siguiente excn,FB(-1).
[0164] Para desplazar el ruido más hacia mayores frecuencias, la señal de excitación se filtra con paso alto con un filtro FIR de fase lineal de 11 toques descrito en la siguiente tabla para obtener excn,Hp(k).
Figure imgf000023_0005
[0165] Para asegurar que el ruido se desvanezca hasta un ruido de banda completa con la velocidad de desvanecimiento dependiente del factor de atenuación a, la parte aleatoria de la excitación, excn(k), se compone a través de una interpolación lineal entre la banda completa, excn,FB(k), y la versión filtrada con paso alto, excn,HP(k), como
excT
Figure imgf000023_0003
exc
Figure imgf000023_0004
para k = 0 ... N — 1
donde p = 1 para el primer cuadro perdido después de un cuadro bueno y
Figure imgf000024_0001
para la segunda y las demás pérdidas de cuadros consecutivos, donde P-i es p del cuadro oculto previo.
[0166] Para ajustar el nivel de ruido, la ganancia de ruido, £n, se calcula como
Figure imgf000024_0002
[0167] Si Tc = pitchjnt después de la Sección 8.2.2, entonces
Figure imgf000024_0003
De lo contrario, se calcula una segunda ganancia de ruido, como en la ecuación anterior, pero siendo Tc pitch_int. A continuación, gn = mín(gn.gn).
[0168] Para el ulterior procesamiento, gn primero se normaliza y a continuación se multiplica por (1,1 - 0,75gp) para obtener
Figure imgf000024_0004
.
[0169] La excitación aleatoria formada, excn(k), se atenúa uniformemente con ®n desde la primera muestra hasta la muestra cinco, y a continuación muestra por muestra en todo el cuadro, comenzando con §n y terminando con ^ para obtener excn 00. La ganancia de ruido, gn, se calcula solo en el primer cuadro perdido después de un cuadro bueno y se establece en gn • a para las demás pérdidas de cuadro consecutivas.
8.2.4 Construcción de la excitación total, síntesis y posprocesamiento
[0170] La excitación aleatoria, excn00 se suma a la excitación periódica, e x c P para formar la señal de excitación total exct(k). La señal sintetizada final para el cuadro oculto se obtiene filtrando la excitación total con el filtro LP de la Sección 8.2.1 y se posprocesa con el filtro de reducción de énfasis.
8.2.5 Dominio de tiempo alias cancelación
[0171] Para obtener una adecuada suma de superposición en caso de que el siguiente cuadro sea bueno, se puede generar la parte de dominio de tiempo alias cancelación, xTDAc(k). Para ello, se crean muestras adicionales N - Z como se ha descrito anteriormente para obtener la señal x(k) para k = 0... 2N - Z. En ello, se crea la parte de dominio de tiempo alias cancelación a través de las siguientes etapas:
Llenado a cero del búfer de dominio de tiempo sintetizado x(k)
_ ( 0, 0 < k < Z
® (x(k -Z ) , Z < k < 2N
[0172] Ventana x(k) con la ventana MDCT WN(k)
Figure imgf000024_0005
[0173] Remodelado de 2N a N
[0174] Remodelado de N a 2N
Figure imgf000025_0001
[0175] Ventana y(k) con la ventana invertida MDCT (Transformación de Coseno Discreta Modificada) (o MDST, Transformación de Seno Discreta Modificada, en otros ejemplos), wN(k)
xTMc M = wN(2N-1-k)-y(k), 0 < k < 2N
8.2.6 Manejo de múltiples pérdidas de cuadro
[0176] La señal construida se desvanece a cero. La velocidad de desvanecimiento es controlada por un factor de atenuación, a, que depende del factor de atenuación previo, a-i, la ganancia de tono, gp, calculada en el último cuadro correctamente recibido, el número de cuadros borrados consecutivos, nbLostCmpt, y la estabilidad, 0. Se puede usar el siguiente procedimiento para calcular el factor de atenuación, a
Figure imgf000025_0003
[0177] El factor 0 (estabilidad de los últimos dos vectores del factor de escala adyacentes scf-2 (k) y scf-i(k)) se puede obtener, por ejemplo, como:
Figure imgf000025_0002
donde scf-2 (k) y scf-i(k) son los vectores del factor de escala de los últimos dos cuadros adyacentes. El factor Q está limitado por 0 < Q < 1, correspondiendo los valores más grandes de Q a señales más estables. Esto limita la energía y las fluctuaciones de envolvente espectral. Si no hay dos vectores de factor de escala adyacentes presentes, el factor Q se establece en 0,8.
[0178] Para evitar un rápido aumento de alta energía, el espectro se filtra con paso bajo con X s (0) = X s (0) • 0,2 y X s (1) = X s (1) • 0,5.
9. LTPF y PLC con la misma información de desfase de tono
[0179] La figura 9 muestra un ejemplo general de un procedimiento 100' que puede usarse para operar el decodificador 60b. En la etapa S101', puede decodificarse una versión codificada de una señal. En los ejemplos, el cuadro puede recibirse (por ejemplo, a través de una conexión Bluetooth) y/u obtenerse desde una unidad de almacenamiento. El desfase de tono Tmejor (seleccionado entre T1 y T2 como se ha analizado anteriormente) puede usarse tanto para PLC como para LTPF.
[0180] En la etapa S102', se comprueba la validez del cuadro (por ejemplo, con CRC, paridad, etc.). Si se confirma la invalidez del cuadro, se realiza el ocultamiento (véase a continuación). De lo contrario, si el cuadro es válido, en la etapa S103' se verifica si la información de tono está codificada en el cuadro. En algunos ejemplos, la información de tono se codifica solo si se reconoce que la armonicidad está por encima de un umbral particular (lo que puede indicar, por ejemplo, una armonicidad suficientemente alta para realizar LTPF y/o PLC, por ejemplo).
[0181] Si en S103' se confirma que la información de tono está realmente codificada, entonces la información de tono se decodifica y almacena en la etapa S104'. De lo contrario, el ciclo termina y se puede decodificar un nuevo cuadro en S101'.
[0182] Posteriormente, en la etapa S105', se comprueba si el LTPF está habilitado. Si se verifica que el LTPF está habilitado, entonces el LTPF se realiza en la etapa S106. De lo contrario, se omite el LTPF; el ciclo termina, y se puede decodificar un nuevo cuadro en S101'.
[0183] Con referencia al ocultamiento, este último puede subdividirse en etapas. En la etapa S107', se verifica si la información de tono del cuadro previo (o la información de tono de uno de los cuadros previos) está almacenada en la memoria (es decir, está a disposición).
[0184] Si se verifica que la información de tono buscada está almacenada, entonces se puede realizar un ocultamiento de errores en la etapa S108. Se puede realizar la repetición de la resolución de cuadro MDCT (o MDST) con aleatorización de señal, y/o ocultamiento en dominio de tiempo TCX, y/o ECU de fase. De lo contrario, si en S107' se verifica que no hay información de tono reciente almacenada (como consecuencia de que el decodificador no ha transmitido el desfase de tono, por ejemplo), en la etapa S109' se puede usar una técnica de ocultamiento diferente, conocida per se y que no implica el uso de una información de tono proporcionada por el codificador. Algunas de estas técnicas pueden basarse en la estimación de la información de tono y/u otra información de armonicidad en el decodificador. En algunos ejemplos, no se puede realizar una técnica de ocultamiento en este caso. Después de haber realizado el ocultamiento, el ciclo finaliza y se puede decodificar un nuevo cuadro en S101'.
[0185] Debe observarse que el desfase de tono usado por el PLC es el valor 19 (tmejor) preparado por el aparato 10 y/o 60b, sobre la base de la selección entre las estimaciones T1 y T2, como se ha analizado anteriormente.
10. Otros ejemplos
[0186] La figura 7 muestra un aparato 110 que puede implementar el aparato 10 y/o 60a para realizar al menos algunas etapas de los procedimientos anteriores. El aparato 110 comprende un procesador 111 y una unidad de memoria no transitoria 112 que almacena instrucciones (por ejemplo, un programa) que, cuando se ejecutan por el procesador 111, pueden hacer que el procesador 111 realice una primera estimación 112a (por ejemplo, tal como para implementar el primer estimador 11), una segunda estimación 112b (por ejemplo, tal como para implementar el segundo estimador 12) y/o una selección 112c (por ejemplo, tal como para implementar el selector 18). El aparato 110 puede comprender una unidad de entrada 116, que puede obtener una señal de información de entrada (por ejemplo, una señal de audio). El aparato puede almacenar un flujo de bits, por ejemplo, en el espacio de almacenamiento 128.
[0187] La figura 8 muestra un aparato 120 que puede implementar el decodificador 60b y/o realizar un filtrado LTPF, por ejemplo. El aparato 120 puede comprender un procesador 121 y una unidad de memoria no transitoria 122 que almacena instrucciones 122a (por ejemplo, un programa) que, cuando se ejecutan por el procesador 121, pueden hacer que el procesador 121 realice, entre otras cosas, una operación de filtrado LTPF, por ejemplo, sobre la base de un parámetro obtenido del codificador. El aparato 120 puede comprender una unidad de entrada 126, que puede obtener una representación decodificada de una señal de información (por ejemplo, una señal de audio). Por lo tanto, el procesador 121 puede realizar procesos para obtener una representación decodificada de la señal de información. Esta representación decodificada se puede proporcionar a unidades externas usando una unidad de salida 127. La unidad de salida 127 puede comprender, por ejemplo, una unidad de comunicación para comunicarse con dispositivos externos (por ejemplo, usando una comunicación inalámbrica, tal como Bluetooth) y/o espacios de almacenamiento externo. El procesador 121 puede guardar la representación decodificada de la señal de audio en un espacio de almacenamiento local 128.
[0188] En los ejemplos, los sistemas 110 y 120 pueden ser el mismo dispositivo.
[0189] Dependiendo de determinados requisitos de implementación, los ejemplos pueden implementarse en hardware. La implementación se puede realizar usando un medio de almacenamiento digital, por ejemplo, un disquete, un disco versátil digital (DVD), un disco Blu-Ray, un disco compacto (CD), una memoria de solo lectura (ROM), una memoria de solo lectura programable (PROM), una
[0190] memoria de solo lectura borrable y programable (EPROM), una memoria de solo lectura eléctricamente borrable y programable (EEPROM) o una memoria flash, con señales de control legibles electrónicamente almacenadas en los mismos, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal modo que se realice el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0191] Generalmente, los ejemplos pueden implementarse como un producto de programa informático con instrucciones de programa, siendo las instrucciones de programa operativas para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. Las instrucciones de programa pueden, por ejemplo, almacenarse en un medio legible por máquina.
[0192] Otros ejemplos comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina. En otras palabras, un ejemplo de procedimiento es, por lo tanto, un programa informático que tiene instrucciones de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador. Un ejemplo adicional de los procedimientos es, por lo tanto, un medio de soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El medio de soporte de datos, el medio de almacenamiento digital o el medio grabado son tangibles y/o no transitorios, en lugar de señales que son intangibles y transitorias.
[0193] Un ejemplo adicional comprende una unidad de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable que realiza uno de los procedimientos descritos en esta invención.
[0194] Un ejemplo adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0195] Un ejemplo adicional comprende un aparato o un sistema que transfiere (por ejemplo, electrónica u ópticamente) un programa informático para realizar uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.
[0196] En algunos ejemplos, se puede usar un dispositivo lógico programable (por ejemplo, una matriz de compuertas programables en el campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunos ejemplos, una matriz de compuertas programables en el campo puede cooperar con un microprocesador para realizar uno de los procedimientos descritos en esta invención. Generalmente, los procedimientos pueden realizarse por cualquier aparato de hardware apropiado.
[0197] Los ejemplos descritos anteriormente son ilustrativos de los principios analizados anteriormente. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles que se describen en esta invención serán evidentes. Por lo tanto, la intención es que la invención esté limitada por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados a modo de descripción y explicación de los ejemplos de esta invención.

Claims (22)

REIVINDICACIONES
1. Un aparato (10, 60a, 110) para codificar una señal de audio que incluye una pluralidad de cuadros, comprendiendo el aparato:
un primer estimador (11) configurado para obtener una primera estimación (14, T1), siendo la primera estimación una estimación de un desfase de tono para un cuadro actual (13), donde la primera estimación (14) se obtiene como el desfase (T1) que maximiza una primera función de correlación asociada al cuadro actual (13);
un segundo estimador (12) configurado para obtener una segunda estimación (16, T2), siendo la segunda estimación otra estimación de un desfase de tono para el cuadro actual (13), donde el segundo estimador (12) está condicionado por el desfase de tono (51, 19'') seleccionado para el cuadro previo para obtener la segunda estimación (16, T2) para el cuadro actual (13), donde el segundo estimador (12) está configurado para obtener la segunda estimación (16, T2) buscando el desfase que maximiza una segunda función de correlación en un segundo subintervalo (52) que contiene el desfase de tono (51, 19") seleccionado para el cuadro previo, un selector (17) configurado para elegir (S103) un valor seleccionado (19, Tmejor) realizando una selección entre la primera estimación (14, T1) y la segunda estimación (16, T2) sobre la base de una primera y una segunda mediciones de correlación (23, 25), donde el selector (17) está configurado para realizar una comparación entre: una versión a escala reducida (24) de una primera medición de autocorrelación normalizada (23) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la primera estimación (14, T1); y
una segunda medición de autocorrelación normalizada (25) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la segunda estimación (16, T2),
para seleccionar la primera estimación (14, T1) cuando la segunda medición de autocorrelación normalizada (25) es menor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23), y/o para seleccionar la segunda estimación (16, T2) cuando la segunda medición de autocorrelación normalizada (25) es mayor que la versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23).
2. El aparato (60a) de la reivindicación 1, que comprende además:
una unidad de detección (10, 65) que comprende el primer estimador, el segundo estimador y el selector (17); y una herramienta de posfiltrado a largo plazo, LTPF, (66) configurada para codificar datos útiles para realizar el LTPF en un decodificador (60b), incluyendo los datos útiles para realizar el LTPF el valor seleccionado (19, Tmejor).
3. El aparato de la reivindicación 1, que comprende además, aguas abajo hacia el selector (17), una herramienta de posfiltrado a largo plazo, LTPF, (66) para controlar un posfiltro a largo plazo (67) en un aparato decodificador (60b).
4. El aparato de cualquiera de las reivindicaciones anteriores, configurado para comparar la armonía del valor seleccionado (19, Tmejor) con un umbral de posfiltrado a largo plazo, LTPF, predeterminado, para evitar codificar el valor seleccionado (19, Tmejor) en caso de que la armonicidad del valor seleccionado (19, Tmejor) esté por debajo del umbral predeterminado.
5. El aparato de cualquiera de las reivindicaciones anteriores, donde:
el segundo subintervalo (52) contiene desfases (T) dentro de una distancia menor que un umbral de número de desfases predefinido desde el desfase de tono (51, 19'') seleccionado para el cuadro previo.
6. El aparato de cualquiera de las reivindicaciones anteriores, donde el segundo estimador (12) está configurado para:
buscar un valor máximo entre los valores de la segunda función de correlación para asociar la segunda estimación (16) con el desfase (T2) asociado al valor máximo entre los valores de la segunda función de correlación.
7. El aparato de cualquiera de las reivindicaciones anteriores, donde la primera función de correlación está restringida a desfases en un primer subintervalo.
8. El aparato de la reivindicación 7, donde el primer subintervalo contiene un número de desfases mayor que el segundo subintervalo (52), y/o al menos algunos de los desfases en el segundo subintervalo (52) están comprendidos en el primer subintervalo.
9. El aparato de cualquiera de las reivindicaciones anteriores, donde el primer estimador (11) está configurado para:
ponderar los valores de medición de correlación de la primera función de correlación usando una función de ponderación monótonamente decreciente antes de buscar el desfase (T1) que maximiza la primera función de correlación.
10. El aparato de cualquiera de las reivindicaciones anteriores, donde el primer estimador (11) está configurado para obtener la primera estimación T realizando al menos algunas de las siguientes operaciones:
Ti - argmáx Rw (k)
k=km{ri"’kmáx
Figure imgf000029_0001
n= O
siendo w(k) una función de ponderación, estando
siendo R un valor de medición de autocorrelación estimado sobre la base de la señal de audio o una versión procesada de la misma, y siendo N la longitud de cuadro, siendo x la señal de audio.
11. El aparato de cualquiera de las reivindicaciones anteriores, donde el segundo estimador (12) está configurado para obtener la segunda estimación T2 mediante la realización de:
T2 = argmáx R(k)
k = kmín—tcTnix
siendo ^mín máx(fcml'n, Tprev S) km¿x Iluuk,vmá^' lprev ^ UJ t siendo Tprev la estimación seleccionada en el cuadro anterior, siendo 5 una distancia desde Tprev, estando
desfase máximo, siendo R un valor de medición de autocorrelación estimado sobre la base de la señal de audio o una versión procesada de la misma.
12. El aparato de cualquiera de las reivindicaciones anteriores, donde selector (17) está configurado para realizar una selección de la estimación de desfase de tono Tcurr en términos de
Tl s i n o rm co rr (x,N, 7^} < « n o m c o r r (jc, N, J1I )
T curr T2 de l o c o n t r a r io
siendo T1 la primera estimación, siendo T2 la segunda estimación, siendo x un valor de la señal de audio o una versión procesada de la misma, siendo normcorr(x, N,T) la medición de correlación normalizada de la señal x de longitud N en el desfase T, siendo a un coeficiente de reducción de escala.
13. El aparato de cualquiera de las reivindicaciones anteriores, configurado para obtener la primera y la segunda medición de autocorrelación normalizada usando la misma función de correlación hasta una función de ponderación.
14. El aparato de cualquiera de las reivindicaciones anteriores, configurado para obtener la primera medición de autocorrelación normalizada como la versión normalizada de la primera estimación hasta una función de ponderación.
15. El aparato de cualquiera de las reivindicaciones anteriores, configurado para obtener la segunda medición de autocorrelación normalizada como la versión normalizada de la segunda estimación.
16. El aparato de cualquiera de las reivindicaciones anteriores, que comprende además un codificador de transformada (62) configurado para generar una representación (63a) de la señal de información (61) o una versión procesada de la misma.
17. Un sistema (60) que comprende un lado codificador (10, 60a) y un lado decodificador (60b), comprendiendo el lado codificador el aparato según cualquiera de las reivindicaciones anteriores, comprendiendo el lado decodificador una herramienta de posfiltrado a largo plazo (67) controlada sobre la base de la estimación del desfase de tono seleccionado por el selector (17).
18. Un procedimiento (100) para determinar un desfase de tono para una señal dividida en cuadros, que comprende:
realizar una primera estimación para un cuadro actual (S101) para obtener una primera estimación (14) como el desfase (T1) que maximiza una primera función de correlación asociada al cuadro actual (13);
realizar una segunda estimación para el cuadro actual (S102) obtenida buscando el desfase (T2) que maximiza una segunda función de correlación en un segundo subintervalo (52) que contiene el desfase de tono (51, 19'') seleccionado para el cuadro previo, donde realizar la segunda estimación se obtiene sobre la base del resultado de una etapa de selección realizada en el cuadro previo; y
seleccionar entre la primera estimación (14, T1) obtenida en la primera estimación y la segunda estimación (16, T2) obtenida en la segunda estimación sobre la base de una primera y una segunda medición de autocorrelación normalizada (S103),
donde la selección incluye realizar una comparación entre:
una versión a escala reducida (24) de la primera medición de autocorrelación normalizada (23) asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la primera estimación (14, T1);
la segunda medición de autocorrelación normalizada (25), asociada al cuadro actual (13) y obtenida en un desfase correspondiente a la segunda estimación (16, T2); y
seleccionar la primera estimación (14, T1) cuando la segunda medición de autocorrelación normalizada (25) es menor que la versión a escala reducida de la primera medición de autocorrelación normalizada (23), y/o seleccionar la segunda estimación (16, T2) cuando la segunda medición de autocorrelación normalizada (25) es mayor que la versión a escala reducida de la primera medición de autocorrelación normalizada (23).
19. El procedimiento de la reivindicación 18, que comprende además usar el desfase seleccionado para el posfiltrado a largo plazo, LTPF.
20. Un procedimiento (100) para codificar un flujo de bits para una señal dividida en cuadros, que comprende:
realizar el procedimiento de las reivindicaciones 18 o 19; y
codificar datos útiles para realizar el posfiltrado a largo plazo, LTPF, en el decodificador (60b), incluyendo los datos útiles para realizar el LTPF el valor seleccionado (19, Tmejor).
21. El procedimiento de cualquiera de las reivindicaciones 18-20, que comprende además usar el desfase seleccionado para el ocultamiento de paquetes perdidos, PLC.
22. Un programa que comprende instrucciones que, cuando se ejecutan por un procesador (111), hacen que el procesador realice un procedimiento según cualquiera de las reivindicaciones 18-21.
ES18795669T 2017-11-10 2018-11-05 Selección de desfase de tono Active ES2900058T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17201091.0A EP3483886A1 (en) 2017-11-10 2017-11-10 Selecting pitch lag
PCT/EP2018/080195 WO2019091922A1 (en) 2017-11-10 2018-11-05 Selecting pitch lag

Publications (1)

Publication Number Publication Date
ES2900058T3 true ES2900058T3 (es) 2022-03-15

Family

ID=60301906

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18795669T Active ES2900058T3 (es) 2017-11-10 2018-11-05 Selección de desfase de tono

Country Status (18)

Country Link
US (1) US11380341B2 (es)
EP (2) EP3483886A1 (es)
JP (1) JP7079325B2 (es)
KR (1) KR102426050B1 (es)
CN (1) CN111566733B (es)
AR (1) AR114388A1 (es)
AU (1) AU2018363670B2 (es)
BR (1) BR112020009114A2 (es)
CA (1) CA3082175C (es)
ES (1) ES2900058T3 (es)
MX (1) MX2020004786A (es)
PL (1) PL3707718T3 (es)
PT (1) PT3707718T (es)
RU (1) RU2742739C1 (es)
SG (1) SG11202004203WA (es)
TW (1) TWI728277B (es)
WO (1) WO2019091922A1 (es)
ZA (1) ZA202002521B (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021076297A1 (en) * 2019-10-19 2021-04-22 Google Llc Self-supervised pitch estimation
US11699209B2 (en) * 2020-10-22 2023-07-11 Huawei Cloud Computing Technologies Co., Ltd. Method and apparatus for embedding and extracting digital watermarking for numerical data

Family Cites Families (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH05281996A (ja) * 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3402748B2 (ja) * 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
JPH0811644A (ja) 1994-06-27 1996-01-16 Nissan Motor Co Ltd ルーフモール取付構造
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
DE69619284T3 (de) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
WO1999016050A1 (en) 1997-09-23 1999-04-01 Voxware, Inc. Scalable and embedded codec for speech and audio signals
JP3344962B2 (ja) 1998-03-11 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置、及びオーディオ信号復号化装置
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
EP1139665A1 (en) 2000-03-29 2001-10-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for changing the output delay of audio or video data encoding
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7395209B1 (en) 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
AU2001270365A1 (en) 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
JP4287637B2 (ja) 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
ES2273216T3 (es) * 2003-02-11 2007-05-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
KR20030031936A (ko) * 2003-02-13 2003-04-23 배명진 피치변경법을 이용한 단일 음성 다중 목소리 합성기
US20040162866A1 (en) 2003-02-19 2004-08-19 Malvar Henrique S. System and method for producing fast modulated complex lapped transforms
EP1634278B1 (en) 2003-06-17 2011-03-23 Panasonic Corporation Receiving apparatus, sending apparatus and transmission system
JP4719674B2 (ja) 2003-06-30 2011-07-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズの加算によるデコードオーディオの品質の向上
US7620545B2 (en) 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
KR100550003B1 (ko) * 2003-07-11 2006-02-08 학교법인연세대학교 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
CN1826634B (zh) * 2003-07-18 2010-12-01 皇家飞利浦电子股份有限公司 低比特率音频编码
AU2003302486A1 (en) 2003-09-15 2005-04-06 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
US7009533B1 (en) 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
KR20050087956A (ko) 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
DE102004009954B4 (de) 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
EP1722359B1 (en) 2004-03-05 2011-09-07 Panasonic Corporation Error conceal device and error conceal method
US7272567B2 (en) 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
NZ562182A (en) 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
KR20070037945A (ko) 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US20070118361A1 (en) 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US9123350B2 (en) 2005-12-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8781842B2 (en) 2006-03-07 2014-07-15 Telefonaktiebolaget Lm Ericsson (Publ) Scalable coding with non-casual predictive information in an enhancement layer
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
EP2030199B1 (en) 2006-05-30 2009-10-28 Koninklijke Philips Electronics N.V. Linear predictive coding of an audio signal
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8015000B2 (en) 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
DE602007012116D1 (de) 2006-08-15 2011-03-03 Dolby Lab Licensing Corp Arbiträre formung einer temporären rauschhüllkurve ohne nebeninformation
FR2905510B1 (fr) 2006-09-01 2009-04-10 Voxler Soc Par Actions Simplif Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
US7752038B2 (en) 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
JPWO2008072701A1 (ja) 2006-12-13 2010-04-02 パナソニック株式会社 ポストフィルタおよびフィルタリング方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
JP4928366B2 (ja) * 2007-06-25 2012-05-09 日本電信電話株式会社 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP4572218B2 (ja) 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US10795949B2 (en) 2007-07-26 2020-10-06 Hamid Hatami-Hanza Methods and systems for investigation of compositions of ontological subjects and intelligent systems therefrom
WO2009027606A1 (fr) 2007-08-24 2009-03-05 France Telecom Codage/decodage par plans de symboles, avec calcul dynamique de tables de probabilites
JP5539203B2 (ja) 2007-08-27 2014-07-02 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された音声及びオーディオ信号の変換符号化
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
BRPI0818927A2 (pt) 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
WO2009066869A1 (en) 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
CA2711047C (en) 2007-12-31 2015-08-04 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
KR101228165B1 (ko) 2008-06-13 2013-01-30 노키아 코포레이션 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체
EP2311034B1 (en) 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2346029B1 (en) 2008-07-11 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and corresponding computer program
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
TWI419148B (zh) 2008-10-08 2013-12-11 Fraunhofer Ges Forschung 多解析度切換音訊編碼/解碼方案
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
JP2012516462A (ja) 2009-01-28 2012-07-19 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報、オーディオ信号を符号化および復号化する方法およびコンピュータ・プログラム
JP4945586B2 (ja) 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US20100223061A1 (en) 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
FR2944664A1 (fr) * 2009-04-21 2010-10-22 Thomson Licensing Dispositif et procede de traitement d'images
US8352252B2 (en) 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
PL2471061T3 (pl) 2009-10-08 2014-03-31 Fraunhofer Ges Forschung Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej
EP3693963B1 (en) 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
CN102667923B (zh) 2009-10-20 2014-11-05 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
BR122020024243B1 (pt) 2009-10-20 2022-02-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio.
US7978101B2 (en) 2009-10-28 2011-07-12 Motorola Mobility, Inc. Encoder and decoder using arithmetic stage to compress code space that is not fully utilized
US8207875B2 (en) 2009-10-28 2012-06-26 Motorola Mobility, Inc. Encoder that optimizes bit allocation for information sub-parts
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
SG182466A1 (en) 2010-01-12 2012-08-30 Fraunhofer Ges Forschung Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value
US20110196673A1 (en) 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
FR2961980A1 (fr) 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
CA3093517C (en) 2010-07-02 2021-08-24 Dolby International Ab Audio decoding with selective post filtering
AU2011287747B2 (en) 2010-07-20 2015-02-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an optimized hash table
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
US9270807B2 (en) * 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
AR088777A1 (es) 2011-03-18 2014-07-10 Fraunhofer Ges Forschung Transmision de longitud de elemento de cuadro en la codificacion de audio
CA2833868C (en) 2011-04-21 2019-08-20 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
WO2012152764A1 (en) 2011-05-09 2012-11-15 Dolby International Ab Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
FR2977969A1 (fr) 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
US9363339B2 (en) 2011-07-12 2016-06-07 Hughes Network Systems, Llc Staged data compression, including block level long range compression, for data streams in a communications system
CA2848275C (en) 2012-01-20 2016-03-08 Sascha Disch Apparatus and method for audio encoding and decoding employing sinusoidal substitution
KR101621287B1 (ko) * 2012-04-05 2016-05-16 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9026451B1 (en) 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
PL2874149T3 (pl) 2012-06-08 2024-01-29 Samsung Electronics Co., Ltd. Sposób i urządzenie do ukrywania błędu ramki oraz sposób i urządzenie do dekodowania audio
GB201210373D0 (en) 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CN102779526B (zh) * 2012-08-07 2014-04-16 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
US9406307B2 (en) 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
CN107481725B (zh) 2012-09-24 2020-11-06 三星电子株式会社 时域帧错误隐藏设备和时域帧错误隐藏方法
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
ITBO20120619A1 (it) 2012-11-09 2014-05-10 Tissue Machinery Co Spa Apparato e metodo di confezionamento di pannolini o altri oggetti sanitari morbidi piatti ripiegati.
US9318116B2 (en) 2012-12-14 2016-04-19 Disney Enterprises, Inc. Acoustic data transmission based on groups of audio receivers
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
ES2881510T3 (es) 2013-02-05 2021-11-29 Ericsson Telefon Ab L M Método y aparato para controlar la ocultación de pérdida de trama de audio
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
MX352092B (es) 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
CA2916150C (en) * 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
JP6385433B2 (ja) 2013-10-18 2018-09-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
BR122022008597B1 (pt) 2013-10-31 2023-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro que modifica um sinal de excitação de domínio de tempo
CA2927990C (en) 2013-10-31 2018-08-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
RU2643646C2 (ru) 2013-11-13 2018-02-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции
GB2524333A (en) 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
EP4336500A3 (en) 2014-04-17 2024-04-03 VoiceAge EVS LLC Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US9396733B2 (en) 2014-05-06 2016-07-19 University Of Macau Reversible audio data hiding
NO2780522T3 (es) 2014-05-15 2018-06-09
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
WO2016016724A2 (ko) 2014-07-28 2016-02-04 삼성전자 주식회사 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
SG11201509526SA (en) * 2014-07-28 2017-04-27 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10296959B1 (en) 2015-03-30 2019-05-21 Audible, Inc. Automated recommendations of audio narrations
US9886963B2 (en) 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6422813B2 (ja) 2015-04-13 2018-11-14 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
US9978400B2 (en) 2015-06-11 2018-05-22 Zte Corporation Method and apparatus for frame loss concealment in transform domain
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20170000933A (ko) * 2015-06-25 2017-01-04 한국전기연구원 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템
US9830921B2 (en) 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
KR20180040716A (ko) 2015-09-04 2018-04-20 삼성전자주식회사 음질 향상을 위한 신호 처리방법 및 장치
US9978381B2 (en) 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10219147B2 (en) 2016-04-07 2019-02-26 Mediatek Inc. Enhanced codec control
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
CN107945809B (zh) * 2017-05-02 2021-11-09 大连民族大学 一种复调音乐多音高估计方法

Also Published As

Publication number Publication date
CN111566733B (zh) 2023-08-01
RU2742739C1 (ru) 2021-02-10
JP2021502596A (ja) 2021-01-28
EP3707718A1 (en) 2020-09-16
AU2018363670A1 (en) 2020-05-21
BR112020009114A2 (pt) 2020-10-13
JP7079325B2 (ja) 2022-06-01
AR114388A1 (es) 2020-09-02
TWI728277B (zh) 2021-05-21
US11380341B2 (en) 2022-07-05
US20200273475A1 (en) 2020-08-27
CN111566733A (zh) 2020-08-21
KR20200083565A (ko) 2020-07-08
CA3082175C (en) 2022-11-01
PL3707718T3 (pl) 2022-02-21
WO2019091922A1 (en) 2019-05-16
ZA202002521B (en) 2021-10-27
TW201923755A (zh) 2019-06-16
PT3707718T (pt) 2021-12-27
SG11202004203WA (en) 2020-06-29
EP3707718B1 (en) 2021-10-13
EP3483886A1 (en) 2019-05-15
CA3082175A1 (en) 2019-05-16
AU2018363670B2 (en) 2021-02-18
MX2020004786A (es) 2020-08-13
KR102426050B1 (ko) 2022-07-28

Similar Documents

Publication Publication Date Title
ES2928307T3 (es) Remuestreo por interpolación de una señal de audio para una codificación/decodificación de bajo retardo
ES2434947T3 (es) Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz
EP2054880B1 (en) Time-warping of decoded audio signal after packet loss
WO2010031049A1 (en) Improving celp post-processing for music signals
JP7004474B2 (ja) オーディオ信号の符号化および復号
ES2642574T3 (es) Generación de ruido de confort
US20230368802A1 (en) Burst frame error handling
ES2900058T3 (es) Selección de desfase de tono
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
JP2004519741A (ja) 音声の符号化