ES2923098T3 - Aparato y procedimiento de procesamiento de una señal de audio - Google Patents

Aparato y procedimiento de procesamiento de una señal de audio Download PDF

Info

Publication number
ES2923098T3
ES2923098T3 ES18714687T ES18714687T ES2923098T3 ES 2923098 T3 ES2923098 T3 ES 2923098T3 ES 18714687 T ES18714687 T ES 18714687T ES 18714687 T ES18714687 T ES 18714687T ES 2923098 T3 ES2923098 T3 ES 2923098T3
Authority
ES
Spain
Prior art keywords
signal
audio signal
frequency
bandwidth
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18714687T
Other languages
English (en)
Inventor
Patrick Gampp
Christian Uhle
Sascha Disch
Antonios Karampourniotis
Julia Havenstein
Oliver Hellmuth
Jürgen Herre
Peter Prokein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2923098T3 publication Critical patent/ES2923098T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un aparato para procesar una señal de audio comprende un separador para separar una primera parte de un espectro de la señal de audio de una segunda parte del espectro de la señal de audio, teniendo la primera parte una primera característica de señal y teniendo la segunda parte una segunda señal. característica. El aparato comprende un primer extensor de ancho de banda para extender el ancho de banda de la primera parte usando primeros parámetros asociados con la primera característica de la señal, para obtener una primera parte extendida y comprende un segundo extensor de ancho de banda para extender el ancho de banda de la segunda parte usando segundos parámetros asociados con la segunda característica de señal, para obtener una segunda porción extendida. El aparato comprende un combinador configurado para utilizar la primera parte extendida y la segunda parte extendida para obtener una señal de audio combinada extendida. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Aparato y procedimiento de procesamiento de una señal de audio
[0001] En aplicaciones multimedia, las señales de audio a menudo se codifican utilizando procedimientos de codificación perceptual dedicados como MPEG1/2 Layer 3 ("mp3"), codificación de audio avanzada (AAC) MPEG2/4, etc. Al decodificar la señal de audio codificada, se pueden aplicar diversos procedimientos de procesamiento para reconstruir la señal de audio que se codificó originalmente. Sin embargo, debido a las operaciones de codificación con pérdidas tales como cuantificación perceptualmente adaptada o técnicas de codificación paramétrica tales como replicación del ancho de banda espectral (SBR), es posible obtener artefactos en la señal de audio decodificada que podrían ser perturbadores.
[0002] Durante mucho tiempo, los codificadores de audio perceptuales se han desarrollado para preservar ante todo la calidad perceptual de las señales originales. Si la señal codificada y no codificada es perceptualmente indistinguible, esta propiedad se llama "transparencia perceptual".
[0003] Sin embargo, la transparencia solo puede lograrse si la velocidad binaria disponible (es decir, la cantidad de datos utilizados) es lo suficientemente alta. En los últimos años se comprendió que, a bajas velocidades binarias, la satisfacción perceptual es más importante que la proximidad al original en un sentido de transparencia. Por lo tanto, los esquemas de codificación perceptual bien establecidos como MP3 o AAC pueden sonar subóptimos hasta la fecha en comparación con las estrategias de codificación modernas que apuntan a la satisfacción perceptual.
[0004] A continuación, se describen brevemente algunos artefactos de codificación.
El artefacto de Birdies
[0005] En la codificación de transformada de baja velocidad binaria, a menudo los cuantificadores para la codificación de las líneas espectrales tienen que ajustarse a una precisión muy gruesa, de modo que su intervalo dinámico es poliadaptado a la señal. Como resultado, muchas líneas espectrales se cuantifican a 0 por la zona muerta del cuantificador o al valor 1, correspondiente a la primera etapa del cuantificador. Con el tiempo, las líneas espectrales o grupos de líneas pueden alternar entre 0 y 1, introduciendo así la modulación temporal no deseada. Este artefacto se llama "Birdies" ya que recuerda al gorjeo de un pájaro. Por lo tanto, esta fuerte presencia variable en el tiempo de orificios espectrales e islas espectrales es un comportamiento de códec no deseado que conduce a artefactos perceptuales objetables, véase [2] y [3].
Limitación del ancho de banda
[0006] Otro artefacto de codificación bien conocido es la limitación del ancho de banda. Si, en condiciones de codificación de baja velocidad binaria, el presupuesto de bits disponible es insuficiente para acomodar la precisión necesaria para la transparencia, los códecs heredados a menudo introdujeron un paso bajo estático para limitar el ancho de banda de audio. Esto puede conducir a una impresión de sonido apagado y amortiguado, véase [2] y [3]. Artefacto de pico tonal
[0007] Este artefacto aparece en relación con procedimientos de extensión artificial de ancho de banda tales como replicación de banda espectral (SBR), véase [4], cuando la relación tonal a ruido se ha sobreestimado. En este caso, los componentes tonales se recrean con demasiada energía que conduce a un sonido metálico, véase [3]. Artefacto de batido
[0008] Además del artefacto de pico tonal, el artefacto de batido aparece junto con la extensión artificial del ancho de banda. El batido crea la percepción de rugosidad y emerge de dos componentes tonales con una distancia de frecuencia cercana que puede ser causada por el copiado como se utiliza en SBR, véase [3].
[0009] Por lo tanto, es un objetivo detectar si la señal de audio se sometió a un procesamiento que es capaz de introducir artefactos y/o reducir dichos artefactos.
[0010] Un ejemplo para un procedimiento de procesamiento que puede ser una fuente para artefactos es la replicación de banda espectral (SBR) que es un procedimiento semiparamétrico para extender el ancho de banda de una señal de audio en el lado del decodificador. En una primera etapa, partes del espectro de señal de paso bajo transmitido se replican copiando los coeficientes espectrales de la región de frecuencias más bajas a más altas. En una segunda etapa, se ajusta la envoltura espectral. El ajuste de la envoltura espectral se realiza de modo que la forma gruesa del espectro coincida con una diana dada, mientras que la estructura fina permanece sin modificar.
[0011] Se desea la detección de SBR porque de la información obtenida se puede concluir que
1. Las señales se han comprimido por medio de la codificación de audio perceptual (es decir, con pérdidas). De ello se desprende que es apropiada una aplicación de procedimientos de mejora que aborden los tipos de artefactos mencionados anteriormente.
2. La calidad de sonido de la señal puede mejorarse potencialmente mediante procedimientos dedicados para reducir la audibilidad de los artefactos que han sido introducidos por la SBR. Dichos procedimientos se benefician del conocimiento sobre la frecuencia de inicio a la que la SBR está en términos prácticos.
[0012] La frecuencia de inicio a la que la SBR está en términos prácticos es de interés para los posprocesamientos que mejoran la calidad del sonido al mitigar los artefactos introducidos por SBR. Por lo tanto, existe la necesidad de detectar la SBR y estimar la frecuencia de inicio de la SBR. En particular, es un deseo determinar si dicha mejora es deseada o no. Por ejemplo, no es apropiado para señales de alta calidad de sonido, porque la mejora puede degradar la calidad del sonido cuando la señal de audio es de alta calidad de sonido.
[0013] Se describe un procedimiento de detección de SBR en el documento US 9.117.440 B2. El procedimiento descrito opera en señales de subbanda que se calculan utilizando un banco de filtros o una transformada tiempofrecuencia. A continuación cuantifica la relación entre múltiples subbandas por medio de una correlación cruzada, es decir, multiplicando las muestras correspondientes y acumulando estos productos a lo largo del tiempo.
[0014] Otro ejemplo para una fuente de artefactos es la reducción del ancho de banda (BR), que también se refiere como limitación del ancho de banda (BL). Cuando el ancho de banda está drásticamente limitado, se percibe una degradación de la calidad del sonido y se desea una mejora de la calidad. Dicha mejora de la calidad puede comprender una extensión del ancho de banda (BWE), que solo debe aplicarse si es necesario, es decir, cuando el ancho de banda natural de las señales se ha reducido drásticamente de manera artificial. En [1] se describe un procedimiento para BWE que utiliza una estimación del ancho de banda. El ancho de banda se estima detectando la frecuencia más alta presente en la señal en un momento dado. Este procedimiento es propenso a errores de detección de falsos positivos, porque una señal de audio puede tener un ancho de banda limitado por naturaleza, ya que el mecanismo que generó la señal solo ha generado energía a frecuencias más bajas.
[0015] "Methods for Low Bitrate Coding Enhancement Part I: Spectral Restoration", 2017 AES International Conference on Automotive Audio, 29 de agosto de 2017, páginas 1-8, se refiere a codificadores de audio perceptuales e introduce dos algoritmos de posprocesamiento para restaurar la calidad de señal espacial de señales de audio comprimidas decodificadas, donde ambos algoritmos funcionan con un solo extremo, es decir, sin acceso a la velocidad binaria u otra información colateral.
[0016] En el documento US 2011/0075832 A1 se describe un extensor de banda de voz que incluye un separador de componentes para recibir una señal vocal limitada por banda a través de una línea de telecomunicaciones para separar la señal vocal en una señal con supresión de ruido y una señal de ruido extraída, un extensor de componente de señal con supresión de ruido para añadir una señal que tiene su banda de frecuencias más altas que la de la señal con supresión de ruido para producir así una señal con supresión de ruido extendida, un extensor de componente de señal de ruido extraída para producir una señal de ruido extraída extendida, un ajustador de intensidad de señal para ajustar la intensidad de señal de cualquiera o ambas de la señal con supresión de ruido extendida y la señal de ruido extraída extendida, y un sintetizador para combinar la señal con supresión de ruido extendida y la señal de ruido extraída extendida obtenidas por el ajuste de intensidad. Las bandas de frecuencia respectivas de la señal de ruido extraída y la señal con supresión de ruido se extienden de este modo.
[0017] "Phase Derivative Correction of Bandwidth-Extended Signals for Perceptual Audio Codecs", en AES 140th Convention, 4-7 de junio de 2016, se refiere a los procedimientos de extensión de ancho de banda que se utilizan a menudo en códecs de baja velocidad binaria, que permiten transmitir solo una región de baja frecuencia relativamente estrecha junto con información paramétrica sobre las bandas más altas. La señal para las bandas más altas se obtiene simplemente copiándola de la región de baja frecuencia transmitida. La señal copiada se procesa multiplicando el espectro de magnitud con ganancias adecuadas en función de los parámetros transmitidos para obtener un espectro de magnitud similar al de la señal original. Sin embargo, el espectro de fase de la señal copiada generalmente no se procesa, sino que se utiliza directamente. El artículo describe cuáles son las consecuencias perceptuales del uso directo del espectro de fase copiado. En función de los efectos observados, se proponen dos métricas para detectar los efectos perceptualmente más significativos. En función de estos, se proponen procedimientos para corregir el espectro de fase, así como estrategias para minimizar la cantidad de valores de parámetros adicionales transmitidos para realizar la corrección.
[0018] En el documento US 2016/0329061 A1 se describe un módulo muestreador que divide una señal de audio en una serie de muestras secuenciales. Un módulo detector de calidad de señal puede identificar una frecuencia de pared de ladrillo consistente de la señal de audio que abarca una pluralidad de muestras secuenciales en un comienzo de la señal de audio y determinar una indicación de tratamiento de señal proporcional a la frecuencia de pared de ladrillo. Un módulo potenciador de señal puede recibir y analizar secuencialmente uno o más componentes de muestra de la señal de audio para identificar partes perdidas de la señal de audio en los uno o más componentes de muestra de muestras secuenciales respectivas, y generar, de acuerdo con la indicación de calidad de señal, un tratamiento de señal correspondiente para cada uno de los uno o más componentes de muestra de muestras secuenciales respectivas que tienen una parte perdida identificada correspondiente.
[0019] En resumen, los codificadores de audio perceptuales se utilizan ampliamente, cuando el espacio de almacenamiento o el ancho de banda de flujo continuo para el contenido de audio es limitado. Si la velocidad de compresión aplicada es muy alta (y la velocidad de transmisión de datos utilizada después de la compresión es muy baja), se introducen varios artefactos de codificación que degradan la calidad de audio percibida.
[0020] Por lo tanto, un objeto de la invención es proporcionar una identificación mejorada de señales de audio que comprende una característica que se obtiene mediante procesamiento de audio propenso a artefactos y/o proporcionar un concepto para reducir dichos artefactos a través de la aplicación de posprocesamientos dedicados a dicho material de audio.
[0021] Este objeto se logra mediante la materia objeto según las reivindicaciones independientes.
[0022] Los inventores han descubierto que al realizar una extensión de ancho de banda para diferentes porciones que tienen diferentes características de señal de una señal de audio de manera diferente, la mejora de las diferentes porciones y/o características puede realizarse independientemente entre sí para obtener una señal combinada con una alta calidad que comprende primeras porciones mejoradas y segundas porciones mejoradas. El procesamiento de las diferentes características de señal de manera diferente puede permitir adaptar el procesamiento en función de las características respectivas.
[0023] Según la presente invención, se proporciona un aparato, un procedimiento y un medio de almacenamiento no transitorio, como se expone en las reivindicaciones independientes adjuntas.
[0024] En las reivindicaciones dependientes se definen realizaciones preferibles de la presente invención.
[0025] Las realizaciones descritas a continuación son simplemente ilustrativas de los principios de la presente invención.
[0026] Para una comprensión más completa de la presente descripción, y las ventajas de la misma, se hace referencia ahora a las siguientes descripciones tomadas en conjunto con los dibujos adjuntos, en los que:
La Fig. 1 muestra un diagrama de bloques esquemático de un aparato para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio, según una realización de un primer aspecto;
La Fig. 2a muestra un gráfico esquemático que ilustra un espectro ejemplar según una realización del primer aspecto, que puede derivarse de una señal de audio a partir de la cual se puede obtener el espectro de la Fig. 1;
La Fig. 2b muestra un diagrama ejemplar esquemático de la señal de máximo local sobre la misma abscisa de frecuencia que en la Fig. 2a según una realización del primer aspecto;
La Fig. 3 muestra un gráfico esquemático según una realización del primer aspecto para determinar la similitud utilizando una regla de determinación;
La Fig. 4 muestra un ejemplo de una función de similitud posprocesada según una realización del primer aspecto, que se ilustra como un valor filtrado de la misma;
La Fig. 5 muestra un diagrama de bloques esquemático de un aparato según una realización del primer aspecto que comprende un estimador de frecuencia;
La Fig. 6a muestra una representación gráfica esquemática de una matriz de similitud local ejemplar según una realización del primer aspecto;
La Fig. 6b muestra un diagrama esquemático de una línea de la matriz ilustrada en la Fig. 6a según una realización del primer aspecto;
La Fig. 7 muestra un diagrama de bloques esquemático de un aparato según una realización del primer aspecto, que comprende una calculadora de espectro;
La Fig. 8 muestra un diagrama de flujo esquemático de un procedimiento de determinación de una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio según una realización del primer aspecto;
La Fig. 9 muestra un diagrama de bloques esquemático de un aparato según una realización de un segundo aspecto; La Fig. 10 muestra un diagrama esquemático que ilustra un espectro ejemplar en relación con una realización del segundo aspecto;
La Fig. 11 muestra un diagrama esquemático de un resultado ejemplar de una función de diferencia espectral según una realización del segundo aspecto;
La Fig. 12a muestra un diagrama de bloques esquemático de un aparato según una realización del segundo aspecto, que comprende un estimador de energía;
La Fig. 12b muestra un espectro ejemplar que comprende un flanco descendente a una frecuencia de corte según una realización del segundo aspecto;
La Fig. 12c muestra un diagrama de bloques esquemático de un aparato configurado para procesar una señal de audio que se puede recibir de un decodificador según una realización del segundo aspecto;
La Fig. 12d muestra un diagrama de bloques esquemático de una funcionalidad de un procesador para determinar pesos espectrales según una realización del segundo aspecto;
La Fig. 12e muestra un diagrama de bloques esquemático de un potenciador de señal según una realización del segundo aspecto, configurado para reducir el artefacto de Birdies;
La Fig. 12f muestra un diagrama de flujo esquemático de un procedimiento de procesamiento de una señal de audio según una realización del segundo aspecto;
La Fig. 13a muestra un diagrama de flujo esquemático de un procedimiento de determinación de una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio, según una realización del segundo aspecto;
La Fig. 13b muestra un diagrama de flujo esquemático de un procedimiento adicional de determinación de una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio según una realización del segundo aspecto, evaluando el procedimiento también una frecuencia de corte;
La Fig. 14 muestra un diagrama de bloques esquemático de un aparato según una realización de un tercer aspecto; La Fig. 15 muestra un diagrama esquemático que ilustra un espectro ejemplar que comprende diferentes componentes según una realización del tercer aspecto;
La Fig. 16 muestra un diagrama de bloques esquemático de un aparato según una realización del tercer aspecto; La Fig. 17a muestra un espectro ejemplar de una primera porción de la señal de audio, según una realización del tercer aspecto;
La Fig. 17b muestra un diagrama esquemático de la primera porción que se extiende por un número de dos partes duplicadas según una realización del tercer aspecto;
La Fig. 17c muestra un espectro de magnitud ejemplar que se puede obtener a partir de una conformadora de envoltura que se configura para conformar al menos las porciones extendidas de la Fig. 17b, según una realización del tercer aspecto;
La Fig. 18 muestra un diagrama de bloques esquemático de un blanqueador espectral que se configura para blanquear la señal de audio según una realización del tercer aspecto;
La Fig. 19 muestra una funcionalidad de bloques opcionales siendo un analizador de señal y siendo una tabla de consulta del aparato de la Fig. 16, según una realización del tercer aspecto;
La Fig. 20 muestra un diagrama de flujo esquemático de un procedimiento según una realización del tercer aspecto; La Fig. 21 muestra un diagrama esquemático de un aparato según una realización de un cuarto aspecto;
La Fig. 22 muestra un diagrama de bloques esquemático de un aparato que comprende un separador según una realización del cuarto aspecto; y
La Fig. 23 ilustra un diagrama de flujo esquemático de un procedimiento de procesamiento de una señal de audio según una realización del tercer aspecto.
[0027] Los elementos iguales o equivalentes o elementos con funcionalidad igual o equivalente se indican en la siguiente descripción por números de referencia iguales o equivalentes aunque aparezcan en figuras diferentes.
[0028] Cabe señalar también que las realizaciones descritas en esta invención se refieren al procesamiento de señales digitales. Por lo tanto, todas las señales están limitadas por banda a frecuencias por debajo de la mitad de la frecuencia de muestreo debido al muestreo. La limitación de ancho de banda (artificial) tratada en esta invención se refiere a una limitación de ancho de banda adicional de modo que el ancho de banda de la señal es menor de lo que permitiría la representación digital.
[0029] El primer aspecto y el segundo aspecto se refieren a la identificación de características de señal dentro de una señal de audio que indican que la señal de audio respectiva se sometió a un procesamiento específico. Al identificar la característica respectiva y los parámetros relacionados con esta, se pueden realizar o ejecutar acciones y procesamiento apropiados para reducir o eliminar artefactos que puedan producirse como respuesta al procesamiento. Por lo tanto, se puede entender que la reducción de artefactos que posiblemente se insertan en la señal de audio procesada está relacionada con el primer aspecto, el segundo aspecto, respectivamente.
[0030] Los aspectos tercero y cuarto se refieren a señales de audio de posprocesamiento. Para las señales de audio de posprocesamiento para mejorar una calidad de audio, se puede utilizar información en relación con el procesamiento realizado previamente de la señal de audio, por ejemplo, información según se deriva según el aspecto primero y segundo y/o se puede utilizar en relación con diferentes señales de audio.
[0031] Por lo tanto, a continuación, se hará referencia en primer lugar al aspecto primero y segundo antes de hacer referencia al aspecto tercero y cuarto. El alcance del primer aspecto es la mejora de la calidad de sonido de las señales de audio, en particular de las señales de audio que se han codificado utilizando una compresión con pérdidas u otro procesamiento de señal. La replicación de banda espectral (SBR) es un procedimiento de codificación de audio paramétrica para sintetizar contenido de alta frecuencia de replicación de partes del espectro de señal de audio de frecuencias más bajas, normalmente guiado por información colateral que se transmite en el flujo de bits. El conocimiento sobre la presencia de SBR y la frecuencia de inicio a la que s Br está en términos prácticos (o sinónimo de la frecuencia de corte a la que la señal ha sido limitada por banda antes de SBR) se utiliza o se requiere para mejorar o potenciar la calidad de sonido de las señales de audio. Las realizaciones según el primer aspecto proporcionan un concepto de análisis para recuperar esta información de una señal de audio después de haber sido decodificada sin utilizar la información en el flujo de bits. El concepto descrito es capaz de detectar SBR y otros procesamientos que copian partes del espectro en la subbanda inferior y las pegan a frecuencias más altas. Otro ejemplo excepto SBR para dicho procedimiento es, en función de la configuración específica, el relleno inteligente de huecos (IGF).
[0032] Cuando se comparan con el procedimiento descrito en el documento US 9.117.440 B2, las realizaciones según el primer aspecto mejoran la robustez del análisis con respecto a las modificaciones de la envoltura espectral analizando y probablemente analizando exclusivamente la estructura fina del espectro. Además, tiene menos carga computacional, puesto que la relación se calcula mediante la suma de números binarios en lugar de la multiplicación.
[0033] La Fig. 1 muestra un diagrama de bloques esquemático de un aparato 10 para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio 12, por ejemplo, una SBR y/o un IGF. El aparato 10 comprende un derivador 14 configurado para obtener un espectro de la señal de audio 12 y para derivar información relacionada con una estructura fina del espectro. La estructura fina puede relacionarse con el curso de líneas espectrales dentro del espectro. Dicha información se puede representar, por ejemplo, utilizando una señal de máximo local que indica los extremos locales, por ejemplo, máximos y/o mínimos dentro del espectro. Por ejemplo, la señal de máximo local puede tener un valor predefinido tal como un valor máximo o un valor mínimo en una ubicación del máximo local y un valor diferente en otras ubicaciones. Por ejemplo, en las otras ubicaciones, la señal de máximo local puede comprender un valor mínimo. Alternativamente, la señal de máximo local puede comprender un valor mínimo en el máximo local y un valor máximo en el resto. Como alternativa o además, la señal de máximo local puede representar tanto los máximos locales como los mínimos locales. De esa manera, la estructura fina del espectro puede mantenerse mientras se atenúa o excluye otra información. A modo de ejemplo no limitativo solamente, las realizaciones descritas en esta invención se pueden referir a una señal de máximo local derivada por el derivador 14.
[0034] Para derivar la señal de máximo local del espectro, el derivador 14 puede bien derivar o calcular o determinar el espectro de la señal de audio 12. Como alternativa, el derivador 14 puede recibir una señal que contiene información que indica el espectro o el espectro en sí. Por tanto, la señal ilustrada 12 puede ser una señal en el dominio del tiempo o en el dominio de la frecuencia. El espectro derivado por el derivador 14 o recibido por el derivador 14 puede ser, por ejemplo, un espectro de magnitud o un espectro de energía. Para derivar o calcular dicho espectro, se puede utilizar una transformada de Fourier a corto plazo (STFT) u otras transformadas adecuadas. Al utilizar la STFT, la señal de audio 12 se puede dividir o separar en un número de bloques adecuados y cada bloque se puede someter a la STFT. Esto puede permitir obtener una pluralidad de espectros de la señal de audio, por ejemplo, un espectro para cada bloque.
[0035] Por ejemplo, las señales de subbanda pueden calcularse utilizando un banco de filtros. SBR es un procesamiento donde se replican partes del espectro. Lo mismo suceso con el transporte armónico. En IGF, algunas partes del espectro, por ejemplo, que comprenden un intervalo de alta frecuencia, se atenúan o establecen en 0 y luego se vuelven a rellenar. Cuando se hace referencia a SBR, la envoltura espectral puede modificarse mientras que la estructura fina del espectro puede mantenerse. Por lo tanto, las realizaciones según el primer aspecto proponen un concepto que es robusto a las modificaciones de la envoltura espectral. A tal efecto, el derivador 14 está configurado para derivar una señal de máximo local del espectro. La señal de máximo local se puede definir como un vector de una longitud específica, por ejemplo, según los compartimentos de frecuencia en el espectro, cuyos elementos se establecen en 1 en índices donde el espectro tiene un máximo local y se establece en 0 en caso contrario. Cabe mencionar que pueden aplicarse otras reglas. Por ejemplo, además de los máximos locales, los mínimos locales pueden establecerse en un valor específico, por ejemplo, 1. Como alternativa o adicionalmente, se puede usar un valor diferente, por ejemplo, 0 o un valor diferente de 1 para indicar los máximos y/o mínimos locales. Este procesamiento puede ser similar a una operación de blanqueamiento o aplanamiento que mantiene la estructura fina y elimina toda otra información. La señal de máximo local puede permitir mejorar la identificación de similitudes a medida que la comparación puede implementarse para enfocarse en la estructura de los segmentos comparados.
[0036] La Fig. 2a muestra un gráfico esquemático que ilustra un espectro ejemplar 16 que puede derivarse de la señal 12 o puede ser la señal 12. La abscisa ilustra el índice de frecuencia k donde la ordenada ilustra un valor de magnitud X(k) del espectro 16.
[0037] La Fig. 2b muestra un diagrama ejemplar esquemático de la señal de máximo local Z sobre la misma abscisa de frecuencia k. En los compartimentos de frecuencia k a ki en los que el espectro 16 comprende máximos locales 181 a 187, la función máxima local Z(k) se establece en un valor máximo normalizado tal como 1 y se establece en un valor mínimo normalizado tal como 0 en otras ubicaciones también. La forma triangular en la Fig. 2b puede resultar de una interpolación entre diferentes compartimentos de frecuencia para una mejor comprensión de las figuras. La señal de máximo local Z puede comprender una misma longitud que el espectro X(k). El derivador 14 puede estar configurado para proporcionar una señal 22 que contiene información que indica que la señal de máximo local Z(k) se deriva del espectro 16.
[0038] El aparato 10 puede comprender un determinador 24 configurado para determinar una similitud C( t) entre segmentos de la señal de máximo local. Para la detección del procesamiento de mejora espectral, la similitud entre un primer segmento del vector Z(k), k = ko....k1 y un segundo segmento del vector Z(k + t) puede determinarse o calcularse mediante el derivador 24 en función del retardo o desplazamiento t. Por ejemplo, la similitud C(t) puede calcularse como la suma de los valores absolutos de la diferencia de los dos vectores, es decir, los segmentos de la señal de máximos locales.
[0039] Los segmentos a comparar pueden tener la misma longitud. La longitud depende de la resolución de frecuencia a la que se ha calculado el espectro y la señal de máximos locales. La resolución de frecuencia depende del número de coeficientes espectrales que se calculan. El número de coeficientes para el espectro y la señal de máximos locales es de al menos 16 o 16384 como máximo, pero normalmente se eligen valores entre 256 y 4096. El valor exacto puede seleccionarse dependiendo de la velocidad de muestreo de la señal. El primer segmento puede comprender elementos del vector de señal de máximos locales que corresponden, por ejemplo, a frecuencias en el intervalo entre 2.000 y 15.000 Hz.
[0040] El parámetro t puede variar de 1 a un valor máximo posible en la señal, por ejemplo, que representa la frecuencia máxima o una frecuencia máxima de búsqueda, por ejemplo, relacionada con una frecuencia de corte en la señal de audio 12. Esto puede estar representado como una regla de determinación
Figure imgf000007_0001
( 1)
[0041] La Fig. 3 muestra un gráfico esquemático según un ejemplo que se puede obtener donde se determina la similitud utilizando la regla de determinación dada anteriormente. Una abscisa del gráfico muestra el retardo o desplazamiento t, donde la ordenada muestra un valor de la función de similitud C(t).
[0042] Al determinar el valor de similitud C(t) para una pluralidad de valores del parámetro t, se puede obtener el gráfico ilustrado en la Fig. 3. En las regiones 261 a 263 se pueden obtener variaciones en la señal asociadas con los valores T1, T2, T3 respectivamente del parámetro t. Estas variaciones pueden comprender un máximo local y/o un mínimo local dentro de la función de similitud C(t). Es decir, al desplazar o aplicar un retardo t1, T2, t3, la función de similitud puede mostrar un máximo o mínimo local y, por lo tanto, indicar que al desplazar un segmento respectivo por el retardo T1, T2, T3, se obtiene una señal similar que puede ser un indicador para un procesamiento de mejora espectral. En el ejemplo dado anterior, el retardo máximo t es de 20.000 Hz.
[0043] El determinador puede configurarse para seleccionar al menos un máximo local y/o un mínimo local de los valores de similitud y/o puede seleccionar los valores derivados de estos para determinar la similitud. En particular, las variaciones en las regiones 261, 262 y 263 indican una alta similitud entre los segmentos utilizados en el desplazamiento indicado por el parámetro T1, T2, T3, respectivamente.
[0044] Con referencia nuevamente a la Fig. 1, el determinador 24 puede configurarse para proporcionar una información o señal 28 que indica un resultado de la similitud, por ejemplo, los valores ti, T2 y/o T3 del parámetro t o valores se deriva del mismo. El aparato 10 puede comprender un procesador 32 para proporcionar una información 34 que indica que la señal de audio 12 comprende la característica predeterminada dependiente de una evaluación de la similitud, por ejemplo, mediante la evaluación de la señal 28. Opcionalmente, la función de análisis obtenida, es decir, la función de similitud, se puede procesar adicionalmente, por ejemplo, por el determinador 24 y/o el procesador 32. Por ejemplo, se puede ejecutar un filtrado de paso de banda para atenuar los componentes de desviación en la función de similitud y para aumentar el contraste de los máximos locales de interés dentro de la función de similitud C(t). El aparato 10, por ejemplo, el determinador 24 puede comprender un filtro configurado para filtrar los valores de similitud para obtener valores de similitud filtrados ilustrados en la Fig. 4. El procesador 32 puede configurarse para proporcionar la información 34 para comprender información que indica al menos uno de que la señal de audio se sometió al procesamiento de mejora espectral, una frecuencia de inicio y/o una frecuencia final del procesamiento de mejora espectral.
[0045] La Fig. 4 muestra un ejemplo de una función de similitud posprocesada, ilustrada como un valor filtrado de esta, a saber, H(C(t)) en la ordenada sobre la abscisa que muestra el parámetro t. Por ejemplo, un filtro se implementa como un filtro de respuesta de impulso finito (FIR) que tiene coeficientes de filtro h = [-12 -1]. Esto significa que el elemento de salida de orden k del vector filtrado se calcula mediante una combinación lineal de los elementos en los índices k-1, k y k+1 ponderados con h(1)=-1, h(2) = 2 y h(3)=-1. Esto puede estar representado en función de la regla de determinación:
Figure imgf000008_0001
[0046] Los tres máximos locales más grandes en los valores de parámetro ti, T2 y T3 son provocados por el procesamiento de mejora espectral, por ejemplo, la replicación de banda espectral. Por ejemplo, el procesamiento de SBR puede detectarse cuando aparece un número pequeño de máximos locales con gran magnitud en la función. Un número pequeño puede referirse a un número de como máximo 15, como máximo 10 o como máximo 5 máximos. Según una realización, se investigarán como máximo 13 máximos locales para detectar SBR según configuraciones de SBR del estado de la técnica comunes.
[0047] La gran magnitud puede referirse a un valor que es al menos 3 dB en comparación con la señal regular, al menos 5 dB o al menos 6 dB. Cuando se hace referencia de nuevo a la Fig. 3, los máximos locales en las regiones 261, 262 y 263 pueden hacer referencia a la señal junto a la región respectiva como ruido. Dicho ruido puede atenuarse mediante el posprocesamiento para mejorar la determinación de máximo como se describe en relación con la Fig. 4. Una gran magnitud de los máximos locales se define como mayor que un umbral. El valor exacto del umbral se puede establecer, por ejemplo, manualmente, para que esté en el intervalo de 0,1 y 10, dependiendo del número de valores que se han utilizado para calcular la función de similitud. Normalmente, se puede utilizar un valor de 5.
[0048] Es decir, el procesador 32 puede estar configurado para evaluar un número de máximos locales 26 de valores de similitud o valores derivados de estos y para evaluar una amplitud de los máximos locales 26. El procesador 32 puede configurarse para proporcionar la información 34 que indica que la señal de audio 12 comprende la característica predeterminada cuando el número de máximos 26 que comprende al menos un valor de umbral de amplitud 27 está por debajo de un valor de umbral de número, es decir, un número de máximos locales que excede el valor de umbral de amplitud 27 es lo suficientemente bajo.
[0049] En otras palabras, la Fig. 4 muestra la función de similitud del posprocesamiento. Los máximos locales se muestran como un círculo, el máximo global se resalta con una cruz. El determinador 24 puede configurarse para seleccionar el al menos un máximo local de los valores de similitud filtrados. Las señales armónicas consisten en uno o más sinusoides con una frecuencia fundamental y sus armónicos, es decir, tonos parciales cuyas frecuencias son aproximadamente múltiplos enteros de una frecuencia fundamental. Por lo tanto, uno o más máximos locales pueden aparecer en la función de similitud tal como una función de correlación automática (ACF). Para discriminar entre los máximos locales correspondientes a tonos parciales armónicos y SBR u otro procesamiento de mejora espectral, el intervalo de búsqueda se puede establecer en valores apropiados, siendo claramente más grande, por ejemplo, para SBR que para términos parciales armónicos. Por tanto, el procesador 32 puede configurarse para excluir los armónicos de la señal de audio de la evaluación de la similitud. Esto se puede hacer seleccionando aquellas partes del espectro de la señal de audio que se espera que tengan una cantidad baja o incluso sin armónicos.
[0050] La detección de los máximos locales en los valores de los parámetros n, T2 y T3 puede ser un indicador suficiente para la presencia del procesamiento de mejora espectral. Sin embargo, puede ser ventajoso estimar adicionalmente la frecuencia de inicio del procesamiento de mejora espectral, por ejemplo, la SBR. El resultado de la función de similitud o el máximo local puede describir el desplazamiento al que se ha copiado y pegado una porción del espectro. Para completar, la información sobre la frecuencia de inicio y parada del espectro de subbanda de origen o el espectro de subbanda de destino puede ser de interés.
[0051] La Fig. 5 muestra un diagrama de bloques esquemático de un aparato 50 según una realización. El aparato 50 puede ser una versión extendida del aparato 10 y puede comprender además un estimador de frecuencia 36 configurado para determinar una frecuencia de inicio y/o una frecuencia de parada del procesamiento de mejora espectral. El estimador de frecuencia 36 puede configurarse para proporcionar una información o una señal 38 que comprende la información respectiva que indica la frecuencia de inicio y/o la frecuencia de parada. El estimador de frecuencia 36 puede configurarse para utilizar la señal de máximo local Z(k), por ejemplo, al obtener o recibir la señal 22, para determinar una similitud de elementos entre un elemento de un primer segmento de la señal de máximo local y un elemento correspondiente de un segundo segmento de la señal de máximo local. El segundo segmento puede desplazarse con respecto al primer segmento mediante un número de t muestras. Esto puede denominarse análisis de similitud local (lSa ). La entrada puede ser la representación de la estructura fina del espectro de magnitud, por ejemplo, la señal de máximo local Z(k). El estimador de frecuencia 36, cuando se ejecuta LSA, puede funcionar en la similitud por elementos entre el elemento de orden k en el primer vector Z(k) y el elemento en la posición k+T, Z(k+T). Con este fin, la matriz de similitud local puede calcularse como el valor absoluto de la diferencia de los dos números binarios Z(k) y Z(k+T) según la regla de determinación
Figure imgf000008_0002
[0052] El valor L(k,T) de la matriz de similitud local se puede procesar a continuación mediante un promedio recursivo a lo largo del tiempo. Esto se puede realizar según la regla de determinación.
L [ k . t ) = />£(/.■. r ) (1 - h ) U { l \ r ) .
(3)
donde B(/c,7) denota un búfer que almacena la salida del promedio recursivo de la etapa de tiempo anterior (trama) de la señal de audio y 0 < b <1 es una constante de tiempo que controla el promedio temporal. Por tanto, el estimador de frecuencia 36 puede configurarse para someter la similitud de elementos de una pluralidad de elementos para los segmentos primero y segundo a un promedio recursivo a lo largo del tiempo para obtener una similitud de elementos promediada y para determinar la frecuencia de inicio y/o la frecuencia final utilizando la similitud de elementos promediada. El promedio temporal puede aplicarse opcionalmente solo cuando la trama actual no es silenciosa, es decir, su energía es mayor que un umbral 27 que caracteriza una trama silenciosa a partir de una trama no silenciosa.
[0053] Se puede determinar que una trama es silenciosa si su energía es menor que un umbral, donde el valor exacto del umbral se puede establecer dependiendo de la longitud de la trama y el intervalo en el que se representan los valores de muestra. En general, dicho umbral puede seleccionarse de modo que sea igual a la energía de una señal de ruido rosa que ajusta a escala para ser apenas audible cuando se reproduce con un equipo típico de reproducción de sonido (un teléfono móvil o un televisor) en un ajuste de volumen promedio a alto.
[0054] Es decir, el estimador de frecuencia se puede configurar para someter la similitud de elementos de una pluralidad de elementos de los segmentos primero y segundo a un promedio recursivo a lo largo del tiempo para obtener una similitud de elementos promediada y para determinar la frecuencia de inicio y/o la frecuencia final utilizando la similitud promediada. Cada muestra del espectro se puede asociar con una trama. El estimador de frecuencia puede configurarse para excluir tramas del promedio recursivo a lo largo del tiempo que tienen una energía espectral por debajo de un nivel umbral de energía 27, siendo el nivel umbral de energía 27 relacionado con una consideración de si la trama o espectro es silencioso o no. De esa manera, se pueden evitar los resultados inconsistentes excluyendo las tramas que se consideran silenciosas, ya que esas tramas también se pueden considerar no sujetas a procesamiento de audio.
[0055] Como se describe en relación con la Fig. 4, el resultado del promedio recursivo L(k,T) se puede procesar mediante el filtrado de paso de banda para atenuar el componente de desviación y para aumentar el contraste de los máximos locales de interés, por ejemplo, mediante la convolución de cada fila de la matriz con un núcleo tal como h = [-12 -1].
[0056] La Fig. 6a muestra una representación gráfica esquemática de una matriz de similitud local ejemplar L(k,T), donde una abscisa ilustra los compartimentos de frecuencia (posiciones) k y la ordenada representa el retardo t. Para una mejor visibilidad, se muestran los valores absolutos de la matriz L. La unidad para la posición k y retardo t son compartimentos de frecuencia. Por medio de una muestra no limitativa, un compartimento de frecuencia puede tener un valor de 46,9 Hz, donde se puede obtener cualquier otro valor más pequeño o más grande. Por tanto, la Fig. 4 muestra un ejemplo para una matriz de similitud posprocesada L (k,T) que contiene la siguiente información:
La similitud general como se describe en relación con la Fig. 4 se puede obtener de L(k,T) sumando a lo largo del eje x (parámetro k) y tomando el valor absoluto del resultado. Tres líneas horizontales 381, 382 y 383 en el ejemplo dado corresponden a los máximos locales de la Fig. 4. Las líneas 38-i, 382 y 383 pueden corresponder a líneas a lo largo de las cuales el valor respectivo de la función L(k, t), es decir, la suma de valores, excede un determinado valor umbral, por ejemplo, 0,1, 0,2 o 0,3 del intervalo de valores que varía de 0-1. La posición de inicio y la posición final de las líneas horizontales corresponden a la frecuencia de inicio ks1, ks2, ks3 respectivamente y a la frecuencia final ke1, ke2, ke3 respectivamente de partes repetidas del espectro.
[0057] La Fig. 6b muestra un diagrama esquemático de una línea de la matriz ilustrada en la Fig. 6a en el parámetro t2. En la Fig. 6b, un gráfico 42a muestra, por ejemplo, valores sin filtrar, donde un gráfico 42b puede mostrar valores promediados o filtrados. Por ejemplo, el gráfico 42b se compara con un valor umbral 27 que es, por ejemplo, de 0,2. Un intervalo en el que la matriz de similitud local L(k,T), su valor promedio respectivamente, excede el valor umbral 27, corresponde a la línea horizontal 382 en el índice T2. Como alternativa o adicionalmente, se puede evaluar una inclinación (AL(kj)K) de la matriz de similitud local. Un flanco ascendente inclinado que se aumenta con un cierto valor, por ejemplo, al menos 0,5, al menos 1 o al menos 1,5 puede identificarse como un flanco que identifica la frecuencia de inicio ks2. Por consiguiente, un flanco descendente inclinado y alto respectivo puede identificar la frecuencia final ke2. Como alternativa o adicionalmente, se puede ejecutar un promedio temporal en el espectro de entrada, el espectral de entrada respectivamente y en el resultado o resultados finales. Esto puede permitir evitar detecciones de falsos positivos utilizando el promedio temporal. Un promedio temporal del espectral de entrada puede denominarse preprocesamiento, donde un promedio temporal del resultado final puede denominarse posprocesamiento. Una razón para prevenir las detecciones de falsos positivos es que los máximos locales son normalmente variables en el tiempo debido a tonos parciales. Es decir, debido a que en una melodía se reproducen diferentes tonos musicales o debido a cambios armónicos en la música, los máximos locales pueden variar con el tiempo. En contraste con la presente, algunos parámetros del procesamiento de mejora espectral, tal como SBR, pueden ser un procedimiento técnico que es normalmente invariable en el tiempo, por ejemplo, una frecuencia de flanco a partir de la cual se amplía el espectro, por ejemplo, una frecuencia de corte de un filtrado realizado anteriormente, o las frecuencias de inicio y final del intervalo de frecuencias que se replica.
[0058] Según un ejemplo, para estimar la frecuencia de inicio, se analiza la matriz L de LSA para identificar la posición de inicio y la posición final de cada línea horizontal. La posición de inicio ks puede corresponder al inicio del espectro que se ha replicado. La posición final ke puede corresponder al extremo del espectro que se ha replicado. La posición final más grande del espectro original que se ha utilizado para la replicación es el valor estimado para la frecuencia de inicio a la que la SBR es efectiva. Esto puede ser, por ejemplo, kes en la Fig.6a.
[0059] En primer lugar, la similitud general se puede calcular como
C(t) = ^ L (k ,t),
k = v 1
(4)
[0060] Cuando v^ y v2 son parámetros que determinan un intervalo de valores L(k,f) y pueden seleccionarse, por ejemplo, para definir el intervalo de L{k,f) que tiene un valor dentro de un intervalo de al menos 500 Hz y como máximo 15 kHz.
[0061] A continuación, se detectan máximos locales mi, es decir, 26 en C(t) que son mayores que un umbral, véase, por ejemplo, la Fig. 4. Para cada máximo local, se analizan las filas correspondientes en L(k,T). Por ejemplo, el segundo máximo local m2 indexa la fila R2 = L(k,T2) y se muestra en la Fig.6b. Para este máximo local, un valor de t = 133 puede ser válido y puede comenzar desde k = 74 de acuerdo con la Fig. 5.
[0062] El índice de inicio ks y el índice final ke se pueden calcular primero alisando las líneas respectivas R para obtener, por ejemplo, el gráfico 42b, por ejemplo, al calcular un promedio temporal o móvil de unos pocos valores adyacentes, por ejemplo, al menos 3, al menos 5 o al menos 10. A continuación, se detectan las posiciones en las que la línea suavizada tiene las pendientes que aumentan y disminuyen más inclinadas. Como alternativa o adicionalmente, la pendiente que excede un valor umbral tal como, por ejemplo, 0,2 puede ser un criterio para evaluar la línea respectiva. Es decir, el estimador de frecuencia 36 puede estar configurado para someter la similitud de elementos de una pluralidad de elementos de los segmentos primero y segundo a un promedio recursivo a lo largo del tiempo para obtener una similitud de elementos promediada 42b y para determinar la frecuencia de inicio y/o la frecuencia final utilizando la similitud de elementos promedio 42b. Como alternativa o adicionalmente, el aparato puede estar configurado para realizar un promedio temporal del espectro, de la señal de máximo local o una señal derivada de esta, donde el procesador puede estar configurado para proporcionar la información que indica que la señal de audio comprende la característica predeterminada en función de una información promedio temporal del espectro, la señal de máximo local o una señal derivada de esta.
[0063] Con referencia nuevamente a la Fig. 6a, hay tres líneas horizontales prominentes 381, 382 y 383 para los ejemplos dados en los índices T1, t2 y T3. La línea en el índice t2 puede corresponder a la primera parte del espectro que se ha replicado con el fin de mostrar el comienzo más temprano, es decir, los parámetros más bajos ks. La línea horizontal comienza en el índice ks1 y puede corresponder al retardo t2. Por lo tanto, la primera parte replicada del espectro inicia ks2 y se ha copiado al índice ks2 t2. A modo de ejemplo no limitativo, T1 puede ser 104, t2 puede ser 133 y T3 puede ser 236. ks2 puede comprender, por ejemplo, un valor de 74. Por lo tanto, la primera parte replicada del espectro comienza en el índice 74 y puede haber sido copiada al índice 74 133. Por lo tanto, este índice corresponde a la frecuencia con la que está en términos prácticos el procesamiento de mejora espectral (SBR).
[0064] El estimador de frecuencia 36 descrito en relación con la Fig. 5 puede estar configurado para calcular la matriz de similitud local o una descripción de similitud local diferente. Solo mediante un ejemplo no limitativo, un vector u otra fila de valores que tenga una estructura predeterminada, tal como cada fila esté unida a una fila anterior, puede permitir una misma información. El estimador de frecuencia 36 puede determinar la descripción de similitud local (matriz de similitud local L) y puede configurarse para determinar porciones de esta, por ejemplo, líneas, que indican el procesamiento de extensión de ancho de banda. Para determinar las porciones que indican el procesamiento de extensión de ancho de banda, el estimador de frecuencia 36 puede evaluar una inclinación de la señal dentro de la descripción de similitud local y/o alcanzar o exceder el valor umbral 27.
[0065] Aunque se ha descrito como la evaluación de filas, es evidente que la matriz de similitud local L puede comprender una estructura diferente, por ejemplo, que tiene filas conmutadas a columnas y viceversa o similares. Por tanto, el estimador de frecuencia se puede configurar para determinar la matriz de similitud local L como la descripción de similitud local y para determinar la frecuencia de inicio ks y/o la frecuencia final ke del procesamiento de mejora espectral utilizando una inclinación entre valores (por ejemplo, valores adyacentes dentro de una fila o columna) en filas o columnas y/o utilizando una evaluación de valores en las filas o columnas que al menos alcancen o incluso superen el valor umbral 27.
[0066] La Fig. 7 muestra un diagrama de bloques esquemático de un aparato 70 que extiende el aparato 10. Aunque se explica como extensión del aparato 10, la explicación dada en relación con la Fig. 7 también se puede utilizar para extender el aparato 50. El aparato 70 puede comprender una calculadora de espectro 44 configurada para recibir la señal de audio 12 como una señal en el dominio del tiempo y configurada para calcular el espectro de la señal de audio 12 y para proporcionar una señal 12' que comprende el espectro. Con base en esto, el derivador 14 puede configurarse para recibir el espectro 12'. Como alternativa, el derivador 14 puede configurarse para derivar el espectro 12' por sí solo.
[0067] El determinador 14 puede comprender un filtro 46 configurado para filtrar los valores de similitud para obtener valores de similitud filtrados como se describe en relación con las Figs. 3 y 4. El determinador 14 se puede configurar para seleccionar el al menos un máximo local de los valores de similitud filtrados para su consideración adicional, por ejemplo, como índice de fila en la matriz de similitud L(k,T). Es decir, la selección de un máximo local de los valores de similitud o valores derivados de los mismos puede referirse a un uso adicional de los mismos para determinar una frecuencia de inicio y/o una frecuencia final del procesamiento de mejora espectral.
[0068] El aparato 70 puede comprender un potenciador de señal 48 configurado para recibir la señal de audio 12 y recibir la información de que el procesamiento de mejora espectral se ha realizado, por ejemplo, al recibir la información 34. El potenciador de señal está configurado para reducir los artefactos provocados por el procesamiento de mejora espectral de la señal de audio utilizando la información 34, es decir, dependiendo de la información que indica que la señal de audio comprende la característica predeterminada y opcionalmente comprende detalles adicionales tales como la frecuencia de inicio y/o la frecuencia de parada de un procedimiento de replicación.
[0069] La Fig. 8 muestra un diagrama de flujo esquemático de un procedimiento 1000 de determinación de una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio. El procedimiento 1000 comprende una etapa 1100 en la que se obtiene un espectro de la señal de audio y se deriva información relacionada con una estructura fina del espectro, por ejemplo, la señal de máximo local. Una etapa 1200 comprende determinar una similitud en la estructura fina entre segmentos de la señal de máximo local. Una etapa 1300 comprende proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiente de una evaluación de la similitud.
[0070] A continuación, se hará referencia al segundo aspecto. Según el segundo aspecto, está en el alcance mejorar la calidad de sonido de las señales de audio, en particular de las señales de audio que se han codificado utilizando compresión con pérdidas. El concepto descrito se relaciona con el ancho de banda de la señal de audio que se encuentra limitado en las aplicaciones de procesamiento de señal digital. El concepto propone un concepto de análisis de señal que detecta la presencia de reducción del ancho de banda (BR) (artificial) y para estimar la frecuencia de corte a la que Bl ha estado en funcionamiento. Los resultados obtenidos se utilizan para controlar el procesamiento posterior para restaurar el ancho de banda por medio de la extensión del ancho de banda (BWE) y también para controlar la mejora de la calidad del sonido por otros medios, como el filtrado.
[0071] Para la mejora de la calidad de sonido, es de crucial importancia discriminar entre una señal que tiene originalmente un ancho de banda bajo (por ejemplo, una nota baja reproducida en la base) y una señal que se ha limitado a la banda por medio de un procesamiento de señal, por ejemplo, debido a codificación con pérdidas o submuestreo. Tal discriminación no es posible analizando la señal "para encontrar la frecuencia más alta presente en la señal", es decir, determinando la frecuencia por encima de la cual solo hay energía insignificante como se describe en [1]. Por el contrario, el segundo aspecto propone evaluar información adicional tal como se describe a continuación.
[0072] El objetivo del análisis propuesto de limitación del ancho de banda artificial (ABLA) es doble:
1) . Detectar la presencia de reducción del ancho de banda (BR) en la señal de entrada que es probable que sea provocada por la compresión con pérdidas u otro procesamiento de la señal y, por lo tanto, se considera como un artefacto. La salida puede ser, por ejemplo, una variable binaria, aquí denominada D donde D = 1 si se ha detectado BL y 0 si no.
2) . Estimar la frecuencia de corte de la limitación del ancho de banda. La cantidad estimada se refiere a fc.
[0073] La Fig. 9 muestra un diagrama de bloques esquemático de un aparato según una realización del segundo aspecto. El aparato se puede utilizar para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio. El aparato 90 comprende un evaluador de pendiente 52 configurado para evaluar una pendiente de un espectro de la señal de audio 12, por ejemplo, el espectro 12'. El evaluador de pendiente 52 puede estar configurado para proporcionar un resultado de evaluación de pendiente 56. El resultado de evaluación de pendiente 56 puede comprender información sobre un valor máximo, mínimo o promedio de la pendiente (curva de envoltura) de al menos una parte del espectro, sobre los flancos ascendentes o descendentes dentro del espectro o la pendiente del mismo u otra información relacionada con la pendiente 54.
[0074] El aparato 90 puede comprender opcionalmente además un evaluador de frecuencia 58 configurado para evaluar una frecuencia de corte fc del espectro 12' de la señal de audio para obtener un resultado de evaluación de frecuencia 62 que comprende información que indica la frecuencia de corte fc.
[0075] El aparato 90 comprende un procesador 64 para proporcionar una información que indica que la señal de audio comprende la característica predeterminada relacionada con el procesamiento de limitación de ancho de banda artificial. El procesador está configurado para utilizar el resultado de evaluación de pendiente para proporcionar la información que indica que la señal de audio comprende la característica predeterminada, es decir, el procesador puede proporcionar la información que depende del resultado de evaluación de pendiente. Por ejemplo, esto puede permitir una decisión sobre si la señal de audio requiere posprocesamiento, por ejemplo, en términos de una información de sí/no o una decisión binaria. Esto puede permitir excluir dichas tramas del posprocesamiento que se evalúan como que no comprenden la característica respectiva. Dichas tramas pueden identificarse como no sujetas a limitación de ancho de banda artificial y, por lo tanto, debe evitarse el posprocesamiento. Como opción, el aparato puede comprender el evaluador de frecuencia 58 para determinar la frecuencia de corte. Esto puede permitir identificar información adicional que se utiliza o requiere para el posprocesamiento, por ejemplo, de tramas sometidas. Por tanto, opcionalmente, el procesador puede configurarse para proporcionar la información que indica que la señal de audio comprende la característica predeterminada que depende de una evaluación del resultado de evaluación de pendiente 56 y el resultado de evaluación de frecuencia 62. Al evaluar el resultado de evaluación de pendiente 56 y el resultado de evaluación de frecuencia 62 para el espectro 12' y/o para tramas adicionales de la señal de audio que dan como resultado espectros adicionales 12', el procesador 64 puede derivar información si la señal de audio a partir de la cual se deriva el espectro 12' se sometió a la limitación de ancho de banda artificial. Por ejemplo, el evaluador de pendiente 52 puede configurarse para evaluar la pendiente para una atenuación dentro del espectro. El espectro se puede cuantificar o evaluar con respecto a una inclinación de la pendiente, es decir, como lo indica un factor de reducción gradual de respuesta.
[0076] A modo de ejemplo, el evaluador de pendiente 52 se puede configurar para evaluar una atenuación dentro del espectro 12' y para proporcionar el resultado de evaluación de pendiente 56 para indicar una medida para la atenuación. El procesador 64 puede estar configurado para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada si la medida para la atenuación es al menos un valor umbral de inclinación. Opcionalmente, el aparato puede comprender un evaluador de remuestreo, por ejemplo, que sea una parte del procesador 64 o que se implemente por separado. El evaluador de remuestreo puede configurarse para evaluar la señal de audio para una característica predeterminada relacionada con un sobremuestreo. El sobremuestreo se puede implementar mediante el uso de una frecuencia de muestreo, por ejemplo, una velocidad de muestreo común puede ser de 11.025 Hz, 22.050 Hz y/o 32.000 Hz. El aparato 90 y/o 120 puede configurarse para adaptar los intervalos de frecuencia del evaluador de pendiente 52 y/o del evaluador de frecuencia 58 en función de la frecuencia de muestreo en un caso en el que se detecta remuestreo. Mediante el uso de remuestreo, el intervalo de frecuencias del espectro puede adaptarse o aumentarse, donde una velocidad de muestreo baja puede corresponder a un intervalo de frecuencias bajas y una velocidad de muestreo alta puede permitir que el espectro contenga intervalos de frecuencias altas según el criterio de Nyquist. El evaluador de remuestreo puede estar configurado para observar o evaluar un conjunto específico de velocidades de muestreo esperadas y puede evaluar si en esta frecuencia hay una disminución significativa en el espectro y si no hay más energía significativa por encima. En tal caso, cuando un flanco inclinado en la pendiente como se describió anteriormente y una ausencia de energía significativa por encima de un valor umbral de energía está presente, el evaluador de energía puede considerar que la señal de audio ha sido remuestreada utilizando la frecuencia de remuestreo o velocidad de muestreo respectiva. El evaluador de remuestreo puede estar configurado para obtener un resultado de evaluación negativo cuando a la frecuencia determinada o evaluada correspondiente a la frecuencia de muestreo, la regla de determinación
X(k) > umbral
aplica, lo que significa que un valor del espectro en la frecuencia k es mayor que un umbral que indica que en el punto k hay energía significativa dentro del espectro. Además, la regla de determinación
Figure imgf000012_0001
puede aplicarse, lo que indica que con el aumento de la frecuencia k 1 el espectro, la energía del mismo respectivamente, aumenta. Esta consideración se puede normalizar sustrayendo el parámetro de desviación, por ejemplo, 0,1, 0,2, 0,3, 0,5 o 1 dB o un valor diferente, es decir, el espectro tiene que aumentar más que el parámetro de desviación para cumplir con la regla de determinación. Esto permite excluir los efectos provocados por el ruido o similares. Por tanto, la magnitud aumenta hacia frecuencias más altas en el punto de frecuencia k por encima de una limitación de ancho de banda de más de 0,5 dB. El umbral puede ser, por ejemplo, de -30 dB, -40 dB, - 50 dB o -60 dB como se explicó anteriormente. Esto significa que para una decisión negativa no hay atenuación inclinada o más allá del valor de frecuencia respectivo hay una magnitud aumentada.
[0077] Un resultado de evaluación positivo que indica que la señal de audio se sometió a un sobremuestreo que limita el ancho de banda en el índice de frecuencia k se puede determinar, por ejemplo, cuando la función de diferencia espectral s(k) o una función adecuada diferente como se describió anteriormente proporciona un valor que excede o es al menos un valor umbral. Por tanto, la regla de determinación puede aplicar que
S(k) > umbral
la función de diferencia espectral puede indicar una atenuación inclinada y fuerte y, por lo tanto, puede indicar un remuestreo. Por lo tanto, cuando el máximo 72 en la Fig. 11 se dispone en o cerca de una frecuencia de velocidad de remuestreo esperada/frecuencia de remuestreo, se puede determinar la presencia de un remuestreo.
[0078] Además, la atenuación puede evaluarse con respecto a una cantidad, es decir, la mitad del flanco descendente dentro del espectro. Por ejemplo, el evaluador de pendiente 52 puede evaluar la pendiente 54 con respecto a una disminución dentro de un intervalo de frecuencias específico de, por ejemplo, 100 Hz, 1 kHz o 2 kHz y/o para una cantidad total de la disminución dentro del flanco descendente.
[0079] El procesador 64 puede estar configurado para decidir, si el espectro 12' se sometió a la limitación de ancho de banda artificial y puede estar configurado además para decidir a qué frecuencia de corte fc se aplicó dicha limitación. Por tanto, la información 66 puede comprender la variable D o una información similar y puede comprender además información que indica la frecuencia de corte, al menos, cuando el procesador 64 determina que el espectro 12' se aplica al procesamiento de limitación de ancho de banda artificial.
[0080] La Fig. 10 muestra un diagrama esquemático que ilustra un espectro ejemplar 12' que tiene la pendiente 54. El evaluador de pendiente 52 se puede configurar para evaluar la pendiente 54 con respecto a una inclinación del espectro 12', de un flanco descendente 68, respectivamente. El evaluador de pendiente 52 puede estar configurado para proporcionar el resultado de evaluación de pendiente 56 para que comprenda información que indique una medida para la inclinación. La medida para la inclinación se puede obtener, por ejemplo, enlazando una disminución AX1 de la magnitud X(f) y un intervalo de frecuencias Af, por ejemplo, como la disminución AX1, por intervalo de frecuencias Af o en términos de un intervalo de frecuencias Af utilizado para obtener la disminución AX1.
[0081] El procesador 64 puede estar configurado para proporcionar la información que indica que la señal de audio comprende la característica predeterminada si la medida para la inclinación es al menos un valor umbral de inclinación. La medida para la inclinación puede aumentar para los valores ascendentes del término AXIAf y/o puede aumentar para los valores decrecientes del término AfAXi. Por ejemplo, el valor umbral de inclinación puede comprender un valor igual o proporcional a al menos 25 dB/1 kHz, 30 dB/1 kHz, 40 dB/1 kHz o 50 dB/1 kHz o más.
[0082] El evaluador de pendiente 52 se puede configurar para determinar una función de diferencia espectral del espectro 12', por ejemplo, utilizando una función de ventana que solo selecciona una parte del espectro 12' para una evaluación. La función de ventana puede combinar una pluralidad de valores de frecuencia del espectro 12', la pendiente 54, respectivamente y puede permitir que el evaluador de pendiente 52 determine la medida para la atenuación utilizando resultados de la función de ventana. Esto también puede denominarse filtrado de ventanas. Combinando, por ejemplo, sustrayendo, valores de diferentes ventanas, se puede obtener una medida para la inclinación. Como alternativa, puede utilizarse cualquier otro procedimiento adecuado para evaluar la inclinación de la pendiente 54. Como alternativa o adicionalmente, el evaluador de frecuencia se puede configurar para evaluar una atenuación entre un primer nivel de energía de una primera banda de frecuencias del espectro 12' y un segundo nivel de energía de una segunda banda de energía del espectro.
[0083] La banda de energía primera y segunda puede ser, por ejemplo, una llamada banda de baja frecuencia y una llamada banda de alta frecuencia. La banda de frecuencias manual puede ser la banda de frecuencias que se espera que esté en silencio después de ser filtrada por paso bajo, por ejemplo, frecuencias superiores a 3 KHz. La región de baja frecuencia puede referirse a una región de frecuencias que tiene frecuencias por debajo de dicho intervalo de frecuencias. Por tanto, la primera banda de energía puede comprender que un primer intervalo de frecuencias f sea bajo cuando se compara con un segundo intervalo de frecuencias f2 de la segunda banda de frecuencias. El evaluador de pendiente 52 puede estar configurado para proporcionar el resultado de evaluación de pendiente 56 para indicar una medida para la atenuación AX2. El procesador 64 puede configurarse para proporcionar la información 66 si la medida para la atenuación es al menos un valor umbral de atenuación. El valor umbral de atenuación puede ser, por ejemplo, de al menos 30 dB, al menos 40 dB, al menos 50 dB o al menos 60 dB o incluso mayor.
[0084] En otras palabras, se puede considerar que la atenuación es alta de modo que solo queda energía insignificante después del filtrado en la banda de alta frecuencia. Por ejemplo, la magnitud en la región de frecuencias superior f2 es inferior a -60 dB (valor umbral de atenuación) menor que la magnitud promedio en la banda de paso, es decir, la región de frecuencias f|. Una combinación de la evaluación de la inclinación del espectro y la evaluación de la cantidad de la atenuación puede permitir determinar que la trama actual del espectro 12' se sometió a la limitación de ancho de banda artificial. Por tanto, si al menos una o preferentemente ambas evaluaciones dan una pista para dicho procesamiento, la variable D puede establecerse en 1. Si al menos uno o preferentemente ambos de los criterios de evaluación se evalúan negativamente, la variable D se puede establecer en 0, es decir, se puede determinar que no se ha aplicado ninguna limitación de ancho de banda artificial.
[0085] En otras palabras, la inclinación de la atenuación se puede cuantificar comparando las magnitudes espectrales en una subbanda inferior f y las magnitudes espectrales en una subbanda superior f2 alrededor de un índice de frecuencia k y repitiendo esto para todos los índices de frecuencia en el intervalo de interés. Un ejemplo es la función de diferencia espectral S(k) que se puede formar según:
S (k) = máx Xi — máx X2
[0086] La función de diferencia espectral S(k) puede cuantificar la atenuación como la diferencia de la magnitud máxima de la subbanda inferior y la magnitud máxima de la subbanda superior. El parámetro k puede referirse a un índice de frecuencia. X(k) puede denotar un espectro de magnitud. La operación máx puede devolver el valor máximo de un vector, donde X1 = (xk-a,..., xk-b) puede denotar un segmento del espectro por debajo del índice de frecuencia k y X2 = (xk+b,..., xk+a) puede referirse a un segmento del espectro por encima del índice de frecuencia k, donde a > b. Una longitud del vector, es decir, una cantidad de muestras que se utilizarán en los vectores X1 y/o X2 puede ser, por ejemplo, 3, 5, 8, o 10 o incluso más. En una realización no limitativa, un primer segmento de longitud 7 y un segundo segmento de longitud 7 se utilizan en relación con un espacio de 5 valores entre ambos segmentos. Por consiguiente, el máximo de los elementos 1, 2, 3, 4, 5, 6, 7 se determina y compara con el máximo de los elementos 13, 14, 15, 16, 17, 18, 19.
[0087] Como alternativa, se pueden utilizar otras funciones, por ejemplo, S2(k) = mínX1 - máxX2 o una diferencia determinada a partir de los valores medios de X1 y X2.
[0088] El evaluador de frecuencia 58 puede configurarse para determinar una medida de energía en una banda de frecuencias de la señal de audio y para determinar la frecuencia de corte fc en función de la energía. Por ejemplo, el evaluador de frecuencia puede evaluar la energía en bandas de frecuencia con valores de frecuencia decrecientes, es decir, dentro de intervalos de frecuencia decrecientes. Cuando se hace referencia a la Fig. 10 a la frecuencia más alta ilustrada, el evaluador de frecuencia puede, por ejemplo, determinar una cantidad baja de energía en el intervalo de frecuencias f2. Mientras se evalúan intervalos de frecuencias comparativamente pequeños de varios compartimentos o incluso que comprenden solo un compartimento de frecuencia, el evaluador de frecuencia 58 puede determinar con una disminución de la frecuencia f y aumento de la energía como se indica, la pendiente 54. En la frecuencia de corte fc, el evaluador de frecuencia 58 puede determinar un fuerte aumento en la energía, por ejemplo, al menos 30 dB, 40 dB, 50 dB o incluso 60 dB en comparación con el nivel de energía bajo en el intervalo de frecuencias f2. Basándose en esto, es decir, en función del aumento de energía en el intervalo de frecuencias, el evaluador de frecuencia 58 puede determinar la frecuencia de corte fc. Esto también puede denominarse determinación de la frecuencia de corte fc como la frecuencia a la que aumenta la energía de la subbanda.
[0089] La Fig. 11 muestra un diagrama esquemático de un resultado ejemplar de la función de diferencia espectral S(k). El origen muestra un resultado de la función de diferencia espectral S(k), donde la abscisa muestra el mismo eje de frecuencia que se ilustra en la Fig. 10. La función de diferencia espectral puede permitir obtener una medida para la inclinación de la pendiente 54. Un máximo local o incluso general 72 de la función de diferencia espectral S(k) puede indicar una frecuencia a la que la pendiente 54 comprende una variación más inclinada, es decir, donde la atenuación es muy inclinada. Por lo tanto, esta medida puede ser utilizada como alternativa o adicionalmente por el evaluador de frecuencia como una medida para la frecuencia de corte fc.
[0090] La disminución de la pendiente 54 y, por lo tanto, la atenuación puede variar a lo largo de la gran cantidad de muestras de modo que la diferencia que utiliza un valor máximo del vector respectivo puede proporcionar una precisión suficiente. Como alternativa, la función de diferencia espectral se puede determinar para valores de frecuencia individuales, es decir, los vectores X1 y X2 pueden tener una longitud de 1.
[0091] Para mejorar la calidad del sonido, es de crucial importancia discriminar entre una señal que tiene originalmente un ancho de banda bajo (por ejemplo, una nota baja reproducida en la base) y una señal que ha sido limitada por banda por medio de un procesamiento de señal, por ejemplo, debido a codificación con pérdidas o submuestreo. Esto es importante para evitar que una señal que tiene alta calidad de sonido sea sometida a cualquier posprocesamiento y para aplicar un procesamiento de mejora solo cuando sea necesario, es decir, para aplicar la extensión de ancho de banda (BWE) posterior solo para restaurar la energía de alta frecuencia que se ha eliminado artificialmente de la señal y no para procesar señales que tienen un ancho de banda bajo por naturaleza. A tal efecto, la señal se puede analizar con respecto a tres características dadas por la inclinación de la atenuación, la cantidad de atenuación y la frecuencia de corte. Esto se puede realizar mediante las siguientes etapas de procesamiento ejecutadas, por ejemplo, por un aparato según el segundo aspecto.
[0092] La Fig. 12a muestra un diagrama de bloques esquemático de un aparato 120 según una realización del segundo aspecto. Cuando se compara con el aparato 90, el aparato 120 está configurado para determinar la característica predeterminada para una pluralidad de espectros 121' a 123' que pueden derivar de una cantidad de bloques de la señal de audio. Es decir, la señal de audio se puede dividir en bloques y de cada bloque se puede derivar un espectro 12'. El evaluador de pendiente 52 está configurado para evaluar la pendiente 54 de cada uno de los espectros 121' a 123'. De acuerdo con la presente, el evaluador de frecuencia 58 está configurado para evaluar cada uno de los espectros 121' a 123'.
[0093] El procesador 64 puede estar configurado para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada para cada uno de los espectros 121' a 123'. Una serie de bloques en los que se divide la señal de audio puede ser arbitraria. Por ejemplo, una longitud de cada bloque en el tiempo puede ser constante de modo que la cantidad de bloques puede depender de la longitud de la señal de audio.
[0094] El aparato 120 puede comprender un filtro 74 conectado con el evaluador de frecuencia 58 y configurado para recibir el resultado de evaluación de frecuencia 62. El filtro 74 puede estar configurado para proporcionar un resultado de evaluación de frecuencia filtrado 62'. El procesador puede configurarse para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada en función de una pluralidad de resultados de evaluación de pendiente 56 para cada uno de los espectros 121' a 123' y/o una versión filtrada de estos y el resultado de evaluación de frecuencia filtrado 62' asociado con una pluralidad de espectros 121' a 123' de la señal de audio. La frecuencia de corte utilizada para codificar una señal de audio puede ser esencialmente invariable en el tiempo, invariable en el tiempo o puede ser un parámetro que varía raramente o con poca frecuencia a lo largo del tiempo de modo que un filtrado de paso bajo, un máximo móvil, un promedio móvil o un filtrado medio móvil implementado por el filtro 74 puede permitir obtener los valores filtrados 62' que permanecen sin cambios o constantes o al menos que cambian a velocidades bajas para un procesamiento adicional, por ejemplo, cuando el evaluador de frecuencia 58 determina frecuencias de corte ligeramente diferentes fc entre los diferentes espectros 121' a 123'. Es decir, se puede realizar un posprocesamiento de los valores obtenidos fc mediante filtrado de paso bajo o, como alternativa, un filtrado diferente.
[0095] De manera similar, la limitación de ancho de banda artificial generalmente se realiza para una señal de audio completa o al menos una gran porción de esta, de modo que es poco probable que se produzca un cambio de la característica relacionada con el procesamiento de limitación de ancho de banda artificial que esté presente en una trama y no esté presente o esté ausente en una trama posterior. Por lo tanto, el procesador 64 puede realizar un posprocesamiento de la variable D o un resultado o valor correspondiente, por ejemplo, utilizando un filtrado mediano o similar para una pluralidad de tramas, es decir, para una pluralidad de espectros 121' a 123'. El procesador puede configurarse para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada al proporcionar una información respectiva para cada una de la pluralidad de tramas de la señal de audio y para proporcionar un resultado combinado o filtrado 66' al combinar los resultados de las tramas de modo que el resultado combinado 66' sea válido para la pluralidad de tramas que se someten al filtro e influyen en una salida del filtro. Por ejemplo, cuando se utiliza un filtrado mediano, se considera una cantidad de tramas y/o espectros 121' a 123' dentro del filtro respectivo, por ejemplo, un filtro 76 conectado al procesador 64 o que es una parte del procesador 64 o que está siendo implementado por el procesador 64. La salida 66' del filtro 76 puede ser un valor combinado filtrado mediano derivado de las tramas consideradas. Aunque se ilustra como un bloque separado, el filtro 76 puede implementarse o puede ser parte de otro bloque informático.
[0096] Como alternativa o adicionalmente, el aparato 120 puede comprender un determinador 78 configurado para determinar una energía E de una banda de frecuencias de los espectros 121' a 123' y para proporcionar una señal 82 que indica una presencia y/o una cantidad de la energía E dentro de la banda de frecuencias respectiva. La señal 82 o una señal derivada de esta se puede proporcionar al procesador 64 de modo que el procesador 64 pueda tener conocimiento sobre la energía determinada. Puede ser de interés, si en una llamada región de alta frecuencia fh la energía está presente o no. Por ejemplo, una región de alta frecuencia fh puede ser una región de frecuencia que tiene valores de frecuencia que están al menos o por encima de 1 kHz, 2 kHz, 3 kHz, 4 kHz o un valor diferente, es decir, diferentes frecuencias de limitación de ancho de banda. Por ejemplo, los codificadores pueden dejar caer o descartar frecuencias por encima de un determinado valor de frecuencia. El valor de frecuencia puede estar de acuerdo con una aplicación específica tal como 3 kHz o 4 kHz para aplicaciones relacionadas con la voz.
[0097] El determinador 78 puede determinar, si los espectros 121' a 123' comprenden energía o comprenden energía por encima de un determinado umbral en la región de alta frecuencia fh. En un caso donde el determinador 78 determina que el espectro respectivo 121' a 123' no comprende energía E o una cantidad baja de esta en la región de alta frecuencia fh, una determinación fiable de la frecuencia de corte y/o la atenuación puede ser difícil o incluso imposible, por ejemplo, porque la trama respectiva no proporciona una pendiente adecuada. Cuando se tiene en cuenta, solo a modo de ejemplo no limitativo, un espectro silencioso que no tiene energía en el espectro completo, no se puede determinar una frecuencia de corte ni una atenuación de la pendiente 54. Dicha información puede ser proporcionada por la señal 82. El procesador puede omitir la evaluación de la trama o espectro actual 121' a 123' y se puede configurar para proporcionar la información 66 en función de un espectro anterior observado o evaluado previamente, si la energía E está por debajo de un nivel umbral de energía que se considera que discrimina entre la energía relevante presente o ausente. Dicho de otro modo, el procesador puede basar su decisión en una trama anterior en un caso donde el espectro actual es incapaz de proporcionar suficiente información.
- En una etapa opcional, se puede ejecutar una partición de la señal de audio/señal de entrada en bloques cortos, es decir, se pueden obtener varios bloques. Una longitud de un bloque puede ser, por ejemplo, de al menos 0,5 ms, al menos 1 ms o al menos 5 ms y como máximo 1 segundo, 500 ms o 100 ms. Un intervalo ejemplar comprende valores de al menos 2 ms y como máximo 80 ms.
- Opcionalmente, calcular un espectro de magnitud para cada bloque, por ejemplo, por medio de una transformada o un banco de filtros. Por tanto, el aparato 19 puede comprender, por ejemplo, un derivador de frecuencia para derivar un espectro tal como un espectro de magnitud para proporcionar el espectro 12'. Para cada bloque se puede derivar un espectro acorde o similar al espectro ilustrado en la Fig. 10.
- Opcionalmente, se puede realizar un filtrado de paso bajo de los coeficientes espectrales con respecto al tiempo y la frecuencia. Por ejemplo, un promedio móvil o un promedio recursivo se puede realizar, por ejemplo, por el evaluador de pendiente 52 y/o el evaluador de frecuencia 58 y/o un procesador que implementa tanto el evaluador de pendiente 52 como el evaluador de frecuencia 58. Esto puede permitir reducir las cargas computacionales, ya que la atenuación y la inclinación de la atenuación, así como la frecuencia de corte, están dispuestas dentro de un intervalo de frecuencias específico extendido más allá de los valores de frecuencia individuales, de modo que una evaluación de los intervalos de frecuencias puede permitir una precisión suficiente.
- Opcionalmente, cuando la señal de entrada es muda o no contiene energía en la región de alta frecuencia, una estimación fiable puede ser difícil de obtener o puede ser imposible de obtener. Por lo tanto, se puede utilizar el resultado de la detección de la trama anterior, si la energía máxima de la subbanda por encima de 3 kHz está por debajo de un umbral porque esta trama no contiene la información deseada.
- Opcionalmente, detectar si la señal se ha sobremuestreado de una frecuencia de muestreo más baja, por ejemplo, utilizando los determinadores 78. Una señal codificada a velocidades de bits bajas se codifica normalmente con una frecuencia de muestreo baja que puede ser menor que la frecuencia de muestreo a la que funciona el marco de referencia de procesamiento actual. Cuando se ha detectado un sobremuestreo o un remuestreo después de la decodificación, el intervalo de búsqueda del análisis de limitación de ancho de banda artificial (ABLA) según el segundo aspecto se puede modificar de modo que la frecuencia más alta que se detectará sea igual a la frecuencia de muestreo del codificador. Para detectar un remuestreo, la detección de un remuestreo puede llevarse a cabo para un conjunto de frecuencias de muestreo comunes tales como 11.025 Hz, 22.050 Hz, 32.000 Hz y/o 44.100 Hz. Cuando la magnitud máxima de los coeficientes espectrales en un intervalo por encima de la mitad de la frecuencia de muestreo está por debajo de un umbral, se puede detectar un remuestreo. Esto se basa en el criterio de Nyquist que permite obtener frecuencias con la mitad del valor de frecuencia en comparación con la velocidad de muestreo. Por lo tanto, cuando la energía está por debajo del umbral en la mitad superior, esto puede deberse a la velocidad de muestreo utilizada. El siguiente procesamiento de ABLA se modifica a continuación de modo que el intervalo de búsqueda se modifique de modo que la frecuencia más alta que se detectará sea igual a la frecuencia de muestreo del codificador detectada y, por tanto, permita la búsqueda solo de una porción del espectro respectivo. La otra porción, por ejemplo, la mitad superior, puede ser ignorada, ya que se espera que sea causada por el sobremuestreo. La atenuación debida al remuestreo puede ser mayor que la atenuación de la codificación. La detección de remuestreo puede asegurar que el remuestreo no se detecte erróneamente como limitación de ancho de banda a una frecuencia de corte más baja fc. - Calcular una función de detección, por ejemplo, la función de diferencia espectral, que cuantifica una inclinación de la atenuación sobre la frecuencia. Se puede utilizar la función de diferencia espectral o una versión alternativa en comparación con la Fig. 11. La función de detección puede proporcionar información de una diferencia de nivel entre bandas de frecuencia adyacentes.
- Detectar la limitación de ancho de banda artificial (ABL) utilizando un conjunto de reglas que evalúan la función de diferencia espectral y la energía de la subbanda y un parámetro de umbral. Comenzando en el índice de frecuencia k del extremo superior del intervalo de búsqueda, la magnitud X de los coeficientes espectrales y la función de diferencia espectral S(k) o una función o cantidad similar pueden probarse con respecto a un conjunto de condiciones hasta que una condición sea válida o hasta que se haya alcanzado el extremo inferior del intervalo de búsqueda. Todos los umbrales son parámetros que pueden ajustarse para cambiar la compensación entre las detecciones de falsos positivos y falsos negativos. Las condiciones:
1) . x(k) > umbral; y
2) . X(k) < X(k + 1) - parámetro de desviación Yx(k) umbral superior,
es decir, la magnitud aumenta hacia frecuencias más altas por encima de una BL más que el parámetro de desviación, por ejemplo, 0,5 dB, cuando las magnitudes son mayores que el umbral, por ejemplo, -60dB,
puede conducir a una detección negativa. Condiciones según:
1). S(k) > umbral; y
2). Se ha detectado que el remuestreo puede conducir a una detección positiva.
puede conducir a una detección positiva
- Determinar la frecuencia de corte fc como la frecuencia a la que aumenta la energía de la subbanda, por ejemplo, utilizando el evaluador de frecuencia 58.
- Opcionalmente, el posprocesamiento fc se realiza mediante filtrado de paso bajo, por ejemplo, utilizando el filtro 74. - Opcionalmente, el posprocesamiento D mediante filtrado mediano, por ejemplo, mediante el uso del filtro 76.
[0098] El aparato 90 y/o el aparato 120 pueden comprender además un potenciador de señal, por ejemplo, el potenciador de señal 48 se describe en relación con el primer aspecto. El potenciador de señal 48 puede configurarse para reducir los artefactos producidos por el procesamiento de limitación de ancho de banda artificial de la señal de audio dependiente de la información 66 que indica que la señal de audio comprende la característica predeterminada. Es decir, el potenciador de señal puede adaptarse a artefactos provocados por la limitación de ancho de banda artificial.
[0099] A continuación, se hará referencia a un aparato configurado para suprimir o al menos reducir el artefacto de codificación de Birdies y para mejorar la calidad de sonido percibida de acuerdo con el segundo aspecto. El aparato o procedimiento respectivo puede utilizarse en un caso cuando se ha derivado información de que la señal de audio comprende una característica relacionada con una limitación de ancho de banda artificial y/o con un procesamiento de mejora espectral tal como una replicación de banda espectral. Por ejemplo, el aparato puede utilizarse en un caso donde se ha detectado al menos una de limitación de ancho de banda artificial o replicación de banda espectral.
[0100] Por tanto, cuando se detecta al menos uno de la limitación de ancho de banda artificial y el procesamiento de mejora espectral, el concepto según el cual se detecta la limitación de ancho de banda artificial puede reutilizarse o puede utilizarse para detectar regiones inclinadas y altamente atenuadas en el espectro, que pueden denominarse huecos espectrales. Un hueco espectral puede comprender un flanco primero y segundo. Por consiguiente, una isla espectral también puede comprender un flanco primero y segundo, donde entre los flancos respectivos se puede disponer el hueco o la isla.
[0101] Al referirse ahora a la Fig. 12b, se muestra un espectro ejemplar que comprende el flanco descendente 68 en la frecuencia de corte fc. Además, en los intervalos de frecuencias por debajo de esa frecuencia de corte fc se dispone un hueco espectral ejemplar 202 e islas espectrales ejemplares 204. Cuando se parte de frecuencias bajas, primero se dispone un flanco descendente 2061 y luego un flanco ascendente 2062, donde a intervalos de frecuencias entre ellos, se puede disponer el hueco espectral 202. Por consiguiente, la isla espectral 204 puede estar dispuesta entre los flancos 2063 y 2064. Los flancos se pueden ubicar, cuantificar y calificar utilizando las indicaciones descritas en esta invención para hallar el flanco 68, en particular, se puede realizar una evaluación de frecuencia/energía.
[0102] A diferencia de la frecuencia de corte fc, una ubicación, una presencia y una magnitud del hueco 202 y la isla 204, así como una cantidad de estas, pueden variar entre las tramas de la señal de audio. Simplificado, el relleno del hueco 202 y/o la atenuación de la isla 204 se puede realizar después de utilizar un concepto para hallar los flancos 2061 a 2064, como se describió en relación con la frecuencia de corte fc con la excepción de que las frecuencias respectivas son variables. Es decir, un aparato o potenciador de señal puede estar configurado para rellenar un hueco espectral y/o para atenuar una isla espectral. Por lo tanto, se pueden utilizar pesos espectrales que pueden determinarse a partir de la propia señal de audio, es decir, puede no requerirse una información colateral. Al suprimir el artefacto de codificación de Birdies, se puede mejorar la calidad de sonido percibida. El concepto introducido se puede utilizar como un concepto de posprocesamiento que se ubica después del decodificador. Puede funcionar a ciegas sin tener acceso a la señal de audio sin comprimir y a otra información colateral.
[0103] El concepto que se describe a continuación para reducir el artefacto de Birdies puede utilizar un principio básico llamado ponderación espectral o atenuación espectral a corto plazo. Por lo tanto, una señal en el dominio de tiempo X[n] se puede transformar en su representación en el dominio de frecuencia X[k,m], donde k y m denotan la frecuencia en el índice de intervalo de tiempo, respectivamente. En las realizaciones descritas, se puede aplicar la transformada de Fourier de tiempo corto (STFT), pero también se pueden usar otras transformadas. La señal de salida Y de la ponderación espectral se puede dar en la siguiente ecuación:
Y[k,m\ = G[k,m\-X[k,m\.
[0104] La representación en el dominio de tiempo Y[n] de la señal en el dominio de frecuencia Y[n] puede calcularse por medio de una transformada inversa, en realizaciones, la STFT inversa. A continuación, las señales en el dominio de tiempo se denotarán con letras pequeñas y las señales en el dominio de frecuencia con letras mayúsculas. Se omitirán los índices k y m o las señales en el dominio de frecuencia para una mejor legibilidad.
[0105] La Fig. 12c muestra un diagrama de bloques esquemático de un aparato 125 configurado para procesar una señal de audio 91 que se puede recibir de un decodificador y que puede haber sido sometida a limitación de ancho de banda artificial y/o mejora espectral tal como replicación de banda espectral. El aparato 125 comprende el evaluador de pendiente 52 y el evaluador de frecuencia 58. El evaluador de pendiente 52 está configurado para evaluar una pendiente de un espectro de la señal de audio 91 para obtener un resultado de pendiente como se describe en relación con la Fig. 9 y/o la Fig. 12a. El evaluador de frecuencia puede configurarse para evaluar al menos una frecuencia primera y segunda, por ejemplo, los flancos 2061 y 2062 y/o los flancos 2063 y/o 2064 que rodean, bordean o cercan el artefacto respectivo, es decir, el hueco 202 y/o la isla espectral 204.
[0106] El aparato 125 comprende un procesador 208 configurado para determinar un peso espectral G y/o una sonda para procesar la señal de audio 91 al menos en una región espectral entre los flancos respectivos 2061 y 2062, 2063 y 2064 respectivamente, utilizando los pesos espectrales G y/o W. El aparato 125 puede configurarse para determinar los pesos espectrales G y/o W para cada una de las regiones de frecuencia, compartimentos de frecuencia y/o tramas de la señal de audio 91. Los pesos espectrales G pueden utilizarse para formar o conformar una señal de relleno S que se combinará con la señal de audio para rellenar los huecos espectrales. Los pesos espectrales W se pueden utilizar para atenuar las islas espectrales. Es decir, para reducir un artefacto dentro del hueco espectral 202, se puede utilizar una señal de relleno F. Para reducir los artefactos provocados por la isla espectral 204, se pueden utilizar pesos espectrales W para atenuar una altura de la isla. Para una pluralidad de valores de frecuencia dentro del hueco espectral respectivo 202 y la isla espectral respectiva 204, se puede determinar una pluralidad de pesos espectrales.
[0107] La Fig. 12d muestra un diagrama de bloques esquemático de una funcionalidad que puede ser implementada por el procesador 208 para determinar los pesos espectrales G. Los huecos espectrales se pueden definir como una disminución abrupta, es decir, al menos 30 dB, al menos 40 dB o al menos 50 dB de áreas de magnitud espectral en dominio/dirección de frecuencia y tiempo. La evaluación adicional a lo largo del tiempo muestra que las áreas espectrales entre armónicos de una señal tonal no se detectan erróneamente como huecos espectrales. En [5] el procedimiento de detección busca ceros perfectos en el dominio espectral. Esto solo es posible porque el procedimiento está ubicado en el decodificador y tiene acceso al mismo banco de filtros y bloqueo que el codificador. Las realizaciones descritas se refieren a un posprocesamiento del decodificador que evalúa cambios espectrales relativos abruptos utilizando la diferencia de espectro de magnitud X y su copia alisada de este. El flujo de señal para detectar tanto los huecos espectrales como las islas espectrales se ilustra en la Fig. 12d. STFT o una calculadora de espectro diferente 44 se puede utilizar para obtener una representación espectral de la señal de audio 91. Un formador de valor absoluto 212 puede configurarse para emitir el espectro de magnitud X. Un logaritmo 214 está configurado para transformar el espectro de magnitud X en el dominio logarítmico, para utilizar una transformación logarítmica tal como
X’=20 logw(X).
[0108] El espectro de magnitud logarítmica X1 obtenido se puede suavizar mediante dos filtros de paso bajo en paralelo, donde un primer filtro de paso bajo 216a se puede configurar para suavizar el espectro de la señal de audio, es decir, la señal de audio, en el dominio de frecuencia para obtener una señal Y' que se suaviza en el dominio de frecuencia. Un segundo filtro de paso bajo 216b se puede configurar para suavizar el espectro de magnitud X1 en el dominio de tiempo para obtener una señal suave Z. Aunque se describe que se suaviza en el dominio logarítmico, el suavizado también se puede realizar en el dominio lineal o en un dominio diferente. Es decir, el logaritmo 214 también puede estar ausente o puede estar dispuesto después de los filtros de paso bajo. Es decir, el espectro de magnitud logarítmica X1 puede ser suavizado por dos filtros de paso bajo, tanto en frecuencia como en el tiempo, que pueden conducir a las señales Y'y Z', respectivamente. Para el cálculo de los pesos especiales G, los valores lineales pueden calcularse por
Y<
Y = 10™.
[0109] Estos valores lineales se pueden comparar con el espectro de magnitud X para obtener un valor de diferencia de frecuencia y/o un valor de diferencia de tiempo. Las diferencias relativas At y Af que comparan las magnitudes espectrales Xcon sus versiones suavizadas a lo largo del tiempo Z' y la frecuencia Y' se pueden calcular en el dominio logarítmico, por ejemplo, para cada coeficiente espectral y para cada trama mediante
A ,= y -201 o g 10(X )
y
A ,= Z '-201 o g 10(X )
donde Af se refiere al valor de diferencia de frecuencia y At se refiere al valor de diferencia de tiempo.
[0110] La calculadora de peso espectral 218 puede estar configurada para calcular el peso espectral G según
Figure imgf000018_0001
es decir, el peso espectral G se establece en un valor distinto de cero si el valor de diferencia de frecuencia Af es mayor o igual que un umbral de diferencia de frecuencia Af y si el valor de diferencia de tiempo At es mayor o igual que un valor de umbral de diferencia de tiempo At. Aunque se describe como que requiere que los valores de diferencia de tiempo Af y At sean mayores que sus respectivos valores umbral Af, At respectivamente, en función de otros valores umbral o valores umbral que se eligen de manera diferente, el parámetro de ganancia también puede ser r cuando es igual a los valores umbral. Podrá aplicarse la siguiente regla de determinación:
Figure imgf000019_0001
donde Af y At denotan parámetros de umbral, a, (3 y y son parámetros que influyen en las características del cálculo del peso espectral. Todos los parámetros son parámetros sintonizables. k es un término que se utiliza para aumentar el impacto de la ponderación y puede calcularse según la regla de determinación o en función de la misma:
20 l o g w (X )+ S f
K = 10 20
[0111] Las ganancias espectrales calculadas se suavizan con el tiempo y la frecuencia, por ejemplo, utilizando un filtro de paso bajo 222a, 222b, respectivamente. Las ganancias espectrales se utilizan posteriormente para una ponderación espectral de una señal de fuente de relleno S como se describe en relación con la Fig. 12e.
[0112] La Fig. 12e muestra un diagrama de bloques esquemático de un potenciador de señal 200 configurado para reducir el artefacto de Birdies. El procesamiento se puede realizar, por ejemplo, mediante el uso del procesador 208. El aparato 200 puede comprender un combinador 224 para combinar una señal de fuente de relleno S con los factores de ponderación espectrales G, por ejemplo, por multiplicación, para obtener la señal de relleno F. La señal de relleno F puede comprender una estructura según la cual solo comprende valores distintos de cero en ubicaciones donde se han estimado los huecos espectrales. Un combinador adicional 226 puede configurarse para combinar la señal de relleno F con el espectro de magnitud X, por ejemplo, mediante una suma. Es decir, la señal de relleno F se añade a la señal de entrada X.La señal de fuente de relleno S puede obtenerse o generarse filtrando la señal de audio 91 en el dominio de tiempo, que prolonga la información de tramas anteriores. Como alternativa, la señal de fuente de relleno se puede obtener copiando los coeficientes espectrales de otras posiciones dentro de una trama espectral, copiando los coeficientes espectrales de otro canal de audio que no presenta un hueco espectral en la ubicación de respuesta y/o copiando los coeficientes espectrales de una trama espectral precedente que no presenta un hueco espectral.
[0113] En conceptos conocidos, por ejemplo, se utiliza la herramienta de sustitución de ruido perceptual (PNS) de la codificación de audio avanzada (AAC). Las porciones similares al ruido del espectro se sustituyen en el decodificador por una secuencia pseudoaleatoria de valores ajustados a escala para coincidir con una energía diana dada. El procedimiento es controlado por información colateral. Además, se conoce una técnica llamada relleno de ruido. El relleno de ruido se utiliza en el códec Codificación unificada de voz y audio (USAC) para llenar los orificios espectrales provocados por la zona muerta del cuantificador que funciona bajo las restricciones de un presupuesto de bits reducido. Se utiliza una secuencia pseudoaleatoria de valores para rellenar estos ceros espectrales. Además, se conoce una técnica llamada relleno inteligente de huecos a partir de MPEG-H y 3GPP EVS. Aquí, los huecos espectrales se rellenan con ruido o con mosaicos espectrales obtenidos de una ubicación espectral remota. El procedimiento es controlado por información colateral. Las realizaciones descritas en esta invención difieren del relleno de ruido de tal manera que se utiliza una distribución de información tiempo-frecuencia de tramas de tiempo anteriores para rellenar orificios espectrales. A diferencia de PNS, la señal de salida filtrada solo se rellena en huecos espectrales en lugar de bandas PNS completas. A diferencia de PNS y IGF (relleno inteligente de huecos), las realizaciones se pueden utilizar como procesamiento no guiado, es decir, sin utilizar información colateral.
[0114] El aparato 200 puede comprender una calculadora de peso de isla espectral 228 que también se puede implementar mediante el procesador 208. Las islas espectrales contenidas en la señal Z que se reciben del combinador 226 y que se obtienen mediante la adición del espectro de entrada X y la señal de relleno F según
Z= X+ F
pueden suprimirse por medio de ponderación espectral según
Y - W - Z
[0115] Al igual que G, W son pesos espectrales que se vuelven a calcular para cada trama m y el coeficiente espectral k. Con el fin de preservar el mayor ancho de banda posible, la supresión de las islas espectrales se realiza después de que se hayan rellenado los huecos espectrales. Finalmente, solo se suprimen las islas espectrales aisladas que no se han podido unir a la parte principal del espectro. Para lograr una mejora parcial, la supresión de islas espectrales se puede realizar sin el relleno de huecos espectrales. Como alternativa, el relleno de huecos espectrales puede realizarse sin el cálculo de peso espectral.
[0116] Para suprimir el cálculo del peso espectral y para calcular el peso espectral W, se puede implementar la siguiente enseñanza. Las islas espectrales se pueden definir como un aumento abrupto de las áreas de magnitud espectral en dirección de frecuencia y tiempo rodeadas por valores de magnitud espectral muy bajos. Un aumento de magnitudes puede ser, por ejemplo, de al menos 30 dB, al menos 40 dB o al menos 50 dB. Las islas espectrales pueden suprimirse mediante la atenuación de los correspondientes coeficientes espectrales por medio de ponderación espectral. Para derivar los pesos espectrales W se puede realizar un procesamiento similar al descrito en relación con la Fig. 12d. Como se describe para los pesos espectrales G, se puede determinar el valor de diferencia de tiempo y el valor de diferencia de frecuencia Af y At. El peso espectral W puede derivarse en función de la regla de determinación:
SÍ ( A j > Sf) A (At > Si) A (Y < Sp}
Figure imgf000020_0001
si no
donde
Figure imgf000020_0002
[0117] Ap es un umbral que refleja la suposición de que las islas espectrales están rodeadas por coeficientes espectrales de baja energía. Af y At son parámetros de umbral. Como se describió anteriormente, por ejemplo, p y y son parámetros sintonizables. Teniendo en cuenta la regla de determinación anterior, en los intervalos de la isla espectral, el peso espectral O se determina permitiendo atenuar la señal Z, Y, respectivamente, es decir, O es un valor que es inferior a 1. En un intervalo fuera de la isla espectral, W es un valor de 1, es decir, no se realiza ninguna atenuación. El aparato 200 puede comprender un combinador 232 para combinar los pesos espectrales W con la señal Z, por ejemplo, utilizando una multiplicación. Se puede utilizar un transformador de señal 234 para realizar ISTFT, es decir, para obtener una señal en el dominio de tiempo.
[0118] En otras palabras, el concepto de supresión de Birdies se puede dividir en relleno de huecos espectrales y supresión de islas espectrales. La señal de relleno F se puede calcular filtrando una señal de fuente de relleno de banda ancha S con pesos espectrales G. F solo contiene valores distintos de cero, donde se han identificado huecos espectrales en X que se determina según
F= G • S
[0119] La Fig. 12F muestra un diagrama de flujo esquemático de un procedimiento 1500 para procesar una señal de audio. El procedimiento 1500 comprende una etapa 1600 en la que se evalúa una pendiente de un espectro de la señal de audio para obtener un resultado de relación de pendiente. Una etapa 1700 comprende evaluar al menos un flanco de frecuencia primero y segundo en el que el espectro comprende un flanco para obtener un resultado de evaluación de frecuencia. Una etapa 1800 comprende determinar un peso espectral y procesar la señal de audio en una región espectral entre el flanco de frecuencia primero y segundo, utilizando el peso espectral.
[0120] La Fig. 13a muestra un diagrama de flujo esquemático de un procedimiento 2000 para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio. El procedimiento 2000 comprende una etapa 2100 que comprende evaluar una pendiente de un espectro de la señal de audio para obtener un resultado de evaluación de pendiente. Una etapa 2200 comprende proporcionar una información que indica que la señal de audio comprende la característica predeterminada que depende de una evaluación del resultado de evaluación de pendiente. La información 66 proporcionada por el procesador 64 puede contener una variable a la que se hace referencia en esta invención como D que se puede utilizar para activar el procesamiento de extensión de ancho de banda que se aplica para mejorar la calidad de sonido de una canción de audio, por ejemplo, utilizando el potenciador de señal. Opcionalmente, se puede determinar la frecuencia de corte fc, es decir, una etapa opcional puede comprender evaluar una frecuencia de corte del espectro de la señal de audio para obtener un resultado de evaluación de frecuencia de modo que la información que indica que la señal de audio comprende la característica predeterminada se pueda proporcionar dependiendo del resultado de evaluación de pendiente y dependiendo del resultado de evaluación de frecuencia. La frecuencia de corte fc se puede utilizar para controlar la extensión de ancho de banda (BWE) mediante la determinación del intervalo de frecuencias en el que funciona BWE de modo que solo recupere la región de frecuencias que falta. Esto se ilustra en la Fig. 13b que muestra un diagrama de flujo esquemático de un procedimiento 2500 según otra realización, comprendiendo el procedimiento la etapa 2150 que comprende evaluar una frecuencia de corte del espectro de la señal de audio para obtener un resultado de evaluación de frecuencia.
[0121] La segunda aplicación donde se puede utilizar o requerir ABLA, es decir, la detección de la característica respectiva, es la clasificación de una señal de audio como una señal de baja calidad de sonido debido a la compresión con pérdidas. Esta clasificación puede basarse únicamente en el análisis descrito o combinándolo con otra información que pueda extraerse de la señal de audio. Ejemplos de información adicional que se pueden utilizar en este contexto son el ancho de la señal estéreo o la presencia de replicación de banda espectral (SBR), es decir, un procedimiento que se aplica mediante códecs con pérdidas. A continuación, el ABLA se utiliza para activar otro procesamiento que mejora la calidad del sonido de las señales con una compresión con pérdidas, no estando restringido al procesamiento de BWE. Los ejemplos son el filtrado para la mejora del ancho estéreo y de los componentes de señal transitoria.
[0122] Los resultados del ABLA, a saber, el parámetro D y la frecuencia de corte fc, pueden utilizarse o incluso ser necesarios para reparar dichos artefactos automáticamente sin tener un operador humano involucrado. Puede ser de crucial importancia aplicar la mejora de la calidad del sonido solo a las señales que tienen una calidad de sonido degradada. Las señales que tienen alta calidad no deben procesarse de tal manera porque la calidad del sonido puede verse afectada negativamente. Las realizaciones según el segundo aspecto permiten detectar tramas de audio o señales de audio que se someten a la limitación de ancho de banda artificial con una alta precisión. Las señales de audio tienen un ancho de banda natural que está determinado por el procedimiento de generación de sonido. El ancho de banda puede cambiar debido a varios procedimientos técnicos, incluyendo la limitación de ancho de banda que se aplica para capturar, almacenar, procesar y transmitir la señal. La limitación de ancho de banda es un filtrado de paso bajo que tiene las características de una atenuación muy inclinada, una atenuación muy alta y una frecuencia de corte como se describió anteriormente.
[0123] A continuación, se hará referencia al aspecto tercero y cuarto de la presente invención con referencia a un concepto para la extensión del ancho de banda de una señal limitada por ancho de banda en el tercer aspecto, por ejemplo, en respuesta a haber determinado la limitación de ancho de banda artificial según el segundo aspecto. Por tanto, las realizaciones según el tercer aspecto se pueden utilizar como potenciador de señal en relación con el segundo aspecto.
[0124] El concepto según el tercer aspecto tiene como objetivo suprimir varios artefactos de codificación para mejorar la calidad de sonido percibida. Las etapas técnicas se pueden implementar como posprocesamiento y se pueden implementar parcialmente mediante el uso de un software que puede ser utilizado por el decodificador. El concepto puede funcionar a ciegas sin tener acceso a la señal de audio sin comprimir y a otra información colateral. El procesamiento de mejora de codificación de baja velocidad binaria según el tercer aspecto comprende o incluso consiste esencialmente en un posprocesador que introduce o mejora la satisfacción perceptual relacionada con conceptos para el posprocesamiento no guiado de material de audio que ha sido precodificado por codificadores perceptuales de herencia. De esa manera, el material de audio precodificado puede beneficiarse de los conceptos modernos de satisfacción perceptual.
[0125] Las realizaciones que se describen en relación con el aspecto tercero y cuarto pueden utilizar un principio básico llamado ponderación espectral o atenuación espectral a corto plazo. Por lo tanto, una señal en el dominio de tiempo x[n] se transforma en su representación en el dominio de frecuencia X[k,m] donde k y m contribuyen al índice de frecuencia y de intervalo de tiempo, respectivamente. Según las realizaciones, se puede aplicar una transformada de Fourier de tiempo corto (STFT), pero también se pueden utilizar otras transformadas. La señal de salida Y de la ponderación espectral puede estar dada por la siguiente ecuación
Figure imgf000021_0001
donde la representación en el dominio de tiempo y[n] de la señal en el dominio de frecuencia Y[k,m] se puede calcular por medio de una transformada inversa, por ejemplo, una STFT inversa, es decir, ISTFT. En las siguientes secciones, las señales en el dominio de tiempo se pueden denotar con letras pequeñas y las señales en el dominio de frecuencia con letras mayúsculas. Se omitirán los índices k y m o las señales en el dominio de frecuencia para una mejor legibilidad. La ponderación espectral se explicará con más detalle en relación con un aspecto al que se hace referencia como una ponderación espectral en la que se explican los detalles de los pesos espectrales G[k,m].
[0126] La Fig. 14 muestra un diagrama de bloques esquemático de un aparato 140 según una realización de tercer aspecto. El aparato 140 está configurado para procesar una señal de audio y puede recibir el espectro 12' de la señal de audio para el procesamiento. El aparato 140 puede configurarse para recibir la representación en el dominio de tiempo de la señal de audio, es decir, la señal de audio 12 y puede derivar el espectro 12', por ejemplo, el aparato 140 puede comprender la calculadora de espectro 44 para tal fin.
[0127] El aparato 140 comprende un separador 92 para separar una primera porción 91'a de un espectro 91' de una señal de audio 91 de una segunda porción 91'b del espectro 91' de la señal de audio 91. La primera porción 91'a tiene una primera característica de señal y la segunda porción 91'b tiene una segunda característica de señal. La señal de audio 91 puede ser recibida por el aparato 91 en el dominio de tiempo y/o en el dominio de frecuencia y puede estar, por ejemplo, limitada por ancho de banda utilizando una frecuencia de corte fc y puede ser sometida a posprocesamiento. Un rasgo principal del tercer aspecto relacionado con la extensión de ancho de banda es que la señal de entrada se puede dividir en diferentes características tales como porciones de señal transitoria y sostenida que se tratan independientemente mediante la aplicación de diferentes ajustes de parámetros para los módulos en cada parte.
[0128] La característica de señal primera y segunda pueden diferir entre sí por medio de diferentes percepciones y/o por diferentes características en el intervalo de frecuencia. Aunque las realizaciones no se limitan a la presente, las características de señal primera y segunda pueden ser complementarias entre sí, es decir, mediante la eliminación, exclusión o sustracción de una característica de señal del espectro común 91', la porción restante forma la otra característica. A modo de ejemplo no limitativo, la primera característica de señal puede ser un intervalo de frecuencias central del espectro y la segunda característica de señal puede ser un intervalo de frecuencia colateral del espectro. Como alternativa, la primera característica de señal puede ser una característica de señal directa de la señal de audio y la segunda característica de señal puede ser una característica de señal ambiente de la señal de audio. Según otra realización, la primera característica de señal puede ser una característica tonal de la señal de audio y la segunda característica de señal puede ser una característica de señal que no sea tonal de la señal de audio, o la primera característica de señal puede ser una característica de señal sostenida de la señal de audio r y la segunda característica de señal puede ser una característica de señal transitoria de la señal de audio. Como alternativa, la primera característica de señal puede ser una característica de voz de la señal de audio y la segunda característica de señal puede ser una característica que no sea de voz de la señal de audio. Otras características de señal también son posibles. Además, es posible formar combinaciones de las mismas, es decir, combinar dos o más de las características identificadas anteriormente. Las porciones primera y segunda 91'a y 91'b pueden comprender un ancho de banda, una frecuencia de inicio y una frecuencia de parada comparables o iguales y pueden formar, al combinarse entre sí, el espectro 91' de nuevo. Es decir, la división o separación puede hacerse por medio de la descomposición de la señal sostenida transitoriamente. Como alternativa o adicionalmente, son posibles otras reglas o procedimientos de descomposición, tales como descomposición de señal de lado medio, descomposición de señal de ambiente directa o descomposición de primer plano/fondo y/o descomposición de voz y que no sea de voz, etc.
[0129] El aparato 140 puede comprender un primer extensor de ancho de banda 941 para extender un ancho de banda de la primera porción 91'a utilizando primeros parámetros 961 asociados con la primera característica de señal para obtener una primera porción extendida 98a. El aparato 140 comprende además un segundo extensor de ancho de banda 942 para extender un ancho de banda de la segunda porción 91'b utilizando segundos parámetros 962 asociados con la segunda característica de señal para obtener una segunda porción extendida 98b. La extensión de ancho de banda puede comprender formar partes adicionales o porciones de frecuencia en el espectro que se combinará con la señal original. Esto puede incluir una copia y/o una generación de dichas regiones de frecuencias adicionales mediante transposición, estiramiento espectral o generación de sobretonos a través de la aplicación de una no linealidad. Mediante el uso de un extensor de ancho de banda primero y segundo, las diferentes características de señal presentes en las diferentes porciones 91'a y 91'b pueden considerarse de manera diferente por el respectivo extensor de ancho de banda 941 y 942. Por ejemplo, un ancho de banda de una porción copiada, un número de copias, una alternancia de copias, una conformación espectral de una señal que se obtiene y/o características de frecuencia de las porciones espectrales que se generan artificialmente pueden variar entre diferentes características de señal que pueden considerarse mediante el uso de diferentes conjuntos de parámetros 961 y 962 en relación con las diferentes características de señal. Esto permite una alta adaptación de la extensión de ancho de banda a la característica de la señal.
[0130] Aunque se ha descrito que el aparato 140 comprende un extensor de ancho de banda primero y segundo para considerar una característica de señal primera y segunda, un aparato según realizaciones adicionales se puede configurar para someter más de dos, por ejemplo, tres, cuatro, cinco o incluso un número mayor, a diferentes extensiones de ancho de banda. Dicho aparato puede comprender números correspondientes de extensores de ancho de banda, pero también puede utilizar un extensor de ancho de banda para al menos dos extensiones de ancho de banda, por ejemplo, cuando se procesan secuencialmente diferentes características de señal. Por consiguiente, el aparato 140 se puede implementar mediante la implementación de un extensor de ancho de banda 94 y para adaptar el extensor de ancho de banda con diferentes parámetros 961 y 962 secuencialmente mientras se procesan las diferentes porciones 91'a y 91'b secuencialmente.
[0131] El aparato 140 comprende un combinador 102 configurado para utilizar las porciones extendidas primera y segunda 98a y 98b para obtener una señal de audio combinada extendida 104. Las porciones extendidas 98a y 98b se pueden recibir del combinador 102 como una representación en el dominio de tiempo de modo que la señal de audio combinada 104 también pueda estar en el dominio de tiempo. Como alternativa, las porciones extendidas 98a y 98b pueden ser recibidas por el combinador en el dominio de frecuencia de modo que la señal de audio combinada 104 también puede estar en el dominio de frecuencia para ser convertida al dominio de tiempo posteriormente. Como alternativa, el combinador 102 puede configurarse para transformar cada una de las porciones individuales 98a y 98b o una versión combinada de estas en el dominio de tiempo y para proporcionar la señal de audio combinada 104 en el dominio de tiempo.
[0132] La Fig. 15 es un diagrama esquemático que ilustra un espectro ejemplar que comprende diferentes componentes 106a y 106b. Por ejemplo, el componente 106a puede estar relacionado con una señal transitoria del espectro, por ejemplo, obtenida por una caja. Dichas señales pueden tener una correlación más alta dentro de una trama espectral y también pueden tener un ancho de banda más alto que una señal sostenida, por ejemplo, indicada por la porción espectral 106, que puede relacionarse con una voz humana. En la Fig. 15, se puede ver que la porción transitoria 106a tiene considerablemente más ancho de banda que la porción 106b, por ejemplo, una voz que canta.
[0133] La Fig. 16 muestra un diagrama de bloques esquemático de un aparato 160 según una realización de tercer aspecto. A continuación, se hará referencia a la señal de audio y las señales derivadas de la misma. La señal de audio puede estar presente y/o procesada en el dominio de tiempo y/o en el dominio de frecuencia, donde ambas variantes pueden transformarse entre sí mediante una conversión de frecuencia a tiempo o una conversión de tiempo a frecuencia. Por tanto, cuando se hace referencia a la señal de audio, esto puede referirse a la representación en el dominio de tiempo y a la representación en el dominio de frecuencia como sinónimo aceptable que se explica explícitamente de otra manera.
[0134] El aparato 160 comprende el separador 92 que se configura para recibir la representación en el dominio de frecuencia 91' de la señal de audio 91. A tal efecto, el aparato 160 puede comprender la calculadora de espectro 44 para obtener la representación en el dominio de frecuencia 91' a partir de la representación en el dominio de tiempo.
[0135] El separador 92 puede comprender un supresor de transitorios 108 configurado para recibir la señal de audio, por ejemplo, la representación en el dominio de frecuencia de esta, y para reducir las porciones transitorias en la señal de audio 91 para obtener una primera señal de audio modificada. El separador 92 puede estar configurado para obtener la primera porción 98a en función de la primera señal de audio modificada. Según una realización, la primera porción 98a corresponde a la primera señal de audio modificada. Según otra realización, se realiza un procesamiento de la primera porción modificada, por ejemplo, un filtrado, amplificación, atenuación o similares.
[0136] El separador 92 puede comprender un sustractor 112 para sustraer la primera señal de audio modificada, la primera porción 91'a, por ejemplo, de la señal de audio 91 para obtener una segunda señal modificada. Según una realización, la segunda señal modificada es la segunda porción 91'b. Tal como se describe para la primera porción 91'a, la segunda porción 91'b también se puede obtener en función de un procesamiento del resultado de sustracción obtenido. Por tanto, al retirar la primera porción 91'a de la señal de audio 91, se puede obtener la segunda porción 91'b. Al obtener la primera señal modificada y al sustraerla de la señal de audio para obtener la segunda señal modificada, se puede realizar la descomposición de la señal de audio en las dos porciones.
[0137] El separador 92 puede configurarse para funcionar en el dominio de frecuencia o en el dominio de tiempo y para procesar la señal de audio 91 de modo que el supresor de transitorios 108 reduzca o elimine las porciones transitorias y/o tonales para cada subbanda de un espectro de la señal de audio 91. Esto puede conducir a un procesamiento menor o incluso nulo para las subbandas que comprenden porciones pequeñas o no transitorias o poco o no tonales (es decir, ruidosas). El supresor de transitorios 108 puede comprender una fase de procesamiento transitorio, una fase de procesamiento tonal y/o una fase de combinación para procesar una de las características que se separarán al suprimirlas o al amplificarlas. La representación en el dominio de frecuencia de la señal de audio 91 puede comprender una multitud de subbandas (bandas de frecuencia), donde la fase de procesamiento transitoria y/o la fase de procesamiento tonal están configuradas para procesar cada una de las bandas de frecuencia. Como alternativa, el espectro obtenido mediante conversión de frecuencias de la señal de audio 91 puede reducirse, es decir, cortarse, para excluir determinados intervalos de frecuencias o bandas de frecuencia de un procesamiento adicional, tal como bandas de frecuencia que contienen la característica seleccionada o que carecen de la característica seleccionada. Esto puede permitir un esfuerzo computacional reducido y, por tanto, un procesamiento más rápido y/o más preciso.
[0138] La fase de procesamiento transitorio puede configurarse para determinar para cada una de las bandas de frecuencia procesadas, si la banda de frecuencias comprende porciones transitorias. La fase de procesamiento tonal puede configurarse para determinar para cada una de las bandas de frecuencia, si la señal de audio 91 comprende porciones tonales en la banda de frecuencias. La etapa de procesamiento transitorio puede estar configurada para determinar, al menos para las bandas de frecuencia que comprenden porciones transitorias, factores de ponderación espectral, en donde los factores de ponderación espectral están asociados con la banda de frecuencias respectiva y pueden permitir atenuar/excluir o amplificar las porciones respectivas. Las características transitorias y tonales se pueden identificar mediante procesamiento espectral. Un nivel de transitoriedad y/o tonalidad puede medirse mediante la fase de procesamiento transitorio y/o la etapa de procesamiento tonal del separador 92 y puede convertirse en un peso espectral. El separador 92 puede configurarse para determinar factores de ponderación espectral al menos para bandas de frecuencia que comprenden las porciones tonales. Los factores de ponderación espectral pueden comprender una multitud de valores posibles, la magnitud de los factores de ponderación espectral indica una cantidad de porciones transitorias y/o tonales en la banda de frecuencias.
[0139] Los factores de ponderación espectral pueden comprender un valor absoluto o relativo. Por ejemplo, el valor absoluto puede comprender un valor de energía de sonido transitorio y/o tonal en la banda de frecuencias. Como alternativa, los factores de ponderación espectral pueden comprender el valor relativo tal como un valor entre 0 y 1, el valor 0 indicando que la banda de frecuencias no comprende ninguna o casi ninguna porción transitoria o tonal y el valor 1 indicando que la banda de frecuencias comprende una cantidad alta o porciones completamente transitorias y/o tonales. Los factores de ponderación espectral pueden comprender uno de una multitud de valores tales como una cantidad de 3, 5, 10 o más valores (etapas), por ejemplo, (0, 0,3 y 1), (0,1, 0,2, ..., 1) o similares. Un tamaño de la escala, un número de etapas entre un valor mínimo y un valor máximo puede ser al menos cero pero preferentemente al menos uno y más preferentemente al menos cinco. Preferentemente, la multitud de valores de los pesos espectrales comprende al menos tres valores que comprenden un valor mínimo, un valor máximo y un valor que está entre el valor mínimo y el valor máximo. Un mayor número de valores entre el valor mínimo y el valor máximo puede permitir una ponderación más continua de cada una de las bandas de frecuencias. El valor mínimo y el valor máximo pueden ajustarse a escala a una escala entre 0 y 1 u otros valores. El valor máximo puede indicar un nivel más alto o más bajo de transitoriedad y/o tonalidad.
[0140] Una fase de combinación del separador 92 puede configurarse para combinar los pesos espectrales para cada una de las bandas de frecuencias con la señal de audio. El separador 92 puede configurarse para aplicar los pesos espectrales combinados a cada una de las bandas de frecuencias. Por ejemplo, los pesos espectrales pueden multiplicarse con los valores espectrales de la señal de audio 91 en la banda de frecuencias procesada.
[0141] Al suprimir o excluir algunas porciones/características de la señal de audio 91, se puede obtener una primera señal modificada que carece de la característica respectiva pero que comprende la otra característica. Al sustraer la señal de la señal de audio, se puede obtener una señal inversa que comprende la característica suprimida y que carece de la característica de la primera señal modificada por medio de la segunda señal modificada.
[0142] A continuación, se hará referencia a una configuración ejemplar de los extensores de ancho de banda 941 y 942. Cada uno de los extensores de ancho de banda 941 y 942 puede comprender un duplicador 114 para duplicar al menos una parte de la porción respectiva, puede comprender una conformadora de envoltura 116 que conforma al menos las porciones extendidas generadas por el duplicador, puede comprender un blanqueador 118 para igualar al menos las porciones extendidas y/o puede comprender un filtro antirrugosidad 122 para desfasar al menos una porción de la porción extendida. Cada uno de estos elementos puede estar dispuesto junto con otros elementos de referencia. Como alternativa, algunos o todos esos elementos pueden estar ausentes y/o pueden estar sustituidos por otros elementos. Por ejemplo, en lugar de una copia realizada por el duplicador, el extensor de ancho de banda puede implementar una generación artificial de un ancho de banda, de modo que un generador de ancho de banda pueda sustituir el duplicador 114. Como alternativa, se puede descartar una conformación o blanqueamiento del espectro y/u otro procesamiento. Además, el filtro antirrugosidad 122 es opcional. Aunque se ilustra como el filtrado de una señal respectiva en el dominio de tiempo al suministrarse con la salida de un bloque de transformada de Fourier a corto plazo interiormente 124, el filtro antirrugosidad puede configurarse para funcionar en el dominio de frecuencia y, por lo tanto, puede disponerse antes de un bloque de transformada de Fourier a corto plazo inversa 124 respectivo. Por tanto, además de los bloques dispuestos, también se puede variar un orden de los mismos.
[0143] Cada uno de los extensores de ancho de banda 941 y 942 puede comprender duplicador primero y segundo 1141 y 1142 respectivo. Los duplicadores 1141 y 1142 están configurados para duplicar al menos una parte de la porción primera o segunda 91'a y 91'b respectiva y para combinar al menos una versión de la parte duplicada de la primera porción, la segunda porción respectivamente con la primera porción, la segunda porción 91'a, 91'b, respectivamente, para obtener una porción extendida 126a, 126b respectiva, respectivamente.
[0144] Al referirse ahora a la Fig. 17a, se muestra un espectro ejemplar de la primera porción 91'a, donde la explicación dada se refiere a la segunda porción 91'b sin ninguna limitación. La porción 91'a puede tener una energía o amplitud | X relevante por debajo de la frecuencia de corte fc y puede comprender una cantidad baja de energía o incluso ninguna energía por encima de la frecuencia de corte fc. El espectro puede disminuir con un aumento en la frecuencia. En otras palabras, la Fig. 17a muestra el espectro de magnitud | X de una señal limitada por banda. La frecuencia de corte se denota como fc.
[0145] La Fig. 17b muestra un diagrama esquemático de la primera porción 91'a extendida por una cantidad de dos partes duplicadas 1281 y 1282. Cada una de las partes duplicadas 1281 y 1282 puede ser una copia de una banda de frecuencias w de la primera porción 91'a que se copia a un intervalo de frecuencias no ocupado por la porción 91' a, es decir, a intervalos de frecuencias por encima de la frecuencia de corte fc, donde preferentemente las porciones duplicadas 1281 y 1282 se combinan para ordenarse directamente sobre la señal original, es decir, la primera porción 91'a. Por lo tanto, la Fig. 17b ilustra cómo se realiza el copiado. Los coeficientes espectrales complejos se desplazan de un denominado parche de origen w en el intervalo de frecuencias [fc-w, fc] a parches de destino en los intervalos [fc, fc+w, fc+2w], etc., es decir, a [fc(n-1)w, fc+nw] para cada n, donde n es una variable que varía de 1 al número de parches o número de copias que se insertan. El número n que es 2 mediante un ejemplo no limitativo en la Fig. 17b y un ancho Dfw de la porción de duplicación puede ser ajustado por el aparato 160 independientemente para cada uno de los extensores de ancho de banda 941 y 942. Es decir, la frecuencia con la que se desplaza el parche de origen w puede depender del ancho de banda deseado y/o una cantidad de parches, donde ambos pueden ser un parámetro sintonizable. Al igual que en la magnitud decreciente del espectro, pueden producirse etapas o discontinuidades en las ubicaciones donde se une el parche.
[0146] La parte copiada de la porción primera y segunda puede variar de una primera frecuencia intermedia, por ejemplo, fcopyi de la primera porción 91'a a una frecuencia máxima fc de la primera porción. Por consiguiente, la parte copiada de la segunda porción puede comprender un segundo intervalo de frecuencias que varía de una frecuencia intermedia igual o diferente de la segunda porción 91'b a una frecuencia máxima de la segunda porción que también puede ser la frecuencia de corte fc. En función de las diferentes frecuencias intermedias, el ancho Dfw puede ser diferente. Por lo tanto, para obtener un mismo ancho de banda resultante, un número de parches también puede variar entre los diferentes extensores de ancho de banda.
[0147] Para evitar artefactos no deseados, el primer extensor de ancho de banda puede comprender una primera conformadora de envoltura 1161 y el segundo extensor de ancho de banda 942 puede comprender una segunda conformadora de envoltura 1162. Las conformadoras de envoltura 1161 y 1162 pueden configurarse para conformar al menos la porción extendida, es decir, las porciones de frecuencia por encima de la frecuencia de corte fc. La conformación de la envoltura, es decir, la realización de una conformación de la envoltura espectral, puede utilizarse ya que, con frecuencia, los espectros de magnitud no son planos, sino que tienden a caer en magnitud hacia las frecuencias más altas, como se ilustra en la Fig. 17a. La Fig. 17b visualiza el espectro de magnitud cuando se realiza el copiado sin adaptaciones adicionales. Las transiciones bruscas en el espectro de magnitud pueden aparecer a frecuencias fc, fc+w, ..., fc+kw. Esto puede conducir a una percepción de sonido penetrante y brillante que deberá ser evitada por los conformadores de envoltura 116i y 1162.
[0148] Para evitar tales efectos, la basculación espectral T como se muestra en la Fig. 17b se puede estimar calculando la pendiente |X| que se ha ajustado mediante regresión lineal al espectro logarítmico del parche de origen que comprende el intervalo de frecuencias [fc-w, fc]. Cada parche w puede ser atenuado por un valor kT, es decir, cuanto más alto sea el parche copiado en el intervalo de frecuencias, más alta puede ser la atenuación. k puede ser un número natural y puede ser el llamado orden de parche, que comienza desde 1 y se incrementa por cada parche adicional que se desplaza y puede corresponder, por tanto, a n mencionado anteriormente.
[0149] En otras palabras, la Fig. 17b muestra un copiado de los coeficientes espectrales sin conformación de envoltura. La fuente para copiado es del intervalo [fc-w, fc], donde w es el ancho del parche. Durante la conformación analógica, la magnitud de los parches diana copiados en el intervalo [fc, fc+2w] es atenuada por un múltiplo de T,que representa la basculación espectral.
[0150] La Fig. 17c muestra un espectro de magnitud ejemplar 132a que se puede obtener de la conformadora de envoltura 1161 que se configura para conformar al menos las porciones extendidas 1261. En función de la interpolación, las magnitudes de las porciones copiadas 1281 y 1282 pueden conformarse o atenuarse para obtener un espectro homogéneo. La Fig. 17c muestra el espectro de magnitud de la conformación de envoltura con el orden de parche 2, donde el orden de parche puede comprender cualquier valor de 1 o superior. Cada uno de los extensores de ancho de banda 491 y 492 puede comprender un blanqueador para igualar al menos la primera porción extendida, la segunda porción extendida, respectivamente. El blanqueamiento espectral se puede realizar elevando los valores espectrales y bajando los picos espectrales.
[0151] Para una mejor comprensión, la Fig. 18 muestra un diagrama de bloques esquemático de un blanqueador espectral que se configura para blanquear la señal de audio 91 independientemente. El blanqueador puede comprender la calculadora de espectro 44 para obtener un espectro de la señal de audio. El blanqueador 134 puede estar configurado para comparar la magnitud X[k,m] de cada coeficiente espectral e intervalo de tiempo con una versión suavizada Y[k,m], donde k es el índice de coeficiente espectral y m el índice de trama. Y[k,m] se puede derivar alisando magnitudes espectrales logarítmicas sobre la frecuencia. Posteriormente, estos valores logarítmicos
se pueden transformar en el dominio lineal utilizando una regla de determinación según
Figure imgf000025_0001
[0152] Los pesos espectrales valorados reales G[k,m] se pueden calcular como se describe en la regla de determinación
i f X > Y
Figure imgf000025_0002
i f X < Y
[0153] Nuevamente, el índice k y m se omiten para una mejor legibilidad. a 1, a2, p1, p2, y i, Y2 son parámetros sintonizables que se pueden adaptar para cada uno de los blanqueadores 118i y II82 independientemente. El blanqueador puede comprender una calculadora 126 para calcular los valores absolutos del espectro. Esos valores pueden denominarse X, donde los valores son los proporcionados a una calculadora 138 para calcular cualquier peso espectral G y son los proporcionados a una trayectoria de suavizado 142 para obtener la versión suavizada Y. Un convertidor de frecuencia 144 puede configurarse para transformar el resultado en un dominio de tiempo. Al referirse ahora a la Fig. 16, puede observarse que el blanqueador 1181 y 1182 ya puede funcionar en el dominio de frecuencia de modo que el blanqueador respectivo puede implementarse sin la calculadora de espectro 44 y/o el convertidor de frecuencia 144 o similares.
[0154] Cada uno de los extensores de ancho de banda 941 y 942 puede comprender un filtro antirrugosidad 1221, 1222 respectivo, respectivamente, para desfasar al menos una porción de la primera porción extendida, de la segunda porción extendida, respectivamente. Esto puede ejecutarse como un desfase de las porciones copiadas 1281 y 1282 y/o las versiones conformadas 128'1, 128'2 de estas y/o las versiones blanqueadas 146a y 146b, respectivamente. Es decir, el filtro antirrugosidad está configurado para desfasar la porción extendida respectiva o señal a la derecha de la misma para obtener una señal desfasada. El filtro antirrugosidad 1221 y 1222 puede estar configurado para aplicar diferentes desfases a la señal respectiva que se va a filtrar. Mediante el uso de desfase, se puede obtener un desfase de la porción copiada o la porción extendida con respecto a la señal original. Como alternativa, el filtro antirrugosidad puede realizar un desfase en la señal completa proporcionada. Esto se puede implementar, por ejemplo, cuando la porción de núcleo respectiva se sustituye luego por una porción que no sea de desfase como se describirá a continuación. El filtro antirrugosidad 1221 y 1222 se puede implementar para filtrar una señal respectiva en el dominio de tiempo. Por lo tanto, el bloque de ISTFT 1241, 1242puede disponerse para proporcionar una señal respectiva en el dominio de tiempo. Como alternativa, el filtro antirrugosidad 1221 y 1222 se puede implementar para filtrarse en el dominio de frecuencia. En tal caso, los bloques de ISTFT 1241 y 1242 pueden estar ausentes o pueden estar dispuestos después de los filtros antirrugosidad 1221, 1222, respectivamente. Se puede realizar un filtrado antirrugosidad para disminuir la rugosidad percibida que es evocada principalmente por el copiado. Aquí puede ser adecuado un filtro que no afecte al timbre de la señal, pero que cambie principalmente la fase de la señal. Por ejemplo, dos filtros de paso todos anidados pueden disponerse en paralelo y pueden calcularse en el dominio de tiempo. Anidado de todos los filtros de paso se puede entender como H1(z) y H2(z) denotando funciones de transferencia de todos los pasos de ganancia unitaria de un filtro respectivo, entonces tanto H1(H2(z)) como H2(H1(z)) son todos filtros de paso.
[0155] Opcionalmente, cada uno de los extensores de ancho de banda 941 y 942 puede comprender un amplificador/atenuador 1481, 1482, respectivamente, para aplicar una ganancia gt, gs, respectivamente, para amplificar las porciones sostenidas o transitorias. Un resultado puede ser las porciones extendidas 98a y 98b proporcionadas al combinador 102. Tal como se explicó anteriormente, las porciones extendidas 98a y 98b se pueden obtener de manera diferente y/o solo mediante la realización de algunas de las modificaciones de señal explicadas.
[0156] En relación con el filtro de rugosidad, el aparato 160 puede comprender un filtro de paso alto 152 para filtrar la primera porción extendida y la segunda porción extendida 98a y 98b, la señal combinada 102, respectivamente, y como sinónimo para obtener una señal filtrada 154. En paralelo a los extensores de ancho de banda 941 y 942, la señal de audio 91 puede someterse a un retraso 156 para compensar los retrasos de tiempo provocados por la conversión de tiempo a frecuencia en el bloque 44 y la conversión de frecuencia a tiempo en los bloques 1241 y 1242. El aparato 160 puede comprender un filtro de paso bajo 158 configurado para filtrar la señal de audio retrasada. El aparato 160 puede comprender además un combinador 162 configurado para combinar la señal de audio filtrada de paso bajo y la señal 154. Según una realización, el aparato 160 está configurado para que coincida con la frecuencia superior (frecuencia de corte Xc) del filtro de paso bajo 158 con una frecuencia de flanco inferior del filtro de paso alto 152 para obtener una señal homogénea combinada. En particular, el aparato 160 puede configurarse para adaptar la frecuencia inferior respectiva del filtro de paso alto 152 junto con la frecuencia de flanco superior (frecuencia de corte) del filtro de paso bajo 158 que responde a y de acuerdo con la frecuencia de corte determinada de la señal de audios 91. Por tanto, en función del filtro de paso alto 152, las porciones de señal por debajo de la frecuencia de corte fc pueden descartarse o atenuarse fuertemente de modo que solo permanezcan las porciones extendidas y desfasadas. En contraste con la presente, el filtro de paso bajo 158 se puede utilizar para descartar, desechar o atenuar fuertemente partes de la señal de audio 91, partes de esta que se extienden respectivamente más allá de la frecuencia de corte fc. Esto permite obtener las versiones extendidas y copiadas que se desfasan con respecto a la señal de audio original 91 que solo se retrasa para compensar otros retrasos dentro de los extensores de ancho de banda, excepto para los filtros antirrugosidad 1221 y 1222. Una señal de audio obtenida 164 puede ser una señal de audio extendida y optimizada.
[0157] Debido a que el filtrado antirrugosidad solo se aplicará a las áreas extendidas de ancho de banda del espectro, la señal resultante puede filtrarse con paso alto y añadirse a la señal de entrada filtrada y retardada de paso bajo. El retraso se utiliza o se necesita para compensar el retraso introducido por la STFT. Las frecuencias de corte de los filtros de paso alto y paso bajo mencionados anteriormente pueden corresponder a la frecuencia de corte fc como se muestra, por ejemplo, en la Fig. 17a.
[0158] Con respecto a la Fig. 19 en relación con la Fig. 16, se muestra una funcionalidad de los bloques opcionales 166 que es un analizador de señal y 168 que es una tabla de consulta del aparato 160. El aparato 160 puede ser una extensión de ancho de banda ciega. Puede ser un objetivo para restaurar el ancho de banda perdido como se describe y sin tener conocimiento adicional, por ejemplo, en función de información colateral. El analizador de señal 166 puede configurarse para detectar, si la señal se ha limitado artificialmente por banda o no y/o puede estimar una frecuencia de corte fc de la señal de audio 91. Ambas etapas se pueden realizar como se describe en relación con el análisis de limitación de ancho de banda artificial. Ambos valores pueden actualizarse para cada trama. Por tanto, la señal de audio 91 puede comprender una pluralidad de tramas. El aparato 160 puede comprender el analizador de señal 166 configurado para analizar para cada trama, el espectro de la señal de audio 91 para una característica relacionada con una limitación de ancho de banda artificial de la señal de audio 91 y para determinar una frecuencia de corte fc en la señal de audio 91.
[0159] En función de diferentes frecuencias de corte que se denominan esquemáticamente fü, fi, f2, f3, f4, respectivamente en la Fig. 19, se utilizan diferentes parámetros para adaptar una funcionalidad del duplicador 114, la conformadora 116, el blanqueador 118 y/o el filtro antirrugosidad 122 pueden variar. Por ejemplo, un parámetro p puede utilizarse para adaptar el bloque respectivo. Como se ilustra en la Fig. 19, se pueden asociar diferentes frecuencias de corte con diferentes parámetros o diferentes valores del mismo parámetro. Esos valores se pueden almacenar en una tabla de consulta 168 para proporcionar el parámetro respectivo al bloque respectivo. En la Fig. 16, las conexiones discontinuas indican que un módulo se controla, por ejemplo, en tiempo real. Un parámetro ejemplar puede ser Pero aquí hay un ejemplo: un parámetro puede ser el ancho de banda del parche de origen w. Este parámetro puede afectar al ancho de banda que se crea artificialmente. Otro parámetro ejemplar puede ser una constante de tiempo de un filtro de suavizado que puede ser diferente para diferentes códecs. Se puede utilizar una pluralidad de otros ejemplos para controlar los bloques 114, 116, 118 y/o 122 en el dominio de frecuencia y/o dominio de tiempo.
[0160] La tabla de consulta puede contener sintonizaciones para algunos o todos los parámetros de control dependiendo de los resultados del análisis de señales. En el caso de la estimación de la frecuencia de corte fc, para cada frecuencia seleccionada fi se puede ejecutar una sintonización perceptual del parámetro correspondiente que puede conducir a un valor de control p. Cabe señalar que un valor seleccionado pi puede diferir para los diferentes extensores de ancho de banda, es decir, el aparato 160 puede configurarse para adaptar el bloque respectivo de manera diferente. Los puntos de muestreo de la tabla de consulta si para un extensor de ancho de banda 941 o 942 se pueden dar, por ejemplo, como tuplas según
Figure imgf000027_0001
[0161] En la Fig. 19, se muestra un ejemplo para una sintonización de un parámetro de control p para cinco frecuencias de corte fo, a f4. Según algunos ejemplos, un parámetro puede interpolarse cuando los valores intermedios son apropiados. En tal caso, entre dos puntos de muestreo en el intervalo [fi, fi+1], la interpolación lineal puede ejecutarse según:
Figure imgf000027_0002
[0162] Un ejemplo para dichos valores de interpolación puede ser, por ejemplo, un ancho w de un parche respectivo como se explica en relación con las Figs. 17a-17c. Los parámetros que pueden permanecer sin ser sometidos a interpolación pueden ser, por ejemplo, un número de parches que se limita, por ejemplo, a valores enteros.
[0163] El aparato puede estar configurado para utilizar los parámetros primero y segundo para una trama que tiene la característica relacionada con una limitación de ancho de banda artificial. Para otras tramas, el aparato puede configurarse para utilizar terceros parámetros para el primer extensor de ancho de banda y cuartos parámetros para el segundo extensor de ancho de banda, por ejemplo, para tramas que tienen una característica diferente de la característica relacionada con una limitación de ancho de banda artificial. Como alternativa, el aparato puede configurarse para desactivar el extensor de ancho de banda primero y segundo para las tramas que tienen una característica que es diferente de la característica relacionada con una limitación de ancho de banda artificial. Por tanto, el aparato puede configurarse para realizar una extensión de ancho de banda para tramas que se consideran que comprenden la característica respectiva y puede tratar tramas que se consideran que no comprenden la característica de manera diferente mediante el uso de los parámetros tercero y cuarto o para dejar la trama respectiva sin tratar.
[0164] Por tanto, el aparato puede comprender una tabla de consulta 168 que comprende una pluralidad de parámetros asociados con una pluralidad correspondiente de parámetros de modificación de señal, tal como la frecuencia de corte fc y una pluralidad de otros parámetros asociados con una pluralidad correspondiente de parámetros de modificación de señal fc utilizados para los extensores de ancho de banda primero y segundo 941, 942, respectivamente. El aparato puede comprender un analizador de señal 166 para analizar el espectro para una modificación aplicada a la señal de audio 91. El aparato 160 puede configurarse para derivar un parámetro de modificación asociado con la modificación, por ejemplo, la frecuencia de corte fc y/o un parámetro relacionado con la inclinación de la pendiente. El aparato puede estar configurado para derivar el parámetro primero y/o segundo respectivo utilizando la tabla de consulta y utilizando el parámetro de modificación. Según un ejemplo, el aparato puede derivar la frecuencia de corte del parámetro de modificación y puede determinar el parámetro p una vez para el primer extensor de ancho de banda y una vez para el segundo extensor de ancho de banda.
[0165] En conceptos conocidos, la extensión de ancho de banda artificial es una técnica de codificación de audio bien conocida. Asimismo, la extensión de ancho de banda no guiada es bien conocida. Sin embargo, se desconoce la descomposición semántica previa al cálculo de la extensión de ancho de banda. La decorrelación semántica se puede utilizar con el propósito de mezclar espacialmente, no conteniendo una funcionalidad de copiado o transposición como la que inevitablemente se encuentra en las aplicaciones de extensión de ancho de banda. Por lo tanto, las realizaciones según los terceros aspectos difieren. Otra técnica se conoce a partir de una extensión de ancho de banda decorrelacionada. Aquí, todas las regiones espectrales diana de banda alta están decorrelacionadas a través de decorrelacionadores dedicados o a través de la inserción de instancias decorrelacionadas de ruido aleatorio para que sean mutuamente independientes. Las presentes realizaciones según el tercer aspecto enseñan la decorrelación mutua de partes de señal semánticamente descompuestas mientras que los conceptos conocidos simplemente comprenden la decorrelación de diferentes regiones diana espectrales.
[0166] La Fig. 20 muestra un diagrama de flujo esquemático de un procedimiento 3000 según una realización del tercer aspecto. El procedimiento 3000 comprende una etapa 3100 que comprende separar una primera porción de un espectro de la señal de audio de una segunda porción del espectro de la señal de audio, teniendo la primera porción una primera característica de señal y teniendo la segunda porción una segunda característica de señal. Una etapa 3200 comprende extender un ancho de banda de la primera porción utilizando primeros parámetros asociados con la primera característica de señal para obtener una primera porción extendida. Una etapa 3300 comprende extender un ancho de banda de la segunda porción utilizando los segundos parámetros asociados con la segunda característica de señal, para obtener una segunda porción extendida. Una etapa 3400 comprende utilizar la primera porción extendida y la segunda porción extendida para obtener una señal de audio combinada extendida.
[0167] Según el cuarto aspecto, la supresión antirrugosidad se puede realizar como un posprocesamiento, por ejemplo, después de haber realizado una extensión de ancho de banda con un concepto diferente. Por tanto, se puede utilizar la supresión antirrugosidad o el filtrado antirrugosidad para reducir los artefactos, por ejemplo, en relación con el potenciador de señal 48 cuando se ha determinado que se ha realizado una limitación de ancho de banda artificial y que también se ha realizado la extensión respectiva.
[0168] La Fig. 21 muestra un diagrama esquemático de un aparato 210 según una realización del cuarto aspecto. El aparato 210 se puede utilizar, por ejemplo, para procesar la señal de audio 12 que se somete a una extensión de ancho de banda artificial. El aparato 210 puede comprender el filtro antirrugosidad 122 para desfasar al menos una porción de la señal de audio 12, para obtener una señal desfasada 172. El filtro antirrugosidad 122 puede funcionar, por ejemplo, en el dominio de tiempo o como alternativa en el dominio de frecuencia. Según una realización, el filtro antirrugosidad 122 puede configurarse para desfasar la señal de audio completa 12. El aparato 210 comprende un filtro de paso alto, por ejemplo, el filtro de paso alto 152 para filtrar la señal desfasada 173, para obtener una primera señal filtrada 174. El aparato 210 comprende un filtro de paso bajo tal como el filtro de paso bajo 158 para filtrar la señal de audio 12 para obtener una segunda señal filtrada 176. El aparato 210 comprende además un combinador 162 para combinar las señales 154 y 156 para obtener una señal de audio mejorada 178, en la que se reduce la rugosidad percibida. Tal como se describió en relación con el aparato 160, el ancho de banda extendido se desfasa con respecto a la señal de audio 12. Un aspecto es filtrar la señal de audio 12, utilizando el filtro de paso bajo 158 para descartar cualquier porción de señal que esté por encima de la frecuencia de filtro seleccionada, la frecuencia de corte fc respectivamente. Esto permite reducir o limitar los efectos o la superposición de diferentes porciones de señal en la señal combinada 178.
[0169] La Fig. 22 muestra un diagrama de bloques esquemático de un aparato 220 según una realización del cuarto aspecto. Tal como se describe en relación con la Fig. 16, el aparato 220 puede comprender el separador 92 para proporcionar porciones primera y segunda 12'a y 12'b de la señal de audio 12 en el dominio de frecuencia. El aparato 220 puede comprender diferentes trayectorias, comprendiendo cada trayectoria, a modo de ejemplo no limitativo, un blanqueador 1181, 1182, respectivamente junto con un filtro antirrugosidad 1221, 1222, respectivamente, que funciona solo a modo de ejemplo no limitativo, en el dominio de tiempo. Como alternativa o adicionalmente, cada trayectoria puede comprender un amplificador/atenuador 148. Por tanto, el aparato 220 puede configurarse para mejorar la señal de audio 12 mediante la mejora de las diferentes porciones 12'a y 12'b independientemente entre sí. A tal efecto, el aparato 220 puede comprender el analizador de señal 166 y la tabla de consulta 168 como se describe en relación con la Fig. 16.
[0170] En particular, el aparato 220 puede comprender el analizador de señal 166 configurado para determinar una frecuencia de inicio de la extensión de ancho de banda en la señal de audio 12, la frecuencia de inicio de la extensión de ancho de banda dispuesta entre un ancho de banda que se extiende, por ejemplo, los parches w añadidos según las Figs. 70a-c o versiones procesadas de estos, de la señal de audio 12 y un ancho de banda central, es decir, el ancho de banda original tal como el ancho de banda de la señal de audio 91.
[0171] En relación con la presente, el aparato puede configurarse para adaptar una frecuencia más baja del filtro de paso alto 152 y/o una frecuencia más alta del filtro de paso bajo 158 según una frecuencia de inicio de extensión de ancho de banda en la señal de audio 12. La frecuencia de inicio de la extensión de ancho de banda puede ser recibida por un canal adicional o puede ser determinada por el analizador de señal 166.
[0172] Según una realización que se puede combinar con la realización independiente del aparato 210 y con cada una de las otras realizaciones del cuarto aspecto, el aparato se puede configurar para adaptar el filtro de rugosidad y/o un potenciador de señal, por ejemplo, que comprende el blanqueador 118, una conformadora de envoltura o similares para mejorar la señal de audio 12, utilizando una frecuencia de inicio de extensión de ancho de banda en la señal de audio. Por ejemplo, en función de la frecuencia de inicio de la extensión del ancho de banda en la señal de audio 12, la tabla de consulta puede proporcionar cuatro parámetros diferentes para cada uno de los bloques a ajustar, tal como el blanqueador 118 y/o el filtro antirrugosidad 122 y/o bloques adicionales.
[0173] Según una realización que puede combinarse con cada una de las otras realizaciones según el cuarto aspecto, el filtro antirrugosidad 122 puede disponerse en una primera trayectoria y donde el filtro de paso bajo 158 puede disponerse en una segunda trayectoria. La segunda trayectoria puede comprender el blanqueador 118 para igualar una señal en función de una señal proporcionada para o recibida desde el filtro antirrugosidad, es decir, se puede cambiar un orden o secuencia del blanqueador y el filtro antirrugosidad.
[0174] Según una realización adicional del cuarto aspecto, que puede combinarse con cada una de las otras realizaciones, el filtro antirrugosidad 122 puede disponerse en una primera trayectoria y el filtro de paso bajo 158 puede disponerse en una segunda trayectoria. El aparato 220 puede comprender un potenciador de señal configurado para mejorar la señal de audio en la primera trayectoria y al menos parcialmente en el dominio de frecuencia, por ejemplo, utilizando el blanqueador 118 y/o la conformadora 116. La segunda trayectoria puede comprender un bloque de retraso tal como el retraso 156 para retrasar la señal de audio 12 por un retraso correspondiente a un retraso en la primera trayectoria provocado por una conversión de tiempo a frecuencia y una conversión de frecuencia a tiempo dentro de un intervalo de tolerancia de como máximo ± 10 %, ± 5 % o ± 2 % y probablemente excluyendo el retraso del filtro antirrugosidad.
[0175] Según una realización adicional, que se puede combinar con cada una de las otras realizaciones según el cuarto aspecto, el filtro antirrugosidad 122 es un primer filtro antirrugosidad. El aparato comprende un separador para recibir un espectro de la señal de audio 12 y para separar una primera porción 12'a del espectro 12' de la señal de audio 12 de una segunda porción 12'b del espectro de la señal de audio 12. La primera porción 12'a tiene una primera característica de señal y la segunda porción 12'b tiene una segunda característica de señal. El aparato 220 puede estar configurado para proporcionar la primera porción 12'a a una primera trayectoria que tiene el primer filtro antirrugosidad 1221 y para proporcionar la segunda porción 12'b a una tercera trayectoria que tiene el segundo filtro antirrugosidad 1222.
[0176] Según una realización adicional que puede combinarse con la realización mencionada anteriormente, el aparato puede configurarse para aplicar una primera ganancia gt a la primera trayectoria y una segunda ganancia gs a la tercera trayectoria.
[0177] Según una realización adicional del cuarto aspecto que se puede combinar con la realización anterior y la penúltima, el aparato se puede configurar para ajustar el primer filtro antirrugosidad 1221 y el segundo filtro antirrugosidad 1222 de forma diferente entre sí utilizando una frecuencia de inicio de extensión de ancho de banda de la señal de audio 12.
[0178] Según una realización adicional del cuarto aspecto que puede combinarse con las últimas tres realizaciones del cuarto aspecto, el separador comprende un supresor de transitorios, tal como el supresor de transitorios 108 configurado para recibir la señal de audio 12 y para reducir las porciones transitorias en la señal de audio 12 para obtener una primera señal de audio modificada. El separador 92 se configura para obtener la primera porción 12'a en función de la primera señal de audio modificada, por ejemplo, mediante el uso de la primera señal de audio modificada como la primera porción 12'a. El separador 92 comprende además el sustractor 112 para sustraer la primera señal de audio modificada de la señal de audio 12 para obtener una segunda señal modificada. El separador 92 está configurado para obtener la segunda porción en función de la segunda señal de audio modificada, por ejemplo, al tomar la segunda señal de audio modificada como la segunda porción 12'b.
[0179] Según una realización adicional del cuarto aspecto, que puede combinarse con las últimas cuatro realizaciones, la primera característica de señal es una de a) un intervalo de frecuencias central del espectro; b) una característica de señal directa de la señal de audio; c) una característica tonal de la señal de audio; y d) una característica de voz de la señal de audio. La segunda característica de señal es según las letras utilizadas: a) un intervalo de frecuencias lateral del espectro; b) una característica de señal ambiente de la señal de audio; c) una característica de señal sostenida de la señal de audio; y d) una característica que no sea de voz de la señal de audio.
[0180] Según una realización adicional del cuarto aspecto, que puede combinarse con cada una de las otras realizaciones del cuarto aspecto, la señal de audio mejorada 164 comprende que la segunda señal filtrada se desfase cuando se compara con la primera señal filtrada, es decir, la región de frecuencias superior se desfasa cuando se compara con la región de frecuencias inferior.
[0181] La Fig. 23 muestra un diagrama de flujo esquemático de un procedimiento 4000 de procesamiento de una señal de audio. El procedimiento 4000 comprende una etapa 4100 que comprende desfasar al menos una porción de la señal de audio para obtener una señal desfasada. Una etapa 4200 comprende filtrar la señal desfasada utilizando un filtro de paso alto para obtener una primera señal filtrada. Una etapa 4300 comprende filtrar la señal de audio utilizando un filtro de paso bajo para obtener una segunda señal filtrada. Una etapa 4400 comprende combinar la primera señal filtrada y la segunda señal filtrada para obtener una señal de audio mejorada. En otras palabras, la supresión de rugosidad de extensión de ancho de banda artificial (ARS) se dirige a reducir artefactos tales como el artefacto de pico tonal y el artefacto de batido como se describió anteriormente. Como se ilustra en la Fig. 22, algunos de los procedimientos o bloques de ARS también se utilizan por el concepto de BWE que ya se ha descrito anteriormente. También hay que señalar que estos procedimientos o conceptos comunes se pueden utilizar con diferentes sintonizaciones de parámetros. En las siguientes secciones, se describirán las diferencias entre el aparato 160 y el aparato 220.
[0182] El analizador de señal se utiliza para activar ARS en la Fig. 22 detectando por un lado si la señal se ha extendido o no por el ancho de banda artificialmente. Por otro lado, se puede realizar una estimación en tiempo real de la frecuencia de inicio (frecuencia de corte) de la extensión de ancho de banda artificial que se ha aplicado a la presente señal. La descripción de la señal analiza si un concepto se puede realizar según los otros aspectos descritos en esta invención. Los resultados del analizador de señal se remiten a la tabla de consulta 168 para obtener una salida de la misma que incluye parámetros de control que afectan a los módulos que se muestran en la Fig. 22. La tabla de consulta 168 puede comprender sintonizaciones de parámetros que se sintonizaron perceptualmente para varias frecuencias de inicio.
[0183] La tabla de consulta de ARS puede basarse en el mismo principio que la tabla de consulta de BWE descrita en relación con la Fig. 16 con la diferencia de que la variable dependiente puede ser la estimación de la frecuencia de inicio de BWE. También los parámetros que se controlan pueden diferir.
[0184] Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o un rasgo de una etapa de procedimiento. Análogamente, los aspectos descritos en el contexto de una etapa de procedimiento también representan una descripción de un bloque o elemento o rasgo correspondiente de un aparato correspondiente.
[0185] La señal de audio codificada puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable, tal como Internet.
[0186] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o software. La implementación puede ser realizada utilizando un medio de almacenamiento digital, por ejemplo un disquete, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria flash que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal manera que se realiza el procedimiento respectivo.
[0187] En general, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo código de programa operativo para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa se puede almacenar, por ejemplo, en un soporte legible por máquina.
[0188] En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables en campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables en campo puede cooperar con un microprocesador con el fin de realizar uno de los procedimientos descritos en esta invención. En general, los procedimientos se realizan preferentemente por cualquier aparato de hardware.
[0189] Las realizaciones descritas anteriormente son simplemente ilustrativas de los principios de la presente invención. Se entiende que, para otros expertos en la materia, resultarán evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención. Por lo tanto, es la intención que la invención esté limitada solo por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados a modo de descripción y la explicación de las realizaciones en esta invención.
Referencias
[0190]
[1] M. Arora, J. Lee, y S. Park, "High quality blind bandwidth extension of audio for portable player applications," en Proc. of the AES 120th Conv., 2006.
[2] Markus Erne, "Perceptual audio coders "what to listen for?"," en Audio Engineering Society Convention 111, noviembre de 2001.
[3] Chia-Ming Chang, Han-Wen Hsu, Kan-Chun Lee, Wen-Chieh Lee, Chi-Min Liu, Shou-Hung Tang, Chung-Han Yang y Yung-Cheng Yang, "Compression artifacts in perceptual audio coding", en Audio Engineering Society Convention 121, octubre de 2006.
[4] Martin Dietz, Lars Liljeryd, Kristofer Kjorling y Oliver Kunz, "Spectral band replication, a novel approach in audio coding", en Audio Engineering Society Convention 112, abril de 2002.
[5] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel y Bernd Edler, "Intelligent gap filling in perceptual transform coding of audio", en Audio Engineering Society Convention 141, septiembre de 2016.

Claims (17)

REIVINDICACIONES
1. Un aparato para procesar una señal de audio, comprendiendo el aparato:
un separador (92) para separar una primera porción (91'a) de un espectro (91') de la señal de audio (91) de una segunda porción (91'b) del espectro (91') de la señal de audio (91), teniendo la primera porción (91'a) una primera característica de señal y teniendo la segunda porción (91'b) una segunda característica de señal;
un primer extensor de ancho de banda (941) para extender un ancho de banda de la primera porción (91'b) utilizando primeros parámetros (961) asociados con la primera característica de señal, para obtener una primera porción extendida (98a, 126a);
un segundo extensor de ancho de banda (942) para extender un ancho de banda de la segunda porción (91'b) utilizando segundos parámetros (962) asociados con la segunda característica de señal, para obtener una segunda porción extendida (98b, 126b);
un combinador (102) configurado para utilizar la primera porción extendida (98a) y la segunda porción extendida (98b) para obtener una señal de audio combinada extendida (104); y un analizador de señal; y al menos uno de: a) donde la señal de audio (91) comprende una pluralidad de tramas y donde el analizador de señal (166) está configurado para analizar, para cada trama, el espectro (91') de la señal de audio (91) para una característica que indica que la señal de audio se sometió a una limitación de ancho de banda artificial de la señal de audio (91) y para determinar una frecuencia de corte (fc) en la señal de audio; donde el aparato está configurado para utilizar los parámetros primero y segundo (961, 962) para una trama que tiene la característica que indica que la señal de audio se sometió a una limitación de ancho de banda artificial de la señal de audio (91); y donde el aparato está configurado para utilizar terceros parámetros para el primer extensor de ancho de banda (941) y cuartos parámetros para el segundo extensor de ancho de banda (942) para tramas que tienen una característica diferente de la característica que indica que la señal se sometió a una limitación de ancho de banda artificial; y
b) donde el aparato comprende una tabla de consulta (168) que comprende una pluralidad de primeros parámetros (p, 96) asociados con una pluralidad correspondiente de parámetros de modificación de señal ( fr f4, fc) y una pluralidad de segundos parámetros (p, 962) asociados con una pluralidad correspondiente de parámetros de modificación de señal ( f f fc); donde el analizador de señal (166) está configurado para analizar el espectro (91') de la señal de audio para una modificación aplicada a la señal de audio (91); donde el aparato está configurado para derivar un parámetro de modificación ( f f fc) asociado con la modificación; y para derivar los primeros parámetros (961) y los segundos parámetros (962) utilizando la tabla de consulta (168) y utilizando el parámetro de modificación ( f f fc).
2. El aparato de la reivindicación 1, donde el primer extensor de ancho de banda (941) está configurado para extender el ancho de banda de la primera porción (91'a) mediante la adición de componentes espectrales (w) a la primera porción (91'a), donde el segundo extensor de ancho de banda (942) está configurado para extender el ancho de banda de la segunda porción (91'b) mediante la adición de componentes espectrales (w) a la segunda porción (91'b).
3. El aparato de la reivindicación 1 o 2, donde el primer extensor de ancho de banda (941) comprende un primer duplicador (1141) para duplicar al menos una parte (w, 128) de la primera porción (91'a) y para combinar al menos una versión (w) de la parte duplicada (w, 117) de la primera porción con la primera porción (91' a) para obtener una porción extendida (126a); y donde el segundo extensor de ancho de banda (942) comprende un segundo duplicador (1142) para duplicar al menos una parte (w,129) de la segunda porción (91'b) y para combinar al menos una versión de la parte duplicada (w,128) de la segunda porción con la segunda porción (91'b) para obtener una porción extendida (126b).
4. El aparato de la reivindicación 3, donde la parte (w, 128) de la primera porción comprende un primer intervalo de frecuencias (Afw) que varía de una primera frecuencia intermedia (fcopy) de la primera porción a una frecuencia máxima (fc) de la primera porción; y donde la parte (w, 128) de la segunda porción comprende un segundo intervalo de frecuencias (Afw) que varía de una segunda frecuencia intermedia (fcopy) de la segunda porción (91'b) a una frecuencia máxima (fc) de la segunda porción.
5. El aparato de la reivindicación 3 o 4, donde el primer extensor de ancho de banda (941) comprende una primera conformadora de envoltura para conformar al menos la parte duplicada (w,128) de la primera porción extendida y donde el segundo extensor de ancho de banda (942) comprende una segunda conformadora de envoltura (1162) para conformar al menos la parte duplicada de la segunda porción extendida (126b).
6. El aparato de una de las reivindicaciones anteriores, donde el primer extensor de ancho de banda (941) comprende un primer blanqueador (1181) para igualar al menos la parte duplicada (w, 128) de la primera porción extendida (126a) y donde el segundo extensor de ancho de banda (942) comprende un segundo blanqueador (1182) para igualar al menos la parte duplicada (w,128) de la segunda porción extendida (126b).
7. El aparato de una de las reivindicaciones anteriores, donde el primer extensor de ancho de banda (94i) comprende un primer filtro antirrugosidad (94, 1221) para desfasar al menos una porción de la primera porción extendida (126a) y donde el segundo extensor de ancho de banda (942) comprende un segundo filtro antirrugosidad (1222) para desfasar al menos una porción de la segunda porción extendida (126b).
8. El aparato de la reivindicación 7, donde el primer filtro antirrugosidad (1221) está configurado para desfasar la primera porción extendida (w, 128) o una señal derivada de esta, para obtener una primera señal desfasada;
y donde el segundo filtro antirrugosidad (1222) está configurado para desfasar la segunda porción extendida (w,128) o una señal derivada de esta, para obtener una segunda señal desfasada.
9. El aparato de la reivindicación 7 u 8, donde el primer filtro antirrugosidad (1221) está configurado para aplicar un primer desfasado y donde el segundo filtro antirrugosidad (1222) está configurado para aplicar un segundo desfasado.
10. El aparato de una de las reivindicaciones anteriores,
donde la primera característica de señal es
a) un intervalo de frecuencias central del espectro;
b) una característica de señal directa de la señal de audio;
c) una característica transitoria de la señal de audio;
d) una característica de voz de la señal de audio; o
e) una característica tonal de la señal de audio
y donde, para a) a e) de la primera característica de señal, la segunda característica de señal correspondiente es: a) intervalo de frecuencias lateral del espectro;
b) una característica de señal ambiente de la señal de audio;
c) una característica de señal sostenida de la señal de audio; y
d) una característica que no sea de voz de la señal de audio;
e) una característica de señal que no sea tonal de la señal de audio.
11. El aparato de una de las reivindicaciones anteriores,
donde la primera característica de señal es una de
a) una característica de señal central de la señal de audio;
b) una característica de señal directa de la señal de audio;
c) una característica tonal de la señal de audio;
d) una característica transitoria de la señal de audio; y
e) una característica de voz de la señal de audio;
y donde, para a) a e) de la primera característica de señal, la segunda porción que tiene la segunda característica de señal es la señal restante de una diferencia de la señal de audio y la primera porción que tiene la primera característica de señal.
12. El aparato de una de las reivindicaciones anteriores, donde el aparato comprende una tabla de consulta (168) que comprende una pluralidad de primeros parámetros (p, 96) asociados con una pluralidad correspondiente de parámetros de modificación de señal ( f f fc) y una pluralidad de segundos parámetros (p, 962) asociados con una pluralidad correspondiente de parámetros de modificación de señal ( f f fc); donde el aparato comprende un analizador de señal (166) para analizar el espectro (91') para una modificación aplicada a la señal de audio (91); donde el aparato está configurado para derivar un parámetro de modificación ( f f fc) asociado con la modificación; y para derivar los primeros parámetros (961) y los segundos parámetros (962) utilizando la tabla de consulta (168) y utilizando el parámetro de modificación ( f f fc); y donde el aparato está configurado para derivar una inclinación de una pendiente del espectro como parámetro de modificación.
13. El aparato de la reivindicación 12, donde el aparato está configurado para analizar el espectro utilizando una función de diferencia espectral.
14. El aparato de una de las reivindicaciones anteriores, donde el separador (92) comprende:
un supresor de transitorios (108) configurado para recibir la señal de audio (91') y para reducir las porciones transitorias en la señal de audio (91) para obtener una primera señal de audio modificada, donde el separador (92) está configurado para obtener la primera porción (91'a) en función de la primera señal de audio modificada; un sustractor (112) para sustraer la primera señal de audio modificada de la señal de audio (91') para obtener una segunda señal modificada (91'b), donde el separador (92) está configurado para obtener la segunda porción (91'b) en función de la segunda señal de audio modificada.
15. El aparato de una de las reivindicaciones anteriores, donde el combinador (102) es un primer combinador, comprendiendo el aparato:
un filtro de paso alto (152) para filtrar la primera porción extendida (98'a) y la segunda porción extendida (98'b) o para filtrar la señal de audio combinada (104) de modo que se obtiene una señal de audio combinada filtrada (154); un filtro de paso bajo (158) para filtrar la señal de audio (91) para obtener una señal de audio filtrada; y un segundo combinador (162) configurado para combinar la señal de audio combinada filtrada (154) y la señal de audio filtrada para obtener una señal de audio extendida en ancho de banda (164).
16. Procedimiento (3000) de procesamiento de una señal de audio, comprendiendo el procedimiento: separar (3100) una primera porción de un espectro de la señal de audio de una segunda porción del espectro de la señal de audio, teniendo la primera porción una primera característica de señal y teniendo la segunda porción una segunda característica de señal;
extender (3200) un ancho de banda de la primera porción utilizando primeros parámetros asociados con la primera característica de señal, para obtener una primera porción extendida;
extender (3300) un ancho de banda de la segunda porción utilizando segundos parámetros asociados con la segunda característica de señal, para obtener una segunda porción extendida;
utilizar (3400) la primera porción extendida y la segunda porción extendida para obtener una señal de audio combinada extendida; y al menos uno de:
a) donde la señal de audio (91) comprende una pluralidad de tramas y donde el procedimiento comprende: analizar, para cada trama, el espectro (91') de la señal de audio (91) para una característica que indica que la señal de audio se sometió a una limitación de ancho de banda artificial de la señal de audio (91) y determinar una frecuencia de corte (fc) en la señal de audio; y utilizar los parámetros primero y segundo (961, 962) para una trama que tiene la característica que indica que la señal de audio se sometió a una limitación de ancho de banda artificial de la señal de audio (91); y utilizar terceros parámetros para el primer extensor de ancho de banda (941) y cuartos parámetros para el segundo extensor de ancho de banda (942) para tramas que tienen una característica diferente de la característica que indica que la señal de audio se sometió a una limitación de ancho de banda artificial de la señal de audio; y
b) donde el procedimiento comprende analizar el espectro (91') de la señal de audio para una modificación aplicada a la señal de audio (91); y derivar un parámetro de modificación ( f f fc) asociado con la modificación; y derivar los primeros parámetros (961) y los segundos parámetros (962) utilizando una tabla de consulta (168) y utilizando el parámetro de modificación ( f f fc), comprendiendo la tabla de consulta (168) una pluralidad de primeros parámetros (p, 96) asociados con una pluralidad correspondiente de parámetros de modificación de señal ( f f fc) y una pluralidad de segundos parámetros (p, 962) asociados con una pluralidad correspondiente de parámetros de modificación de señal ( f f fc).
17. Medio de almacenamiento no transitorio que tiene almacenado en el mismo un programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, el procedimiento según la reivindicación 16.
ES18714687T 2017-03-31 2018-03-29 Aparato y procedimiento de procesamiento de una señal de audio Active ES2923098T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17164360 2017-03-31
EP17189999.0A EP3382703A1 (en) 2017-03-31 2017-09-07 Apparatus and methods for processing an audio signal
PCT/EP2018/025082 WO2018177611A1 (en) 2017-03-31 2018-03-29 Apparatus and methods for processing an audio signal

Publications (1)

Publication Number Publication Date
ES2923098T3 true ES2923098T3 (es) 2022-09-23

Family

ID=58632740

Family Applications (3)

Application Number Title Priority Date Filing Date
ES18714688T Active ES2933500T3 (es) 2017-03-31 2018-03-29 Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio
ES18714687T Active ES2923098T3 (es) 2017-03-31 2018-03-29 Aparato y procedimiento de procesamiento de una señal de audio
ES18714686T Active ES2927808T3 (es) 2017-03-31 2018-03-29 Aparato y método para determinar una característica relacionada a un procesamiento de limitación de ancho de banda artificial de una señal de audio

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES18714688T Active ES2933500T3 (es) 2017-03-31 2018-03-29 Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES18714686T Active ES2927808T3 (es) 2017-03-31 2018-03-29 Aparato y método para determinar una característica relacionada a un procesamiento de limitación de ancho de banda artificial de una señal de audio

Country Status (13)

Country Link
US (3) US20200020347A1 (es)
EP (6) EP3382704A1 (es)
JP (4) JP6968191B2 (es)
KR (3) KR102517285B1 (es)
CN (3) CN110870007B (es)
AU (4) AU2018246838A1 (es)
BR (3) BR112019020523A2 (es)
CA (3) CA3058353C (es)
ES (3) ES2933500T3 (es)
MX (3) MX2019011519A (es)
PL (3) PL3602553T3 (es)
RU (3) RU2733533C1 (es)
WO (3) WO2018177611A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220375485A1 (en) * 2019-09-24 2022-11-24 Sony Group Corporation Signal processing apparatus, signal processing method, and program
CN112927710B (zh) * 2021-01-21 2021-10-26 安徽南瑞继远电网技术有限公司 一种基于无监督方式的电力变压器工况噪声分离方法
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN114070679B (zh) * 2021-10-25 2023-05-23 中国电子科技集团公司第二十九研究所 一种面向脉冲智能分类的频相特征分析方法

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230414B2 (ja) * 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
EP2273494A3 (en) * 2004-09-17 2012-11-14 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8073704B2 (en) * 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7881459B2 (en) * 2007-08-15 2011-02-01 Motorola, Inc. Acoustic echo canceller using multi-band nonlinear processing
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8005233B2 (en) * 2007-12-10 2011-08-23 Dts, Inc. Bass enhancement for audio
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
KR101518532B1 (ko) * 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
RU2443028C2 (ru) * 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
ATE539433T1 (de) * 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP4224474B1 (en) 2008-12-15 2023-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
AU2016204672B2 (en) 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
SG187950A1 (en) * 2010-08-25 2013-03-28 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
CA2827249C (en) * 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012119140A2 (en) * 2011-03-03 2012-09-07 Edwards Tyson Lavar System for autononous detection and separation of common elements within data, and methods and devices associated therewith
US9117440B2 (en) 2011-05-19 2015-08-25 Dolby International Ab Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
EP2544465A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
US9390721B2 (en) 2012-01-20 2016-07-12 Panasonic Intellectual Property Corporation Of America Speech decoding device and speech decoding method
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP3067890B1 (en) * 2013-01-29 2018-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
CA2964368C (en) * 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6186503B2 (ja) * 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
WO2015105775A1 (en) * 2014-01-07 2015-07-16 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US20190051286A1 (en) 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications

Also Published As

Publication number Publication date
CA3057739A1 (en) 2018-10-04
AU2021203677B2 (en) 2022-10-13
EP3602552A1 (en) 2020-02-05
MX2019011515A (es) 2019-12-19
KR20190134708A (ko) 2019-12-04
EP3382703A1 (en) 2018-10-03
US20200027474A1 (en) 2020-01-23
JP2022097514A (ja) 2022-06-30
KR20190134707A (ko) 2019-12-04
KR102426636B1 (ko) 2022-07-29
CA3058353C (en) 2023-03-07
RU2733278C1 (ru) 2020-10-01
KR102563915B1 (ko) 2023-08-04
EP3602553B1 (en) 2022-04-27
JP2020512593A (ja) 2020-04-23
BR112019020357A2 (pt) 2020-04-28
KR20190134709A (ko) 2019-12-04
AU2018246837B2 (en) 2020-12-24
MX2019011519A (es) 2019-12-19
MX2019011522A (es) 2019-12-19
RU2733533C1 (ru) 2020-10-05
AU2018246838A1 (en) 2019-10-24
BR112019020523A2 (pt) 2020-05-05
US11170794B2 (en) 2021-11-09
JP6968191B2 (ja) 2021-11-17
EP3602555B1 (en) 2022-10-12
PL3602553T3 (pl) 2022-08-22
CN110870007B (zh) 2023-10-13
JP2020512591A (ja) 2020-04-23
WO2018177612A1 (en) 2018-10-04
US20200020346A1 (en) 2020-01-16
EP3382702A1 (en) 2018-10-03
JP7059301B2 (ja) 2022-04-25
CN110914902A (zh) 2020-03-24
AU2018241963A1 (en) 2019-10-24
KR102517285B1 (ko) 2023-04-03
AU2018241963B2 (en) 2021-08-12
AU2021203677A1 (en) 2021-07-01
CN110832582B (zh) 2023-10-24
CN110832582A (zh) 2020-02-21
WO2018177611A1 (en) 2018-10-04
PL3602552T3 (pl) 2022-11-21
WO2018177610A1 (en) 2018-10-04
EP3602553A1 (en) 2020-02-05
EP3602552B1 (en) 2022-07-20
ES2927808T3 (es) 2022-11-11
EP3602555B8 (en) 2023-06-14
BR112019020578A2 (pt) 2020-05-19
JP7455890B2 (ja) 2024-03-26
US20200020347A1 (en) 2020-01-16
JP6896881B2 (ja) 2021-06-30
AU2018246837A1 (en) 2019-10-17
JP2020512594A (ja) 2020-04-23
PL3602555T3 (pl) 2023-05-08
CA3057897C (en) 2022-05-17
EP3382704A1 (en) 2018-10-03
CA3058353A1 (en) 2018-10-04
EP3602553B8 (en) 2022-11-02
CA3057897A1 (en) 2018-10-04
CN110914902B (zh) 2023-10-03
RU2719543C1 (ru) 2020-04-21
ES2933500T3 (es) 2023-02-09
CN110870007A (zh) 2020-03-06
EP3602555A1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
ES2923098T3 (es) Aparato y procedimiento de procesamiento de una señal de audio