ES2933500T3 - Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio - Google Patents

Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio Download PDF

Info

Publication number
ES2933500T3
ES2933500T3 ES18714688T ES18714688T ES2933500T3 ES 2933500 T3 ES2933500 T3 ES 2933500T3 ES 18714688 T ES18714688 T ES 18714688T ES 18714688 T ES18714688 T ES 18714688T ES 2933500 T3 ES2933500 T3 ES 2933500T3
Authority
ES
Spain
Prior art keywords
frequency
signal
audio signal
spectrum
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18714688T
Other languages
English (en)
Inventor
Patrick Gampp
Christian Uhle
Sascha Disch
Antonios Karampourniotis
Julia Havenstein
Oliver Hellmuth
Jürgen Herre
Peter Prokein
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2933500T3 publication Critical patent/ES2933500T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un aparato para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio comprende un derivador configurado para obtener un espectro de la señal de audio y para derivar una señal máxima local del espectro. El aparato comprende un determinador configurado para determinar una similitud entre segmentos de la señal máxima local y comprende un procesador para proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación de la similitud. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio
Descripción
[0001] En aplicaciones multimedia, a menudo se codifican señales de audio usando procedimientos de codificación perceptual dedicados como MPEG1/2 Capa 3 (“mp3”), codificación de audio Avanzada MPEG2/4 (AAC), etc. Cuando se decodifica la señal de audio codificada se pueden acoplar diversos procedimientos de procesamiento para reconstruir la señal de audio que se codificó originalmente. Sin embargo, debido a operaciones de codificación con pérdidas tal como cuantificación perceptualmente adaptada o técnicas de codificación paramétrica tal como replicación de ancho de banda espectral (SBR), es posible obtener distorsiones en la señal de audio decodificada que pueden ser perturbadoras.
[0002] Durante un largo tiempo, codificadores de audio perceptuales se han desarrollado ante todo para preservar la calidad perceptual de las señales originales. Si la señal codificada y no codificada es perceptualmente indistinguible, esta propiedad se denomina “transparencia perceptual”.
[0003] Sin embargo, la transparencia solo se puede lograr si la velocidad de bits disponible (es decir, la cantidad de datos utilizados) es suficientemente alta. En los años recientes, se ha notado que, a bajas velocidades de bits, el agrado perceptual se vuelve más importante que la cercanía al original en un sentido de transparencia. Por lo tanto, esquemas de codificación perceptual bien establecidos como MP3 o ACC pueden sonar subóptimos a la fecha en comparación con estrategias de codificación modernas que tienen como objetivo agrado perceptual.
[0004] En lo siguiente, se describen brevemente algunas distorsiones de codificación.
La distorsión de birdies (ruidos, señales no deseadas)
[0005] En codificación de transformada de baja velocidad de bits, a menudo los cuantificadores para la codificación de las líneas espectrales se tienen que ajustar a una precisión muy gruesa, de tal forma que su intervalo dinámico se poliadapta a la señal. Como resultado, muchas líneas espectrales se cuantifican a 0 por la zona muerta del cuantificador o al valor 1, que corresponde a la primera etapa de cuantificador. Con el paso del tiempo, las líneas espectrales o grupos de líneas pueden alternar entre 0 y 1, introduciendo así modulación temporal no deseada. Esta distorsión se denomina “Birdies” (pájaros) ya que recuerda al piar de un pájaro.
[0006] Por lo tanto, esta fuerte presencia variable en el tiempo de agujeros espectrales e islas espectrales es comportamiento de códec indeseado que conduce a distorsiones perceptuales objetables, véase [2] y [3].
Limitación de ancho de banda
[0007] Otra distorsión de codificación bien conocida es limitación de ancho de banda. Si, en condiciones de codificación de baja velocidad de bits, el presupuesto de bits disponible es insuficiente para adaptarse a la precisión necesaria para transferencia, códecs heredados a menudos introducían un paso bajo estático para limitar el ancho de banda de audio. Esto puede conducir a impresión de sonido apagado y amortiguado, véase [2] y [3].
Distorsión de espiga tonal
[0008] Esta distorsión aparece junto con procedimientos de extensión de ancho de banda artificial tal como replicación de banda espectral (SBR), véase [4], cuando la relación tonal a ruido se ha sobreestimado. En este caso componentes tonales se recrean con demasiada energía que conduce a un sonido metálico, véase [3].
Distorsión de golpeteo
[0009] Así como la distorsión de espiga tonal, la distorsión de golpeteo aparece junto con extensión de ancho de banda artificial. El golpeteo crea la percepción de rugosidad y emerge de dos componentes tonales con distancia de frecuencia cercana que puede producirse por la copia como se usa en SBR, véase [3].
[0010] Por lo tanto, es un objetivo detectar, si la señal de audio se sometió a un procesamiento que es capaz de introducir distorsiones y/o reducir estas distorsiones.
[0011] Un ejemplo para un procedimiento de procesamiento que puede ser una fuente de distorsiones es la replicación de banda espectral (SBR) que es un procedimiento semiparamétrico para extender el ancho de banda de una señal de audio en el lado de decodificador. En una primera etapa, partes del espectro de señal de paso bajo transmitidos se replican al copiar los coeficientes espectrales de la región de frecuencia inferior a la más alta. En una segunda etapa, se ajusta la envolvente espectral. El ajuste de la envolvente espectral se lleva a cabo de tal forma que la forma gruesa del espectro coincide con un objetivo dado, mientras que la estructura fina permanece sin modificar.
[0012] Se desea detección de SBR debido a que a partir de la información obtenida se puede concluir que 1. Las señales se han comprimido por medio de codificación de audio perceptual (es decir, con pérdidas). Que resulta que es apropiada una aplicación de procedimientos de mejora que abordan los tipos de distorsión anteriormente mencionados.
2. La segunda calidad de la señal se puede mejorar potencialmente por procedimientos dedicados para reducir la audición de distorsiones que se han introducido por la SBR. Estos procedimientos se benefician de conocimiento acerca de la frecuencia de inicio a la cual está en efecto SBR.
[0013] La frecuencia de inicio a la cual está en efecto SBR es de interés para pos-procesamientos que mejoran la calidad de sonido al mitigar distorsiones introducidas por SBR. Por lo tanto, existe una necesidad de detectar SBR y de estimar la frecuencia de inicio de SBR. En particular, es un deseo determinar si esta mejora se desea o no. Por ejemplo, no es apropiado para señales de alta calidad de sonido, debido a que la mejora puede degradar la calidad de sonido cuando la señal de audio es de alta calidad de sonido.
[0014] Un procedimiento para la detección de SBR se describe en el documento US 9.117.440 B2. El procedimiento descrito opera en señales de sub-banda que se calculan utilizando un banco de filtros o transformada de tiempo-frecuencia. Entonces cuantifica la relación entre múltiples sub-bandas por medio de correlación cruzada, es decir, al multiplicar las muestras correspondientes y sumando estos productos con respecto al tiempo.
[0015] Otro ejemplo para una fuente de distorsiones es reducción de ancho de banda (BR) que también se refiere como limitación de ancho de banda (BL). Cuando el ancho de banda se limita de forma severa, una degradación de la calidad de sonido se percibe y se desea una mejora de calidad. Esta mejora de calidad puede comprender una extensión de ancho de banda (BWE), que solo se debe aplicar si se necesita, es decir cuando el ancho de banda natural de las señales se ha reducido artificialmente de forma severa. Un procedimiento para BWE que utiliza una estimación del ancho de banda se describe en [1]. El ancho de banda se estima al detectar la frecuencia más alta presente en la señal en cualquier tiempo dado. Este procedimiento es propenso a errores por detección de falsos positivos, debido a que una señal de audio puede tener un ancho de banda limitado por naturaleza ya que el mecanismo que generó la señal solo ha generado energía a bajas frecuencias.
[0016] Resumiendo, los codificadores de audio perceptuales se utilizan ampliamente, cuando se limita el espacio de almacenamiento o ancho de banda de transmisión continua para contenido de audio. Si la velocidad de compresión aplicada es muy alta (y la velocidad de datos utilizada después de la compresión es muy baja), se introducen varias distorsiones de codificación que degradan la calidad de audio percibida.
[0017] Por lo tanto, es un objeto de la invención proporcionar una identificación de mejora de señales de audio que comprenden una característica que se obtiene por procesamiento de audio propenso a distorsiones.
[0018] Este objeto se logra por la presente materia según las reivindicaciones independientes.
[0019] Según un primer aspecto, los inventores han encontrado que al utilizar una señal máxima local que se obtiene de las señales de audio y al determinar una similitud entre segmentos de la señal máxima local, una identificación segura y eficiente de una característica relacionada con un procesamiento de mejora espectral se puede obtener de tal forma que se puede implementar un post-procesamiento respectivo para la señal de audio respectiva para reducir, por ejemplo, la distorsión de espiga tonal y/o la distorsión de golpeteo. Con base en la evaluación de la señal, una información secundaria que indica el procesamiento de audio implementado puede no requerirse de tal forma que es posible una operación a ciegas del módulo.
[0020] Según una realización del primer aspecto, un aparato para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio comprende un derivador configurado para obtener un espectro de la señal de audio y para derivar información relacionada con una estructura fina del espectro. El aparato comprende un determinador configurado para determinar una similitud en la estructura fina del espectro. El aparato comprende además un procesador para proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación de la similitud. Para comparar una similitud entre los segmentos de la información relacionada con la estructura fina, se puede requerir una baja cantidad de esfuerzo computacional. Además, se puede obtener una determinación precisa y segura de segmentos similares que indican que se pudo haber llevado a cabo un procesamiento de mejora espectral.
[0021] Según una realización adicional del primer aspecto, un procedimiento como se establece en la reivindicación 18 para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio comprende obtener un espectro de la señal de audio y derivar información relacionada con una estructura fina del espectro. El procedimiento comprende determinar una similitud de la estructura fina tal como entre segmentos de la información relacionada con la estructura fina y comprende proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación de la similitud.
[0022] Según una realización adicional del primer aspecto, un medio de almacenamiento no transitorio tiene almacenado en el mismo un programa informático que tiene un código de programa para llevar a cabo, cuando se ejecuta en un ordenador, este procedimiento.
[0023] Otras realizaciones de la invención se definen en las reivindicaciones dependientes. La invención se expone en el conjunto de reivindicaciones adjunto. El segundo aspecto, el tercer aspecto y el cuarto aspecto y sus respectivas realizaciones no están de acuerdo con la invención y están presentes en la descripción únicamente con fines ilustrativos.
[0024] Según un segundo aspecto, al evaluar un espectro de una señal de audio con respecto a una pendiente del espectro, se puede obtener una caracterización segura y eficiente de la señal de audio para comprender una característica relacionada con un procesamiento de limitación de ancho de banda artificial para permitir un post­ procesamiento respectivo, por ejemplo para reducir o eliminar una distorsión de birdies y/o una distorsión de limitación de ancho de banda. Con base en la evaluación de la señal, una información secundaria que indica el procesamiento de audio implementado puede no requerirse de tal forma que es posible una operación a ciegas del módulo.
[0025] Según una realización del segundo aspecto, un aparato para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio comprende un evaluador de pendiente configurado para evaluar una pendiente de un espectro de la señal de audio para obtener un resultado de evaluación de pendiente. El aparato comprende además un procesador para proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación del resultado de evaluación de pendiente. Con base en la evaluación de si la señal de audio comprende una característica relacionada con un procesamiento de limitación de ancho de banda artificial en la pendiente del espectro, por ejemplo, un flanco de bajada del espectro, una detección precisa del procesamiento de limitación de ancho de banda artificial se puede obtener mientras que se utiliza un bajo esfuerzo computacional.
[0026] Según otra realización del segundo aspecto un procedimiento para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio comprende evaluar una pendiente de un espectro de la señal de audio para obtener un resultado de evaluación de pendiente. El procedimiento comprende proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación del resultado de evaluación de pendiente.
[0027] Según una realización del segundo aspecto un medio de almacenamiento no transitorio tiene almacenado en el mismo un programa informático que tiene un código de programa para llevar a cabo, cuando se ejecuta en un ordenador, este procedimiento.
[0028] Tanto el primer aspecto como el segundo aspecto permiten discriminar entre señales de audio o marcos de las mismas que se someten a un procesamiento respectivo y señales de audio o marcos de las mismas que no se han sometido para evitar post-procesamiento de marcos no sometidos.
[0029] Según un tercer aspecto, al llevar a cabo una extensión de ancho de banda para diferentes porciones que tienen diferentes características de señal de una señal de audio de forma diferente, se puede llevar a cabo mejora de las diferentes porciones y/o características independientemente la una de la otra para obtener una señal combinada con una alta calidad que comprende primeras porciones mejoradas y segundas porciones mejoradas. El procesamiento de las diferentes características de señal de forma diferente puede permitir adaptar el procesamiento con base en las características respectivas.
[0030] Según una realización del tercer aspecto, un aparato para procesar una señal de audio comprende un separador para separar una primera porción de un espectro de la señal de audio de una segunda porción del espectro de la señal de audio. La primera porción tiene una primera característica de señal y la segunda porción tiene una segunda característica de señal. El aparato comprende un primer extensor de ancho de banda para extender un ancho de banda de la primera porción utilizando primeros parámetros asociados con la primera característica de señal, para obtener una primera porción extendida. El aparato comprende un segundo extensor de ancho de banda para extender un ancho de banda de la segunda porción utilizando segundos parámetros asociados con la segunda característica de señal, para obtener una segunda porción extendida. El aparato comprende además un combinador configurado para utilizar la primera porción extendida y la segunda porción extendida para obtener una señal de audio combinada extendida. Esto puede permitir la mejora de las diferentes porciones que tiene diferentes características de señal independientemente la una de la otra para obtener una señal de audio combinada con una alta calidad.
[0031] Según otra realización del tercer aspecto un procedimiento para procesar una señal de audio comprende separar una primera porción de un espectro de la señal de audio de una segunda porción del espectro de la señal de audio, la primera porción que tiene una primera característica de señal y la segunda porción que tiene una segunda característica de señal. El procedimiento comprende extender un ancho de banda de la primera porción utilizando primeros parámetros asociados con la primera característica de señal, para obtener una primera porción extendida. El procedimiento comprende extender un ancho de banda de la segunda porción utilizando un segundo parámetro asociado con la segunda característica de señal, para obtener una segunda porción extendida. El procedimiento comprende además utilizar la primera porción extendida y la segunda porción extendida para obtener una señal de audio combinada extendida.
[0032] Según otra realización del tercer aspecto un medio de almacenamiento no transitorio tiene almacenado en el mismo un programa informático que tiene un código de programa para llevar a cabo, cuando se ejecuta en un ordenador, este procedimiento.
[0033] Según un cuarto aspecto, al desplazar la fase de una porción de una señal de audio con respecto a una porción diferente de la señal de audio, se puede reducir una rugosidad percibida. En particular, una porción que se puede generar o copiar para extender el ancho de banda se puede desplazar en fase cuando se compara con un espectro no extendido.
[0034] Según una realización del cuarto aspecto un aparato para procesar una señal de audio comprende un filtro de antirugosidad para desplazar en fase al menos una porción de la señal de audio para obtener una señal desplazada en fase. El aparato comprende un filtro de paso alto configurado para filtrar las señales desplazadas en fase para obtener una primera señal filtrada. El aparato comprende un filtro de paso bajo configurado para filtrar la señal de audio para obtener una segunda señal filtrada. El aparato comprende un combinador configurado para combinar la primera señal filtrada y la segunda señal filtrada para obtener una señal de audio mejorada. El aparato permite porciones de desplazamiento de fase dejadas por el filtro de paso alto cuando se compara con porciones dejadas por el filtro de paso bajo de tal forma que la primera señal filtrada puede comprender porciones desplazadas en fase cuando se compara con la señal de audio, la segunda señal filtrada respectivamente. Esto puede permitir obtener una baja rugosidad en la señal combinada.
[0035] Según otra realización del cuarto aspecto un procedimiento para procesar una señal de audio comprende desplazar en fase al menos una porción de la señal de audio para obtener una señal desplazada en fase. El procedimiento comprende filtrar las señales desplazadas en fase utilizando un filtro de paso alto para obtener una primera señal filtrada. El procedimiento comprende además filtrar la señal de audio utilizando un filtro de paso bajo para obtener una segunda señal filtrada. El procedimiento comprende además combinar la primera señal filtrada y la segunda señal filtrada para obtener una señal de audio mejorada.
[0036] Según otra realización del cuarto aspecto un medio de almacenamiento no transitorio tiene almacenado en el mismo un programa informático que tiene un código de programa para llevar a cabo, cuando se ejecuta en un ordenador, este procedimiento.
[0037] Para un entendimiento más completo de la presente descripción, y las ventajas en la misma, ahora se hace referencia a las siguientes descripciones que se toman junto con las figuras anexas, en las cuales:
La figura 1 muestra un diagrama de bloques esquemático de un aparato para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio, según una realización del primer aspecto;
La figura 2a muestra una gráfica esquemática que ilustra un espectro de ejemplo según una realización del primer aspecto, que se puede derivar de una señal de audio de la cual se puede obtener el espectro de la figura 1;
La figura 2b muestra un diagrama de ejemplo esquemático de la señal máxima local sobre la misma abscisa de frecuencia como en la figura 2a según una realización del primer aspecto;
La figura 3 muestra una gráfica esquemática según una realización del primer aspecto para determinar la similitud utilizando una regla de determinación;
La figura 4 muestra un ejemplo de una función de similitud postprocesada según una realización del primer aspecto, ilustrada como valor filtrado de la misma;
La figura 5 muestra un diagrama de bloques esquemático de un aparato según una realización del primer aspecto que comprende un estimador de frecuencia;
La figura 6a muestra una representación gráfica esquemática de una matriz de similitud local de ejemplo según una realización del primer aspecto;
La figura 6b muestra un diagrama esquemático de una línea de la matriz ilustrada en la figura 6a según una realización del primer aspecto;
La figura 7 muestra un diagrama de bloques esquemático de un aparato según una realización del primer aspecto, que comprende una calculadora de espectro;
La figura 8 muestra un diagrama de flujo esquemático de un procedimiento para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio según una realización del primer aspecto;
La figura 9 muestra un diagrama de bloques esquemático de un aparato según una realización del segundo aspecto; La figura 10 muestra un diagrama esquemático que ilustra un espectro de ejemplo junto con una realización del segundo aspecto;
La figura 11 muestra un diagrama esquemático de un resultado de ejemplo de una función de diferencia espectral según una realización del segundo aspecto;
La figura 12a muestra un diagrama de bloques esquemático de un aparato según una realización del segundo aspecto, que comprende un estimador de energía;
La figura 12b muestra un espectro de ejemplo que comprende un flanco descendente a una frecuencia de corte según una realización del segundo aspecto;
La figura 12c muestra un diagrama de bloques esquemático de un aparato configurado para procesar una señal de audio que se puede recibir de un decodificador según una realización del segundo aspecto;
La figura 12d muestra un diagrama de bloques esquemático de una funcionalidad de un procesador para determinar factores de ponderación espectrales según una realización del segundo aspecto;
La figura 12e muestra un diagrama de bloques esquemático de un mejorador de señal según una realización del segundo aspecto, configurado para reducir la distorsión de birdies;
La figura 12f muestra un diagrama de flujo esquemático de un procedimiento para procesar una señal de audio según una realización del segundo aspecto;
La figura 13a muestra un diagrama de flujo esquemático de un procedimiento para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio, según una realización del segundo aspecto;
La figura 13b muestra un diagrama de flujo esquemático de un procedimiento adicional para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio, según una realización del segundo aspecto, evaluando también el procedimiento una frecuencia de corte;
La figura 14 muestra un diagrama de bloques esquemático de un aparato según una realización del tercer aspecto; La figura 15 muestra un diagrama esquemático que ilustra un espectro de ejemplo que comprende diferentes componentes según una realización del tercer aspecto;
La figura 16 muestra un diagrama de bloques esquemático de un aparato según una realización del tercer aspecto; La figura 17a muestra un espectro de ejemplo de una primera porción de la señal de audio, según una realización del tercer aspecto;
La figura 17b muestra un diagrama esquemático de la primera porción que se extiende por un número de dos partes duplicadas según una realización del tercer aspecto;
La figura 17c muestra un espectro de magnitud de ejemplo que se puede obtener de un conformador de envolvente que se configura para conformar al menos las porciones extendidas de la figura 17b, según una realización del tercer aspecto;
La figura 18 muestra un diagrama de bloques esquemático de un insertador de ruido blanco espectral que se configura para insertar ruido blanco a la señal de audio según una realización del tercer aspecto;
La figura 19 muestra una funcionalidad de bloques opcionales que son un analizador de señal y que es una tabla de búsqueda del aparato de la figura 16, según una realización del tercer aspecto;
La figura 20 muestra un diagrama de flujo esquemático de un procedimiento según una realización del tercer aspecto; La figura 21 muestra un diagrama esquemático de un aparato según una realización del cuarto aspecto;
La figura 22 muestra un diagrama de bloques esquemático de un aparato que comprende un separador según una realización del cuarto aspecto; y
La figura 23 muestra un diagrama de flujo esquemático de un procedimiento para procesar una señal de audio según una realización del tercer aspecto.
[0038] Elementos equivalentes o iguales o elementos con funcionalidad igual o equivalente se denotan en la siguiente descripción por números de referencia iguales o equivalentes incluso si se presentan en diferentes figuras.
[0039] Se debe señalar también que las realizaciones descritas en esta invención se refieren a procesamiento de señales digitales. Por lo tanto, todas las señales se limitan en banda a frecuencias por debajo de la mitad de la frecuencia de muestreo debido al muestreo. La limitación de ancho de banda (artificial) analizada en esta invención se refiere a limitación de ancho de banda adicional de tal forma que el ancho de banda de la señal es más pequeño de lo que permitiría la representación digital.
[0040] El primer aspecto y el segundo aspecto se refieren a identificar características de señal dentro de una señal de audio que indican que la señal de audio respectiva se sometió a un procesamiento específico. Al identificar la característica respectiva y parámetros relacionados con la misma, acciones apropiadas y procesamiento se pueden llevar a cabo o ejecutar para reducir o eliminar distorsiones que pueden presentarse en respuesta al procesamiento. Por lo tanto, la reducción de distorsiones que se insertan posiblemente en la señal de audio procesada se puede entender como que está relacionada con el primer aspecto, el segundo aspecto respectivamente.
[0041] El tercer y cuarto aspecto se refieren a postprocesamiento de señales de audio. Para postprocesamiento de señales de audio para mejorar una calidad de audio, la información junto con el procesamiento llevado a cabo previamente de la señal de audio se puede utilizar, por ejemplo, información como se deriva según el primer y segundo aspecto y/o se pueden utilizar junto con diferentes señales de audio.
[0042] Por lo tanto, en lo sucesivo, se hará referencia primero al primer y segundo aspecto antes de hacer referencia al tercer y cuarto aspecto. El alcance del primer aspecto es la mejora de la calidad de sonido de las señales de audio, en particular de señales de audio que se han codificado utilizando una compresión con pérdidas u otro procesamiento de señales. La replicación de banda espectral (SBR) es un procedimiento para codificación de audio paramétrica para sintetizar contenido de alta frecuencia de partes de replicación del espectro de señal audio de frecuencias inferiores, habitualmente guiada por información secundaria que se transmite en el flujo de bits. El conocimiento acerca de la presencia de SBR y la frecuencia inicial a la cual está en efecto SBR (o sinónimo la frecuencia de corte a la cual la señal se ha limitado en banda antes de SBR) se utiliza o se requiere para mejorar o aumentar la calidad de sonido de señales de audio. Realizaciones según el primer aspecto proporcionan un concepto de análisis para recuperar esta información de una señal de audio después de que se haya decodificado sin utilizar la información en el flujo de bits. El concepto descrito es capaz de detectar SBR y otro procesamiento que copian partes del espectro a menor subbanda y las pegan a frecuencias más altas. Otro ejemplo excepto SBR para este procedimiento es, con base en la configuración específica, relleno inteligente de espacios (IGF).
[0043] Cuando se compara con el procedimiento descrito en el documento US 9.117.440 B2, las realizaciones según el primer aspecto mejoran la robustez del análisis con respecto a modificaciones de la envolvente espectral al analizar y probablemente analizando de forma exclusiva la estructura fina del espectro. Además, tiene menos carga computacional, ya que la relación se calcula utilizando suma de números binarios en lugar de multiplicación.
[0044] La figura 1 muestra un diagrama de bloques esquemático de un aparato 10 para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio 12, por ejemplo, una SBR, y/o un IGF. El aparato 10 comprende un derivador 14 configurado para obtener un espectro de la señal de audio 12 y para derivar información relacionada con una estructura fina del espectro. La estructura fina puede relacionarse con curso de líneas espectrales dentro del espectro. Esta información se puede representar, por ejemplo, utilizando una señal máxima local que indica los extremos locales, por ejemplo, máximos y/o mínimos dentro del espectro. Por ejemplo, la señal máxima local puede tener un valor predefinido s tal como un valor máximo o un valor mínimo en una ubicación del máximo local y un valor diferente en otras ubicaciones. Por ejemplo, en las otras ubicaciones, la señal máxima local puede comprender un valor mínimo. Alternativamente, la señal máxima local puede comprender un valor mínimo en el máximo local y un valor máximo en otra parte. Alternativamente o además, la señal máxima local puede representar tanto, los máximos locales como los mínimos locales. Por lo tanto, la estructura fina del espectro se puede mantener mientras que atenúa o excluye otra información. Solamente a modo de ejemplo no limitante, las realizaciones descritas en esta invención pueden referirse a una señal de máximo local que se deriva por el derivador 14.
[0045] Para derivar la señal de máximo local de espectro, el derivador 14 puede ya sea derivar o calcular o determinar el espectro de la señal de audio 12. Alternativamente, el derivador 14 puede recibir una señal que contiene información que indica el espectro o el propio espectro. Por lo tanto, la señal ilustrada 12 puede ser una señal en el dominio del tiempo o en el dominio de la frecuencia. El espectro que se deriva por el derivador 14 o se recibe por derivador 14 puede ser, por ejemplo, un espectro de magnitud o un espectro de energía. Para derivar o calcular este espectro, se puede utilizar transformada corta de Fourier (STFT) u otras transformadas adecuadas. Al utilizar la STFT, la señal de audio 12 se puede dividir o separar en varios bloques adecuados y cada bloque se puede someter a la STFT. Esto puede permitir obtener una pluralidad de espectros de la señal de audio, por ejemplo, un espectro para cada bloque.
[0046] Por ejemplo, señales de subbanda se pueden calcular utilizando un banco de filtros. SBR es un procesamiento donde se replican partes del espectro. Lo mismo es verdadero para el transporte de armónicos. En IGF algunas partes del espectro, por ejemplo, que comprende un intervalo de alta frecuencia, se atenúan o se ajustan a 0 y después de eso se rellenan. Cuando se refiere a SBR, la envolvente espectral se puede modificar mientras que la estructura fina del espectro se puede mantener. Por lo tanto, realizaciones según el primer aspecto proponen un concepto que es robusto para modificaciones de la envolvente espectral. Para este propósito, el derivador 14 se configura para derivar una señal de máximo local del espectro. La señal de máximo local se puede definir como un vector de una longitud específica, por ejemplo, según los periodos de frecuencia en el espectro, cuyos elementos se ajustan a uno en índices donde el espectro tiene un máximo local y se ajustan a 0 de otra forma. También se va a mencionar que se pueden aplicar otras reglas. Por ejemplo, además de los máximos locales, se pueden ajustar mínimos locales a un valor específico, por ejemplo, 1. Alternativamente o además, un valor diferente, por ejemplo, 0 o un valor diferente de 1 se puede utilizar para indicar los máximos y/o mínimos locales. Este procesamiento puede ser similar a una operación de aplanamiento o inserción de ruido blanco que mantiene la estructura fina y elimina toda la otra información. La señal de máximo local puede permitir mejorar identificación de similitudes ya que la comparación se puede implementar para enfocarse en la estructura de los segmentos comparados.
[0047] La figura 2a muestra una gráfica esquemática que ilustra un espectro de ejemplo 16 que se puede derivar de la señal 12 o puede ser la señal 12. La abscisa ilustra el índice de frecuencia k en el que la ordenada ilustra un valor de magnitud X(k) del espectro 16.
[0048] La figura 2b muestra un diagrama de ejemplo esquemático de la señal de máximo local Z sobre la misma abscisa de frecuencia k. En los periodos de frecuencia k1 a k7 en los cuales el espectro 16 comprende máximos locales 181 a 187, la función de máximo local Z(k) se ajusta a un valor máximo normalizado tal como 1 se ajusta a un valor mínimo normalizado tal como 0 en otras ubicaciones también. La forma triangular en la figura 2b puede resultar de una interpolación entre diferentes periodos de frecuencia para un entendimiento mejor de las figuras. La señal de máximo local Z puede comprender una misma longitud que el espectro Z(k). El derivador 14 se puede configurar para proporcionar una señal 22 que contiene información que indica que la señal de máximo local Z(k) se deriva del espectro 16.
[0049] El aparato 10 puede comprender un determinador 24 configurado para determinar una similitud C(t) entre segmentos de la señal de máximo local. Para la detección del procesamiento de mejora espectral, la similitud entre un primer segmento del vector Z(k), k = k0 .. ,k1 y un segundo segmento del vector Z(k t) se puede determinar o calcular por el derivador 24 como una función del retraso o desplazamiento t. Por ejemplo, la similitud C(t) se puede calcular como la suma de los valores absolutos de la diferencia de los dos vectores, es decir los segmentos de la señal de máximo local.
[0050] Los segmentos que se van a comparar pueden tener la misma longitud. La longitud depende de la resolución de frecuencia en la cual se ha calculado el espectro y la señal de máximo local. La resolución de frecuencia depende del número de coeficientes espectrales que se calculan. El número de coeficientes para el espectro y la señal de máximo local son al menos 16 o 16384 como máximo, pero habitualmente se eligen valores entre 256 y 4096. El valor exacto se puede seleccionar dependiendo de la velocidad de muestreo de la señal. El primer segmento puede comprender elementos del vector de señal de máximo local que corresponden, por ejemplo, a frecuencias en el intervalo entre 2.000 y 15.000 Hz.
[0051] El parámetro t puede variar de 1 a un valor máximo posible en la señal, por ejemplo, que representa la frecuencia máxima o una frecuencia de búsqueda máxima, por ejemplo, relacionada con una frecuencia de corte en la señal de audio 12. Este se puede representar como una regla de determinación.
Figure imgf000008_0001
A-feo
[0052] La figura 3 muestra una gráfica esquemática según un ejemplo que se puede obtener en el que se determina la similitud utilizando la regla de terminación dada anteriormente. Una abscisa de la gráfica muestra el retraso o desplazamiento t, en el que la ordenada muestra un valor de la función de similitud C(t).
[0053] Al determinar el valor de similitud C(t) para una pluralidad de valores del parámetro t, se puede obtener la gráfica ilustrada en la figura 3. En las regiones 261 a 263 se pueden obtener variaciones en la señal que se asocian con valores T1, T2, T3, respectivamente del parámetro t. Aquellas variaciones pueden comprender un máximo local y/o un mínimo local dentro de la función de similitud C(t). Es decir, al desplazar o aplicar un retraso T1, T2, T3, la función de similitud puede mostrar un máximo local o mínimo y por lo tanto que indica que al desplazar un segmento respectivo por el retraso T1, T2, T3, se obtiene una señal similar que puede ser un indicador para un procesamiento de mejora espectral. En el ejemplo dado anteriormente, el retraso máximo t es 20.000 Hz.
[0054] El determinador se puede configurar para seleccionar al menos un máximo local y/o mínimo local de los valores de similitud y/o puede seleccionar los valores derivados de los mismos para determinar la similitud. En particular, las variaciones en las regiones 261, 262 y 263 indican una alta similitud entre los segmentos utilizados en el desplazamiento indicado por el parámetro T1, T2, T3 respectivamente.
[0055] Con referencia de nuevo a la figura 1, el determinador 24 se puede configurar para proporcionar una información o señal 28 que indica un resultado de la similitud, por ejemplo, valores T1, T2, y/o T3 del parámetro t o valores que se derivan de los mismos. El aparato 10 puede comprender un procesador 32 para proporcionar una información 34 que indica que la señal de audio 12 comprende la característica predeterminada dependiendo de una evaluación de la similitud, por ejemplo, al evaluar la señal 28. Opcionalmente, la función de análisis obtenida, es decir, la función de similitud, se puede procesar además, por ejemplo, por el determinador 24 y/o el procesador 32. Por ejemplo, se puede ejecutar una filtración de paso de banda para atenuar componentes de compensación en la función de similitud para incrementar el contraste de los máximos locales de interés dentro de la función de similitud C(t). El aparato 10, por ejemplo, el determinador 24 puede comprender un filtro configurado para filtrar los valores de similitud para obtener valores de similitud filtrados ilustrados en la figura 4. El procesador 32 se puede configurar para proporcionar la información 34 para comprender información que indica al menos que una de las señales de audio se sometió al procesamiento de mejora espectral, una frecuencia de inicio y/o una frecuencia final del procesamiento de mejora espectral.
[0056] La figura 4 muestra un ejemplo de una función de similitud post-procesada, ilustrada como valor filtrado de la misma, es decir H(C(t)) en la ordenada versus la abscisa que muestra el parámetro t. Por ejemplo, un filtro se implementa como un filtro de respuesta finita al impulso (FIR) que tiene coeficientes de filtro h = [-12 -1]. Esto significa que el k-ésimo elemento de salida del vector filtrado se calcula por una combinación lineal de los elementos en índices k-1, k, y k+1 ponderados con h(1)=-1, h(2) = 2 y h(3)=-1. Esto se puede representar con base en la regla de determinación:
Figure imgf000009_0001
[0057] Los tres máximos locales más grandes en los valores de parámetro ti, T2, y T3 se producen del procesamiento de mejora espectral, por ejemplo, la replicación de banda espectral. Por ejemplo, se puede detectar procesamiento SBR, cuando un pequeño número de máximos locales con gran magnitud aparecen en la función. Un pequeño número puede hacer referencia a un número de como máximo 15, como máximo 10 o como máximo 5 máximos. Según una realización, al menos 13 máximos locales se van a investigar para detectar SBR según configuraciones comunes del estado de la técnica de SBR.
[0058] La magnitud grande puede referirse a un valor que es al menos 3 dB cuando se compara con la señal regular, al menos 5 dB o al menos 6 dB. Cuando se hace referencia de nuevo a la figura 3, los máximos locales en las regiones 261, 262 y 263 pueden hacer referencia a la señal además de la región respectiva como que es ruido. Este ruido se puede atenuar por el postprocesamiento para mejorar determinación de máximos como se describe junto con la figura 4. Una gran magnitud de los máximos locales se define como que es más grande que un umbral. El valor exacto del umbral se puede ajustar, por ejemplo, manualmente, para estar en el intervalo de 0,1 y 10, dependiendo del número de valores que se han utilizado para calcular la función de similitud. Normalmente, se puede utilizar un valor de 5.
[0059] Es decir, el procesador 32 se puede configurar para evaluar varios máximos locales 26 de valores de similitud o valores derivados de los mismos y para evaluar una amplitud de los máximos locales 26. El procesador 32 se puede configurar para proporcionar la información 34 que indica que la señal de audio 12 comprende la característica predeterminada cuando el número de máximos 26 que comprende al menos un valor umbral de amplitud 27 está por debajo de un valor umbral de número, es decir, un número de máximo locales que exceden el valor de umbral de amplitud 27 es suficientemente bajo.
[0060] En otras palabras, la figura 4 muestra la función de similitud del postprocesamiento. Los máximos locales se muestran como un círculo, el máximo global se resalta por una cruz. El determinador 24 se puede configurar para seleccionar el al menos un máximo local de los valores de similitud filtrados. Las señales armónicas consisten en uno o más sinusoides con una frecuencia fundamental y sus armónicos, es decir tonos parciales cuyas frecuencias son aproximadamente múltiplos enteros de una frecuencia fundamental. Por lo tanto, uno o más máximos locales pueden aparecer en la función de similitud tal como una función de autocorrelación (ACF) para discriminar entre máximos locales que corresponden a tonos parciales armónicos y SBR u otro procesamiento de mejora espectral, el intervalo de búsqueda puede ajustarse a valores apropiados, que son distintamente más grandes, por ejemplo, para SBR que para términos parciales armónicos. Por lo tanto, el procesador 32 se puede configurar para excluir armónicos de la señal de audio de la evaluación de la similitud. Esto se puede hacer al seleccionar aquellas partes del espectro de la señal de audio que se espera que tengan una baja cantidad o incluso ningún armónico.
[0061] La detección de los máximos locales en los valores de parámetro T1, T2, y T3 puede ser un indicador suficiente para la presencia del procesamiento de mejora espectral. Sin embargo, puede ser de ventaja estimar además la frecuencia inicial del procesamiento de mejora espectral, por ejemplo, la SBR. El resultado de la función de similitud o los máximos locales pueden describir el desplazamiento en el cual se ha copiado y pegado una porción del espectro. Por completitud, la información acerca de la frecuencia de inicio y detención del espectro de subbanda fuente o el espectro de subbanda de destino puede ser de interés.
[0062] La figura 5 muestra un diagrama de bloques esquemático de un aparato 50 según una realización. El aparato 50 puede ser una versión extendida del aparato 10 y puede comprender además un estimador de frecuencia 36 configurado para determinar una frecuencia de inicio y/o una frecuencia de detención del procesamiento de mejora espectral. El estimador de frecuencia 36 se puede configurar para proporcionar una información o una señal 38 que comprende la información respectiva que indica la frecuencia de inicio y/o la frecuencia de detención. El estimador de frecuencia 36 se puede configurar para utilizar la señal de máximo local Z(k), por ejemplo, al obtener o recibir la señal 22, para determinar una similitud de elemento entre un elemento de un primer segmento de la señal de máximo local y un elemento correspondiente de un segundo segmento de la señal de máximo local. El segundo segmento se puede desplazar con respecto al primer segmento por un número de t muestras. Esto se puede denominar como un análisis de similitud local (LSA). La entrada puede ser la representación de la estructura fina del espectro de magnitud, por ejemplo la señal de máximo local Z(k). El estimador de frecuencia 36, cuando ejecuta LSA, puede operar en la similitud por elementos entre el k-ésimo elemento en el primer vector Z(k) y el elemento en la posición k+T, Z(k+T). Para este fin, la matriz de similitud local se puede calcular como valor absoluto de la diferencia de los dos números binarios. Z(k) y Z(k+T) según la regla de determinación.
Figure imgf000010_0001
[0063] El valor L(k,T) de la matriz de similitud local se puede procesar entonces al promediar de forma recursiva con respecto al tiempo. Esto se puede llevar a cabo según la regla de determinación.
L(k,r) = bL(k,r) + (1 - b)B(k.r),
(3)
en la que B(k,T) denota un margen que almacena la salida del promedio recursivo del paso de tiempo precedente (marco) de la señal de audio y 0 < b <1 es una constante de tiempo que controla el promedio temporal. Por lo tanto, el estimador de frecuencia 36 se puede configurar para someter la similitud de elemento de una pluralidad de elementos para el primer y segundo segmento a un promedio recursivo con respecto al tiempo para obtener una similitud de elemento promediada y para determinar la frecuencia de inicio y/o la frecuencia final utilizando la similitud de elemento promediada. El promedio temporal puede aplicarse opcionalmente cuando el marco actual no es silencio, es decir, su energía es mayor que un umbral 27 que caracteriza un marco de silencio de un marco no de silencio.
[0064] Un marco se puede determinar como que es silencio si su energía es más pequeña que un umbral, en el que el valor exacto del umbral se puede ajustar dependiendo de la longitud del marco y el intervalo en el cual se representan los valores de muestra. En general este umbral se puede seleccionar de tal forma que es igual a la energía de una señal de ruido rosa que se modifica en escala para ser solo audible cuando se reproduce con un equipo de reproducción de sonido convencional (un teléfono móvil o un decodificador de TV) a un ajuste de volumen de promedio a alto.
[0065] Es decir, el estimador de frecuencia se puede configurar para someter la similitud de elemento de una pluralidad de elementos del primer y segundo segmento a un promedio recursivo con respecto al tiempo para obtener una similitud de elemento promediada y para determinar la frecuencia de inicio y/o la frecuencia final utilizando la similitud promediada. Cada muestra del espectro se puede asociar con un marco. El estimador de frecuencia se puede configurar para excluir marcos del promedio recursivo con respecto al tiempo que tiene una energía espectral por debajo de un nivel umbral de energía 27, el nivel umbral de energía 27 que se relaciona con una consideración de si el marco o espectro es silencio o no. Por lo tanto, resultados inconsistentes se pueden evitar al excluir marcos que se considera que son silencio ya que aquellos marcos también se pueden considerar que no se someten a procesamiento de audio.
[0066] Como se describe junto con la figura 4, el resultado del promedio recursivo L(k,T) puede procesarse por la filtración de paso de banda para atenuar el componente de compensación y para incrementar el contraste de los máximos locales de interés, por ejemplo, al convolucionar cada fila de la matriz con un centro tal como h = [1-2 -1].
[0067] La figura 6a muestra una representación gráfica esquemática de una matriz de similitud local de ejemplo L(k,T), en la que una abscisa ilustra los intervalos de frecuencia (posiciones) k y la ordenada representa el retraso t. Para una mejor visibilidad, se muestran los valores absolutos de la matriz L. La unidad para la posición k y el retraso t son intervalos de frecuencia. Como muestra no limitante, un intervalo de frecuencia puede tener un valor de 46,9 Hz, en el que se puede obtener cualquier otro valor más pequeño o más grande. Por lo tanto, la figura 4 muestra un ejemplo para una matriz de similitud postprocesada L(k,T) que contiene la siguiente información:
La similitud global como se describe junto con la figura 4 se puede obtener de L(k,T) al sumar a lo largo del eje x (parámetro k) y tomando el valor absoluto del resultado. Tres líneas horizontales 381, 382 y 383 en el ejemplo dado corresponden a los máximos locales de la figura 4. Las líneas 381, 382 y 383 pueden corresponder a líneas a lo largo de las cuales el valor respectivo de la función L(k,T), es decir, la suma de valores, excede un cierto valor umbral, por ejemplo, 0,1, 0,2, o 0,3 del intervalo de valores que varía de 0-1. La posición de inicio y la posición final de las líneas horizontales corresponden a la frecuencia de inicio ks1, ks2, ks3 respectivamente y frecuencia final ke1, ke2, ke3 respectivamente de partes repetidas del espectro.
[0068] La figura 6b muestra un diagrama esquemático de una línea de la matriz utilizada en la figura 6a en el parámetro T2. En la figura 6b, una gráfica 42a muestra, por ejemplo, valores no filtrados, en los que una gráfica 42b puede mostrar valores promediados o filtrados. Por ejemplo, la gráfica 42b se compara con un valor umbral 27 que, por ejemplo, es 0,2. Un intervalo en el cual la matriz de similitud local L(k, t), su valor promediado respectivamente, excede el valor umbral 27, corresponde a la línea horizontal 382 en el índice T2. Alternativamente o además, una pendiente (DL(k, T)/k) de la matriz de similitud local se puede evaluar, un flanco ascendente empinado con un cierto valor, por ejemplo, al menos 0,5, al menos 1 o al menos 1,5 se puede identificar como un flanco que identifica la frecuencia de inicio ks2. En consecuencia, un flanco descendente empinado y alto, respectivo puede identificar la frecuencia final ke2. Alternativamente o además, un promedio temporal se puede ejecutar en el espectro de entrada, el espectro de entrada respectivamente y en el resultado o resultado finales. Esto puede permitir impedir detecciones de falsos positivos utilizando el promedio temporal. Un promedio temporal espectral de entrada puede ser denominado como un preprocesamiento, en el que un promedio temporal del resultado final puede ser denominado como un postprocesamiento. Una razón para impedir detecciones de falsos positivos es que los máximos locales son habitualmente variables en el tiempo debido a tonos parciales. Es decir, debido a que se reproducen diferentes tonos musicales en una melodía o debido a los cambios armónicos en la música, los máximos locales pueden variar con respecto al tiempo. En contraste a lo mismo, algunos parámetros de procesamiento de mejora espectral tal como SBR pueden ser un proceso técnico que es habitualmente invariable en el tiempo, por ejemplo, una frecuencia de flanco de la cual se agranda el espectro, por ejemplo, una frecuencia de corte de una filtración llevada a cabo previamente, o las frecuencias de inicio y final del intervalo de frecuencias que se replica.
[0069] Según un ejemplo, para estimar la frecuencia de inicio, la matriz LSA L se analiza para identificar la posición de inicio y posición final de cada línea horizontal. La posición de inicio ks puede corresponder al inicio del espectro que se ha replicado. La posición final ke puede corresponder al final del espectro que se ha replicado. La posición final más grande del espectro original que se ha utilizado para replicación es el valor estimado para la frecuencia de inicio a la cual es efectiva la SBR. Esta puede ser, por ejemplo, ke3 en la figura 6a.
[0070] Primero, se puede calcular la similitud global como
Vi
C(t ) = ^ L(k,T),
k=vx
(4)
[0071] Donde v1 y v2 son parámetros que determinan un intervalo de valores L(k, t) y se pueden seleccionar, por ejemplo, para identificar el intervalo de L(k, t) que tiene un valor dentro de un intervalo de al menos 500 Hz y como máximo 15 kHz.
[0072] Entonces, los máximos locales mi, es decir, 26 en C(t) se detecta que son más grandes que un umbral, véase, por ejemplo, la figura 4. Para cada máximo local, se analizan las filias correspondientes en L(k, t). Por ejemplo, el segundo máximo local m2 indexa la fila R2 = L(k, T2) y se muestra en la figura 6b. Para este máximo local un valor de t = 133 puede ser válido y puede iniciar de k = 74 de acuerdo con la figura 5.
[0073] El índice de inicio ks y el índice final ke se pueden calcular al suavizar primero las líneas respectivas Ri para obtener, por ejemplo, la gráfica 42b, por ejemplo, al calcular un promedio temporal o móvil de unos cuantos valores adyacentes, por ejemplo, al menos 3, al menos 5 o al menos 10. Entonces, se detectan las posiciones en las cuales la línea suavizada tiene las pendientes descendentes y crecientes más empinadas. Alternativamente o además, la pendiente que excede un valor umbral tal como, por ejemplo, 0,2 puede ser un criterio para evaluar la línea respectiva. Es decir, el estimador de frecuencia 36 se puede configurar para someter la similitud de elementos de una pluralidad de elementos del primer y segundo segmento a un promedio recursivo con respecto al tiempo para obtener una similitud de elemento promediada 42b y para determinar la frecuencia de inicio y/o la frecuencia final utilizando la similitud de elemento promedio 42b. Alternativamente o además, el aparato se puede configurar para llevar a cabo un promedio temporal del espectro, de la señal de máximo local o una señal derivada de la misma, en el que el procesador se puede configurar para proporcionar la información que indica que la señal de audio comprende la característica predeterminada con base en una información promedio temporal del espectro, la señal de máximo local y una señal derivada de la misma.
[0074] Con referencia de nuevo a la figura 6a, hay tres líneas horizontales prominentes 381, 382 y 383 para los ejemplos dados en índices T1, T2 y T3. La línea en el índice T2 puede corresponder a la primera parte del espectro que se ha replicado como que muestra el comienzo más temprano, es decir, los parámetros más bajos ks. La línea horizontal comienza en el índice ks1 y puede corresponder al retraso T2. Por lo tanto, la primera parte replicada del espectro comenzó a ks2 y se ha copiado al índice ks2 T2. Como un ejemplo no limitante, T1 puede ser 104, T2 puede ser 133 y T3 puede ser 236. ks2 puede comprender, por ejemplo, un valor de 74. Por lo tanto, la primera parte replicada del espectro inicia en índice 74 y puede haberse copiado al índice 74 133. Este índice por lo tanto corresponde a la frecuencia a la cual está en efecto el procesamiento de mejora espectral (SBR).
[0075] El estimador de frecuencia 36 descrito junto con la figura 5 se puede configurar para calcular la matriz de similitud local o una descripción de similitud local diferente. Solamente como ejemplo no limitante, un vector u otra fila de valores que tiene una estructura predeterminada tal como cada fila que se une a una fila previa puede permitir una misma información. El estimador de frecuencia 36 puede determinar una descripción de similitud local (matriz de similitud local L) y se puede configurar para determinar porciones en la misma, por ejemplo, líneas, que indican el procesamiento de extensión de ancho de banda. Para determinar las porciones que indican el procesamiento de extensión de ancho de banda, una pendiente de la señal dentro de la descripción de similitud local y/o que alcanza o que excede el valor umbral 27 se puede evaluar por el estimador de frecuencia 36.
[0076] Aunque se han descrito como filas de evaluación, es claro que la matriz de similitud local L puede comprender una estructura diferente, por ejemplo, que tiene filas conmutadas a columnas y viceversa o similares. El estimador de frecuencia por lo tanto se puede configurar para determinar la matriz de similitud local L como la descripción de similitud local y para determinar la frecuencia de inicio ks y/o frecuencia final ke del procesamiento de mejora espectral utilizando una pendiente entre valores (por ejemplo, valores adyacentes dentro de una fila o columna) en filas o columnas y/o utilizando una evaluación de valores en las filas o columnas que al menos se aproximan o incluso exceden el valor umbral 27.
[0077] La figura 7 muestra un diagrama de bloques esquemático de un aparato 70 que extiende el aparato 10. Aunque se explica como que extiende el aparato 10, la explicación dada junto con la figura 7 también se puede utilizar para extender el aparato 50. El aparato 70 puede comprender una calculadora de espectro 44 configurada para recibir la señal de audio 12 como una señal en el dominio del tiempo y configurada para calcular el espectro de la señal de audio 12 y para proporcionar una señal 12' que comprende el espectro. Con base en lo mismo, el derivador 14 se puede configurar para recibir el espectro 12'. Alternativamente, el derivador 14 se puede configurar para derivar el espectro 12' por sí mismo.
[0078] El determinador 14 puede comprender un filtro 46 configurado para filtrar los valores de similitud para obtener valores de similitud filtrados como se describe junto con las figuras 3 y 4. El determinador 14 se puede configurar para seleccionar el al menos un máximo local de los valores de similitud filtrados para consideración adicional, por ejemplo, como índice de fila en la matriz de similitud L(k, t). Es decir, la selección de un máximo local de los valores de similitud o valores derivados de los mismos pueden referirse a un uso adicional de los mismos para determinar una frecuencia de inicio y/o una frecuencia final del procesamiento de mejora espectral.
[0079] El aparato 70 puede comprender un mejorador de señal 48 configurado para recibir la señal de audio 12 y recibir la información de que el procesamiento de mejora espectral se ha llevado a cabo, por ejemplo, al recibir la información 34. El mejorador de señal se configura para reducir distorsiones provocadas por el procesamiento de mejora espectral de la señal de audio utilizando la información 34, es decir, dependiendo de la información que indica que la señal de audio comprende la característica predeterminada y opcionalmente que comprende detalles adicionales tales como la frecuencia de inicio y/o la frecuencia de detención de un proceso de replicación.
[0080] La figura 8 muestra un diagrama de flujo esquemático de un procedimiento 1000 para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio. El procedimiento 1000 comprende una etapa 1100 en la cual se obtiene un espectro de la señal de audio e información relacionada con una estructura fina del espectro se deriva, por ejemplo, la señal de máximo local. Una etapa 1200 comprende determinar una similitud en la estructura fina entre segmentos de la señal de máximo local. Una etapa 1300 comprende proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación de la similitud.
[0081] En lo sucesivo, se hará referencia al segundo aspecto. Según el segundo aspecto, está en el alcance mejorar la calidad de sonido de señales de audio, en particular de señales de audio que se han codificado utilizando compresión con pérdidas. El concepto descrito se relaciona con el ancho de banda de señal de audio que está en aplicaciones de procesamiento de señales digitales limitadas. El concepto propone un concepto de análisis de señales que detecta las presencias de reducción de ancho de banda (artificial) (b R) y para estimar la frecuencia de corte a la cual ha estado en operación BL. Los resultados obtenidos se utilizan para controlar procesamiento posterior para restablecer el ancho de banda por medio de extensión de ancho de banda (BWE) y también para controlar la mejora de la calidad de sonido por otros medios tal como filtración.
[0082] Para la mejora de la calidad de sonido es de crucial importancia discriminar entre una señal que tiene originalmente un ancho de banda bajo (por ejemplo, una baja nota reproducida en la cuenca) y una señal que se ha limitado en banda por medio de un procesamiento de señal, por ejemplo, debido a muestreo descendente o codificación con pérdidas. Esta discriminación no es posible al analizar la señal “para encontrar la frecuencia más alta presente en la señal”, es decir, al determinar la frecuencia por encima de la cual está presente solo energía despreciable como se describe en [1]. En contraste, el segundo aspecto propone evaluar información adicional como se describe en lo sucesivo.
[0083] El objetivo del análisis de limitación de ancho de banda artificial (ABLA) propuesto es doble:
1) Detectar la presencia de una reducción de ancho de banda (BR) en la señal de entrada que es probable que se produzca por compresión con pérdidas u otro procesamiento de señal y por lo tanto considerado como una distorsión. La salida puede ser, por ejemplo, una variable binaria, denominada en la presente como D donde D = 1 si BL se ha detectado y 0 de otra forma.
2) Estimar la frecuencia de corte de la limitación de ancho de banda. La cantidad estimada se denomina como fc.
[0084] La figura 9 muestra un diagrama de bloques esquemático de un aparato según una realización del segundo aspecto. El aparato se puede utilizar para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio. El aparato 90 comprende un evaluador de pendiente 52 configurado para evaluar una pendiente de un espectro de la señal de audio 12, por ejemplo, el espectro 12'. El evaluador de pendiente 52 se puede configurar para proporcionar un resultado de evaluación de pendiente 56. El resultado de evaluación de pendiente 56 puede comprender información acerca de un valor máximo, mínimo o promedio de la pendiente (curva de envolvente) de al menos una parte del espectro, acerca de flancos ascendentes o descendentes dentro del espectro o la pendiente de los mismos u otra información con respecto a la pendiente 54.
[0085] El aparato 90 puede comprender además opcionalmente un evaluador de frecuencia 58 configurado para evaluar una frecuencia de corte fc del espectro 12' de la señal de audio para obtener un resultado de evaluación de frecuencia 62 que comprende información que indica la frecuencia de corte fc.
[0086] El aparato 90 comprende un procesador 64 para proporcionar una información que indica que la señal de audio comprende la característica predeterminada relacionada con el procesamiento de limitación de ancho de banda artificial. El procesador se configura para utilizar el resultado de evaluación de pendiente para proporcionar la información que indica que la señal de audio comprende la característica predeterminada, es decir, el procesador puede proporcionar la información dependiendo del resultado de evaluación de pendiente. Por ejemplo, esto puede permitir una decisión si la señal de audio requiere postprocesamiento, por ejemplo, en términos de una información de si/no o una decisión binaria. Esto puede permitir excluir estos marcos de postprocesamiento que se evalúan como que no comprenden la característica respectiva. Aquellos marcos se pueden identificar como que no se someten a limitación de ancho de banda artificial y, por lo tanto, se tiene que evitar postprocesamiento. Como una opción, el aparato puede comprender el evaluador de frecuencia 58 para determinar la frecuencia de corte. Esto puede permitir identificar información adicional que se utiliza o requiere para postprocesamiento, por ejemplo, de marcos sometidos. Por lo tanto, opcionalmente, el procesador se puede configurar para proporcionar la información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación del resultado de evaluación de pendiente 56 y el resultado de evaluación de frecuencia 62. Al evaluar el resultado de evaluación de pendiente 56 y el resultado de evaluación de frecuencia 62 del espectro 12' y/o para marcos adicionales de la señal de audio que resulta en espectros adicionales 12', el procesador 64 puede derivar información si la señal de audio de la cual se deriva el espectro 12' se sometió a la limitación de ancho de banda artificial. Por ejemplo, el evaluador de pendiente 52 se puede configurar para evaluar la pendiente para una atenuación dentro del espectro. El espectro se puede cuantificar o evaluar con respecto a una inclinación de la pendiente, es decir, como se indica por un factor de caída.
[0087] A modo de ejemplo, el evaluador de pendiente 52 se puede configurar para evaluar una atenuación dentro del espectro 12' y para proporcionar el resultado de evaluación de pendiente 56 para indicar una medición para la atenuación. El procesador 64 se puede configurar para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada si la medición para la atenuación es al menos un valor umbral de inclinación. Opcionalmente, el aparato puede comprender un evaluador de remuestreo, por ejemplo, que es una parte del procesador 6 o que se implementa de forma separada. El evaluador de remuestreo se puede configurar para evaluar la señal de audio para una característica predeterminada relacionada con un muestreo ascendente. El muestreo ascendente se puede implementar al utilizar una frecuencia de muestreo, por ejemplo, una velocidad de muestreo común puede ser 11.025 Hz, 22.050 Hz y/o 32.000 Hz. El aparato 90 y/o 120 se puede configurar para adaptar intervalos de frecuencia del evaluador de pendiente 52 y/o del evaluador de frecuencia 58 con base en la frecuencia de muestreo en un caso donde se detecta remuestreo. Al utilizar remuestreo, el intervalo de frecuencia del espectro se puede adaptar o implementar, en el que una baja velocidad de muestreo puede corresponder a un bajo intervalo de frecuencia y una alta velocidad de muestreo puede permitir que el espectro contenga altos intervalos de frecuencia según el criterio de Nyquist. El evaluador de remuestreo se puede configurar para observar o evaluar un conjunto específico de velocidades de muestreo esperadas y puede evaluar, si a esta frecuencia existe una disminución significativa en el espectro y si no existe más energía significativa por encima. En este caso, donde un flanco empinado en la pendiente como se describe antes y una ausencia de energía significativa por encima de un valor umbral de energía está presente, el evaluador de energía puede considerar la señal de audio como que se remuestrea utilizando la frecuencia de remuestreo respectiva o velocidad de muestreo. El evaluador de remuestreo se puede configurar para obtener un resultado de evaluación negativo cuando a la frecuencia determinada o evaluada que corresponde a la velocidad de muestreo se aplica la regla de determinación
X(Ji) > umbral
que significa que un valor del espectro a la frecuencia k es mayor que un umbral que indica que en el punto k existe energía significativa dentro del espectro. Además se puede aplicar la regla de determinación
X(k) < X(k+ 1) - parámetro de compensación
que indica que con frecuencia creciente k 1 el espectro, la energía del mismo respectivamente, incrementa. Esta consideración se puede normalizar al restar el parámetro de compensación por ejemplo, 0,1, 0,2, 0,3, 0,5 o 1 dB o un valor diferente, es decir, el espectro tiene que incrementar más el parámetro de compensación para cumplir la regla de determinación. Esto permite excluir efectos producidos por ruido o similares. Por lo tanto, la magnitud no incrementa hacia frecuencias más altas en el punto de frecuencia k por encima de una limitación de ancho de banda más de 0,5 dB. El umbral puede ser, por ejemplo, -30 dB, -40 dB, -50 dB, o -60 dB como se explica anteriormente. Esto significa, que para una decisión negativa no hay ya sea ninguna atenuación empinada o más allá del valor de frecuencia respectivo existe una magnitud incrementada.
[0088] Se puede determinar un resultado de evaluación positivo que indica que la señal de audio se sometió a muestreo ascendente que limita el ancho de bando en el índice de frecuencia k, por ejemplo, cuando la función de diferencia espectral s(k) o una función adecuada diferente como se describe anteriormente entrega un valor que excede o que es al menos en un valor umbral. Por lo tanto, la regla de determinación puede aplicar que
SQi) > umbral
la función de diferencia espectral puede indicar una atenuación fuerte y empinada y puede por lo tanto indicar un remuestreo. Por lo tanto, cuando el máximo 72 en la figura 11 se dispone en o cerca de una frecuencia de remuestreo/velocidad de remuestreo esperada, se puede determinar la presencia de un remuestreo.
[0089] Además, la atenuación se puede evaluar con respecto a una cantidad, es decir, una mitad del flanco descendente dentro del espectro. Por ejemplo, el evaluador de pendiente 52 puede evaluar la pendiente 54 con respecto a una disminución dentro de un intervalo de frecuencia específico de, por ejemplo, 100 Hz, 1 kHz o 2 kHz y/o para una cantidad total de la disminución dentro del flanco descendente.
[0090] El procesador 64 se puede configurar para decidir, si el espectro 12' se sometió a la limitación de ancho de banda artificial y se puede configurar además para decidir a qué frecuencia de corte fc se aplicó la limitación. Por lo tanto, la información 66 puede comprender la variable D o una información similar y puede comprender además información que indica la frecuencia de corte, al menos, cuando el procesador 64 determina el espectro 12' como que se aplica al procesamiento de limitación de ancho de banda artificial.
[0091] La figura 10 muestra un diagrama esquemático que ilustra un espectro de ejemplo 12' que tiene la pendiente 54. El evaluador de pendiente 52 puede configurarse para evaluar la pendiente 54 con respecto a una inclinación del espectro 12', de un flanco descendente 68 respectivamente. El evaluador de pendiente 52 se puede configurar para proporcionar el resultado de evaluación de pendiente 56 para comprender información que indica una medición para la inclinación. La medición para la inclinación se puede obtener, por ejemplo, al enlazar una disminución AX1 de la magnitud X(f) y un intervalo de frecuencia Af, por ejemplo, como la disminución AX1 por intervalo de frecuencia Af o en términos de un intervalo de frecuencia Af utilizado para obtener la disminución AX1.
[0092] El procesador 64 se puede configurar para proporcionar la información que indica que la señal de audio comprende la característica predeterminada si la medición para la inclinación es al menos un valor umbral de inclinación. La medición para la inclinación puede incrementar para valores ascendentes del término AX1/Af y/o puede disminuir para valores decrecientes del término Af/AX-i. Por ejemplo, el valor umbral de inclinación puede comprender un valor que es igual o proporcional al menos a 25 dB/1 kHz, 30 dB/1 kHz, 40 dB/1 kHz o 50 dB/1 kHz o más alto.
[0093] El evaluador de pendiente 52 se puede configurar para determinar una función de diferencia espectral del espectro 12', por ejemplo, utilizando una función de ventana que solo selecciona una parte del espectro 12' para una evaluación. La función de ventana puede combinar una pluralidad de valores de frecuencia del espectro 12', la pendiente 54 respectivamente y puede permitir que el evaluador de pendiente 52 determine la medición para la atenuación utilizando resultados de la función de ventana. Esto puede denominarse también como una filtración de ventana. Por combinación, por ejemplo, restando, valores de diferentes ventanas, se puede obtener una medición para la inclinación. Alternativamente, cualquier otro procedimiento adecuado se puede utilizar para evaluar la inclinación de la pendiente 54. Alternativamente, o además, el evaluador de frecuencia se puede configurar para evaluar una atenuación entre un primer nivel de energía de una primera banda de frecuencia del espectro 12' y un segundo nivel de energía de una segunda banda de energía del espectro.
[0094] La primera y segunda banda puede ser, por ejemplo, una denominada banda de baja frecuencia y una denominada banda de alta frecuencia. La banda de alta frecuencia puede ser la banda de frecuencia que se espera que sea silenciosa después de que se filtra por paso bajo, por ejemplo, frecuencias por encima de 3 KHz. La región de baja frecuencia puede referirse a una región de frecuencia que tiene frecuencias por debajo de este intervalo de frecuencia. Por lo tanto, la primera banda de energía puede comprender un primer intervalo de frecuencia f_1 que es bajo cuando se compara con un segundo intervalo de frecuencia f_2 de la segunda banda de frecuencia. El evaluador de pendiente 52 se puede configurar para proporcionar el resultado de evaluación de pendiente 56 para indicar una medición de la atenuación AX2. El procesador 64 se puede configurar para proporcionar la información 66 si la medición para la atenuación es al menos un valor umbral de atenuación. El valor umbral de atenuación puede ser, por ejemplo, al menos 30 dB, al menos 40 dB, al menos 50 dB o al menos 60 dB o incluso más alto.
[0095] En otras palabras, la atenuación se puede considerar que es alta de tal forma que solo energía despreciable permanece después de la filtración en la banda de alta frecuencia. Por ejemplo, la magnitud en la región de frecuencia superior f_2 está por debajo de -60 dB (valor umbral de atenuación) más pequeño que la magnitud promedio en la banda de paso, es decir, la región de frecuencia f_1. Una combinación de la evaluación de la inclinación del espectro y la evaluación de la cantidad de la atenuación puede permitir determinar que el marco actual del espectro 12' se sometió a la limitación de ancho de banda artificial. Por lo tanto, si al menos una o de manera preferente ambas evaluaciones dan una pista para este procesamiento, la variable D se puede ajustar a 1. Si al menos uno o de manera preferente ambos de los criterios de evaluación se evalúan de forma negativa, la variable D se puede ajustar a 0, es decir, se puede determinar que no se ha aplicado ninguna limitación de ancho de banda artificial.
[0096] En otras palabras, la inclinación de la atenuación se puede cuantificar al comparar las magnitudes espectrales en una subbanda inferior f_1 y las magnitudes espectrales en una subbanda superior f_2 alrededor de un índice de frecuencia k y repitiendo esto para todos los índices de frecuencia en el intervalo de interés. Un ejemplo es la función de diferencia espectral S(k) que se puede formar según:
S(k) = máx î - máxX2
[0097] La función de diferencia espectral S(k) puede cuantificar la atenuación como la diferencia de la magnitud máxima de la magnitud inferior y la magnitud máxima de la subbanda superior. El parámetro k puede referirse a un índice de frecuencia. X(k) puede denotar un espectro de magnitud. La operación máx. puede devolver el valor máximo de un vector, en el que X_1 =(xk-a,---,xk-b) puede denotar un segmento del espectro por debajo del índice de frecuencia k y x2=(xk+b,---,xk+a) puede referirse a un segmento del espectro por encima del índice de frecuencia k, en el que a>b. Una longitud del vector, es decir, un número de muestras que se van a utilizar en los vectores X1 y/o X2 puede ser, por ejemplo, 3, 5, 8, o 10 o incluso más. En una realización no limitante, un primer segmento de longitud 7 y un segundo segmento de longitud 7 se utilizan junto con un espacio de 5 valores entre ambos segmentos. En consecuencia, el máximo de elementos 1, 2, 3, 4, 5, 6, 7 se determina y se compara con el máximo de elemento 13, 14, 15, 16, 17, 18, 19.
[0098] Alternativamente, se pueden utilizar otras funciones, por ejemplo, S2(k)=min [X-i-max X2 o una diferencia determinada de valores medios de X1 y X2.
[0099] El evaluador de frecuencia 58 se puede configurar para determinar una medición de energía en una banda de frecuencia de la señal de audio y para determinar la frecuencia de corte fc con base en la energía. Por ejemplo, el evaluador de frecuencia puede evaluar energía en bandas de frecuencia con valores de frecuencia decrecientes, es decir, dentro de intervalos de frecuencia decrecientes. Cuando se hace referencia a la figura 10 a la frecuencia más superior ilustrada, el evaluador de frecuencia puede, por ejemplo, determinar una baja cantidad de energía en el intervalo de frecuencia f2. Mientras que se evalúan de forma comparativa pequeños intervalos de frecuencia de varios periodos o incluso que comprenden solo un periodo de frecuencia, el evaluador de frecuencia 58 puede determinar con frecuencia decreciente f e incrementar en la energía como se indica, la pendiente 54. A la frecuencia de corte fc el evaluador de frecuencia 58 puede determinar un fuerte incremento en la energía, por ejemplo, al menos 30 dB, 40 dB, 50 dB o incluso 60 dB cuando se compara con el bajo nivel de energía en el intervalo de frecuencia f2. Con base en lo mismo, es decir, con base en el incremento de energía en el intervalo de frecuencia, el evaluador de frecuencia 58 puede determinar la frecuencia de corte fc. Esto se puede denominar también como determinación de la frecuencia de corte fc como la frecuencia a la cual incrementa la energía de subbanda.
[0100] La figura 11 muestra un diagrama esquemático de un resultado de ejemplo de la función de diferencia espectral S(k). El origen muestra un resultado de la función de diferencia espectral S(k), en el que la abscisa muestra el mismo eje de frecuencia como se ilustra en la figura 10. La función de diferencia espectral puede permitir obtener una medición para la inclinación de la pendiente 54. Un máximo local o incluso global 72 de la función de diferencia espectral S(k) puede indicar una frecuencia a la cual la pendiente 54 comprende una variación más empinada, es decir, donde la atenuación es muy empinada. Por lo tanto, esta medición puede alternativamente o además utilizarse por el evaluador de frecuencia como una medición para la frecuencia de corte fc .
[0101] La disminución de la pendiente 54 y, por lo tanto, la atenuación pueden variar a lo largo del gran número de muestras de tal forma que la diferencia utilizando un valor máximo del vector respectivo puede proporcionar una precisión suficiente. Alternativamente, la función de diferencia espectral se puede determinar para valores de frecuencia individuales, es decir, los vectores X1 y X2 pueden tener una longitud de 1.
[0102] Para mejora de la calidad de sonido es de crucial importancia discriminar entre una señal que tiene originalmente un ancho de banda bajo, (por ejemplo, una baja nota reproducida en la cuenca) y una señal que se ha limitado en banda por medio de un procesamiento de señal, por ejemplo, debido a codificación con pérdidas o muestreo descendente. Esto es importante para impedir que una señal que tiene alta calidad de sonido se postprocese y para aplicar un procesamiento de mejora solo cuando sea necesario, es decir, para aplicar extensión de ancho de banda posterior (BWE) solo para restablecer energía de alta frecuencia que se ha retirado artificialmente de la señal y no para procesar señales que tienen un bajo ancho de banda por naturaleza. Para este propósito, la señal se puede analizar con respecto a tres características dadas por la inclinación de la atenuación, la cantidad de atenuación y la frecuencia de corte. Esto se puede llevar a cabo por las siguientes etapas de procesamiento ejecutados, por ejemplo, por un aparato según el segundo aspecto.
[0103] La figura 12a muestra un diagrama de bloques esquemático de un aparato 120 según una realización del segundo aspecto. Cuando se compara con el aparato 90, el aparato 120 se configura para determinar la característica predeterminada para una pluralidad de espectros 121' a 123 ' que se pueden derivar de varios bloques de la señal de audio. Es decir, la señal de audio se puede dividir en bloques y de cada bloque se puede derivar un espectro 12'. El evaluador de pendiente 52 se configura para evaluar la pendiente 54 de cada uno de los espectros 121' a 123 '. De acuerdo con lo mismo, el evaluador de frecuencia 58 se configura para evaluar cada uno de los espectros 121' a 123 '.
[0104] El procesador 64 se puede configurar para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada para cada uno de los espectros 121' a 123 '. Varios bloques en los cuales la señal de audio se divide pueden ser arbitrarios. Por ejemplo, una longitud de cada bloque en el tiempo puede ser constante de tal forma que el número de bloques puede ser dependiente de la longitud de la señal de audio.
[0105] El aparato 120 puede comprender un filtro 74 conectado con el evaluador de frecuencia 58 y configurado para recibir el resultado de evaluación de frecuencia 62. El filtro 74 se puede configurar para proporcionar un resultado de evaluación de frecuencia filtrado 62'. El procesador se puede configurar para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada con base en una pluralidad de resultados de evaluación de pendiente 56 para cada uno de los espectros 121' a 123 ' y/o una versión filtrada de los mismos y el resultado de evaluación de frecuencia filtrado 62' asociado con una pluralidad de espectros 121' a 123 ' de la señal de audio. La frecuencia de corte utilizada para codificar una señal de audio puede ser esencialmente invariable en el tiempo, o puede ser un parámetro que varía raramente o infrecuentemente con respecto al tiempo de tal forma que una filtración de paso bajo, un máximo móvil, un promedio móvil o una filtración de mediana a móvil implementados por el filtro 74 pueden permitir obtener los valores filtrados 62' que permanecen sin cambios o constantes o al menos que cambien a velocidades bajas para procesamiento adicional, por ejemplo, cuando el evaluador de frecuencia 58 determina frecuencias de corte ligeramente diferentes fc entre los espectros diferentes 121' a 123 '. Es decir, un postprocesamiento de los valores obtenidos fc se puede llevar a cabo por filtración de paso bajo o alternativamente una filtración diferente.
[0106] De una forma similar, limitación de ancho de banda artificial se lleva a cabo por lo general para una señal de audio completa o al menos una porción grande de la misma de tal forma que es improbable que un cambio de la característica relacionada con el procesamiento de limitación de ancho de banda artificial esté presente en un marco y no presente o ausente en un marco posterior que se presentará. Por lo tanto, el procesador 64 puede llevar a cabo un postprocesamiento de la variable D o un resultado o valor correspondiente, por ejemplo, utilizando una filtración de mediana o similar para una pluralidad de marcos, es decir, para una pluralidad de espectros. El procesador se puede configurar para proporcionar la información 66 que indica que la señal de audio comprende la característica predeterminada al proporcionar una información respectiva para cada uno de la pluralidad de marcos de la señal de audio y para proporcionar un resultado combinado o filtrado 66' al combinar los resultados de los marcos de tal forma que el resultado combinado 66' es válido para la pluralidad de marcos que se someten al filtro y que influye en una salida del filtro. Por ejemplo, cuando se utiliza una filtración de mediana, un número de marcos y/o espectros 121' a 123 ' se considera dentro del filtro respectivo, por ejemplo, un filtro 76 conectado al procesador 64 o que es una parte del procesador 64 o que se implementa por el procesador 64. La salida 66' del filtro 76 puede ser valor filtrado por mediana, combinado derivado de los marcos considerados. Aunque se ilustra como un bloque separado, el filtro 76 se puede implementar o puede ser una parte de otro bloque informático.
[0107] Alternativamente o además, el aparato 120 puede comprender un determinador 78 configurado para determinar una energía E de una banda de frecuencia del espectro 121' a 123 ' y para proporcionar una señal 82 que indica una presencia y/o una cantidad de la energía E dentro de la banda de frecuencia respectiva. La señal 82 o una señal derivada de la misma se pueden proporcionar al procesador 64 de tal forma que el procesador 64 puede tener conocimiento acerca de la energía determinada. Puede ser de interés, si en una llamada región de alta frecuencia fh está presente o no energía. Por ejemplo, una región de alta frecuencia fh puede ser una región de frecuencia que tiene valores de frecuencia que están al menos o por encima de 1 kHz, 2 kHz, 3 kHz, 4 kHz o un valor diferente, es decir, diferentes frecuencias de limitación de ancho de banda. Por ejemplo, codificadores pueden descartar o abandonar frecuencias por encima de un cierto valor de frecuencia. El valor de frecuencia puede estar de acuerdo con una aplicación específica tal como 3 kHz o 4 kHz para aplicaciones relacionadas con voz.
[0108] El determinador 78 puede determinar, si los espectros 121' a 123' comprenden energía o comprenden energía por encima de un cierto umbral en la región de alta frecuencia fh. En un caso donde el determinador 78 determina que el espectro respectivo 121' a 123' no comprende ninguna energía E o una baja cantidad de la misma en la región de alta frecuencia fh, una determinación fiable de la frecuencia de corte y/o la atenuación puede ser difícil o incluso imposible, por ejemplo, debido a que el marco respectivo no proporciona ninguna pendiente adecuada. Cuando se toma en cuenta, solamente como ejemplo no limitante, un espectro de silencio que no tiene ninguna parte de energía en el espectro completo, ni una frecuencia de corte ni una atenuación de la pendiente 54 se puede determinar. Esta información se puede proporcionar por la señal 82. El procesador puede omitir la evaluación del marco o espectro real 121' a 123' y se puede configurar para proporcionar la información 66 con base en un espectro anterior observado o evaluado previamente, si la energía E está por debajo de un nivel umbral de energía que se considera que discrimina entre energía relevante presente o ausente. Dicho de otra forma, el procesador puede basar su decisión en un marco anterior en un caso donde el espectro real no es capaz de proporcionar suficiente información.
- En una etapa opcional, una partición de la señal de entrada/señal de audio en bloques cortos se puede ejecutar, es decir, se puede obtener un número de bloques. Una longitud de un bloque puede ser, por ejemplo, al menos 0,5 ms, al menos 1 ms o al menos 5 ms o a lo mucho 1 segundo, 500 ms o 100 ms. Un intervalo de ejemplo comprende valores de al menos 2 ms y como máximo 80 ms.
- Opcionalmente, calcular un espectro de magnitud para cada bloque, por ejemplo, por medio de una transformada o un banco de filtros. Por lo tanto, el aparato 19 puede comprender, por ejemplo, un derivador de frecuencia para derivar un espectro tal como un espectro de magnitud para proporcionar el espectro 12'. Para cada bloque un espectro de acuerdo o similar al espectro ilustrado en la figura 10 se puede derivar.
- Opcionalmente, una filtración de paso bajo de coeficientes espectrales se puede llevar a cabo con respecto al tiempo y la frecuencia. Por ejemplo, un promedio móvil o un promedio recursivo se pueden llevar a cabo, por ejemplo, por el evaluador de pendiente 52 y/o el evaluador de frecuencia 58 y/o un procesador que implementa tanto el evaluador de pendiente 52 como el evaluador de frecuencia 58. Esto puede permitir reducir cargas computacionales ya que la atenuación y la inclinación de la atenuación así como la frecuencia de corte se disponen dentro de un intervalo de frecuencia específico extendido más allá de valores de frecuencia individuales de tal forma que una evaluación de los intervalos de frecuencia puede permitir una precisión suficiente.
- Opcionalmente, cuando la señal de entrada es silenciosa o no contiene energía en la región de alta frecuencia, una estimación fiable puede ser difícil de obtener o puede ser imposible de obtener. Por lo tanto, el resultado de detección del marco anterior se puede utilizar, si la energía de subbanda máxima por encima de 3 kHz está por debajo de un umbral debido a que este marco no contiene la información deseada.
- Opcionalmente, detectar si la señal se ha muestreado de forma ascendente de una frecuencia de muestreo descendente, por ejemplo, utilizando los determinadores 78. Una señal codificada a bajas velocidades de bits se codifica habitualmente con una baja frecuencia de muestreo que puede ser inferior que la frecuencia de muestro a la cual opera la estructura de procesamiento actual. Cuando se ha detectado muestreo ascendente o remuestro después de la decodificación, el intervalo de búsqueda del análisis de limitación de ancho de banda artificial (ABLA) según el segundo aspecto se puede modificar de tal forma que la frecuencia más alta que se va a detectar es igual a la frecuencia de muestreo de codificador. Para detectar un remuestreo, la detección de remuestreo se puede llevar a cabo para un conjunto de velocidades de muestreo comunes tal como 11.025 Hz, 22.050 Hz y/o 32.000 Hz. Cuando la magnitud máxima de los coeficientes espectrales en un intervalo por encima de la mitad de la frecuencia de muestreo está por debajo de un umbral, se puede detectar remuestreo. Esto se basa en el criterio de Nyquist que permite obtener frecuencias con la mitad del valor de frecuencia cuando se compara con la velocidad de muestreo. Por lo tanto, cuando la energía está por debajo del umbral en la mitad superior, esto se puede producir por la velocidad de muestreo utilizada. El siguiente procesamiento ABLA se modifica entonces de tal forma que el intervalo de búsqueda se modifica de tal forma que la frecuencia más alta que se va a detectar es igual a la frecuencia de muestreo de codificador detectada y por lo tanto que permite búsqueda de solo una porción del espectro respectivo. La otra porción, por ejemplo, la mitad superior, se puede despreciar ya que se espera que se produzca por el muestro ascendente. La atenuación debido al remuestreo puede ser más grande que la atenuación de la codificación. La detección de remuestreo puede asegurar que el remuestreo no se detecte de forma errónea como limitación de ancho de banda a una frecuencia de corte inferior fc.
- Calcular una función de detección, por ejemplo, la función de diferencia espectral, que cuantifica una inclinación de la atenuación con respecto a la frecuencia. Se puede utilizar la función de diferencia espectral o una versión alternativa cuando se compara con la figura 11. La función de detección puede proporcionar información de una diferencia de nivel entre bandas de frecuencia adyacentes.
- Detectar limitación de ancho de banda artificial (ABL) utilizando un conjunto de reglas que evalúan la función de diferencia espectral y la energía de subbanda y un parámetro umbral. Comenzando en el índice de frecuencia k del extremo superior del intervalo de búsqueda, la magnitud X de los coeficientes espectrales y la función de diferencia espectral S(k) o una función similar o cantidad se pueden probar con respecto a un conjunto de condiciones hasta que es válida una condición o hasta que el extremo inferior del intervalo de búsqueda se ha alcanzado. Todos los umbrales son parámetros que se pueden ajustar para cambiar la compensación entre detecciones de falsos positivos y falsos negativos. Las condiciones:
1).x(k) > umbral;
y
2).X(k) <X (k 1) - parámetro de compensación Y x(k)mayor que umbral, es decir, la magnitud incrementa hacia las frecuencias más altas por encima de una BL más que el parámetro de compensación, por ejemplo, 0,5 dB, cuando las magnitudes son más grandes que el umbral, por ejemplo, -60dB, puede conducir a una detección negativa. Condiciones según:
1) S(k) > umbral; y
2) Se ha detectado remuestreo.
puede conducir a una detección positiva
- Determinar la frecuencia de corte fc como la frecuencia a la cual incrementa la energía de subbanda, por ejemplo utilizando el evaluador de frecuencia 58.
- Opcionalmente, postprocesar fc por filtración de paso bajo, por ejemplo, utilizando el filtro 74.
- Opcionalmente, postprocesar D por filtración de mediana, por ejemplo, al utilizar el filtro 76.
[0109] El aparato 90 y/o el aparato 120 pueden comprender además un mejorador de señal, por ejemplo, el mejorador de señal 48 que se describe junto con el primer aspecto. El mejorador de señal 48 se puede configurar para reducir distorsiones producidas por procesamiento de limitación de ancho de banda artificial de la señal de audio dependiendo de la información 66 que indica que la señal de audio comprende la característica predeterminada. Es decir, el mejorador de señal se puede adaptar a distorsiones que se producen por la limitación de ancho de banda artificial.
[0110] En lo sucesivo, se hará referencia a un aparato configurado para suprimir o al menos reducir la distorsión de codificación de birdies y para mejorar la calidad de sonido percibido de acuerdo con el segundo aspecto. El aparato o procedimiento respectivo puede utilizarse en un caso cuando se ha derivado información que la señal de audio comprende una característica relacionada con una limitación de ancho de banda artificial y/o un procesamiento de mejora espectral tal como una replicación de banda espectral. Por ejemplo, el aparato se puede utilizar en un caso cuando al menos una de limitación de ancho de banda artificial o replicación de banda espectral se ha detectado.
[0111] Por lo tanto, cuando se detecta al menos una de la limitación de ancho de banda artificial y el procesamiento de mejora espectral, el concepto según el cual se detecta la limitación de ancho de banda artificial se puede reutilizar o se puede utilizar para detectar inclinación y regiones altamente atenuadas en el espectro, que se pueden denominar como espacios espectrales. Un espacio espectral puede comprender un primer y segundo flanco. En consecuencia, una isla espectral puede comprender también un primer y un segundo flanco, en el que entre los flancos respectivos se puede disponer el espacio o la isla.
[0112] Cuando se hace referencia ahora a la figura 12b, se muestra un espectro de ejemplo que comprende el flanco descendente 68 a la frecuencia de corte fc. Además, a intervalos de frecuencia por debajo de la frecuencia de corte fc, se disponen un espacio espectral de ejemplo 202 y una isla espectral de ejemplo 204. Cuando se empieza desde bajas frecuencias, se dispone un primer flanco descendente 2061 y después de eso un flanco ascendente 2062 , en el que, a intervalos de frecuencia entre los mismos, se puede disponer el espacio espectral 202. En consecuencia, la isla espectral 204 se puede disponer entre flancos 2063 y 2064. Los flancos pueden estar ubicados, cuantificados y cualificados utilizando las enseñanzas descritas en esta invención para encontrar el flanco 68, en particular se puede llevar a cabo una evaluación de frecuencia/energía.
[0113] En contraste con la frecuencia de corte fc, una ubicación, una presencia y una magnitud del espacio 202 y la isla 204 así como un número de los mismos pueden variar entre marcos de la señal de audio. De manera simplificada, el relleno del espacio 202 y/o la atenuación de la isla 204 se puede llevar a cabo después de utilizar un concepto para encontrar los flancos 2061 y 2064, como se describió junto con la frecuencia de corte fc con la excepción de que son variables las frecuencias respectivas. Es decir, un aparato o mejorador de señal se puede configurar para rellenar un espacio espectral y/o para atenuar una isla espectral. Por lo tanto, se pueden utilizar factores de ponderación espectrales que se pueden determinar de la propia señal de audio, es decir, una información secundaria puede permanecer no requerida. Al suprimir la distorsión de codificación de birdies se puede mejorar la calidad de sonido percibida. El concepto introducido se puede utilizar como un concepto de post-procesamiento que se coloca después del decodificador. Puede funcionar a ciegas sin tener acceso a la señal de audio no comprimida y a otra información secundaria.
[0114] El concepto que se describe en lo sucesivo para reducir la distorsión de birdies puede utilizar un principio básico llamado ponderación espectral o atenuación espectral de corto plazo. Por lo tanto, una señal en el dominio del tiempo X[n] se puede transformar a su representación en el dominio de la frecuencia X[k, m], donde k y m denotan la frecuencia en índice de lapso de tiempo, respectivamente. En las realizaciones descritas, se puede aplicar la transformada corta de Fourier (STFT), pero se pueden utilizar otras transformadas. La señal de salida Y de la ponderación espectral puede estar dada en la siguiente ecuación:
Figure imgf000019_0001
[0115] La representación en el dominio del tiempo Y[n] de la señal en el dominio de la frecuencia Y[n] se puede calcular por medio de una transformada inversa, en realizaciones la STFT inversa. En lo sucesivo, se denotarán señales en el dominio del tiempo con letras pequeñas y señales en el dominio de la frecuencia con letras mayúsculas. Los índices k y m o señales en el dominio de la frecuencia se omiten para mejor lectura.
[0116] La figura 12c muestra un diagrama de bloques esquemático de un aparato 125 configurado para procesar una señal de audio 91 que se puede recibir de un decodificador y que puede haberse sometido a limitación de ancho de banda artificial y/o mejora espectral tal como replicación de banda espectral. El aparato 125 comprende el evaluador dependiente 52 y el evaluador de frecuencia 58. El evaluador de pendiente 52 se configura para evaluar una pendiente de un espectro de la señal de audio 91 para obtener un resultado de pendiente como se describe junto con la figura 9 y/o la figura 12a. El evaluador de frecuencia se puede configurar para evaluar al menos una primera y una segunda frecuencia en, por ejemplo los flancos 2061 y 2062 y/o los flancos 2063 y 2064 que circundan, que bordean o que protegen la distorsión respectiva, es decir, el espacio 202 y/o la isla espectral 204.
[0117] El aparato 125 comprende un procesador 208 configurado para determinar un factor de ponderación espectral G y/o W y para procesar la señal de audio 91 al menos en una región espectral entre los flancos respectivos 2061 y 2062, 2063 y 2064 respectivamente, utilizando los factores de ponderación espectral G y/o W. El aparato 125 se puede configurar para determinar los factores de ponderación espectral G y/o W para cada una de las regiones de frecuencia, periodos de frecuencia y/o marcos de la señal de audio 91. Los factores de ponderación espectral G se pueden utilizar para formar o conformar una señal de relleno S que se va a combinar con la señal de audio para rellenar espacio espectral. Los factores de ponderación espectral W se pueden utilizar para atenuar islas espectrales. Es decir, para reducir una distorsión dentro del espacio espectral 202, se puede utilizar una señal de relleno F. Para reducir distorsiones producidas por la isla espectral 204, se pueden utilizar factores de ponderación espectrales W para atenuar una altura de la isla. Para una pluralidad de valores de frecuencia dentro del espacio espectral respectivo 202 y la isla espectral respectiva 204, se puede determinar una pluralidad de factores de ponderación espectrales.
[0118] La figura 12d muestra un diagrama de bloques esquemático de una funcionalidad que se puede implementar por el procesador 208 para determinar los factores de ponderación espectrales G. Los espacios espectrales se pueden definir como una disminución abrupta, es decir, al menos 30dB, al menos 40dB o al menos 50dB de áreas de magnitud espectrales en frecuencia y dominio del tiempo/dirección. La evaluación adicional con respecto al tiempo muestra que las áreas espectrales entre armónico de una señal tonal no se detectan erróneamente como espacios espectrales. En [5] el procedimiento de detección busca ceros perfectos en el dominio espectral. Esto solo es posible debido a que el procedimiento está ubicado en el decodificador y tiene acceso al mismo banco de filtros y que bloquea como el codificador. Las realizaciones descritas se refieren a postprocesamiento del decodificador que evalúa cambios espectrales relativos, abruptos utilizando la diferencia de espectros de magnitud X y su copia suavizada del mismo. El flujo de señal para detectar tanto los espacios espectrales como las islas espectrales se ilustran en la figura 12d. STFT o una calculadora de espectro diferente 44 se puede utilizar para obtener una representación espectral de la señal de audio 91. Un formador de valores absolutos 212 se puede configurar para producir el espectro de magnitud X. Un logaritmo 214 se configura para transformar el espectro de magnitud X en el dominio logarítmico, para utilizar una transformación logarítmica tal como
Figure imgf000019_0002
[0119] El espectro de magnitud logarítmica obtenido X' se puede suavizar por dos filtros de paso bajo en paralelo, en el que un primer filtro de paso bajo 216a se puede configurar para suavizar el espectro de la señal de audio, es decir, la señal de audio en el dominio de la frecuencia para obtener una señal Y' que se suaviza en el dominio de la frecuencia. Un segundo filtro de paso bajo 216b se puede configurar para suavizar el espectro de magnitud X' en el dominio de tiempo para obtener una señal suave Z'. Aunque se describe como que se suaviza en el dominio logarítmico, la suavización también se puede llevar a cabo en el dominio lineal o un dominio diferente. Es decir, el logaritmo 214 puede estar ausente o se puede disponer después de los filtros de paso bajo. Es decir, el espectro de magnitud logarítmica X' se puede suavizar por dos filtros de paso bajo, tanto con respecto a la frecuencia como con respecto al tiempo que puede conducir a señales Y y Z, respectivamente. Para el cálculo de los factores de ponderación espectrales G, los valores lineales se pueden calcular por
Figure imgf000020_0001
[0120] Aquellos valores lineales se pueden comparar con el espectro de magnitud X para obtener un valor de diferencia de frecuencia y/o un valor de diferencia de tiempo. Las diferencias relativas At y Af que comparan las magnitudes espectrales X con sus versiones suavizadas con respecto al tiempo Z' y la frecuencia Y' se pueden calcular en el dominio logarítmico, por ejemplo, para cada coeficiente espectral y para cada marco por
y
Figure imgf000020_0002
en el que Af se refiere al valor de diferencia de frecuencia y At se refiere al valor de diferencia de tiempo.
[0121] La calculadora de factor de ponderación espectral 218 se puede configurar para calcular el factor de ponderación espectral G según
si {A/ > Sj) A (A t > ó,)
Figure imgf000020_0003
de lo contrario
es decir, el factor de ponderación espectral G se ajusta a un valor diferente de cero si el valor de diferencia de frecuencia Af es mayor que o igual a un umbral de diferencia de frecuencia Af y si el valor de diferencia de tiempo At es mayor que o igual a un valor umbral de diferencia de tiempo At. Aunque se describe como que se requiere que los valores de diferencia de tiempo Af y At sean mayores que sus valores umbrales respectivos Af, At respectivamente, con base en otros valores umbrales u otros valores umbrales que se eligen de forma diferente, el parámetro de ganancia puede ser también r cuando es igual a los valores umbrales. Se puede aplicar la siguiente regla de determinación:
Figure imgf000020_0004
donde Af y At denotan parámetros umbrales. a, p y y son parámetros que influyen en las características del cálculo de factor de ponderación espectral. Todos los parámetros son parámetros sintonizables. k es un término que se utiliza para incrementar el impacto de la ponderación y se puede calcular según la regla de determinación o con base en la misma:
20/ofl, <,(*)+«/
K = 10 25
[0122] Las ganancias espectrales calculadas se suavizan con respecto al tiempo y la frecuencia, por ejemplo, utilizando un filtro de paso bajo 222a, 222b respectivamente. Las ganancias espectrales se utilizan posteriormente para una ponderación espectral de una señal de fuente de relleno S como se describe junto con la figura 12e.
[0123] La figura 12e muestra un diagrama de bloques esquemático de un mejorador de señal 200 configurado para reducir la distorsión de birdies. El procesamiento se puede realizar, por ejemplo, mediante el uso del procesador 208. El aparato 200 puede comprender un combinador 224 para combinar una señal de fuente de relleno S con los factores de ponderación espectrales G, por ejemplo, por multiplicación, para obtener la señal de relleno F. La señal de relleno F puede comprender una estructura según la cual solo comprende valores diferentes de cero en ubicaciones donde se han estimado espacios espectrales. Un combinador adicional 226 se puede configurar para combinar la señal de relleno F con el espectro de magnitud X, por ejemplo, por una suma. Es decir, la señal de relleno F se añade a la señal de entrada X. La señal de fuente de relleno S se puede obtener o generar al filtrar la señal de audio 91 en el dominio del tiempo, lo que prolonga la información de marcos anteriores. Alternativamente, la señal de fuente de relleno se puede obtener al copiar los coeficientes espectrales de otras posiciones dentro de un marco espectral, al copiar coeficientes espectrales de otro canal de audio que no exhibe un espacio espectral en la ubicación correspondiente y/o al copiar coeficientes espectrales de un marco espectral anterior que no exhibe un espacio espectral.
[0124] En conceptos conocidos, por ejemplo se utiliza sustitución de ruido de la herramienta de sustitución de ruido perceptual (PNS) de la codificación de audio avanzada (ACC). Porciones similares a ruido del espectro se sustituyen en el decodificador por una pseudosecuencia aleatoria de valores modificados en escala para coincidir con una energía objetivo dada. El proceso se controla por información secundaria. Además, se conoce una técnica llamada relleno de ruido. El relleno de ruido se utiliza en el códec de codificación de audio y voz unificado (USAC) para rellenar agujeros espectrales producidos por la zona muerta del cuantificador que opera bajo limitaciones de un pequeño presupuesto de bits. Una secuencia pseudoaleatoria de valores se utiliza para rellenar estas zonas espectrales. Además, una técnica llamada relleno de espacios inteligentes se conoce a partir de MPEG-H y 2GPP EVS. Aquí, se rellenan espacios espectrales ya sea con ruido o utilizando mosaicos espectrales procedentes de una ubicación espectral remota. El proceso se controla por la información secundaria. Las realizaciones descritas en esta invención difieren de relleno de ruido de tal forma que se utiliza una distribución de información de tiempo-frecuencia de marcos de tiempo anteriores para rellenar agujeros espectrales. En contraste con PNS, la señal de salida filtrada solo se rellena en espacios espectrales en lugar de bandas PNS completas. En contraste con PNS e IGF (relleno de espacios inteligentes) las realizaciones se pude utilizar como procesamiento no guiado, es decir, sin utilizar información secundaria.
[0125] El aparato 200 puede comprender una calculadora de factor de ponderación de isla espectral 228 que también se puede implementar por el procesador 208. Las islas espectrales contenidas en la señal Z que se reciben por el combinador 226 y que se obtienen al añadir espectro de entrada X y señal de relleno F según
Figure imgf000021_0001
se puede suprimir por medio de ponderación espectral según
Figure imgf000021_0002
[0126] Como G, W son factores de ponderación espectrales que se recalculan para cada marco m y coeficiente espectral k. A fin de preservar tanto ancho de banda como sea posible, la supresión de islas espectrales se realiza después de que se hayan rellenado espacios espectrales. Solo islas espectrales aisladas que no se pueden unir a la parte principal del espectro se suprimen finalmente. Para lograr una mejora parcial, la supresión de isla espectral se puede llevar a cabo sin el relleno de espacios espectrales. Alternativamente, el relleno de espacios espectrales se puede llevar a cabo sin el cálculo de factor de ponderación espectral.
[0127] Para suprimir el cálculo de factor de ponderación espectral y para calcular el factor de ponderación espectral W, se puede implementar la siguiente enseñanza. Se pueden definir islas espectrales como incremento abrupto de áreas de magnitud espectral en dirección de frecuencia y tiempo circundadas por valores de magnitud espectrales muy bajos. Una elevación de magnitudes puede ser, por ejemplo, al menos 30dB, al menos 40dB o al menos 50dB. Se pueden suprimir islas espectrales al atenuar los coeficientes espectrales correspondientes por medio de ponderación espectral. Para derivar los factores de ponderación espectral W, se puede llevar a cabo un procesamiento similar como se describe junto con la figura 12d. Como se describe para los factores de ponderación espectral G, se pueden determinar el valor de diferencia de tiempo y el valor de diferencia de frecuencia Af y At. El factor de ponderación espectral W se puede derivar con base en la regla de determinación:
Figure imgf000021_0003
en el que
Figure imgf000022_0001
Ap es un umbral que refleja la suposición de que las islas espectrales están circundadas por coeficientes espectrales de baja energía. Af y At son parámetro umbrales. Como se describe anteriormente, a, p y y son parámetros sintonizables. En consideración de la regla de terminación anterior, en intervalos de la isla espectral, se determina que el factor de ponderación espectral O permite atenuar la señal Z, Y, respectivamente, es decir, O es un valor que es menor que 1. En un intervalo fuera de la isla espectral, W es un valor de 1, es decir, no se lleva a cabo ninguna atenuación. El aparato 200 puede comprender un combinador 232 para combinar los factores de ponderación espectrales W con la señal Z, por ejemplo, utilizando una multiplicación. Un transformador de señal 234 se puede utilizar para llevar a cabo ISTFT, es decir, para obtener una señal en el dominio del tiempo.
[0128] En otras palabras, el concepto de supresión de birdies se puede dividir en relleno de espacios espectrales y supresión de isla espectral. La señal de relleno F se puede calcular al filtrar una señal de fuente de relleno de banda ancha S con factores de ponderación espectrales G. F solo contiene valores diferentes de cero, donde se han identificado espacios espectrales en X que se determina según
F = G-S
La figura 12f muestra un diagrama de flujo esquemático de un procedimiento 1500 para procesar una señal de audio. El procedimiento 1500 comprende una etapa 1600 en el cual una pendiente de un espectro de la señal de audio se evalúa para obtener un resultado de relación de pendiente. Una etapa 1700 comprende evaluar al menos un primer y un segundo flanco de frecuencia al cual el espectro comprende un flanco para obtener un resultado de evaluación de frecuencia. Una etapa 1800 comprende determinar un factor de ponderación espectral y procesar la señal de audio en una región espectral entre el primer y segundo flanco de frecuencia, utilizando el factor de ponderación espectral.
[0129] La figura 13a muestra un diagrama de flujo esquemático de un procedimiento 2000 para determinar una característica predeterminada relacionada con un procesamiento de limitación de ancho de banda artificial de una señal de audio. El procedimiento 2000 comprende una etapa 2100 que comprende evaluar una pendiente de un espectro de la señal de audio para obtener un resultado de evaluación de pendiente. Una etapa 2200 comprende proporcionar una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación del resultado de evaluación de pendiente. La información 66 proporcionada por el procesador 64 puede contener una variable mencionada en esta invención después como D que se puede utilizar para activar procesamiento de extensión de ancho de banda que se aplica para mejorar calidad de sonido de una señal de audio, por ejemplo, utilizando el mejorador de señal. Opcionalmente, la frecuencia de corte fc se puede determinar, es decir, una etapa opcional puede comprender evaluar una frecuencia de corte del espectro de la señal de audio para obtener un resultado de evaluación de frecuencia de tal forma que la información que indica que la señal de audio comprende la característica predeterminada se puede proporcionar dependiendo del resultado de evaluación de pendiente y dependiendo del resultado de evaluación de frecuencia. La frecuencia de corte fc se puede utilizar para controlar la extensión de ancho de banda (BWE) al determinar el intervalo de frecuencia a la cual opera BWE de tal forma que solo recupera la región de frecuencia que falta. Esto se ilustra en la figura 13b que muestra un diagrama de flujo esquemático de un procedimiento 2500 según otra realización, el procedimiento que comprende la etapa 2150 que comprende evaluar una frecuencia de corte del espectro de la señal de audio para obtener un resultado de evaluación de frecuencia.
[0130] La segunda aplicación donde ABLA, es decir, detección de la característica respectiva, se puede utilizar o requerir es la clasificación de una señal de audio como una señal de baja calidad de sonido debido a la compresión con pérdidas. Esta clasificación se puede basar solamente en el análisis descrito o al combinarlo con otra información que se puede extraer de la señal de audio. Ejemplos de información adicional que se pueden utilizar en este contexto son el ancho de la señal estéreo o la presencia de replicación de banda espectral (SBR), es decir, un procedimiento que se aplica por códecs con pérdidas. La ABLA se utiliza entonces para activar otro procesamiento que mejora la calidad de sonido de señales con una compresión con pérdidas, que no se limita a procesamiento BWE. Ejemplos son la filtración para mejora del ancho estereofónico y de componentes de señal transitorios.
[0131] Los resultados de la ABLA, es decir el parámetro D y la frecuencia de corte fc, se pueden utilizar o incluso pueden ser necesarios para reparar estas distorsiones automáticamente sin tener un operador humano implicado. Puede ser de crucial importancia aplicar mejora de calidad de sonido solo a señales que tienen calidad de sonido degradada. Señales que tienen alta calidad no se deben procesar de esta forma debido a que la calidad de sonido se puede afectar negativamente. Realizaciones según el segundo aspecto permiten detectar marcos de audio o señales de audio que se someten a la limitación de ancho de banda artificial con una alta precisión. Señales de audio tienen un ancho de banda natural que se determina por el proceso de generación de sonido. El ancho de banda puede cambiar debido a diferentes procesos técnicos, que incluyen limitación de ancho de banda que se aplica para capturar, almacenar, procesar y transmitir la señal. La limitación de ancho de banda es una filtración de paso bajo que tiene las características de una atenuación muy empinada, una atenuación muy alta y una frecuencia de corte como se describe anteriormente.
[0132] En lo sucesivo, se hará referencia al tercer y cuarto aspecto de la presente invención con referencia a un concepto para ancho de banda que extiende una señal limitada en ancho de banda en el tercer aspecto, por ejemplo, en respuesta a tener limitación de ancho de banda artificial determinada según el segundo aspecto. Por lo tanto, realizaciones según el tercer aspecto se pueden utilizar como mejorador de señal junto con el segundo aspecto.
[0133] El concepto según el tercer aspecto tiene como propósito suprimir varias distorsiones de codificación para mejorar la calidad de sonido percibida. Las etapas técnicas se pueden implementar como post-procesamiento y se pueden implementar parcialmente utilizando software que se puede utilizar por el decodificador. El concepto puede funcionar a ciegas sin tener acceso a la señal de audio no comprimida y a otra información secundaria. El procesamiento de mejora de codificación de baja velocidad de bits según el tercer aspecto comprende o incluso consiste esencialmente en un post-procesador que introduce o mejora agrado perceptual relacionado con conceptos de post-procesamiento no guiado de material de audio que se ha pre-codificado por codificadores perceptuales heredados. Por lo tanto, el material de audio precodificado puede beneficiarse de conceptos modernos de agrado perceptual.
[0134] Las realizaciones que se describen junto con el tercer y cuarto aspecto pueden utilizar un principio básico llamado ponderación espectral o atenuación espectral a corto plazo. Por lo tanto, una señal en el dominio del tiempo x[n] se transforma a su representación en el dominio de la frecuencia X[k, m] donde k y m denotan la frecuencia e índice de lapso de tiempo, respectivamente. Según realizaciones, se puede aplicar una transformada corta de Fourier (STFT), pero también se pueden utilizar otras transformadas. La señal de salida Y de la ponderación espectral puede estar dada por la siguiente ecuación.
Figure imgf000023_0001
en la que la representación en el dominio del tiempo x[n] de la señal en el dominio de la frecuencia Y[k, m] se puede calcular por medio de una transformada inversa, por ejemplo, una STFT inversa, es decir, ISTFT. En las siguientes secciones, se denotan señales en el dominio del tiempo con pequeñas letras y señales en el dominio de la frecuencia con letras mayúsculas. Los índices k y m o señales en el dominio de la frecuencia se omitirán para mejor lectura. La ponderación espectral se explicará con más detalle junto con un aspecto que se refiere como una ponderación espectral en la cual se explican detalles para los factores de ponderación G[k, m].
[0135] La figura 14, muestra un diagrama de bloques esquemático de un aparato 140 según una realización del tercer aspecto. El aparato 140 se configura para procesar una señal de audio y puede recibir el espectro 12' de la señal de audio para el procesamiento. El aparato 140 se puede configurar para recibir la representación en el dominio del tiempo de la señal de audio, es decir, la señal de audio 12 y puede derivar el espectro 12', por ejemplo, el aparato 140 puede comprender la calculadora de espectro 44 para este propósito.
[0136] El aparato 140 comprende un separador 92 para separar una primera porción 91'a de un espectro 91' de una señal de audio 91 de una segunda porción 91'b del espectro 91' de la señal de audio 91. La primera porción 91'a tiene una primera característica de señal y la segunda porción 91'b tiene una segunda característica de señal. La señal de audio 91 se puede recibir por el aparato 91 en el dominio del tiempo y/o en el dominio de la frecuencia y, por ejemplo, se puede limitar en ancho de banda utilizando una frecuencia de corte fc y se puede someter a post­ procesamiento. Una característica principal del tercer aspecto con respecto a la extensión de ancho de banda es que la señal de entrada se puede dividir en diferentes características tal como porciones de señales transitorias y sostenidas que se tratan independientemente al aplicar diferentes ajustes de parámetros para los módulos en cada parte.
[0137] La primera y la segunda característica de señal pueden diferir entre sí por medio de diferentes percepciones y/o por diferentes características en el intervalo de frecuencia, aunque las realizaciones no se limitan a lo mismo, la primera y segunda característica de señal pueden ser complementarias entre sí, es decir, al retirar, excluir o sustraer una característica de señal del espectro común 91', la porción restante forma la otra característica. A modo de ejemplo no limitante, la primera característica de señal puede ser un intervalo de frecuencia medio del espectro y la segunda característica de señal puede ser un intervalo de frecuencia lateral del espectro. Alternativamente, la primera característica de señal puede ser una característica de señal directa de la señal de audio y la segunda característica de señal puede ser una característica de señal ambiente de la señal de audio. Según otra realización, la primera característica de señal puede ser una característica tonal de la señal de audio y la segunda característica de señal puede ser una característica de señal sostenida de la señal de audio que puede ser denominada como transitorio o similares. Alternativamente, la primera característica de señal puede ser una característica de voz de la señal de audio y la segunda característica de señal puede ser una característica no de voz de la señal de audio. Otras características de señal también son posibles. Además, es posible formar combinaciones de las mismas, es decir, combinar dos o más de las características identificadas anteriormente. La primera y segunda porción 91'a y 91'b pueden comprender un ancho de banda comparable o igual, frecuencia de inicio y frecuencia de paro y pueden formar, cuando se combinan entre sí el espectro 91' de nuevo. Es decir, la división o separación se puede realizar por medio de descomposición de señal sostenida-transitoria. Alternativamente o además, otras reglas de descomposición o procedimientos son posibles, tal como la descomposición de señal media-lateral, la descomposición de señal directaambiente o la descomposición de primer plano/fondo y/o la descomposición de voz-no de voz, etc.
[0138] El aparato 140 puede comprender un primer extensor de ancho de banda 941 para extender un ancho de banda de la primera porción 91'a utilizando primeros parámetros 961 asociados con la primera característica de señal para obtener una primera porción extendida 98a. El aparato 140 comprende además un segundo extensor de ancho de banda 942 para extender un ancho de banda de la segunda porción 91'b utilizando segundos parámetros 962 asociados con la segunda característica de señal para obtener una segunda porción extendida 98b. La extensión de ancho de banda puede comprender formar partes adicionales o puntos de frecuencia en el espectro que se va a combinar con la señal original. Esto puede incluir una copia y/o una generación de estas regiones de frecuencia adicionales por transpuesta, estiramiento espectral o generación de sobretonos a través de la aplicación de una no linealidad. Al utilizar un primer y un segundo extensor de ancho de banda, las características de señal diferentes presentes en las diferentes porciones 91'a y 91'b se pueden considerar de forma diferente por el extensor de ancho de banda respectivo 941 y 942. Por ejemplo, un ancho de banda de una porción copiada, un número de copias, una alternación de copias, una conformación espectral de una señal que se obtiene y/o características de frecuencia de porciones espectrales que se generan artificialmente pueden variar entre diferentes características de señal que se pueden considerar al utilizar diferentes conjuntos de parámetros 961 y 962 junto con las diferentes características de señal. Esto permite una alta adaptación de la extensión de ancho de banda a la característica de señal.
[0139] Aunque se ha descrito que el aparato 140 comprende un primer extensor y un segundo extensor de ancho de banda para considerar una primera y una segunda característica de señal, un aparato según realizaciones adicionales se puede configurar para someter más de dos, por ejemplo, tres, cuatro, cinco o incluso un número mayor, a diferentes extensiones de anchos de banda. Este aparato puede comprender números correspondientes de extensores de ancho de banda, pero también puede utilizar un extensor de ancho de banda para al menos dos extensiones de ancho de banda, por ejemplo, cuando se procesan secuencialmente diferentes características de señal. En consecuencia, el aparato 140 se puede implementar al implementar un extensor de ancho de banda 94 y para adaptar el extensor de ancho de banda con diferentes parámetros 961 y 962 secuencialmente mientras que se procesan las diferentes porciones 91'a y 91'b de forma secuencial.
[0140] El aparato 140 comprende un combinador 102 configurado para utilizar la primera y segunda porción extendida 98a y 98b para obtener una señal de audio combinada, extendida 104. Las porciones extendidas 98a y 98b se pueden recibir del combinador 102 como una representación en el dominio del tiempo de tal forma que la señal de audio combinada 104 pueda estar también en el dominio del tiempo. Alternativamente, las porciones extendidas 98a y 98b se pueden recibir por el combinador en el dominio de la frecuencia de tal forma que la señal de audio combinada 104 pueda estar también en el dominio de la frecuencia para convertirse al dominio del tiempo después de eso. Alternativamente, el combinador 102 se puede configurar para transformar cada una de las porciones individuales 98a y 98b o una versión combinada de las mismas al dominio del tiempo y para proporcionar la señal de audio combinada 104 en el dominio del tiempo.
[0141] La figura 15 es un diagrama esquemático que ilustra un espectro de ejemplo que comprende diferentes componentes 106a y 106b. Por ejemplo, el componente 106a puede estar relacionado con una señal transitoria del espectro, por ejemplo, obtenida por una caja. Estas señales pueden tener una mayor correlación con un marco espectral y también pueden tener un ancho de banda más alto que una señal sostenida, por ejemplo, indicado por la porción espectral 106, que puede estar relacionada con una voz humana. En la figura 15, se puede ver que la porción transitoria 106a tiene considerablemente más ancho de banda que la porción 106b, por ejemplo, una voz de canto.
[0142] La figura 16 muestra un diagrama de bloques esquemático de un aparato 160 según una realización del tercer aspecto. En lo sucesivo, se hará referencia a la señal de audio y las señales derivadas de la misma. La señal de audio puede estar presente y/o se puede procesar en el dominio del tiempo y/o en el dominio de la frecuencia, donde ambas variantes se pueden transformar con respecto la una a la otra por una conversión de frecuencia a tiempo o una conversión de tiempo a frecuencia. Por lo tanto, cuando se hace referencia a la señal de audio, esta puede referirse a la representación en el dominio del tiempo y a la representación en el dominio de la frecuencia también es aceptable que se explique explícitamente de otra forma.
[0143] El aparato 160 comprende el separador 92 que se configura para recibir la representación en el dominio de la frecuencia 91' de la señal de audio 91. Para este propósito el aparato 160 puede comprender la calculadora de espectro 44 para obtener la representación en el dominio de la frecuencia 91' de la representación en el dominio del tiempo.
[0144] El separador 92 puede comprender un supresor de transitorios 108 configurado para recibir la señal de audio, por ejemplo, la representación en el dominio de la frecuencia de la misma, y para reducir porciones transitorias en la señal de audio 91 para obtener una primera señal de audio modificada. El separador 92 se puede configurar para obtener la primera porción 98a con base en la primera señal de audio modificada. Según una realización, la primera porción 98a corresponde a la primera señal de audio modificada. Según otra realización, se lleva a cabo un procesamiento de la primera porción modificada, por ejemplo, una filtración, amplificación, atenuación y similares.
[0145] El separador 92 puede comprender un sustractor 112 para restar la primera señal de audio modificada, la primera porción 91'a por ejemplo, de la señal de audio 91 para obtener una segunda señal modificada. Según una realización, la segunda señal modificada es la segunda porción 91'b. Como se describe para la primera porción 91'a, la segunda porción 91'b también se puede obtener con base en un procesamiento del resultado de resta obtenido. Por lo tanto, al retirar la primera porción 91'a de la señal de audio 91, se puede obtener la segunda porción 91'b. Al obtener la primera señal modificada y al restarla de la señal de audio para obtener la segunda señal modificada, se puede llevar a cabo descomposición de la señal de audio en dos porciones.
[0146] El separador 92 se puede configurar para operar en el dominio de la frecuencia y en el dominio del tiempo y para procesar la señal de audio 91 de tal forma que el supresor de transitorios 108 reduce o elimina porciones transitorias y/o tonales para cada subbanda de un espectro de la señal de audio 91. Esto puede conducir a menos o incluso ningún procesamiento para subbandas que comprenden pocas o ninguna porción transitoria o pocas o ninguna porción tonal (es decir, ruidosas). El supresor de transitorios 108 puede comprender una etapa de procesamiento de transitorios, una etapa de procesamiento tonal y/o una etapa de combinación para procesar una de las características que se van a separar al suprimirlas o al amplificarlas. La representación en el dominio de la frecuencia de la señal de audio 91 puede comprender una multitud de subbandas (bandas de frecuencia), en las que la etapa de procesamiento de transitorios y/o la etapa de procesamiento tonal se configuran para procesar cada una de las bandas de frecuencia. Alternativamente, el espectro obtenido por la conversión de frecuencia de la señal de audio 91 se puede reducir, es decir, cortar, para excluir ciertos intervalos de frecuencia o bandas de frecuencia de procesamiento adicional, tal como bandas de frecuencia que contienen la característica seleccionada o que carecen de la característica seleccionada. Esto puede permitir un esfuerzo computacional reducido y por lo tanto procesamiento más rápido y/o más preciso.
[0147] La etapa de procesamiento de transitorios se puede configurar para determinar para cada una de las bandas de frecuencia procesadas, si la banda de frecuencia comprende porciones transitorias. La etapa de procesamiento tonal se puede configurar para determinar para cada una de las bandas de frecuencia, si la señal de audio 91 comprende porciones tonales en la banda de frecuencia. La etapa de procesamiento de transitorios se puede configurar para determinar al menos para las bandas de frecuencia que comprenden porciones transitorias, factores de ponderación espectrales, en las que los factores de ponderación espectrales se asocian con la banda de frecuencia respectiva y pueden permitir atenuar/excluir o amplificar las porciones respectivas. Las características transitorias y tonales se pueden identificar por procesamiento espectral. Un nivel de transición y/o tonalidad se puede medir o la etapa de procesamiento de transitorios y/o la etapa de procesamiento tonal del separador 92 y se puede convertir a un factor de ponderación espectral. El separador 92 se puede configurar para determinar factores de ponderación espectrales al menos para banda de frecuencia que comprenden las porciones tonales. Los factores de ponderación espectrales pueden comprender una multitud de valores posibles, la magnitud de los factores de ponderación espectrales que indica una cantidad de porciones transitorias y/o tonales en la banda de frecuencia.
[0148] Los factores de ponderación espectrales pueden comprender un valor absoluto o relativo. Por ejemplo, el valor absoluto puede comprender un valor de energía de sonido transitorio y/o tonal en la banda de frecuencia. Alternativamente, los factores de ponderación espectrales pueden comprender el valor relativo tal como un valor entre 0 y 1, el valor 0 que indica que la banda de frecuencia no comprende ninguna o casi ninguna porción transitoria o tonal y el valor 1 que indica que la banda de frecuencia comprende una alta cantidad o porciones completamente transitorias y/o tonales. Los factores de ponderación espectrales pueden comprender uno de una multitud de valores tal como un número de 3, 5, 10 o más valores (etapas), por ejemplo, (0, 0,3 y 1), (0,1, 0,2, ..., 1) o similares. Un tamaño de la escala, un número de etapas entre un valor mínimo y un valor máximo puede ser al menos 0 pero de manera preferente al menos 1 y de manera más preferente al menos 5. De manera preferente la multitud de valores de los factores de ponderación espectrales comprenden al menos tres valores que comprenden un valor mínimo, un valor máximo y un valor que está entre el valor mínimo y el valor máximo. Un mayor número de valores entre el valor mínimo y el valor máximo pueden permitir una ponderación más continua de cada una de las bandas de frecuencia. El valor mínimo y el valor máximo se pueden modificar en escala a una escala entre 0 y 1 u otros valores. El valor máximo puede indicar un nivel más alto o más bajo de transición y/o tonalidad.
[0149] Una etapa de combinación del separador 92 puede configurarse para combinar dos factores de ponderación espectrales para cada una de las bandas de frecuencia con la señal de audio. El separador 92 se puede configurar para aplicar los factores de ponderación espectrales a cada una de las bandas de frecuencia. Por ejemplo los factores de ponderación espectrales se pueden multiplicar con valores espectrales de la señal de audio 91 en la banda de frecuencia procesada.
[0150] Al suprimir o excluir algunas porciones/características de la señal de audio 91, se puede obtener una primera señal modificada que carece de la característica respectiva pero que comprende la otra característica. Al restar la señal de la señal de audio una señal inversa que comprende la característica suprimida y que carece de la característica de la primera señal modificada se puede obtener por medio de la segunda señal modificada.
[0151] En lo sucesivo, se hará referencia a una configuración de ejemplo de los extensores de ancho de banda 941 y 942. Cada uno de los extensores de ancho de banda 941 y 942 pueden comprender un duplicador 114 para duplicar al menos una parte de la porción respectiva, pueden comprender un conformador de envolvente 116 que conforme al menos las porciones extendidas generadas por el duplicador, pueden comprender un insertador de ruido blanco 118 para ecualizar al menos las porciones extendidas y/o pueden comprender un filtro de antirugosidad 122 para desplazar en fase al menos una porción de la porción extendida. Cada uno de estos elementos se puede disponer conjuntamente con otros elementos mencionados. Alternativamente, algunos o todos aquellos elementos pueden estar ausentes y/o se pueden sustituir por otros elementos. Por ejemplo, en lugar de una copia llevada a cabo por el duplicador, una generación artificial de un ancho de banda se puede implementar por el extensor de ancho de banda, de tal forma que un generador de ancho de banda puede sustituir el duplicador 114. Alternativamente, una conformación o inserción de ruido blanco del espectro se puede descartar y/o se puede utilizar otro procesamiento. Además, el filtro de antirugosidad 122 es opcional. Aunque se ilustra como que filtra una señal respectiva en el dominio del tiempo al suministrarse con la salida de un bloque de transformada corta de Fourier hacia dentro 124, el filtro de antirugosidad se puede configurar para operar en el dominio de la frecuencia y por lo tanto se puede disponer antes de un bloque de transformada corta de Fourier inversa, respectivo 124. Por lo tanto, además de los bloques dispuestos, también se puede variar un orden de los mismos.
[0152] Cada uno de los extensores de ancho de banda 941 y 942 puede comprender un primer y segundo duplicador respectivo 1141 y 1142. Los duplicadores 1141 y 1142 se configuran para duplicar al menos una parte de la primera o segunda porción respectivas 91'a y 91'b y para combinar al menos una versión de la parte duplicada de la primera porción, la segunda porción respectivamente con la primera porción, la segunda porción 91'a y 91'b, respectivamente, para obtener una porción extendida, respectiva 126a, 126b, respectivamente.
[0153] Cuando se hace referencia ahora a la figura 17a, se muestra un espectro de ejemplo de la primera porción 91'a, en la que la explicación dada se refiere a la segunda porción 91'b sin ninguna limitación. La porción 91'a puede tener una energía o amplitud relevante |X | por debajo de la frecuencia de corte fc y puede comprender una baja cantidad de energía o incluso ninguna energía por encima de la frecuencia de corte fc . El espectro puede disminuir con un incremento en la frecuencia. En otras palabras, la figura 17a muestra el espectro de magnitud |X | de una señal limitada en banda. La frecuencia de corte se denota como fc .
[0154] La figura 17b muestra un diagrama esquemático de la primera porción 91'a que se extiende por un número de dos partes duplicadas 1281 y 1282. Cada una de las partes duplicadas 1281 y 1282 pueden ser una copia de una banda de frecuencia w de la primera porción 91'a que se copia a un intervalo de frecuencia no ocupado con la porción 91'a, es decir, a los intervalos de frecuencia por encima de la frecuencia de corte fc, donde de manera preferente las porciones duplicadas 1281 y 1282 se combinan para ordenarse directamente en la señal original, es decir, la primera porción 91'a. La figura 17b ilustra por lo tanto cómo se lleva a cabo la copia. Coeficientes espectrales complejos se desplazan de un denominado parche de fuente w en el intervalo de frecuencia [fc-w, fc] a parches destino en los intervalos [fc , fc+w, fc+2w], etc., es decir, a [fc(n-1)w, fc+nw] para cada n, donde n es una variable que varía de 1 al número de parches o número de copias que se insertan. El número n que es 2 por ejemplo no limitante en la figura 17b y un ancho Dfw de la porción de duplicación se puede ajustar por el aparato 160 independientemente para cada uno de los extensores de ancho de banda 941 y 942. Es decir, la frecuencia con la cual el parche de fuente w se desplaza puede depender del ancho de banda deseado y/o un número de parches, donde ambos pueden ser un parámetro sintonizable. Como en la magnitud decreciente del espectro, pueden presentarse etapas o discontinuidades en ubicaciones donde se une el parche.
[0155] La parte copiada de la primera y segunda porción puede variar de una primera frecuencia intermedia, por ejemplo, fcopia1 de la primera porción 91'a a una frecuencia máxima fc de la primera porción. En consecuencia, la parte copiada de la segunda porción puede comprender un segundo intervalo de frecuencia que varía de una misma o diferente frecuencia intermedia de la segunda porción 91'b a una frecuencia máxima de la segunda porción que también puede ser la frecuencia de corte fc. Con base en diferentes frecuencias intermedias, el ancho Dfw puede ser diferente. Para obtener un mismo ancho de banda resultante, por lo tanto, también puede variar un número de parches entre los diferentes extensores de ancho de banda.
[0156] Para evitar distorsiones no deseadas, el primer extensor de ancho de banda puede comprender un primer conformador de envolvente 1161 y el segundo extensor de ancho de banda 942 puede comprender un segundo conformador de envolvente 1162. Los conformadores de envolvente 1161 y 1162 se pueden configurar para conformar al menos la porción extendida, es decir, porciones de frecuencia por encima de la frecuencia de corte fc. La conformación de la envolvente, es decir, la realización de una conformación de envolvente espectral, se puede utilizar ya que frecuentemente, no son planos los espectros de magnitud, tienden a caer en magnitud hacia frecuencias más altas como se ilustra en la figura 17a. La figura 17b visualiza el espectro de magnitud cuando se lleva a cabo la copia sin adaptaciones adicionales. Las transiciones abruptas en el espectro de magnitud pueden aparecer a frecuencias fc , fc+w, ..., fc+kw. Esto puede conducir a una percepción de sonido penetrantemente brillante que se debe impedir por los conformadores de envolvente 116i y I I62.
[0157] Para evitar estos efectos, la inclinación espectral T como se muestra en la figura 17b se puede estimar al calcular la pendiente |X | que se ha ajustado por medio de regresión lineal al espectro logarítmico del parche de fuente que comprende el intervalo de frecuencia [fc-w, fc]. Cada parche w se puede atenuar por un valor kT, es decir, cuanto más alto sea el parche que se copia al intervalo de frecuencia, mayor puede ser la atenuación. k puede ser un número natural y puede ser el denominado orden de parche, que comienza en uno se incrementa para cada parche adicional que se desplaza y por lo tanto puede corresponder a n mencionado anteriormente.
[0158] En otras palabras, la figura 17b muestra una copia de coeficientes espectrales sin conformación de envolvente. La fuente de copia es del intervalo [fc-w, fc], donde w es el ancho de parche. Durante la conformación analógica. La magnitud de los parches objetivos copiados en el intervalo [fc, fc+2w] se atenúa por un múltiplo de T, que representa la inclinación espectral.
[0159] La figura 17c muestra un espectro de magnitud de ejemplo 132a que se puede obtener del conformador de envolvente 1161 que se configura para conformar al menos las porciones extendidas 1261. Con base en la interpolación, las magnitudes de las porciones copiadas 1281 y 1282 se pueden conformar o atenuar para obtener un espectro homogéneo. La figura 17c muestra el espectro de magnitud de la conformación de envolvente con orden de parche 2, donde el orden de parche puede comprender cualquier valor de 1 o superior. Cada uno de los extensores de ancho de banda 491 y 492 puede comprender un insertador de ruido blanco para ecualizar al menos la primera porción extendida, la segunda porción extendida, respectivamente. La inserción de ruido blanco espectral se puede realizar al elevar valores espectrales y descendiendo picos espectrales.
[0160] Para un mejor entendimiento, la figura 18 muestra un diagrama de bloques esquemático de un insertador de ruido blanco espectral que se configura para insertador de ruido blanco espectral que se configura para insertar ruido blanco en la señal de audio 91 de forma independiente. El insertador de ruido blanco puede comprender la calculadora de espectro 44 para obtener un espectro de la señal de audio. El insertador de ruido blanco 134 se puede configurar para comparar la magnitud X[k,m] de cada coeficiente espectral y lapso de tiempo a una versión suavizada Y[k,m], donde k es el índice de coeficiente espectral y m es el índice de marco. Y[k,m] se puede derivar al suavizar magnitudes espectrales logarítmicas con respecto a la frecuencia. Posteriormente, estos valores logarítmicos se pueden transformar al dominio lineal utilizando una regla de determinación según
Figure imgf000027_0001
[0161] Los factores de ponderación espectrales de valores reales G[k, m] se pueden calcular como se describe por la regla de determinación:
i X > Y
Figure imgf000027_0002
i X < Y
[0162] De nuevo, el índice k y m se omiten para una mejor lectura. a 1, a2, p1, p2, Y1, Y2 son parámetros sintonizables que se pueden adaptar para cada uno de los insertadores de ruido blanco 1181 y 1182 independientemente. El insertador de ruido blanco puede comprender una calculadora 126 para calcular valores absolutos del espectro. Aquellos valores e pueden denominar como X, donde los valores son aquellos proporcionados a una calculadora 138 para calcular cualquier factor de ponderación espectral G y aquellos proporcionados a una ruta de suavización 142 para obtener la versión suavizada Y. Un convertidor de frecuencia 144 se puede configurar para transformar el resultado a un dominio en el tiempo. Cuando se hace referencia ahora a la figura 16, se puede ver que el insertador de ruido blanco 1181 y 1182 puede ya operar en el dominio de la frecuencia de tal forma que el insertador de ruido blanco respectivo se puede implementar sin la calculadora de espectro 44 y/o el convertidor de frecuencia 144 o similares.
[0163] Cada uno de los extensores de ancho de banda 941 y 942 puede comprender un filtro de antirugosidad respectivo 1221, 1222, respectivamente, para desplazar en fase al menos una porción de la primera porción extendida, de la segunda porción extendida, respectivamente. Esto se puede ejecutar ya sea como desplazamiento en fase de las porciones copiadas 1281 y 1282 y/o las versiones conformadas 128'1 y 128'2 de las mismas y/o las versiones con ruido blanco 146a y 146b, respectivamente. Es decir, el filtro de antirugosidad se configura para desplazar en fase la porción extendida respectiva o señal a la derecha de la misma para obtener una señal desplazada en fase. El filtro de antirugosidad 1221 y 1222 se puede configurar para aplicar diferentes desplazamientos en fase a la señal respectiva que se va a filtrar. Al utilizar el desplazamiento en fase, se puede obtener un desplazamiento en fase de la porción copiada o la porción extendida con respecto a la señal original. Alternativamente, el filtro de antirugosidad puede llevar a cabo un desplazamiento en fase a la señal completa proporcionada. Esto se puede implementar, por ejemplo, cuando la porción de núcleo respectiva se sustituye después de eso por una porción no desplazada en fase como se describirá en lo sucesivo. El filtro de antirugosidad 1221 y 1222 se puede implementar para filtrar una señal respectiva en el dominio del tiempo. Por lo tanto, un bloque ISTFT 1241 y 1242 se pueden disponer para proporcionar una señal respectiva en el dominio del tiempo. Alternativamente, el filtro de antirugosidad 1221 y 1222 se puede implementar para filtrar en el dominio de la frecuencia. En este caso, los bloques ISTFT 1241 y 1242 pueden estar ausentes o se pueden disponer después de los filtros de antirugosidad 1221 y 1222 respectivamente. La filtración de antirugosidad se puede llevar a cabo para disminuir la rugosidad percibida que se provoca principalmente por la copia. Un filtro que no afecta al timbre de la señal, pero cambia principalmente la fase de la señal puede ser adecuado aquí. Por ejemplo, dos filtros paso-todo anidados se pueden disponer en paralelo y se pueden calcular en el dominio del tiempo. Los filtros paso-todo anidados se pueden entender como H1(z) y H2(z) que denotan funciones de transferencia pasa todo de ganancia unitaria de un filtro respectivo, entonces ambos H1(H2(z)) y H2(H1(z)) son filtros paso-todo.
[0164] Opcionalmente, cada uno de los extensores de ancho de banda 941 y 942 pueden comprender un amplificador/atenuador 1481, 1482, respectivamente, para aplicar una ganancia gt, gs respectivamente para amplificar las porciones sostenidas o transitorias, un resultado puede ser las porciones extendidas 98a y 98b proporcionadas al combinador 102. Como se explica anteriormente, las porciones extendidas 98a y 98b se pueden obtener de forma diferente y/o al llevar solo a cabo algunas de las modificaciones de señal explicadas.
[0165] Junto con el filtro de rugosidad, el aparato 160 puede comprender un filtro de paso alto 152 para filtrar la primera porción extendida y la segunda porción extendida 98a y 98b, la señal combinada 102, respectivamente, y de forma análoga para obtener una señal filtrada 154. En paralelo a los extensores de ancho de banda 941 y 942, la señal de audio 91 se puede someter a un retardo 156 para compensar los retardos de tiempo producidos por la conversión de tiempo a frecuencia en el bloque 44 y la conversión de frecuencia a tiempo en los bloques 1241 y 1242. El aparato 160 puede comprender un filtro de paso bajo 158 configurado para filtrar la señal de audio retardada. El aparato 160 puede comprender además un combinador 162 configurado para combinar la señal de audio filtrada de paso bajo y la señal 154. Según una realización, el aparato 160 se configura para hacer coincidir la frecuencia superior (frecuencia de corte Xc) del filtro de paso bajo 158 con una frecuencia de flanco descendente inferior del filtro de paso alto 152 para obtener una señal homogénea combinada. En particular, el aparato 160 se puede configurar para adaptar la frecuencia inferior respectiva del filtro de paso alto 152 conjuntamente con la frecuencia de flanco superior (frecuencia de corte) del filtro de paso bajo 158 en respuesta a y según la frecuencia de corte determinada de la señal de audio 91. Por lo tanto, con base en el filtro de paso alto 152, las porciones de señal por debajo de la frecuencia de corte fc se pueden descartar o atenuar fuertemente de tal forma que permanezcan solo las porciones extendidas y desplazadas en fase. En contraste con lo mismo, el filtro de paso bajo 158 se puede utilizar para descartar, desechar o atenuar fuertemente partes de la señal de audio 91, porciones de la misma respectivamente que se extienden más allá de la frecuencia de corte fc. Esto permite obtener las versiones extendidas y copiadas que se desplazan en fase con respecto a la señal de audio original 91 que solo se retarda para compensar otros retardos dentro de los extensores de ancho de banda, excepto para los filtros de antirugosidad 1221 y 1222. Una señal de audio obtenida 164 puede ser una señal de audio extendida y optimizada.
[0166] Debido a que la filtración de antirugosidad solo se puede aplicar a las áreas extendidas de ancho de banda del espectro, la señal resultante se puede filtrar por paso alto y añadir a la señal de entrada retardada y filtrada por paso bajo. El retardo se utiliza o es necesario para compensar el retardo introducido por la STFT. Las frecuencias de corte de los filtros de paso alto y paso bajo anteriormente mencionados pueden corresponder a la frecuencia de corte fc como se muestra, por ejemplo, en la figura 17a.
[0167] Con respecto a la figura 19 junto con la figura 16, se muestra una funcionalidad de bloques opcionales 166 que son un analizador de señal y 168 que es una tabla de búsqueda del aparato 160. El aparato 160 puede ser una extensión de ancho de banda a ciegas. Puede ser un objetivo restablecer el ancho de banda perdido como se describe y sin tener conocimiento adicional, por ejemplo, con base en información secundaria. El analizador de señal 166 se puede configurar para detectar, si la señal se ha limitado en banda de forma artificial o no y/o puede estimar una frecuencia de corte fc de la señal de audio 91. Ambas etapas se pueden llevar a cabo como se describen junto con el análisis de limitación de ancho de banda artificial. Ambos valores se pueden actualizar para cada marco. Por lo tanto, la señal de audio 91 puede comprender una pluralidad de marcos. El aparato 160 puede comprender el analizador de señal 166 configurado para analizar cada marco, el espectro de la señal de audio 91 para una característica con respecto a una limitación de ancho de banda artificial de la señal de audio 91 y para determinar una frecuencia de corte fc en la señal de audio 91.
[0168] Con base en diferentes frecuencias de corte que se denominan esquemáticamente como fü, fi, f2, f3, f4, respectivamente, en la figura 19, diferentes parámetros que se utilizan para adaptar una funcionalidad del duplicador 114, el conformador 116, el insertador de ruido blanco 118 y/o el filtro de antirugosidad 122 pueden variar. Por ejemplo, un parámetro p se puede utilizar para adaptar el bloque respectivo. Como se ilustra en la figura 19, diferentes frecuencias de corte se pueden asociar con diferentes parámetros o diferentes valores del mismo parámetro. Aquellos valores se pueden almacenar en una tabla de búsqueda 168 para proporcionar el parámetro respectivo al bloque respectivo. En la figura 16, conexiones punteadas indican que se controla un módulo, por ejemplo, en tiempo real. Un parámetro de ejemplo puede ser, pero aquí se muestra un ejemplo: un parámetro puede ser el ancho de banda del parche de fuente w. Este parámetro puede afectar al ancho de banda que se crea de forma artificial. Otro parámetro de ejemplo puede ser una constante de tiempo de un filtro de suavización que puede ser diferente para diferentes códecs. Una pluralidad de otros ejemplos se puede utilizar para controlar los bloques 114, 116, 118 y/o 122 en el dominio de la frecuencia y/o dominio del tiempo.
[0169] La tabla de búsqueda puede contener ajustes para algunos o todos los parámetros de control dependiendo de los resultados de análisis de señal. En el caso de la estimación de la frecuencia de corte fc, para cada frecuencia seleccionada f i se puede ejecutar un ajuste perceptual del parámetro correspondiente que puede conducir a un valor de control pi. Se señala que un valor seleccionado pi puede diferir de los diferentes extensores de ancho de banda, es decir, el aparato 160 se puede configurar para adaptar el bloque respectivo de forma diferente. Los puntos de muestreo de la tabla de búsqueda si para un extensor de ancho de banda 941 y 942 pueden estar dados, por ejemplo, como tuplas según
s, = ( f rP . )
[0170] En la figura 19, se muestra un ejemplo para un ajuste de un parámetro de control p para cinco frecuencias de corte fü a f4. Según algunos ejemplos, un parámetro puede interpolarse cuando son apropiados valores intermedios. En este caso, entre dos puntos de muestreo en el intervalo [fi, fi+1], se puede ejecutar interpolación lineal según:
Figure imgf000029_0001
[0171] Un ejemplo para estos valores de interpolación puede ser, por ejemplo, un ancho w de un parche respectivo como se explica junto con las figuras 17a-17c. Parámetros que pueden permanecer no sometidos a interpolación pueden ser, por ejemplo, varios parches que se limitan, por ejemplo, a valores enteros.
[0172] El aparato se puede configurar para utilizar el primer y segundo parámetro para un marco que tiene la característica con respecto a una limitación de ancho de banda artificial. Para otros marcos, el aparato se puede configurar para utilizar terceros parámetros para el primer extensor de ancho de banda y cuartos parámetros para el segundo extensor de ancho de banda, por ejemplo, para cuadros que tienen una característica diferente de la característica con respecto a una limitación de ancho de banda artificial. Alternativamente, el aparato se puede configurar para desactivar el primer y segundo extensor de ancho de banda para los marcos que tienen una característica que es diferente de la característica con respecto a una limitación de ancho de banda artificial. Por lo tanto, el aparato se puede configurar para llevar a cabo extensión de ancho de banda para marcos que se consideran que comprenden la característica respectiva y pueden tratar marcos que se consideran que no comprenden la característica de forma deferente al utilizar los terceros y cuartos parámetros o al dejar el marco respectivo sin tratar.
[0173] El aparato por lo tanto puede comprender una tabla de búsqueda 168 que comprende una pluralidad de parámetros asociados con una pluralidad correspondiente de parámetros de modificación de señal tal como la frecuencia de corte fc y una pluralidad de otros parámetros asociados con una pluralidad correspondiente de parámetros de modificación de señal fc utilizados para el primer y segundo extensor de ancho de banda 941 y 942 respectivamente. El aparato puede comprender un analizador de señal 166 para analizar el espectro para una modificación aplicada a la señal de audio 91. El aparato 160 se puede configurar para derivar un parámetro de modificación asociado con la modificación, por ejemplo, la frecuencia de corte fc y/o un parámetro con respecto a la inclinación de la pendiente. El aparato se puede configurar para derivar el primer y/o segundo parámetro respectivo utilizando la tabla de búsqueda y utilizando el parámetro de modificación. Según un ejemplo, el aparato puede derivar la frecuencia de corte de parámetro de modificación y puede determinar el parámetro p una vez para el primer extensor de ancho de banda y una vez para el segundo extensor de ancho de banda.
[0174] En conceptos conocidos, la extensión de ancho de banda artificial es una técnica de codificación de audio bien conocida. También, es bien conocida la extensión de ancho de banda no guiada. Sin embargo, la descomposición semántica antes del cálculo de extensión de ancho de banda es desconocida. La descorrelación semántica se puede utilizar para el propósito de mezcla ascendente espacial, que no contiene una copia o funcionalidad de transposición como se encuentra inevitablemente en aplicaciones de extensión de ancho de banda. Por lo tanto, las realizaciones según el tercer aspecto difieren. Otra técnica se conoce de una extensión de ancho de banda descorrelacionada. Aquí, todas las regiones espectrales objetivo de alta banda se descorrelacionan a través de descorrelacionadores dedicados o a través de inserción de instancias descorrelacionadas de ruido aleatorio que son mutuamente independientes. Las presentes realizaciones según el tercer aspecto enseñan descorrelación mutua de partes de señal semánticamente descompuestas mientras que los conceptos conocidos solo comprenden la descorrelación de diferentes regiones objetivo espectrales.
[0175] La figura 20 muestra un diagrama de flujo esquemático de un procedimiento 3000 según una realización del tercer aspecto. El procedimiento 3000 comprende una etapa 3100 que comprende separar una primera porción de un espectro de la señal de audio de una segunda porción del espectro de la señal de audio, la primera porción que tiene una primera característica de señal y la segunda porción que tiene una segunda característica de señal. Una etapa 3200 comprende extender un ancho de banda de la primera porción utilizando primeros parámetros asociados con la primera característica de señal para obtener una primera porción extendida. Una etapa 3300 comprende extender un ancho de banda de la segunda porción utilizando los segundos parámetros asociados con la segunda característica de señal, para obtener una segunda porción extendida. Una etapa 3400 comprende utilizar la primera porción extendida y la segunda porción extendida para obtener una señal de audio combinada, extendida.
[0176] Según el cuarto aspecto, la supresión de antirugosidad se puede llevar a cabo como postprocesamiento, por ejemplo, después de haber llevado extensión de ancho de banda con un concepto diferente. Por lo tanto, la supresión de antirugosidad o filtración de antirugosidad se pueden utilizar para reducir distorsiones, por ejemplo, junto con el mejorador de señal 48 cuando se ha determinado que la limitación de ancho de banda artificial se ha llevado a cabo y que también se ha llevado a cabo la extensión respectiva.
[0177] La figura 21 muestra un diagrama esquemático de un aparato 210 según una realización del cuarto aspecto. El aparato 210 se puede utilizar, por ejemplo, para procesar la señal de audio 12 que se somete a una extensión de ancho de banda artificial. El aparato 210 puede comprender el filtro de antirugosidad 122 para desplazar en fase al menos una porción de la señal de audio 12, para obtener una señal desplazada en fase 172. El filtro de antirugosidad 122 puede operar, por ejemplo, en el dominio del tiempo o alternativamente en el dominio de la frecuencia. Según una realización, el filtro de antirugosidad 122 se puede configurar para desplazar en fase la señal de audio completa 12. El aparato 210 comprende un filtro de paso alto, por ejemplo, el filtro de paso alto 152 para filtrar la señal desplazada en fase 173, para obtener una primera señal filtrada 174. El aparato 210 comprende un filtro de paso bajo tal como el filtro de paso bajo 158 para filtrar la señal de audio 12 para obtener una segunda señal filtrada 176. El aparato 210 comprende además un combinador 162 para combinar las señales 154 y 156 para obtener una señal de audio mejorada 178, en la cual se reduce la rugosidad percibida. Como se describió junto con el aparato 160, el ancho de banda extendido se desplaza en fase con respecto a la señal de audio 12. Un aspecto es filtrar la señal de audio 12, utilizando el filtro de paso bajo 158 para descartar cualquier porción de señal que está por encima de la frecuencia de filtro seleccionada, la frecuencia de corte fc respectivamente. Esto permite reducir o limitar efectos o superposición de diferentes porciones de señal en la señal combinada 178.
[0178] La figura 22 muestra un diagrama de bloques esquemático de un aparato 220 según una realización del cuarto aspecto. Como se describe junto con la figura 16, el aparato 220 comprende el separador 92 para proporcionar la primera y segunda porción 12'a y 12'b de la señal de audio 12 en el dominio de la frecuencia. El aparato 220 pude comprender diferentes rutas, comprendiendo cada ruta, como ejemplo no limitante, un insertador de ruido blanco 1181, 1182 respectivamente de forma conjunta con un filtro de antirugosidad 1221, 1222, respectivamente, que operan como ejemplo no limitante, en el dominio del tiempo. Alternativamente o además, cada ruta puede comprender un amplificador/atenuador 148. Por lo tanto, el aparato 220 se puede configurar para mejorar la señal de audio 12 al mejorar las diferentes porciones 12'a y 12'b independientemente la una de la otra. Para este propósito, el aparato 220 puede comprender el analizador de señal 166 y la tabla de búsqueda 168 como se describe junto con la figura 16.
[0179] En particular, el aparato 220 puede comprender el analizador de señal 166 configurado para determinar una frecuencia de inicio de extensión de ancho de banda en la señal de audio 12, la frecuencia de inicio de extensión de ancho de banda dispuesta entre un ancho de banda de extensión, por ejemplo, los parches agregados w según las Figs. 70a-c o versiones procesadas de los mismos, de la señal de audio 12 y un ancho de banda central, es decir, el ancho de banda original tal como el ancho de banda de la señal de audio 91.
[0180] En relación con esto, el aparato puede configurarse para adaptar una frecuencia inferior del filtro de paso alto 152 y/o una frecuencia superior del filtro de paso bajo 158 según una frecuencia de inicio de extensión de ancho de banda en la señal de audio 12. La frecuencia de inicio de la extensión del ancho de banda puede ser recibida por un canal adicional o puede ser determinada por el analizador de señal 166.
[0181] Según una realización que se puede combinar con la realización independiente de aparato 210 y con cada una de las otras realizaciones del cuarto aspecto, el aparato se puede configurar para adaptar el filtro de rugosidad y/o un mejorador de señal, por ejemplo, que comprende el insertador de ruido blanco 118, un conformador de envolvente o similares para mejorar la señal de audio 12, utilizando una frecuencia de inicio de extensión de ancho de banda en la señal de audio, por ejemplo, con base en la frecuencia de inicio de extensión de ancho de banda en la señal de audio 12, la tabla de búsqueda puede proporcionar cuatro parámetros diferentes para cada uno de los bloques que se van a ajustar, tal como el insertador de ruido blanco 118 y/o el filtro de antirugosidad 122 y/o bloques adicionales.
[0182] Según una realización que se puede combinar con cada una de las otras realizaciones según el cuarto aspecto, el filtro de antirugosidad 122 se puede disponer en una primera ruta y en el que el filtro de paso bajo 158 se puede disponer en una segunda ruta. La segunda ruta puede comprender el insertador de ruido blanco 118 para ecualizar una señal con base en una señal proporcionada o recibida del filtro de antirugosidad, es decir, se puede cambiar un orden o secuencia del insertador de ruido blanco y el filtro de antirugosidad.
[0183] Según una realización adicional del cuarto aspecto, que se puede combinar con cada una de las otras realizaciones, el filtro de antirugosidad 122 se puede disponer en una primera ruta y el filtro de paso bajo 158 se puede disponer en una segunda ruta. El aparato 220 puede comprender un mejorador de señal configurado para mejorar la señal de audio en la primera ruta y al menos parcialmente en el dominio de la frecuencia, por ejemplo, utilizando el insertador de ruido blanco 118 y/o el conformador 116. La segunda ruta puede comprender un bloque de retardo tal como el retardo 156 para retardar la señal de audio 12 por un retardo que corresponde a un retardo en la primera ruta producido por una conversión de tiempo a frecuencia y una conversión de frecuencia a tiempo dentro de un intervalo de tolerancia de como máximo ± 10 %, ± 5 % o ± 2 % y probablemente que excluye el retardo de filtro de antirugosidad.
[0184] Según una realización adicional, que se puede combinar con cada una de las otras realizaciones según el cuarto aspecto, el filtro de antirugosidad 122 es un primer filtro de antirugosidad. El aparato comprende un separador para recibir un espectro de la señal de audio 12 y para separar una primera porción 12'a del espectro 12' de la señal de audio 12 de una segunda porción 12'b del espectro de la señal de audio 12. La primera porción 12'a tiene una primera característica de señal y la segunda porción 12'b tiene una segunda característica de señal. El aparato 220 se puede configurar para proporcionar la primera porción 12'a a una primera ruta que tiene el primer filtro de autorugosidad 1221 y para proporcionar la segunda porción 12'b a una tercera ruta que tiene el segundo filtro de antirugosidad 1222.
[0185] Según una realización adicional que se puede combinar con la realización previamente mencionada, el aparato se puede configurar para aplicar una primera ganancia gt a la primera ruta y una segunda ganancia gs a la tercera ruta.
[0186] Según una realización adicional del cuarto aspecto que se puede combinar con la realización anterior o penúltima, el aparato se puede configurar para ajustar el primer filtro de antirugosidad 1221 y el segundo filtro de antirugosidad 1222 de forma diferente entre sí utilizando una frecuencia de inicio de extensión de ancho de banda de la señal de audio 12.
[0187] Según una realización adicional del cuarto aspecto que se puede combinar con las últimas tres realizaciones del cuarto aspecto, el separador comprende un supresor de transitorios, tal como el supresor de transitorios 108 configurado para recibir la señal audio 12 y para reducir porciones transitorias en la señal de audio 12 para obtener una primera señal de audio modificada. El separador 92 se configura para obtener la primera porción 12'a con base en la primera señal de audio modificada, por ejemplo, al utilizar la primera señal de audio modificada como la primera porción 12'a. El separador 92 comprende además el sustractor 112 para restar la primera señal de audio modificada de la señal de audio 12 para obtener una segunda señal modificada. El separador 92 se configura para obtener la segunda porción con base en la segunda señal de audio modificada, por ejemplo, al tomar la segunda señal de audio modificada como la segunda porción 12'b.
[0188] Según una realización adicional del cuarto aspecto, que se puede combinar con las últimas cuatro realizaciones, la primera característica de señal es una de a) un intervalo de frecuencia medio del espectro; b) una característica de señal directa de la señal de audio; c) una característica tonal de la señal de audio; y d) una característica de voz de la señal de audio. La segunda característica de señal está de acuerdo con las letras utilizadas: a) un intervalo de frecuencia lateral del espectro; b) una característica de señal ambiente de la señal de audio; c) una característica de señal sostenida de la señal de audio; y d) una característica no de voz de la señal de audio.
[0189] Según una realización adicional del cuarto aspecto, que se puede combinar con cada una de las otras realizaciones del cuarto aspecto, la señal de audio mejorada 164 comprende la segunda señal filtrada que se desplaza en fase cuando se compara con la primera señal filtrada, es decir, la región de frecuencia superior se desplaza en fase cuando se compara con la región de frecuencia inferior.
[0190] La figura 23 muestra un diagrama de flujo esquemático de un procedimiento 4000 para procesar una señal de audio. El procedimiento 4000 comprende una etapa 4100 que comprende desplazar en fase al menos una porción de la señal de audio para obtener una señal desplazada en fase. Una etapa 4200 comprende filtrar la señal desplazada en fase utilizando un filtro de paso alto para obtener una primera señal filtrada. Una etapa 4300 comprende filtrar la señal de audio utilizando un filtro de paso bajo para obtener una segunda señal filtrada. Una etapa 4400 comprende combinar la primera señal filtrada y la segunda señal filtrada para obtener una señal de audio mejorada. En otras palabras, la supresión de rugosidad de extensión de ancho de banda artificial (ARS) tiene como objetivo reducir distorsiones tal como la distorsión de espiga tonal y la distorsión de golpeteo como se describen antes. Como se ilustra en la figura 22, algunos de los procedimientos o bloques ARS también se utilizan por el concepto BWE que ya se ha descrito antes. Se va a señalar también que esos procedimientos o conceptos comunes se pueden utilizar con diferentes ajustes de parámetros. En las siguientes secciones, se señalarán diferencias entre el aparato 160 y el aparato 220.
[0191] El analizador de señal se utiliza para activar ARS en la figura 22 por una parte detectando si la señal se ha extendido o no en ancho de banda de forma artificial. Por otra parte, una estimación en tiempo real de la frecuencia de inicio (frecuencia de corte) de la extensión de ancho de banda artificial se puede llevar a cabo que se ha aplicado a la presente señal. La descripción de la señal analiza si se puede llevar a cabo un concepto según otros aspectos descritos en esta invención. Los resultados de analizador de señal se retransmiten a la tabla de búsqueda 168 para obtener una salida de la misma que tiene parámetros de control incluidos que afectan a los módulos mostrados en la figura 22. La tabla de búsqueda 168 puede comprender ajustes de parámetros que se han sintonizado perceptualmente para diferentes frecuencias de inicio.
[0192] La tabla de búsqueda para ARS se puede basar en el mismo principio como la tabla de búsqueda BWE descrita junto con la figura 16 con la diferencia de que la variable dependiente puede ser la estimación de la frecuencia de inicio BWE. También los parámetros que se controlar pueden diferir.
[0193] Aunque se han descrito algunos aspectos en el contexto de un aparato, es claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o una característica de una etapa de procedimiento. De forma análoga, aspectos descritos en el contexto de una etapa de procedimiento también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente.
[0194] La señal de audio codificada inventiva se puede almacenar en un medio de almacenamiento digital o se puede transmitir en un medio de transmisión tal como un medio de transmisión inalámbrico o medio de transmisión alámbrico tal como Internet.
[0195] Dependiendo de ciertos requisitos de implementación, realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria flash, que tiene señales de control electrónicamente legibles almacenadas en la misma, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal forma que se lleva a cabo el procedimiento respectivo.
[0196] Las realizaciones descritas anteriormente son simplemente ilustrativas para los principios de la presente invención. Se entiende que serán evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención para otros expertos en la técnica. Por lo tanto se propone que se limiten solo por el alcance de las reivindicación de patente inminentes y no por lo detalles específicos presentados a modo de descripción y explicación de las realizaciones en esta invención.
Referencias
[0197]
[1] M. Arora, J. Lee, y S. Park, “High quality blind bandwidth extension of audio for portable player applications,” en Proc. of the AES 120th Conv., 2006.
[2] Markus Erne, “Perceptual audio coders ”what to listen for?”,” en Audio Engineering Society Convention 111, Nov. 2001.
[3] Chia-Ming Chang, Han-Wen Hsu, Kan-Chun Lee, Wen-Chieh Lee, Chi-Min Liu, Shou-Hung Tang, Chung-Han Yang, y Yung-Cheng Yang, “Compression artifacts in perceptual audio coding,” en Audio Engineering Society Convention 121, Oct. 2006.
[4] Martin Dietz, Lars Liljeryd, Kristofer Kjorling, y Oliver Kunz, “Spectral band replication, a novel approach in audio coding,” en Audio Engineering Society Convention 112, Abril 2002.
[5] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, JeremieLecomte, Florin Ghido, Frederik Nagel y Bernd Edler, “ Intelligent gap filling in perceptual transform coding of audio,” en Audio Engineering Society Convention 141, Sep. 2016.

Claims (19)

REIVINDICACIONES
1. Un aparato para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio (12), comprendiendo el aparato:
un derivador (14) configurado para obtener un espectro (12') de la señal de audio (12) y para derivar información (Z(k)) relacionada con una estructura fina del espectro (12');
un determinador (24) configurado para determinar una similitud de la estructura fina;
un procesador (32) para proporcionar una información (34) que indica que la señal de audio (12) comprende la característica predeterminada dependiendo de una evaluación de la similitud,
en el que la estructura fina del espectro se relaciona con máximos y/o mínimos locales del espectro;
caracterizado porque
el derivador está configurado para derivar una señal máxima local (Z(k)) del espectro (12') para derivar la información relacionada con la estructura fina, en el que el determinador está configurado para determinar la similitud entre segmentos de la señal máxima local (Z(k)).
2. El aparato de la reivindicación 1, que comprende además una calculadora de espectro (44) configurada para recibir la señal de audio (12) y para calcular el espectro (12') de la señal de audio (12).
3. El aparato de una de las reivindicaciones anteriores, en el que el determinador (24) está configurado para determinar la similitud usando un primer segmento y usando un segundo segmento de la información relacionada con la estructura fina, en el que el primer y el segundo segmento están desplazados por un número (t) de muestras del espectro (12').
4. El aparato de una de las reivindicaciones anteriores,
en el que el determinador (24) está configurado, para determinar la similitud, para determinar un valor de similitud (C(T)) entre un primer segmento y un segundo segmento de la información relacionada con la estructura fina, en el que el primer y segundo segmento están desplazados entre sí por un parámetro referente a un número (t) de muestras; en el que el determinador (24) está configurado para determinar el valor de similitud para una pluralidad de valores del parámetro; y
en el que el determinador está configurado para seleccionar al menos un máximo local (26¡, mi) de los valores de similitud o valores (C(T)) derivados de los mismos.
5. El aparato de la reivindicación 4, en el que el determinador (24) comprende un filtro configurado para filtrar los valores de similitud (C(T)) para obtener valores de similitud filtrados (H(C(T)), en el que el determinador está configurado para seleccionar el al menos un máximo local (mi) de los valores de similitud filtrados (H(C(T))
6. El aparato de la reivindicación 4 o 5, en el que el determinador está configurado para determinar los valores de similitud (C(T)) basados en una regla de determinación que se representa como:
C(r)= Y |Z(fc)-Z(fc r)|
en el que C(t) es el valor de similitud para el parámetro t, k es una muestra en el espectro que va de ko a kl y tiene una longitud de 1 1 muestras, en el que Z(k) es la función máxima local de la muestra k.
7. El aparato de una de las reivindicaciones anteriores, en el que el procesador (32) está configurado para evaluar un número de máximos locales (26i, mi) de valores de similitud (C(T)) relacionados con la información relacionada con la estructura fina o valores derivados del mismo (H(C(T)) y para evaluar una amplitud de los máximos locales (26i, mi) y para proporcionar la información (34) que indica que la señal de audio (12) comprende la característica predeterminada cuando el número de (26i, mi) máximos que comprende al menos un valor umbral de amplitud (27) está por debajo de un valor umbral numérico.
8. El aparato de una de las reivindicaciones anteriores, en el que el procesador (32) está configurado para excluir los armónicos de la señal de audio (12) de la evaluación de la similitud.
9. El aparato de una de las reivindicaciones anteriores, en el que el aparato está configurado para realizar un promedio temporal del espectro (12'), de la información relacionada con la estructura fina o una señal derivada de la misma (C(T), H(C(T)) en el que el procesador (32) está configurado para proporcionar la información (34) que indica que la señal de audio (12) comprende la característica predeterminada basada en una información promediada temporalmente.
10. El aparato de una de las reivindicaciones anteriores, que comprende además un estimador de frecuencia (36) configurado para determinar una frecuencia de inicio (ks) y/o una frecuencia final (ke) del procesamiento de mejora espectral.
11. El aparato de la reivindicación 10, en el que el estimador de frecuencia (36) está configurado para usar la información relacionada con la estructura fina para determinar la similitud de un elemento entre un elemento de un primer segmento de la información relacionada con la estructura fina y un elemento correspondiente de un segundo segmento de la información relacionada con la estructura fina, estando desplazado el segundo segmento con respecto al primer segmento por un número (t) de muestras.
12. El aparato de la reivindicación 10 u 11, en el que el estimador de frecuencia está configurado para determinar una descripción de similitud local utilizando la similitud en la estructura fina, indicando la descripción de similitud local la frecuencia de inicio (ks) y/o la frecuencia final (ke) del procesamiento de mejora espectral.
13. El aparato de la reivindicación 12, en el que el estimador de frecuencia está configurado para determinar una matriz de similitud local (L) como la descripción de similitud local y para determinar la frecuencia de inicio (ks) y/o la frecuencia final (ke) del procesamiento de mejora espectral utilizando una inclinación entre los valores de las filas o columnas y/o el uso de una evaluación de los valores de las filas o columnas que alcancen al menos un valor umbral (27).
14. El aparato de una de las reivindicaciones 11 a 13, en el que el estimador de frecuencia (36) está configurado para someter la similitud de elementos de una pluralidad de elementos del primer y segundo segmentos a un promedio recursivo en el tiempo para obtener una similitud de elementos promediada y para determinar la frecuencia de inicio (ks) y/o la frecuencia final (ke) utilizando la similitud de elementos promediada.
15. El aparato de la reivindicación 14, en el que cada muestra del espectro (12') está asociada con un marco, en el que el estimador de frecuencia está configurado para excluir marcos del promedio recursivo en el tiempo que tienen una energía espectral (E) por debajo de un nivel de umbral de energía.
16. El aparato de una de las reivindicaciones anteriores, en el que el procesador (32) está configurado para proporcionar una información que comprende información que indica al menos uno de:
la señal de audio (12) se sometió al procesamiento de mejora espectral;
una frecuencia de inicio (ks) del procesamiento de mejora espectral; y/o
una frecuencia final (ke) del procesamiento de mejora espectral.
17. El aparato de una de las reivindicaciones anteriores, que comprende además un potenciador de señal (48) configurado para reducir los artefactos causados por el procesamiento de mejora espectral de la señal de audio (12) dependiendo de la información (34) que indica que la señal de audio (12) comprende la característica predeterminada.
18. Un procedimiento (1000) para determinar una característica predeterminada relacionada con un procesamiento de mejora espectral de una señal de audio, comprendiendo el procedimiento:
obtener (1100) un espectro de la señal de audio y derivar información relacionada con una estructura fina del espectro; determinar (1200) una similitud en la estructura fina;
proporcionar (1300) una información que indica que la señal de audio comprende la característica predeterminada dependiendo de una evaluación de la similitud;
de tal forma que la estructura fina del espectro se relaciona con máximos y/o mínimos locales del espectro;
caracterizado porque
comprendiendo el procedimiento derivar una señal máxima local (Z(k)) del espectro (12') para derivar la información relacionada con la estructura fina, y determinar la similitud entre los segmentos de la señal máxima local (Z(k)).
19. Medio de almacenamiento no transitorio que tiene almacenado en sí un programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, un procedimiento según la reivindicación 18.
ES18714688T 2017-03-31 2018-03-29 Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio Active ES2933500T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17164360 2017-03-31
EP17189988.3A EP3382704A1 (en) 2017-03-31 2017-09-07 Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
PCT/EP2018/025083 WO2018177612A1 (en) 2017-03-31 2018-03-29 Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal

Publications (1)

Publication Number Publication Date
ES2933500T3 true ES2933500T3 (es) 2023-02-09

Family

ID=58632740

Family Applications (3)

Application Number Title Priority Date Filing Date
ES18714688T Active ES2933500T3 (es) 2017-03-31 2018-03-29 Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio
ES18714687T Active ES2923098T3 (es) 2017-03-31 2018-03-29 Aparato y procedimiento de procesamiento de una señal de audio
ES18714686T Active ES2927808T3 (es) 2017-03-31 2018-03-29 Aparato y método para determinar una característica relacionada a un procesamiento de limitación de ancho de banda artificial de una señal de audio

Family Applications After (2)

Application Number Title Priority Date Filing Date
ES18714687T Active ES2923098T3 (es) 2017-03-31 2018-03-29 Aparato y procedimiento de procesamiento de una señal de audio
ES18714686T Active ES2927808T3 (es) 2017-03-31 2018-03-29 Aparato y método para determinar una característica relacionada a un procesamiento de limitación de ancho de banda artificial de una señal de audio

Country Status (13)

Country Link
US (3) US20200020347A1 (es)
EP (6) EP3382704A1 (es)
JP (4) JP6968191B2 (es)
KR (3) KR102517285B1 (es)
CN (3) CN110870007B (es)
AU (4) AU2018246838A1 (es)
BR (3) BR112019020523A2 (es)
CA (3) CA3058353C (es)
ES (3) ES2933500T3 (es)
MX (3) MX2019011519A (es)
PL (3) PL3602553T3 (es)
RU (3) RU2733533C1 (es)
WO (3) WO2018177611A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220375485A1 (en) * 2019-09-24 2022-11-24 Sony Group Corporation Signal processing apparatus, signal processing method, and program
CN112927710B (zh) * 2021-01-21 2021-10-26 安徽南瑞继远电网技术有限公司 一种基于无监督方式的电力变压器工况噪声分离方法
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN114070679B (zh) * 2021-10-25 2023-05-23 中国电子科技集团公司第二十九研究所 一种面向脉冲智能分类的频相特征分析方法

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230414B2 (ja) * 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
EP2273494A3 (en) * 2004-09-17 2012-11-14 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8073704B2 (en) * 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7881459B2 (en) * 2007-08-15 2011-02-01 Motorola, Inc. Acoustic echo canceller using multi-band nonlinear processing
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8005233B2 (en) * 2007-12-10 2011-08-23 Dts, Inc. Bass enhancement for audio
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
KR101518532B1 (ko) * 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
RU2443028C2 (ru) * 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
ATE539433T1 (de) * 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP4224474B1 (en) 2008-12-15 2023-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
AU2016204672B2 (en) 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
SG187950A1 (en) * 2010-08-25 2013-03-28 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
CA2827249C (en) * 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012119140A2 (en) * 2011-03-03 2012-09-07 Edwards Tyson Lavar System for autononous detection and separation of common elements within data, and methods and devices associated therewith
US9117440B2 (en) 2011-05-19 2015-08-25 Dolby International Ab Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
EP2544465A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
US9390721B2 (en) 2012-01-20 2016-07-12 Panasonic Intellectual Property Corporation Of America Speech decoding device and speech decoding method
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP3067890B1 (en) * 2013-01-29 2018-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
CA2964368C (en) * 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6186503B2 (ja) * 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
WO2015105775A1 (en) * 2014-01-07 2015-07-16 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US20190051286A1 (en) 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications

Also Published As

Publication number Publication date
CA3057739A1 (en) 2018-10-04
AU2021203677B2 (en) 2022-10-13
EP3602552A1 (en) 2020-02-05
MX2019011515A (es) 2019-12-19
KR20190134708A (ko) 2019-12-04
EP3382703A1 (en) 2018-10-03
US20200027474A1 (en) 2020-01-23
JP2022097514A (ja) 2022-06-30
KR20190134707A (ko) 2019-12-04
KR102426636B1 (ko) 2022-07-29
CA3058353C (en) 2023-03-07
RU2733278C1 (ru) 2020-10-01
KR102563915B1 (ko) 2023-08-04
EP3602553B1 (en) 2022-04-27
JP2020512593A (ja) 2020-04-23
BR112019020357A2 (pt) 2020-04-28
KR20190134709A (ko) 2019-12-04
AU2018246837B2 (en) 2020-12-24
MX2019011519A (es) 2019-12-19
MX2019011522A (es) 2019-12-19
RU2733533C1 (ru) 2020-10-05
AU2018246838A1 (en) 2019-10-24
BR112019020523A2 (pt) 2020-05-05
US11170794B2 (en) 2021-11-09
JP6968191B2 (ja) 2021-11-17
EP3602555B1 (en) 2022-10-12
PL3602553T3 (pl) 2022-08-22
CN110870007B (zh) 2023-10-13
JP2020512591A (ja) 2020-04-23
WO2018177612A1 (en) 2018-10-04
US20200020346A1 (en) 2020-01-16
ES2923098T3 (es) 2022-09-23
EP3382702A1 (en) 2018-10-03
JP7059301B2 (ja) 2022-04-25
CN110914902A (zh) 2020-03-24
AU2018241963A1 (en) 2019-10-24
KR102517285B1 (ko) 2023-04-03
AU2018241963B2 (en) 2021-08-12
AU2021203677A1 (en) 2021-07-01
CN110832582B (zh) 2023-10-24
CN110832582A (zh) 2020-02-21
WO2018177611A1 (en) 2018-10-04
PL3602552T3 (pl) 2022-11-21
WO2018177610A1 (en) 2018-10-04
EP3602553A1 (en) 2020-02-05
EP3602552B1 (en) 2022-07-20
ES2927808T3 (es) 2022-11-11
EP3602555B8 (en) 2023-06-14
BR112019020578A2 (pt) 2020-05-19
JP7455890B2 (ja) 2024-03-26
US20200020347A1 (en) 2020-01-16
JP6896881B2 (ja) 2021-06-30
AU2018246837A1 (en) 2019-10-17
JP2020512594A (ja) 2020-04-23
PL3602555T3 (pl) 2023-05-08
CA3057897C (en) 2022-05-17
EP3382704A1 (en) 2018-10-03
CA3058353A1 (en) 2018-10-04
EP3602553B8 (en) 2022-11-02
CA3057897A1 (en) 2018-10-04
CN110914902B (zh) 2023-10-03
RU2719543C1 (ru) 2020-04-21
CN110870007A (zh) 2020-03-06
EP3602555A1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
ES2933500T3 (es) Aparato y procedimiento para determinar una característica predeterminada relacionada a un procesamiento de mejora espectral de una señal de audio