ES2960785T3 - Evaluador de similitud de audio, codificador de audio, procedimientos y programa informático - Google Patents

Evaluador de similitud de audio, codificador de audio, procedimientos y programa informático Download PDF

Info

Publication number
ES2960785T3
ES2960785T3 ES19737471T ES19737471T ES2960785T3 ES 2960785 T3 ES2960785 T3 ES 2960785T3 ES 19737471 T ES19737471 T ES 19737471T ES 19737471 T ES19737471 T ES 19737471T ES 2960785 T3 ES2960785 T3 ES 2960785T3
Authority
ES
Spain
Prior art keywords
audio
modulation
audio signal
similarity
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19737471T
Other languages
English (en)
Inventor
Sascha Disch
Der Par Steven Van
Andreas Niedermeier
Perez Elena Burdiel
Bernd Edler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2960785T3 publication Critical patent/ES2960785T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Toys (AREA)

Abstract

Un evaluador de similitud de audio obtiene señales envolventes para una pluralidad de rangos de frecuencia basándose en una señal de audio de entrada. El evaluador de similitud de audio está configurado para obtener información de modulación asociada con las señales de envolvente para una pluralidad de rangos de frecuencia de modulación, en donde la información de modulación describe la modulación de las señales de envolvente. El evaluador de similitud de audio está configurado para comparar la información de modulación obtenida con una información de modulación de referencia asociada con una señal de audio de referencia, con el fin de obtener una información sobre una similitud entre la señal de audio de entrada y la señal de audio de referencia. Un codificador de audio utiliza un evaluador de similitud de audio de este tipo. Otro evaluador de similitud de audio utiliza una red neuronal entrenada con el evaluador de similitud de audio. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Evaluador de similitud de audio, codificador de audio, procedimientos y programa informático
Campo técnico
[0001] Las realizaciones según la invención se refieren a evaluadores de similitud de audio.
[0002] Realizaciones adicionales según la invención se refieren a codificadores de audio.
[0003] Realizaciones adicionales según la invención se refieren a procedimientos para evaluar una similitud entre señales de audio.
[0004] Realizaciones adicionales según la invención se refieren a procedimientos para codificar una señal de audio.
[0005] Realizaciones adicionales según la invención se refieren a un programa informático para llevar a cabo dichos procedimientos.
[0006] Generalmente, las realizaciones según la invención se refieren a un modelo psicoacústico mejorado para códecs perceptuales de audio eficientes.
Antecedentes de la invención
[0007] La codificación de audio es un campo técnico emergente, ya que la codificación y decodificación de contenido de audio es importante en muchos campos técnicos, como en la comunicación móvil, streaming de audio, emisión de audio, televisión, etc.
[0008] En lo sucesivo, se proporcionará una introducción a la codificación perceptual. Se debe tener en cuenta que las definiciones y detalles discutidos en lo sucesivo se pueden aplicar opcionalmente conjuntamente con las rea lizaciones descritas en esta invención.
Códecs perceptuales
[0009] Los códecs perceptuales de audio como mp3 o AAC son ampliamente utilizados para codificar el audio en las aplicaciones multimedia actuales [1]. Los códecs más populares son los llamados codificadores de forma de onda, es decir, conservan la forma de onda del dominio del tiempo del audio y principalmente agregan ruido (inaudible) al mismo debido a la aplicación perceptualmente controlada de cuantificación. Generalmente, la cuantificación puede presentarse en un dominio del tiempo-frecuencia, pero también se puede aplicar en el dominio del tiempo [2]. Para representar el ruido agregado inaudible, se conforma bajo el control de un modelo psicoacústico, típico para un modelo de enmascaramiento perceptual.
[0010] En las aplicaciones de audio actuales, hay una constante solicitud de tasas de bits más bajas. Los códecs perceptuales de audio tradicionalmente limitan el ancho de banda de audio para aún alcanzar una calidad perceptual decente en estas tasas de bits bajas. Técnicas semi-paramétricas eficientes como replicación de ancho de banda espectral (SBR, Spectral Bandwidth Replication) [3] en codificación avanzada de audio de alta eficiencia (HE-AAC, High Efficiency Advanced Audio Coding) [4] o relleno inteligente de huecos (IGF, Intelligent Gap Filling) [5] en MPEG-H 3D Audio [6] y servicios mejorados de voz (EVS, Enhanced Voice Services) de 3gpp [7] se utilizan para extender el audio de banda limitada hasta el ancho de banda completo en el lado del decodificador. Tal técnica se llama extensión de ancho de banda (BWE, Bandwidth Extension). Estas técnicas insertan un estimado del contenido de alta frecuencia perdido controlado por unos pocos parámetros. Generalmente, la información complementaria de BWE más importante son datos relacionados de envolvente. Por lo general, el proceso de estimación está dirigido por heurísticas en lugar de un modelo psicoacústico.
Modelos perceptuales
[0011] Los modelos psicoacústicos utilizados en codificación de audio se basan principalmente en evaluar si la señal de error es enmascarada perceptualmente por la señal de audio original que se va a codificar. Esta estrategia funciona bien cuando la señal de error es provocada por un proceso de cuantificación utilizado generalmente en codificadores de forma de onda. Para representaciones paramétricas de señales, sin embargo, tales como SBR o IGF, la señal de error será grande incluso cuando los artefactos son difícilmente audibles.
[0012] Esto es una consecuencia del hecho de que el sistema auditivo humano no procesa la forma de onda exacta de una señal de audio; en ciertas situaciones, el sistema auditivo es insensible a la fase y la envolvente temporal de una banda espectral se convierte en la información auditiva principal que se evalúa. Por ejemplo, diferentes fases iniciales de una sinusoide (con comienzo y desfase suaves) no tienen ningún efecto perceptible. Para un tono complejo armónico, sin embargo, las fases iniciales relativas pueden ser perceptualmente importantes, específicamente cuando múltiples armónicos entran dentro de una banda crítica auditiva [8]. Las fases relativas de estos armónicos, así como sus amplitudes, influirán en la forma envolvente temporal que se representa dentro de una banda crítica auditiva que, en principio, puede ser procesada por el sistema auditivo humano.
[0013] En vista de esta situación, hay una necesidad de un concepto para comparar señales de audio y/o decidir sobre los parámetros de codificación que proporcionen un equilibrio mejorado entre la complejidad computacional y la relevancia perceptual y/o que permita por primera vez utilizar técnicas paramétricas bajo control de un modelo psicoacústico.
Resumen de la invención
[0014] Según la invención se proporciona un evaluador de similitud de audio establecido en la reivindicación 1, un procedimiento para evaluar una similitud entre las señales de audio establecidas en la reivindicación 22 y un programa informático establecido en la reivindicación 28. Las realizaciones preferidas se establecen en las reivindicacio nes dependientes.
[0015] El evaluador de similitud de audio está configurado para obtener señales de envolvente para una plura lidad de intervalos de frecuencias (preferiblemente superpuestos) (por ejemplo, utilizando un banco de filtros o un banco de filtros Gammatone y una rectificación y una filtración de paso bajo temporal y uno o más procesos de adap tación que pueden modelar, por ejemplo, un pre-enmascaramiento y/o un post-enmascaramiento en un sistema audi tivo) con base en una señal de audio de entrada (por ejemplo, para llevar a cabo una desmodulación de envolvente en sub-bandas espectrales).
[0016] El evaluador de similitud de audio está configurado para obtener una información de modulación (por ejemplo, señales de salida de los filtros de modulación) asociada con las señales de envolvente para una pluralidad de intervalos de frecuencias de modulación (por ejemplo, utilizando un banco de filtros de modulación o utilizando filtros de modulación), donde la información de modulación describe (por ejemplo, en la forma de señales de salida del banco de filtros de modulación o en la forma de señales de salida de los filtros de modulación) la modulación de las señales de envolvente (y se puede considerar, por ejemplo, como una representación interna). Por ejemplo, el evaluador de similitud de audio puede estar configurado para llevar a cabo un análisis de modulación de envolvente.
[0017] El evaluador de similitud de audio está configurado para comparar la información de modulación obte nida (por ejemplo, una representación interna) con una información de modulación de referencia asociada con una señal de audio de referencia (por ejemplo, utilizando una representación de diferencia interna, donde la representación de diferencia interna puede describir, por ejemplo, una diferencia entre la información de modulación obtenida y la información de modulación de referencia, donde se pueden aplicar una o más operaciones de ponderación u opera ciones de modificación, como un escalamiento de la representación de diferencia interna con base en un grado de comodulación o una ponderación asimétrica de valores positivos y negativos de la representación de diferencia interna), con el fin de obtener una información acerca de una similitud entre la señal de audio de entrada y la señal de audio de referencia (por ejemplo, un valor único que describe una similitud perceptual entre la señal de audio de entrada y la señal de audio de referencia).
[0018] Esta realización según la invención se basa en el hallazgo de que una información de modulación, que está asociada con señales de envolvente para una pluralidad de intervalos de frecuencias de modulación, se puede obtener con esfuerzo moderado (por ejemplo, utilizando un primer banco de filtros para obtener las señales de envol vente y utilizando un segundo banco de filtros, que puede ser un banco de filtros de modulación, para obtener la información de modulación, donde también se utilizarán algunas etapas de procesamiento adicionales menores para mejorar la precisión).
[0019] Por otra parte, se ha descubierto que tal información de modulación está bien adaptada a la impresión de audición humana en muchas situaciones, lo que significa que una similitud de la información de modulación corres ponde a una percepción similar de un contenido de audio, mientras que una diferencia importante es que la información de modulación generalmente indica que un contenido de audio se percibirá como siendo diferente. Por lo tanto, al comparar la información de modulación de una señal de audio de entrada con la información de modulación asociada con una señal de audio de referencia, se puede concluir si la señal de audio de entrada se percibirá como siendo similar al contenido de audio de la señal de audio de referencia o no. En otras palabras, una medida cuantitativa que representa la similitud o diferencia entre la información de modulación asociada con la señal de audio de entrada y la información de modulación asociada con la señal de audio de referencia puede servir como una información de simi litud (cuantitativa), que representa la similitud entre el contenido de audio de la señal de audio de entrada y el contenido de audio de la señal de audio de referencia de una manera ponderada perceptualmente.
[0020] Por lo tanto, la información de similitud obtenida por el evaluador de similitud de audio (por ejemplo, un valor escalar único asociado con un cierto paso (por ejemplo, una trama) de la señal de audio de entrada (y/o de la señal de audio de referencia) es muy adecuada para determinar (por ejemplo, de una manera cuantitativa) cuánto se degrada perceptualmente la “señal de audio de entrada” con respecto a la señal de audio de referencia (por ejemplo, si se supone que la señal de audio de entrada es una versión degradada de la señal de audio de referencia).
[0021] Se ha descubierto que esta medida de similitud se puede utilizar, por ejemplo, para determinar la calidad de una codificación de audio con pérdidas y, en particular, de una codificación de audio sin conservación de forma de onda con pérdidas. Por ejemplo, la información de similitud indica una desviación comparativamente grande si la “modulación” (de la señal de envolvente) en uno o más intervalos de frecuencias se cambia significativamente, lo cual resultaría generalmente en una impresión de audición degradada. Por otro lado, la información de similitud proporcio nada por el evaluador de similitud generalmente indicaría una similitud comparativamente alta (o, equivalentemente, una diferencia o desviación comparativamente pequeña) si la modulación en diferentes bandas de frecuencia es similar en la señal de audio de entrada y en la señal de audio de referencia, incluso si las formas de onda de señal reales son sustancialmente diferentes. Por lo tanto, un resultado está según el hallazgo de que un oyente humano generalmente no es particularmente sensible a la forma de onda real, pero más sensible con respecto a características de modulación de un contenido de audio en diferentes bandas de frecuencia.
[0022] Para concluir, el evaluador de similitud descrito aquí proporciona una información de similitud que está bien adaptada a la impresión de audición humana.
[0023] En una realización preferida, el evaluador de similitud de audio está configurado para aplicar una plura lidad de filtros u operaciones de filtración (por ejemplo, de un banco de filtros o de un banco de filtros Gammatone) que tienen características de filtro superpuestas (por ejemplo, bandas de paso superpuestas), con el fin de obtener las señales de envolvente (donde, preferiblemente, se aumentan los anchos de banda de los filtros u operaciones de filtración aumentando las frecuencias centrales de los filtros). Por ejemplo, las diferentes señales de envolvente pue den estar asociadas con diferentes intervalos de frecuencias acústicas de la señal de audio de entrada.
[0024] Esta realización se basa en el hallazgo de que las señales de envolvente se pueden obtener con es fuerzo moderado utilizando filtros u operaciones de filtración que tienen características de filtro superpuestas, debido a que esto está muy de acuerdo con el sistema auditivo humano. Además, se ha descubierto que es conveniente aumentar el ancho de banda de los filtros u operaciones de filtración con el aumento de la frecuencia, debido a que esto está muy según el sistema auditivo humano y además ayuda a mantener el número de filtros razonablemente pequeño mientras se proporciona una buena resolución de frecuencia en la región de frecuencia baja perceptualmente importante. En consecuencia, las diferentes señales de envolvente generalmente se asocian con diferentes intervalos de frecuencias acústicas de la señal de audio de entrada, lo cual ayuda a obtener una información de similitud precisa que tenga una resolución de frecuencia razonable. Por ejemplo, una degradación de señal diferente (por ejemplo, de la señal de audio de entrada con respecto a la señal de audio de referencia) en diferentes intervalos de frecuencias se puede considerar de esta manera.
[0025] En una realización preferida, el evaluador de similitud de audio está configurado para aplicar una recti ficación (por ejemplo, una rectificación de media onda) a las señales de salida de los filtros u operación de filtración, para obtener una pluralidad de señales rectificadas (por ejemplo, para modelar células ciliadas internas).
[0026] Al aplicar una rectificación a las señales de salida de los filtros o de la operación de filtración, es posible asimilar un comportamiento de las células ciliadas internas. Además, la rectificación en combinación con un filtro de paso bajo proporciona lo necesario para las señales de envolvente que reflejan intensidades en diferentes intervalos de frecuencias. También, debido a la rectificación (y posiblemente una filtración de paso bajo), es comparativamente fácil una representación numérica (por ejemplo, ya que sólo se necesitan representar valores positivos). Por otra parte, el fenómeno de bloqueo de fase y la pérdida del mismo para frecuencias más altas se modela por medio de dicho procesamiento.
[0027] En una realización preferida, el evaluador de similitud de audio está configurado para aplicar un filtro de paso bajo o filtración de paso bajo (por ejemplo, que tenga una frecuencia de corte que sea menor que 2.500 Hz o que sea menor que 1.500 Hz) a las señales rectificadas de media onda (por ejemplo, para modelar células ciliadas internas).
[0028] Utilizando un filtro de paso bajo o una filtración de paso bajo (que se puede aplicar, por ejemplo, por separado a cada señal de envolvente de una pluralidad de señales de envolvente asociadas con diferentes intervalos de frecuencias), se puede modelar una inertidad de células ciliadas internas. Además, una cantidad de muestras de datos se reduce al llevar a cabo una filtración de paso bajo, y se facilita un procesamiento adicional de las señales de paso de banda filtradas de paso bajo (preferiblemente rectificadas). Por lo tanto, la señal de salida preferiblemente rectificada y filtrada de paso bajo de una pluralidad de filtros u operaciones de filtración puede servir como las señales de envolvente.
[0029] En una realización preferida, el evaluador de similitud de audio está configurado para aplicar un control automático de ganancia, con el fin de obtener las señales de envolvente.
[0030] Al aplicar un control automático de ganancia con el fin de obtener las señales de envolvente, se puede limitar un intervalo dinámico de las señales de envolvente, lo cual reduce los problemas numéricos. Además, se ha descubierto que el uso de un control automático de ganancia, que utiliza ciertas constantes de tiempo para la adapta ción de la ganancia, modela los efectos de enmascaramiento que ocurren en un sistema auditivo, de tal manera que una similitud de la información obtenida por el evaluador de similitud de audio refleja una impresión de audición hu mana.
[0031] En una realización preferida, el evaluador de similitud de audio está configurado para variar una ganan cia aplicada para derivar las señales de envolvente con base en las señales rectificadas y filtradas de paso bajo proporcionadas por una pluralidad de filtros u operaciones de filtro con base en la señal de audio de entrada.
[0032] Se ha descubierto que variar una ganancia, que se aplica para derivar las señales de envolvente con base en las señales rectificadas y filtradas de paso bajo proporcionadas por una pluralidad de filtros u operaciones de filtro (con base en la señal de audio de entrada) es un medio eficiente para implementar un control automático de ganancia. Se ha descubierto que el control automático de ganancia se puede implementar fácilmente después de la rectificación y filtración de paso bajo de las señales proporcionadas por una pluralidad de filtros u operaciones de filtro. En otras palabras, el control automático de ganancia se aplica individualmente por intervalo de frecuencias, y se ha descubierto que tal comportamiento está muy de acuerdo con el sistema auditivo humano.
[0033] En una realización preferida, el evaluador de similitud de audio está configurado para procesar versiones rectificadas y filtradas de paso bajo de señales proporcionadas por una pluralidad de filtros u operaciones de filtración (por ejemplo, proporcionadas por el banco de filtros Gammatone) con base en la señal de audio de entrada utilizando una serie de dos o más bucles de adaptación (preferiblemente cinco bucles de adaptación), que aplican un escala miento variable en el tiempo en función de los valores de ganancia variables en el tiempo (por ejemplo, para efectuar un control automático de ganancia de múltiples etapas, donde el valor de ganancia se establece en un valor compa rativamente pequeño para una señal de entrada o señal de salida comparativamente grande de una etapa respectiva, y donde un valor de ganancia se establece en un valor comparativamente más grande para un valor de entrada o valor de salida comparativamente más pequeño de la etapa respectiva). Opcionalmente, hay una limitación de una o más señales de salida, por ejemplo, para limitar o evitar excesos, por ejemplo, un “Limitador”.
[0034] El evaluador de similitud de audio está configurado para ajustar diferentes valores de ganancia variables en el tiempo (que están asociados con diferentes etapas dentro de las series de bucles de adaptación) utilizando diferentes constantes de tiempo (por ejemplo, para modelar un pre-enmascaramiento en un comienzo de una señal de audio y/o para modelar un post-enmascaramiento después de un desplazamiento de una señal de audio).
[0035] Se ha reconocido que el uso de una serie de dos o más bucles de adaptación que aplican un escalamiento variable en el tiempo en función de los valores de ganancia variables en el tiempo está bien adaptado para modelar diferentes constantes de tiempo que ocurren en el sistema auditivo humano. Cuando se ajustan los diferentes valores de ganancia variables en el tiempo, que se utilizan en diferentes de los bucles de adaptación en cascada, se pueden considerar diferentes constantes de tiempo de pre-enmascaramiento y post-enmascaramiento. También, se pueden modelar procesos de enmascaramiento de adaptación adicionales, que ocurren en el sistema auditivo humano, de una manera tal con un esfuerzo computacional moderado. Por ejemplo, las diferentes constantes de tiempo, que se utilizan para ajustar diferentes de los valores de ganancia variables en el tiempo, se pueden adaptar en con secuencia para diferentes constantes de tiempo en un sistema auditivo humano.
[0036] Para concluir, utilizar una serie (o una cascada) de dos o más bucles de adaptación, que aplican un escalamiento variable en el tiempo en función de los valores de escala variables en el tiempo, proporciona señales de envolvente que son muy adecuadas para el propósito de obtener una información de similitud que describe una simi litud entre una señal de audio de entrada y una señal de audio de referencia.
[0037] En una realización preferida, el evaluador de similitud de audio está configurado para aplicar una pluralidad de filtros de modulación (por ejemplo, de un banco de filtros de modulación) que tiene bandas de paso diferentes (pero posiblemente superpuestas) a las señales de envolvente (por ejemplo, de tal manera que los componentes de las señales de envolvente que tienen diferentes frecuencias de modulación se separen al menos parcialmente), para obtener la información de modulación (donde, por ejemplo, se aplica una pluralidad de filtros de modulación asociados con diferentes intervalos de frecuencias de modulación a una primera señal de envolvente asociada con un primer intervalo de frecuencias acústicas donde, por ejemplo, se aplica una pluralidad de filtros de modulación asociados con los diferentes intervalos de frecuencias de modulación a una segunda señal de envolvente asociada con un segundo intervalo de frecuencias acústicas que es diferente del primer intervalo de frecuencias acústicas).
[0038] Se ha encontrado que se puede obtener una información significativa que representa una modulación de señales de envolvente (asociada con diferentes intervalos de frecuencias) con poco esfuerzo utilizando filtros de modulación que filtran las señales de envolvente. Por ejemplo, aplicar un conjunto de filtros de modulación que tienen diferentes bandas de paso a una de las señales de envolvente da como resultado un conjunto de señales (o valores) para la señal de envolvente dada (o asociadas con la señal de envolvente dada, o asociadas con un intervalo de frecuencias de la señal de audio de entrada). Por lo tanto, se puede obtener una pluralidad de señales de modulación con base en una señal de envolvente única, y se pueden obtener diferentes conjuntos de señales de modulación con base en una pluralidad de señales de envolvente. Cada una de las señales de modulación puede estar asociada con una frecuencia de modulación o un intervalo de frecuencias de modulación. En consecuencia, las señales de modula ción (que pueden ser salida de los filtros de modulación) o, más precisamente, una intensidad de las mismas pueden describir cómo se modula una señal de envolvente (asociada con un cierto intervalo de frecuencias) (por ejemplo, modulada en el tiempo). Por lo tanto, se pueden obtener conjuntos separados de señales de modulación para las diferentes señales de envolvente.
[0039] Estas señales de modulación se pueden utilizar para obtener la información de modulación, donde se pueden utilizar diferentes operaciones post-procesamiento para derivar la información de modulación (que se compara con la información de modulación asociada con la señal de audio de referencia) a partir de las señales de modulación proporcionadas por los filtros de modulación.
[0040] Para concluir, se ha descubierto que el uso de una pluralidad de filtros de modulación es un plantea miento fácil de implementar que se puede utilizar en la derivación de la ganancia de modulación para información.
[0041] En una realización preferida, los filtros de modulación están configurados para separar al menos par cialmente componentes de la señal de envolvente que tiene diferentes frecuencias (por ejemplo, diferentes frecuencias de modulación), donde una frecuencia central de un primer filtro de modulación de frecuencia más baja es menor que 5 Hz, y donde una frecuencia central de un filtro de modulación de frecuencia más alta está en un intervalo entre 200 Hz y 300 Hz.
[0042] Se ha descubierto que utilizar tales frecuencias centrales de los filtros de modulación cubre un intervalo de frecuencias de modulación que es más relevante para la percepción humana.
[0043] En una realización preferida, el evaluador de similitud de audio está configurado para eliminar compo nentes de DC cuando se obtiene la información de modulación (por ejemplo, por medio de filtración de paso bajo de las señales de salida de los filtros de modulación, por ejemplo, con una frecuencia de corte de la mitad de una fre cuencia central del filtro de modulación respectivo, y por la sustracción de las señales que resultan de la filtración de paso bajo de las señales de salida de los filtros de modulación).
[0044] Se ha descubierto que una eliminación de componentes de DC cuando se obtiene la información de modulación ayuda a evitar una degradación de la información de modulación por fuertes componentes de DC que generalmente se incluyen en las señales de envolvente. También, al utilizar una eliminación de Dc cuando se obtiene la información de modulación con base en las señales de envolvente, se puede mantener razonablemente pequeña una inclinación de los filtros de modulación, lo cual facilita la implementación de los filtros de modulación.
[0045] En una realización preferida, el evaluador de similitud de audio está configurado para eliminar una in formación de fase cuando se obtiene la información de modulación.
[0046] Al eliminar una información de fase, es posible omitir tal información, que generalmente no es de rele vancia particularmente alta para un oyente humano bajo muchas circunstancias, en la comparación de la información de modulación asociada con la señal de audio de entrada con la información de modulación asociada con la señal de audio de referencia. Se ha descubierto que la información de fase de las señales de salida de los filtros de modulación generalmente degradaría el resultado de comparación, en particular si la modificación de no conservación de forma de onda (como, por ejemplo, una operación de codificación y decodificación de no conservación de forma de onda) se aplica a la señal de audio de entrada. Por lo tanto, se evita clasificar una señal de audio de entrada y una señal de audio de referencia como que tiene un nivel pequeño de similitud, aunque una percepción humana clasificaría las señales como que son muy similares.
[0047] En una realización preferida, el evaluador de similitud de audio está configurado para derivar un valor escalar que representa una diferencia entre la información de modulación obtenida (por ejemplo, una representación interna) y la información de modulación de referencia asociada con una señal de audio de referencia (por ejemplo, un valor que representa una suma de diferencias cuadradas entre la información de modulación obtenida, que puede comprender valores de muestra para una pluralidad de intervalos de frecuencias acústicas y para una pluralidad de intervalos de frecuencias de modulación por intervalo de frecuencias acústicas, y la información de modulación de referencia, que también puede comprender valores de muestra para una pluralidad de intervalos de frecuencias acús ticas y para una pluralidad de intervalos de frecuencias de modulación por intervalo de frecuencias acústicas).
[0048] Se ha descubierto que un valor escalar (único) puede representar bien las diferencias entre la informa ción de modulación asociada con la señal de audio de entrada e información de modulación asociada con la señal de audio de referencia. Por ejemplo, la información de modulación puede comprender señales individuales o valores para diferentes frecuencias de modulación y para una pluralidad de intervalos de frecuencias. Al combinar diferencias entre todas estas señales o valores en un solo valor escalar (que puede tomar la forma de una “medida de distancia” o una “norma”), es posible tener una evaluación compacta y significativa de la similitud entre la señal de audio de entrada y la señal de audio de referencia. También, tal valor escalar único puede ser fácilmente utilizable por un mecanismo para seleccionar parámetros de codificación (por ejemplo parámetros de codificación y/o parámetros de decodifica ción), o para decidir sobre cualquier otro parámetro de procesamiento de señal de audio que se pueda aplicar para un procesamiento de la señal de audio de entrada.
[0049] Se ha descubierto que la determinación de una representación de diferencia puede ser una etapa intermedia eficiente para derivar la información de similitud. Por ejemplo, la representación de diferencia puede representar diferencias entre diferentes bins de frecuencia de modulación (donde, por ejemplo, un conjunto separado de bins de frecuencia de modulación se puede asociar con diferentes señales de envolvente que están asociadas con diferentes intervalos de frecuencia) cuando se compara la señal de audio de entrada con la señal de audio de referencia.
[0050] Por ejemplo, la representación de diferencia puede ser un vector, donde cada entrada del vector puede estar asociada con una frecuencia de modulación y con un intervalo de frecuencias (de la señal de audio de entrada o de la señal de audio de referencia) bajo consideración. Tal representación de diferencia es muy adecuada para un post-procesamiento, y también permite una derivación única de un valor escalar único que representa la información similitud.
[0051] En una realización preferida, el evaluador de similitud de audio está configurado para determinar una representación de diferencia (por ejemplo, IDR) con el fin de comparar la información de modulación obtenida (por ejemplo, una representación interna) con la información de modulación de referencia asociada con una señal de audio de referencia.
[0052] En una realización preferida, el evaluador de similitud de audio está configurado para ajustar una pon deración de una diferencia entre la información de modulación obtenida (por ejemplo, una representación interna) y la información de modulación de referencia asociada con una señal de audio de referencia en función de una co-modulación entre las señales de envolvente obtenidas o información de modulación en dos o más intervalos de frecuencias acústicas adyacentes o entre señales de envolvente asociadas con la señal de referencia o entre la información de modulación de referencia en dos o más intervalos de frecuencias acústicas adyacentes (donde, por ejemplo, se da un mayor peso a la diferencia entre la información de modulación obtenida y la información de modulación de referencia en caso de que se encuentre un grado de co-modulación comparativamente alto cuando se compara con un caso en el cual se encuentra un grado de co-modulación comparativamente bajo) (y donde el grado de co-modulación se encuentra, por ejemplo, determinando una covarianza entre envolventes temporales con diferentes intervalos de fre cuencias acústicas).
[0053] Se ha descubierto que ajustar la ponderación de la diferencia entre la información de modulación obte nida y la información de modulación de referencia (que se puede representar, por ejemplo, por la “representación de diferencia”) en función de la información de co-modulación es conveniente debido a que las diferencias entre la infor mación de modulación se pueden percibir como más fuertes por un oyente humano si hay una co-modulación en intervalos de frecuencias adyacentes. Por ejemplo, al asociar un mayor peso a la diferencia entre la información de modulación obtenida y la información de modulación de referencia en el caso de que se encuentre un grado de comodulación comparativamente alto cuando se compara con un caso en el cual se encuentra un grado o cantidad de co-modulación comparativamente baja, la determinación de la información de similitud se puede adaptar a las características del sistema auditivo humano. En consecuencia, se puede mejorar la calidad de la información de similitud.
[0054] En una realización preferida, el evaluador de similitud de audio está configurado para poner un mayor peso en las diferencias entre la información de modulación obtenida (por ejemplo, una representación interna) y la información de modulación de referencia asociada con una señal de audio de referencia que indica que la señal de audio de entrada comprende un componente de señal adicional cuando se compara con diferencias entre la informa ción de modulación obtenida (por ejemplo, una representación interna) y la información de modulación de referencia asociada con una señal de audio de referencia que indica que la señal de audio de entrada carece de un componente de señal cuando se determina la información acerca de la similitud entre la señal de audio de entrada y la señal de audio de referencia (por ejemplo, un valor escalar único que describe la información acerca de la similitud).
[0055] Poner un mayor peso en las diferencias entre la información de modulación obtenida y la información de modulación de referencia asociada con una señal de referencia que indica que la señal de audio comprende un componente de señal adicional (cuando se compara con diferencias que indican que la señal de audio de entrada carece de un componente de señal) enfatiza una contribución de señales agregadas (o componentes de señal, o portadores) cuando se determina una información acerca de la diferencia entre la señal de audio de entrada y la señal de audio de referencia. Se ha descubierto que las señales agregadas (o componentes de señal o portadores) gene ralmente se perciben como que son más distorsionantes cuando se compara con señales perdidas (o componentes de señal o portadores). Este hecho se puede considerar por tal ponderación “asimétrica” de diferencias positivas y negativas entre la información de modulación asociada con la señal de audio de entrada y la información de modulación asociada con la señal de audio de referencia. Una información de similitud se puede adaptar a las características del sistema auditivo humano de esta manera.
[0056] En una realización preferida, el evaluador de similitud de audio está configurado para ponderar valores positivos y negativos de una diferencia entre la información de modulación obtenida y la información de modulación de referencia (que comprende generalmente un gran número de valores) utilizando diferentes pesos cuando se deter mina la información acerca de la similitud entre la señal de audio de entrada y la señal de audio de referencia.
[0057] Al aplicar diferentes pesos a valores positivos y negativos de la diferencia entre la información de mo dulación obtenida y la información de modulación de referencia (o, más precisamente, entre entradas de un vector como se mencionó anteriormente), el diferente impacto de señales agregadas y perdidas o componentes de señal o portadores se puede considerar con esfuerzo computacional muy pequeño.
[0058] El codificador de audio de la reivindicación 17 está configurado para determinar uno o más parámetros de codificación (por ejemplo, parámetros de codificación o parámetros de decodificación, que se señalan preferiblemente a un decodificador de audio por medio del codificador de audio) en función de una evaluación de una similitud entre una señal de audio que se va a codificar y una señal de audio codificada. El codificador de audio está configurado para evaluar la similitud entre la señal de audio que se va a codificar y la señal de audio codificada (por ejemplo, una versión decodificada de la misma) utilizando un evaluador de similitud de audio según una de las reivindicaciones 1 a 16 (donde la señal de audio que se va a codificar se utiliza como la señal de audio de referencia y donde una versión decodificada de una señal de audio codificada que utiliza uno o más parámetros candidato se utiliza como la señal de audio de entrada para el evaluador de similitud de audio).
[0059] Este codificador de audio se basa en el hallazgo de que la determinación mencionada anteriormente de la información de similitud es muy adecuada para una evaluación de una impresión de audición obtenible por una codificación de audio. Por ejemplo, al obtener la información de similitud utilizando una señal de audio que se va a codificar como una señal de referencia y utilizando una versión codificada y posteriormente decodificada de la señal de audio que se va a codificar como la señal de audio de entrada para la determinación de la información de similitud, se puede evaluar si el proceso de codificación y decodificación es adecuado para reconstruir la señal de audio que se va a codificar con pocas pérdidas perceptuales. Sin embargo, la determinación mencionada anteriormente de la información de similitud se enfoca en la impresión de audición que se puede lograr, en lugar de una conformidad de formas de onda. En consecuencia, se puede averiguar, utilizando la información de similitud obtenida, qué parámetros de codificación (de una cierta elección de parámetros de codificación) proporcionan una mejor impresión de audición (o al menos suficientemente buena). Por lo tanto, la determinación mencionada anteriormente de la información de simi litud se puede utilizar para tomar una decisión acerca del parámetro de codificación sin requerir identidad (o similitud) de formas de onda.
[0060] En consecuencia, los parámetros de codificación se pueden escoger de manera fiable, mientras se evitan restricciones imprácticas (como similitud de forma de onda).
[0061] En una realización preferida, el codificador de audio está configurado para codificar uno o más parámetros de extensión de ancho de banda que definen una regla de procesamiento que se va a utilizar en el lado de un decodificador de audio para derivar un contenido de audio perdido (por ejemplo, un contenido de alta frecuencia, que no está codificado de una manera de conservación de forma de onda por el codificador de audio) con base en un contenido de audio de un intervalo de frecuencias diferente codificado por el codificador de audio (por ejemplo, el codificador de audio es un codificador de audio paramétrico o semi-paramétrico).
[0062] Se ha descubierto que la determinación mencionada anteriormente de la información de similitud es muy adecuada para la selección de parámetros de extensión de ancho de banda. Se debe tener en cuenta que la extensión de ancho de banda paramétrica, que son parámetros de extensión de ancho de banda, generalmente es de no conservación de forma de onda. También, se ha descubierto que la determinación mencionada anteriormente de la similitud de señales de audio es muy adecuada para evaluar similitudes o diferencias en un intervalo de frecuencias de audio superior, en el cual la extensión de ancho de banda es generalmente activa, y en el cual el sistema auditivo humano generalmente no es sensible a la fase. Por lo tanto, el concepto permite considerar los conceptos de extensión de ancho de banda, que pueden derivar, por ejemplo, componentes de alta frecuencia con base en los componentes de baja frecuencia, de una manera eficiente y perceptualmente precisa.
[0063] En una realización preferida, el codificador de audio está configurado para utilizar un relleno inteligente de huecos (por ejemplo, como se define en el estándar de audio MPEG-H 3D, por ejemplo, en la versión disponible en la fecha de presentación de la presente solicitud, o en modificaciones de la misma), y el codificador de audio está configurado para determinar uno o más parámetros del relleno inteligente de huecos utilizando una evaluación de la similitud entre la señal de audio que se va a codificar y la señal de audio codificada (donde, por ejemplo, la señal de audio que se va a codificar se utiliza como la señal de audio de referencia y donde, por ejemplo, una versión decodi ficada de una señal de audio codificada que utiliza uno o más parámetros candidato de relleno inteligente de huecos se utiliza como la señal de audio de entrada para la evaluación de similitud de audio).
[0064] Se ha descubierto que el concepto mencionado anteriormente para la evaluación de similitudes entre señales de audio es muy adecuado para su uso en el contexto de un “relleno inteligente de huecos”, debido a que la determinación de la similitud entre señales de audio considera criterios, que son altamente importantes para la impre sión de audición.
[0065] En una realización preferida, el codificador de audio está configurado para seleccionar una o más aso ciaciones entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino para una extensión de ancho de banda (por ejemplo, una asociación que determina con base en qué intervalo de frecuencias de origen de una pluralidad de intervalos de frecuencias de origen seleccionables se debe determinar un contenido de audio de un intervalo de frecuencias de destino) y/o uno o más parámetros de operación de procesamiento para una extensión de ancho de banda (que puede determinar, por ejemplo, parámetros de una operación de procesamiento, como una operación de blanqueamiento o un reemplazo de ruido aleatorio, que se ejecuta cuando se proporciona un contenido de audio de un intervalo de frecuencias de destino con base en un intervalo de frecuencias de origen, y/o una adap tación de propiedades tonales y/o una adaptación de una envolvente espectral) en función de la evaluación de una similitud entre una señal de audio que se va a codificar y una señal de audio codificada.
[0066] Se ha descubierto que la selección de una o más asociaciones entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino y/o la selección de uno o más parámetros de operación de procesa miento para una extensión de ancho de banda se puede llevar a cabo con buenos resultados utilizando el plantea miento mencionado anteriormente para la evaluación de una similitud entre señales de audio. Al comparar una señal de audio “original” que se va a codificar con una versión codificada y decodificada (codificada y decodificada de nuevo utilizando una asociación específica y/o un procesamiento específico entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino, o entre intervalos de frecuencias de origen e intervalos de frecuencias de destino), se puede decidir si la asociación específica proporciona una impresión de audición similar a la original o no.
[0067] Lo mismo aplica también para la elección de otros parámetros de operación de procesamiento. Por lo tanto, al comprobar, para diferentes ajustes de la codificación de audio (y de la decodificación de audio) cómo de bien coincide la señal de audio codificada y decodificada con la señal de audio de entrada (original), se puede averiguar qué asociación específica (entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino, o entre intervalos de frecuencias de origen e intervalos de frecuencias de destino) proporciona la mejor similitud (o al menos una similitud suficientemente buena) cuando se compara la versión codificada y decodificada del contenido de audio con la versión original del contenido de audio. Por lo tanto, se pueden escoger ajustes de codificación adecuados (por ejemplo, una asociación adecuada entre un intervalo de frecuencias de origen y un intervalo de frecuencias de des tino). Por otra parte, también se pueden seleccionar parámetros de operación de procesamiento adicionales utilizando a misma estrategia.
[0068] En una realización preferida, el codificador de audio está configurado para seleccionar una o más aso ciaciones entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino para una extensión de ancho de banda. El codificador de audio está configurado para permitir o prohibir selectivamente un cambio de una asociación entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino en función de una evaluación de una modulación de una envolvente (por ejemplo, de una señal de audio que se va a codificar) en un intervalo de frecuencias de destino antiguo o nuevo.
[0069] Al utilizar tal concepto, se puede prohibir un cambio de una asociación entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino, si tal cambio de la asociación entre el intervalo de frecuencias de origen y el intervalo de frecuencias de destino aportaría artefactos notables. Por lo tanto, se puede limitar un cambio entre desplazamientos de frecuencia del relleno inteligente de huecos. Por ejemplo, se puede permitir selectivamente un cambio de la asociación entre el intervalo de frecuencias de origen y el intervalo de frecuencias de destino si se descubre que hay una modulación suficiente de la envolvente (por ejemplo, mayor que un cierto umbral) que enmas care (suficientemente) la modulación provocada por el cambio de la asociación.
[0070] En una realización preferida, el codificador de audio está configurado para determinar una intensidad de modulación de una envolvente en un intervalo de frecuencias de destino (antiguo o nuevo) en un intervalo de frecuencias de modulación correspondiente a una frecuencia de tramas del codificador y para determinar una medida de sensibilidad en función de la intensidad de modulación determinada (por ejemplo, de tal manera que la medida de similitud sea inversamente proporcional a la intensidad de modulación).
[0071] El codificador de audio está configurado para decidir si se permite o prohíbe cambiar una asociación entre un intervalo de frecuencias de destino y un intervalo de frecuencias de origen en función de la medida de sensi bilidad (por ejemplo, sólo permitir un cambio de una asociación entre un intervalo de frecuencias de destino y un intervalo de frecuencias de origen cuando la medida de sensibilidad es menor que un valor de umbral predeterminado, o sólo permitir un cambio de una asociación entre un intervalo de frecuencias de destino y un intervalo de frecuencias de origen cuando hay una intensidad de modulación que es mayor que un nivel de umbral en el intervalo de frecuencias de destino).
[0072] En consecuencia, se puede llegar a que el cambio de la asociación entre un intervalo de frecuencias de destino y un intervalo de frecuencias de origen ocurre solamente si una modulación (parasitaria) provocada por tal cambio se enmascara suficientemente por la modulación (original) en el intervalo de frecuencias de destino (en el cual se introduciría la modulación parasitaria). Por lo tanto, se pueden evitar de manera eficiente los artefactos audibles.
[0073] Al utilizar una red neural, que se prepara utilizando el evaluador de valor de similitud de audio mencionado anteriormente, para decidir sobre dichos uno o más parámetros de codificación, se puede reducir adicionalmente una complejidad computacional. En otras palabras, la evaluación de similitud de audio, como se menciona en esta invención, se puede utilizar para proporcionar los datos de formación para una red neural, y la red neural puede adap tarse a sí misma (o se puede adaptar) para tomar decisiones de parámetro de codificación que sean suficientemente similares a las decisiones de parámetro de codificación que se obtendrían al evaluar la calidad de audio utilizando el evaluador de similitud de audio.
[0074] El procedimiento de la reivindicación 22 comprende obtener señales de envolvente para una pluralidad de intervalos de frecuencias (preferiblemente superpuestos) (por ejemplo, utilizando un banco de filtros o un banco de filtros Gammatone y una rectificación y una filtración de paso bajo temporal y uno o más procesos de adaptación que pueden modelar, por ejemplo, un pre-enmascaramiento y/o un post-enmascaramiento en un sistema auditivo) con base en una señal de audio de entrada (por ejemplo, para llevar a cabo una desmodulación de envolvente en sub bandas espectrales).
[0075] El procedimiento comprende obtener una información de modulación (por ejemplo, señales de salida de los filtros de modulación) asociada con las señales de envolvente para una pluralidad de intervalos de frecuencias de modulación (por ejemplo, utilizando un banco de filtros de modulación o utilizando filtros de modulación). La informa ción de modulación describe (por ejemplo, en la forma de señales de salida del banco de filtros de modulación o en la forma de señales de salida de los filtros de modulación) la modulación de las señales de envolvente (por ejemplo, señales de envolvente temporales o señales de envolvente espectrales). La información de modulación se puede considerar, por ejemplo, como una representación interna y se puede utilizar, por ejemplo, para llevar a cabo un aná lisis de modulación de envolvente.
[0076] El procedimiento comprende comparar la información de modulación obtenida (por ejemplo, una repre sentación interna) con una información de modulación de referencia asociada con una señal de audio de referencia (por ejemplo, utilizando una representación de diferencia interna, donde la representación de diferencia interna puede describir, por ejemplo, una diferencia entre la información de modulación obtenida y la información de modulación de referencia, donde se pueden aplicar una o más operaciones de ponderación u operaciones de modificación, como un escalamiento de la representación de diferencia interna con base en un grado de co-modulación o una ponderación asimétrica de valores positivos y negativos de la representación de diferencia interna), con el fin de obtener una infor mación acerca de una similitud entre la señal de audio de entrada y la señal de audio de referencia (por ejemplo, un valor único que describe una similitud perceptual entre la señal de audio de entrada y la señal de audio de referencia).
[0077] Estos procedimientos se basan en las mismas consideraciones que los evaluadores de similitud de audio mencionados anteriormente y los codificadores de audio mencionados anteriormente.
[0078] Por otra parte, los procedimientos se pueden complementar por medio de cualquiera de las caracterís ticas, funcionalidades y detalles que se discuten en esta invención con respecto a los evaluadores de similitud de audio y con respecto a los codificadores de audio. Los procedimientos se pueden complementar por medio de tales características, funcionalidades y detalles tanto individualmente como tomados en combinación.
[0079] El programa informático de la reivindicación 28 se puede complementar por medio de cualquiera de las características, funcionalidades y detalles descritos en esta invención con respecto a los aparatos y procedimientos correspondientes.
BREVE DESCRIPCIÓN DE LAS FIGURAS
[0080] Las realizaciones según la presente invención se describirán posteriormente haciendo referencia a las figuras adjuntas, en las cuales,
La Figura 1 muestra un diagrama de bloques esquemático de un evaluador de similitud de audio, según una realización de la presente invención;
Las Figuras 2a y 2b muestran un diagrama de bloques esquemático de un evaluador de similitud de audio, según una realización de la presente invención;
La Figura 3 muestra un diagrama de bloques esquemático de un codificador de audio con selección automatizada, según una realización de la presente invención;
La Figura 4 muestra un diagrama de bloques esquemático de un codificador de audio con compuerta de cambio, según una realización de la presente invención;
La Figura 5a muestra un diagrama de bloques esquemático de un codificador de audio con una red neural en un modo de operación, según una realización de la presente invención;
La Figura 5b muestra un diagrama de bloques esquemático de una red neural para uso en un codificador de audio en un modo de formación, según una realización de la presente invención;
La Figura 6 muestra un diagrama de bloques esquemático de un evaluador de similitud de audio, según una realización de la presente invención;
La Figura 7 muestra una representación esquemática de un flujo de señal y de bloques de procesamiento de un modelo de procesamiento auditivo de Dau y col.;
La Figura 8 muestra una representación esquemática de respuestas de impulso de banco de filtros Gammatone; La Figura 9 muestra una representación esquemática de un órgano de Corti (modificado de [14]);
La Figura 10 muestra un diagrama de bloques esquemático de un decodificador de audio que utiliza IGF;
La Figura 11 muestra una representación esquemática de una selección de mosaico de IGF;
La Figura 12 muestra un diagrama de bloques esquemático de una generación de artículos de elección automatizada de IGF;
La Figura 13 muestra una representación esquemática de una elección de mosaicos de IGF para la “trilogía” de ex tracto de audio a través de control automatizado, donde para cada trama (círculos), se muestra la elección de mosaico de origen (sT, source Tile) [0,1,2,3] para cada uno de los tres mosaicos de destino como una línea negra que se superpone en el espectrograma;
La Figura 14 muestra una representación esquemática de una elección de niveles de blanqueamiento de IGF para la “trilogía” de extracto de audio a través de control automatizado, donde para cada trama (círculos), se muestra la elección de nivel de blanqueamiento [0,1,2] para cada uno de los tres mosaicos de destino como una línea negra que se superpone en el espectrograma;
La Tabla 1 muestra artículos de una prueba de audición;
La Tabla 2 muestra condiciones de una prueba de audición;
La Figura 15 muestra una representación gráfica de puntuaciones de MUSHRA absolutas de controles automatizados propuestos e IGF fijo; y
La Figura 16 muestra una representación gráfica de puntuaciones de MUSHRA de diferencia que comparan el control automatizado propuesto frente a IGF fijo.
[0081] Descripción detallada de las realizaciones
[0082] En lo sucesivo, se describirán realizaciones según la presente solicitud. Sin embargo, se debe tener en cuenta que las realizaciones descritas en lo sucesivo se pueden utilizar individualmente, y también se pueden utilizar en combinación.
[0083] Por otra parte, se debe tener en cuenta que las características, funcionalidades y detalles descritos con respecto a las siguientes realizaciones se pueden introducir opcionalmente en cualquiera de las realizaciones como se define por las reivindicaciones, tanto individualmente como si se toman en combinación.
[0084] Por otra parte, se debe tener en cuenta que las realizaciones descritas en lo sucesivo se pueden com plementar opcionalmente por cualquiera de las características, funcionalidades y detalles como se define en las reivindicaciones.
[0085] 1. Evaluador de similitud de audio según la Figura 1
[0086] La Figura 1 muestra un diagrama de bloques esquemático de un evaluador de similitud de audio, según una realización de la invención.
[0087] El evaluador de similitud de audio 100 según la Figura 1 recibe una señal de audio de entrada 110 (por ejemplo, una señal de audio de entrada del evaluador de similitud de audio) y proporciona, con base en la misma, una información de similitud 112, que puede, por ejemplo, tomar la forma de un valor escalar.
[0088] El evaluador de similitud de audio 100 comprende una determinación de señal de envolvente (o determinador de señal de envolvente) 120 que está configurado para obtener las señales de envolvente 122a, 122b, 122c para una pluralidad de intervalos de frecuencias con base en la señal de audio de entrada. Preferiblemente, los inter valos de frecuencias para los cuales se proporcionan las señales de envolvente 122a-122c, pueden superponerse. Por ejemplo, el determinador de señal de envolvente puede utilizar un banco de filtros o un banco de filtros Gammatone y una rectificación y una filtración de paso bajo temporal y uno o más procesos de adaptación que puede modelar, por ejemplo, un pre-enmascaramiento y/o un post-enmascaramiento en un sistema auditivo. En otras palabras, la deter minación de señal de envolvente 120 puede, por ejemplo, llevar a cabo una desmodulación de envolvente de sub bandas espectrales de la señal de audio de entrada.
[0089] Por otra parte, el evaluador de similitud de audio 100 comprende una determinación de información de modulación (o determinador de información de modulación) 160, que recibe las señales de envolvente 122a-122c y proporciona, con base en las mismas, información de modulación 162a-162c. Generalmente hablando, la determina ción de información de modulación 160 está configurada para obtener una información de modulación 162a-162c asociada con las señales de envolvente 122a-122c para una pluralidad de intervalos de frecuencias de modulación. La información de modulación describe la modulación (temporal) de las señales de envolvente.
[0090] La información de modulación 162a-162c se puede proporcionar, por ejemplo, con base en señales de salida de filtros de modulación o con base en señales de salida de un banco de filtros de modulación. Por ejemplo, la información de modulación 162a puede estar asociada con un primer intervalo de frecuencias, y puede describir, por ejemplo, la modulación de una primera señal de envolvente 122a (que está asociada con este primer intervalo de frecuencias) para una pluralidad de intervalos de frecuencias de modulación. En otras palabras, la información de modulación 162a puede no ser un valor escalar, pero puede comprender una pluralidad de valores (o incluso una pluralidad de secuencias de valores) que están asociados con diferentes frecuencias de modulación que están pre sentes en la primera señal de envolvente 122a que está asociada con un primer intervalo de frecuencias de la señal de audio de entrada. De manera similar, la segunda información de modulación 162b puede no ser un valor escalar, pero puede comprender una pluralidad de valores o incluso una pluralidad de secuencias de valores asociados con diferentes intervalos de frecuencias de modulación que están presentes en la segunda señal de envolvente 122b, que está asociada con un segundo intervalo de frecuencias de la señal de audio de entrada 110. Por lo tanto, para cada uno de una pluralidad de intervalos de frecuencias en consideración (para los cuales se proporcionan las señales de envolvente 122a-122c separadas por el determinador de señal de envolvente 120), la información de modulación puede ser proporcionada por una pluralidad de intervalos de frecuencias de modulación. Redactado de manera dife rente, para una porción (por ejemplo una trama) de la señal de audio de entrada 110, se proporciona una pluralidad de conjuntos de valores de información de modulación, donde los diferentes conjuntos están asociados con diferentes intervalos de frecuencias de la señal de audio de entrada, y donde cada uno de los conjuntos describe una pluralidad de intervalos de frecuencias de modulación (es decir, cada uno de los conjuntos describe la modulación de una señal de envolvente).
[0091] Por otra parte, el evaluador de similitud de audio comprende una comparación o comparador 180, que recibe la información de modulación 162a-162c y también una información de modulación de referencia 182a-182c que está asociada con una señal de audio de referencia. Por otra parte, la comparación 180 está configurada para comparar la información de modulación 162a-162c obtenida (obtenida con base en la señal de audio de entrada 110) con la información de modulación de referencia 182a-182c asociada con una señal de referencia, con el fin de obtener una información acerca de una similitud (considerada perceptualmente) entre la señal de audio de entrada 110 y la señal de audio de referencia.
[0092] Por ejemplo, la comparación 180 puede obtener un valor único que describe una similitud perceptual entre la señal de audio de entrada y la señal de audio de referencia como la información de similitud 112. Por otra parte, se debe tener en cuenta que la comparación 180 puede utilizar, por ejemplo, una representación de diferencia interna, donde la representación de diferencia interna puede describir, por ejemplo, una diferencia entre la información de modulación obtenida y la información de modulación de referencia. Por ejemplo, se pueden aplicar una o más operaciones de ponderación u operaciones de modificación, como un escalamiento de la representación de diferencia interna con base en un grado de co-modulación y/o una ponderación asimétrica de valores positivos y negativos de la representación de diferencia interna cuando se deriva la información de similitud.
[0093] Sin embargo, se debe tener en cuenta que más adelante se describen detalles adicionales (opcionales) de la determinación de señal de envolvente 120, de la determinación de información de modulación 160 y de la com paración 180 y se pueden introducir opcionalmente en el evaluador de similitud de audio 100 de la Figura 1, tanto individualmente como tomándose en combinación.
[0094] Opcionalmente, la información de modulación de referencia 182a-182c se puede obtener utilizando una determinación de información de modulación de referencia 190 opcional con base en una señal de audio de referencia 192. La determinación de información de modulación de referencia puede llevar a cabo, por ejemplo, la misma funcio nalidad que la determinación de señal de envolvente 120 y la determinación de información de modulación 160 con base en la señal de audio de referencia 192.
[0095] Sin embargo, se debe tener en cuenta que la información de modulación de referencia 182a-182c tam bién se puede obtener de una fuente diferente, por ejemplo, de una base de datos o de una memoria o de un dispositivo remoto que no sea parte del evaluador de similitud de audio.
[0096] Se debe tener en cuenta además que los bloques mostrados en la Figura 1 se pueden considerar como bloques (funcionales) o unidades (funcionales) de una implementación de hardware o de una implementación de soft ware como se detallará más adelante.
[0097] 2. Evaluador de similitud de audio según la Figura 2
[0098] Las Figuras 2a y 2b muestran un diagrama de bloques esquemático de un evaluador de similitud de audio 200, según una realización de la presente invención.
[0099] El evaluador de similitud de audio 200 está configurado para recibir una señal de audio de entrada 210 y proporcionar, con base en la misma, una información de similitud 212. Por otra parte, el evaluador de similitud de audio 200 puede estar configurado para recibir una información de modulación de referencia 282 o calcular la infor mación de modulación de referencia 282 por sí misma (por ejemplo, de la misma manera en la cual se calcula la información de modulación). La información de modulación de referencia 282 generalmente está asociada con una señal de audio de referencia.
[0100] El evaluador de similitud de audio 200 comprende una determinación de señal de envolvente 220, que puede comprender, por ejemplo, la funcionalidad de la determinación de señal de envolvente 120. El evaluador de similitud de audio también puede comprender una determinación de información de modulación 260 que puede com prender, por ejemplo, la funcionalidad de la determinación de información de modulación 160. Por otra parte, el eva luador de similitud de audio puede comprender una comparación 280 que puede corresponder, por ejemplo, a la comparación 180.
[0101] Por otra parte, el evaluador de similitud de audio 200 puede comprender opcionalmente una determina ción de co-modulación, que puede operar con base en diferentes señales de entrada y que se puede implementar de diferentes maneras. Ejemplos para la determinación de co-modulación también se muestran en el evaluador de similitud de audio.
[0102] En lo sucesivo, se describirán detalles de los bloques funcionales individuales o unidades funcionales del evaluador de similitud de audio 200.
[0103] La determinación de señal de envolvente 220 comprende una filtración 230, que recibe la señal de audio de entrada 210 y que proporciona, con base en la misma, una pluralidad de señales filtradas (preferiblemente filtradas de paso bajo) 232a-232e. La filtración 230 se puede implementar, por ejemplo, utilizando un banco de filtros y puede modelar, por ejemplo, una filtración de membrana basilar. Por ejemplo, los filtros se pueden considerar como “filtros auditivos” y se pueden implementar, por ejemplo, utilizando un banco de filtros Gammatone. En otras palabras, los anchos de banda de filtros de paso de banda que llevan a cabo la filtración pueden aumentar con el aumento de la frecuencia central de los filtros. Por lo tanto, cada una de las señales filtradas 232a-232e puede representar un cierto intervalo de frecuencias de la señal de audio de entrada, donde los intervalos de frecuencias se pueden superponer (o pueden no superponerse en algunas implementaciones).
[0104] Por otra parte, se puede aplicar procesamiento similar a cada una de las señales filtradas 232a, de tal manera que solamente se describirá en lo sucesivo una trayectoria de procesamiento para una señal filtrada 232c dada (representativa). Sin embargo, las explicaciones proporcionadas con respecto al procesamiento de la señal fil trada 232c se pueden tomar para el procesamiento de las otras señales filtradas 232a, 232b, 232d, 232e (donde, en el presente ejemplo, solamente se muestran cinco señales filtradas por el bien de simplicidad, mientras que se podría utilizar un número significativamente mayor de señales filtradas en implementaciones reales).
[0105] Una cadena de procesamiento, que procesa la señal filtrada 232c en consideración puede comprender, por ejemplo, una rectificación 236, una filtración de paso bajo 240 y una adaptación 250.
[0106] Por ejemplo, una rectificación de media onda 236 (que puede eliminar, por ejemplo, la media onda negativa y crear medias ondas positivas pulsantes) se puede aplicar a la señal filtrada 232c, para de esta manera obtener una señal rectificada 238. Además, se aplica una filtración de paso bajo 240 a la señal rectificada 238 para de esta manera obtener una señal de paso bajo 242 suave. La filtración de paso bajo puede comprender, por ejemplo, una frecuencia de corte de 1.000 Hz, pero se pueden aplicar diferentes frecuencias de corte (que pueden ser preferiblemente menores que 1.500 Hz o menores que 2.000 Hz).
[0107] La señal filtrada de paso bajo 242 se procesa por medio de una adaptación 250, que puede comprender, por ejemplo, una pluralidad de etapas de “control automático de ganancia” en cascada y opcionalmente una o más etapas de limitación. Las etapas de control automático de ganancia también se pueden considerar como “bucles de adaptación”. Por ejemplo, cada una de las etapas de control automático de ganancia (o control de ganancia adaptativo) puede comprender una estructura de bucle. La señal de entrada de una etapa de control automático de ganancia (o bucle de adaptación) (por ejemplo, para la primera etapa de control automático de ganancia, la señal filtrada de paso bajo 242, y para etapas de control automático de ganancia posteriores, la señal de salida de la etapa de control automático de ganancia previa) se puede escalar por medio de un control de ganancia adaptativo 254. Una señal de salida 259 de la etapa de control automático de ganancia puede ser la versión escalada de una señal de entrada de la etapa de control automático de ganancia respectiva, o una versión limitada de la versión escalada 255 (por ejemplo, en el caso de que se utilice una limitación opcional 256, que limite un intervalo de valores de la señal). En particular, la ganancia que se aplica en el escalamiento 254 puede ser variable en el tiempo, y se puede ajustar con una constante de tiempo asociada con la etapa de control automático de ganancia individual, en función de la señal escalada 255 proporcionada por la etapa receptiva. Por ejemplo, se puede aplicar una filtración de paso bajo 257 para derivar una información de control de ganancia 258 que determina una ganancia (o factor de escalamiento) del control de ganancia adaptativo 254. La constante de tiempo de la filtración de paso bajo 257 puede variar de etapa a etapa, para de esta manera modelar diferentes efectos de enmascaramiento que ocurren en el sistema auditivo humano. Se ha descu bierto que el uso de una pluralidad de etapas de control automático de ganancia aporta resultados particularmente buenos, donde se recomienda el uso de cinco etapas de control automático de ganancia en cascada (pero no necesariamente).
[0108] Como una alternativa (opcional) a la rectificación y filtración de paso bajo, se podría obtener una envol vente de Hilbert con base en las señales de salida 232a-232e de los filtros u operación de filtración 230, con el fin de obtener, por ejemplo, la señal 242.
[0109]
[0110] Generalmente hablando, es posible (opcionalmente) desmodular las señales de salida 232a-232e de los filtros u operación de filtración 230, con el fin de obtener, por ejemplo, la señal 242.
[0111] Para concluir, la adaptación 250 comprende una secuencia (o cascada) de etapas de control automático de ganancia, donde cada una de las etapas de control de ganancia lleva a cabo un escalamiento de su señal de entrada (la señal filtrada de paso bajo 242, o la señal de salida de la etapa previa) y opcionalmente una operación de limitación (para de esta manera evitar señales excesivamente grandes). El factor de ganancia o escalamiento aplicado en cada una de las etapas de control automático de ganancia se determina utilizando una estructura de bucle de retroalimentación en función de una salida de la operación de escalamiento respectiva, donde se introduce alguna inertidad (o retraso), por ejemplo, utilizando un filtro de paso bajo en la trayectoria de retroalimentación.
[0112] Para detalles adicionales con respecto a la adaptación, también se hace referencia a la descripción a continuación, donde cualquiera de los detalles descritos más adelante se pueden introducir opcionalmente en la adap tación 250.
[0113] La adaptación 250 proporciona una señal adaptada 252, que puede ser una señal de salida de una última etapa de control automático de ganancia de la cascada (o secuencia) de etapas de control automático de ganancia. La señal adaptada 252 se puede considerar, por ejemplo, como una señal de envolvente y puede correspon der, por ejemplo, a una de las señales de envolvente 122a a 122c.
[0114] Alternativamente, se puede aplicar opcionalmente una transformada logarítmica con el fin de obtener las señales de envolvente (222a a 222e).
[0115] Como otra alternativa, se puede aplicar opcionalmente otro modelado de un enmascaramiento hacia delante, con el fin de obtener las señales de envolvente (222a a 222e).
[0116] Como ya se mencionó, la determinación de señal de envolvente 220 puede proporcionar señales de envolvente individuales asociadas con los diferentes intervalos de frecuencias. Por ejemplo, se puede proporcionar una señal de envolvente por señal filtrada (señal de paso de banda) 232a-232e.
[0117] En lo sucesivo, se describirán detalles de la determinación de información de modulación.
[0118] La determinación de información de modulación recibe una pluralidad de señales de envolvente 222a-222e (por ejemplo, una señal de envolvente por intervalo de frecuencias de la señal de audio de entrada en conside ración). Por otra parte, la determinación de información de modulación 260 proporciona información de modulación 262a-262e (por ejemplo, para cada una de las señales de envolvente 222a-222e en consideración). En lo sucesivo, se describirá el procesamiento para una señal de envolvente 222c representativa, pero se puede llevar a cabo un procesamiento similar o idéntico para todas las señales de envolvente 222a-222e consideradas.
[0119] Por ejemplo, se aplica una filtración 264 a la señal de envolvente 222c. Alternativamente, dentro de la filtración 264, o además de la filtración 264, se puede aplicar un submuestreo. La filtración se puede llevar a cabo por medio de un banco de filtros de modulación o por medio de una pluralidad de filtros de modulación. En otras palabras, diferentes intervalos de frecuencias de la señal de envolvente 222c se pueden separar por medio de la herramienta de filtración 264 (donde dichos intervalos de frecuencias opcionalmente se pueden superponer). Por lo tanto, la filtra ción 264 generalmente proporciona una pluralidad de señales filtradas por modulación 266a-266e con base en la señal de envolvente 222c. Una eliminación de DC (opcional) 270 y una eliminación de información de fase (opcional) 274 se pueden aplicar a cada una de las señales filtradas por modulación 266a-266e, para de esta manera derivar señales filtradas por modulación post-procesadas 276a-276e. Las señales filtradas por modulación post-procesadas 276a-276e se asocian con diferentes frecuencias de modulación (o intervalos de frecuencias de modulación) dentro de un intervalo de frecuencias de la señal de audio de entrada 210. En otras palabras, las señales filtradas por modulación post-procesadas 276a-276e pueden representar un conjunto de valores de modulación asociados con un intervalo de frecuencias de la señal de audio de entrada 210 en la cual se basa la señal de envolvente 222c. De manera similar, se pueden obtener señales post-procesadas y filtradas por modulación, que están asociadas con diferentes intervalos de frecuencias de las señales de audio de entrada con base en diferentes señales de envolvente 222a, 222b, 222d, 222e, y pueden representar además conjuntos de valores de modulación asociados con intervalos de frecuencia res pectivos de la señal de audio de entrada.
[0120] Para concluir, la determinación de información de modulación 260 proporciona un conjunto de valores de modulación para cada intervalo de frecuencias de la señal de audio de entrada en consideración.
[0121] Por ejemplo, una cantidad de información se puede reducir de tal manera que solamente se proporcione un valor de modulación por frecuencia de modulación (o por intervalo de frecuencias de modulación) y por intervalo de frecuencias en consideración (de tal manera que las señales filtradas por modulación post-procesadas 276a-276e se representen de manera efectiva por un solo valor cada una (donde este valor único se puede considerar como un valor de modulación).
[0122] En lo sucesivo, se describirán detalles con respecto a la comparación 280.
[0123] La comparación 280 recibe los conjuntos 262a-262e de valores de modulación, que se proporcionan por la determinación de información de modulación 260 descrita anteriormente. También, la comparación 280 recibe generalmente los conjuntos 282a-282e de valores de modulación de referencia, que generalmente están asociados con la señal de audio de referencia y que se consideran como una información de modulación de referencia 282 en su totalidad.
[0124] La comparación 280 aplica opcionalmente un suavizado temporal 284 a los valores de modulación indi viduales de los conjuntos 262a-262e de valores de modulación. Además, la comparación 280 forma (o calcula) dife rencias entre valores de modulación respectivos y sus valores de modulación de referencia asociados.
[0125] En lo sucesivo, se describirá el procesamiento para un valor de modulación individual (representativo) (que está asociado con una frecuencia de modulación o intervalo de frecuencias de modulación, y que también está asociado con un intervalo de frecuencias de la señal de audio de entrada 210). Se debe tener en cuenta aquí que el valor de modulación en consideración se designa con 276c y que su valor de modulación de referencia asociado se designa como 283c. Como se puede observar, un suavizado temporal 284c se aplica opcionalmente al valor de mo dulación 276c antes de que se aplique una formación de diferencia 288c. La formación de diferencia 288c determina la diferencia entre el valor de modulación 276c y su valor de modulación de referencia 283c asociado. En consecuen cia, se obtiene un valor de diferencia 289c, donde, opcionalmente, se puede aplicar el suavizado temporal 290c al valor de diferencia 289c. Por otra parte, se aplica una ponderación 292c al valor de diferencia 289c o a una versión suavizada temporalmente 291c del mismo. La ponderación 292c puede depender, por ejemplo, de una información de co-modulación asociada con el intervalo de frecuencias al cual está asociado el valor de diferencia 289c. Por otra parte, la ponderación 292c opcionalmente también puede ser dependiente del signo o “asimétrica”.
[0126] Por ejemplo, si el intervalo de frecuencias asociado con el valor de diferencia 289c comprende una comodulación comparativamente alta con uno o más intervalos de frecuencias adyacentes, se puede aplicar un peso comparativamente alto al valor de diferencia 289c, o a la versión suavizada temporalmente 291c del mismo, y si el intervalo de frecuencias al cual está asociado el valor de diferencia 289c comprende una co-modulación comparativa mente pequeña con uno o más intervalos de frecuencia adyacentes, entonces se puede aplicar un peso comparativa mente pequeño al valor de diferencia 289c, o la versión suavizada temporalmente 291c del mismo. Por otra parte, se puede aplicar un peso comparativamente mayor a los valores positivos del valor de diferencia 289c o a la versión suavizada temporalmente 291c del mismo cuando se compara con valores negativos del valor de diferencia 289c o a la versión suavizada temporalmente 291c del mismo (o viceversa). En otras palabras, generalmente hablando se puede aplicar una ponderación dependiente del signo al valor de diferencia 289c o a la versión suavizada temporal mente 291c del mismo. En consecuencia, se obtiene el valor de diferencia ponderado 294c.
[0127] Sin embargo, generalmente hablando, se debe tener en cuenta que los valores de diferencia pondera dos (o valores de diferencia no ponderados, en el caso de que se omita la ponderación opcional) se obtienen para cada frecuencia de modulación (o intervalo de frecuencias de modulación) en consideración de cada intervalo de frecuencias de la señal de audio de entrada en consideración. Por lo tanto, se obtiene un número comparativamente grande de valores de diferencia ponderados, que se introducen en un procesamiento de combinación o procesamiento de evaluación 298.
[0128] El procesamiento de combinación o procesamiento de evaluación 298 puede formar, por ejemplo, un valor escalar único, que constituye la información de similitud 212, con base en los valores de diferencia ponderados (que, juntos, forman una “representación de diferencia” o “representación de diferencia interna IDR”). Por ejemplo, el procesamiento de combinación o procesamiento de evaluación puede llevar a cabo una combinación de suma de cuadrados de los valores de diferencia ponderados 294a a 294e, para de esta manera derivar la información de simi litud 212.
[0129] Para concluir, la determinación de señal de envolvente 220 proporciona señales de envolvente 222a-222e, por ejemplo, una para cada banda de frecuencia (de la señal de audio de entrada) en consideración. Una filtra ción o banco de filtros, una rectificación, una filtración de paso bajo y una adaptación se pueden utilizar en este pro cesamiento. La determinación de información de modulación determina, por ejemplo, un valor de modulación por frecuencia de modulación (o intervalo de frecuencias de modulación) en consideración y por intervalo de frecuencias (de la señal de audio de entrada) en consideración. Por lo tanto, hay un conjunto de valores de modulación por intervalo de frecuencias (de la señal de audio de entrada) en consideración. Se puede utilizar una filtración, una eliminación de DC y una eliminación de información de fase en este procesamiento. Finalmente, la comparación 280 compara los valores de modulación obtenidos con base en la señal de audio de entrada con los valores de modulación de referencia asociados con la señal de audio de referencia, donde se aplica opcionalmente una ponderación de los valores de diferencia. Finalmente, los valores de diferencia ponderados se combinan en una información de similitud compacta, que puede tomar la forma de un valor escalar único. Efectivamente, la comparación puede determinar un valor (esca lar) que representa la diferencia entre los valores de modulación obtenidos con base en la señal de audio de entrada y los valores de modulación asociados con la señal de audio de referencia. La comparación puede formar, por ejemplo, un “valor de distancia” o “norma”, donde se pueden aplicar opcionalmente diferentes tipos de ponderación.
[0130] En lo sucesivo, se describirán algunas opciones para la determinación de la co-modulación (o informa ción de co-modulación), donde se debe tener en cuenta que la información de co-modulación se puede utilizar, por ejemplo, para ajustar la ponderación de los valores de diferencia (por ejemplo, del valor de diferencia 289c) o de versiones suavizadas temporalmente de los mismos (por ejemplo, del valor de diferencia suavizado temporalmente 291c).
[0131] Como un ejemplo, se puede determinar una co-modulación con base en las señales de envolvente 222a-222e. Por ejemplo, un determinador de co-modulación 299a recibe las señales de envolvente 222a-222e, y propor ciona con base en las mismas, una información de co-modulación 299b. Por ejemplo, el determinador de co-modulación 299a puede aplicar (por ejemplo, individualmente) una filtración de paso bajo a las diferentes señales de envol vente 222a-222e. Por otra parte, el determinador de co-modulación 299a puede determinar, por ejemplo, una covarianza de dos o más señales de envolvente adyacentes (filtradas de paso bajo), para de esta manera obtener una información de co-modulación asociada con un cierto intervalo de frecuencias. Por ejemplo, el determinador de comodulación 299a puede determinar una covarianza entre una señal de envolvente 222c dada (de filtro de paso bajo) y dos, tres, cuatro o más señales de envolvente 222a, 222b, 222d, 222e asociadas con intervalos de frecuencias adyacentes, para de esta manera derivar la información de co-modulación asociada con el intervalo de frecuencias en consideración. Sin embargo, el determinador de co-modulación 299 puede determinar información de co-modulación individual para una pluralidad de intervalos de frecuencia (o, equivalentemente, asociada con una pluralidad de señales de envolvente).
[0132] Sin embargo, alternativamente, se puede utilizar un determinador de co-modulación 299c, que deter mina la información de co-modulación 299d con base en la información de modulación 262a-262e. Por ejemplo, el determinador de co-modulación 299c puede comparar la información de modulación asociada con intervalos de fre cuencia adyacentes, para de esta manera obtener la información de co-modulación (por ejemplo, para diferentes intervalos de frecuencia). Por ejemplo, si la modulación en uno, dos, tres, cuatro o más intervalos de frecuencias que son adyacentes a un intervalo de frecuencias dado es similar a la modulación en el intervalo de frecuencias dado, se puede indicar un grado de co-modulación comparativamente alto por la información de co-modulación (y viceversa). Por lo tanto, similar al determinador de co-modulación 299a, el determinador de co-modulación 299c puede propor cionar información de co-modulación individual asociada con diferentes intervalos de frecuencias.
[0133] Alternativamente, se puede utilizar un determinador de co-modulación 299e, que determina la informa ción de co-modulación 299f con base en una señal de audio de referencia. Por ejemplo, el determinador de co-modulación 299e puede determinar la información de co-modulación 299f con base en la información de modulación de referencia 282a-282e. Por ejemplo, el determinador de co-modulación 299e puede comprender la misma funcionalidad que el determinador de co-modulación 299c.
[0134] Sin embargo, el determinador de co-modulación 299e también puede determinar la información de comodulación 299f con base en la señal de audio de referencia utilizando el mismo planteamiento que el determinador de co-modulación 299a.
[0135] Sin embargo, se debe tener en cuenta que que también pueden ser útiles diferentes conceptos para la determinación de la información de co-modulación. También, se debe tener en cuenta que la determinación de la información de co-modulación se debe considerar como siendo opcional en su totalidad.
[0136] Opcionalmente, la información de modulación de referencia 282a-282e se puede obtener utilizando una determinación de información de modulación de referencia 281a opcional con base en una señal de audio de referencia 281. La determinación de información de modulación de referencia 281a puede llevar a cabo, por ejemplo, la misma funcionalidad que la determinación de señal de envolvente 220 y la determinación de información de modulación 260 con base en la señal de audio de referencia 281.
[0137]
[0138] Sin embargo, se debe tener en cuenta que la información de modulación de referencia 282a-282e tam bién se puede obtener de una fuente diferente, por ejemplo, de una base de datos o de una memoria o de un dispositivo remoto que no sea parte del evaluador de similitud de audio.
[0139] Para concluir, las Figuras 2a y 2b describen la funcionalidad de un evaluador de similitud de audio, según una realización de la invención. Sin embargo, se debe tener en cuenta que se podrían omitir o modificar sus tancialmente funcionalidades individuales, sin desviarse de los conceptos fundamentales. Se debe tener en cuenta que cualquiera de esos detalles que vayan más allá del concepto del evaluador de similitud de audio 100 se deben considerar como siendo opcionales, y se pueden omitir o modificar individualmente.
[0140] 3. Codificador de audio según la Figura 3
[0141] La Figura 3 muestra un diagrama de bloques esquemático de un codificador de audio 300, según una realización de la presente invención.
[0142] El codificador 300 está configurado para recibir una señal de audio de entrada 310 (que es una señal de audio que se va a codificar, o una “señal de audio original”) y para proporcionar, con base en la misma, una señal de audio codificada 312. El codificador 300 comprende una codificación (o codificador, o codificador central) 320, que está configurado para proporcionar la señal de audio codificada 312 con base en la señal de audio de entrada 310. Por ejemplo, la codificación 320 puede llevar a cabo una codificación en el dominio de las frecuencias del contenido de audio, que se puede basar en el concepto de codificación de AAC, o una de sus extensiones. Sin embargo, la codificación 320 puede llevar a cabo, por ejemplo, la codificación en el dominio de las frecuencias solamente para una parte del espectro, y puede aplicar una determinación paramétrica de parámetro de extensión de ancho de banda y/o una determinación paramétrica de parámetro de relleno de huecos (como, por ejemplo, el “relleno inteligente de hue cos” IGF), para de esta manera proporcionar la señal de audio codificada (que puede ser un flujo de bits que com prende una representación codificada de los valores espectrales, y una representación codificada de uno o más pará metros de codificación o parámetros de extensión de ancho de banda).
[0143] Se debe tener en cuenta, que la presente descripción se refiere a parámetros de codificación. Sin em bargo, en lugar de parámetros de codificación, todas las realizaciones pueden utilizar generalmente “parámetros de codificación”, que pueden ser parámetros de codificación (que generalmente se utilizan tanto por el codificador como por el decodificador, o solamente por el codificador) o parámetros de decodificación (que generalmente se utilizan solamente por el decodificador, pero que generalmente se señalizan al decodificador por el codificador).
[0144] Generalmente, la codificación 320 se puede ajustar a las características de la señal, y/o a una igualdad de codificación deseada, utilizando uno o más parámetros de codificación 324. Los parámetros de codificación pueden describir, por ejemplo, la codificación de los valores espectrales y/o pueden describir una o más características de la extensión de ancho de banda (o relleno de huecos), como una asociación entre mosaicos de origen y mosaicos de destino, un parámetro de blanqueamiento, etc.
[0145] Sin embargo, se debe tener en cuenta que también se pueden utilizar diferentes conceptos de codifica ción, como una codificación basada en codificación predictiva lineal.
[0146] Por otra parte, el codificador de audio comprende una determinación de parámetro de codificación que está configurada para determinar dichos uno o más parámetros de codificación en función de una evaluación de una similitud entre una señal de audio que se va a codificar y una señal de audio codificada. En particular, la determinación de parámetro de codificación 330 está configurada para evaluar la similitud entre la señal de audio que se va a codificar (es decir, la señal de audio de entrada 310) y la señal de audio codificada utilizando un evaluador de similitud de audio 340. Por ejemplo, la señal de audio que se va a codificar (es decir, la señal de audio de entrada 310) se utiliza como una señal de audio de referencia 192, 281 para la evaluación de similitud por medio del evaluador de similitud de audio 340 y una versión decodificada 362 de una señal de audio 352 codificada utilizando uno o más parámetros de codifi cación en consideración se utiliza como la señal de entrada (por ejemplo, como la señal 110, 210) para el evaluador de similitud de audio 340. En otras palabras, una versión codificada y posteriormente decodificada 362 de la señal de audio original 310 se utiliza como una señal de entrada 110, 210 para el evaluador de similitud de audio, y la señal de audio original 310 se utiliza como una señal de referencia 192, 281 para el evaluador de similitud de audio.
[0147] Por lo tanto, la determinación de parámetro de codificación 330 puede comprender, por ejemplo, una codificación 350 y una decodificación 360, así como una selección de parámetro de codificación 370. Por ejemplo, la selección de parámetro de codificación 370 puede estar acoplada con la codificación 350 (y opcionalmente también con la decodificación 360) para de esta manera controlar los parámetros de codificación utilizados por la codificación 350 (que generalmente corresponden a los parámetros de decodificación utilizados por la decodificación 360). En consecuencia, se obtiene una versión codificada 352 de la señal de audio de entrada 310 por la codificación 350, y se obtiene una versión codificada y decodificada 362 por la decodificación 360, donde la versión codificada y decodificada 362 de la señal de audio de entrada 310 se utiliza como una señal de entrada para la evaluación de similitud. Un retraso de códec posible introducido en la trayectoria de señal por medio de 350 y 360 se debe compensar preferible mente en la trayectoria directa de 310 antes de entrar a la evaluación de similitud.
[0148] En consecuencia, la selección de parámetro de codificación 370 recibe una información de similitud 342 del evaluador de similitud de audio 340. Generalmente, la selección de parámetro de codificación 370 recibe la infor mación de similitud 342 para diferentes parámetros de codificación o conjuntos de parámetros de codificación y des pués decide qué parámetro de codificación o qué conjunto de parámetros de codificación se debe utilizar para la provisión de la señal de audio codificada 312, que es producida por el codificador de audio (por ejemplo, en la forma de un flujo de bits de audio que será enviado a un decodificador de audio o para ser almacenado).
[0149] Por ejemplo, la selección de parámetro de codificación 370 puede comparar la información de similitud que se obtiene para diferentes parámetros de codificación (o para diferentes conjuntos de parámetros de codificación) y seleccionar esos parámetros de codificación para la provisión de la señal de audio codificada 312 que resulta en la mejor información de similitud o, al menos, en una información de similitud aceptablemente buena.
[0150] Por otra parte, se debe tener en cuenta que la evaluación de similitud 340 se puede implementar, por ejemplo, utilizando el evaluador de similitud de audio 100 según la Figura 1 o utilizando el evaluador de similitud de audio 200 según la Figura 2 (o utilizando cualquiera de los otros evaluadores de similitud de audio comentados en esta invención). Por otra parte, se debe tener en cuenta que la codificación 320 se puede omitir opcionalmente. Por ejemplo, la información de audio codificada 352, que se proporciona como una información intermedia cuando se selecciona el parámetro de codificación o parámetros de codificación, se puede mantener (por ejemplo, guardar como información temporal) y se puede utilizar en la provisión de la señal de audio codificada 312.
[0151] Se debe tener en cuenta que el codificador de audio 300 según la Figura 3 se puede complementar por medio de cualquiera de las características, funcionalidades y detalles descritos en esta invención, tanto individual mente como tomados en combinación. En particular, cualquiera de los detalles del evaluador de similitud de audio descritos en esta invención se pueden introducir en el evaluador de similitud de audio 340.
[0152] 4. Codificador de audio 400 según la Figura 4.
[0153] La Figura 4 muestra un diagrama de bloques esquemático de un codificador de audio 400, según una realización de la presente invención.
[0154] Se debe tener en cuenta que el codificador de audio 400 es similar al codificador de audio 300, de tal manera que las explicaciones anteriores también aplican. Aquí, el codificador de audio 400 está configurado para recibir una señal de audio de entrada 410 y proporcionar, con base en la misma, una señal de audio codificada o una información de audio codificada 412, que puede, por ejemplo, tomar la forma de un flujo de bits que comprende valores espectrales codificados y parámetros de codificación codificados.
[0155] El codificador de audio 400 comprende una codificación 420, que puede corresponder, por ejemplo, a la codificación 320. Sin embargo, la codificación 420 puede comprender, por ejemplo, una provisión de parámetro de extensión de ancho de banda 422, que puede proporcionar parámetros de extensión de ancho de banda (preferible mente codificados) que se pueden utilizar, en el lado de un decodificador de audio, para una extensión de ancho de banda guiada por parámetros (como, por ejemplo, un relleno de huecos). Por lo tanto, la codificación puede propor cionar, por ejemplo, valores espectrales codificados (por ejemplo, en un intervalo de baja frecuencia) como, por ejemplo, un espectro de MDCT cuantificado codificado. Además, la codificación 420 puede proporcionar, por ejemplo, parámetros de extensión de ancho de banda (preferiblemente codificados) que pueden describir, por ejemplo, una asociación entre uno o más mosaicos de origen y uno o más mosaicos de destino y opcionalmente también un nivel de blanqueamiento. Por ejemplo, los parámetros de extensión de ancho de banda pueden tomar la forma de una información complementaria de relleno inteligente de huecos (IGF). Sin embargo, los parámetros de extensión de ancho de banda también pueden corresponder a cualquier otro concepto de extensión de ancho de banda. Por lo tanto, ambos de los valores espectrales codificados y los parámetros de extensión de ancho de banda se pueden poner en una representación de audio codificada, que puede tomar la forma de un flujo de bits.
[0156] Por otra parte, el codificador de audio 400 también comprende una determinación de parámetro de codificación 430, que puede corresponder a la determinación de parámetro de codificación 330. Por ejemplo, la deter minación de parámetro de codificación 430 se puede utilizar para determinar uno o más parámetros de extensión de ancho de banda, como uno o más parámetros que describen una asociación entre uno o más mosaicos de origen y uno o más mosaicos de destino en la extensión de ancho de banda y opcionalmente también un parámetro que des cribe un nivel de blanqueamiento.
[0157] Opcionalmente, la determinación de parámetro de codificación 430 también comprende una restricción de cambio de asociación 480. La restricción de cambio de asociación 480 está configurada para prevenir cambios de parámetros de codificación, en particular un cambio de una asociación entre un mosaico de origen y un mosaico de destino, si tal cambio del parámetro provocaría una distorsión audible. Por ejemplo, la restricción de cambio de asociación 480 puede comprender una determinación de intensidad de modulación 484 que puede determinar, por ejem plo, una intensidad 485 de una modulación en las señales de envolvente, donde la frecuencia de modulación consi derada por la determinación de intensidad de modulación 484 puede corresponder a una frecuencia de tramas de la señal de audio de entrada. Por otra parte, la restricción de cambio de asociación 480 puede comprender una determi nación de medida de sensibilidad 486 que determina una información de sensibilidad con base en la información de intensidad de modulación proporcionada por la determinación de intensidad de modulación 484. La medida de sensi bilidad determinada por la determinación de medida de sensibilidad 486 puede describir, por ejemplo, la cantidad de impresión de audición que se podría degradar por un cambio de una asociación entre un mosaico de origen y un mosaico de destino. Si la medida de sensibilidad proporcionada por la determinación de medida de sensibilidad 486 indica que un cambio de la asociación entre un mosaico de origen y un mosaico de destino tendría un impacto fuerte (o significativo, o notable) en la impresión de audición, se previene un cambio de la asociación entre el mosaico de origen y el mosaico de destino por la compuerta de cambio de asociación 488. Por ejemplo, la evaluación de la medida de sensibilidad se puede llevar a cabo utilizando una comparación de umbral 489, que compara la medida de sensibi lidad 487 con un valor de umbral, para decidir si se debe permitir o prevenir un cambio de la asociación.
[0158] En consecuencia, la información de parámetro de codificación 424 se proporciona en la forma de pará metros de codificación “restringidos”, donde se impone una restricción por la restricción de cambio de asociación 480 en un cambio de la asociación entre un mosaico de origen y un mosaico de destino.
[0159] Para concluir, la restricción de cambio de asociación 480 opcional puede prevenir un cambio de los parámetros de codificación en momentos en que tal cambio de los parámetros de codificación llevaría a distorsiones audibles. En particular, la restricción de cambio de asociación 480 puede prevenir un cambio de una asociación entre un mosaico de origen y un mosaico de destino en una extensión de ancho de banda si tal cambio de la asociación daría como resultado una degradación fuerte o significativa o notable de una impresión de audición. La evaluación en cuanto a si ocurriría la degradación de la impresión de audición, se hace con base en una evaluación de una intensidad de modulación, como se describió anteriormente.
[0160] Sin embargo, el codificador de audio 400 se puede complementar opcionalmente por cualquiera de las características, funcionalidades y detalles con respecto a cualquiera de los otros codificadores de audio, tanto indivi dualmente como tomados en combinación.
[0161] 5. Codificador de audio según la Figura 5
[0162] La Figura 5a muestra un diagrama de bloques esquemático de un codificador de audio 500, según una realización de la presente invención.
[0163] El codificador de audio 500 está configurado para recibir una señal de audio de entrada 510 y propor cionar, con base en la misma, una señal de audio codificada 512. La señal de audio de entrada 510 puede correspon der, por ejemplo, a la señal de audio de entrada 310, y la señal de audio codificada 512 puede corresponder sustan cialmente, por ejemplo, a la señal de audio codificada 312.
[0164] El codificador de audio 500 también comprende una codificación 520 que puede corresponder sustan cialmente a la codificación 320 descrita anteriormente. La codificación 520 recibe una información de parámetro de codificación 524 de una red neural 530, que toma el lugar de la determinación de parámetro de codificación 330. La red neural 530 recibe, por ejemplo, la señal de audio de entrada 510 y proporciona, con base en la misma, la informa ción de parámetro de codificación 524.
[0165] Se debe tener en cuenta que la red neural 530 se entrena utilizando datos de entrenamiento 532 que se proporcionan utilizando un evaluador de similitud de audio como se describe en esta invención o utilizando una determinación de parámetro de codificación 330, 430 como se describe en esta invención. En otras palabras, los parámetros de codificación, que se proporcionan a la red neural 530 como parte de los datos de entrenamiento 532, se obtienen utilizando el evaluador de similitud de audio 100, 200 como se describe en esta invención.
[0166] En consecuencia, la red neural 530 proporciona generalmente parámetros de codificación 524, que son muy similares a los parámetros de codificación que se obtendrían utilizando un codificador de audio 300 o un codifi cador de audio 400, que en realidad toma la decisión acerca de los parámetros de codificación utilizando tal evaluador de similitud de audio 100, 200. En otras palabras, la red neural 530 se entrena para aproximar la funcionalidad de la determinación de parámetro de codificación 330, 430, que se logra utilizando parámetros de codificación obtenidos utilizando un evaluador de similitud de audio 100, 200 como parte de los datos de entrenamiento para entrenar la red neural 530.
[0167] Detalles adicionales con respecto al codificador de audio 500 y generalmente con respecto al uso de una red neural 530 en un codificador de audio se proporcionarán más adelante.
[0168] Redactándolo de manera diferente, una determinación de parámetro de codificación 330 o una determi nación de parámetro de codificación 430 se podría utilizar para proporcionar datos de formación para la red neural 530 para preparar la red neural para llevar a cabo una funcionalidad que sea tan similar como sea posible a la funcionalidad de la determinación de parámetro de codificación 330, 430.
[0169] Una formación de la red neural 530 en un modo de formación se muestra en la Figura 5b. Para la formación, se proporcionan preferiblemente diferentes señales de audio de entrada de entrenamiento y parámetros de codificación de entrenamiento asociados con las diferentes señales de audio de entrada de formación a la red neural como datos de formación. Las señales de audio de entrada de formación sirven como señales de entrada para la red neural, y los parámetros de codificación de formación son señales de salida deseadas de la red neural. Los parámetros de codificación (de formación) proporcionados a la red neural como datos de formación generalmente se obtienen de antemano utilizando un evaluador de similitud de audio, como se discute en esta invención, o por medio de una determinación de parámetro de codificación, como se discute en esta invención (con base en las señales de audio de entrada de formación que se proporcionan a la red neural durante el modo de formación).
[0170] Sin embargo, se debe tener en cuenta que el codificador de audio 500 se puede complementar opcio nalmente por medio de cualquiera de las características, funcionalidades y los detalles descritos en esta invención, tanto individualmente como tomados en combinación.
[0171] 6. Evaluador de similitud de audio según la Figura 6
[0172] La Figura 6 muestra un diagrama de bloques esquemático de un evaluador de similitud de audio 600, según una realización de la presente invención. El evaluador de similitud de audio 600 está configurado para recibir una señal de audio de entrada 610 y proporcionar, con base en la misma, una información de similitud 612.
[0173] El evaluador de similitud de audio 600 comprende una determinación de señal de envolvente 620, que está configurada para obtener señales de envolvente 622a-622c para una pluralidad de intervalos de frecuencias (preferiblemente superpuestos) con base en la señal de audio de entrada 610. Por ejemplo, se puede utilizar un banco de filtros o un banco de filtros Gammatone para proporcionar las señales de envolvente 622a-622c. Opcionalmente, también se puede utilizar una rectificación y/o una filtración de paso bajo temporal y/o uno o más procesos de adap tación (que pueden modelar, por ejemplo, un pre-enmascaramiento y/o post-enmascaramiento en un sistema auditivo) para obtener las señales de envolvente 622a-622c.
[0174] Por otra parte, el evaluador de similitud está configurado para obtener una representación de análisis 662a-662c. La representación de análisis 662a-662c puede corresponder, por ejemplo, a las señales de envolvente 622a-622c o se puede basar, por ejemplo, en la señal de envolvente 622a-622c. La representación de análisis 662a-662c puede ser, por ejemplo, una “representación interna”, como una información de modulación o una representación en el dominio del tiempo-frecuencia.
[0175] Por otra parte, el evaluador de similitud de audio 600 comprende una comparación (o un comparador 680 y por lo tanto está configurado para comparar la representación de análisis 662a-662c de la señal de audio de entrada con una representación de análisis de referencia 682a-682c que está asociada con una señal de audio de referencia. Por ejemplo, la comparación 680 puede comprender la formación de una representación de diferencia interna, donde la representación de diferencia interna puede describir, por ejemplo, una diferencia entre la represen tación de análisis obtenida y la representación de análisis de referencia. Se pueden aplicar una o más operaciones de ponderación u operaciones de modificación cuando se determina la representación de diferencia interna, como un escalamiento de la representación de diferencia interna con base en un grado de co-modulación y/o una ponderación asimétrica de valores positivos y negativos de la representación de diferencia interna. En consecuencia, se puede obtener la información de similitud (que se puede considerar como una información acerca de la similitud entre la señal de audio de entrada y la señal de audio de referencia). La información de similitud puede tomar, por ejemplo, la forma de un valor único que describe una similitud perceptual entre la señal de audio de entrada y la señal de audio de referencia.
[0176] El evaluador de similitud de audio está configurado para ajustar una ponderación de una diferencia entre la representación de análisis 662a-662c obtenida (por ejemplo, una información de modulación o, generalmente, una “representación interna”) y la información de análisis de referencia 682a-682c (por ejemplo, una información de mo dulación de referencia asociada con una señal de audio de referencia) en función de una co-modulación (por ejemplo, entre las señales de envolvente 622a-622c obtenidas o una información de modulación obtenida) en dos o más intervalos de frecuencias acústicas adyacentes de la señal de audio de entrada o en función de una co-modulación (por ejemplo, entre señales de envolvente asociadas con la señal de referencia o entre una información de modulación de referencia asociada con la señal de referencia) en dos o más intervalos de frecuencias acústicas de la señal de audio de referencia. Por ejemplo, se puede dar un mayor peso a una diferencia en el caso de que se encuentre un grado de co-modulación comparativamente alto (para un intervalo de frecuencias bajo consideración) cuando se compara con un caso en el cual se encuentra un grado de co-modulación comparativamente bajo (para el intervalo de frecuencias en consideración). El grado de co-modulación se puede encontrar, por ejemplo, determinando una covarianza entre envolventes temporales asociadas con diferentes intervalos de frecuencias acústicas (o por medio de cualquier otro concepto).
[0177] En otras palabras, en el evaluador de similitud de audio 600, tales componentes de una diferencia entre la representación de análisis 662a-662c (que generalmente comprende una pluralidad de valores para una trama única de la señal de audio de entrada) y la representación de análisis de referencia 682a-682c (que generalmente también comprende una pluralidad de valores individuales para una trama única de la señal de audio de entrada o de la señal de audio de referencia) se enfatizan (se ponderan relativamente fuertemente) los cuales están asociados con bandas de frecuencia que tienen una co-modulación comparativamente alta con otras bandas de frecuencia adyacentes.
[0178] En consecuencia, en la comparación 680, se enfatizan las diferencias entre la representación de análisis 662a-662c y la representación de análisis de referencia 682a-682c que ocurren en bandas de frecuencia que com prenden una co-modulación comparativamente alta (mientras las diferencias se ponderan más bajo si están en bandas de frecuencia que comprenden una co-modulación comparativamente más pequeña). Se ha descubierto que tal eva luación de similitud de audio aporta una información de similitud 612 que tiene una buena fiabilidad (y conformidad con una impresión perceptual).
[0179] Sin embargo, se debe tener en cuenta que el evaluador de similitud de audio 600 se puede complementar opcionalmente por medio de cualquiera de las características, funcionalidades y detalles descritos en esta inven ción, tanto individualmente como tomados en combinación.
[0180] 7. Consideraciones con respecto a la evaluación de la calidad de audio y similitud de audio [0181] 7.1 Modelo de Dau
[0182] Una estrategia de modelado que incorpora suposiciones específicas acerca del procesamiento perceptual de información de envolvente temporal presente dentro de bandas críticas fue propuesta por Dau y col. [9, 10]. Además de diferentes etapas de procesamiento que representan el procesamiento de señal efectivo del sistema au ditivo periférico (consultar [11]) este modelo supone que la forma de envolvente temporal observada dentro de cada banda crítica se procesa por medio de un banco de filtros de modulación. Este banco de filtros de modulación repre senta la resolución espectral del sistema auditivo en el dominio de modulación (consultar [12]).
[0183] Se ha descubierto que el modelo de Dau, o un modelo derivado de (o basado en) el modelo de Dau, se puede utilizar con buen desempeño para la evaluación de similitud de audio (por ejemplo, en los evaluadores de similitud de audio y codificadores de audio descritos en esta invención).
[0184] 7.2 Beneficio de modelo para controlar BWE
[0185] Según un aspecto de la invención, utilizar tal planteamiento de modelado puede ser beneficioso para representaciones paramétricas de señal tales como BWE. Más específicamente, se ha descubierto que para señales con tono que a menudo ocurren en la música, replicar una porción de baja frecuencia de un tono complejo en frecuen cias más altas creará una estructura de envolvente periódica que puede asemejarse bastante bien a la estructura de envolvente de la señal original, incluso cuando la forma de onda representada paramétricamente en sí difiere sustan cialmente de la de la señal original.
[0186] Según un aspecto de la invención, un modelo perceptual que puede evaluar la similitud percibida de esta información de envolvente temporal puede ayudar a dirigir las decisiones de codificación que afectan a la envol vente temporal tales como el ruido y el ajuste de tonalidad en BWE y técnicas similares.
[0187] En consecuencia, las realizaciones según la invención utilizan el modelo de Dau, o un modelo derivado del mismo, para la evaluación de similitud de audio y para la decisión de qué parámetros de codificación se deben utilizar.
[0188] 8. Modelo psicoacústico propuesto
[0189] 8.1 Consideraciones generales
[0190] En esta sección se presentará un modelo para el cual las primeras etapas de procesamiento se aseme jan principalmente al modelo de Dau y col. [9] como se representa en la Figura 7. En las últimas etapas de procesamiento, el modelo se extiende opcionalmente para incluir algunos fenómenos perceptuales adicionales y hacer el modelo adecuado para decisiones de codificación que tienen consecuencias perceptuales en una escala temporal local y una más global. De acuerdo con el modelo original de Dau y col. [9] una entrada al modelo se convierte en una llamada representación interna (IR, Internal Representation). Esta IR es una transformación de la señal de entrada en un dominio perceptual que contiene toda la información disponible para procesamiento auditivo adicional. Debido al ruido interno agregado en la IR, no serán detectables pequeños cambios en la IR debido a cambios en la señal de entrada. Este proceso modela la detectabilidad perceptual de cambios en la señal de entrada.
[0191] La Figura 7 muestra un diagrama esquemático de un flujo de señal de bloques de procesamiento del modelo de procesamiento auditivo de Dau y col. El modelo 700 comprende una filtración de membrana basilar 720, que puede aplicar, por ejemplo, una filtración de membrana basilar a una señal de audio de entrada 710. La filtración de membrana basilar 720 proporciona, por ejemplo, una pluralidad de señales de paso de banda que cubren diferentes intervalos de frecuencias (posiblemente superpuestos) de las señales de audio de entrada 710. Las señales de salida 732a-732e de la filtración de membrana basilar 720 pueden corresponder, por ejemplo, a las señales 232a-232e pro porcionadas por la filtración 230.
[0192] El modelo 700 también comprende una pluralidad de trayectorias paralelas de señal, que operan en las diferentes señales de salida 732a-732e de la filtración de membrana basilar 720. Por razones de simplicidad, sola mente se muestra una trayectoria de procesamiento, que comprende una rectificación de media onda y una filtración de paso bajo 736 que pueden corresponder, por ejemplo, a la rectificación 236 y a la filtración de paso bajo 240 de la determinación de señal de envolvente 220. Por otra parte, el modelo también comprende una adaptación 750 que puede corresponder, por ejemplo, a la adaptación 250. En consecuencia, en la salida de la adaptación, que recibe un resultado de la rectificación de media onda y filtración de paso bajo 736 (que se aplica a la señal de salida 732c respectiva de la filtración de membrana basilar 720) se proporciona una señal de envolvente 722c, que puede corres ponder a la señal de envolvente 222c. Por otra parte, el modelo 700 también comprende un banco de filtros de modulación 760, que está asociado con un intervalo de frecuencias de la filtración de membrana basilar 720 (por ejemplo, con una señal de salida 732c de la filtración de membrana basilar 720). En otras palabras, puede haber una pluralidad de (por ejemplo, separados) bancos de filtros de modulación asociados con diferentes intervalos de frecuencias de la filtración de membrana basilar. El banco de filtros de modulación 760 proporciona, en su salida, señales de modulación 766a-766e, que están asociadas con diferentes frecuencias de modulación.
[0193] El modelo 700 comprende opcionalmente una adición de ruido 768, que agrega ruido a las señales de salida del banco de filtros de modulación 760. El modelo 700 también comprende un “detector óptimo” 780 que puede corresponder, por ejemplo, a la comparación 280.
[0194] En otras palabras, los componentes del modelo 700 se pueden utilizar, por ejemplo, en los evaluadores de similitud de audio descritos en esta invención. En consecuencia, las características, funcionalidades y detalles que se describen en lo sucesivo con respecto a los componentes individuales del modelo 700 se pueden implementar opcionalmente de manera individual y en combinación en los evaluadores de similitud de audio y codificadores de audio descritos en esta invención.
[0195] 8.2 Banco de filtros Gammatone (los detalles son opcionales)
[0196] El modelo propuesto, que se puede utilizar, por ejemplo, en los determinadores de señal de envolvente 120, 220, o en la filtración 230, inicia con el procesamiento de la señal de entrada 110, 210, 710 con un banco de filtros Gammatone de 4° orden que consta de, por ejemplo, 42 filtros espaciados uniformemente en una escala perceptual a través del intervalo de frecuencias abarcando, por ejemplo, 150 Hz hasta 16 kHz. Esta etapa representa el análisis de señal espectral dentro de la cóclea auditiva. Un rasgo obvio en las respuestas de impulso de membrana basilar es que las respuestas de impulso de alta frecuencia son mucho más cortas que las de frecuencia baja tal como se puede observar en la Figura 8, que muestra una representación esquemática de respuestas de impulso de banco de filtros Gammatone.
[0197] La longitud de la ventana de análisis temporal que se requiere para lograr una resolución de frecuencia de aproximadamente el 12 % de la frecuencia central según estimados comunes de ancho de banda de filtro auditivo (consultar [13]) se puede lograr con ventanas de tiempo proporcionalmente más cortas a medida que aumenta la frecuencia central. Esto explica por qué las respuestas de impulso de partes basales de alta frecuencia de la membrana basilar son más cortas que las de las partes apicales de baja frecuencia. Una resolución de frecuencia del 12 % de la frecuencia central por supuesto significa que, en términos absolutos, la región de frecuencia alta de la mem brana basilar logra solamente una resolución espectral pobre, pero una resolución temporal alta, mientras que para la región de baja frecuencia ocurre lo contrario.
[0198] 8.3 Células ciliadas internas (los detalles son opcionales)
[0199] Cada salida del filtro Gammatone se procesa por medio de un modelo simple de las células ciliadas internas, que, por ejemplo, consiste en una rectificación de media onda seguida por un filtro de paso bajo con una frecuencia de corte en 1.000 Hz (por ejemplo, mostrado en el número de referencia 736). La salida de este modelo de célula ciliada interna representa la tasa de potenciales de acción en fibras del nervio auditivo que se supone aquí que tiene una resolución temporal limitada.
[0200] La rectificación de media onda en el modelo de célula ciliada simple se relaciona con el hecho de que los estereocilios (“cabellos”) solo abren sus canales iónicos cuando se empujan hacia un lado, lo que da como resultado cambios en el potencial en la célula (véase la Figura 9 que muestra una representación esquemática de un órgano de Corti). La tasa de cambio del potencial resultante es limitada. Por lo tanto, la tasa de disparo en el nervio auditivo se puede sincronizar con la estructura fina del movimiento de la membrana basilar solamente para frecuencias relati vamente bajas. Este comportamiento general se implementa por medio del filtro de paso bajo (que, por ejemplo, tam bién se muestra en el número de referencia 736).
[0201] Las funcionalidades del modelo de célula ciliada interna se pueden implementar, por ejemplo, en los bloques 236, 240 de la determinación de señal de envolvente 220.
[0202] 8.4 Procesos de adaptación, enmascaramiento (los detalles son opcionales)
[0203] Después del procesamiento de las células ciliadas internas, sigue una secuencia de (por ejemplo) cinco bucles de adaptación (por ejemplo, incluidos en la adaptación 750). Estos representan los procesos de adaptación que ocurren en el sistema auditivo que se manifiestan a sí mismos en el fenómeno de enmascaramiento hacia delante (post-enmascaramiento) observado después del desfase de una señal de audio. Por ejemplo, cada bucle de adaptación consta de (o comprende) un control de ganancia adaptativo que se atenúa por la salida filtrada de paso bajo del mismo bucle de adaptación (es decir, un bucle de retroalimentación). Para entender la función de tal bucle de adapta ción, considerar el comienzo y desfase de una señal. Al comienzo de la señal, la atenuación inicial es pequeña debido a que no hubo entrada/salida previa, que resulta en una salida “excesiva” grande del bucle de adaptación. La salida filtrada de paso bajo aumentará y comenzará a atenuar la salida del bucle de adaptación hasta que se alcance un equilibrio.
[0204] Para señales de entrada con un nivel constante, la salida de estado estable de los, por ejemplo, cinco bucles de adaptación se puede, por ejemplo, escalar linealmente para que sea muy similar a una transformación de decibelios según nuestra percepción de volumen. En este modelo, para evitar el exceso considerable en el comienzo de una señal, se aplica un límite duro a la salida de los bucles de adaptación igual a la señal de entrada transformada en decibelios. En el desfase de una señal, la atenuación persistirá por algún tiempo hasta que se disminuya el efecto de filtro de paso bajo. Esta atenuación modela el efecto de enmascaramiento hacia delante; es decir, la sensibilidad reducida para detectar una señal de destino debido a una señal “enmascaradora” auditiva precedente.
[0205] Tal adaptación puede ser proporcionada, por ejemplo, por la adaptación 250.
[0206] 8.5 Banco de filtros de modulación (los detalles son opcionales)
[0207] Los bucles de adaptación son seguidos, por ejemplo, por un banco de filtros de modulación 760. Consta de un intervalo de, por ejemplo, filtros de 5 Hz de ancho con frecuencias centrales, por ejemplo, de 0 Hz hasta 20 Hz, seguidos por filtros, por ejemplo, con Q = 4 separados por etapas que corresponden al ancho de banda de filtro de modulación hasta que se alcance una frecuencia central máxima de, por ejemplo, 243 Hz. Por lo tanto, la resolución espectral en el dominio de modulación es más alta en este modelo que en [9] y la frecuencia de modulación más alta se limita para que esté más de acuerdo con las frecuencias de modulación máximas que pueden ser procesadas por los humanos (consultar [15]). Las salidas de filtro son, por ejemplo, de valor complejo, representando solamente fre cuencias positivas.
[0208] Una modificación adicional se hace (opcionalmente) a los filtros de modulación. Con un factor Q de solamente 4, se puede esperar que cada filtro de modulación atenúe el componente de DC de la envolvente sólo en un grado limitado. Dado que los componentes de DC en la envolvente tienen una alta amplitud con relación a los componentes modulados, el componente de DC puede desempeñar un papel dominante en la salida de filtros de modulación, incluso cuando se ajustan a frecuencias centrales altas.
[0209] Para eliminar el componente de DC, se filtra por paso bajo, por ejemplo, la salida de cada filtro de modulación con una frecuencia de corte de la mitad de la frecuencia central del filtro de modulación. Después, se restan, por ejemplo, los valores absolutos de la salida del banco de filtros de modulación y el filtro de paso bajo entre sí. De esta forma, se elimina el componente de DC así como la información de fase de modulación que aquí se supone que no se procesa directamente por el sistema auditivo. Tal funcionalidad se puede llevar a cabo, por ejemplo, por la eliminación de DC 270.
[0210] La implicación del procesamiento de la información de fase de la envolvente temporal sería que sería perceptible la sincronización exacta de los eventos auditivos. Un estudio por Vafin y col. [16] demostró que los oyentes son insensibles a un pequeño desplazamiento en la sincronización de comienzos. La eliminación de DC es especial mente relevante en una etapa de control de codificador que se describe en esta invención (por ejemplo, posteriormente en (Sec. 9.3)). Esta etapa requiere opcionalmente (o debe tener preferiblemente) la intensidad de modulaciones sin componentes de DC como una entrada para tomar decisiones en cuanto a si se permite cambiar de una a otra opción de codificación
[0211] La funcionalidad del banco de filtros de modulación se puede llevar a cabo, por ejemplo, por medio de la filtración 264. La funcionalidad se puede complementar, por ejemplo, por la eliminación de DC 270 y por la elimina ción de información de fase 274.
[0212] 8.6 Representación interna (IR) (los detalles son opcionales)
[0213] Las salidas resultantes de todos los filtros de modulación a través de todos los filtros auditivos constitu yen, por ejemplo, la representación interna (IR). En principio, las IRs de la señal original y codificada se pueden com parar; por ejemplo, la suma de todas las diferencias cuadradas a través de la IR completa proporciona una métrica para la audibilidad de las diferencias entre la señal original y codificada (consultar [17]). Por ejemplo, tal comparación se puede llevar a cabo por medio del bloque de comparación 280 (por ejemplo, utilizando la combinación/evaluación 298).
[0214] Para incluir algunos aspectos de etapas adicionales de procesamiento auditivo, se hacen (opcional mente) tres modificaciones a las diferencias entre ambas IRs (que será denominado como representación de diferencia interna (IDR, Internal Difference Representation)).
[0215] IDR resultante se puede utilizar para tomar decisiones acerca de las opciones de codificación que están disponibles (o, dicho de otra manera, decisiones acerca de los parámetros de codificación). Cada opción de codifica ción implica una elección específica de parámetros con los cuales se hace la codificación. La IDR proporciona una métrica que predice el nivel de distorsión perceptual creada por la opción de codificación correspondiente. Después se selecciona la opción de codificación que lleva a la distorsión perceptual mínima predicha (por ejemplo, utilizando una selección de parámetro de codificación 370).
[0216] 8.7 Liberación de enmascaramiento de co-modulación (CMR, Comodulation Masking Release) (los de talles son opcionales)
[0217] La primera modificación (opcional) de la IDR se relaciona con la co-modulación de bandas espectrales. Se ha descubierto que para enmascaradores que se co-modulan temporalmente a través de bandas de frecuencia, se pueden detectar tonos agregados en niveles mucho más bajos (consultar [18]) que para enmascaradores no correla cionados temporalmente. Este efecto se denomina como liberación de enmascaramiento de co-modulación (CMR). También en altas frecuencias, la co-modulación de bandas de frecuencia lleva a menos enmascaramiento [19].
[0218] Esto nos lleva a inferir que para señales co-moduladas, también se detectarían más fácilmente diferen cias en las IRs entre la señal original y la codificada (por ejemplo, por un oyente humano).
[0219] Para tomar en cuenta este efecto, la IDR se amplía opcionalmente con base en el grado de co-modulación (por ejemplo, en la ponderación 292a a 292e).
[0220] El grado de co-modulación se determina, por ejemplo, midiendo el grado de covarianza entre las envol ventes temporales del filtro auditivo en consideración con los cuatro filtros auditivos adyacentes (dos por debajo y dos por encima del filtro considerado). Por ejemplo, la salida de los bucles de adaptación, seguida por un filtro de paso bajo opcional (con una constante de tiempo de 0.01 segundo) se utilizó para representar las envolventes temporales de las salidas de filtro auditivo.
[0221] Esta determinación del grado de co-modulación se puede llevar a cabo, por ejemplo, por medio del determinador de co-modulación 299a.
[0222] En comparaciones preliminares de predicciones de modelo con calificaciones subjetivas, se obtuvieron mejores predicciones mediante la inclusión de efectos de CMR en el modelo. Sin embargo, hasta donde sabemos, la CMR no se ha tomado en cuenta en el contexto de audio perceptual hasta ahora.
[0223] 8.8 Suavizado temporal (los detalles son opcionales)
[0224] En segundo lugar, la representación interna se suaviza temporalmente (opcionalmente) a través de una duración de aproximadamente 100 ms. Este suavizado temporal se puede llevar a cabo, por ejemplo, por el suavizado temporal 290a a 290e.
[0225] La motivación de esto es que los oyentes humanos, aunque pueden percibir bien la presencia de fluc tuaciones temporales en el ruido, generalmente son relativamente insensibles a los detalles de estas fluctuaciones estocásticas. En otras palabras, solamente se percibe como tal la intensidad de modulación, no tanto los detalles temporales de la modulación. El trabajo de Hanna [20] mostró que los tokens de ruido específicamente más largos generados por el mismo generador de ruido no se pueden distinguir entre sí.
[0226] 8.9 Asimetría perceptual (los detalles son opcionales)
[0227] En tercer lugar, se consideró opcionalmente que los componentes de señal que se agregan cuando se codifica una señal llevan a un efecto más perjudicial en términos de calidad de audio que los componentes que se eliminan. La suposición subyacente es que los componentes que se agregan a menudo no compartirán propiedades comunes con la señal de audio original y por esa razón serán más notables como artefactos.
[0228] Esto se implementó (opcionalmente) por medio de una ponderación asimétrica de valores positivos y negativos de la diferencia en las IRs. La ponderación asimétrica se puede llevar a cabo, por ejemplo, por la pondera ción 292a a 292e.
[0229] En comparaciones preliminares de predicciones de modelo con datos subjetivos, se descubrió que la ponderación asimétrica lleva a mejores predicciones.
[0230] 9. Control de IGF por medio del modelo psicoacústico
[0231] En lo sucesivo, se describirá cómo se puede controlar una extensión de ancho de banda (por ejemplo, un relleno inteligente de huecos, IGF) (o parámetros de la extensión de ancho de banda) utilizando el evaluador de similitud de audio comentado en esta invención (por ejemplo, en un codificador de audio como se comenta en esta invención).
[0232] 9.1 Herramienta de IGF (los detalles son opcionales)
[0233] El relleno inteligente de huecos (IGF) [5] es una técnica de codificación de audio semi-paramétrica in troducida primero al proceso de estandarización de MPEG-H 3D Audio en 2013 [21][6], que rellena los huecos espec trales en una señal de audio decodificada con estimados de la señal pérdida guiados por información complementaria compacta. Como tal, la aplicación de IGF es de no conservación de forma de onda. El IGF también puede actuar como una BWE tradicional y se puede configurar para rellenar toda una región de alta frecuencia vacía con una señal esti mada, pero también se puede utilizar más allá de la funcionalidad de BWE tradicional para mezclar contenido codifi cado de forma de onda con contenido estimado para llenar los espacios espectrales restantes. De esa forma, el con tenido conocido como crítico para la BWE tradicional, por ejemplo, señales de barrido se puede codificar fielmente.
[0234] En la Figura 10, se representa un codificador que utiliza IGF. Después de la descuantificación de los coeficientes transmitidos de transformada discreta de coseno modificada (MDCT, Modified Discrete Cosine Transform) (por ejemplo, del espectro de MDCT 1022 cuantificado extraído de un flujo de bits de entrada 1010 utilizando un desmultiplexor y decodificador de entropía 1020) (por ejemplo, en el descuantificador 1040), estos valores (por ejem plo, valores espectrales descuantificados 1042) y la información complementaria de IGF 1024 (que se puede derivar, por ejemplo, del flujo de bits de entrada 1010 por medio del desmultiplexor y decodificador de entropía 1020) se pasan al decodificador de IGF 1050. Utilizando la información complementaria 1024, el decodificador de iGf 1050 selecciona coeficientes de MDCT de la banda baja 1042 transmitida del espectro para ensamblar el estimado de banda alta 1052. Por lo tanto, la banda baja y alta se organizan en los llamados mosaicos de origen y mosaicos de destino de IGF, respectivamente.
[0235] Como se representa en la Figura 11, el intervalo de origen de IGF, que se extiende desde la frecuencia mínima de IGF en la parte más baja del espectro hasta la frecuencia de inicio de IGF, se divide en cuatro mosaicos de origen superpuestos sT[i] (donde, por ejemplo, I puede tomar valores de 0 a 3). El intervalo de destino de IGF, es decir, las bandas espectrales de alta frecuencia que se van a reconstruir, se determina por medio de la frecuencia de inicio y parada de IGF. De nuevo, se divide en un máximo de cuatro mosaicos de destino consecutivos (por ejemplo, designados con mosaico[0] a mosaico[4]) de ancho de banda creciente hacia frecuencias más altas.
[0236] Durante el proceso de decodificación de IGF, el intervalo de IGF se reconstruye mediante la copia de mosaicos de origen adecuados en sus mosaicos de destino y una adaptación de propiedades tonales [22] y envolvente espectral [23] para coincidir mejor con la señal original utilizando la información complementaria transmitida.
[0237] Se debe tener en cuenta que el proceso de decodificación descrito en esta sección puede ser controlado, por ejemplo, por una provisión apropiada de parámetros de codificación por un codificador de audio. Por ejemplo, los parámetros de codificación pueden describir una asociación entre los mosaicos de origen de IGF (por ejemplo, sT[0] a sT[3] y los mosaicos de destino de IGF (por ejemplo, mosaico[0] a mosaico[4]). Estos parámetros de codificación se pueden determinar, por ejemplo, en los codificadores de audio 300 y 400.
[0238] 9.2 Control de IGF
[0239] Para ser capaces de rellenar los huecos espectrales con contenido espectral que coincida mejor perceptualmente, IGF tiene muchos grados de libertad para crear tal contenido. Básicamente, la señal para rellenar la banda alta (HF, High Band) está compuesta de mosaicos de tiempo-frecuencia (por ejemplo, sT[0] a sT[3]) que se originan de la banda baja (LF, Low Band). El intervalo espectral de origen y de destino (por ejemplo, sT[0] a sT[3] y mosaico[0] a mosaico[4]) para el mapeo real se puede escoger entre muchas posibilidades para cada periodo de tiempo individualmente.
[0240] Para adaptar la tonalidad, se podría utilizar el blanqueamiento de IGF [22] para aplanar el espectro de un mosaico de tiempo-frecuencia tomado de una región de origen tonal y para insertarse en una región de destino ruidosa. IGF ofrece tres niveles de blanqueamiento: “apagado”, “medio” y “fuerte”, el blanqueamiento “fuerte” consiste en un reemplazo del contenido original del mosaico con ruido aleatorio.
[0241] Tomando solamente la elección flexible de mosaicos y las opciones de blanqueamiento, resulta en un número enorme de n = (44)(34) = 20.736 combinaciones individuales, donde el (44) son las posibilidades de todas las diferentes selecciones de mosaico de origen y (34) son todas las diferentes opciones de blanqueamiento, que son seleccionables independientemente para cada mosaico. (En este ejemplo, se supone que hay 4 mosaicos de destino, que pueden estar asociados por separado con 4 mosaicos de origen cada uno, y que pueden estar asociados por separado con uno de los tres modos de blanqueamiento).
[0242] Proponemos emplear nuestro modelo perceptual como se describió anteriormente para hacer la elec ción perceptualmente más cercana de estas combinaciones para estimar la banda alta. En otras palabras, el modelo perceptual descrito en esta invención se puede utilizar, por ejemplo, en los codificadores de audio 300, 400 para seleccionar los parámetros para el relleno inteligente de huecos, por ejemplo parámetros que describen una asociación entre mosaicos de origen y mosaicos de destino y parámetros que describen modos de blanqueamiento.
[0243] Para esto, la IDR se utiliza, por ejemplo, para derivar la suma de de la diferencia al cuadrado (por ejemplo, en la comparación 180 o en la comparación 280) que sirve como una métrica para la audibilidad de las distorsiones perceptuales introducidas (por ejemplo, como una información de similitud 112, 212, 342, 424). Cabe observar que esta suma se determina opcionalmente, por ejemplo, a través de un intervalo de tiempo más largo que excede una sola trama de codificación. Esto evita cambios frecuentes entre opciones de codificación seleccionadas.
[0244] El suavizado temporal dentro del modelo (véase la subsección 8.8) evita de manera efectiva una des viación potencial hacia una estimación de banda alta demasiado tonal.
[0245] Sin embargo, las decisiones de codificación que se hacen con la estrategia anterior se basan en criterios de decisión todavía esencialmente locales y por lo tanto no consideran efectos perceptuales que podrían ocurrir debido a un simple cambio entre dos opciones de mosaico. Para solucionar este efecto, introdujimos opcionalmente un criterio que asegura la estabilidad donde se necesita perceptualmente (que se puede implementar, por ejemplo, en la restric ción de cambio de asociación 380).
[0246] 9.3 Criterio de estabilización (opcional; los detalles también son opcionales)
[0247] Como se ha explicado, IGF permite muchas elecciones alternativas diferentes de mosaicos de IGF para seleccionar la fuente espectral e intervalos de destino para inserción de alta frecuencia. Cuando el desplazamiento preciso de inserción de frecuencia espectral varía con el tiempo de una manera trama-por-trama, puede ocurrir que un solo componente tonal continuo alterne entre diferentes frecuencias altas a través del tiempo. Esto lleva a artefactos muy notables y molestos. Se supone que estos se presentan debido a que el desplazamiento en frecuencia lleva a modulaciones introducidas en la señal codificada en frecuencias de modulación que corresponden prácticamente a la frecuencia de tramas del codificador. Para evitar este tipo de artefactos, que existen solamente a través de escalas de tiempo más largas, se incorporó opcionalmente una limitación en el cambio entre desplazamientos de frecuencia de IGF. Esta limitación del cambio entre desplazamientos de frecuencia de IGF (o, equivalentemente, entre diferentes asociaciones entre mosaicos de origen y mosaicos de destino de la extensión de ancho de banda) se logra, por ejem plo, por medio de la restricción de cambio de asociación 480.
[0248] Se supuso que cambiar el desplazamiento de frecuencia de IGF (o la asociación entre mosaicos de origen y mosaicos de destino) solamente se permite siempre que la señal original tenga componentes de modulación (comparativamente) fuertes en el intervalo que corresponda a las modulaciones que se introducirían cuando hay un desplazamiento de frecuencia de IGF (por ejemplo, provocado por un cambio de la asociación entre un mosaico de origen y un mosaico de destino) (es decir que corresponde a la frecuencia de tramas del codificador). Por esa razón, se derivó opcionalmente una medida de sensibilidad (por ejemplo, en el bloque 486) que predice cómo de sensible sería un oyente a la introducción de un desplazamiento de frecuencia inducido por un cambio de mosaico. Esta medida de sensibilidad es, por ejemplo, simplemente inversamente proporcional a la intensidad de modulación en el filtro de modulación que corresponde a la frecuencia de tramas del codificador. Solamente cuando la sensibilidad está por debajo de este criterio fijo, se puede permitir un cambio de la elección de mosaico de IGF. Esto se puede lograr, por ejemplo, por medio de la comparación de umbral 489 y por medio de la compuerta de cambio de asociación 480.
[0249] 10 Experimento (la configuración y detalles son opcionales)
[0250] 10.1 Esquema
[0251] Para evaluar la capacidad del modelo psicoacústico propuesto para hacer una elección de parámetro optimizado perceptualmente de técnicas paramétricas de codificación, se preparó una prueba de audición llamada prueba de estímulo múltiple con referencia oculta y anclaje (MUSHRA, Multi-Stimulus Test with Hidden Reference and Anchor) [24]. Los artículos de prueba de audición se generaron en un entorno fuera de línea experimental de códec de MPEG-H 3D Audio involucrando la herramienta de IGF semi-paramétrica en dos atmósferas como se describe en lo sucesivo. Una elección de mosaico fija combinada con una estimulación de nivel de blanqueamiento impulsado por características se comparó con una elección automatizada de ambos parámetros, suscitada por el modelo psicoacústico propuesto.
[0252] 10.2 Generación de artículo
[0253] Para la prueba de audición, cada artículo se proceso a través de una cadena fuera de línea de codificador/decodificador de MPEG-H. La tasa de bits se ajustó en un valor muy alto para excluir cualquier influencia de efectos perceptuales diferentes a los introducidos por IGF. Los parámetros de codificador de MPEG-H 3D Audio se configura ron de tal forma que cualquier estimado subóptimo para la banda de IGF tendría un impacto claramente audible. Por lo tanto, la frecuencia de inicio de IGF se estableció tan baja como de 4,2 kHz, la frecuencia de parada de IGF en 8.0 kHz. En consecuencia, los artículos originales fueron de banda limitada a 8,4 kHz para permitir una mejor comparación con las versiones procesadas.
[0254] Con estos ajustes, los mosaicos de IGF se restringieron a 3 mosaicos de destino solamente, reduciendo de esta manera en gran medida el número de combinaciones de parámetros de IGF posibles por evaluar a un número que puede ser manejado en términos de complejidad computacional en un experimento práctico. Para reducir más el número de combinaciones, las combinaciones equivalentes que comprenden al menos un ajuste de blanqueamiento “fuerte” se han eliminado del conjunto, debido al hecho de que el blanqueamiento “fuerte” consiste en un reemplazo de ruido aleatorio del mosaico individual (véase la subsección 3.2). Inicialmente, hay (23)(43) = 512 combinaciones de ajuste de IGF diferentes sin blanqueamiento “fuerte”. Si uno, dos o los tres mosaicos de destino emplean blanquea miento fuerte, esto resultará en 3(21)(41)+3(22)(42)+1 = 217 combinaciones adicionales. Resumiendo, finalmente nos quedan sólo 729 combinaciones por considerar (en lugar del número máximo de combinaciones n = (33)(43) = 1.728 según la subsección 9.2).
[0255] Para generar la condición de comparación, el códec se operó utilizando mosaicos fijos de “1313” (véase la subsección 10.2), y el blanqueamiento se controló esencialmente mediante la evaluación de una medida de planitud espectral (SFM, Spectral Flatness Measure). Esto corresponde directamente con lo que se ha estado empleando, por ejemplo, en SBR, donde no se soporta ningún ajuste adaptativo de la copia, y también con implementaciones actuales del codificador de IGF, y por lo tanto constituye una condición de comparación justa.
[0256] La elección automatizada se generó utilizando una “estrategia de fuerza bruta” implementada en tres etapas de procesamiento consecutivas como se representa en la Figura 6, que muestra una representación esque mática de una generación de artículos de elección automatizada de IGF:
[0257] En una primera etapa, las salidas (por ejemplo, señales de audio codificadas y decodificadas 1230 de nuevo para todos los conjuntos de parámetros) para todas las combinaciones disponibles de mosaicos de IGF y blanqueamiento de IGF se generaron dentro de un modo de parámetro constante forzado (por ejemplo, con base en la señal de entrada 1210 y utilizando un codificador de audio o codificador de MPEG-H y un decodificador de audio o decodificador de MPEG-H 1224). Así, el codificador 1220 no cambió los parámetros de mosaicos de IGF forzados y blanqueamiento de IGF y los mantuvo constantes durante la codificación de una versión. De esta forma, todas las versiones de mosaicos de IGF y blanqueamiento de IGF 1230 para el artículo procesado se generaron y almacenaron en formato WAV.
[0258] En una segunda etapa, la calidad perceptual de cada resultado procesado obtenido en la primera etapa se estimó analizando estos archivos WAV mediante el modelo psicoacústico 1240 (que puede corresponder, por ejem plo, al evaluador de similitud de audio 100, 200 o comprender una funcionalidad similar o idéntica cuando se compara con el evaluador de similitud de audio 100, 200) de una manera trama-por-trama. En general, las estimaciones de calidad de n = 729 diferentes resultados de procesamiento (que pueden corresponder, por ejemplo, a la “información de similitud” 112, 212 para diferentes señales de audio de entrada) se compararon (por ejemplo, por medio del bloque de decisión 1250) para obtener los datos de decisión 1252 y se escribieron en un archivo de texto.
[0259] La Figura 13 y la Figura 14 muestran los datos de decisión 1252 (que pueden corresponder, por ejemplo, a los parámetros de codificación 324, 424 seleccionados) obtenidos del modelo para el artículo “trilogía”. Uno puede observar que está sucediendo una cantidad considerable de cambios y por lo tanto adaptación dinámica. Tales datos de decisión se pueden proporcionar, por ejemplo, por la selección de parámetro de codificación 370 o por la determi nación de parámetro de codificación 430. Dicho de manera diferente, la Figura 13 muestra una evolución temporal de cuáles de los mosaicos de origen se asocian con los tres mosaicos de destino en consideración. La Figura 13 muestra una evolución temporal de cuáles de los modos de blanqueamiento (o niveles de blanqueamiento) se utilizan para los tres mosaicos de destino.
[0260] En una tercera etapa de procesamiento, los datos de decisión (parámetros de elección de mosaicos de IGF y blanqueamiento de IGF por trama), se alimentaron desde el archivo de texto a una cadena de codificador/decodificador de MPEG-H 1260, 1270 configurada como se detalló anteriormente, y se utilizaron para hacer las selecciones dinámicas a mano. El archivo WAV resultante finalmente produjo una versión codificada y decodificada 1272 que presenta una elección automatizada mediante el modelo propuesto.
[0261] La configuración de cálculo fuera de línea junto con la “estrategia de fuerza bruta” se escogió para demostrar la idoneidad de nuestro modelo propuesto en principio, y por lo tanto proporciona un límite de calidad su perior utilizando ese modelo. En aplicaciones realistas, por ejemplo (opcionalmente), una red neural profunda (DNN, Deep Neural Network) (por ejemplo, la red neural 530) podría aprender y prácticamente sustituir la salida del modelo (por ejemplo, la información de similitud 112, 212, 342, o la información de parámetro de codificación 324, 424) en una fracción de sus costes computacionalmente actuales. En tal configuración, el modelo propuesto puede anotar automáticamente una gran cantidad de material de audio para formación apropiado (por ejemplo, para obtener los datos de formación 532 de red neural).
[0262] Para concluir, la funcionalidad de los bloques 1220, 1224, 1240, 1250, 1260 se puede llevar a cabo, por ejemplo, en los codificadores de audio 300, 400 (por ejemplo, por medio de los bloques 350, 360, 340, 370, 320, o por medio de los bloques 430, 420). Por lo tanto, los codificadores de audio pueden seleccionar los parámetros de codifi cación utilizando el modelo propuesto, que se implementa (completamente o en parte) en los evaluadores de similitud de audio 100, 200, 340. Sin embargo, la implementación de un codificador de audio puede ser más eficiente cuando se utiliza una red neural, como se muestra en la realización de la Figura 5, donde los datos de formación para la red neural se obtienen utilizando el modelo propuesto (por ejemplo, utilizando los evaluadores de similitud de audio descritos en esta invención).
[0263] 11. Resultados
[0264] Se preparó un conjunto de 11 extractos de música mostrados en la Tabla 1 como los artículos para una prueba de audición MUSHRA. La prueba comprendió en total 5 condiciones enumeradas en la Tabla 2. La audición se llevó a cabo por 15 oyentes expertos en un entorno tipo sala utilizando auriculares electrostáticos STAX y amplifi cadores. En una prueba MUSHRA, todos los artículos bajo prueba se comparan con un original. Hay que tener en cuenta que ya que utilizamos originales que han sido de banda limitada en 8,4 kHz en su totalidad (por razones que se han explicado en la subsección 10.2), estos corresponden a una calificación de “excelente” en una escala que va desde “excelente”, “bueno”, “razonable”, “pobre”, hasta “malo”.
[0265] La Figura 15 muestra las puntuaciones absolutas de los oyentes. Todos los niveles de calidad perceptual de los artículos codificados se calificaron en el intervalo de “razonable” a “bueno” como se observa en las puntuaciones absolutas. La calificación de condición automatizada es “buena” en su totalidad.
[0266] La Figura 16 muestra las puntuaciones de diferencia de la condición automatizada propuesta y la con dición de referencia de mosaicos fijos. A partir de estas puntuaciones de diferencia se puede concluir que observamos una mejora promedio significativa de más de 5 puntos de MUSHRA. Los artículos “B”, “C”, “G”, “H”, “I” y “J” muestran mejoras individuales significativas de 18, 7, 7, 3, 9 y 10 puntos, respectivamente. Ninguno de los artículos individuales se degradó significativamente.
[0267] 12. Discusión
[0268] Los resultados de la prueba de audición mostraron una mejora general significativa de calidad de audio con el procedimiento de codificación propuesto. Dos conclusiones principales se pueden derivar de esto. En primer lugar, los resultados muestran que para la herramienta de IGF semi-paramétrica, el cambio entre diferentes ajustes de unificador durante la codificación de un extracto único de una manera trama-por-trama puede llevar a una mejora de la calidad perceptual. En segundo lugar, se demostró que para este propósito el modelo psicoacústico recién pro puesto (y, en consecuencia, el evaluador de similitud de audio 100, 200, 340 propuesto) es capaz de controlar los parámetros de codificación del codificador paramétrico (por ejemplo, de la codificación 320, 420) de una manera au tomatizada.
[0269] La codificación adaptativa (condición automatizada en la prueba de audición) permitió cambiar poten cialmente entre todas las combinaciones disponibles de selecciones de mosaico (por ejemplo, asociación entre mo saicos de origen y mosaicos de destino) y niveles de blanqueamiento. En la mayoría de extractos, esto lleva a una reducción en el carácter tipo ruido (burdo) en altas frecuencias sin introducir artefactos tonales.
[0270] Significativamente, el modelo psicoacústico se aplicó de una manera de dos veces.
[0271] Por un lado, proporcionó predicciones acerca de la degradación perceptual asociada con las diferentes opciones de codificación disponibles en una escala de tiempo local. A partir de esto, se pudo seleccionar la mejor opción de codificación “local”.
[0272] Sin embargo, experimentos previos han demostrado que aplicar directamente esta codificación óptima basada localmente a menudo lleva a artefactos de cambio notables. Más específicamente, cuando están presentes componentes tonales de alta frecuencia estables, un cambio a una opción de mosaicos diferente llevará a artefactos de modulación de frecuencia altamente notables.
[0273] Por otro lado, opcionalmente se proporciona un criterio de estabilidad para evitar los artefactos inducidos por el cambio inoportuno de opciones de codificación (donde tal mecanismo de estabilización se puede implementar, por ejemplo, utilizando la restricción de cambio de asociación). En consecuencia, el modelo (o la restricción de cambio de asociación 480) se utilizó para determinar en qué momentos dentro de la señal de audio era posible cambiar de un mosaico a otro. Como criterio para esto, se supuso que cuando el extracto de audio original exhibe regiones de fre cuencia altamente tonales, sin mucha modulación, se debe evitar el cambio.
[0274] En nuestra implementación actual, se determina qué conjunto de parámetros de codificación actualiza dos llevará a la mejor calidad localmente en caso de permitir el cambio (por ejemplo, en la determinación de parámetro de codificación). A medida que el extracto de audio progresa, bien puede suceder que se vaya a seleccionar otro conjunto específico de mejores parámetros de codificación, pero cambiar a este conjunto estaría prohibido por un tiempo prolongado (por ejemplo, por la restricción de cambio de asociación). Si de esta manera, los parámetros de codificación iniciales se vuelven muy subóptimos, el codificador, no obstante, tiene que mantener tal conjunto global mente subóptimo por más tiempo. Una estrategia opcional para resolver este problema sería permitir (opcionalmente) que el modelo psicoacústico tenga una anticipación suficiente en el tiempo, para tomar en cuenta cómo afectarán las presentes decisiones de codificación a la calidad hacia la parte futura del extracto.
[0275] Aunque se observa una mejora general decente para el procedimiento de codificación automatizada en comparación con una codificación fija, se observó una gran mejora para artículos individuales “B” y también mejoras considerables para los artículos “C”, “G”, “ I”, y “J”. Aquí, según las observaciones generales, la versión automatizada sonó mucho menos ruidosa que la versión fija soportando la noción general de que la estrategia impulsada por el modelo psicoacústico es capaz de escoger una combinación perceptualmente apropiada de selección de mosaicos y nivel de blanqueamiento.
[0276] 13 Resumen
[0277] Aunque se ha demostrado que los modelos de enmascaramiento auditivo tradicionales son muy adecuados para controlar códecs de conservación de forma de onda, se ha descubierto que estos modelos son inadecua dos para igualmente dirigir herramientas de codificación paramétrica.
[0278] En este documento, según un aspecto de la invención, proponemos emplear un modelo psicoacústico mejorado, basado en excitación (que se puede implementar, por ejemplo, en el evaluador de similitud de audio) para controlar la parametrización (por ejemplo, los parámetros de codificación) de técnicas de codificación perceptual de no conservación de forma de onda (por ejemplo, de la codificación 320 o de la codificación 420). A partir de este modelo, se obtiene una llamada representación de diferencia interna (IDR) (por ejemplo, una representación de dife rencia 294a a 294e) para cada una de las opciones de codificación disponibles a la mano. Se muestra que la IDR proporciona una métrica que predice el nivel de distorsión perceptual creada aplicando la opción de codificación correspondiente. Para controlar el proceso de codificación final, se selecciona la opción de codificación que lleva a la distorsión perceptual mínima predicha (por ejemplo, por la determinación de parámetros de codificación 330, 430, o por la selección de parámetro de codificación 370).
[0279] Demostramos que, contrario a los modelos perceptuales tradicionales, la estrategia basada en excitación propuesta puede dirigir exitosamente la aplicación adaptativa de señal de una herramienta de codificación paramétrica dentro de un codificador de audio moderno en el ejemplo de MPEG-H 3D Audio y su herramienta semi-paramétrica de relleno inteligente de huecos (IGF). Con una prueba de audición MUSHRA hemos demostrado la bondad de nuestra elección automatizada de parámetro de IGF. En promedio, la condición de “elección automatizada de pa rámetro” puntuó significativamente más de 5 puntos de MUSHRA más que un ajuste simple utilizando un esquema de mosaicos de IGF fijos y blanqueamiento basado en tonalidad.
[0280] El experimento descrito en este documento es principalmente teórico para comprobar el principio de aplicabilidad de tal modelo avanzado para controlar la elección adaptativa de parámetro de IGF. Estamos al tanto de que utilizar la “estrategia de fuerza bruta” actual tiene el precio de alta complejidad computacional.
[0281] Por lo tanto prevemos, como una modificación opcional, entrenar una red neural profunda (DNN) en la salida del modelo y por lo tanto cortar drásticamente la complejidad en una aplicación práctica del modelo propuesto.
[0282] 14. Extensiones opcionales
[0283] En lo sucesivo se describirán extensiones opcionales y modificaciones para el “modelo psicoacústico mejorado para códecs perceptuales de audio eficientes”.
[0284] 14.1 Introducción en la extensión
[0285] La descripción principal de la invención presentada anteriormente detalla el modelo psicoacústico pro puesto y demuestra las realizaciones preferidas utilizando el modelo propuesto como un controlador para la estimación de parámetros de IGF dentro de un codificador de MPEG-H 3D Audio.
[0286] La configuración experimental esboza un experimento utilizando una estrategia exhaustiva (“fuerza bruta”, donde, por ejemplo, se emplean todas las combinaciones posibles de parámetros que se van a estimar para generar una multitud de salidas que posteriormente se comparan para seleccionar la mejor.
[0287] Al mismo tiempo, mencionamos que tal estrategia es computacionalmente altamente compleja.
[0288] De modo que proponemos utilizar una red neural profunda (DNN) en la práctica para reemplazar opcio nalmente la aplicación repetida del cálculo analítico costoso del modelo en sí.
[0289] 14.2 Estrategia de DNN
[0290] Se debe tener en cuenta, que el uso de la estrategia de DNN es opcional, utilizable como una alternativa a los conceptos mencionados anteriormente o en combinación con los conceptos mencionados anteriormente.
[0291] Tal planteamiento basado en DNN consiste en preparar la DNN (por ejemplo, con la red neural 530) con un lote suficiente de material de audio que ha sido anotado automáticamente por la salida del modelo psicoacústico propuesto (por ejemplo, utilizando el evaluador de similitud de audio mencionado en esta invención) (donde el material de audio anotado por la salida del modelo psicoacústico se puede considerar como datos de formación de red neural 532).
[0292] Por lo tanto, la complejidad computacional se desplaza a la fase de preparación (fuera de línea) de la formación de DNN para producir el material anotado automáticamente (por ejemplo, como datos de formación de red neural 532), y también a la fase de formación (por ejemplo, de la red neural 530) para estimar los pesos apropiados de los nodos de DNN en las capas (por ejemplo, de la red neural 530).
[0293] En la fase de aplicación, la DNN (por ejemplo, la red neural 530), que se puede utilizar, por ejemplo, en un codificador de audio para determinar parámetros de codificación, tiene una complejidad moderada debido a su arquitectura.
[0294] Para uso real, tal codificador (por ejemplo, el codificador de audio 500) está equipado con una DNN fácilmente preparada (por ejemplo, preparada utilizando la información de parámetros derivada de la información de audio de formación utilizando el evaluador de similitud de audio) que se asemeja a la salida del modelo psicoacústico analítico descrito (por ejemplo, la salida del evaluador de similitud de audio 100, 200, 340, o, por ejemplo, la salida de la selección de parámetro de codificación 330, 430).
[0295] 14.3 Realizaciones (los detalles son opcionales)
[0296] En una implementación, dicha salida de modelo que se va a aprender (por ejemplo, por la DNN) puede ser un número único como una medida de calidad por trama de audio (por ejemplo, obtenido por el evaluador de similitud de audio), una diferencia de número único obtenida restando la medida de calidad de la versión original y codificada de la misma, o múltiples números de una representación interna o sus diferencias con respecto a aquellos de la original.
[0297] En otra implementación, una DNN se entrena directamente en la señal de entrada (posiblemente utili zando diferentes representaciones como se describe más adelante) y los datos de decisión obtenidos en la “etapa 2” en la Figura 6 (mosaicos y blanqueamiento óptimos) utilizando el modelo psicoacústico analítico descrito (o utilizando el evaluador de similitud de audio). Después, se puede utilizar directamente la salida de DNN para controlar un codifi cador (por ejemplo, codificador de MPEG-H) para adaptar los parámetros de codificación de una manera perceptualmente óptima (donde, por ejemplo, los parámetros de codificación son proporcionados por la red neural). Por lo tanto, ya no se necesita más codificar la señal de entrada con múltiples ajustes diferentes como se requiere en la estrategia de fuerza bruta presentada anteriormente.
[0298] Las DNN pueden tener diferentes topologías (redes neurales convolucionales (CNN, Convolutive Neural Networks), redes neurales recurrentes (RNN, Recurrent Neural Networks),...). La DNN se puede preparar en diferen tes entradas (datos de PCM [tramas], datos espectrales (espectro de Fourier, transformada Q constante, banco de filtros Gammatone, ...).
[0299] 15. Comentarios y observaciones adicionales
[0300] Se debe tener en cuenta que los tres niveles de blanqueamiento de IGF (apagado==sin procesamiento, medio==atenuación de los picos tonales, fuerte==reemplazo de ruido) comprenden también un reemplazo de ruido; en este caso, el contenido de un mosaico se descarta y reemplaza por ruido no correlacionados. Estos modos se pueden determinar, por ejemplo, en el codificador de audio. En otras palabras, el nivel de blanqueamiento “fuerte” en IGF técnicamente reemplaza el mosaico de origen por ruido no correlacionado.
[0301] Por otra parte, en una realización, opcionalmente, solamente se analizan ciertos componentes espectrales (por ejemplo, predeterminados) de una señal de audio como se describe, por ejemplo, solamente una banda alta o banda de frecuencia alta. Esto puede ser útil, por ejemplo, para reducir una complejidad, por ejemplo, si sola mente se afectan algunas partes del espectro por las decisiones de codificación. Por ejemplo, esto es útil en el ejemplo descrito utilizando IGF, ya que no se afecta ninguna parte del espectro fuera de un intervalo entre 4,2 kHz y 8,4 kHz por los resultados de análisis.
[0302] 16. Conclusiones
[0303] Para concluir, desde los primeros codificadores de audio perceptuales tales como mp3, el modelo psi coacústico subyacente que controla el proceso de codificación no ha sufrido muchos cambios dramáticos. Mientras tanto, los codificadores de audio modernos han sido equipados con herramientas de codificación semi-paramétrica o paramétrica tales como una extensión de ancho de banda de audio. Se ha descubierto que de esta manera, el modelo psicoacústico inicial utilizado en un codificador perceptual, que considera solamente ruido de cuantificación agregado, se volvió parcialmente inadecuado.
[0304] Generalmente hablando, las realizaciones según la invención proponen el uso de un modelo psicoacús tico de excitación con base en un modelo existente previsto por Dau y col. En 1997, por ejemplo, para una evaluación de similitud de señales de audio, por ejemplo en un codificador de audio. Este modelo basado en modulación es esencialmente independiente de la forma de onda de entrada precisa al calcular una representación auditiva interna. Utilizando el ejemplo de MPEG-H 3D Audio y su herramienta semi-paramétrica de relleno inteligente de huecos (IGF), demostramos que podemos controlar exitosamente el proceso de selección de parámetros de IGF para lograr una calidad perceptual general mejorada.
[0305] Sin embargo, se debe tener en cuenta que el concepto descrito en esta invención no se limita al uso de ningún codificador de audio o concepto de extensión de ancho de banda específico.
[0306] 17. Observaciones adicionales
[0307] En el presente documento, se describirán diferentes realizaciones y aspectos inventivos, por ejemplo, en los capítulos “Modelo psicoacústico propuesto” y “Control de IGF por medio del modelo psicoacústico”.
[0308] Sin embargo, las características, funcionalidades y detalles descritos en cualquier otro capítulo también se puede introducir, opcionalmente, en las realizaciones.
[0309] También, realizaciones adicionales se definirán por las reivindicaciones adjuntas.
[0310] Se debe tener en cuenta que cualquier realización como se define por las reivindicaciones se puede complementar por medio de cualquiera de los detalles (características y funcionalidades) descritos en los capítulos mencionados anteriormente.
[0311] También, las realizaciones descritas en los capítulos mencionados anteriormente se pueden utilizar individualmente, y también se pueden complementar por medio de cualquiera de las características en otro capítulo, o por cualquier característica incluida en las reivindicaciones.
[0312] También, se debe tener en cuenta que los aspectos individuales descritos en esta invención se pueden utilizar individualmente o en combinación. Por lo tanto, se pueden agregar detalles a cada uno de dichos aspectos individuales sin agregar detalles a otro de dichos aspectos.
[0313] También se debe tener en cuenta que la presente descripción describe, explícitamente o implícitamente, características que se pueden utilizar en un codificador de audio (aparato para proporcionar una representación codi ficada de una señal de audio de entrada). Por lo tanto, cualquiera de las características descritas en esta invención se puede utilizar en el contexto de un codificador de audio.
[0314] Por otra parte, las características y funcionalidades descritas en esta invención que se relacionan con un procedimiento también se pueden utilizar en un aparato (configurado para llevar a cabo tal funcionalidad). Además, las características y funcionalidades descritas en esta invención con respecto a un aparato también se pueden utilizar en un procedimiento correspondiente. En otras palabras, los procedimientos descritos en esta invención se pueden complementar por medio de cualquiera de las características y funcionalidades descritas con respecto a los aparatos.
[0315] También, cualquiera de las características y funcionalidades descritas en esta invención se puede implementar en hardware o en software, o utilizando una combinación de hardware y software, como se describirá en la sección “Alternativas de implementación”.
[0316] 18. Alternativas de implementación:
[0317] Aunque algunos aspectos se describen en el contexto de un aparato, es claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o una característica de una etapa de procedimiento. Análogamente, los aspectos descritos en el contexto de una etapa de procedimiento también representan una descripción de un bloque o elemento o carac terística correspondiente de un aparato correspondiente. Algunas o todas las etapas de procedimiento se pueden ejecutar por (o utilizando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, se pueden ejecutar una o más de las etapas de procedimiento más importantes por medio de tal aparato.
[0318] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria flash, que tenga señales de control legibles electrónicamente almacenadas en el mismo, que coopere (o sea capaz de cooperar) con un sistema informático programable de tal manera que se lleve a cabo el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0319] Las realizaciones descritas en esta invención son solamente ilustrativas para los principios de la pre sente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención serán aparentes para otros expertos en la materia. Se pretende, por lo tanto, que se limite solamente por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de des cripción y explicación de las realizaciones en esta invención.
[0320] Referencias
[1] Herre, J. y Disch, S., “Perceptual audio coding”, (Codificación perceptual de audio), pp. 757-799, Academic press, Elsevier Ltd., 2013.
[2] Schuller, G. y Harma, A., “Low delay audio compression using predictive coding”, (Compresión de audio de bajo retardo mediante codificación predictiva), en la Conferencia Internacional de IEEE de 2002 sobre acústica, discurso y procesamiento de señal, volumen 2, pp. 1853-1856, 2002.
[3] Dietz, M., Liljeryd, L., Kjorling, K., y Kunz, O., “Spectral band replication, a novel approach in audio coding”, (Replicación de banda espectral, una estrategia novedosa en la codificación de audio), en la Convención de la Sociedad de Ingeniería de Audio 112, 2002.
[4] Herre, J. y Dietz, M., “MPEG-4 high-efficiency AAC coding [Standards in a Nutshell]”, (Codificación AAC de alta eficiencia de MPEG-4 [Estándares en pocas palabras]), Signal Processing Magazine, IEEE, (Vol. 25, 2008), pp. 137 142, 2008.
[5] Disch, S., Niedermeier, A., Helmrich, C. R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F., Nagel, F., y Edler, B., “Intelligent gap filling in perceptual transform coding of audio”, (relleno inteligente de huecos en la codifica ción de transformación perceptual de audio), en Convención de la Sociedad de Ingeniería de Audio 141,2016.
[6] ISO/IEC (MPEG-H) 23008-3, “High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio”, (Codificación de alta eficiencia y entrega de medios en entornos heterogéneos - Parte 3: Audio 3D), 2015.
[7] “3GPP, TS 26.445, EVS codec detailed algorithmic description; 3GPP technical specification”, (Descripción algorítmica detallada de códec de 3GPP, TS 26.445, EVS; especificación técnica de 3GPP), (Versión 12), 2014.
[8] Laitinen, M.-V., Disch, S., y Pulkki, V., “Sensitivity of human hearing to changes in phase spectrum”, (Sensibilidad del oído humano a los cambios en el espectro de fase), J. Audio Eng. Soc (Revista de la AES), (Vol. 61, N. ° 11, 2013), pp. 860-877, 2013.
[9] Dau, T., Kollmeier, B., y Kohlrausch, A., “Modelling auditory processing of amplitude modulation. I. Detection and masking with narrow-band carriers”, (Modelado del procesamiento auditivo de la modulación de amplitud. I. Detección y enmascaramiento con soportes de banda estrecha), J. Acoust. Soc. Am., 102, pp. 2892-2905, 1997.
[10] Dau, T., “Modeling auditory processing of amplitude modulation”, (Modelado del procesamiento auditivo de la modulación de amplitud), Tesis de doctorado, 1996.
[11] Dau, T., Püschel, D., y Kohlrausch, A., “A quantization model of the 'effective' signal processing in the auditory system. I. Model structure”, (Un modelo de cuantificación del procesamiento “efectivo” de señales en el sistema auditivo. I. Estructura del modelo), J. Acoust. Soc. Am., 99, pp. 3615-3622, 1996.
[12] Ewert, S., Verhey, J., y Dau, T., “Spectro-temporal processing in the envelope-frequency domain”, (Procesamiento espectro-temporal en el dominio de frecuencia de envolvente), J. Acoust. Soc. Am., (112), pp. 2921-2931,2003.
[13] Glasberg, B. y Moore, B., “Derivation of auditory filter shapes from notched-noise data”, (Derivación de formas de filtros auditivos a partir de datos de ruido con cortes), Hearing Research, (47), pp. 103-138, 1990.
[14] https://commons.wikimedia.org/wiki/File:Cochlea crosssection.svg, julio de 2018.
[15] Kohlrausch, A., Fassel, R., y Dau, T., “The influence of carrier level and frequency on modulation and beat detection thresholds for sinusoidal carriers”, (La influencia del nivel y la frecuencia de soporte en la modulación y los umbrales de detección de ritmo para soportes sinusoidales), J. Acoust. Soc. Am., 108, pp. 723-734, 2000.
[16] Vafin, R., Heusdens, R., van de Par, S., y Kleijn, W., “Improving modeling of audio signals by modifying transient locations”, (Mejora del modelado de señales de audio mediante la modificación de ubicaciones transitorias), en Proceedings of the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 143-146, 2001.
[17] van de Par, S., Koppens, J., Oomen,W., y Kohlrausch, A., “A new perceptual model for audio coding based on spectro-temporal masking”, (Un nuevo modelo de percepción para la codificación de audio basado en enmascaramiento espectro-temporal), en la 124a Convención de AES, 2008.
[18] Hall, J., Haggard, M., y Fernandes, M., “Detection in noise by spectro-temporal pattern analysis”, (Detección en ruido mediante análisis de patrones espectro-temporales), J. Acoust. Soc. Am., (76), pp. 50-56, 1984.
[19] van de Par, S. y Kohlrausch, A., “Comparison of monaural (CMR) and binaural (BMLD) masking release”, (Com paración de liberación de enmascaramiento monoaural (CMR) y binaural (BMLD)), J. Acoust. Soc. Am., 103, pp. 15731579, 1998.
[20] Hanna, T., “Discrimination of reproducible noise as a function of bandwidth and duration”, (Discriminación del ruido reproducible en función del ancho de banda y la duración), Percept. Psychophys., 36, pp. 409-416, 1984.
[21] Herre, J., Hilpert, J., Kuntz, A., y Plogsties, J., “MPEG-H Audio - The New Standard for UniversalSpatial / 3D Audio Coding”, (MPEG-H Audio - El nuevo estándar para la codificación de audio universal espacial / 3D), 137a Convención de AES, 2014.
[22] Schmidt, K. y Neukam, C., “Low complexity tonality control in the Intelligent Gap Filling tool”, (Control de tonalidad de baja complejidad en la herramienta de relleno inteligente de huecos), en 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 644-648, 2016.
[23] Helmrich, C., Niedermeier, A., Disch, S., y Ghido, F., “Spectral Envelope Reconstruction via IGF for Audio Transform Coding”, (Reconstrucción de envolvente espectral mediante IGF para codificación de transformación de audio), en IEEE International Conference on Acoustics, Speech and Signal Processing (Conferencia Internacional de IEEE sobre acústica, discurso y procesamiento de señal) (ICASSP), Brisbane, Australia, 2015.
[24] ITU-R, Recomendación BS.1534-1 Procedimiento de evaluación subjetiva de la calidad del sonido intermedia (MUSHRA), Ginebra, 2003.

Claims (28)

REIVINDICACIONES
1. Un evaluador de similitud de audio (100;200;340),
en el que el evaluador de similitud de audio está configurado para obtener señales de envolvente (122a-122c; 222a-222e) para una pluralidad de intervalos de frecuencias con base en una señal de audio de entrada (110;210;362), y en el que el evaluador de similitud de audio está configurado para obtener una información de modulación (162a-162c; 262a-262e) asociada con las señales de envolvente para una pluralidad de intervalos de frecuencias de modulación, en el que la información de modulación describe la modulación temporal de las señales de envolvente para una plu ralidad de intervalos de frecuencias de modulación y comprende una pluralidad de valores que están asociados con diferentes frecuencias de modulación que están presentes en una señal de envolvente respectiva; y
en el que el evaluador de similitud de audio está configurado para comparar la información de modulación obtenida con una información de modulación de referencia (182a-182c; 282a-282e) asociada con una señal de audio de refe rencia (310), con el fin de obtener una información (112;212;342) acerca de una similitud entre la señal de audio de entrada y la señal de audio de referencia.
2. El evaluador de similitud de audio (100;200;340) según la reivindicación 1, en el que el evaluador de similitud de audio está configurado para aplicar una pluralidad de filtros u operaciones de filtración (230) que tienen características de filtro superpuestas, con el fin de obtener las señales de envolvente (122a-122c; 222a-222e).
3. El evaluador de similitud de audio (100;200;340) según la reivindicación 1 o 2, en el que el evaluador de similitud de audio está configurado para aplicar una rectificación (236) a las señales de salida (232a-232e) de los filtros u operación de filtración (230), para obtener una pluralidad de señales rectificadas (238), o en el que el evaluador de similitud de audio está configurado para obtener una envolvente de Hilbert con base en las señales de salida (232a-232e) de los filtros u operación de filtración (230), o en el que el evaluador de similitud de audio está configurado para desmodular las señales de salida (232a-232e) de los filtros u operación de filtración (230).
4. El evaluador de similitud de audio (100;200;340) según la reivindicación 3, en el que el evaluador de similitud de audio está configurado para aplicar un filtro de paso bajo o una filtración de paso bajo (240) a las señales rectificadas (238).
5. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 4, en el que el evaluador de similitud de audio está configurado para aplicar un control automático de ganancia (250), con el fin de obtener las señales de envolvente (222a a 222e), o para aplicar una transformada logarítmica, con el fin de obtener las señales de envolvente (222a a 222e), o para aplicar un modelado de un enmascaramiento hacia delante, con el fin de obtener las señales de envolvente (222a a 222e).
6. El evaluador de similitud de audio (100;200;340) según la reivindicación 5, en el que el evaluador de similitud de audio está configurado para variar una ganancia aplicada para derivar las señales de envolvente (222a a 222e) con base en las señales rectificadas y filtradas de paso bajo (242) proporcionadas por una pluralidad de filtros u operaciones de filtro (240) con base en la señal de audio de entrada.
7. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 6, en el que el evaluador de similitud de audio está configurado para procesar versiones rectificadas y filtradas de paso bajo (242) de las señales (232a a 232e) proporcionadas por una pluralidad de filtros u operaciones de filtración (230) con base en la señal de audio de entrada (210) utilizando una serie de dos o más bucles de adaptación (254,256,257), que aplican un escalamiento variable en el tiempo dependiendo de los valores de ganancia variables en el tiempo (258), en el que el evaluador de similitud de audio está configurado para ajustar diferentes valores de ganancia variables en el tiempo (258) utilizando diferentes constantes de tiempo.
8. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 7, en el que el evaluador de similitud de audio está configurado para aplicar una pluralidad de filtros de modulación (264) que tienen diferentes bandas de paso a las señales de envolvente (222a a 222e), para obtener la información de modulación (262a a 262e), y/o en el que el evaluador de similitud de audio está configurado para aplicar un submuestreo a las señales de envolvente (222a a 222e), para obtener la información de modulación (262a a 262e).
9. El evaluador de similitud de audio (100;200;340) según la reivindicación 8, en el que los filtros de mo dulación (264) están configurados para separar al menos parcialmente componentes de la señal de envolvente (222a-222e) que tiene diferentes frecuencias, en el que una frecuencia central de un primer filtro de modulación de frecuencia más baja es menor que 5 Hz, y en l que una frecuencia central de un filtro de modulación de frecuencia más alta está en un intervalo entre 200 Hz y 300 Hz.
10. El evaluador de similitud de audio (100;200;340) según la reivindicación 8 o 9, en el que el evaluador de similitud de audio está configurado para eliminar componentes de DC cuando se obtiene la información de modulación (262a a 262e).
11. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 8 a 10, en el que el evaluador de similitud de audio está configurado para eliminar una información de fase cuando se obtiene la informa ción de modulación (262a a 262e).
12. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 11, en el que el evaluador de similitud de audio está configurado para derivar un valor escalar (112;212;342) que representa una dife rencia entre la información de modulación obtenida (262a a 262e) y la información de modulación de referencia (282a a 282e) asociada con una señal de audio de referencia (310).
13. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 12, en el que el evaluador de similitud de audio está configurado para determinar una representación de diferencia (294a-294e) con el fin de comparar la información de modulación obtenida (262a a 262e) con la información de modulación de referencia (282a-282e) asociada con una señal de audio de referencia.
14. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 13, en el que el evaluador de similitud de audio está configurado para ajustar una ponderación de una diferencia (289a-289e) entre la información de modulación obtenida (262a-262e) y la información de modulación de referencia (282a-282e) asociada con una señal de audio de referencia dependiendo de una co-modulación entre las señales de envol vente obtenidas (222a-222e) o información de modulación (262a-262e) en dos o más intervalos de frecuencias acús ticas adyacentes o entre señales de envolvente asociadas con la señal de referencia o entre la información de modu lación de referencia (282a-282e) en dos o más intervalos de frecuencias acústicas adyacentes.
15. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 14, en el que el evaluador de similitud de audio está configurado para poner un mayor peso en las diferencias (289a-289e) entre la información de modulación obtenida (262a-262e) y la información de modulación de referencia (282a-282e) asociada con una señal de audio de referencia que indica que la señal de audio de entrada (210) comprende un componente de señal adicional cuando se compara con diferencias (289a-289e) entre la información de modulación obtenida (262a-262e) y la información de modulación de referencia (282a-282e) asociada con una señal de audio de referencia que indica que la señal de audio de entrada carece de un componente de señal cuando se determina la información (212) acerca de la similitud entre la señal de audio de entrada y la señal de audio de referencia.
16. El evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 15, en el que el evaluador de similitud de audio está configurado para ponderar valores positivos y negativos de una diferencia (289a-289e) entre la información de modulación obtenida (262a-262e) y la información de modulación de referencia (282a-282e) utilizando diferentes pesos cuando se determina la información acerca de la similitud entre la señal de audio de entrada y la señal de audio de referencia.
17. Un codificador de audio (300;400) para codificar una señal de audio (310;410),
en el que el codificador de audio está configurado para determinar uno o más parámetros de codificación (324;424) en función de una evaluación de una similitud entre una señal de audio que se va a codificar (310;410) y una señal de audio codificada (362),
en el que el codificador de audio comprende un evaluador de similitud de audio (100;200;340) según una de las reivindicaciones 1 a 16, que está configurado para evaluar la similitud entre la señal de audio (310; 410) que se va a codificar y la señal de audio codificada (352).
18. El codificador de audio (300;400) según la reivindicación 17, en el que el codificador de audio está configurado para codificar uno o más parámetros de extensión de ancho de banda (324;424) que definen una regla de procesamiento que se va a utilizar en el lado de un decodificador de audio (1000) para derivar un contenido de audio perdido (1052) con base en un contenido de audio (1042) de un intervalo de frecuencias diferente codificado por el codificador de audio; y/o
en el que el codificador de audio está configurado para codificar uno o más parámetros de configuración de decodifi cador de audio que definen una regla de procesamiento que se va a utilizar en el lado de un decodificador de audio.
19. El codificador de audio (300;400) según una de las reivindicaciones 17 a 18, en el que el codificador de audio está configurado para seleccionar una o más asociaciones entre un intervalo de frecuencias de origen (sT[.]) y un intervalo de frecuencias de destino (mosaico[.]) para una extensión de ancho de banda y/o uno o más parámetros de operación de procesamiento para una extensión de ancho de banda en función de la evaluación de una similitud entre una señal de audio (310;410) que se va a codificar y una señal de audio codificada (362).
20. El codificador de audio (300;400) según una de las reivindicaciones 17 a 19,
en el que el codificador de audio está configurado para seleccionar una o más asociaciones entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino para una extensión de ancho de banda,
en el que el codificador de audio está configurado para permitir o prohibir selectivamente un cambio de una asociación entre un intervalo de frecuencias de origen y un intervalo de frecuencias de destino en función de una evaluación de una modulación de una envolvente en un intervalo de frecuencias de destino antiguo o nuevo.
21. El codificador de audio (300;400) según la reivindicación 20,
en el que el codificador de audio está configurado para determinar una intensidad de modulación (485) de una envol vente en un intervalo de frecuencias de destino en un intervalo de frecuencias de modulación correspondiente a una frecuencia de tramas del codificador y para determinar una medida de sensibilidad (487) en función de la intensidad de modulación determinada, y
en el que el codificador de audio está configurado para decidir si se permite o prohíbe cambiar una asociación entre un intervalo de frecuencias de destino y un intervalo de frecuencias de origen en función de la medida de sensibilidad.
22. Un procedimiento para evaluar una similitud entre señales de audio,
en el que el procedimiento comprende obtener señales de envolvente para una pluralidad de intervalos de frecuencia con base en una señal de audio de entrada, y
en el que el procedimiento comprende obtener una información de modulación asociada con las señales de envolvente para una pluralidad de intervalos de frecuencias de modulación, en el que la información de modulación describe la modulación temporal de las señales de envolvente para una pluralidad de intervalos de frecuencias de modulación y comprende una pluralidad de valores que están asociados con diferentes frecuencias de modulación que están pre sentes en una señal de envolvente respectiva; y
en el que el procedimiento comprende comparar la información de modulación obtenida con una información de mo dulación de referencia asociada con una señal de audio de referencia, con el fin de obtener una información acerca de una similitud entre la señal de audio de entrada y la señal de audio de referencia.
23. Un procedimiento para codificar una señal de audio,
en el que el procedimiento comprende determinar uno o más parámetros de codificación en función de una evaluación de una similitud entre una señal de audio que se va a codificar y una señal de audio codificada,
en el que el procedimiento comprende evaluar la similitud entre la señal de audio que se va a codificar y la señal de audio codificada según la reivindicación 22.
24. Un procedimiento para codificar una señal de audio,
en el que el procedimiento comprende preparar una red neural mediante el uso de un procedimiento para evaluar una similitud entre las señales de audio según la reivindicación 22; y en el que el procedimiento comprende determinar uno o más parámetros de codificación en función de una señal de audio que se va a codificar mediante el uso de la red neural.
25. El procedimiento según la reivindicación 24,
en el que los parámetros de codificación obtenidos mediante el uso del procedimiento según la reivindicación 23 se utilizan como parte de los datos de formación para preparar la red neural.
26. El procedimiento según la reivindicación 24 o 25,
en el que el procedimiento comprende determinar uno o más parámetros de codificación, que se utilizan como parte de los datos de formación para preparar la red neural, en función de una evaluación de una similitud entre una señal de audio que se va a codificar y una señal de audio codificada,
en el que el procedimiento comprende evaluar la similitud entre la señal de audio que se va a codificar y la señal de audio codificada según la reivindicación 25.
27. Un procedimiento para preparar una red neural,
en el que para la preparación, diferentes señales de audio de entrada de formación y parámetros de codificación de formación con las diferentes señales de audio de entrada de formación se proporcionan a la red neural como datos de formación,
en el que la señales de audio de entrada de formación sirven como señales de entrada a la red neural,
y los parámetros de codificación de formación son señales de salida deseadas de la red neural;
en el que los parámetros de codificación de formación proporcionados a la red neural como datos de formación se obtienen sobre la base de las señales de audio de entrada de formación en función de una evaluación de una similitud entre una señal de audio de formación que se va a codificar y una señal de audio de formación codificada, en el que el procedimiento comprende evaluar la similitud entre la señal de audio de formación que se va a codificar y la señal de audio de formación codificada según la reivindicación 22.
28. Un programa informático para llevar a cabo el procedimiento de una de las reivindicaciones 22 a 27, cuando el programa informático se ejecuta en un ordenador.
ES19737471T 2018-05-30 2019-05-29 Evaluador de similitud de audio, codificador de audio, procedimientos y programa informático Active ES2960785T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18175251 2018-05-30
EP18198992.2A EP3576088A1 (en) 2018-05-30 2018-10-05 Audio similarity evaluator, audio encoder, methods and computer program
PCT/EP2019/064105 WO2019229190A1 (en) 2018-05-30 2019-05-29 Audio similarity evaluator, audio encoder, methods and computer program

Publications (1)

Publication Number Publication Date
ES2960785T3 true ES2960785T3 (es) 2024-03-06

Family

ID=62567262

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19737471T Active ES2960785T3 (es) 2018-05-30 2019-05-29 Evaluador de similitud de audio, codificador de audio, procedimientos y programa informático

Country Status (9)

Country Link
US (1) US20210082447A1 (es)
EP (3) EP3576088A1 (es)
JP (1) JP7301073B2 (es)
KR (1) KR102640748B1 (es)
BR (1) BR112020024361A2 (es)
CA (2) CA3165021A1 (es)
ES (1) ES2960785T3 (es)
MX (1) MX2020012886A (es)
WO (1) WO2019229190A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3084489B1 (fr) * 2018-07-26 2020-09-11 Etat Francais Represente Par Le Delegue General Pour Larmement Procede de detection d’au moins un equipement informatique compromis au sein d’un systeme d’information
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
WO2022076404A1 (en) * 2020-10-05 2022-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for brain-informed speech separation
CN116386611B (zh) * 2023-04-20 2023-10-13 珠海谷田科技有限公司 一种教学声场环境的去噪方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3183072B2 (ja) * 1994-12-19 2001-07-03 松下電器産業株式会社 音声符号化装置
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
JP3762204B2 (ja) * 2000-09-07 2006-04-05 三菱電機株式会社 音声符号化・復号化機器の検査方法および検査装置
JP4272897B2 (ja) * 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
CN101006496B (zh) * 2004-08-17 2012-03-21 皇家飞利浦电子股份有限公司 可分级音频编码
WO2007034375A2 (en) * 2005-09-23 2007-03-29 Koninklijke Philips Electronics N.V. Determination of a distortion measure for audio encoding
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
CA3055514C (en) * 2011-02-18 2022-05-17 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
EP3402217A1 (en) * 2017-05-09 2018-11-14 GN Hearing A/S Speech intelligibility-based hearing devices and associated methods

Also Published As

Publication number Publication date
KR20210021490A (ko) 2021-02-26
MX2020012886A (es) 2021-04-28
BR112020024361A2 (pt) 2021-03-02
EP4270393A3 (en) 2023-12-20
EP3576088A1 (en) 2019-12-04
EP3803865C0 (en) 2023-08-09
CA3101911A1 (en) 2019-12-05
KR102640748B1 (ko) 2024-02-27
CA3165021A1 (en) 2019-12-05
WO2019229190A1 (en) 2019-12-05
JP7301073B2 (ja) 2023-06-30
EP3803865A1 (en) 2021-04-14
EP4270393A2 (en) 2023-11-01
JP2021526240A (ja) 2021-09-30
CA3101911C (en) 2023-12-12
CN112470220A (zh) 2021-03-09
EP3803865B1 (en) 2023-08-09
US20210082447A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
ES2960785T3 (es) Evaluador de similitud de audio, codificador de audio, procedimientos y programa informático
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
RU2676899C2 (ru) Модуль вычисления и способ для определения данных фазовой коррекции для аудиосигнала
RU2641461C2 (ru) Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания
ES2661732T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
KR101632599B1 (ko) 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
RU2647634C2 (ru) Коррекция потери кадров путем внедрения взвешенного шума
RU2727728C1 (ru) Устройство и способ кодирования аудиосигнала с использованием значения компенсации
BR112019020515A2 (pt) aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente
US20210383820A1 (en) Directional loudness map based audio processing
US20230395085A1 (en) Audio processor and method for generating a frequency enhanced audio signal using pulse processing
Helmrich et al. Improved low-delay MDCT-based coding of both stationary and transient audio signals
Disch et al. Improved psychoacoustic model for efficient perceptual audio codecs
RU2782981C2 (ru) Модуль оценки подобия аудиосигналов, аудиокодер, способы и компьютерная программа
CN112470220B (zh) 音频相似性评估器、音频编码器、方法
US20240194209A1 (en) Apparatus and method for removing undesired auditory roughness
RU2786712C1 (ru) Аудиопроцессор и способ генерирования аудиосигнала с улучшенной частотной характеристикой с использованием импульсной обработки
RU2793703C2 (ru) Обработка аудиоданных на основе карты направленной громкости
RU2771833C1 (ru) Обработка аудиоданных на основе карты направленной громкости