ES2709523T3 - Procedimiento y sistema de escalado de atenuación de canales relevantes de voz en audio multicanal - Google Patents

Procedimiento y sistema de escalado de atenuación de canales relevantes de voz en audio multicanal Download PDF

Info

Publication number
ES2709523T3
ES2709523T3 ES11707537T ES11707537T ES2709523T3 ES 2709523 T3 ES2709523 T3 ES 2709523T3 ES 11707537 T ES11707537 T ES 11707537T ES 11707537 T ES11707537 T ES 11707537T ES 2709523 T3 ES2709523 T3 ES 2709523T3
Authority
ES
Spain
Prior art keywords
voice
channel
attenuation
signal
voiceless
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11707537T
Other languages
English (en)
Inventor
Hannes Muesch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2709523T3 publication Critical patent/ES2709523T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Procedimiento para filtrar una señal de audio multicanal que tiene un canal de voz y al menos un canal sin voz, para mejorar la inteligibilidad de la voz determinada por la señal, en el que dicho procedimiento incluye las etapas de: (a) determinar al menos un valor de control de atenuación indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por al menos un canal sin voz de la señal de audio multicanal; y (b) atenuar al menos un canal sin voz de la señal de audio multicanal en respuesta al por lo menos un valor de control de atenuación.

Description

DESCRIPCION
Procedimiento y sistema de escalado de atenuacion de canales relevantes de voz en audio multicanal
Referencia cruzada a aplicaciones relacionadas
La presente solicitud reivindica prioridad a la solicitud provisional de patente de los Estados Unidos N° 61/311.437, presentada el 8 de Marzo de 2010.
Antecedentes de la invencion
1. Campo de la invencion
La invencion se refiere a sistemas y a procedimientos para mejorar la inteligibilidad de la voz humana (por ejemplo, un dialogo) determinada por una senal de audio multicanal. En algunas realizaciones, la invencion es un procedimiento y un sistema para filtrar una senal de audio que tiene un canal de voz (“speech channel") y un canal sin voz (“non-speech channel”) para mejorar la inteligibilidad de la voz determinada por la senal, mediante la determinacion de al menos un valor de control de atenuacion indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por el canal sin voz, y la atenuacion del canal sin voz en respuesta al valor de control de atenuacion.
2. Antecedentes de la invencion
A lo largo de la presente descripcion, incluyendo las reivindicaciones, el termino "voz" se usa en un sentido amplio para indicar la voz humana. Por lo tanto, la "voz" determinada por una senal de audio es un contenido de audio de la senal que es percibida como voz humana (por ejemplo, dialogo, monologo, canto u otra voz humana) durante la reproduccion de la senal por un altavoz (u otro transductor emisor de sonidos). Segun las realizaciones tfpicas de la invencion, la audibilidad de la voz determinada por una senal de audio es mejorada con relacion a otro contenido de audio (por ejemplo, musica instrumental o efectos de sonido sin voz) determinado por la senal, mejorando de esta manera la inteligibilidad (por ejemplo, claridad o facilidad de comprension) de la voz.
A lo largo de la presente descripcion, incluyendo las reivindicaciones, la expresion "contenido mejorador de voz" de un canal de una senal de audio multicanal es un contenido (determinado por el canal) que mejora la inteligibilidad u otra cualidad percibida del contenido de voz determinado por otro canal (por ejemplo, un canal de voz) de la senal.
Las realizaciones tfpicas de la invencion suponen que la mayor parte de la voz determinada por una senal de audio de entrada multicanal esta determinada por el canal central de la senal. Esta suposicion es consistente con la convencion en la produccion de sonido envolvente segun la cual la mayor parte de la voz es colocada normalmente en un solo canal (el canal central), y la mayor parte de la musica, el sonido ambiental y los efectos de sonido se mezclan normalmente en todos los canales (por ejemplo, los canales Izquierdo, Derecho, Envolvente Izquierdo y Envolvente Derecho, asf como el canal central).
De esta manera, en la presente memoria, a veces se hara referencia al canal central de una senal de audio multicanal como el canal de "voz" y, en la presente memoria, a veces se hara referencia al resto de canales (por ejemplo, Izquierdo, Derecho, Envolvente Izquierdo y Envolvente Derecho) de la senal como canales "sin voz". De manera similar, en la presente memoria, a veces se hara referencia a un canal "central" generado sumando los canales izquierdo y derecho de una senal estereo cuya voz esta paneada centralmente como canal de "voz", y, en la presente memoria, a veces se hara referencia a un canal "lateral" generado restando dicho canal central del canal izquierdo (o derecho) de la senal estereo como un canal "sin voz".
A lo largo de la presente descripcion, incluyendo las reivindicaciones, la expresion realizar una operacion "sobre" senales o datos (por ejemplo, filtrar, escalar o transformar las senales o los datos) se usa en un sentido amplio para indicar la realizacion de la operacion directamente sobre las senales o los datos , o sobre versiones procesadas de las senales o los datos (por ejemplo, sobre versiones de las senales que se han sido sometidas a un filtrado preliminar antes de la realizacion de la operacion sobre las mismas).
A lo largo de la presente descripcion, incluyendo las reivindicaciones, la expresion "sistema" se usa en un sentido amplio para indicar un dispositivo, sistema o subsistema. Por ejemplo, un subsistema que implementa un decodificador puede denominarse un sistema decodificador, y un sistema que incluye dicho subsistema (por ejemplo, un sistema que genera X senales de salida en respuesta a multiples entradas, en el que el subsistema genera M de las entradas y las otras X-M entradas son recibidas desde una fuente externa) puede denominarse tambien sistema decodificador.
A lo largo de la descripcion, incluyendo las reivindicaciones, la expresion "relacion" de un primer valor ("A") a un segundo valor ("B") se usa en un sentido amplio para indicar A/B, o B/A, o relacion de una version escalada o desplazada de uno de entre A y B a una version escalada o desplazada del otro de entre A y B (por ejemplo, (A x)/(B y), donde x e y son valores de desplazamiento).
A lo largo de la descripcion, incluyendo las reivindicaciones, la expresion "reproduccion" de senales por transductores emisores de sonido (por ejemplo, altavoces) hace referencia a causar que los transductores produzcan sonido en respuesta a las senales, incluyendo la realizacion de cualquier amplificacion requerida y/u otro procesamiento de las senales.
Cuando se escucha una voz en presencia de sonidos competitivos (tal como cuando se escucha a un amigo sobre el ruido de la gente en un restaurante), una parte de las caractensticas acusticas que senalan el contenido fonologico de la voz (caractensticas o senales de voz) estan enmascaradas por los sonidos competitivos y ya no estan disponibles para el oyente para decodificar el mensaje. A medida que el nivel del sonido competitivo aumenta con relacion al nivel de la voz, el numero de caractensticas de voz que se reciben correctamente disminuye y la percepcion de la voz se hace cada vez mas incomoda hasta que, en algun nivel de sonido competitivo, el proceso de percepcion de la voz se deteriora. Aunque esta relacion es valida para todos los oyentes, el nivel de sonido competitivo tolerable para cualquier nivel de voz no es el mismo para todos los oyentes. Algunos oyentes, por ejemplo, aquellos con perdida de audicion debido a la edad (presbiacusis) o aquellos que escuchan un lenguaje que adquirieron despues de la pubertad, toleran menos los sonidos competitivos que los oyentes con buena audicion o aquellos que escuchan su idioma nativo.
El hecho de que los oyentes tengan diferentes capacidades para comprender la voz en presencia de sonidos competitivos tiene implicaciones para el nivel en el que los sonidos ambientales y la musica de fondo en las noticias o en un audio de entretenimiento se mezclan con la voz. Los oyentes con perdida auditiva o aquellos que escuchan un idioma extranjero frecuentemente prefieren un nivel relativo mas bajo de audio sin voz que el proporcionado por el creador del contenido.
Para satisfacer estas necesidades especiales, es conocida la aplicacion de una atenuacion (“ducking”) a los canales sin voz de una senal de audio multicanal, pero menos (o ninguna) atenuacion al canal de voz de la senal, para mejorar la inteligibilidad de la voz determinada por la senal.
Por ejemplo, la publicacion de solicitud internacional PCT numero WO 2010/011377, que nombra a Hannes Muesch como inventor y asignada a Dolby Laboratories Licensing Corporation (publicada el 28 de Enero de 2010), describe que los canales sin voz (por ejemplo, los canales izquierdo y derecho) de una senal de audio multicanal pueden enmascarar la voz en el canal de voz de la senal (por ejemplo, el canal central) hasta el punto de que se satisface un nivel deseado de inteligibilidad de la voz. El documento WO 2010/011377 describe como determinar una funcion de atenuacion a ser aplicada por una circuitena de atenuacion a los canales sin voz en un intento de desenmascarar la voz en el canal de voz mientras se conserva la mayor parte posible de la intencion del creador del contenido. La tecnica descrita en el documento WO 2010/011377 se basa en la suposicion de que el contenido en un canal sin voz nunca mejora la inteligibilidad (u otra cualidad percibida) del contenido de voz determinado por el canal de voz.
La presente invention se basa, en parte, en el reconocimiento de que, aunque esta suposicion es correcta para la gran mayona del contenido de audio multicanal, no siempre es valida. El presente inventor ha reconocido que cuando al menos un canal sin voz de una senal de audio multicanal incluye contenido que mejora la inteligibilidad (u otra cualidad percibida) del contenido de voz determinado por el canal de voz de la senal, el filtrado de la senal segun el procedimiento del documento WO 2010/011377 puede afectar negativamente a la experiencia de entretenimiento de una persona que escucha la senal filtrada reproducida. Segun las realizaciones tfpicas de la presente invencion, la aplicacion del procedimiento descrito en el documento WO 2010/011377 es suspendida o modificada durante los momentos en los que el contenido no se ajusta a las suposiciones subyacentes al procedimiento del documento WO 2010/011377.
Existe una necesidad de un procedimiento y de un sistema para filtrar una senal de audio multicanal para mejorar la inteligibilidad de la voz en el caso comun en el que al menos un canal sin voz de la senal de audio incluye contenido que mejora la inteligibilidad del contenido de voz en el canal de voz de la senal de audio.
Breve descripcion de la invencion
En una primera clase de realizaciones, la invencion es un procedimiento para filtrar una senal de audio multicanal que tiene un canal de voz y al menos un canal sin voz, para mejorar la inteligibilidad de la voz determinada por la senal. El procedimiento incluye las etapas de: (a) determinar al menos un valor de control de atenuacion indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por al menos un canal sin voz de la senal de audio multicanal; y (b) atenuar al menos un canal sin voz de la senal de audio multicanal en respuesta al por lo menos un valor de control de atenuacion. Tfpicamente, la etapa de atenuacion comprende escalar una senal de control de atenuacion no procesada (por ejemplo, una senal de control de ganancia de atenuacion) para el canal sin voz en respuesta al por lo menos un valor de control de atenuacion. Preferiblemente, el canal sin voz es atenuado para mejorar la inteligibilidad de la voz determinada por el canal de voz sin atenuar de manera no deseada el contenido mejorador de la voz determinado por el canal sin voz. En algunas realizaciones, cada valor de control de atenuacion determinado en la etapa (a) es indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por un canal sin voz de la senal de audio, y la etapa (b) incluye la etapa de atenuar este canal sin voz en respuesta a dicho valor de control de atenuacion. En algunas otras realizaciones, la etapa (a) incluye una etapa de derivar un canal sin voz derivado a partir de al menos un canal sin voz de la senal de audio, y el al menos un valor de control de atenuacion es indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por el canal sin voz derivado. Por ejemplo, el canal sin voz derivado puede ser generado sumando o sino mezclando o combinando al menos dos canales sin voz de la senal de audio. La determinacion de cada valor de control de atenuacion a partir de un solo canal sin voz derivado puede reducir el coste y la complejidad de implementar algunas realizaciones de la invencion, con relacion al coste y a la complejidad de determinar diferentes subconjuntos de un conjunto de valores de atenuacion a partir de canales sin voz diferentes. En las realizaciones en las que la senal de audio de entrada tiene al menos dos canales sin voz, la etapa (b) puede incluir la etapa de atenuar un subconjunto de los canales sin voz (por ejemplo, cada canal sin voz a partir del cual se ha derivado un canal sin voz) o todos los canales sin voz, en respuesta al por lo menos un valor de control de atenuacion (por ejemplo, en respuesta a una secuencia unica de valores de control de atenuacion).
En algunas realizaciones en la primera clase, la etapa (a) incluye una etapa de generar una senal de control de atenuacion indicativa de una secuencia de valores de control de atenuacion, en la que cada uno de los valores de control de atenuacion es indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por el al menos un canal sin voz en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente), y la etapa (b) incluye las etapas de: escalar una senal de control de ganancia de atenuacion en respuesta a la senal de control de atenuacion para generar una senal de control de ganancia escalada, y aplicar la senal de control de ganancia escalada para atenuar el al menos un canal sin voz (por ejemplo, activar, habilitar o emitir (“assert”) la senal de control de ganancia escalada a la circuitena de atenuacion para controlar la atenuacion del al menos un canal sin voz por la circuitena de atenuacion). Por ejemplo, en algunas de dichas realizaciones, la etapa (a) incluye una etapa de comparar una primera secuencia de caractensticas relacionadas con la voz (indicativas del contenido relacionado con la voz determinado por el canal de voz) con una segunda secuencia de caractensticas relacionadas con la voz (indicativas del contenido relacionado con la voz determinado por el al menos un canal sin voz) para generar la senal de control de atenuacion, y cada uno de los valores de control de atenuacion indicados por la senal de control de atenuacion es indicativo de una medida de similitud entre la primera secuencia de caractensticas relacionadas con la voz y la segunda secuencia de caractensticas relacionadas con la voz en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente). En algunas realizaciones, cada valor de control de atenuacion es un valor de control de ganancia.
En algunas realizaciones en la primera clase, cada valor de control de atenuacion esta relacionado monotonicamente con la probabilidad de que al menos un canal sin voz de la senal de audio sea indicativo de contenido mejorador de voz que mejora la inteligibilidad (u otra cualidad percibida) del contenido de voz determinado por el canal de voz.
En una segunda clase de realizaciones, la invencion es un procedimiento para filtrar una senal de audio multicanal que tiene un canal de voz y al menos un canal sin voz, para mejorar la inteligibilidad de la voz determinada por la senal. El procedimiento incluye las etapas de: (a) comparar una caractenstica del canal de voz y una caractenstica del canal sin voz para generar al menos un valor de atenuacion para controlar la atenuacion del canal sin voz con relacion al canal de voz; y (b) ajustar el al menos un valor de atenuacion en respuesta al por lo menos un valor de probabilidad de mejora de voz para generar al menos un valor de atenuacion ajustado para controlar la atenuacion del canal sin voz con relacion al canal de voz. Tfpicamente, la etapa de ajuste es (o incluye) escalar cada valor de atenuacion en respuesta a uno de dichos valores de probabilidad de mejora de voz para generar uno de dichos valores de atenuacion ajustada. Tfpicamente, cada valor de probabilidad de mejora de voz es indicativo (por ejemplo, esta relacionado monotonicamente con) la probabilidad de que el canal sin voz (o un canal sin voz derivado a partir del canal sin voz o a partir de un conjunto de canales sin voz de la senal de audio de entrada) sea indicativo de contenido mejorador de voz (contenido que mejora la inteligibilidad u otra cualidad percibida del contenido de voz determinado por el canal de voz).
En algunas realizaciones en la segunda clase, el al menos un valor de probabilidad de mejora de voz es una secuencia de valores de comparacion (por ejemplo, valores de diferencia) determinados por un procedimiento que incluye una etapa de comparar una primera secuencia de caractensticas relacionadas con la voz indicativas del contenido relacionado con la voz determinado por el canal de voz con una segunda secuencia de caractensticas relacionadas con la voz indicativas del contenido relacionado con la voz determinado por el canal sin voz, y cada uno de los valores de comparacion es una medida de similitud entre la primera secuencia de caractensticas relacionadas con la voz y la segunda secuencia de caractensticas relacionadas con la voz en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente). En realizaciones tfpicas en la tercera clase, el procedimiento incluye tambien la etapa de atenuar el canal sin voz en respuesta al por lo menos un valor de atenuacion ajustado. La etapa (b) puede comprender escalar el al menos un valor de atenuacion (que tfpicamente es, o esta determinado por, una senal de control de ganancia de atenuacion u otra senal de control de atenuacion no procesada) en respuesta al por lo menos un valor de probabilidad de mejora de voz.
En algunas realizaciones en la segunda clase, cada valor de atenuacion generado en la etapa (a) es un primer factor indicativo de una cantidad de atenuacion del canal sin voz necesario para limitar la relacion de potencia de senal en el canal sin voz a la potencia de senal en el canal de voz de manera que no exceda un umbral predeterminado, escalado por un segundo factor relacionado monotonicamente con la probabilidad de que el canal de voz sea indicativo de voz.
En algunas realizaciones en la segunda clase, la etapa (a) incluye las etapas de generar cada uno de dichos valores de atenuacion, incluyendo mediante la determinacion de un espectro de potencia (indicativo de la potencia como una funcion de la frecuencia) de cada uno de los canales de voz y el canal sin voz, y realizar una determinacion en el dominio de la frecuencia del valor de atenuacion en respuesta a dicho espectro de potencia. Preferiblemente, los valores de atenuacion generados de esta manera determinan la atenuacion como una funcion de la frecuencia a aplicar a los componentes de frecuencia del canal sin voz.
Los aspectos de la invention incluyen un sistema configurado (por ejemplo, programado) para realizar cualquier realization del procedimiento de la invencion, y un medio legible por ordenador (por ejemplo, un disco) que almacena codigo para implementar cualquier realizacion del procedimiento de la invencion.
Breve descripcion de los dibujos
La Fig. 1 es un diagrama de bloques de una realizacion del sistema de la invencion.
La Fig. 1A es un diagrama de bloques de otra realizacion del sistema de la invencion.
La Fig. 2 es un diagrama de bloques de otra realizacion del sistema de la invencion. La Fig. 2A es un diagrama de bloques de otra realizacion del sistema de la invencion. La Fig. 3 es un diagrama de bloques de otra realizacion del sistema de la invencion.
La Fig. 4 es un diagrama de bloques de un procesador de senal digital (DSP) de audio que es una realizacion del sistema de la invencion.
La Fig. 5 es un diagrama de bloques de un sistema de ordenador, que incluye un medio 504 de almacenamiento legible por ordenador que almacena codigo informatico para programar el sistema para realizar una realizacion del procedimiento de la invencion.
Descripcion detallada de las realizaciones preferidas
Muchas realizaciones de la presente invencion son tecnologicamente posibles. A partir de la presente descripcion, la implementacion de las realizaciones sera evidente para las personas con conocimientos ordinarios en la materia. Las realizaciones del sistema, del procedimiento y del medio de la invencion se describiran con referencia a las Figs. 1, 1A, 2, 2A y 3-5, y se definen en las reivindicaciones adjuntas.
El presente inventor ha observado que algunos contenidos de audio multicanal tienen contenido de voz diferente, pero aun asf relacionado, en el canal de voz y al menos en un canal sin voz. Por ejemplo, las grabaciones de audio multicanal de algunos espectaculos teatrales se mezclan de manera que la voz "seca" (es decir, la voz sin reverberation notable) se coloca en el canal de voz (tfpicamente, el canal central, C, de la senal) y la misma voz, pero con un componente de reverberacion significativo (voz "humeda") se coloca en los canales sin voz de la senal. En un escenario tfpico, la voz seca es la senal desde el microfono que el artista sostiene cerca de su boca y la voz humeda es la senal desde los microfonos colocados en la audiencia. La voz humeda esta relacionada con la voz seca, ya que es la interpretation tal como es escuchada por el publico en el sitio. Sin embargo, es diferente de la voz seca. Tfpicamente, la voz humeda esta retrasada con relacion a la voz seca, y tiene un espectro diferente y componentes aditivos diferentes (por ejemplo, ruidos del publico y reverberacion).
Dependiendo de los niveles relativos de la voz seca y la voz humeda, es posible que la componente de voz humeda enmascare la componente de voz seca en un grado tal que la atenuacion de los canales sin voz en la circuitena de atenuacion (por ejemplo, como en el procedimiento descrito en el documento WO 2010/011377 indicado anteriormente) atenua de manera no deseable la senal de voz humeda. Aunque las componentes de voz seca y humeda pueden describirse como entidades separadas, un oyente fusiona perceptualmente las dos y las escucha como un solo flujo de voz. La atenuacion de la componente de voz humeda (por ejemplo, en la circuitena de atenuacion) puede tener el efecto de reducir la intensidad percibida del flujo de voz fusionado junto con el colapso de su anchura de imagen. El presente inventor ha reconocido que para las senales de audio multicanal que tienen componentes de voz humeda y seca del tipo indicado, frecuentemente sena perceptualmente mas agradable, asf como mas favorable para la inteligibilidad de la voz, si el nivel de las componentes de voz humeda no se alterara durante el procesamiento de mejora de voz de las senales.
La invencion se basa, en parte, en el reconocimiento de que, cuando al menos un canal sin voz de una senal de audio multicanal incluye contenido que mejora la inteligibilidad (u otra cualidad percibida) del contenido de voz determinado por el canal de voz de la senal, el filtrado de los canales sin voz de la senal usando circuitena de atenuacion (por ejemplo, segun el procedimiento del documento WO 2010/011377) puede afectar negativamente a la experiencia de entretenimiento de una persona que escucha la senal filtrada reproducida. Segun las realizaciones tfpicas de la invencion, la atenuacion (en circuitena de atenuacion) de al menos un canal sin voz de una senal de audio multicanal es suspendida o modificada durante los tiempos en los que el canal sin voz incluye contenido mejorador de voz (contenido que mejora la inteligibilidad u otra cualidad percibida del contenido de voz determinada por el canal de voz de la senal). En los tiempos en los que el canal sin voz no incluye contenido mejorador de voz (o no incluye contenido mejorador de voz que cumple con un criterio predeterminado), el canal sin voz es atenuado normalmente (la atenuacion no se suspende ni se modifica).
Una senal multicanal tfpica (que tiene un canal de voz) para la cual un filtrado convencional en circuitena de atenuacion es inapropiado es aquella que incluye al menos un canal sin voz que transporta caractensticas de voz que son sustancialmente identicas a las caractensticas de voz en el canal de voz. Segun las realizaciones tfpicas de la presente invencion, una secuencia de caractensticas relacionadas con la voz en el canal de voz es comparada con una secuencia de caractensticas relacionadas con la voz en el canal sin voz. Una similitud sustancial de las dos secuencias de caractensticas indica que el canal sin voz (es decir, la senal en el canal sin voz) contribuye a la informacion util para comprender la voz en el canal de voz y que debena evitarse la atenuacion del canal sin voz.
Para apreciar la importancia del examen de la similitud entre dichas secuencias de caractensticas relacionadas con la voz en lugar de las propias senales, es importante reconocer que el contenido de voz "seca" y "humeda" (determinado por los canales de voz y sin voz) no es identico; las senales indicativas de los dos tipos de contenido de voz estan tfpicamente desfasadas temporalmente, y han sido sometidas a procesos de filtrado diferentes y se les han anadido diferentes componentes extranos. Por lo tanto, una comparacion directa entre las dos senales producira una baja similitud, independientemente de si el canal sin voz contribuye o no a caractensticas de voz que son las mismas que en el canal de voz (como en el caso de la voz seca y humeda), caractensticas de voz no relacionadas (como en el caso de dos voces no relacionadas en el canal de voz y sin voz [por ejemplo, una conversacion objetivo en el canal de voz y murmullo de fondo en el canal sin voz]), o ninguna senal de voz en absoluto (por ejemplo, el canal sin voz transporta musica y efectos). Al basar la comparacion en las caractensticas de la voz (como en las realizaciones preferidas de la presente invencion), se consigue un nivel de abstraccion que disminuye el impacto de los aspectos de senales irrelevantes, tales como pequenas cantidades de retardo, diferencias espectrales y senales extranas agregadas. De esta manera, las implementaciones preferidas de la invencion generan tfpicamente al menos dos flujos de caractensticas de voz: una que representa la senal en el canal de voz; y al menos uno que representa la senal de un canal sin voz.
Un primer ejemplo (125) de un sistema que implementa los procedimientos reivindicados se describira con referencia a la Fig. 1. En respuesta a una senal de audio multicanal que comprende un canal 101 de voz (canal C central) y dos canales 102 y 103 sin voz (canales L y R izquierdo y derecho), el sistema de la Fig. 1 filtra los canales sin voz para generar una senal de audio de salida multicanal filtrada que comprende el canal 101 de voz y los canales 118 y 119 sin voz filtrados (canales L' y R' izquierdo y derecho filtrados). De manera alternativa, uno o ambos canales 102 y 103 sin voz pueden ser otro tipo de canal sin voz de una senal de audio multicanal (por ejemplo, canales trasero izquierdo y/o trasero derecho de una senal de audio de 5.1 canales) o puede ser un canal in voz derivado, derivado a partir de (por ejemplo, es una combinacion de) cualquiera de los muchos subconjuntos diferentes de canales sin voz de una senal de audio multicanal. De manera alternativa, el sistema puede ser implementado para filtrar solo un canal sin voz, o mas de dos canales sin voz, de una senal de audio multicanal.
Con referencia una vez mas a la Fig. 1, los canales 102 y 103 sin voz son emitidos o activados (“asserted”) a los amplificadores 117 y 116 de atenuacion, respectivamente. Durante el funcionamiento, el amplificador 116 de atenuacion es accionado por una senal S3 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S3 de valores de control) emitida desde el elemento 114 de multiplicacion, y el amplificador 117 de atenuacion es accionado por la senal S4 de control (que es indicativa de una secuencia de valores de control, y de esta manera se denomina tambien secuencia S4 de valores de control) emitida desde el elemento 115 de multiplicacion.
La potencia de cada canal de la senal de entrada multicanal es medida con un banco de estimadores de potencia (104, 105 y 106) y es expresada en una escala logantmica [dB]. Estos estimadores de potencia pueden implementar un mecanismo de suavizado, como un integrador con fugas, de manera que el nivel de potencia medido refleje el nivel de potencia promediado durante la duracion de una oracion o un pasaje completo. El nivel de potencia de la senal en el canal de voz se resta del nivel de potencia en cada uno de los canales sin voz (restando los elementos 107 y 108) para dar una medida de la relacion de potencia entre los dos tipos de senal. La salida del elemento 107 es una medida de la relacion de potencia en el canal 103 sin voz a la potencia en el canal 101 de voz. La salida del elemento 108 es una medida de la relacion de potencia en el canal 102 sin voz a la potencia en el canal 101 de voz.
El circuito 109 de comparacion determina, para cada canal sin voz, el numero de decibelios (dB) en los que el canal sin voz debe ser atenuado para que su nivel de potencia permanezca al menos O dB por debajo del nivel de potencia de la senal en el canal de voz (donde el sfmbolo O conocido tambien como “script theta”, indica un valor de umbral predeterminado). En una implementacion del circuito 109, el elemento 120 de adicion suma el valor 0 de umbral (almacenado en el elemento 110, que puede ser un registro) a la diferencia de nivel de potencia (o "margen") entre el canal 103 sin voz y el canal 101 de voz, y el elemento 121 de adicion anade el valor 0 de umbral a la diferencia de nivel de potencia entre el canal 102 sin voz y el canal 101 de voz. Los elementos 111-1 y 112-1 cambian el signo de la salida de los elementos 120 y 121 de adicion, respectivamente. Esta operacion de cambio de signo convierte los valores de atenuacion en valores de ganancia. Los elementos 111 y 112 limitan cada resultado de manera que sea igual o menor que cero (la salida del elemento 111-1 es emitida al limitador 111 y la salida del elemento 112-1 es emitida al limitador 112). El valor C1 actual emitido desde el limitador 111 determina la ganancia (atenuacion negada) en dB que debe ser aplicada al canal 103 sin voz para mantener su nivel de potencia 0 dB por debajo del nivel de potencia del canal 101 de voz (en el tiempo relevante o en la ventana temporal relevante, de la senal de entrada multicanal). El valor C2 actual emitido desde el limitador 112 determina la ganancia (atenuacion negada) en dB que debe ser aplicada al canal 102 sin voz para mantener su nivel de potencia 0 dB por debajo del nivel de potencia del canal 101 de voz (en el tiempo relevante, o en la ventana temporal relevante, de la senal de entrada multicanal). Un valor adecuado tfpico para 0 es 15 dB.
Debido a que hay una relacion unica entre una medida expresada en una escala logantmica (dB) y esa misma medida expresada en una escala lineal, puede construirse un circuito (o procesador programado o sino configurado) que es equivalente a los elementos 104, 105, 106, 107, 108 y 109 de la Fig. 1, en el que la potencia, la ganancia y el umbral se expresan en una escala lineal. En dicha implementacion, todas las diferencias de nivel se reemplazan por relaciones de las medidas lineales. Implementaciones alternativas pueden reemplazar la medida de potencia con medidas que estan relacionadas con la intensidad de la senal, tales como el valor absoluto de la senal.
La senal C1 emitida desde el limitador 111 es una senal de control de atenuacion no procesada para el canal 103 sin voz (una senal de control de ganancia para el amplificador 116 de atenuacion) que podna ser emitida directamente al amplificador 116 para controlar la atenuacion del canal 103 sin voz. La senal C2 emitida desde el limitador 112 es una senal de control de atenuacion no procesada para el canal 102 sin voz (una senal de control de ganancia para el amplificador 117 de atenuacion) que podna ser emitida directamente al amplificador 117 para controlar la atenuacion del canal 102 sin voz.
Las senales C1 y C2 de control de atenuacion no procesadas son escaladas en los elementos 114 y 115 de multiplicacion para generar las senales S3 y S4 de control de ganancia para controlar la atenuacion de los canales sin voz por parte de los amplificadores 116 y 117. La senal C1 es escalada en respuesta a una secuencia de valores S1 de control de atenuacion, y la senal C2 es escalada en respuesta a una secuencia de valores S2 de control de atenuacion. Cada valor S1 de control es emitido a partir de la salida del elemento 134 de procesamiento (que se describira mas adelante) a una entrada del elemento 114 de multiplicacion, y la senal C1 (y, de esta manera, cada valor C1 de control de ganancia "no procesado" determinado de esta manera) es emitida desde el limitador 111 a la otra entrada del elemento 114. El elemento 114 escala el valor C1 actual en respuesta al valor S1 actual multiplicando estos valores entre sf para generar el valor S3 actual, que es emitido al amplificador 116. Cada valor S2 de control es emitido desde la salida del elemento 135 de procesamiento (que se describira mas adelante) a una entrada del elemento 115 de multiplicacion, y la senal C2 (y, de esta manera, cada valor C2 de control de ganancia “no procesado” determinado) es emitida desde el limitador 112 a la otra entrada del elemento 115. El elemento 115 escala el valor C2 actual en respuesta al valor S2 actual multiplicando estos valores entre sf para generar el valor S4 actual, que es emitido al amplificador 117.
Los valores S1 y S2 de control son generados de la siguiente manera.
En los elementos 130, 131 y 132 de procesamiento de probabilidad de voz, se genera una senal de probabilidad de voz (cada una de las senales P, Q y T de la Fig. 1) para cada canal de la senal de entrada multicanal. La senal P de probabilidad de voz es indicativa de una secuencia de valores de probabilidad de voz para el canal 102 sin voz; la senal Q de probabilidad de voz es indicativa de una secuencia de valores de probabilidad de voz para el canal 101 de voz, y la senal T de probabilidad de voz es indicativa de una secuencia de valores de probabilidad de voz para el canal 103 sin voz.
La senal Q de probabilidad de voz es un valor relacionado monotonicamente con la probabilidad de que la senal en el canal de voz sea, de hecho, indicativa de voz. La senal P de probabilidad de voz es un valor relacionado monotonicamente con la probabilidad de que la senal en el canal 102 sin voz sea una voz, y la senal T de probabilidad de voz es un valor relacionado monotonicamente con la probabilidad de que la senal en el canal 103 sin voz sea una voz. Los procesadores 130, 131 y 132 (que son tfpicamente identicos entre sf, pero no son identicos entre sf en algunas realizaciones) pueden implementar cualquiera de entre diversos procedimientos para determinar automaticamente la probabilidad de que las senales de entrada emitidas a los mismos sean indicativas de voz. En un ejemplo, los procesadores 130, 131 y 132 de probabilidad son identicos entre sf, el procesador 130 genera la senal P (a partir de la informacion en el canal 102 sin voz), de manera que la senal P sea indicativa de una secuencia de valores de probabilidad de la voz, cada uno relacionado monotonicamente con la probabilidad de que la senal en el canal 102 en un tiempo (o ventana temporal) diferente sea una voz, el procesador 131 genera la senal Q (a partir de la informacion en el canal 101), de manera que la senal Q sea indicativa de una secuencia de valores de probabilidad de voz, cada uno relacionado monotonicamente con la probabilidad de que la senal en el canal 101 en un tiempo (o ventana temporal) diferente sea una voz, el procesador 132 genera la senal T (a partir de la informacion en el canal 103 sin voz) de manera que la senal T sea indicativa de una secuencia de valores de probabilidad de voz, cada una relacionada monotonicamente con la probabilidad de que la senal en el canal 102 en un tiempo (o ventana temporal) diferente sea una voz, y cada uno de los procesadores 130, 131 y 132 lo hace implementando (en el canal relevante de entre los canales 102, 101 y 103) el mecanismo descrito por Robinson y Vinton en "Automated Speech/Other Discrimination for Loudness Monitoring” (Audio Engineering Society, numero de prepublicacion 6437 de la Convencion 118, Mayo de 2005). De manera alternativa, la senal P puede ser creada manualmente, por ejemplo, por el creador de contenido, y puede ser transmitida junto con la senal de audio en el canal 102 al usuario final, y el procesador 130 puede simplemente extraer dicha senal P creada previamente a partir del canal 102 (o el procesador 130 puede ser eliminado y la senal P creada previamente puede ser emitida directamente al procesador 134). De manera similar, la senal Q puede ser creada manualmente y puede ser transmitida junto con la senal de audio en el canal 101, el procesador 131 puede simplemente extraer dicha senal Q creada previamente a partir del canal 101 (o el procesador 131 puede ser eliminado y la senal Q creada previamente puede ser emitida directamente a los procesadores 134 y 135), la senal T puede ser creada manualmente y puede ser transmitida junto con la senal de audio en el canal 103, y el procesador 132 puede simplemente extraer dicha senal T creada previamente a partir del canal 103 (o el procesador 132 puede ser eliminado y la senal T creada previamente puede ser emitida directamente al procesador 135).
En una implementacion tfpica del procesador 134, los valores de probabilidad de voz determinados por las senales P y Q son comparados por pares para determinar la diferencia entre los valores actuales de las senales P y Q para cada uno de entre una secuencia de valores actuales de la senal P. En una implementacion tfpica del procesador 135, los valores de probabilidad de voz determinados por las senales T y Q son comparados por pares para determinar la diferencia entre los valores actuales de las senales T y Q para cada uno de entre una secuencia de valores actuales de la senal Q. Como resultado, cada uno de los procesadores 134 y 135 genera una secuencia temporal de valores de diferencia para un par de senales de probabilidad de voz.
Los procesadores 134 y 135 se implementan preferiblemente para suavizar cada una de dichas secuencias de valores de diferencia mediante promedio de tiempo, y opcionalmente para escalar cada secuencia resultante de valores de diferencia promediados. El escalado de las secuencias de valores de diferencia promediados puede ser necesario para que los valores promediados escalados emitidos desde los procesadores 134 y 135 esten en un rango tal que las salidas de los elementos 114 y 115 de multiplicacion sean utiles para accionar los amplificadores 116 y 117 de atenuacion.
En una implementacion tfpica, la senal S1 emitida desde el procesador 134 es una secuencia de valores de diferencia promediados escalados (en el que cada uno de estos valores de diferencia promediados escalados es un promedio escalado de la diferencia entre valores actuales de los valores de diferencia de las senales P y Q en una ventana temporal diferente). La senal S1 es una senal de control de ganancia de atenuacion para el canal 102 sin voz, y se emplea para escalar la senal C1 de control de ganancia de atenuacion no procesada generada de manera independiente para el canal 102 sin voz. De manera similar, en una implementacion tfpica, la senal S2 emitida desde el procesador 135 es una secuencia de valores de diferencia promediados escalados (en el que cada uno de estos valores de diferencia promediados escalados es un promedio escalado de la diferencia entre los valores actuales de las senales T y Q en una ventana temporal diferente). La senal S2 es una senal de control de ganancia de atenuacion para el canal 103 sin voz, y se emplea para escalar la senal C2 de control de ganancia de atenuacion no procesada generada de manera independiente para el canal 103 sin voz.
El escalado de la senal C1 de control de ganancia de atenuacion no procesada en respuesta a la senal S1 de control de ganancia de atenuacion puede ser realizado multiplicando (en el elemento 114) cada valor de control de ganancia no procesado de la senal C1 por un valor correspondiente de entre los valores de diferencia promediados escalados de la senal S1, para generar la senal S3. El escalado de la senal C2 de control de ganancia de atenuacion no procesada en respuesta a la senal S2 de control de ganancia de atenuacion puede ser realizado multiplicando (en el elemento 115) cada valor de control de ganancia no procesado de la senal C2 por un valor correspondiente de entre los valores de diferencia promediados escalados de la senal S2, para generar la senal S4.
Otro ejemplo (125') del sistema se describira con referencia a la Fig. 1A. En respuesta a una senal de audio multicanal que comprende un canal 101 de voz (canal C central) y dos canales 102 y 103 sin voz (canales L y R izquierdo y derecho), el sistema de la Fig. 1A filtra los canales sin voz para generar una senal de audio de salida multicanal filtrada que comprende el canal 101 de voz y los canales 118 y 119 sin voz (canales L' y R' izquierdo y derecho, filtrados).
En el sistema de la Fig. 1A (al igual que en el sistema de la Fig. 1), los canales 102 y 103 sin voz son emitidos a los amplificadores 117 y 116, respectivamente. Durante el funcionamiento, el amplificador 117 de atenuacion es accionado por una senal S4 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S4 de valores de control) emitida desde el elemento 115 de multiplicacion, y el amplificador 116 de atenuacion es accionado por una senal S3 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S3 de valores de control) emitida desde el elemento 114 de multiplicacion. Los elementos 104, 105, 106, 107, 108, 109 (incluyendo los elementos 110, 120, 121, 111-1, 112-1, 111 y 112), 114, 115, 130, 131, 132, 134 y 135 de la Fig. 1A son identicos a (y funcionan de manera identica a) los elementos de la Fig. 1, y no se repetira la descripcion anterior de los mismos.
El sistema de la Fig. 1A difiere del de la Fig. 1 en que una senal V1 de control (emitida en la salida del multiplicador 214) es usada para escalar la senal C1 de control (emitida en la salida del elemento 111 limitador) en lugar de la senal S1 de control (emitida en la salida del procesador 134), y una senal V2 de control (emitida en la salida del multiplicador 215) es usada para escalar la senal C2 de control (emitida en la salida del elemento 112 limitador) en lugar de la senal S2 de control (emitida en la salida del procesador 135). En la Fig. 1A, el escalado de la senal C1 de control de ganancia de atenuacion no procesada en respuesta a la secuencia de valores V1 de control de atenuacion segun la invention se realiza multiplicando (en el elemento 114) cada valor de control de ganancia no procesado de la senal C1 por un valor correspondiente de entre los valores V1 de control de atenuacion, para generar la senal S3, y el escalado de la senal C2 de control de ganancia de atenuacion no procesada en respuesta a la secuencia de valores V2 de control de atenuacion segun la invencion se realiza multiplicando (en el elemento 115) cada valor de control de ganancia no procesado de la senal C2 por un valor correspondiente de entre los valores V2 de control de atenuacion, para generar la senal S4.
Para generar la secuencia de los valores V1 de control de atenuacion, la senal Q (emitida en la salida del procesador 131) es emitida a una entrada del multiplicador 214, y la senal S1 de control (emitida en la salida del procesador 134) es emitida a la otra entrada del multiplicador 214. La salida del multiplicador 214 es la secuencia de los valores V1 de control de atenuacion. Cada uno de los valores V1 de control de atenuacion es uno de los valores de probabilidad de voz determinados por la senal Q, escalados por un valor correspondiente de entre los valores S1 de control de atenuacion.
De manera similar, para generar la secuencia de valores V2 de control de atenuacion, la senal Q (emitida en la salida del procesador 131) es emitida a una entrada del multiplicador 215, y la senal S2 de control (emitida en la salida del procesador 135) es emitida a la otra entrada del multiplicador 215. La salida del multiplicador 215 es la secuencia de los valores V2 de control de atenuacion. Cada uno de los valores V2 de control de atenuacion es uno de los valores de probabilidad de voz determinados por la senal Q, escalado por un valor correspondiente de entre los valores S2 de control de atenuacion.
El sistema de la Fig. 1 (o el de la Fig. 1A) puede ser implementado en un software por un procesador (por ejemplo, el procesador 501 de la Fig. 5) que ha sido programado para implementar las operaciones descritas en el sistema de la Fig. 1 (o 1A). De manera alternativa, puede ser implementado en hardware con elementos de circuito conectados tal como se muestra en la Fig. 1 (o 1A).
En las variaciones en el ejemplo de la Fig. 1 (o en el de la Fig. 1A), el escalado de la senal C1 de control de ganancia de atenuacion no procesada en respuesta a la senal S1 (o V1) de control de ganancia de atenuacion segun la invencion (para generar una senal de control de ganancia de atenuacion para accionar el amplificador 116) puede ser realizado de manera no lineal. Por ejemplo, dicho escalado no lineal puede generar una senal de control de ganancia de atenuacion (que reemplaza a la senal S3) que no causa una atenuacion por parte del amplificador 116 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 116 y, de esta manera, una atenuacion nula del canal 103) cuando el valor actual de la senal S1 (o V1) esta por debajo de un umbral, y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S3) sea igual al valor actual de la senal C1 (de manera que la senal S1 (o V1) no modifique el valor actual de C1) cuando el valor actual de la senal S1 supera el umbral. De manera alternativa, puede realizarse otro escalado lineal o no lineal de la senal C1 (en respuesta a la senal S1 o V1 de control de ganancia de atenuacion de la invencion) para generar una senal de control de ganancia de atenuacion para accionar el amplificador 116. Por ejemplo, dicho escalado de la senal C1 puede generar una senal de control de ganancia de atenuacion (que reemplaza a la senal S3) que no causa una atenuacion por parte del amplificador 116 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 116) cuando el valor actual de la senal S1 (o V1) esta por debajo de un umbral, y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S3) sea igual al valor actual de la senal C1 multiplicado por el valor actual de la senal S1 o V1 (o algun otro valor determinado a partir de este producto) cuando el valor actual de la senal S1 (o V1) supera el umbral.
De manera similar, en variaciones del ejemplo de la Fig. 1 (o de la Fig. 1A), el escalado de la senal C2 de control de ganancia de atenuacion no procesada en respuesta a la senal S2 (o V2) de control de ganancia de atenuacion segun la invencion (para generar una senal de control de ganancia de atenuacion para accionar el amplificador 117) puede ser realizado de manera no lineal. Por ejemplo, dicho escalado no lineal puede generar una senal de control de ganancia de atenuacion (que reemplaza a la senal S4) que no causa una atenuacion por parte del amplificador 117 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 117 y, de esta manera, una atenuacion nula del canal 102) cuando el valor actual de la senal S2 (o V2) esta por debajo de un umbral, y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S4) sea igual al valor actual de la senal C2 (de manera que la senal S2 o V2 no modifique el valor actual de C2) cuando el valor actual de la senal S2 (o V2) supera el umbral. De manera alternativa, puede realizarse otro escalado lineal o no lineal de la senal C2 (en respuesta a la senal S2 o V2 de control de ganancia de atenuacion) para generar una senal de control de ganancia de atenuacion para accionar el amplificador 117. Por ejemplo, dicho escalado de la senal C2 puede generar una senal de control de ganancia de atenuacion (que reemplaza a la senal S4) que no causa una atenuacion por parte del amplificador 117 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 117) cuando el valor actual de la senal S2 (o V2) esta por debajo de un umbral, y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S4) sea igual al valor actual de la senal C2 multiplicado por el valor actual de la senal S2 o V2 (o algun otro valor determinado a partir de este producto) cuando el valor actual de la senal S2 (o V2) supera el umbral.
Otro ejemplo (225) de un sistema de la invencion se describira con referencia a la Fig. 2. En respuesta a una senal de audio multicanal que comprende un canal 101 de voz (canal C central) y dos canales 102 y 103 sin voz (canales L y R izquierdo y derecho), el sistema de la Fig. 2 filtra los canales sin voz para generar una senal de audio de salida multicanal filtrada que comprende el canal 101 de voz y los canales 118 y 119 sin voz (canales L' y R' izquierdo y derecho filtrados).
En el sistema de la Fig. 2 (como en el sistema de la Fig. 1), los canales 102 y 103 sin voz son emitidos a los amplificadores 117 y 116 de atenuacion, respectivamente. Durante el funcionamiento, el amplificador 117 de atenuacion es accionado por una senal S6 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S6 de valores de control) emitida desde el elemento 115 de multiplicacion, y el amplificador 116 de atenuacion es accionado por la senal S5 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S5 de valores de control), emitida desde el elemento 114 de multiplicacion. Los elementos 114, 115, 130, 131, 132, 134 y 135 de la Fig. 2 son identicos a (y funcionan de manera identica a) los elementos de la Fig. 1, y no se repetira la descripcion de los mismos.
El sistema de la Fig. 2 mide la potencia de las senales en cada uno de los canales 101, 102 y 103 con un banco de estimadores 201, 202 y 203 de potencia. A diferencia de sus homologos en la Fig. 1, cada uno de los estimadores 201, 201 y 203 de potencia mide la distribucion de la potencia de la senal a lo largo de la frecuencia (es decir, la potencia en cada banda de frecuencias diferente de entre un conjunto de bandas de frecuencia del canal relevante), resultando en un espectro de potencia en lugar de un unico numero para cada canal. La resolucion espectral de cada espectro de potencia coincide idealmente con la resolucion espectral de los modelos de prediccion de inteligibilidad implementados por los elementos 205 y 206 (descritos mas adelante).
Los espectros de potencia son suministrados al circuito 204 de comparacion. El proposito del circuito 204 es determinar la atenuacion a aplicar a cada canal sin voz para garantizar que la senal en el canal sin voz no reduzca la inteligibilidad de la senal en el canal de voz de manera que sea menor que un criterio predeterminado. Esta funcionalidad se consigue empleando un circuito de prediccion de inteligibilidad (205 y 206) que predice la inteligibilidad de la voz a partir de los espectros de potencia de la senal (201) del canal de voz y senales (202 y 203) de los canales sin voz. Los circuitos 205 y 206 de prediccion de inteligibilidad pueden implementar un modelo de prediccion de inteligibilidad adecuado segun las elecciones y los compromisos de diseno. Los ejemplos son el fndice de inteligibilidad de voz segun se especifica en ANSI S3.5- 1997 ("Methods for Calculation of the Speech Intelligibility Index") y el modelo de sensibilidad de reconocimiento de voz de Muesch y Buus ("Using statistical decision theory to predict speech intelligibility. I. Model structure" Journal of the Acoustical Society of America, 2001, Vol. 109, p. 2896-2909). Es evidente que la salida del modelo de prediccion de inteligibilidad no tiene ningun significado cuando la senal en el canal de voz es algo diferente de una voz. A pesar de esto, en adelante, se hara referencia a la salida del modelo de prediccion de inteligibilidad como inteligibilidad de voz predicha. El error percibido se contabiliza en el procesamiento subsiguiente escalando los valores de ganancia emitidos desde el circuito 204 de comparacion con los parametros S1 y S2, cada uno de los cuales esta relacionado con la probabilidad de que la senal en el canal de voz sea indicativa de una voz.
Los modelos de prediccion de inteligibilidad tienen en comun que predicen una inteligibilidad de voz incrementada o inalterada como resultado de la reduccion del nivel de la senal sin voz. Continuando en el flujo del procedimiento de la Fig. 2, los circuitos 207 y 208 de comparacion comparan la inteligibilidad predicha con un valor de criterio predeterminado. Si el elemento 205 determina que el nivel del canal 103 sin voz es tan bajo que la inteligibilidad predicha excede el criterio, un parametro de ganancia, que se inicializa a 0 dB, es recuperado desde el circuito 209 es proporcionado al circuito 211 como la salida C3 del circuito 204 de comparacion. Si el elemento 206 determina que el nivel del canal 102 sin voz es tan bajo que la inteligibilidad predicha excede el criterio, un parametro de ganancia, que se inicializa a 0 dB, es recuperado desde el circuito 210 y es proporcionado al circuito 212 como la salida C4 del circuito 204 de comparacion. Si el elemento 205 o 206 determina que no se cumple el criterio, el parametro de ganancia (en el elemento relevante de entre los elementos 209 y 210) se reduce en una cantidad fija y se repite la prediccion de inteligibilidad. Un tamano de paso adecuado para reducir la ganancia es de 1 dB. La iteracion que se acaba de describir continua hasta que la inteligibilidad predicha cumple o supera el valor del criterio.
Por supuesto, es posible que la senal en el canal de voz sea tal que no pueda alcanzarse el criterio de inteligibilidad incluso en ausencia de una senal en el canal sin voz. Un ejemplo de dicha situacion es una senal de voz de nivel muy bajo o con un ancho de banda severamente restringido. En este caso, se llegara a un punto en el que cualquier reduccion adicional de la ganancia aplicada al canal sin voz no afectara a la inteligibilidad de voz predicha y el criterio nunca se cumplira. En dicha condicion, el bucle formado por los elementos 205, 207 y 209 (o los elementos 206, 208 y 210) continua indefinidamente, y puede aplicarse una logica adicional (no mostrada) para interrumpir el bucle. Un ejemplo particularmente simple de dicha logica es contar el numero de iteraciones y salir del bucle una vez que se haya excedido un numero predeterminado de iteraciones.
El escalado de la senal C3 de control de ganancia de atenuacion no procesada en respuesta a la senal S1 de control de ganancia de atenuacion segun la invencion puede ser realizado multiplicando (en el elemento 114) cada valor de control de ganancia no procesado de la senal C3 por un valor correspondiente de entre los valores de diferencia promediados escalados de la senal S1, para generar la senal S5. El escalado de la senal C4 de control de ganancia de atenuacion no procesada en respuesta a la senal S2 de control de ganancia de atenuacion segun la invencion puede ser realizado multiplicando (en el elemento 115) cada valor de control de ganancia no procesado de la senal C4 por un valor correspondiente de entre los valores de diferencia promediados escalados de la senal S2, para generar la senal S6.
El sistema de la Fig. 2 puede ser implementado en software por un procesador (por ejemplo, el procesador 501 de la Fig. 5) que ha sido programado para implementar las operaciones descritas en el sistema de la Fig. 2. De manera alternativa, puede ser implementado en hardware con elementos de circuito conectados tal como se muestra en la Fig. 2.
En variaciones del ejemplo de la Fig. 2, el escalado de la senal C3 de control de ganancia de atenuacion no procesada en respuesta a la senal S1 de control de ganancia de atenuacion (para generar una senal de control de ganancia de atenuacion para accionar el amplificador 116) puede ser realizado de una manera no lineal. Por ejemplo, dicho escalado no lineal puede generar una senal de control de ganancia de atenuacion (que reemplaza a la senal S5) que no causa una atenuacion por parte del amplificador 116 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 116 y, de esta manera, una atenuacion nula del canal 103) cuando el valor actual de la senal S1 esta por debajo de un umbral, y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S5) sea igual al valor actual de la senal C3 (de manera que la senal S1 no modifique el valor actual de C3) cuando el valor actual de la senal S1 supera el umbral. De manera alternativa, puede realizarse otro escalado lineal o no lineal de la senal C3 (en respuesta a la senal S1 de control de ganancia de atenuacion de la invencion) para generar una senal de control de ganancia de atenuacion para accionar el amplificador 116. Por ejemplo, dicho escalado de la senal C3 puede generar una senal de control de ganancia de atenuacion (que reemplaza a la senal S5) que no causa una atenuacion por parte del amplificador 116 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 116) cuando el valor actual de la senal S1 esta por debajo de un umbral. y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S5) sea igual al valor actual de la senal C3 multiplicado por el valor actual de la senal S1 (o algun otro valor determinado a partir de este producto) cuando el valor actual de la senal S1 supera el umbral.
De manera similar, en variaciones del ejemplo de la Fig. 2, el escalado de la senal C4 de control de ganancia de atenuacion no procesada en respuesta a la senal S2 de control de ganancia de atenuacion (para generar una senal de control de ganancia de atenuacion para accionar el amplificador 117) puede ser realizado de una manera no lineal. Por ejemplo, dicho escalado no lineal puede generar una senal de control de ganancia de atenuacion (que reemplaza a la senal S6) que no causa una atenuacion del amplificador 117 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 117 y, de esta manera, una atenuacion nula del canal 102) cuando el valor actual de la senal S2 esta por debajo de un umbral y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S6) sea igual al valor actual de la senal C4 (de manera que la senal S2 no modifique el valor actual de C4) cuando el valor actual de la senal S2 supera el umbral. De manera alternativa, puede realizarse otro escalado lineal o no lineal de la senal C4 (en respuesta a la senal de control S2 de ganancia de atenuacion de la invencion) para generar una senal de control de ganancia de atenuacion para accionar el amplificador 117. Por ejemplo, dicho escalado de la senal C4 puede generar una senal de control de ganancia de atenuacion (que reemplaza la senal S6) que no causa una atenuacion del amplificador 117 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 117) cuando el valor actual de la senal S2 esta por debajo de un umbral, y causa que el valor actual de la senal de control de ganancia de atenuacion (que reemplaza a la senal S6) sea igual al valor actual de la senal C4 multiplicado por el valor actual de la senal S2 (o algun otro valor determinado a partir de este producto) cuando el valor actual de la senal S2 supera el umbral.
Otro ejemplo (225') del sistema se describira con referencia a la Fig. 2A. En respuesta a una senal de audio multicanal que comprende un canal 101 de voz (canal C central) y dos canales 102 y 103 sin voz (canales L y R izquierdo y derecho), el sistema de la Fig. 2A filtra los canales sin voz para generar una senal de audio de salida multicanal filtrada que comprende el canal 101 de voz y los canales 118 y 119 sin voz filtrados (canales L' y R' izquierdo y derecho filtrados).
En el sistema de la Fig. 2A (como en el sistema de la Fig. 2), los canales 102 y 103 sin voz son emitidos a los amplificadores 117 y 116 de atenuacion, respectivamente. Durante el funcionamiento, el amplificador 117 de atenuacion es accionado por una senal S6 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S6 de valores de control) emitida desde el elemento 115 de multiplicacion, y el amplificador 116 de atenuacion es accionado por la senal S5 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S5 de valores de control), emitida desde el elemento 114 de multiplicacion. Los elementos 201, 202, 203, 204, 114, 115, 130 y 134 de la Fig. 2A son identicos a (y funcionan de manera identica a) los elementos con numeracion identica de la Fig. 2, y no se repetira la descripcion de los mismos.
El sistema de la Fig. 2A difiere del de la Fig. 2 en dos aspectos principales. En primer lugar, el sistema esta configurado para generar (es decir, derivar) un canal sin voz “derivado” (L R) a partir de dos canales sin voz individuales (102 y 103) de la senal de audio de entrada, y para determinar los valores de control de atenuacion (V3) en respuesta a este canal sin voz derivado. Por el contrario, el sistema de la Fig. 2 determina los valores S1 de control de atenuacion en respuesta a un canal sin voz (canal 102) de la senal de audio de entrada y determina los valores S2 de control de atenuacion en respuesta a otro canal sin voz (canal 103) de la senal de audio de entrada. Durante el funcionamiento, el sistema de la Fig. 2A atenua cada canal sin voz de la senal de audio de entrada (cada uno de los canales 102 y 103) en respuesta al mismo conjunto de valores V3 de control de atenuacion. Durante el funcionamiento, el sistema de la Fig. 2 atenua el canal 102 sin voz de la senal de audio de entrada en respuesta a los valores S2 de control de atenuacion, y atenua el canal 103 sin voz de la senal de audio de entrada en respuesta a un conjunto diferente de valores de control de atenuacion (valores S1).
El sistema de la Fig. 2A incluye un elemento 129 de adicion cuyas entradas estan acopladas para recibir los canales 102 y 103 sin voz de la senal de audio de entrada. El canal sin voz derivado (L R) es emitido en la salida del elemento 129. El elemento 130 de procesamiento de probabilidad de voz emite la senal P de probabilidad de voz en respuesta al canal L R sin voz derivado desde el elemento 129. En la Fig. 2A, la senal P es indicativa de una secuencia de valores de probabilidad de voz para el canal sin voz derivado. Tfpicamente, la senal P de probabilidad de voz de la Fig. 2A es un valor relacionado monotonicamente con la probabilidad de que la senal en el canal sin voz derivado sea una voz. La senal Q de probabilidad de voz (generada por el procesador 131) de la Fig. 2A es identica a la senal Q de probabilidad de voz de la Fig. 2 descrita anteriormente.
Un segundo aspecto principal en el que el sistema de la Fig. 2A difiere del de la Fig. 2 es el siguiente. En la Fig. 2A, se usa la senal V3 de control (emitida en la salida del multiplicador 214) (en lugar de la senal S1 de control emitida en la salida del procesador 134) para escalar la senal C3 de control de ganancia de atenuacion no procesada (emitida en la salida del elemento 211), y la senal V3 de control se usa tambien (en lugar de la senal S2 de control emitida en la salida del procesador 135 de la Fig. 2) para escalar la senal C4 de control de ganancia de atenuacion no procesada (emitida en la salida del elemento 212). En la Fig. 2A, el escalado de la senal C3 de control de ganancia de atenuacion no procesada en respuesta a la secuencia de valores de control de atenuacion indicados por la senal V3 (a los que se hara referencia como valores V3 de control de atenuacion) es realizado multiplicando (en el elemento 114) cada valor de control de ganancia no procesado de la senal C3 por un valor correspondiente de entre los valores V3 de control de atenuacion, para generar la senal S5, y el escalado de la senal C4 de control de ganancia de atenuacion no procesada en respuesta a la secuencia de valores V3 de control de atenuacion es realizado multiplicando (en el elemento 115) cada valor de control de ganancia no procesado de la senal C4 por un valor correspondiente de entre los valores V3 de control de atenuacion, para generar la senal S6.
Durante el funcionamiento, el sistema de la Fig. 2A genera la secuencia de valores V3 de control de atenuacion de la siguiente manera. La senal Q de probabilidad de voz (emitida en la salida del procesador 131 de la Fig. 2A) es emitida a una entrada del multiplicador 214, y la senal S1 de control de atenuacion (emitida en la salida del procesador 134) es emitida a la otra entrada del multiplicador 214. La salida del multiplicador 214 es la secuencia de valores V3 de control de atenuacion. Cada uno de los valores V3 de control de atenuacion es uno de los valores de probabilidad de voz determinados por la senal Q, escalado por un valor correspondiente de entre los valores S1 de control de atenuacion.
Otro ejemplo (325) de un sistema se describira con referencia a la Fig. 3. En respuesta a una senal de audio multicanal que comprende un canal 101 de voz (canal C central) y dos canales 102 y 103 sin voz (canales L y R izquierdo y derecho), el sistema de la Fig. 3 filtra los canales sin voz para generar una senal de audio de salida multicanal filtrada que comprende el canal 101 de voz y los canales 118 y 119 sin voz (canales L' y R' izquierdo y derecho filtrados).
En el sistema de la Fig. 3, cada una de las senales en los tres canales de entrada es dividida en sus componentes espectrales por el banco 301 de filtros (para el canal 101), el banco 302 de filtros (para el canal 102) y el banco 303 de filtros (para el canal 103). El analisis espectral puede conseguirse con bancos de filtros de canal N en el dominio del tiempo. Segun un ejemplo, cada banco de filtros divide el rango de frecuencias en bandas de 1/3 de octava o imita el filtrado que se supone que ocurre en el ofdo interno humano. El hecho de que la senal emitida desde cada banco de filtros consiste en N sub-senales se ilustra mediante el uso de lmeas gruesas.
En el sistema de la Fig. 3, las componentes de frecuencia de las senales en los canales 102 y 103 sin voz son emitidas a los amplificadores 117 y 116 de atenuacion, respectivamente. Durante el funcionamiento, el amplificador 117 de atenuacion es accionado por una senal S8 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S8 de valores de control) emitida desde el elemento 115' de multiplicacion, y el amplificador 116 de atenuacion es accionado por una senal S7 de control (que es indicativa de una secuencia de valores de control y, de esta manera, se denomina tambien secuencia S7 de valores de control) emitida desde el elemento 114' de multiplicacion. Los elementos 130, 131, 132, 134 y 135 de la Fig. 3 son identicos a (y funcionan de manera identica a) los elementos con numeracion identica de la Fig. 1, y no se repetira la descripcion de los mismos.
El procedimiento de la Fig. 3 puede ser reconocido como un proceso de rama lateral. Siguiendo la ruta de senal mostrada en la Fig. 3, las N sub-senales generadas en el banco 302 para el canal 102 sin voz son escaladas, cada una, por un miembro de un conjunto de N valores de ganancia por el amplificador 117 de atenuacion y las N sub-senales generadas en el banco 303 para el canal 103 sin voz son escaladas por un miembro de un conjunto de N valores de ganancia por el amplificador 116 de atenuacion. La derivacion de estos valores de ganancia se describira mas adelante. A continuacion, las sub-senales escaladas son recombinadas en una sola senal de audio. Esto puede realizarse mediante una suma simple (por el circuito 313 de suma para el canal 102 y por el circuito 314 de suma para el canal 103). De manera alternativa, puede usarse un banco de filtros de smtesis que coincide con el banco de filtros de analisis. Este procedimiento resulta en la senal R' sin voz modificada (118) y la senal L' sin voz modificada (119).
Ahora, con relacion a la descripcion de la ruta de rama lateral del procedimiento de la Fig. 3, cada salida de banco de filtro se pone a disposicion de un banco correspondiente de N estimadores (304, 305 y 306) de potencia. Los espectros de potencia resultantes para los canales 101 y 102 sirven como entradas a un circuito 307 de optimizacion que tiene como salida un vector C6 de ganancias N-dimensional. Los espectros de potencia resultantes para los canales 101 y 103 sirven como entradas a un circuito 308 de optimizacion que tiene como salida un vector C5 de ganancias N-dimensional. La optimizacion emplea tanto un circuito (309 y 310) de prediccion de inteligibilidad como un circuito (311 y 312) de calculo de intensidad sonora para encontrar el vector de ganancias que maximiza la intensidad sonora de cada canal sin voz mientras mantiene un nivel predeterminado de inteligibilidad predicha de la senal de voz en el canal 101. Los modelos adecuados para predecir la inteligibilidad se han descrito con referencia a la Fig. 2. Los circuitos 311 y 312 de calculo de intensidad sonora pueden implementar un modelo de prediccion de intensidad sonora adecuado segun las opciones y los compromisos de diseno. Los ejemplos de modelos adecuados son el American National Standard ANSI S3.4-2007 "Procedure for the Computation of Loudness of Steady Sounds” y el estandar aleman DIN 45631 "Berechnung des Lautstarkepegels und der Lautheit aus dem Gerauschspektrum".
Dependiendo de los recursos computacionales disponibles y de las restricciones impuestas, la forma y la complejidad de los circuitos (307, 308) de optimizacion pueden variar ampliamente. Segun un ejemplo, se utiliza una optimizacion restringida, multidimensional, iterativa, de N parametros libres. Cada parametro representa la ganancia aplicada a una de las bandas de frecuencias del canal sin voz. Pueden aplicarse tecnicas estandar, tales como seguir el gradiente mas pronunciado (“steepest gradient”) en el espacio de busqueda N dimensional para encontrar el maximo. En otra realizacion, un enfoque computacionalmente menos exigente impone una restriccion a las funciones ganancia vs. frecuencia de manera que sean miembros de un pequeno conjunto de posibles funciones ganancia vs. frecuencia, tales como un conjunto de diferentes gradientes espectrales o filtros atenuadores o limitadores (“shelf). Con esta restriccion adicional, el problema de optimizacion puede reducirse a un pequeno numero de optimizaciones unidimensionales. En todavfa otro ejemplo, se realiza una busqueda exhaustiva sobre un conjunto muy pequeno de posibles funciones de ganancia. Este ultimo enfoque podna ser particularmente deseable en aplicaciones en tiempo real en las que se desea una carga computacional y una velocidad de busqueda constantes.
Las personas con conocimientos ordinarios en la materia reconoceran facilmente las restricciones adicionales que podnan imponerse en la optimizacion y estan reflejadas tambien por las realizaciones respectivas de las reivindicaciones dependientes.
Un ejemplo es restringir la intensidad sonora del canal sin voz modificado de manera que no sea mayor que la intensidad sonora antes de la modificacion. Otro ejemplo es imponer un lfmite a las diferencias de ganancia entre bandas de frecuencia adyacentes con el fin de limitar la posibilidad de solapamiento temporal en el banco de filtros de reconstruccion (313, 314) o con el fin de reducir la posibilidad de modificaciones de timbre objetables. Las restricciones deseables dependen tanto de la implementacion tecnica del banco de filtros como del compromiso elegido entre la mejora de inteligibilidad y la modificacion del timbre. En aras de una mayor claridad de la ilustracion, estas restricciones se omiten en la Fig. 3.
El escalado del vector C6 de control de ganancia de atenuacion no procesado N-dimensional en respuesta a la senal S2 de control de ganancia de atenuacion segun la invention puede ser realizado multiplicando (en el elemento 115') cada valor de control de ganancia no procesado del vector C6 por un valor correspondiente de entre los valores de diferencia promediados escalados de la senal S2, para generar el vector S8 de control de ganancia de atenuacion N-dimensional. El escalado del vector C5 de control de ganancia de atenuacion no procesado N-dimensional en respuesta a la senal S1 de control de ganancia de atenuacion segun la invencion puede ser realizado multiplicando (en el elemento 114') cada valor de control de ganancia no procesado del vector C5 por un valor correspondiente de entre los valores de diferencia promediados escalados de la senal S1, para generar el vector S7 de control de ganancia de atenuacion N-dimensional.
El sistema de la Fig. 3 puede ser implementado en software por un procesador (por ejemplo, el procesador 501 de la Fig. 5) que ha sido programado para implementar las operaciones descritas del sistema de la Fig. 3. De manera alternativa, puede ser implementado en hardware con elementos de circuito conectados tal como se muestra en la Fig. 3.
En variaciones en el ejemplo de la Fig. 3, el escalado del vector C5 de control de ganancia de atenuacion no procesado en respuesta a la senal S1 de control de ganancia de atenuacion segun la invencion (para generar un vector de control de ganancia de atenuacion para accionar el amplificador 116) puede ser realizado de una manera no lineal. Por ejemplo, dicho escalado no lineal puede generar un vector de control de ganancia de atenuacion (que reemplaza al vector S7) que no causa una atenuacion del amplificador 116 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 116 y, de esta manera, una atenuacion nula del canal 103) cuando el valor actual de la senal S1 esta por debajo de un umbral, y causa que los valores actuales del vector de control de ganancia de atenuacion (que reemplaza al vector S7) sean iguales a los valores actuales del vector C5 (de manera que la senal S1 no modifique los valores actuales de C5) cuando el valor actual de la senal S1 supera el umbral. De manera alternativa, puede realizarse otro escalado lineal o no lineal del vector C5 (en respuesta a la senal S1 de control de ganancia de atenuacion de la invencion) para generar un vector de control de ganancia de atenuacion para accionar el amplificador 116. Por ejemplo, dicho escalado del vector C5 puede generar un vector de control de ganancia de atenuacion (que reemplaza al vector S7) que no causa una atenuacion por parte del amplificador 116 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 116) cuando el valor actual de la senal S1 esta por debajo de un umbral, y causa que el valor actual del vector de control de ganancia de atenuacion (que reemplaza al vector S7) sea igual al valor actual del vector C5 multiplicado por el valor actual de la senal S1 (o algun otro valor determinado a partir de este producto) cuando el valor actual de la senal S1 supera el umbral.
De manera similar, en variaciones del ejemplo de la Fig. 3, el escalado del vector C6 de control de ganancia de atenuacion no procesado en respuesta a la senal S2 de control de ganancia de atenuacion (para generar un vector de control de ganancia de atenuacion para accionar el amplificador 117) puede ser realizado de una manera no lineal. Por ejemplo, dicho escalado no lineal puede generar un vector de control de ganancia de atenuacion (que reemplaza al vector S8) que no causa una atenuacion por parte del amplificador 117 (es decir, la aplicacion de una ganancia unitaria por parte del amplificador 117 y, de esta manera, una atenuacion nula del canal 102) cuando el valor actual de la senal S2 esta por debajo de un umbral y causa que los valores actuales del vector de control de ganancia de atenuacion (que reemplaza al vector S8) sean iguales a los valores actuales del vector C6 (de manera que la senal S2 no modifique los valores actuales de C6) cuando el valor actual de la senal S2 supera el umbral. De manera alternativa, puede realizarse otro escalado lineal o no lineal del vector C6 (en respuesta a la senal S2 de control de ganancia de atenuacion de la invencion) para generar un vector de control de ganancia de atenuacion para accionar el amplificador 117. Por ejemplo, dicho escalado del vector C6 puede generar un vector de control de ganancia de atenuacion (que reemplaza al vector S8) que no causa una atenuacion por parte del amplificador 117 (es decir, la aplicacion de una ganancia unitaria por el amplificador 117) cuando el valor actual de la senal S2 esta por debajo de un umbral, y causa que el valor actual del vector de control de ganancia de atenuacion (que reemplaza al vector S8) sea igual al valor actual del vector C6 multiplicado por el valor actual de la senal S2 (o algun otro valor determinado a partir de este producto) cuando el valor actual de la senal S2 supera el umbral.
A partir de esta descripcion, sera evidente para las personas con conocimientos ordinarios en la materia la manera en la que puede modificarse el sistema de la Fig. 1, 1A, 2, 2A o 3 (y las variaciones en cualquiera de los mismos) para filtrar una senal de entrada de audio multicanal que tiene un canal de voz y cualquier numero de canales sin voz. Se proporcionana un amplificador de atenuacion (o un equivalente de software del mismo) para cada canal sin voz, y se generana una senal de control de ganancia de atenuacion (por ejemplo, escalando una senal de control de ganancia de atenuacion) para accionar cada amplificador de atenuacion (o software equivalente al mismo).
Tal como se ha descrito, el sistema de la Fig. 1, 1A, 2, 2A o 3 (y cada una de las muchas variaciones en el mismo) son operables para llevar a la practica realizaciones del procedimiento de la invencion para filtrar una senal de audio multicanal que tiene un canal de voz y al menos un canal sin voz para mejorar la inteligibilidad de la voz determinada por la senal. En una primera clase de dichas realizaciones, el procedimiento incluye las etapas de:
(a) determinar al menos un valor de control de atenuacion (por ejemplo, la senal S1 o S2 de la Fig. 1, 2 o 3, o la senal V1, V2 o V3 de la Fig. 1A o 2A) indicativa de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por al menos un canal sin voz de la senal de audio; y
(b) atenuar al menos un canal sin voz de la senal de audio en respuesta al por lo menos un valor de control de atenuacion (por ejemplo, en el elemento 114 y el amplificador 116, o en el elemento 115 y el amplificador 117, de la Fig. 1, 1A, 2, 2A, o 3).
Tfpicamente, la etapa de atenuacion comprende escalar una senal de control de atenuacion no procesada (por ejemplo, la senal C1 o C2 de control de ganancia de atenuacion de la Fig. 1 o 1A, o la senal C3 o C4 de la Fig. 2 o 2A) para el canal sin voz en respuesta al por lo menos un valor de control de atenuacion. Preferiblemente, el canal sin voz es atenuado para mejorar la inteligibilidad de la voz determinada por el canal de voz sin atenuar de manera no deseada el contenido mejorador de la voz determinado por el canal sin voz. En algunos ejemplos de realizaciones en la primera clase, la etapa (a) incluye una etapa de generar una senal de control de atenuacion (por ejemplo, la senal S1 o S2 de la Fig. 1, 2 o 3, o la senal V1, V2 o V3 de la Fig.lA o 2A) indicativa de una secuencia de valores de control de atenuacion, en el que cada uno de los valores de control de atenuacion es indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por al menos un canal sin voz de la senal de audio en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente), y la etapa (b) incluye las etapas de: escalar una senal de control de ganancia de atenuacion (por ejemplo, la senal C1 o C2 de la Fig. 1 o 1A, o la senal C3 o C4) de la Fig. 2 o 2A) en respuesta a la senal de control de atenuacion para generar una senal de control de ganancia escalada (por ejemplo, la senal S3 o S4 de la Fig. 1 o 1A, o la senal S5 o S6 de la Fig. 2 o 2A), y aplicar la senal de control de ganancia escalada para atenuar el canal sin voz (por ejemplo, emitir la senal de control de ganancia escalada a la circuitena 116 o 117 de atenuacion, de la Fig. 1, 1A, 2 o 2A, para controlar la atenuacion de al menos un canal sin voz por la circuitena de atenuacion). Por ejemplo, la etapa (a) incluye una etapa de comparar una primera secuencia de caractensticas relacionadas con la voz (por ejemplo, la senal Q de la Fig. 1 o 2) indicativas del contenido relacionado con la voz determinado por el canal de voz con un segunda secuencia de caractensticas relacionadas con la voz (por ejemplo, la senal P de la Fig. 1 o 2) indicativas del contenido relacionado con la voz determinado por el canal sin voz para generar la senal de control de atenuacion, y cada uno de los valores de control de atenuacion indicados por la senal de control de atenuacion es indicativo de una medida de similitud entre la primera secuencia de caractensticas relacionadas con la voz y la segunda secuencia de caractensticas relacionadas con la voz en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente). En algunos ejemplos de las realizaciones, cada valor de control de atenuacion es un valor de control de ganancia.
En algunas realizaciones en la primera clase, cada valor de control de atenuacion esta relacionado monotonicamente con la probabilidad de que el canal sin voz sea indicativo de contenido mejorador de voz que mejora la inteligibilidad (u otra cualidad percibida) del contenido de voz determinado por el canal de voz. En algunos otros ejemplos relacionados con realizaciones en la primera clase, cada valor de control de atenuacion esta relacionado monotonicamente con un valor mejorador de voz esperado del canal sin voz (por ejemplo, una medida de probabilidad de que el canal sin voz sea indicativo de contenido mejorador de voz, multiplicado por una medida de la mejora de la cualidad percibida que el contenido mejorador de voz determinado por el canal sin voz proporcionana al contenido de voz determinado por la senal multicanal). Por ejemplo, cuando la etapa (a) incluye una etapa de comparar (por ejemplo, en el elemento 134 o 135 de la Fig. 1 o la Fig. 2) una primera secuencia de caractensticas relacionadas con la voz indicativas del contenido relacionado con la voz determinada por el canal de voz con una segunda secuencia de caractensticas relacionadas con la voz indicativas del contenido relacionado con la voz determinada por el canal sin voz, la primera secuencia de caractensticas relacionadas con la voz puede ser una secuencia de valores de probabilidad de voz, cada una de las cuales indica la probabilidad en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente) de que el canal de voz sea indicativo de voz (en lugar de contenido de audio distinto de una voz), y la segunda secuencia de caractensticas relacionadas con la voz puede ser tambien una secuencia de valores de probabilidad de voz, cada uno de los cuales indica la probabilidad en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente) de que el canal sin voz sea indicativo de voz.
Tal como se ha descrito, el sistema de la Fig. 1, 1A, 2, 2A o 3 (y cada una de las muchas variaciones en el mismo) es operable tambien para realizar una segunda clase de realizaciones del procedimiento de la invencion para filtrar una senal de audio multicanal que tiene un canal de voz y al menos un canal sin voz para mejorar la inteligibilidad de la voz determinada por la senal. En la segunda clase de realizaciones, el procedimiento incluye las etapas de:
(a) comparar una caractenstica del canal de voz y una caractenstica del canal sin voz para generar al menos un valor de atenuacion (por ejemplo, valores determinados por la senal C1 o C2 de la Fig. 1, o por la senal C3 o C4 de la Fig. 2, o por la senal C5 o C6 de la Fig. 3) para controlar la atenuacion del canal sin voz con relacion al canal de voz; y
(b) ajustar el al menos un valor de atenuacion en respuesta a al menos un valor de probabilidad de mejora de voz (por ejemplo, la senal S1 o S2 de la Fig. 1, 2 o 3) para generar al menos un valor de atenuacion ajustado (por ejemplo, valores determinados de la senal S3 o S4 de la Fig. 1, o por la senal S5 o S6 de la Fig. 2, o por la senal S7 o S8 de la Fig. 3) para controlar la atenuacion del canal sin voz con relacion al canal de voz. Tfpicamente, la etapa de ajuste es o incluye escalar (por ejemplo, en el elemento 114 o 115 de la Fig. 1, 2 o 3) cada uno de dichos valores de atenuacion en respuesta a uno de dichos valores de probabilidad de mejora de voz para generar uno de dichos valores de atenuacion ajustados. Tfpicamente, cada valor de probabilidad de mejora de voz es indicativo de (por ejemplo, esta relacionado monotonicamente con) la probabilidad de que el canal sin voz sea indicativo de contenido mejorador de voz (contenido que mejora la inteligibilidad u otra cualidad percibida del contenido de voz determinado por el canal de voz). En ejemplos relacionados, el valor de probabilidad de mejora de voz es indicativo de un valor mejorador de voz esperado del canal sin voz (por ejemplo, una medida de la probabilidad de que el canal sin voz sea indicativo de contenido mejorador de voz multiplicado por una medida de mejora de la cualidad percibida que el contenido mejorador de voz determinado por el canal sin voz proporcionana al contenido de voz determinado por la senal de audio multicanal). En algunas realizaciones en la segunda clase, el valor de probabilidad de mejora de voz es una secuencia de valores de comparacion (por ejemplo, valores de diferencia) determinados por un procedimiento que incluye una etapa de comparar una primera secuencia de caractensticas relacionadas con la voz, indicativas del contenido relacionado con la voz determinada por el canal de voz, con una segunda secuencia de caractensticas relacionadas con la voz, indicativas del contenido relacionado con la voz determinada por el canal sin voz, y cada uno de los valores de comparacion es una medida de similitud entre la primera secuencia de caractensticas relacionadas con la voz y la segunda secuencia de caractensticas relacionadas con la voz en un tiempo diferente (por ejemplo, en un intervalo de tiempo diferente). En realizaciones tfpicas en la segunda clase, el procedimiento incluye tambien la etapa de atenuar el canal sin voz (por ejemplo, en el amplificador 116 o 117 de la Fig. 1,2 o 3) en respuesta al por lo menos un valor de atenuacion ajustado. La etapa (b) puede comprender escalar el al menos un valor de atenuacion (por ejemplo, cada valor de atenuacion determinado por la senal C1 o C2 de la Fig. 1), u otro valor de atenuacion determinado por una senal de control de ganancia de atenuacion u otra senal de control de atenuacion no procesada) en respuesta al por lo menos un valor de probabilidad de mejora de voz (por ejemplo, el valor correspondiente determinado por la senal S1 o S2 de la Fig. 1).
Durante el funcionamiento del sistema de la Fig. 1 para llevar a la practica una realizacion en la segunda clase, cada valor de atenuacion determinado por la senal C1 o C2 es un primer factor indicativo de una cantidad de atenuacion del canal sin voz necesario para limitar la relacion de potencia de senal en el canal sin voz a la potencia de senal en el canal de voz para que no exceda un umbral predeterminado, escalado por un segundo factor relacionado monotonicamente con la probabilidad de que el canal de voz sea indicativo de voz. Tfpicamente, la etapa de ajuste en estas realizaciones es (o incluye) escalar cada valor C1 o C2 de atenuacion por un valor de probabilidad de mejora de voz (determinado por la senal S1 o S2) para generar un valor de atenuacion ajustado (determinado por la senal S3 o S4), donde el valor de probabilidad de mejora de voz es un factor relacionado monotonicamente con uno de entre: una probabilidad de que el canal sin voz sea indicativo de contenido mejorador de voz (contenido que mejora la inteligibilidad u otra cualidad percibida del contenido de voz determinado por la senal multicanal) y un valor mejorador de voz esperado del canal sin voz (por ejemplo, una medida de probabilidad de que el canal sin voz sea indicativo de contenido mejorador de voz multiplicado por una medida de la mejora de la cualidad percibida que el contenido mejorador de voz en el canal sin voz proporcionana al contenido de voz determinado por la senal multicanal).
Durante el funcionamiento del sistema de la Fig. 2 para llevar a la practica una realizacion en la segunda clase, cada valor de atenuacion determinado por la senal C3 o C4 es un primer factor indicativo de una cantidad (por ejemplo, la cantidad minima) de atenuacion del canal sin voz suficiente para causar la inteligibilidad de voz predicha determinada por el canal de voz en presencia de contenido determinado por el canal sin voz exceda un valor de umbral predeterminado, escalado por un segundo factor relacionado monotonicamente con la probabilidad de que el canal de voz sea indicativo de una voz. Preferiblemente, la inteligibilidad de voz predicha determinada por el canal de voz en presencia del contenido determinado por el canal sin voz es determinada segun un modelo de prediccion de inteligibilidad basado en psico-acustica. Tfpicamente, la etapa de ajuste en estas realizaciones es (o incluye) escalar cada uno de dichos valores de atenuacion por uno de dichos valores de probabilidad de mejora de voz (determinado por la senal S1 o S2) para generar un valor de atenuacion ajustado (determinado por la senal S5 o S6), donde el valor de probabilidad de mejora de voz es un factor relacionado monotonicamente con uno de entre: una probabilidad de que el canal sin voz sea indicativo de contenido de mejora de voz y un valor esperado de mejora de voz del canal sin voz.
Durante el funcionamiento del sistema de la Fig. 3 para llevar a la practica una realizacion en la segunda clase, cada valor de atenuacion determinado por la senal C1 o C2 es determinado mediante etapas que incluyen determinar (en el elemento 301, 302 o 303) un espectro de potencia indicativo de la potencia como una funcion de la frecuencia, de cada uno de entre el canal 101 de voz y los canales 102 y 103 sin voz, y realizar una determinacion en el dominio de la frecuencia del valor de atenuacion, determinando de esta manera la atenuacion como una funcion de la frecuencia a aplicar a los componentes de frecuencia del canal sin voz.
En una clase de realizaciones, la invencion es un procedimiento y un sistema para mejorar la voz determinada por una senal de entrada de audio multicanal. En algunos ejemplos de las mismas, el sistema de la invencion incluye un modulo o subsistema de analisis (por ejemplo, elementos 130-135, 104-109, 114 y 115 de la Fig. 1, o elementos 130-135, 201-204, 114 y 115 de la Fig. 2) configurado para analizar la senal multicanal de entrada para generar valores de control de atenuacion, y un subsistema de atenuacion (por ejemplo, los amplificadores 116 y 117 de la Fig. 1 o la Fig. 2). El subsistema de atenuacion incluye circuitena de atenuacion (accionada por al menos algunos de los valores de control de atenuacion) acoplada y configurada para aplicar atenuacion (“ducking”) a cada canal sin voz de la senal de entrada para generar una senal de salida de audio filtrada. La circuitena de atenuacion es accionada por valores de control en el sentido de que la atenuacion que aplica a los canales sin voz viene determinada por los valores actuales de los valores de control.
En algunas realizaciones, una relacion de la potencia del canal de voz (por ejemplo, el canal central) a la potencia del canal sin voz (por ejemplo, el canal lateral y/o el canal trasero) es usada para determinar cuanta atenuacion (“ducking”) debena aplicarse a cada canal sin voz. Por ejemplo, en el ejemplo de la Fig. 1, la ganancia aplicada por cada uno de los amplificadores 116 y 117 de atenuacion es reducida en respuesta a una disminucion en un valor de control de ganancia (emitido desde el elemento 114 o el elemento 115) que es indicativo de una menor potencia (dentro de los Kmites) del canal 101 de voz con relacion a la potencia de un canal sin voz (canal 102 izquierdo o canal 103 derecho) determinada en el modulo de analisis (es decir, un amplificador de atenuacion atenua mas un canal sin voz con relacion al canal de voz cuando la potencia del canal de voz disminuye (dentro de los lfmites) con relacion a la potencia del canal sin voz), suponiendo que no haya cambios en la probabilidad (segun se determina en el modulo de analisis) de que el canal sin voz incluya contenido mejorador de voz que mejora el contenido de voz determinado por el canal de voz.
En algunos ejemplos alternativos, una version modificada del modulo de analisis de la Fig. 1 o la Fig. 2 procesa individualmente cada una o mas sub-bandas de frecuencia de cada canal de la senal de entrada. Espedficamente, la senal en cada canal puede ser pasada a traves de un banco de filtros pasa banda, que proporcionan tres conjuntos de n sub-bandas: {L1, L2, ..., Ln}, {C1, C2, ..., Cn} y {R1, R2, ..., Rn}. Las sub-bandas coincidentes son pasadas a n instancias del modulo de analisis de la Fig. 1 (o de la Fig. 2), y las sub-senales filtradas (las salidas de los amplificadores de atenuacion para los canales sin voz, y las sub-senales del canal de voz no filtradas) son combinadas mediante circuitos de suma para generar la senal de salida de audio multicanal filtrada. Para llevar a cabo en cada sub-banda las operaciones realizadas por el elemento 109 de la Fig. 1, puede seleccionarse un valor On de umbral separado (correspondiente al valor O de umbral del elemento 109) para cada sub-banda. Una buena opcion es un conjunto en el que On es proporcional al numero promedio de caractensticas de voz transportadas en la region de frecuencia correspondiente; es decir, a las bandas en los extremos del espectro de frecuencias se les asignan umbrales mas bajos que a las bandas correspondientes a las frecuencias de voz dominantes. Esta implementacion puede ofrecer un muy buen compromiso entre complejidad computacional y rendimiento.
La Fig. 4 es un diagrama de bloques de un sistema 420 (un DSP de audio configurable) que ha sido configurado para llevar a la practica una realizacion del procedimiento de la invencion. El sistema 420 incluye circuitena 422 DSP programable (un modulo de mejora de voz activo del sistema 420) acoplado para recibir una senal de entrada de audio multicanal. Por ejemplo, los canales Lin y Rin sin voz de la senal pueden corresponder a los canales 102 y 103 de la senal de entrada descritos con referencia a las Figs. 1, 1A, 2, 2A y 3, la senal puede incluir tambien canales sin voz adicionales (por ejemplo, los canales trasero izquierdo y trasero derecho), y el canal Cin de voz de la senal puede corresponder al canal 101 de la senal de entrada descrito con referencia a las Figs. 1, 1A, 2, 2A y 3. La circuitena 422 es configurada en respuesta a los datos de control desde una interfaz 421 de control para llevar a la practica una realizacion del procedimiento de la invencion, para generar una senal de audio de salida multicanal con voz mejorada en respuesta a la senal de entrada de audio. Para programar el sistema 420, el software apropiado es activado desde un procesador externo para controlar la interfaz 421 de control, y la interfaz 421 emite en respuesta los datos de control apropiados a la circuitena 422 para configurar la circuitena 422 para realizar el procedimiento de la invencion.
Durante el funcionamiento, un DSP de audio que ha sido configurado para realizar una mejora de voz segun la invencion (por ejemplo, el sistema 420 de la Fig. 4) esta acoplado para recibir una senal de entrada de audio de canal N, y el DSP realiza tfpicamente una diversidad de operaciones sobre el audio de entrada (o una version procesada del mismo) ademas de (asf como) una mejora de la voz. Por ejemplo, el sistema 420 de la Fig. 4 puede ser implementado para realizar otras operaciones (sobre la salida de la circuitena 422) en el subsistema 423 de procesamiento.
Segun todavfa otro ejemplo, un DSP de audio es operable para llevar a la practica una realizacion del procedimiento de la invencion despues de ser configurado (por ejemplo, programado) para generar una senal de audio de salida en respuesta a una senal de audio de entrada mediante la realizacion del procedimiento sobre la senal de audio de entrada.
En algunos ejemplos, el sistema de la invencion es o incluye un procesador de proposito general acoplado para recibir o para generar datos de entrada indicativos de una senal de audio multicanal. El procesador esta programado con software (o firmware) y/o si no configurado (por ejemplo, en respuesta a los datos de control) para realizar cualquiera de entre una diversidad de operaciones sobre los datos de entrada, incluyendo una realizacion del procedimiento de la invencion. El sistema de ordenador de la Fig. 5 es un ejemplo de dicho sistema. El sistema de la Fig. 5 incluye un procesador 501 de proposito general que esta programado para realizar cualquiera de entre una diversidad de operaciones sobre los datos de entrada, incluyendo una realizacion del procedimiento de la invencion.
El sistema de ordenador de la Fig. 5 incluye tambien un dispositivo 503 de entrada (por ejemplo, un raton y/o un teclado) acoplado al procesador 501, un medio 504 de almacenamiento acoplado al procesador 501 y un dispositivo 505 de visualizacion acoplado al procesador 501. El procesador 501 esta programado para implementar el procedimiento inventivo en respuesta a las instrucciones y los datos introducidos por la manipulacion del usuario del dispositivo 503 de entrada. El medio 504 de almacenamiento legible por ordenador (por ejemplo, un disco optico u otro objeto tangible) tiene un codigo de ordenador almacenado en el mismo que es adecuado para programar el procesador 501 para realizar una realizacion del procedimiento de la invencion. Durante el funcionamiento, el procesador 501 ejecuta el codigo de ordenador para procesar datos indicativos de una senal de entrada de audio multicanal segun la invencion para generar datos de salida indicativos de una senal de salida de audio multicanal.
El sistema de la Fig. 1, 1A, 2, 2A o 3 descrito anteriormente podna ser implementado en el procesador 501 de proposito general, en el que los canales 101, 102 y 103 de senal de entrada son datos indicativos de los canales de entrada de audio central (voz) e izquierdo y derecho (sin voz) (por ejemplo, de una senal de sonido envolvente), y en el que los canales 118 y 119 de senal de salida son datos de salida indicativos de canales de salida de audio izquierdo y derecho enfatizados con voz enfatizada (por ejemplo, de una senal de sonido envolvente con voz mejorada). Un convertidor de digital a analogico (DAC) convencional podna operar sobre los datos de salida para generar versiones analogicas de las senales de canal de audio de salida para su reproduccion por altavoces ffsicos.
Los aspectos de la invencion son un sistema de ordenador programado para realizar cualquier realization del procedimiento de la invencion, y un medio legible por ordenador que almacena codigo legible por ordenador para implementar cualquier realizacion del procedimiento de la invencion.
Aunque en la presente memoria se han descrito realizaciones espedficas de la presente invencion y aplicaciones de la invencion, sera evidente para las personas con conocimientos en la materia que son posibles muchas variaciones en las realizaciones y las aplicaciones descritas en la presente memoria sin apartarse del alcance de la invencion descrita. y revindicada en la presente memoria.

Claims (17)

REIVINDICACIONES
1. Procedimiento para filtrar una senal de audio multicanal que tiene un canal de voz y al menos un canal sin voz, para mejorar la inteligibilidad de la voz determinada por la senal, en el que dicho procedimiento incluye las etapas de:
(a) determinar al menos un valor de control de atenuacion indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por al menos un canal sin voz de la senal de audio multicanal; y
(b) atenuar al menos un canal sin voz de la senal de audio multicanal en respuesta al por lo menos un valor de control de atenuacion.
2. Procedimiento segun la reivindicacion 1, en el que cada valor de control de atenuacion determinado en la etapa (a) es indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por un canal sin voz de la senal de audio, y la etapa (b) incluye una etapa de atenuar dicho canal sin voz en respuesta a cada uno de dichos valores de control de atenuacion.
3. Procedimiento segun la reivindicacion 1, en el que la etapa (a) incluye una etapa de derivar un canal sin voz derivado a partir del por lo menos un canal sin voz de la senal de audio, y el al menos un valor de control de atenuacion es indicativo de una medida de similitud entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por el canal sin voz derivado.
4. Procedimiento segun la reivindicacion 3, en el que el canal sin voz derivado es derivado combinando un primer canal sin voz de la senal de audio multicanal y un segundo canal sin voz de la senal de audio multicanal.
5. Procedimiento segun la reivindicacion 3, en el que la senal de audio multicanal tiene al menos dos canales sin voz, y la etapa (b) incluye la etapa de atenuar algunos, pero no todos, de los canales sin voz en respuesta al por lo menos un valor de control de atenuacion.
6. Procedimiento segun la reivindicacion 3, en el que la senal de audio multicanal tiene al menos dos canales sin voz, y la etapa (b) incluye la etapa de atenuar todos los canales sin voz en respuesta al por lo menos un valor de control de atenuacion.
7. Procedimiento segun la reivindicacion 1, en el que la etapa (b) comprende escalar una senal de control de atenuacion no procesada para el canal sin voz en respuesta al por lo menos un valor de control de atenuacion.
8. Procedimiento segun la reivindicacion 1, en el que la etapa (a) incluye la etapa de generar una senal de control de atenuacion indicativa de una secuencia de valores de control de atenuacion, en el que cada uno de los valores de control de atenuacion es indicativo de una medida de similitud en un tiempo diferente entre el contenido relacionado con la voz determinado por el canal de voz y el contenido relacionado con la voz determinado por el al menos un canal sin voz de la senal de audio multicanal, y la etapa (b) incluye las etapas de:
escalar una senal de control de ganancia de atenuacion en respuesta a la senal de control de atenuacion para generar una senal de control de ganancia escalada; y
aplicar la senal de control de ganancia escalada para atenuar al menos un canal sin voz de la senal de audio multicanal.
9. Procedimiento segun la reivindicacion 8, en el que la etapa (a) incluye una etapa de comparar una primera secuencia de caractensticas relacionadas con la voz, indicativas del contenido relacionado con la voz determinada por el canal de voz, con una segunda secuencia de caractensticas relacionadas con la voz indicativas del contenido relacionado con la voz determinada por el al menos un canal sin voz de la senal de audio multicanal para generar la senal de control de atenuacion, y cada uno de los valores de control de atenuacion indicados por la senal de control de atenuacion es indicativo de una medida de similitud en un tiempo diferente entre la primera secuencia de caractensticas relacionadas con la voz y la segunda secuencia de caractensticas relacionadas con la voz.
10. Procedimiento segun la reivindicacion 1, en el que cada uno de dichos valores de control de atenuacion esta relacionado monotonicamente con la probabilidad de que el al menos un canal sin voz de la senal de audio multicanal sea indicativo de contenido mejorador de voz, en el que dicho contenido mejorador de voz comprende contenido que mejora la inteligibilidad u otra cualidad percibida del contenido de voz determinado por el canal de voz.
11. Procedimiento para filtrar una senal de audio multicanal que tiene un canal de voz y al menos un canal sin voz, para mejorar la inteligibilidad de la voz determinada por la senal, en el que dicho procedimiento incluye las etapas de:
(a) comparar una caractenstica del canal de voz y una caractenstica del canal sin voz para generar al menos un valor de atenuacion para controlar la atenuacion del canal sin voz con relacion al canal de voz; y
(b) ajustar el al menos un valor de atenuacion en respuesta al por lo menos un valor de probabilidad de mejora de voz para generar al menos un valor de atenuacion ajustado para controlar la atenuacion del canal sin voz con relacion al canal de voz.
12. Procedimiento segun la reivindicacion 11, en el que el al menos un valor de probabilidad de mejora de voz es una secuencia de valores de comparacion, y el procedimiento incluye una etapa de:
determinar la secuencia de valores de comparacion comparando una primera secuencia de caractensticas relacionadas con la voz, indicativa del contenido relacionado con la voz determinada por el canal de voz, con una segunda secuencia de caractensticas relacionadas con la voz, indicativa del contenido relacionado con la voz determinada por el canal sin voz, en el que cada uno de los valores de comparacion es una medida de similitud en un tiempo diferente entre la primera secuencia de caractensticas relacionadas con la voz y la segunda secuencia de caractensticas relacionadas con la voz.
13. Procedimiento segun la reivindicacion 11, en el que cada uno de dichos valores de atenuacion generado en la etapa (a) es un primer factor indicativo de una cantidad de atenuacion del canal sin voz necesario para limitar la relacion de la potencia de senal en el canal sin voz a la potencia de la senal en el canal de voz de manera que exceda un umbral predeterminado, escalado por un segundo factor relacionado monotonicamente con la probabilidad de que el canal de voz sea indicativo de voz.
14. Procedimiento segun la reivindicacion 11, en el que cada uno de dichos valores de atenuacion generado en la etapa (a) es un primer factor indicativo de una cantidad de atenuacion del canal sin voz suficiente para causar que la inteligibilidad predicha de la voz determinada por el canal de voz en presencia del contenido determinado por el canal sin voz exceda un valor de umbral predeterminado, escalado por un segundo factor relacionado monotonicamente con la probabilidad de que el canal de voz sea indicativo de voz.
15. Procedimiento segun la reivindicacion 11, en el que la generacion de cada uno de dichos valores de atenuacion en la etapa (a) incluye las etapas de:
determinar un espectro de potencia indicativo de la potencia como una funcion de la frecuencia del canal de voz y un segundo espectro de potencia indicativo de la potencia como una funcion de la frecuencia del canal sin voz, y
realizar una determinacion en el dominio de la frecuencia del valor de atenuacion en respuesta al espectro de potencia y al segundo espectro de potencia.
16. Medio de almacenamiento legible por ordenador que comprende instrucciones, que cuando son ejecutadas con uno o mas procesadores, controlan el uno o mas procesadores para realizar el procedimiento descrito en cualquiera de las reivindicaciones 1-15.
17. Sistema configurado para realizar un procedimiento segun cualquiera de las reivindicaciones 1-15.
ES11707537T 2010-03-08 2011-02-28 Procedimiento y sistema de escalado de atenuación de canales relevantes de voz en audio multicanal Active ES2709523T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US31143710P 2010-03-08 2010-03-08
PCT/US2011/026505 WO2011112382A1 (en) 2010-03-08 2011-02-28 Method and system for scaling ducking of speech-relevant channels in multi-channel audio

Publications (1)

Publication Number Publication Date
ES2709523T3 true ES2709523T3 (es) 2019-04-16

Family

ID=43919902

Family Applications (1)

Application Number Title Priority Date Filing Date
ES11707537T Active ES2709523T3 (es) 2010-03-08 2011-02-28 Procedimiento y sistema de escalado de atenuación de canales relevantes de voz en audio multicanal

Country Status (9)

Country Link
US (2) US9219973B2 (es)
EP (1) EP2545552B1 (es)
JP (1) JP5674827B2 (es)
CN (2) CN102792374B (es)
BR (2) BR122019024041B1 (es)
ES (1) ES2709523T3 (es)
RU (1) RU2520420C2 (es)
TW (1) TWI459828B (es)
WO (1) WO2011112382A1 (es)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101594480B1 (ko) * 2011-12-15 2016-02-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램
US9781529B2 (en) 2012-03-27 2017-10-03 Htc Corporation Electronic apparatus and method for activating specified function thereof
US9633667B2 (en) * 2012-04-05 2017-04-25 Nokia Technologies Oy Adaptive audio signal filtering
US9886794B2 (en) 2012-06-05 2018-02-06 Apple Inc. Problem reporting in maps
US10156455B2 (en) 2012-06-05 2018-12-18 Apple Inc. Context-aware voice guidance
EP2760021B1 (en) * 2013-01-29 2018-01-17 2236008 Ontario Inc. Sound field spatial stabilizer
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
EP2965540B1 (en) * 2013-03-05 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9947335B2 (en) * 2013-04-05 2018-04-17 Dolby Laboratories Licensing Corporation Companding apparatus and method to reduce quantization noise using advanced spectral extension
US9106196B2 (en) 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
EP3082588B8 (en) * 2014-01-28 2018-12-19 St. Jude Medical International Holding S.à r.l. Elongate medical devices incorporating a flexible substrate, a sensor, and electrically-conductive traces
US9654076B2 (en) * 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9615170B2 (en) * 2014-06-09 2017-04-04 Harman International Industries, Inc. Approach for partially preserving music in the presence of intelligible speech
AU2015326856B2 (en) * 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
WO2016091332A1 (en) * 2014-12-12 2016-06-16 Huawei Technologies Co., Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
WO2016115622A1 (en) 2015-01-22 2016-07-28 Eers Global Technologies Inc. Active hearing protection device and method therefore
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
US9947364B2 (en) 2015-09-16 2018-04-17 Google Llc Enhancing audio using multiple recording devices
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
EP3566229B1 (en) * 2017-01-23 2020-11-25 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
US10013995B1 (en) * 2017-05-10 2018-07-03 Cirrus Logic, Inc. Combined reference signal for acoustic echo cancellation
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant
JP2023530225A (ja) 2020-05-29 2023-07-14 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 初期オーディオ信号を処理するための方法および装置
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统
WO2023208342A1 (en) * 2022-04-27 2023-11-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for scaling of ducking gains for spatial, immersive, single- or multi-channel reproduction layouts

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5666429A (en) * 1994-07-18 1997-09-09 Motorola, Inc. Energy estimator and method therefor
JPH08222979A (ja) * 1995-02-13 1996-08-30 Sony Corp オーディオ信号処理装置、およびオーディオ信号処理方法、並びにテレビジョン受像機
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
US5983183A (en) * 1997-07-07 1999-11-09 General Data Comm, Inc. Audio automatic gain control system
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6226321B1 (en) * 1998-05-08 2001-05-01 The United States Of America As Represented By The Secretary Of The Air Force Multichannel parametric adaptive matched filter receiver
ATE358872T1 (de) * 1999-01-07 2007-04-15 Tellabs Operations Inc Verfahren und vorrichtung zur adaptiven rauschunterdrückung
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
ATE330818T1 (de) * 1999-11-24 2006-07-15 Donnelly Corp Rückblickspiegel mit nutzfunktion
AU2066501A (en) * 1999-12-06 2001-06-12 Dmi Biosciences, Inc. Noise reducing/resolution enhancing signal processing method and system
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
JP2001268700A (ja) * 2000-03-17 2001-09-28 Fujitsu Ten Ltd 音響装置
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US20040096065A1 (en) * 2000-05-26 2004-05-20 Vaudrey Michael A. Voice-to-remaining audio (VRA) interactive center channel downmix
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US20020159434A1 (en) * 2001-02-12 2002-10-31 Eleven Engineering Inc. Multipoint short range radio frequency system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US20040148166A1 (en) * 2001-06-22 2004-07-29 Huimin Zheng Noise-stripping device
CN1552171A (zh) * 2001-09-06 2004-12-01 �ʼҷ����ֵ��ӹɷ����޹�˾ 音频再现设备
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
WO2007106399A2 (en) * 2006-03-10 2007-09-20 Mh Acoustics, Llc Noise-reducing directional microphone array
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP3810004B2 (ja) 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
WO2004004297A2 (en) * 2002-07-01 2004-01-08 Koninklijke Philips Electronics N.V. Stationary spectral power dependent audio enhancement system
JP4219898B2 (ja) * 2002-10-31 2009-02-04 富士通株式会社 音声強調装置
US7305097B2 (en) * 2003-02-14 2007-12-04 Bose Corporation Controlling fading and surround signal level
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7127076B2 (en) * 2003-03-03 2006-10-24 Phonak Ag Method for manufacturing acoustical devices and for reducing especially wind disturbances
US8724822B2 (en) * 2003-05-09 2014-05-13 Nuance Communications, Inc. Noisy environment communication enhancement system
DK1509065T3 (da) * 2003-08-21 2006-08-07 Bernafon Ag Fremgangsmåde til behandling af audiosignaler
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
US8233636B2 (en) * 2005-09-02 2012-07-31 Nec Corporation Method, apparatus, and computer program for suppressing noise
US20070053522A1 (en) * 2005-09-08 2007-03-08 Murray Daniel J Method and apparatus for directional enhancement of speech elements in noisy environments
JP4356670B2 (ja) * 2005-09-12 2009-11-04 ソニー株式会社 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
US20070239295A1 (en) * 2006-02-24 2007-10-11 Thompson Jeffrey K Codec conditioning system and method
JP4738213B2 (ja) * 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
US7555075B2 (en) * 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
DE602007010330D1 (de) 2006-09-14 2010-12-16 Lg Electronics Inc Dialogerweiterungsverfahren
US20080082320A1 (en) * 2006-09-29 2008-04-03 Nokia Corporation Apparatus, method and computer program product for advanced voice conversion
ATE425532T1 (de) * 2006-10-31 2009-03-15 Harman Becker Automotive Sys Modellbasierte verbesserung von sprachsignalen
US8615393B2 (en) * 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
CA2671496A1 (en) * 2006-12-12 2008-06-19 Thx, Ltd. Dynamic surround channel volume control
JP2008148179A (ja) * 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
EP2118892B1 (en) * 2007-02-12 2010-07-14 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
EP2118885B1 (en) * 2007-02-26 2012-07-11 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
JP2008216720A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US20090010453A1 (en) * 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8600516B2 (en) * 2007-07-17 2013-12-03 Advanced Bionics Ag Spectral contrast enhancement in a cochlear implant speech processor
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
KR101444100B1 (ko) * 2007-11-15 2014-09-26 삼성전자주식회사 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
US8315398B2 (en) * 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
CN101911733A (zh) * 2008-01-01 2010-12-08 Lg电子株式会社 用于处理音频信号的方法和装置
CA2710560C (en) * 2008-01-01 2015-10-27 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
CA2720636C (en) * 2008-04-18 2014-02-18 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US8983832B2 (en) 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US20100008520A1 (en) * 2008-07-09 2010-01-14 Yamaha Corporation Noise Suppression Estimation Device and Noise Suppression Device
WO2010064877A2 (en) * 2008-12-05 2010-06-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8185389B2 (en) * 2008-12-16 2012-05-22 Microsoft Corporation Noise suppressor for robust speech recognition
WO2010068997A1 (en) * 2008-12-19 2010-06-24 Cochlear Limited Music pre-processing for hearing prostheses
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
SG173064A1 (en) * 2009-01-20 2011-08-29 Widex As Hearing aid and a method of detecting and attenuating transients
WO2010085083A2 (en) * 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2228902B1 (en) * 2009-03-08 2017-09-27 LG Electronics Inc. An apparatus for processing an audio signal and method thereof
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8644517B2 (en) * 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
EP2475423B1 (en) * 2009-09-11 2016-12-14 Advanced Bionics AG Dynamic noise reduction in auditory prosthesis systems
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
WO2011044153A1 (en) * 2009-10-09 2011-04-14 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
US20110099596A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US20110125494A1 (en) * 2009-11-23 2011-05-26 Cambridge Silicon Radio Limited Speech Intelligibility
US8553892B2 (en) * 2010-01-06 2013-10-08 Apple Inc. Processing a multi-channel signal for output to a mono speaker
WO2011083979A2 (en) * 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System

Also Published As

Publication number Publication date
US20130006619A1 (en) 2013-01-03
CN104811891A (zh) 2015-07-29
WO2011112382A1 (en) 2011-09-15
US9219973B2 (en) 2015-12-22
CN102792374B (zh) 2015-05-27
US9881635B2 (en) 2018-01-30
US20160071527A1 (en) 2016-03-10
EP2545552A1 (en) 2013-01-16
JP5674827B2 (ja) 2015-02-25
RU2520420C2 (ru) 2014-06-27
JP2013521541A (ja) 2013-06-10
TW201215177A (en) 2012-04-01
CN104811891B (zh) 2017-06-27
EP2545552B1 (en) 2018-12-12
BR122019024041B1 (pt) 2020-08-11
RU2012141463A (ru) 2014-04-20
TWI459828B (zh) 2014-11-01
BR112012022571A2 (pt) 2016-08-30
BR112012022571B1 (pt) 2020-11-17
CN102792374A (zh) 2012-11-21

Similar Documents

Publication Publication Date Title
ES2709523T3 (es) Procedimiento y sistema de escalado de atenuación de canales relevantes de voz en audio multicanal
ES2364888T3 (es) Dispositivo y procedimiento para generar una señal multicanal con un procesamiento de señal de voz.
ES2742853T3 (es) Aparato y procedimiento para la descomposición directa-ambiental de multicanal para el procesamiento de señales de audio
JP5248625B2 (ja) オーディオ信号の知覚ラウドネスを調節するシステム
ES2797742T3 (es) Aparato y método para mejorar un sistema mejorador de sonido de señal de audio
RU2595912C2 (ru) Аудиосистема и способ для нее
US9191743B2 (en) Apparatus using missing fundamental frequencies to improve loudspeaker sound focusing
JP2023159381A (ja) 音声認識オーディオシステムおよび方法
BR122020017207B1 (pt) Método, sistema de processamento de mídia, aparelho e meio de armazenamento legível por computador não transitório
JP2009533910A (ja) アンビエンス信号を生成するための装置および方法
JP4792086B2 (ja) 2つの入力チャンネルを使用して3つの出力チャンネルを合成させる装置および方法
CN112534717A (zh) 响应于反馈的多声道音频增强、解码及渲染
KR102446946B1 (ko) 다중대역 더커
JP4175376B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
JP2019118038A (ja) オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
RU2384973C1 (ru) Устройство и способ синтезирования трех выходных каналов, используя два входных канала
CN116634221A (zh) 基于Android系统的多路音频源自动混音方法、系统、装置及介质