ES2713685T3

ES2713685T3 - Métodos, aparatos y programas informáticos relativos a la modificación de una característica asociada a una señal de audio separada

Info

Publication number: ES2713685T3
Application number: ES16166989T
Authority: ES
Inventors: Antti Eronen; Arto Lehtiniemi; Jussi Leppänen; Francesco Cricri
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2019-05-23
Anticipated expiration: 2036-04-26
Also published as: EP3239981A1; EP3239981B1; CN107316650B; US20170309289A1; CN107316650A

Abstract

Un método que comprende: determinar, basándose en una medida determinada del éxito de una separación de una señal de audio que representa una fuente sonora de una señal de audio compuesta que comprende componentes derivados de al menos dos fuentes sonoras, un valor de un parámetro de modificación de la señal separada, indicando el valor del parámetro de modificación de la señal separada un intervalo de modificación de una característica asociada a la señal de audio separada.

Description

DESCRIPCION

Metodos, aparatos y programas informaticos relativos a la modification de una caracterlstica asociada a una senal de audio separada

Campo

La presente especificacion se refiere a una modificacion de una caracterlstica asociada a una senal de audio separada.

Antecedentes

Las tecnicas de procesamiento de senales de audio permiten la identification y la separation de fuentes sonoras individuales a partir de senales de audio que incluyen componentes desde una pluralidad de diferentes fuentes de sonoras. Una vez se ha separado del resto de la senal una senal de audio que representa una senal de audio identificada, pueden modificarse las caracterlsticas de la senal separada para proporcionar diferentes efectos audibles a un oyente.

Sumario

En un primer aspecto, la presente especificacion describe un metodo que comprende determinar, basandose en una determinada medida del exito de una separacion de una senal de audio que representa una fuente sonora a partir de una senal de audio compuesta que comprende componentes derivados de al menos dos fuentes sonoras, un valor de un parametro de modificacion de la senal separada, indicando el valor del parametro de modificacion de la senal separada un intervalo de modificacion de una caracterlstica asociada a la senal de audio separada.

El parametro de modificacion de la senal separada puede ser un parametro de reposicionamiento espacial que indique un intervalo de reposicionamiento espacial para el reposicionamiento espacial de la senal de audio separada. Otros ejemplos de la caracterlstica asociada a la senal de audio separada pueden incluir, pero sin limitation, la amplitud, ecualizacion, reverberation, distorsion y compresion.

El metodo puede comprender determinar la medida del exito de la separacion de la senal de audio a partir de la senal de audio compuesta.

El metodo puede comprender limitar una cantidad permitida de modificacion de la caracterlstica asociada a la senal de audio separada basandose en el valor del parametro de modificacion de la senal separada.

El metodo puede comprender hacer que se proporcione a un usuario una indication del valor determinado del parametro de modificacion de la senal separada.

El metodo puede comprender, cuando la medida del exito indica que el exito de la separacion esta por encima de un grado de umbral de exito, determinar un valor del parametro de modificacion de la senal separada que indique un intervalo completo de modificacion de la caracterlstica.

Cuando la medida del exito indica que el exito de la separacion esta por debajo de un grado de umbral de exito, el valor determinado del parametro de modificacion de la senal separada puede indicar un intervalo de modificacion que tiene una relation directa con el grado de exito.

La medida del exito puede comprender una correlation entre un resto de la senal de audio compuesta y al menos una senal de audio de referencia. La al menos una senal de referencia puede comprender una o ambas de entre la senal de audio separada y la senal derivada de uno de los dispositivos de grabacion adicionales que se asocian a la fuente de audio a la que se refiere la senal de audio separada. El metodo puede comprender ademas, si la correlacion esta por debajo de la correlacion de umbral predeterminada, determinar un valor del parametro de modificacion de la senal separada que indica un intervalo completo de modificacion y, si la correlacion esta por encima de la correlacion de umbral predeterminada, determinar un valor del parametro de modificacion de la senal separada que indica un intervalo de modificacion que tiene una relacion inversa con la correlacion.

En otros ejemplos, la medida del exito de la separacion puede comprender adicional o alternativamente una correlacion entre un espectro de frecuencia asociado al resto de la senal de audio compuesta y un espectro de frecuencia asociado a la senal de audio de referencia. En otros ejemplos mas, la medida del exito de la separacion puede comprender adicional o alternativamente una correlacion entre un resto de la senal de audio compuesta y un componente de una senal de video correspondiente a la senal de audio compuesta.

La correlacion entre el resto de la senal de audio compuesta y la senal de referencia o entre el resto de la senal de audio compuesta y el componente de la senal de video correspondiente a la senal de audio compuesta puede tener una relacion inversa con un grado de exito de la separacion.

El metodo puede comprender responder a una determinacion de que la medida del exito de la separacion indica que, para un marco temporal posterior de la senal de audio compuesta, un grado de exito de la separacion es mas bajo que el grado de exito de la separacion para un marco temporal actual de la senal de audio compuesta mediante el reposicionamiento espacialmente de la senal de audio separada a una posicion que este mas proxima a una posicion espacial original de la senal de audio separada. El reposicionamiento espacial de la senal de audio separada a la posicion que esta mas cerca de la posicion espacial original puede realizarse previamente a la representacion del marco temporal posterior de la senal de audio compuesta.

El metodo puede comprender provocar la realizacion de la separacion de audio digital que representa la fuente sonora de la senal de audio compuesta.

El metodo puede comprender reposicionar la senal de audio separada a una nueva posicion espacial basandose en el valor determinado del parametro de reposicionamiento espacial.

En un segundo aspecto, la presente especificacion describe un aparato configurado para realizar un metodo tal como se ha descrito con referencia el primer aspecto.

En un tercer aspecto, la presente especificacion describe instrucciones legibles por ordenador que, cuando se ejecutan por un aparato informatico, hacen que el aparato informatico provoque la realizacion del metodo tal como se ha descrito con referencia al primer aspecto.

Breve descripcion de las figuras

Para una mejor comprension de la presente solicitud, se hara referencia a modo de ejemplo a los dibujos adjuntos en los que:

la figura 1 es un ejemplo de un sistema de captura de audio que puede usarse para capturar senales de audio para procesamiento de acuerdo con diversos ejemplos descritos en el presente documento;

las figuras 2A a 2C son diagramas de flujo que ilustran diversas operaciones que pueden realizarse por el aparato de procesamiento de audio representado en la figura 1;

la figura 3A es un ejemplo de una interfaz de usuario grafica que puede proporcionarse de ese modo para indicar a un usuario un valor de un parametro de modificacion de la senal separada;

la figura 3B es otro ejemplo de una interfaz de usuario grafica que puede proporcionarse de ese modo para indicar a un usuario un valor de un parametro de modificacion de la senal separada;

la figura 3C es otro ejemplo de una interfaz de usuario grafica que puede proporcionarse de ese modo para indicar a un usuario un valor de un parametro de modificacion de la senal separada;

las figuras 4A a 4C ilustran diversos conceptos descritos en el presente documento con relacion al reposicionamiento espacial de senales de audio separadas; y

la figura 5 es una ilustracion esquematica de una configuracion de ejemplo del aparato de procesamiento de audio representado en la figura 1.

Descripcion detallada de realizaciones

En la descripcion y dibujos, numeros de referencia iguales se refieren a elementos iguales a todo lo largo de ellos. La figura 1 es un ejemplo de un sistema de captura de audio 1 que puede usarse para capturar senales de audio para procesamiento de acuerdo con diversos ejemplos descritos en el presente documento. En este ejemplo, el sistema 1 comprende un aparato de captura de audio espacial 10 configurado para capturar una senal espacial de audio, y uno o mas dispositivos de captura de audio adicionales 12A, 12B, 12C.

El aparato de captura de audio espacial 10 comprende una pluralidad de dispositivos de captura de audio 101A, B (por ejemplo, microfonos direccionales o no direccionales) que se disponen para capturar senales de audio que posteriormente pueden reproducirse espacialmente en un flujo de audio de tal manera que el sonido reproducido se percibe por un oyente como originado desde al menos una posicion espacial virtual. Normalmente, el sonido capturado por el aparato de captura de audio espacial 10 se deriva de una pluralidad de fuentes sonoras diferentes que pueden estar en una o mas localizaciones diferentes con relacion al aparato de captura de audio espacial 10. Dado que la senal espacial de audio capturado incluye componentes derivados de una pluralidad de diferentes fuentes sonoras, puede denominarse como una senal de audio compuesta. Aunque solo son visibles los dispositivos de captura de audio 102A, B en la figura 1, el aparato de captura de audio espacial 10 puede comprender mas de dos dispositivos 102A, B. Por ejemplo, en algunos ejemplos especlficos, el aparato de captura de audio 10 puede comprender ocho dispositivos de captura de audio.

En el ejemplo de la figura 1, el aparato de captura de audio espacial 10 se configura tambien para capturar contenido visual (por ejemplo video) por medio de una pluralidad de dispositivos de captura de contenido visual 102A-G (por ejemplo camaras). La pluralidad de dispositivos de captura de contenido visual 102A-G del aparato de captura de audio espacial 10 puede configurarse para capturar contenido visual desde diversas direcciones diferentes alrededor del aparato, para de ese modo proporcionar inmersion (o contenidos de realidad virtual) para consumo por los usuarios. En el ejemplo de la figura 1, el aparato de captura de audio espacial 10 es un dispositivo de captura de presencia, tal como la camara OZO de Nokia. Sin embargo, como se apreciara, el aparato de captura de audio espacial 10 puede ser otro tipo de dispositivo y/o puede componerse de una pluralidad de dispositivos flsicamente separados. Como tambien se apreciara, aunque el contenido capturado puede ser adecuado para proporcionarse como contenido de inmersion, puede proporcionarse tambien en un formato regular, no de realidad virtual, por ejemplo a traves de un telefono inteligente o un ordenador tableta.

Como se ha mencionado anteriormente, en el ejemplo de la figura 1, el sistema de captura espacial de audio 1 comprende ademas uno o mas dispositivos de captura de audio adicionales 12A-C. Cada uno de los dispositivos de captura de audio adicionales 12A-C puede comprender al menos un microfono y, en el ejemplo de la figura 1, los dispositivos de captura de audio adicionales 12A-C son microfonos de lavalier configurados para capturar senales de audio derivadas de un usuario asociado 13A-C. Por ejemplo, en la figura 1, cada uno de los dispositivos de captura de audio adicionales 12A-C se asocia a un usuario diferente mediante ser fijado al usuario en alguna forma. Sin embargo, se apreciara que, en otros ejemplos, los dispositivos de captura de audio adicionales 12A-C pueden tener una forma diferente y/o pueden localizarse en localizaciones fijas, predeterminadas dentro de un entorno de captura de audio.

Las localizaciones de los dispositivos de captura de audio adicionales 12A-C y/o el aparato de captura de audio espacial 10 dentro del entorno de captura de audio pueden ser conocidas por, o pueden ser determinables por, el sistema de captura de audio 1 (por ejemplo, el aparato de procesamiento de audio 14). Por ejemplo, en el caso de dispositivos/aparatos de captura de audio movil los dispositivos/aparatos pueden incluir un componente de determinacion de la localization para permitir que se determine la localization de los dispositivos/aparatos. En algunos ejemplos especlficos, puede emplearse un sistema de determinacion de la localizacion por radiofrecuencia tal como el High Accuracy Indoor Positioning de Nokia, mediante lo que los dispositivos de captura de audio adicionales 12A-C (y en algunos ejemplos el aparato de captura de audio espacial 10) transmiten mensajes para permitir al servidor de localizacion determinar la localizacion de los dispositivos de captura de audio adicionales dentro del entorno de captura de audio. En otros ejemplos, por ejemplo cuando los dispositivos de captura de audio adicionales 12A-C son estaticos, las localizaciones pueden pre-almacenarse por una entidad que forma parte del sistema de captura de audio 1 (por ejemplo, el aparato de procesamiento de audio 14).

En el ejemplo de la figura 1, el sistema de captura de audio 1 comprende ademas el aparato de procesamiento de audio 14. El aparato de procesamiento de audio 14 se configura para recibir y almacenar senales capturadas por el aparato de captura de audio espacial 10 y los uno o mas dispositivos de captura de audio adicionales 12A-C. Las senales pueden recibirse en el aparato de procesamiento de audio 14 en tiempo real durante la captura de las senales de audio o pueden recibirse posteriormente por ejemplo a traves de un dispositivo de almacenamiento intermedio. En dichos ejemplos, el aparato de procesamiento de audio 14 puede ser local respecto al entorno de captura de audio o puede estar geograficamente remoto respecto al entorno de captura de audio en el que se proporcionan el aparato de captura de audio 10 y los dispositivos 12A-C. En algunos ejemplos, el aparato de procesamiento de audio 14 puede incluso formar parte del aparato de captura de audio espacial 10.

Las senales de audio recibidas por el aparato de procesamiento de la senal de audio 14 pueden comprender una entrada de audio multicanal en un formato de altavoz. Dichos formatos pueden incluir, pero sin limitation, un formato de senal estereo, un formato de senal 4.0, un formato de senal 5.1 y un formato de senal 7.1. En dichos ejemplos, las senales capturadas por el sistema de la figura 1 pueden haber sido pre-procesadas respecto a su formato en bruto original hacia un formato de altavoz. Alternativamente, en otros ejemplos, las senales de audio recibidas por el aparato de procesamiento de audio 14 pueden estar en un formato de senal multi-microfono, tal como una senal de entrada de ocho canales en bruto. Las senales multi-microfono en bruto pueden, en algunos ejemplos, ser preprocesadas por el aparato de procesamiento de audio 14 usando tecnicas de procesamiento espacial de audio para convertir de ese modo las senales recibidas a un formato de altavoz o un formato biaural.

En algunos ejemplos, el aparato de procesamiento de audio 14 puede configurarse para mezclar las senales derivadas desde los uno o mas dispositivos de captura de audio adicionales 12A-C con las senales derivadas del aparato de captura de audio espacial 10. Por ejemplo, pueden utilizarse las localizaciones de los dispositivos de captura de audio adicionales 12A-C para mezclar las senales derivadas de los dispositivos de captura de audio adicionales 12A-C a las posiciones espaciales correctas dentro del audio espacial derivado del aparato de captura de audio espacial 10. La mezcla de las senales por el aparato de procesamiento de audio 14 puede estar parcial o totalmente automatizada.

El aparato de procesamiento de audio 14 puede configurarse adicionalmente para realizar (o permitir la realization de) el reposicionamiento espacial dentro del audio espacial capturado mediante el aparato de captura de audio espacial 10 de las fuentes sonoras capturadas por los dispositivos de captura de audio adicionales 12A-C.

El reposicionamiento espacial de fuentes sonoras puede realizarse para permitir la reproduction futura en el espacio tridimensional con un punto de vista libre de audio en el que un usuario puede elegir libremente una nueva position de escucha. Tambien, el reposicionamiento espacial puede usarse para separar fuentes sonoras para de ese modo hacerlas mas individualmente distintas. De modo similar, el reposicionamiento espacial puede usarse para acentuar/desacentuar ciertas fuentes en una mezcla de audio mediante la modification de su posicion espacial. Otros usos del reposicionamiento espacial pueden incluir, pero ciertamente sin limitacion, la colocation de ciertas fuentes sonoras en una localizacion espacial deseada, para de ese modo obtener la atencion de los oyentes (esto puede ser denominado como indicios de audio), limitar el movimiento de las fuentes sonoras para adaptarse a un cierto umbral, y ampliar la senal de audio mezclada mediante la ampliacion de las localizaciones espaciales de diversas fuentes sonoras. Diversas tecnicas para la realizacion de reposicionamiento espacial son conocidas en la tecnica y por ello no se detallaran en el presente documento. Un ejemplo de una tecnica que puede usarse implica el calculo de las ganancias deseadas para una fuente sonora usando Panoramica Vectorial Basada en Amplitud (VBAP, del ingles “Vector Base Amplitude Panning”) cuando se mezclan senales de audio en el dominio de senales del altavoz.

Un problema a ser acometido cuando se realiza reposicionamiento espacial es el hecho de que la senal de audio espacial capturada por el aparato de captura de audio espacial 10 incluira normalmente componentes derivados de la fuente sonora que esta siendo reposicionada. Como tal, no sera suficiente mover simplemente la senal capturada mediante un dispositivo de captura de audio adicional 12A-C. En su lugar, los componentes de la fuente sonora resultante deberlan separarse tambien de la senal de audio espacial (compuesta) capturada por el aparato de audio espacial 10 y deberlan reposicionarse junto con la senal capturada por el dispositivo de captura de audio adicional 12A-C. Si esto no se realiza, el oyente oira componentes derivados de la misma fuente sonora como procedentes de diferentes localizaciones, lo que es claramente indeseable.

Son conocidas en la tecnica diversas tecnicas para identificacion y separacion de fuentes sonoras individuales (tanto estaticas como en movimiento) de una senal compuesta y por ello no seran explicadas con mucho detalle en la presente especificacion. Brevemente, el proceso de separacion implica normalmente identificar/estimar la fuente a ser separada, y a continuacion restar o eliminar en otra forma esa fuente identificada de la senal compuesta. La eliminacion de la fuente sonora identificada podrla realizarse en el dominio del tiempo mediante la resta de una senal en el dominio del tiempo de la fuente estimada, o en el dominio de la frecuencia. Un ejemplo de metodo de separacion que puede utilizarse por el aparato de procesamiento de audio 14 es el que se describe en la solicitud de patente pendiente PCT/EP2016/051709 que se refiere a la identificacion y separacion de una fuente sonora movil de una senal compuesta. Otro metodo que puede utilizarse puede ser el que se describe en el documento WO 2014/147442 que describe la identificacion y separacion de una fuente sonora estatica.

Otro ejemplo puede hallarse en el documento US 2012/0114130 A1. Independientemente de como se identifiquen las fuentes sonoras, una vez que se han identificado, puede restarse o filtrarse a la inversa a partir de la senal de audio espacial compuesta para proporcionar una senal de audio separada y un resto de la senal de audio compuesta. A continuacion del reposicionamiento espacial (u otra modificacion) de la senal de audio separada, la senal separada modificada puede volverse a mezclar de nuevo dentro del resto de la senal de audio compuesta para formar una senal de audio compuesta modificada.

La separacion de una fuente sonora individual de una senal de audio compuesta puede no ser particularmente directa y, como tal, puede no ser posible en todos los casos separar totalmente una fuente sonora individual de la senal de audio compuesta. En dichos casos, algunos componentes derivados de la fuente sonora que se pretende separar pueden permanecer en la senal compuesta restante a continuacion de la operacion de separacion.

Cuando la separacion no es totalmente exitosa, y la senal separada se mezcla de nuevo dentro del resto de la senal de audio compuesta en una localizacion reposicionada, puede degradarse la calidad que se experimenta por el usuario de la representation de audio resultante. Por ejemplo, en algunos casos, el usuario puede olr la fuente sonora en una position intermedia entre la localizacion original de la fuente sonora y la localizacion reposicionada pretendida. En otros ejemplos, el usuario puede olr dos fuentes sonoras distintas, una en la localizacion original y otra en la localizacion reposicionada. El efecto experimentado por el usuario puede depender de la forma en la que no tuvo exito la separacion. Por ejemplo, si una parte residual de todos o la mayor parte de los componentes de frecuencia de la fuente sonora permanecen en la senal compuesta a continuacion de la separacion, el usuario puede olr la fuente sonora en la localizacion intermedia. Pueden olrse dos fuentes sonoras distintas cuando solo permanecen ciertos componentes de frecuencia (parte del espectro de frecuencia) de la fuente sonora en la senal compuesta, siendo otros componentes de frecuencia exitosamente separados. Como se apreciara, cualquiera de estos efectos puede ser indeseable y, como tal, en ocasiones en las que la separacion de la senal de audio no es totalmente exitosa, puede ser beneficioso limitar el intervalo de reposicionamiento espacial que esta disponible.

A la vista de este hecho, el aparato de procesamiento de audio 14 se configura para determinar un valor de un parametro de modificacion de la senal separada basandose en una medida determinada del exito de una separacion de una senal de audio que representa una fuente sonora de una senal de audio compuesta, comprendiendo la senal de audio compuesta componentes derivados desde al menos dos fuentes sonoras. El valor del parametro de modificacion de la senal separada (que puede denominarse simplemente como el parametro de modificacion) indica el intervalo para la modificacion de una caracterlstica de la senal de audio separada que representa la fuente sonora. El intervalo puede corresponder a una cantidad de modificacion de la caracterlstica de la senal separada mas alla de la que la calidad de la senal de audio compuesta modificada (dentro de la que se ha mezclado la senal separada modificada) cae por debajo de un nivel aceptable.

En algunos ejemplos, el parametro de modificacion puede comprender un parametro de reposicionamiento espacial que indica un intervalo de reposicionamiento espacial para el reposicionamiento espacial de la senal de audio separada. Puesto en otra forma, la caracterlstica de la senal separada que ha de modificarse puede ser la posicion espacial en el espacio de audio. En otros ejemplos, el parametro de modificacion puede comprender un parametro de modificacion de amplitud que puede indicar un intervalo de modificacion de la amplitud de la senal de audio separada. Puesto en otra forma, la caracterlstica a ser modificada puede ser la amplitud de la senal de audio separada. Otros ejemplos de la caracterlstica de la senal espacial que pueden modificarse de acuerdo con el exito de la separacion pueden incluir la ecualizacion, reverberacion, distorsion y compresion. Pueden utilizarse los niveles de reverberacion aplicados a una senal separada y el volumen de la senal para indicar una distancia de una fuente sonora desde el usuario. Por ejemplo, incrementando la reverberacion y disminuyendo el volumen puede dar la impresion de que la fuente sonora esta alejada del oyente. A la inversa, disminuyendo la reverberacion e incrementando el volumen puede indicar que la fuente sonora esta mas proxima al oyente. En otros ejemplos mas, la caracterlstica asociada a la senal separada puede comprender un intervalo de reposicionamiento permitido de la posicion del oyente durante la reproduccion de audio de punto de vista libre. Como tal, un intervalo permitido de reposicionamiento de la posicion del oyente puede depender del exito de la separacion.

Para permitir que se determine el valor del parametro de modification, el aparato de procesamiento de audio 14 puede configurarse para determinar la medida del exito de la separacion de la senal de audio que representa la fuente sonora. Sin embargo, en otros ejemplos, la medida del exito de la separacion puede determinarse por otra entidad dentro del sistema y puede proporcionarse al aparato de procesamiento de audio 14, por ejemplo junto con las senales de audio.

El aparato de procesamiento de audio 14 puede configurarse ademas para limitar una cantidad permitida de modificacion de las caracterlsticas de la senal de audio separada basandose en el valor de un parametro de modificacion. De esta forma, puede impedirse la modificacion de la senal separada fuera del intervalo indicado por el parametro de modificacion. Esto puede impedir un grado inaceptable de degradation de la senal de audio compuesta modificada.

El aparato de procesamiento de audio 14 puede configurarse ademas para producir una indication del valor determinado del parametro de modificacion a ser proporcionado a un usuario, por ejemplo a traves de una interfaz de usuario grafica. La interfaz de usuario grafica puede configurarse para indicar visualmente al usuario en alguna forma, el valor del parametro de modificacion. Se explican a continuation diversos ejemplos de interfaces de usuario graficas adecuadas con referencia a las figuras 3A, 3^by 3C.

El aparato de procesamiento de audio 14 puede configurarse de modo que, cuando la medida del exito indica que el exito de la separacion esta por encima de un umbral de grado de exito, el valor determinado del parametro de modificacion indica que puede realizarse un intervalo completo de modificacion de una caracterlstica particular de la senal separada. En ejemplos en los que la modificacion se refiere al reposicionamiento espacial, el intervalo completo de reposicionamiento espacial puede depender de la configuration del aparato de captura de audio espacial 10. Por ejemplo, si el aparato de captura de audio espacial 10 se configura para capturar audio espacial en los 360 grados que rodean el dispositivo, el intervalo completo de reposicionamiento puede ser 360 grados. Sin embargo, si el aparato de captura de audio espacial 10 se configura para capturar audio espacial desde menos de 360 grados (por ejemplo 180 grados) alrededor del aparato 10, el intervalo completo de reposicionamiento puede estar limitado a esa cantidad.

A la inversa, cuando la medida del exito indica que el exito de la separacion esta por debajo de un umbral de grado de exito, el aparato de procesamiento de audio 10 puede configurarse de modo que el valor determinado del parametro de modificacion tenga una relation directa con el grado de exito. Puesto en otra forma, el intervalo de modificacion indicado por el valor del parametro puede incrementarse y disminuirse segun se incrementa y disminuye el grado de exito.

La medida del exito, en ciertos ejemplos, puede comprender una correlation determinada entre un resto de la senal de audio compuesta y al menos una senal de audio de referencia. La senal de audio de referencia puede ser, en algunos ejemplos, la senal de audio separada. En dichos ejemplos, el aparato de procesamiento de audio 10 puede configurarse as! para determinar una correlacion entre una parte del resto del audio compuesto correspondiente a la localization original de la senal separada y la senal de audio separada. Una elevada correlacion puede indicar que la separacion no ha sido particularmente exitosa (un bajo grado de exito) mientras que una correlacion baja (o ninguna) puede indicar que la separacion ha tenido exito (un alto grado de exito). Se apreciara as! que, en dichos ejemplos, la correlacion (que es un ejemplo de la media determinada de exito de la separacion) puede tener una relacion inversa con el grado de exito de la separacion.

En otros ejemplos, la senal de referencia puede comprender una senal capturada por uno de los dispositivos de grabacion adicionales 12A, por ejemplo los dispositivos de grabacion adicionales que se asocian a la fuente de audio a la que se asocia la senal separada. Este planteamiento puede ser util para determinar el exito de la separacion cuando la separacion ha dado como resultado un espectro de audio asociado a la fuente sonora que se divide entre el resto de la senal compuesta y la senal separada. Una vez mas, la correlacion puede tener una relacion inversa con el grado de exito de la separacion.

En algunos ejemplos, tanto la correlacion entre la senal de audio compuesta y la senal separada como la correlacion entre la senal de audio compuesta y la senal derivada del dispositivo de grabacion adicional pueden determinarse y utilizarse para determinar el exito de la separacion. Si cualquiera de las correlaciones esta por encima de un umbral, puede determinarse que la separacion no ha tenido exito.

La correlacion puede determinarse usando la siguiente expresion:

en la que R(k) y S(k) son las k-esimas muestras del resto de la senal compuesta y de la senal de referencia respectivamente, ^t es el tiempo de demora y n el numero total de muestras.

El aparato de procesamiento de audio 14 puede configurarse para comparar la correlacion determinada con un umbral de correlacion predeterminado y, si la correlacion esta por debajo de la correlacion de umbral predeterminada, determinar que la separacion ha sido totalmente (o suficientemente) exitosa. A la inversa, si la correlacion esta por encima de la correlacion de umbral predeterminada, el aparato de procesamiento de audio 14 puede configurarse para determinar que la separacion no ha sido totalmente (o suficientemente) exitosa o, puesto en otra forma, ha sido solo parcialmente exitosa.

Como una alternativa a la expresion mostrada anteriormente, la medida del exito de la separacion, en algunos ejemplos, puede comprender una correlacion entre un espectro de frecuencia asociado al resto de la senal de audio compuesta y un espectro de frecuencia asociado a al menos una senal de audio de referencia. Si los componentes de frecuencia de la senal de audio de referencia estan tambien presentes en el resto de la senal de audio compuesta, puede deducirse que la separacion no ha sido totalmente exitosa. Por el contrario, si no hay correlacion entre los componentes de frecuencia de la senal de audio separada y el resto de la senal de audio compuesta puede determinarse que la separacion ha sido totalmente exitosa. Como se ha descrito anteriormente, la al menos una senal de audio de referencia puede comprender una o ambas de entre la senal de audio separada y una senal derivada de uno de los dispositivos de grabacion adicionales.

En otros ejemplos, sin embargo, la medida del exito de la separacion puede comprender una correlacion entre un resto de la senal de audio compuesta y un componente de una senal de video correspondiente a la senal de audio compuesta. Por ejemplo, en casos en los que la fuente sonora se deriva de una persona hablando, el aparato de procesamiento de audio 14 puede determinar si el resto de la senal de audio compuesta incluye componentes que tienen tiempos que corresponden a movimientos de la boca de la persona desde la que se deriva la fuente de sonora. Si dichos componentes de audio existen, puede determinarse que la separacion no ha sido totalmente exitosa, mientras que si dichos componentes de audio no existen puede determinarse que la separacion ha sido totalmente exitosa.

Como se apreciara, en todos los ejemplos descritos anteriormente, la correlacion determinada tiene una relacion inversa con el grado de exito de la separacion.

En algunos ejemplos, el aparato de procesamiento de audio 14 puede configurarse para modificar una caracterlstica de la senal de audio separada basandose en el valor determinado del parametro de modification. Por ejemplo, el aparato de procesamiento de audio 14 puede configurarse para responder a una determination de que la medida del exito de la separacion indica que, para un marco temporal posterior, un grado de exito de separacion es mas bajo que el grado de exito de separacion de un marco temporal actual mediante la modificacion de la caracterlstica de la senal de audio separada a un valor que este mas proximo a un valor original de la caracterlstica de la senal de audio separada. En dichos ejemplos, la modificacion de la caracterlstica de la senal de audio separada al valor que esta mas proximo al valor original se realiza previamente al comienzo de la reproduction del marco temporal posterior de la senal de audio compuesta modificada. La modificacion de la caracterlstica al valor mas proximo al valor original puede realizarse gradualmente de modo que el usuario no experimente un cambio brusco significativo en el valor de la caracterlstica en el comienzo de la reproduccion del marco temporal posterior de la senal de audio compuesta modificada.

Como se entendera, un marco temporal puede ser un segmento de senal de audio digitalizada y(n), por ejemplo, y(n)...y(n+M), en la que M es la longitud de la ventana. Por ejemplo, M puede ser igual a 2048 muestras o cualquier otro valor adecuado. El tamano del marco temporal puede predefinirse y puede ser dependiente en algunos ejemplos del tipo o naturaleza de la senal compuesta. Por ejemplo, una senal compuesta que tenga un primer tipo (por ejemplo compuesta de personas hablando) puede analizarse con una primera longitud de marco temporal y una senal compuesta que tenga un segundo tipo (por ejemplo musica) puede analizarse con una segunda longitud de marco temporal. En dichos ejemplos, la primera y segunda longitudes de marco temporal pueden haberse decidido basandose en ensayos sobre que longitud de marco conduce al mejor exito de la separacion, en promedio, para un tipo de senal particular.

La longitud de marco usada durante la separacion y la longitud de marco usada durante la reproduccion pueden no ser iguales entre si. Por ejemplo, la separacion podria realizarse usando marcos de 2048 muestras de longitud, mientras que la reproduccion podria realizarse usando marcos de 512 muestras de longitud.

La figura 2A es un diagrama de flujo que ilustra diversas operaciones que pueden realizarse por el aparato de procesamiento de audio 14 tal como el representado en la figura 1.

En la operacion S201, el aparato de procesamiento de audio 14 recibe una representacion de la senal de audio compuesta. Como se ha explicado previamente, la representacion puede recibirse en cualquiera de diversos formatos diferentes. Aunque no se representa en la figura 1, dependiendo del formato en el que se recibe la representacion, el aparato de procesamiento de audio 14 puede realizar en algunos ejemplos preprocesamiento para reformatear la senal de audio compuesta a otro formato.

En la operacion S202, el aparato de procesamiento de audio 14 realiza la separacion de una parte de la senal de audio compuesta que representa una fuente sonora de la senal de audio compuesta. La separacion puede realizarse de cualquier manera adecuada. Por ejemplo como se describe en cualquiera de los documentos PCT/EP2016/ 051709 y WO2014/147442.

Despues de realizar la separacion, el aparato de procesamiento de audio 14, en la operacion S203, calcula una medida del exito de la separacion de la senal de audio separada de la senal de audio compuesta. Como se ha explicado anteriormente, la medida del exito puede estar en la forma de una correlacion calculada entre el resto de la senal de audio compuesta y cualquiera de al menos una senal de referencia o una parte de un componente de video correspondiente a la senal de audio compuesta. Como se ha explicado anteriormente, la al menos una senal de audio de referencia puede comprender una o ambas de entre la senal de audio separada y una senal derivada desde uno de los dispositivos de grabacion adicionales que se asocia a la fuente de audio con la que se relaciona la senal separada.

Como por supuesto se apreciara, las propiedades de la senal de audio compuesta pueden cambiar a lo largo del tiempo (por ejemplo, pero no exclusivamente, debido al movimiento de las fuentes sonoras dentro del entorno de captura de audio). De esa forma, el exito con el que puede separarse una fuente sonora de la senal de audio compuesta puede variar a lo largo del tiempo. En consecuencia, la operacion S203, as! como las operaciones S204 a S207, pueden realizarse para segmentos individuales (o marcos temporales) de la senal de audio compuesta. En ejemplos en los que el aparato de procesamiento de audio 14 se configura para calcular la correlacion entre el resto de la senal de audio compuesta y la senal de audio de referencia, la correlacion puede ser la correlacion tanto en el dominio del tiempo como en el dominio de la frecuencia. Cuando la correlacion se calcula en el dominio de la frecuencia, el espectro de frecuencia de la senal de audio de referencia puede compararse con un espectro de frecuencia del resto de la senal de audio compuesta.

En ejemplos en los que el aparato de procesamiento de audio 14 se configura para calcular la correlacion entre el resto de la senal de audio compuesta y una parte de un componente de video correspondiente a la senal de audio compuesta esto puede determinarse primero mediante la identificacion de una parte del componente de video que corresponde a la localizacion espacial original de la senal de audio separada. A continuacion, se examina el componente de video para determinar si hay cualesquiera caracteristicas presentes en la parte del componente de video que estan sincronizadas en el tiempo con componentes del resto de la senal de audio compuesta. Por ejemplo, el aparato de procesamiento de audio 14 puede determinar si el movimiento de una boca de la persona esta sincronizado con componentes de audio del resto de la senal de audio compuesta.

Independientemente de que correlacion se determine por el aparato de procesamiento de audio 14, un alto grado de correlacion puede indicar un bajo grado de exito de la separacion, mientras que un bajo grado de correlacion puede indicar un alto grado de exito de la separacion. Puesto en otra forma, puede existir una relacion inversa entre la correlacion calculada y el grado de exito de la separacion.

Despues de calcular la medida del exito de la separacion, el aparato de procesamiento de audio 14 puede proseguir a la operacion S204 en la que determina el valor del parametro de modificacion de la senal separada, que indica un intervalo para la modificacion de una caracteristica de la senal de audio separada. Por ejemplo, en algunos ejemplos, el valor del parametro de modificacion puede comprender un valor maximo con el que puede modificarse una caracteristica sin degradar una calidad de la senal de audio compuesta modificada mas alla de un nivel aceptable. En otros ejemplos, sin embargo, el valor del parametro de modificacion puede comprender un intervalo permitido de modificacion que puede realizarse sin degradar una calidad de la senal de audio compuesta modificada mas alla del nivel aceptable. Como se ha explicado anteriormente, el grado de modificacion indicado por el valor del parametro de modificacion puede tener una relacion directa con el grado de exito de la separacion y una relacion inversa con la correlacion calculada.

Ejemplos de diversas sub-operaciones que pueden constituir la operacion S204 se ilustran en, y se explican con referencia a, el diagrama de flujo de la figura 2B.

En la operacion S204-1, el aparato de procesamiento de audio 14 puede determinar si la medida del exito de la separacion (tal como se determina en la operacion S203) indica que el grado de exito esta por encima de un umbral de exito. En algunos ejemplos, esta operacion puede comprender comparar la correlacion calculada con un umbral de correlation. En dichos ejemplos, si la correlation calculada esta por encima de un umbral de correlation, puede determinarse que el grado de exito esta por debajo del umbral de exito. A la inversa, si se determina que la correlacion calculada esta por debajo del umbral de correlacion, puede determinarse que el grado de exito de la separation esta por encima de un umbral de exito.

Si, en la operation S204-1, se determina que el exito de la separacion esta por encima del umbral de exito, el aparato de procesamiento de audio 14 puede proseguir a la operacion S204-2 en la que se determina que la separacion fue suficientemente exitosa y como tal que el valor del parametro de modification es para indicar que puede realizarse un intervalo completo de modificacion. El grado de la modificacion que corresponde al “intervalo completo” puede programarse previamente en el aparato de procesamiento de audio 14.

A la inversa, si, en la operacion S204-1, se determina que el exito de la separacion esta por debajo del umbral de exito, el aparato de procesamiento de audio 14 puede proseguir a la operacion S204-3 en la que se determina que la separacion no fue suficientemente exitosa y de ese modo puede determinar el valor del parametro de modificacion dependiendo del grado de exito. Por ejemplo, cuando el grado de exito esta por debajo del umbral, el valor del parametro de modificacion puede indicar un intervalo mayor de modificacion para un grado mas alto de exito y puede indicar un intervalo mas pequeno de modificacion para un grado menor de exito.

Volviendo ahora a la figura 2A, en la operacion S205, el aparato de procesamiento de audio 14 puede hacer que el valor del parametro de modificacion sea indicado a traves de una interfaz de usuario grafica a un usuario. Esto puede permitir al usuario determinar el intervalo de modificacion que puede realizarse sin degradar la calidad de la senal compuesta modificada mas alla de un nivel aceptable.

En la operacion S206, el aparato de procesamiento de audio 14 puede imponer un llmite sobre la cantidad de modificacion que puede realizarse con respecto a la senal de audio separada. Como tal, el aparato de procesamiento de audio 14 puede configurarse para impedir la modificacion de la caracterlstica mas alla del intervalo indicado por el valor del parametro de modificacion. De esta forma, un usuario puede ser capaz de modificar solamente la caracterlstica, por ejemplo a traves de la interfaz de usuario grafica, dentro de un intervalo permitido.

En la operacion S207, el aparato de procesamiento de audio 14 puede configurarse para realizar una modificacion de la caracterlstica de la senal de audio separada. La modificacion puede realizarse con respecto al marco temporal con el que se relaciona el grado de exito espacial. La modificacion puede realizarse en respuesta a una entrada por el usuario indicando un grado deseado de modificacion. A la vista del llmite impuesto sobre el grado de la modificacion permitida, la modificacion puede limitarse basandose en el valor del parametro de modificacion. De ese modo, en algunos ejemplos, si el usuario indica una modificacion deseada que esta fuera del intervalo permitido, el aparato de procesamiento de audio 14 puede responder modificando la caracterlstica en un grado maximo indicado por el valor del parametro de modificacion incluso aunque este sea menor que la modificacion deseada.

La figura 2C es un diagrama de flujo que ilustra diversas otras operaciones que pueden realizarse por el aparato de procesamiento de audio 14 tal como el representado en la figura 1. Las operaciones ilustradas en la figura 2C pueden realizarse posteriormente a la realization de la operacion S207 y pueden realizarse con respecto a un marco temporal de la senal de audio compuesta que es posterior en el tiempo al marco temporal con respecto al que se realizaron las operaciones S203 a S207 de la figura 2A.

En la operacion S208, puede determinarse la medida del exito de la separacion de la senal de audio respecto al marco temporal posterior de la senal de audio compuesta. Esto puede realizarse en cualquiera de las formas descritas con referencia a la operacion S203.

A continuation, en la operacion S209, el aparato de procesamiento de audio 14 determina un valor del parametro de modificacion para el marco temporal posterior de la senal de audio compuesta. Esto puede realizarse tal como se ha descrito con relation a la operacion S204 en las figuras 2A y 2B.

En la operacion S210, el valor del parametro de modificacion para la parte posterior puede indicarse al usuario a traves de una interfaz de usuario grafica (ejemplos de las cuales pueden explicarse con mas detalle con referencia las figuras 3A, 3B y 3C).

En la operacion S211, el aparato de procesamiento de audio 14 determina si un grado de modificacion de la caracterlstica para el marco temporal precedente supera el umbral indicado por el valor del parametro de modificacion para el marco temporal posterior (que se determino en la operacion S209).

Si se alcanza una determination positiva en la operacion S211, el aparato de procesamiento de audio 14 prosigue a la operacion S212. En la operacion S212, el aparato de procesamiento de audio 14, durante la reproduction del marco temporal precedente de la senal de audio compuesta modificada, hace que el grado de modificacion de la caracterlstica de la senal separada sea reducido a un nivel que este dentro del intervalo indicado por el valor del parametro de modificacion para el marco temporal posterior. Puesto en otra forma, la realizacion de la operacion S212 puede ser previa al inicio de la reproduccion del marco temporal posterior de la senal de audio separada. La modificacion al nivel reducido puede realizarse gradualmente tal y como se va reproduciendo la parte anterior. En esta forma, el usuario no experimenta un salto brusco significativo en el valor de la caracterlstica modificada. Despues de la realizacion de la operacion S211, el aparato de procesamiento de audio 14 puede proseguir a la operacion S212.

Si se determina en la operacion S211 que el grado de modificacion de la caracterlstica para el marco temporal precedente no excede el umbral indicado por el valor del parametro de modificacion para el marco temporal posterior, el aparato de procesamiento de audio 14 prosigue a la operacion S212.

En la operacion S213, durante la reproduccion del marco temporal posterior de la senal de audio compuesta modificada, el aparato de procesamiento de audio 14 impone un llmite sobre la modificacion permitida. Esto puede ser tal como se ha descrito con referencia a la operacion S206.

En la operacion S214, si, por ejemplo, se recibe una entrada del usuario indicando otra modificacion de la caracterlstica, el aparato de procesamiento de audio 14 puede responder mediante la modificacion de la caracterlstica en consecuencia. Esto puede realizarse tal como se ha descrito con referencia a la operacion S207. Como se apreciara, si no se recibe una entrada requiriendo la modificacion de la caracterlstica, puede saltarse la operacion S214.

Posteriormente, el aparato de procesamiento de audio 14 vuelve a la operacion S208 en la que se determina la medida del exito de la separacion para un marco temporal posterior de la senal de audio compuesta recibida.

Como naturalmente se apreciara, las operaciones representadas en las figuras 2A a 2C son solamente ejemplos. Como tales, las operaciones pueden realizarse en un orden diferente, pueden omitirse ciertas operaciones y/o pueden realizarse operaciones adicionales. Por ejemplo, aunque se han descrito diversas determinaciones como realizadas de una forma marco por marco, en otros ejemplos, una medida del exito de la separacion puede determinarse sobre un perlodo extendido, determinandose los marcos temporales utilizados para las finalidades de las operaciones S211 a S214 basandose en la medida del exito de la separacion. En dichos ejemplos, cada marco temporal puede seleccionarse de modo que dentro del marco temporal la medida del exito de la separacion sea relativamente uniforme, correspondiendo los llmites entre marcos temporales a momentos en los que hay un cambio significativo (por ejemplo un cambio que es mayor que un umbral) en la medida del exito de la separacion.

La figura 3A es un ejemplo de una interfaz de usuario grafica (GUI) 30 a traves de la que puede indicarse al usuario el parametro de modificacion para uno o mas marcos temporales de la senal de audio compuesta.

La GUI 30, en el ejemplo de la figura 3A, incluye uno o mas indicadores 301A-F, correspondiendo cada uno a un marco temporal diferente de la senal de audio compuesta. Los indicadores 301 se configuran para indicar el valor del parametro de modificacion que se determina para cada marco de la senal, para de ese modo indicar un grado de modificacion permitido.

En algunos ejemplos, tales como el de la figura 3A, los indicadores 301 pueden indicar adicionalmente una duracion del marco temporal. En el ejemplo de la figura 3A, una primera dimension L (por ejemplo longitud) de los indicadores 301A-F indica la duracion de cada marco temporal. Mas especlficamente, una primera dimension mas larga indica un marco temporal con una duracion mas larga. En el ejemplo de la figura 3A, los indicadores se proporcionan sobre una llnea de tiempos, de modo que los marcos temporales correspondientes a las ultimas posiciones de la senal compuesta entrante se proporcionan mas adelante a lo largo de la llnea de tiempos de lo que estan los marcos temporales correspondientes a partes anteriores de la senal compuesta entrante.

Una segunda dimension H (por ejemplo altura) de los indicadores puede indicar el valor del parametro de modificacion, de modo que una altura mayor indica un grado mayor de modificacion permitida para el marco temporal. Por ejemplo, en la figura 3A las alturas de los indicadores disminuyen sucesivamente de la correspondiente al primer marco temporal hasta la correspondiente al cuarto marco temporal. Esto puede indicar que el valor del parametro de modificacion disminuye sucesivamente desde el primer al cuarto marcos temporales y consecuentemente que el grado permitido de modificacion tambien disminuye desde el primer al cuarto marcos temporales.

En algunos casos, tal como el de la figura 3A, los indicadores 301A-F pueden indicar valores de dos parametros de modificacion diferentes. En dichos ejemplos, una tercera dimension D (por ejemplo profundidad) de los indicadores 301A-F puede indicar un valor del segundo parametro de modificacion. Por ejemplo, en el caso de la figura 3A, el (los) parametro(s) de modificacion son parametros de reposicionamiento espacial, correspondiendo un primer parametro al reposicionamiento espacial azimutal y correspondiendo un segundo parametro al reposicionamiento espacial de elevacion. En el ejemplo de la figura 3A, el valor del parametro de reposicionamiento espacial azimutal se indica por la profundidad y el indicador del valor del parametro de reposicionamiento espacial de elevacion se indica por la altura de los indicadores.

Las figuras 3B y 3C ilustran ejemplos de otros aspectos de la GUI 32, 34 traves de los que puede indicarse al usuario un valor del parametro de modificacion para uno o mas de los marcos de la senal de audio compuesta. En estos ejemplos, las GUI 32, 34 incluyen un elemento movil 322, 342, cuya localizacion indica el grado actual de modificacion de la caracterlstica (por ejemplo posicion espacial) que se aplica.

Cada GUI 32, 34 puede incluir ademas al menos una primera zona 324, 344 delineada que indica un intervalo de modificacion que esta “permitido” (indicando de ese modo el valor del parametro de modificacion). La GUI 32, 34 puede incluir tambien una segunda zona 326, 346 que indique grados de modificacion fuera del intervalo “permitido”. Las dos zonas pueden ser visualmente distintas entre si (por ejemplo, usando diferentes colores, por ejemplo, verde y rojo). Las GUI 32, 34 pueden incluir adicionalmente demarcaciones 328, 348 que indican el grado de modificacion en terminos cuantitativos.

La GUI 32 de la figura 3B se configura para indicar la modificacion en justamente una dimension (por ejemplo, en donde la modificacion se refiere al posicionamiento espacial, solamente el azimut). La GUI 34 de la figura 3C, por otro lado, se configura para indicar la modificacion en dos dimensiones (por ejemplo azimut y elevacion) en donde la localizacion del elemento movil 342 en cualquiera de las direcciones x e y corresponde a la modificacion en una dimension diferente. Como naturalmente se apreciara, pueden proporcionarse dos (o tres) GUI tal como la de la figura 3B en tandem para indicar de ese modo la modificacion en dos (o tres) dimensiones.

En algunos ejemplos, las GUI 32, 34 pueden visualizarse sobre una interfaz tactil, mediante la que el usuario proporciona entradas tactiles para mover el elemento movil 322, 324 y de ese modo modificar la caracterlstica de la senal separada. En otros ejemplos, sin embargo, las GUI puede ser utilizables con dispositivos de entrada mecanica tales como deslizadores mecanicos o conmutadores/palancas de fuego mecanicas 32, 34, en las que puede hacerse que se mueva el elemento movil a traves de un deslizador, conmutador etc. En dichos ejemplos, los actuadores pueden utilizarse para proporcionar realimentacion inercial a los dispositivos mecanicos, para de ese modo impedir o desalentar la modificacion de la caracterlstica mas alla del intervalo “permitido” indicado. En otros ejemplos, la realimentacion flsica puede utilizarse con dispositivos de control mecanico (por ejemplo, deslizadores, conmutadores, palancas de juego, etc.) para indicar el valor del parametro de modificacion (particularmente cuando el usuario esta tratando de superar el intervalo de modificacion indicado por el parametro de modificacion) en ausencia de las GUI 32, 34.

Aunque no se muestra en los ejemplos de las figuras 3A a 3C, se apreciara que puede visualizarse otra informacion para el usuario a traves de la GUI 30, 32, 34. Por ejemplo, puede indicarse un nivel de modificacion actual (o pretendido) para uno o mas de los marcos temporales con relacion a los indicadores correspondientes a esos marcos temporales. Los indicadores 301A-F pueden indicar tambien o alternativamente diferentes intervalos de modificacion para cada marco temporal basandose en la degradacion de la calidad de la senal compuesta modificada que se asocia a diferentes intervalos. Por ejemplo, los indicadores pueden indicar un primer intervalo en el que la degradacion en la calidad serla baja, un segundo intervalo en el que la degradacion de la calidad serla mas alta pero aun aceptable y un tercer intervalo en el que la degradacion de la calidad serla inaceptable. Los diferentes intervalos pueden indicarse por ejemplo usando diferentes colores (por ejemplo verde, amarillo y rojo).

Aunque no se muestra en el ejemplo de las figuras 3A a 3C, las GUI 30, 32, 34 pueden incluir una funcion para permitir al usuario previsualizar la senal de audio compuesta modificada, por ejemplo en combinacion con una version correspondientemente modificada de una senal derivada de uno de los dispositivos de captura de audio adicionales que corresponde a la fuente sonora separada. En esta forma, el usuario puede ser capaz de verificar la calidad de la senal compuesta modificada antes de confirmar las modificaciones a traves de la GUI.

Como se apreciara, el reposicionamiento de fuentes sonoras puede realizarse en una, dos o tres dimensiones. El reposicionamiento puede realizarse en un sistema de coordenadas cartesianas con ejes x, y y z, o en un sistema de coordenadas polares con azimut, elevacion y distancia. Las GUI pueden as! configurarse dependiendo del numero de dimensiones (y del sistema de coordenadas) en el que ha de realizarse el posicionamiento.

Con referencia ahora a las figuras 4A a 4C, estas figuras sirven para ilustrar la forma en la que puede determinarse el valor de un parametro de reposicionamiento espacial sobre la base del exito de una separacion de una senal de audio compuesta.

La figura 4A ilustra dos fuentes sonoras (en este ejemplo, dos personas 13A, 13B hablando) en diferentes posiciones espaciales con relacion a la localizacion del dispositivo de captura de audio espacial 10 (que puede ser tambien la localizacion del oyente cuando se esta reproduciendo el audio).

Un primer orador 13A se localiza en un angulo azimutal de -45 grados que esta a la izquierda del dispositivo de captura/oyente y un segundo orador 13B se localiza en un angulo azimutal de 45 grados que esta a la derecha del dispositivo de captura/oyente.

Los espectros de frecuencia 40A, 40B de las senales de voz (fuentes sonoras) de cada orador se han representado en sus posiciones espaciales relativas. El espectro de frecuencia describe la distribution de frecuencia de la senal de voz/fuente sonora. Como se ha explicado anteriormente, sin embargo, se deberia apreciar que el espectro de frecuencia varia a lo largo del tiempo y, como tal, la figura 4A representa una situation instantanea en un marco temporal de tiempo corto, por ejemplo una duration de 20 milisegundos.

La figura 4B ilustra una separation totalmente exitosa del espectro de frecuencia de la senal de audio compuesta. En este ejemplo, esto se indica por el hecho de que ninguno de los componentes de la senal derivada de la fuente sonora permanece en la localization original.

En dicha situacion, el aparato de procesamiento de audio 14 puede determinar que el grado de exito esta por encima del umbral de exito y de ese modo puede establecer el valor del parametro de reposicionamiento espacial para indicar que puede realizarse el intervalo completo de reposicionamiento espacial. En este ejemplo, el intervalo completo de reposicionamiento es 360 grados y asi se indica esto por el parametro de reposicionamiento espacial. Como puede verse, en este ejemplo, la fuente sonora correspondiente al primer orador 13A (indicado por el espectro de frecuencia 40A) se ha reposicionado dentro del intervalo permitido en de menos 135 grados a menos 180 grados que esta por detras del aparato de captura/oyente.

A diferencia de la figura 4B, la figura 4C ilustra una situacion en la que la separacion no ha sido totalmente exitosa. Esto se indica en la figura 4C por varios componentes 40A-1 del espectro de frecuencia 40A del primer orador 13A que estan a la izquierda en su localizacion original mientras otros componentes 40A-2 se han separado.

En un ejemplo tal como el ilustrado en la figura 4C, el aparato de procesamiento de audio 14 determina que la separacion no ha sido exitosa. Como tal, el aparato de procesamiento de audio 14 determina un valor del parametro de reposicionamiento espacial basado en el grado de exito de la separacion. La determination del valor del parametro de reposicionamiento espacial puede ser tal que un grado mas alto de exito de como resultado un parametro de reposicionamiento espacial que tenga un valor que indique un intervalo mas alto de reposicionamiento espacial y un grado mas bajo de exito de como resultado un reposicionamiento espacial del parametro que tenga un valor que indique un intervalo mas bajo de reposicionamiento espacial.

En el ejemplo de la figura 4C, el valor del parametro de reposicionamiento espacial indica que la fuente sonora separada puede reposicionarse en ±90 grados respecto a su localizacion original. A la vista de esto, la senal separada 40A-2 se ha reposicionado dentro del intervalo indicado por el parametro de reposicionamiento espacial en -80 grados. De ese modo, la calidad de la senal de audio compuesta modificada resultante no se degrada mas alla de un nivel aceptable.

En los ejemplos anteriores descritos con referencia a las figuras 1 a 4C, la senal compuesta a partir de la que se han separado las fuentes sonoras identificadas se genera mediante aparatos de captura de audio espacial 10. Sin embargo, se apreciara naturalmente que los metodos y operaciones descritas en el presente documento pueden realizarse con respecto a cualquier senal de audio que incluya componentes derivados de una pluralidad de fuentes de audio como por ejemplo una senal derivada de los dispositivos de captura de audio adicionales que casualmente incluyan componentes de dos oradores (por ejemplo debido a que ambos oradores estan en una proximidad suficientemente proxima para el dispositivo de captura).

Aunque los ejemplos anteriores se han explicado principalmente con referencia a la modification de caracteristicas de una senal de audio separada, deberia apreciarse que diversas operaciones descritas en el presente documento pueden aplicarse a senales que comprendan tanto componentes de audio como visuales (AV). Por ejemplo, el reposicionamiento espacial puede aplicarse a las partes del componente visual de la senal AV. Por ejemplo, el aparato de procesamiento de audio 14 puede configurarse para identificar y reposicionar un objeto visual en componentes visuales correspondientes a la fuente sonora separada. Mas especificamente, el aparato de procesamiento de audio 14 puede configurarse para segmentar (o separar) el objeto visual correspondiente a la fuente sonora separada del resto del componentes de video y sustituir el fondo. El aparato de procesamiento de audio 14 puede configurarse posteriormente para permitir el reposicionamiento del objeto visual separado basandose en el parametro de reposicionamiento espacial determinado para la senal de audio separada.

La figura 5 es un diagrama de bloques esquematico que ilustra un ejemplo de configuration del aparato de procesamiento de audio 14 descrito con referencia las figuras 1 a 4C.

El aparato de procesamiento de audio 14 comprende un aparato de control 50 que se configura para realizar diversas operaciones tales como se ha descrito anteriormente con referencia al aparato de procesamiento de audio 14. El aparato de control 50 puede configurarse ademas para controlar los otros componentes del aparato de procesamiento de audio 14.

El aparato de procesamiento de audio 14 puede comprender ademas una interfaz de entrada de datos 51, a traves de la que pueden recibirse senales representativas de la senal de audio compuesta. Las senales derivadas desde los uno o mas dispositivos de captura de audio adicionales 12A-C pueden recibirse tambien a traves de la interfaz de entrada de datos 51. La interfaz de entrada de datos 51 puede ser cualquier tipo adecuado de interfaz por cable o inalambrica. Los datos representativos de los componentes visuales capturados por el aparato de captura de audio espacial 10 pueden recibirse tambien a traves de la interfaz de entrada de datos 51.

El aparato de procesamiento de audio 14 puede comprender ademas una interfaz de salida visual 52, que puede acoplarse a una pantalla 53. El aparato de control 50 puede hacer que la informacion indicativa del valor del parametro de modification de la senal separada se proporcione al usuario a traves de la interfaz de salida visual 52 y la pantalla 53. El aparato de control 50 puede hacer adicionalmente que se visualicen para el usuario una GUI 30, 32, 34 como la descrita con referencia las figuras 3A, 3B y 3C. Puede hacerse tambien que los componentes de video que corresponden a las senales de audio se visualicen a traves de la interfaz de salida visual 52 y la pantalla 53.

El aparato de procesamiento de audio 14 puede comprender ademas una interfaz de entrada de usuario 54 a traves de la que pueden proporcionarse entradas del usuario al aparato de procesamiento de audio 14 por parte del usuario del aparato.

El aparato de procesamiento de audio 14 puede comprender adicionalmente una interfaz de salida de audio 55 a traves de la que puede proporcionarse audio al usuario, por ejemplo a traves de una disposition de altavoz o unos auriculares biaurales 56. Por ejemplo, las senales de audio compuestas modificadas pueden proporcionarse al usuario a traves de la interfaz de salida de audio 55.

Se describiran ahora algunos detalles adicionales de componentes y caracterlsticas del aparato de procesamiento de audio 14 anteriormente descrito y alternativas para ellos, principalmente con referencia a la figura 5.

El aparato de control 51 puede comprender circuitos de procesamiento 510 acoplados comunicativamente con la memoria 511. La memoria 511 tiene instrucciones legibles por ordenador 511A almacenadas en ella, que cuando se ejecutan por el circuito de procesamiento 510 hacen que el circuito de procesamiento 510 provoque la realization de varias de las operaciones anteriormente descritas con referencia a las figuras 1 a 5. Puede hacerse referencia al aparato de control 51 en algunos casos, en terminos generales, como el “aparato”.

Los circuitos de procesamiento de audio 510 de cualquiera de los aparatos de procesamiento de audio 14 descritos con referencia a las figuras 1 a 5 pueden ser de cualquier composition adecuada y pueden incluir uno o mas procesadores 510A de cualquier tipo adecuado o combination adecuada de tipos. Por ejemplo, el circuito de procesamiento 510 puede ser un procesador programable que interprete instrucciones de programa de ordenador 511A y procese datos. El circuito de procesamiento 510 puede incluir una pluralidad de procesadores programables. Alternativamente, el circuito de procesamiento 510 puede ser, por ejemplo, hardware programable con firmware embebido. El circuito de procesamiento 510 puede denominarse medios de procesamiento. El circuito de procesamiento 510 puede incluir alternativa o adicionalmente uno o mas circuitos integrados de aplicacion especlfica (ASIC). En algunos casos, el circuito de procesamiento 510 puede denominarse como un aparato de calculo.

El circuito de procesamiento 510 se acopla a la memoria respectiva (o uno o mas dispositivos de almacenamiento) 511 y es operativo para leer/escribir datos a/desde la memoria 511. La memoria 511 puede comprender una unica unidad de memoria o una pluralidad de unidades de memoria, sobre la que se almacenan instrucciones (o codigos) legibles por ordenador 511A. Por ejemplo, la memoria 511 puede comprender tanto memoria volatil 511-2 como memoria no volatil 511-1. Por ejemplo, las instrucciones legibles por ordenador 511A pueden almacenarse en la memoria no volatil 511-1 y pueden ejecutarse por el circuito de procesamiento 510 usando la memoria volatil 501-2 para almacenamiento temporal de datos o datos e instrucciones. Ejemplos de memoria volatil incluyen RAM, DDRAM y SRAM, etc. Ejemplos de memoria no volatil incluyen ROM, PROM, EEPROM, memoria flash, almacenamiento optico, almacenamiento magnetico, etc. Puede hacerse referencia a las memorias en general como medios de memoria legibles por ordenador no transitorios.

El termino “memoria”, ademas de cubrir la memoria que comprende tanto memoria no volatil como memoria volatil, puede cubrir tambien una o mas memorias volatiles solamente, una o mas memorias no volatiles solamente, o una o mas memorias volatiles y una o mas memorias no volatiles.

Las instrucciones legibles por ordenador 511A pueden preprogramarse en el aparato de procesamiento de audio 14. Alternativamente, las instrucciones legibles por ordenador 511A pueden llegar al aparato 14 a traves de una senal electromagnetica portadora o pueden copiarse desde una entidad flsica 57 (vease la figura 5) tal como un producto de programa informatico, un dispositivo de memoria o un medio de registro tal como un CD-ROM o DVD. Las instrucciones legibles por ordenador 511A pueden proporcionar la logica y rutinas que permitan que el aparato de procesamiento de audio 14 realice la funcionalidad descrita anteriormente. La combinacion de instrucciones legibles por ordenador almacenadas en memoria (de cualquiera de los tipos descritos anteriormente) puede denominarse como un producto de programa informatico.

Donde es aplicable, la capacidad de comunicacion inalambrica del aparato 10, 12, 14 puede proporcionarse mediante un unico circuito integrado. Puede proporcionarse alternativamente mediante un conjunto de circuitos integrados (es decir un conjunto de chips). La capacidad de comunicacion inalambrica puede ser alternativamente un circuito integrado de aplicacion especifica (ASIC) cableado.

Como se apreciara, los aparatos 10, 12, 14 descritos en el presente documento pueden incluir diversos componentes de hardware que pueden no haberse mostrado en las figuras. Por ejemplo, el aparato de procesamiento de audio 14 puede comprender en algunas implementaciones un dispositivo informatico portatil tal como un telefono movil o un ordenador tableta y de ese modo puede contener componentes comunmente incluidos en un dispositivo del tipo especifico. De modo similar, el aparato de procesamiento de audio 14 puede comprender componentes de software opcionales adicionales que no se han descrito en la presente especificacion dado que pueden no ser relevantes para los principios y conceptos principales descritos en el presente documento.

Los ejemplos descritos en el presente documento pueden implementarse en software, hardware, logica de aplicacion o una combination de software, hardware y logica de aplicacion. El software, logica de aplicacion y/o hardware puede residir en una memoria, o cualquier medio informatico. En una realization de ejemplo, la logica de aplicacion, software o conjunto de instrucciones se mantiene en uno cualquiera de diversos medios legibles por ordenador convencionales. En el contexto del presente documento, una “memoria” o un “medio legible por ordenador” puede ser cualquier medio o medios que puedan contener, almacenar, comunicar, propagar o transportar las instrucciones para su uso por, o en combinacion con, un sistema, aparato o dispositivo de ejecucion de instrucciones, tal como un ordenador.

La referencia, donde sea relevante, a un “medio de almacenamiento legible por ordenador”, “producto de programa informatico”, “programa informatico tangiblemente realizado”, etc., o a un “procesador” o “circuito de procesamiento” etc. deberia entenderse que engloba no solamente ordenadores que tengan diferentes arquitecturas tales como arquitecturas de procesador simple/multiprocesador y arquitecturas de secuencia/paralelas, sino tambien circuitos especializados tales como matrices de puertas programables en campo FPGA, circuitos de aplicacion especifica ASIC, dispositivos de procesamiento de senal y otros dispositivos. Las referencias a programas, instrucciones, codigo informatico, etc. deberia entenderse que expresa software para un firmware de procesador programable tal como el contenido programable de un dispositivo de hardware tales como instrucciones para un procesador configuradas o ajustes de configuration para un dispositivo de funcion fija, matrices de puertas, dispositivo logico programable, etc.

Tal como se usa en la presente solicitud, el termino “circuito” se refiere a todos los siguientes: (a) implementaciones de circuitos solo en hardware (tales como implementaciones solo en circuitos analogicos y/o digitales) y (b) a combinaciones de circuitos y software (y/o firmware), tal como (segun sea aplicable): (i) a una combinacion de procesador(es) o (ii) a partes de procesador(es)/software (incluyendo procesador(es) de senal digital), software, y memorias que trabajan juntos para hacer que un aparato, tal como un telefono movil o servidor, realice diversas funciones) y (c) a circuitos, tales como un(os) microprocesador(es) o una parte de un(os) microprocesador(es), que requieren software o firmware para su operation, incluso si el software o firmware no esta fisicamente presente.

Esta definition de “circuitos” se aplica a todos los usos de este termino en la presente solicitud, incluyendo en cualquiera de las reivindicaciones. Como un ejemplo adicional, tal como se usa en la presente solicitud, el termino “circuito” deberia cubrir tambien una implementation de meramente un procesador (o multiples procesadores) o una parte de un procesador y su(s) software y/o firmware adjunto. El termino “circuitos” deberia cubrir tambien, por ejemplo y si es aplicable a un elemento de revindication particular, un circuito integrado en banda base o aplicaciones de circuitos integrados en un procesador para un telefono movil o un circuito integrado similar en un servidor, dispositivos de red celular, u otro dispositivo de red.

Si se desea, las diferentes funciones explicadas en el presente documento pueden realizarse en un orden diferente y/o simultaneamente entre si. Adicionalmente, si se desea, una o mas de las funciones anteriormente descritas pueden ser opcionales o pueden combinarse. De modo similar, se apreciara que los diagramas de flujo de las figuras 2A a 2C son ejemplos solamente y que pueden omitirse, reordenarse y/o combinarse diversas operaciones representadas en ellos,

Aunque diversos aspectos se exponen en las reivindicaciones independientes, otros aspectos comprenden otras combinaciones de caracteristicas a partir de las realizaciones descritas y/o las reivindicaciones dependientes con las caracteristicas de las reivindicaciones independientes, y no solamente las combinaciones explicitamente expuestas en las reivindicaciones. Se senala tambien en el presente documento que mientras que lo anterior describe diversos ejemplos, estas descripciones no deberian verse en un sentido limitativo. Por el contrario, hay varias variaciones y modificaciones que pueden realizarse sin apartarse del alcance de la presente invention tal como se define en las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Un metodo que comprende:

determinar, basandose en una medida determinada del exito de una separation de una senal de audio que representa una fuente sonora de una senal de audio compuesta que comprende componentes derivados de al menos dos fuentes sonoras, un valor de un parametro de modification de la senal separada, indicando el valor del parametro de modificacion de la senal separada un intervalo de modificacion de una caracterlstica asociada a la senal de audio separada.

2. El metodo de acuerdo con la reivindicacion 1, en el que el parametro de modificacion de la senal separada es un parametro de reposicionamiento espacial que indica un intervalo de reposicionamiento espacial para el reposicionamiento espacial de la senal de audio separada.

3. El metodo de acuerdo con la reivindicacion 1 o la reivindicacion 2, que comprende determinar la medida del exito de la separacion de la senal de audio de la senal de audio compuesta.

4. El metodo de acuerdo con cualquiera de las reivindicaciones 1 a 3, que comprende:

limitar la cantidad permitida de modificacion de la caracterlstica asociada a la senal de audio separada basandose en el valor del parametro de modificacion de la senal separada.

5. El metodo de acuerdo con cualquier reivindicacion anterior, que comprende:

hacer que se proporcione a un usuario una indication del valor determinado del parametro de modificacion de la senal separada.

6. El metodo de acuerdo con cualquier reivindicacion anterior, que comprende:

cuando la medida del exito indica que el exito de la separacion esta por encima de un grado de umbral de exito, determinar un valor del parametro de modificacion de la senal separada que indique un intervalo completo de modificacion de la caracterlstica.

7. El metodo de acuerdo con cualquier reivindicacion anterior en el que, cuando la medida del exito indica que el exito de la separacion esta por debajo de un grado de umbral de exito, el valor determinado del parametro de modificacion de la senal separada indica un intervalo de modificacion que tiene una relation directa con el grado de exito.

8. El metodo de acuerdo con cualquier reivindicacion anterior, en el que la medida del exito comprende una correlation entre un resto de la senal de audio compuesta y al menos una senal de audio de referencia.

9. El metodo de acuerdo con la reivindicacion 8, que comprende:

si la correlacion esta por debajo de una correlacion de umbral predeterminada, determinar un valor del parametro de modificacion de la senal separada que indique un intervalo completo de modificacion;

si la correlacion esta por encima de la correlacion de umbral predeterminada, determinar un valor del parametro de modificacion de la senal separada que indique un intervalo de modificacion que tenga una relacion inversa con la correlacion.

10. El metodo de acuerdo con la reivindicacion 8 en el que la medida del exito de la separacion comprende una correlacion entre un espectro de frecuencia asociado al resto de la senal de audio compuesta y un espectro de frecuencia asociado a al menos una senal de audio de referencia.

11. El metodo de acuerdo con cualquiera de las reivindicaciones 1 a 7, en el que la medida del exito de la separacion comprende una correlacion entre un resto de la senal de audio compuesta y un componente de una senal de video correspondiente a la senal de audio compuesta.

12. El metodo de acuerdo con cualquier reivindicacion anterior, que comprende:

responder a una determination de que la medida del exito de la separacion indica que, para un marco temporal posterior de la senal de audio compuesta, un grado de exito de la separacion es mas bajo que el grado de exito de la separacion para un marco temporal actual de la senal de audio compuesta mediante el reposicionamiento espacial de la senal de audio separada a una position que este mas proxima a una position espacial original de la senal de audio separada.

13. El metodo de la reivindicacion 12, en el que el reposicionamiento espacial de la senal de audio separada a la posicion que esta mas proxima a la posicion espacial original se realiza previamente a la reproduction del marco temporal posterior de la senal de audio compuesta.

14. Aparato configurado para realizar un metodo de acuerdo con cualquiera de las reivindicaciones 1 a 13.

15. Instrucciones legibles por ordenador que, cuando las ejecuta un aparato informatico, hacen que el aparato informatico provoque la realizacion del metodo de acuerdo con cualquiera de las reivindicaciones 1 a 13.