SEGMENTACIÓN DE SEÑALES DE AUDIO EN EVENTOS AUDITIVOS CAMPO DE LA INVENCIÓN La presente invención pertenece al campo del procesamiento psicoacústico de señales de audio. En particular, la invención se refiere a aspectos de la división o segmentación de señales de audio en "eventos auditivos", cada uno de los cuales tiende a ser percibido como separado y distinto,, y a aspectos de generar representaciones, de información reducida, de señales de audio en base a eventos auditivos y, opcionalmente, en base también a las características o peculiaridades de las señales de audio en esos eventos auditivos. Los eventos auditivos pueden ser útiles ya que definen los "Segmentos de Audio" MPEG-7 propuestos por la "ISO/IEC JTC 1/SC 29/WG 11".
ANTECEDENTES DE LA INVENCIÓN A la división de sonidos en unidades percibidas como separadas y distintas, se hace referencia a veces como "análisis de eventos auditivos" o "análisis de escenas auditivas" ("ASA"). Una amplia ' discusión del análisis de escenas auditivas es presentada por Albert S. Bregman en su •libro Auditory Scene Analysis - The Perceptual Organization of Sound, Massachusetts Institute of Technology, 1991, Fourth printing, 2001, Second MIT Press paperback edition. Además, la patente de los Estados Unidos de Norteamérica 6,002,776 de Bhadkamkar, et al., 14 de Diciembre de 1999, cita publicaciones que datan desde 1976 como "trabajo de la técnica anterior relacionado con la separación de sonidos mediante el análisis de escenas auditivas" . Sin embargo, la patente de Bhadkamkar, et al., desanima el uso práctico del análisis de escenas auditivas, concluyendo que "las técnicas que involucran el análisis de escenas auditivas, aunque son interesantes desde un punto de vista científico como modelos del procesamiento auditivo humano, actualmente exigen demasiados recursos de cómputo y son demasiado especializadas como para ser consideradas técnicas prácticas para la separación del sonido hasta que se realice un progreso fundamental" . Existen muchos métodos diferentes para extraer características o peculiaridades del audio. Con tal que las peculiaridades o características se encuentren definidas en forma apropiada, su extracción puede ser realizada usando procesos automatizados. Por ejemplo la "ISO/lEC JTC l/SC 29/WG 11" (MPEG) actualmente está estandarizando una variedad de descriptores de audio como parte del estándar MPEG-7. Una desventaja común de ese método es que ignora el Análisis de Escenas Auditivas. Esos métodos buscan medir, periódicamente, ciertos parámetros de procesamientos de señales "clásicos" tales como el tono, la amplitud, la potencia, la estructura armónica y la ausencia de distorsión espectral. Esos parámetros, aunque proporcionan información útil no analizan y caracterizan señales de audio en elementos percibidos como separados y distintos de acuerdo con la cognición humana. Sin embargo, los descriptores PEG-7 pueden ser útiles para la caracterización de un Evento Auditivo identificado de conformidad con aspectos de la presente invención.
DESCRIPCIÓN DE LA INVENCIÓN De conformidad con aspectos de la presente invención, se proporciona un proceso eficiente, desde el punto de vista de cómputo, para dividir audio en segmentos temporales o "eventos auditivos" que tiendan a ser percibidos como separados y distintos. Las ubicaciones de las fronteras de estos eventos auditivos (en donde comienzan y finalizan con respecto al tiempo) proporcionan valiosa información que puede ser usada para describir una señal de audio. Las ubicaciones de las fronteras de los eventos auditivos pueden ser ensambladas para generar una representación de información reducida, "rúbrica" o "huella digital" de una señal de audio que pueda ser almacenada para su uso, por ejemplo, en el análisis comparativo con otras rúbricas generadas en forma similar (como por ejemplo en una base de datos de trabajos conocidos) . Bregman menciona en una parte que "escuchamos unidades discretas cuando el sonido cambia abruptamente su 4 timbre, tono, sonoridad, o (en un grado menor) su ubicación en el espacio" . (Audi tory Scene Analysis - The Perceptual Organization of Sound, supra, en la página 469) . Bregman describe también la percepción de múltiples corrientes sonoras, simultáneas, cuando, por ejemplo, se separan en la frecuencia . A fin de detectar cambios en el timbre y en el tono, y ciertos cambios en la amplitud, el proceso de detección de eventos auditivos de conformidad con un aspecto de la presente invención, detecta cambios en la composición espectral con respecto al tiempo. Cuando se aplica a un arreglo de sonido en múltiples canales, en el que los canales representan direcciones en el espacio, el proceso de conformidad con un aspecto de la presente invención detecta también eventos auditivos que resultan de cambios en la ubicación espacial con respecto al tiempo. Opcionalmente, de acuerdo con un aspecto adicional de la presente invención, el proceso puede detectar cambios en la amplitud con respecto al tiempo, que no serian detectados mediante la detección de cambios en la composición espectral con respecto al tiempo. En su implementación con menos requerimientos de cómputo, el proceso divide el audio en segmentos de tiempo, analizando toda la banda de frecuencias (audio de ancho de banda completo) o substancialmente toda la banda de frecuencias (en implementaciones prácticas, se emplea a menudo la filtración limitadora de bandas en los extremos del espectro) y se le proporciona el mayor peso a los componentes de la señal de audio más sonoros. Este enfoque saca ventaja de un fenómeno psicoascústico en el que, en menores escalas de tiempo (de 20 milisegundos (ms) y menores) el oído puede tender a enfocarse en un solo evento auditivo en un tiempo determinado . Esto implica que aunque puedan estar ocurriendo múltiples eventos al mismo tiempo, un componente tiende a ser perceptivamente el más prominente y puede ser procesado en forma individual como si fuese el único evento que se presentase. Sacar ventaja de este efecto permite también que la detección de eventos auditivos aumente con la complejidad del audio que se procesa. Por ejemplo, si la señal de audio de entrada que se procesa es un instrumento solo, los eventos de audio que se identifican serán probablemente las notas individuales que sean tocadas. Similarmente para una señal de voz de entrada, los componentes individuales de la voz, las vocales y consonantes por ejemplo, serán identificadas probablemente como elementos de audio individuales . A medida que se incrementa la complejidad del audio, tal como música con repiques de tambor o múltiples instrumentos y voz, la detección de eventos auditivos identifica el elemento de audio "más prominente" (es decir, el más fuerte) en cualquier momento determinado. Alternativamente, el elemento de audio más prominente puede ser determinado tomando en consideración el umbral de audición y la respuesta en la frecuencia. Aunque las ubicaciones de las fronteras de los eventos auditivos calculadas a partir del audio de ancho de banda completo, proporciona información útil relacionada con el contenido de una señal de audio, podría desearse proporcionar información adicional que describa adicionalmente el contenido de un evento auditivo para el uso de señales de audio. Por ejemplo, una señal de audio podría ser analizada a través de dos o más bandas secundarias de frecuencia y la ubicación de los eventos auditivos de las bandas secundarias de frecuencia se determinaría y usaría para transmitir más información detallada acerca de la naturaleza del contenido de un evento auditivo. Esa información detallada podría proporcionar información adicional no disponible a partir del análisis de banda ancha. De esta manera, opcionalmente, de acuerdo con aspectos adicionales de la presente invención, a expensas de una mayor complejidad computacional , el proceso puede tomar también en consideración cambios en la composición espectral con respecto al tiempo, en bandas de frecuencia discretas (determinadas en forma fija o dinámica, o bandas determinadas tanto en forma fija como dinámica) en vez que en todo el ancho de banda. Este enfoque alternativo tomaría en cuenta más de un flujo de audio en diferentes bandas secundarias de frecuencia, en vez que asumir que en un tiempo particular únicamente se puede percibir un solo flujo. Inclusive un proceso simple y eficiente desde el punto de vista de cómputo, de conformidad con un aspecto de la presente invención para segmentar audio, ha sido encontrado útil para identificar eventos auditivos. Un proceso de detección de eventos auditivos, de la presente invención, puede ser implementado dividiendo una forma de onda de audio en el dominio temporal, en intervalos o bloques de tiempo, y luego convirtiendo los datos que se encuentran en cada bloque, al dominio de la frecuencia, usando, ya sea un banco de filtros o una transformación tiempo-frecuencia, tal como una Transformada de Fourier Discreta Rápida (FFT) . La amplitud del contenido espectral de cada bloque puede ser normalizada a fin de eliminar o reducir el efecto de los cambios en la amplitud. La representación en el dominio de la frecuencia, resultante, proporciona un indicio del contenido espectral (la amplitud como una función de la frecuencia) del audio en el bloque particular. El contenido espectral del bloque sucesivo se compara y se puede tomar un cambio mayor que un umbral, para indicar el inicio temporal o el término temporal de un evento auditivo. La figura 1 muestra una forma de onda idealizada de un solo canal de música orquestal que ilustra eventos auditivos. Los cambios espectrales que ocurren cuando se ejecuta una nota disparan los nuevos eventos auditivos 2 y 3 en las muestras 8 2048 y 2560, respectivamente. Como se mencionó anteriormente, a fin de minimizar la complejidad de cómputo, únicamente se puede procesar una sola banda de las frecuencias de la forma de onda de audio en-el dominio temporal, preferentemente toda la banda de frecuencia del espectro (que puede ser desde aproximadamente 50 Hz hasta 15 KHz en el caso de un sistema de música de calidad promedio) o substancialmente toda la banda de frecuencias (por ejemplo, un filtro definidor de bandas puede excluir los extremos de alta frecuencia y de baja frecuencia) . Preferentemente, los datos en el dominio de la frecuencia se normalizan tal como se describe posteriormente. El grado en el cual necesitan normalizarse los datos en el dominio de la frecuencia proporciona una indicación de la amplitud. De aquí que, si un cambio de este grado excede un umbral predeterminado, también debe tomarse para indicar una frontera de eventos. Los puntos de inicio y fin de un evento, que resultan de cambios espectrales y cambios en la amplitud, pueden ser sometidos a la operación lógica OR en forma conjunta, de manera tal que se identifiquen las fronteras de eventos que resulten de ambos tipos de cambios . En el caso de múltiples canales de audio, cada uno de los cuales represente una dirección en el espacio, cada canal puede ser tratado independientemente, y las 9 fronteras de eventos resultantes, para todos los canales, pueden ser sometidas a la operación lógica O en forma conjunta. De esta manera, por ejemplo, un evento auditivo que cambie abruptamente de direcciones, dará por resultado probablemente una frontera de "fin de evento" en un canal, y una frontera de "inicio de evento" en otro canal . Cuando se realice conjuntamente la operación lógica OR, se identificarán dos eventos. De esta manera, el proceso de detección de eventos auditivos, de la presente invención, es capaz de detectar eventos auditivos en base a cambios espectrales (timbre y tono), en la amplitud y direccionales . Como se mencionó anteriormente, como una opción adicional, pero a expensas de mayor complejidad computacional , en lugar de procesar el contenido espectral de la forma de onda en el dominio temporal, en una sola banda de frecuencias, el espectro de la forma de onda en el dominio temporal, antes de la conversión al dominio de la frecuencia, puede ser dividido en dos o más bandas de frecuencias . Cada una de las bandas de frecuencia puede convertirse después al dominio de la frecuencia y procesarse como si fuese un canal independiente en la manera descrita anteriormente . Las fronteras de eventos resultantes pueden ser sometidas después a la operación lógica OR, en forma conjunta, para definir las fronteras de eventos para ese canal . Las bandas de frecuencias múltiples pueden ser fijas, adaptativas, o una 10 combinación de fijas y adaptativas . Técnicas con filtros de seguimiento, empleadas en la reducción del ruido de audio, y otras técnicas, por ejemplo, pueden emplearse para definir bandas de frecuencia adaptativas (por ejemplo, ondas sinusoidales simultáneas, dominantes, a 800 Hz y 2 KHz podrían dar por resultado dos bandas determinadas en forma adaptativa, centradas en esas dos frecuencias) . Aunque la filtración de los datos antes de la conversión al dominio de la frecuencia, funciona, en forma más óptima el audio con ancho de banda completo se convierte al dominio de la frecuencia y luego se procesan únicamente los componentes de bandas secundarias en la frecuencia de interés . En el caso de convertir el audio de ancho de banda completo, usando la FFT, únicamente se procesarían conjuntamente subgrupos que correspondan a bandas secundarias de frecuencias de interés . Alternativamente, en el caso de múltiples bandas secundarias o múltiples canales, en lugar de realizar la operación lógica OR en forma conjunta a las fronteras de eventos auditivos, lo cual da por resultado un poco menos de información, se puede conservar la información de las fronteras de eventos . Como se muestra en la figura 2, la magnitud en el dominio de la frecuencia, de una señal de audio digital, contiene información útil de la frecuencia, hasta una frecuencia de Fs/2 en donde Fs es la frecuencia de muestreo 11 de la señal de audio digital . Dividiendo el espectro de frecuencias, de la señal de audio, en dos o más bandas secundarias (no necesariamente del mismo ancho de banda y no necesariamente hasta una frecuencia de F2/2 Hz) las bandas secundarias de frecuencia pueden analizarse con respecto al tiempo, en una manera similar a la de un método de detección de eventos auditivos con ancho de banda total . La información de eventos auditivos en bandas secundarias, proporciona información adicional acerca de una señal de audio, que describe en forma más exacta la señal y la diferencia de las otras señales de audio. Esta capacidad de diferenciación mejorada puede ser útil si la información de la rúbricas de audio va a usarse para identificar señales de audio que estén en correspondencia, a partir de un gran número de rúbricas de audio. Por ejemplo, tal como se muestra en la figura 2, un análisis de eventos auditivos en bandas secundarias de frecuencia (con una resolución de fronteras de eventos auditivos, de 512 muestras) ha encontrado múltiples eventos auditivos en múltiples bandas secundarias iniciando, en forma variada, en las muestras 1024 y 1536 y finalizando, en forma variada, en las muestras 2560, 3072 y 3584. Es improbable que este nivel de detalle de las señales hubiese estado disponible a partir de un solo análisis de escenas auditivas en banda ancha. La información de eventos auditivos en bandas 12 secundarias, puede usarse para derivar una rúbrica de evento auditivo para cada banda secundaria. Aunque esto incrementaría el tamaño de la rúbrica de la señal de audio y posiblemente incrementaría el tiempo de cómputo requerido para comparar múltiples rúbricas, se reduciría también en gran medida la probabilidad de clasificar falsamente dos rúbricas como que si fueran las mismas . Podría realizarse una negociación entre el tamaño de rúbrica, la complejidad del cómputo y la exactitud de la señal, dependiendo de la aplicación. Alternativamente, en vez que proporcionar una rúbrica para cada banda secundaria, los eventos auditivos pueden someterse conjuntamente a la operación lógica OR para proporcionar un solo conjunto de fronteras de eventos auditivos "combinadas" (en las muestras 1024, 1536, 2560, 3072 y 3584) . Aunque esto daría por resultado cierta pérdida de información, proporciona un solo conjunto de fronteras de eventos, que represente eventos auditivos combinados, que proporcionen mayor información que la información de un análisis de banda ancha o de una sola banda secundaria. Aunque la información de eventos auditivos en bandas secundarias de frecuencia, por sí misma proporciona información útil de las señales, la relación entre las ubicaciones de los eventos auditivos de bandas secundarias puede analizarse y usarse para proporcionar mayor visión de la naturaleza de una señal de audio. Por ejemplo, la 13 ubicación e intensidad de los eventos auditivos de bandas secundarias pueden usarse como una indicación del timbre (contenido de la frecuencia) de la señal de audio. Los eventos auditivos que aparezcan en bandas secundarias que se encuentran relacionadas armónicamente unas ' con otras, proporcionarían también una visión útil con respecto a la naturaleza armónica del audio. La presencia de eventos auditivos en una sola banda secundaria puede proporcionar también información en cuanto a la naturaleza similar en el tono de una señal de audio . El análisis de la relación de los eventos auditivos en bandas secundarias de frecuencia, en múltiples canales, puede proporcionar también información del contenido espacial . En el caso de analizar múltiples canales de audio, cada canal se analiza independientemente y la información de las fronteras de eventos auditivos, de cada uno, puede conservarse, ya sea en forma separada, o puede combinarse para proporcionar información de eventos auditivos combinados. Esto es algo análogo al caso de múltiples bandas secundarias . Los eventos auditivos combinados pueden comprenderse mejor con referencia a la figura 3 que muestra los resultados del análisis de escenas auditivas, para una señal de audio en dos canales . La figura 3 muestra segmentos simultáneos en el tiempo, de datos de audio en dos canales. El procesamiento de ASA de audio en un primer canal, la forma 14 de onda superior de la figura 3, indica fronteras de eventos auditivos en muestras que son múltiplos del tamaño de bloque con perfil espectral de 512 muestras, en este ejemplo 1024 y 1536 muestras. La forma de onda más baja de la figura 3 es un segundo canal y el procesamiento ASA da por resultado fronteras de eventos en muestras que son también múltiplos del tamaño de bloque del perfil espectral, en las muestras 1024, 2048 y 3072 en este ejemplo. Un análisis de eventos auditivos combinados, para ambos canales, da por resultado segmentos de eventos auditivos combinados, con fronteras en las muestras 1024, 1536, 2048 y 3072 (las fronteras de los eventos auditivos, de los canales, se someten conjuntamente a la operación lógica OR) . Se apreciará que en la práctica la exactitud de las fronteras de eventos auditivos depende del tamaño del bloque del perfil espectral (N es de 512 muestras en este ejemplo) porque las fronteras de los eventos pueden ocurrir únicamente en las fronteras de los bloques . No obstante, se ha encontrado que un tamaño de bloque de 512 muestras determina fronteras de eventos auditivos con suficiente exactitud para proporcionar resultados satisfactorios . La figura 3A muestra tres eventos auditivos . Estos eventos incluyen la (1) porción silenciosa del audio antes del transitorio, (2) el evento transitorio, y (3) la porción de eco/sostenido del transitorio del audio. Una señal 15 de voz se representa en la figura 3B teniendo un evento de carácter sibilante, y eventos a medida que el carácter sibilante se produce o wse forma" en la vocal, la primera mitad de la vocal y la segunda mitad de la vocal. La figura 3 muestra también las fronteras de eventos combinados cuando los datos de los eventos auditivos están compartidos a través de los bloques de datos concurrentes en el tiempo, de los dos canales. Esa segmentación de eventos proporciona cinco regiones de eventos auditivos combinados (las fronteras de los eventos son sometidas con untamente a la operación lógica OR) . La figura 4 muestra un e emplo de una señal de entrada en 4 canales. Los canales 1 y 4 contienen, cada uno, tres eventos auditivos y los canales 2 y 3 contienen cada uno, dos eventos auditivos. Las fronteras de los eventos auditivos combinados, para los bloques de datos concurrentes, en todos los cuatro canales, están localizadas en los números de muestras 512, 1024, 1536, 2560 y 3072 tal como se indica en la parte inferior de la figura 4. En principio, el audio procesado puede ser digital o analógico, y puede no necesitar ser dividido en bloques. Sin embargo, en aplicaciones prácticas, las señales de entrada son probablemente uno o más canales de audio digital representados por muestras en las que muestras consecutivas en cada canal se encuentren divididas en 16 bloques, por ejemplo de 4096 muestras (como en los ejemplos de las figuras 1, 3 y 4, anteriores). En modalidades prácticas presentadas más adelante en la presente, los eventos auditivos se determinan examinando bloques de datos de muestras de audio que representen preferentemente aproximadamente 20 ms de audio o menos, que se cree que es el evento auditivo más corto que puede ser reconocido por el oído humano. De esta manera, en la práctica, los eventos auditivos serán determinados probablemente mediante el examen de bloques, por ejemplo de 512 muestras, lo cual corresponde aproximadamente a 11.6 ms de audio de entrada, con una tasa de muestreo de 44.1 kHz, dentro de bloques más grandes de datos de muestras de audio. Sin embargo, en todo este documento se hace referencia a "bloques" en vez que a "bloques secundarios" cuando se hace referencia al examen de segmentos de datos de audio con el propósito de detectar fronteras de eventos auditivos. Debido a que los datos de muestras de audio se examinan en bloques, en la práctica, las fronteras temporales de los puntos de inicio y paro, de los eventos auditivos, coincidirán cada una, necesariamente, con las fronteras de los bloques . Existe una negociación entre los requerimientos del procesamiento en tiempo real (ya que bloques más grandes requieren de menos gastos de procesamiento) y resolución de la ubicación de eventos (bloques más pequeños proporcionan información más detallada 17 respecto a la ubicación de eventos auditivos) . Otros aspectos de la invención serán apreciados y entendidos a medida que se lea y comprenda la descripción detallada de la invención.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La figura 1 es una forma de onda idealizada de un solo canal de un auditorio que ilustra música orquestal. La figura 2 es un diagrama esquemático conceptual, idealizado, que ilustra el concepto de dividir el audio de ancho de banda total, en bandas secundarias de frecuencia, a fin de identificar eventos auditivos en bandas secundarias. La escala horizontal representa las muestras y la escala vertical representa la frecuencia. La figura 3 es una serie de formas de onda idealizadas, en dos canales de audio, que muestran eventos de audio en cada canal y eventos de audio combinados, a través de los dos canales . La figura 4 es una serie de formas de onda idealizadas en cuatro canales de audio, que muestra eventos de audio en cada canal y eventos de audio combinados a través de los cuatro canales . La figura 5 es un diagrama de flujo que muestra la extracción de ubicaciones de eventos de audio y la extracción opcional de bandas secundarias dominantes a partir 18 de una señal de audio de conformidad con la presente invención. La figura 6 es una representación esquemática conceptual que representa el análisis espectral de acuerdo con la presente invención. Las figuras 7, 8 y 9 son arreglos equivalentes del proceso de la figura 5.
DESCRIPCION DETALLADA DE LAS MODALIDADES PREFERIDAS De conformidad con una modalidad de un aspecto de la presente invención, el análisis de escenas auditivas está compuesto de tres pasos generales de procesamiento, tal como se muestra en una porción de la figura 5. El primer paso 5-1 ("Realizar el Análisis Espectral") toma una señal de audio en el dominio temporal, la divide en bloques y calcula un perfil espectral o contenido espectral para cada uno de los bloques. El análisis espectral transforma la señal de audio al dominio de la frecuencia a corto plazo. Esto puede realizarse usando un banco de filtros, ya sea basado en transformadas o bancos de filtros de paso de banda, y en un espacio de frecuencia ya sea lineal o curvo (tal como la escala Bark o la banda crítica, que se aproximan mejor a las características del oído humano) . En cualquier banco de filtros existe una negociación entre el tiempo y la frecuencia. Una resolución temporal mayor, y por lo tanto intervalos de tiempo más 19 cortos, conduce a una menor resolución en la frecuencia. Una mayor resolución en la frecuencia, y por lo tanto bandas secundarias más estrechas, conduce a intervalos de tiempo más largos . El primer paso, ilustrado conceptualmente en la figura 6, calcula el contenido espectral de segmentos de tiempo sucesivos, de la señal de audio. En una modalidad práctica el tamaño del bloque de ASA es de 512 muestras de la señal de audio de entrada. En el segundo paso 5-2, se determinan las diferencias en el contenido espectral de bloque a bloque ("Realizar mediciones de diferencias en el perfil espectral") . De esta manera, el segundo paso calcula la diferencia en el contenido espectral entre segmentos de tiempo sucesivos, de la señal de audio. Como se analizó anteriormente, un indicador poderoso del inicio o final de un evento auditivo percibido, se cree que es un cambio en el contenido espectral. En el tercer paso 5-3 ("Identificar ubicación de las fronteras de los eventos auditivos") , cuando la diferencia espectral entre un bloque del perfil espectral y el próximo, es mayor que un umbral, la frontera del bloque se toma como una frontera de evento auditivo. De esta manera, el tercer paso fija una frontera de evento auditivo entre segmentos de tiempo sucesivos, cuando la diferencia en el contenido del perfil espectral, entre los segmentos de tiempo sucesivos, excede un umbral, definiendo así eventos 20 auditivos. En esta modalidad, las fronteras de los eventos auditivos definen eventos auditivos que tienen una longitud que es un múltiplo entero de los bloques del perfil espectral, con una longitud mínima de un bloque en el perfil espectral (512 muestras en este ejemplo) . En principio, las fronteras de los eventos no necesitan estar limitadas en esa forma. Como una alternativa a las modalidades prácticas analizadas aquí, el tamaño del bloque de entrada puede variar, por ejemplo, a fin de que sea esencialmente el tamaño de un evento auditivo. Las ubicaciones de las fronteras de los eventos pueden ser almacenadas como una caracterización de información reducida o "rúbrica" y formateadas según se desee, tal como se muestra en el paso 5-4. Un paso de proceso opcional de proceso 5-5 ("Identificar la banda secundaria dominante") usa el análisis espectral del paso 5-1 para identificar una banda secundaria de frecuencia dominante, que pueda ser almacenada también como parte de la rúbrica. La información de la banda secundaria dominante puede ser combinada con la información de las fronteras de los eventos auditivos, a fin de definir una característica de cada evento auditivo . Se pueden disponer en ventana segmentos de audio traslapantes o no traslapantes, y usarlos para calcular los perfiles espectrales del audio de entrada. El traslape da por 21 resultado una resolución más fina en cuanto a la ubicación de eventos auditivos y hace también que sea menos probable perder un evento, tal como un transitorio. Sin embargo, el traslape incrementa también la complejidad computacional . De esta manera puede omitirse el traslape . La figura 6 muestra una representación conceptual de bloques de 512 muestras, no traslapantes, que se encuentran dispuestos en ventana y que son transformados al dominio de la frecuencia mediante la Transformada de Fourier Discreta (DFT) . Cada bloque puede ser dispuesto en ventana y transformado al dominio de la frecuencia, tal como mediante el uso de la DFT, implementada preferentemente como una Transformada de Fourier Rápida (FFT) para imprimir rapidez. Las siguientes variables pueden ser usadas para calcular el perfil espectral del bloque de entrada: N = número de muestras en la señal de entrada M = número de muestras dispuestas en ventana en un bloque, usadas para calcular el perfil espectral P = número de muestras de traslape del cálculo espectral Q = número de ventanas/regiones espectrales calculadas . En general, se pueden usar cualesquiera números enteros para las variables anteriores. Sin embargo, la implementación será más eficiente si M se fija igual a una 22 potencia de 2 , de manera tal que puedan usarse las FFT estándares para los cálculos del perfil espectral. Además, si N, M, y P se seleccionan de forma tal que Q sea un número entero, esto evitará la ejecución de audio deficiente o excesiva al final de las N muetras. En una modalidad práctica del proceso de análisis de escenas auditivas, los parámetros listados se pueden fijar a: M = 512 muestras (o 11.6 milisegundos a 44.1 kHz)
P = 0 muestras (sin traslape) Los valores listados anteriormente fueron determinados experimentalmente y se encontró, en general, que identificaban con suficiente exactitud la ubicación y duración de los eventos auditivos. Sin embargo, se ha encontrado que el ajuste del valor de P en 256 muestras (traslape del 50%) , en vez que cero muestras (sin traslape) es útil en la identificación de algunos eventos difíciles de encontrar. Aunque se pueden usar muchos diferentes tipos de ventanas, para minimizar los artefactos espectrales debido a la disposición en ventana, la ventana usada en los cálculos del perfil espectral es una ventana de Hanning, Kaiser-Bessel de M puntos u otra ventana apropiada, preferentemente no rectangular. Los valores indicados anteriormente y un tipo de ventana de Hanning, fueron seleccionados después de largos análisis experimentales, ya que demostraron excelentes resultados en todo un amplio intervalo de material de audio.
23 Se prefiere la disposición en ventana, no rectangular, para el procesamiento de señales de audio con un contenido de frecuencias predominante bajas. La disposición en ventana rectangular produce artefactos espectrales que pueden causar la detección incorrecta de eventos . A diferencia de ciertas aplicaciones de codificador y descodificador (codee) , en donde un proceso global de traslape/adición, debe proporcionar un nivel constante, esa restricción no aplica aquí y la ventana puede seleccionarse para que tenga características tales como su resolución en el tiempo/frecuencia y el rechazo de bandas de paro. En el paso 5-1 (figura 5) , el espectro de cada bloque de M muestras se puede calcular disponiendo en ventana los datos, mediante una ventana de Hanning, Kaiser-Bessel de M puntos, u otra ventana apropiada, convirtiendo al dominio de la frecuencia usando una Transformada de Fourier Rápida de M puntos, y calculando la magnitud de los coeficientes complejos de la FFT. Los datos resultantes se normalizan de manera tal que la magnitud más grande se fija como la unidad, y el arreglo normalizado de M números se convierte al dominio logarítmico. El arreglo no necesita ser convertido al dominio logarítmico, pero la conversión simplifica el cálculo de la medición de diferencias en el paso 5-2. Además, el dominio logarítmico coincide más estrechamente con la naturaleza del sistema auditivo humano. Los valores en el dominio 24 logarítmico, resultantes, tienen un intervalo desde menos infinito hasta cero. En una modalidad práctica, se puede imponer un límite inferior al intervalo de valores; el límite puede ser fijo, por ejemplo, -60 dB, o puede ser dependiente de la frecuencia, para reflejar la menor audibilidad de sonidos silenciosos a frecuencia bajas y muy altas. (Obsérvese que sería posible reducir el tamaño del arreglo a M/2 en el que la FFT representa frecuencias tanto negativas como positivas) . El paso 5-2 calcula una medida de la diferencia entre los espectros de bloques adyacentes. Para cada bloque, cada uno de los coeficientes espectrales de M (log) del paso 5-1 se resta del coeficiente correspondiente para el bloque precedente y se calcula la magnitud de la diferencia (se ignora el signo) . Estas M diferencias se suman después para obtener un solo número. De aquí que, para un segmento temporal de audio, contiguo, que contenga Q bloques, el resultado es un arreglo de Q números positivos, uno para cada bloque. Mientras mayor es el número, más difiere un bloque en el espectro, del bloque precedente. Esta medida de la diferencia puede expresarse también como una diferencia promedio por coeficiente espectral, dividiendo la medida de diferencia entre el número de coeficientes espectrales usados en la suma (en este caso M coeficientes) . El paso 5-3 identifica las ubicaciones de 25 fronteras de eventos auditivos, aplicando un umbral al arreglo de medidas de diferencia, del paso 5-2, con un valor umbral. Cuando una medida de diferencia excede un umbral, se considera que el cambio en el espectro es suficiente para señalar un nuevo evento y el número de bloques del cambio se registra como una frontera de eventos . Para los valores de y P dados anteriormente y para los valores del dominio logarítmico (en el paso secundario 5-1) expresados en unidades de dB, el umbral puede fijarse igual a 2500 si se compara la FFT de magnitud total (incluyendo la parte en el espejo) , o de 1250 si se compara la mitad de la FFT (como se mencionó anteriormente, la FFT representa las frecuencias tanto negativas como positivas; para la magnitud de la FFT, una es la imagen en el espejo de la otra) . Este valor se seleccionó experimentalmente y proporciona una buena detección de fronteras de eventos auditivos. Este valor del parámetro puede cambiarse para reducir (incrementar el umbral) o incrementar (reducir el umbral) la detección de eventos . Para una señal de audio que consista de Q bloques (de tamaño M muestras) , la salida del paso 5-3 de la figura 5 puede almacenarse y formatearse en el paso 5-4 como un arreglo B(q) de información que representa la ubicación de las fronteras de los eventos auditivos en donde q = 0, 1, ...,Q-1. Para un tamaño de bloque de M = 512 muestras, 26 un traslape de P = O muestras y una tasa de muestreo de señales de 44.1 kHz, la función 2 del análisis de escenas auditivas emite aproximadamente 86 valores por segundo. El arreglo B(q) puede almacenarse como una rúbrica, de manera tal que, en su forma básica, sin la información de frecuencias de las bandas secundarias dominantes, opcional, del paso 5-5, la rúbrica de la señal de audio es un arreglo B(q) que representa una cadena de fronteras de eventos auditivos .
Identificar Bandas Secundarias Dominantes (Opcional) Para cada bloque, un paso adicional, opcional, en el procesamiento de la figura 5 es extraer información de la señal de audio que denote la "banda secundaria" de frecuencia dominante, del bloque (la conversión de los datos en cada bloque, al dominio de la frecuencia, da por resultado información dividida en bandas secundarias de frecuencia) . Esa información para cada evento auditivo proporciona información concerniente al evento auditivo mismo y puede ser útil para proporcionar una representación, de información reducida, detallada y única, de la señal de audio. El empleo de la información de banda secundaria dominante es más apropiado en el caso de determinar eventos auditivos de audio con ancho de banda completo, en vez que casos en los que el audio se descomponga en bandas secundarias y los eventos 27 auditivos sean determinados para cada banda secundaria. La banda secundaria dominante (de la mayor amplitud) puede seleccionarse a partir de una pluralidad de bandas secundarias, 3 o 4, por ejemplo, que se encuentren dentro del intervalo o bandas de frecuencia en donde el oído humano sea lo más sensible. Alternativamente se pueden usar otros criterios para seleccionar las bandas secundarias . El espectro puede ser dividido, por ejemplo, en tres bandas secundarias. Los intervalos de frecuencia útiles para las bandas secundarias son (estas frecuencias particulares no son críticas) :
Banda secundaria 1 de 300 Hz a 550 Hz Banda secundaria 2 de 550 Hz a 2,000 Hz Banda secundaria 3 de 2,000 Hz a 10,000 Hz
Para determinar la banda secundaria dominante, se suma, para cada banda secundaria, el cuadrado del espectro de las magnitudes (o el espectro de magnitudes de potencia) . Esta suma resultante para cada banda secundaria se calcula y se selecciona la más grande . Las bandas secundarias pueden ser ponderadas también antes de seleccionar la mayor. La ponderación puede tomar la forma de dividir la suma de cada banda secundaria, entre el número de valores espectrales en la banda secundaria, o alternativamente puede tomar la forma de una adición o multiplicación, para enfatizar la importancia de una banda con respecto a otra. Esto puede ser 28 útil en donde algunas bandas secundarias tengan más energía, en promedio, que otras bandas secundarias, pero sean perceptivamente menos importantes. Considerando una señal de audio que consista de Q bloques, la salida del procesamiento de bandas secundarias dominantes, es un arreglo de DS (q) de información que representa la banda secundaria dominante en cada bloque (g = 0, 1,..., Q-l). Preferentemente, el arreglo Ds (q) es formateado y se almacena en la rúbrica junto con el arreglo B(q). De esta manera, con la información opcional de las bandas secundarias dominantes, la rúbrica de la señal de audio consiste en dos arreglos B(q) y DS (q) , que representan, respectivamente, una cadena de eventos auditivos y una banda secundaria de frecuencia dominante, dentro de cada bloque, a partir de la cual se puede determinar, si se desea, la banda secundaria de frecuencia dominante, para cada evento auditivo. Así, en un ejemplo idealizado, los dos arreglos podrían tener los siguientes valores (para un caso en el que existan tres posibles bandas secundarias dominantes) .
1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0 (Fronteras de Eventos) 1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1 (Bandas Secundarias Dominantes)
En la mayoría de los casos, la banda secundaria 29 dominante permanece igual dentro de cada evento auditivo, tal como se muestra en este ejemplo, o tiene un valor promedio si no es uniforme para todos los bloques dentro del evento. De está manera se puede determinar una banda secundaria dominante para cada evento auditivo y el arreglo DS (g) puede ser modificado para proporcionar la misma banda secundaria dominante que es asignada a cada bloque dentro de un evento. El proceso de la figura 5 puede ser representado en forma más general mediante los arreglos equivalentes de las figuras 7, 8 y 9. En la figura 7 se aplica una señal de audio en paralelo a una función de "Identificar Eventos Auditivos" o paso 7-1 que divide la señal de audio en eventos auditivos, cada uno de los cuales tiende a ser percibido como separado y distinto, y a una función opcional de "Identificar Características de Eventos Auditivos" o paso 7-2. El proceso de la figura 5 puede ser empleado para dividir la señal de audio en eventos auditivos o puede emplearse algún otro proceso apropiado. La información de los eventos auditivos, que puede ser una identificación de fronteras de eventos auditivos, determinadas mediante la función o paso 7-1 se almacena y formatea, según se desee, mediante una función de "Almacenar y Formatear" o paso 7-3. La función opcional de "Identificar Características" o paso 7-3 recibe también la información de eventos auditivos. La función de "Identificar Características" o paso 7-3 puede caracterizar algunos o 30 todos los eventos auditivos mediante una o más características. Esas características pueden incluir una identificación de la banda secundaria dominante del evento auditivo, tal como se describe con relación al proceso de la figura 5. Las características pueden incluir también uno o más de los descriptores de audio MPEG-7, incluyendo, por ejemplo, una medida de la potencia del evento auditivo, una medida de la amplitud del evento auditivo, una medida de la uniformidad espectral del evento auditivo, y si el evento auditivo es o no substancialmente silencioso. Las características pueden incluir también otras características tales como el hecho de que si el evento auditivo incluye o no un transitorio. Las características para uno o más eventos auditivos son recibidas también por la función de "Almacenar y Formatear" o paso 7-3 y son almacenadas y formateadas junto con la información del evento auditivo. Alternativas al arreglo de la figura 7 se muestran en las figuras 8 y 9. En la figura 8 la señal de entrada de audio no se aplica directamente a la función de "Identificar Características" o paso 8-3, pero recibe información proveniente de la función de "Identificar Eventos Auditivos" o paso 8-1. El arreglo de la figura 5 es un ejemplo específico de ese arreglo. En la figura 9, las funciones o pasos 9-1, 9-2 y 9-3 se arreglan en serie. Los detalles de esta modalidad práctica no son 31 críticos. Se pueden emplear otras formas para calcular el contenido espectral de segmentos de tiempo sucesivos de la señal de audio, para calcular las diferencias entre segmentos de tiempo sucesivos, y para fijar fronteras de eventos auditivos en fronteras respectivas entre segmentos de tiempo sucesivos, cuando la diferencia en el contenido del perfil espectral entre esos segmentos de tiempo sucesivos, exceda un umbral . Deberá comprenderse que la implementación de otras variaciones y modificaciones de la invención y de sus diferentes aspectos, serán evidentes para los experimentados en la técnica, y que la invención no está limitada por estas modalidades específicas descritas. Por lo tanto se contempla que la presente invención cubra cualesquiera y todas modificaciones, variaciones, o equivalentes que caigan dentro del verdadero espíritu y alcance de los principios subyacentes, básicos, descritos y reivindicados aquí. La presente invención y sus diferentes aspectos pueden ser implementados como sus funciones de Software ejecutadas en procesadores de señales digitales, en computadoras digitales de propósito general, programadas, y/o en computadoras digitales de propósito especial . Las interfases entre fuentes de señales analógicas y digitales pueden ser ejecutadas en hardware apropiado y/o como funciones en software y/o firmware.