ES2309924T3

ES2309924T3 - Estraccion y emparejamiento de huellas digitales caracteristicas de las señales de audio.

Info

Publication number: ES2309924T3
Application number: ES06254266T
Authority: ES
Inventors: Sergiy Bilobrov
Original assignee: SEET INTERNET VENTURES Inc
Current assignee: SEET INTERNET VENTURES Inc
Priority date: 2005-09-01
Filing date: 2006-08-15
Publication date: 2008-12-16
Anticipated expiration: 2026-08-15
Also published as: US20070055500A1; EP1760693B1; US9208790B2; US8396705B2; JP5362178B2; EP1760693A1; DE602006002006D1; US20090157391A1; JP2007065659A; ATE403212T1; US7516074B2; US20130197913A1

Abstract

Un método para extraer una huella digital de audio a partir de una trama de audio, comprendiendo el método: filtrar la trama de audio en una pluralidad de bandas de frecuencia para producir una pluralidad correspondiente de señales de audio filtradas; muestrear de nuevo las señales de audio filtradas en una escala de tiempos no lineal; transformar las señales de audio muestreadas de nuevo para cada frecuencia para producir un vector de características para la banda de frecuencia; y calcular la huella digital de audio en base al conjunto de vectores de características.

Description

Extracción y emparejamiento de huellas digitales características de las señales de audio.

Antecedentes Campo de la invención

La presente invención se refiere en general a un procesamiento de la señal de audio, y más particularmente a extraer las huellas digitales características de las señales de audio y a buscar en una base de datos tales huellas digitales.

Antecedentes de la invención

Debido a las variaciones en los formatos de los ficheros, las tecnologías de compresión, y otros métodos de representación de datos, el problema de identificar una señal de datos o compararla con otras aumenta las dificultades técnicas significativas. Por ejemplo, en el caso de ficheros de música digitales sobre un ordenador, hay muchos formatos para codificar y comprimir las canciones. Además las canciones a menudo se muestrean a una forma digital a diferentes tasas de datos y tienen diferentes características (por ejemplo, diferentes formas de onda). El audio analógico grabado también contiene ruido y distorsiones. Estas diferencias significativas de la forma de onda hacen de la comparación directa de tales ficheros una pobre elección para un reconocimiento o comparación eficaz de ficheros o señales. La comparación directa de ficheros tampoco permite la comparación de medios codificados en diferentes formatos (por ejemplo, comparar la misma canción codificada en MP3 y WAV).

Por estas razones, la identificación y seguimiento de medios y otros contenidos, tales como los distribuidos por la Internet, a menudo se hace adjuntando metadatos, marcas de agua, o algunos otros códigos que contienen información de identificación para los medios. Pero esta información adjunta es a menudo incompleta, incorrecta o ambas cosas. Por ejemplo, los metadatos escasamente están completos, y los nombres de los ficheros son incluso más escasamente uniformes. Además, propuestas tales como la marcación de agua son invasivas, alterando el fichero original con datos o códigos añadidos. Otro inconveniente de estas propuestas es que son vulnerables a la manipulación. Incluso si cada fichero de medios incluyese datos de identificación precisos tales como metadatos o marcas de agua, los fichero podrían "desbloquearse" y (como tal piratearse) si la información se elimina satisfactoriamente.

Para evitar estos problemas, se han desarrollado otros métodos basados en el concepto de analizar el contenido de la propia señal de datos. En una clase de métodos, se genera una huella digital de audio para un segmento de audio, donde la huella digital contiene información característica acerca del audio que puede usarse para identificar el audio original. En un ejemplo, una huella digital del audio comprende una secuencia digital que identifica un fragmento de audio. El proceso de generar una huella digital de audio se basa a menudo en las propiedades acústicas y de percepción del audio para el cual se está generando la huella digital. Las huellas digitales de audio típicamente tienen un tamaño mucho más pequeño que el contenido de audio original y de este modo pueden usarse como una herramienta conveniente para identificar, comparar, y buscar contenidos de audio. Las huellas digitales de audio pueden usarse en una amplia diversidad de aplicaciones, incluyendo la monitorización de una difusión, organización del contenido de audio, filtrado del contenido de las redes P2P, y la identificación de canciones u otro contenido de audio. Cuando se aplica a estas áreas diversas, la huella digital de audio típicamente involucra la extracción de la huella digital así como algoritmos de búsqueda en una base de datos de huellas digitales.

La mayor parte de las técnicas de huellas digitales existentes se basan en extraer características de audio de una muestra de audio en el dominio de la frecuencia. El audio en primer lugar se segmenta en tramas, y se calcula un conjunto de características para cada trama. De entre las características de audio que pueden usarse están los coeficientes de la Transformada Rápida de Fourier (FFT), los Coeficientes Cepstrales de Frecuencias Mel (MFCC), planicidad espectral, claridad, coeficientes de la Codificación de Predicción Lineal (LPC), y la frecuencia de modulación. Las características calculadas se ensamblan en un vector de características, que usualmente se transforma usando derivadas, medias o varianzas. El vector de características se mapea dentro de una representación más compacta usando algoritmos tales como el Modelo de Hidden Markov o el Análisis de Componentes Principal, seguido por la cuantificación, para producir la huella digital del audio. Usualmente, una huella digital obtenida procesando una trama de audio única tiene un tamaño relativamente pequeño y puede no ser suficientemente única para identificar la secuencia de audio original con el grado de fiabilidad deseado. Para mejorar la unicidad de la huella digital y de este modo incrementar la probabilidad de un reconocimiento correcto (y disminuir la tasa de falsos positivos), pueden combinarse sub-huellas digitales pequeñas en bloques más grandes que representan aproximadamente de tres a cinco segundos de
audio.

Una técnica de huellas digitales, desarrollada por Philips, usa una Transformada de Fourier de corto tiempo (STFT) para extraer una sub-huella digital de 32 bits para cada intervalo de 11,8 milisegundos de la señal de audio. La señal de audio en primer lugar se segmenta en tramas que se solapan de 0,37 segundos de duración, y las tramas se ponderan por una ventana Hamming con un factor de solapamiento de 31/32 y se transforman al dominio de la frecuencia usando una FFT. Los datos obtenidos en el dominio de la frecuencia pueden representarse por un espectrograma (por ejemplo, un diagrama tiempo-frecuencia) con el tiempo sobre el eje horizontal y la frecuencia sobre el eje vertical. El espectro de cada trama (columna del espectrograma) se segmenta en 33 bandas de frecuencia que no se solapan en el intervalo de 300 Hz hasta 2.000 Hz, con un espaciamiento logarítmico. Se calcula la energía espectral en cada banda, y se genera una sub-firma digital de 32 bits usando el signo de las diferencias de energía en las bandas consecutivas a lo largo de los ejes del tiempo y de la frecuencia. Si la diferencia de energía entre dos bandas en una trama es mayor que la diferencia de energía entre las mismas bandas en la trama anterior, el algoritmo saca un "1" para el bit correspondiente en la sub-firma digital; en caso contrario, saca "0" para el bit correspondiente. Una huella digital se construye combinando 256 sub-firmas subsiguientes de 32 bits en un bloque de firma digital único, que corresponde a tres segundos de audio.

Aunque está diseñado para que sea robusto frente a tipos comunes de procesamientos de audio, ruido y distorsiones, este algoritmo no es muy robusto frente a grandes cambios de velocidad debido al escalamiento del espectro resultante. Por consiguiente, se propuso un algoritmo modificado en el cual las huellas digitales de audio se extraen en el dominio de Fourier-Mellin de escala invariable. El algoritmo modificado incluye etapas adicionales realizadas después de transformar las tramas de audio en el dominio de la frecuencia. Estas etapas adicionales incluyen un mapeo logarítmico del espectro seguido por una segunda transformada de Fourier. Por lo tanto, para cada trama, se aplica una primera FFT, el resultado obtenido es un espectro de potencia con mapeo logarítmico, y se aplica una segunda FFT. Esto puede describirse como la transformada de Fourier de la transformada de Fourier re-muestreada de forma logarítmica, y es similar a los métodos MFCC bien conocidos ampliamente usados en el reconocimiento de voz. La principal diferencia es que la transformada de Fourier-Mellin usa el mapeo logarítmico de todo el espectro, mientras que la MFCC se basa en la escala de frecuencias Mel (lineal hasta 1kHz y con un espaciamiento logarítmico para frecuencias mayores imitando las propiedades del sistema humano de audición).

El algoritmo de Philips cae dentro de la categoría de los denominados algoritmos de análisis de corta duración porque las sub-huellas digitales se calculan usando coeficientes espectrales de sólo dos tramas consecutivas. Hay otros algoritmos que extraen las características espectrales usando múltiples FFT de tramas solapadas en el espectrograma. Algunos de estos métodos basados en la evaluación de múltiples tramas en el tiempo se conocen como algoritmos de análisis del espectrograma de larga duración.

Un algoritmo de análisis de larga duración, descrito por ejemplo en Sukittanon, "Modulation-Scale Análisis for Content Identification", de IEEE Transations on Signal Processing, volumen 52, Nº 10 (Octubre de 2004), se basa en la estimación de las frecuencias de modulación. En este algoritmo, el audio se segmenta y se calcula un espectrograma para el mismo. A continuación se calcula el espectro de modulación para cada banda del espectrograma (por ejemplo, un intervalo de frecuencias en el espectrograma) aplicando una segunda transformada a lo largo de la fila temporal (es decir, el eje horizontal) del espectrograma. Esto es diferente que la propuesta de Philips modificada, en la que la se aplica segunda FFT a lo largo de la columna de frecuencia del espectrograma (por ejemplo, el eje vertical). En esta propuesta, el espectrograma se segmenta en N bandas de frecuencia, y se calcula el mismo número N de transformadas de tren de ondas continuo (CWT), una por cada banda.

Aunque los desarrolladores de este algoritmo reivindican unos resultados superiores comparado con el algoritmo de Philips, los algoritmos existentes exhiben aún varias deficiencias. Por ejemplo, los algoritmos pueden no ser suficientemente robustos para identificar voz y música distorsionadas de forma fiable, especialmente cuando el audio está comprimido usado un codec de audio CELP (por ejemplo, asociado con el audio de un teléfono celular, tal como el GSM). Además, estos algoritmos son generalmente sensibles al ruido y las distorsiones analógicas, tales como las asociadas con una grabación con un micrófono. Incluso si los algoritmos pueden identificar audio en presencia de un tipo único de distorsión, no son capaces de manejar una combinación de distorsiones múltiples, que es más común y más próxima al escenario del mundo real (por ejemplo, con un teléfono celular, el audio grabado desde un micrófono en una habitación ruidosa con una ligera reverberación seguido por la compresión GSM).

Por lo tanto, cuando se aplican a aplicaciones prácticas, los esquemas de huellas digitales existentes tienen tasas de error inaceptablemente altas (por ejemplo, falsos positivos y falsos negativos), producen huellas digitales que son demasiados largas para que sean comercialmente viables, y/o son demasiado lentas. Por consiguiente, existe una necesidad de superar las limitaciones que las técnicas actuales de reconocimiento de audio han fallado en su resolución.

Sumario de la invención

Por consiguiente, la presente invención posibilita una huella digital característica a extraer de una señal de audio en base al contenido de esa señal. Esta huella digital puede emparejarse frente a un conjunto de huellas digitales de referencia (por ejemplo, en una base de datos) para determinar la identidad de la señal o la similitud entre dos señales. Debido a la naturaleza del algoritmo de extracción de huellas digitales, no sufre de muchos de los problemas que afligen a las soluciones existentes, y comparado con tales soluciones es rápida, eficaz, altamente precisa, escalable y robusta. La invención se define por las reivindicaciones independientes 1, 21 y 23.

En una realización de un método para generar una huella digital de audio, se muestrea una señal de audio y se calcula la información del espectrograma de la señal. El espectrograma se divide en una pluralidad de bandas de frecuencias. Las secuencias de muestras en cada una de las bandas se muestrean de nuevo de forma logarítmica, produciendo un mapeo logarítmico de las muestras de las bandas. A continuación se aplica una segunda FFT a las muestras de las bandas con mapeo logarítmico para obtener un vector de características para cada banda. A continuación se calcula la huella digital de audio en base a los vectores de características. La huella digital del audio puede almacenarse en un medio legible por un ordenador o puede fijarse momentáneamente como una señal que se puede transmitir.

A diferencia de los esquemas de huellas digitales de audio anteriores, las realizaciones de la invención extraen un vector de características de larga duración a partir de una serie de muestras de bandas de frecuencia espaciadas en el tiempo de forma no lineal (por ejemplo, de forma logarítmica). Aunque los métodos anteriores han usado mapeo logarítmico a lo largo del eje de la frecuencia del espectrograma (por ejemplo la transformada de Fourier-Mellin y la escala de Bark), han usado una escala lineal. Por el contrario, en las realizaciones de la invención, el uso de una escala de tiempos no lineal (por ejemplo logarítmica) para el procesamiento de las muestras de las sub-bandas pueden mejorar significativamente la solidez de la extracción de la huella digital y los algoritmos de emparejamiento.

Por ejemplo, el mapeo logarítmico en el tiempo de las muestras de las sub-bandas hace el algoritmo menos sensible a las variaciones en la velocidad de reproducción del audio y la compresión y dilatación en el tiempo. Esto es porque el re-muestreo logarítmico produce que cualquier escalamiento en la velocidad de reproducción sea un desplazamiento lineal en el espectrograma de mapeo logarítmico, y el desplazamiento lineal se elimina por la FFT. De este modo, la huella digital de una señal de audio debería tener pequeñas variaciones o ninguna variación respecto a las variaciones en la velocidad de reproducción o debidas a la compresión o dilatación en el tiempo. El uso de la escala de tiempo logarítmica también mejora la resolución de baja frecuencia de la segunda transformada FFT de tiempo-frecuencia. Esto permite el uso de una simple FFT en lugar de las complejas transformadas de trenes de ondas usadas para el análisis del espectro de modulación del espectrograma, haciendo la implementación más eficiente y más rápida comparada con los métodos anteriores.

Además, debido al re-escalamiento no lineal (por ejemplo, logarítmico) en el tiempo, la trama de salida de las bandas contiene, para la mayor parte, muestras que representan el comienzo de la secuencia de audio analizada. La huella digital resultante se genera de este modo usando muestras localizadas principalmente al comienzo de la secuencia. Como una parte relativamente pequeña de la secuencia de audio produce la mayor parte de la contribución en la huella digital resultante, la huella digital puede usarse para emparejar secuencias de audio más cortas. En una implementación, por ejemplo, una huella digital generada a partir de una trama de audio original de cinco segundos de audio
pueden emparejarse de forma fiable con muestras tomadas de fragmentos de audio que son dos veces más cortas.

Las realizaciones de las técnicas de huellas digitales son también tolerantes al ruido y las distorsiones de señal. Una implementación puede detectar señales como la voz en presencia del 100% de ruido blanco (es decir, una proporción de señal a ruido de 0 dB). Las técnicas son también tolerantes al filtrado, compresión, ecualización de frecuencia, y distorsiones de fase. Por ejemplo, una realización de la invención es capaz de reconocer de forma fiable audio que tiene una variación de \pm5% en el tono (bajo condiciones de ritmo conservado) y variaciones de \pm20% en la temporización (bajo condiciones de tono conservado).

En otra realización, cuando se forma la trama de la huella digital generada usando un número especificado de bandas de frecuencia, se usa un modelo acústico para marcar bandas de frecuencia insignificantes. Las bandas insignificantes pueden incluir bandas que no añaden sustancialmente ningún valor perceptible para distinguir la muestra de audio. El procesamiento de sólo las bandas relevantes aumenta la proporción de señal a ruido y mejora la robustez del proceso global de emparejamiento de huellas digitales. Además, excluir las bandas de frecuencia irrelevantes puede mejorar enormemente la eficacia del reconocimiento del contenido de audio de banda limitada, por ejemplo en el caso de voz codificada a una tasa de bit muy baja o grabaciones analógicas con una velocidad de cinta baja.

Las realizaciones de la invención también proporcionan una rápida indexación y búsqueda eficiente de huellas digitales en una base de datos de gran escala. Por ejemplo, puede calcularse un índice para cada huella digital de audio a partir de una porción de los contenidos de la huella digital. En una realización, se usa un conjunto de bits de una huella digital como índice de la huella digital, donde los bits corresponden a los coeficientes más estables de baja frecuencia debido al re-muestreo no lineal (por ejemplo, logarítmico). Para emparejar una huella digital de prueba con un conjunto de huellas digitales en una base de datos, la huella digital de prueba puede emparejarse frente a los índices para obtener un grupo de huellas digitales candidatas. La huella digital de prueba se emparejan a continuación frente a las huellas digitales candidatas, eliminando por lo tanto la necesidad de emparejar la huella digital de prueba frente a cada huella digital en la base de datos.

En otra realización, se usa un algoritmo de detección de borde para determinar los bordes exactos de una trama o fragmento de audio analizado. En algunas aplicaciones, especialmente cuando las muestras de audio difieren sólo durante cortos periodos de tiempo de todas las muestras, es importante conocer la localización del borde de la trama de audio analizada dentro de la muestra de audio. El algoritmo de detección del borde puede usar técnicas de regresión lineal para identificar el borde de una trama de audio.

Las aplicaciones de las realizaciones de la tecnología de huellas digitales son numerosas, e incluyen la identificación en tiempo real de flujos de audio y otros contenidos de audio (por ejemplo, medios de transmisión de audio en vivo, radio, anuncios, difusiones de Internet, canciones en CD, ficheros MP3, o cualquier otro tipo de contenido de audio). Las realizaciones de la invención posibilitan de este modo la audición eficaz, de contenidos de medios en tiempo real y otros reportes.

Breve descripción de los dibujos

La Fig. 1 es un dibujo esquemático de un proceso para extraer y usar una huella digital de una muestra de audio, de acuerdo con una realización de la invención.

La Fig. 2 es un diagrama esquemático de un sistema de extracción de huellas digitales, de acuerdo con una realización de la invención.

La Fig. 3 es un diagrama de flujo de un algoritmo de emparejamiento, de acuerdo con una realización de la invención.

La Fig. 4 ilustra un algoritmo de detección de borde, de acuerdo con una realización de la invención.

\vskip1.000000\baselineskip

Descripción detallada de las realizaciones preferidas Visión General

Las realizaciones de la invención posibilitan la extracción de información característica (por ejemplo, una huella digital de audio) a partir de una muestra de audio así como el emparejamiento o identificación del audio usando la información característica extraída. Como se ilustra en la Fig. 1, la trama de audio 105 tomada de una muestra de audio 100 se introduce en el algoritmo de extracción de huellas digitales 110. La muestra de audio 100 puede proporcionarse por cualquiera de una amplia variedad de fuentes. Usando la secuencia de tramas de audio 105, el algoritmo de extracción de huellas digitales 110 genera una o más huellas digitales de audio 115 que son características de la secuencia. Sirviendo como un identificador de distinción, la huella digital de audio 115 proporciona información relativa a la identificación u otras características de la secuencia de tramas 105 de la muestra de audio 100. En particular, una o más huellas digitales 115 para la muestra de audio 100 pueden permitir identificar la muestra de audio 100 de forma unívoca. Las realizaciones del algoritmo de extracción de huellas digitales 110 se describen con más detalle más adelante.

Una vez generada, la huella digital extraída 115 puede usarse a continuación en un proceso adicional o almacenarse sobre un medio para su uso posterior. Por ejemplo, la huella digital 115 puede usarse por un algoritmo de emparejamiento de huellas digitales 120, que compara las huellas digitales 115 con entradas en una base de datos de huellas digitales 125 (por ejemplo, una colección de huellas digitales de audio de fuentes conocidas) para determinar la identificación de la muestra de audio 100. También se describen más adelante diversos métodos para usar las huellas digitales.

La muestra de audio 100 puede originarse a partir de una amplia diversidad de fuentes, dependiendo de la aplicación del sistema de generación de huellas digitales. En una realización, la muestra de audio 100 se muestrea desde una difusión recibida de un difusor de medios y se digitaliza. Como alternativa, un difusor de medios puede transmitir el audio en forma digital obviándose la necesidad de digitalizarlo. Los tipos de difusores de medios incluyen, pero no se limitan a, transmisores de radio, transmisores de satélite, y operadores de cable. El sistema de generación de huellas digitales puede usarse de este modo para auditar a estos difusores para determinar qué audio se difunde en qué momentos. Esto posibilita un sistema automatizado para asegurar el cumplimiento con las restricciones de difusión, acuerdos de licencias, y similares. Como el algoritmo de extracción de huellas digitales 110 puede operar sin tener que conocer el comienzo y final precisos de las señales de difusión, puede funcionar sin la cooperación o el conocimiento del difusor de medios para asegurar resultados independientes e imparciales.

En otras realizaciones, un servidor de medios recupera los ficheros de audio desde una librería de medios y transmite una difusión digital sobre una red (por ejemplo, la Internet) para usar por el algoritmo de extracción de huellas digitales 110. Una difusión de radio de Internet en directo es un ejemplo de este tipo de arquitectura, donde medios, anuncios, y otros contenidos se suministran a un individuo o grupo de usuarios. En tal realización, el algoritmo de extracción de huellas digitales 110 y el algoritmo de emparejamiento 120 usualmente no tienen información respecto a los tiempos de comienzo o terminación de los elementos de medios individuales dentro del contenido de la difusión en directo de la muestra de audio 100; sin embargo, estos algoritmos 110 y 120 no necesitan esta información para identificar el contenido de la difusión en directo.

En otra realización, el algoritmo de extracción de huellas digitales 110 recibe la muestra de audio 100, o una serie de tramas 105 del mismo, desde un ordenador cliente que tiene acceso a un dispositivo de almacenamiento que contiene ficheros de audio. El ordenador cliente recupera un fichero de audio individual desde el almacenamiento y envía el fichero al algoritmo de extracción de huellas digitales 110 para generar una o más huellas digitales 115 a partir del fichero. Alternativamente, el ordenador cliente puede recuperar un lote de ficheros desde un almacenamiento y enviarlos de forma secuencial al extractor de huellas digitales 110 para generar un conjunto de huellas digitales para cada fichero. (Como se usa en este documento se entiende por "conjunto" a incluir cualquier número de elementos en un agrupamiento, incluyendo un único elemento). El algoritmo de extracción de huellas digitales 110 puede realizarse por el ordenador cliente o por un servidor remoto acoplado con el ordenador cliente sobre la red.

Algoritmo

En la Fig. 2 se ilustra una realización de un sistema de extracción de huellas digitales 200 que implementa el algoritmo de extracción de huellas digitales 110 mostrado en la Fig. 1. El sistema de extracción de huellas digitales 200 comprende un banco de filtrado de análisis 205, que está acoplado a una pluralidad de canales de procesamiento (incluyendo cada uno, uno o más módulos de procesamiento, etiquetados en la figura como los elementos 210 y 215), que están a su vez acoplados a un codificador diferencial 225 para producir una huella digital de audio 115. El sistema de extracción de huellas digitales 200 está configurado para recibir una trama de audio 105, para la cual se va a generar la huella digital de audio.

Descrito con más detalle más adelante, para cada trama de audio de la entrada 105 el banco de filtrado de análisis 205 generalmente calcula la información del espectro de potencia para una señal recibida a través de un intervalo de frecuencias. En la realización mostrada, cada uno de los canales de procesamiento corresponde a una banda de frecuencias dentro de ese intervalo de frecuencias, cuyas bandas pueden solaparse. Por consiguiente, los canales dividen el procesamiento realizado por el sistema de extracción de huellas digitales 200 de modo que cada canal realiza el procesamiento para una banda correspondiente. En otra realización, el procesamiento para la pluralidad de bandas puede realizarse en un canal único por un módulo único, o puede dividirse el procesamiento en cualquier otra configuración como sea apropiado para la aplicación y las limitaciones técnicas del sistema.

El banco de filtrado de análisis 205 recibe una trama de audio 105 (tal como la trama 105 de la muestra de audio 100 ilustrada en la Fig. 1). El banco de filtrado de análisis 205 convierte la trama de audio 105 del dominio del tiempo en el dominio de la frecuencia para calcular la información del espectro de potencia para la trama 105 sobre un intervalo de frecuencias. En una realización, el espectro de potencia para la señal en un intervalo de aproximadamente 250 a 2.250 Hz se divide en varias bandas de frecuencia (por ejemplo, M bandas, donde M = 13). Las bandas pueden tener una distribución linear o logarítmica respecto de la frecuencia (o cualquier otra escala) y también pueden solaparse. La salida del banco de filtrado contiene una medida de la energía de la señal para cada una de la pluralidad de bandas. En una realización, se toma la medida de la energía media usando la raíz cúbica de la energía espectral media en la banda.

Son posibles diversas implementaciones del banco de filtrado de análisis 205, dependiendo de los requisitos software y hardware y las limitaciones del sistema. En una realización, el banco de filtrado de análisis comprende varios filtros paso banda que aíslan la señal de la trama de audio 105 para cada una de las bandas de frecuencia seguido por una estimación de la energía y un sub-muestreo. En otra realización el banco de filtrado de análisis 205 se implementa usando una Transformada Rápida de Fourier de corta duración (FFT). Por ejemplo, el audio 100 muestreado a 8 kHz se segmenta en tramas de 64 ms 105 (es decir 512 muestras). A continuación se calcula el espectro de potencia de cada uno de los segmentos solapado al 50% consistente en dos tramas de audio 105 (es decir, 1024 muestras) poniéndolos en una ventana Han y realizando una FFT, seguida por un filtrado de banda usando M ventanas triangulares solapadas espaciadas de forma uniforme o de forma logarítmica.

En una realización, el espectro de potencia se promedia dentro de las bandas de frecuencia y sólo se toman los cambios de energía en la secuencia de tramas para el cálculo de los vectores de características para algunas realizaciones (descritas más adelante). Debido al uso de los cambios de energía en lugar de la magnitud absoluta y a los bajos requisitos para las características espectrales del banco de filtrado 205, puede usarse una diversidad de transformadas del dominio tiempo-frecuencia en lugar de la FFT descrita anteriormente. Por ejemplo, puede usarse una Transformada Discreta Modificada del Coseno (MDCT). Una ventaja de la MDCT es su baja complejidad, ya que puede calcularse usando sólo un n/4 puntos de una FFT de y algunas de las pre- y post-rotaciones de las muestras. Por consiguiente, se espera que el banco de filtrado 205 implementado con MDCT funcione mejor que uno implementado con una FFT, por ejemplo, capaz de calcular las transformadas dos veces más rápido.

En otra realización, el banco de filtrado de análisis 205 se implementa usando el banco de filtrado híbrido de MP3, que incluye un filtro de poli-fase en cascada y una MDCT seguida de una cancelación anti-solapamiento. El banco de filtrado de MP3 produce 576 coeficientes espectrales para cada trama de audio 105 consistente de 576 muestras. Para un audio muestreado a 8 kHz, la tasa de la trama resultante es de 13,8 tramas por segundo comparada con 15,626 tramas por segundo del banco de filtrado de FFT de 1024 puntos descrito anteriormente. La diferencia de tasas de tramas se pone de manifiesto durante el análisis de tiempo-frecuencia cuando se re-muestrean los datos, como se trata más adelante. El banco de filtrado de análisis 205 puede implementarse también usando un Filtro de Espejo en Cuadratura (QMF). La primera etapa del banco de filtrado híbrido de MP3 emplea un filtro QMF con 32 bandas de igual anchura. Por consiguiente, el intervalo de frecuencias de 250 a 2.250 Hz de una señal de audio de 11.025 Hz puede dividirse entonces en 13 bandas.

Una ventaja del banco de filtrado de MP3 es su portabilidad. Hay implementaciones altamente optimizadas de bancos de filtrado de MP3 para diferentes CPU. Por consiguiente, la rutina de generación de huellas digitales puede integrarse fácilmente con el codificador de MP3, que puede obtener coeficientes espectrales desde un banco de filtrado MP3 sin procesamiento adicional. Por consiguiente, la rutina de generación de huellas digitales puede integrarse fácilmente con el decodificador de MP3, que puede obtener datos espectrales directamente desde un flujo de bits MP3 sin su decodificación completa. También es posible la integración con otros codificadores-decodificadores de audio.

Una vez determinado, las muestras de las sub-bandas se almacenan y se proporcionan a uno o más de los re-muestreadores no lineales 210. En una realización, cada re-muestreador no lineal 210 corresponde a una de las M bandas de frecuencias. De este modo, cada re-muestreador no lineal 210 recibe una secuencia de S muestras para una banda de frecuencias particular espaciada linealmente en el tiempo (por ejemplo, cuando S se selecciona desde 64 hasta 80, dependiendo de la implementación del banco de filtrado). En una realización, cada re-muestreador 210 realiza un mapeo logarítmico de las muestras de las sub-bandas en una de las M bandas, produciendo una serie de T muestras (donde, por ejemplo, T = 64) que están espaciadas de forma logarítmica en el tiempo. Cuando se realiza esto para cada una de las M bandas, los datos pueden almacenarse en una matriz de [M x T], que corresponde a un espectrograma muestreado que tiene un eje de tiempos (horizontal) con escala logarítmica. Sin embargo, el muestreo logarítmico es sólo una posibilidad, y en otros tipos de realizaciones pueden realizarse otros tipos de muestreo no lineal, tal como un re-muestreo exponencial.

Las muestras de las sub-bandas se proporcionan a continuación a uno o más módulos FFT 215, que realizan una transformada sobre las muestras con mapeo no lineal para cada banda. En una realización, se realiza una FFT de T puntos sobre muestras de banda con mapeo logarítmico para cada banda (por ejemplo, cada fila de la matriz [M x T]. Las series resultantes de coeficientes de las FFT se llaman un vector de características. En una realización, el vector de características para cada banda comprende cada coeficiente de la FFT calculado para esa banda en un orden de frecuencias ascendente. Por consiguiente, cada vector de características incluiría N coeficientes (donde por ejemplo, N = T/2 = 32).

Aunque los módulos de FFT 215 se describen realizando una FFT sobre muestras de sub-bandas, en otras realizaciones los módulos de FFT 215 se recolocan procesando módulos de que realizan transformadas de tiempo-frecuencia distintas. Por ejemplo, en lugar de la FFT, pueden usarse la Transformada Discreta del Coseno (DCT) o la Transformada Discreta de Hartley (DHT) para transformar las muestras de las sub-bandas. En particular, usar la DHT tiende a producir una baja tasa de falsos positivos y valores de índices no correlacionados, lo cual ayuda a realizar un algoritmo de búsqueda más rápido. En otra realización, se usa la codificación de predicción lineal como segunda transformada en lugar de los módulos de FFT 215.

A continuación se proporcionan los vectores de características al codificador diferencial 225, que genera una huella digital 115 para la muestra de audio. En una realización, el codificador diferencial 225 resta los vectores de características correspondientes a cada par de bandas adyacentes. Si hay M bandas, hay M-1 pares de bandas adyacentes. Restando dos vectores de características da un vector de N valores diferencia. Para cada uno de estos valores diferencia, el codificador diferencial 225 selecciona un 1 si la diferencia es mayor o igual que 0, y el codificador diferencial 225 selecciona un 0 si la diferencia es menor que 0. Para cada grupo de cuatro bits en la secuencia, el codificador asigna un valor de bit de acuerdo con una tabla de códigos. Los mejores valores de la tabla de códigos se calculan durante la puesta a punto y entrenamiento del algoritmo de generación de huellas digitales. Repitiendo este proceso para los vectores de características de cada uno de los pares consecutivos de bandas resulta una matriz de bits de [(M -1) x N/4]. Esta matriz, que puede representarse como una secuencia de bits lineal, se usa como la huella digital de audio 115. En el ejemplo donde M = 13 y N = 8, la huella digital 115 tiene 12 octetos de bits de información.

En una realización, el Análisis de Componentes Principal (PCA) se usa para des-correlacionar y reducir el tamaño del vector de características obtenido antes de su cuantificación. Pueden usarse otras técnicas de des-correlación, tales como la Transformada Digital del Coseno, además o como alternativa para eliminar la redundancia y compactar el vector de características.

En una realización, el sistema de extracción de huellas digitales 200 genera una pluralidad de huellas digitales para una serie altamente solapada de muestras de audio en una señal de audio particular. En un ejemplo, cada serie de tramas 105 procesada por el sistema 200 contiene tres segundos de la señal de audio y comienza 64 milisegundos después de una serie de que comience una serie anterior. De este modo, se genera una huella digital para varias porciones de tres segundos de la señal de audio que comienza cada 64 milisegundos. Para implementar tal esquema, el sistema de extracción de huellas digitales 200 puede incluir almacenamientos de memoria antes y después del banco de filtrado de análisis 205, donde los almacenamientos se actualizan con los próximos 64 milisegundos de la señal de audio cuando se recibe la siguiente trama de audio 105.

Modelo Acústico

En aplicaciones diversas del sistema de generación de huellas digitales, ciertas bandas de frecuencia pueden ser insignificantes porque son imperceptibles, debido a que el proceso de codificación para la muestra de audio eliminó las bandas, o por alguna otra razón. Por lo tanto, en una realización se usa un modelo acústico 235 para identificar y marcar las bandas de frecuencia insignificantes para una huella digital particular. Modelos acústicos tales como el modelo psicoacústico, son bien conocidos en diversos campos del procesamiento de audio. Puede calcularse un conjunto de parámetros del modelo para el modelo acústico 235 para muestras de referencia de alta calidad durante la creación de una huella digital 115 y almacenarse en la base de datos 125. Las bandas insignificantes en la huella digital 115 pueden marcarse poniendo a cero sus valores correspondientes (es decir, bits). Esto efectivamente causa que las bandas se ignoren en cualquier proceso de emparejamiento posterior, ya que en el proceso de emparejamiento de huellas digitales con grabaciones de la base de datos, sólo se usan los pares de bandas correspondientes que tienen un valor distinto de cero usados para distinguir la huella digital 115. Las bandas enmascaradas (es decir, las que tienen valor cero) pueden excluirse también totalmente de la comparación.

En una realización, el modelo acústico es un modelo psicoacústico para el sistema de audición humano. Esto puede ser útil cuando el propósito del sistema de huellas digitales es la identificación del sistema de audición humano del audio objetivo. Tal audio puede comprimirse por uno o más codificadores perceptuales eliminando la información de audio irrelevante. El uso del modelo humano psicoacústico permite identificar y excluir tales bandas irrelevantes de las huellas digitales.

Pero el modelo psicoacústico es sólo un tipo de modelo acústico que se adecua para el audio codificado perceptual humano. Otro modelo acústico es un modelo que imita las propiedades de un dispositivo de grabación específico. Cada banda para tal modelo acústico del dispositivo de grabación puede tener un factor de ponderación asignado al mismo dependiendo de su importancia. Aún otro modelo acústico imita las propiedades de los entornos específicos, tales como el ruido de fondo que se encuentra en un vehículo o en una habitación. En tal realización, cada banda para el modelo acústico puede tener un factor de ponderación asignado al mismo dependiendo de su importancia en el entorno para el cual se diseñó el sistema.

En una realización, los parámetros del modelo acústico 235 y el banco de filtrado 205 dependen del tipo y las propiedades de la señal de audio analizada 100. Diferentes perfiles comprenden un conjunto de factores de peso de las sub-bandas y un número de bandas del banco de filtrado y se usan sus distribuciones de frecuencia para obtener un mejor emparejamiento de las propiedades de la señal de audio objetivo. Para el audio tal como la voz, por ejemplo, la potencia de la señal está principalmente concentrada en las bandas de baja frecuencia, mientras que la música puede contener componentes de frecuencias relevantes más altas dependiendo del género. En una realización, los parámetros del modelo acústico se calculan a partir de la señal de audio de referencia y se almacenan en una base de datos de contenidos junto con las huellas generadas. En otra realización, los parámetros del modelo acústico se calculan dinámicamente en base a las propiedades de la señal de audio analizada durante el proceso de emparejamiento.

Por consiguiente, las posibles aplicaciones del modelo acústico 235 incluyen la puesta a punto de los parámetros de reconocimiento de audio para un entorno específico y/ o dispositivo de grabación y propiedades del algoritmo de codificación. Por ejemplo, conociendo las propiedades acústicas del camino de audio del teléfono celular (características del micrófono, algoritmos de procesamiento de audio y compresión y similares) permite el desarrollo de un modelo acústico que imita estas propiedades. Usar este modelo durante la comparación de la huella digital puede aumentar significativamente la solidez del proceso de emparejamiento de las huellas digitales generadas.

\vskip1.000000\baselineskip

Indexación y Emparejamiento de las Huellas Digitales

En una realización, el generador de indexación de huellas digitales 230 genera un índice para cada huella digital 115. Las huellas digitales 115 se almacenan a continuación en una base de datos de huellas digitales 125, permitiendo una búsqueda y un emparejamiento eficaz de los contenidos de la base de datos de huellas digitales 125. En una realización, el índice para una huella digital 115 comprende una porción de la huella digital 115. Por consiguiente, las huellas digitales 115 en la base de datos de huellas digitales 125 están indexadas de acuerdo con la información de identificación útil acerca de las mismas.

En una realización descrita anteriormente en la que cada huella digital 115 comprende una matriz de
[(M - 1) x N/4] bits, el generador de indexación 230 usa los bits de las columnas de más a la izquierda como índice. En el ejemplo donde cada huella digital 115 es una matriz de 12 x 8 bits, el índice para la huella digital 115 puede ser las dos columnas de bits de más a la izquierda (24 bits en total). De este modo, los bits usados como índice para cada huella digital 115 son un subconjunto de la huella digital 115 que está basado en los coeficientes espectrales de baja frecuencia de los vectores de características usados para calcular la huella digital 115. Estos bits corresponden de este modo a las componentes de baja frecuencia del espectro de las bandas de espectrograma con mapeo logarítmico, que son estables e insensibles para ruido moderado y distorsiones. Por lo tanto, con un alto nivel de probabilidad, huellas digitales similares tendrían el mismo valor numérico del índice. De este modo, el índice puede usarse para etiquetar y agrupar huellas digitales similares y probablemente coincidentes en la base de datos.

La Fig. 3 ilustra un método de emparejar una huella digital de prueba con la base de datos de huellas digitales 125 usando los índices descritos anteriormente, de acuerdo con una realización de la invención. Para encontrar una coincidencia en la base de datos de huellas digitales 125 para una huella digital de prueba, el algoritmo de búsqueda comienza calculando un valor de índice 310 para la huella digital de prueba como se ha descrito anteriormente. Usando este valor de índice, se obtiene un grupo de huellas digitales candidatas 320, por ejemplo, donde el grupo incluye todas las huellas digitales en la base de datos 125 que tiene el mismo valor índice. Como se ha explicado anteriormente, es altamente probable que cualesquiera coincidencias en la base de datos 125 estén en este grupo de huellas digitales candidatas debido al modo en que se calcula el valor índice.

Para comprobar cualesquiera coincidencias en el grupo de huellas digitales candidatas, se calcula una tasa de errores de bits (BER) entre la huella digital de prueba y cada huella digital candidata 330. La BER entre dos huellas digitales es el porcentaje de sus bits correspondientes que no coinciden. Para huellas digitales no relacionadas completamente aleatorias, se esperaría una BER del 50%. En una realización, dos huellas digitales son coincidentes cuando la BER es menor de aproximadamente el 35%; sin embargo, pueden usarse otros límites numéricos dependiendo de la tolerancia deseada para los falsos positivos y los falsos negativos. Además, pueden usarse otros cálculos o criterios distintos que la BER para comparar dos huellas digitales. Por ejemplo, puede usarse también la medida inversa de la BER, la tasa de coincidencia. Además, ciertos bits pueden ponderarse de forma más alta que otros en la comparación de dos huellas digitales.

Si en 340 no hay coincidencias dentro del criterio de emparejamiento predeterminado, o si en 350 no hay más índices a modificar, el algoritmo de emparejamiento ha fallado para encontrar cualesquiera coincidencias de la huella digital de prueba en la base de datos 125. El sistema puede entonces continuar buscando (por ejemplo, usando criterios menos restrictivos para obtener huellas digitales candidatas) o puede parar. Si en 340 hay una o más huellas digitales coincidentes, se devuelve una lista de huellas digitales coincidentes 360.

En una realización, el sistema puede repetir la búsqueda como se describió anteriormente después de modificar 370 el índice de la huella digital calculada para obtener un conjunto diferente de huellas digitales candidatas a partir de las cuales buscar una coincidencia. Para modificar el índice de la huella digital calculada 370, pueden voltearse uno o múltiples bits del índice de la huella digital calculada. En un ejemplo en el que el índice de la huella digital tiene 24 bits, después de fallar la búsqueda de una coincidencia usando el índice original de la huella digital, se repite la etapa de búsqueda 24 veces con un bit único diferente de los 24 bits del índice de la huella digital volteado cada vez. Pueden usarse diversas otras técnicas para aumentar el espacio de búsqueda.

En una realización, el generador de índices de las huellas digitales 230 genera uno o más índices seleccionando bits de índice de una o más huellas digitales en base a un conjunto de factores de peso de las bandas de frecuencia calculados por el modelo acústico 235 y almacenados anteriormente en la base de datos 125. Cuando se usan índices múltiples, incluyendo índices obtenidos por volteo de bits, el grupo de huellas digitales candidatas incluye todas las candidatas obtenidas para cada índice calculado.

En otra realización, el área de búsqueda puede estrecharse explorando previamente y seleccionando sólo candidatas de huellas digitales encontradas en la mayor parte o todos los grupos de candidatas obtenidas para cada índice calculado. La exploración previa de los grupos múltiples de candidatas de huellas digitales usando índices múltiples, incluyendo los índices obtenidos volteando bits, puede mejorar significativamente el funcionamiento de la búsqueda en la base de datos. En una realización, los índices y referencias a posibles candidatas de huellas digitales se almacenan en la memoria del ordenador permitiendo una rápida selección y exploración previa de huellas digitales candidatas. En la segunda etapa (etapa 320), sólo se cargan en la memoria del ordenador y se comparan las huellas digitales candidatas que tienen la probabilidad más elevada de coincidir con una huella digital determinada. Esta propuesta permite una búsqueda rápida manteniendo sólo índices pequeños en la memoria del ordenador, mientras se almacenan huellas digitales mayores sobre dispositivos lentos (por ejemplo, un dispositivo de disco duro sobre una red).

Detectar los Bordes de una Trama de Audio

En algunas aplicaciones, puede ser deseable detectar los bordes de un fragmento de audio coincidente. La detección de bordes permite al sistema conocer con precisión donde se produce en el tiempo un fragmento de audio de emparejamiento particular. Dependiendo de la calidad del audio analizado, las realizaciones del algoritmo de detección de bordes pueden ser capaces de detectar los bordes de un fragmento de audio coincidente con aproximadamente 0,1 a 0,5 segundos de precisión.

Como se ha explicado anteriormente, las realizaciones de la técnica de generación de huellas digitales acumula muestras de audio en almacenamientos del procesamiento de las sub-bandas. Debido a este almacenamiento, la salida del algoritmo de generación de huellas digitales se retrasa y se corre sobre los bordes del fragmento de audio. Este efecto se ilustra en la Fig. 4, que es un gráfico de la tasa de errores de bit (BER) sobre el tiempo entre las huellas digitales de referencia para un fragmento de audio y una serie de huellas digitales generadas en el tiempo para un flujo entrante de muestras de audio. En la realización ilustrada, los almacenamientos de las sub-bandas retienen tres segundos de audio, y se declara una coincidencia cuando dos huellas digitales tienen una tasa de errores de bit (BER) de un 35% o menor.

Inicialmente, en el instante T0, los almacenamientos de procesamiento de las sub-bandas están vacíos, y la huella digital generada de este modo produce cero coincidencias con el audio original (es decir, se espera que la BER sea aproximadamente igual al 50%). Cuando se añaden muestras de audio a los almacenamientos de las sub-bandas la BER disminuye, indicando una mejor coincidencia. Después de que pasa el tiempo suficiente, la BER disminuye por debajo del umbral del 35% en el instante T1, indicando una coincidencia. Finalmente, en el instante T2, la BER alcanza una meseta cuando los almacenamientos se rellenan con muestras. Cuando el algoritmo de generación de huellas digitales pasa al final del fragmento de audio correspondiente, en el instante T3, comienza a producir huellas digitales que coinciden menos y de este modo tienen una BER en aumento, que alcanza el umbral de reconocimiento del 35% en el instante T4. La duración de la curva de coincidencia obtenida (T1-T4) y la duración de la meseta (T2-T3) son cada uno más cortas que la duración del fragmento de audio emparejado (T0-T3).

En una realización, se usa un algoritmo de detección de bordes para determinar los bordes exactos de una trama o fragmento de audio coincidente. Se obtiene una curva de BER tal como la ilustrada en la Fig. 4. La curva de BER se segmenta en regiones, que corresponden al principio de la coincidencia con una BER decreciente (por ejemplo, T1-T2), la meseta con una BER aproximadamente constante (por ejemplo T2-T3), y el final de la coincidencia con una BER en aumento (por ejemplo, T3-T4). Debido a que una curva real de BER será generalmente ruidosa, se segmenta usando una técnica apropiada tal como un análisis de regresión. En una realización, todas las muestras que producen una BER por encima del 35% se ignoran porque pueden no ser fiables. El comienzo del fragmento de audio de coincidencia (es decir el instante T1) puede calcularse entonces usando la regresión lineal como el cruce de la línea que fija del mejor modo una región de BER decreciente (por ejemplo, T1-T2) con una línea horizontal que corresponde a una BER del 50%. Puede aplicarse una propuesta similar para estimar el instante T5, tomando la intersección de la línea que fija del mejor modo una región de BER creciente (por ejemplo T3-T4) y una línea horizontal que corresponde a una BER del 50%. Sin embargo en este caso el instante T5 corresponde al final del fragmento retrasado por la duración B del almacenamiento de la sub-banda, no el final real del fragmento de audio coincidente. La localización del final del fragmento (es decir, el instante T3) puede calcularse restando la duración del almacenamiento de la sub-banda B del instante estimado obtenido T5.

En otra realización, el final del fragmento de audio coincidente se estima como el final de la región T2-T3, y el comienzo del fragmento de audio se calcula restando la duración del almacenamiento de la sub-banda B del instante T2, que corresponde con el principio de la región T2-T3.

Sumario

Aunque tratado en términos de vectores y matrices, la información calculada para cualquier huella digital o sub-huella digital puede almacenarse y procesarse de cualquier forma, no sólo como un vector o matriz de valores. Los términos de vector y matriz se usan de este modo sólo como un mecanismo conveniente para expresar los datos extraídos de una muestra de audio y no significa que sea una limitación de ninguna otra forma. Además, aunque el espectro de potencia se trata en términos de un espectrograma, se entiende que los datos que representan el espectro de potencia o análisis espectral de una señal de audio puedan representarse y usarse no sólo como un espectrograma, sino de cualquier otra forma adecuada.

En una realización, se implementa un módulo software con un producto de programa de ordenador que comprende un medio legible por un ordenador que contiene un código de programa de ordenador, que puede ejecutarse por un procesador de ordenador para realizar cualquiera o todas las etapas, operaciones o procesos descritos en este documento. Por consiguiente, cualquiera de las etapas, operaciones, o procesos descritos en este documento pueden realizarse o implementarse con uno o más módulos software o módulos hardware, solos o en combinación con otros dispositivos. Además, cualesquiera porciones del sistema descritos en términos de elementos hardware pueden implementarse en software, y cualesquiera porciones del sistema descritos en términos de elementos software puede implementarse en hardware, tal como un hardware codificado dentro de un circuito dedicado. Por ejemplo, el código para realizar los métodos descritos puede incorporarse en un dispositivo hardware, por ejemplo en un ASIC o en otra circuitería a medida. Esto permite combinar los beneficios de la invención con las capacidades de muchos dispositivos diferentes.

En otra realización, el algoritmo de huellas digitales se incorpora y funciona sobre cualquiera de una variedad de dispositivos de audio, tales como un teléfono celular, un asistente digital personal (PDA), un reproductor y/o grabador de MP3, un decodificador digital de televisión, o cualquier otro dispositivo que almacena o reproduce un contenido de audio. La incorporación del algoritmo de generación de huellas digitales sobre tal dispositivo puede tener varios beneficios. Por ejemplo, generar huellas digitales de audio directamente sobre un teléfono celular proporcionaría mejores resultados, comparado con enviar audio comprimido desde el teléfono a un servidor generador de huellas digitales sobre la red celular. El funcionamiento del algoritmo sobre el teléfono celular elimina las distorsiones causadas por la compresión GSM, que se diseñó para comprimir la voz y funciona pobremente con la música. Por consiguiente, esta propuesta puede mejorar significativamente el reconocimiento del audio grabado por un teléfono celular. También reduce la carga sobre los servidores así como el tráfico de la red.

Otro beneficio de tal proposición incorporada es la capacidad de monitorizar la experiencia de escucha sin violar la privacidad y derechos de usuario. Por ejemplo, un dispositivo de grabación puede grabar audio, crear huellas digitales, y enviar a continuación sólo las huellas digitales a un servidor para su análisis. El audio grabado nunca deja el dispositivo. El servidor puede a continuación identificar la música o anuncios objetivo usando las huellas digitales enviadas, incluso aunque sea imposible recuperar el audio original a partir de las huellas digitales.

La anterior descripción de las realizaciones de la invención se ha presentado con propósito de ilustración; no se ha intentado que sea exhaustiva, ni limitar la invención a las formas precisas descritas. Las personas especialistas en la técnica relevante pueden apreciar que son posibles muchas modificaciones y variaciones a la luz de las enseñanzas anteriores. Por lo tanto se intenta que el alcance de la invención esté limitado no por esta descripción detallada sino sólo por las reivindicaciones adjuntas a la misma.

Claims

1. Un método para extraer una huella digital de audio a partir de una trama de audio, comprendiendo el método:

filtrar la trama de audio en una pluralidad de bandas de frecuencia para producir una pluralidad correspondiente de señales de audio filtradas;

muestrear de nuevo las señales de audio filtradas en una escala de tiempos no lineal;

transformar las señales de audio muestreadas de nuevo para cada frecuencia para producir un vector de características para la banda de frecuencia; y

calcular la huella digital de audio en base al conjunto de vectores de características.

2. El método de la reivindicación 1, en el que filtrar la trama de audio en una pluralidad de bandas de frecuencia comprende filtrar en paso banda la trama de audio en cada una de la pluralidad de bandas de frecuencia.

3. El método de la reivindicación 1, en el que filtrar la trama de audio en una pluralidad de bandas de frecuencia comprende realizar una Transformada Rápida de Fourier (FFT) sobre la muestra de audio.

4. El método de la reivindicación 1, en el que la trama de audio es parte de un fichero de audio almacenado en un formato MP3, y las señales de audio filtradas se obtienen a partir de un banco de filtrado híbrido de MP3 asociado con el fichero de audio.

5. El método de la reivindicación 1, en el que las señales de audio filtradas se muestrean de nuevo en una escala logarítmica del tiempo.

6. El método de la reivindicación 1, en el que las bandas de frecuencia están espaciadas linealmente en el eje de frecuencias.

7. El método de la reivindicación 1, en el que las bandas de frecuencia se solapan.

8. El método de la reivindicación 1, en el que transformar la señal de audio filtrada muestreada de nuevo de una banda de frecuencias particular comprende realizar una Transformada Rápida de Fourier (FFT) sobre la señal de audio muestreada de nuevo.

9. El método de la reivindicación 1, en el que calcular la huella digital de audio comprende codificar diferencialmente los vectores de características para las bandas de frecuencias.

10. El método de la reivindicación 1, que comprende además:

calcular un valor índice para la huella digital de audio, comprendiendo el valor índice una porción de la huella digital de audio.

11. El método de la reivindicación 10, en el que el valor índice comprende una porción de la huella digital de audio que corresponde a un conjunto de componentes de baja frecuencia de las señales de audio transformadas.

12. El método de la reivindicación 1, que comprende además:

descartar una porción de la huella digital de audio, donde la porción descartada de la huella digital de audio
corresponde a un intervalo de frecuencia determinado que es insignificante de acuerdo con un modelo acústi-
co.

13. El método de la reivindicación 12, en el que el modelo acústico es un modelo psicoacústico.

14. El método de la reivindicación 12, en el que el modelo acústico imita las propiedades de un proceso de codificación de audio.

15. El método de la reivindicación 12, en el que el modelo acústico imita las propiedades de un entorno.

16. El método de la reivindicación 12, en el que el modelo acústico imita las propiedades de una señal de audio.

17. Un método para crear una base de datos de huellas digitales de audio, comprendiendo el método:

generar una pluralidad de huellas digitales de audio, generada cada huella digital de audio de acuerdo con el método de la reivindicación 1;

\global\parskip0.950000\baselineskip

calcular un valor índice para cada huella digital de audio, comprendiendo el valor índice una porción de la huella digital de audio; y

agrupar las huellas digitales en la base de datos de acuerdo con sus valores índices.

18. Un método para detectar un borde de un fragmento de audio comprendiendo el método:

recibir una señal de entrada que representa el fragmento de audio;

almacenar en un almacenamiento de longitud finita la porción más reciente de la señal de entrada recibida;

para cada uno de la pluralidad de instantes mientras que se recibe la señal de entrada, calcular una huella digital para la porción de la señal de entrada recibida almacenada en el almacenamiento de acuerdo con el método de la reivindicación 1;

calcular una tasa de errores de bit (BER) entre cada una de las huellas digitales calculadas y una huella digital de referencia asociada con el fragmento de audio; e

identificar un borde del fragmento de audio en base a las BER calculadas sobre el tiempo.

19. El método de la reivindicación 18, en el que identificar un borde del fragmento de audio comprende:

encontrar la mejor línea de encaje que coincide con una porción de las BER calculadas durante un periodo de BER decrecientes con el tiempo; e

identificar el borde de comienzo del fragmento de audio como la intercesión entre la línea de mejor encaje y la línea horizontal en la que la BER es igual al 50%.

20. El método de la reivindicación 18, en el que identificar un borde del segmento de audio comprende:

encontrar la mejor línea de encaje que coincide con una porción de las BER calculadas durante un periodo de BER crecientes con el tiempo; e

identificar el borde de terminación del fragmento de audio como la intercesión entre la línea de mejor encaje y la línea horizontal en la que la BER es igual al 50%, restando la longitud del almacenamiento.

21. Un método para extraer una huella digital de audio desde una trama de audio, comprendiendo el método:

una etapa para calcular un espectrograma para la trama de audio;

muestrear el espectrograma en una escala de tiempos no lineal para una pluralidad de bandas de frecuencia en el espectrograma;

una etapa de extraer un vector de características de larga duración usando las muestras desde cada una de las bandas de frecuencia muestreadas, y

una etapa para generar la huella digital de audio en base a los vectores de características.

22. El método de la reivindicación 21, en el que el espectrograma se muestrea a una escala de tiempo logarítmica.

23. El método de la reivindicación 1, en el la transformación de la señal de audio filtrada muestreada de nuevo de una banda de frecuencias particular comprende realizar una Transformada Discreta del Coseno (DCT) sobre la señal de audio muestreada de nuevo.

24. El método de la reivindicación 21, en el que las bandas de frecuencia tienen una distribución logarítmica respecto de la frecuencia en el eje de la frecuencia.

25. El método de la reivindicación 1, en el que las señales de audio filtradas se muestrean de nuevo a una escala de tiempos exponencial.

26. El método de la reivindicación 9, en el que el cálculo de las huellas digitales de audio comprende codificar los vectores de características para las bandas de frecuencia asignando valores de bit de acuerdo con una tabla de códigos.

27. El método de la reivindicación 26, que comprende además:

calcular los valores de la tabla de códigos durante la puesta a punto y el proceso de entrenamiento.

28. Un producto programa de ordenador que comprende un medio legible por un ordenador que contiene el código del programa del ordenador para realizar el método de cualquiera de las reivindicaciones anteriores.