ES2309924T3 - Estraccion y emparejamiento de huellas digitales caracteristicas de las señales de audio. - Google Patents
Estraccion y emparejamiento de huellas digitales caracteristicas de las señales de audio. Download PDFInfo
- Publication number
- ES2309924T3 ES2309924T3 ES06254266T ES06254266T ES2309924T3 ES 2309924 T3 ES2309924 T3 ES 2309924T3 ES 06254266 T ES06254266 T ES 06254266T ES 06254266 T ES06254266 T ES 06254266T ES 2309924 T3 ES2309924 T3 ES 2309924T3
- Authority
- ES
- Spain
- Prior art keywords
- audio
- fingerprint
- fingerprints
- frequency
- ber
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 70
- 230000005236 sound signal Effects 0.000 claims description 26
- 239000012634 fragment Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000005923 long-lasting effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 17
- 238000012952 Resampling Methods 0.000 abstract 1
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 49
- 238000000605 extraction Methods 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 238000013507 mapping Methods 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000003708 edge detection Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Collating Specific Patterns (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Stereophonic System (AREA)
Abstract
Un método para extraer una huella digital de audio a partir de una trama de audio, comprendiendo el método: filtrar la trama de audio en una pluralidad de bandas de frecuencia para producir una pluralidad correspondiente de señales de audio filtradas; muestrear de nuevo las señales de audio filtradas en una escala de tiempos no lineal; transformar las señales de audio muestreadas de nuevo para cada frecuencia para producir un vector de características para la banda de frecuencia; y calcular la huella digital de audio en base al conjunto de vectores de características.
Description
Extracción y emparejamiento de huellas digitales
características de las señales de audio.
La presente invención se refiere en general a un
procesamiento de la señal de audio, y más particularmente a extraer
las huellas digitales características de las señales de audio y a
buscar en una base de datos tales huellas digitales.
Debido a las variaciones en los formatos de los
ficheros, las tecnologías de compresión, y otros métodos de
representación de datos, el problema de identificar una señal de
datos o compararla con otras aumenta las dificultades técnicas
significativas. Por ejemplo, en el caso de ficheros de música
digitales sobre un ordenador, hay muchos formatos para codificar y
comprimir las canciones. Además las canciones a menudo se muestrean
a una forma digital a diferentes tasas de datos y tienen diferentes
características (por ejemplo, diferentes formas de onda). El audio
analógico grabado también contiene ruido y distorsiones. Estas
diferencias significativas de la forma de onda hacen de la
comparación directa de tales ficheros una pobre elección para un
reconocimiento o comparación eficaz de ficheros o señales. La
comparación directa de ficheros tampoco permite la comparación de
medios codificados en diferentes formatos (por ejemplo, comparar la
misma canción codificada en MP3 y WAV).
Por estas razones, la identificación y
seguimiento de medios y otros contenidos, tales como los
distribuidos por la Internet, a menudo se hace adjuntando
metadatos, marcas de agua, o algunos otros códigos que contienen
información de identificación para los medios. Pero esta información
adjunta es a menudo incompleta, incorrecta o ambas cosas. Por
ejemplo, los metadatos escasamente están completos, y los nombres de
los ficheros son incluso más escasamente uniformes. Además,
propuestas tales como la marcación de agua son invasivas, alterando
el fichero original con datos o códigos añadidos. Otro
inconveniente de estas propuestas es que son vulnerables a la
manipulación. Incluso si cada fichero de medios incluyese datos de
identificación precisos tales como metadatos o marcas de agua, los
fichero podrían "desbloquearse" y (como tal piratearse) si la
información se elimina satisfactoriamente.
Para evitar estos problemas, se han desarrollado
otros métodos basados en el concepto de analizar el contenido de la
propia señal de datos. En una clase de métodos, se genera una huella
digital de audio para un segmento de audio, donde la huella digital
contiene información característica acerca del audio que puede
usarse para identificar el audio original. En un ejemplo, una
huella digital del audio comprende una secuencia digital que
identifica un fragmento de audio. El proceso de generar una huella
digital de audio se basa a menudo en las propiedades acústicas y de
percepción del audio para el cual se está generando la huella
digital. Las huellas digitales de audio típicamente tienen un
tamaño mucho más pequeño que el contenido de audio original y de
este modo pueden usarse como una herramienta conveniente para
identificar, comparar, y buscar contenidos de audio. Las huellas
digitales de audio pueden usarse en una amplia diversidad de
aplicaciones, incluyendo la monitorización de una difusión,
organización del contenido de audio, filtrado del contenido de las
redes P2P, y la identificación de canciones u otro contenido de
audio. Cuando se aplica a estas áreas diversas, la huella digital
de audio típicamente involucra la extracción de la huella digital
así como algoritmos de búsqueda en una base de datos de huellas
digitales.
La mayor parte de las técnicas de huellas
digitales existentes se basan en extraer características de audio
de una muestra de audio en el dominio de la frecuencia. El audio en
primer lugar se segmenta en tramas, y se calcula un conjunto de
características para cada trama. De entre las características de
audio que pueden usarse están los coeficientes de la Transformada
Rápida de Fourier (FFT), los Coeficientes Cepstrales de Frecuencias
Mel (MFCC), planicidad espectral, claridad, coeficientes de la
Codificación de Predicción Lineal (LPC), y la frecuencia de
modulación. Las características calculadas se ensamblan en un vector
de características, que usualmente se transforma usando derivadas,
medias o varianzas. El vector de características se mapea dentro de
una representación más compacta usando algoritmos tales como el
Modelo de Hidden Markov o el Análisis de Componentes Principal,
seguido por la cuantificación, para producir la huella digital del
audio. Usualmente, una huella digital obtenida procesando una trama
de audio única tiene un tamaño relativamente pequeño y puede no ser
suficientemente única para identificar la secuencia de audio
original con el grado de fiabilidad deseado. Para mejorar la
unicidad de la huella digital y de este modo incrementar la
probabilidad de un reconocimiento correcto (y disminuir la tasa de
falsos positivos), pueden combinarse sub-huellas
digitales pequeñas en bloques más grandes que representan
aproximadamente de tres a cinco segundos de
audio.
audio.
Una técnica de huellas digitales, desarrollada
por Philips, usa una Transformada de Fourier de corto tiempo (STFT)
para extraer una sub-huella digital de 32 bits para
cada intervalo de 11,8 milisegundos de la señal de audio. La señal
de audio en primer lugar se segmenta en tramas que se solapan de
0,37 segundos de duración, y las tramas se ponderan por una ventana
Hamming con un factor de solapamiento de 31/32 y se transforman al
dominio de la frecuencia usando una FFT. Los datos obtenidos en el
dominio de la frecuencia pueden representarse por un espectrograma
(por ejemplo, un diagrama tiempo-frecuencia) con el
tiempo sobre el eje horizontal y la frecuencia sobre el eje
vertical. El espectro de cada trama (columna del espectrograma) se
segmenta en 33 bandas de frecuencia que no se solapan en el
intervalo de 300 Hz hasta 2.000 Hz, con un espaciamiento
logarítmico. Se calcula la energía espectral en cada banda, y se
genera una sub-firma digital de 32 bits usando el
signo de las diferencias de energía en las bandas consecutivas a lo
largo de los ejes del tiempo y de la frecuencia. Si la diferencia
de energía entre dos bandas en una trama es mayor que la diferencia
de energía entre las mismas bandas en la trama anterior, el
algoritmo saca un "1" para el bit correspondiente en la
sub-firma digital; en caso contrario, saca "0"
para el bit correspondiente. Una huella digital se construye
combinando 256 sub-firmas subsiguientes de 32 bits
en un bloque de firma digital único, que corresponde a tres segundos
de audio.
Aunque está diseñado para que sea robusto frente
a tipos comunes de procesamientos de audio, ruido y distorsiones,
este algoritmo no es muy robusto frente a grandes cambios de
velocidad debido al escalamiento del espectro resultante. Por
consiguiente, se propuso un algoritmo modificado en el cual las
huellas digitales de audio se extraen en el dominio de
Fourier-Mellin de escala invariable. El algoritmo
modificado incluye etapas adicionales realizadas después de
transformar las tramas de audio en el dominio de la frecuencia.
Estas etapas adicionales incluyen un mapeo logarítmico del espectro
seguido por una segunda transformada de Fourier. Por lo tanto, para
cada trama, se aplica una primera FFT, el resultado obtenido es un
espectro de potencia con mapeo logarítmico, y se aplica una segunda
FFT. Esto puede describirse como la transformada de Fourier de la
transformada de Fourier re-muestreada de forma
logarítmica, y es similar a los métodos MFCC bien conocidos
ampliamente usados en el reconocimiento de voz. La principal
diferencia es que la transformada de Fourier-Mellin
usa el mapeo logarítmico de todo el espectro, mientras que la MFCC
se basa en la escala de frecuencias Mel (lineal hasta 1kHz y con un
espaciamiento logarítmico para frecuencias mayores imitando las
propiedades del sistema humano de audición).
El algoritmo de Philips cae dentro de la
categoría de los denominados algoritmos de análisis de corta
duración porque las sub-huellas digitales se
calculan usando coeficientes espectrales de sólo dos tramas
consecutivas. Hay otros algoritmos que extraen las características
espectrales usando múltiples FFT de tramas solapadas en el
espectrograma. Algunos de estos métodos basados en la evaluación de
múltiples tramas en el tiempo se conocen como algoritmos de
análisis del espectrograma de larga duración.
Un algoritmo de análisis de larga duración,
descrito por ejemplo en Sukittanon,
"Modulation-Scale Análisis for Content
Identification", de IEEE Transations on Signal Processing,
volumen 52, Nº 10 (Octubre de 2004), se basa en la estimación de
las frecuencias de modulación. En este algoritmo, el audio se
segmenta y se calcula un espectrograma para el mismo. A
continuación se calcula el espectro de modulación para cada banda
del espectrograma (por ejemplo, un intervalo de frecuencias en el
espectrograma) aplicando una segunda transformada a lo largo de la
fila temporal (es decir, el eje horizontal) del espectrograma. Esto
es diferente que la propuesta de Philips modificada, en la que la
se aplica segunda FFT a lo largo de la columna de frecuencia del
espectrograma (por ejemplo, el eje vertical). En esta propuesta, el
espectrograma se segmenta en N bandas de frecuencia, y se calcula
el mismo número N de transformadas de tren de ondas continuo (CWT),
una por cada banda.
Aunque los desarrolladores de este algoritmo
reivindican unos resultados superiores comparado con el algoritmo
de Philips, los algoritmos existentes exhiben aún varias
deficiencias. Por ejemplo, los algoritmos pueden no ser
suficientemente robustos para identificar voz y música
distorsionadas de forma fiable, especialmente cuando el audio está
comprimido usado un codec de audio CELP (por ejemplo, asociado con
el audio de un teléfono celular, tal como el GSM). Además, estos
algoritmos son generalmente sensibles al ruido y las distorsiones
analógicas, tales como las asociadas con una grabación con un
micrófono. Incluso si los algoritmos pueden identificar audio en
presencia de un tipo único de distorsión, no son capaces de manejar
una combinación de distorsiones múltiples, que es más común y más
próxima al escenario del mundo real (por ejemplo, con un teléfono
celular, el audio grabado desde un micrófono en una habitación
ruidosa con una ligera reverberación seguido por la compresión
GSM).
Por lo tanto, cuando se aplican a aplicaciones
prácticas, los esquemas de huellas digitales existentes tienen
tasas de error inaceptablemente altas (por ejemplo, falsos positivos
y falsos negativos), producen huellas digitales que son demasiados
largas para que sean comercialmente viables, y/o son demasiado
lentas. Por consiguiente, existe una necesidad de superar las
limitaciones que las técnicas actuales de reconocimiento de audio
han fallado en su resolución.
Por consiguiente, la presente invención
posibilita una huella digital característica a extraer de una señal
de audio en base al contenido de esa señal. Esta huella digital
puede emparejarse frente a un conjunto de huellas digitales de
referencia (por ejemplo, en una base de datos) para determinar la
identidad de la señal o la similitud entre dos señales. Debido a la
naturaleza del algoritmo de extracción de huellas digitales, no
sufre de muchos de los problemas que afligen a las soluciones
existentes, y comparado con tales soluciones es rápida, eficaz,
altamente precisa, escalable y robusta. La invención se define por
las reivindicaciones independientes 1, 21 y 23.
En una realización de un método para generar una
huella digital de audio, se muestrea una señal de audio y se
calcula la información del espectrograma de la señal. El
espectrograma se divide en una pluralidad de bandas de frecuencias.
Las secuencias de muestras en cada una de las bandas se muestrean de
nuevo de forma logarítmica, produciendo un mapeo logarítmico de las
muestras de las bandas. A continuación se aplica una segunda FFT a
las muestras de las bandas con mapeo logarítmico para obtener un
vector de características para cada banda. A continuación se
calcula la huella digital de audio en base a los vectores de
características. La huella digital del audio puede almacenarse en
un medio legible por un ordenador o puede fijarse momentáneamente
como una señal que se puede transmitir.
A diferencia de los esquemas de huellas
digitales de audio anteriores, las realizaciones de la invención
extraen un vector de características de larga duración a partir de
una serie de muestras de bandas de frecuencia espaciadas en el
tiempo de forma no lineal (por ejemplo, de forma logarítmica).
Aunque los métodos anteriores han usado mapeo logarítmico a lo
largo del eje de la frecuencia del espectrograma (por ejemplo la
transformada de Fourier-Mellin y la escala de
Bark), han usado una escala lineal. Por el contrario, en las
realizaciones de la invención, el uso de una escala de tiempos no
lineal (por ejemplo logarítmica) para el procesamiento de las
muestras de las sub-bandas pueden mejorar
significativamente la solidez de la extracción de la huella digital
y los algoritmos de emparejamiento.
Por ejemplo, el mapeo logarítmico en el tiempo
de las muestras de las sub-bandas hace el algoritmo
menos sensible a las variaciones en la velocidad de reproducción
del audio y la compresión y dilatación en el tiempo. Esto es porque
el re-muestreo logarítmico produce que cualquier
escalamiento en la velocidad de reproducción sea un desplazamiento
lineal en el espectrograma de mapeo logarítmico, y el desplazamiento
lineal se elimina por la FFT. De este modo, la huella digital de
una señal de audio debería tener pequeñas variaciones o ninguna
variación respecto a las variaciones en la velocidad de reproducción
o debidas a la compresión o dilatación en el tiempo. El uso de la
escala de tiempo logarítmica también mejora la resolución de baja
frecuencia de la segunda transformada FFT de
tiempo-frecuencia. Esto permite el uso de una simple
FFT en lugar de las complejas transformadas de trenes de ondas
usadas para el análisis del espectro de modulación del
espectrograma, haciendo la implementación más eficiente y más
rápida comparada con los métodos anteriores.
Además, debido al
re-escalamiento no lineal (por ejemplo, logarítmico)
en el tiempo, la trama de salida de las bandas contiene, para la
mayor parte, muestras que representan el comienzo de la secuencia de
audio analizada. La huella digital resultante se genera de este
modo usando muestras localizadas principalmente al comienzo de la
secuencia. Como una parte relativamente pequeña de la secuencia de
audio produce la mayor parte de la contribución en la huella
digital resultante, la huella digital puede usarse para emparejar
secuencias de audio más cortas. En una implementación, por ejemplo,
una huella digital generada a partir de una trama de audio original
de cinco segundos de audio
pueden emparejarse de forma fiable con muestras tomadas de fragmentos de audio que son dos veces más cortas.
pueden emparejarse de forma fiable con muestras tomadas de fragmentos de audio que son dos veces más cortas.
Las realizaciones de las técnicas de huellas
digitales son también tolerantes al ruido y las distorsiones de
señal. Una implementación puede detectar señales como la voz en
presencia del 100% de ruido blanco (es decir, una proporción de
señal a ruido de 0 dB). Las técnicas son también tolerantes al
filtrado, compresión, ecualización de frecuencia, y distorsiones de
fase. Por ejemplo, una realización de la invención es capaz de
reconocer de forma fiable audio que tiene una variación de \pm5%
en el tono (bajo condiciones de ritmo conservado) y variaciones de
\pm20% en la temporización (bajo condiciones de tono
conservado).
En otra realización, cuando se forma la trama de
la huella digital generada usando un número especificado de bandas
de frecuencia, se usa un modelo acústico para marcar bandas de
frecuencia insignificantes. Las bandas insignificantes pueden
incluir bandas que no añaden sustancialmente ningún valor
perceptible para distinguir la muestra de audio. El procesamiento
de sólo las bandas relevantes aumenta la proporción de señal a ruido
y mejora la robustez del proceso global de emparejamiento de
huellas digitales. Además, excluir las bandas de frecuencia
irrelevantes puede mejorar enormemente la eficacia del
reconocimiento del contenido de audio de banda limitada, por
ejemplo en el caso de voz codificada a una tasa de bit muy baja o
grabaciones analógicas con una velocidad de cinta baja.
Las realizaciones de la invención también
proporcionan una rápida indexación y búsqueda eficiente de huellas
digitales en una base de datos de gran escala. Por ejemplo, puede
calcularse un índice para cada huella digital de audio a partir de
una porción de los contenidos de la huella digital. En una
realización, se usa un conjunto de bits de una huella digital como
índice de la huella digital, donde los bits corresponden a los
coeficientes más estables de baja frecuencia debido al
re-muestreo no lineal (por ejemplo, logarítmico).
Para emparejar una huella digital de prueba con un conjunto de
huellas digitales en una base de datos, la huella digital de prueba
puede emparejarse frente a los índices para obtener un grupo de
huellas digitales candidatas. La huella digital de prueba se
emparejan a continuación frente a las huellas digitales candidatas,
eliminando por lo tanto la necesidad de emparejar la huella digital
de prueba frente a cada huella digital en la base de datos.
En otra realización, se usa un algoritmo de
detección de borde para determinar los bordes exactos de una trama
o fragmento de audio analizado. En algunas aplicaciones,
especialmente cuando las muestras de audio difieren sólo durante
cortos periodos de tiempo de todas las muestras, es importante
conocer la localización del borde de la trama de audio analizada
dentro de la muestra de audio. El algoritmo de detección del borde
puede usar técnicas de regresión lineal para identificar el borde
de una trama de audio.
Las aplicaciones de las realizaciones de la
tecnología de huellas digitales son numerosas, e incluyen la
identificación en tiempo real de flujos de audio y otros contenidos
de audio (por ejemplo, medios de transmisión de audio en vivo,
radio, anuncios, difusiones de Internet, canciones en CD, ficheros
MP3, o cualquier otro tipo de contenido de audio). Las
realizaciones de la invención posibilitan de este modo la audición
eficaz, de contenidos de medios en tiempo real y otros
reportes.
La Fig. 1 es un dibujo esquemático de un proceso
para extraer y usar una huella digital de una muestra de audio, de
acuerdo con una realización de la invención.
La Fig. 2 es un diagrama esquemático de un
sistema de extracción de huellas digitales, de acuerdo con una
realización de la invención.
La Fig. 3 es un diagrama de flujo de un
algoritmo de emparejamiento, de acuerdo con una realización de la
invención.
La Fig. 4 ilustra un algoritmo de detección de
borde, de acuerdo con una realización de la invención.
\vskip1.000000\baselineskip
Las realizaciones de la invención posibilitan la
extracción de información característica (por ejemplo, una huella
digital de audio) a partir de una muestra de audio así como el
emparejamiento o identificación del audio usando la información
característica extraída. Como se ilustra en la Fig. 1, la trama de
audio 105 tomada de una muestra de audio 100 se introduce en el
algoritmo de extracción de huellas digitales 110. La muestra de
audio 100 puede proporcionarse por cualquiera de una amplia variedad
de fuentes. Usando la secuencia de tramas de audio 105, el
algoritmo de extracción de huellas digitales 110 genera una o más
huellas digitales de audio 115 que son características de la
secuencia. Sirviendo como un identificador de distinción, la huella
digital de audio 115 proporciona información relativa a la
identificación u otras características de la secuencia de tramas
105 de la muestra de audio 100. En particular, una o más huellas
digitales 115 para la muestra de audio 100 pueden permitir
identificar la muestra de audio 100 de forma unívoca. Las
realizaciones del algoritmo de extracción de huellas digitales 110
se describen con más detalle más adelante.
Una vez generada, la huella digital extraída 115
puede usarse a continuación en un proceso adicional o almacenarse
sobre un medio para su uso posterior. Por ejemplo, la huella digital
115 puede usarse por un algoritmo de emparejamiento de huellas
digitales 120, que compara las huellas digitales 115 con entradas en
una base de datos de huellas digitales 125 (por ejemplo, una
colección de huellas digitales de audio de fuentes conocidas) para
determinar la identificación de la muestra de audio 100. También se
describen más adelante diversos métodos para usar las huellas
digitales.
La muestra de audio 100 puede originarse a
partir de una amplia diversidad de fuentes, dependiendo de la
aplicación del sistema de generación de huellas digitales. En una
realización, la muestra de audio 100 se muestrea desde una difusión
recibida de un difusor de medios y se digitaliza. Como alternativa,
un difusor de medios puede transmitir el audio en forma digital
obviándose la necesidad de digitalizarlo. Los tipos de difusores de
medios incluyen, pero no se limitan a, transmisores de radio,
transmisores de satélite, y operadores de cable. El sistema de
generación de huellas digitales puede usarse de este modo para
auditar a estos difusores para determinar qué audio se difunde en
qué momentos. Esto posibilita un sistema automatizado para asegurar
el cumplimiento con las restricciones de difusión, acuerdos de
licencias, y similares. Como el algoritmo de extracción de huellas
digitales 110 puede operar sin tener que conocer el comienzo y final
precisos de las señales de difusión, puede funcionar sin la
cooperación o el conocimiento del difusor de medios para asegurar
resultados independientes e imparciales.
En otras realizaciones, un servidor de medios
recupera los ficheros de audio desde una librería de medios y
transmite una difusión digital sobre una red (por ejemplo, la
Internet) para usar por el algoritmo de extracción de huellas
digitales 110. Una difusión de radio de Internet en directo es un
ejemplo de este tipo de arquitectura, donde medios, anuncios, y
otros contenidos se suministran a un individuo o grupo de usuarios.
En tal realización, el algoritmo de extracción de huellas digitales
110 y el algoritmo de emparejamiento 120 usualmente no tienen
información respecto a los tiempos de comienzo o terminación de los
elementos de medios individuales dentro del contenido de la
difusión en directo de la muestra de audio 100; sin embargo, estos
algoritmos 110 y 120 no necesitan esta información para identificar
el contenido de la difusión en directo.
En otra realización, el algoritmo de extracción
de huellas digitales 110 recibe la muestra de audio 100, o una
serie de tramas 105 del mismo, desde un ordenador cliente que tiene
acceso a un dispositivo de almacenamiento que contiene ficheros de
audio. El ordenador cliente recupera un fichero de audio individual
desde el almacenamiento y envía el fichero al algoritmo de
extracción de huellas digitales 110 para generar una o más huellas
digitales 115 a partir del fichero. Alternativamente, el ordenador
cliente puede recuperar un lote de ficheros desde un almacenamiento
y enviarlos de forma secuencial al extractor de huellas digitales
110 para generar un conjunto de huellas digitales para cada
fichero. (Como se usa en este documento se entiende por
"conjunto" a incluir cualquier número de elementos en un
agrupamiento, incluyendo un único elemento). El algoritmo de
extracción de huellas digitales 110 puede realizarse por el
ordenador cliente o por un servidor remoto acoplado con el
ordenador cliente sobre la red.
En la Fig. 2 se ilustra una realización de un
sistema de extracción de huellas digitales 200 que implementa el
algoritmo de extracción de huellas digitales 110 mostrado en la Fig.
1. El sistema de extracción de huellas digitales 200 comprende un
banco de filtrado de análisis 205, que está acoplado a una
pluralidad de canales de procesamiento (incluyendo cada uno, uno o
más módulos de procesamiento, etiquetados en la figura como los
elementos 210 y 215), que están a su vez acoplados a un codificador
diferencial 225 para producir una huella digital de audio 115. El
sistema de extracción de huellas digitales 200 está configurado para
recibir una trama de audio 105, para la cual se va a generar la
huella digital de audio.
Descrito con más detalle más adelante, para cada
trama de audio de la entrada 105 el banco de filtrado de análisis
205 generalmente calcula la información del espectro de potencia
para una señal recibida a través de un intervalo de frecuencias. En
la realización mostrada, cada uno de los canales de procesamiento
corresponde a una banda de frecuencias dentro de ese intervalo de
frecuencias, cuyas bandas pueden solaparse. Por consiguiente, los
canales dividen el procesamiento realizado por el sistema de
extracción de huellas digitales 200 de modo que cada canal realiza
el procesamiento para una banda correspondiente. En otra
realización, el procesamiento para la pluralidad de bandas puede
realizarse en un canal único por un módulo único, o puede dividirse
el procesamiento en cualquier otra configuración como sea apropiado
para la aplicación y las limitaciones técnicas del sistema.
El banco de filtrado de análisis 205 recibe una
trama de audio 105 (tal como la trama 105 de la muestra de audio
100 ilustrada en la Fig. 1). El banco de filtrado de análisis 205
convierte la trama de audio 105 del dominio del tiempo en el
dominio de la frecuencia para calcular la información del espectro
de potencia para la trama 105 sobre un intervalo de frecuencias. En
una realización, el espectro de potencia para la señal en un
intervalo de aproximadamente 250 a 2.250 Hz se divide en varias
bandas de frecuencia (por ejemplo, M bandas, donde M = 13). Las
bandas pueden tener una distribución linear o logarítmica respecto
de la frecuencia (o cualquier otra escala) y también pueden
solaparse. La salida del banco de filtrado contiene una medida de
la energía de la señal para cada una de la pluralidad de bandas. En
una realización, se toma la medida de la energía media usando la
raíz cúbica de la energía espectral media en la banda.
Son posibles diversas implementaciones del banco
de filtrado de análisis 205, dependiendo de los requisitos software
y hardware y las limitaciones del sistema. En una realización, el
banco de filtrado de análisis comprende varios filtros paso banda
que aíslan la señal de la trama de audio 105 para cada una de las
bandas de frecuencia seguido por una estimación de la energía y un
sub-muestreo. En otra realización el banco de
filtrado de análisis 205 se implementa usando una Transformada
Rápida de Fourier de corta duración (FFT). Por ejemplo, el audio
100 muestreado a 8 kHz se segmenta en tramas de 64 ms 105 (es decir
512 muestras). A continuación se calcula el espectro de potencia de
cada uno de los segmentos solapado al 50% consistente en dos tramas
de audio 105 (es decir, 1024 muestras) poniéndolos en una ventana
Han y realizando una FFT, seguida por un filtrado de banda usando M
ventanas triangulares solapadas espaciadas de forma uniforme o de
forma logarítmica.
En una realización, el espectro de potencia se
promedia dentro de las bandas de frecuencia y sólo se toman los
cambios de energía en la secuencia de tramas para el cálculo de los
vectores de características para algunas realizaciones (descritas
más adelante). Debido al uso de los cambios de energía en lugar de
la magnitud absoluta y a los bajos requisitos para las
características espectrales del banco de filtrado 205, puede usarse
una diversidad de transformadas del dominio
tiempo-frecuencia en lugar de la FFT descrita
anteriormente. Por ejemplo, puede usarse una Transformada Discreta
Modificada del Coseno (MDCT). Una ventaja de la MDCT es su baja
complejidad, ya que puede calcularse usando sólo un n/4 puntos de
una FFT de y algunas de las pre- y post-rotaciones
de las muestras. Por consiguiente, se espera que el banco de
filtrado 205 implementado con MDCT funcione mejor que uno
implementado con una FFT, por ejemplo, capaz de calcular las
transformadas dos veces más rápido.
En otra realización, el banco de filtrado de
análisis 205 se implementa usando el banco de filtrado híbrido de
MP3, que incluye un filtro de poli-fase en cascada y
una MDCT seguida de una cancelación
anti-solapamiento. El banco de filtrado de MP3
produce 576 coeficientes espectrales para cada trama de audio 105
consistente de 576 muestras. Para un audio muestreado a 8 kHz, la
tasa de la trama resultante es de 13,8 tramas por segundo comparada
con 15,626 tramas por segundo del banco de filtrado de FFT de 1024
puntos descrito anteriormente. La diferencia de tasas de tramas se
pone de manifiesto durante el análisis de
tiempo-frecuencia cuando se
re-muestrean los datos, como se trata más adelante.
El banco de filtrado de análisis 205 puede implementarse también
usando un Filtro de Espejo en Cuadratura (QMF). La primera etapa del
banco de filtrado híbrido de MP3 emplea un filtro QMF con 32 bandas
de igual anchura. Por consiguiente, el intervalo de frecuencias de
250 a 2.250 Hz de una señal de audio de 11.025 Hz puede dividirse
entonces en 13 bandas.
Una ventaja del banco de filtrado de MP3 es su
portabilidad. Hay implementaciones altamente optimizadas de bancos
de filtrado de MP3 para diferentes CPU. Por consiguiente, la rutina
de generación de huellas digitales puede integrarse fácilmente con
el codificador de MP3, que puede obtener coeficientes espectrales
desde un banco de filtrado MP3 sin procesamiento adicional. Por
consiguiente, la rutina de generación de huellas digitales puede
integrarse fácilmente con el decodificador de MP3, que puede obtener
datos espectrales directamente desde un flujo de bits MP3 sin su
decodificación completa. También es posible la integración con otros
codificadores-decodificadores de audio.
Una vez determinado, las muestras de las
sub-bandas se almacenan y se proporcionan a uno o
más de los re-muestreadores no lineales 210. En una
realización, cada re-muestreador no lineal 210
corresponde a una de las M bandas de frecuencias. De este modo,
cada re-muestreador no lineal 210 recibe una
secuencia de S muestras para una banda de frecuencias particular
espaciada linealmente en el tiempo (por ejemplo, cuando S se
selecciona desde 64 hasta 80, dependiendo de la implementación del
banco de filtrado). En una realización, cada
re-muestreador 210 realiza un mapeo logarítmico de
las muestras de las sub-bandas en una de las M
bandas, produciendo una serie de T muestras (donde, por ejemplo, T
= 64) que están espaciadas de forma logarítmica en el tiempo. Cuando
se realiza esto para cada una de las M bandas, los datos pueden
almacenarse en una matriz de [M x T], que corresponde a un
espectrograma muestreado que tiene un eje de tiempos (horizontal)
con escala logarítmica. Sin embargo, el muestreo logarítmico es
sólo una posibilidad, y en otros tipos de realizaciones pueden
realizarse otros tipos de muestreo no lineal, tal como un
re-muestreo exponencial.
Las muestras de las sub-bandas
se proporcionan a continuación a uno o más módulos FFT 215, que
realizan una transformada sobre las muestras con mapeo no lineal
para cada banda. En una realización, se realiza una FFT de T puntos
sobre muestras de banda con mapeo logarítmico para cada banda (por
ejemplo, cada fila de la matriz [M x T]. Las series resultantes de
coeficientes de las FFT se llaman un vector de características. En
una realización, el vector de características para cada banda
comprende cada coeficiente de la FFT calculado para esa banda en un
orden de frecuencias ascendente. Por consiguiente, cada vector de
características incluiría N coeficientes (donde por ejemplo, N =
T/2 = 32).
Aunque los módulos de FFT 215 se describen
realizando una FFT sobre muestras de sub-bandas, en
otras realizaciones los módulos de FFT 215 se recolocan procesando
módulos de que realizan transformadas de
tiempo-frecuencia distintas. Por ejemplo, en lugar
de la FFT, pueden usarse la Transformada Discreta del Coseno (DCT) o
la Transformada Discreta de Hartley (DHT) para transformar las
muestras de las sub-bandas. En particular, usar la
DHT tiende a producir una baja tasa de falsos positivos y valores
de índices no correlacionados, lo cual ayuda a realizar un
algoritmo de búsqueda más rápido. En otra realización, se usa la
codificación de predicción lineal como segunda transformada en
lugar de los módulos de FFT 215.
A continuación se proporcionan los vectores de
características al codificador diferencial 225, que genera una
huella digital 115 para la muestra de audio. En una realización, el
codificador diferencial 225 resta los vectores de características
correspondientes a cada par de bandas adyacentes. Si hay M bandas,
hay M-1 pares de bandas adyacentes. Restando dos
vectores de características da un vector de N valores diferencia.
Para cada uno de estos valores diferencia, el codificador
diferencial 225 selecciona un 1 si la diferencia es mayor o igual
que 0, y el codificador diferencial 225 selecciona un 0 si la
diferencia es menor que 0. Para cada grupo de cuatro bits en la
secuencia, el codificador asigna un valor de bit de acuerdo con una
tabla de códigos. Los mejores valores de la tabla de códigos se
calculan durante la puesta a punto y entrenamiento del algoritmo de
generación de huellas digitales. Repitiendo este proceso para los
vectores de características de cada uno de los pares consecutivos
de bandas resulta una matriz de bits de [(M -1) x N/4]. Esta matriz,
que puede representarse como una secuencia de bits lineal, se usa
como la huella digital de audio 115. En el ejemplo donde M = 13 y N
= 8, la huella digital 115 tiene 12 octetos de bits de
información.
En una realización, el Análisis de Componentes
Principal (PCA) se usa para des-correlacionar y
reducir el tamaño del vector de características obtenido antes de
su cuantificación. Pueden usarse otras técnicas de
des-correlación, tales como la Transformada Digital
del Coseno, además o como alternativa para eliminar la redundancia
y compactar el vector de características.
En una realización, el sistema de extracción de
huellas digitales 200 genera una pluralidad de huellas digitales
para una serie altamente solapada de muestras de audio en una señal
de audio particular. En un ejemplo, cada serie de tramas 105
procesada por el sistema 200 contiene tres segundos de la señal de
audio y comienza 64 milisegundos después de una serie de que
comience una serie anterior. De este modo, se genera una huella
digital para varias porciones de tres segundos de la señal de audio
que comienza cada 64 milisegundos. Para implementar tal esquema, el
sistema de extracción de huellas digitales 200 puede incluir
almacenamientos de memoria antes y después del banco de filtrado de
análisis 205, donde los almacenamientos se actualizan con los
próximos 64 milisegundos de la señal de audio cuando se recibe la
siguiente trama de audio 105.
En aplicaciones diversas del sistema de
generación de huellas digitales, ciertas bandas de frecuencia pueden
ser insignificantes porque son imperceptibles, debido a que el
proceso de codificación para la muestra de audio eliminó las
bandas, o por alguna otra razón. Por lo tanto, en una realización se
usa un modelo acústico 235 para identificar y marcar las bandas de
frecuencia insignificantes para una huella digital particular.
Modelos acústicos tales como el modelo psicoacústico, son bien
conocidos en diversos campos del procesamiento de audio. Puede
calcularse un conjunto de parámetros del modelo para el modelo
acústico 235 para muestras de referencia de alta calidad durante la
creación de una huella digital 115 y almacenarse en la base de datos
125. Las bandas insignificantes en la huella digital 115 pueden
marcarse poniendo a cero sus valores correspondientes (es decir,
bits). Esto efectivamente causa que las bandas se ignoren en
cualquier proceso de emparejamiento posterior, ya que en el proceso
de emparejamiento de huellas digitales con grabaciones de la base de
datos, sólo se usan los pares de bandas correspondientes que tienen
un valor distinto de cero usados para distinguir la huella digital
115. Las bandas enmascaradas (es decir, las que tienen valor cero)
pueden excluirse también totalmente de la comparación.
En una realización, el modelo acústico es un
modelo psicoacústico para el sistema de audición humano. Esto puede
ser útil cuando el propósito del sistema de huellas digitales es la
identificación del sistema de audición humano del audio objetivo.
Tal audio puede comprimirse por uno o más codificadores perceptuales
eliminando la información de audio irrelevante. El uso del modelo
humano psicoacústico permite identificar y excluir tales bandas
irrelevantes de las huellas digitales.
Pero el modelo psicoacústico es sólo un tipo de
modelo acústico que se adecua para el audio codificado perceptual
humano. Otro modelo acústico es un modelo que imita las propiedades
de un dispositivo de grabación específico. Cada banda para tal
modelo acústico del dispositivo de grabación puede tener un factor
de ponderación asignado al mismo dependiendo de su importancia. Aún
otro modelo acústico imita las propiedades de los entornos
específicos, tales como el ruido de fondo que se encuentra en un
vehículo o en una habitación. En tal realización, cada banda para
el modelo acústico puede tener un factor de ponderación asignado al
mismo dependiendo de su importancia en el entorno para el cual se
diseñó el sistema.
En una realización, los parámetros del modelo
acústico 235 y el banco de filtrado 205 dependen del tipo y las
propiedades de la señal de audio analizada 100. Diferentes perfiles
comprenden un conjunto de factores de peso de las
sub-bandas y un número de bandas del banco de
filtrado y se usan sus distribuciones de frecuencia para obtener un
mejor emparejamiento de las propiedades de la señal de audio
objetivo. Para el audio tal como la voz, por ejemplo, la potencia
de la señal está principalmente concentrada en las bandas de baja
frecuencia, mientras que la música puede contener componentes de
frecuencias relevantes más altas dependiendo del género. En una
realización, los parámetros del modelo acústico se calculan a partir
de la señal de audio de referencia y se almacenan en una base de
datos de contenidos junto con las huellas generadas. En otra
realización, los parámetros del modelo acústico se calculan
dinámicamente en base a las propiedades de la señal de audio
analizada durante el proceso de emparejamiento.
Por consiguiente, las posibles aplicaciones del
modelo acústico 235 incluyen la puesta a punto de los parámetros de
reconocimiento de audio para un entorno específico y/ o dispositivo
de grabación y propiedades del algoritmo de codificación. Por
ejemplo, conociendo las propiedades acústicas del camino de audio
del teléfono celular (características del micrófono, algoritmos de
procesamiento de audio y compresión y similares) permite el
desarrollo de un modelo acústico que imita estas propiedades. Usar
este modelo durante la comparación de la huella digital puede
aumentar significativamente la solidez del proceso de emparejamiento
de las huellas digitales generadas.
\vskip1.000000\baselineskip
En una realización, el generador de indexación
de huellas digitales 230 genera un índice para cada huella digital
115. Las huellas digitales 115 se almacenan a continuación en una
base de datos de huellas digitales 125, permitiendo una búsqueda y
un emparejamiento eficaz de los contenidos de la base de datos de
huellas digitales 125. En una realización, el índice para una
huella digital 115 comprende una porción de la huella digital 115.
Por consiguiente, las huellas digitales 115 en la base de datos de
huellas digitales 125 están indexadas de acuerdo con la información
de identificación útil acerca de las mismas.
En una realización descrita anteriormente en la
que cada huella digital 115 comprende una matriz de
[(M - 1) x N/4] bits, el generador de indexación 230 usa los bits de las columnas de más a la izquierda como índice. En el ejemplo donde cada huella digital 115 es una matriz de 12 x 8 bits, el índice para la huella digital 115 puede ser las dos columnas de bits de más a la izquierda (24 bits en total). De este modo, los bits usados como índice para cada huella digital 115 son un subconjunto de la huella digital 115 que está basado en los coeficientes espectrales de baja frecuencia de los vectores de características usados para calcular la huella digital 115. Estos bits corresponden de este modo a las componentes de baja frecuencia del espectro de las bandas de espectrograma con mapeo logarítmico, que son estables e insensibles para ruido moderado y distorsiones. Por lo tanto, con un alto nivel de probabilidad, huellas digitales similares tendrían el mismo valor numérico del índice. De este modo, el índice puede usarse para etiquetar y agrupar huellas digitales similares y probablemente coincidentes en la base de datos.
[(M - 1) x N/4] bits, el generador de indexación 230 usa los bits de las columnas de más a la izquierda como índice. En el ejemplo donde cada huella digital 115 es una matriz de 12 x 8 bits, el índice para la huella digital 115 puede ser las dos columnas de bits de más a la izquierda (24 bits en total). De este modo, los bits usados como índice para cada huella digital 115 son un subconjunto de la huella digital 115 que está basado en los coeficientes espectrales de baja frecuencia de los vectores de características usados para calcular la huella digital 115. Estos bits corresponden de este modo a las componentes de baja frecuencia del espectro de las bandas de espectrograma con mapeo logarítmico, que son estables e insensibles para ruido moderado y distorsiones. Por lo tanto, con un alto nivel de probabilidad, huellas digitales similares tendrían el mismo valor numérico del índice. De este modo, el índice puede usarse para etiquetar y agrupar huellas digitales similares y probablemente coincidentes en la base de datos.
La Fig. 3 ilustra un método de emparejar una
huella digital de prueba con la base de datos de huellas digitales
125 usando los índices descritos anteriormente, de acuerdo con una
realización de la invención. Para encontrar una coincidencia en la
base de datos de huellas digitales 125 para una huella digital de
prueba, el algoritmo de búsqueda comienza calculando un valor de
índice 310 para la huella digital de prueba como se ha descrito
anteriormente. Usando este valor de índice, se obtiene un grupo de
huellas digitales candidatas 320, por ejemplo, donde el grupo
incluye todas las huellas digitales en la base de datos 125 que
tiene el mismo valor índice. Como se ha explicado anteriormente, es
altamente probable que cualesquiera coincidencias en la base de
datos 125 estén en este grupo de huellas digitales candidatas
debido al modo en que se calcula el valor índice.
Para comprobar cualesquiera coincidencias en el
grupo de huellas digitales candidatas, se calcula una tasa de
errores de bits (BER) entre la huella digital de prueba y cada
huella digital candidata 330. La BER entre dos huellas digitales es
el porcentaje de sus bits correspondientes que no coinciden. Para
huellas digitales no relacionadas completamente aleatorias, se
esperaría una BER del 50%. En una realización, dos huellas digitales
son coincidentes cuando la BER es menor de aproximadamente el 35%;
sin embargo, pueden usarse otros límites numéricos dependiendo de
la tolerancia deseada para los falsos positivos y los falsos
negativos. Además, pueden usarse otros cálculos o criterios
distintos que la BER para comparar dos huellas digitales. Por
ejemplo, puede usarse también la medida inversa de la BER, la tasa
de coincidencia. Además, ciertos bits pueden ponderarse de forma
más alta que otros en la comparación de dos huellas digitales.
Si en 340 no hay coincidencias dentro del
criterio de emparejamiento predeterminado, o si en 350 no hay más
índices a modificar, el algoritmo de emparejamiento ha fallado para
encontrar cualesquiera coincidencias de la huella digital de prueba
en la base de datos 125. El sistema puede entonces continuar
buscando (por ejemplo, usando criterios menos restrictivos para
obtener huellas digitales candidatas) o puede parar. Si en 340 hay
una o más huellas digitales coincidentes, se devuelve una lista de
huellas digitales coincidentes 360.
En una realización, el sistema puede repetir la
búsqueda como se describió anteriormente después de modificar 370
el índice de la huella digital calculada para obtener un conjunto
diferente de huellas digitales candidatas a partir de las cuales
buscar una coincidencia. Para modificar el índice de la huella
digital calculada 370, pueden voltearse uno o múltiples bits del
índice de la huella digital calculada. En un ejemplo en el que el
índice de la huella digital tiene 24 bits, después de fallar la
búsqueda de una coincidencia usando el índice original de la huella
digital, se repite la etapa de búsqueda 24 veces con un bit único
diferente de los 24 bits del índice de la huella digital volteado
cada vez. Pueden usarse diversas otras técnicas para aumentar el
espacio de búsqueda.
En una realización, el generador de índices de
las huellas digitales 230 genera uno o más índices seleccionando
bits de índice de una o más huellas digitales en base a un conjunto
de factores de peso de las bandas de frecuencia calculados por el
modelo acústico 235 y almacenados anteriormente en la base de datos
125. Cuando se usan índices múltiples, incluyendo índices obtenidos
por volteo de bits, el grupo de huellas digitales candidatas
incluye todas las candidatas obtenidas para cada índice
calculado.
En otra realización, el área de búsqueda puede
estrecharse explorando previamente y seleccionando sólo candidatas
de huellas digitales encontradas en la mayor parte o todos los
grupos de candidatas obtenidas para cada índice calculado. La
exploración previa de los grupos múltiples de candidatas de huellas
digitales usando índices múltiples, incluyendo los índices
obtenidos volteando bits, puede mejorar significativamente el
funcionamiento de la búsqueda en la base de datos. En una
realización, los índices y referencias a posibles candidatas de
huellas digitales se almacenan en la memoria del ordenador
permitiendo una rápida selección y exploración previa de huellas
digitales candidatas. En la segunda etapa (etapa 320), sólo se
cargan en la memoria del ordenador y se comparan las huellas
digitales candidatas que tienen la probabilidad más elevada de
coincidir con una huella digital determinada. Esta propuesta
permite una búsqueda rápida manteniendo sólo índices pequeños en la
memoria del ordenador, mientras se almacenan huellas digitales
mayores sobre dispositivos lentos (por ejemplo, un dispositivo de
disco duro sobre una red).
En algunas aplicaciones, puede ser deseable
detectar los bordes de un fragmento de audio coincidente. La
detección de bordes permite al sistema conocer con precisión donde
se produce en el tiempo un fragmento de audio de emparejamiento
particular. Dependiendo de la calidad del audio analizado, las
realizaciones del algoritmo de detección de bordes pueden ser
capaces de detectar los bordes de un fragmento de audio coincidente
con aproximadamente 0,1 a 0,5 segundos de precisión.
Como se ha explicado anteriormente, las
realizaciones de la técnica de generación de huellas digitales
acumula muestras de audio en almacenamientos del procesamiento de
las sub-bandas. Debido a este almacenamiento, la
salida del algoritmo de generación de huellas digitales se retrasa y
se corre sobre los bordes del fragmento de audio. Este efecto se
ilustra en la Fig. 4, que es un gráfico de la tasa de errores de bit
(BER) sobre el tiempo entre las huellas digitales de referencia
para un fragmento de audio y una serie de huellas digitales
generadas en el tiempo para un flujo entrante de muestras de audio.
En la realización ilustrada, los almacenamientos de las
sub-bandas retienen tres segundos de audio, y se
declara una coincidencia cuando dos huellas digitales tienen una
tasa de errores de bit (BER) de un 35% o menor.
Inicialmente, en el instante T0, los
almacenamientos de procesamiento de las sub-bandas
están vacíos, y la huella digital generada de este modo produce
cero coincidencias con el audio original (es decir, se espera que
la BER sea aproximadamente igual al 50%). Cuando se añaden muestras
de audio a los almacenamientos de las sub-bandas la
BER disminuye, indicando una mejor coincidencia. Después de que pasa
el tiempo suficiente, la BER disminuye por debajo del umbral del
35% en el instante T1, indicando una coincidencia. Finalmente, en
el instante T2, la BER alcanza una meseta cuando los almacenamientos
se rellenan con muestras. Cuando el algoritmo de generación de
huellas digitales pasa al final del fragmento de audio
correspondiente, en el instante T3, comienza a producir huellas
digitales que coinciden menos y de este modo tienen una BER en
aumento, que alcanza el umbral de reconocimiento del 35% en el
instante T4. La duración de la curva de coincidencia obtenida
(T1-T4) y la duración de la meseta
(T2-T3) son cada uno más cortas que la duración del
fragmento de audio emparejado (T0-T3).
En una realización, se usa un algoritmo de
detección de bordes para determinar los bordes exactos de una trama
o fragmento de audio coincidente. Se obtiene una curva de BER tal
como la ilustrada en la Fig. 4. La curva de BER se segmenta en
regiones, que corresponden al principio de la coincidencia con una
BER decreciente (por ejemplo, T1-T2), la meseta con
una BER aproximadamente constante (por ejemplo
T2-T3), y el final de la coincidencia con una BER
en aumento (por ejemplo, T3-T4). Debido a que una
curva real de BER será generalmente ruidosa, se segmenta usando una
técnica apropiada tal como un análisis de regresión. En una
realización, todas las muestras que producen una BER por encima del
35% se ignoran porque pueden no ser fiables. El comienzo del
fragmento de audio de coincidencia (es decir el instante T1) puede
calcularse entonces usando la regresión lineal como el cruce de la
línea que fija del mejor modo una región de BER decreciente (por
ejemplo, T1-T2) con una línea horizontal que
corresponde a una BER del 50%. Puede aplicarse una propuesta similar
para estimar el instante T5, tomando la intersección de la línea
que fija del mejor modo una región de BER creciente (por ejemplo
T3-T4) y una línea horizontal que corresponde a una
BER del 50%. Sin embargo en este caso el instante T5 corresponde al
final del fragmento retrasado por la duración B del almacenamiento
de la sub-banda, no el final real del fragmento de
audio coincidente. La localización del final del fragmento (es
decir, el instante T3) puede calcularse restando la duración del
almacenamiento de la sub-banda B del instante
estimado obtenido T5.
En otra realización, el final del fragmento de
audio coincidente se estima como el final de la región
T2-T3, y el comienzo del fragmento de audio se
calcula restando la duración del almacenamiento de la
sub-banda B del instante T2, que corresponde con el
principio de la región T2-T3.
Aunque tratado en términos de vectores y
matrices, la información calculada para cualquier huella digital o
sub-huella digital puede almacenarse y procesarse de
cualquier forma, no sólo como un vector o matriz de valores. Los
términos de vector y matriz se usan de este modo sólo como un
mecanismo conveniente para expresar los datos extraídos de una
muestra de audio y no significa que sea una limitación de ninguna
otra forma. Además, aunque el espectro de potencia se trata en
términos de un espectrograma, se entiende que los datos que
representan el espectro de potencia o análisis espectral de una
señal de audio puedan representarse y usarse no sólo como un
espectrograma, sino de cualquier otra forma adecuada.
En una realización, se implementa un módulo
software con un producto de programa de ordenador que comprende un
medio legible por un ordenador que contiene un código de programa de
ordenador, que puede ejecutarse por un procesador de ordenador para
realizar cualquiera o todas las etapas, operaciones o procesos
descritos en este documento. Por consiguiente, cualquiera de las
etapas, operaciones, o procesos descritos en este documento pueden
realizarse o implementarse con uno o más módulos software o módulos
hardware, solos o en combinación con otros dispositivos. Además,
cualesquiera porciones del sistema descritos en términos de
elementos hardware pueden implementarse en software, y cualesquiera
porciones del sistema descritos en términos de elementos software
puede implementarse en hardware, tal como un hardware codificado
dentro de un circuito dedicado. Por ejemplo, el código para
realizar los métodos descritos puede incorporarse en un dispositivo
hardware, por ejemplo en un ASIC o en otra circuitería a medida.
Esto permite combinar los beneficios de la invención con las
capacidades de muchos dispositivos diferentes.
En otra realización, el algoritmo de huellas
digitales se incorpora y funciona sobre cualquiera de una variedad
de dispositivos de audio, tales como un teléfono celular, un
asistente digital personal (PDA), un reproductor y/o grabador de
MP3, un decodificador digital de televisión, o cualquier otro
dispositivo que almacena o reproduce un contenido de audio. La
incorporación del algoritmo de generación de huellas digitales sobre
tal dispositivo puede tener varios beneficios. Por ejemplo, generar
huellas digitales de audio directamente sobre un teléfono celular
proporcionaría mejores resultados, comparado con enviar audio
comprimido desde el teléfono a un servidor generador de huellas
digitales sobre la red celular. El funcionamiento del algoritmo
sobre el teléfono celular elimina las distorsiones causadas por la
compresión GSM, que se diseñó para comprimir la voz y funciona
pobremente con la música. Por consiguiente, esta propuesta puede
mejorar significativamente el reconocimiento del audio grabado por
un teléfono celular. También reduce la carga sobre los servidores
así como el tráfico de la red.
Otro beneficio de tal proposición incorporada es
la capacidad de monitorizar la experiencia de escucha sin violar la
privacidad y derechos de usuario. Por ejemplo, un dispositivo de
grabación puede grabar audio, crear huellas digitales, y enviar a
continuación sólo las huellas digitales a un servidor para su
análisis. El audio grabado nunca deja el dispositivo. El servidor
puede a continuación identificar la música o anuncios objetivo
usando las huellas digitales enviadas, incluso aunque sea imposible
recuperar el audio original a partir de las huellas digitales.
La anterior descripción de las realizaciones de
la invención se ha presentado con propósito de ilustración; no se
ha intentado que sea exhaustiva, ni limitar la invención a las
formas precisas descritas. Las personas especialistas en la técnica
relevante pueden apreciar que son posibles muchas modificaciones y
variaciones a la luz de las enseñanzas anteriores. Por lo tanto se
intenta que el alcance de la invención esté limitado no por esta
descripción detallada sino sólo por las reivindicaciones adjuntas a
la misma.
Claims (28)
1. Un método para extraer una huella digital de
audio a partir de una trama de audio, comprendiendo el método:
filtrar la trama de audio en una pluralidad de
bandas de frecuencia para producir una pluralidad correspondiente
de señales de audio filtradas;
muestrear de nuevo las señales de audio
filtradas en una escala de tiempos no lineal;
transformar las señales de audio muestreadas de
nuevo para cada frecuencia para producir un vector de
características para la banda de frecuencia; y
calcular la huella digital de audio en base al
conjunto de vectores de características.
2. El método de la reivindicación 1, en el que
filtrar la trama de audio en una pluralidad de bandas de frecuencia
comprende filtrar en paso banda la trama de audio en cada una de la
pluralidad de bandas de frecuencia.
3. El método de la reivindicación 1, en el que
filtrar la trama de audio en una pluralidad de bandas de frecuencia
comprende realizar una Transformada Rápida de Fourier (FFT) sobre la
muestra de audio.
4. El método de la reivindicación 1, en el que
la trama de audio es parte de un fichero de audio almacenado en un
formato MP3, y las señales de audio filtradas se obtienen a partir
de un banco de filtrado híbrido de MP3 asociado con el fichero de
audio.
5. El método de la reivindicación 1, en el que
las señales de audio filtradas se muestrean de nuevo en una escala
logarítmica del tiempo.
6. El método de la reivindicación 1, en el que
las bandas de frecuencia están espaciadas linealmente en el eje de
frecuencias.
7. El método de la reivindicación 1, en el que
las bandas de frecuencia se solapan.
8. El método de la reivindicación 1, en el que
transformar la señal de audio filtrada muestreada de nuevo de una
banda de frecuencias particular comprende realizar una Transformada
Rápida de Fourier (FFT) sobre la señal de audio muestreada de
nuevo.
9. El método de la reivindicación 1, en el que
calcular la huella digital de audio comprende codificar
diferencialmente los vectores de características para las bandas de
frecuencias.
10. El método de la reivindicación 1, que
comprende además:
calcular un valor índice para la huella digital
de audio, comprendiendo el valor índice una porción de la huella
digital de audio.
11. El método de la reivindicación 10, en el que
el valor índice comprende una porción de la huella digital de audio
que corresponde a un conjunto de componentes de baja frecuencia de
las señales de audio transformadas.
12. El método de la reivindicación 1, que
comprende además:
descartar una porción de la huella digital de
audio, donde la porción descartada de la huella digital de
audio
corresponde a un intervalo de frecuencia determinado que es insignificante de acuerdo con un modelo acústi-
co.
corresponde a un intervalo de frecuencia determinado que es insignificante de acuerdo con un modelo acústi-
co.
13. El método de la reivindicación 12, en el que
el modelo acústico es un modelo psicoacústico.
14. El método de la reivindicación 12, en el que
el modelo acústico imita las propiedades de un proceso de
codificación de audio.
15. El método de la reivindicación 12, en el que
el modelo acústico imita las propiedades de un entorno.
16. El método de la reivindicación 12, en el que
el modelo acústico imita las propiedades de una señal de audio.
17. Un método para crear una base de datos de
huellas digitales de audio, comprendiendo el método:
generar una pluralidad de huellas digitales de
audio, generada cada huella digital de audio de acuerdo con el
método de la reivindicación 1;
\global\parskip0.950000\baselineskip
calcular un valor índice para cada huella
digital de audio, comprendiendo el valor índice una porción de la
huella digital de audio; y
agrupar las huellas digitales en la base de
datos de acuerdo con sus valores índices.
18. Un método para detectar un borde de un
fragmento de audio comprendiendo el método:
recibir una señal de entrada que representa el
fragmento de audio;
almacenar en un almacenamiento de longitud
finita la porción más reciente de la señal de entrada recibida;
para cada uno de la pluralidad de instantes
mientras que se recibe la señal de entrada, calcular una huella
digital para la porción de la señal de entrada recibida almacenada
en el almacenamiento de acuerdo con el método de la reivindicación
1;
calcular una tasa de errores de bit (BER) entre
cada una de las huellas digitales calculadas y una huella digital
de referencia asociada con el fragmento de audio; e
identificar un borde del fragmento de audio en
base a las BER calculadas sobre el tiempo.
19. El método de la reivindicación 18, en el que
identificar un borde del fragmento de audio comprende:
encontrar la mejor línea de encaje que coincide
con una porción de las BER calculadas durante un periodo de BER
decrecientes con el tiempo; e
identificar el borde de comienzo del fragmento
de audio como la intercesión entre la línea de mejor encaje y la
línea horizontal en la que la BER es igual al 50%.
20. El método de la reivindicación 18, en el que
identificar un borde del segmento de audio comprende:
encontrar la mejor línea de encaje que coincide
con una porción de las BER calculadas durante un periodo de BER
crecientes con el tiempo; e
identificar el borde de terminación del
fragmento de audio como la intercesión entre la línea de mejor
encaje y la línea horizontal en la que la BER es igual al 50%,
restando la longitud del almacenamiento.
21. Un método para extraer una huella digital de
audio desde una trama de audio, comprendiendo el método:
una etapa para calcular un espectrograma para la
trama de audio;
muestrear el espectrograma en una escala de
tiempos no lineal para una pluralidad de bandas de frecuencia en el
espectrograma;
una etapa de extraer un vector de
características de larga duración usando las muestras desde cada una
de las bandas de frecuencia muestreadas, y
una etapa para generar la huella digital de
audio en base a los vectores de características.
22. El método de la reivindicación 21, en el que
el espectrograma se muestrea a una escala de tiempo logarítmica.
23. El método de la reivindicación 1, en el la
transformación de la señal de audio filtrada muestreada de nuevo de
una banda de frecuencias particular comprende realizar una
Transformada Discreta del Coseno (DCT) sobre la señal de audio
muestreada de nuevo.
24. El método de la reivindicación 21, en el que
las bandas de frecuencia tienen una distribución logarítmica
respecto de la frecuencia en el eje de la frecuencia.
25. El método de la reivindicación 1, en el que
las señales de audio filtradas se muestrean de nuevo a una escala
de tiempos exponencial.
26. El método de la reivindicación 9, en el que
el cálculo de las huellas digitales de audio comprende codificar
los vectores de características para las bandas de frecuencia
asignando valores de bit de acuerdo con una tabla de códigos.
27. El método de la reivindicación 26, que
comprende además:
calcular los valores de la tabla de códigos
durante la puesta a punto y el proceso de entrenamiento.
28. Un producto programa de ordenador que
comprende un medio legible por un ordenador que contiene el código
del programa del ordenador para realizar el método de cualquiera de
las reivindicaciones anteriores.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US219385 | 2005-09-01 | ||
US11/219,385 US7516074B2 (en) | 2005-09-01 | 2005-09-01 | Extraction and matching of characteristic fingerprints from audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2309924T3 true ES2309924T3 (es) | 2008-12-16 |
Family
ID=37400951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES06254266T Active ES2309924T3 (es) | 2005-09-01 | 2006-08-15 | Estraccion y emparejamiento de huellas digitales caracteristicas de las señales de audio. |
Country Status (6)
Country | Link |
---|---|
US (3) | US7516074B2 (es) |
EP (1) | EP1760693B1 (es) |
JP (1) | JP5362178B2 (es) |
AT (1) | ATE403212T1 (es) |
DE (1) | DE602006002006D1 (es) |
ES (1) | ES2309924T3 (es) |
Families Citing this family (237)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9711153B2 (en) | 2002-09-27 | 2017-07-18 | The Nielsen Company (Us), Llc | Activating functions in processing devices using encoded audio and detecting audio signatures |
US8959016B2 (en) | 2002-09-27 | 2015-02-17 | The Nielsen Company (Us), Llc | Activating functions in processing devices using start codes embedded in audio |
CA2557198A1 (en) * | 2004-02-26 | 2005-09-09 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of broadcast audio or video programming signal |
US8229751B2 (en) * | 2004-02-26 | 2012-07-24 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals |
US20060155754A1 (en) * | 2004-12-08 | 2006-07-13 | Steven Lubin | Playlist driven automated content transmission and delivery system |
US7516074B2 (en) * | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
KR100803206B1 (ko) | 2005-11-11 | 2008-02-14 | 삼성전자주식회사 | 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 |
US20070162761A1 (en) | 2005-12-23 | 2007-07-12 | Davis Bruce L | Methods and Systems to Help Detect Identity Fraud |
US20090006337A1 (en) * | 2005-12-30 | 2009-01-01 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified video signals |
JP4665836B2 (ja) * | 2006-05-31 | 2011-04-06 | 日本ビクター株式会社 | 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム |
US20080051029A1 (en) * | 2006-08-25 | 2008-02-28 | Bradley James Witteman | Phone-based broadcast audio identification |
US7645929B2 (en) * | 2006-09-11 | 2010-01-12 | Hewlett-Packard Development Company, L.P. | Computational music-tempo estimation |
US7812241B2 (en) * | 2006-09-27 | 2010-10-12 | The Trustees Of Columbia University In The City Of New York | Methods and systems for identifying similar songs |
US9179200B2 (en) * | 2007-03-14 | 2015-11-03 | Digimarc Corporation | Method and system for determining content treatment |
KR100893123B1 (ko) | 2007-05-07 | 2009-04-10 | (주)엔써즈 | 오디오 핑거프린트 데이터 생성 방법 및 장치 및 이를이용한 오디오 데이터 비교 방법 및 장치 |
US7912894B2 (en) * | 2007-05-15 | 2011-03-22 | Adams Phillip M | Computerized, copy-detection and discrimination apparatus and method |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
WO2009004727A1 (ja) * | 2007-07-04 | 2009-01-08 | Fujitsu Limited | 符号化装置、符号化方法および符号化プログラム |
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
WO2009024031A1 (en) | 2007-08-22 | 2009-02-26 | Yuvad Technologies Co., Ltd. | A system for identifying motion video content |
US9177209B2 (en) * | 2007-12-17 | 2015-11-03 | Sinoeast Concept Limited | Temporal segment based extraction and robust matching of video fingerprints |
KR100939215B1 (ko) * | 2007-12-17 | 2010-01-28 | 한국전자통신연구원 | 인덱스 데이터베이스 생성 장치 및 검색 장치 |
CN101493987B (zh) * | 2008-01-24 | 2011-08-31 | 深圳富泰宏精密工业有限公司 | 手机声控遥控系统及方法 |
US8806021B2 (en) * | 2008-01-28 | 2014-08-12 | Sony Corporation | Methods, portable electronic devices, systems and computer program products for automatically creating social networking services (SNS) |
DE102008009025A1 (de) * | 2008-02-14 | 2009-08-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals |
DE102008009024A1 (de) | 2008-02-14 | 2009-08-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals |
JP5262171B2 (ja) | 2008-02-19 | 2013-08-14 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
WO2009107049A2 (en) * | 2008-02-26 | 2009-09-03 | Koninklijke Philips Electronics N.V. | Content identification method |
GB2458471A (en) * | 2008-03-17 | 2009-09-23 | Taylor Nelson Sofres Plc | A signature generating device for an audio signal and associated methods |
JP5204893B2 (ja) * | 2008-03-31 | 2013-06-05 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 分散型媒体フィンガープリントリポジトリ |
WO2009140820A1 (en) | 2008-05-21 | 2009-11-26 | Yuvad Technologies Co., Ltd. | A system for extracting a finger print data from video/audio signals |
US8370382B2 (en) | 2008-05-21 | 2013-02-05 | Ji Zhang | Method for facilitating the search of video content |
WO2009140819A1 (en) | 2008-05-21 | 2009-11-26 | Yuvad Technologies Co., Ltd. | A system for facilitating the search of video content |
WO2009140822A1 (en) | 2008-05-22 | 2009-11-26 | Yuvad Technologies Co., Ltd. | A method for extracting a fingerprint data from video/audio signals |
US8577077B2 (en) | 2008-05-22 | 2013-11-05 | Yuvad Technologies Co., Ltd. | System for identifying motion video/audio content |
US20090313249A1 (en) * | 2008-06-11 | 2009-12-17 | Bennett James D | Creative work registry independent server |
US8700194B2 (en) * | 2008-08-26 | 2014-04-15 | Dolby Laboratories Licensing Corporation | Robust media fingerprints |
US20100057527A1 (en) * | 2008-08-29 | 2010-03-04 | Disney Enterprises, Inc. | System and method for personalized action based on a comparison of delivered content with a content fingerprint database |
US20100205628A1 (en) | 2009-02-12 | 2010-08-12 | Davis Bruce L | Media processing methods and arrangements |
US9355554B2 (en) * | 2008-11-21 | 2016-05-31 | Lenovo (Singapore) Pte. Ltd. | System and method for identifying media and providing additional media content |
DE102009044480B4 (de) | 2008-11-21 | 2014-04-03 | Lenovo (Singapore) Pte. Ltd. | Anordnung und Verfahren zum Identifizieren von Medien und zum Bereitstellen von zusätzlichem Medieninhalt |
US8180891B1 (en) | 2008-11-26 | 2012-05-15 | Free Stream Media Corp. | Discovery, access control, and communication with networked services from within a security sandbox |
US9154942B2 (en) | 2008-11-26 | 2015-10-06 | Free Stream Media Corp. | Zero configuration communication between a browser and a networked media device |
US10334324B2 (en) | 2008-11-26 | 2019-06-25 | Free Stream Media Corp. | Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device |
US10567823B2 (en) | 2008-11-26 | 2020-02-18 | Free Stream Media Corp. | Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device |
US10977693B2 (en) | 2008-11-26 | 2021-04-13 | Free Stream Media Corp. | Association of content identifier of audio-visual data with additional data through capture infrastructure |
US9986279B2 (en) | 2008-11-26 | 2018-05-29 | Free Stream Media Corp. | Discovery, access control, and communication with networked services |
US9961388B2 (en) | 2008-11-26 | 2018-05-01 | David Harrison | Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements |
US9519772B2 (en) | 2008-11-26 | 2016-12-13 | Free Stream Media Corp. | Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device |
US10631068B2 (en) | 2008-11-26 | 2020-04-21 | Free Stream Media Corp. | Content exposure attribution based on renderings of related content across multiple devices |
US10880340B2 (en) | 2008-11-26 | 2020-12-29 | Free Stream Media Corp. | Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device |
US10419541B2 (en) | 2008-11-26 | 2019-09-17 | Free Stream Media Corp. | Remotely control devices over a network without authentication or registration |
US8452586B2 (en) * | 2008-12-02 | 2013-05-28 | Soundhound, Inc. | Identifying music from peaks of a reference sound fingerprint |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US8433431B1 (en) | 2008-12-02 | 2013-04-30 | Soundhound, Inc. | Displaying text to end users in coordination with audio playback |
WO2010066269A1 (en) * | 2008-12-10 | 2010-06-17 | Agnitio, S.L. | Method for verifying the identify of a speaker and related computer readable medium and computer |
US9767806B2 (en) * | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
GB2466242B (en) * | 2008-12-15 | 2013-01-02 | Audio Analytic Ltd | Sound identification systems |
GB2467324B (en) | 2009-01-28 | 2014-03-26 | Norwell Sa | Device, system and method for measurement of media consumption in digital media terminals |
US20100205222A1 (en) * | 2009-02-10 | 2010-08-12 | Tom Gajdos | Music profiling |
CA2754170A1 (en) * | 2009-03-11 | 2010-09-16 | Paymaan Behrouzi | Digital signatures |
CN102414683B (zh) * | 2009-05-08 | 2014-05-21 | 杜比实验室特许公司 | 基于媒体内容的分类来存储和检索从媒体内容中导出的指纹 |
US8687839B2 (en) * | 2009-05-21 | 2014-04-01 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
US8718805B2 (en) * | 2009-05-27 | 2014-05-06 | Spot411 Technologies, Inc. | Audio-based synchronization to media |
US8489774B2 (en) | 2009-05-27 | 2013-07-16 | Spot411 Technologies, Inc. | Synchronized delivery of interactive content |
US9449090B2 (en) | 2009-05-29 | 2016-09-20 | Vizio Inscape Technologies, Llc | Systems and methods for addressing a media database using distance associative hashing |
US10116972B2 (en) | 2009-05-29 | 2018-10-30 | Inscape Data, Inc. | Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device |
US9094715B2 (en) | 2009-05-29 | 2015-07-28 | Cognitive Networks, Inc. | Systems and methods for multi-broadcast differentiation |
US10949458B2 (en) | 2009-05-29 | 2021-03-16 | Inscape Data, Inc. | System and method for improving work load management in ACR television monitoring system |
US8769584B2 (en) | 2009-05-29 | 2014-07-01 | TVI Interactive Systems, Inc. | Methods for displaying contextually targeted content on a connected television |
US8713068B2 (en) * | 2009-06-11 | 2014-04-29 | Yahoo! Inc. | Media identification system with fingerprint database balanced according to search loads |
US8190663B2 (en) * | 2009-07-06 | 2012-05-29 | Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung | Method and a system for identifying similar audio tracks |
WO2011009946A1 (en) | 2009-07-24 | 2011-01-27 | Johannes Kepler Universität Linz | A method and an apparatus for deriving information from an audio track and determining similarity between audio tracks |
US8706276B2 (en) * | 2009-10-09 | 2014-04-22 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for identifying matching audio |
DK2317517T3 (da) * | 2009-10-09 | 2014-07-28 | Adelphoi Ltd | Generering af metadata-registrering |
JP2011080937A (ja) * | 2009-10-09 | 2011-04-21 | Sumitomo Chemical Co Ltd | 保温材下腐食の検査方法 |
US9218530B2 (en) | 2010-11-04 | 2015-12-22 | Digimarc Corporation | Smartphone-based methods and systems |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US8175617B2 (en) | 2009-10-28 | 2012-05-08 | Digimarc Corporation | Sensor-based mobile search, related methods and systems |
US8594392B2 (en) * | 2009-11-18 | 2013-11-26 | Yahoo! Inc. | Media identification system for efficient matching of media items having common content |
JP5148586B2 (ja) * | 2009-12-01 | 2013-02-20 | 株式会社東芝 | 復号装置および復号方法 |
US8886531B2 (en) * | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
CN102196192A (zh) * | 2010-03-17 | 2011-09-21 | 联想(新加坡)私人有限公司 | 用于识别媒体并提供额外的媒体内容的系统和方法 |
US9264785B2 (en) * | 2010-04-01 | 2016-02-16 | Sony Computer Entertainment Inc. | Media fingerprinting for content determination and retrieval |
US9026034B2 (en) | 2010-05-04 | 2015-05-05 | Project Oda, Inc. | Automatic detection of broadcast programming |
US8694533B2 (en) | 2010-05-19 | 2014-04-08 | Google Inc. | Presenting mobile content based on programming context |
EP2580750B1 (en) * | 2010-06-09 | 2014-05-14 | Adelphoi Limited | System and method for audio media recognition |
US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
GB2546026B (en) | 2010-10-01 | 2017-08-23 | Asio Ltd | Data communication system |
KR20120034378A (ko) * | 2010-10-01 | 2012-04-12 | 엔에이치엔(주) | 사운드 인식을 통한 광고 정보 제공 시스템 및 방법 |
US8863165B2 (en) * | 2010-11-01 | 2014-10-14 | Gracenote, Inc. | Method and system for presenting additional content at a media system |
US9484046B2 (en) | 2010-11-04 | 2016-11-01 | Digimarc Corporation | Smartphone-based methods and systems |
US9558651B2 (en) | 2010-11-12 | 2017-01-31 | Lenovo (Singapore) Pte. Ltd. | Convertible wireless remote controls |
US9270798B2 (en) | 2010-12-03 | 2016-02-23 | International Business Machines Corporation | Ring-tone detection in a VoIP call |
US8989395B2 (en) | 2010-12-07 | 2015-03-24 | Empire Technology Development Llc | Audio fingerprint differences for end-to-end quality of experience measurement |
US20120197612A1 (en) * | 2011-01-28 | 2012-08-02 | International Business Machines Corporation | Portable wireless device for monitoring noise |
GB2487795A (en) * | 2011-02-07 | 2012-08-08 | Slowink Ltd | Indexing media files based on frequency content |
US9093120B2 (en) * | 2011-02-10 | 2015-07-28 | Yahoo! Inc. | Audio fingerprint extraction by scaling in time and resampling |
US8688631B2 (en) | 2011-03-17 | 2014-04-01 | Alexander Savenok | System and method for media file synchronization |
US8589171B2 (en) | 2011-03-17 | 2013-11-19 | Remote Media, Llc | System and method for custom marking a media file for file matching |
US8478719B2 (en) | 2011-03-17 | 2013-07-02 | Remote Media LLC | System and method for media file synchronization |
US9002490B2 (en) * | 2011-04-13 | 2015-04-07 | Longsand Limted | Methods and systems for generating frictionless social experience environment |
TWI450266B (zh) * | 2011-04-19 | 2014-08-21 | Hon Hai Prec Ind Co Ltd | 電子裝置及音頻資料的解碼方法 |
US8719019B2 (en) * | 2011-04-25 | 2014-05-06 | Microsoft Corporation | Speaker identification |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
US8621548B2 (en) | 2011-05-12 | 2013-12-31 | At&T Intellectual Property I, L.P. | Method and apparatus for augmenting media services |
US20120294457A1 (en) * | 2011-05-17 | 2012-11-22 | Fender Musical Instruments Corporation | Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function |
JP5772957B2 (ja) | 2011-07-14 | 2015-09-02 | 日本電気株式会社 | 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム |
US20110296452A1 (en) * | 2011-08-08 | 2011-12-01 | Lei Yu | System and method for providing content-aware persistent advertisements |
US8793274B2 (en) * | 2011-08-08 | 2014-07-29 | Lei Yu | System and method for auto content recognition |
WO2013043393A1 (en) | 2011-09-23 | 2013-03-28 | Digimarc Corporation | Context-based smartphone sensor logic |
US9384272B2 (en) | 2011-10-05 | 2016-07-05 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for identifying similar songs using jumpcodes |
US9223893B2 (en) | 2011-10-14 | 2015-12-29 | Digimarc Corporation | Updating social graph data using physical objects identified from images captured by smartphone |
US9402099B2 (en) | 2011-10-14 | 2016-07-26 | Digimarc Corporation | Arrangements employing content identification and/or distribution identification data |
US9098576B1 (en) | 2011-10-17 | 2015-08-04 | Google Inc. | Ensemble interest point detection for audio matching |
US8831763B1 (en) * | 2011-10-18 | 2014-09-09 | Google Inc. | Intelligent interest point pruning for audio matching |
US8805560B1 (en) | 2011-10-18 | 2014-08-12 | Google Inc. | Noise based interest point density pruning |
US9299110B2 (en) * | 2011-10-19 | 2016-03-29 | Facebook, Inc. | Periodic ambient waveform analysis for dynamic device configuration |
US8886543B1 (en) | 2011-11-15 | 2014-11-11 | Google Inc. | Frequency ratio fingerprint characterization for audio matching |
JP5982791B2 (ja) | 2011-11-16 | 2016-08-31 | ソニー株式会社 | 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム |
US9367612B1 (en) * | 2011-11-18 | 2016-06-14 | Google Inc. | Correlation-based method for representing long-timescale structure in time-series data |
US8586847B2 (en) * | 2011-12-02 | 2013-11-19 | The Echo Nest Corporation | Musical fingerprinting based on onset intervals |
US8949872B2 (en) * | 2011-12-20 | 2015-02-03 | Yahoo! Inc. | Audio fingerprint for content identification |
US20130178966A1 (en) * | 2012-01-09 | 2013-07-11 | Function(x), Inc. | Method and System for Identifying a Media Program From an Audio Signal Associated With the Media Program |
US9268845B1 (en) | 2012-03-08 | 2016-02-23 | Google Inc. | Audio matching using time alignment, frequency alignment, and interest point overlap to filter false positives |
US9471673B1 (en) | 2012-03-12 | 2016-10-18 | Google Inc. | Audio matching using time-frequency onsets |
US9292894B2 (en) | 2012-03-14 | 2016-03-22 | Digimarc Corporation | Content recognition and synchronization using local caching |
US9087124B1 (en) | 2012-03-26 | 2015-07-21 | Google Inc. | Adaptive weighting of popular reference content in audio matching |
US8681950B2 (en) * | 2012-03-28 | 2014-03-25 | Interactive Intelligence, Inc. | System and method for fingerprinting datasets |
US9148738B1 (en) | 2012-03-30 | 2015-09-29 | Google Inc. | Using local gradients for pitch resistant audio matching |
US8966571B2 (en) * | 2012-04-03 | 2015-02-24 | Google Inc. | Detection of potentially copyrighted content in user-initiated live streams |
US8953811B1 (en) * | 2012-04-18 | 2015-02-10 | Google Inc. | Full digest of an audio file for identifying duplicates |
US9703932B2 (en) * | 2012-04-30 | 2017-07-11 | Excalibur Ip, Llc | Continuous content identification of broadcast content |
US9418669B2 (en) * | 2012-05-13 | 2016-08-16 | Harry E. Emerson, III | Discovery of music artist and title for syndicated content played by radio stations |
KR101315970B1 (ko) * | 2012-05-23 | 2013-10-08 | (주)엔써즈 | 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 |
US8886635B2 (en) * | 2012-05-23 | 2014-11-11 | Enswers Co., Ltd. | Apparatus and method for recognizing content using audio signal |
US9235867B2 (en) * | 2012-06-04 | 2016-01-12 | Microsoft Technology Licensing, Llc | Concurrent media delivery |
WO2013184520A1 (en) | 2012-06-04 | 2013-12-12 | Stone Troy Christopher | Methods and systems for identifying content types |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US9451308B1 (en) | 2012-07-23 | 2016-09-20 | Google Inc. | Directed content presentation |
AU2013308637B2 (en) * | 2012-08-30 | 2018-07-26 | Interactive Intelligence, Inc. | Method and system for learning call analysis |
US20140136596A1 (en) * | 2012-11-09 | 2014-05-15 | Yahoo! Inc. | Method and system for capturing audio of a video to display supplemental content associated with the video |
US9159327B1 (en) * | 2012-12-20 | 2015-10-13 | Google Inc. | System and method for adding pitch shift resistance to an audio fingerprint |
US9529907B2 (en) * | 2012-12-31 | 2016-12-27 | Google Inc. | Hold back and real time ranking of results in a streaming matching system |
US9153239B1 (en) * | 2013-03-14 | 2015-10-06 | Google Inc. | Differentiating between near identical versions of a song |
US9679583B2 (en) * | 2013-03-15 | 2017-06-13 | Facebook, Inc. | Managing silence in audio signal identification |
US9460201B2 (en) * | 2013-05-06 | 2016-10-04 | Iheartmedia Management Services, Inc. | Unordered matching of audio fingerprints |
US20140336797A1 (en) * | 2013-05-12 | 2014-11-13 | Harry E. Emerson, III | Audio content monitoring and identification of broadcast radio stations |
KR101456926B1 (ko) * | 2013-06-14 | 2014-10-31 | (주)엔써즈 | 핑거프린트에 기반한 광고 검출 시스템 및 방법 |
US9244042B2 (en) * | 2013-07-31 | 2016-01-26 | General Electric Company | Vibration condition monitoring system and methods |
US9275427B1 (en) * | 2013-09-05 | 2016-03-01 | Google Inc. | Multi-channel audio video fingerprinting |
US9466317B2 (en) * | 2013-10-11 | 2016-10-11 | Facebook, Inc. | Generating a reference audio fingerprint for an audio signal associated with an event |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US9354778B2 (en) | 2013-12-06 | 2016-05-31 | Digimarc Corporation | Smartphone-based methods and systems |
US9955192B2 (en) | 2013-12-23 | 2018-04-24 | Inscape Data, Inc. | Monitoring individual viewing of television events using tracking pixels and cookies |
US9430474B2 (en) | 2014-01-15 | 2016-08-30 | Microsoft Technology Licensing, Llc | Automated multimedia content recognition |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
US10157272B2 (en) * | 2014-02-04 | 2018-12-18 | Qualcomm Incorporated | Systems and methods for evaluating strength of an audio password |
WO2015118431A1 (en) | 2014-02-05 | 2015-08-13 | Edge Innovation, Lda. | Method for capture and analysis of multimedia content |
US9311639B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods, apparatus and arrangements for device to device communication |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US10303800B2 (en) * | 2014-03-04 | 2019-05-28 | Interactive Intelligence Group, Inc. | System and method for optimization of audio fingerprint search |
NL2012567B1 (en) | 2014-04-04 | 2016-03-08 | Teletrax B V | Method and device for generating improved fingerprints. |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
CN105279193B (zh) * | 2014-07-22 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 文件处理方法及装置 |
WO2016024172A1 (en) | 2014-08-14 | 2016-02-18 | Yandex Europe Ag | Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine |
US9881083B2 (en) | 2014-08-14 | 2018-01-30 | Yandex Europe Ag | Method of and a system for indexing audio tracks using chromaprints |
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
US9548830B2 (en) | 2014-09-05 | 2017-01-17 | The Nielsen Company (Us), Llc | Methods and apparatus to generate signatures representative of media |
US9837101B2 (en) * | 2014-11-25 | 2017-12-05 | Facebook, Inc. | Indexing based on time-variant transforms of an audio signal's spectrogram |
US9363562B1 (en) | 2014-12-01 | 2016-06-07 | Stingray Digital Group Inc. | Method and system for authorizing a user device |
AU2015355209B2 (en) | 2014-12-01 | 2019-08-29 | Inscape Data, Inc. | System and method for continuous media segment identification |
WO2016123495A1 (en) | 2015-01-30 | 2016-08-04 | Vizio Inscape Technologies, Llc | Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device |
EP3284017B1 (en) | 2015-04-17 | 2024-03-27 | Inscape Data, Inc. | Systems and methods for reducing data density in large datasets |
WO2016172363A1 (en) | 2015-04-24 | 2016-10-27 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
CN106294331B (zh) * | 2015-05-11 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 音频信息检索方法及装置 |
US9818414B2 (en) * | 2015-06-04 | 2017-11-14 | Intel Corporation | Dialogue system with audio watermark |
US10080062B2 (en) | 2015-07-16 | 2018-09-18 | Inscape Data, Inc. | Optimizing media fingerprint retention to improve system resource utilization |
US11308144B2 (en) | 2015-07-16 | 2022-04-19 | Inscape Data, Inc. | Systems and methods for partitioning search indexes for improved efficiency in identifying media segments |
JP6903653B2 (ja) | 2015-07-16 | 2021-07-14 | インスケイプ データ インコーポレイテッド | 共通メディアセグメントの検出 |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
CN107016999B (zh) | 2015-10-16 | 2022-06-14 | 谷歌有限责任公司 | 热词识别 |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US10594689B1 (en) | 2015-12-04 | 2020-03-17 | Digimarc Corporation | Robust encoding of machine readable information in host objects and biometrics, and associated decoding and authentication |
US10074364B1 (en) * | 2016-02-02 | 2018-09-11 | Amazon Technologies, Inc. | Sound profile generation based on speech recognition results exceeding a threshold |
WO2017151443A1 (en) * | 2016-02-29 | 2017-09-08 | Myteamcalls Llc | Systems and methods for customized live-streaming commentary |
US9924222B2 (en) | 2016-02-29 | 2018-03-20 | Gracenote, Inc. | Media channel identification with multi-match detection and disambiguation based on location |
US10063918B2 (en) | 2016-02-29 | 2018-08-28 | Gracenote, Inc. | Media channel identification with multi-match detection and disambiguation based on single-match |
US9930406B2 (en) * | 2016-02-29 | 2018-03-27 | Gracenote, Inc. | Media channel identification with video multi-match detection and disambiguation based on audio fingerprint |
US10606879B1 (en) | 2016-02-29 | 2020-03-31 | Gracenote, Inc. | Indexing fingerprints |
US10397663B2 (en) * | 2016-04-08 | 2019-08-27 | Source Digital, Inc. | Synchronizing ancillary data to content including audio |
US9786298B1 (en) | 2016-04-08 | 2017-10-10 | Source Digital, Inc. | Audio fingerprinting based on audio energy characteristics |
US10936651B2 (en) | 2016-06-22 | 2021-03-02 | Gracenote, Inc. | Matching audio fingerprints |
US20170371963A1 (en) * | 2016-06-27 | 2017-12-28 | Facebook, Inc. | Systems and methods for identifying matching content |
CN106910494B (zh) * | 2016-06-28 | 2020-11-13 | 创新先进技术有限公司 | 一种音频识别方法和装置 |
US9728188B1 (en) * | 2016-06-28 | 2017-08-08 | Amazon Technologies, Inc. | Methods and devices for ignoring similar audio being received by a system |
WO2018026162A1 (en) | 2016-08-01 | 2018-02-08 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of operating the same |
US10560207B2 (en) * | 2016-08-10 | 2020-02-11 | Naffa Innovations Private Limited | System and method for providing targeted secondary content delivery |
WO2018046088A1 (en) | 2016-09-09 | 2018-03-15 | Huawei Technologies Co., Ltd. | A device and method for classifying an acoustic environment |
GB201617408D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
GB201617409D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
US10225031B2 (en) | 2016-11-02 | 2019-03-05 | The Nielsen Company (US) | Methods and apparatus for increasing the robustness of media signatures |
GB201704636D0 (en) | 2017-03-23 | 2017-05-10 | Asio Ltd | A method and system for authenticating a device |
KR102690528B1 (ko) | 2017-04-06 | 2024-07-30 | 인스케이프 데이터, 인코포레이티드 | 미디어 시청 데이터를 사용하여 디바이스 맵의 정확도를 향상시키는 시스템 및 방법 |
GB2565751B (en) | 2017-06-15 | 2022-05-04 | Sonos Experience Ltd | A method and system for triggering events |
US10236005B2 (en) | 2017-06-08 | 2019-03-19 | The Nielsen Company (Us), Llc | Methods and apparatus for audio signature generation and matching |
CN107633078B (zh) * | 2017-09-25 | 2019-02-22 | 北京达佳互联信息技术有限公司 | 音频指纹提取方法、音视频检测方法、装置及终端 |
US10475462B2 (en) * | 2017-11-08 | 2019-11-12 | PlayFusion Limited | Audio recognition apparatus and method |
CN107607598B (zh) * | 2017-11-09 | 2020-09-01 | 湖南省食品质量监督检验研究院 | 基于非线性化学指纹图谱技术的黑枸杞真伪鉴别的方法 |
CN109903745B (zh) * | 2017-12-07 | 2021-04-09 | 北京雷石天地电子技术有限公司 | 一种生成伴奏的方法和系统 |
GB2570634A (en) | 2017-12-20 | 2019-08-07 | Asio Ltd | A method and system for improved acoustic transmission of data |
US10089994B1 (en) | 2018-01-15 | 2018-10-02 | Alex Radzishevsky | Acoustic fingerprint extraction and matching |
CN108447501B (zh) * | 2018-03-27 | 2020-08-18 | 中南大学 | 一种云存储环境下基于音频字的盗版视频检测方法与系统 |
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
KR102454002B1 (ko) * | 2018-04-02 | 2022-10-14 | 한국전자통신연구원 | 미디어의 시청률을 조사하기 위한 신호 처리 방법 및 그 방법을 수행하는 부가정보 삽입장치, 미디어 재생 장치, 시청률 조사 장치 |
CN108665905B (zh) * | 2018-05-18 | 2021-06-15 | 宁波大学 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
US11373404B2 (en) | 2018-05-18 | 2022-06-28 | Stats Llc | Machine learning for recognizing and interpreting embedded information card content |
US11264048B1 (en) | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
US11025985B2 (en) | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
TWI842484B (zh) | 2019-05-10 | 2024-05-11 | 美商六科股份有限公司 | 用於檢測和回應於在先前檢測到的指紋匹配之後檢測到的指紋不匹配的方法、非暫時性電腦可讀儲存媒體及計算系統 |
US11632598B2 (en) | 2019-05-10 | 2023-04-18 | Roku, Inc. | Content-modification system with responsive transmission of reference fingerprint data feature |
WO2020231813A1 (en) | 2019-05-10 | 2020-11-19 | The Nielsen Company (Us), Llc | Content-modification system with responsive transmission of reference fingerprint data feature |
CN110209872B (zh) * | 2019-05-29 | 2021-06-22 | 天翼爱音乐文化科技有限公司 | 片段音频歌词生成方法、装置、计算机设备和存储介质 |
US11234050B2 (en) * | 2019-06-18 | 2022-01-25 | Roku, Inc. | Use of steganographically-encoded data as basis to control dynamic content modification as to at least one modifiable-content segment identified based on fingerprint analysis |
CN110377782B (zh) * | 2019-07-12 | 2022-03-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检索方法、装置和存储介质 |
US11392640B2 (en) | 2019-09-05 | 2022-07-19 | Gracenote, Inc. | Methods and apparatus to identify media that has been pitch shifted, time shifted, and/or resampled |
US11922532B2 (en) | 2020-01-15 | 2024-03-05 | Digimarc Corporation | System for mitigating the problem of deepfake media content using watermarking |
CN111400542B (zh) * | 2020-03-20 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 音频指纹的生成方法、装置、设备及存储介质 |
US11988784B2 (en) | 2020-08-31 | 2024-05-21 | Sonos, Inc. | Detecting an audio signal with a microphone to determine presence of a playback device |
US11694692B2 (en) | 2020-11-11 | 2023-07-04 | Bank Of America Corporation | Systems and methods for audio enhancement and conversion |
CN113035213B (zh) * | 2020-12-24 | 2022-07-22 | 中国电影科学技术研究所 | 数字音频水印检测方法及装置 |
US20230030937A1 (en) * | 2021-07-29 | 2023-02-02 | Samsung Electronics Co., Ltd. | Method and apparatus with image preprocessing |
US20230136608A1 (en) * | 2021-10-28 | 2023-05-04 | Capped Out Media | System and methods for advertisement enhancement |
CN114339081A (zh) * | 2021-12-22 | 2022-04-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种字幕生成方法、电子设备及计算机可读存储介质 |
CN114443891B (zh) * | 2022-01-14 | 2022-12-06 | 北京有竹居网络技术有限公司 | 编码器的生成方法、指纹提取方法、介质及电子设备 |
CN117219125B (zh) * | 2023-11-07 | 2024-01-30 | 青岛科技大学 | 基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0573093A (ja) * | 1991-09-17 | 1993-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 信号特徴点の抽出方法 |
US5918223A (en) | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6266003B1 (en) | 1998-08-28 | 2001-07-24 | Sigma Audio Research Limited | Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals |
JP3174777B2 (ja) * | 1999-01-28 | 2001-06-11 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号処理方法および装置 |
US8326584B1 (en) | 1999-09-14 | 2012-12-04 | Gracenote, Inc. | Music searching methods based on human perception |
US7194752B1 (en) * | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US7174293B2 (en) * | 1999-09-21 | 2007-02-06 | Iceberg Industries Llc | Audio identification system and method |
US6834308B1 (en) | 2000-02-17 | 2004-12-21 | Audible Magic Corporation | Method and apparatus for identifying media content presented on a media playing device |
FR2807275B1 (fr) | 2000-04-04 | 2003-01-24 | Mobiclick | Systeme permettant de transmettre a un usager des informations relativement a une sequence sonore qu'il ecoute ou a ecoutee |
US6453252B1 (en) | 2000-05-15 | 2002-09-17 | Creative Technology Ltd. | Process for identifying audio content |
US7853664B1 (en) | 2000-07-31 | 2010-12-14 | Landmark Digital Services Llc | Method and system for purchasing pre-recorded music |
US6990453B2 (en) | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7562012B1 (en) | 2000-11-03 | 2009-07-14 | Audible Magic Corporation | Method and apparatus for creating a unique audio signature |
US20020072982A1 (en) | 2000-12-12 | 2002-06-13 | Shazam Entertainment Ltd. | Method and system for interacting with a user in an experiential environment |
US7359889B2 (en) | 2001-03-02 | 2008-04-15 | Landmark Digital Services Llc | Method and apparatus for automatically creating database for use in automated media recognition system |
US7328153B2 (en) | 2001-07-20 | 2008-02-05 | Gracenote, Inc. | Automatic identification of sound recordings |
US7003131B2 (en) | 2002-07-09 | 2006-02-21 | Kaleidescape, Inc. | Watermarking and fingerprinting digital content using alternative blocks to embed information |
CN1711531A (zh) | 2002-11-12 | 2005-12-21 | 皇家飞利浦电子股份有限公司 | 采指纹多媒体内容 |
JP2005266013A (ja) * | 2004-03-16 | 2005-09-29 | Tohoku Univ | Pn系列検出装置、pn系列検出回路およびそのプログラム |
US20060080356A1 (en) | 2004-10-13 | 2006-04-13 | Microsoft Corporation | System and method for inferring similarities between media objects |
US7516074B2 (en) * | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
KR100774585B1 (ko) * | 2006-02-10 | 2007-11-09 | 삼성전자주식회사 | 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치 |
US8412949B2 (en) * | 2006-05-05 | 2013-04-02 | Proxense, Llc | Personal digital key initialization and registration for secure transactions |
US8934545B2 (en) * | 2009-02-13 | 2015-01-13 | Yahoo! Inc. | Extraction of video fingerprints and identification of multimedia using video fingerprinting |
US8158870B2 (en) * | 2010-06-29 | 2012-04-17 | Google Inc. | Intervalgram representation of audio for melody recognition |
US8681950B2 (en) * | 2012-03-28 | 2014-03-25 | Interactive Intelligence, Inc. | System and method for fingerprinting datasets |
US9728205B2 (en) * | 2013-03-15 | 2017-08-08 | Facebook, Inc. | Generating audio fingerprints based on audio signal complexity |
US9679583B2 (en) * | 2013-03-15 | 2017-06-13 | Facebook, Inc. | Managing silence in audio signal identification |
-
2005
- 2005-09-01 US US11/219,385 patent/US7516074B2/en not_active Expired - Fee Related
-
2006
- 2006-08-15 AT AT06254266T patent/ATE403212T1/de not_active IP Right Cessation
- 2006-08-15 DE DE602006002006T patent/DE602006002006D1/de active Active
- 2006-08-15 EP EP06254266A patent/EP1760693B1/en not_active Not-in-force
- 2006-08-15 ES ES06254266T patent/ES2309924T3/es active Active
- 2006-08-28 JP JP2006230500A patent/JP5362178B2/ja active Active
-
2009
- 2009-02-24 US US12/392,062 patent/US8396705B2/en not_active Expired - Fee Related
-
2013
- 2013-03-11 US US13/793,952 patent/US9208790B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20070055500A1 (en) | 2007-03-08 |
EP1760693B1 (en) | 2008-07-30 |
US9208790B2 (en) | 2015-12-08 |
US8396705B2 (en) | 2013-03-12 |
JP5362178B2 (ja) | 2013-12-11 |
EP1760693A1 (en) | 2007-03-07 |
DE602006002006D1 (de) | 2008-09-11 |
US20090157391A1 (en) | 2009-06-18 |
JP2007065659A (ja) | 2007-03-15 |
ATE403212T1 (de) | 2008-08-15 |
US7516074B2 (en) | 2009-04-07 |
US20130197913A1 (en) | 2013-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2309924T3 (es) | Estraccion y emparejamiento de huellas digitales caracteristicas de las señales de audio. | |
TWI480855B (zh) | 聲音訊號之特徵指紋擷取與匹配 | |
US10236006B1 (en) | Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing | |
ES2459391T3 (es) | Método y sistema para conseguir hashing de audio invariante al canal | |
ES2488719T3 (es) | Sistema y método para el reconocimiento de medios de audio | |
US9317561B2 (en) | Scene change detection around a set of seed points in media data | |
EP2494544B1 (en) | Complexity scalable perceptual tempo estimation | |
ES2227453T3 (es) | Procedimiento y dispositivo para caracterizar una señal y procedimiento y dispositivo para producir una señal indexada. | |
US20140330556A1 (en) | Low complexity repetition detection in media data | |
JP2004536348A (ja) | 録音の自動識別 | |
US10832700B2 (en) | Sound file sound quality identification method and apparatus | |
BRPI0308691B1 (pt) | “Métodos para codificar um sinal de canal múltiplo e para decodificar informação de sinal de canal múltiplo, e arranjos para codificar e decodificar um sinal de canal múltiplo” | |
CN105719660B (zh) | 一种基于量化特性的语音篡改定位检测方法 | |
ES2349961T3 (es) | Método de generación de una huella para una señal útil. | |
Yadav et al. | ASSD: Synthetic Speech Detection in the AAC Compressed Domain | |
US10819884B2 (en) | Method and device for processing multimedia data | |
You et al. | Music Identification System Using MPEG‐7 Audio Signature Descriptors | |
CN109829265A (zh) | 一种音频作品的侵权取证方法和系统 | |
CN115132183B (zh) | 音频识别模型的训练方法、装置、设备、介质及程序产品 | |
CN118116396A (zh) | 一种将信息隐藏到声音信号中的方法及检测方法 | |
Eom et al. | A Robust Music Retrieval System | |
Van Nieuwenhuizen | Comparison of two audio fingerprinting algorithms for advertisement identification |