ES2312772T3 - Equivalencia solida e invariante de patron de audio. - Google Patents

Equivalencia solida e invariante de patron de audio. Download PDF

Info

Publication number
ES2312772T3
ES2312772T3 ES03724113T ES03724113T ES2312772T3 ES 2312772 T3 ES2312772 T3 ES 2312772T3 ES 03724113 T ES03724113 T ES 03724113T ES 03724113 T ES03724113 T ES 03724113T ES 2312772 T3 ES2312772 T3 ES 2312772T3
Authority
ES
Spain
Prior art keywords
relative
digital
value
peak
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03724113T
Other languages
English (en)
Inventor
Avery Li-Chun Wang
Daniel Culbert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Landmark Digital Services LLC
Original Assignee
Landmark Digital Services LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Landmark Digital Services LLC filed Critical Landmark Digital Services LLC
Application granted granted Critical
Publication of ES2312772T3 publication Critical patent/ES2312772T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

Un método para caracterizar una relación de una primera y una segunda muestra de audio, que consiste en los siguientes pasos: - generar un primer conjunto de objetos con impresiones digitales (310) para la primera muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la primera muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la primera muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la primera muestra de audio en o cerca de cada respectiva localización; - generar una segundo conjunto de objetos con impresiones digitales (320) para la segunda muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la segunda muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la segunda muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la segunda muestra de audio en o cerca de cada respectiva localización; - emparejar objetos con impresiones digitales (352) haciendo coincidir un primer objeto con impresión digital (311) de la primera muestra de audio con un segundo objeto con impresión digital (322) de la segunda muestra de audio que sea sustancialmente similar al primer objeto con impresión digital; donde cada objeto con impresión digital tiene un componente invariante (262) y un componente variante (252) en la localización, y el primer y segundo objeto con impresión digital en cada pareja equivalente de objetos con impresión digital tienen componentes invariantes que coinciden; - generar, en base al paso de emparejamiento, una lista de parejas de objetos con impresiones digitales (352); - determinar el valor relativo para cada pareja de objetos con impresión digital equivalente usando los componentes variantes (252), - generar un histograma del valor relativo (354); y - buscar un pico estadísticamente significativo en el histograma (355), caracterizando el pico la relación entre la primera y segunda muestra de audio que incluye un factor de elasticidad.

Description

Equivalencia sólida e invariante de patrón de audio.
Campo de la invención
Esta invención se refiere generalmente al procesamiento de una señal de sonido en una gran base de datos de archivos de sonido o audio. Más en particular, se refiere a una técnica inventiva para determinar de manera rápida y precisa si dos muestras de audio coinciden, y es inmune a varias transformaciones entre las que se incluyen la variación de velocidad en una grabación. La técnica inventiva además permite una estimación precisa de las transformaciones.
Descripción de la técnica del contexto
La necesidad de un reconocimiento automático rápido y preciso para la música y otras señales de sonido continúa en crecimiento. La tecnología de reconocimiento de sonido previamente disponible a menudo sacrificaba la velocidad por la precisión o la inmunidad sonora. En algunas aplicaciones, era necesario calcular una regresión para calcular la pendiente de tiempo-tiempo dispersión-trazado en la presencia de ruido extremo, lo que introdujo un número de dificultades y disminuyó la actuación tanto de la velocidad como de la precisión. Por lo tanto, técnicas de reconocimiento de sonido que ya existían previamente eran incapaces de llevar a cabo un reconocimiento rápido y preciso en presencia de una significativa variación de velocidad en una grabación, por ejemplo, en el reconociendo de una grabación que está funcionando a una velocidad más rápida que la normal.
Además de la complejidad del problema existe un tipo de variación de velocidad cada vez más popular, la variación de tempo de corrección de tono, usada por los DJs en las emisoras de radio, clubs y en más sitios. En la actualidad, existe una técnica sólida y fiable que puede realizar un reconocimiento de sonido rápido y preciso a pesar de las variaciones de velocidad en la grabación y/o las variaciones de tempo de corrección de tono.
WO02/11123 describe un método para comparar dos muestras de audio o sonido igualando las impresiones digitales sonoras determinadas a partir de cada muestra de audio. Las impresiones digitales computadas son invariables en la extensión de tiempo y sus localizaciones relativas se emplean para determinar estadísticamente una compensación de tiempo entre dos muestras de audio.
"Musical Database Retrieval Based on Spectral Similarity" por Cheng Yang publicado como un Informe Técnico en Grupo sobre Bases de Datos en la Universidad de Stanford en 2001 describe la comparación de dos fragmentos de audio de respectivos vectores espectrales de audio. El método emplea una línea ajustada a puntos que representan ocurrencia en el tiempo de vectores correspondientes en ambos fragmentos de audio, con el fin de representar la similitud del archivo.
Resumen de la invención
La presente invención cumple la necesidad en la técnica de reconocimiento de audio proporcionando un método rápido e invariable para caracterizar la relación entre dos archivos de audio. El método inventivo es preciso incluso en presencia de ruido extremo, superando los inconvenientes mencionados de la tecnología existente.
De acuerdo con un aspecto de la invención, en lo sucesivo se proporciona un método de acuerdo con la reivindicación 1.
De acuerdo con otro aspecto de la invención, la técnica arriba descrita puede además mejorarse proporcionando un cálculo aproximado de valor relativo global con una localización de un pico en un eje del histograma. El valor relativo global, a su vez, puede perfeccionarse mediante una primera selección de una zona alrededor del pico de interés.
Incluso en otra realización, en la cual el valor de velocidad de grabación relativa se determina a partir de un pico del histograma, se calcula un valor de compensación relativo de tiempo para cada par de objetos con impresión digital equivalente. Se genera otro histograma en base a los valores de compensación relativos de tiempo. Si se encuentra un punto estadísticamente significativo en el segundo histograma, la relación entre las dos muestras de audio puede además caracterizarse por el pico, proporcionando además una mejora en la precisión de la invención.
Breve descripción de las figuras
Fig. 1 es una representación de un espectrograma de una muestra de audio analizada.
Fig. 2 es un diagrama ejemplar que muestra objetos con impresiones digitales que se generan a partir de una muestra de audio de acuerdo con un aspecto de la invención.
Fig. 3 ilustra dos muestras de audio que se comparan de acuerdo con los principios de la presente invención.
Figs. 4A-B muestran espectrogramas ejemplares con o sin pico estadísticamente significativo.
Figs. 5A-B muestran el movimiento de puntos frecuencia-tiempo cuando la velocidad de la grabación varía.
Figs. 6A-B muestran los tiempos correspondientes en una primera muestra de audio (sonido de muestra) y una segunda muestra de audio (sonido de base de datos) de detalles numerales correspondientes.
Figs. 7A-D ilustran pendientes rápidas y eficientes y técnicas de histogramas de la presente invención.
\vskip1.000000\baselineskip
Descripción detallada
La presente invención permite indexar y buscar de manera rápida, sólida, invariable y en escalas una gran base de datos de archivos de audio y en particular es útil para aplicaciones en reconocimiento de patrones de audio.
Una operación de comparación rápida y eficiente entre dos archivos de muestra de audio es esencial en la construcción de un sistema de reconocimiento de audio comercialmente viable. De acuerdo con un aspecto de la invención, la relación entre dos muestras de audio puede caracterizarse en primer lugar por ciertas impresiones digitales de objetos que coinciden y que derivan de un espectrograma, como el mostrado en la Figura 1, de las respectivas muestras de audio. El espectrograma es una representación/análisis de tiempo-frecuencia que se genera tomando muestras 2*K en un punto en el tiempo en un marco de ventana corrediza y calculando una Transformación de Fourier, generando de este modo cajas de frecuencia K en cada marco. Los marcos pueden coincidir o montarse para mejorar la resolución temporal del análisis. Los parámetros particulares empleados dependen del tipo de muestras de audio que se están procesando. Preferiblemente se emplean archivos de audio con tiempo discreto con un rango de muestreo de 8 kilohercios, marcos con K=512, y un ritmo de 64 muestras.
Objetos con Impresiones Digitales
Después de generarse un espectrograma de cada muestra de audio, se escanea para buscar características locales, es decir, picos de energía local, tal y como se muestra en la Fig. 2. El proceso de comparación comienza extrayendo un conjunto de impresiones digitales de las correspondientes características locales de cada muestra de audio. En una realización ejemplar, una muestra de audio es una muestra de sonido desconocido que va a reconocerse y la otra muestra de audio es una grabación conocida almacenada en una base de datos. Cada objeto con impresión digital ocurre en una localización particular en la respectiva muestra de audio. En algunas realizaciones, cada objeto con impresión digital se localiza en alguna compensación de tiempo en un archivo de audio y contiene un conjunto de datos descriptivos sobre el archivo de audio junto con su respectivo coordinado temporal. Es decir, la información descriptiva contenida en cada objeto con impresión digital se calcula con dependencia de la muestra de audio cerca de la correspondiente compensación de tiempo. Esto se codifica en una pequeña estructura de datos. Preferentemente, la localización y la información descriptiva se determinan de modo que sean generalmente reproducibles incluso en el caso de presencia de ruido, distorsión, y otras transformaciones tales como variación en la velocidad de grabación. En este caso, la localización se determina dependiendo del contenido de la respectiva muestra de audio y cada objeto con impresión digital caracteriza una o más características locales de la respectiva muestra de audio en o cerca de la respectiva localización particular, por ejemplo, localización (t1, f1) o (t2, f2) tal y como se muestra en la Fig. 1.
En una realización ejemplar, cada objeto con impresión digital se caracteriza por su localización, un componente variante y un componente invariante. Cada característica local es un pico en el espectrograma y cada valor de frecuencia se determina a partir de una coordenada de frecuencia de un correspondiente pico en el espectrograma. Los picos se determinan buscando en las inmediaciones de cada coordenada tiempo-frecuencia y seleccionando los puntos que tienen mayor valor en magnitud en comparación con sus vecinos. Más específicamente, tal y como se muestra en la Fig. 2, se analiza una muestra de audio 210 en una representación de espectrograma 220 con regiones 221 y 222 de elevada energía demostrada. La información relativa a las regiones locales de energía 221 y 222 se extrae y resume en una lista 230 de objetos con impresiones digitales 231, 232, etc. Cada objeto con impresión digital incluye opcionalmente un campo de localización 242, un componente variante 252, y un componente invariante 262. Preferentemente, se selecciona una zona de tal modo que cada punto elegido sea el máximo en una unidad de bloque 21x21 en el centro de la misma. A continuación, se determina un valor relativo para cada par de objetos con impresión digital igualada. En algunas realizaciones, el valor relativo es un cociente o diferencia de logaritmo de valores paramétricos de las respectivas muestras de audio. A continuación se genera un histograma de los valores relativos. Si se encuentra un pico estadísticamente significativo en el histograma, entonces las dos muestras de audio pueden calificarse de sustancialmente iguales.
En referencia a la Fig. 3, las listas de objetos con impresiones digitales 310 y 320 se preparan respectivamente tal y como se ha descrito anteriormente para las muestras de audio 1 y 2, respectivamente. Se comparan los respectivos objetos con impresiones digitales 311 y 322 de cada lista. Los objetos con impresiones digitales que coinciden se emparejan, por ejemplo, empleando los respectivos componentes invariantes Inv e Inv' en el paso 351, y colocándolos en una lista en el paso 352. A continuación, en el paso 354, se genera un histograma de valores relativos. En el histograma se busca un pico estadísticamente significativo en el paso 355. Si no se encuentra ninguno en el paso 356, las muestras de audio 1 y 2 no coinciden, por ejemplo, el histograma 410 de la Fig. 4A. De manera alternativa, si se detecta un pico estadísticamente significativo, las muestras 1 y 2 coinciden, por ejemplo, el histograma 420 de la
Fig. 4B.
La técnica que acaba de ser descrita puede además mejorar proporcionando un cálculo aproximado de un valor relativo global R con una localización en el pico del eje del histograma, tal y como se ilustra en el paso 361. En algunas realizaciones, R puede perfeccionarse mediante una primera selección de una zona alrededor del pico de interés. En la Fig. 1, esto se muestra como un área de interés 110 alrededor de una localización particular (t1, f1). A continuación, se calcula un promedio de los valores relativos en la zona seleccionada. El promedio puede ser una media ponderada con números de puntos en cada valor relativo en la zona seleccionada. En algunas realizaciones, R puede además perfeccionarse para generar un valor relativo de compensación de tiempo t'-R*t par cada pareja que coincide. Los pasos 362-364 muestran que, con estos valores relativos de compensación de tiempo, se genera un segundo histograma, permitiendo que se calcule un tiempo compensado.
Otros tipos de análisis tiempo-frecuencia pueden implementarse para extraer objetos con impresiones digitales, por ejemplo, la distribución Wigner-Wille o wavelets (ondas pequeñas). Así mismo, en lugar de picos en espectrograma, se pueden emplear otras características, por ejemplo coeficientes cepstrales. Además, las técnicas de súper-resolución pueden emplearse para obtener cálculos aproximados más precisos de tiempo y frecuencia de las coordenadas tiempo-frecuencia provistas por los picos del espectrograma. Por ejemplo, la interpolación parabólica en cubos o cajas de frecuencia podría usarse para aumentar la resolución de frecuencia. Pueden encontrarse descripciones ejemplares relacionadas en "PARSHL: Un Programa de Análisis/Síntesis para Sonidos No Armónicos en Base a una Representación Sinusoidal", Julius O. Smith II y Xavier Serra, Procedimientos de la Conferencia Internacional de Música en Ordenador (ICMC-87, Tokio), Asociación de Música en Ordenador, 1987, y en "Estimación Moderna Espectral: Teoría y Aplicación" por Steven M. Kay (Enero 1988) Prentice may, ambos aquí incorporados como referencias.
Equivalencia
En una operación de equivalencia, se comparan dos muestras de audio por medio de sus respectivos objetos con impresión digital. Tal y como se ha descrito anteriormente con referencia a la Fig. 3, se generan pares de objetos con impresiones digitales iguales, conteniendo cada par componentes que sustancialmente coinciden. Un modo de preparar los datos para permitir una rápida búsqueda es codificar los objetos con impresiones digitales en fichas numéricas, como números enteros sin firmar de 32 bits, y empleando fichas numéricas como una clave para clasificar y buscar. Las técnicas para una eficiente manipulación de datos son bien conocidas en el campo, por ejemplo "Art of Computer Programming, Volume 3: Sorting and Searching (2ª Edición)", por Donal Ervin Knuth (Abril 1998) Addison-Wesley, que aquí se incorpora como referencia.
En una realización ejemplar, cada objeto con impresión digital contiene un componente invariante y un componente variante. El componente variante hace referencia a los valores de radios de frecuencia correspondientes a los picos espectrales, así como los valores de radios de tiempo delta (es decir, la diferencia temporal) entre los picos espectrales son invariantes bajo el periodo de tiempo. Por ejemplo, en referencia a la Fig. 5A y 5B, si un espectrograma de una muestra de audio tiene algunos picos locales espectrales con coordenadas (t1, f1), (t2, f2), y (t3, f3), entonces el invariante para dos puntos es f2/f2, es decir f2'/f1'=f2/f1. Se dan invariantes adicionales para 3 puntos mediante f2/f1, (t3-t1)/(t2-t1), o (t3-t2)/(t2/t1), o cualquier otra combinación creada cambiando los puntos y/o funciones de computación de estas cantidades o combinaciones de estas cantidades. Por ejemplo, f2/f3 podría crearse dividiendo f2/f1 por f3/f1. Además, si la muestra de audio se extiende linealmente, simplemente reproduciéndola más rápido, de manera adicional la frecuencia y el tiempo delta experimentan una relación recíproca para que las cantidades como f1*(t2-t1) sean también invariantes. Pueden emplearse logaritmos de estas cantidades, sustituyendo la suma y la resta por la multiplicación y I a división. Para descubrir los radios de frecuencia y de extensión temporal, asumiendo que sean independientes, es necesario tener una cantidad de variante de frecuencia y de variante de tiempo.
Para realizar la equivalencia de manera más eficiente, empleamos la parte invariante para crear el índice de impresiones digitales y usamos valores próximos o exactos para la búsqueda. Realizar la búsqueda usando equivalencias próximas permite una solidez adicional contra la distorsión y el error concluyente, pero implica mayor coste si la búsqueda en componentes invariantes se vuelve una búsqueda de ámbito tridimensional. En la realización preferente, se precisa que el componente invariantes de los respectivos objetos con impresiones digitales se ajuste exactamente, dando lugar por lo tanto a un sistema que es muy rápido, con una menor compensación contra la sensibilidad de reconocimiento en presencia de ruido. Es importante señalar que este método funciona bien incluso si solamente una minoría de objetos con impresiones digitales en las correspondientes muestras de audio coincide correctamente. En el paso de detección de pico en el histograma, un pico puede ser estáticamente significativo incluso si tan sólo el 1-2% de los objetos con impresiones digitales coinciden correctamente y sobreviven.
El componente variante también puede emplearse para limitar el número de objetos con impresiones digitales equivalentes, además de o en lugar del componente variante. Por ejemplo, podríamos necesitar que un componente variante V de la primera muestra de audio coincidiera con un correspondiente V'' de la segunda muestra de audio en un +/- 20%. En ese caso, podemos formar una representación de las fichas numéricas de tal modo que la parte superior (por ejemplo, los bits más significativos) contenga los componentes invariantes y la parte inferior (por ejemplo, los bits menos significativos) contenga los componentes variantes. Así, buscar una equivalencia aproximada se convierte en una búsqueda de ámbito sobre las fichas compuestas usando los valores más bajos y más altos del componente variante. El uso de un componente invariante en la equivalencia no es por lo tanto estrictamente necesario si la búsqueda se realiza usando un componente variante. Sin embargo, el uso de un componente invariante en el proceso de equivalencia es recomendado ya que ayuda a reducir el número de falsas coincidencias o parejas, por lo que hace más eficiente el proceso de realización de histogramas y reduce la cantidad de procesos generales.
Por otra parte, el propio componente variante nuevo puede ser o no parte del criterio de equivalencia entre dos objetos con impresiones digitales. El componente variante representa un valor que puede distorsionarse por una simple transformación paramétrica que va desde una grabación original a una grabación de muestra. Por ejemplo, los componentes variantes de frecuencia, como f1, f2, f3, y los componentes variantes de tiempo como (t2-t1), (t3-t1), o (t3-t2) pueden elegirse como componentes variantes para variación de velocidad en una grabación. En el caso de que haya una segunda muestra de audio, en la interpretación de equivalencia en una base de datos, con un espectrograma que incluye coordenadas (t1', f1'), (t2', f2') y (t3', f3'), correspondientes a los mismos puntos listados anteriormente para la primera muestra de audio. A continuación, el componente de frecuencia f1' podría tener un valor escalado f1'=R_{f}*f1, donde R_{f} es un parámetro de extensión lineal que describe lo rápido o despacio que se reproduce la primera muestra en comparación con la segunda. El componente variante de cada una de las dos muestras de audio equivalentes puede emplearse para calcular una aproximación del valor de extensión global, lo que describe un parámetro macroscópico, calculando el radio entre los dos valores de frecuencia, R_{f}=2 significa que la primera muestra de audio tiene la mitad de tono (frecuencia) de la segunda. Otra posibilidad es usar R_{t}=(t2'-t1')/(t2-t1). En este caso, el valor relativo R es el radio de velocidad relativa de grabación, es decir, R_{t}=2 significa que la primera muestra de audio se reproduce el doble de rápido que la segunda muestra de audio.
Si R_{f}=1/R_{t}, es decir, f'/f'=(t2-t1)/(t2'-t1'), entonces las dos muestras de audio están relacionadas por una extensión lineal de tiempo debido a la relación recíproca tiempo-frecuencia para dichas muestras de audio. En este caso, podemos usar en primer lugar el método del histograma aquí descrito para formar un R_{f} aproximado del radio relativo de frecuencia relativa usando los correspondientes componentes variantes de frecuencia, y de nuevo para formar un R_{t} aproximado de la velocidad relativa de grabación, y llevar a cabo a continuación una comparación para detectar si la relación de la grabación es lineal o no lineal.
En general, el valor relativo se calcula a partir de objetos con impresiones digitales equivalentes usando los correspondientes componentes variantes de la primera y segunda muestra de audio. El valor relativo podría ser un simple radio de frecuencias o tiempos delta, o cualquier otra función que dé como resultado un cálculo aproximado un parámetro global empleado para describir el trazado entre la primera y la segunda muestra de audio. Pero en general, puede emplearse cualquier función con 2 entradas F ( ), por ejemplo, R=F (vl,vl'), donde vl y vl' son respectivas cantidades variantes. Es mejor si F ( ) es una función continua para que ocurran pequeños errores en la medida de vl y vl' en la salida R.
Histogramas
Tal y como aquí se describe, se genera un histograma sobre un conjunto de valores relativos calculados a partir de una lista de parejas equivalentes de objetos con impresiones digitales. A continuación se busca un histograma para un pico. La presencia de un pico estadísticamente significativo en el histograma indica que se ha dado una posible coincidencia o equivalencia. En particular, este método busca en el histograma un grupo valores relativos en lugar de diferencias de compensaciones de tiempo, como (t1'-t1). De acuerdo con un principio de la presente invención, un histograma sirve para formar cubos de valores totales, correspondiendo cada cubo a un valor particular a lo largo del eje independiente del histograma. Para fines de la invención, generar un histograma puede llevarse a cabo simplemente clasificando la lista de valores relativos. Por lo tanto, un modo rápido y eficaz de detectar el pico de un histograma de una lista de valores es clasificar la lista en orden ascendente y escanear a continuación el mayor grupo de unidades que tengan valores iguales o similares.
Significado Estadístico
Tal y como se ha establecido anteriormente, con la presente invención, dos muestras de audio pueden coincidir correctamente incluso si solamente el 2% de los objetos con impresiones digitales sobrevive a todas las distorsiones y coinciden correctamente. Esto es posible anotando la comparación entre las dos muestras de audio. En concreto, se elige una zona alrededor del pico del histograma y se cuentan todas las parejas equivalentes que caen en la zona, dando como resultado una puntuación. Además, puede calcularse una puntuación ponderada descontando la contribución de parejas que son de puntos más lejanos al centro del pico.
Un modo de calcular el criterio límite es asumir que la probabilidad de distribución del resultado de una ruta no equivalente cae con una cola exponencial. El modelo se aplica a la distribución real medida de resultados de rutas no equivalentes. A continuación se calcula la distribución cumulativa de probabilidad del resultado más elevado sobre una base de datos de rutas N (por ejemplo, tomado como la potencia Nth de la distribución cumulativa de probabilidad de un único resultado no equivalente). Una vez que se conoce la curva de probabilidad y se elige un nivel máximo de positivos falsos (por ejemplo, 0.5%), puede elegirse el umbral numérico y emplearse para determinar si el pico del histograma tiene un número estadísticamente significativo de parejas equivalentes.
Estimación Hiperfina
Una vez que se encuentra un pico en el histograma estadísticamente significativo, puede calcularse una estimación "hiperfina" de elevada resolución del valor relativo global (como la velocidad relativa de grabación). Esto se lleva a cabo eligiendo una zona alrededor del pico, por ejemplo, incluyendo un intervalo de aproximadamente 3 a 5 cubos centrados en el histograma del pico, y calculando una media de los valores relativos en la zona. Empleando esta técnica, podemos encontrar velocidad relativa de grabación exacta en un 0.05%. Con la derivación de compensación aquí descrita la compensación global de tiempo puede calcularse con una precisión mejor que un milisegundo, lo que es más preciso que la resolución de tiempo de los marcos de espectrograma mencionados.
\vskip1.000000\baselineskip
Regresión Sólida
En el caso de que las muestras realmente coincidan, puede verse una línea diagonal en una zona de dispersión donde las muestras equivalentes tiene las correspondientes coordenadas de tiempo (t',t) de objetos con impresiones digitales trazadas o marcadas una contra la otra, tal y como se muestra en la Fig. 6A. El objetivo es encontrar la ecuación del elemento de la regresión, que se determina mediante la pendiente y la compensación de la línea en presencia de una elevada cantidad de ruido. La pendiente indica la velocidad relativa de grabación, y la compensación es la compensación relativa desde el inicio de una muestra de audio hasta el inicio de la segunda. Técnicas convencionales de regresión, como mínimos cuadrados ponderados, se encuentran disponibles por ejemplo en "Numerical Recipes in C: The Art of Scientific Computig (2ª edición)", por William H. Press, Brian P. Flannery, Saul A. Teukolsky, y William T. Vetterling (Enero 1993), Cambridge Universtiy Press, que aquí se incorpora como referencia. Desafortunadamente, estas técnicas convencionales sufren sensibilidad desproporcionada, donde un punto demasiado alejado puede desviar drásticamente los parámetros estimados de regresión. En la práctica, los puntos a menudo están dominados por un punto más alejado, provocando que sea muy complicado detectar la correcta línea diagonal. Pueden emplearse otras técnicas para regresión sólida para superar el problema del punto más alejado y para encontrar una relación lineal entre los puntos en presencia de ruido, pero estas técnicas tienden a ser lenta e iterativas y existe la posibilidad de quedarse atascadas en un punto óptimo local. Existe una amplia variedad de técnicas en la bibliografía para buscar un elemento de regresión lineal no conocido. El kit de herramientas Matlab, disponible en Mathsworks, contiene una variedad de rutinas software para análisis de regresión.
La presente invención proporciona un método inventivo para calcular la velocidad relativa de una grabación (o, equivalentemente, la reciprocidad del tono relativo, en el caso de una relación de grabación lineal) que soluciona el problema de buscar una línea de regresión en el trazado de dispersión tiempo-tiempo incluso si la pendiente de la pareja no se iguala, por ejemplo, Fig. 6B. El uso de un histograma de velocidades relativas locales de grabación, tal y como aquí se establece, tiene la ventaja de contar con la información no considerada previamente y proporciona una ventaja inesperada al solucionar rápida y eficientemente el problema de regresión.
Para encontrar la compensación, se asume que los correspondientes puntos en el tiempo tienen la relación
compensación = t1' – R_{t}*t1,
donde R_{t} se obtiene tal y como se ha descrito anteriormente. Esto es la compensación de tiempo y sirve para normalizar los sistemas de coordenada de tiempo entre dos muestras de audio. Esto también puede verse como una transformación de corte en el trazado de dispersión tiempo-tiempo que provoca que la línea diagonal de la pendiente no conocida de la Fig. 7A sea vertical en la Fig. 7C. El histograma 720 de la Fig. 7B muestra un pico de radios de velocidad relativa acumulada de grabación que indican el radio global relativo de velocidad de grabación R. A continuación se dan nuevos valores mediante la fórmula de compensación, y se genera un nuevo histograma 740 tal y como se observa en la Fig. 7D. El pico del nuevo histograma 740 ofrece un cálculo aproximado de la compensación global, lo que puede pulirse mediante el uso de un promedio de los valores en la zona del pico, tal y como se ha descrito anteriormente.
En resumen, la primera fase de realización de histograma proporciona un modo para calcular la velocidad relativa de grabación, y así mismo determina si existe alguna equivalencia. La segunda fase de realización de histograma asegura que las muestras de audio candidatas a equivalencia tengan un número significativo de objetos con impresiones digitales que se alinean también de manera temporal. La segunda fase de realización de histograma también sirve como un segundo criterio de análisis independiente y ayuda a disminuir la probabilidad de positivos falsos, proporcionando de este modo un criterio más fuerte y sólido para decidir si las dos muestras de audio coinciden. La segunda fase de la realización de histograma puede realizarse de manera opcional solamente si existe un pico estadísticamente significativo en el primer histograma, ahorrando de este modo recursos y esfuerzos computacionales. Opcionalmente puede realizarse una optimización adicional, por ejemplo, para reducir el grupo computacional, en vez de computar el segundo histograma sobre todas las parejas de objetos con impresiones digitales equivalente en la lista, el segundo histograma puede generarse empleando solamente las parejas equivalentes correspondientes al pico del primer histograma.
\vskip1.000000\baselineskip
Sincronización de Grabaciones Múltiples
La presente invención también puede implementarse para introducir y alinear el tiempo de grabaciones de audio no sincronizadas. Por ejemplo, suponemos que un grabador DAT y un grabador de cintas funcionaron independientemente con diferentes micrófonos en localizaciones o ambientes ligeramente diferentes. Si más tarde se desea combinar las dos grabaciones a partir de las respectivas grabaciones en una mezcla, las dos rutas pueden sincronizarse usando la técnica sólida de regresión aquí descrita para obtener la compensación temporal. De este modo, incluso si las grabaciones no sincronizadas operan a velocidades ligeramente diferentes, la velocidad relativa puede determinarse con un elevado grado de precisión, permitiendo que una grabación se compense con respecto a la otra. Este hecho resulta especialmente útil si se descubre que una de las grabaciones se ha corrompido y necesita complementarse con otra fuente. Por lo tanto, la alineación temporal y la sincronización tal y como aquí se describen permiten una mezcla transparente.
Búsqueda de Bases de Datos
Debido a que el método de comparación es extremadamente rápido, es posible pre-procesar una gran base de datos de muestras de audio en respectivas listas de objetos con impresiones digitales. Tal y como el experto en la técnica apreciará, una muestra de audio no conocida puede por lo tanto pre-procesarse en su propia lista respectiva de objetos con impresiones digitales usando las técnicas de procesamiento de datos disponibles. Las técnicas arriba mencionadas sobre equivalencia, histogramas, y detección de pico pueden llevarse a cabo a continuación empleando los objetos con impresiones digitales pre-tratados en la base de datos para encontrar una equivalencia.
A pesar de que la presente invención y sus ventajas han sido descritas con detalle, debería entenderse que la presente invención no se limita o define por lo que aquí se muestra o establece. En particular, los dibujos y descripciones aquí adjuntas muestran tecnologías relacionadas con la invención, muestran ejemplos de la invención, y proporcionan ejemplos para usar la invención y no pretenden limitar la presente invención. Pueden establecerse métodos, técnicas y sistemas conocidos sin dar detalles, para evitar confundir los principios de la invención. Como un experto en la técnica apreciará, la presente invención puede implementarse, modificarse, o sino alterarse sin partir de los principios y espíritu de la presente invención. Por ejemplo, los métodos, técnicas y pasos aquí descritos pueden implementarse o sino realizarse de una forma mediante instrucciones ejecutables por un ordenador en un medio legible de ordenador. De manera alternativa, la presente invención puede implementarse en un sistema de ordenador que tenga un cliente y un servidor. El cliente envía la información, por ejemplo, objetos con impresiones digitales, necesaria para la caracterización de la relación entre la primera y la segunda muestra de audio al servidor donde se lleva a cabo la caracterización. Por consiguiente, el alcance de la invención debería determinarse por las siguientes reivindicaciones.

Claims (17)

1. Un método para caracterizar una relación de una primera y una segunda muestra de audio, que consiste en los siguientes pasos:
-
generar un primer conjunto de objetos con impresiones digitales (310) para la primera muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la primera muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la primera muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la primera muestra de audio en o cerca de cada respectiva localización;
-
generar una segundo conjunto de objetos con impresiones digitales (320) para la segunda muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la segunda muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la segunda muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la segunda muestra de audio en o cerca de cada respectiva localización;
-
emparejar objetos con impresiones digitales (352) haciendo coincidir un primer objeto con impresión digital (311) de la primera muestra de audio con un segundo objeto con impresión digital (322) de la segunda muestra de audio que sea sustancialmente similar al primer objeto con impresión digital; donde cada objeto con impresión digital tiene un componente invariante (262) y un componente variante (252) en la localización, y el primer y segundo objeto con impresión digital en cada pareja equivalente de objetos con impresión digital tienen componentes invariantes que coinciden;
-
generar, en base al paso de emparejamiento, una lista de parejas de objetos con impresiones digitales (352);
-
determinar el valor relativo para cada pareja de objetos con impresión digital equivalente usando los componentes variantes (252),
-
generar un histograma del valor relativo (354); y
-
buscar un pico estadísticamente significativo en el histograma (355), caracterizando el pico la relación entre la primera y segunda muestra de audio que incluye un factor de elasticidad.
2. El método de acuerdo con la reivindicación 1 en el que la relación entre la primera y segunda muestra de audio se caracteriza por una sustancial coincidencia si se encuentra un pico estadísticamente significativo.
3. El método de acuerdo con la reivindicación 1 o 2, que además comprende el paso de calcular un valor global relativo con una localización de un pico en un eje del histograma, caracterizando además el valor global relativo la relación entre la primera y la segunda muestra de audio.
4. El método de acuerdo con la reivindicación 3, que además comprende el paso de determinar un cálculo aproximado hiperfino del valor global relativo, donde el paso de determinación comprende:
-
seleccionar una zona alrededor del pico, y calcular un promedio de los valores relativos en la zona vecina.
5. El método de acuerdo con la reivindicación 1 en el que el componente invariante se genera usando:
(i)
un radio entre el primer y el segundo valor de frecuencia, determinándose cada valor de frecuencia respectivamente a partir de una primera y una segunda característica local cerca de la respectiva localización de cada objeto con impresión digital;
(ii)
un producto entre un valor de frecuencia y un valor de tiempo delta, determinándose el valor de frecuencia a partir de una primera característica local, y determinándose el valor de tiempo delta entre la primera característica local y una segunda característica local cerca de la respectiva localización de cada objeto con impresión digital; o
(iii)
un radio entre un primer y un segundo valor de tiempo delta, determinándose el primer valor de tiempo delta a partir de una primera y una segunda característica local, determinándose el segundo valor de tiempo delta a partir de la primera y tercera característica local, estando cada característica local cerca de la respectiva localización de cada objeto con impresión digital.
6. El método de acuerdo con la reivindicación 5 en el cual cada característica local es un pico de espectrograma y cada valor de frecuencia se determina a partir de una coordenada de frecuencia de un correspondiente pico de espectrograma.
\newpage
7. El método de acuerdo con la reivindicación 1, en el cual cada objeto con impresión digital tiene un componente variante, y el valor relativo de cada pareja de objetos con impresión digital equivalente se determina usando respectivos componentes variantes del primer y segundo objeto con impresión digital.
8. El método de acuerdo con la reivindicación 7 en el cual el componente variante es un valor de frecuencia determinado a partir de una característica local cerca de la respectiva localización de cada objeto con impresión digital de tal modo que el valor relativo de una pareja de objetos con impresión digital equivalente se califique de radio de respectivos valores de frecuencia del primer y segundo objeto con impresión digital y el pico en el histograma caracterice la relación entre la primera y segunda muestra de audio que se califican de un tono relativo, o, en el caso de extensión lineal, una velocidad relativa de grabación.
9. El método de acuerdo con la reivindicación 8, donde el radio de los respectivos valores de frecuencia se caracteriza por ser una división o una diferencia de logaritmos.
10. El método de acuerdo con la reivindicación 8, en el que cada característica local es un pico de espectrograma y cada valor de frecuencia se determina a partir de una coordenada de frecuencia de un correspondiente pico en el espectrograma.
11. El método de acuerdo con la reivindicación 7, en el que el componente variante es un valor temporal delta determinado a partir de una primera y una segunda característica local cerca de la respectiva localización de cada objeto con impresión digital de tal modo que el valor relativo de una pareja de objetos equivalentes se califique como el radio de respectivos valores temporales delta variantes y el pico en el histograma caracterice la relación entre la primera y la segunda muestra de audio que se caracterizan por una relativa velocidad de grabación, o, en el caso de expansión lineal, un tono relativo.
12. El método de acuerdo con la reivindicación 11, donde el radio de los respectivos valores temporales deltas variantes se caracteriza por ser una división o una diferencia de logaritmos.
13. El método de acuerdo con la reivindicación 11, en el cual cada característica local es un pico en el espectrograma y cada valor de frecuencia se determina a partir de una coordenada de frecuencia de un correspondiente pico en el espectrograma.
14. El método de acuerdo con la reivindicación 7, que además incluye los pasos de:
- determinar un tono relativo para la primera y segunda muestra de audio usando los respectivos componentes variantes, donde cada componente variante es un valor de frecuencia determinado a partir de una característica local cerca de la respectiva localización de cada objeto con impresión digital;
- determinar una velocidad relativa de grabación para la primera y segunda muestra de audio usando los respectivos componentes variantes, donde cada componente variante es un valor temporal delta determinado a partir de una primera y segunda característica local cerca de la respectiva localización de cada objeto con impresión digital; y
- detectar si el tono relativo y una reciprocidad de la velocidad relativa de grabación son sustancialmente diferentes, en cuyo caso la relación entre la primera y segunda muestra de audio se califica como no lineal.
15. El método de acuerdo con la reivindicación 1, donde R es un valor para la velocidad relativa de grabación determinada a partir del pico del histograma de los valores relativos, que además comprende los siguientes pasos:
- para cada pareja de objetos con impresiones digitales equivalentes en la lista, determinar un valor temporal relativo compensado, t-R*t', donde t y t' son localizaciones en el tiempo con respecto al primer y segundo objeto con impresión digital;
- generar un segundo histograma de los valores relativos de tiempo compensados; y
- buscar un pico estadísticamente significativo en el segundo histograma de los valores relativos de tiempo compensado, caracterizándose además el pico por la relación entre la primera y segunda muestra de audio.
16. Un programa de ordenador para llevar a cabo un método de acuerdo con cualquiera de las reivindicaciones precedentes.
17. Un sistema de ordenador que incluya medios para llevar a cabo cada paso de un método de acuerdo con las reivindicaciones 1 a 15, e incluyendo un cliente para enviar la información necesaria para la caracterización de la relación entre la primera y segunda muestra de audio a un servidor que realice la caracterización.
ES03724113T 2002-04-25 2003-04-18 Equivalencia solida e invariante de patron de audio. Expired - Lifetime ES2312772T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US37605502P 2002-04-25 2002-04-25
US376055P 2002-04-25

Publications (1)

Publication Number Publication Date
ES2312772T3 true ES2312772T3 (es) 2009-03-01

Family

ID=29270756

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03724113T Expired - Lifetime ES2312772T3 (es) 2002-04-25 2003-04-18 Equivalencia solida e invariante de patron de audio.

Country Status (16)

Country Link
US (1) US7627477B2 (es)
EP (1) EP1504445B1 (es)
JP (1) JP4425126B2 (es)
KR (1) KR100820385B1 (es)
CN (1) CN1315110C (es)
AT (1) ATE405924T1 (es)
AU (1) AU2003230993A1 (es)
BR (1) BR0309598A (es)
CA (1) CA2483104C (es)
DE (1) DE60323086D1 (es)
DK (1) DK1504445T3 (es)
ES (1) ES2312772T3 (es)
HK (1) HK1073382A1 (es)
PT (1) PT1504445E (es)
TW (1) TWI269196B (es)
WO (1) WO2003091990A1 (es)

Families Citing this family (284)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834308B1 (en) 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US7562012B1 (en) 2000-11-03 2009-07-14 Audible Magic Corporation Method and apparatus for creating a unique audio signature
US7363278B2 (en) 2001-04-05 2008-04-22 Audible Magic Corporation Copyright detection and protection system and method
US7529659B2 (en) 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US7877438B2 (en) 2001-07-20 2011-01-25 Audible Magic Corporation Method and apparatus for identifying new media content
US7239981B2 (en) 2002-07-26 2007-07-03 Arbitron Inc. Systems and methods for gathering audience measurement data
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
WO2004061699A1 (en) 2002-12-27 2004-07-22 Nielsen Media Research, Inc. Methods and apparatus for transcoding metadata
US8332326B2 (en) 2003-02-01 2012-12-11 Audible Magic Corporation Method and apparatus to identify a work received by a processing system
EP1647144A1 (en) 2003-07-11 2006-04-19 Koninklijke Philips Electronics N.V. Method and device for generating and detecting a fingerprint functioning as a trigger marker in a multimedia signal
WO2005011281A1 (en) * 2003-07-25 2005-02-03 Koninklijke Philips Electronics N.V. Method and device for generating and detecting fingerprints for synchronizing audio and video
US8554681B1 (en) * 2003-11-03 2013-10-08 James W. Wieder Providing “identified” compositions and digital-works
US8001612B1 (en) 2003-11-03 2011-08-16 Wieder James W Distributing digital-works and usage-rights to user-devices
US11165999B1 (en) 2003-11-03 2021-11-02 Synergyze Technologies Llc Identifying and providing compositions and digital-works
US7884274B1 (en) 2003-11-03 2011-02-08 Wieder James W Adaptive personalized music and entertainment
US9053299B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using rating
US9098681B2 (en) 2003-11-03 2015-08-04 James W. Wieder Adaptive personalized playback or presentation using cumulative time
US8396800B1 (en) 2003-11-03 2013-03-12 James W. Wieder Adaptive personalized music and entertainment
US9053181B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using count
US20150128039A1 (en) 2003-11-03 2015-05-07 James W. Wieder Newness Control of a Personalized Music and/or Entertainment Sequence
EP1704695B1 (fr) * 2003-11-27 2008-02-27 Advestigo Systeme d'interception de documents multimedias
WO2005079499A2 (en) 2004-02-19 2005-09-01 Landmark Digital Services Llc Method and apparatus for identification of broadcast source
CA2563370A1 (en) 2004-04-19 2005-11-03 Landmark Digital Services Llc Method and system for content sampling and identification
US20150051967A1 (en) 2004-05-27 2015-02-19 Anonymous Media Research, Llc Media usage monitoring and measurment system and method
US20050267750A1 (en) 2004-05-27 2005-12-01 Anonymous Media, Llc Media usage monitoring and measurement system and method
EP2602630A3 (en) 2004-06-24 2015-02-11 Shazam Investments Limited Method of characterizing the overlap of two media segments
US8130746B2 (en) 2004-07-28 2012-03-06 Audible Magic Corporation System for distributing decoy content in a peer to peer network
US7623823B2 (en) 2004-08-31 2009-11-24 Integrated Media Measurement, Inc. Detecting and measuring exposure to media content items
DE102004046746B4 (de) * 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
WO2006086556A2 (en) 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US20070016918A1 (en) * 2005-05-20 2007-01-18 Alcorn Allan E Detecting and tracking advertisements
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US20160321253A1 (en) 2005-10-26 2016-11-03 Cortica, Ltd. System and method for providing recommendations based on user profiles
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
IL185414A0 (en) * 2005-10-26 2008-01-06 Igal Raichelgauz Large-scale matching system and method for multimedia deep-content-classification
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9286623B2 (en) 2005-10-26 2016-03-15 Cortica, Ltd. Method for determining an area within a multimedia content element over which an advertisement can be displayed
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US9330189B2 (en) 2005-10-26 2016-05-03 Cortica, Ltd. System and method for capturing a multimedia content item by a mobile device and matching sequentially relevant content to the multimedia content item
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US8818916B2 (en) * 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US9489431B2 (en) 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9256668B2 (en) 2005-10-26 2016-02-09 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US9087049B2 (en) 2005-10-26 2015-07-21 Cortica, Ltd. System and method for context translation of natural language
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US9235557B2 (en) 2005-10-26 2016-01-12 Cortica, Ltd. System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US7688686B2 (en) 2005-10-27 2010-03-30 Microsoft Corporation Enhanced table of contents (TOC) identifiers
GB2431839B (en) 2005-10-28 2010-05-19 Sony Uk Ltd Audio processing
KR100803206B1 (ko) 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
WO2008042953A1 (en) 2006-10-03 2008-04-10 Shazam Entertainment, Ltd. Method for high throughput of identification of distributed broadcast content
KR101266267B1 (ko) 2006-10-05 2013-05-23 스플렁크 인코퍼레이티드 시계열 검색 엔진
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US20080317226A1 (en) * 2007-01-09 2008-12-25 Freescale Semiconductor, Inc. Handheld device for transmitting a visual format message
US8077839B2 (en) * 2007-01-09 2011-12-13 Freescale Semiconductor, Inc. Handheld device for dialing of phone numbers extracted from a voicemail
US10489795B2 (en) 2007-04-23 2019-11-26 The Nielsen Company (Us), Llc Determining relative effectiveness of media content items
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
US8213521B2 (en) * 2007-08-15 2012-07-03 The Nielsen Company (Us), Llc Methods and apparatus for audience measurement using global signature representation and matching
WO2009059300A2 (en) * 2007-11-02 2009-05-07 Melodis Corporation Pitch selection, voicing detection and vibrato detection modules in a system for automatic transcription of sung or hummed melodies
CN101226741B (zh) * 2007-12-28 2011-06-15 无敌科技(西安)有限公司 一种活动语音端点的侦测方法
DE102008009025A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
DE102008009024A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
BRPI0906142B1 (pt) 2008-03-10 2020-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. dispositivo e método para a manipulação de um sinal de áudio tendo um evento transiente
GB2458471A (en) * 2008-03-17 2009-09-23 Taylor Nelson Sofres Plc A signature generating device for an audio signal and associated methods
EP2114079B2 (en) 2008-05-02 2018-01-24 Psytechnics Ltd Method and apparatus for aligning signals
JP2010033265A (ja) 2008-07-28 2010-02-12 Nec Corp コンテンツ配信方法およびシステム
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8121830B2 (en) 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
US8199651B1 (en) 2009-03-16 2012-06-12 Audible Magic Corporation Method and system for modifying communication flows at a port level
JP5772591B2 (ja) * 2009-03-18 2015-09-02 日本電気株式会社 音声信号処理装置
US8351712B2 (en) 2009-04-27 2013-01-08 The Neilsen Company (US), LLC Methods and apparatus to perform image classification based on pseudorandom features
EP2425563A1 (en) 2009-05-01 2012-03-07 The Nielsen Company (US), LLC Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
GB2470201A (en) * 2009-05-12 2010-11-17 Nokia Corp Synchronising audio and image data
WO2010135623A1 (en) 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
US8718805B2 (en) 2009-05-27 2014-05-06 Spot411 Technologies, Inc. Audio-based synchronization to media
US8489774B2 (en) 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US9055309B2 (en) 2009-05-29 2015-06-09 Cognitive Networks, Inc. Systems and methods for identifying video segments for displaying contextually relevant content
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8190663B2 (en) * 2009-07-06 2012-05-29 Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung Method and a system for identifying similar audio tracks
WO2011009946A1 (en) 2009-07-24 2011-01-27 Johannes Kepler Universität Linz A method and an apparatus for deriving information from an audio track and determining similarity between audio tracks
US20110041154A1 (en) * 2009-08-14 2011-02-17 All Media Guide, Llc Content Recognition and Synchronization on a Television or Consumer Electronics Device
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8706276B2 (en) 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
US8521779B2 (en) 2009-10-09 2013-08-27 Adelphoi Limited Metadata record generation
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8860883B2 (en) * 2009-11-30 2014-10-14 Miranda Technologies Partnership Method and apparatus for providing signatures of audio/video signals and for making use thereof
US8682145B2 (en) 2009-12-04 2014-03-25 Tivo Inc. Recording system based on multimedia content fingerprints
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US9159338B2 (en) 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
CN102959543B (zh) 2010-05-04 2016-05-25 沙扎姆娱乐有限公司 用于处理媒体流的样本的方法和系统
KR101582436B1 (ko) 2010-05-04 2016-01-04 샤잠 엔터테인먼트 리미티드 미디어의 동기화 방법 및 시스템
US8768495B2 (en) 2010-06-09 2014-07-01 Adelphoi Limited System and method for media recognition
US9876905B2 (en) 2010-09-29 2018-01-23 Genesys Telecommunications Laboratories, Inc. System for initiating interactive communication in response to audio codes
EP2643832A4 (en) * 2010-11-22 2016-10-12 Listening Methods Llc SYSTEM AND METHOD FOR RECOGNITION PATTERN ANALYSIS
CN103562909A (zh) 2011-02-18 2014-02-05 沙扎姆娱乐有限公司 客户端设备识别数据流的内容的方法及系统
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US9380356B2 (en) 2011-04-12 2016-06-28 The Nielsen Company (Us), Llc Methods and apparatus to generate a tag for media content
US8996557B2 (en) 2011-05-18 2015-03-31 Microsoft Technology Licensing, Llc Query and matching for content recognition
ES2459391T3 (es) 2011-06-06 2014-05-09 Bridge Mediatech, S.L. Método y sistema para conseguir hashing de audio invariante al canal
CN103797482A (zh) 2011-06-08 2014-05-14 沙扎姆娱乐有限公司 进行接收到的数据的比较并基于比较提供后续服务的方法和系统
CN103797483B (zh) 2011-06-10 2017-02-22 沙扎姆娱乐有限公司 用于标识数据流中的内容的方法和系统
US9209978B2 (en) 2012-05-15 2015-12-08 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9515904B2 (en) 2011-06-21 2016-12-06 The Nielsen Company (Us), Llc Monitoring streaming media content
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9461759B2 (en) 2011-08-30 2016-10-04 Iheartmedia Management Services, Inc. Identification of changed broadcast media items
US8639178B2 (en) 2011-08-30 2014-01-28 Clear Channel Management Sevices, Inc. Broadcast source identification based on matching broadcast signal fingerprints
US9374183B2 (en) 2011-08-30 2016-06-21 Iheartmedia Management Services, Inc. Broadcast source identification based on matching via bit count
US9049496B2 (en) * 2011-09-01 2015-06-02 Gracenote, Inc. Media source identification
US9460465B2 (en) 2011-09-21 2016-10-04 Genesys Telecommunications Laboratories, Inc. Graphical menu builder for encoding applications in an image
US9113202B1 (en) * 2011-09-21 2015-08-18 Google Inc. Inverted client-side fingerprinting and matching
US9384272B2 (en) 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
US8831763B1 (en) * 2011-10-18 2014-09-09 Google Inc. Intelligent interest point pruning for audio matching
US8538333B2 (en) 2011-12-16 2013-09-17 Arbitron Inc. Media exposure linking utilizing bluetooth signal characteristics
US8977194B2 (en) 2011-12-16 2015-03-10 The Nielsen Company (Us), Llc Media exposure and verification utilizing inductive coupling
US9268845B1 (en) * 2012-03-08 2016-02-23 Google Inc. Audio matching using time alignment, frequency alignment, and interest point overlap to filter false positives
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
US9235867B2 (en) * 2012-06-04 2016-01-12 Microsoft Technology Licensing, Llc Concurrent media delivery
US9129015B1 (en) * 2012-06-26 2015-09-08 Google Inc. Min/max filter for audio matching
US9282366B2 (en) 2012-08-13 2016-03-08 The Nielsen Company (Us), Llc Methods and apparatus to communicate audience measurement information
US20140074466A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US9390719B1 (en) * 2012-10-09 2016-07-12 Google Inc. Interest points density control for audio matching
US9069849B1 (en) * 2012-10-10 2015-06-30 Google Inc. Methods for enforcing time alignment for speed resistant audio matching
EP2731030A1 (en) * 2012-11-13 2014-05-14 Samsung Electronics Co., Ltd Music information searching method and apparatus thereof
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9706252B2 (en) 2013-02-04 2017-07-11 Universal Electronics Inc. System and method for user monitoring and intent determination
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
US9313544B2 (en) 2013-02-14 2016-04-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
FR3002713B1 (fr) * 2013-02-27 2015-02-27 Inst Mines Telecom Generation d'une signature d'un signal audio musical
US9451048B2 (en) 2013-03-12 2016-09-20 Shazam Investments Ltd. Methods and systems for identifying information of a broadcast station and information of broadcasted content
US9390170B2 (en) 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US9773058B2 (en) 2013-03-15 2017-09-26 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US20140278845A1 (en) 2013-03-15 2014-09-18 Shazam Investments Limited Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content
WO2014169238A1 (en) 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
US10318541B2 (en) 2013-04-30 2019-06-11 Splunk Inc. Correlating log data with performance measurements having a specified relationship to a threshold value
US10225136B2 (en) 2013-04-30 2019-03-05 Splunk Inc. Processing of log data and performance data obtained via an application programming interface (API)
US10019496B2 (en) 2013-04-30 2018-07-10 Splunk Inc. Processing of performance data and log data from an information technology environment by using diverse data stores
US10614132B2 (en) 2013-04-30 2020-04-07 Splunk Inc. GUI-triggered processing of performance data and log data from an information technology environment
US10353957B2 (en) 2013-04-30 2019-07-16 Splunk Inc. Processing of performance data and raw log data from an information technology environment
US10997191B2 (en) 2013-04-30 2021-05-04 Splunk Inc. Query-triggered processing of performance data and log data from an information technology environment
US10346357B2 (en) 2013-04-30 2019-07-09 Splunk Inc. Processing of performance data and structure data from an information technology environment
US9460201B2 (en) 2013-05-06 2016-10-04 Iheartmedia Management Services, Inc. Unordered matching of audio fingerprints
CN103402118B (zh) * 2013-07-05 2017-12-01 Tcl集团股份有限公司 一种媒体节目互动方法及系统
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US20150039321A1 (en) 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9275427B1 (en) * 2013-09-05 2016-03-01 Google Inc. Multi-channel audio video fingerprinting
US9898086B2 (en) * 2013-09-06 2018-02-20 Immersion Corporation Systems and methods for visual processing of spectrograms to generate haptic effects
US9053711B1 (en) 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
NL2011893C2 (en) * 2013-12-04 2015-06-08 Stichting Incas3 Method and system for predicting human activity.
US9426525B2 (en) 2013-12-31 2016-08-23 The Nielsen Company (Us), Llc. Methods and apparatus to count people in an audience
WO2015118431A1 (en) 2014-02-05 2015-08-13 Edge Innovation, Lda. Method for capture and analysis of multimedia content
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
US10430985B2 (en) 2014-03-14 2019-10-01 Magic Leap, Inc. Augmented reality systems and methods utilizing reflections
US9699499B2 (en) 2014-04-30 2017-07-04 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
CN104093079B (zh) 2014-05-29 2015-10-07 腾讯科技(深圳)有限公司 基于多媒体节目的交互方法、终端、服务器和系统
EP3023884A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
EP3228084A4 (en) 2014-12-01 2018-04-25 Inscape Data, Inc. System and method for continuous media segment identification
WO2016086905A1 (es) * 2014-12-05 2016-06-09 Monitoreo Tecnológico, S.A Método de medición de audiencias
AU2016211254B2 (en) 2015-01-30 2019-09-19 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10360583B2 (en) 2015-02-05 2019-07-23 Direct Path, Llc System and method for direct response advertising
WO2016168556A1 (en) 2015-04-17 2016-10-20 Vizio Inscape Technologies, Llc Systems and methods for reducing data density in large datasets
CN106294331B (zh) * 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
US9762965B2 (en) 2015-05-29 2017-09-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
CA3216076A1 (en) 2015-07-16 2017-01-19 Inscape Data, Inc. Detection of common media segments
EP3323055A1 (en) 2015-07-16 2018-05-23 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
CN106558318B (zh) * 2015-09-24 2020-04-28 阿里巴巴集团控股有限公司 音频识别方法和系统
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
US11037015B2 (en) 2015-12-15 2021-06-15 Cortica Ltd. Identification of key points in multimedia data elements
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
NZ744383A (en) 2016-01-19 2019-10-25 Magic Leap Inc Augmented reality systems and methods utilizing reflections
US10397663B2 (en) 2016-04-08 2019-08-27 Source Digital, Inc. Synchronizing ancillary data to content including audio
US10951935B2 (en) 2016-04-08 2021-03-16 Source Digital, Inc. Media environment driven content distribution platform
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
US10311918B1 (en) 2016-04-19 2019-06-04 Space Projects Ltd. System, media, and method for synchronization of independent sensors and recording devices
KR20230054499A (ko) 2016-04-26 2023-04-24 매직 립, 인코포레이티드 증강 현실 시스템들을 사용한 전자기 추적
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
CN106910494B (zh) 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
JPWO2018047805A1 (ja) * 2016-09-09 2019-06-24 日本電気株式会社 移動音源速度推定装置、速度監視システム、移動音源速度推定方法、および移動音源速度推定用プログラム
JP7100422B2 (ja) 2016-10-21 2022-07-13 富士通株式会社 データプロパティ認識のための装置、プログラム、及び方法
ES2765415T3 (es) 2016-10-21 2020-06-09 Fujitsu Ltd Aparato, método y programa de procesamiento de datos basado en microservicios
US10776170B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Software service execution apparatus, system, and method
JP6805765B2 (ja) 2016-10-21 2020-12-23 富士通株式会社 ソフトウェアサービスの実行のためのシステム、方法、及びプログラム
EP3312722A1 (en) 2016-10-21 2018-04-25 Fujitsu Limited Data processing apparatus, method, and program
US10922720B2 (en) 2017-01-11 2021-02-16 Adobe Inc. Managing content delivery via audio cues
US10166472B2 (en) 2017-05-04 2019-01-01 Shazam Investments Ltd. Methods and systems for determining a reaction time for a response and synchronizing user interface(s) with content being rendered
US10860786B2 (en) * 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
GB2564495A (en) * 2017-07-07 2019-01-16 Cirrus Logic Int Semiconductor Ltd Audio data transfer
WO2019012527A1 (en) 2017-07-09 2019-01-17 Cortica Ltd. ORGANIZATION OF DEPTH LEARNING NETWORKS
US10129392B1 (en) * 2017-08-25 2018-11-13 Global Tel*Link Corporation Systems and methods for detecting inmate to inmate conference calls
US20190104335A1 (en) * 2017-09-29 2019-04-04 Theater Ears, LLC Theater ears audio recognition & synchronization algorithm
FR3071994A1 (fr) * 2017-09-29 2019-04-05 Theater Ears, LLC Procede et programme de reconnaissance et synchronisation audio
US10158907B1 (en) 2017-10-10 2018-12-18 Shazam Investments Ltd. Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings
US20190109804A1 (en) * 2017-10-10 2019-04-11 Microsoft Technology Licensing, Llc Audio processing for voice simulated noise effects
US10129575B1 (en) 2017-10-25 2018-11-13 Shazam Entertainment Limited Methods and systems for determining a latency between a source and an alternative feed of the source
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
CN113724724B (zh) * 2018-07-18 2023-10-20 谷歌有限责任公司 回波检测
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US10748038B1 (en) 2019-03-31 2020-08-18 Cortica Ltd. Efficient calculation of a robust signature of a media unit
US11700356B2 (en) 2018-10-26 2023-07-11 AutoBrains Technologies Ltd. Control transfer of a vehicle
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US11245959B2 (en) 2019-06-20 2022-02-08 Source Digital, Inc. Continuous dual authentication to access media content
US10748022B1 (en) 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
US20230388562A1 (en) * 2022-05-27 2023-11-30 Sling TV L.L.C. Media signature recognition with resource constrained devices

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
US4450531A (en) 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
US4843562A (en) 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US5210820A (en) 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
GB9424429D0 (en) * 1994-12-02 1995-01-18 Philips Electronics Uk Ltd Audio/video timing discrepancy management
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6088455A (en) * 1997-01-07 2000-07-11 Logan; James D. Methods and apparatus for selectively reproducing segments of broadcast programming
CN1291324A (zh) 1997-01-31 2001-04-11 T-内提克斯公司 检测录制声音的系统和方法
US5940799A (en) 1997-09-15 1999-08-17 Motorola, Inc. System and method for securing speech transactions
US5913196A (en) 1997-11-17 1999-06-15 Talmor; Rita System and method for establishing identity of a speaker
CN1219810A (zh) * 1997-12-12 1999-06-16 上海金陵股份有限公司 远程公共电脑系统
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
US6483927B2 (en) 2000-12-18 2002-11-19 Digimarc Corporation Synchronizing readers of hidden auxiliary data in quantization-based data hiding schemes
KR100893671B1 (ko) * 2001-02-12 2009-04-20 그레이스노트, 인크. 멀티미디어 콘텐트의 해시들의 생성 및 매칭
KR20040024870A (ko) * 2001-07-20 2004-03-22 그레이스노트 아이엔씨 음성 기록의 자동 확인
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
WO2004040475A2 (en) * 2002-11-01 2004-05-13 Koninklijke Philips Electronics N.V. Improved audio data fingerprint searching
KR100456408B1 (ko) * 2004-02-06 2004-11-10 (주)뮤레카 오디오유전자 생성방법 및 오디오데이터 검색방법
WO2006086556A2 (en) * 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals

Also Published As

Publication number Publication date
US20050177372A1 (en) 2005-08-11
JP2005524108A (ja) 2005-08-11
AU2003230993A1 (en) 2003-11-10
JP4425126B2 (ja) 2010-03-03
CA2483104C (en) 2011-06-21
DK1504445T3 (da) 2008-12-01
PT1504445E (pt) 2008-11-24
EP1504445B1 (en) 2008-08-20
HK1073382A1 (en) 2005-09-30
BR0309598A (pt) 2005-02-09
CA2483104A1 (en) 2003-11-06
ATE405924T1 (de) 2008-09-15
KR100820385B1 (ko) 2008-04-10
CN1315110C (zh) 2007-05-09
CN1647160A (zh) 2005-07-27
WO2003091990A1 (en) 2003-11-06
TW200307205A (en) 2003-12-01
EP1504445A4 (en) 2005-08-17
TWI269196B (en) 2006-12-21
EP1504445A1 (en) 2005-02-09
KR20050010763A (ko) 2005-01-28
US20090265174A9 (en) 2009-10-22
DE60323086D1 (de) 2008-10-02
US7627477B2 (en) 2009-12-01

Similar Documents

Publication Publication Date Title
ES2312772T3 (es) Equivalencia solida e invariante de patron de audio.
ES2488719T3 (es) Sistema y método para el reconocimiento de medios de audio
Ke et al. Computer vision for music identification
JP5090523B2 (ja) 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
USRE46037E1 (en) Method, medium, and system for music retrieval using modulation spectrum
US8190663B2 (en) Method and a system for identifying similar audio tracks
US8699852B2 (en) Video concept classification using video similarity scores
US8867891B2 (en) Video concept classification using audio-visual grouplets
Casey et al. Song Intersection by Approximate Nearest Neighbor Search.
US20140135964A1 (en) Music information searching method and apparatus thereof
CN111651527B (zh) 基于轨迹相似度的身份关联方法、装置、设备及存储介质
ES2354330A1 (es) Método para calcular medidas de similitud entre señales temporales.
Kaiser et al. Multiple hypotheses at multiple scales for audio novelty computation within music
Sankararaman et al. Computing similarity between a pair of trajectories
KR20190051265A (ko) 오디오 핑거프린트 매칭 방법
KR101840014B1 (ko) 음악 매칭 댄싱 동작 인식 장치 및 매칭 방법
CN109686376B (zh) 一种歌曲演唱评价方法及系统
Zhang et al. Range-Based Equal Error Rate for Spoof Localization
Seo A music similarity function based on the centroid model
Lin et al. Generalized time-series active search with Kullback–Leibler distance for audio fingerprinting
Deepsheka et al. Recurrent neural network based music recognition using audio fingerprinting
Marques et al. TUT acoustic scene classification submission
Subramanian et al. Concert Stitch: Organization and Synchronization of Crowd Sourced Recordings.
US20220335082A1 (en) Method for audio track data retrieval, method for identifying audio clip, and mobile device
Marques et al. Automatic Acoustic Scene Classification