ES2312772T3 - Equivalencia solida e invariante de patron de audio. - Google Patents
Equivalencia solida e invariante de patron de audio. Download PDFInfo
- Publication number
- ES2312772T3 ES2312772T3 ES03724113T ES03724113T ES2312772T3 ES 2312772 T3 ES2312772 T3 ES 2312772T3 ES 03724113 T ES03724113 T ES 03724113T ES 03724113 T ES03724113 T ES 03724113T ES 2312772 T3 ES2312772 T3 ES 2312772T3
- Authority
- ES
- Spain
- Prior art keywords
- relative
- digital
- value
- peak
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/135—Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Abstract
Un método para caracterizar una relación de una primera y una segunda muestra de audio, que consiste en los siguientes pasos: - generar un primer conjunto de objetos con impresiones digitales (310) para la primera muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la primera muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la primera muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la primera muestra de audio en o cerca de cada respectiva localización; - generar una segundo conjunto de objetos con impresiones digitales (320) para la segunda muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la segunda muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la segunda muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la segunda muestra de audio en o cerca de cada respectiva localización; - emparejar objetos con impresiones digitales (352) haciendo coincidir un primer objeto con impresión digital (311) de la primera muestra de audio con un segundo objeto con impresión digital (322) de la segunda muestra de audio que sea sustancialmente similar al primer objeto con impresión digital; donde cada objeto con impresión digital tiene un componente invariante (262) y un componente variante (252) en la localización, y el primer y segundo objeto con impresión digital en cada pareja equivalente de objetos con impresión digital tienen componentes invariantes que coinciden; - generar, en base al paso de emparejamiento, una lista de parejas de objetos con impresiones digitales (352); - determinar el valor relativo para cada pareja de objetos con impresión digital equivalente usando los componentes variantes (252), - generar un histograma del valor relativo (354); y - buscar un pico estadísticamente significativo en el histograma (355), caracterizando el pico la relación entre la primera y segunda muestra de audio que incluye un factor de elasticidad.
Description
Equivalencia sólida e invariante de patrón de
audio.
Esta invención se refiere generalmente al
procesamiento de una señal de sonido en una gran base de datos de
archivos de sonido o audio. Más en particular, se refiere a una
técnica inventiva para determinar de manera rápida y precisa si dos
muestras de audio coinciden, y es inmune a varias transformaciones
entre las que se incluyen la variación de velocidad en una
grabación. La técnica inventiva además permite una estimación
precisa de las transformaciones.
La necesidad de un reconocimiento automático
rápido y preciso para la música y otras señales de sonido continúa
en crecimiento. La tecnología de reconocimiento de sonido
previamente disponible a menudo sacrificaba la velocidad por la
precisión o la inmunidad sonora. En algunas aplicaciones, era
necesario calcular una regresión para calcular la pendiente de
tiempo-tiempo dispersión-trazado en
la presencia de ruido extremo, lo que introdujo un número de
dificultades y disminuyó la actuación tanto de la velocidad como de
la precisión. Por lo tanto, técnicas de reconocimiento de sonido
que ya existían previamente eran incapaces de llevar a cabo un
reconocimiento rápido y preciso en presencia de una significativa
variación de velocidad en una grabación, por ejemplo, en el
reconociendo de una grabación que está funcionando a una velocidad
más rápida que la normal.
Además de la complejidad del problema existe un
tipo de variación de velocidad cada vez más popular, la variación
de tempo de corrección de tono, usada por los DJs en las emisoras
de radio, clubs y en más sitios. En la actualidad, existe una
técnica sólida y fiable que puede realizar un reconocimiento de
sonido rápido y preciso a pesar de las variaciones de velocidad en
la grabación y/o las variaciones de tempo de corrección de
tono.
WO02/11123 describe un método para comparar dos
muestras de audio o sonido igualando las impresiones digitales
sonoras determinadas a partir de cada muestra de audio. Las
impresiones digitales computadas son invariables en la extensión de
tiempo y sus localizaciones relativas se emplean para determinar
estadísticamente una compensación de tiempo entre dos muestras de
audio.
"Musical Database Retrieval Based on Spectral
Similarity" por Cheng Yang publicado como un Informe Técnico en
Grupo sobre Bases de Datos en la Universidad de Stanford en 2001
describe la comparación de dos fragmentos de audio de respectivos
vectores espectrales de audio. El método emplea una línea ajustada
a puntos que representan ocurrencia en el tiempo de vectores
correspondientes en ambos fragmentos de audio, con el fin de
representar la similitud del archivo.
La presente invención cumple la necesidad en la
técnica de reconocimiento de audio proporcionando un método rápido
e invariable para caracterizar la relación entre dos archivos de
audio. El método inventivo es preciso incluso en presencia de ruido
extremo, superando los inconvenientes mencionados de la tecnología
existente.
De acuerdo con un aspecto de la invención, en lo
sucesivo se proporciona un método de acuerdo con la reivindicación
1.
De acuerdo con otro aspecto de la invención, la
técnica arriba descrita puede además mejorarse proporcionando un
cálculo aproximado de valor relativo global con una localización de
un pico en un eje del histograma. El valor relativo global, a su
vez, puede perfeccionarse mediante una primera selección de una
zona alrededor del pico de interés.
Incluso en otra realización, en la cual el valor
de velocidad de grabación relativa se determina a partir de un pico
del histograma, se calcula un valor de compensación relativo de
tiempo para cada par de objetos con impresión digital equivalente.
Se genera otro histograma en base a los valores de compensación
relativos de tiempo. Si se encuentra un punto estadísticamente
significativo en el segundo histograma, la relación entre las dos
muestras de audio puede además caracterizarse por el pico,
proporcionando además una mejora en la precisión de la
invención.
Fig. 1 es una representación de un espectrograma
de una muestra de audio analizada.
Fig. 2 es un diagrama ejemplar que muestra
objetos con impresiones digitales que se generan a partir de una
muestra de audio de acuerdo con un aspecto de la invención.
Fig. 3 ilustra dos muestras de audio que se
comparan de acuerdo con los principios de la presente
invención.
Figs. 4A-B muestran
espectrogramas ejemplares con o sin pico estadísticamente
significativo.
Figs. 5A-B muestran el
movimiento de puntos frecuencia-tiempo cuando la
velocidad de la grabación varía.
Figs. 6A-B muestran los tiempos
correspondientes en una primera muestra de audio (sonido de
muestra) y una segunda muestra de audio (sonido de base de datos)
de detalles numerales correspondientes.
Figs. 7A-D ilustran pendientes
rápidas y eficientes y técnicas de histogramas de la presente
invención.
\vskip1.000000\baselineskip
La presente invención permite indexar y buscar
de manera rápida, sólida, invariable y en escalas una gran base de
datos de archivos de audio y en particular es útil para
aplicaciones en reconocimiento de patrones de audio.
Una operación de comparación rápida y eficiente
entre dos archivos de muestra de audio es esencial en la
construcción de un sistema de reconocimiento de audio
comercialmente viable. De acuerdo con un aspecto de la invención,
la relación entre dos muestras de audio puede caracterizarse en
primer lugar por ciertas impresiones digitales de objetos que
coinciden y que derivan de un espectrograma, como el mostrado en la
Figura 1, de las respectivas muestras de audio. El espectrograma es
una representación/análisis de tiempo-frecuencia
que se genera tomando muestras 2*K en un punto en el tiempo en un
marco de ventana corrediza y calculando una Transformación de
Fourier, generando de este modo cajas de frecuencia K en cada marco.
Los marcos pueden coincidir o montarse para mejorar la resolución
temporal del análisis. Los parámetros particulares empleados
dependen del tipo de muestras de audio que se están procesando.
Preferiblemente se emplean archivos de audio con tiempo discreto
con un rango de muestreo de 8 kilohercios, marcos con K=512, y un
ritmo de 64 muestras.
Después de generarse un espectrograma de cada
muestra de audio, se escanea para buscar características locales,
es decir, picos de energía local, tal y como se muestra en la Fig.
2. El proceso de comparación comienza extrayendo un conjunto de
impresiones digitales de las correspondientes características
locales de cada muestra de audio. En una realización ejemplar, una
muestra de audio es una muestra de sonido desconocido que va a
reconocerse y la otra muestra de audio es una grabación conocida
almacenada en una base de datos. Cada objeto con impresión digital
ocurre en una localización particular en la respectiva muestra de
audio. En algunas realizaciones, cada objeto con impresión digital
se localiza en alguna compensación de tiempo en un archivo de audio
y contiene un conjunto de datos descriptivos sobre el archivo de
audio junto con su respectivo coordinado temporal. Es decir, la
información descriptiva contenida en cada objeto con impresión
digital se calcula con dependencia de la muestra de audio cerca de
la correspondiente compensación de tiempo. Esto se codifica en una
pequeña estructura de datos. Preferentemente, la localización y la
información descriptiva se determinan de modo que sean generalmente
reproducibles incluso en el caso de presencia de ruido, distorsión,
y otras transformaciones tales como variación en la velocidad de
grabación. En este caso, la localización se determina dependiendo
del contenido de la respectiva muestra de audio y cada objeto con
impresión digital caracteriza una o más características locales de
la respectiva muestra de audio en o cerca de la respectiva
localización particular, por ejemplo, localización (t1, f1) o (t2,
f2) tal y como se muestra en la Fig. 1.
En una realización ejemplar, cada objeto con
impresión digital se caracteriza por su localización, un componente
variante y un componente invariante. Cada característica local es
un pico en el espectrograma y cada valor de frecuencia se determina
a partir de una coordenada de frecuencia de un correspondiente pico
en el espectrograma. Los picos se determinan buscando en las
inmediaciones de cada coordenada tiempo-frecuencia y
seleccionando los puntos que tienen mayor valor en magnitud en
comparación con sus vecinos. Más específicamente, tal y como se
muestra en la Fig. 2, se analiza una muestra de audio 210 en una
representación de espectrograma 220 con regiones 221 y 222 de
elevada energía demostrada. La información relativa a las regiones
locales de energía 221 y 222 se extrae y resume en una lista 230 de
objetos con impresiones digitales 231, 232, etc. Cada objeto con
impresión digital incluye opcionalmente un campo de localización
242, un componente variante 252, y un componente invariante 262.
Preferentemente, se selecciona una zona de tal modo que cada punto
elegido sea el máximo en una unidad de bloque 21x21 en el centro de
la misma. A continuación, se determina un valor relativo para cada
par de objetos con impresión digital igualada. En algunas
realizaciones, el valor relativo es un cociente o diferencia de
logaritmo de valores paramétricos de las respectivas muestras de
audio. A continuación se genera un histograma de los valores
relativos. Si se encuentra un pico estadísticamente significativo
en el histograma, entonces las dos muestras de audio pueden
calificarse de sustancialmente iguales.
En referencia a la Fig. 3, las listas de objetos
con impresiones digitales 310 y 320 se preparan respectivamente tal
y como se ha descrito anteriormente para las muestras de audio 1 y
2, respectivamente. Se comparan los respectivos objetos con
impresiones digitales 311 y 322 de cada lista. Los objetos con
impresiones digitales que coinciden se emparejan, por ejemplo,
empleando los respectivos componentes invariantes Inv e Inv' en el
paso 351, y colocándolos en una lista en el paso 352. A
continuación, en el paso 354, se genera un histograma de valores
relativos. En el histograma se busca un pico estadísticamente
significativo en el paso 355. Si no se encuentra ninguno en el paso
356, las muestras de audio 1 y 2 no coinciden, por ejemplo, el
histograma 410 de la Fig. 4A. De manera alternativa, si se detecta
un pico estadísticamente significativo, las muestras 1 y 2
coinciden, por ejemplo, el histograma 420 de la
Fig. 4B.
Fig. 4B.
La técnica que acaba de ser descrita puede
además mejorar proporcionando un cálculo aproximado de un valor
relativo global R con una localización en el pico del eje del
histograma, tal y como se ilustra en el paso 361. En algunas
realizaciones, R puede perfeccionarse mediante una primera
selección de una zona alrededor del pico de interés. En la Fig. 1,
esto se muestra como un área de interés 110 alrededor de una
localización particular (t1, f1). A continuación, se calcula un
promedio de los valores relativos en la zona seleccionada. El
promedio puede ser una media ponderada con números de puntos en
cada valor relativo en la zona seleccionada. En algunas
realizaciones, R puede además perfeccionarse para generar un valor
relativo de compensación de tiempo t'-R*t par cada
pareja que coincide. Los pasos 362-364 muestran
que, con estos valores relativos de compensación de tiempo, se
genera un segundo histograma, permitiendo que se calcule un tiempo
compensado.
Otros tipos de análisis
tiempo-frecuencia pueden implementarse para extraer
objetos con impresiones digitales, por ejemplo, la distribución
Wigner-Wille o wavelets (ondas pequeñas). Así
mismo, en lugar de picos en espectrograma, se pueden emplear otras
características, por ejemplo coeficientes cepstrales. Además, las
técnicas de súper-resolución pueden emplearse para
obtener cálculos aproximados más precisos de tiempo y frecuencia de
las coordenadas tiempo-frecuencia provistas por los
picos del espectrograma. Por ejemplo, la interpolación parabólica
en cubos o cajas de frecuencia podría usarse para aumentar la
resolución de frecuencia. Pueden encontrarse descripciones
ejemplares relacionadas en "PARSHL: Un Programa de
Análisis/Síntesis para Sonidos No Armónicos en Base a una
Representación Sinusoidal", Julius O. Smith II y Xavier Serra,
Procedimientos de la Conferencia Internacional de Música en
Ordenador (ICMC-87, Tokio), Asociación de Música en
Ordenador, 1987, y en "Estimación Moderna Espectral: Teoría y
Aplicación" por Steven M. Kay (Enero 1988) Prentice may, ambos
aquí incorporados como referencias.
En una operación de equivalencia, se comparan
dos muestras de audio por medio de sus respectivos objetos con
impresión digital. Tal y como se ha descrito anteriormente con
referencia a la Fig. 3, se generan pares de objetos con impresiones
digitales iguales, conteniendo cada par componentes que
sustancialmente coinciden. Un modo de preparar los datos para
permitir una rápida búsqueda es codificar los objetos con
impresiones digitales en fichas numéricas, como números enteros sin
firmar de 32 bits, y empleando fichas numéricas como una clave para
clasificar y buscar. Las técnicas para una eficiente manipulación
de datos son bien conocidas en el campo, por ejemplo "Art of
Computer Programming, Volume 3: Sorting and Searching (2ª
Edición)", por Donal Ervin Knuth (Abril 1998)
Addison-Wesley, que aquí se incorpora como
referencia.
En una realización ejemplar, cada objeto con
impresión digital contiene un componente invariante y un componente
variante. El componente variante hace referencia a los valores de
radios de frecuencia correspondientes a los picos espectrales, así
como los valores de radios de tiempo delta (es decir, la diferencia
temporal) entre los picos espectrales son invariantes bajo el
periodo de tiempo. Por ejemplo, en referencia a la Fig. 5A y 5B, si
un espectrograma de una muestra de audio tiene algunos picos
locales espectrales con coordenadas (t1, f1), (t2, f2), y (t3, f3),
entonces el invariante para dos puntos es f2/f2, es decir
f2'/f1'=f2/f1. Se dan invariantes adicionales para 3 puntos
mediante f2/f1, (t3-t1)/(t2-t1), o
(t3-t2)/(t2/t1), o cualquier otra combinación creada
cambiando los puntos y/o funciones de computación de estas
cantidades o combinaciones de estas cantidades. Por ejemplo, f2/f3
podría crearse dividiendo f2/f1 por f3/f1. Además, si la muestra de
audio se extiende linealmente, simplemente reproduciéndola más
rápido, de manera adicional la frecuencia y el tiempo delta
experimentan una relación recíproca para que las cantidades como
f1*(t2-t1) sean también invariantes. Pueden
emplearse logaritmos de estas cantidades, sustituyendo la suma y la
resta por la multiplicación y I a división. Para descubrir los
radios de frecuencia y de extensión temporal, asumiendo que sean
independientes, es necesario tener una cantidad de variante de
frecuencia y de variante de tiempo.
Para realizar la equivalencia de manera más
eficiente, empleamos la parte invariante para crear el índice de
impresiones digitales y usamos valores próximos o exactos para la
búsqueda. Realizar la búsqueda usando equivalencias próximas
permite una solidez adicional contra la distorsión y el error
concluyente, pero implica mayor coste si la búsqueda en componentes
invariantes se vuelve una búsqueda de ámbito tridimensional. En la
realización preferente, se precisa que el componente invariantes de
los respectivos objetos con impresiones digitales se ajuste
exactamente, dando lugar por lo tanto a un sistema que es muy
rápido, con una menor compensación contra la sensibilidad de
reconocimiento en presencia de ruido. Es importante señalar que
este método funciona bien incluso si solamente una minoría de
objetos con impresiones digitales en las correspondientes muestras
de audio coincide correctamente. En el paso de detección de pico en
el histograma, un pico puede ser estáticamente significativo
incluso si tan sólo el 1-2% de los objetos con
impresiones digitales coinciden correctamente y sobreviven.
El componente variante también puede emplearse
para limitar el número de objetos con impresiones digitales
equivalentes, además de o en lugar del componente variante. Por
ejemplo, podríamos necesitar que un componente variante V de la
primera muestra de audio coincidiera con un correspondiente V'' de
la segunda muestra de audio en un +/- 20%. En ese caso, podemos
formar una representación de las fichas numéricas de tal modo que la
parte superior (por ejemplo, los bits más significativos) contenga
los componentes invariantes y la parte inferior (por ejemplo, los
bits menos significativos) contenga los componentes variantes. Así,
buscar una equivalencia aproximada se convierte en una búsqueda de
ámbito sobre las fichas compuestas usando los valores más bajos y
más altos del componente variante. El uso de un componente
invariante en la equivalencia no es por lo tanto estrictamente
necesario si la búsqueda se realiza usando un componente variante.
Sin embargo, el uso de un componente invariante en el proceso de
equivalencia es recomendado ya que ayuda a reducir el número de
falsas coincidencias o parejas, por lo que hace más eficiente el
proceso de realización de histogramas y reduce la cantidad de
procesos generales.
Por otra parte, el propio componente variante
nuevo puede ser o no parte del criterio de equivalencia entre dos
objetos con impresiones digitales. El componente variante
representa un valor que puede distorsionarse por una simple
transformación paramétrica que va desde una grabación original a
una grabación de muestra. Por ejemplo, los componentes variantes de
frecuencia, como f1, f2, f3, y los componentes variantes de tiempo
como (t2-t1), (t3-t1), o
(t3-t2) pueden elegirse como componentes variantes
para variación de velocidad en una grabación. En el caso de que
haya una segunda muestra de audio, en la interpretación de
equivalencia en una base de datos, con un espectrograma que incluye
coordenadas (t1', f1'), (t2', f2') y (t3', f3'), correspondientes a
los mismos puntos listados anteriormente para la primera muestra de
audio. A continuación, el componente de frecuencia f1' podría tener
un valor escalado f1'=R_{f}*f1, donde R_{f} es un parámetro de
extensión lineal que describe lo rápido o despacio que se reproduce
la primera muestra en comparación con la segunda. El componente
variante de cada una de las dos muestras de audio equivalentes
puede emplearse para calcular una aproximación del valor de
extensión global, lo que describe un parámetro macroscópico,
calculando el radio entre los dos valores de frecuencia, R_{f}=2
significa que la primera muestra de audio tiene la mitad de tono
(frecuencia) de la segunda. Otra posibilidad es usar
R_{t}=(t2'-t1')/(t2-t1). En este
caso, el valor relativo R es el radio de velocidad relativa de
grabación, es decir, R_{t}=2 significa que la primera muestra de
audio se reproduce el doble de rápido que la segunda muestra de
audio.
Si R_{f}=1/R_{t}, es decir,
f'/f'=(t2-t1)/(t2'-t1'), entonces
las dos muestras de audio están relacionadas por una extensión
lineal de tiempo debido a la relación recíproca
tiempo-frecuencia para dichas muestras de audio. En
este caso, podemos usar en primer lugar el método del histograma
aquí descrito para formar un R_{f} aproximado del radio relativo
de frecuencia relativa usando los correspondientes componentes
variantes de frecuencia, y de nuevo para formar un R_{t}
aproximado de la velocidad relativa de grabación, y llevar a cabo a
continuación una comparación para detectar si la relación de la
grabación es lineal o no lineal.
En general, el valor relativo se calcula a
partir de objetos con impresiones digitales equivalentes usando los
correspondientes componentes variantes de la primera y segunda
muestra de audio. El valor relativo podría ser un simple radio de
frecuencias o tiempos delta, o cualquier otra función que dé como
resultado un cálculo aproximado un parámetro global empleado para
describir el trazado entre la primera y la segunda muestra de
audio. Pero en general, puede emplearse cualquier función con 2
entradas F ( ), por ejemplo, R=F (vl,vl'), donde vl y vl' son
respectivas cantidades variantes. Es mejor si F ( ) es una función
continua para que ocurran pequeños errores en la medida de vl y vl'
en la salida R.
Tal y como aquí se describe, se genera un
histograma sobre un conjunto de valores relativos calculados a
partir de una lista de parejas equivalentes de objetos con
impresiones digitales. A continuación se busca un histograma para
un pico. La presencia de un pico estadísticamente significativo en
el histograma indica que se ha dado una posible coincidencia o
equivalencia. En particular, este método busca en el histograma un
grupo valores relativos en lugar de diferencias de compensaciones
de tiempo, como (t1'-t1). De acuerdo con un
principio de la presente invención, un histograma sirve para formar
cubos de valores totales, correspondiendo cada cubo a un valor
particular a lo largo del eje independiente del histograma. Para
fines de la invención, generar un histograma puede llevarse a cabo
simplemente clasificando la lista de valores relativos. Por lo
tanto, un modo rápido y eficaz de detectar el pico de un histograma
de una lista de valores es clasificar la lista en orden ascendente
y escanear a continuación el mayor grupo de unidades que tengan
valores iguales o similares.
Tal y como se ha establecido anteriormente, con
la presente invención, dos muestras de audio pueden coincidir
correctamente incluso si solamente el 2% de los objetos con
impresiones digitales sobrevive a todas las distorsiones y
coinciden correctamente. Esto es posible anotando la comparación
entre las dos muestras de audio. En concreto, se elige una zona
alrededor del pico del histograma y se cuentan todas las parejas
equivalentes que caen en la zona, dando como resultado una
puntuación. Además, puede calcularse una puntuación ponderada
descontando la contribución de parejas que son de puntos más
lejanos al centro del pico.
Un modo de calcular el criterio límite es asumir
que la probabilidad de distribución del resultado de una ruta no
equivalente cae con una cola exponencial. El modelo se aplica a la
distribución real medida de resultados de rutas no equivalentes. A
continuación se calcula la distribución cumulativa de probabilidad
del resultado más elevado sobre una base de datos de rutas N (por
ejemplo, tomado como la potencia Nth de la distribución cumulativa
de probabilidad de un único resultado no equivalente). Una vez que
se conoce la curva de probabilidad y se elige un nivel máximo de
positivos falsos (por ejemplo, 0.5%), puede elegirse el umbral
numérico y emplearse para determinar si el pico del histograma
tiene un número estadísticamente significativo de parejas
equivalentes.
Una vez que se encuentra un pico en el
histograma estadísticamente significativo, puede calcularse una
estimación "hiperfina" de elevada resolución del valor
relativo global (como la velocidad relativa de grabación). Esto se
lleva a cabo eligiendo una zona alrededor del pico, por ejemplo,
incluyendo un intervalo de aproximadamente 3 a 5 cubos centrados en
el histograma del pico, y calculando una media de los valores
relativos en la zona. Empleando esta técnica, podemos encontrar
velocidad relativa de grabación exacta en un 0.05%. Con la
derivación de compensación aquí descrita la compensación global de
tiempo puede calcularse con una precisión mejor que un milisegundo,
lo que es más preciso que la resolución de tiempo de los marcos de
espectrograma mencionados.
\vskip1.000000\baselineskip
En el caso de que las muestras realmente
coincidan, puede verse una línea diagonal en una zona de dispersión
donde las muestras equivalentes tiene las correspondientes
coordenadas de tiempo (t',t) de objetos con impresiones digitales
trazadas o marcadas una contra la otra, tal y como se muestra en la
Fig. 6A. El objetivo es encontrar la ecuación del elemento de la
regresión, que se determina mediante la pendiente y la compensación
de la línea en presencia de una elevada cantidad de ruido. La
pendiente indica la velocidad relativa de grabación, y la
compensación es la compensación relativa desde el inicio de una
muestra de audio hasta el inicio de la segunda. Técnicas
convencionales de regresión, como mínimos cuadrados ponderados, se
encuentran disponibles por ejemplo en "Numerical Recipes in C:
The Art of Scientific Computig (2ª edición)", por William H.
Press, Brian P. Flannery, Saul A. Teukolsky, y William T.
Vetterling (Enero 1993), Cambridge Universtiy Press, que aquí se
incorpora como referencia. Desafortunadamente, estas técnicas
convencionales sufren sensibilidad desproporcionada, donde un punto
demasiado alejado puede desviar drásticamente los parámetros
estimados de regresión. En la práctica, los puntos a menudo están
dominados por un punto más alejado, provocando que sea muy
complicado detectar la correcta línea diagonal. Pueden emplearse
otras técnicas para regresión sólida para superar el problema del
punto más alejado y para encontrar una relación lineal entre los
puntos en presencia de ruido, pero estas técnicas tienden a ser
lenta e iterativas y existe la posibilidad de quedarse atascadas en
un punto óptimo local. Existe una amplia variedad de técnicas en la
bibliografía para buscar un elemento de regresión lineal no
conocido. El kit de herramientas Matlab, disponible en Mathsworks,
contiene una variedad de rutinas software para análisis de
regresión.
La presente invención proporciona un método
inventivo para calcular la velocidad relativa de una grabación (o,
equivalentemente, la reciprocidad del tono relativo, en el caso de
una relación de grabación lineal) que soluciona el problema de
buscar una línea de regresión en el trazado de dispersión
tiempo-tiempo incluso si la pendiente de la pareja
no se iguala, por ejemplo, Fig. 6B. El uso de un histograma de
velocidades relativas locales de grabación, tal y como aquí se
establece, tiene la ventaja de contar con la información no
considerada previamente y proporciona una ventaja inesperada al
solucionar rápida y eficientemente el problema de regresión.
Para encontrar la compensación, se asume que los
correspondientes puntos en el tiempo tienen la relación
compensación =
t1' –
R_{t}*t1,
donde R_{t} se obtiene tal y como
se ha descrito anteriormente. Esto es la compensación de tiempo y
sirve para normalizar los sistemas de coordenada de tiempo entre
dos muestras de audio. Esto también puede verse como una
transformación de corte en el trazado de dispersión
tiempo-tiempo que provoca que la línea diagonal de
la pendiente no conocida de la Fig. 7A sea vertical en la Fig. 7C.
El histograma 720 de la Fig. 7B muestra un pico de radios de
velocidad relativa acumulada de grabación que indican el radio
global relativo de velocidad de grabación R. A continuación se dan
nuevos valores mediante la fórmula de compensación, y se genera un
nuevo histograma 740 tal y como se observa en la Fig. 7D. El pico
del nuevo histograma 740 ofrece un cálculo aproximado de la
compensación global, lo que puede pulirse mediante el uso de un
promedio de los valores en la zona del pico, tal y como se ha
descrito
anteriormente.
En resumen, la primera fase de realización de
histograma proporciona un modo para calcular la velocidad relativa
de grabación, y así mismo determina si existe alguna equivalencia.
La segunda fase de realización de histograma asegura que las
muestras de audio candidatas a equivalencia tengan un número
significativo de objetos con impresiones digitales que se alinean
también de manera temporal. La segunda fase de realización de
histograma también sirve como un segundo criterio de análisis
independiente y ayuda a disminuir la probabilidad de positivos
falsos, proporcionando de este modo un criterio más fuerte y sólido
para decidir si las dos muestras de audio coinciden. La segunda
fase de la realización de histograma puede realizarse de manera
opcional solamente si existe un pico estadísticamente significativo
en el primer histograma, ahorrando de este modo recursos y
esfuerzos computacionales. Opcionalmente puede realizarse una
optimización adicional, por ejemplo, para reducir el grupo
computacional, en vez de computar el segundo histograma sobre todas
las parejas de objetos con impresiones digitales equivalente en la
lista, el segundo histograma puede generarse empleando solamente
las parejas equivalentes correspondientes al pico del primer
histograma.
\vskip1.000000\baselineskip
La presente invención también puede
implementarse para introducir y alinear el tiempo de grabaciones de
audio no sincronizadas. Por ejemplo, suponemos que un grabador DAT
y un grabador de cintas funcionaron independientemente con
diferentes micrófonos en localizaciones o ambientes ligeramente
diferentes. Si más tarde se desea combinar las dos grabaciones a
partir de las respectivas grabaciones en una mezcla, las dos rutas
pueden sincronizarse usando la técnica sólida de regresión aquí
descrita para obtener la compensación temporal. De este modo,
incluso si las grabaciones no sincronizadas operan a velocidades
ligeramente diferentes, la velocidad relativa puede determinarse
con un elevado grado de precisión, permitiendo que una grabación se
compense con respecto a la otra. Este hecho resulta especialmente
útil si se descubre que una de las grabaciones se ha corrompido y
necesita complementarse con otra fuente. Por lo tanto, la
alineación temporal y la sincronización tal y como aquí se
describen permiten una mezcla transparente.
Debido a que el método de comparación es
extremadamente rápido, es posible pre-procesar una
gran base de datos de muestras de audio en respectivas listas de
objetos con impresiones digitales. Tal y como el experto en la
técnica apreciará, una muestra de audio no conocida puede por lo
tanto pre-procesarse en su propia lista respectiva
de objetos con impresiones digitales usando las técnicas de
procesamiento de datos disponibles. Las técnicas arriba mencionadas
sobre equivalencia, histogramas, y detección de pico pueden
llevarse a cabo a continuación empleando los objetos con
impresiones digitales pre-tratados en la base de
datos para encontrar una equivalencia.
A pesar de que la presente invención y sus
ventajas han sido descritas con detalle, debería entenderse que la
presente invención no se limita o define por lo que aquí se muestra
o establece. En particular, los dibujos y descripciones aquí
adjuntas muestran tecnologías relacionadas con la invención,
muestran ejemplos de la invención, y proporcionan ejemplos para
usar la invención y no pretenden limitar la presente invención.
Pueden establecerse métodos, técnicas y sistemas conocidos sin dar
detalles, para evitar confundir los principios de la invención.
Como un experto en la técnica apreciará, la presente invención
puede implementarse, modificarse, o sino alterarse sin partir de
los principios y espíritu de la presente invención. Por ejemplo,
los métodos, técnicas y pasos aquí descritos pueden implementarse o
sino realizarse de una forma mediante instrucciones ejecutables por
un ordenador en un medio legible de ordenador. De manera
alternativa, la presente invención puede implementarse en un
sistema de ordenador que tenga un cliente y un servidor. El cliente
envía la información, por ejemplo, objetos con impresiones
digitales, necesaria para la caracterización de la relación entre
la primera y la segunda muestra de audio al servidor donde se lleva
a cabo la caracterización. Por consiguiente, el alcance de la
invención debería determinarse por las siguientes
reivindicaciones.
Claims (17)
1. Un método para caracterizar una relación de
una primera y una segunda muestra de audio, que consiste en los
siguientes pasos:
- -
- generar un primer conjunto de objetos con impresiones digitales (310) para la primera muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la primera muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la primera muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la primera muestra de audio en o cerca de cada respectiva localización;
- -
- generar una segundo conjunto de objetos con impresiones digitales (320) para la segunda muestra de audio, ocurriendo cada objeto con impresión digital en una respectiva localización en la segunda muestra de audio, estando la respectiva localización determinada en dependencia del contenido de la segunda muestra de audio, y estando caracterizado cada objeto con impresión digital por una o más características de la segunda muestra de audio en o cerca de cada respectiva localización;
- -
- emparejar objetos con impresiones digitales (352) haciendo coincidir un primer objeto con impresión digital (311) de la primera muestra de audio con un segundo objeto con impresión digital (322) de la segunda muestra de audio que sea sustancialmente similar al primer objeto con impresión digital; donde cada objeto con impresión digital tiene un componente invariante (262) y un componente variante (252) en la localización, y el primer y segundo objeto con impresión digital en cada pareja equivalente de objetos con impresión digital tienen componentes invariantes que coinciden;
- -
- generar, en base al paso de emparejamiento, una lista de parejas de objetos con impresiones digitales (352);
- -
- determinar el valor relativo para cada pareja de objetos con impresión digital equivalente usando los componentes variantes (252),
- -
- generar un histograma del valor relativo (354); y
- -
- buscar un pico estadísticamente significativo en el histograma (355), caracterizando el pico la relación entre la primera y segunda muestra de audio que incluye un factor de elasticidad.
2. El método de acuerdo con la reivindicación 1
en el que la relación entre la primera y segunda muestra de audio
se caracteriza por una sustancial coincidencia si se encuentra un
pico estadísticamente significativo.
3. El método de acuerdo con la reivindicación 1
o 2, que además comprende el paso de calcular un valor global
relativo con una localización de un pico en un eje del histograma,
caracterizando además el valor global relativo la relación entre la
primera y la segunda muestra de audio.
4. El método de acuerdo con la reivindicación 3,
que además comprende el paso de determinar un cálculo aproximado
hiperfino del valor global relativo, donde el paso de determinación
comprende:
- -
- seleccionar una zona alrededor del pico, y calcular un promedio de los valores relativos en la zona vecina.
5. El método de acuerdo con la reivindicación 1
en el que el componente invariante se genera usando:
- (i)
- un radio entre el primer y el segundo valor de frecuencia, determinándose cada valor de frecuencia respectivamente a partir de una primera y una segunda característica local cerca de la respectiva localización de cada objeto con impresión digital;
- (ii)
- un producto entre un valor de frecuencia y un valor de tiempo delta, determinándose el valor de frecuencia a partir de una primera característica local, y determinándose el valor de tiempo delta entre la primera característica local y una segunda característica local cerca de la respectiva localización de cada objeto con impresión digital; o
- (iii)
- un radio entre un primer y un segundo valor de tiempo delta, determinándose el primer valor de tiempo delta a partir de una primera y una segunda característica local, determinándose el segundo valor de tiempo delta a partir de la primera y tercera característica local, estando cada característica local cerca de la respectiva localización de cada objeto con impresión digital.
6. El método de acuerdo con la reivindicación 5
en el cual cada característica local es un pico de espectrograma y
cada valor de frecuencia se determina a partir de una coordenada de
frecuencia de un correspondiente pico de espectrograma.
\newpage
7. El método de acuerdo con la reivindicación 1,
en el cual cada objeto con impresión digital tiene un componente
variante, y el valor relativo de cada pareja de objetos con
impresión digital equivalente se determina usando respectivos
componentes variantes del primer y segundo objeto con impresión
digital.
8. El método de acuerdo con la reivindicación 7
en el cual el componente variante es un valor de frecuencia
determinado a partir de una característica local cerca de la
respectiva localización de cada objeto con impresión digital de tal
modo que el valor relativo de una pareja de objetos con impresión
digital equivalente se califique de radio de respectivos valores de
frecuencia del primer y segundo objeto con impresión digital y el
pico en el histograma caracterice la relación entre la primera y
segunda muestra de audio que se califican de un tono relativo, o,
en el caso de extensión lineal, una velocidad relativa de
grabación.
9. El método de acuerdo con la reivindicación
8, donde el radio de los respectivos valores de frecuencia se
caracteriza por ser una división o una diferencia de
logaritmos.
10. El método de acuerdo con la reivindicación
8, en el que cada característica local es un pico de espectrograma
y cada valor de frecuencia se determina a partir de una coordenada
de frecuencia de un correspondiente pico en el espectrograma.
11. El método de acuerdo con la reivindicación
7, en el que el componente variante es un valor temporal delta
determinado a partir de una primera y una segunda característica
local cerca de la respectiva localización de cada objeto con
impresión digital de tal modo que el valor relativo de una pareja
de objetos equivalentes se califique como el radio de respectivos
valores temporales delta variantes y el pico en el histograma
caracterice la relación entre la primera y la segunda muestra de
audio que se caracterizan por una relativa velocidad de grabación,
o, en el caso de expansión lineal, un tono relativo.
12. El método de acuerdo con la reivindicación
11, donde el radio de los respectivos valores temporales deltas
variantes se caracteriza por ser una división o una diferencia de
logaritmos.
13. El método de acuerdo con la reivindicación
11, en el cual cada característica local es un pico en el
espectrograma y cada valor de frecuencia se determina a partir de
una coordenada de frecuencia de un correspondiente pico en el
espectrograma.
14. El método de acuerdo con la reivindicación
7, que además incluye los pasos de:
- determinar un tono relativo para la primera y
segunda muestra de audio usando los respectivos componentes
variantes, donde cada componente variante es un valor de frecuencia
determinado a partir de una característica local cerca de la
respectiva localización de cada objeto con impresión digital;
- determinar una velocidad relativa de grabación
para la primera y segunda muestra de audio usando los respectivos
componentes variantes, donde cada componente variante es un valor
temporal delta determinado a partir de una primera y segunda
característica local cerca de la respectiva localización de cada
objeto con impresión digital; y
- detectar si el tono relativo y una
reciprocidad de la velocidad relativa de grabación son
sustancialmente diferentes, en cuyo caso la relación entre la
primera y segunda muestra de audio se califica como no lineal.
15. El método de acuerdo con la reivindicación
1, donde R es un valor para la velocidad relativa de grabación
determinada a partir del pico del histograma de los valores
relativos, que además comprende los siguientes pasos:
- para cada pareja de objetos con impresiones
digitales equivalentes en la lista, determinar un valor temporal
relativo compensado, t-R*t', donde t y t' son
localizaciones en el tiempo con respecto al primer y segundo objeto
con impresión digital;
- generar un segundo histograma de los valores
relativos de tiempo compensados; y
- buscar un pico estadísticamente significativo
en el segundo histograma de los valores relativos de tiempo
compensado, caracterizándose además el pico por la relación entre
la primera y segunda muestra de audio.
16. Un programa de ordenador para llevar a cabo
un método de acuerdo con cualquiera de las reivindicaciones
precedentes.
17. Un sistema de ordenador que incluya medios
para llevar a cabo cada paso de un método de acuerdo con las
reivindicaciones 1 a 15, e incluyendo un cliente para enviar la
información necesaria para la caracterización de la relación entre
la primera y segunda muestra de audio a un servidor que realice la
caracterización.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37605502P | 2002-04-25 | 2002-04-25 | |
US376055P | 2002-04-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2312772T3 true ES2312772T3 (es) | 2009-03-01 |
Family
ID=29270756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03724113T Expired - Lifetime ES2312772T3 (es) | 2002-04-25 | 2003-04-18 | Equivalencia solida e invariante de patron de audio. |
Country Status (16)
Country | Link |
---|---|
US (1) | US7627477B2 (es) |
EP (1) | EP1504445B1 (es) |
JP (1) | JP4425126B2 (es) |
KR (1) | KR100820385B1 (es) |
CN (1) | CN1315110C (es) |
AT (1) | ATE405924T1 (es) |
AU (1) | AU2003230993A1 (es) |
BR (1) | BR0309598A (es) |
CA (1) | CA2483104C (es) |
DE (1) | DE60323086D1 (es) |
DK (1) | DK1504445T3 (es) |
ES (1) | ES2312772T3 (es) |
HK (1) | HK1073382A1 (es) |
PT (1) | PT1504445E (es) |
TW (1) | TWI269196B (es) |
WO (1) | WO2003091990A1 (es) |
Families Citing this family (284)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6834308B1 (en) | 2000-02-17 | 2004-12-21 | Audible Magic Corporation | Method and apparatus for identifying media content presented on a media playing device |
US6990453B2 (en) | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7853664B1 (en) * | 2000-07-31 | 2010-12-14 | Landmark Digital Services Llc | Method and system for purchasing pre-recorded music |
US7562012B1 (en) | 2000-11-03 | 2009-07-14 | Audible Magic Corporation | Method and apparatus for creating a unique audio signature |
US7363278B2 (en) | 2001-04-05 | 2008-04-22 | Audible Magic Corporation | Copyright detection and protection system and method |
US7529659B2 (en) | 2005-09-28 | 2009-05-05 | Audible Magic Corporation | Method and apparatus for identifying an unknown work |
US8972481B2 (en) | 2001-07-20 | 2015-03-03 | Audible Magic, Inc. | Playlist generation method and apparatus |
US7877438B2 (en) | 2001-07-20 | 2011-01-25 | Audible Magic Corporation | Method and apparatus for identifying new media content |
US7239981B2 (en) | 2002-07-26 | 2007-07-03 | Arbitron Inc. | Systems and methods for gathering audience measurement data |
US8959016B2 (en) | 2002-09-27 | 2015-02-17 | The Nielsen Company (Us), Llc | Activating functions in processing devices using start codes embedded in audio |
US9711153B2 (en) | 2002-09-27 | 2017-07-18 | The Nielsen Company (Us), Llc | Activating functions in processing devices using encoded audio and detecting audio signatures |
WO2004061699A1 (en) | 2002-12-27 | 2004-07-22 | Nielsen Media Research, Inc. | Methods and apparatus for transcoding metadata |
US8332326B2 (en) | 2003-02-01 | 2012-12-11 | Audible Magic Corporation | Method and apparatus to identify a work received by a processing system |
EP1647144A1 (en) | 2003-07-11 | 2006-04-19 | Koninklijke Philips Electronics N.V. | Method and device for generating and detecting a fingerprint functioning as a trigger marker in a multimedia signal |
WO2005011281A1 (en) * | 2003-07-25 | 2005-02-03 | Koninklijke Philips Electronics N.V. | Method and device for generating and detecting fingerprints for synchronizing audio and video |
US8554681B1 (en) * | 2003-11-03 | 2013-10-08 | James W. Wieder | Providing “identified” compositions and digital-works |
US8001612B1 (en) | 2003-11-03 | 2011-08-16 | Wieder James W | Distributing digital-works and usage-rights to user-devices |
US11165999B1 (en) | 2003-11-03 | 2021-11-02 | Synergyze Technologies Llc | Identifying and providing compositions and digital-works |
US7884274B1 (en) | 2003-11-03 | 2011-02-08 | Wieder James W | Adaptive personalized music and entertainment |
US9053299B2 (en) | 2003-11-03 | 2015-06-09 | James W. Wieder | Adaptive personalized playback or presentation using rating |
US9098681B2 (en) | 2003-11-03 | 2015-08-04 | James W. Wieder | Adaptive personalized playback or presentation using cumulative time |
US8396800B1 (en) | 2003-11-03 | 2013-03-12 | James W. Wieder | Adaptive personalized music and entertainment |
US9053181B2 (en) | 2003-11-03 | 2015-06-09 | James W. Wieder | Adaptive personalized playback or presentation using count |
US20150128039A1 (en) | 2003-11-03 | 2015-05-07 | James W. Wieder | Newness Control of a Personalized Music and/or Entertainment Sequence |
EP1704695B1 (fr) * | 2003-11-27 | 2008-02-27 | Advestigo | Systeme d'interception de documents multimedias |
WO2005079499A2 (en) | 2004-02-19 | 2005-09-01 | Landmark Digital Services Llc | Method and apparatus for identification of broadcast source |
CA2563370A1 (en) | 2004-04-19 | 2005-11-03 | Landmark Digital Services Llc | Method and system for content sampling and identification |
US20150051967A1 (en) | 2004-05-27 | 2015-02-19 | Anonymous Media Research, Llc | Media usage monitoring and measurment system and method |
US20050267750A1 (en) | 2004-05-27 | 2005-12-01 | Anonymous Media, Llc | Media usage monitoring and measurement system and method |
EP2602630A3 (en) | 2004-06-24 | 2015-02-11 | Shazam Investments Limited | Method of characterizing the overlap of two media segments |
US8130746B2 (en) | 2004-07-28 | 2012-03-06 | Audible Magic Corporation | System for distributing decoy content in a peer to peer network |
US7623823B2 (en) | 2004-08-31 | 2009-11-24 | Integrated Media Measurement, Inc. | Detecting and measuring exposure to media content items |
DE102004046746B4 (de) * | 2004-09-27 | 2007-03-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten |
WO2006086556A2 (en) | 2005-02-08 | 2006-08-17 | Landmark Digital Services Llc | Automatic identfication of repeated material in audio signals |
DE102005014477A1 (de) * | 2005-03-30 | 2006-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung |
US20070016918A1 (en) * | 2005-05-20 | 2007-01-18 | Alcorn Allan E | Detecting and tracking advertisements |
US11386139B2 (en) | 2005-10-26 | 2022-07-12 | Cortica Ltd. | System and method for generating analytics for entities depicted in multimedia content |
US8326775B2 (en) | 2005-10-26 | 2012-12-04 | Cortica Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US20160321253A1 (en) | 2005-10-26 | 2016-11-03 | Cortica, Ltd. | System and method for providing recommendations based on user profiles |
US10621988B2 (en) | 2005-10-26 | 2020-04-14 | Cortica Ltd | System and method for speech to text translation using cores of a natural liquid architecture system |
US9953032B2 (en) | 2005-10-26 | 2018-04-24 | Cortica, Ltd. | System and method for characterization of multimedia content signals using cores of a natural liquid architecture system |
IL185414A0 (en) * | 2005-10-26 | 2008-01-06 | Igal Raichelgauz | Large-scale matching system and method for multimedia deep-content-classification |
US10191976B2 (en) | 2005-10-26 | 2019-01-29 | Cortica, Ltd. | System and method of detecting common patterns within unstructured data elements retrieved from big data sources |
US9286623B2 (en) | 2005-10-26 | 2016-03-15 | Cortica, Ltd. | Method for determining an area within a multimedia content element over which an advertisement can be displayed |
US9558449B2 (en) | 2005-10-26 | 2017-01-31 | Cortica, Ltd. | System and method for identifying a target area in a multimedia content element |
US9466068B2 (en) | 2005-10-26 | 2016-10-11 | Cortica, Ltd. | System and method for determining a pupillary response to a multimedia data element |
US11019161B2 (en) | 2005-10-26 | 2021-05-25 | Cortica, Ltd. | System and method for profiling users interest based on multimedia content analysis |
US9330189B2 (en) | 2005-10-26 | 2016-05-03 | Cortica, Ltd. | System and method for capturing a multimedia content item by a mobile device and matching sequentially relevant content to the multimedia content item |
US9646005B2 (en) | 2005-10-26 | 2017-05-09 | Cortica, Ltd. | System and method for creating a database of multimedia content elements assigned to users |
US9031999B2 (en) | 2005-10-26 | 2015-05-12 | Cortica, Ltd. | System and methods for generation of a concept based database |
US10193990B2 (en) | 2005-10-26 | 2019-01-29 | Cortica Ltd. | System and method for creating user profiles based on multimedia content |
US8818916B2 (en) * | 2005-10-26 | 2014-08-26 | Cortica, Ltd. | System and method for linking multimedia data elements to web pages |
US9372940B2 (en) | 2005-10-26 | 2016-06-21 | Cortica, Ltd. | Apparatus and method for determining user attention using a deep-content-classification (DCC) system |
US8312031B2 (en) | 2005-10-26 | 2012-11-13 | Cortica Ltd. | System and method for generation of complex signatures for multimedia data content |
US11403336B2 (en) | 2005-10-26 | 2022-08-02 | Cortica Ltd. | System and method for removing contextually identical multimedia content elements |
US8266185B2 (en) | 2005-10-26 | 2012-09-11 | Cortica Ltd. | System and methods thereof for generation of searchable structures respective of multimedia data content |
US11361014B2 (en) | 2005-10-26 | 2022-06-14 | Cortica Ltd. | System and method for completing a user profile |
US11216498B2 (en) | 2005-10-26 | 2022-01-04 | Cortica, Ltd. | System and method for generating signatures to three-dimensional multimedia data elements |
US10691642B2 (en) | 2005-10-26 | 2020-06-23 | Cortica Ltd | System and method for enriching a concept database with homogenous concepts |
US11032017B2 (en) | 2005-10-26 | 2021-06-08 | Cortica, Ltd. | System and method for identifying the context of multimedia content elements |
US10742340B2 (en) | 2005-10-26 | 2020-08-11 | Cortica Ltd. | System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto |
US9747420B2 (en) | 2005-10-26 | 2017-08-29 | Cortica, Ltd. | System and method for diagnosing a patient based on an analysis of multimedia content |
US9767143B2 (en) | 2005-10-26 | 2017-09-19 | Cortica, Ltd. | System and method for caching of concept structures |
US9477658B2 (en) | 2005-10-26 | 2016-10-25 | Cortica, Ltd. | Systems and method for speech to speech translation using cores of a natural liquid architecture system |
US10585934B2 (en) | 2005-10-26 | 2020-03-10 | Cortica Ltd. | Method and system for populating a concept database with respect to user identifiers |
US10380164B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for using on-image gestures and multimedia content elements as search queries |
US10380623B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for generating an advertisement effectiveness performance score |
US10360253B2 (en) | 2005-10-26 | 2019-07-23 | Cortica, Ltd. | Systems and methods for generation of searchable structures respective of multimedia data content |
US9489431B2 (en) | 2005-10-26 | 2016-11-08 | Cortica, Ltd. | System and method for distributed search-by-content |
US9396435B2 (en) | 2005-10-26 | 2016-07-19 | Cortica, Ltd. | System and method for identification of deviations from periodic behavior patterns in multimedia content |
US11003706B2 (en) | 2005-10-26 | 2021-05-11 | Cortica Ltd | System and methods for determining access permissions on personalized clusters of multimedia content elements |
US10698939B2 (en) | 2005-10-26 | 2020-06-30 | Cortica Ltd | System and method for customizing images |
US10372746B2 (en) | 2005-10-26 | 2019-08-06 | Cortica, Ltd. | System and method for searching applications using multimedia content elements |
US10635640B2 (en) | 2005-10-26 | 2020-04-28 | Cortica, Ltd. | System and method for enriching a concept database |
US10848590B2 (en) | 2005-10-26 | 2020-11-24 | Cortica Ltd | System and method for determining a contextual insight and providing recommendations based thereon |
US9529984B2 (en) | 2005-10-26 | 2016-12-27 | Cortica, Ltd. | System and method for verification of user identification based on multimedia content elements |
US11604847B2 (en) | 2005-10-26 | 2023-03-14 | Cortica Ltd. | System and method for overlaying content on a multimedia content element based on user interest |
US9639532B2 (en) | 2005-10-26 | 2017-05-02 | Cortica, Ltd. | Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts |
US9384196B2 (en) | 2005-10-26 | 2016-07-05 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US9218606B2 (en) | 2005-10-26 | 2015-12-22 | Cortica, Ltd. | System and method for brand monitoring and trend analysis based on deep-content-classification |
US9256668B2 (en) | 2005-10-26 | 2016-02-09 | Cortica, Ltd. | System and method of detecting common patterns within unstructured data elements retrieved from big data sources |
US10535192B2 (en) | 2005-10-26 | 2020-01-14 | Cortica Ltd. | System and method for generating a customized augmented reality environment to a user |
US9191626B2 (en) | 2005-10-26 | 2015-11-17 | Cortica, Ltd. | System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto |
US10607355B2 (en) | 2005-10-26 | 2020-03-31 | Cortica, Ltd. | Method and system for determining the dimensions of an object shown in a multimedia content item |
US9087049B2 (en) | 2005-10-26 | 2015-07-21 | Cortica, Ltd. | System and method for context translation of natural language |
US10380267B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for tagging multimedia content elements |
US10776585B2 (en) | 2005-10-26 | 2020-09-15 | Cortica, Ltd. | System and method for recognizing characters in multimedia content |
US10180942B2 (en) | 2005-10-26 | 2019-01-15 | Cortica Ltd. | System and method for generation of concept structures based on sub-concepts |
US9235557B2 (en) | 2005-10-26 | 2016-01-12 | Cortica, Ltd. | System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page |
US10387914B2 (en) | 2005-10-26 | 2019-08-20 | Cortica, Ltd. | Method for identification of multimedia content elements and adding advertising content respective thereof |
US10949773B2 (en) | 2005-10-26 | 2021-03-16 | Cortica, Ltd. | System and methods thereof for recommending tags for multimedia content elements based on context |
US10614626B2 (en) | 2005-10-26 | 2020-04-07 | Cortica Ltd. | System and method for providing augmented reality challenges |
US7688686B2 (en) | 2005-10-27 | 2010-03-30 | Microsoft Corporation | Enhanced table of contents (TOC) identifiers |
GB2431839B (en) | 2005-10-28 | 2010-05-19 | Sony Uk Ltd | Audio processing |
KR100803206B1 (ko) | 2005-11-11 | 2008-02-14 | 삼성전자주식회사 | 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 |
WO2008042953A1 (en) | 2006-10-03 | 2008-04-10 | Shazam Entertainment, Ltd. | Method for high throughput of identification of distributed broadcast content |
KR101266267B1 (ko) | 2006-10-05 | 2013-05-23 | 스플렁크 인코퍼레이티드 | 시계열 검색 엔진 |
US10733326B2 (en) | 2006-10-26 | 2020-08-04 | Cortica Ltd. | System and method for identification of inappropriate multimedia content |
US20080317226A1 (en) * | 2007-01-09 | 2008-12-25 | Freescale Semiconductor, Inc. | Handheld device for transmitting a visual format message |
US8077839B2 (en) * | 2007-01-09 | 2011-12-13 | Freescale Semiconductor, Inc. | Handheld device for dialing of phone numbers extracted from a voicemail |
US10489795B2 (en) | 2007-04-23 | 2019-11-26 | The Nielsen Company (Us), Llc | Determining relative effectiveness of media content items |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
US8006314B2 (en) | 2007-07-27 | 2011-08-23 | Audible Magic Corporation | System for identifying content of digital data |
US8213521B2 (en) * | 2007-08-15 | 2012-07-03 | The Nielsen Company (Us), Llc | Methods and apparatus for audience measurement using global signature representation and matching |
WO2009059300A2 (en) * | 2007-11-02 | 2009-05-07 | Melodis Corporation | Pitch selection, voicing detection and vibrato detection modules in a system for automatic transcription of sung or hummed melodies |
CN101226741B (zh) * | 2007-12-28 | 2011-06-15 | 无敌科技(西安)有限公司 | 一种活动语音端点的侦测方法 |
DE102008009025A1 (de) * | 2008-02-14 | 2009-08-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals |
DE102008009024A1 (de) * | 2008-02-14 | 2009-08-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals |
GB2457694B (en) * | 2008-02-21 | 2012-09-26 | Snell Ltd | Method of Deriving an Audio-Visual Signature |
BRPI0906142B1 (pt) | 2008-03-10 | 2020-10-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | dispositivo e método para a manipulação de um sinal de áudio tendo um evento transiente |
GB2458471A (en) * | 2008-03-17 | 2009-09-23 | Taylor Nelson Sofres Plc | A signature generating device for an audio signal and associated methods |
EP2114079B2 (en) | 2008-05-02 | 2018-01-24 | Psytechnics Ltd | Method and apparatus for aligning signals |
JP2010033265A (ja) | 2008-07-28 | 2010-02-12 | Nec Corp | コンテンツ配信方法およびシステム |
US9667365B2 (en) | 2008-10-24 | 2017-05-30 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
US8121830B2 (en) | 2008-10-24 | 2012-02-21 | The Nielsen Company (Us), Llc | Methods and apparatus to extract data encoded in media content |
US8359205B2 (en) | 2008-10-24 | 2013-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
US8508357B2 (en) | 2008-11-26 | 2013-08-13 | The Nielsen Company (Us), Llc | Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking |
US8199651B1 (en) | 2009-03-16 | 2012-06-12 | Audible Magic Corporation | Method and system for modifying communication flows at a port level |
JP5772591B2 (ja) * | 2009-03-18 | 2015-09-02 | 日本電気株式会社 | 音声信号処理装置 |
US8351712B2 (en) | 2009-04-27 | 2013-01-08 | The Neilsen Company (US), LLC | Methods and apparatus to perform image classification based on pseudorandom features |
EP2425563A1 (en) | 2009-05-01 | 2012-03-07 | The Nielsen Company (US), LLC | Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content |
GB2470201A (en) * | 2009-05-12 | 2010-11-17 | Nokia Corp | Synchronising audio and image data |
WO2010135623A1 (en) | 2009-05-21 | 2010-11-25 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
US8718805B2 (en) | 2009-05-27 | 2014-05-06 | Spot411 Technologies, Inc. | Audio-based synchronization to media |
US8489774B2 (en) | 2009-05-27 | 2013-07-16 | Spot411 Technologies, Inc. | Synchronized delivery of interactive content |
US9449090B2 (en) | 2009-05-29 | 2016-09-20 | Vizio Inscape Technologies, Llc | Systems and methods for addressing a media database using distance associative hashing |
US9055309B2 (en) | 2009-05-29 | 2015-06-09 | Cognitive Networks, Inc. | Systems and methods for identifying video segments for displaying contextually relevant content |
US8595781B2 (en) | 2009-05-29 | 2013-11-26 | Cognitive Media Networks, Inc. | Methods for identifying video segments and displaying contextual targeted content on a connected television |
US10949458B2 (en) | 2009-05-29 | 2021-03-16 | Inscape Data, Inc. | System and method for improving work load management in ACR television monitoring system |
US8190663B2 (en) * | 2009-07-06 | 2012-05-29 | Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung | Method and a system for identifying similar audio tracks |
WO2011009946A1 (en) | 2009-07-24 | 2011-01-27 | Johannes Kepler Universität Linz | A method and an apparatus for deriving information from an audio track and determining similarity between audio tracks |
US20110041154A1 (en) * | 2009-08-14 | 2011-02-17 | All Media Guide, Llc | Content Recognition and Synchronization on a Television or Consumer Electronics Device |
US8677400B2 (en) | 2009-09-30 | 2014-03-18 | United Video Properties, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
US8161071B2 (en) | 2009-09-30 | 2012-04-17 | United Video Properties, Inc. | Systems and methods for audio asset storage and management |
US8706276B2 (en) | 2009-10-09 | 2014-04-22 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for identifying matching audio |
US8521779B2 (en) | 2009-10-09 | 2013-08-27 | Adelphoi Limited | Metadata record generation |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US8860883B2 (en) * | 2009-11-30 | 2014-10-14 | Miranda Technologies Partnership | Method and apparatus for providing signatures of audio/video signals and for making use thereof |
US8682145B2 (en) | 2009-12-04 | 2014-03-25 | Tivo Inc. | Recording system based on multimedia content fingerprints |
US8886531B2 (en) * | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
US9159338B2 (en) | 2010-05-04 | 2015-10-13 | Shazam Entertainment Ltd. | Systems and methods of rendering a textual animation |
CN102959543B (zh) | 2010-05-04 | 2016-05-25 | 沙扎姆娱乐有限公司 | 用于处理媒体流的样本的方法和系统 |
KR101582436B1 (ko) | 2010-05-04 | 2016-01-04 | 샤잠 엔터테인먼트 리미티드 | 미디어의 동기화 방법 및 시스템 |
US8768495B2 (en) | 2010-06-09 | 2014-07-01 | Adelphoi Limited | System and method for media recognition |
US9876905B2 (en) | 2010-09-29 | 2018-01-23 | Genesys Telecommunications Laboratories, Inc. | System for initiating interactive communication in response to audio codes |
EP2643832A4 (en) * | 2010-11-22 | 2016-10-12 | Listening Methods Llc | SYSTEM AND METHOD FOR RECOGNITION PATTERN ANALYSIS |
CN103562909A (zh) | 2011-02-18 | 2014-02-05 | 沙扎姆娱乐有限公司 | 客户端设备识别数据流的内容的方法及系统 |
US8688631B2 (en) | 2011-03-17 | 2014-04-01 | Alexander Savenok | System and method for media file synchronization |
US8589171B2 (en) | 2011-03-17 | 2013-11-19 | Remote Media, Llc | System and method for custom marking a media file for file matching |
US8478719B2 (en) | 2011-03-17 | 2013-07-02 | Remote Media LLC | System and method for media file synchronization |
US9380356B2 (en) | 2011-04-12 | 2016-06-28 | The Nielsen Company (Us), Llc | Methods and apparatus to generate a tag for media content |
US8996557B2 (en) | 2011-05-18 | 2015-03-31 | Microsoft Technology Licensing, Llc | Query and matching for content recognition |
ES2459391T3 (es) | 2011-06-06 | 2014-05-09 | Bridge Mediatech, S.L. | Método y sistema para conseguir hashing de audio invariante al canal |
CN103797482A (zh) | 2011-06-08 | 2014-05-14 | 沙扎姆娱乐有限公司 | 进行接收到的数据的比较并基于比较提供后续服务的方法和系统 |
CN103797483B (zh) | 2011-06-10 | 2017-02-22 | 沙扎姆娱乐有限公司 | 用于标识数据流中的内容的方法和系统 |
US9209978B2 (en) | 2012-05-15 | 2015-12-08 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
US9515904B2 (en) | 2011-06-21 | 2016-12-06 | The Nielsen Company (Us), Llc | Monitoring streaming media content |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9461759B2 (en) | 2011-08-30 | 2016-10-04 | Iheartmedia Management Services, Inc. | Identification of changed broadcast media items |
US8639178B2 (en) | 2011-08-30 | 2014-01-28 | Clear Channel Management Sevices, Inc. | Broadcast source identification based on matching broadcast signal fingerprints |
US9374183B2 (en) | 2011-08-30 | 2016-06-21 | Iheartmedia Management Services, Inc. | Broadcast source identification based on matching via bit count |
US9049496B2 (en) * | 2011-09-01 | 2015-06-02 | Gracenote, Inc. | Media source identification |
US9460465B2 (en) | 2011-09-21 | 2016-10-04 | Genesys Telecommunications Laboratories, Inc. | Graphical menu builder for encoding applications in an image |
US9113202B1 (en) * | 2011-09-21 | 2015-08-18 | Google Inc. | Inverted client-side fingerprinting and matching |
US9384272B2 (en) | 2011-10-05 | 2016-07-05 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for identifying similar songs using jumpcodes |
US8831763B1 (en) * | 2011-10-18 | 2014-09-09 | Google Inc. | Intelligent interest point pruning for audio matching |
US8538333B2 (en) | 2011-12-16 | 2013-09-17 | Arbitron Inc. | Media exposure linking utilizing bluetooth signal characteristics |
US8977194B2 (en) | 2011-12-16 | 2015-03-10 | The Nielsen Company (Us), Llc | Media exposure and verification utilizing inductive coupling |
US9268845B1 (en) * | 2012-03-08 | 2016-02-23 | Google Inc. | Audio matching using time alignment, frequency alignment, and interest point overlap to filter false positives |
JP2013205830A (ja) * | 2012-03-29 | 2013-10-07 | Sony Corp | トーン成分検出方法、トーン成分検出装置およびプログラム |
EP2648418A1 (en) * | 2012-04-05 | 2013-10-09 | Thomson Licensing | Synchronization of multimedia streams |
US9235867B2 (en) * | 2012-06-04 | 2016-01-12 | Microsoft Technology Licensing, Llc | Concurrent media delivery |
US9129015B1 (en) * | 2012-06-26 | 2015-09-08 | Google Inc. | Min/max filter for audio matching |
US9282366B2 (en) | 2012-08-13 | 2016-03-08 | The Nielsen Company (Us), Llc | Methods and apparatus to communicate audience measurement information |
US20140074466A1 (en) * | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
US9081778B2 (en) | 2012-09-25 | 2015-07-14 | Audible Magic Corporation | Using digital fingerprints to associate data with a work |
US9390719B1 (en) * | 2012-10-09 | 2016-07-12 | Google Inc. | Interest points density control for audio matching |
US9069849B1 (en) * | 2012-10-10 | 2015-06-30 | Google Inc. | Methods for enforcing time alignment for speed resistant audio matching |
EP2731030A1 (en) * | 2012-11-13 | 2014-05-14 | Samsung Electronics Co., Ltd | Music information searching method and apparatus thereof |
US9158760B2 (en) | 2012-12-21 | 2015-10-13 | The Nielsen Company (Us), Llc | Audio decoding with supplemental semantic audio recognition and report generation |
US9195649B2 (en) | 2012-12-21 | 2015-11-24 | The Nielsen Company (Us), Llc | Audio processing techniques for semantic audio recognition and report generation |
US9183849B2 (en) | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
US9706252B2 (en) | 2013-02-04 | 2017-07-11 | Universal Electronics Inc. | System and method for user monitoring and intent determination |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
US9313544B2 (en) | 2013-02-14 | 2016-04-12 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
FR3002713B1 (fr) * | 2013-02-27 | 2015-02-27 | Inst Mines Telecom | Generation d'une signature d'un signal audio musical |
US9451048B2 (en) | 2013-03-12 | 2016-09-20 | Shazam Investments Ltd. | Methods and systems for identifying information of a broadcast station and information of broadcasted content |
US9390170B2 (en) | 2013-03-15 | 2016-07-12 | Shazam Investments Ltd. | Methods and systems for arranging and searching a database of media content recordings |
US9773058B2 (en) | 2013-03-15 | 2017-09-26 | Shazam Investments Ltd. | Methods and systems for arranging and searching a database of media content recordings |
US20140278845A1 (en) | 2013-03-15 | 2014-09-18 | Shazam Investments Limited | Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content |
WO2014169238A1 (en) | 2013-04-11 | 2014-10-16 | Digimarc Corporation | Methods for object recognition and related arrangements |
US10318541B2 (en) | 2013-04-30 | 2019-06-11 | Splunk Inc. | Correlating log data with performance measurements having a specified relationship to a threshold value |
US10225136B2 (en) | 2013-04-30 | 2019-03-05 | Splunk Inc. | Processing of log data and performance data obtained via an application programming interface (API) |
US10019496B2 (en) | 2013-04-30 | 2018-07-10 | Splunk Inc. | Processing of performance data and log data from an information technology environment by using diverse data stores |
US10614132B2 (en) | 2013-04-30 | 2020-04-07 | Splunk Inc. | GUI-triggered processing of performance data and log data from an information technology environment |
US10353957B2 (en) | 2013-04-30 | 2019-07-16 | Splunk Inc. | Processing of performance data and raw log data from an information technology environment |
US10997191B2 (en) | 2013-04-30 | 2021-05-04 | Splunk Inc. | Query-triggered processing of performance data and log data from an information technology environment |
US10346357B2 (en) | 2013-04-30 | 2019-07-09 | Splunk Inc. | Processing of performance data and structure data from an information technology environment |
US9460201B2 (en) | 2013-05-06 | 2016-10-04 | Iheartmedia Management Services, Inc. | Unordered matching of audio fingerprints |
CN103402118B (zh) * | 2013-07-05 | 2017-12-01 | Tcl集团股份有限公司 | 一种媒体节目互动方法及系统 |
US9711152B2 (en) | 2013-07-31 | 2017-07-18 | The Nielsen Company (Us), Llc | Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio |
US20150039321A1 (en) | 2013-07-31 | 2015-02-05 | Arbitron Inc. | Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device |
US9275427B1 (en) * | 2013-09-05 | 2016-03-01 | Google Inc. | Multi-channel audio video fingerprinting |
US9898086B2 (en) * | 2013-09-06 | 2018-02-20 | Immersion Corporation | Systems and methods for visual processing of spectrograms to generate haptic effects |
US9053711B1 (en) | 2013-09-10 | 2015-06-09 | Ampersand, Inc. | Method of matching a digitized stream of audio signals to a known audio recording |
US10014006B1 (en) | 2013-09-10 | 2018-07-03 | Ampersand, Inc. | Method of determining whether a phone call is answered by a human or by an automated device |
TWI527025B (zh) * | 2013-11-11 | 2016-03-21 | 財團法人資訊工業策進會 | 電腦系統、音訊比對方法及其電腦可讀取記錄媒體 |
NL2011893C2 (en) * | 2013-12-04 | 2015-06-08 | Stichting Incas3 | Method and system for predicting human activity. |
US9426525B2 (en) | 2013-12-31 | 2016-08-23 | The Nielsen Company (Us), Llc. | Methods and apparatus to count people in an audience |
WO2015118431A1 (en) | 2014-02-05 | 2015-08-13 | Edge Innovation, Lda. | Method for capture and analysis of multimedia content |
US9311639B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods, apparatus and arrangements for device to device communication |
US10430985B2 (en) | 2014-03-14 | 2019-10-01 | Magic Leap, Inc. | Augmented reality systems and methods utilizing reflections |
US9699499B2 (en) | 2014-04-30 | 2017-07-04 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
CN104093079B (zh) | 2014-05-29 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 基于多媒体节目的交互方法、终端、服务器和系统 |
EP3023884A1 (en) * | 2014-11-21 | 2016-05-25 | Thomson Licensing | Method and apparatus for generating fingerprint of an audio signal |
EP3228084A4 (en) | 2014-12-01 | 2018-04-25 | Inscape Data, Inc. | System and method for continuous media segment identification |
WO2016086905A1 (es) * | 2014-12-05 | 2016-06-09 | Monitoreo Tecnológico, S.A | Método de medición de audiencias |
AU2016211254B2 (en) | 2015-01-30 | 2019-09-19 | Inscape Data, Inc. | Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device |
US10360583B2 (en) | 2015-02-05 | 2019-07-23 | Direct Path, Llc | System and method for direct response advertising |
WO2016168556A1 (en) | 2015-04-17 | 2016-10-20 | Vizio Inscape Technologies, Llc | Systems and methods for reducing data density in large datasets |
CN106294331B (zh) * | 2015-05-11 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 音频信息检索方法及装置 |
US9762965B2 (en) | 2015-05-29 | 2017-09-12 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
US10080062B2 (en) | 2015-07-16 | 2018-09-18 | Inscape Data, Inc. | Optimizing media fingerprint retention to improve system resource utilization |
CA3216076A1 (en) | 2015-07-16 | 2017-01-19 | Inscape Data, Inc. | Detection of common media segments |
EP3323055A1 (en) | 2015-07-16 | 2018-05-23 | Inscape Data, Inc. | Systems and methods for partitioning search indexes for improved efficiency in identifying media segments |
CN106558318B (zh) * | 2015-09-24 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 音频识别方法和系统 |
US11195043B2 (en) | 2015-12-15 | 2021-12-07 | Cortica, Ltd. | System and method for determining common patterns in multimedia content elements based on key points |
US11037015B2 (en) | 2015-12-15 | 2021-06-15 | Cortica Ltd. | Identification of key points in multimedia data elements |
US9516373B1 (en) | 2015-12-21 | 2016-12-06 | Max Abecassis | Presets of synchronized second screen functions |
US9596502B1 (en) | 2015-12-21 | 2017-03-14 | Max Abecassis | Integration of multiple synchronization methodologies |
NZ744383A (en) | 2016-01-19 | 2019-10-25 | Magic Leap Inc | Augmented reality systems and methods utilizing reflections |
US10397663B2 (en) | 2016-04-08 | 2019-08-27 | Source Digital, Inc. | Synchronizing ancillary data to content including audio |
US10951935B2 (en) | 2016-04-08 | 2021-03-16 | Source Digital, Inc. | Media environment driven content distribution platform |
US9786298B1 (en) | 2016-04-08 | 2017-10-10 | Source Digital, Inc. | Audio fingerprinting based on audio energy characteristics |
US10311918B1 (en) | 2016-04-19 | 2019-06-04 | Space Projects Ltd. | System, media, and method for synchronization of independent sensors and recording devices |
KR20230054499A (ko) | 2016-04-26 | 2023-04-24 | 매직 립, 인코포레이티드 | 증강 현실 시스템들을 사용한 전자기 추적 |
US10015612B2 (en) | 2016-05-25 | 2018-07-03 | Dolby Laboratories Licensing Corporation | Measurement, verification and correction of time alignment of multiple audio channels and associated metadata |
CN106910494B (zh) | 2016-06-28 | 2020-11-13 | 创新先进技术有限公司 | 一种音频识别方法和装置 |
JPWO2018047805A1 (ja) * | 2016-09-09 | 2019-06-24 | 日本電気株式会社 | 移動音源速度推定装置、速度監視システム、移動音源速度推定方法、および移動音源速度推定用プログラム |
JP7100422B2 (ja) | 2016-10-21 | 2022-07-13 | 富士通株式会社 | データプロパティ認識のための装置、プログラム、及び方法 |
ES2765415T3 (es) | 2016-10-21 | 2020-06-09 | Fujitsu Ltd | Aparato, método y programa de procesamiento de datos basado en microservicios |
US10776170B2 (en) | 2016-10-21 | 2020-09-15 | Fujitsu Limited | Software service execution apparatus, system, and method |
JP6805765B2 (ja) | 2016-10-21 | 2020-12-23 | 富士通株式会社 | ソフトウェアサービスの実行のためのシステム、方法、及びプログラム |
EP3312722A1 (en) | 2016-10-21 | 2018-04-25 | Fujitsu Limited | Data processing apparatus, method, and program |
US10922720B2 (en) | 2017-01-11 | 2021-02-16 | Adobe Inc. | Managing content delivery via audio cues |
US10166472B2 (en) | 2017-05-04 | 2019-01-01 | Shazam Investments Ltd. | Methods and systems for determining a reaction time for a response and synchronizing user interface(s) with content being rendered |
US10860786B2 (en) * | 2017-06-01 | 2020-12-08 | Global Tel*Link Corporation | System and method for analyzing and investigating communication data from a controlled environment |
WO2019008581A1 (en) | 2017-07-05 | 2019-01-10 | Cortica Ltd. | DETERMINATION OF DRIVING POLICIES |
GB2564495A (en) * | 2017-07-07 | 2019-01-16 | Cirrus Logic Int Semiconductor Ltd | Audio data transfer |
WO2019012527A1 (en) | 2017-07-09 | 2019-01-17 | Cortica Ltd. | ORGANIZATION OF DEPTH LEARNING NETWORKS |
US10129392B1 (en) * | 2017-08-25 | 2018-11-13 | Global Tel*Link Corporation | Systems and methods for detecting inmate to inmate conference calls |
US20190104335A1 (en) * | 2017-09-29 | 2019-04-04 | Theater Ears, LLC | Theater ears audio recognition & synchronization algorithm |
FR3071994A1 (fr) * | 2017-09-29 | 2019-04-05 | Theater Ears, LLC | Procede et programme de reconnaissance et synchronisation audio |
US10158907B1 (en) | 2017-10-10 | 2018-12-18 | Shazam Investments Ltd. | Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings |
US20190109804A1 (en) * | 2017-10-10 | 2019-04-11 | Microsoft Technology Licensing, Llc | Audio processing for voice simulated noise effects |
US10129575B1 (en) | 2017-10-25 | 2018-11-13 | Shazam Entertainment Limited | Methods and systems for determining a latency between a source and an alternative feed of the source |
US10846544B2 (en) | 2018-07-16 | 2020-11-24 | Cartica Ai Ltd. | Transportation prediction system and method |
CN113724724B (zh) * | 2018-07-18 | 2023-10-20 | 谷歌有限责任公司 | 回波检测 |
US11443724B2 (en) * | 2018-07-31 | 2022-09-13 | Mediawave Intelligent Communication | Method of synchronizing electronic interactive device |
US20200133308A1 (en) | 2018-10-18 | 2020-04-30 | Cartica Ai Ltd | Vehicle to vehicle (v2v) communication less truck platooning |
US11181911B2 (en) | 2018-10-18 | 2021-11-23 | Cartica Ai Ltd | Control transfer of a vehicle |
US11126870B2 (en) | 2018-10-18 | 2021-09-21 | Cartica Ai Ltd. | Method and system for obstacle detection |
US10839694B2 (en) | 2018-10-18 | 2020-11-17 | Cartica Ai Ltd | Blind spot alert |
US10748038B1 (en) | 2019-03-31 | 2020-08-18 | Cortica Ltd. | Efficient calculation of a robust signature of a media unit |
US11700356B2 (en) | 2018-10-26 | 2023-07-11 | AutoBrains Technologies Ltd. | Control transfer of a vehicle |
US10789535B2 (en) | 2018-11-26 | 2020-09-29 | Cartica Ai Ltd | Detection of road elements |
US11643005B2 (en) | 2019-02-27 | 2023-05-09 | Autobrains Technologies Ltd | Adjusting adjustable headlights of a vehicle |
US11285963B2 (en) | 2019-03-10 | 2022-03-29 | Cartica Ai Ltd. | Driver-based prediction of dangerous events |
US11694088B2 (en) | 2019-03-13 | 2023-07-04 | Cortica Ltd. | Method for object detection using knowledge distillation |
US11132548B2 (en) | 2019-03-20 | 2021-09-28 | Cortica Ltd. | Determining object information that does not explicitly appear in a media unit signature |
US10789527B1 (en) | 2019-03-31 | 2020-09-29 | Cortica Ltd. | Method for object detection using shallow neural networks |
US11222069B2 (en) | 2019-03-31 | 2022-01-11 | Cortica Ltd. | Low-power calculation of a signature of a media unit |
US10776669B1 (en) | 2019-03-31 | 2020-09-15 | Cortica Ltd. | Signature generation and object detection that refer to rare scenes |
US10796444B1 (en) | 2019-03-31 | 2020-10-06 | Cortica Ltd | Configuring spanning elements of a signature generator |
US11245959B2 (en) | 2019-06-20 | 2022-02-08 | Source Digital, Inc. | Continuous dual authentication to access media content |
US10748022B1 (en) | 2019-12-12 | 2020-08-18 | Cartica Ai Ltd | Crowd separation |
US11593662B2 (en) | 2019-12-12 | 2023-02-28 | Autobrains Technologies Ltd | Unsupervised cluster generation |
US11590988B2 (en) | 2020-03-19 | 2023-02-28 | Autobrains Technologies Ltd | Predictive turning assistant |
US11827215B2 (en) | 2020-03-31 | 2023-11-28 | AutoBrains Technologies Ltd. | Method for training a driving related object detector |
US11756424B2 (en) | 2020-07-24 | 2023-09-12 | AutoBrains Technologies Ltd. | Parking assist |
US11694692B2 (en) | 2020-11-11 | 2023-07-04 | Bank Of America Corporation | Systems and methods for audio enhancement and conversion |
US20230388562A1 (en) * | 2022-05-27 | 2023-11-30 | Sling TV L.L.C. | Media signature recognition with resource constrained devices |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
US4450531A (en) | 1982-09-10 | 1984-05-22 | Ensco, Inc. | Broadcast signal recognition system and method |
US4843562A (en) | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
US5210820A (en) | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
GB9424429D0 (en) * | 1994-12-02 | 1995-01-18 | Philips Electronics Uk Ltd | Audio/video timing discrepancy management |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6088455A (en) * | 1997-01-07 | 2000-07-11 | Logan; James D. | Methods and apparatus for selectively reproducing segments of broadcast programming |
CN1291324A (zh) | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
US5940799A (en) | 1997-09-15 | 1999-08-17 | Motorola, Inc. | System and method for securing speech transactions |
US5913196A (en) | 1997-11-17 | 1999-06-15 | Talmor; Rita | System and method for establishing identity of a speaker |
CN1219810A (zh) * | 1997-12-12 | 1999-06-16 | 上海金陵股份有限公司 | 远程公共电脑系统 |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
GR1003625B (el) * | 1999-07-08 | 2001-08-31 | Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου | |
US7174293B2 (en) * | 1999-09-21 | 2007-02-06 | Iceberg Industries Llc | Audio identification system and method |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US6453252B1 (en) * | 2000-05-15 | 2002-09-17 | Creative Technology Ltd. | Process for identifying audio content |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7853664B1 (en) * | 2000-07-31 | 2010-12-14 | Landmark Digital Services Llc | Method and system for purchasing pre-recorded music |
US20020072982A1 (en) * | 2000-12-12 | 2002-06-13 | Shazam Entertainment Ltd. | Method and system for interacting with a user in an experiential environment |
US6483927B2 (en) | 2000-12-18 | 2002-11-19 | Digimarc Corporation | Synchronizing readers of hidden auxiliary data in quantization-based data hiding schemes |
KR100893671B1 (ko) * | 2001-02-12 | 2009-04-20 | 그레이스노트, 인크. | 멀티미디어 콘텐트의 해시들의 생성 및 매칭 |
KR20040024870A (ko) * | 2001-07-20 | 2004-03-22 | 그레이스노트 아이엔씨 | 음성 기록의 자동 확인 |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
WO2004040475A2 (en) * | 2002-11-01 | 2004-05-13 | Koninklijke Philips Electronics N.V. | Improved audio data fingerprint searching |
KR100456408B1 (ko) * | 2004-02-06 | 2004-11-10 | (주)뮤레카 | 오디오유전자 생성방법 및 오디오데이터 검색방법 |
WO2006086556A2 (en) * | 2005-02-08 | 2006-08-17 | Landmark Digital Services Llc | Automatic identfication of repeated material in audio signals |
-
2003
- 2003-04-18 DK DK03724113T patent/DK1504445T3/da active
- 2003-04-18 CN CNB038089386A patent/CN1315110C/zh not_active Expired - Fee Related
- 2003-04-18 CA CA2483104A patent/CA2483104C/en not_active Expired - Fee Related
- 2003-04-18 WO PCT/US2003/012126 patent/WO2003091990A1/en active Application Filing
- 2003-04-18 JP JP2004500283A patent/JP4425126B2/ja not_active Expired - Fee Related
- 2003-04-18 KR KR1020047016919A patent/KR100820385B1/ko not_active IP Right Cessation
- 2003-04-18 EP EP03724113A patent/EP1504445B1/en not_active Expired - Lifetime
- 2003-04-18 AT AT03724113T patent/ATE405924T1/de active
- 2003-04-18 AU AU2003230993A patent/AU2003230993A1/en not_active Abandoned
- 2003-04-18 DE DE60323086T patent/DE60323086D1/de not_active Expired - Lifetime
- 2003-04-18 ES ES03724113T patent/ES2312772T3/es not_active Expired - Lifetime
- 2003-04-18 BR BR0309598-3A patent/BR0309598A/pt active Pending
- 2003-04-18 PT PT03724113T patent/PT1504445E/pt unknown
- 2003-04-24 TW TW092109632A patent/TWI269196B/zh not_active IP Right Cessation
-
2004
- 2004-10-21 US US10/978,313 patent/US7627477B2/en active Active
-
2005
- 2005-07-14 HK HK05105991A patent/HK1073382A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
US20050177372A1 (en) | 2005-08-11 |
JP2005524108A (ja) | 2005-08-11 |
AU2003230993A1 (en) | 2003-11-10 |
JP4425126B2 (ja) | 2010-03-03 |
CA2483104C (en) | 2011-06-21 |
DK1504445T3 (da) | 2008-12-01 |
PT1504445E (pt) | 2008-11-24 |
EP1504445B1 (en) | 2008-08-20 |
HK1073382A1 (en) | 2005-09-30 |
BR0309598A (pt) | 2005-02-09 |
CA2483104A1 (en) | 2003-11-06 |
ATE405924T1 (de) | 2008-09-15 |
KR100820385B1 (ko) | 2008-04-10 |
CN1315110C (zh) | 2007-05-09 |
CN1647160A (zh) | 2005-07-27 |
WO2003091990A1 (en) | 2003-11-06 |
TW200307205A (en) | 2003-12-01 |
EP1504445A4 (en) | 2005-08-17 |
TWI269196B (en) | 2006-12-21 |
EP1504445A1 (en) | 2005-02-09 |
KR20050010763A (ko) | 2005-01-28 |
US20090265174A9 (en) | 2009-10-22 |
DE60323086D1 (de) | 2008-10-02 |
US7627477B2 (en) | 2009-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2312772T3 (es) | Equivalencia solida e invariante de patron de audio. | |
ES2488719T3 (es) | Sistema y método para el reconocimiento de medios de audio | |
Ke et al. | Computer vision for music identification | |
JP5090523B2 (ja) | 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置 | |
USRE46037E1 (en) | Method, medium, and system for music retrieval using modulation spectrum | |
US8190663B2 (en) | Method and a system for identifying similar audio tracks | |
US8699852B2 (en) | Video concept classification using video similarity scores | |
US8867891B2 (en) | Video concept classification using audio-visual grouplets | |
Casey et al. | Song Intersection by Approximate Nearest Neighbor Search. | |
US20140135964A1 (en) | Music information searching method and apparatus thereof | |
CN111651527B (zh) | 基于轨迹相似度的身份关联方法、装置、设备及存储介质 | |
ES2354330A1 (es) | Método para calcular medidas de similitud entre señales temporales. | |
Kaiser et al. | Multiple hypotheses at multiple scales for audio novelty computation within music | |
Sankararaman et al. | Computing similarity between a pair of trajectories | |
KR20190051265A (ko) | 오디오 핑거프린트 매칭 방법 | |
KR101840014B1 (ko) | 음악 매칭 댄싱 동작 인식 장치 및 매칭 방법 | |
CN109686376B (zh) | 一种歌曲演唱评价方法及系统 | |
Zhang et al. | Range-Based Equal Error Rate for Spoof Localization | |
Seo | A music similarity function based on the centroid model | |
Lin et al. | Generalized time-series active search with Kullback–Leibler distance for audio fingerprinting | |
Deepsheka et al. | Recurrent neural network based music recognition using audio fingerprinting | |
Marques et al. | TUT acoustic scene classification submission | |
Subramanian et al. | Concert Stitch: Organization and Synchronization of Crowd Sourced Recordings. | |
US20220335082A1 (en) | Method for audio track data retrieval, method for identifying audio clip, and mobile device | |
Marques et al. | Automatic Acoustic Scene Classification |