ES2266254T3 - Procedimiento de busqueda de una base de datos de audio. - Google Patents
Procedimiento de busqueda de una base de datos de audio. Download PDFInfo
- Publication number
- ES2266254T3 ES2266254T3 ES01969535T ES01969535T ES2266254T3 ES 2266254 T3 ES2266254 T3 ES 2266254T3 ES 01969535 T ES01969535 T ES 01969535T ES 01969535 T ES01969535 T ES 01969535T ES 2266254 T3 ES2266254 T3 ES 2266254T3
- Authority
- ES
- Spain
- Prior art keywords
- file
- sample
- milestone
- sound
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Abstract
Un procedimiento para identificar una muestra de audio, caracterizado por: para la muestra, generar pares de hito / huella de la muestra, en donde cada hito se presenta en una ubicación temporal específica dentro de la muestra de audio, calculándose la ubicación con respecto al contenido de la muestra de audio, y en donde cada huella caracteriza uno o más rasgos de la muestra de audio en, o cerca de, la ubicación específica; para cada uno o más de los ficheros de audio, generar pares de hito / huella del fichero, en donde cada hito aparece en una ubicación temporal específica dentro del fichero de audio, calculándose la ubicación con respecto al contenido del fichero de audio, y en donde cada huella caracteriza uno o más rasgos del fichero de audio en, o cerca de, la ubicación específica; identificar correspondencias esencialmente lineales entre los respectivos pares de hito / huella de la muestra y los pares de hito / huella de ficheros previamente generados; e identificar un fichero ganador como aquél que tiene un número significativo de correspondencias esencialmente lineales.
Description
Procedimiento de búsqueda de una base de datos
de audio.
Esta invención se refiere, en general, a la
recuperación de información basada en su contenido. Más en
particular, se refiere al reconocimiento de una señal de audio,
incluyendo sonido o música, que está sumamente distorsionada o que
contiene un alto nivel de ruido.
Hay una necesidad creciente de reconocimiento
automático de música o de otras señales de audio, generadas por
diversas fuentes. Por ejemplo, los propietarios de obras sujetas a
derechos de autor, o los publicistas, están interesados en obtener
datos acerca de la frecuencia de transmisión de su material. Los
servicios de rastreo de música proporcionan listas de difusión de
las principales estaciones de radio en los grandes mercados. Los
consumidores desearían identificar canciones o transmisiones
publicitarias en la radio, a fin de poder adquirir música nueva e
interesante, u otros productos y servicios. Toda clase de
reconocimiento de sonido, continuo o a pedido, es ineficiente y
onerosa en términos de mano de obra cuando es realizada por seres
humanos. Un método automatizado para reconocer música o sonido
proporcionaría, por lo tanto, un significativo beneficio a los
consumidores, a los artistas y a una gran diversidad de industrias.
Según el paradigma de la distribución de música se desplaza desde
las compras en tiendas a la descarga a través de Internet, es
bastante factible enlazar directamente el reconocimiento de música,
implementado por ordenador, con la adquisición por Internet y otros
servicios basados en Internet.
Tradicionalmente, el reconocimiento de canciones
reproducidas en la radio ha sido realizado apareando las estaciones
de radio y las horas a las cuales las canciones se reproducían con
las listas de difusión proporcionadas ya sea por las estaciones de
radio o por terceras fuentes. Este método está inherentemente
limitado sólo a las estaciones de radio para las cuales está
disponible la información. Otros métodos se apoyan en la inserción
de códigos inaudibles dentro de las señales transmitidas. Las
señales insertadas son descodificadas en el receptor a fin de
extraer información de identificación acerca de la señal
transmitida. La desventaja de este procedimiento es que se requieren
dispositivos especiales de descodificación para identificar señales,
y sólo pueden identificarse aquellas canciones con códigos
insertados.
Todo reconocimiento de audio a gran escala
requiere alguna clase de recuperación de audio basada en contenidos,
en la cual una señal transmitida no identificada es comparada con
una base de datos de señales conocidas a fin de identificar señales
de la base de datos, similares o idénticas. Observe que la
recuperación de audio basada en contenidos es distinta a la
recuperación de audio existente, por medio de motores de búsqueda en
Internet, en los cuales sólo se busca el texto de metadatos que
rodea a, o que está asociado con, los ficheros de audio. Observe
también que, mientras que el reconocimiento de voz es útil para
convertir señales de voz en texto, que luego puede indizarse e
consultarse empleando técnicas bien conocidas, no es aplicable a la
gran mayoría de señales de audio que contienen música y sonidos. De
alguna manera, la recuperación de información de audio es análoga a
la recuperación de información basada en texto, proporcionada por
los motores de búsqueda. En otros casos, sin embargo, el
reconocimiento de audio no es análogo: las señales de audio carecen
de entidades fácilmente identificables, tales como las palabras, que
proporcionen identificadores para la búsqueda y para la
indización. De tal manera, los métodos actuales de recuperación de
audio indizan las señales de audio por medio de características
perceptivas computadas que representan diversas cualidades o rasgos
de la señal.
La recuperación de audio basada en contenidos se
realiza, típicamente, analizando una señal de consulta, a fin de
obtener un cierto número de características representativas, y
aplicando luego una medida similar a las características derivadas a
fin de localizar ficheros de base de datos que sean lo más similares
que sea posible a la señal de consulta. La similitud de los objetos
recibidos es necesariamente un reflejo de las características
perceptivas seleccionadas. Se dispone en la técnica de un cierto
número de procedimientos de recuperación basados en el contenido.
Por ejemplo, la Patente Estadounidense Nº 5.210.820, concedida a
Kenyon, revela un procedimiento de reconocimiento de señales en el
cual las señales recibidas son procesadas y muestreadas para
obtener valores de la señal en cada punto de muestreo. Los momentos
estadísticos de los valores muestreados se computan luego para
generar un vector de características que puede compararse con los
identificadores de las señales almacenadas a fin de extraer señales
similares. Las Patentes Estadounidenses Nº 4.450.531 y 4.843.562,
concedidas ambas a Kenyon et al, revelan procedimientos
similares de clasificación de información transmitida, en los cuales
se calculan las correlaciones cruzadas entre las señales no
identificadas y las señales de referencia almacenadas.
Un sistema para recuperar documentos de audio
según la similitud acústica se revela en el artículo de J. T. Foote,
"Content-Based Retrieval of Music and Audio"
["Recuperación de Música y de Audio Basada en el Contenido"],
en Multimedia Storage and Archiving Systems II, Proc. of SPIE
[Sistemas de Almacenamiento y Archivo II, Anales de SPIE], de
C.-C.J. Kuo et al, editor, volumen 3229, páginas
138-147, 1997. Los vectores de características se
calculan parametrizando cada fichero de audio en coeficientes
cepstrales de la escala Mel, y se genera un árbol de cuantización a
partir de los datos de parametrización. Para realizar una consulta,
se parametriza una señal desconocida a fin de obtener vectores de
características que se clasifican luego como extremos terminales del
árbol. Se compila un histograma para cada extremo terminal,
generando de tal forma un vector N-dimensional que
representa la señal desconocida. La distancia entre dos tales
vectores da una indicación de la similitud entre dos ficheros de
sonido. En este procedimiento, el método de cuantización supervisada
reconoce las características distintivas del audio, ignorando a la
vez las variaciones sin importancia, basándose en clases en las
cuales los datos de aprendizaje son asignados por un ser humano.
Según el sistema de clasificación, se escogen como importantes
distintos rasgos acústicos. Por ello, este procedimiento es más
adecuado para hallar similitudes entre canciones y para clasificar
música en clases que para reconocer música.
Un procedimiento para el análisis, el
almacenamiento, la recuperación y la segmentación, basados en el
contenido, de información de audio, se revela en la Patente
Estadounidense Nº 5.918.223, concedida a Blum et al. En este
procedimiento, un cierto número de características acústicas, tales
como el volumen, los graves, el grado, el realce, el ancho de banda
y los coeficientes cepstrales de frecuencia de escala Mel, se miden
a intervalos periódicos en cada fichero. Las mediciones estadísticas
de las características se toman y se combinan para formar un vector
de características. Los ficheros de datos de audio dentro de una
base de datos se extraen sobre la base de la similitud de sus
vectores de características con el vector de características de un
fichero no identificado.
El artículo "Landmark detection for
distinctive feature-based speech recognition",
S.A. Liu, J.A.S.A., 100(5) Nov. 1996, revela un sistema de
reconocimiento de voz que utiliza hitos para guiar la búsqueda de
características distintivas.
Un problema clave de todos los procedimientos
precedentes de reconocimiento de audio de la tecnología anterior es
que tienden a fallar cuando las señales por reconocer están
sometidas a distorsión lineal y no lineal, causada, por ejemplo, por
ruido de fondo, errores y caídas de la transmisión, interferencia,
filtrado limitado por la banda, cuantización, deformación temporal,
y compresión digital de la calidad de voz. En los procedimientos de
la tecnología anterior, cuando se procesa una muestra de sonido
distorsionado para obtener las características acústicas, sólo se
halla una fracción de las características derivadas para la
grabación original. El vector de características resultante, por lo
tanto, no es muy similar al vector de características de la
grabación original, y es improbable que pueda llevarse a cabo el
reconocimiento correcto. Subsiste una necesidad de un sistema de
reconocimiento de sonido que funcione bien bajo condiciones de ruido
y distorsión altos.
Otro problema con los procedimientos de la
tecnología anterior es que son onerosos en cómputos, y no se
modifican bien a escala. El reconocimiento en tiempo real, pues, no
es posible utilizando procedimientos de la tecnología anterior con
grandes bases de datos. En tales sistemas, es inviable tener una
base de datos de más de unos pocos cientos o miles de grabaciones.
El tiempo de búsqueda en los procedimientos de la tecnología
anterior tiende a crecer linealmente con el tamaño de la base de
datos, haciendo que la modificación a escala de millones de
grabaciones sonoras sea económicamente inviable. Los procedimientos
de Kenyon también requieren grandes bancos de hardware especializado
de procesamiento de señales digitales.
Los procedimientos comerciales existentes con
frecuencia tienen requisitos estrictos sobre la muestra de entrada
para poder realizar el reconocimiento. Por ejemplo, requieren que se
muestree la canción entera, o al menos 30 segundos de la canción, o
requieren que la canción sea muestreada desde el comienzo. También
tienen dificultades para reconocer canciones múltiples mezcladas
entre sí en un único flujo. Todas estas desventajas hacen inviables
los procedimientos de la tecnología anterior para su empleo en
muchas aplicaciones prácticas.
En consecuencia, es un objeto principal de la
presente invención proporcionar un procedimiento para reconocer una
señal de audio sometida a un alto nivel de ruido y de
distorsión.
Es un objeto adicional de la invención
proporcionar un procedimiento de reconocimiento que pueda ser
llevado a cabo en tiempo real, basado sólo en unos pocos segundos de
la señal a identificar.
Es otro objeto de la invención proporcionar un
procedimiento de reconocimiento que pueda reconocer sonidos
basándose en muestras provenientes de prácticamente cualquier
posición dentro del sonido, no solo del comienzo.
Es un objeto adicional de la invención
proporcionar un procedimiento de reconocimiento que no requiera que
las muestras de sonido estén codificadas o correlacionadas con
estaciones de radio o listas de difusión específicas.
Es un objetivo adicional de la invención
proporcionar un procedimiento de reconocimiento que pueda reconocer
cada una de las múltiples grabaciones de sonido mezcladas entre sí
en un único flujo.
Es otro objeto de la invención proporcionar un
sistema de reconocimiento de sonido en el cual el sonido desconocido
pueda suministrarse al sistema desde cualquier entorno, por medio de
prácticamente cualquier procedimiento conocido.
Estos objetos y ventajas son logrados por un
procedimiento, según lo reivindicado en la reivindicación 1, para
reconocer una muestra de cierto medio, tal como una muestra de
audio, dado un índice de base de datos de un gran número de ficheros
de medios conocidos. El índice de la base de datos contiene huellas
que representan características en ubicaciones particulares de los
ficheros de medios indizados. La muestra de medios desconocida se
identifica por un fichero de medios en la base de datos (el fichero
de medios ganador) cuyas ubicaciones relativas de huellas coinciden
lo más estrechamente posible con las ubicaciones relativas de las
huellas de la muestra. En el caso de los ficheros de audio, la
evolución temporal de las huellas del fichero ganador coincide con
la evolución temporal de las huellas en la muestra.
El procedimiento se implementa, preferiblemente,
en un sistema informático distribuido, y contiene las siguientes
etapas: determinar un conjunto de huellas en ubicaciones específicas
de la muestra; localizar huellas coincidentes en el índice de la
base de datos; generar correspondencias entre ubicaciones en la
muestra y ubicaciones en el fichero que tiene huellas equivalentes;
e identificar ficheros de medios para los cuales un número
significativo de las correspondencias está vinculado de manera
esencialmente lineal. El fichero que tenga el mayor número de
correspondencias linealmente vinculadas es considerado el fichero de
medios ganador. Un procedimiento para identificar ficheros con un
gran número de correspondencias es llevar a cabo el equivalente de
escanear una línea diagonal en un gráfico de dispersión generado a
partir de los pares de correspondencias. En una realización, la
identificación de los ficheros de medios con un gran número de
correspondencias lineales implica buscar sólo un primer subconjunto
de los ficheros de medios. Los ficheros en el primer subconjunto
tienen una mayor probabilidad de ser identificados que los ficheros
que no están en el primer subconjunto. La probabilidad de
identificación se basa, preferiblemente, en medidas de la frecuencia
empírica o de la reciente ocurrencia de las identificaciones
previas, junto con proyecciones a priori de la frecuencia de
identificación. Si no se identifica ningún fichero de medios en el
primer subconjunto, se rastrea entonces el segundo subconjunto, que
contiene los ficheros restantes. Alternativamente, los ficheros
pueden clasificarse según la probabilidad, y rastrearse según el
orden de categorización. La búsqueda se termina cuando se halla un
fichero.
Preferiblemente, las ubicaciones específicas
dentro de la muestra se calculan de manera reproducible, según la
muestra. Tales ubicaciones calculables de manera reproducible se
llaman "hitos". Las huellas son, preferiblemente, valores
numéricos. En una realización, cada huella representa un cierto
número de características de la muestra de medios en cada ubicación,
o ligeramente desplazada a partir de la ubicación.
El procedimiento es especialmente útil para
reconocer muestras de audio, en cuyo caso las ubicaciones
específicas son instantes dentro de la muestra de audio. Estos
instantes tienen lugar, por ejemplo, en los máximos locales de las
normas Lp espectrales de la muestra de audio. Las huellas pueden
calcularse por medio de cualquier análisis de la muestra de audio, y
son preferiblemente invariables con respecto a la dilatación
temporal de la muestra. Los ejemplos de huellas incluyen huellas de
tajadas espectrales, huellas multitajada, coeficientes de LPC,
coeficientes cepstrales y componentes de frecuencia de los picos del
espectrograma.
La presente invención brinda también un sistema
para implementar el procedimiento precedente, que contiene un objeto
generador de hitos para calcular las ubicaciones específicas, un
objeto generador de huellas para calcular las huellas, un índice de
base de datos que contiene las ubicaciones de ficheros y las huellas
para los ficheros de medios, y un objeto generador de análisis. El
objeto generador de análisis implementa el procedimiento ubicando
las huellas coincidentes en el índice de la base de datos, generando
correspondencias y analizando las correspondencias a fin de
seleccionar el fichero de medios ganador.
También se proporciona un dispositivo de
almacenamiento de programas, accesible desde un ordenador, que
realiza tangiblemente un programa de instrucciones ejecutable por el
ordenador a fin de llevar a cabo las etapas de procedimiento para el
procedimiento precedente.
Además, la invención proporciona un
procedimiento para crear un índice de un cierto número de ficheros
de audio en una base de datos, que contiene las siguientes etapas:
cálculo de un conjunto de huellas en ubicaciones específicas de cada
fichero; y almacenamiento de las huellas, las ubicaciones y los
identificadores de los ficheros en una memoria. Una huella, una
ubicación y un identificador correspondientes se asocian en la
memoria a fin de formar una triplete. Preferiblemente, las
ubicaciones, que pueden ser instantes dentro del fichero de audio,
se calculan en correspondencia con el fichero, y son reproducibles.
Por ejemplo, los instantes pueden tener lugar en los máximos locales
de las normas Lp espectrales del fichero de audio. En algunos casos,
cada huella, que es, preferiblemente, un valor numérico, representa
un cierto número de características del fichero cerca de la
ubicación específica. Las huellas pueden calcularse a partir de
cualquier análisis o procesamiento de señales digitales del fichero
de audio. Los ejemplos de huellas incluyen huellas de tajadas
espectrales, huellas multitajada, coeficientes de LPC, coeficientes
cepstrales, componentes de frecuencia de picos del espectrograma y
picos enlazados del espectrograma.
Finalmente, la invención proporciona
procedimientos para identificar muestras de audio, que incorporan
huellas invariables por dilatación temporal, y diversas búsquedas
jerárquicas.
La Fig. 1 es un diagrama de flujo de un
procedimiento de la invención para reconocer una muestra de
sonido.
La Fig. 2 es un diagrama de bloques de un
ejemplo de sistema informático distribuido para implementar el
procedimiento de la Fig. 1.
La Fig. 3 es un diagrama de flujo de un
procedimiento para construir un índice de base de datos de ficheros
de sonidos empleados en el procedimiento de la Fig. 1.
La Fig. 4 ilustra esquemáticamente los hitos y
las huellas calculadas para una muestra de sonido.
La Fig. 5 es un gráfico de normas L4 para una
muestra de sonido, que ilustra la selección de hitos.
La Fig. 6 es un diagrama de flujo de una
realización alternativa para construir un índice de base de datos de
ficheros de sonido empleados en el procedimiento de la Fig. 1.
Las Figs. 7A-7C muestran un
espectrograma, con indicación de puntos salientes y de puntos
salientes enlazados.
Las Figs. 8A-8C ilustran
conjuntos de índices, una lista de índices y una lista del índice
maestro del procedimiento de la Fig. 3.
Las Figs. 9A-9C ilustran una
lista de índices, una lista de candidatos y una lista de dispersión
del procedimiento de la Fig. 1.
Las Figs. 10A-10B son gráficos
de dispersión que ilustran la identificación correcta y la falta de
identificación, respectivamente, de una muestra de sonido
desconocido.
La presente invención proporciona un
procedimiento para reconocer una muestra de medios exógenos, dada
una base de datos que contiene un gran número de ficheros de medios
conocidos. También proporciona un procedimiento para generar un
índice de base de datos que permite una búsqueda eficiente
utilizando el procedimiento de reconocimiento de la invención.
Mientras que la siguiente exposición se refiere, principalmente, a
datos de audio, ha de entenderse que el procedimiento de la presente
invención puede aplicarse a cualquier tipo de muestras de medios y
de ficheros de medios, incluyendo, pero sin limitarse a, el texto,
el audio, el vídeo, la imagen, y cualesquiera combinaciones de
multimedios de tipos de medios individuales. En el caso del audio,
la presente invención es especialmente útil para reconocer muestras
que contengan altos niveles de distorsión lineal y no lineal,
causada, por ejemplo, por ruidos de fondo, errores de transmisión y
tramos de silencio, interferencia, filtrado limitado por banda,
cuantización, deformación temporal, y compresión digital de calidad
de voz. Como se hará evidente a partir de la descripción siguiente,
la invención funciona bajo tales condiciones porque puede reconocer
correctamente una señal distorsionada, incluso si sólo una pequeña
fracción de las características calculadas sobrevive a la
distorsión. Cualquier tipo de audio, incluyendo el sonido, la voz,
la música, o las combinaciones de tipos, puede ser reconocido por la
presente invención. Los ejemplos de muestras de audio incluyen
música grabada, programas transmitidos por radio y anuncios.
Según se utiliza aquí, una muestra de medios
exógenos es un segmento de datos de medios de cualquier tamaño,
obtenido de una gran variedad de fuentes, según se describe a
continuación. A fin de que pueda efectuarse el reconocimiento, la
muestra debe ser una versión de parte de un fichero de medios
indizado en una base de datos utilizada por la presente invención.
El fichero de medios indizado puede concebirse como una grabación
original, y la muestra, como una versión, distorsionada y/o
abreviada, de la grabación original. Típicamente, la muestra
corresponde sólo a una pequeña porción del fichero indizado. Por
ejemplo, el reconocimiento puede realizarse sobre un segmento de
diez segundos de una canción de cinco minutos, indizada en la base
de datos. Aunque el término "fichero" se emplea para describir
la entidad indizada, la entidad puede estar en cualquier formato
para el cual puedan obtenerse los valores necesarios (descritos a
continuación). Además, no hay ninguna necesidad de almacenar o de
tener acceso al fichero después de que se han obtenido los
valores.
Un diagrama de bloques, que ilustra
conceptualmente las etapas generales de un procedimiento 10 de la
presente invención, se muestra en la Fig. 1. Las etapas individuales
se describen a continuación más detalladamente. El procedimiento
identifica un fichero de medios ganador, un fichero de medios cuyas
ubicaciones relativas de huellas características coinciden en mayor
grado con las ubicaciones relativas de las mismas huellas de la
muestra exógena. Después de que se ha capturado una muestra exógena
en la etapa 12, los hitos y las huellas se calculan en la etapa 14.
Los hitos aparecen en ubicaciones específicas, p. ej., instantes
temporales, dentro de la muestra. La ubicación dentro de la muestra
de los hitos está preferiblemente determinada por la misma muestra,
es decir, depende de las cualidades de la muestra, y es
reproducible. Es decir, se calculan los mismos hitos para la misma
señal cada vez que se repite el proceso. Para cada hito, se obtiene
una huella que caracteriza uno o más rasgos de la muestra en, o
cerca de, el hito. La cercanía de un rasgo a un hito está definida
por el procedimiento empleado de determinación de huellas. En
algunos casos, se considera que un rasgo está cerca de un hito si
corresponde claramente al hito y no a un hito anterior o
subsiguiente. En otros casos, los rasgos corresponden a múltiples
hitos adyacentes. Por ejemplo, las huellas textuales pueden ser
cadenas de palabras, las huellas de audio pueden ser componentes
espectrales, y las huellas de imágenes pueden ser valores pixelados
de colores RGB. Dos realizaciones generales de la etapa 14 se
describen a continuación: una en la cual los hitos y huellas se
calculan secuencialmente, y una en la cual se calculan
simultáneamente.
En la etapa 16, las huellas de muestra se
emplean para recuperar conjuntos de huellas coincidentes almacenadas
en un índice 18 de base de datos, en los cuales las huellas
coincidentes están asociadas a hitos e identificadores de un
conjunto de ficheros de medios. El conjunto de identificadores de
ficheros y valores de hitos recuperados se utiliza luego para
generar los pares de correspondencias (etapa 20), que contienen los
hitos de la muestra (calculados en la etapa 14) y los hitos de
ficheros recuperados, en los cuales se calcularon las mismas
huellas. Los pares de correspondencias calculados se clasifican
luego según el identificador de canción, generando conjuntos de
correspondencias entre hitos de muestras e hitos de ficheros para
cada fichero relevante. Cada conjunto es examinado buscando la
alineación entre los hitos de fichero y los hitos de muestra. Esto
es, se identifican correspondencias lineales en los pares de hitos,
y el conjunto se califica según el número de pares que estén
linealmente vinculados. Tiene lugar una correspondencia lineal
cuando un gran número de ubicaciones correspondientes de muestra y
de ubicaciones de ficheros puede describirse, esencialmente, con la
misma ecuación lineal, dentro de una tolerancia admitida. Por
ejemplo, si las pendientes de un cierto número de ecuaciones, que
describen un conjunto de pares de correspondencias, varía en \pm
5%, entonces se considera que todo el conjunto de correspondencias
está linealmente vinculado. Por supuesto, puede seleccionarse
cualquier tolerancia adecuada. El identificador del conjunto con la
mayor puntuación, es decir, con el mayor número de correspondencias
linealmente vinculadas, es el identificador del fichero ganador, que
se ubica y se genera en la etapa 22.
Como se describe adicionalmente a continuación,
el reconocimiento puede llevarse a cabo con un componente temporal
proporcional al logaritmo del número de entradas en la base de
datos. El reconocimiento puede llevarse a cabo, esencialmente, en
tiempo real, incluso con una base de datos muy grande. Es decir, una
muestra puede ser reconocida según se está recuperando, con un
pequeño desfase temporal. El procedimiento puede identificar un
sonido basándose en segmentos de entre 5 y 10 segundos, e incluso de
hasta entre 1 y 3 segundos. En una realización preferida, el
análisis de hitos y de huellas, en la etapa 14, se realiza en tiempo
real, según la muestra está siendo capturada en la etapa 12. Las
consultas a la base de datos (etapa 16) se llevan a cabo según se va
disponiendo de las huellas de la muestra, y los resultados de la
correspondencia se acumulan y se examinan periódicamente, buscando
correspondencias lineales. De esta manera, todos las etapas del
procedimiento tienen lugar simultáneamente, y no en el estilo lineal
secuencial sugerido en la Fig. 1. Observe que el procedimiento es
parcialmente análogo a un motor de búsqueda de texto: un usuario
despacha una muestra de consulta, y se devuelve un fichero
correspondiente, indizado en la base de datos.
El procedimiento, típicamente, se implementa en
forma de software que se ejecuta sobre un sistema informático, con
las etapas individuales implementadas, de manera sumamente
eficiente, como módulos de software independientes. De esta manera,
puede considerarse que un sistema que implementa la presente
invención consiste en un objeto de determinación de hitos y de
huellas, una base de datos indizada y un objeto analizador para
buscar en el índice de la base de datos, calcular correspondencias e
identificar el fichero ganador. En el caso de determinación
secuencial de hitos y de huellas, el objeto de determinación de
hitos y de huellas puede considerarse como dos objetos distintos de
determinación de hitos y de huellas. El código de instrucciones de
ordenador para los distintos objetos se almacena en una memoria de
uno o más ordenadores, y es ejecutado por uno o más procesadores de
ordenador. En una realización, los objetos de código se concentran
en un único sistema informático, tal como un ordenador personal
basado en hardware de Intel, o bien otras estaciones de trabajo. En
una realización preferida, el procedimiento es implementado por una
agrupación en red de unidades centrales de procesamiento (UCP), en
las cuales distintos objetos de software son ejecutados por
distintos procesadores, a fin de distribuir la carga de trabajo
informático. Alternativamente, cada UCP puede tener una copia de
todos los objetos de software, lo que permite una red homogénea de
elementos idénticamente configurados. En esta última configuración,
cada UCP tiene un subconjunto del índice de la base de datos, y es
responsable de buscar su propio subconjunto de ficheros de
medios.
Aunque la invención no está limitada a ningún
sistema de hardware en particular, un ejemplo de una realización
preferida de un sistema informático distribuido 30 se ilustra
esquemáticamente en la Fig. 2. El sistema 30 contiene una agrupación
de procesadores 32a-32f basados en Linux, conectados
por una arquitectura 34 de bus multiprocesador, o por un protocolo
de red tal como el protocolo Beowulf de cálculo de agrupaciones, o
por una mezcla de los dos. En tal disposición, el índice de la base
de datos se almacena, preferiblemente, en una memoria de acceso
aleatorio (RAM) en al menos un extremo 32a en la agrupación,
garantizando que la búsqueda de huellas se realiza muy rápidamente.
Los extremos encargados de los cálculos, correspondientes a los
otros objetos, tales como los extremos 32c y 32f de determinación
de hitos, los extremos 32b y 32e de determinación de huellas, y el
extremo 32d de rastreo de alineaciones, no requieren tanta memoria
RAM en bruto como el extremo o extremos 32a que dan soporte al
índice de la base de datos. El número de extremos encargados de los
cálculos, asignados a cada objeto, puede, por lo tanto, modificarse
a escala según la necesidad, de manera tal que ningún objeto
individual se convierta en un cuello de botella. La red encargada de
los cálculos, por lo tanto, es sumamente paralelizable, y puede
procesar adicionalmente múltiples consultas simultáneas de
reconocimiento de señales que estén distribuidas entre los recursos
informáticos disponibles. Observe que esto posibilita aplicaciones
en las cuales grandes números de usuarios pueden solicitar el
reconocimiento y recibir resultados en tiempo aproximadamente
real.
En una realización alternativa, ciertos objetos
funcionales están más estrechamente acoplados entre sí, estando a la
vez menos estrechamente acoplados con otros objetos. Por ejemplo, el
objeto de determinación de hitos y de huellas puede residir en una
ubicación físicamente separada del resto de los objetos encargados
de los cálculos. Un ejemplo de esto es una asociación estrecha de
los objetos de determinación de hitos y de huellas con el proceso de
captura de señales. En esta disposición, el objeto de determinación
de hitos y de huellas puede incorporarse como hardware o software
adicional empotrado, por ejemplo, en un teléfono móvil, un
explorador del Protocolo de Aplicaciones Inalámbricas (WAP), una
agenda electrónica (PDA) u otro terminal remoto, tal como el extremo
cliente de un motor de búsqueda de audio. En un servicio de búsqueda
de audio basado en Internet, tal como un servicio de identificación
de contenido, el objeto determinante de hitos y de huellas puede
incorporarse a la aplicación exploradora cliente como un conjunto
vinculado de instrucciones de software, o como un módulo acoplable
de software, tal como una biblioteca de enlace dinámico (DLL) de
Microsoft. En estas realizaciones, el objeto combinado de captura de
señales, determinación de hitos y de huellas constituye el extremo
cliente del servicio. El extremo cliente envía un resumen, extraído
de las características, de la muestra de señal capturada, que
contiene pares de hitos y de huellas, al extremo servidor, el cual
realiza el reconocimiento. El envío de este resumen extraído de las
características al servidor, en lugar de la señal capturada en
bruto, es ventajoso, porque la magnitud de datos se reduce
enormemente, a menudo en un factor de 500 o más. Tal información
puede enviarse en tiempo real por un canal lateral de bajo ancho de
banda, junto con, o en lugar de, por ejemplo, un flujo de audio
transmitido al servidor. Esto permite la realización de la invención
sobre redes públicas de comunicación, que ofrecen anchos de banda
relativamente reducidos a cada usuario.
Se describirá ahora en detalle el procedimiento
con referencia a muestras de audio y a ficheros de audio indizados
en una base de datos de sonidos. El procedimiento consiste en dos
componentes generales, la construcción del índice de la base de
datos de sonidos y el reconocimiento de muestras.
Antes de que pueda llevarse a cabo el
reconocimiento del sonido, debe construirse un índice de la base de
datos de sonidos rastreables. Según se utiliza aquí, una base de
datos es cualquier colección indizada de datos, y no se limita a las
bases de datos comercialmente disponibles. En el índice de la base
de datos, los elementos de datos vinculados se asocian entre sí, y
los elementos individuales pueden emplearse para recuperar datos
asociados. El índice de la base de datos sonoros contiene un
conjunto de índices para cada fichero o grabación en la colección
seleccionada o en la biblioteca de grabaciones, que puede incluir
voz, música, anuncios, rúbricas de sonar, u otros sonidos. Cada
grabación también tiene un único identificador,
Identificador_de_sonido. La base de datos de sonidos, en sí misma,
no necesariamente almacena los ficheros de audio para cada
grabación, pero los Identificadores_de_sonido pueden emplearse para
extraer los ficheros de audio de otros sitios. Se espera que el
índice de la base de datos sonoros sea muy grande, y que contenga
índices para millones e incluso millardos de ficheros. Las nuevas
grabaciones, preferiblemente, se añaden incrementalmente al índice
de la base de datos.
Un diagrama en bloques de un procedimiento
preferido 40 para la construcción del índice rastreable de la base
de datos sonoros, según una primera realización, se muestra en la
Fig. 3. En esta realización, se calculan primero los hitos, y luego
se calculan las huellas en, o cerca de, los hitos. Como será
evidente para alguien medianamente avezado en la tecnología, pueden
concebirse procedimientos alternativos para construir el índice de
la base de datos. En particular, muchas de las etapas enumeradas a
continuación son optativas, pero sirven para generar un índice de
base de datos que sea rastreado más eficientemente. Si bien la
eficiencia de rastreo es importante para el reconocimiento del
sonido en tiempo real a partir de grandes bases de datos; las bases
de datos pequeñas pueden rastrearse con rapidez relativa, incluso si
no han sido óptimamente clasificadas.
A fin de indizar la base de datos sonoros, cada
grabación en la colección se somete a un análisis de hitos y de
huellas que genera un conjunto de índices para cada fichero de
audio. La Fig. 4 ilustra esquemáticamente un segmento de una
grabación sonora para la cual se han calculado los hitos y las
huellas. Los hitos aparecen en instantes específicos del sonido, y
toman valores de unidades temporales desplazadas a partir del
comienzo del fichero, mientras que las huellas caracterizan el
sonido en, o cerca de, un hito específico. De esta manera, en esta
realización, cada hito para un fichero particular es único, mientras
que la misma huella puede aparecer numerosas veces dentro de un
fichero individual, o de ficheros múltiples.
En la etapa 42, a cada grabación sonora se
asigna un hito utilizando procedimientos para hallar ubicaciones
distinguibles y reproducibles dentro de la grabación sonora. Un
algoritmo preferido de determinación de hitos es capaz de marcar los
mismos instantes dentro de una grabación sonora, a pesar de la
presencia del ruido y de otra distorsión lineal y no lineal. Algunos
procedimientos de determinación de hitos son conceptualmente
independientes del proceso de determinación de huellas descrito a
continuación, pero pueden escogerse para que optimicen las
prestaciones de éste último. La determinación de hitos da como
resultado una lista de instantes (hito_{k}) dentro de la grabación
sonora en la cual se calculan subsiguientemente las huellas. Un buen
método de determinación de hitos marca entre 5 y 10 hitos por
segundo de grabación sonora; por supuesto, la densidad de los hitos
depende de la magnitud de la actividad dentro de la grabación
sonora.
Es posible una gran variedad de técnicas para
calcular hitos, todas las cuales están dentro del ámbito de la
presente invención. Los procesos técnicos específicos empleados para
implementar los métodos de determinación de hitos de la invención
son conocidos en la técnica, y no se expondrán en detalle. Una
sencilla técnica de determinación de hitos, conocida como la Norma
de Potencia, es calcular la potencia instantánea en cada instante
posible en la grabación, y seleccionar los máximos locales. Una
manera de hacer esto es calcular la envolvente rectificando y
filtrando directamente la onda. Otra manera es calcular la
transformada (cuadratura) de Hilbert de la señal, y utilizar la suma
del cuadrado de las magnitudes de la transformada de Hilbert y de la
señal original.
El procedimiento de la Norma de Potencia para la
determinación de hitos es bueno para hallar componentes transitorias
en la señal sonora. La Norma de Potencia, efectivamente, es un caso
especial de la Norma Lp Espectral, más general, en la cual p = 2. La
Norma Lp Espectral general se calcula en cada momento a lo largo de
la señal sonora, calculando un espectro de tiempo reducido, por
ejemplo, por medio de una Transformada Rápida de Fourier (FFT) con
ventanas de Hanning. Una realización preferida utiliza una velocidad
de muestreo de 8000 Hz, un tamaño de trama FFT de 1024 muestras y un
tranco de 64 muestras para cada tajada temporal. La norma Lp para
cada tajada temporal se calcula entonces como la suma de la potencia
p-ésima de los valores absolutos de los componentes espectrales,
tras lo cual, optativamente, se extrae la raíz p-ésima. Igual que
antes, los hitos se escogen como los máximos locales de los valores
resultantes a lo largo del tiempo. Un ejemplo del procedimiento de
la Norma Lp Espectral se muestra en la Fig. 5: un gráfico de la
norma L4 como función del tiempo para una señal sonora particular.
Las líneas de puntos en los máximos locales indican la ubicación de
los hitos escogidos.
Cuando p = \infty, la norma L\infty es, en
efecto, la norma máxima. Esto es, el valor de la norma es el valor
absoluto del mayor componente espectral en la tajada espectral. Esta
norma da como resultado hitos robustos y buenas prestaciones
generales de reconocimiento, y es la preferida para la música
tonal.
Alternativamente, los hitos espectrales de
"multitajada" pueden calcularse tomando la suma de las
potencias p-ésimas de los valores absolutos de los componentes
espectrales sobre las múltiples tajadas temporales, con
desplazamientos fijos o variables entre sí, en lugar de una única
tajada. Hallar los máximos locales de esta suma extendida permite la
optimización de la localización de las huellas multitajada,
descritas a continuación.
Una vez que se han calculado los hitos, se
calcula una huella en cada instante de hito en la grabación, en la
etapa 44. La huella es generalmente un valor, o un conjunto de
valores, que resume un conjunto de características en la grabación
en, o cerca de, el instante temporal. En una realización actualmente
preferida, cada huella es un valor numérico individual que es una
función de refundición de rasgos múltiples. Los tipos posibles de
huellas incluyen las huellas de tajada espectral, las huellas
multitajada, los coeficientes de LPC y los coeficientes cepstrales.
Por supuesto, cualquier tipo de huellas que caracterice la señal, o
los rasgos de la señal, cerca de un hito, está dentro del ámbito de
la presente invención. Las huellas pueden ser calculadas por
cualquier tipo de procesamiento de señales digitales o de análisis
de frecuencia de la señal.
Para generar huellas de tajada espectral, se
realiza un análisis espectral en la vecindad de cada instante
temporal de un hito, a fin de extraer los varios picos espectrales
máximos. Un valor sencillo de huella es tan sólo el valor individual
de frecuencia del pico espectral más fuerte. El empleo de un pico
tan sencillo da como resultado un reconocimiento sorprendentemente
bueno en presencia del ruido; sin embargo, las huellas de tajada
espectral de frecuencia individual tienden a generar más falsos
valores positivos que otros métodos de determinación de huellas,
porque no son únicas. El número de falsos valores positivos puede
reducirse utilizando huellas que consistan en una función de los
dos o tres picos espectrales más fuertes. Sin embargo, puede haber
una mayor susceptibilidad al ruido si el segundo pico espectral más
fuerte no es lo suficientemente fuerte como para distinguirlo de sus
competidores en presencia de ruido. Es decir, el valor calculado de
la huella puede no ser lo suficientemente robusto como para ser
reproducible de manera fiable. A pesar de esto, las prestaciones de
este caso también son buenas.
A fin de aprovechar la evolución temporal de
muchos sonidos, se determina un conjunto de tajadas temporales,
añadiendo un conjunto de desplazamientos temporales a un instante de
hito. En cada tajada temporal resultante, se calcula una huella de
tajada espectral. El conjunto resultante de información de huellas
se combina luego para formar una huella multitonal o multitajada.
Cada huella multitajada es mucho más específica que la huella de
tajada espectral individual, porque rastrea la evolución temporal,
lo que da como resultado menos falsas coincidencias en la búsqueda
del índice de la base de datos, descrita a continuación. Los
experimentos indican que, debido a su unicidad aumentada, las
huellas multitajada calculadas a partir del pico espectral
individual más fuerte en cada una de las dos tajadas temporales dan
como resultado un cálculo mucho más rápido (alrededor de 100 veces
más rápido) en la búsqueda subsiguiente del índice de la base de
datos, pero con algo de degradación en el porcentaje de
reconocimiento, en presencia de ruido significativo.
Alternativamente, en lugar de utilizar uno o más
desplazamientos fijos a partir de una tajada temporal dada, a fin de
calcular una huella multitajada, pueden emplearse desplazamientos
variables. El desplazamiento variable con respecto a la tajada
escogida es el desplazamiento hasta el próximo hito, o un hito en un
cierto entorno de desplazamiento desde el hito de "anclaje"
para la huella. En este caso, la diferencia de tiempo entre los
hitos también se codifica en la huella, junto con información de
multifrecuencia. Añadiendo más dimensiones a las huellas, devienen
más específicas y tienen una menor probabilidad de una falsa
coincidencia.
Además de los componentes espectrales, pueden
extraerse y utilizarse otros rasgos espectrales como huellas. El
análisis de codificación predictiva lineal (LPC) extrae los rasgos
linealmente predecibles de una señal, tal como los picos
espectrales, así como la forma espectral. La LPC es bien conocida en
la técnica del procesamiento de señales digitales. Para la presente
invención, los coeficientes de LPC de las tajadas de ondas ancladas
en las posiciones de hitos pueden emplearse como huellas refundiendo
los coeficientes cuantizados de LPC en un valor de índice.
Los coeficientes cepstrales son útiles como
medida de periodicidad, y pueden utilizarse para caracterizar
señales que son armónicas, tales como las voces o muchos
instrumentos musicales. El análisis cepstral es bien conocido en la
técnica del procesamiento de señales digitales. Para la presente
invención, se refunden juntos un cierto número de coeficientes
cepstrales en un índice, y se utilizan como huella.
Una realización alternativa 50, en la cual se
calculan simultáneamente hitos y huellas, se muestra en la Fig. 6.
Las etapas 42 y 44 de la Fig. 3 son reemplazadas por las etapas 52,
54 y 56. Como se describe a continuación, se calcula una función
multidimensional a partir de la grabación sonora en la etapa 52, y
se extraen los hitos (54) y las huellas (56) de la función.
En una implementación de la realización de la
Fig. 6, se calculan hitos y huellas a partir de un espectrograma de
la grabación sonora. Un espectrograma es un análisis de frecuencia
temporal de una grabación sonora en la cual se analizan
espectralmente las tramas solapadas y dispuestas en ventanas de las
muestras sonoras, utilizando, típicamente, una Transformada Rápida
de Fourier (FFT). Igual que antes, una realización preferida utiliza
una tasa de muestreo de 8000 Hz, un tamaño de trama FFT de 1024
muestras, y un tranco de 64 muestras para cada tajada temporal. Un
ejemplo de un espectrograma se muestra en la Fig. 7A. El tiempo está
en el eje horizontal, y la frecuencia está en el eje vertical. Cada
trama secuencial FFT se apila verticalmente a intervalos
correspondientes, igualmente espaciados, a lo largo del eje del
tiempo. Un gráfico del espectrograma ilustra la densidad de energía
en cada punto de frecuencia temporal; las áreas más oscuras en el
gráfico representan la mayor densidad de energía. Los espectrogramas
son bien conocidos en la técnica del procesamiento de señales
digitales. Para la presente invención, los hitos y huellas pueden
obtenerse a partir de los puntos salientes, tales como los máximos
locales del espectrograma, marcados con un círculo en el
espectrograma de la Fig. 7B. Por ejemplo, se obtienen las
coordenadas de tiempo y frecuencia de cada pico, se toma el tiempo a
utilizar como hito, y se emplea la frecuencia para calcular la
huella correspondiente. Este hito de pico de espectrograma es
similar a la norma L\infty, en la cual el valor absoluto máximo
de la norma determina la ubicación del hito. En el espectrograma,
sin embargo, la búsqueda del máximo local se hace sobre tramos del
plano tiempo-frecuencia, en lugar de sobre una
tajada temporal entera.
En este contexto, el conjunto de puntos
salientes que resultan del análisis de extracción de puntos de una
grabación sonora se denomina una constelación. Para una constelación
que consiste en máximos locales, un análisis preferido es
seleccionar puntos que sean máximos de energía del plano
tiempo-frecuencia en una vecindad alrededor de cada
punto seleccionado. Por ejemplo, un punto de coordenadas
(t_{0},f_{0}) es seleccionado si es el punto de energía máxima
dentro de un rectángulo con vértices
(t_{0}-T,f_{0}-F),
(t_{0}-T,f_{0}+F),
(t_{0}+T,f_{0}-F) y (t_{0}+T,f_{0}+F), es
decir, un rectángulo con lados de longitud 2T y 2F, con T y F
escogidos a fin de proporcionar un número adecuado de puntos de
constelación. Los límites del rectángulo también pueden variar de
tamaño según el valor de frecuencia. Por supuesto, puede utilizarse
una región de cualquier forma. El criterio de máxima energía también
puede ponderarse de manera tal que un pico energético que compite en
términos de tiempo y frecuencia sea ponderado en relación inversa
con respecto a una métrica de distancia en el plano
tiempo-frecuencia, es decir, los puntos más
distantes tienen una ponderación inferior. Por ejemplo, la energía
puede ponderarse como
\frac{S(t,f)}{1 + C_{t} (t
- t_{0})^{2} + C_{f} (f -
f_{0})^{2}},
donde S(t,f) es el cuadrado
del valor de la magnitud del espectrograma en el punto (t,f), y
C_{t} y C_{f} son valores positivos (no necesariamente
constantes). Son posibles otras funciones de ponderación de
distancias. Las restricciones de selección de máximos locales pueden
aplicarse a otros métodos de extracción de características de puntos
salientes (no máximos), y están dentro del ámbito de la
invención.
Este procedimiento da como resultado pares de
valores que son muy similares a la huella espectral de frecuencia
única descrita anteriormente, con muchas de las mismas propiedades.
El procedimiento del tiempo-frecuencia del
espectrograma genera más pares de hitos/huellas que el procedimiento
de frecuencia única, pero también puede producir muchas falsas
coincidencias en la etapa de apareo descrita a continuación. Sin
embargo, proporciona una determinación más robusta de hitos y de
huellas que la huella espectral de frecuencia única, porque el ruido
dominante en la muestra sonora puede no extenderse a todas las
partes del espectro en cada tajada. Esto es, hay, muy
probablemente, algunos pares de hitos y huellas en partes del
espectro que no están afectados por el ruido dominante.
Este procedimiento de determinación de hitos y
huellas del espectrograma es un caso especial de los procedimientos
de análisis de rasgos que calculan una función multidimensional de
la señal sonora, en los cuales una de las dimensiones es el tiempo,
y que localizan puntos salientes en los valores funcionales. Los
puntos salientes pueden ser máximos locales, mínimos locales,
valores con ordenada nula, u otros rasgos distintivos. Los hitos se
toman como las coordenadas temporales de los puntos salientes, y las
huellas correspondientes se calculan a partir de al menos una de las
coordenadas restantes. Por ejemplo, la(s)
coordenada(s) no temporal(es) del punto saliente
multidimensional puede(n) refundirse entre sí para formar una
huella funcional multidimensional.
El procedimiento de desplazamiento variable
descrito anteriormente para las huellas espectrales multitajada
puede aplicarse al espectrograma o a otras huellas de funciones
multidimensionales. En este caso, los puntos en una constelación se
vinculan entre sí para formar puntos enlazados, según se ilustra en
el espectrograma mostrado en la Fig. 7C. Cada punto en la
constelación sirve como un punto de anclaje que define el momento
del hito, y los valores de las coordenadas restantes de los otros
puntos se combinan para formar la huella enlazada. Los puntos que
están cercanos entre sí, por ejemplo, como se define a continuación,
se enlazan entre sí para formar huellas más complejas de rasgos
compuestos, que pueden distinguirse y buscarse más fácilmente. Como
ocurre con las huellas espectrales multitajada, el objetivo de
combinar información de múltiples puntos salientes enlazados en una
única huella es crear una mayor diversidad de posibles valores de
huellas, disminuyendo por ello la probabilidad de una falsa
coincidencia, es decir, disminuyendo la probabilidad de que la misma
huella describa dos muestras musicales distintas.
En principio, cada uno de los N puntos salientes
puede enlazarse con todo otro punto en un método de enlace de dos
puntos, produciendo alrededor de N^{2}/2 combinaciones. De manera
similar, para un enlace de K puntos, el número de posibles
combinaciones resultantes de una constelación es del orden de
N^{K}. A fin de evitar tal explosión combinatoria, es deseable
restringir la vecindad de puntos que se enlazan entre sí. Una manera
de lograr tal restricción es definir una "zona objetivo" para
cada punto de anclaje. Un punto de anclaje se enlaza luego con
puntos en su zona objetivo. Es posible seleccionar un subconjunto de
puntos dentro de la zona objetivo con los cuales enlazarse - no todo
punto requiere ser enlazado. Por ejemplo, sólo los puntos asociados
a los picos más fuertes en la zona objetivo pueden enlazarse. Una
zona objetivo puede tener una forma fija o bien variar según las
características del punto de anclaje. Un ejemplo sencillo de una
zona objetivo de un punto de anclaje (t_{0},f_{0}) para una
constelación de picos de espectrograma es el conjunto de puntos
(t,f) en la tira del espectrograma, tales que t está en el intervalo
[t_{0}+L,t_{0}+L+W], donde L es el avance temporal y W es el
ancho de la zona objetivo. En este método, se permiten todas las
frecuencias en la zona objetivo. L o W pueden ser variables, por
ejemplo, si se emplea un mecanismo de control de velocidad para
modular el número de combinaciones de enlace que se producen.
Alternativamente, pueden implementarse restricciones de frecuencia,
por ejemplo, restringiendo la zona objetivo de manera tal que la
frecuencia f esté en el intervalo
[f_{0}-F,f_{0}+F], donde F es un parámetro de
acotación. Una ventaja de una restricción de frecuencia es que en
sicoacústica se sabe que las melodías tienden a cohesionarse mejor
cuando las secuencias de notas tienen frecuencias que están cercanas
entre sí. Tal restricción puede permitir prestaciones de
reconocimiento más "sicoacústicamente realistas", aunque la
modelización de la sicoacústica no es necesariamente un objetivo de
esta invención. También es posible considerar la regla opuesta, en
la cual f se escoge fuera de la región
[f_{0}-F,f_{0}+F]. Esto fuerza el enlace de
puntos que son distintos entre sí en frecuencia, evitando,
posiblemente, casos en los cuales los artificios de extracción de
constelaciones producen secuencias entrecortadas de puntos de
valores de tiempo y frecuencia que están cercanos en el tiempo y
tienen la misma frecuencia. Como ocurre con otros parámetros de
localidad, F no es necesariamente constante y puede, por ejemplo,
ser una función de f_{0}.
Al incluir coordenadas temporales de puntos
salientes no de anclaje en los valores de huellas, deben emplearse
valores temporales relativos para permitir que las huellas sean
invariantes en el tiempo. Por ejemplo, las huellas pueden ser una
función de (i) valores de coordenadas no temporales y/o (ii)
la(s) diferencia(s) de los correspondientes valores de
las coordenadas temporales de los puntos salientes. La(s)
diferencia(s) temporal(es) puede(n) tomarse,
por ejemplo, con respecto al punto de anclaje o como diferencias
sucesivas entre los puntos salientes secuenciales en el conjunto
enlazado. Los valores de coordenadas y diferencias pueden
empaquetarse en campos de bits concatenados a fin de formar la
huella refundida. Como será evidente a alguien medianamente versado
en la tecnología, existen muchas otras formas de establecer
correspondencias entre valores de coordenadas y un valor de huella,
y están dentro del ámbito de la presente invención.
Una instanciación concreta de este método
utiliza N > 1 picos enlazados del espectrograma con coordenadas
(t_{k},f_{k}), k=1,...,N. Luego, (i) se toma el tiempo t_{1}
del primer pico como el tiempo del hito, y (ii) las diferencias
temporales \Deltat_{k} = t_{k} - t_{1}, k=2,...,N, más las
frecuencias f_{k}, k=1,...,N, de los picos enlazados, se refunden
entre sí para formar un valor de huella. La huella puede calcularse
a partir de todas, o de un subconjunto de, las coordenadas
\Deltat_{k} y f_{k} disponibles. Por ejemplo, algunas, o
todas, las coordenadas de diferencias temporales pueden omitirse si
se desea.
Otra ventaja de utilizar puntos múltiples para
formar la huella es que la codificación de la huella puede hacerse
invariante con respecto a la dilatación temporal, p. ej., cuando una
grabación sonora se reproduce a una velocidad distinta a la
velocidad original de grabación. Esta ventaja se aplica tanto al
procedimiento del espectrograma como al de la tajada temporal.
Observe que en una señal de tiempo dilatado, las diferencias
temporales y la frecuencia tienen una relación recíproca (p. ej., la
disminución de la diferencia temporal entre dos puntos en un factor
de dos duplica la frecuencia). Este procedimiento se aprovecha de
ese hecho combinando diferencias temporales y frecuencias, de una
manera que excluye la dilatación temporal de la huella.
Por ejemplo, en un caso de picos de un
espectrograma de N puntos con valores de coordenadas
(t_{k},f_{k}), k=1,...,N, los valores intermedios disponibles
para refundirse en una huella son \Deltat_{k} = t_{k} -
t_{1}, k=2,...,N, y f_{k}, k=1,...,N. Los valores intermedios
pueden hacerse luego invariantes con respecto a la dilatación
temporal, tomando una de las frecuencias como frecuencia de
referencia, digamos f_{1}, y formando (i) cocientes con las
frecuencias restantes y (ii) productos con las diferencias
temporales. Por ejemplo, los valores intermedios pueden ser g_{k}
= f_{k}/f_{1}, k=2,...,N y s_{k} = \Deltat_{k}
f_{1},k=2,...,N. Si la muestra se acelera en un factor \alpha,
entonces la frecuencia f_{k} se convierte en \Deltaf_{k}, y la
diferencia temporal \Deltat_{k} se convierte en
\Deltat_{k}/\alpha, de manera que g_{k} =
\Deltaf_{k}/\Deltaf_{1} = f_{k}/f_{1}, y s_{k} =
(\Deltat_{k}/\alpha) (\alphaf_{1}) = \Deltat_{k}
f_{1}. Estos nuevos valores intermedios se combinan luego
utilizando una función para formar un valor de huella refundida que
es independiente de la dilatación temporal. Por ejemplo, los valores
g_{k} y s_{k} pueden ser refundidos empaquetándolos en campos de
bits concatenados.
Alternativamente, en lugar de una frecuencia de
referencia, puede utilizarse una diferencia temporal de referencia,
p. ej., \Deltat_{2}. En este caso, los nuevos valores
intermedios se calculan como (i) los cocientes
\Deltat_{k}/\Deltat_{2} de las restantes diferencias
temporales, y (ii) los productos \Deltat_{2} f_{k} con las
frecuencias. Este caso es equivalente a emplear una frecuencia de
referencia, porque los valores resultantes pueden formarse a partir
de productos y cocientes de los valores precedentes g_{k} y
s_{k}. Los recíprocos de los ratios de frecuencia pueden
utilizarse de manera igualmente efectiva; las sumas y diferencias de
valores logarítmicos de los valores intermedios originales también
pueden sustituir los productos y diferencias, respectivamente. Todo
valor de huella independiente de la dilatación temporal, obtenido
por medio de tales conmutaciones, sustituciones y permutaciones de
operaciones matemáticas, está dentro del ámbito de la invención.
Además, pueden emplearse múltiples frecuencias de referencia o
diferencias temporales de referencia, que también relativizan las
diferencias temporales. El empleo de múltiples frecuencias de
referencia o de diferencias temporales de referencia es equivalente
al empleo de una única referencia, porque puede lograrse el mismo
resultado por la manipulación aritmética de los valores g_{k} y
s_{k}.
Volviendo ahora a las Figs. 3 y 6, los análisis
de determinación de hitos y huellas, por cualquiera de los
procedimientos precedentes, dan como resultado un conjunto de
índices para cada Identificador_de_sonido, según se muestra en la
Fig. 8A. Un conjunto de índices para una grabación sonora dada es
una lista de pares de valores (huella, hito). Cada grabación
indizada, típicamente, tiene en el orden de mil pares (huella, hito)
en su conjunto de índices. En la primera realización anteriormente
descrita, en la cual las técnicas de determinación de hitos y
huellas son esencialmente independientes, pueden tratarse como
módulos separados e intercambiables. Según el sistema, la calidad de
la señal, o el tipo de sonido a reconocer, puede emplearse uno de
varios módulos distintos de determinación de hitos o huellas. En
efecto, debido a que el conjunto de índices está compuesto
simplemente de pares de valores, es posible, y a menudo preferible,
utilizar simultáneamente métodos de determinación múltiple de hitos
y huellas. Por ejemplo, un método de determinación de hitos y
huellas puede ser bueno para detectar patrones tonales únicos, pero
deficiente para identificar la percusión, mientras que un algoritmo
distinto puede tener los atributos opuestos. El empleo de
estrategias múltiples de determinación de hitos/huellas da como
resultado una gama más robusta y rica de prestaciones de
reconocimiento. Pueden utilizarse conjuntamente distintas técnicas
de determinación de huellas, reservando ciertas gamas de valores de
huellas para ciertas clases de huellas. Por ejemplo, en un valor de
huella de 32 bits, los primeros 3 bits pueden utilizarse para
especificar cuáles de los 8 métodos de determinación de huellas
están codificando los siguientes 29 bits.
Después de que se han generado conjuntos de
índices para cada grabación sonora a indizar en la base de datos de
sonidos, se construye un índice de base de datos rastreable, de tal
manera que permita búsquedas rápidas (es decir, de tiempos
logarítmicos). Esto se logra en la etapa 46 construyendo una lista
de tripletes (huella, hito, identificador_de_sonido), obtenidas
añadiendo el correspondiente identificador_de_sonido a cada dupla
dentro de cada conjunto de índices. Todas tales tripletes, para
todas las grabaciones sonoras, se recogen en una gran lista de
índices, un ejemplo de la cual se muestra en la Fig. 8B. A fin de
optimizar el subsiguiente proceso de búsqueda, la lista de tripletes
se clasifica luego con respecto a la huella. Los algoritmos de
clasificación rápida son bien conocidos en la técnica, y se exponen
en detalle en The Art of Computer Programming, Volume 3: Sorting
and Searching [El Arte de Programar Ordenadores, Volumen 3:
Clasificación y Búsqueda], de D. E. Knuth, Reading,
Massachusetts: Addison-Wesley, 1998, incorporado a
la presente por referencia. Los algoritmos de clasificación de altas
prestaciones pueden emplearse para clasificar la lista en un tiempo
equivalente a N log N, donde N es el número de elementos en la
lista.
Una vez que la lista de índices está
clasificada, se procesa adicionalmente en la etapa 48, segmentándola
de tal manera que cada huella única en la lista se recoge en una
nueva lista del índice maestro, un ejemplo de la cual se muestra en
la Fig. 8C. Cada elemento en la lista del índice maestro contiene un
valor de huella y un puntero a una lista de pares (hito,
identificador_de_sonido). Según el número y carácter de los
registros indizados, una huella dada puede aparecer cientos de
veces, o más, dentro de la colección completa. El reordenamiento de
la lista de índices en una lista del índice maestro es optativo,
pero ahorra memoria, porque cada valor de huella aparece sólo una
vez. También acelera la búsqueda subsiguiente en la base de datos,
dado que el número efectivo de elementos en la lista se reduce
enormemente, hasta una lista de valores únicos. Alternativamente, la
lista del índice maestro puede construirse insertando cada triplete
en un árbol B. Existen otras posibilidades para construir la lista
del índice maestro, como es sabido por aquellos medianamente
versados en la tecnología. La lista del índice maestro se mantiene,
preferiblemente, en la memoria del sistema, tal como en memoria
DRAM, para un rápido acceso durante el reconocimiento de señales. La
lista del índice maestro puede mantenerse en la memoria de un único
extremo dentro del sistema, según se ilustra en la Fig. 2.
Alternativamente, la lista del índice maestro puede descomponerse en
trozos distribuidos entre múltiples extremos de cómputo.
Preferiblemente, el índice de la base de datos sonoros mencionado
anteriormente es la lista del índice maestro ilustrada en la Fig.
8C.
El índice de la base de datos sonoros se
construye, preferiblemente, fuera de línea, y se actualiza
incrementalmente según se incorporan nuevos sonidos al sistema de
reconocimiento. Para actualizar la lista, pueden insertarse nuevas
huellas en la ubicación adecuada en la lista maestra. Si las nuevas
grabaciones contienen huellas existentes, los correspondientes pares
(hito, identificador_de_sonido) se añaden a las listas existentes
para esas huellas.
Utilizando la lista del índice maestro generada
según lo anteriormente descrito, el reconocimiento de sonidos se
lleva a cabo sobre una muestra sonora exógena, típicamente
proporcionada por un usuario interesado en identificar la muestra.
Por ejemplo, el usuario oye una nueva canción en la radio y desea
conocer el artista y el título de la canción. La muestra puede
originarse en cualquier tipo de entorno, tal como una transmisión
radial, un disco, un pub, un submarino, un fichero de sonido, un
segmento de audio transmitido, o un sistema estéreo, y puede
contener ruido de fondo, tramos de silencio o voces. El usuario
puede almacenar la muestra de audio en un dispositivo de
almacenamiento tal como un contestador, un fichero de ordenador, una
grabadora de cinta, o un sistema de correo de voz de teléfono fijo o
móvil, antes de proporcionarlo al sistema para su reconocimiento.
Basándose en la configuración del sistema y las restricciones del
usuario, la muestra de audio se proporciona al sistema de
reconocimiento de la presente invención a partir de cualquier número
de fuentes analógicas o digitales, tales como un sistema estéreo, un
televisor, un reproductor de discos compactos, una transmisión de
radio, un contestador, un teléfono fijo, un teléfono móvil, una
transmisión en vivo por Internet, el FTP, un fichero de ordenador
como anexo de correo electrónico, o cualquier otro medio adecuado
para transmitir tal material grabado. Según la fuente, la muestra
puede estar en forma de ondas acústicas, ondas de radio, un flujo
PCM de audio digital, un flujo de audio digital comprimido (tal como
Dolby Digital o MP3), o una transmisión en vivo por Internet. Un
usuario interactúa con el sistema de reconocimiento a través de una
interfaz estándar tal como un teléfono fijo, un teléfono móvil, un
explorador de Internet, o el correo electrónico. La muestra puede
ser capturada por el sistema y procesada en tiempo real, o puede
reproducirse para su procesamiento a partir de un sonido
previamente capturado (p. ej., un fichero de sonido). Durante la
captura, la muestra de audio es muestreada digitalmente y enviada al
sistema por un dispositivo de muestreo, tal como un micrófono. Según
sea el procedimiento de captura, es probable que la muestra sea
sometida a una degradación adicional, debida a las limitaciones del
canal o del dispositivo de captura de sonido.
Una vez que la señal sonora ha sido convertida
en su forma digital, se procesa para su reconocimiento. Como en la
construcción de conjuntos de índices para los ficheros de base de
datos, los hitos y las huellas se calculan para la muestra
utilizando el mismo algoritmo que se empleó para procesar la base de
datos de grabaciones sonoras. El procedimiento funciona óptimamente
si el procesamiento de una versión sumamente distorsionada del
fichero sonoro original produce el conjunto idéntico, o similar, de
pares de hitos y huellas que se obtuvo para la grabación original.
El conjunto resultante de índices para la muestra sonora es un
conjunto de pares de valores analizados, (huella, hito), mostrados
en la Fig. 9A.
Dados los pares para la muestra sonora, se busca
en el índice de la base de datos a fin de localizar los ficheros
potencialmente coincidentes. La búsqueda se lleva a cabo de la
siguiente manera: cada par (huella_{k}, hito_{k}) en el conjunto
de índices de la muestra desconocida se procesa buscando la
huella_{k} en la lista del índice maestro. Los algoritmos de
búsqueda rápida en una lista ordenada son bien conocidos en la
técnica y se exponen ampliamente en The Art of Computer
Programming, Volume 3: Sorting and Searching [El Arte de Programar
Ordenadores, Volumen 3: Clasificación y Búsqueda], de D. E.
Knuth, Reading, Massachusetts: Addison-Wesley, 1998.
Si la huella_{k} se halla en la lista del índice maestro, entonces
su lista correspondiente de pares coincidentes (hito*_{j},
identificador_de_sonido_{j}) se copia y se amplía con el
hito_{k} para formar un conjunto de tripletes de la forma
(hito_{k}, hito*_{j}, identificador_de_sonido_{j}). En esta
notación, un asterisco (*) indica un hito de uno de los ficheros
indizados en la base de datos, mientras que un hito sin asterisco
se refiere a la muestra. En algunos casos, es preferible que las
huellas coincidentes no sean necesariamente idénticas, pero que sean
similares; por ejemplo, que difieran dentro de un umbral previamente
determinado. Las huellas coincidentes, ya sean idénticas o
similares, se denominan equivalentes. El
identificador_de_sonido_{j} en la triplete corresponde al fichero
que tiene el hito marcado con asterisco. De esta manera, cada
triplete contiene dos hitos distintos, uno en el índice de la base
de datos y uno en la muestra, en los cuales se han calculado huellas
equivalentes. Este proceso se repite para todo k que varíe dentro
del conjunto de índices de la muestra de entrada. Todas las
tripletes resultantes se recogen en una gran lista de candidatos,
ilustrada en la Fig. 9B. La lista de candidatos se denomina así
porque contiene los identificadores_de_sonido de los ficheros
sonoros que, en virtud de sus huellas coincidentes, son candidatos
para su identificación con la muestra sonora exógena.
Una vez que se ha compilado la lista de
candidatos, se procesa adicionalmente segmentándola según el
identificador_de_sonido. Una manera conveniente de hacer esto es
clasificar la lista de candidatos por su identificador_de_sonido, o
insertarla en un árbol B. Se dispone de un gran número de algoritmos
de clasificación en la técnica, como se ha expuesto anteriormente.
El resultado de este proceso es una lista de
identificadores_de_sonido candidatos, cada uno de los cuales tiene
una lista de dispersión de pares de hitos temporales puntuales de la
muestra y del fichero, con los identificadores_de_sonido
optativamente retirados, (hito_{k}, hito*_{j}), como se muestra
en la Fig. 9C. Cada lista de dispersión contiene, por ello, un
conjunto de hitos correspondientes, en virtud de estar
caracterizados por el valor de la huella equivalente.
La lista de dispersión para cada
identificador_de_sonido candidato se analiza luego a fin de
determinar si el identificador_de_sonido corresponde a la muestra.
Puede emplearse primero una etapa optativa de determinación de
umbral a fin de eliminar un número potencialmente alto de candidatos
que tienen listas de dispersión muy pequeñas. Obviamente, los
candidatos que tengan sólo una entrada en sus listas de dispersión,
es decir, sólo una huella en común con la muestra, no corresponden a
la muestra. Puede emplearse cualquier número adecuado de umbral,
mayor o igual que uno.
Una vez que se ha determinado el número final de
candidatos, se localiza el candidato ganador. Si el siguiente
algoritmo no localiza un candidato ganador, entonces se devuelve un
mensaje de fracaso. Un concepto clave del proceso de apareo es que
la evolución temporal en el apareo de sonidos debe seguir una
correspondencia lineal, suponiendo que las bases temporales en ambos
lados son constantes. Esto es cierto casi siempre, a menos que uno
de los sonidos haya sido deliberadamente deformado no linealmente, o
sometido a equipos de reproducción defectuosos, tales como una
consola de cinta con un problema de irregularidad en la velocidad de
reproducción. De esta manera, los pares correctos de hitos
(hito_{n},hito*_{n}) en la lista de dispersión de un
identificador_de_sonido dado deben tener una correspondencia lineal
de la forma
hito*_{n} = m*hito_{n} +
desplazamiento,
donde m es la pendiente, que
debería estar cerca del uno; hito_{n} es el instante dentro de la
muestra exógena; hito*_{n} es el correspondiente instante dentro
de la grabación sonora indizada por el identificador_de_sonido; y el
desplazamiento es el desplazamiento temporal dentro de la grabación
sonora correspondiente al comienzo de la muestra sonora exógena. Los
pares de hitos que pueden satisfacer la ecuación anterior para
valores particulares de m y del desplazamiento se dicen linealmente
relacionados. Obviamente, el concepto de estar linealmente
relacionado es sólo válido para más de un par de hitos
correspondientes. Observe que esta relación lineal identifica el
fichero sonoro correcto con alta probabilidad, excluyendo a la vez
pares de hitos externos que no son significativos. Si bien es
posible que dos señales distintas contengan un cierto número de
huellas idénticas, es muy improbable que estas huellas tengan las
mismas evoluciones temporales relativas. El requisito de las
correspondencias lineales es una característica clave de la presente
invención, y proporciona un reconocimiento significativamente mejor
que las técnicas que simplemente cuentan el número total de
características en común o que miden la similitud entre las
características. En efecto, debido a este aspecto de la invención,
los sonidos pueden reconocerse incluso si aparece menos del 1% de
las huellas de la grabación original en la muestra sonora exógena,
es decir, si la muestra sonora es muy breve o si está
significativamente
distorsionada.
El problema de determinar si existe una
correspondencia para la muestra exógena se reduce así al equivalente
de hallar una línea diagonal con pendiente cercana a uno dentro de
un gráfico de dispersión de los puntos de hitos de una lista de
dispersión dada. Dos ejemplos de gráficos de dispersión se muestran
en las Figs. 10A y 10B, con hitos de ficheros sonoros sobre el eje
horizontal e hitos de muestras sonoras exógenas sobre el eje
vertical. En la Fig. 10A, se identifica una línea diagonal de
pendiente aproximadamente igual a uno, que indica que la canción,
efectivamente, corresponde a la muestra, es decir, que el fichero de
sonido es un fichero ganador. La interceptación en el eje
horizontal indica el desplazamiento dentro del fichero de audio
donde comienza la muestra. No se halla ninguna línea diagonal
estadísticamente significativa en el gráfico de dispersión de la
Fig. 10B, lo que indica que el fichero de sonido no corresponde a la
muestra exógena.
Hay muchas maneras de hallar una línea diagonal
en un gráfico de dispersión, todas las cuales están dentro del
ámbito de la presente invención. Ha de entenderse que la frase
"localizar una línea diagonal" se refiere a todos los
procedimientos que sean equivalentes a localizar una línea diagonal
sin producir explícitamente una línea diagonal. Un procedimiento
preferido comienza restando m*hito_{n} de ambos lados de la
ecuación anterior, para obtener
(hito*_{n} - m*hito_{n}) =
desplazamiento.
Suponiendo que m es aproximadamente igual a uno,
es decir, suponiendo que no hay dilatación temporal, llegamos a
(hito*_{n} - hito_{n}) =
desplazamiento.
El problema de hallar la diagonal se reduce
entonces a hallar múltiples pares de hitos para un
identificador_de_
sonido dado que se agrupen cerca del mismo valor del desplazamiento. Esto puede lograrse fácilmente restando un hito al otro y recogiendo un histograma de los valores de desplazamiento resultantes. El histograma puede prepararse clasificando los valores de desplazamiento resultantes, utilizando un algoritmo de clasificación rápida o bien creando entradas de arcas con contadores e insertándolas en un árbol B. El arca de desplazamientos ganador en el histograma contiene el mayor número de puntos. Este arca se denomina aquí el pico del histograma. Como el desplazamiento debe ser positivo si la señal sonora exógena está totalmente contenida dentro del fichero sonoro de la biblioteca correcta, los pares de hitos que dan como resultado un desplazamiento negativo pueden excluirse. De manera similar, los desplazamientos más allá del fin del fichero también pueden excluirse. Se toma nota del número de puntos en el arca de desplazamientos ganador del histograma para cada identificador_de_sonido admitido. Este número se convierte en la puntuación para cada grabación sonora. La grabación sonora en la lista de candidatos con la más alta puntuación se escoge como la ganadora. El identificador_de_sonido ganador se revela a un usuario según se describe a continuación para indicar el éxito de la identificación. A fin de evitar la falsa identificación, puede utilizarse una puntuación de umbral mínimo para controlar el éxito del proceso de identificación. Si ningún sonido de biblioteca tiene una puntuación que exceda el umbral, entonces no hay reconocimiento, y así se informa al usuario.
sonido dado que se agrupen cerca del mismo valor del desplazamiento. Esto puede lograrse fácilmente restando un hito al otro y recogiendo un histograma de los valores de desplazamiento resultantes. El histograma puede prepararse clasificando los valores de desplazamiento resultantes, utilizando un algoritmo de clasificación rápida o bien creando entradas de arcas con contadores e insertándolas en un árbol B. El arca de desplazamientos ganador en el histograma contiene el mayor número de puntos. Este arca se denomina aquí el pico del histograma. Como el desplazamiento debe ser positivo si la señal sonora exógena está totalmente contenida dentro del fichero sonoro de la biblioteca correcta, los pares de hitos que dan como resultado un desplazamiento negativo pueden excluirse. De manera similar, los desplazamientos más allá del fin del fichero también pueden excluirse. Se toma nota del número de puntos en el arca de desplazamientos ganador del histograma para cada identificador_de_sonido admitido. Este número se convierte en la puntuación para cada grabación sonora. La grabación sonora en la lista de candidatos con la más alta puntuación se escoge como la ganadora. El identificador_de_sonido ganador se revela a un usuario según se describe a continuación para indicar el éxito de la identificación. A fin de evitar la falsa identificación, puede utilizarse una puntuación de umbral mínimo para controlar el éxito del proceso de identificación. Si ningún sonido de biblioteca tiene una puntuación que exceda el umbral, entonces no hay reconocimiento, y así se informa al usuario.
Si la señal sonora exógena contiene múltiples
sonidos, entonces puede reconocerse cada sonido individual. En este
caso, los múltiples ganadores se localizan en el escaneo de
alineación. No es necesario conocer que la señal sonora contiene
múltiples ganadores, porque el escaneo de alineación localizará más
de un identificador_de_sonido con una puntuación que es mucho más
alta que las puntuaciones restantes. El procedimiento de
determinación de huellas utilizado muestra, preferiblemente, una
buena superposición lineal, para que puedan extraerse huellas
individuales. Por ejemplo, un procedimiento de determinación de
huellas de espectrograma muestra superposición lineal.
Si la muestra sonora ha sido sometida a
dilatación temporal, entonces la pendiente no es idénticamente igual
a uno. El resultado de suponer una pendiente igual a la unidad en
una muestra temporalmente dilatada (suponiendo que las huellas son
invariantes para dilataciones temporales) es que los valores de
desplazamiento calculados no son iguales. Una manera de abordar esto
y de asimilar una moderada dilatación temporal es aumentar el tamaño
de las arcas de desplazamiento, es decir, considerar como iguales
una gama de desplazamientos. En general, si los puntos no caen sobre
una línea recta, entonces los valores de desplazamiento calculados
son significativamente distintos, y un leve aumento en el tamaño de
las arcas de desplazamiento no produce un número significativo de
falsos valores positivos.
Son posibles otras estrategias de búsqueda de
líneas. Por ejemplo, puede emplearse una transformación de Radon o
de Hough, descrita en "Hough Transform for Line Recognition"
["Transformada de Hough para el Reconocimiento de Líneas"] de
T. Risse, en Computer Vision and Image Processing [Visión por
Ordenador y Procesamiento de Imágenes],
46,.327-345, 1989, que son bien conocidas en las
tecnologías de visión por máquinas e investigación gráfica. En la
transformada de Hough, cada punto del gráfico de dispersión se
proyecta sobre una línea en el espacio de pares (pendiente,
desplazamiento). El conjunto de puntos en el gráfico de dispersión
se proyecta así sobre el espacio dual de líneas en la transformada
de Hough. Los picos en la transformada de Hough corresponden a las
intersecciones de las líneas de parámetros. El pico global de tal
transformada de un gráfico de dispersión dado indica el mayor número
de líneas intersecantes en la transformada de Hough y, por ello, el
mayor número de puntos colineales. Para permitir una variación de
velocidad del 5%, por ejemplo, la construcción de la transformada de
Hough puede restringirse a la región donde el parámetro de la
pendiente varía entre 0,95 y 1,05, ahorrando así algún esfuerzo de
cálculo.
Además de la etapa de determinación de umbral
que elimina candidatos con listas de dispersión muy pequeñas, pueden
hacerse mejoras adicionales a la eficiencia. En una tal mejora, el
índice de la base de datos se segmenta en al menos dos partes, según
la probabilidad de ocurrencia, y sólo se buscan inicialmente los
ficheros de sonido con la más alta probabilidad de corresponder a la
muestra. La división puede tener lugar en diversas etapas del
proceso. Por ejemplo, la lista del índice maestro (Fig. 8C) puede
segmentarse en dos o más partes, de manera tal que las etapas 16 y
20 se llevan primero a cabo sobre uno de los segmentos. Esto es, los
ficheros correspondientes a las huellas coincidentes se extraen sólo
de una fracción del índice de la base de datos, y se genera una
lista de dispersión a partir de esta fracción. Si no se localiza un
fichero sonoro ganador, entonces se repite el proceso sobre el resto
del índice de la base de datos. En otra implementación, se extraen
todos los ficheros del índice de la base de datos, pero el escaneo
de la línea diagonal se lleva a cabo por separado sobre los
distintos segmentos.
Utilizando esta técnica, el escaneo de la línea
diagonal, una parte muy onerosa en cálculos del procedimiento, se
realiza primero sobre un pequeño subconjunto de los ficheros de
sonido en el índice de la base de datos. Debido a que el escaneo de
la línea diagonal tiene un componente temporal que es
aproximadamente lineal con respecto al número de ficheros de sonido
que se escanean, la realización de tal búsqueda jerárquica es
sumamente conveniente. Por ejemplo, supongamos que el índice de la
base de datos de sonido contiene huellas que representan a
1.000.000 de ficheros de sonido, pero que sólo alrededor de 1000
ficheros corresponden a las consultas de muestras con alta
frecuencia, p. ej., el 95% de las consultas son para 1000 ficheros,
mientras que sólo el 5% de las consultas son para los restantes
999.000 ficheros. Suponiendo una dependencia lineal del coste de
cálculo con respecto al número de ficheros, el coste es proporcional
a 1000 el 95% del tiempo, y proporcional a 999.000 sólo el 5% del
tiempo. El coste promedio es, por lo tanto, proporcional a alrededor
de 50.900. Una búsqueda jerárquica, por lo tanto, produce ahorros de
alrededor de un factor de 20 en la carga de cálculo. Por supuesto,
el índice de la base de datos puede segmentarse en más de dos
niveles de jerarquía, p. ej., un grupo de novedades, un grupo de
canciones editadas recientemente, y un grupo de canciones más
antiguas y menos populares.
Como se ha descrito anteriormente, la búsqueda
se lleva primero a cabo sobre un primer subconjunto de ficheros de
sonido, los ficheros de alta probabilidad, y luego, sólo si fracasa
la primera búsqueda, se realiza sobre un segundo subconjunto que
contiene los ficheros restantes. El fracaso del escaneo de la línea
diagonal ocurre si el número de puntos en cada arca de
desplazamiento no alcanza a un valor de umbral predeterminado.
Alternativamente, las dos búsquedas pueden llevarse a cabo en
paralelo (simultáneamente). Si el fichero de sonido correcto es
localizado en una búsqueda del primer subconjunto, entonces se envía
una señal para terminar la búsqueda del segundo subconjunto. Si el
fichero de sonido correcto no es localizado en la primera búsqueda,
entonces la segunda búsqueda continúa hasta que se localiza un
fichero ganador. Estas dos implementaciones distintas involucran
compromisos recíprocos entre el esfuerzo y el tiempo de cálculo. La
primera implementación es más eficiente en términos de cálculo, pero
introduce una leve latencia si fracasa la primera búsqueda, mientras
que la segunda implementación malgasta esfuerzo de cálculo si el
fichero ganador está en el primer subconjunto, pero minimiza la
latencia si no lo está.
El objeto de segmentar la lista es estimar la
probabilidad de que un fichero de sonido sea el objetivo de una
consulta y limitar la búsqueda a aquellos ficheros que tengan la
mayor probabilidad de corresponder a la muestra de la consulta. Hay
diversas maneras posibles de asignar probabilidades y de clasificar
los sonidos en la base de datos, todas las cuales están dentro del
ámbito de la presente invención. Preferiblemente, las probabilidades
se asignan basándose en lo reciente o lo frecuente que sea su
identificación como el fichero de sonido ganador. El criterio de
identificación reciente es una medida útil, en particular para las
canciones populares, porque los intereses musicales cambian bastante
rápidamente a lo largo del tiempo, según se editan nuevas canciones.
Después de que se han calculado las puntuaciones de probabilidad, se
asignan categorías a los ficheros, y la lista se autoclasifica según
la categoría. La lista clasificada se segmenta luego en dos o más
subconjuntos para la búsqueda. El subconjunto más pequeño puede
contener un número predeterminado de ficheros. Por ejemplo, si la
categorización localiza un fichero dentro de los primeros 1000
ficheros, digamos, entonces el fichero se coloca en la búsqueda más
pequeña y rápida. Alternativamente, los puntos de corte para los
dos subconjuntos pueden ajustarse dinámicamente. Por ejemplo, todos
los ficheros con una puntuación que exceda un valor de umbral
específico pueden colocarse dentro del primer subconjunto, y así el
número de ficheros en cada subconjunto cambia continuamente.
Una manera particular de calcular la
probabilidad es incrementar en uno la puntuación de un fichero de
sonido cada vez que sea identificado como correspondiente a la
muestra de consulta. A fin de tomar en cuenta el criterio de
identificación reciente, todas las puntuaciones se reducen
periódicamente, para que las consultas más recientes tengan un mayor
efecto sobre la categorización que las consultas más antiguas. Por
ejemplo, todas las puntuaciones pueden graduarse a la baja por un
factor constante en cada consulta, lo que da como resultado una
decadencia exponencial de la puntuación si no se actualiza. Según el
número de ficheros en la base de datos, que puede fácilmente ser de
un millón, este procedimiento puede requerir actualizar un gran
número de puntuaciones en cada consulta, haciéndolo potencialmente
indeseable. Alternativamente, las puntuaciones pueden ajustarse a la
baja a intervalos relativamente infrecuentes, tal como una vez por
día. El ordenamiento resultante de un ajuste menos frecuente es
efectivamente similar, pero no exactamente idéntico, al ordenamiento
que resulta del ajuste en cada consulta. Sin embargo, la carga de
cálculo para actualizar las categorizaciones es mucho menor.
Una leve variación de este ajuste del criterio
de identificación reciente, que preserva más exactamente la
puntuación de identificaciones recientes, es añadir una
actualización de puntuación a^{t}, de crecimiento exponencial, al
fichero de sonido ganador por consulta, donde t es el lapso
transcurrido desde la última actualización global. Todas las
puntuaciones se ajustan luego a la baja dividiendo entre a^{T} en
cada actualización global, donde T es el tiempo total transcurrido
desde la última actualización global. En esta variación, a es el
factor de identificación reciente, que es mayor
que uno.
que uno.
Además de la categorización descrita
anteriormente, puede introducirse algún conocimiento a priori
para ayudar a hacer más fructífero el elenco de grabaciones de
sonido. Por ejemplo, es probable que las novedades tengan números
mayores de consultas que las canciones más antiguas. De esta manera,
las novedades pueden colocarse automáticamente en el primer
subconjunto, que contiene canciones con una mayor probabilidad de
corresponder a las consultas. Esto puede llevarse a cabo
independientemente del algoritmo de autocategorización descrito
anteriormente. Si también se emplea la característica de
autocategorización, a las novedades pueden asignarse
categorizaciones iniciales que las coloquen en algún sitio dentro
del primer subconjunto. Las novedades pueden diseminarse en el mismo
tope de la lista, en el extremo inferior de la lista de canciones de
alta probabilidad, o en algún sitio por el medio. Para los fines de
la búsqueda, la ubicación inicial no importa, porque la
categorización converge a lo largo del tiempo para reflejar el
verdadero nivel de interés.
En una realización alternativa, la búsqueda se
realiza en el orden de categorizaciones de identificación reciente y
se termina cuando una puntuación del identificador_de_sonido excede
un valor umbral predeterminado. Esto es equivalente al método
precedente, en el cual cada segmento contiene sólo un
identificador_de_sonido. Los experimentos muestran que la puntuación
de un sonido ganador es mucho más alta que las puntuaciones de todos
los otros ficheros de sonido y, por ello, puede escogerse un umbral
adecuado con una experimentación mínima. Una forma de implementar
esta realización es clasificar todos los identificadores_de_sonido
en el índice de la base de datos según lo reciente de la
identificación, con un desempate arbitrario en el caso de
puntuaciones idénticas. Debido a que cada categorización de lo
reciente de la identificación es única, hay una correspondencia
biunívoca entre la puntuación de lo reciente de la identificación y
el identificador_de_sonido. La categorización puede emplearse luego
en lugar del identificador_de_sonido al clasificar por
identificador_de_sonido a fin de formar la lista de
identificadores_de_sonido candidatos y sus listas de dispersión
asociadas (Fig. 9C). Los números de categorización pueden vincularse
al índice cuando se genera la lista del índice de tripletes
(huella, hito, identificador_de_sonido), y antes de que se
clasifique la lista del índice dentro de la lista del índice
maestro. La categorización ocupa luego el lugar del
identificador_de_sonido. Alternativamente, puede utilizarse una
función de búsqueda y reemplazo para reemplazar el
identificador_de_sonido por la categorización. Según se actualizan
las categorizaciones, las nuevas categorizaciones se mapean sobre
las viejas, suponiendo que se mantenga la integridad de mapeo.
Alternativamente, las categorizaciones pueden
vincularse más adelante en el proceso. Una vez que las listas de
dispersión están creadas, puede asociarse una categorización a cada
identificador_de_sonido. Los conjuntos se clasifican luego por
categorización. En esta implementación, sólo es necesario modificar
los punteros a las listas de dispersión; no es necesario repetir el
agrupamiento en listas de dispersión. La ventaja de las
vinculaciones posteriores es que no es necesario recrear todo el
índice de la base de datos cada vez que se actualizan las
categorizaciones.
Observe que la categoría de popularidad, en sí
misma, puede ser de interés como un objeto de valor económico. Esto
es, la categoría refleja la deseabilidad de los consumidores para
obtener una identificación de una muestra de sonido desconocida. En
muchos casos, la consulta está incentivada por un deseo de adquirir
una grabación de la canción. En efecto, si se conoce la información
demográfica acerca del usuario, entonces pueden implementarse
métodos de categorización alternativa para cada grupo demográfico
deseado. El grupo demográfico de un usuario puede obtenerse a partir
de información de perfil solicitada cuando el usuario se registra
para el servicio de reconocimiento. También puede determinarse
dinámicamente por medio de técnicas estándar de filtración
colaborativa.
En un sistema de tiempo real, el sonido se
suministra al sistema de reconocimiento incrementalmente a lo largo
del tiempo, lo que permite el reconocimiento encadenado. En este
caso, es posible procesar los datos entrantes en segmentos y
actualizar incrementalmente el conjunto de índices de la muestra.
Después de cada periodo de actualización, se utiliza el conjunto de
índices recientemente aumentado para extraer grabaciones sonoras
candidatas de biblioteca, utilizando las etapas precedentes de
búsqueda y escaneo. El índice de la base de datos es examinado en
busca de huellas que coincidan con las huellas de muestras
recientemente obtenidas, y se generan nuevas tripletes (hito_{k},
hito*_{j}, identificador_de_sonido_{j}). Se añaden nuevos pares
a las listas de dispersión, y se aumentan los histogramas. La
ventaja de este enfoque es que si se han recogido suficientes datos
como para identificar sin ambigüedad la grabación sonora, p. ej., si
el número de puntos en un arca de desplazamiento de uno de los
ficheros de sonido excede un umbral alto, o bien excede la siguiente
puntuación más alta de fichero de sonido, entonces puede concluir la
adquisición de datos y anunciarse el resultado.
Una vez que se ha identificado el sonido
correcto, el resultado se informa al usuario o al sistema por
cualquier procedimiento adecuado. Por ejemplo, el resultado puede
informarse por medio de una impresora de ordenador, un correo
electrónico, una página de resultados de búsqueda en web, un mensaje
de texto SMS (servicio de mensajes breves) a un teléfono móvil, un
mensaje de voz generado por ordenador hacia un teléfono fijo, o bien
despachando el resultado a una sede o cuenta de Internet a la que el
usuario pueda acceder más tarde. Los resultados informados pueden
incluir información de identificación del sonido, tal como el nombre
e intérprete de una canción; el compositor, nombre, y atributos de
grabación (p. ej., intérpretes, director, escenario) de una pieza
clásica; la empresa y el producto de un anuncio; o cualesquiera
otros identificadores adecuados. Además, puede proporcionarse
información biográfica, información acerca de conciertos en la
vecindad, y otra información de interés para los aficionados; pueden
proporcionarse hiperenlaces a tales datos. Los resultados informados
pueden incluir también la puntuación absoluta del fichero de sonido
o su puntuación en comparación con el siguiente fichero de más alta
puntuación.
Una consecuencia útil del procedimiento de
reconocimiento es que no confunde dos versiones distintas del mismo
sonido. Por ejemplo, no se considera que distintas interpretaciones
de la misma pieza de música clásica sean la misma, incluso si un ser
humano no puede detectar una diferencia entre las dos. Esto es
porque es sumamente improbable que los pares de hitos/huellas y su
evolución temporal coincidan exactamente para dos interpretaciones
distintas. En una realización actual, los pares hito/huella deben
estar dentro de un entorno de 10 ms entre sí para que se identifique
una correspondencia lineal. Como resultado de esto, el
reconocimiento automático realizado por la presente invención hace
posible que se acredite la debida interpretación/banda sonora y
artista/sello en todos los casos.
A continuación se describe una implementación
preferida de la invención, el reconocimiento de audio por ventana
deslizante continua. Un micrófono u otra fuente de sonido se
muestrea continuamente en un almacén de datos a fin de obtener un
registro de los N segundos previos de sonido. El contenido del
almacén de datos sonoros se analiza periódicamente a fin de
verificar la identidad del contenido sonoro. El almacén de datos
sonoros puede tener un tamaño fijo o bien puede crecer de tamaño
según se muestrea el sonido, denominado aquí como segmentos
secuencialmente crecientes de la muestra de audio. Se produce un
informe para indicar la presencia de grabaciones sonoras
identificadas. Por ejemplo, puede compilarse un fichero de registro,
o bien puede mostrarse un visor en un dispositivo que indica la
información acerca de la música, tal como el título, el intérprete,
la imagen de la cubierta del álbum, las letras, o la información de
compra. Para evitar la redundancia, puede producirse un informe sólo
cuando cambia la identidad del sonido reconocido; por ejemplo,
después de un cambio de programa en una fonola. Tal dispositivo
puede utilizarse para crear una lista de música reproducida desde
cualquier fuente de sonido (radio, radio transmitida por Internet,
micrófono oculto, llamada telefónica, etc.). Además de la identidad
de la música, puede registrarse información tal como la hora del
reconocimiento. Si se dispone de información de localización (p.
ej., de GPS), también puede registrarse tal información.
Para lograr la identificación, cada almacén de
datos puede ser identificado de nuevo cada vez. Alternativamente,
pueden extraerse parámetros del sonido, por ejemplo, en huellas u
otras formas intermedias de características extraídas, y almacenarse
en un segundo almacén de datos. Pueden añadirse nuevas huellas al
principio del segundo almacén, desechándose las viejas huellas del
final del almacén. La ventaja de tal método de almacén circular es
que no es necesario realizar redundantemente el mismo análisis de
los viejos segmentos solapados de las muestras sonoras, ahorrando
así esfuerzo de cálculo. El proceso de identificación se lleva a
cabo periódicamente sobre el contenido del almacén circular de
huellas. En el caso de un pequeño dispositivo portátil, el análisis
de huellas puede realizarse en el dispositivo, y transmitirse los
resultados a un servidor de reconocimiento que emplea un canal de
datos de ancho de banda relativamente bajo, ya que el flujo de
huellas no tiene mucha carga de datos. El almacén circular de
huellas puede mantenerse en el dispositivo portátil y transferirse
cada vez al servidor de reconocimiento, o bien puede mantenerse en
el servidor de reconocimiento, en cuyo caso se almacena una sesión
de reconocimiento continuo en la memoria caché del servidor.
En tal sistema de reconocimiento de almacén
circular, pueden reconocerse nuevas grabaciones de sonido tan pronto
como se disponga de información suficiente para su reconocimiento.
La información suficiente puede ocupar menos que la longitud del
almacén. Por ejemplo, si una canción distinguible puede reconocerse
individualmente después de un segundo de reproducción, y el sistema
tiene una periodicidad de reconocimiento de un segundo, entonces la
canción puede ser reconocida inmediatamente, aunque el almacén de
datos puede tener una longitud de entre 15 y 30 segundos. Viceversa,
si una canción menos distinguible requiere más segundos de muestreo
para ser reconocida, el sistema debe esperar durante un periodo más
largo antes de declarar la identidad de la canción. En este método
de reconocimiento de ventana deslizante, los sonidos se reconocen
tan pronto como pueden ser identificados.
Es importante observar que, si bien la presente
invención ha sido descrita en el contexto de un sistema y
procedimiento de reconocimiento totalmente funcionales, aquellos
versados en la técnica apreciarán que el mecanismo de la presente
invención es capaz de ser distribuido en forma de un medio, legible
por ordenador, con instrucciones en diversas formas, y que la
presente invención se aplica igualmente, no importa el tipo
particular de medio portador de señales utilizado para llevar a cabo
efectivamente la distribución. Los ejemplos de tales dispositivos
accesibles por ordenador incluyen la memoria de ordenador (RAM o
ROM), disquetes y discos CD-ROM, así como medios de
tipo de transmisión tales como enlaces de comunicación digital y
analógica.
Claims (28)
1. Un procedimiento para identificar una muestra
de audio, caracterizado por:
para la muestra, generar pares de hito/huella de
la muestra, en donde cada hito se presenta en una ubicación temporal
específica dentro de la muestra de audio, calculándose la ubicación
con respecto al contenido de la muestra de audio, y en donde cada
huella caracteriza uno o más rasgos de la muestra de audio
en, o cerca de, la ubicación específica;
para cada uno o más de los ficheros de audio,
generar pares de hito/huella del fichero, en donde cada hito aparece
en una ubicación temporal específica dentro del fichero de audio,
calculándose la ubicación con respecto al contenido del fichero de
audio, y en donde cada huella caracteriza uno o más rasgos
del fichero de audio en, o cerca de, la ubicación específica;
identificar correspondencias esencialmente
lineales entre los respectivos pares de hito/huella de la muestra y
los pares de hito/huella de ficheros previamente generados; e
identificar un fichero ganador como aquél que
tiene un número significativo de correspondencias esencialmente
lineales.
2. Un procedimiento según la reivindicación 1,
en el cual cada huella representa un cierto número de rasgos del
audio en cada ubicación de hito, o bien desplazados levemente desde
dicha ubicación.
3. Un procedimiento según cualquier
reivindicación precedente, en el cual cada huella se calcula por
medio de un procedimiento tal que es invariante ante la dilatación
temporal de la muestra.
4. Un procedimiento según cualquier
reivindicación precedente, en el cual cada huella se calcula como
una entre: una huella de tajada espectral, una huella multitajada,
un coeficiente de LPC, un coeficiente cepstral, y un componente de
frecuencia de picos de espectrograma.
5. Un procedimiento según la reivindicación 4,
en el cual se calcula una huella de tajada espectral en un conjunto
de desplazamientos temporales a partir de un instante de hito
temporal.
6. Un procedimiento según cualquier
reivindicación precedente, en el cual la posición de cada hito se
identifica utilizando un procedimiento de determinación de hitos que
halla ubicaciones distinguibles y reproducibles dentro de la
grabación sonora.
7. Un procedimiento según la reivindicación 6,
en el cual el procedimiento de determinación de hitos utiliza una
norma Lp espectral para calcular la potencia instantánea en todo
instante temporal posible en la grabación, y selecciona los máximos
locales como los hitos.
8. Un procedimiento según la reivindicación 6 o
la reivindicación 7, en el cual uno o más hitos son hitos
multitajada derivados de componentes espectrales a lo largo de
múltiples tajadas temporales, con desplazamientos fijos o variables
entre sí.
9. Un procedimiento según cualquier
reivindicación precedente, en el cual los pares de hito/huella del
fichero se almacenan en una base de datos, estando indizado cada
fichero dentro de la base de datos por las huellas de ese
fichero.
10. Un procedimiento según la reivindicación 9,
en el cual los índices se clasifican según las huellas.
11. Un procedimiento según la reivindicación 10,
en el cual se compila una lista del índice maestro que tiene una
entrada para cada huella única, y un puntero a una lista de los
correspondientes hitos.
12. Un procedimiento según cualquiera de las
reivindicaciones 9 a 11, en el cual cada fichero está identificado
por un IDENTIFICADOR_DE_SONIDO, y la base de datos almacena una
pluralidad de tripletes de huella, hito,
IDENTIFICADOR_DE_SONIDO.
13. Un procedimiento según cualquier
reivindicación precedente, en el cual el fichero con los pares de
correspondencias linealmente vinculadas, estadísticamente más
significativos, se selecciona como el fichero ganador.
14. Un procedimiento según cualquier
reivindicación precedente, en el cual una correspondencia lineal
entre los hitos (hito_{n}, hito*_{n}) de muestra y de fichero
tiene lugar cuando una pareja de hito/huella de la muestra se
corresponde con una pareja de hito/huella del fichero, dentro de un
entorno de tolerancia.
15. Un procedimiento según cualquier
reivindicación precedente, en el cual una correspondencia lineal
entre una pareja de hito/huella de una muestra y una pareja de
hito/huella de un fichero tiene lugar cuando se corresponden las
respectivas huellas y los respectivos hitos están vinculados por una
relación lineal.
16. Un procedimiento según la reivindicación 15,
en el cual las huellas se corresponden cuando son idénticas o cuando
difieren dentro de una tolerancia previamente determinada.
17. Un procedimiento según la reivindicación 15
o la reivindicación 16, en el cual una correspondencia lineal tiene
lugar si el par de hitos (hito_{n}, hito*_{n}) de la muestra y
del fichero, dentro de la lista, están vinculados según la relación:
hito*_{n} = m*hito_{n} + desplazamiento.
18. Un procedimiento según cualquier
reivindicación precedente, en el cual la muestra tiene la forma de
ondas acústicas, ondas de radio, un flujo PCM de audio digital, un
flujo de audio digital comprimido, o una transmisión continua por
Internet.
19. Un procedimiento según cualquier
reivindicación precedente, en el cual las huellas de la muestra se
almacenan en un almacén circular de datos.
20. Un procedimiento según la reivindicación 19,
en el cual la etapa de identificación puede llevarse a cabo
periódicamente sobre el contenido del almacén circular de datos de
huellas.
21. Un procedimiento según la reivindicación 19
o la reivindicación 20, en el cual la etapa de identificación puede
llevarse a cabo tan pronto como se dispone en el almacén de
información suficiente para el reconocimiento.
22. Un procedimiento según cualquier
reivindicación precedente, en el cual la etapa de identificación se
lleva primero a cabo sobre un subconjunto de ficheros y, si no se
identifica ningún fichero ganador en el primer subconjunto, se
registra un segundo subconjunto, que contiene los ficheros
restantes.
23. Un procedimiento según la reivindicación 22,
en el cual el primer subconjunto contiene ficheros que tienen una
probabilidad, a priori o empírica, más alta de ser
identificados que los ficheros que no están en el primer
subconjunto.
24. Un procedimiento según la reivindicación 1,
en el cual dicha etapa de identificar correspondencias lineales
comprende la localización de una línea diagonal dentro de un gráfico
de dispersión de dichas ubicaciones correspondientes, formando las
diferencias entre dichas ubicaciones correspondientes y calculando
un pico de un histograma de dichas diferencias.
25. Un procedimiento según la reivindicación 1,
en el cual dicha etapa de identificar un fichero ganador comprende
adicionalmente proporcionar un indicador de un desplazamiento con
respecto a una ubicación en dicho fichero ganador, donde tiene lugar
dicho número significativo de correspondencias.
26. Un procedimiento para identificar una
muestra de audio, que comprende las etapas de:
como respuesta a una solicitud desde un cliente,
retransmitir al menos una porción de la muestra de audio a un
servidor, realizando dicho servidor las etapas del procedimiento de
la reivindicación 1; y
como respuesta a la identificación de un fichero
ganador por dicho servidor, responder a dicho cliente en
consecuencia.
27. Un producto de programa de ordenador que
realiza todas las etapas de un procedimiento según cualquier
reivindicación precedente, cuando se carga en un ordenador.
28. Un sistema informático dispuesto para llevar
a cabo un procedimiento según cualquiera de las reivindicaciones 1 a
25, que incluye un extremo cliente que envía un resumen de rasgos
extraídos de la muestra de señal capturada, que contiene pares de
hitos y huellas, a un extremo servidor, el cual realiza el
reconocimiento.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22202300P | 2000-07-31 | 2000-07-31 | |
US222023P | 2000-07-31 | ||
US09/839,476 US6990453B2 (en) | 2000-07-31 | 2001-04-20 | System and methods for recognizing sound and music signals in high noise and distortion |
US839476 | 2001-04-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2266254T3 true ES2266254T3 (es) | 2007-03-01 |
Family
ID=26916372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01969535T Expired - Lifetime ES2266254T3 (es) | 2000-07-31 | 2001-07-26 | Procedimiento de busqueda de una base de datos de audio. |
Country Status (14)
Country | Link |
---|---|
US (9) | US6990453B2 (es) |
EP (1) | EP1307833B1 (es) |
JP (1) | JP4945877B2 (es) |
KR (1) | KR100776495B1 (es) |
CN (1) | CN1592906B (es) |
AT (1) | ATE329319T1 (es) |
AU (1) | AU2001289766A1 (es) |
BR (1) | BRPI0112901B1 (es) |
DE (1) | DE60120417T2 (es) |
DK (1) | DK1307833T3 (es) |
ES (1) | ES2266254T3 (es) |
HK (1) | HK1051248A1 (es) |
PT (1) | PT1307833E (es) |
WO (1) | WO2002011123A2 (es) |
Families Citing this family (762)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6449377B1 (en) * | 1995-05-08 | 2002-09-10 | Digimarc Corporation | Methods and systems for watermark processing of line art images |
US6560349B1 (en) * | 1994-10-21 | 2003-05-06 | Digimarc Corporation | Audio monitoring using steganographic information |
US7362775B1 (en) * | 1996-07-02 | 2008-04-22 | Wistaria Trading, Inc. | Exchange mechanisms for digital information packages with bandwidth securitization, multichannel digital watermarks, and key management |
US6760463B2 (en) * | 1995-05-08 | 2004-07-06 | Digimarc Corporation | Watermarking methods and media |
US7805500B2 (en) * | 1995-05-08 | 2010-09-28 | Digimarc Corporation | Network linking methods and apparatus |
US7224819B2 (en) | 1995-05-08 | 2007-05-29 | Digimarc Corporation | Integrating digital watermarks in multimedia content |
US5613004A (en) * | 1995-06-07 | 1997-03-18 | The Dice Company | Steganographic method and device |
US7562392B1 (en) * | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
US6965682B1 (en) | 1999-05-19 | 2005-11-15 | Digimarc Corp | Data transmission by watermark proxy |
US6505160B1 (en) * | 1995-07-27 | 2003-01-07 | Digimarc Corporation | Connected audio and other media objects |
US7711564B2 (en) * | 1995-07-27 | 2010-05-04 | Digimarc Corporation | Connected audio and other media objects |
US6829368B2 (en) * | 2000-01-26 | 2004-12-07 | Digimarc Corporation | Establishing and interacting with on-line media collections using identifiers in media signals |
US6411725B1 (en) * | 1995-07-27 | 2002-06-25 | Digimarc Corporation | Watermark enabled video objects |
US6205249B1 (en) | 1998-04-02 | 2001-03-20 | Scott A. Moskowitz | Multiple transform utilization and applications for secure digital watermarking |
US7664263B2 (en) | 1998-03-24 | 2010-02-16 | Moskowitz Scott A | Method for combining transfer functions with predetermined key creation |
US5889868A (en) | 1996-07-02 | 1999-03-30 | The Dice Company | Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data |
US7177429B2 (en) | 2000-12-07 | 2007-02-13 | Blue Spike, Inc. | System and methods for permitting open access to data objects and for securing data within the data objects |
US7457962B2 (en) | 1996-07-02 | 2008-11-25 | Wistaria Trading, Inc | Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data |
US7159116B2 (en) | 1999-12-07 | 2007-01-02 | Blue Spike, Inc. | Systems, methods and devices for trusted transactions |
US7346472B1 (en) | 2000-09-07 | 2008-03-18 | Blue Spike, Inc. | Method and device for monitoring and analyzing signals |
US7095874B2 (en) * | 1996-07-02 | 2006-08-22 | Wistaria Trading, Inc. | Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data |
US7730317B2 (en) * | 1996-12-20 | 2010-06-01 | Wistaria Trading, Inc. | Linear predictive coding implementation of digital watermarks |
US7689532B1 (en) | 2000-07-20 | 2010-03-30 | Digimarc Corporation | Using embedded data with file sharing |
US7664264B2 (en) | 1999-03-24 | 2010-02-16 | Blue Spike, Inc. | Utilizing data reduction in steganographic and cryptographic systems |
GB9909362D0 (en) * | 1999-04-23 | 1999-06-16 | Pace Micro Tech Plc | Memory database system for encrypted progarmme material |
US7185201B2 (en) | 1999-05-19 | 2007-02-27 | Digimarc Corporation | Content identifiers triggering corresponding responses |
US7302574B2 (en) * | 1999-05-19 | 2007-11-27 | Digimarc Corporation | Content identifiers triggering corresponding responses through collaborative processing |
US7565294B2 (en) * | 1999-05-19 | 2009-07-21 | Digimarc Corporation | Methods and systems employing digital content |
US20050038819A1 (en) * | 2000-04-21 | 2005-02-17 | Hicken Wendell T. | Music Recommendation system and method |
US7013301B2 (en) * | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
US7475246B1 (en) | 1999-08-04 | 2009-01-06 | Blue Spike, Inc. | Secure personal content server |
US8326584B1 (en) | 1999-09-14 | 2012-12-04 | Gracenote, Inc. | Music searching methods based on human perception |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US7174293B2 (en) * | 1999-09-21 | 2007-02-06 | Iceberg Industries Llc | Audio identification system and method |
US6671407B1 (en) | 1999-10-19 | 2003-12-30 | Microsoft Corporation | System and method for hashing digital images |
US6834308B1 (en) * | 2000-02-17 | 2004-12-21 | Audible Magic Corporation | Method and apparatus for identifying media content presented on a media playing device |
US20060217828A1 (en) * | 2002-10-23 | 2006-09-28 | Hicken Wendell T | Music searching system and method |
US8121843B2 (en) * | 2000-05-02 | 2012-02-21 | Digimarc Corporation | Fingerprint methods and systems for media signals |
US6990453B2 (en) | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7853664B1 (en) | 2000-07-31 | 2010-12-14 | Landmark Digital Services Llc | Method and system for purchasing pre-recorded music |
EP2136306B1 (en) | 2000-08-23 | 2013-03-20 | Gracenote, Inc. | Method and system for obtaining information |
US8010988B2 (en) * | 2000-09-14 | 2011-08-30 | Cox Ingemar J | Using features extracted from an audio and/or video work to obtain information about the work |
US8205237B2 (en) | 2000-09-14 | 2012-06-19 | Cox Ingemar J | Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet |
US7127615B2 (en) | 2000-09-20 | 2006-10-24 | Blue Spike, Inc. | Security based on subliminal and supraliminal channels for data objects |
JP2002108350A (ja) * | 2000-09-28 | 2002-04-10 | Internatl Business Mach Corp <Ibm> | 音楽配信のための方法及びシステム |
US8122236B2 (en) | 2001-10-24 | 2012-02-21 | Aol Inc. | Method of disseminating advertisements using an embedded media player page |
DE60137454D1 (de) * | 2000-10-24 | 2009-03-05 | Aol Llc | Verfahren zur bemessung der seite einer eingebetteten medienabspielvorrichtung |
WO2002056139A2 (en) | 2000-10-26 | 2002-07-18 | Digimarc Corporation | Method and system for internet access |
FR2816157A1 (fr) * | 2000-10-31 | 2002-05-03 | Thomson Multimedia Sa | Procede de traitement de donnees video distinees a etre visualisees sur ecran et dispositif mettant en oeuvre le procede |
US20020103920A1 (en) * | 2000-11-21 | 2002-08-01 | Berkun Ken Alan | Interpretive stream metadata extraction |
US20020072982A1 (en) * | 2000-12-12 | 2002-06-13 | Shazam Entertainment Ltd. | Method and system for interacting with a user in an experiential environment |
AU2002232817A1 (en) | 2000-12-21 | 2002-07-01 | Digimarc Corporation | Methods, apparatus and programs for generating and utilizing content signatures |
US20020091761A1 (en) * | 2001-01-10 | 2002-07-11 | Lambert James P. | Technique of generating a composite media stream |
DE60228202D1 (de) * | 2001-02-12 | 2008-09-25 | Gracenote Inc | Verfahren zum erzeugen einer identifikations hash vom inhalt einer multimedia datei |
WO2003005242A1 (en) * | 2001-03-23 | 2003-01-16 | Kent Ridge Digital Labs | Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval |
WO2002082271A1 (en) | 2001-04-05 | 2002-10-17 | Audible Magic Corporation | Copyright detection and protection system and method |
US7248715B2 (en) * | 2001-04-06 | 2007-07-24 | Digimarc Corporation | Digitally watermarking physical media |
DE10117871C1 (de) * | 2001-04-10 | 2002-07-04 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals |
US7356188B2 (en) * | 2001-04-24 | 2008-04-08 | Microsoft Corporation | Recognizer of text-based work |
US7421376B1 (en) * | 2001-04-24 | 2008-09-02 | Auditude, Inc. | Comparison of data signals using characteristic electronic thumbprints |
US7020775B2 (en) * | 2001-04-24 | 2006-03-28 | Microsoft Corporation | Derivation and quantization of robust non-local characteristics for blind watermarking |
US6996273B2 (en) | 2001-04-24 | 2006-02-07 | Microsoft Corporation | Robust recognizer of perceptually similar content |
US6975743B2 (en) * | 2001-04-24 | 2005-12-13 | Microsoft Corporation | Robust and stealthy video watermarking into regions of successive frames |
US6973574B2 (en) * | 2001-04-24 | 2005-12-06 | Microsoft Corp. | Recognizer of audio-content in digital signals |
US7046819B2 (en) * | 2001-04-25 | 2006-05-16 | Digimarc Corporation | Encoded reference signal for digital watermarks |
US7962482B2 (en) * | 2001-05-16 | 2011-06-14 | Pandora Media, Inc. | Methods and systems for utilizing contextual feedback to generate and modify playlists |
EP1410380B1 (en) * | 2001-07-20 | 2010-04-28 | Gracenote, Inc. | Automatic identification of sound recordings |
US8972481B2 (en) | 2001-07-20 | 2015-03-03 | Audible Magic, Inc. | Playlist generation method and apparatus |
JP4398242B2 (ja) * | 2001-07-31 | 2010-01-13 | グレースノート インコーポレイテッド | 録音の多段階識別方法 |
US6724914B2 (en) | 2001-10-16 | 2004-04-20 | Digimarc Corporation | Progressive watermark decoding on a distributed computing platform |
US7035867B2 (en) * | 2001-11-28 | 2006-04-25 | Aerocast.Com, Inc. | Determining redundancies in content object directories |
US20050010604A1 (en) | 2001-12-05 | 2005-01-13 | Digital Networks North America, Inc. | Automatic identification of DVD title using internet technologies and fuzzy matching techniques |
US7020304B2 (en) | 2002-01-22 | 2006-03-28 | Digimarc Corporation | Digital watermarking and fingerprinting including synchronization, layering, version control, and compressed embedding |
KR20040086350A (ko) | 2002-02-05 | 2004-10-08 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 핑거프린트의 효율적 저장 |
WO2003084196A1 (en) * | 2002-03-28 | 2003-10-09 | Martin Dunsmuir | Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel |
US7287275B2 (en) | 2002-04-17 | 2007-10-23 | Moskowitz Scott A | Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth |
CN1685735A (zh) | 2002-04-22 | 2005-10-19 | 尼尔逊媒介研究股份有限公司 | 采集与媒体显示相关的观众信息的方法和装置 |
DE60323086D1 (de) * | 2002-04-25 | 2008-10-02 | Landmark Digital Services Llc | Robuster und invarianter audiomustervergleich |
AU2003239385A1 (en) | 2002-05-10 | 2003-11-11 | Richard R. Reisman | Method and apparatus for browsing using multiple coordinated device |
US7824029B2 (en) * | 2002-05-10 | 2010-11-02 | L-1 Secure Credentialing, Inc. | Identification card printer-assembler for over the counter card issuing |
WO2003096337A2 (en) * | 2002-05-10 | 2003-11-20 | Koninklijke Philips Electronics N.V. | Watermark embedding and retrieval |
US7421096B2 (en) * | 2004-02-23 | 2008-09-02 | Delefevre Patrick Y | Input mechanism for fingerprint-based internet search |
US7461392B2 (en) * | 2002-07-01 | 2008-12-02 | Microsoft Corporation | System and method for identifying and segmenting repeating media objects embedded in a stream |
US7095873B2 (en) | 2002-06-28 | 2006-08-22 | Microsoft Corporation | Watermarking via quantization of statistics of overlapping regions |
US7006703B2 (en) * | 2002-06-28 | 2006-02-28 | Microsoft Corporation | Content recognizer via probabilistic mirror distribution |
AU2003280513A1 (en) * | 2002-07-01 | 2004-01-19 | Microsoft Corporation | A system and method for providing user control over repeating objects embedded in a stream |
US7949689B2 (en) * | 2002-07-18 | 2011-05-24 | Accenture Global Services Limited | Media indexing beacon and capture device |
DE10232916B4 (de) * | 2002-07-19 | 2008-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals |
US7239981B2 (en) | 2002-07-26 | 2007-07-03 | Arbitron Inc. | Systems and methods for gathering audience measurement data |
US20030191764A1 (en) * | 2002-08-06 | 2003-10-09 | Isaac Richards | System and method for acoustic fingerpringting |
US8959016B2 (en) | 2002-09-27 | 2015-02-17 | The Nielsen Company (Us), Llc | Activating functions in processing devices using start codes embedded in audio |
US9711153B2 (en) | 2002-09-27 | 2017-07-18 | The Nielsen Company (Us), Llc | Activating functions in processing devices using encoded audio and detecting audio signatures |
AU2003267006A1 (en) * | 2002-09-27 | 2004-04-19 | International Business Machines Corporation | System and method for enhancing live speech with information accessed from the world wide web |
ATE426297T1 (de) * | 2002-09-30 | 2009-04-15 | Gracenote Inc | Fingerabdruckextraktion |
US7171561B2 (en) * | 2002-10-17 | 2007-01-30 | The United States Of America As Represented By The Secretary Of The Air Force | Method and apparatus for detecting and extracting fileprints |
SE524936C2 (sv) * | 2002-10-23 | 2004-10-26 | Softhouse Nordic Ab | Mobil likhetsbedömning av objekt |
CN1708758A (zh) * | 2002-11-01 | 2005-12-14 | 皇家飞利浦电子股份有限公司 | 改进的音频数据指纹搜索 |
AU2003274545A1 (en) * | 2002-11-12 | 2004-06-03 | Koninklijke Philips Electronics N.V. | Fingerprinting multimedia contents |
JP4172259B2 (ja) * | 2002-11-26 | 2008-10-29 | ソニー株式会社 | 情報処理装置および方法、並びにコンピュータ・プログラム |
US6958103B2 (en) * | 2002-12-23 | 2005-10-25 | Kimberly-Clark Worldwide, Inc. | Entangled fabrics containing staple fibers |
CN1745374A (zh) | 2002-12-27 | 2006-03-08 | 尼尔逊媒介研究股份有限公司 | 用于对元数据进行译码的方法和装置 |
WO2004061545A2 (en) * | 2003-01-06 | 2004-07-22 | Koninklijke Philips Electronics N.V. | Real-time recording agent for streaming data from an internet |
US7593915B2 (en) * | 2003-01-07 | 2009-09-22 | Accenture Global Services Gmbh | Customized multi-media services |
WO2004073217A1 (en) | 2003-02-10 | 2004-08-26 | Nielsen Media Research, Inc. | Methods and apparatus to adaptively gather audience information data |
US7606790B2 (en) | 2003-03-03 | 2009-10-20 | Digimarc Corporation | Integrating and enhancing searching of media content and biometric databases |
WO2004084181A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Simple noise suppression model |
US20060235864A1 (en) * | 2005-04-14 | 2006-10-19 | Apple Computer, Inc. | Audio sampling and acquisition system |
US20040243852A1 (en) * | 2003-05-28 | 2004-12-02 | Rosenstein Adam H. | Method, system and software for state signing of internet resources |
WO2005113099A2 (en) * | 2003-05-30 | 2005-12-01 | America Online, Inc. | Personalizing content |
US20040237759A1 (en) * | 2003-05-30 | 2004-12-02 | Bill David S. | Personalizing content |
JP2007528144A (ja) | 2003-07-11 | 2007-10-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディア信号おいてトリガーマーカとして機能するフィンガープリントを生成及び検出する方法及び装置 |
EP1668903A4 (en) | 2003-09-12 | 2011-01-05 | Nielsen Media Res Inc | DEVICES AND METHOD FOR DIGITAL VIDEO SIGNATURES FOR USE WITH VIDEO PROGRAM IDENTIFICATION SYSTEMS |
US7505964B2 (en) * | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US7454417B2 (en) * | 2003-09-12 | 2008-11-18 | Google Inc. | Methods and systems for improving a search ranking using population information |
US7715934B2 (en) * | 2003-09-19 | 2010-05-11 | Macrovision Corporation | Identification of input files using reference files associated with nodes of a sparse binary tree |
JP4328169B2 (ja) * | 2003-10-02 | 2009-09-09 | オリンパス株式会社 | データ処理装置 |
US7383174B2 (en) * | 2003-10-03 | 2008-06-03 | Paulin Matthew A | Method for generating and assigning identifying tags to sound files |
WO2005041109A2 (en) * | 2003-10-17 | 2005-05-06 | Nielsen Media Research, Inc. | Methods and apparatus for identifiying audio/video content using temporal signal characteristics |
US7379875B2 (en) * | 2003-10-24 | 2008-05-27 | Microsoft Corporation | Systems and methods for generating audio thumbnails |
US8396800B1 (en) | 2003-11-03 | 2013-03-12 | James W. Wieder | Adaptive personalized music and entertainment |
US9053181B2 (en) | 2003-11-03 | 2015-06-09 | James W. Wieder | Adaptive personalized playback or presentation using count |
US9098681B2 (en) | 2003-11-03 | 2015-08-04 | James W. Wieder | Adaptive personalized playback or presentation using cumulative time |
US8001612B1 (en) | 2003-11-03 | 2011-08-16 | Wieder James W | Distributing digital-works and usage-rights to user-devices |
US20150128039A1 (en) | 2003-11-03 | 2015-05-07 | James W. Wieder | Newness Control of a Personalized Music and/or Entertainment Sequence |
US8554681B1 (en) * | 2003-11-03 | 2013-10-08 | James W. Wieder | Providing “identified” compositions and digital-works |
US9053299B2 (en) | 2003-11-03 | 2015-06-09 | James W. Wieder | Adaptive personalized playback or presentation using rating |
US7884274B1 (en) | 2003-11-03 | 2011-02-08 | Wieder James W | Adaptive personalized music and entertainment |
US11165999B1 (en) | 2003-11-03 | 2021-11-02 | Synergyze Technologies Llc | Identifying and providing compositions and digital-works |
US8521725B1 (en) | 2003-12-03 | 2013-08-27 | Google Inc. | Systems and methods for improved searching |
US7831832B2 (en) * | 2004-01-06 | 2010-11-09 | Microsoft Corporation | Digital goods representation based upon matrix invariances |
CA2556552C (en) | 2004-02-19 | 2015-02-17 | Landmark Digital Services Llc | Method and apparatus for identification of broadcast source |
CA2557198A1 (en) | 2004-02-26 | 2005-09-09 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of broadcast audio or video programming signal |
US7877810B2 (en) * | 2004-03-02 | 2011-01-25 | Rovi Solutions Corporation | System, method and client user interface for a copy protection service |
US7925657B1 (en) | 2004-03-17 | 2011-04-12 | Google Inc. | Methods and systems for adjusting a scoring measure based on query breadth |
US20050215239A1 (en) * | 2004-03-26 | 2005-09-29 | Nokia Corporation | Feature extraction in a networked portable device |
US20050216512A1 (en) * | 2004-03-26 | 2005-09-29 | Rahav Dor | Method of accessing a work of art, a product, or other tangible or intangible objects without knowing the title or name thereof using fractional sampling of the work of art or object |
US7221902B2 (en) * | 2004-04-07 | 2007-05-22 | Nokia Corporation | Mobile station and interface adapted for feature extraction from an input media sample |
KR100967125B1 (ko) * | 2004-03-26 | 2010-07-05 | 노키아 코포레이션 | 네트워크 휴대용 장치에서의 특징 추출 |
WO2005101243A1 (en) * | 2004-04-13 | 2005-10-27 | Matsushita Electric Industrial Co. Ltd. | Method and apparatus for identifying audio such as music |
WO2005101998A2 (en) | 2004-04-19 | 2005-11-03 | Landmark Digital Services Llc | Content sampling and identification |
DE602005008041D1 (de) * | 2004-04-29 | 2008-08-21 | Koninkl Philips Electronics Nv | Verfahren und system zur klassifizierung eines audiosignals |
US7770014B2 (en) * | 2004-04-30 | 2010-08-03 | Microsoft Corporation | Randomized signal transforms and their applications |
US7565213B2 (en) * | 2004-05-07 | 2009-07-21 | Gracenote, Inc. | Device and method for analyzing an information signal |
DE102004022659B3 (de) * | 2004-05-07 | 2005-10-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung zum Charakterisieren eines Tonsignals |
US7273978B2 (en) | 2004-05-07 | 2007-09-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for characterizing a tone signal |
US20050251455A1 (en) * | 2004-05-10 | 2005-11-10 | Boesen Peter V | Method and system for purchasing access to a recording |
DE102004023436B4 (de) * | 2004-05-10 | 2006-06-14 | M2Any Gmbh | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
US20050267750A1 (en) * | 2004-05-27 | 2005-12-01 | Anonymous Media, Llc | Media usage monitoring and measurement system and method |
US20150051967A1 (en) | 2004-05-27 | 2015-02-19 | Anonymous Media Research, Llc | Media usage monitoring and measurment system and method |
CN100485399C (zh) * | 2004-06-24 | 2009-05-06 | 兰德马克数字服务有限责任公司 | 表征两个媒体段的重叠的方法 |
WO2006004050A1 (ja) | 2004-07-01 | 2006-01-12 | Nippon Telegraph And Telephone Corporation | 特定音響信号含有区間検出システム及びその方法並びにプログラム |
US20090138108A1 (en) * | 2004-07-06 | 2009-05-28 | Kok Keong Teo | Method and System for Identification of Audio Input |
WO2006006528A1 (ja) | 2004-07-09 | 2006-01-19 | Nippon Telegraph And Telephone Corporation | 音響信号検出システム、音響信号検出サーバ、映像信号探索装置、映像信号探索方法、映像信号探索プログラムと記録媒体、信号探索装置、信号探索方法、及び、信号探索プログラムと記録媒体 |
EP2315423B1 (en) | 2004-08-06 | 2017-11-01 | Digimarc Corporation | Fast signal detection and distributed computing in portable computing devices |
US20060212149A1 (en) * | 2004-08-13 | 2006-09-21 | Hicken Wendell T | Distributed system and method for intelligent data analysis |
US7623823B2 (en) | 2004-08-31 | 2009-11-24 | Integrated Media Measurement, Inc. | Detecting and measuring exposure to media content items |
DE102004046746B4 (de) | 2004-09-27 | 2007-03-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten |
US7574451B2 (en) * | 2004-11-02 | 2009-08-11 | Microsoft Corporation | System and method for speeding up database lookups for multiple synchronized data streams |
US7826708B2 (en) * | 2004-11-02 | 2010-11-02 | Microsoft Corporation | System and method for automatically customizing a buffered media stream |
EP1667106B1 (en) * | 2004-12-06 | 2009-11-25 | Sony Deutschland GmbH | Method for generating an audio signature |
US20060135098A1 (en) * | 2004-12-17 | 2006-06-22 | Yarosz Matthew J | Method and apparatus for processing digital broadcast audio in the AM/FM bands |
US7921369B2 (en) * | 2004-12-30 | 2011-04-05 | Aol Inc. | Mood-based organization and display of instant messenger buddy lists |
US7567899B2 (en) * | 2004-12-30 | 2009-07-28 | All Media Guide, Llc | Methods and apparatus for audio recognition |
US7451078B2 (en) * | 2004-12-30 | 2008-11-11 | All Media Guide, Llc | Methods and apparatus for identifying media objects |
US7634405B2 (en) * | 2005-01-24 | 2009-12-15 | Microsoft Corporation | Palette-based classifying and synthesizing of auditory information |
EP2437255B1 (en) * | 2005-02-08 | 2016-02-03 | Shazam Investments Limited | Automatic identification of repeated material in audio signals |
US20060224798A1 (en) * | 2005-02-22 | 2006-10-05 | Klein Mark D | Personal music preference determination based on listening behavior |
US7818350B2 (en) | 2005-02-28 | 2010-10-19 | Yahoo! Inc. | System and method for creating a collaborative playlist |
EP1869574A4 (en) * | 2005-03-04 | 2009-11-11 | Resonance Media Services Inc | BROWSER TO CREATE MUSIC LISTINGS |
DE102005014477A1 (de) * | 2005-03-30 | 2006-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung |
WO2006112843A1 (en) * | 2005-04-19 | 2006-10-26 | Sean Ward | Distributed acoustic fingerprint based recognition |
US20090193033A1 (en) * | 2005-05-19 | 2009-07-30 | Zulfikar Amin Ramzan | Method and apparatus for communication efficient private information retrieval and oblivious transfer |
US20070016918A1 (en) * | 2005-05-20 | 2007-01-18 | Alcorn Allan E | Detecting and tracking advertisements |
US7613736B2 (en) * | 2005-05-23 | 2009-11-03 | Resonance Media Services, Inc. | Sharing music essence in a recommendation system |
KR20060133410A (ko) * | 2005-06-20 | 2006-12-26 | 엘지전자 주식회사 | 복합 미디어 장치에서 파일 검색 및 파일 데이터베이스관리 방법 |
US20070028262A1 (en) * | 2005-07-29 | 2007-02-01 | Zermatt Systems, Inc. | Virtual discovery of content available to a device |
US20070033229A1 (en) * | 2005-08-03 | 2007-02-08 | Ethan Fassett | System and method for indexing structured and unstructured audio content |
US20070106405A1 (en) * | 2005-08-19 | 2007-05-10 | Gracenote, Inc. | Method and system to provide reference data for identification of digital content |
US7516074B2 (en) * | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
CN100367279C (zh) * | 2005-09-08 | 2008-02-06 | 上海交通大学 | 数字音乐旋律的跨越式高速匹配装置 |
US7809943B2 (en) * | 2005-09-27 | 2010-10-05 | Rovi Solutions Corporation | Method and system for establishing trust in a peer-to-peer network |
US20070078708A1 (en) * | 2005-09-30 | 2007-04-05 | Hua Yu | Using speech recognition to determine advertisements relevant to audio content and/or audio content relevant to advertisements |
US20070076869A1 (en) * | 2005-10-03 | 2007-04-05 | Microsoft Corporation | Digital goods representation based upon matrix invariants using non-negative matrix factorizations |
US20080250240A1 (en) * | 2005-10-13 | 2008-10-09 | Koninklijke Philips Electronics, N.V. | Remote Informed Watermark Detection System |
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
US9697231B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for providing virtual media channels based on media search |
US7801910B2 (en) | 2005-11-09 | 2010-09-21 | Ramp Holdings, Inc. | Method and apparatus for timed tagging of media content |
US9697230B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications |
KR100803206B1 (ko) * | 2005-11-11 | 2008-02-14 | 삼성전자주식회사 | 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 |
US7844774B2 (en) * | 2005-11-16 | 2010-11-30 | Sun Microsystems, Inc. | Extensible fingerprinting functions and content addressed storage system using the same |
KR101488317B1 (ko) * | 2005-12-20 | 2015-02-04 | 아비트론 인코포레이티드 | 리서치 작업을 수행하는 방법 및 시스템 |
WO2007076459A2 (en) | 2005-12-21 | 2007-07-05 | Digimarc Corporation | Rules driven pan id metadata routing system and network |
US8086722B2 (en) * | 2005-12-21 | 2011-12-27 | Rovi Solutions Corporation | Techniques for measuring peer-to-peer (P2P) networks |
US20070162761A1 (en) * | 2005-12-23 | 2007-07-12 | Davis Bruce L | Methods and Systems to Help Detect Identity Fraud |
US8254308B1 (en) * | 2006-01-05 | 2012-08-28 | Sprint Spectrum L.P. | Method and system for acoustically triggering electronic coupon retrieval |
JP4065314B2 (ja) * | 2006-01-12 | 2008-03-26 | 松下電器産業株式会社 | 対象音分析装置、対象音分析方法および対象音分析プログラム |
US8108452B2 (en) * | 2006-01-12 | 2012-01-31 | Yahoo! Inc. | Keyword based audio comparison |
FR2897217A1 (fr) * | 2006-02-03 | 2007-08-10 | France Telecom | Determination d'identificateur de signal |
WO2007091475A1 (ja) * | 2006-02-08 | 2007-08-16 | Nec Corporation | 音声合成装置、音声合成方法及びプログラム |
KR100774585B1 (ko) * | 2006-02-10 | 2007-11-09 | 삼성전자주식회사 | 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치 |
US7653342B2 (en) * | 2006-02-16 | 2010-01-26 | Dell Products L.P. | Providing content to a device when lost a connection to the broadcasting station |
US20070196802A1 (en) * | 2006-02-21 | 2007-08-23 | Nokia Corporation | Visually Enhanced Personal Music Broadcast |
KR100788682B1 (ko) * | 2006-03-03 | 2007-12-26 | 삼성전자주식회사 | 음원 컨텐츠 전송 서비스 제공 방법 및 장치 |
US8626707B2 (en) * | 2006-03-15 | 2014-01-07 | Beats Music, Llc | Automatic meta-data sharing of existing media to create streamable collections |
US7765192B2 (en) | 2006-03-29 | 2010-07-27 | Abo Enterprises, Llc | System and method for archiving a media collection |
US8285595B2 (en) | 2006-03-29 | 2012-10-09 | Napo Enterprises, Llc | System and method for refining media recommendations |
EP2005625B1 (en) * | 2006-03-31 | 2018-06-06 | Nielsen Media Research, Inc. | Methods, systems, and apparatus for multi-purpose metering |
MX2007015979A (es) * | 2006-03-31 | 2009-04-07 | Nielsen Media Res Inc | Metodos, sistemas y aparato para medicion de multiples fines. |
US7772478B2 (en) * | 2006-04-12 | 2010-08-10 | Massachusetts Institute Of Technology | Understanding music |
US20070244985A1 (en) * | 2006-04-13 | 2007-10-18 | Concert Technology Corporation | User system providing previews of a user's media collection to an associated portable media player |
US20070245378A1 (en) * | 2006-04-13 | 2007-10-18 | Concert Technology Corporation | User system providing previews to an associated portable media player |
US7603434B2 (en) * | 2006-04-13 | 2009-10-13 | Domingo Enterprises, Llc | Central system providing previews of a user's media collection to a portable media player |
US7444388B1 (en) | 2006-04-13 | 2008-10-28 | Concert Technology Corporation | System and method for obtaining media content for a portable media player |
US8316081B2 (en) * | 2006-04-13 | 2012-11-20 | Domingo Enterprises, Llc | Portable media player enabled to obtain previews of a user's media collection |
US20070245377A1 (en) * | 2006-04-13 | 2007-10-18 | Concert Technology Corporation | Central system providing previews to a portable media player |
US7801868B1 (en) | 2006-04-20 | 2010-09-21 | Datascout, Inc. | Surrogate hashing |
US9020964B1 (en) * | 2006-04-20 | 2015-04-28 | Pinehill Technology, Llc | Generation of fingerprints for multimedia content based on vectors and histograms |
US8549022B1 (en) | 2007-07-02 | 2013-10-01 | Datascout, Inc. | Fingerprint generation of multimedia content based on a trigger point with the multimedia content |
US7840540B2 (en) | 2006-04-20 | 2010-11-23 | Datascout, Inc. | Surrogate hashing |
US7991206B1 (en) | 2007-07-02 | 2011-08-02 | Datascout, Inc. | Surrogate heuristic identification |
US7814070B1 (en) | 2006-04-20 | 2010-10-12 | Datascout, Inc. | Surrogate hashing |
US8463000B1 (en) | 2007-07-02 | 2013-06-11 | Pinehill Technology, Llc | Content identification based on a search of a fingerprint database |
US7774385B1 (en) | 2007-07-02 | 2010-08-10 | Datascout, Inc. | Techniques for providing a surrogate heuristic identification interface |
US8156132B1 (en) | 2007-07-02 | 2012-04-10 | Pinehill Technology, Llc | Systems for comparing image fingerprints |
KR100684457B1 (ko) * | 2006-05-04 | 2007-02-22 | 주식회사 모빌리언스 | 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말 |
US8903843B2 (en) | 2006-06-21 | 2014-12-02 | Napo Enterprises, Llc | Historical media recommendation service |
US7908275B2 (en) | 2006-07-03 | 2011-03-15 | Intel Corporation | Method and apparatus for fast audio search |
US8327266B2 (en) | 2006-07-11 | 2012-12-04 | Napo Enterprises, Llc | Graphical user interface system for allowing management of a media item playlist based on a preference scoring system |
US7680959B2 (en) | 2006-07-11 | 2010-03-16 | Napo Enterprises, Llc | P2P network for providing real time media recommendations |
US9003056B2 (en) | 2006-07-11 | 2015-04-07 | Napo Enterprises, Llc | Maintaining a minimum level of real time media recommendations in the absence of online friends |
US7970922B2 (en) | 2006-07-11 | 2011-06-28 | Napo Enterprises, Llc | P2P real time media recommendations |
US8805831B2 (en) | 2006-07-11 | 2014-08-12 | Napo Enterprises, Llc | Scoring and replaying media items |
US8059646B2 (en) | 2006-07-11 | 2011-11-15 | Napo Enterprises, Llc | System and method for identifying music content in a P2P real time recommendation network |
US9633356B2 (en) * | 2006-07-20 | 2017-04-25 | Aol Inc. | Targeted advertising for playlists based upon search queries |
US8620699B2 (en) * | 2006-08-08 | 2013-12-31 | Napo Enterprises, Llc | Heavy influencer media recommendations |
US8090606B2 (en) | 2006-08-08 | 2012-01-03 | Napo Enterprises, Llc | Embedded media recommendations |
JP4961300B2 (ja) * | 2006-08-14 | 2012-06-27 | 三洋電機株式会社 | 楽曲一致判定装置、楽曲記録装置、楽曲一致判定方法、楽曲記録方法、楽曲一致判定プログラム、及び楽曲記録プログラム |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US20080051029A1 (en) * | 2006-08-25 | 2008-02-28 | Bradley James Witteman | Phone-based broadcast audio identification |
US8738749B2 (en) | 2006-08-29 | 2014-05-27 | Digimarc Corporation | Content monitoring and host compliance evaluation |
US9654447B2 (en) | 2006-08-29 | 2017-05-16 | Digimarc Corporation | Customized handling of copied content based on owner-specified similarity thresholds |
US8707459B2 (en) | 2007-01-19 | 2014-04-22 | Digimarc Corporation | Determination of originality of content |
US8726195B2 (en) | 2006-09-05 | 2014-05-13 | Aol Inc. | Enabling an IM user to navigate a virtual world |
EP2070231B1 (en) | 2006-10-03 | 2013-07-03 | Shazam Entertainment, Ltd. | Method for high throughput of identification of distributed broadcast content |
US9135951B2 (en) * | 2006-10-10 | 2015-09-15 | Qualcomm Incorporated | System and method for dynamic audio buffer management |
US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
US8874655B2 (en) * | 2006-12-13 | 2014-10-28 | Napo Enterprises, Llc | Matching participants in a P2P recommendation network loosely coupled to a subscription service |
US9179200B2 (en) | 2007-03-14 | 2015-11-03 | Digimarc Corporation | Method and system for determining content treatment |
US10242415B2 (en) | 2006-12-20 | 2019-03-26 | Digimarc Corporation | Method and system for determining content treatment |
EP2090002A2 (en) * | 2006-12-22 | 2009-08-19 | Apple, Inc. | Tagging media assets, locations, and advertisements |
US20090070185A1 (en) * | 2007-01-17 | 2009-03-12 | Concert Technology Corporation | System and method for recommending a digital media subscription service |
CN101622849B (zh) * | 2007-02-02 | 2014-06-11 | 网圣公司 | 添加上下文以防止经由计算机网络的数据泄漏的系统和方法 |
US8307092B2 (en) * | 2007-02-21 | 2012-11-06 | Napo Enterprises, Llc | Method and system for collecting information about a user's media collections from multiple login points |
US8453170B2 (en) * | 2007-02-27 | 2013-05-28 | Landmark Digital Services Llc | System and method for monitoring and recognizing broadcast data |
US8255570B2 (en) * | 2007-03-12 | 2012-08-28 | Citrix Systems, Inc. | Systems and methods of compression history expiration and synchronization |
US7865585B2 (en) * | 2007-03-12 | 2011-01-04 | Citrix Systems, Inc. | Systems and methods for providing dynamic ad hoc proxy-cache hierarchies |
US7873634B2 (en) * | 2007-03-12 | 2011-01-18 | Hitlab Ulc. | Method and a system for automatic evaluation of digital files |
US8938463B1 (en) | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
EP2126727A4 (en) * | 2007-03-12 | 2010-04-14 | Webhitcontest Inc | METHOD AND SYSTEM FOR AUTOMATICALLY EVALUATING DIGITAL FILES |
US7453379B2 (en) * | 2007-03-12 | 2008-11-18 | Citrix Systems, Inc. | Systems and methods for identifying long matches of data in a compression history |
US7532134B2 (en) | 2007-03-12 | 2009-05-12 | Citrix Systems, Inc. | Systems and methods for sharing compression histories between multiple devices |
US7619545B2 (en) * | 2007-03-12 | 2009-11-17 | Citrix Systems, Inc. | Systems and methods of using application and protocol specific parsing for compression |
US7827237B2 (en) * | 2007-03-12 | 2010-11-02 | Citrix Systems, Inc. | Systems and methods for identifying long matches of data in a compression history |
US7460038B2 (en) * | 2007-03-12 | 2008-12-02 | Citrix Systems, Inc. | Systems and methods of clustered sharing of compression histories |
GB0704856D0 (en) * | 2007-03-13 | 2007-04-18 | Wesby Philip B | System and method for data acquisition and processing |
US8694374B1 (en) | 2007-03-14 | 2014-04-08 | Google Inc. | Detecting click spam |
US9224427B2 (en) | 2007-04-02 | 2015-12-29 | Napo Enterprises LLC | Rating media item recommendations using recommendation paths and/or media item usage |
US8112720B2 (en) | 2007-04-05 | 2012-02-07 | Napo Enterprises, Llc | System and method for automatically and graphically associating programmatically-generated media item recommendations related to a user's socially recommended media items |
US10489795B2 (en) * | 2007-04-23 | 2019-11-26 | The Nielsen Company (Us), Llc | Determining relative effectiveness of media content items |
US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
US20080274687A1 (en) | 2007-05-02 | 2008-11-06 | Roberts Dale T | Dynamic mixed media package |
US7840177B2 (en) * | 2007-05-23 | 2010-11-23 | Landmark Digital Services, Llc | Device for monitoring multiple broadcast signals |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
US8839141B2 (en) | 2007-06-01 | 2014-09-16 | Napo Enterprises, Llc | Method and system for visually indicating a replay status of media items on a media device |
US20090049045A1 (en) | 2007-06-01 | 2009-02-19 | Concert Technology Corporation | Method and system for sorting media items in a playlist on a media device |
US8285776B2 (en) | 2007-06-01 | 2012-10-09 | Napo Enterprises, Llc | System and method for processing a received media item recommendation message comprising recommender presence information |
US9164993B2 (en) | 2007-06-01 | 2015-10-20 | Napo Enterprises, Llc | System and method for propagating a media item recommendation message comprising recommender presence information |
US9037632B2 (en) | 2007-06-01 | 2015-05-19 | Napo Enterprises, Llc | System and method of generating a media item recommendation message with recommender presence information |
US20080301187A1 (en) * | 2007-06-01 | 2008-12-04 | Concert Technology Corporation | Enhanced media item playlist comprising presence information |
JP5090523B2 (ja) * | 2007-06-06 | 2012-12-05 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置 |
US8171030B2 (en) * | 2007-06-18 | 2012-05-01 | Zeitera, Llc | Method and apparatus for multi-dimensional content search and video identification |
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
US8006314B2 (en) | 2007-07-27 | 2011-08-23 | Audible Magic Corporation | System for identifying content of digital data |
US8694511B1 (en) | 2007-08-20 | 2014-04-08 | Google Inc. | Modifying search result ranking based on populations |
US8238669B2 (en) * | 2007-08-22 | 2012-08-07 | Google Inc. | Detection and classification of matches between time-based media |
US7712150B2 (en) * | 2007-10-01 | 2010-05-11 | Pardillo Joseph M | Protective pad assembly magnetically attachable to garment |
US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
KR100921867B1 (ko) * | 2007-10-17 | 2009-10-13 | 광주과학기술원 | 광대역 오디오 신호 부호화 복호화 장치 및 그 방법 |
US8473283B2 (en) * | 2007-11-02 | 2013-06-25 | Soundhound, Inc. | Pitch selection modules in a system for automatic transcription of sung or hummed melodies |
US7865522B2 (en) | 2007-11-07 | 2011-01-04 | Napo Enterprises, Llc | System and method for hyping media recommendations in a media recommendation system |
US9060034B2 (en) | 2007-11-09 | 2015-06-16 | Napo Enterprises, Llc | System and method of filtering recommenders in a media item recommendation system |
KR100939215B1 (ko) * | 2007-12-17 | 2010-01-28 | 한국전자통신연구원 | 인덱스 데이터베이스 생성 장치 및 검색 장치 |
US9224150B2 (en) | 2007-12-18 | 2015-12-29 | Napo Enterprises, Llc | Identifying highly valued recommendations of users in a media recommendation network |
US9130686B2 (en) * | 2007-12-20 | 2015-09-08 | Apple Inc. | Tagging of broadcast content using a portable media device controlled by an accessory |
US9734507B2 (en) | 2007-12-20 | 2017-08-15 | Napo Enterprise, Llc | Method and system for simulating recommendations in a social network for an offline user |
US8396951B2 (en) | 2007-12-20 | 2013-03-12 | Napo Enterprises, Llc | Method and system for populating a content repository for an internet radio service based on a recommendation network |
US8060525B2 (en) * | 2007-12-21 | 2011-11-15 | Napo Enterprises, Llc | Method and system for generating media recommendations in a distributed environment based on tagging play history information with location information |
US8316015B2 (en) | 2007-12-21 | 2012-11-20 | Lemi Technology, Llc | Tunersphere |
US8117193B2 (en) | 2007-12-21 | 2012-02-14 | Lemi Technology, Llc | Tunersphere |
WO2009086939A1 (en) * | 2008-01-11 | 2009-07-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Message handling in an ip multimedia subsystem |
CA2713355C (en) * | 2008-01-14 | 2014-05-06 | Algo Communication Products Ltd. | Methods and systems for searching audio records |
WO2009107049A2 (en) * | 2008-02-26 | 2009-09-03 | Koninklijke Philips Electronics N.V. | Content identification method |
US10216761B2 (en) * | 2008-03-04 | 2019-02-26 | Oath Inc. | Generating congruous metadata for multimedia |
US9015842B2 (en) | 2008-03-19 | 2015-04-21 | Websense, Inc. | Method and system for protection against information stealing software |
US8407784B2 (en) * | 2008-03-19 | 2013-03-26 | Websense, Inc. | Method and system for protection against information stealing software |
US8370948B2 (en) * | 2008-03-19 | 2013-02-05 | Websense, Inc. | System and method for analysis of electronic information dissemination events |
US9130986B2 (en) * | 2008-03-19 | 2015-09-08 | Websense, Inc. | Method and system for protection against information stealing software |
US8312022B2 (en) | 2008-03-21 | 2012-11-13 | Ramp Holdings, Inc. | Search engine optimization |
US8725740B2 (en) * | 2008-03-24 | 2014-05-13 | Napo Enterprises, Llc | Active playlist having dynamic media item groups |
US8484311B2 (en) | 2008-04-17 | 2013-07-09 | Eloy Technology, Llc | Pruning an aggregate media collection |
US9106801B2 (en) | 2008-04-25 | 2015-08-11 | Sony Corporation | Terminals, servers, and methods that find a media server to replace a sensed broadcast program/movie |
DE102008022125A1 (de) * | 2008-05-05 | 2009-11-19 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen |
US8346791B1 (en) | 2008-05-16 | 2013-01-01 | Google Inc. | Search augmentation |
US8275177B2 (en) * | 2008-05-23 | 2012-09-25 | Oracle America, Inc. | System and method for media fingerprint indexing |
GB2460306B (en) | 2008-05-29 | 2013-02-13 | Intrasonics Sarl | Data embedding system |
JP4327886B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP4327888B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム |
US20090305665A1 (en) * | 2008-06-04 | 2009-12-10 | Irwin Oliver Kennedy | Method of identifying a transmitting device |
US20090307084A1 (en) * | 2008-06-10 | 2009-12-10 | Integrated Media Measurement, Inc. | Measuring Exposure To Media Across Multiple Media Delivery Mechanisms |
US20090307061A1 (en) * | 2008-06-10 | 2009-12-10 | Integrated Media Measurement, Inc. | Measuring Exposure To Media |
WO2010006334A1 (en) | 2008-07-11 | 2010-01-14 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
US20100023328A1 (en) * | 2008-07-28 | 2010-01-28 | Griffin Jr Paul P | Audio Recognition System |
US20100057545A1 (en) * | 2008-08-28 | 2010-03-04 | Daniel Jean | System and method for sending sponsored message data in a communications network |
CN101673262B (zh) * | 2008-09-12 | 2012-10-10 | 未序网络科技(上海)有限公司 | 音频内容的搜索方法 |
US20100070537A1 (en) * | 2008-09-17 | 2010-03-18 | Eloy Technology, Llc | System and method for managing a personalized universal catalog of media items |
US20100082180A1 (en) * | 2008-10-01 | 2010-04-01 | Honeywell International Inc. | Errant vehicle countermeasures |
US8983677B2 (en) * | 2008-10-01 | 2015-03-17 | Honeywell International Inc. | Acoustic fingerprinting of mechanical devices |
US20170034586A1 (en) * | 2008-10-08 | 2017-02-02 | Wakingapp Ltd. | System for content matching and triggering for reality-virtuality continuum-based environment and methods thereof |
US8880599B2 (en) * | 2008-10-15 | 2014-11-04 | Eloy Technology, Llc | Collection digest for a media sharing system |
US8484227B2 (en) | 2008-10-15 | 2013-07-09 | Eloy Technology, Llc | Caching and synching process for a media sharing system |
US8121830B2 (en) | 2008-10-24 | 2012-02-21 | The Nielsen Company (Us), Llc | Methods and apparatus to extract data encoded in media content |
US9667365B2 (en) | 2008-10-24 | 2017-05-30 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
US8359205B2 (en) | 2008-10-24 | 2013-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
GB2465141B (en) | 2008-10-31 | 2014-01-22 | Media Instr Sa | Simulcast resolution in content matching systems |
US20100205628A1 (en) | 2009-02-12 | 2010-08-12 | Davis Bruce L | Media processing methods and arrangements |
US9961388B2 (en) | 2008-11-26 | 2018-05-01 | David Harrison | Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements |
US10631068B2 (en) | 2008-11-26 | 2020-04-21 | Free Stream Media Corp. | Content exposure attribution based on renderings of related content across multiple devices |
US10880340B2 (en) | 2008-11-26 | 2020-12-29 | Free Stream Media Corp. | Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device |
US8508357B2 (en) | 2008-11-26 | 2013-08-13 | The Nielsen Company (Us), Llc | Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking |
US10567823B2 (en) | 2008-11-26 | 2020-02-18 | Free Stream Media Corp. | Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device |
US8180891B1 (en) | 2008-11-26 | 2012-05-15 | Free Stream Media Corp. | Discovery, access control, and communication with networked services from within a security sandbox |
US10334324B2 (en) | 2008-11-26 | 2019-06-25 | Free Stream Media Corp. | Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device |
US10419541B2 (en) | 2008-11-26 | 2019-09-17 | Free Stream Media Corp. | Remotely control devices over a network without authentication or registration |
US10977693B2 (en) | 2008-11-26 | 2021-04-13 | Free Stream Media Corp. | Association of content identifier of audio-visual data with additional data through capture infrastructure |
US9154942B2 (en) | 2008-11-26 | 2015-10-06 | Free Stream Media Corp. | Zero configuration communication between a browser and a networked media device |
US9519772B2 (en) | 2008-11-26 | 2016-12-13 | Free Stream Media Corp. | Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device |
US9986279B2 (en) | 2008-11-26 | 2018-05-29 | Free Stream Media Corp. | Discovery, access control, and communication with networked services |
US20100132122A1 (en) * | 2008-12-02 | 2010-06-03 | Dan Hollingshead | Bed-Mounted Computer Terminal |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US8433431B1 (en) | 2008-12-02 | 2013-04-30 | Soundhound, Inc. | Displaying text to end users in coordination with audio playback |
US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
US8200602B2 (en) | 2009-02-02 | 2012-06-12 | Napo Enterprises, Llc | System and method for creating thematic listening experiences in a networked peer media recommendation environment |
KR20110116201A (ko) * | 2009-02-05 | 2011-10-25 | 디지맥 코포레이션 | 휴대 전화용 tv 위젯의 텔레비전 기반 광고 및 배포 |
US8312061B2 (en) * | 2009-02-10 | 2012-11-13 | Harman International Industries, Incorporated | System for broadcast information database |
US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
US9633117B2 (en) * | 2009-04-27 | 2017-04-25 | Hewlett Packard Enterprise Development Lp | System and method for making a recommendation based on user data |
CN104683827A (zh) | 2009-05-01 | 2015-06-03 | 尼尔森(美国)有限公司 | 提供与主要广播媒体内容关联的辅助内容的方法和装置 |
WO2010135623A1 (en) * | 2009-05-21 | 2010-11-25 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
EP2433391A4 (en) | 2009-05-21 | 2013-01-23 | Digimarc Corp | COMBINATION OF WATERMARK AND FINGERPRINT |
US9130972B2 (en) * | 2009-05-26 | 2015-09-08 | Websense, Inc. | Systems and methods for efficient detection of fingerprinted data and information |
WO2010138776A2 (en) * | 2009-05-27 | 2010-12-02 | Spot411 Technologies, Inc. | Audio-based synchronization to media |
US8489774B2 (en) | 2009-05-27 | 2013-07-16 | Spot411 Technologies, Inc. | Synchronized delivery of interactive content |
US9449090B2 (en) | 2009-05-29 | 2016-09-20 | Vizio Inscape Technologies, Llc | Systems and methods for addressing a media database using distance associative hashing |
US9055335B2 (en) | 2009-05-29 | 2015-06-09 | Cognitive Networks, Inc. | Systems and methods for addressing a media database using distance associative hashing |
US10949458B2 (en) | 2009-05-29 | 2021-03-16 | Inscape Data, Inc. | System and method for improving work load management in ACR television monitoring system |
US8769584B2 (en) | 2009-05-29 | 2014-07-01 | TVI Interactive Systems, Inc. | Methods for displaying contextually targeted content on a connected television |
US10116972B2 (en) | 2009-05-29 | 2018-10-30 | Inscape Data, Inc. | Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device |
US10375451B2 (en) | 2009-05-29 | 2019-08-06 | Inscape Data, Inc. | Detection of common media segments |
US8713068B2 (en) * | 2009-06-11 | 2014-04-29 | Yahoo! Inc. | Media identification system with fingerprint database balanced according to search loads |
US8620967B2 (en) | 2009-06-11 | 2013-12-31 | Rovi Technologies Corporation | Managing metadata for occurrences of a recording |
US8635211B2 (en) * | 2009-06-11 | 2014-01-21 | Dolby Laboratories Licensing Corporation | Trend analysis in content identification based on fingerprinting |
US20100319043A1 (en) * | 2009-06-11 | 2010-12-16 | Microsoft Corporation | Interactive television architecture |
US8381290B2 (en) * | 2009-07-17 | 2013-02-19 | Exelis Inc. | Intrusion detection systems and methods |
US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
JP5440051B2 (ja) * | 2009-09-11 | 2014-03-12 | 株式会社Jvcケンウッド | コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置 |
US20110069937A1 (en) * | 2009-09-18 | 2011-03-24 | Laura Toerner | Apparatus, system and method for identifying advertisements from a broadcast source and providing functionality relating to the same |
EP3413314B1 (en) * | 2009-09-30 | 2021-05-12 | Rovi Guides, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
US8161071B2 (en) | 2009-09-30 | 2012-04-17 | United Video Properties, Inc. | Systems and methods for audio asset storage and management |
US8677400B2 (en) | 2009-09-30 | 2014-03-18 | United Video Properties, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
US8706276B2 (en) | 2009-10-09 | 2014-04-22 | The Trustees Of Columbia University In The City Of New York | Systems, methods, and media for identifying matching audio |
US8521779B2 (en) | 2009-10-09 | 2013-08-27 | Adelphoi Limited | Metadata record generation |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US9218530B2 (en) | 2010-11-04 | 2015-12-22 | Digimarc Corporation | Smartphone-based methods and systems |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US8175617B2 (en) | 2009-10-28 | 2012-05-08 | Digimarc Corporation | Sensor-based mobile search, related methods and systems |
US8594392B2 (en) * | 2009-11-18 | 2013-11-26 | Yahoo! Inc. | Media identification system for efficient matching of media items having common content |
US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
EP2541963B1 (en) * | 2009-12-29 | 2021-03-17 | Inscape Data, Inc. | Method for identifying video segments and displaying contextually targeted content on a connected television |
US20110173185A1 (en) * | 2010-01-13 | 2011-07-14 | Rovi Technologies Corporation | Multi-stage lookup for rolling audio recognition |
US8886531B2 (en) * | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
US8615514B1 (en) | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
US8731943B2 (en) * | 2010-02-05 | 2014-05-20 | Little Wing World LLC | Systems, methods and automated technologies for translating words into music and creating music pieces |
US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
US20110238679A1 (en) * | 2010-03-24 | 2011-09-29 | Rovi Technologies Corporation | Representing text and other types of content by using a frequency domain |
US8725766B2 (en) * | 2010-03-25 | 2014-05-13 | Rovi Technologies Corporation | Searching text and other types of content by using a frequency domain |
US8560583B2 (en) | 2010-04-01 | 2013-10-15 | Sony Computer Entertainment Inc. | Media fingerprinting for social networking |
US9264785B2 (en) * | 2010-04-01 | 2016-02-16 | Sony Computer Entertainment Inc. | Media fingerprinting for content determination and retrieval |
AU2011239567A1 (en) * | 2010-04-14 | 2012-12-06 | Sven Riethmueller | Platform-independent interactivity with media broadcasts |
US20120191231A1 (en) * | 2010-05-04 | 2012-07-26 | Shazam Entertainment Ltd. | Methods and Systems for Identifying Content in Data Stream by a Client Device |
US9159338B2 (en) | 2010-05-04 | 2015-10-13 | Shazam Entertainment Ltd. | Systems and methods of rendering a textual animation |
KR20130029082A (ko) | 2010-05-04 | 2013-03-21 | 샤잠 엔터테인먼트 리미티드 | 미디어 스트림의 샘플을 처리하는 방법 및 시스템 |
KR101582436B1 (ko) * | 2010-05-04 | 2016-01-04 | 샤잠 엔터테인먼트 리미티드 | 미디어의 동기화 방법 및 시스템 |
US20110276882A1 (en) | 2010-05-04 | 2011-11-10 | Kai Buehler | Automatic grouping for users experiencing a specific broadcast media |
US9508011B2 (en) * | 2010-05-10 | 2016-11-29 | Videosurf, Inc. | Video visual and audio query |
US9413477B2 (en) | 2010-05-10 | 2016-08-09 | Microsoft Technology Licensing, Llc | Screen detector |
US9311708B2 (en) | 2014-04-23 | 2016-04-12 | Microsoft Technology Licensing, Llc | Collaborative alignment of images |
US9838753B2 (en) | 2013-12-23 | 2017-12-05 | Inscape Data, Inc. | Monitoring individual viewing of television events using tracking pixels and cookies |
US10192138B2 (en) | 2010-05-27 | 2019-01-29 | Inscape Data, Inc. | Systems and methods for reducing data density in large datasets |
WO2011154722A1 (en) * | 2010-06-09 | 2011-12-15 | Adelphoi Limited | System and method for audio media recognition |
US20110307786A1 (en) * | 2010-06-11 | 2011-12-15 | Brian Shuster | Method and apparatus for bookmarking and retrieval of video content |
US20110320944A1 (en) * | 2010-06-29 | 2011-12-29 | Nokia Corporation | Systems, methods, and apparatuses for generating an integrated user interface |
US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
US9143699B2 (en) | 2010-07-13 | 2015-09-22 | Sony Computer Entertainment Inc. | Overlay non-video content on a mobile device |
US8730354B2 (en) | 2010-07-13 | 2014-05-20 | Sony Computer Entertainment Inc | Overlay video content on a mobile device |
US9814977B2 (en) | 2010-07-13 | 2017-11-14 | Sony Interactive Entertainment Inc. | Supplemental video content on a mobile device |
US9159165B2 (en) | 2010-07-13 | 2015-10-13 | Sony Computer Entertainment Inc. | Position-dependent gaming, 3-D controller, and handheld as a remote |
US9832441B2 (en) | 2010-07-13 | 2017-11-28 | Sony Interactive Entertainment Inc. | Supplemental content on a mobile device |
US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
US9876905B2 (en) | 2010-09-29 | 2018-01-23 | Genesys Telecommunications Laboratories, Inc. | System for initiating interactive communication in response to audio codes |
KR20120034378A (ko) * | 2010-10-01 | 2012-04-12 | 엔에이치엔(주) | 사운드 인식을 통한 광고 정보 제공 시스템 및 방법 |
JP5728888B2 (ja) * | 2010-10-29 | 2015-06-03 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US8716584B1 (en) * | 2010-11-01 | 2014-05-06 | James W. Wieder | Using recognition-segments to find and play a composition containing sound |
US8863165B2 (en) * | 2010-11-01 | 2014-10-14 | Gracenote, Inc. | Method and system for presenting additional content at a media system |
US8762852B2 (en) * | 2010-11-04 | 2014-06-24 | Digimarc Corporation | Smartphone-based methods and systems |
US9484046B2 (en) | 2010-11-04 | 2016-11-01 | Digimarc Corporation | Smartphone-based methods and systems |
US8346792B1 (en) | 2010-11-09 | 2013-01-01 | Google Inc. | Query generation using structural similarity between documents |
US8584198B2 (en) * | 2010-11-12 | 2013-11-12 | Google Inc. | Syndication including melody recognition and opt out |
TWI759223B (zh) * | 2010-12-03 | 2022-03-21 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US8989395B2 (en) * | 2010-12-07 | 2015-03-24 | Empire Technology Development Llc | Audio fingerprint differences for end-to-end quality of experience measurement |
US20120158769A1 (en) * | 2010-12-15 | 2012-06-21 | Dish Network L.L.C. | Music distribution and identification systems and methods |
EP2793223B1 (en) | 2010-12-30 | 2016-05-25 | Dolby International AB | Ranking representative segments in media data |
US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
WO2012120531A2 (en) | 2011-02-02 | 2012-09-13 | Makarand Prabhakar Karanjkar | A method for fast and accurate audio content match detection |
US9093120B2 (en) | 2011-02-10 | 2015-07-28 | Yahoo! Inc. | Audio fingerprint extraction by scaling in time and resampling |
CN103562909A (zh) * | 2011-02-18 | 2014-02-05 | 沙扎姆娱乐有限公司 | 客户端设备识别数据流的内容的方法及系统 |
US20120224711A1 (en) * | 2011-03-04 | 2012-09-06 | Qualcomm Incorporated | Method and apparatus for grouping client devices based on context similarity |
US8589171B2 (en) | 2011-03-17 | 2013-11-19 | Remote Media, Llc | System and method for custom marking a media file for file matching |
US8688631B2 (en) | 2011-03-17 | 2014-04-01 | Alexander Savenok | System and method for media file synchronization |
US8478719B2 (en) | 2011-03-17 | 2013-07-02 | Remote Media LLC | System and method for media file synchronization |
US9196028B2 (en) | 2011-09-23 | 2015-11-24 | Digimarc Corporation | Context-based smartphone sensor logic |
US9380356B2 (en) | 2011-04-12 | 2016-06-28 | The Nielsen Company (Us), Llc | Methods and apparatus to generate a tag for media content |
US8937537B2 (en) | 2011-04-29 | 2015-01-20 | Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America | Method and system for utilizing spread spectrum techniques for in car applications |
US8612390B2 (en) * | 2011-05-02 | 2013-12-17 | Microsoft Corporation | Lightweight caching of transaction log for sequential access |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
US8996557B2 (en) * | 2011-05-18 | 2015-03-31 | Microsoft Technology Licensing, Llc | Query and matching for content recognition |
ES2459391T3 (es) | 2011-06-06 | 2014-05-09 | Bridge Mediatech, S.L. | Método y sistema para conseguir hashing de audio invariante al canal |
CA2837741A1 (en) | 2011-06-08 | 2012-12-13 | Shazam Entertainment Ltd. | Methods and systems for performing comparisons of received data and providing a follow-on service based on the comparisons |
WO2012170353A1 (en) | 2011-06-10 | 2012-12-13 | Shazam Entertainment Ltd. | Methods and systems for identifying content in a data stream |
US9209978B2 (en) | 2012-05-15 | 2015-12-08 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
US9210208B2 (en) | 2011-06-21 | 2015-12-08 | The Nielsen Company (Us), Llc | Monitoring streaming media content |
US9953039B2 (en) * | 2011-07-19 | 2018-04-24 | Disney Enterprises, Inc. | Method and system for providing a compact graphical user interface for flexible filtering of data |
US8564684B2 (en) * | 2011-08-17 | 2013-10-22 | Digimarc Corporation | Emotional illumination, and related arrangements |
US9461759B2 (en) | 2011-08-30 | 2016-10-04 | Iheartmedia Management Services, Inc. | Identification of changed broadcast media items |
US9374183B2 (en) | 2011-08-30 | 2016-06-21 | Iheartmedia Management Services, Inc. | Broadcast source identification based on matching via bit count |
US8639178B2 (en) | 2011-08-30 | 2014-01-28 | Clear Channel Management Sevices, Inc. | Broadcast source identification based on matching broadcast signal fingerprints |
US9049496B2 (en) * | 2011-09-01 | 2015-06-02 | Gracenote, Inc. | Media source identification |
US8498627B2 (en) | 2011-09-15 | 2013-07-30 | Digimarc Corporation | Intuitive computing methods and systems |
US20130111514A1 (en) * | 2011-09-16 | 2013-05-02 | Umami Co. | Second screen interactive platform |
US9113202B1 (en) * | 2011-09-21 | 2015-08-18 | Google Inc. | Inverted client-side fingerprinting and matching |
US9460465B2 (en) | 2011-09-21 | 2016-10-04 | Genesys Telecommunications Laboratories, Inc. | Graphical menu builder for encoding applications in an image |
CA2849974C (en) * | 2011-09-26 | 2021-04-13 | Sirius Xm Radio Inc. | System and method for increasing transmission bandwidth efficiency ("ebt2") |
US8433577B2 (en) * | 2011-09-27 | 2013-04-30 | Google Inc. | Detection of creative works on broadcast media |
US9384272B2 (en) | 2011-10-05 | 2016-07-05 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for identifying similar songs using jumpcodes |
US9402099B2 (en) * | 2011-10-14 | 2016-07-26 | Digimarc Corporation | Arrangements employing content identification and/or distribution identification data |
US9223893B2 (en) | 2011-10-14 | 2015-12-29 | Digimarc Corporation | Updating social graph data using physical objects identified from images captured by smartphone |
US9098576B1 (en) * | 2011-10-17 | 2015-08-04 | Google Inc. | Ensemble interest point detection for audio matching |
US8909667B2 (en) | 2011-11-01 | 2014-12-09 | Lemi Technology, Llc | Systems, methods, and computer readable media for generating recommendations in a media recommendation system |
US8886543B1 (en) * | 2011-11-15 | 2014-11-11 | Google Inc. | Frequency ratio fingerprint characterization for audio matching |
CN102508916B (zh) * | 2011-11-21 | 2013-08-14 | 电子科技大学 | 一种海量数据的文件指纹分析方法 |
US9286942B1 (en) * | 2011-11-28 | 2016-03-15 | Codentity, Llc | Automatic calculation of digital media content durations optimized for overlapping or adjoined transitions |
US9696336B2 (en) | 2011-11-30 | 2017-07-04 | The Nielsen Company (Us), Llc | Multiple meter detection and processing using motion data |
US8586847B2 (en) * | 2011-12-02 | 2013-11-19 | The Echo Nest Corporation | Musical fingerprinting based on onset intervals |
EP2600545A1 (en) * | 2011-12-02 | 2013-06-05 | Waterford Institute Of Technology | Research data measurement system and method |
US8492633B2 (en) | 2011-12-02 | 2013-07-23 | The Echo Nest Corporation | Musical fingerprinting |
JP2013117688A (ja) * | 2011-12-05 | 2013-06-13 | Sony Corp | 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム |
DE102011087843B4 (de) * | 2011-12-06 | 2013-07-11 | Continental Automotive Gmbh | Verfahren und System zur Auswahl mindestens eines Datensatzes aus einer relationalen Datenbank |
US9116928B1 (en) * | 2011-12-09 | 2015-08-25 | Google Inc. | Identifying features for media file comparison |
CN103999150B (zh) * | 2011-12-12 | 2016-10-19 | 杜比实验室特许公司 | 媒体数据中的低复杂度重复检测 |
US8977194B2 (en) | 2011-12-16 | 2015-03-10 | The Nielsen Company (Us), Llc | Media exposure and verification utilizing inductive coupling |
US8538333B2 (en) | 2011-12-16 | 2013-09-17 | Arbitron Inc. | Media exposure linking utilizing bluetooth signal characteristics |
US8892572B2 (en) * | 2011-12-30 | 2014-11-18 | Cellco Partnership | Video search system and method of use |
US10078690B2 (en) * | 2011-12-31 | 2018-09-18 | Thomson Licensing Dtv | Method and device for presenting content |
US20130178966A1 (en) * | 2012-01-09 | 2013-07-11 | Function(x), Inc. | Method and System for Identifying a Media Program From an Audio Signal Associated With the Media Program |
US9210467B2 (en) | 2012-02-07 | 2015-12-08 | Turner Broadcasting System, Inc. | Method and system for a universal remote control |
US9384734B1 (en) * | 2012-02-24 | 2016-07-05 | Google Inc. | Real-time audio recognition using multiple recognizers |
US9519909B2 (en) | 2012-03-01 | 2016-12-13 | The Nielsen Company (Us), Llc | Methods and apparatus to identify users of handheld computing devices |
US9684715B1 (en) * | 2012-03-08 | 2017-06-20 | Google Inc. | Audio identification using ordinal transformation |
US9292894B2 (en) | 2012-03-14 | 2016-03-22 | Digimarc Corporation | Content recognition and synchronization using local caching |
US8965766B1 (en) * | 2012-03-15 | 2015-02-24 | Google Inc. | Systems and methods for identifying music in a noisy environment |
US8768003B2 (en) | 2012-03-26 | 2014-07-01 | The Nielsen Company (Us), Llc | Media monitoring using multiple types of signatures |
US8681950B2 (en) | 2012-03-28 | 2014-03-25 | Interactive Intelligence, Inc. | System and method for fingerprinting datasets |
US9202472B1 (en) * | 2012-03-29 | 2015-12-01 | Google Inc. | Magnitude ratio descriptors for pitch-resistant audio matching |
CN102663090B (zh) | 2012-04-10 | 2013-11-06 | 华为技术有限公司 | 元数据查询方法和装置 |
US8473975B1 (en) | 2012-04-16 | 2013-06-25 | The Nielsen Company (Us), Llc | Methods and apparatus to detect user attentiveness to handheld computing devices |
US9052986B1 (en) * | 2012-04-18 | 2015-06-09 | Google Inc. | Pitch shift resistant audio matching |
US8953811B1 (en) * | 2012-04-18 | 2015-02-10 | Google Inc. | Full digest of an audio file for identifying duplicates |
WO2014020449A2 (en) * | 2012-05-10 | 2014-02-06 | Magiktunes Limited | Identifying audio stream content |
US9418669B2 (en) * | 2012-05-13 | 2016-08-16 | Harry E. Emerson, III | Discovery of music artist and title for syndicated content played by radio stations |
US8886635B2 (en) | 2012-05-23 | 2014-11-11 | Enswers Co., Ltd. | Apparatus and method for recognizing content using audio signal |
KR101315970B1 (ko) * | 2012-05-23 | 2013-10-08 | (주)엔써즈 | 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 |
US9235867B2 (en) * | 2012-06-04 | 2016-01-12 | Microsoft Technology Licensing, Llc | Concurrent media delivery |
US9118951B2 (en) | 2012-06-26 | 2015-08-25 | Arris Technology, Inc. | Time-synchronizing a parallel feed of secondary content with primary media content |
US9213703B1 (en) * | 2012-06-26 | 2015-12-15 | Google Inc. | Pitch shift and time stretch resistant audio matching |
US9628829B2 (en) | 2012-06-26 | 2017-04-18 | Google Technology Holdings LLC | Identifying media on a mobile device |
KR102040199B1 (ko) | 2012-07-11 | 2019-11-05 | 한국전자통신연구원 | 오디오 품질 측정 장치 및 그 방법 |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US20140041054A1 (en) * | 2012-08-01 | 2014-02-06 | Microsoft Corporation | Attestation of possession of media content items using fingerprints |
US9282366B2 (en) | 2012-08-13 | 2016-03-08 | The Nielsen Company (Us), Llc | Methods and apparatus to communicate audience measurement information |
CN103593356A (zh) * | 2012-08-16 | 2014-02-19 | 丁瑞彭 | 基于多媒体信息指纹技术的信息搜索方法、系统和应用 |
GB201214842D0 (en) * | 2012-08-21 | 2012-10-03 | Omnifone Ltd | Content tracker |
US20140074466A1 (en) | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
US9081778B2 (en) | 2012-09-25 | 2015-07-14 | Audible Magic Corporation | Using digital fingerprints to associate data with a work |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US9549253B2 (en) | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
US9554203B1 (en) * | 2012-09-26 | 2017-01-24 | Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source characterization apparatuses, methods and systems |
JP2014067292A (ja) * | 2012-09-26 | 2014-04-17 | Toshiba Corp | 情報処理装置及び情報処理方法 |
US20160210957A1 (en) | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
US9460204B2 (en) * | 2012-10-19 | 2016-10-04 | Sony Corporation | Apparatus and method for scene change detection-based trigger for audio fingerprinting analysis |
US9992729B2 (en) | 2012-10-22 | 2018-06-05 | The Nielsen Company (Us), Llc | Systems and methods for wirelessly modifying detection characteristics of portable devices |
US9064318B2 (en) | 2012-10-25 | 2015-06-23 | Adobe Systems Incorporated | Image matting and alpha value techniques |
US8735708B1 (en) | 2012-10-28 | 2014-05-27 | Google Inc. | System and method for synchronizing tag history |
US9355649B2 (en) * | 2012-11-13 | 2016-05-31 | Adobe Systems Incorporated | Sound alignment using timing information |
US10638221B2 (en) | 2012-11-13 | 2020-04-28 | Adobe Inc. | Time interval sound alignment |
EP2731030A1 (en) * | 2012-11-13 | 2014-05-14 | Samsung Electronics Co., Ltd | Music information searching method and apparatus thereof |
US9201580B2 (en) | 2012-11-13 | 2015-12-01 | Adobe Systems Incorporated | Sound alignment user interface |
US9027048B2 (en) * | 2012-11-14 | 2015-05-05 | Bank Of America Corporation | Automatic deal or promotion offering based on audio cues |
US9076205B2 (en) | 2012-11-19 | 2015-07-07 | Adobe Systems Incorporated | Edge direction and curve based image de-blurring |
US10249321B2 (en) | 2012-11-20 | 2019-04-02 | Adobe Inc. | Sound rate modification |
US10366419B2 (en) | 2012-11-27 | 2019-07-30 | Roland Storti | Enhanced digital media platform with user control of application data thereon |
US10339936B2 (en) | 2012-11-27 | 2019-07-02 | Roland Storti | Method, device and system of encoding a digital interactive response action in an analog broadcasting message |
US9106953B2 (en) | 2012-11-28 | 2015-08-11 | The Nielsen Company (Us), Llc | Media monitoring based on predictive signature caching |
US9451304B2 (en) | 2012-11-29 | 2016-09-20 | Adobe Systems Incorporated | Sound feature priority alignment |
US10455219B2 (en) | 2012-11-30 | 2019-10-22 | Adobe Inc. | Stereo correspondence and depth sensors |
CA2875354C (en) | 2012-11-30 | 2018-04-10 | The Nielsen Company (Us), Llc | Multiple meter detection and processing using motion data |
US9135710B2 (en) | 2012-11-30 | 2015-09-15 | Adobe Systems Incorporated | Depth map stereo correspondence techniques |
US9241259B2 (en) | 2012-11-30 | 2016-01-19 | Websense, Inc. | Method and apparatus for managing the transfer of sensitive information to mobile devices |
US9912713B1 (en) | 2012-12-17 | 2018-03-06 | MiMedia LLC | Systems and methods for providing dynamically updated image sets for applications |
US10249052B2 (en) | 2012-12-19 | 2019-04-02 | Adobe Systems Incorporated | Stereo correspondence model fitting |
US9208547B2 (en) | 2012-12-19 | 2015-12-08 | Adobe Systems Incorporated | Stereo correspondence smoothness tool |
US9214026B2 (en) | 2012-12-20 | 2015-12-15 | Adobe Systems Incorporated | Belief propagation and affinity measures |
US9159327B1 (en) * | 2012-12-20 | 2015-10-13 | Google Inc. | System and method for adding pitch shift resistance to an audio fingerprint |
US9183849B2 (en) | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
US9195649B2 (en) | 2012-12-21 | 2015-11-24 | The Nielsen Company (Us), Llc | Audio processing techniques for semantic audio recognition and report generation |
US9158760B2 (en) | 2012-12-21 | 2015-10-13 | The Nielsen Company (Us), Llc | Audio decoding with supplemental semantic audio recognition and report generation |
US9154841B2 (en) | 2012-12-28 | 2015-10-06 | Turner Broadcasting System, Inc. | Method and system for detecting and resolving conflicts in an automatic content recognition based system |
US9529907B2 (en) * | 2012-12-31 | 2016-12-27 | Google Inc. | Hold back and real time ranking of results in a streaming matching system |
US9706252B2 (en) | 2013-02-04 | 2017-07-11 | Universal Electronics Inc. | System and method for user monitoring and intent determination |
CN103970793B (zh) | 2013-02-04 | 2020-03-03 | 腾讯科技(深圳)有限公司 | 信息查询方法、客户端及服务器 |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
US9099080B2 (en) | 2013-02-06 | 2015-08-04 | Muzak Llc | System for targeting location-based communications |
US9313544B2 (en) | 2013-02-14 | 2016-04-12 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
US9008490B1 (en) | 2013-02-25 | 2015-04-14 | Google Inc. | Melody recognition systems |
US9223297B2 (en) | 2013-02-28 | 2015-12-29 | The Nielsen Company (Us), Llc | Systems and methods for identifying a user of an electronic device |
US9344759B2 (en) | 2013-03-05 | 2016-05-17 | Google Inc. | Associating audio tracks of an album with video content |
US9275625B2 (en) * | 2013-03-06 | 2016-03-01 | Qualcomm Incorporated | Content based noise suppression |
US9307337B2 (en) | 2013-03-11 | 2016-04-05 | Arris Enterprises, Inc. | Systems and methods for interactive broadcast content |
US9301070B2 (en) | 2013-03-11 | 2016-03-29 | Arris Enterprises, Inc. | Signature matching of corrupted audio signal |
US9451048B2 (en) | 2013-03-12 | 2016-09-20 | Shazam Investments Ltd. | Methods and systems for identifying information of a broadcast station and information of broadcasted content |
US9298758B1 (en) | 2013-03-13 | 2016-03-29 | MiMedia, Inc. | Systems and methods providing media-to-media connection |
US9465521B1 (en) | 2013-03-13 | 2016-10-11 | MiMedia, Inc. | Event based media interface |
US9384273B1 (en) * | 2013-03-14 | 2016-07-05 | Google Inc. | Compressed patch features for audio fingerprinting |
US9153239B1 (en) * | 2013-03-14 | 2015-10-06 | Google Inc. | Differentiating between near identical versions of a song |
BR112015023369B1 (pt) * | 2013-03-15 | 2022-04-05 | Inscape Data, Inc | Sistema e método implementado por computador |
US9773058B2 (en) | 2013-03-15 | 2017-09-26 | Shazam Investments Ltd. | Methods and systems for arranging and searching a database of media content recordings |
US20140278845A1 (en) | 2013-03-15 | 2014-09-18 | Shazam Investments Limited | Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content |
US8990638B1 (en) | 2013-03-15 | 2015-03-24 | Digimarc Corporation | Self-stabilizing network nodes in mobile discovery system |
US9390170B2 (en) | 2013-03-15 | 2016-07-12 | Shazam Investments Ltd. | Methods and systems for arranging and searching a database of media content recordings |
US10257301B1 (en) | 2013-03-15 | 2019-04-09 | MiMedia, Inc. | Systems and methods providing a drive interface for content delivery |
US9183232B1 (en) | 2013-03-15 | 2015-11-10 | MiMedia, Inc. | Systems and methods for organizing content using content organization rules and robust content information |
US9223458B1 (en) | 2013-03-21 | 2015-12-29 | Amazon Technologies, Inc. | Techniques for transitioning between playback of media files |
WO2014169238A1 (en) | 2013-04-11 | 2014-10-16 | Digimarc Corporation | Methods for object recognition and related arrangements |
US9183499B1 (en) | 2013-04-19 | 2015-11-10 | Google Inc. | Evaluating quality based on neighbor features |
US9305038B2 (en) * | 2013-04-19 | 2016-04-05 | International Business Machines Corporation | Indexing of significant media granulars |
CN104125509B (zh) * | 2013-04-28 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 节目识别方法、装置及服务器 |
US9123330B1 (en) * | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
US10157618B2 (en) | 2013-05-02 | 2018-12-18 | Xappmedia, Inc. | Device, system, method, and computer-readable medium for providing interactive advertising |
US9460201B2 (en) | 2013-05-06 | 2016-10-04 | Iheartmedia Management Services, Inc. | Unordered matching of audio fingerprints |
US20140336797A1 (en) * | 2013-05-12 | 2014-11-13 | Harry E. Emerson, III | Audio content monitoring and identification of broadcast radio stations |
US20140336799A1 (en) * | 2013-05-13 | 2014-11-13 | Harry E. Emerson, III | Discovery of music artist and title via companionship between a cellular phone and a broadcast radio receiver |
JP2016526826A (ja) | 2013-06-20 | 2016-09-05 | トムソン ライセンシングThomson Licensing | コンテンツの分散型再生の同期化を支援するシステム及び方法 |
US20150312369A1 (en) * | 2013-06-26 | 2015-10-29 | Intel Corporation | Checkpoints for media buffering |
US20150039321A1 (en) | 2013-07-31 | 2015-02-05 | Arbitron Inc. | Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device |
US9711152B2 (en) | 2013-07-31 | 2017-07-18 | The Nielsen Company (Us), Llc | Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio |
US9542488B2 (en) | 2013-08-02 | 2017-01-10 | Google Inc. | Associating audio tracks with video content |
US9373320B1 (en) * | 2013-08-21 | 2016-06-21 | Google Inc. | Systems and methods facilitating selective removal of content from a mixed audio recording |
CN103440330A (zh) * | 2013-09-03 | 2013-12-11 | 网易(杭州)网络有限公司 | 一种音乐节目信息获取方法和设备 |
US9275427B1 (en) * | 2013-09-05 | 2016-03-01 | Google Inc. | Multi-channel audio video fingerprinting |
US10014006B1 (en) | 2013-09-10 | 2018-07-03 | Ampersand, Inc. | Method of determining whether a phone call is answered by a human or by an automated device |
US9053711B1 (en) | 2013-09-10 | 2015-06-09 | Ampersand, Inc. | Method of matching a digitized stream of audio signals to a known audio recording |
CN103442083A (zh) * | 2013-09-10 | 2013-12-11 | 百度在线网络技术(北京)有限公司 | 音频文件传输关联内容的方法、系统、客户端和服务器 |
TW201513095A (zh) * | 2013-09-23 | 2015-04-01 | Hon Hai Prec Ind Co Ltd | 語音處理系統、裝置及方法 |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US9275136B1 (en) | 2013-12-03 | 2016-03-01 | Google Inc. | Method for siren detection based on audio samples |
US9354778B2 (en) | 2013-12-06 | 2016-05-31 | Digimarc Corporation | Smartphone-based methods and systems |
US9286902B2 (en) * | 2013-12-16 | 2016-03-15 | Gracenote, Inc. | Audio fingerprinting |
US9466310B2 (en) | 2013-12-20 | 2016-10-11 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Compensating for identifiable background content in a speech recognition device |
US9955192B2 (en) | 2013-12-23 | 2018-04-24 | Inscape Data, Inc. | Monitoring individual viewing of television events using tracking pixels and cookies |
US9426525B2 (en) | 2013-12-31 | 2016-08-23 | The Nielsen Company (Us), Llc. | Methods and apparatus to count people in an audience |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
US9311639B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods, apparatus and arrangements for device to device communication |
WO2015124211A1 (en) | 2014-02-24 | 2015-08-27 | Widex A/S | Hearing aid with assisted noise suppression |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
CN103853836B (zh) * | 2014-03-14 | 2017-01-25 | 广州酷狗计算机科技有限公司 | 一种基于音乐指纹特征的音乐检索方法及系统 |
US10430985B2 (en) | 2014-03-14 | 2019-10-01 | Magic Leap, Inc. | Augmented reality systems and methods utilizing reflections |
US9438940B2 (en) | 2014-04-07 | 2016-09-06 | The Nielsen Company (Us), Llc | Methods and apparatus to identify media using hash keys |
CN104978968A (zh) * | 2014-04-11 | 2015-10-14 | 鸿富锦精密工业(深圳)有限公司 | 水印加载装置及水印加载的方法 |
US20150302458A1 (en) * | 2014-04-16 | 2015-10-22 | Ebay Inc. | Identifying advertisements based on audio data and performing associated tasks |
US9699499B2 (en) | 2014-04-30 | 2017-07-04 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9590755B2 (en) | 2014-05-16 | 2017-03-07 | Alphonso Inc. | Efficient apparatus and method for audio signature generation using audio threshold |
CN104023247B (zh) | 2014-05-29 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 获取、推送信息的方法和装置以及信息交互系统 |
US9905233B1 (en) | 2014-08-07 | 2018-02-27 | Digimarc Corporation | Methods and apparatus for facilitating ambient content recognition using digital watermarks, and related arrangements |
WO2016024172A1 (en) | 2014-08-14 | 2016-02-18 | Yandex Europe Ag | Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine |
US9881083B2 (en) | 2014-08-14 | 2018-01-30 | Yandex Europe Ag | Method of and a system for indexing audio tracks using chromaprints |
US10748539B2 (en) | 2014-09-10 | 2020-08-18 | Crestron Electronics, Inc. | Acoustic sensory network |
US10204622B2 (en) | 2015-09-10 | 2019-02-12 | Crestron Electronics, Inc. | Acoustic sensory network |
CN104361889B (zh) * | 2014-10-28 | 2018-03-16 | 北京音之邦文化科技有限公司 | 一种对音频文件进行处理的方法及装置 |
US20160132600A1 (en) * | 2014-11-07 | 2016-05-12 | Shazam Investments Limited | Methods and Systems for Performing Content Recognition for a Surge of Incoming Recognition Queries |
EP3023884A1 (en) * | 2014-11-21 | 2016-05-25 | Thomson Licensing | Method and apparatus for generating fingerprint of an audio signal |
US9837101B2 (en) * | 2014-11-25 | 2017-12-05 | Facebook, Inc. | Indexing based on time-variant transforms of an audio signal's spectrogram |
WO2016085414A1 (en) * | 2014-11-27 | 2016-06-02 | JOHN SMITH s.r.o. | Method to lower decline in watching channels during commercial breaks and a connection |
US9363562B1 (en) | 2014-12-01 | 2016-06-07 | Stingray Digital Group Inc. | Method and system for authorizing a user device |
AU2015355209B2 (en) * | 2014-12-01 | 2019-08-29 | Inscape Data, Inc. | System and method for continuous media segment identification |
WO2016086905A1 (es) * | 2014-12-05 | 2016-06-09 | Monitoreo Tecnológico, S.A | Método de medición de audiencias |
US10860645B2 (en) | 2014-12-31 | 2020-12-08 | Pcms Holdings, Inc. | Systems and methods for creation of a listening log and music library |
US10333696B2 (en) | 2015-01-12 | 2019-06-25 | X-Prime, Inc. | Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency |
CN108337925B (zh) | 2015-01-30 | 2024-02-27 | 构造数据有限责任公司 | 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法 |
US10929464B1 (en) * | 2015-02-04 | 2021-02-23 | Google Inc. | Employing entropy information to facilitate determining similarity between content items |
US10360583B2 (en) | 2015-02-05 | 2019-07-23 | Direct Path, Llc | System and method for direct response advertising |
US10269392B2 (en) | 2015-02-11 | 2019-04-23 | Immersion Corporation | Automated haptic effect accompaniment |
US10142471B2 (en) * | 2015-03-02 | 2018-11-27 | Genesys Telecommunications Laboratories, Inc. | System and method for call progress detection |
US9955274B2 (en) | 2015-04-08 | 2018-04-24 | The Boeing Company | Vibration monitoring systems |
CA2982797C (en) | 2015-04-17 | 2023-03-14 | Inscape Data, Inc. | Systems and methods for reducing data density in large datasets |
EP3255633B1 (en) | 2015-04-27 | 2019-06-19 | Samsung Electronics Co., Ltd. | Audio content recognition method and device |
CN106294331B (zh) | 2015-05-11 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 音频信息检索方法及装置 |
GB201508963D0 (en) | 2015-05-26 | 2015-07-01 | Geo Track Identifier Gmbh | Audio identification method |
US9762965B2 (en) | 2015-05-29 | 2017-09-12 | The Nielsen Company (Us), Llc | Methods and apparatus to measure exposure to streaming media |
US10323612B2 (en) | 2015-06-12 | 2019-06-18 | Ford Global Technologies, Llc | Methods and systems for dual fuel injection |
US10094320B2 (en) | 2015-06-23 | 2018-10-09 | Ford Global Technologies, Llc | Methods and systems for dual fuel injection |
CA2990888A1 (en) | 2015-06-30 | 2017-01-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and device for generating a database |
KR20180030885A (ko) * | 2015-07-16 | 2018-03-26 | 인스케이프 데이터, 인코포레이티드 | 미디어 세그먼트를 식별함에 있어 향상된 효율성을 위해 검색 인덱스를 나누는 시스템 및 방법 |
WO2017011792A1 (en) | 2015-07-16 | 2017-01-19 | Vizio Inscape Technologies, Llc | Prediction of future views of video segments to optimize system resource utilization |
CN108293140B (zh) | 2015-07-16 | 2020-10-02 | 构造数据有限责任公司 | 公共媒体段的检测 |
WO2017011770A1 (en) * | 2015-07-16 | 2017-01-19 | Vizio Inscape Technologies, Llc | System and method for improving work load management in acr television monitoring system |
US10080062B2 (en) | 2015-07-16 | 2018-09-18 | Inscape Data, Inc. | Optimizing media fingerprint retention to improve system resource utilization |
US9900636B2 (en) | 2015-08-14 | 2018-02-20 | The Nielsen Company (Us), Llc | Reducing signature matching uncertainty in media monitoring systems |
US9654891B2 (en) | 2015-09-15 | 2017-05-16 | D&M Holdings, Inc. | System and method for determining proximity of a controller to a media rendering device |
CN106558318B (zh) * | 2015-09-24 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 音频识别方法和系统 |
US9769607B2 (en) | 2015-09-24 | 2017-09-19 | Cisco Technology, Inc. | Determining proximity of computing devices using ultrasonic audio signatures |
US9978366B2 (en) * | 2015-10-09 | 2018-05-22 | Xappmedia, Inc. | Event-based speech interactive media player |
TWI579716B (zh) * | 2015-12-01 | 2017-04-21 | Chunghwa Telecom Co Ltd | Two - level phrase search system and method |
US10594689B1 (en) | 2015-12-04 | 2020-03-17 | Digimarc Corporation | Robust encoding of machine readable information in host objects and biometrics, and associated decoding and authentication |
US9516373B1 (en) | 2015-12-21 | 2016-12-06 | Max Abecassis | Presets of synchronized second screen functions |
US10089987B2 (en) * | 2015-12-21 | 2018-10-02 | Invensense, Inc. | Music detection and identification |
US9596502B1 (en) | 2015-12-21 | 2017-03-14 | Max Abecassis | Integration of multiple synchronization methodologies |
CN105589970A (zh) * | 2015-12-25 | 2016-05-18 | 小米科技有限责任公司 | 音乐搜索方法和装置 |
CN113156650A (zh) | 2016-01-19 | 2021-07-23 | 奇跃公司 | 利用映像的增强现实系统和方法 |
US9848235B1 (en) | 2016-02-22 | 2017-12-19 | Sorenson Media, Inc | Video fingerprinting based on fourier transform of histogram |
KR20170101500A (ko) * | 2016-02-29 | 2017-09-06 | 한국전자통신연구원 | 노이즈 제거를 통한 오디오 신호 식별 방법 및 장치 |
WO2017151443A1 (en) * | 2016-02-29 | 2017-09-08 | Myteamcalls Llc | Systems and methods for customized live-streaming commentary |
US9924222B2 (en) * | 2016-02-29 | 2018-03-20 | Gracenote, Inc. | Media channel identification with multi-match detection and disambiguation based on location |
US9930406B2 (en) | 2016-02-29 | 2018-03-27 | Gracenote, Inc. | Media channel identification with video multi-match detection and disambiguation based on audio fingerprint |
US10063918B2 (en) | 2016-02-29 | 2018-08-28 | Gracenote, Inc. | Media channel identification with multi-match detection and disambiguation based on single-match |
US9959885B2 (en) | 2016-03-08 | 2018-05-01 | Samsung Eletrônica Da Amazônia Ltda | Method for user context recognition using sound signatures |
US9786298B1 (en) | 2016-04-08 | 2017-10-10 | Source Digital, Inc. | Audio fingerprinting based on audio energy characteristics |
AU2017257549B2 (en) | 2016-04-26 | 2021-09-09 | Magic Leap, Inc. | Electromagnetic tracking with augmented reality systems |
NL2016742B1 (en) | 2016-05-09 | 2017-11-16 | Audiocoup B V | System for determining user exposure to audio fragments. |
US10015612B2 (en) * | 2016-05-25 | 2018-07-03 | Dolby Laboratories Licensing Corporation | Measurement, verification and correction of time alignment of multiple audio channels and associated metadata |
US10936651B2 (en) * | 2016-06-22 | 2021-03-02 | Gracenote, Inc. | Matching audio fingerprints |
US9959448B2 (en) * | 2016-08-19 | 2018-05-01 | Google Llc | Multi-step sequence alignment |
GB201617408D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
GB201617409D0 (en) | 2016-10-13 | 2016-11-30 | Asio Ltd | A method and system for acoustic communication of data |
EP3312722A1 (en) | 2016-10-21 | 2018-04-25 | Fujitsu Limited | Data processing apparatus, method, and program |
US10776170B2 (en) | 2016-10-21 | 2020-09-15 | Fujitsu Limited | Software service execution apparatus, system, and method |
JP6805765B2 (ja) | 2016-10-21 | 2020-12-23 | 富士通株式会社 | ソフトウェアサービスの実行のためのシステム、方法、及びプログラム |
ES2765415T3 (es) | 2016-10-21 | 2020-06-09 | Fujitsu Ltd | Aparato, método y programa de procesamiento de datos basado en microservicios |
JP7100422B2 (ja) | 2016-10-21 | 2022-07-13 | 富士通株式会社 | データプロパティ認識のための装置、プログラム、及び方法 |
US10701438B2 (en) | 2016-12-31 | 2020-06-30 | Turner Broadcasting System, Inc. | Automatic content recognition and verification in a broadcast chain |
US10785329B2 (en) * | 2017-01-05 | 2020-09-22 | The Nielsen Company (Us), Llc | Methods and apparatus to facilitate meter to meter matching for media identification |
US10922720B2 (en) | 2017-01-11 | 2021-02-16 | Adobe Inc. | Managing content delivery via audio cues |
GB201704636D0 (en) | 2017-03-23 | 2017-05-10 | Asio Ltd | A method and system for authenticating a device |
EP3379814A1 (en) * | 2017-03-23 | 2018-09-26 | Christian Rymarenko | Converting media using mobile devices |
BR112019019430A2 (pt) | 2017-04-06 | 2020-04-14 | Inscape Data Inc | sistema, método e produto de programa de computador |
RU172737U1 (ru) * | 2017-04-18 | 2017-07-21 | Общество с ограниченной ответственностью "ДЖЕНТ КЛАБ" | Устройство для идентификации музыкальных произведений |
US10166472B2 (en) | 2017-05-04 | 2019-01-01 | Shazam Investments Ltd. | Methods and systems for determining a reaction time for a response and synchronizing user interface(s) with content being rendered |
RU2662939C1 (ru) * | 2017-05-12 | 2018-07-31 | Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" | Способ идентификации музыкальных произведений |
GB2565751B (en) * | 2017-06-15 | 2022-05-04 | Sonos Experience Ltd | A method and system for triggering events |
US10271095B1 (en) | 2017-12-21 | 2019-04-23 | Samuel Chenillo | System and method for media segment indentification |
US10867185B2 (en) | 2017-12-22 | 2020-12-15 | Samuel Chenillo | System and method for media segment identification |
GB2562515A (en) * | 2017-05-17 | 2018-11-21 | Snell Advanced Media Ltd | Generation of audio or video hash |
US11157553B2 (en) | 2017-05-25 | 2021-10-26 | J.W. Pepper & Son, Inc. | Sheet music search and discovery system |
EP3425522A1 (en) * | 2017-07-06 | 2019-01-09 | Bmat Licensing, S.L.U. | Identifying background audio in broadcast signals using multiple sources |
US20190028766A1 (en) * | 2017-07-18 | 2019-01-24 | Audible Magic Corporation | Media classification for media identification and licensing |
CN107367676A (zh) * | 2017-09-04 | 2017-11-21 | 厦门斯玛特思智能电气股份有限公司 | 基于音频智能识别的局放指示器 |
US10264297B1 (en) | 2017-09-13 | 2019-04-16 | Perfect Sense, Inc. | Time-based content synchronization |
US20190104335A1 (en) * | 2017-09-29 | 2019-04-04 | Theater Ears, LLC | Theater ears audio recognition & synchronization algorithm |
US10599702B2 (en) * | 2017-10-05 | 2020-03-24 | Audible Magic Corporation | Temporal fraction with use of content identification |
US10158907B1 (en) | 2017-10-10 | 2018-12-18 | Shazam Investments Ltd. | Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings |
US10129575B1 (en) | 2017-10-25 | 2018-11-13 | Shazam Entertainment Limited | Methods and systems for determining a latency between a source and an alternative feed of the source |
US10249319B1 (en) | 2017-10-26 | 2019-04-02 | The Nielsen Company (Us), Llc | Methods and apparatus to reduce noise from harmonic noise sources |
EP3477505B1 (en) | 2017-10-31 | 2021-10-20 | Spotify AB | Fingerprint clustering for content-based audio recogntion |
EP3477643B1 (en) * | 2017-10-31 | 2019-10-16 | Spotify AB | Audio fingerprint extraction and audio recognition using said fingerprints |
CN108012173B (zh) * | 2017-11-16 | 2021-01-22 | 百度在线网络技术(北京)有限公司 | 一种内容识别方法、装置、设备和计算机存储介质 |
US10276175B1 (en) | 2017-11-28 | 2019-04-30 | Google Llc | Key phrase detection with audio watermarking |
US10140966B1 (en) * | 2017-12-12 | 2018-11-27 | Ryan Laurence Edwards | Location-aware musical instrument |
CN107967922A (zh) * | 2017-12-19 | 2018-04-27 | 成都嗨翻屋文化传播有限公司 | 一种基于特征的音乐版权识别方法 |
GB2570634A (en) | 2017-12-20 | 2019-08-07 | Asio Ltd | A method and system for improved acoustic transmission of data |
US11048946B2 (en) | 2017-12-21 | 2021-06-29 | Samuel Chenillo | System and method for identifying cognate image sequences |
SE542269C2 (en) * | 2017-12-21 | 2020-03-31 | Telia Co Ab | Methods and apparatuses for determining meta data related to media content |
DE102017131266A1 (de) | 2017-12-22 | 2019-06-27 | Nativewaves Gmbh | Verfahren zum Einspielen von Zusatzinformationen zu einer Liveübertragung |
BR112020012544A2 (pt) | 2017-12-22 | 2020-11-24 | Nativewaves Gmbh | método para sincronizar um sinal adicional com um sinal primário |
US10089994B1 (en) | 2018-01-15 | 2018-10-02 | Alex Radzishevsky | Acoustic fingerprint extraction and matching |
ES2779985B2 (es) | 2019-02-20 | 2021-03-04 | Moehs Iberica Sl | Sal de dietilamina del ácido 3alfa-tetrahidropiraniloxi-6alfa-etil-7alfa-hidroxi-5ß-colánico |
CN110322897B (zh) * | 2018-03-29 | 2021-09-03 | 北京字节跳动网络技术有限公司 | 一种音频检索识别方法及装置 |
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
GB201810202D0 (en) * | 2018-06-21 | 2018-08-08 | Magus Communications Ltd | Answer machine detection method & apparatus |
US10715840B2 (en) * | 2018-07-19 | 2020-07-14 | Gracenote, Inc. | Establishment and use of time mapping based on interpolation using low-rate fingerprinting, to help facilitate frame-accurate content revision |
JP2021532700A (ja) | 2018-07-25 | 2021-11-25 | イーグル アコースティックス マニュファクチュアリング,エルエルシー | 音を生成し、並びにシンク及びソースの両方として同時に機能する、ように構成されたBluetoothスピーカ |
US11483785B2 (en) | 2018-07-25 | 2022-10-25 | Trulli Engineering, Llc | Bluetooth speaker configured to produce sound as well as simultaneously act as both sink and source |
US10860647B2 (en) | 2018-09-06 | 2020-12-08 | Gracenote, Inc. | Systems, methods, and apparatus to improve media identification |
US10771828B2 (en) * | 2018-09-18 | 2020-09-08 | Free Stream Media Corp. | Content consensus management |
US10868620B2 (en) * | 2018-12-26 | 2020-12-15 | The Nielsen Company (Us), Llc | Methods and apparatus for optimizing station reference fingerprint loading using reference watermarks |
TR201902782A2 (tr) * | 2019-02-25 | 2019-03-21 | Aksoy Ahmet | Kamusal alanlar için müzik analiz sistemi ve yöntemi. |
US11683236B1 (en) | 2019-03-30 | 2023-06-20 | Snap Inc. | Benchmarking to infer configuration of similar devices |
US11853192B1 (en) | 2019-04-16 | 2023-12-26 | Snap Inc. | Network device performance metrics determination |
US11240104B1 (en) * | 2019-05-21 | 2022-02-01 | Snap Inc. | Device configuration parameter determination |
US11234049B2 (en) * | 2019-06-24 | 2022-01-25 | The Nielsen Company (Us), Llc | Use of steganographically-encoded time information as basis to control implementation of dynamic content modification |
US11212560B2 (en) * | 2019-06-24 | 2021-12-28 | The Nielsen Company (Us), Llc | Use of steganographically-encoded time information as basis to establish a time offset, to facilitate taking content-related action |
CN110635824B (zh) * | 2019-10-19 | 2021-07-09 | 广东石油化工学院 | 一种利用分类回归树的plc信道脉冲噪声检测方法和系统 |
US20220414808A1 (en) * | 2019-11-19 | 2022-12-29 | Google Llc | Methods, systems, and media for rights management of embedded sound recordings using composition clustering |
CN110910899B (zh) * | 2019-11-27 | 2022-04-08 | 杭州联汇科技股份有限公司 | 一种实时音频信号一致性对比检测方法 |
CN112995759A (zh) * | 2019-12-13 | 2021-06-18 | 腾讯科技(北京)有限公司 | 互动业务处理方法、系统、装置、设备及存储介质 |
CN111008301B (zh) * | 2019-12-19 | 2023-08-15 | 新华智云科技有限公司 | 一种以图搜视频的方法 |
US11922532B2 (en) | 2020-01-15 | 2024-03-05 | Digimarc Corporation | System for mitigating the problem of deepfake media content using watermarking |
WO2021155249A1 (en) | 2020-01-30 | 2021-08-05 | Snap Inc. | System for generating media content items on demand |
US11356720B2 (en) | 2020-01-30 | 2022-06-07 | Snap Inc. | Video generation system to render frames on demand |
US11284144B2 (en) * | 2020-01-30 | 2022-03-22 | Snap Inc. | Video generation system to render frames on demand using a fleet of GPUs |
US11036781B1 (en) | 2020-01-30 | 2021-06-15 | Snap Inc. | Video generation system to render frames on demand using a fleet of servers |
US11616797B2 (en) | 2020-04-30 | 2023-03-28 | Mcafee, Llc | Large scale malware sample identification |
GB2597334A (en) * | 2020-07-17 | 2022-01-26 | Playrcart Ltd | A media player |
US11670322B2 (en) | 2020-07-29 | 2023-06-06 | Distributed Creation Inc. | Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval |
US11283586B1 (en) | 2020-09-05 | 2022-03-22 | Francis Tiong | Method to estimate and compensate for clock rate difference in acoustic sensors |
US11284139B1 (en) * | 2020-09-10 | 2022-03-22 | Hulu, LLC | Stateless re-discovery of identity using watermarking of a video stream |
KR102447554B1 (ko) * | 2020-11-18 | 2022-09-27 | 주식회사 샵캐스트 | 오디오 핑거프린트 매칭을 기반으로하는 음원 인식 방법 및 장치 |
US11405684B1 (en) * | 2021-01-08 | 2022-08-02 | Christie Digital Systems Usa, Inc. | Distributed media player for digital cinema |
US20220222294A1 (en) * | 2021-01-14 | 2022-07-14 | Smule, Inc. | Densification in Music Search and Recommendation |
WO2022198065A1 (en) | 2021-03-19 | 2022-09-22 | Evalve, Inc. | Systems for tissue grasping and assessment |
US11589100B1 (en) * | 2021-03-31 | 2023-02-21 | Amazon Technologies, Inc. | On-demand issuance private keys for encrypted video transmission |
US11665377B2 (en) * | 2021-04-23 | 2023-05-30 | At&T Intellectual Property I, L.P. | System and method for identifying encrypted, pre-recorded media content in packet data networks |
CN117280340A (zh) * | 2021-04-30 | 2023-12-22 | 华为技术有限公司 | 一种用于在数据存储系统中索引数据项的系统和方法 |
US20220392435A1 (en) * | 2021-06-08 | 2022-12-08 | Comcast Cable Communications, Llc | Processing Voice Commands |
US11496776B1 (en) * | 2021-07-19 | 2022-11-08 | Intrado Corporation | Database layer caching for video communications |
TWI806210B (zh) * | 2021-10-29 | 2023-06-21 | 宏碁股份有限公司 | 聲音浮水印的處理方法及聲音浮水印處理裝置 |
EP4336381A1 (en) | 2022-09-09 | 2024-03-13 | Sparwk AS | System and method for music entity matching |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
US4450531A (en) * | 1982-09-10 | 1984-05-22 | Ensco, Inc. | Broadcast signal recognition system and method |
US4582181A (en) * | 1983-08-12 | 1986-04-15 | Advanced Cardiovascular Systems, Inc. | Steerable dilatation catheter |
JPS6273298A (ja) * | 1985-09-26 | 1987-04-03 | 沖電気工業株式会社 | 音声認識方式 |
US4852181A (en) * | 1985-09-26 | 1989-07-25 | Oki Electric Industry Co., Ltd. | Speech recognition for recognizing the catagory of an input speech pattern |
JPS62159195A (ja) * | 1986-01-06 | 1987-07-15 | 沖電気工業株式会社 | 音声パタン作成方法 |
US4843562A (en) * | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
JPH03291752A (ja) * | 1990-04-10 | 1991-12-20 | Matsushita Electric Ind Co Ltd | データ検索装置 |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
JPH05509409A (ja) * | 1990-06-21 | 1993-12-22 | レイノルズ ソフトウエア,インコーポレイティド | 波動分析・事象認識方法およびその装置 |
US5627915A (en) * | 1995-01-31 | 1997-05-06 | Princeton Video Image, Inc. | Pattern recognition system employing unlike templates to detect objects having distinctive features in a video field |
JPH09138691A (ja) * | 1995-11-15 | 1997-05-27 | Brother Ind Ltd | 楽曲検索装置 |
US7346472B1 (en) | 2000-09-07 | 2008-03-18 | Blue Spike, Inc. | Method and device for monitoring and analyzing signals |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
JP2001042866A (ja) * | 1999-05-21 | 2001-02-16 | Yamaha Corp | ネットワークを介したコンテンツ提供方法及びシステム |
GR1003625B (el) | 1999-07-08 | 2001-08-31 | Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου | |
JP2001075992A (ja) * | 1999-09-07 | 2001-03-23 | Hitachi Ltd | 音響検索方法及び装置、並びに、コンピュータ読みとり可能な記録媒体 |
JP3969908B2 (ja) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
US7194752B1 (en) * | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US7174293B2 (en) * | 1999-09-21 | 2007-02-06 | Iceberg Industries Llc | Audio identification system and method |
US6834308B1 (en) * | 2000-02-17 | 2004-12-21 | Audible Magic Corporation | Method and apparatus for identifying media content presented on a media playing device |
US6453252B1 (en) | 2000-05-15 | 2002-09-17 | Creative Technology Ltd. | Process for identifying audio content |
WO2002001123A1 (en) | 2000-06-23 | 2002-01-03 | Mmr Technologies, Inc. | Flexible counter-flow heat exchangers |
US6990453B2 (en) | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US6748360B2 (en) * | 2000-11-03 | 2004-06-08 | International Business Machines Corporation | System for selling a product utilizing audio content identification |
US7359889B2 (en) * | 2001-03-02 | 2008-04-15 | Landmark Digital Services Llc | Method and apparatus for automatically creating database for use in automated media recognition system |
US7117159B1 (en) * | 2001-09-26 | 2006-10-03 | Sprint Spectrum L.P. | Method and system for dynamic control over modes of operation of voice-processing in a voice command platform |
DE60323086D1 (de) * | 2002-04-25 | 2008-10-02 | Landmark Digital Services Llc | Robuster und invarianter audiomustervergleich |
CA2556552C (en) * | 2004-02-19 | 2015-02-17 | Landmark Digital Services Llc | Method and apparatus for identification of broadcast source |
EP2437255B1 (en) * | 2005-02-08 | 2016-02-03 | Shazam Investments Limited | Automatic identification of repeated material in audio signals |
US20100132122A1 (en) | 2008-12-02 | 2010-06-03 | Dan Hollingshead | Bed-Mounted Computer Terminal |
US8428955B2 (en) * | 2009-10-13 | 2013-04-23 | Rovi Technologies Corporation | Adjusting recorder timing |
US20130036455A1 (en) | 2010-01-25 | 2013-02-07 | Nokia Siemens Networks Oy | Method for controlling acess to resources |
US9390170B2 (en) * | 2013-03-15 | 2016-07-12 | Shazam Investments Ltd. | Methods and systems for arranging and searching a database of media content recordings |
-
2001
- 2001-04-20 US US09/839,476 patent/US6990453B2/en not_active Expired - Lifetime
- 2001-07-26 AT AT01969535T patent/ATE329319T1/de active
- 2001-07-26 AU AU2001289766A patent/AU2001289766A1/en not_active Abandoned
- 2001-07-26 DK DK01969535T patent/DK1307833T3/da active
- 2001-07-26 PT PT01969535T patent/PT1307833E/pt unknown
- 2001-07-26 DE DE60120417T patent/DE60120417T2/de not_active Expired - Lifetime
- 2001-07-26 JP JP2002516764A patent/JP4945877B2/ja not_active Expired - Lifetime
- 2001-07-26 CN CN01813565XA patent/CN1592906B/zh not_active Expired - Fee Related
- 2001-07-26 KR KR1020037001489A patent/KR100776495B1/ko active IP Right Grant
- 2001-07-26 BR BRPI0112901A patent/BRPI0112901B1/pt not_active IP Right Cessation
- 2001-07-26 ES ES01969535T patent/ES2266254T3/es not_active Expired - Lifetime
- 2001-07-26 WO PCT/EP2001/008709 patent/WO2002011123A2/en active IP Right Grant
- 2001-07-26 EP EP01969535A patent/EP1307833B1/en not_active Expired - Lifetime
-
2003
- 2003-05-15 HK HK03103440A patent/HK1051248A1/xx not_active IP Right Cessation
-
2006
- 2006-01-23 US US11/337,450 patent/US7346512B2/en not_active Expired - Lifetime
-
2008
- 2008-03-14 US US12/048,825 patent/US7865368B2/en not_active Expired - Fee Related
-
2010
- 2010-11-24 US US12/954,004 patent/US8190435B2/en not_active Expired - Lifetime
-
2012
- 2012-04-30 US US13/460,079 patent/US8386258B2/en not_active Expired - Lifetime
-
2013
- 2013-01-24 US US13/749,243 patent/US8700407B2/en not_active Expired - Fee Related
-
2014
- 2014-04-14 US US14/252,433 patent/US9401154B2/en not_active Expired - Lifetime
-
2016
- 2016-07-19 US US15/213,969 patent/US9899030B2/en not_active Expired - Fee Related
-
2018
- 2018-01-23 US US15/877,955 patent/US10497378B2/en not_active Expired - Fee Related
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2266254T3 (es) | Procedimiento de busqueda de una base de datos de audio. | |
US11366850B2 (en) | Audio matching based on harmonogram | |
ES2396932T3 (es) | Procedimiento y sistema de identificación de pistas de audio similares | |
Baluja et al. | Content fingerprinting using wavelets | |
CN100437572C (zh) | 音频指纹识别系统和方法 | |
US11461390B2 (en) | Automated cover song identification | |
US20070106405A1 (en) | Method and system to provide reference data for identification of digital content | |
US20200342024A1 (en) | Audio identification based on data structure | |
Gurjar et al. | Comparative Analysis of Music Similarity Measures in Music Information Retrieval Systems. | |
Ellis et al. | Accessing minimal-impact personal audio archives | |
KR101302568B1 (ko) | 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법 | |
CN117573918A (zh) | 用于识别音频片段的方法、装置及计算机可读介质 | |
Tsai | Audio Hashprints: Theory & Application | |
Ellis et al. | Automatically segmenting and clustering minimal-impact personal audio archives |